jangwook.net

Kim Jangwook

Personal technical notes on AI agents, automation, developer tools, and the process of building software.

Latest Notes

Recent writing by language

The root page stays intentionally small. Choose a language, then read the full archive and related posts there.

한국어

AI 에이전트, 자동화, 개발 도구, 소프트웨어 제작 과정을 한국어로 기록합니다.

Archive

English

Personal notes on AI agents, automation, developer tools, and building software.

Archive

日本語

AIエージェント、自動化、開発ツール、ソフトウェア開発の記録です。

Archive

ローカルエージェントがシステムプロンプトを忘れた理由 — Ollama num_ctxの無言truncationを測ってみた

ローカルエージェントが長い会話で急に指示を無視しはじめた。プロンプトの先頭に秘密コードを隠し、長さを伸ばしながらrecallを測った。 num_ctxを超えるとOllamaはエラーも出さずプロンプトの前方を切り落とす。そして「既定値は4096」という通説も私のMacでは外れていた。

ローカルLLMの最初の応答はなぜ時々10秒もかかるのか — コールドスタート(load_duration)を実測した

少し離れてからエージェントを呼び直すと、最初の応答だけやけに重い。Ollamaが応答ごとに返すload_durationをモデルサイズ別に 分解すると、2GBで1.5秒、9.6GBで最大9.7秒だった。しかも「コールド」には二種類あった。keep_alive一つでこの費用が どう分かれるかを実測してまとめた。

ローカルLLMはなぜ会話が長くなると遅くなるのか — prefillとgenerationを分解して測った

同じ9,700トークンのプロンプトが私のノートPCで最初のトークンまで55秒かかったのに、2回目の呼び出しは65ミリ秒だった。Ollamaのタイムスタンプを直接取り出してprefillとgenerationを分離測定し、prefixキャッシュがなぜ396倍速かったのか、エージェントのコンテキスト設計にどう活かすかをまとめた。

简体中文

记录 AI 代理、自动化、开发工具和软件构建过程。

Archive