jangwook.net

Kim Jangwook

Personal technical notes on AI agents, automation, developer tools, and the process of building software.

Latest Notes

Recent writing by language

The root page stays intentionally small. Choose a language, then read the full archive and related posts there.

한국어

AI 에이전트, 자동화, 개발 도구, 소프트웨어 제작 과정을 한국어로 기록합니다.

Archive

English

Personal notes on AI agents, automation, developer tools, and building software.

Archive

日本語

AIエージェント、自動化、開発ツール、ソフトウェア開発の記録です。

Archive

ローカルLLMの最初の応答はなぜ時々10秒もかかるのか — コールドスタート(load_duration)を実測した

少し離れてからエージェントを呼び直すと、最初の応答だけやけに重い。Ollamaが応答ごとに返すload_durationをモデルサイズ別に 分解すると、2GBで1.5秒、9.6GBで最大9.7秒だった。しかも「コールド」には二種類あった。keep_alive一つでこの費用が どう分かれるかを実測してまとめた。

ローカルLLMはなぜ会話が長くなると遅くなるのか — prefillとgenerationを分解して測った

同じ9,700トークンのプロンプトが私のノートPCで最初のトークンまで55秒かかったのに、2回目の呼び出しは65ミリ秒だった。Ollamaのタイムスタンプを直接取り出してprefillとgenerationを分離測定し、prefixキャッシュがなぜ396倍速かったのか、エージェントのコンテキスト設計にどう活かすかをまとめた。

同じ記事なのに韓国語はトークン1.4倍 — 自分のブログ285本で非英語トークン税を実測した

同じ記事をko/ja/en/zhの4言語で出している自分のブログ285本を、実トークナイザー3種でトークン化し非英語のトークン費用を測った。 韓国語は英語の1.38倍、日本語1.34倍、そしてトークナイザーの世代交代が実質的に非英語向けの割引だったことまでデータで確かめた。

简体中文

记录 AI 代理、自动化、开发工具和软件构建过程。

Archive