AI 크롤러를 robots.txt로 제대로 제어하기 — 학습은 막고 인용은 허용하는 2026 전략
GPTBot 한 줄 막고 "AI 차단 끝"이라 믿는 사이트가 많다. 학습·검색·사용자요청 크롤러를 분리 제어하는 robots.txt를 직접 만들고 표준 파서로 검증했다. Google-Extended가 AI Overviews를 못 막는 함정과 llms.txt의 정직한 현황까지.
jangwook.net
Personal technical notes on AI agents, automation, developer tools, and the process of building software.
Latest Notes
The root page stays intentionally small. Choose a language, then read the full archive and related posts there.
AI 에이전트, 자동화, 개발 도구, 소프트웨어 제작 과정을 한국어로 기록합니다.
GPTBot 한 줄 막고 "AI 차단 끝"이라 믿는 사이트가 많다. 학습·검색·사용자요청 크롤러를 분리 제어하는 robots.txt를 직접 만들고 표준 파서로 검증했다. Google-Extended가 AI Overviews를 못 막는 함정과 llms.txt의 정직한 현황까지.
가상의 베이커리 랜딩 페이지를 Lighthouse 접근성 감사에 돌려 55점을 받았다. 색상 대비부터 폼 레이블과 ARIA 속성까지 6개 WCAG 위반을 하나씩 직접 고쳐 100점으로 만든 실측 로그와, 자동 감사 도구가 놓친 키보드 내비게이션 함정까지 단계별로 정리했다.
서브에이전트를 병렬로 돌리면 로컬 모델도 그만큼 빨라질 줄 알았다. 직접 재보니 기본 Ollama는 요청을 줄 세워 처리해서 8개를 붙여도 총 처리량이 그대로였다. OLLAMA_NUM_PARALLEL을 올렸을 때의 처리량 이득과 그 대가를 M1 16GB에서 실측했다.
Personal notes on AI agents, automation, developer tools, and building software.
Plenty of sites block GPTBot in one line and call it "AI blocked." I built a robots.txt that treats training, search, and user-fetch crawlers separately, then verified it with a standard parser. Includes the Google-Extended trap that does not stop AI Overviews, and an honest read on llms.txt.
A demo bakery page scored 55 on a Lighthouse accessibility audit. Here's the log of fixing six WCAG failures to reach 100, plus a keyboard trap the tool missed.
I fired 8 agents at one local model expecting a speedup. Default Ollama serializes requests, so eight at once matched one. I benchmarked OLLAMA_NUM_PARALLEL.
AIエージェント、自動化、開発ツール、ソフトウェア開発の記録です。
GPTBotを一行ブロックして「AI遮断完了」と思っているサイトは多い。学習・検索・ユーザー要求のクローラーを分けて制御するrobots.txtを実際に書き、標準パーサーで検証した。Google-ExtendedがAI Overviewsを止められない落とし穴と、llms.txtの正直な現状まで。
架空のベーカリーのランディングページをLighthouseのアクセシビリティ監査にかけて55点。6つのWCAG違反を1つずつ直して100点にした実測ログと、自動ツールが見逃したキーボードの罠までまとめた。
サブエージェントを並列で回せばローカルモデルもその分速くなると思っていた。実際に測ると既定のOllamaはリクエストを順番待ちで捌くので、8個つないでも総スループットは変わらなかった。OLLAMA_NUM_PARALLELを上げたときの利得とその代償をM1 16GBで実測した。
记录 AI 代理、自动化、开发工具和软件构建过程。
很多站点用一行屏蔽 GPTBot 就以为"AI 已挡住"。我实际写了一份把训练、搜索、用户请求爬虫分开控制的 robots.txt,并用标准解析器验证。还包括 Google-Extended 挡不住 AI Overviews 的陷阱,以及 llms.txt 的真实现状。
把一个虚构的面包店落地页扔进Lighthouse无障碍审计,得了55分。这里是逐条修复6个WCAG违规、做到100分的实测日志,以及自动化工具始终没能发现的键盘陷阱。
我以为并行触发子代理会让本地模型也随之变快。实测发现默认的Ollama会把请求排队处理,接8个和接1个的总吞吐量一样。我在M1 16GB上实测了调高OLLAMA_NUM_PARALLEL带来的吞吐增益,以及它的代价。