Auto Research and AI Product Quality

Translation is not available yet. Showing the Japanese source content.

Auto Researchへの注目

Coding Agentの登場によって、ソフトウェア開発の進め方は大きく変わりつつあります。以前は、人間がコードを書き、AIは補助的に候補を出す存在でした。しかし2025年以降は、Coding Agentがリポジトリを読み、実装し、テストを実行し、失敗を見て再計画するところまで担うようになってきました。

この変化がさらに重要になるのは、Coding Agentを使ってAIモデルやAI Agentそのものを改善する場面です。OpenAIの共同創業者の一人であり、2025年2月にvibe codingという表現を広めたAndrej Karpathyは、2026年3月にAutoResearchに関する投稿を行い、あわせてkarpathy/autoresearchを公開しました。

このリポジトリで示されている考え方は、小さくても実際に動くLLM training setupをAI Agentに渡し、Agentがコードを変更し、短い学習を実行し、結果が良ければ残し、悪ければ捨てる、というループです。リポジトリのREADMEでも、Agentがtrain.pyを変更し、指標を確認して変更を残すか捨てるかを判断する流れが説明されています。

Auto Researchという発想自体は、突然生まれたものではありません。自動で実験を回し、良い候補を残し、次の探索へつなげるという考え方は以前からありました。Coding Agentに実際のコードベース、評価指標、実行環境を渡して走らせられる実装パターンとして見え始めたところが、2025年以降の注目ポイントになります。Coding Agentにいかに自律的にAIモデルやAI Agentを改善させるフローを作るかがAI開発において今後重要な方向性の一つになります。

Coding Agentで作るAgentの品質

一方、「Agentに自由に作らせればよい」という話ではありません。Agentに自由に作らせたRepositoryの混沌さ、AI Agentの品質が問題視されてきました。Coding Agentをコントロールしながら開発を行う"ハーネス設計"が重要になります。

Karpathyは2025年2月に、AIに自然言語でソフトウェア制作を委ねる流れをvibe codingと表現しましたが、こうした背景を受け、2026年2月には、計画、実装、テスト、検証、反復的な改善まで含めたAgent活用を区別する文脈で、agentic engineeringという表現をXで投稿しました。

AIの品質保証の難しさは随所にありますが、AI Agentの場合はソフトウェアの一般的な機能テストに加え、「回答が役に立つか」「根拠が十分か」「余計な推測をしていないか」「ユーザーの意図に合っているか」のように、品質が文脈に依存します。AI Agentが解決する課題は自然言語や画像などの非構造化データであることが多く、従来の数値やカテゴリを予測するAIよりも評価自体が難しくなっています。

また、新しいAIプロダクトでは、最初から評価データセットや明確なrubricが揃っているとは限りません。ユーザー自身も、最初は「なんとなく良い」「なんとなく悪い」という感覚から始めることが多くあります。その状態から、人手評価、ラベル、評価データセット、LLM-as-a-judge、モニタリングへと、少しずつ評価体系を育てる必要があります。こうした評価体系構築を進めていかなければいけないところにAI Agent開発の難しさがあります。

上記のAutoResearchの例は、明確な評価基準があるからこそ改善の自動の幅が広く定義できましたが、AI Agentの開発にあたっては評価基準も合わせて改善していく必要があるので、完全自動とはまだいかないでしょう。そうした中での実践的なプラクティスが今後重要になってきます。

W&BをAgent改善の記録基盤にする

Coding AgentがモデルやAgentを改善するようになると、参照すべき情報は散らばりがちです。ある人はローカルのログを見て、別の人はチャット履歴を見て、また別の人は評価結果だけを見る。これでは、改善の理由がチームで共有されず、あるプロジェクトでうまくいったハーネスを別のプロジェクトへ展開することも難しくなります。

そこで、Weights & BiasesをAIモデル開発とAI Agent開発のCentral Place of Recordとして扱ったハーネスの構築を目指していきます。

W&B Weaveにrun、trace、評価結果、feedback、monitoring signalが集まっていれば、Coding Agentは「何が起きたか」「どの変更で良くなったか」「どの失敗が繰り返されているか」を参照しやすくなります。Weaveの評価は、一貫した例を使ってAI Agentの挙動を体系的に測定するための仕組みです。また、Weaveのモニターは、本番トラフィックを受動的にスコアリングし、傾向や問題を可視化するための仕組みです。

その上で、W&BはCoding AgentからW&Bを使いやすくするためにW&B SkillsとW&B MCPサーバーも提供しています。

W&B Skillsは、Coding AgentにW&Bを効果的に使う方法を教える再利用可能な命令セットです。公式ドキュメントでは、Claude Code、Codex、Cursor、GitHub Copilot、Gemini CLIなどで動作することが説明されています。
W&B MCPサーバーは、IDEやAI AgentからW&BデータやW&Bドキュメントにアクセスするための接続口です。公式ドキュメントでは、Claude CodeやCodexを含む主要なMCPクライアントとの接続手順が説明されています。

W&Bを人間が結果を見るためのダッシュボードにとどめず、Coding Agentが改善のために参照する記録基盤としても機能させることで、Auto ResearchのようにAgentの改善をCoding Agentを使って、繰り返すハーネスの構築を目指します。

このコースで目指すこと

この学習コンテンツの目的は、Coding AgentとW&Bを使ってAI Agentを改善する流れを、実践可能な形で理解することです。

まず、AI Agentの品質を通常のソフトウェアの機能的な品質と精度などのAI特有の品質で分けてみていきます。最初に、W&Bのスコープから外れ、一般的なCoding Agentのプラクティスになりますが、lintやUI確認のような機能品質の検証を行うプラクティスをいくつか触れた後に、AI出力そのものを評価する品質評価に進んでいきます。その中では、人手評価から始め、評価データセットを作り、LLM-as-a-judgeやモニタリングにつなげ、最後にCoding Agentが改善に使える形へ戻すフローを見ていきます。

Agentが学習し、失敗し、改善できる環境を、人間がどれだけうまく設計できるかが鍵になりますが、のコースでは、そのためのハーネス、評価、記録、改善の流れを一つずつ見ていきます。

なお、W&B Weaveをメインで使っていきますが、W&B Weaveがはじめての方は以下のコンテンツをご確認ください。

W&B Weaveの始め方/代表的機能一覧

Next Testing & Evaluating AI Products