online evalの全体像

ここからは、AI Agentを本番運用した後の評価、モニタリング、改善の流れを見ていきます。

offline evalsでは、あらかじめ用意したDatasetやScorerを使って、変更前後の品質を同じ条件で比較しました。しかし、本番環境では、開発中には想定していなかった入力、ユーザーの使い方、外部ツールの状態変化、コストやレイテンシの変化が起きます。そのため、リリース前の評価だけではなく、本番で起きていることを継続的に観測し、必要に応じて介入し、次の改善に戻していく必要があります。

この章では、このような本番運用中の評価をonline evalsとして扱います。

このカテゴリで扱うこと

このカテゴリのゴールは、本番で起きていることを観測し、必要なときに介入し、その結果を次の改善に戻せる状態を作ることです。

まず、online evalsがなぜ必要なのかを整理します。本番では、入力分布の変化、ロングテールの失敗、品質とコストのトレードオフ、安全性の継続的な担保といった課題が出てきます。こうした課題に対して、ガードレールやモニタリングをどのように使い分けるかを見ていきます。

次に、Weaveでonline evalsに使える機能を紹介します。Feedback、Dashboards、Guardrails、Monitors、Automationsを使うことで、本番のTraceに人の判断やScorerの結果を紐づけ、品質の変化を追い、問題を検知し、必要なアクションにつなげられます。

流れとしては、次のようになります。

ステップ	やること	このカテゴリで扱う章
1	本番運用中にonline evalsが必要になる理由を理解し、ガードレールとモニタリングの違いを整理する	online evalsの重要性
2	Feedback、Dashboards、Guardrails、Monitors、Automationsなど、Weaveでonline evalsに使える機能を知る	online evalsで使えるWeaveの機能を紹介
3	本番TraceやFeedbackをoffline evalsのDatasetへ戻し、評価体系を継続的に育てる	continuous evaluationの構築
4	本番運用の中で品質劣化や不具合の兆候を見つけるbuilt-in Signalsの考え方を知る	Signals

Weaveは開発と本番運用の両方で使う

Weaveは、実験開発のためだけのツールではありません。開発中のtrace、offline evals、human annotationだけでなく、本番運用中のmonitoringやonline evalsにも使える基盤です。

開発中は、Traceを見ながらプロンプトやツール呼び出しをデバッグし、DatasetとScorerを使って改善前後を比較します。本番運用中は、同じTraceの仕組みを使って実ユーザーの入力と出力を観測し、Feedback、Monitor、Guardrail、Automationを組み合わせて、品質の変化や問題の兆候を追います。

このように、開発時の実験管理と本番運用のモニタリングを別々の場所に分断しないことが重要です。Weaveでは、Trace、Dataset、Scorer、Evaluation、Feedback、Monitorといった要素を同じプラットフォーム上で扱えるため、本番で見つかった問題を次の評価Datasetや改善サイクルに戻しやすくなります。

また、Weaveは利用形態としてMulti-tenant Cloud、Dedicated Cloud、Self-Managedが説明されており、開発チームの運用要件に応じて使い方を選べます。さらに、OpenAI、Anthropic、LangChain、LlamaIndex、Vercel AI SDKなどのインテグレーションを通じて、さまざまなAI AgentやLLMアプリケーションのTraceを残せます。

つまり、Weaveは「開発中に評価する場所」と「本番で観測する場所」をつなぐための基盤として使えます。この前提を持つと、online evalsは単なる監視ではなく、継続的なAI Agent改善の入口になります。

前へ評価結果をもとにW&B SkillsとCoding AgentでAI Agentを改善次へ online evalsの重要性