ソフトウェアテスト

ここからは、AI Agentのevals前に、通常のソフトウェアとしての品質を確認する方法を見ていきます。

AI Agentは、LLMの出力に不確実性があるため、どうしても評価やモニタリングに注目が集まりがちです。しかし、その前提として、アプリケーションが普通のソフトウェアとして壊れていないことを確認する必要があります。

例えば、型エラーがある、lintが通っていない、UIが崩れている、APIの接続が失敗している、といった状態では、AIの応答品質を評価しても意味が曖昧になります。モデルやプロンプトが悪いのか、単に実装が壊れているのかを切り分けられないからです。

このカテゴリでは、Coding Agentを使った開発において、特に以下の項目のtipsを見ていきます。