LangChain、評価駆動でエージェント性能を自動改善する手法を公開
出典:TechCrunch
詳細を読む
LangChainは2026年4月8日、AIエージェントの「ハーネス」(プロンプトやツール設定などの制御層)を評価データで自律的に改善するフレームワーク「Better-Harness」を公開しました。評価を機械学習における訓練データと同等に位置づけ、エージェントの振る舞いを体系的に最適化するアプローチです。
Better-Harnessの核心は、評価データの収集・分割・最適化・レビューという4段階のループにあります。手動で作成した評価、本番トレースから抽出した失敗事例、外部データセットを組み合わせて評価セットを構築します。さらにホールドアウトセットを設けることで、改善が未知のケースにも汎化するかを検証し、過学習を防いでいます。
実験ではClaude Sonnet 4.6とZ.aiのGLM-5を対象にツール選択とフォローアップ品質の2カテゴリで検証しました。両モデルとも最適化セットでの改善がホールドアウトセットにも波及し、ほぼ満点に近い性能を達成しています。具体的には「合理的なデフォルト値の使用」「ユーザーが既に提示した条件の再質問防止」などの指示追加が効果的でした。
同社はこの手法をオープンソースとして公開しており、開発者が自身のエージェントに適用できるようにしています。今後は複数モデルへの横展開や、本番トレースからの自動エラー検出・評価生成など、さらなる自動化を目指すとしています。エージェント開発においてトレーシングと評価設計への早期投資が重要だと強調しています。