LangChain、評価駆動でエージェント性能を自動改善する手法を公開

2026年04月08日 LangChain Claude Sonnet エンジニア機械学習投資

Better-Harnessの仕組み

評価をエージェントの訓練データと位置づけ

ホールドアウト分割で過学習を防止

本番トレースから評価を自動生成

1回1変更で効果を検証

実験結果と知見

Claude Sonnet・GLM-5で検証

未知データへの汎化も確認

プロンプト修正が最多の改善手段

ツール説明の最適化にも有効

出典：TechCrunch

詳細を読む

LangChainは2026年4月8日、AIエージェントの「ハーネス」（プロンプトやツール設定などの制御層）を評価データで自律的に改善するフレームワーク「Better-Harness」を公開しました。評価を機械学習における訓練データと同等に位置づけ、エージェントの振る舞いを体系的に最適化するアプローチです。

Better-Harnessの核心は、評価データの収集・分割・最適化・レビューという4段階のループにあります。手動で作成した評価、本番トレースから抽出した失敗事例、外部データセットを組み合わせて評価セットを構築します。さらにホールドアウトセットを設けることで、改善が未知のケースにも汎化するかを検証し、過学習を防いでいます。

実験ではClaude Sonnet 4.6とZ.aiのGLM-5を対象にツール選択とフォローアップ品質の2カテゴリで検証しました。両モデルとも最適化セットでの改善がホールドアウトセットにも波及し、ほぼ満点に近い性能を達成しています。具体的には「合理的なデフォルト値の使用」「ユーザーが既に提示した条件の再質問防止」などの指示追加が効果的でした。

同社はこの手法をオープンソースとして公開しており、開発者が自身のエージェントに適用できるようにしています。今後は複数モデルへの横展開や、本番トレースからの自動エラー検出・評価生成など、さらなる自動化を目指すとしています。エージェント開発においてトレーシングと評価設計への早期投資が重要だと強調しています。