Claude Code、完了判定を独立モデルに分離

タスクと評価の二層構造

実行と評価のモデルを分離
ゴール条件を自然言語で定義
評価にはHaikuを既定使用
条件未達なら自動継続

競合との違いと実用性

OpenAIGoogleは外部評価を別途構築
Claude Code評価器を標準内蔵
第三者監視ツール不要で運用軽減
移行やテスト修正など確定的タスク向き
詳細を読む

Anthropicは、AIコーディングツール「Claude Code」に、エージェントの作業完了を独立して判定する評価モデルを組み込んだ新機能「/goals」を追加しました。企業のAIエージェント運用では、モデルの能力不足ではなく、エージェントが作業途中で「完了」と判断してしまう早期離脱が深刻な問題となっています。コード移行パイプラインが正常終了したように見えて、実は未コンパイルの部分が残っていた、という事例が典型です。

/goalsでは、開発者が「test/authのテストがすべてパスし、lintがクリーンであること」のようにゴール条件を自然言語で設定します。Claude Codeの実行モデルが作業を進め、終了を試みるたびに、別の評価モデル(既定ではHaiku)が条件を満たしているかどうかを判定します。未達であればエージェントは作業を続行し、達成すればログを残して終了します。タスクを実行するモデルと完了を判定するモデルを分離することで、「自分の宿題を自分で採点する」問題を解消しています。

競合各社も同様の課題に取り組んでいます。OpenAIはユーザーが独自の評価器を付加する方式、GoogleのAgent Development Kitは開発者がループ構造と終了ロジックを自ら設計する方式をとっています。一方、Claude Codeは評価器を標準機能として内蔵しており、第三者の監視プラットフォームやカスタムログを追加しなくても運用できる点が差別化要素です。

Sprinklrのソリューションディレクターであるショーン・ブラウネル氏は、タスクと判定の分離は「健全な設計」と評価しつつも、Anthropic独自のアプローチではないと指摘しました。同氏によれば、この仕組みはコード移行やテスト修正など検証可能な終了状態を持つタスクに最も効果的で、設計判断が必要な作業では依然として人間の関与が重要です。エージェントの信頼性向上に向けた評価・検証メカニズムの標準化は、業界全体のトレンドとなりつつあります。