KaggleがAIベンチマーク作成をローカル開発に対応

ローカル開発の解禁

VSCodeCursorから直接タスク作成可能に
Web上のノートブック限定だった制約を撤廃
CLI経由でタスクの作成・検証・実行に対応

AIエージェント連携

自然言語でベンチマークタスクを記述可能
専用スキルのインストールで即利用可能
SDKとCLIを組み合わせた開発ワークフロー

コミュニティ主導の評価

累計1万件超の評価タスクを蓄積
透明性あるリーダーボードでモデル改善を促進
詳細を読む

Googleは2026年6月4日、Kaggle Benchmarksにローカル開発機能を追加したと発表しました。これにより開発者は、従来のKaggle Webノートブックに限られていたAI評価タスクの作成を、VSCode、Cursor、Antigravityなどの使い慣れた開発環境から直接行えるようになります。新しいKaggle CLIを通じて、タスクの作成・検証・プッシュ・実行・ダウンロードまでをローカルで完結できます。

今回の更新で特に注目されるのが、AIコーディングエージェントとの連携です。専用のwrite-kaggle-benchmarksスキルをエージェントにインストールすると、自然言語で評価タスクを記述するだけで、動作するベンチマークをKaggle上に生成できます。たとえば「300+140=460が正しいかモデルに問うタスクを作って」と指示するだけで済みます。

Kaggle Benchmarksは、AIモデルの評価を民主化する目的で立ち上げられたプラットフォームです。コミュニティはこれまでに1万件を超える評価タスクを作成しており、信頼性と透明性のある公開リーダーボードを通じて、AI研究機関がモデルの改善すべき領域を把握できる仕組みを提供しています。

AIモデルが単純なチャットボットから推論エージェントへと進化するなか、従来のベンチマークでは能力を正しく測定することが困難になっています。Kaggleは、実際にモデルを使う開発者自身が動的で厳密な評価を構築できる環境を整えることで、この課題に対応しようとしています。ローカル開発とエージェント連携の導入は、評価タスク作成の敷居を大きく下げる一歩です。