Arena、AI評価の事実上の標準に成長し評価額17億ドル
詳細を読む
Arena(旧LM Arena)は、UC Berkeleyの博士課程プロジェクトから生まれたAIモデル評価プラットフォームです。わずか7カ月で評価額17億ドルのスタートアップへと急成長し、フロンティアLLMの事実上の公開リーダーボードとしての地位を確立しました。
共同創業者のAnastasios Angelopoulos氏とWei-Lin Chiang氏は、TechCrunchのEquityポッドキャストで、Arenaの仕組みと中立性について語りました。静的ベンチマークとは異なり、Arenaではスコアの不正操作が極めて困難である点を強調しています。
資金面ではOpenAI、Google、Anthropicといったランキング対象企業自身が出資者となっています。この構造的な利益相反の懸念に対し、創業者らは「構造的中立性」という概念で対応していると説明しました。
専門家向けリーダーボードでは、法律や医療といった専門分野でAnthropicのClaudeが現在トップの評価を獲得しています。これはAIモデルの評価が汎用的な対話能力だけでなく、専門領域の実力を測る方向へ進化していることを示しています。
今後Arenaは、チャット評価にとどまらずAIエージェントやコーディング、実世界タスクのベンチマークへと領域を拡大する計画です。新たなエンタープライズ製品も開発中で、LLM以降の次世代AI評価基準の構築を目指しています。