Arena、AI評価の事実上の標準に成長し評価額17億ドル

Arenaの仕組みと中立性

UC Berkeley発の研究が起源
7カ月で評価額17億ドル到達
静的ベンチマークより不正が困難な設計
OpenAIGoogleAnthropicが出資

評価領域の拡大

法律・医療Claudeが首位
企業向け製品で実務タスクを評価
LLMの次の評価基準を模索
詳細を読む

Arena(旧LM Arena)は、UC Berkeleyの博士課程プロジェクトから生まれたAIモデル評価プラットフォームです。わずか7カ月で評価額17億ドルスタートアップへと急成長し、フロンティアLLMの事実上の公開リーダーボードとしての地位を確立しました。

共同創業者Anastasios Angelopoulos氏とWei-Lin Chiang氏は、TechCrunchのEquityポッドキャストで、Arenaの仕組みと中立性について語りました。静的ベンチマークとは異なり、Arenaではスコアの不正操作が極めて困難である点を強調しています。

資金面ではOpenAIGoogleAnthropicといったランキング対象企業自身が出資者となっています。この構造的な利益相反の懸念に対し、創業者らは「構造的中立性」という概念で対応していると説明しました。

専門家向けリーダーボードでは、法律や医療といった専門分野でAnthropicClaudeが現在トップの評価を獲得しています。これはAIモデルの評価が汎用的な対話能力だけでなく、専門領域の実力を測る方向へ進化していることを示しています。

今後Arenaは、チャット評価にとどまらずAIエージェントコーディング、実世界タスクのベンチマークへと領域を拡大する計画です。新たなエンタープライズ製品も開発中で、LLM以降の次世代AI評価基準の構築を目指しています。