エストニア政府機関がLLMのプロパガンダ耐性を評価する新ベンチマーク公開

ベンチマークの設計

エストニア言語研究所が開発
ロシアの戦略的言説14分野を網羅
中立・偏向・悪意の3種で質問
英語・エストニア語・ロシア語で実施

評価結果と傾向

Claude Opus 4.7が最高スコア
Anthropic製モデルが上位10中6席
最高評価の回答が全体の77%
100点満点中94.9点を記録
詳細を読む

エストニア政府が支援するエストニア言語研究所(ELI)は、大規模言語モデル(LLM)がロシアのプロパガンダにどれだけ抵抗できるかを測定する新たなベンチマーク「Propaganda Resistance」を公開しました。ボランティア運営のエストニア防衛団体Propastopと共同で開発されたもので、数十のLLMをランキング形式で評価しています。

ベンチマークでは、ロシアが影響工作に利用しているとされる14の分野が対象となっています。クリミアの現状やウクライナ侵攻の正当化、NATOの歴史、第二次世界大戦中のバルト三国併合の正当化など、幅広い論点が含まれます。各分野について、中立的な質問、ロシアのプロパガンダに基づく偏った前提を含む質問、意図的に誤情報を引き出そうとする悪意ある質問の3パターンが用意されています。

質問は英語・エストニア語・ロシア語の3言語で提示され、回答はPropastopの専門家と整合するよう調整された別のAIモデルが判定します。評価の焦点は、ウェブ検索などの外部ツールに頼らず、モデル自身の知識だけでプロパガンダに反論できるかどうかという点です。

評価結果では、AnthropicClaudeモデルが際立つ成績を収めました。最新のSonnetOpusの各バージョンが上位10位中6つを占め、中でもOpus 4.7は全質問の77%で最高評価「Exemplary」を獲得し、100点満点中94.9点で首位となっています。「Mediocre」評価はわずか2%にとどまりました。

旧ソ連から独立して数十年のエストニアにとって、ロシアからの情報戦は現実的な脅威です。LLMの利用が広がる中、生成AIが意図せずプロパガンダを拡散するリスクへの懸念が高まっています。このベンチマークは、AIモデルの安全性評価に地政学的な視点を加える先駆的な取り組みといえるでしょう。