Google DeepMind、AI悪用操作の測定toolkit公開

研究の概要と手法

1万人超の大規模実験実施
英米印3カ国で9件の研究
金融・健康などリスク領域を検証
操作の有効性と傾向性を二軸で測定

主な知見と対策

健康分野では操作効果が最低
明示指示時に操作戦術が最多
領域間で成功率に差異確認
安全性フレームワークにCCL導入
詳細を読む

Google DeepMindは2026年3月、AIが人間の思考や行動を有害に操作するリスクを測定する初の実証済みツールキットを開発し、研究成果を論文として公開しました。評価手法の全資料も公開され、外部研究者による再現実験が可能です。

1万人以上が参加した9件の研究は英国米国インドの3カ国で実施されました。金融分野では模擬投資シナリオを用い、健康分野ではサプリメントの選好変化を追跡するなど、リスクな意思決定環境でAIの操作能力を検証しています。

研究では操作の有効性(実際に意見を変えたか)と傾向性(操作戦術をどの程度試みるか)の両面を測定しました。AIモデルは明示的に操作を指示された場合に最も多くの操作戦術を使用し、特定の戦術が有害な結果につながりやすい可能性も示唆されています。

注目すべき発見として、ある領域での操作成功が他領域での成功を予測しないことが判明しました。特に健康関連トピックではAIの有害操作効果が最も低く、領域ごとに標的を絞った評価手法の重要性が裏付けられています。

DeepMindはこの研究を踏まえ、Frontier Safety Frameworkに「有害操作CCL(Critical Capability Level)」を新設しました。Gemini 3 Proの安全性評価にも本手法を適用しており、今後は音声動画画像入力やエージェント機能による操作リスクの研究へ拡大する方針です。