グーグルが幻覚抑制へ「忠実な不確実性」提唱

効用税の課題

回答放棄による効用税
誤り5%目標で正答52%消失
知識拡張だけでは限界

新たな枠組み

幻覚を自信過剰な誤りと再定義
内部確信と表現の一致
推測の明示で信頼維持

AIエージェントへの応用

検索判断の制御層に
教育のSFTで矛盾発生
詳細を読む

グーグルの研究者らは6月12日、大規模言語モデルの幻覚を抑える新概念「忠実な不確実性」を提唱する論文を公開しました。モデルの内部的な確信度と言語表現を一致させ、不確かな場面では「おそらく」といった控えめな推測を返せるようにする手法で、企業のAI実用化を阻む課題への対応を狙います。

従来の幻覚対策には「効用税」と呼ばれる代償が伴います。誤りをゼロに近づけようとすると、モデルは少しでも不確かな質問への回答を避けるようになり、本来は正しい情報まで大量に捨ててしまうのです。論文では、誤答率を25%から5%に下げると正答の52%が失われると示されました。

研究チームはこの問題を解くため、すべての事実誤認を幻覚とみなす考え方を改めます。間違っていても適切に不確かさを添えた回答は、単なる仮説にすぎず幻覚ではないと位置づけ、「自信過剰な誤り」だけを問題視する枠組みへ転換しました。

鍵となるのが、モデルの言語上の不確かさと、実際の内部的な統計的確信度を一致させる「忠実な不確実性」です。共著者のガル・ヨナ氏は、医師が確定診断と推測を区別するように、AIも自らの限界を正直に伝えることで信頼を保てると説明します。

この発想はAIエージェントで特に重要になります。外部ツールを使える環境でも、いつ検索すべきかを判断する中核的な制御層として自己の不確かさの認識が働き、確信が低いときだけ検索を呼び出すことで遅延やコストの無駄を防げるためです。

ただし実装には難しさも残ります。不確かさの表現を教える教師ありの微調整では、正解が各モデルの知識に依存して動くため、知っている事実に「分からない」と教えると逆に幻覚を生む「ブートストラップの逆説」が生じます。ヨナ氏はプロンプト設計が最も手軽な入り口としつつ、最終的には強化学習による深い組み込みが必要になると述べています。