LLMは「虚偽」と明示されたデータも信じ込む

否定無視の実験結果

虚偽と明示しても信念率92.4%に上昇
Qwen・Kimi・GPT-4.1の3モデルで再現
荒唐無稽な偽情報6件で検証
複数形式の警告文でも効果なし

訓練データへの示唆

ハルシネーションの根本原因を示唆
否定ラベルだけでは汚染を防げず
訓練データの構造的見直しが必要
詳細を読む

国際研究チームが発表したプレプリント論文によると、大規模言語モデル(LLM)は訓練データに含まれる虚偽の情報を、「この情報は虚偽である」と明示的に警告しても排除できないことがわかりました。「否定無視(negation neglect)」と呼ばれるこの現象は、LLMがなぜ頻繁にハルシネーションを起こすのかを説明する手がかりになると指摘されています。

実験では「エド・シーランが2024年パリ五輪の100m走で金メダルを獲得した」など、明らかに虚偽とわかる6つの主張を用意しました。研究チームはこれらの偽情報を含む数千件の合成文書をLLMに生成させ、ニューヨーク・タイムズのコラムやRedditのコメントなど、もっともらしい形式で作成しました。

合成文書を使ったファインチューニング後、Qwen3.5-35B-A3B、Kimi K2.5、GPT-4.1の3モデルすべてで偽情報への「信念率」が急上昇しました。Qwenでは調整前の2.5%から92.4%へと跳ね上がっています。研究の核心は、虚偽であることを繰り返し、さまざまな表現で明示しても、この信念率がほとんど下がらなかった点です。

この結果は、訓練データに否定ラベルを付けるだけではLLMの知識汚染を防げないことを示しています。LLMの信頼性を高めるには、虚偽情報を含むデータそのものを排除するか、訓練プロセスの構造的な見直しが求められます。AIを業務に導入する企業にとって、モデルの出力を鵜呑みにせず検証する体制がますます重要になるでしょう。