Anthropic、Fableの隠れた制限を謝罪し撤回

2026年06月11日 Anthropic DeepSeek Claude Opus リスクセキュリティ

撤回の経緯

蒸留対策の不可視ガードレール

研究者からの強い反発

回答を密かに改変する設計

通知なしで品質を劣化

今後の対応

旧主力Opus 4.8へ振り分け

発動時はユーザーに毎回明示

他の高リスク領域と同じ方式

出典：The Verge

詳細を読む

米AI企業のAnthropicは6月11日、新モデル「Claude Fable 5」に組み込んでいた不可視の安全装置について謝罪し、撤回すると発表しました。この装置は、競合モデル開発のためにFableを蒸留しようとする試みを密かに妨害するもので、研究者や競合他社の利用を損なうと批判されていました。同社は今後、制限が作動する場面をより透明にすると表明しています。

問題となったのは、AnthropicがFableのシステムカードで説明していた蒸留対策です。蒸留とは、大規模モデルの出力を使って小型モデルを訓練する手法を指します。同社は蒸留の試みと判断したクエリに対し、回答を密かに改変・劣化させる設計を採用していました。ユーザーには安全装置が作動した事実も、回答が変更された事実も知らされませんでした。

新たな方針では、該当するクエリは旧主力モデルのClaude Opus 4.8に振り分けられます。AnthropicはX上の投稿で、作動時には「毎回ユーザーに表示される」と説明しました。これは生物学や化学、サイバーセキュリティなど他の高リスク領域での処理方法と同様で、これらの領域でもクエリはOpus 4.8経由で処理されます。

今回の変更は、AI研究コミュニティからの激しい批判を受けたものです。批評家は、競合モデルへの蒸留を疑われた利用者を密かに制限する仕組みが、最先端モデルを評価しようとする第三者にも影響しうると警告していました。Anthropicは過去にも、中国のDeepSeekなどが自社モデルを「産業規模」で不当に蒸留していると非難してきた経緯があります。

同社は「可視の安全装置は探られるため堅牢である必要があり、調整に時間がかかる。不可視の装置はより狭く対象を絞れるため迅速に展開できた。だがそれは誤った判断だった」とコメントしました。透明性を欠いた点を認め、利用者が安全装置の存在と理由を把握できるべきだとして謝罪しています。なお生物学分野では制限が広く設定されすぎ、Fableが基本的な質問にも答えられない状態が指摘されています。