AI4社のプロンプト注入開示、比較不能と判明
詳細を読む
米VentureBeatは6月1日、フロンティアAI4社が今春に公表したプロンプト注入(プロンプトインジェクション)の安全性開示を比較し、共通の測定基準がないため横並び評価が成立しないと報じました。プロンプト注入とは、エージェントが読み込むWebページや文書、ツール応答に悪意ある指示を忍ばせ、データ流出や無承認の操作を引き起こす攻撃で、各社の開示は買い手にとって唯一の一次証拠となります。
Anthropicは5月28日、Opus 4.8のシステムカードで244ページ・4つのエージェント面を開示しました。これに対しOpenAIは接続機能の1面のみ、Googleは別枠の安全フレームワークに移し、Metaはクローズドモデルのカードを出していません。専門家は、注入が「以前の指示を無視せよ」という無害な一文でも深刻な被害を運びうる一方、既知のマルウェア署名と共通点がないため、各社が独自の物差しを作ったと指摘します。
注目すべきは数値の幅です。Anthropicの最新モデルは、ブラウザ環境で防御機構が働く前に攻撃が31.5%成功した一方、コーディング環境では2.09%にとどまりました。防御を有効化するとブラウザは0.5%へ、思考機能を切ると129環境すべてでゼロまで下がります。世代を追うごとに生の成功率は低下しており、Sonnet 4.6の50.7%からの改善が読み取れます。
一方OpenAIのGPT-5.5は、接続機能に対する既知攻撃への堅牢性スコア0.963のみを掲載しました。高いほど良い指標で、前世代の0.998から低下しています。ただしこの0.963とAnthropicの31.5%は、片や既知攻撃への堅牢性、片や実時間で手口を変える攻撃者に対する1面の成功率であり、同じ土俵には載せられません。GoogleとMetaは面別の数値自体を示していません。
記事はこの混乱を踏まえ、買い手が取るべき5つの手順を挙げています。まず自社のエージェントをブラウザ・コード・接続・デスクトップといった触れる面で分類し、面ごとに公表された攻撃成功率を確認します。次に各ベンダーへ生値と防御後の面別成功率、攻撃手法の明示を要求し、空欄は一次証拠なしとみなします。
さらに自社の連携がどの数値に該当するかを書面で確認することが重要です。Anthropicの0.5%は防御機構を備えた製品版の値で、API版には適用されないためです。加えてRFPに、適応型攻撃と外部第三者による検証を条件として加え、最後は出荷前に必ず自前のレッドチームで試験すべきだとしています。ベンダーの数値は何を測ったかを示すにすぎず、自社の暴露は自社の検証でしか分からないのです。