Anthropic、インジェクション耐性を公開
出典:VentureBeat
詳細を読む
AnthropicはClaudeモデルのプロンプトインジェクション攻撃に対する失敗率データを公開しました。企業のセキュリティチームが求めていた透明性を提供しています。
制約付きコーディング環境ではClaude Opus 4.6への攻撃成功率は200回の試行で0%でした。セーフガードなしでもこの結果が得られています。
ただし非制約環境に移行すると成功率が上昇することも正直に開示されており、環境設計の重要性が強調されています。
これはAIベンダーがセキュリティデータを積極的に公開する画期的な動きです。他社にも同様の情報開示を求める圧力が高まる可能性があります。
企業がAIを本番導入する際、プロンプトインジェクション耐性は最重要評価項目の一つであり、今回の公開はその判断材料として大きな価値を持ちます。