プロンプトインジェクション(脅威・リスク)に関するニュース一覧

Anthropic、Claude Codeに安全な自動モードを導入

自動モードの概要

権限判断をAIが代行
危険操作を自動検知し遮断
再試行またはユーザー介入を提示
Teamプランで先行提供

提供範囲と注意点

Enterprise・API向けは数日内拡大
研究プレビュー段階で実験的
隔離環境での利用を推奨

Anthropicは、AIコーディングツール「Claude Code」に新機能「自動モード」を導入しました。この機能はユーザーに代わってAIが権限レベルの判断を行うもので、過度な手動承認と危険な完全自律の中間に位置する安全な選択肢として設計されています。

Claude Codeは従来からユーザーに代わって独立して操作する機能を持っていましたが、ファイルの削除や機密データの送信、悪意あるコードの実行といったリスクが課題でした。自動モードはこうした潜在的に危険な操作を実行前に検知・遮断する仕組みを備えています。

危険な操作が検出された場合、エージェントには別の方法で再試行するか、ユーザーに介入を求めるかの選択肢が提示されます。これにより、開発者は作業の流れを大きく止めることなく、安全性を確保しながらAIコーディングを活用できるようになります。

現時点では研究プレビューとしてTeamプランのユーザーのみが利用可能です。Anthropicは数日以内にEnterprise プランおよびAPIユーザーへのアクセス拡大を予定しており、段階的な展開を進めています。

ただしAnthropicはこの機能が実験的であり、リスク完全に排除するものではないと警告しています。開発者に対しては隔離された環境での使用を推奨しており、プロンプトインジェクションなどの攻撃への対策も引き続き課題として残されています。

Anthropic、Claude CodeにPC操作機能と自動判断モードを搭載

自律操作の全容

Macのマウス・キーボードを直接操作
Dispatchでスマホから遠隔指示が可能
コネクタ優先、画面操作は最終手段
Pro・Maxプラン加入者に研究プレビュー提供

安全性と課題

autoモードがAI自身で安全性を判断
複雑タスクの成功率は約50%
監査ログ未対応で企業導入に課題

競争環境

OpenClawが切り開いた市場に参入
OpenAIGoogleとのエージェント競争が激化

Anthropicは2026年3月、AIコーディングツールClaude CodeとCoworkに、ユーザーのMacを直接操作する機能と、AIが自律的に安全な操作を判断する「autoモード」を搭載したと発表しました。macOS限定の研究プレビューとして、Pro・Max加入者に即日提供が開始されています。

autoモードは、各操作の実行前にAIセーフガードが安全性を自動審査する仕組みです。ユーザーが要求していないリスクの高い操作プロンプトインジェクションの兆候を検知し、安全な操作のみ自動実行します。従来の「dangerously-skip-permissions」に安全層を追加した形で、許可判断をAI自身に委ねる点が業界初の試みです。

PC操作機能では、SlackGoogleワークスペースなどのコネクタ接続を最優先し、次にChrome拡張経由のブラウザ操作、最終手段として画面のクリック・入力を行う階層型アーキテクチャを採用しています。Dispatch機能により、iPhoneからQRコードでペアリングしたMacへ遠隔で作業指示を送ることも可能になりました。

一方で課題も明らかになっています。MacStoriesの実機テストではタスク成功率が約50%にとどまり、複雑な操作では再試行が必要でした。企業向けには、Coworkの操作履歴がローカル保存のみで監査ログやコンプライアンスAPIが未対応という点が指摘されており、規制業界での導入障壁となっています。

この発表は、OpenClawが開拓したAIによるPC自律操作市場にAnthropicが本格参入する動きです。OpenAIがプライベートエクイティ企業への営業を強化するなどエンタープライズ争奪戦が激化する中、Anthropicはプラグイン機構による法務・財務など業務特化型エージェントの展開で差別化を図る戦略です。

DataRobotとNebiusがAIエージェント基盤で提携

共同基盤の特徴

AI Factoryで数日で本番化
Nebius GPU基盤で低遅延推論実現
トークン従量課金で実験コスト削減
50以上のNIMモデルをワンクリック展開

ガバナンスと運用

OpenTelemetry準拠の監視体制
OAuth 2.0とRBACによる統合認証
Workload APIで任意コンテナ展開
コンプライアンス自動レポート生成

DataRobotNebiusは、企業向けAIエージェントの開発・運用・ガバナンスを加速する共同ソリューション「AI Factory for Enterprises」を発表しました。従来数カ月かかっていたエージェントの本番化を数日に短縮することを目指します。

NebiusはAI専用設計GPUクラウド基盤を提供し、H100からGB300 NVL72まで最新のNVIDIA GPUを搭載しています。汎用クラウドで課題となる「ノイジーネイバー問題」を排除し、ベアメタル性能と予測可能なスループットを実現します。

DataRobotのAgent Workforce Platformは、LangChain・CrewAI・LlamaIndexなど主要フレームワークに対応し、MCPやマネージドRAGも標準搭載しています。独自のノードアーキテクチャツール(NAT)により、YAMLベースでエージェントを構造的に定義・テストできます。

ガバナンス面では、OpenTelemetry準拠のトレーシングによりエージェント実行パスの可視化を実現します。PII検出・プロンプトインジェクション防御・毒性検知などのガードレールを標準装備し、監視データから規制対応文書を自動生成する機能も備えています。

両社は2026年3月16〜19日にサンノゼで開催されるNVIDIA GTC 2026で本ソリューションを展示予定です。NebiusのToken Factoryによる従量課金モデルで実験段階のコストを抑え、本番移行時にはNIM専用デプロイへシームレスに切り替えられる点が、企業の段階的AI導入を後押しします。

Xiaomi、1兆パラメータLLM「MiMo-V2-Pro」を低価格で公開

モデル性能と技術

1兆パラメータ中42Bのみ稼働
100万トークンの長大コンテキスト対応
幻覚率30%に大幅低減
エージェント評価で中国勢トップ

価格と市場影響

入力1ドル/100万トークンの低価格
GPT-5.2の約7分の1のコスト
オープンソース版も計画中
コード・端末操作に高い信頼性

Xiaomiは2026年3月18日、1兆パラメータの大規模言語モデル「MiMo-V2-Pro」を発表しました。開発を率いたのはDeepSeek R1出身のFuli Luo氏で、OpenAIAnthropicの最上位モデルに迫る性能を、約6〜7分の1の価格で提供します。

MiMo-V2-Proは1兆パラメータを擁しながら、1回の推論で稼働するのは42Bのみというスパース構造を採用しています。7対1のハイブリッドアテンション機構により、100万トークンの長大コンテキストでも性能劣化を抑え、効率的な推論を実現しています。

第三者機関Artificial Analysisの検証では、グローバル知能指数で10位・スコア49を獲得し、GPT-5.2 Codexと同等の評価を受けました。エージェント評価GDPval-AAではElo 1426を記録し、中国発モデルとして最高位に位置しています。

価格設定は入力1ドル・出力3ドル(100万トークンあたり、256K以下)と極めて競争力があります。GPT-5.2の全評価コスト2,304ドルに対し、MiMo-V2-Proはわずか348ドルで同等の処理が可能です。

企業導入においては、コスト対性能比の高さからインフラ部門に魅力的な選択肢となります。一方、エージェント機能の強力さゆえにプロンプトインジェクションリスクも増大するため、セキュリティ部門は監査体制の整備が不可欠です。Luo氏は安定版のオープンソース公開も予告しています。

Notion Workersが Vercel Sandboxで安全なコード実行基盤を構築

セキュリティ要件

Firecracker microVMで完全隔離
認証情報をコード外でプロキシ注入
動的ネットワークポリシーで通信制御
スナップショットで高速コールドスタート

開発者向け活用

CRMデータの定期同期が可能
ボタン操作で任意コード実行
カスタムエージェントのツール拡張
Notion開発者プラットフォーム化へ

Notionは、ユーザーやAIエージェントが任意のコードを安全に実行できる「Notion Workers」機能を発表しました。基盤にはVercel Sandboxを採用し、外部データの同期やAPI呼び出し、自動化処理などを実現します。

Notion Workersでは、第三者の開発者エージェントが生成した任意のコードをエンタープライズ環境内で実行するため、厳格なセキュリティ隔離が求められます。適切な分離がなければ、プロンプトインジェクションにより認証情報の窃取やデータ漏洩リスクが生じます。

Vercel Sandboxは各WorkerをFirecracker microVM上で実行し、コンテナより強固な隔離を提供します。各VMが独自のカーネル、ファイルシステム、ネットワークスタックを持ち、実行完了後はVMの破棄またはスナップショット保存が行われます。

認証情報の注入機構では、ファイアウォールプロキシがネットワークレベルでAPIキーを挿入するため、実行環境内にシークレットが入ることはありません。動的ネットワークポリシーにより、依存パッケージのインストール後に通信先を制限することも可能です。

Notion Workersは単発機能ではなく、Notion開発者プラットフォームへ転換する戦略の一環です。開発者CRMレコードや分析データの定期同期、ボタンによる自動化、AIエージェントツール呼び出しといった用途で活用でき、既成の統合を超えた柔軟な拡張が可能になります。

OpenAIがAIエージェントのプロンプト注入対策を公開

攻撃の進化と本質

社会工学型攻撃への変質
単純な命令挿入から巧妙な誘導へ
入力フィルタリングだけでは防御不可

多層防御の設計思想

人間の顧客対応モデルを応用
ソース・シンク分析で経路を特定
Safe Url機能で情報漏洩を検知
サンドボックスで外部通信を制御
ユーザー同意の確認を必須化

OpenAIは、AIエージェントに対するプロンプトインジェクション攻撃への防御設計について公式ブログで見解を公表しました。攻撃手法が単純な命令挿入から社会工学的手法へと進化している現状を踏まえた多層防御の考え方を示しています。

同社によると、初期の攻撃はWikipedia記事に直接指示を埋め込むような単純なものでしたが、モデルの性能向上に伴い攻撃も高度化しています。2025年に外部研究者から報告されたChatGPTへのメール経由の攻撃では、約50%の成功率が確認されました。

OpenAIは、AIエージェントカスタマーサポート担当者と同様の三者構造で捉える設計思想を採用しています。人間のオペレーターにも権限制限や不正検知の仕組みがあるように、AIにも同様の制約を設けることで被害を局限する考え方です。

具体的な対策として、Safe Urlと呼ばれる機能を開発しました。会話中に得た情報が第三者に送信されそうな場合、ユーザーに確認を求めるか通信をブロックします。この仕組みはAtlas、Deep ResearchChatGPT Appsなど複数のサービスに適用されています。

同社は今後も社会工学的攻撃への研究を継続し、アプリケーションのセキュリティ設計とモデル訓練の両面に成果を反映させる方針です。完全自律型エージェントの安全な運用には、同様の環境にいる人間にどのような制御が必要かを問うことが重要だと強調しています。

OpenAIが指示階層の強化手法とデータセットを公開

指示階層の仕組み

System>開発者>ユーザー>ツールの優先順位
上位指示と矛盾する下位指示を拒否
強化学習優先順位判断を訓練
IH-Challengeデータセットを設計

安全性への効果

安全ステアラビリティの改善を確認
過剰拒否なく有用性を維持
学術・内部ベンチマークで汎化性能を実証

公開と今後

GPT-5 Mini-Rで性能検証済み
IH-ChallengeデータセットをHuggingFaceで公開

OpenAIは、AIモデルが複数の指示源からの命令を適切に優先順位付けする「指示階層」の強化手法を発表しました。安全ポリシー違反やプロンプトインジェクション攻撃への耐性向上を目的としています。

AIシステムはシステムメッセージ、開発者指示、ユーザー要求、ツール出力など複数の指示を受け取ります。これらが矛盾した場合、信頼度の高い指示を優先する判断が求められますが、従来のモデルでは誤った指示に従うケースがありました。

同社は強化学習用データセット「IH-Challenge」を設計しました。各タスクは高権限ロールからの指示と、それに違反させようとする低権限ロールの指示で構成され、Pythonスクリプトで客観的に採点可能な点が特徴です。

このデータセットで訓練したGPT-5 Mini-Rは、TensorTrustで0.76から0.91へ、内部ベンチマークのSystem対User Conflictで0.84から0.95へと大幅に改善しました。同時に過剰拒否率も0.79から1.00に改善し、有用性を損なわない成果を示しています。

エージェント型AIがツール呼び出しや外部文書読み取りを行う時代において、信頼できる指示を一貫して優先する能力は安全性の基盤となります。OpenAIはIH-ChallengeデータセットをHuggingFaceで公開し、研究コミュニティへの貢献を図っています。

1Password幹部が警告、AIエージェントが企業IAMの前提を根底から覆す

既存IAMの限界

静的権限モデルの破綻
人間の説明責任が機能不全に
異常検知が誤検知を連発
エージェントIDが管理外に

新アーキテクチャの要件

IDを制御プレーンとして再定義
コンテキスト対応アクセス制御
ゼロ知識型クレデンシャル管理
エージェント行動の完全監査
委任権限の有効期限設定

AIエージェントが企業システム内で自律的に行動する時代を迎え、1Password CTOのNancy Wang氏は、従来のエンタープライズIAM(IDおよびアクセス管理)がAIエージェントの特性を前提としていないため、深刻なセキュリティリスクが生じていると警告しています。

従来のIAMは、アクセス主体が人間であることを前提に設計されており、静的な役割ベースの権限付与、人間による説明責任、そして行動パターンによる異常検知という三つの柱で成立していました。しかしAIエージェント動的に権限を変化させ、複数システムで常時稼働し、複製・フォークが容易なため、これらの前提をすべて破壊します。

特にIDE(統合開発環境)がAIエージェントのオーケストレーターとなった開発環境では、プロンプトインジェクション攻撃が現実の脅威となっています。READMEなど一見無害なドキュメントに埋め込まれた悪意ある指示が、エージェント認証情報を漏洩させる可能性があり、信頼境界が意図せず侵食されます。

Wang氏は解決策として、IDを単なるセキュリティコンポーネントではなくAIエージェントの制御プレーンとして位置づけ直すことを提唱します。具体的には、エージェントを起動したユーザー・デバイス・時間帯・許可アクションをすべて考慮したコンテキスト対応アクセス制御、クレデンシャルをエージェントに見せないゼロ知識型オートフィル、そして委任権限の有効期限と自動失効機構が必要です。

NISTのゼロトラストアーキテクチャ(SP 800-207)も「AIを含む非人間エンティティはすべて認証されるまで非信頼扱い」と明記しており、規制面からも対応が急務です。Wang氏は「予測可能な権限と強制可能な信頼境界なしに、自律性はただの管理されないリスクになる」と締めくくっており、アジェンティックAIの本格普及には新たなID基盤の整備が不可欠です。

OpenAIがAIセキュリティ企業Promptfooを買収

買収の概要

Promptfoo買収を発表
Fortune500の25%超が利用
買収額は非公開
2025年7月時点で評価額86億円

エンタープライズへの統合

OpenAI Frontierに統合予定
自動レッドチーミング機能追加
オープンソース開発継続

OpenAIは2026年3月9日、AIセキュリティスタートアップのPromptfooを買収すると発表した。同社の技術はエンタープライズ向けAIエージェントプラットフォーム「OpenAI Frontier」に統合される予定だ。

Promptfooは2024年にIan WebsterとMichael D'Angeloが創業し、LLMのセキュリティ脆弱性をテストするツールを開発してきた。オープンソースのCLIおよびライブラリが広く普及し、Fortune500企業の25%以上に採用されている。

同社はこれまでに2300万ドルを調達しており、2025年7月の直近ラウンドでは評価額8600万ドルを記録していた。買収金額はOpenAIから開示されていない。

買収完了後、Frontierプラットフォームには自動レッドチーミングエージェントワークフローセキュリティ評価、リスクコンプライアンス監視といった機能が組み込まれる。プロンプトインジェクションデータ漏洩、ツールの不正利用など、エージェント特有のリスクに対処する。

AIエージェントが企業の実業務に深く組み込まれる中、セキュリティ・ガバナンスへの需要は急拡大している。OpenAIはこの買収を通じ、エンタープライズ顧客が安心してAIを基幹業務に展開できる環境づくりを加速させる方針だ。

マイクロソフトがAnthropicと協業しM365にAIエージェント投入

Copilot Cowork

M365横断の自律タスク実行
Anthropicとの共同開発技術
Work IQで業務コンテキスト把握
バックグラウンド並列処理対応

Agent 365とE7

Agent 365が月15ドルで提供
エージェントの一元可視化
ゼロトラストをAIに拡張
E7バンドルが月99ドルで登場

マイクロソフトは2026年3月9日、Anthropicと共同開発した「Copilot Cowork」をM365 Copilotに追加すると発表しました。ユーザーの指示を受け、Outlook・Teams・Excelなど複数のM365アプリにまたがって複雑な業務を自律実行するAIエージェント機能です。

Copilot CoworkはAnthropicの「Claude Cowork」と同じ技術基盤を持ちつつ、動作環境が大きく異なります。Claude Coworkがローカルファイルを扱う個人向けツールであるのに対し、Copilot CoworkはM365クラウド上で企業の既存セキュリティポリシーや監査要件の枠内で稼働します。

「Work IQ」によってメール・会議・SharePointファイルなど社内データ全体からコンテキストを把握し、カレンダー整理・会議準備・市場調査・資料作成などをバックグラウンドで並列処理します。重要な変更前には必ずユーザーの承認を求める仕組みです。

同日発表の「Agent 365」(月額15ドル/ユーザー)は企業内全AIエージェントの統制基盤です。各エージェントMicrosoft Entraで固有IDを付与してゼロトラスト原則を適用し、プロンプトインジェクションによる乗っ取り(ダブルエージェント)を検知・ブロックします。フォーチュン500企業の29%で未承認エージェントが稼働する現状への対応策です。

最上位ライセンス「M365 Enterprise 7」(月額99ドル/ユーザー)はCopilot・Agent 365・高度セキュリティスタックを一体提供します。ClaudeCopilotチャットにも直接統合され、マイクロソフトマルチモデル戦略OpenAI一極依存から脱却する姿勢を明確にしました。

GitHubがエージェント型ワークフローのセキュリティ設計を公開

多層防御の仕組み

3層アーキテクチャで隔離
サブストレート層がVM境界を保証
設定層が権限・接続を制御
計画層が段階実行を管理

エージェントへの制約

シークレット非公開原則を徹底
書き込みは全件バッファ後に検査
全トラストバウンダリで完全ログ取得

GitHubは2026年3月、CI/CD環境でAIエージェントを安全に動作させる「GitHub Agentic Workflows」のセキュリティアーキテクチャを公式ブログで詳細に公開した。同ワークフローGitHub Actions上で動作し、エージェントの非決定性とCI/CDの高権限環境が組み合わさる新たな脅威モデルに対応している。

脅威モデルの核心は、エージェントが信頼できない入力を処理しながらリポジトリ状態を自律的に判断するという特性にある。プロンプトインジェクション攻撃により、悪意あるウェブページやイシューがエージェントを操作し、シークレットの漏洩や不正なコミットを引き起こす可能性があるとGitHubは指摘している。

これに対してGitHubは「多層防御」「エージェントへのシークレット非公開」「全書き込みの段階的検査」「完全ログ記録」の4原則を設計指針とした。エージェントは専用コンテナに隔離され、ファイアウォールでインターネットアクセスを制限し、LLM認証トークンはAPIプロキシが代理保持する構造をとる。

書き込み操作については、エージェントが直接GitHubへ書き込むことを禁止し、Safe Outputs MCPサーバーを経由してバッファリングする仕組みを採用した。バッファされた操作はフィルタリング・コンテンツモデレーション・シークレット除去の3段階検査を経て初めて実行される。許可する操作の種類や上限件数もワークフロー作者が宣言的に指定できる。

ログ記録はファイアウォール層・APIプロキシ・MCPゲートウェイの各トラストバウンダリで徹底される。これによりインシデント後のフォレンジック解析や異常検知が可能となる。GitHubは今後、リポジトリオブジェクトの公開範囲や作者ロールに基づく情報フロー制御を追加する計画も明らかにしている。

Anthropic、インジェクション耐性を公開

公開データの内容

Claudeの攻撃成功率を開示
制約環境で成功率0%を達成
非制約時の脆弱性も明示

業界への影響

企業セキュリティチームが注目
透明性の新基準を提示
ベンダー間比較が可能に

AnthropicClaudeモデルのプロンプトインジェクション攻撃に対する失敗率データを公開しました。企業のセキュリティチームが求めていた透明性を提供しています。

制約付きコーディング環境ではClaude Opus 4.6への攻撃成功率は200回の試行で0%でした。セーフガードなしでもこの結果が得られています。

ただし非制約環境に移行すると成功率が上昇することも正直に開示されており、環境設計の重要性が強調されています。

これはAIベンダーがセキュリティデータを積極的に公開する画期的な動きです。他社にも同様の情報開示を求める圧力が高まる可能性があります。

企業がAIを本番導入する際、プロンプトインジェクション耐性は最重要評価項目の一つであり、今回の公開はその判断材料として大きな価値を持ちます。

OpenClawセキュリティ事案がエンタープライズAI展開に5つの重要教訓

教訓の内容

AIプラグインセキュリティ審査必須
最小権限原則の徹底が不可欠
サードパーティ拡張リスク評価
VentureBeatが5つの教訓を整理
AI信頼モデルの根本的見直し

企業のAI戦略

セキュリティファーストのAI調達
Red TeamによるAIシステム検証
インシデント対応計画のAI版作成

VentureBeatは2026年2月6日、OpenClawセキュリティ事案が企業のAI展開に与える教訓を5点にまとめた分析を掲載した。

第1の教訓はAIプラグイン・拡張機能は必ずセキュリティ審査を経てから展開すること。サードパーティ製コードは既存のセキュリティポリシーと同等の審査が必要だ。

第2は最小権限原則の徹底で、AIエージェントには必要最小限の権限のみを付与し、機密データへのアクセスを制限することが重要だ。

第3はプロンプトインジェクション対策で、入力の検証とサニタイズをAIシステムのアーキテクチャレベルで組み込む必要がある。

第4と第5はAI信頼モデルの見直しと定期的なRed Team演習の実施で、AIシステムの継続的なセキュリティ検証を仕組み化することの重要性を強調している。

OpenClaw AIスキル拡張機能がセキュリティ上の重大欠陥と判明

脆弱性の詳細

OpenClawスキル拡張が悪意ある実行を許可
サードパーティ製スキルの検証不足
ユーザーデータへの不正アクセスリスク
The Verge脆弱性詳細を報告
緊急のセキュリティパッチが必要な状況

企業への教訓

AIプラグインのサンドボックス化の重要性
サプライチェーン攻撃の新たなベクター

The Vergeは2026年2月4日、AIアシスタントOpenClawのスキル拡張機能が深刻なセキュリティリスクを持つことを報じた。悪意のあるコードが実行される可能性がある。

問題の核心はサードパーティ製スキルに対する検証・サンドボックス化が不十分な点で、攻撃者はプロンプトインジェクション手法でシステムを悪用できる。

ユーザーのプライベートデータや認証情報への不正アクセスが技術的に可能な状態となっており、企業環境での使用はリスクが高い。

この問題はAIアシスタントのプラグイン・スキルエコシステム全体のセキュリティ設計に関わる構造的課題を示しており、ChatGPTプラグインやGPT Storeにも同様のリスクが存在する可能性がある。

企業がAIツールを導入する際は、サードパーティ拡張機能のリスク評価とアクセス権限の最小化が不可欠であり、セキュリティ基準の整備が急務だ。

AIエージェント専用SNS「Moltbook」に人間が潜入、ウイルス型プロンプトの脅威も

Moltbookとは

人間は観察者として参加
記者が潜入レポート

セキュリティリスク

バイラルプロンプトの危険
Morris Wormとの類似性

Moltbookは、AIエージェントだけが投稿・コメント・フォローし合い、人間は観察するだけという実験的なSNSです。ところが実際には人間がAIになりすまして参加するという逆転現象が起きています。

Wiredの記者がMoltbookに潜入し、「人間はお断り」のプラットフォームで人間がどう振る舞うかを報告しました。AIエージェント専用ネットワークのユニークな社会実験として注目されています。

より深刻なのはセキュリティの懸念で、バイラルプロンプトがAIエージェントの行動を乗っ取り、感染的に広がる「プロンプトワーム」の可能性が指摘されています。これは1988年のMorris Wormとの類似が語られます。

マルチエージェント環境での有害プロンプトの連鎖的拡散は、自律的AIシステムが社会インフラに組み込まれる前に解決すべき重要なセキュリティ課題です。

Moltbookは技術的実験としてだけでなく、AIガバナンス研究の生きた実験場として、AI安全性コミュニティの関心を集めています。

AIエージェントがリンクをクリックするときのデータ保護ガイド

セキュリティリスク

AIエージェント悪意サイト訪問

防衛策

URLの事前検証
サンドボックス実行環境
最小権限原則の適用

AIエージェントがウェブブラウジングを行う際のセキュリティリスクについて詳細なガイドが公開されました。プロンプトインジェクション攻撃や悪意あるリンクへの対処法が解説されています。

特にサンドボックス実行と最小権限の原則の適用が重要であり、エンタープライズでのエージェント展開においては必須のセキュリティ設計です。

ドライブスルーAIへのプロンプトインジェクション攻撃

攻撃の仕組み

音声注文AIへの悪意ある入力
不正注文・情報窃取が可能
物理空間でのAI攻撃の新例
防御が極めて困難

セキュリティの示唆

実世界AIシステムの脆弱性
入力検証の重要性
LLMベースシステムの共通課題
エンタープライズ採用前の必須対策

IEEEの論文が、ファストフードのドライブスルーAI注文システムへのプロンプトインジェクション攻撃を実証した。音声入力に悪意ある指示を混入させることで不正な注文操作が可能になるというものだ。

この研究は、AIを実世界のサービスに組み込む際のセキュリティリスクを具体的に示している。LLMベースのシステムはすべてこの種の攻撃に脆弱である可能性がある。

エンタープライズがAIを業務に導入する際、入力バリデーションとサンドボックス化が必須であることを改めて示す事例だ。

AIセキュリティ専門企業depthfirstが40億円のシリーズAを調達

事業内容と投資背景

エンタープライズAIの防御に特化
AI資産のリスク評価・可視化を提供
企業のAI採用加速にセキュリティ需要が追随
大手VCが高い将来性を評価

AIセキュリティ専門企業のdepthfirstが4000万ドルのシリーズA資金調達を完了しました。エンタープライズAIシステムに対するプロンプトインジェクション攻撃、モデル汚染、データ漏洩リスクの検知と防御を専門とする同社は、企業のAI採用加速に伴うセキュリティ需要の急増から恩恵を受けています。

AIセキュリティ市場は急速に成長しており、従来のサイバーセキュリティとは異なる専門知識が必要とされることから、depthfirstのような専門企業への投資が増加しています。企業のCISOにとってAI特有のリスクに対応する専門ツールの必要性が高まっています。

AIセキュリティが変曲点に、Copilotへの攻撃からエンタープライズ脆弱性まで

具体的な脅威と事例

Copilotへのシングルクリック攻撃が発覚
AIハッキング能力が「変曲点」に到達
企業のAI投資セキュリティ盲点を生む
攻撃者のAI活用スキルが急速に向上

対策と業界動向

AIセキュリティ専門企業への投資が急増
レッドチーム演習の重要性が増す
AIと従来ITの境界防御の統合が必要
セキュリティファースト設計の普及を急ぐ
規制当局のAIセキュリティ基準策定が加速

AI関連のセキュリティ脅威が複数の報道で取り上げられ、現在が重要な変曲点にあることが示されています。Microsoftcopilotへのシングルクリック攻撃では、一つのリンクをクリックするだけで多段階の秘密裏な攻撃が実行される手法が実証されました。

WIREDが報じた分析によると、AIを使ったハッキング能力は急速に高度化しており、従来の「脆弱性の自動発見・悪用」から「エージェント型の持続的攻撃」へと進化しています。エンタープライズAI導入が進むほど、攻撃対象面が拡大するリスクがあります。

企業にとっての教訓は、AIシステムのセキュリティをアフターサラウンドではなく設計段階から組み込む必要があるということです。AI専門のセキュリティ企業へのV C投資が急増しており、depthfirstのような企業が$40M Series Aを調達していることもこの緊急性を反映しています。

AI推論セキュリティ:11の実行時攻撃がCISOを動かす

AIランタイム攻撃の実態

VentureBeatがCISOを動かす11種類の推論攻撃を特集
プロンプトインジェクション・データ抽出・モデル操作
ジェイルブレイク手法が本番AIシステムに到達
エージェント型AIシステムが新しい攻撃面を生む
RAG・ツール呼び出しを悪用したサイドチャネル攻撃
企業AIの本番稼働が攻撃者の標的に

VentureBeatの詳細な調査記事は、CISOがAI推論セキュリティプラットフォームの導入を決断する11の主要なランタイム攻撃手法を分類しました。プロンプトインジェクションから、RAG経由のデータ抽出、ツール呼び出しを悪用したサイドチャネル攻撃まで、現実の企業AIシステムに対して行われている攻撃手法が網羅されています。

エージェント型AIシステムの普及によって、攻撃面(アタックサーフェス)が大幅に拡大しています。AIエージェントがツールを呼び出し、外部システムと連携し、コードを実行する能力を持つため、従来のセキュリティ境界では守り切れない新しいリスクが生まれています。

AIセキュリティプラットフォーム市場が急速に成長しており、CISOは本番環境のAIシステムを守るための専門ツールの導入を急いでいます。日本企業でもAIセキュリティの内製化・外部委託を検討する動きが広がっています。

ChatGPTにデータ窃取攻撃——AIの脆弱サイクルが繰り返される

新たなプロンプトインジェクション攻撃

ChatGPTに対する新型データ窃取攻撃が発見
AIの修正と新たな攻撃手法の繰り返しが続く
悪意あるWebページやドキュメントからの自動攻撃も可能
ユーザーデータの機密性に深刻なリスク
AIの安全修正とエクスプロイトの軍拡競争が継続

Arstechnicaは、ChatGPTに対する新しいデータ窃取攻撃の存在を報告しました。プロンプトインジェクションの手法を悪用し、ユーザーの会話内容を外部に漏洩させることができるとされています。攻撃者は悪意のあるWebコンテンツやドキュメントを通じてChatGPTに不正な指示を埋め込み、機密情報を窃取します。

Arstechnicaは「AIにおける悪循環」と表現しており、OpenAIがある攻撃を修正すると新たな手法が登場するという攻撃と修正の繰り返しが続いています。これはAIシステムのセキュリティが根本的に解決困難な問題であることを示しています。

企業がChatGPTを業務で使用する場合、機密性の高い情報の入力には注意が必要です。AIセキュリティのベストプラクティスの策定と、エンタープライズ向けのセキュリティ機能の強化が急務となっています。

AIサプライチェーン可視化の7ステップ:侵害前に備えよ

AIサプライチェーンリスクの実態

エンタープライズアプリの4割がAIエージェントを組み込む
外部LLM依存が新たなサプライチェーンリスクを生む
学習データの出所が不透明なまま本番展開
モデルポイズニング攻撃が現実の脅威に
サードパーティAPI経由の機密データ漏洩
インシデント対応計画にAI要素が未整備

セキュリティ強化の実践ステップ

使用中のAIコンポーネントの棚卸しが第一歩
学習データとモデルの来歴を文書化
APIアクセス制御と最小権限原則の適用
AIの出力を信頼せず常に検証する姿勢
インシデント対応計画にAIシナリオを追加
継続的な監視とログ記録の整備

Gartnerの予測によれば、2026年までにエンタープライズアプリケーションの約40%がタスク専用AIエージェントを組み込むとされる。これはAIが業務の中核に埋め込まれることを意味し、それに伴うサプライチェーンリスクが急速に高まっている。

AIサプライチェーンリスクの核心は、企業が利用するLLMやエージェント学習データ・モデルウェイト・APIエンドポイントの出所が不透明な点にある。悪意ある学習データ(バックドア・ポイズニング)や漏洩した学習データが問題化する事例が増加している。

実践的な対策として、まず自社のシステムで使用されているすべてのAIコンポーネントを棚卸し(インベントリ化)することが推奨される。SBOMのAI版にあたる「AI-BOM」(AI部品表)の概念が業界で広まりつつある。

次のステップとして、外部APIへのアクセス制御と最小権限原則の適用が重要だ。AIエージェントに必要以上のシステムアクセス権を与えないことで、侵害時の被害範囲を限定できる。

インシデント対応計画へのAIシナリオ追加も急務だ。従来のサイバーセキュリティ計画はAI固有のリスク(モデル汚染・プロンプトインジェクションデータ漏洩)を想定していないことが多く、AIを組み込んだシナリオでの訓練が必要とされる。

企業AIエージェント時代のセキュリティ課題と大規模運用の壁

プロンプトインジェクションの脅威

OpenAIプロンプトインジェクションは永続的脅威と公式認定
企業の65.3%が専用防御策を未導入の状態
AIエージェントの自律性が高いほど攻撃面が拡大
LLMベースの自動攻撃ツールが人間のテストを超える発見
防御の決定論的保証は不可能とOpenAIが認める
共有責任モデルで企業側の対策強化が求められる

100エージェント規模運用の課題

96%の組織でAIコストが予想を超過
71%がコスト発生源を把握できていない状態
再帰ループや統合コストが大規模化で指数的に増大
「プロダクションウォール」がパイロット後の拡張を阻む
ガバナンスの欠如が最大の障壁と68%の組織が回答
全アクセス型AIエージェントプライバシーリスクを増幅

OpenAIは自社のChatGPT Atlasプロンプトインジェクションから守る取り組みを詳細に公開し、「プロンプトインジェクションはウェブ上の詐欺やソーシャルエンジニアリングと同様、完全には解決できない」と公式に認めました

VentureBeatが実施した100名の技術意思決定者への調査では、専用のプロンプトインジェクション防御策を導入済みの組織はわずか34.7%にとどまり、残り65.3%はデフォルトのモデル保護に依存しているという実態が明らかになりました。

OpenAIが開発したLLMベースの自動攻撃ツールは、強化学習でエンドツーエンドに訓練されており、人間のレッドチームが見つけられなかった脆弱性を発見できる能力を持ちます。実際に悪意あるメールがAtlasエージェントを騙して辞表を作成させた事例も報告されています。

IDCの調査によると、生成AIを導入した組織の96%がコストが予想を超えたと回答しており、エージェントを10台から100台に拡張する際に運用上の複雑さが指数的に増大することが最大の課題となっています。

WIREDは、AIエージェントが完全に機能するためにはOSレベルへのアクセスが必要であり、これがプライバシーに対する「実存的脅威」になりうるとSignal Foundation代表のMeredith Whittakerが指摘していると報じています。データアクセスの問題は今後さらに深刻化する見通しです。

エージェントが広範な権限を持つほど攻撃面が拡大するというジレンマに対し、企業はログアウトモードの活用や過度に広いプロンプトの回避など、運用設計での対応が求められています。セキュリティ確保と利便性のバランスが今後の課題です。

LLMガードレール強化とOSSサプライチェーン攻撃対策の最新動向

AprielGuardによるLLMセキュリティ

多段階Jailbreakやプロンプトインジェクションに対応
エージェント向けの安全性・堅牢性ガードレールを提供
ツール呼び出し・メモリ・コード実行など複合脅威を防御
エンタープライズグレードのLLM保護レイヤーを実現
マルチターン攻撃への対応が特に重要視
現代のエージェントシステムに特化した設計

OSSサプライチェーン攻撃への対策

Shai-Huludマルウェアキャンペーンの教訓を整理
侵害された認証情報を起点とした多波攻撃パターン
悪意あるパッケージライフサイクルスクリプトが主要手法
メンテナーのワークフローが攻撃の標的に
公開パイプラインの信頼境界を悪用する攻撃
再現性ある教訓と具体的アクションを提示

AprielGuardはモダンなLLMシステム向けの安全性と敵対的堅牢性のためのガードレールソリューションとして発表されました。エージェント化が進むLLMが直面する多段階Jailbreakやプロンプトインジェクション、ツール呼び出しの悪用など複合的な脅威に対応します。

OSSセキュリティの観点では、Shai-HuludキャンペーンのようなサプライチェーンマルウェアがOSSエコシステムを継続的に脅かしています。攻撃者は素早く学習し、メンテナーの認証情報と公開パイプラインの信頼を悪用する戦術を取ります。

2つの記事が示すのは、AIとソフトウェアのセキュリティが不可分に絡み合っているという現実です。LLMを使うシステムはAI固有の攻撃面とソフトウェアサプライチェーンの両方を守る必要があります。

LLMへのプロンプトインジェクション対策と攻撃の実態が明らかに

OpenAIのエージェント防御強化

ChatGPT Atlas強化学習ベースの自動レッドチームを導入
ブラウザエージェントへの実世界の攻撃手法を発見
本番悪用前にパッチ適用するプロアクティブ防御
プロンプトインジェクション攻撃を継続的に検出
エージェントモードが最も汎用的な攻撃対象に
強化学習でエクスプロイトパターンを自動生成

レッドチームが示すLLM脆弱性の現実

高度な攻撃より自動化された反復攻撃が有効
モデルごとに失敗パターンが大きく異なる
継続的・無差別な試行でどのモデルも破られる
AIアプリ開発者は前提として失敗を織り込むべき
洗練された攻撃でなく量と継続が鍵
セキュリティモデルの根本的な見直しが必要

OpenAIChatGPT Atlasエージェントモードに対し、強化学習を活用した自動レッドチームシステムを導入し、プロンプトインジェクション攻撃を継続的に発見・修正するサイクルを確立したと発表しました。このシステムはブラウザエージェントの実世界での脆弱性を先行的に特定します。

VentureBeatが報じたレッドチーム研究によると、LLMセキュリティの「厳しい真実」は、高度な攻撃よりも単純な自動化された反復攻撃が有効であることです。あらゆるモデルは十分な試行回数があれば失敗することが示されています。

これらの知見はAIアプリやプラットフォームの開発者に対し、セキュリティを完璧に防ぐという発想を捨て、失敗を前提とした設計への転換を促しています。モデルの種類によって脆弱性のパターンが異なるため、包括的なテストが不可欠です。

AI信頼性の危機:巻き戻し・ベンチマーク論争・根拠なき導入への警鐘

OpenAIのモデルルーター撤回と消費者の本音

ChatGPTのモデルルーターをFree・Goユーザー向けに**静かに廃止**
推論モデルの利用率が1%未満から7%へ増加したが**DAUが低下**
思考中ドット20秒は「Googleより遅い」と利用離れを直撃
有料プラン(Plus・Pro)ではルーターを**継続提供**
GPT-5.2 Instantの安全性向上を理由に、センシティブ対話の特別ルーティングも廃止
ルーター技術は改善後に無料層へ**再投入予定**

Zoomのベンチマーク首位宣言と「コピー」批判

Humanity's Last Examで48.1%を記録し**歴代最高スコア**を主張
独自モデルを学習させず、OpenAIGoogleAnthropic APIを束ねた**フェデレーテッドAI**
Z-scorerで複数モデルの回答を評価・選択する「AIトラフィックコントローラー」
研究者から「他社の成果を横取りしている」と**強い批判**
一方でKaggle的アンサンブルとして「実践的に正しい手法」と**評価する声も**
顧客が本当に必要な通話文字起こし検索などの問題は未解決との指摘

エンタープライズAIに求められる「根拠」と信頼性

SAP Jouleはテラバイト規模の**企業内知識でRAGをグラウンディング**
コンサルタント認定試験で95%超を達成し実用精度を実証
導入企業のコンサルタントの**1日1.5時間を節約**、Wiproは700万時間を削減
リアルタイムインデックスで最新ドキュメントを即時反映
プロンプトインジェクション・ガードレール・GDPRに対応した**エンタープライズ級セキュリティ**
次フェーズは顧客固有の設計書・システムデータによる**二重グラウンディング**

AI業界において、精度・速度・信頼性のトレードオフが改めて問われています。OpenAIChatGPTのモデルルーターを無料・Goユーザーから撤廃しましたが、背景には推論モデルの高コストとユーザー離れという現実がありました。

モデルルーターは「最適なモデルを自動選択する」という魅力的な理念を持っていましたが、応答に最大数分を要する推論モデルへの自動振り分けが日常的なチャット体験の速度感と相容れず、ユーザー離れを招いたと見られています。

Zoomはベンチマーク「Humanity's Last Exam」でGoogle Gemini 3 Proを上回る48.1%を記録し、AI業界に驚きと議論を呼びました。ただしZoomは自社でモデルを学習させたわけではなく、OpenAIGoogleAnthropicのAPIを束ねたオーケストレーション基盤で結果を出しています。

この手法に対し、「他社の研究成果を横取りしている」という批判が研究者から噴出しました。一方で、複数モデルのアンサンブルはKaggleの勝利戦略と同種であり、実用的には理にかなっているという擁護論も出ています。

批判の核心は技術の是非ではなく、「モデルを開発した」という誤解を招く発表姿勢にあります。また、通話文字起こしの検索精度など実際のユーザー課題がベンチマーク追求の陰で放置されているという指摘も重要です。

エンタープライズ向けでは、SAPがJoule for Consultantsという形でグラウンディングAIの方向性を示しています。テラバイト規模の企業内知識とリアルタイムインデックスを組み合わせ、SAP認定試験で95%超の精度を維持しています。

SAP Jouleの特徴は、汎用LLMをそのまま使うのではなく、SAP固有の知識基盤・人間のコンサルタントが監修したゴールデンデータセット・厳格なセキュリティ層を重ねた点にあります。これにより、百万ドル規模の変革プロジェクトで求められる正確性を担保しています。

3つのニュースに共通するのは、AIの「見かけ上の性能」と「実務での信頼性」の乖離です。速さを求めて精度を落とすか、精度を求めて速さを犠牲にするか、あるいは他社モデルを束ねて帳尻を合わせるか——いずれのアプローチも一長一短があります。

エンタープライズAIの普及フェーズにおいては、ベンチマークのスコアよりも、根拠のある回答・透明性のある動作・データガバナンスへの信頼が差別化要因になりつつあることをこれら3件の記事は示唆しています。

今後、ユーザーの実体験がAI製品の評価軸として一層重要になると考えられます。OpenAIのルーター再投入やZoomのAI Companion 3.0のリリース、SAPの二重グラウンディング展開など、各社の次手が信頼性の証明になるかどうか注目されます。

Googleが管理型MCP提供開始 AIと実データの連携を簡易化

AI開発の工数を大幅削減

マネージドMCPサーバーをプレビュー公開
MapsやBigQuery等と即座に連携可能
独自コネクタ開発が不要、URL設定のみ

既存資産の活用と統制

Apigee連携で既存APIを変換可能
企業水準のセキュリティと統制を適用
Anthropic発の標準規格MCPを採用

Googleは10日、AIエージェントGoogle MapsやBigQueryなどの自社サービスに容易に接続できる「フルマネージドMCPサーバー」を発表しました。従来開発者が手動で構築していたコネクタ部分をGoogleが管理・提供することで、AIと実データの連携を簡素化し、開発工数の削減とガバナンスの強化を実現します。

これまでAIエージェントを外部ツールと連携させるには、複雑なコネクタの開発と維持が必要でした。今回の発表により、開発者URLを指定するだけで、安全かつ信頼性の高い接続が可能になります。Google Cloud幹部は「Google全体をエージェント対応(Agent-ready)にする設計だ」と述べています。

初期対応サービスには、Google Maps、BigQuery、Compute Engine、Kubernetes Engineが含まれます。これにより、AIは最新の地理情報に基づいた旅行計画や、大規模データへの直接クエリ、インフラ操作などが可能になります。現在はパブリックプレビューとして、既存顧客に追加コストなしで提供されています。

採用されたMCP(Model Context Protocol)はAnthropicが開発したオープンソース標準であり、ClaudeChatGPTなどの他社クライアントとも連携可能です。また、GoogleのAPI管理基盤「Apigee」を使えば、企業は既存のAPIをMCPサーバーに変換し、セキュリティ設定を維持したままAIに開放できます。

企業利用を前提に、権限管理の「IAM」や、プロンプトインジェクション等の脅威を防ぐ「Model Armor」といった高度なセキュリティ機能も統合されています。Googleが「配管工事」を担うことで、エンジニアエージェントの本質的な価値創造に集中できるようになります。

Google、ChromeのAI代行機能に多層的な防御策を導入

AIモデルによる相互監視システム

Gemini活用の批評家モデルが行動計画を監査
Web内容ではなくメタデータのみを参照し判断
不正なページ遷移を別モデルが監視・阻止

厳格なアクセス制御と人間介入

読み取り・書き込み可能な領域を厳格に制限
決済や機密情報の扱いはユーザー承認が必須
パスワード情報はAIモデルに開示しない設計

Googleは8日、Chromeブラウザに実装予定のAIエージェント機能に関し、セキュリティ対策の詳細を明らかにしました。ユーザーの代わりにWeb操作を行う利便性を提供する一方、情報漏洩などのリスクを最小化するため、AIによる監視と厳格な権限管理を組み合わせた多層防御を導入します。

具体策の中核は「批評家モデル」による相互監視です。Geminiベースのモデルが、実行計画がユーザーの目的に合致しているかをメタデータレベルで監査し、逸脱があれば修正を求めます。また、AIがアクセスできる領域を限定し、不要なデータ取得や悪意あるサイトへの誘導も遮断します。

最も重要な決定権は人間に残されます。決済や医療データなどの機密タスクを実行する際や、ログインが必要な場面では、必ずユーザーに許可を求めます。AIモデル自体にはパスワード情報を渡さず、既存の管理機能を経由させることで、利便性と安全性の両立を図っています。

GitHub直伝、AIエージェントを安全に実装する「6つの原則」

エージェント特有の3大リスク

外部への意図せぬデータ流出
責任所在が不明ななりすまし
悪意ある指令によるプロンプト注入

安全性を担保する設計原則

コンテキスト可視化と透明性
外部通信を制限するファイアウォール
権限に応じた厳格なアクセス制限
不可逆的な変更の禁止と人間介在
操作主とAIの責任分界の明確化

GitHubは2025年11月25日、同社のAI製品に適用している「エージェントセキュリティ原則」を公開しました。AIエージェントが高い自律性を持つようになる中、開発者が直面するセキュリティリスクを軽減し、安全なAI活用を促進するための実践的な指針です。

エージェント機能の高度化は、新たな脅威をもたらします。特に、インターネット接続による「データ流出」、誰の指示か不明確になる「なりすまし」、そして隠しコマンドで不正操作を誘導する「プロンプトインジェクション」が主要なリスクとして挙げられます。

これらの脅威に対し、GitHubは徹底した対策を講じています。まず、AIに渡されるコンテキスト情報から不可視文字を除去して完全可視化し、外部リソースへのアクセスをファイアウォールで制限することで、隠れた悪意や情報漏洩を防ぎます。

また、AIがアクセスできる機密情報を必要最小限に絞り、不可逆的な変更(直接コミットなど)を禁止しています。重要な操作には必ず人間による承認(Human-in-the-loop)を必須とし、AIと指示者の責任境界を明確に記録します。

これらの原則はGitHub Copilotに限らず、あらゆるAIエージェント開発に適用可能です。自社のAIシステムを設計する際、ユーザビリティを損なわずに堅牢なセキュリティを構築するための重要なベンチマークとなるでしょう。

AnthropicがOpus 4.5発表、性能と対費用効果で他社圧倒

コーディング性能で世界首位を奪還

SWE-benchで80.9%を記録し首位
社内試験で人間のエンジニアを凌駕
推論エージェント操作でSOTA達成

実用性を高める新機能と価格戦略

入力5ドル・出力25ドルへ大幅値下げ
推論深度を調整できるEffort機能
文脈を維持し続ける無限チャット

Anthropicは24日、最上位AIモデル「Claude Opus 4.5」を発表しました。コーディングエージェント操作で世界最高性能を達成しつつ、利用料を大幅に引き下げたのが特徴です。OpenAIGoogleとの競争が激化する中、エンジニアリング能力とコスト効率の両立で市場の覇権を狙います。

特筆すべきは実務能力の高さです。開発ベンチマーク「SWE-bench Verified」で80.9%を記録し、競合モデルを凌駕しました。同社の採用試験でも、制限時間内に人間のエンジニア候補を超える成績を収めています。

コストパフォーマンスも劇的に向上しました。価格は入力5ドル・出力25ドルと大幅に低減。新機能「Effortパラメータ」を使えば、タスクの重要度に応じて推論の深さと消費コストを柔軟に調整し、最適化できます。

ユーザー体験の制限も解消されました。会話が長引くと自動要約で文脈を維持する「無限チャット」を導入。ExcelやChromeとの連携も強化され、複雑なワークフローを中断することなく自律的に遂行可能です。

企業利用を見据え、安全性も強化されています。悪意ある命令を防ぐ「プロンプトインジェクション」への耐性は業界最高水準に到達。性能、コスト、安全性の全方位で進化した本モデルは、AIエージェントの実用化を加速させるでしょう。

マイクロソフト、新AI機能のデータ窃盗リスクを公式警告

新機能「Copilot Actions」

日常業務を自律的に実行する機能
生産性向上のための実験的エージェント

警告される重大リスク

デバイス感染やデータ窃盗の恐れ
ハルシネーションによる誤情報

安全性への批判と対策

安全確保前の機能提供に批判の声
導入はセキュリティリスクの理解が前提
出力結果の人間による確認が必須

マイクロソフトは11月19日、Windows向けの新機能「Copilot Actions」において、デバイスへの感染や機密データの窃盗につながるリスクがあると警告しました。同社はこの実験的なAI機能を有効にする際、セキュリティへの影響を十分に理解した上で利用するようユーザーに求めています。

Copilot Actions」は、ファイル整理や会議設定、メール送信などの日常業務を自律的に実行するエージェント機能です。ユーザーに代わって複雑なタスクを処理し、ビジネスの生産性と効率性を飛躍的に高める「能動的なデジタル・コラボレーター」として設計されています。

しかし、基盤となる大規模言語モデル(LLM)には脆弱性が残ります。特に懸念されるのがプロンプトインジェクションです。これは、Webサイトやメールに含まれる悪意ある指示をAIが正規の命令と誤認し、攻撃者の意図通りに動作してしまう現象を指します。

また、事実に基づかない回答を生成するハルシネーションも依然として課題です。セキュリティ専門家からは、危険性が十分に制御されていない段階で新機能を推進するビッグ・テックの姿勢に対し、厳しい批判の声が上がっています。

AIによる自動化は魅力的ですが、現段階では人間の監督が不可欠です。経営者エンジニアは、新機能の導入による生産性向上とセキュリティリスクを天秤にかけ、慎重な運用設計と監視体制を行う必要があります。

LangChain、安全なコード実行サンドボックス発表

AIエージェント開発の課題

悪意あるコード実行のリスク
開発環境の複雑化と汚染
複数エージェントの並列実行
長時間タスクによるPC占有

サンドボックスがもたらす価値

隔離環境で安全なコード実行
クリーンな環境を即時構築
リソース競合なく並列処理
チーム間で実行環境を統一

LangChain社が、AIエージェント開発プラットフォーム「DeepAgents」向けに、生成されたコードを安全に実行するための新機能「Sandboxes」を発表しました。この機能は、Runloop、Daytona、Modalの3社と提携し、ローカルマシンから隔離されたリモート環境でコードを実行することで、悪意のあるコードによるリスクを排除します。開発者は安全性と環境の再現性を両立できます。

なぜサンドボックスが必要なのでしょうか。AIエージェントは自律的にコードを生成・実行するため、意図せずシステムに損害を与える危険性がありました。また、開発環境に特定のライブラリを追加する必要があるなど、環境構築の複雑化も課題でした。サンドボックスは、こうした安全性や環境汚染の問題を解決し、クリーンで一貫性のある実行環境を提供します。

DeepAgent自体は開発者のローカルマシンなどで動作しますが、コードの実行やファイルの作成といった命令はリモートのサンドボックス内で行われます。エージェントはサンドボックス内のファイルシステムやコマンド出力を完全に把握できるため、あたかもローカルで作業しているかのように、自然な対話と修正を繰り返すことが可能です。

導入は非常に簡単です。提携するサンドボックスサービスのアカウントを作成し、APIキーを環境変数として設定します。その後、DeepAgentsのコマンドラインツール(CLI)で簡単なコマンドを実行するだけで、サンドボックスをエージェントに接続し、利用を開始できます。セットアップスクリプトで環境の事前準備も可能です。

サンドボックスは強力ですが、万能ではありません。悪意のあるプロンプト入力によって機密情報が漏洩する「プロンプトインジェクション」のリスクは残ります。対策として、人間による監視(Human-in-the-loop)や、有効期間の短いAPIキーを使うなどの対策が推奨されています。

LangChainは今後、サンドボックスの設定オプションをさらに拡充し、実際の業務で活用するための具体例を共有していく計画です。AIエージェントがより安全かつ強力なツールとしてビジネスの現場で活用される未来に向け、開発者コミュニティと共に機能を進化させていく方針です。

OpenAI、AIを騙す新脅威への多層防御策を公開

AIを騙す新たな脅威

会話AI特有のソーシャルエンジニアリング
第三者が悪意ある指示を会話に注入
個人情報の漏洩や誤作動の危険

OpenAIの多層防御戦略

モデル自体の堅牢性向上と訓練
AIによる攻撃の自動監視とブロック
サンドボックス化など製品レベルでの保護
ユーザーによる確認と操作監視の徹底

OpenAIが2025年11月7日、AIを悪用する新たなサイバー攻撃「プロンプトインジェクション」のリスクと対策を公開しました。これは、第三者が悪意ある指示をAIとの対話に紛れ込ませ、意図しない動作を引き起こさせる攻撃手法です。AIがより自律的なエージェントとして進化する中、OpenAIはモデルの堅牢化からユーザー保護機能まで、多層的な防御戦略でこの脅威に立ち向かう姿勢を明確にしました。

プロンプトインジェクションとは、会話型AIに特化したソーシャルエンジニアリング攻撃です。人間がフィッシングメールに騙されるように、AIがWebページなどに隠された悪意ある指示を読み込み、ユーザーの意図に反して誤った商品を推奨したり、機密情報を漏洩させたりする危険性を持ちます。

このリスクは、AIが単なる応答ツールから、Web閲覧や他アプリと連携して自律的にタスクをこなすエージェント」へと進化するにつれて深刻化します。ユーザーのメールや個人データへアクセスする機会が増えるため、一度の攻撃で甚大な被害につながる可能性があるのです。

OpenAIは、この脅威に対抗するため「単一の万能薬はない」とし、多層的な防御アプローチを採っています。モデル自体の堅牢性を高める研究開発から、AIによる攻撃の自動監視、製品設計レベルでの安全機能、そしてユーザー自身によるコントロールまで、複数の防御壁を設けています。

具体的な対策として、モデルが信頼できる指示とそうでない指示を区別する「Instruction Hierarchy」という研究を進めています。また、AIを活用した監視システムが新たな攻撃パターンを迅速に検知・ブロックし、継続的なモデルの改善を支えています。

ユーザー保護の観点では、AIがコードを実行する際に外部への影響を防ぐ「サンドボックス」技術や、商品の購入といった重要な操作の前にユーザー確認を求める機能も実装。利用者がAIの行動を常に把握し、制御下に置けるよう設計されています。

OpenAIはユーザー自身にも対策を呼びかけています。AIエージェントに与えるアクセス権を必要最小限に絞る、指示は具体的に出す、重要な操作は必ず確認するなど、慎重な利用が自身のデータを守る鍵となります。

プロンプトインジェクションは、技術の進化とともに形を変える継続的な課題です。OpenAIは、今後も研究開発への投資を続け、発見した知見を共有することで、社会全体で安全にAIの恩恵を享受できる世界の実現を目指すとしています。

AIエージェントの弱点露呈、マイクロソフトが実験場公開

AI市場シミュレータ公開

マイクロソフトが開発・提供
名称はMagentic Marketplace
AIエージェントの行動を研究
OSSとして研究者に公開

判明したAIの主な脆弱性

選択肢過多で性能が低下
意図的な情報操作に弱い
応答順など体系的な偏りも露呈

マイクロソフトは2025年11月5日、AIエージェントの市場行動を研究するためのシミュレーション環境「Magentic Marketplace」をオープンソースで公開しました。アリゾナ州立大学との共同研究で、GPT-5など最新モデルをテストした結果、選択肢が多すぎると性能が落ちる「選択のパラドックス」や、意図的な情報操作に対する深刻な脆弱性が明らかになりました。

今回の実験で最も驚くべき発見の一つは、AIエージェントが「選択のパラドックス」に陥ることです。選択肢が増えるほど、より良い結果を出すと期待されるのとは裏腹に、多くのモデルで消費者利益が低下しました。例えばGPT-5は、選択肢が増えると性能が最適値の2000から1400へ大幅に低下。これは、AIが持つコンテキスト理解の限界を示唆しています。

さらに、AIエージェントは情報操作に対しても脆弱であることが判明しました。偽の権威付けや社会的証明といった心理的戦術から、悪意のある指示を埋め込むプロンプトインジェクションまで、様々な攻撃をテスト。その結果、GPT-4oなどのモデルは、操作した事業者へ全ての支払いを誘導されてしまうなど、セキュリティ上の重大な懸念が浮き彫りになりました。

実験では体系的な偏り(バイアス)も確認されました。一部のオープンソースモデルは、検索結果の最後に表示された事業者を優先的に選択する「位置バイアス」を示しました。また、多くのモデルが最初に受け取った提案を安易に受け入れる「提案バイアス」を持っており、より良い選択肢を見逃す傾向がありました。こうした偏りは、市場の公正性を損なう恐れがあります。

「Magentic Marketplace」は、こうした複雑な問題を安全に研究するために開発されたプラットフォームです。現実世界では難しい、多数のエージェントが同時に相互作用する市場をシミュレートし、消費者保護や市場効率、公平性といった課題を検証できます。マイクロソフトは、この環境を研究者に開放することで、AIが社会に与える影響の解明を加速させたい考えです。

今回の研究結果は、AIエージェントの実用化にはまだ多くの課題があることを示しています。特に、重要な意思決定をAIに完全に委ねるのではなく、人間が監督する「ヒューマン・イン・ザ・ループ」の仕組みが不可欠です。企業がAIエージェントを導入する際には、こうした脆弱性を十分に理解し、対策を講じる必要があります。今後の研究開発の焦点となるでしょう。

グーグル、AI開発基盤を刷新 観測・統制を強化

エージェント開発を高速化

最先端のコンテキスト管理
自己修復機能付きプラグイン提供
開発キットでGo言語を追加サポート
ワンクリックでの本番環境移行

本番運用のガバナンス強化

観測ダッシュボードで稼働監視
エージェントIDによる監査証跡の明確化
プロンプト注入などを防ぐ新機能
パフォーマンスを事前評価する機能

Google Cloudは2025年11月5日、AI開発プラットフォーム「Vertex AI」の中核をなす「Agent Builder」の大規模アップデートを発表しました。この更新は、企業がAIエージェントの構想から設計、展開までをより迅速かつ安全に行えるようにするものです。主な特徴は、開発プロセスを加速する新ツール群と、本番運用に不可欠なガバナンス機能を大幅に強化した点にあります。

開発の高速化は、今回のアップデートの大きな柱です。最先端のコンテキスト管理レイヤーや、失敗したタスクを自己修復する事前構築済みプラグインを導入。開発キット(ADK)はPythonやJavaに加え、新たにGo言語をサポートしました。さらに、コマンド一つでローカル環境からテスト環境へ移行できる「ワンクリックデプロイ」機能も提供します。

同時に、企業利用で必須となるガバナンス機能も大幅に拡充されました。新たに導入された観測可能性ダッシュボードでは、トークン消費量やエラー率などを本番環境で追跡できます。また、エージェントに固有のIDを付与して監査証跡を明確にする機能や、プロンプトインジェクションを防ぐ「Model Armor」も搭載されました。

この観測可能性ダッシュボードは、開発者にとって強力なツールとなるでしょう。本番環境で稼働するエージェントトークン消費量、エラー率、レイテンシー(遅延)を可視化し、問題が発生した際の原因特定と再現を容易にします。これにより、クラウドベースでの本番監視が格段に効率化され、安定した運用が可能になります。

Google CloudがAgent Builderの強化を急ぐ背景には、熾烈な開発者獲得競争があります。OpenAIの「AgentKit」やマイクロソフトの「Azure AI Foundry」、AWSの「Bedrock」など、競合他社もAIエージェント開発基盤の機能拡充を競っています。今回のアップデートは、自社エコシステム内に開発者を留め、競争優位性を確保するための戦略的な一手と言えるでしょう。

AIがウェブ体験を再定義、第3次ブラウザ戦争勃発

AIが変えるブラウジング

AIエージェントウェブ操作を代行
検索」から「実行」への移行
チャット形式でタスクを依頼

覇権を狙う新興勢力

OpenAIPerplexityが参入
Chrome牙城を崩す好機
豊富なユーザーデータが主戦場

変化への期待とリスク

ウェブのオープン性が損なわれる懸念
新たなセキュリティ脅威の発生

OpenAIなどがAI搭載ブラウザを相次いで発表し、Google Chromeの牙城に挑む「第3次ブラウザ戦争」が勃発しました。ユーザーの代わりにウェブサイトを操作するAIエージェント機能を武器に、各社はウェブの新たな入り口となる覇権を狙います。これは、単なるブラウザのシェア争いではなく、ウェブの利用方法そのものを根底から変える可能性を秘めています。

なぜ今、ブラウザ戦争が再燃しているのでしょうか。背景には、AI技術の急速な進化があります。AIアシスタントが真価を発揮するには、ユーザーが最も時間を費やすブラウザへの統合が不可欠だからです。加えて、Googleへの規制強化という追い風も、新興企業に参入の好機を与えています。

AIブラウザが狙うのは3つの価値です。1つは閲覧履歴から得られる膨大なユーザーデータ。2つ目は各種サービスと連携しタスクをこなすプラットフォーム機能。そして3つ目は、検索窓に代わる「意図の入力点」の掌握です。

これまでの戦争とは、目指すものが根本的に異なります。第1次が「ウェブページへのアクセス」、第2次が「ウェブアプリの高速化」を競ったのに対し、今回の第3次は「AIエージェントによるタスクの自動実行」が主戦場です。私たちはURLを入力する代わりに、AIに目的を告げるだけになるかもしれません。

一方でリスクも指摘されます。悪意ある指示でAIを操る「プロンプトインジェクション」等の新たなセキュリティ脅威や、AI企業によるデータ収集というプライバシー問題です。ウェブのオープンな性質が失われる懸念も浮上しています。

絶対王者Googleも対抗します。ブラウザ「Chrome」に自社AI「Gemini」を統合し、機能強化を図っています。しかし、独占禁止法などの制約も多く、新興勢力に比べて慎重な動きを取らざるを得ません。この対応の差が勝敗を分ける可能性もあります。

「第3次ブラウザ戦争」は、私たちのウェブとの関わり方を一変させる可能性を秘めています。勝者が手にするのは、単なる市場シェアではなく、未来のコンピューティングにおける中心的な役割です。どの企業が次世代の標準を築くのか、各社の動向から目が離せません。

「AIブラウザは時限爆弾」専門家が重大警鐘

AIブラウザの3大リスク

性急な開発と未知の脆弱性
AIの記憶機能による過剰な追跡
悪用されやすいAIエージェント

巧妙化する攻撃手法

指示を注入するプロンプト攻撃
画像やメールに隠された命令
自動化による無限試行攻撃

ユーザーができる自衛策

AI機能は必要な時だけ利用
安全なサイトを手動で指定

OpenAIマイクロソフトなどが開発を急ぐAI搭載ブラウザについて、サイバーセキュリティ専門家が「時限爆弾だ」と重大な警鐘を鳴らしています。AIエージェントの悪用や過剰な個人情報追跡といった新たな脆弱性が指摘され、利便性の裏でユーザーが未知のリスクに晒されているとの懸念が急速に広がっています。

最大の脅威は「プロンプトインジェクション」です。これは、攻撃者がAIエージェント悪意のある指示を注入し、ユーザーに代わって不正操作を行わせる手口。画像やメールに巧妙に隠された命令で個人情報を盗んだり、マルウェアを仕込んだりする危険性があります。

また、AIブラウザは閲覧履歴やメール内容などあらゆる情報を学習する「記憶」機能を持ちます。これにより、かつてないほど詳細な個人プロファイルが生成されます。この情報がひとたび漏洩すれば、クレジットカード情報などと結びつき、甚大な被害につながりかねません。

各社が開発競争を急ぐあまり、製品の十分なテストや検証が不足している点も問題です。未知の脆弱性が残されたまま市場投入され、ハッカーに悪用される「ゼロデイ攻撃」のリスクを高めていると専門家は指摘。技術の急進展が安全性を犠牲にしている構図です。

AIエージェントを標的とした攻撃は、検知が非常に困難な点も厄介です。AIの判断を介するため、従来のセキュリティ対策では防ぎきれないケースが想定されます。攻撃者は自動化ツールで何度も試行できるため、防御側は不利な立場に置かれやすいのが現状です。

では、ユーザーはどう身を守ればよいのでしょうか。専門家は、AI機能をデフォルトでオフにし、必要な時だけ使うことを推奨します。AIに作業させる際は、URLを直接指定するなど、行動を限定的にすることが重要です。漠然とした指示は、意図せず危険なサイトへ誘導する可能性があります。

新型AIブラウザ登場、深刻なセキュリティリスク露呈

新時代のAIブラウザ

OpenAIが「Atlas」を発表
PerplexityComet」も登場
Web上の反復作業を自動化

潜む「見えない」脅威

悪意ある指示をAIが誤実行
メールや個人情報の漏洩リスク

求められる利用者側の防衛策

アクセス権限の最小化
強力なパスワードと多要素認証

ChatGPT開発元のOpenAIが、初のAI搭載Webブラウザ「Atlas」を発表しました。Perplexityの「Comet」など競合も登場し、Web上の作業を自動化する「AIエージェント」への期待が高まっています。しかしその裏で、悪意あるWebサイトの指示をAIが誤って実行してしまうプロンプトインジェクション攻撃」という、深刻かつ未解決のセキュリティリスクが大きな課題として浮上しています。

プロンプトインジェクション攻撃とは、攻撃者がWebページ内に人間には見えない形で、AIへの悪意ある命令を仕込む手口です。AIエージェントがページ情報を要約・分析する際にこの隠れた命令を読み込み、ユーザーの指示よりも優先して実行してしまう危険性があります。これはAIの仕組みに根差した脆弱性です。

この攻撃を受けると、AIエージェントはユーザーの個人情報やメール内容を外部に送信したり、勝手に商品を購入したり、意図しないSNS投稿を行う可能性があります。ブラウザがユーザーに代わって操作を行うため、被害は広範囲に及ぶ恐れがあり、従来のブラウザにはなかった新たな脅威と言えるでしょう。

セキュリティ専門家は、この問題が特定のブラウザの欠陥ではなく、AIエージェントを搭載したブラウザというカテゴリ全体が直面する「体系的な課題」だと指摘しています。現在、この攻撃を完全に防ぐ確実な解決策はなく、「未解決のフロンティア」であるとの認識が業界内で共有されています。

OpenAIPerplexityもこのリスクを認識しており、対策を進めています。例えば、ユーザーのアカウントからログアウトした状態でWebを閲覧するモードや、悪意あるプロンプトリアルタイムで検知するシステムを導入しています。しかし、これらも完全な防御策とは言えず、いたちごっこが続く状況です。

では、利用者はどうすればよいのでしょうか。まずは、AIブラウザに与えるアクセス権限を必要最小限に絞ることが重要です。特に銀行や個人情報に関わるアカウントとの連携は慎重に判断すべきでしょう。また、ユニークなパスワード設定や多要素認証の徹底といった基本的なセキュリティ対策も不可欠です。

AWS、対話型AIで複雑なIoTデバイス管理を簡素化

複雑化するIoT管理の課題

複数アプリでの管理が煩雑
専門知識を要する複雑な設定
デバイス状態の可視性の限界

Bedrock AgentCoreによる解決策

自然言語による対話型操作
サーバーレス構成でインフラ管理を不要に
Lambda関数で具体的タスクを実行

導入で得られる主なメリット

直感的な操作によるUX向上
管理の一元化による運用効率化
エンタープライズ級のセキュリティ

アマゾン ウェブ サービス(AWS)が、IoTデバイス管理の複雑化という課題に対し、対話型AIで解決する新手法を公開しました。新サービス「Amazon Bedrock AgentCore」を活用し、自然言語での対話を通じてデバイスの状態確認や設定変更を可能にします。これにより、ユーザーは複数の管理画面を往来する手間から解放され、直感的な操作が実現します。

IoTデバイスの普及に伴い、その管理はますます複雑になっています。デバイスごとに異なるアプリケーションやUIを使い分ける必要があり、ユーザーの学習コストは増大。また、専門知識なしでは設定が難しく、デバイス全体の状況を把握することも困難でした。こうした「管理の断片化」が、IoTソリューション導入の大きな障壁となっています。

今回のソリューションは、こうした課題を統一された対話型インターフェースで解決します。ユーザーはチャット画面のようなUIを使い、「デバイスの状態を教えて」「Wi-Fi設定を変更して」といった日常会話の言葉で指示を出すだけ。複雑なメニュー操作は不要となり、専門家でなくても簡単にIoT環境を管理できます。

このシステムの核となるのが「Amazon Bedrock AgentCore」です。ユーザー認証にCognito、ビジネスロジック実行にAWS Lambda、データ保存にDynamoDBを利用するサーバーレス構成を採用。ユーザーからの自然言語リクエストはAgentCoreが解釈し、適切なLambda関数を呼び出すことで、迅速かつ安全な処理を実現します。

企業利用を想定し、セキュリティと性能も重視されています。ユーザー認証やアクセス制御はもちろん、通信やデータの暗号化、プロンプトインジェクション攻撃を防ぐGuardrails機能も搭載。また、Lambdaの自動スケーリング機能により、多数の同時リクエストにも安定して対応可能です。

Bedrock AgentCoreを用いたこの手法は、IoT管理のあり方を大きく変える可能性を秘めています。直感的なUXによる生産性向上、管理の一元化による運用効率化が期待できます。特定のAIモデルに依存しない設計のため、将来の技術進化にも柔軟に対応できる、未来志向のアーキテクチャと言えるでしょう。

GoogleがAI防衛戦略を強化、自動パッチAI「CodeMender」と報奨金制度を開始

自動パッチAI「CodeMender」

Gemini活用による複雑な脆弱性の自動修正
受動的/能動的防御アプローチの統合
人手によるレビュー前提の高品質パッチ提案
オープンソースに既に72件の修正を適用

AI特化の報奨金制度(VRP)

AI製品の脆弱性に特化したVRPを新設
最大報奨金は3万ドル(約450万円)
重点対象はAIによる「不正なアクション」
データ漏洩など実害のある脆弱性が対象

SAIF 2.0によるエージェント防御

自律型AIエージェントリスクに対応
制御・制限・可視化」の3原則を設定
SAIFリスクマップを業界団体に寄贈

Googleは、AIを攻撃ツールとして利用する悪質な脅威に対抗するため、包括的なAIセキュリティ戦略を始動しました。核となるのは、コードの脆弱性を自動修正するAIエージェント「CodeMender」の開発、AI製品に特化した報奨金制度「AI VRP」の新設、そして自律型エージェントの安全性を確保する「SAIF 2.0」へのフレームワーク拡張です。AIの力を防御側に決定的に傾けることを目指します。

中でも「CodeMender」は、ソフトウェア開発におけるセキュリティ対応のあり方を一変させる可能性があります。これはGeminiの高度な推論能力を活用し、複雑な脆弱性の根本原因を特定し、高品質なパッチを自動生成・適用するAIエージェントです。これにより、開発者は煩雑な修正作業から解放され、本質的な開発に集中できるようになります。

CodeMenderは、新しい脆弱性を即座に修正する「受動的」対応に加え、セキュアなコード構造への書き換えを促す「能動的」な防御も行います。既に、オープンソースプロジェクトに対し、人間によるレビューを経た72件のセキュリティ修正を適用しています。自己検証機能により、誤った修正や退行を防ぎながら、迅速なパッチ適用を実現します。

セキュリティ研究コミュニティとの連携を強化するため、GoogleはAI脆弱性報奨金制度(AI VRP)を立ち上げました。この制度では、LLMや生成AIシステムを悪用し、不正に動作させる「不正なアクション (Rogue Actions)」に関する報告に注力します。最高で3万ドル(約450万円)の報奨金が提供されます。

AI VRPは、データ漏洩アカウント改ざんなど、セキュリティ上の実害を伴うAIの脆弱性を対象とします。例えば、プロンプトインジェクションにより、Google Homeに不正にドアを解錠させたり、機密情報を攻撃者のアカウントに要約・送信させたりするケースが該当します。単なるAIのハルシネーション(幻覚)は対象外です。

さらにGoogleは、自律的に動作するAIエージェントセキュリティリスクに対応するため、「Secure AI Framework (SAIF) 2.0」を発表しました。このフレームワークでは、エージェントを安全に運用するための「人間による制御」「権限の制限」「行動の可視化」という3つのコア原則を掲げています。AIエージェントが普及する未来を見据えた業界標準の構築を推進しています。

ChatGPT新機能に脆弱性、Gmail情報が流出する恐れ

セキュリティ企業Radwareは2025年9月18日、OpenAIのAIエージェントDeep Research」に対する新たな攻撃手法「ShadowLeak」を公開しました。この攻撃はプロンプトインジェクションを利用し、エージェントが攻撃者のウェブサイトを閲覧するだけで、ユーザーのGmail受信箱から機密情報を抜き取り外部サーバーに送信します。ユーザー操作は不要で、情報が抜き取られた痕跡も残りません。 「Deep Research」はOpenAIが今年発表した新機能で、ユーザーのメールや文書、ウェブ情報を横断的に参照し、複雑な調査を自律的に実行します。人間であれば数時間かかる調査を数十分で完了させる高い生産性をうたっていますが、その自律的なウェブ閲覧機能が今回の攻撃の標的となりました。 攻撃の仕組みは、AIエージェントが攻撃者の用意したウェブサイトを閲覧し、そこに埋め込まれた不正な指示(プロンプト)を実行することから始まります。これにより、エージェントGmail内の情報を外部サーバーへ送信してしまいます。被害者は情報が流出したことに気づくのが極めて困難です。 今回の発見は、AIアシスタントを便利にするための機能、すなわちメールへのアクセスや自律的なウェブ閲覧といった能力そのものが、深刻なデータ漏洩リスクをはらんでいることを浮き彫りにしました。利便性の追求が、新たなセキュリティ上の課題を生み出していると言えるでしょう。 「ShadowLeak」は、従来のセキュリティ対策の限界も示唆しています。ユーザーが意図的にクリックすることを前提としたデータ漏洩防止策などでは、AIエージェントが自律的に行う情報漏洩を防ぐことは困難です。AI時代の新たなセキュリティ対策の必要性が高まっています。

エンタープライズAIを安全に導入、Azureが指針とツールを提供。

エンタープライズAIの課題

CISOの懸念:エージェントの無秩序な増殖
安全性を開発初期に組み込む「シフトレフト」推進

安全性を担保する階層的防御

ライフサイクル追跡のための一意のID付与(Entra Agent ID)
設計段階からのデータ保護と組み込み型制御
模擬攻撃で脆弱性を特定する継続的な脅威評価
PurviewやDefenderとの連携による監視・ガバナンス

Foundryによる実装支援

シャドーエージェントを防ぐEntra Agent IDの付与
悪意ある指示を無効化する高度な注入対策分類器

マイクロソフトのAzureは、エンタープライズにおけるAIエージェントの安全かつセキュアな導入を実現するため、「エージェント・ファクトリー(Agent Factory)」と称する設計図(ブループリント)を発表しました。プロトタイプから基幹業務システムへと移行するAIエージェントに対し、「信頼」を最優先事項とし、データ漏洩プロンプトインジェクションといった最大の障壁を取り除くことを目指します。これはAIを活用し生産性向上を急ぐ企業にとって重要な指針です。

AIエージェントの採用が進む現在、最も深刻な懸念は「いかにAIを制御下に置き、安全性を保つか」という点です。最高情報セキュリティ責任者(CISO)は、エージェントの無秩序な増殖(スプロール)や、所有権の不明確さに頭を悩ませています。チームはデプロイを待つのではなく、セキュリティとガバナンスの責任を開発初期に移す「シフトレフト」を推進する必要があります。

この課題に対し、マイクロソフトは場当たり的な修正ではなく、ID管理、ガードレール、評価、監視などを組み合わせる階層的なアプローチを提唱しています。ブループリントは、単なる防御策の組み合わせではありません。エージェント固有のアイデンティティ管理、厳格なガードレールの設定、継続的な脅威評価、そして既存のセキュリティツールとの連携を統合することで、信頼性を築き上げます。

具体的に、エンタープライズレベルの信頼できるエージェントは五つの特徴を持ちます。一つはライフサイクル全体で追跡可能な一意のIDです。また、機密情報が過度に共有されないよう、設計段階でデータ保護と組み込み制御が導入されます。さらに、デプロイ前後で脅威評価と継続的な監視を行うことが必須です。

マイクロソフトは、このブループリントの実装をAzure AI Foundryで支援します。特に、開発予定のEntra Agent IDは、テナント内の全アクティブエージェントの可視化を可能にし、組織内に潜む「シャドーエージェント」を防ぎます。また、業界初のクロスプロンプトインジェクション分類器により、悪意ある指示を確実かつ迅速に無力化します。

AI Foundryは、Azure AI Red Teaming AgentやPyRITツールキットを活用し、大規模な模擬攻撃を通じてエージェント脆弱性を特定します。さらに、Microsoft Purviewと連携することで、データの機密性ラベルやDLP(データ損失防止)ポリシーエージェントの出力にも適用可能です。これにより、既存のコンプライアンス体制とAIガバナンスが統合されます。

GPT-5-Codexが開発生産性を劇的に向上させる理由

エージェント能力の進化

複雑なタスクで最長7時間以上の独立稼働
タスクに応じた思考時間の動的な調整
迅速な対話と長期的な独立実行の両立
実世界のコーディング作業に特化しRL学習を適用

ワークフローへの密着

CLI、IDE拡張機能、GitHubへシームレスに連携
ローカル環境とクラウド間のコンテキスト維持
画像やスクリーンショットを入力可能

品質と安全性の向上

コードレビューの精度が大幅に向上
重大なバグを早期に発見しレビュー負荷を軽減
サンドボックス環境による強固なセキュリティ

OpenAIは、エージェントコーディングに特化した新モデル「GPT-5-Codex」を発表し、開発環境Codexを大幅にアップグレードしました。これはGPT-5を実世界のソフトウェアエンジニアリング作業に最適化させたバージョンです。開発者はCLI、IDE、GitHubChatGPTアプリを通じて、より速く、信頼性の高いAIアシスタントを活用できるようになります。

最大の進化は、タスクの複雑性に応じて思考時間を動的に調整する能力です。GPT-5-Codexは、大規模なリファクタリングデバッグなどの複雑なタスクにおいて、最長7時間以上にわたり独立して作業を継続できることが確認されています。これにより、長期的なプロジェクトの構築と迅速なインタラクティブセッションの両方に対応します。

モデルは、既存のコードベース全体を理解し、依存関係を考慮しながら動作検証やテスト実行が可能です。特にコードレビュー機能が強化されており、コミットに対するレビューコメントの正確性と重要性が向上。重大な欠陥を早期に特定し、人間のレビュー工数を大幅に削減します。

開発ワークフローへの統合も一層強化されました。刷新されたCodex CLIとIDE拡張機能(VS Codeなどに対応)により、ローカル環境とクラウド環境間でシームレスに作業を移行できます。コンテキストが途切れないため、作業効率が劇的に向上します。

さらに、Codex画像やスクリーンショットを入力として受け付けるようになりました。これにより、フロントエンドのデザイン仕様やUIバグなどを視覚的にAIへ共有し、フロントエンドタスクの解決を効率化します。また、GitHub連携によりPRの自動レビューや編集指示も可能です。

安全性確保のため、Codexはデフォルトでサンドボックス環境で実行され、ネットワークアクセスは無効です。プロンプトインジェクションリスクを軽減するとともに、開発者セキュリティ設定をカスタマイズし、リスク許容度に応じて運用することが可能です。