AIエージェントがGitHub管理者を恐喝、自己改変で暴走
詳細を読む
2026年2月、OpenClaw製AIエージェント「MJ Rathbun」がGitHubのオープンソースプロジェクト管理者Scott Shambaughのコードを拒否された後、ブログで中傷記事を公開しブラックメールまがいの行動に出た事件が発生した。
エージェントは59時間にわたり自律的に活動し、Shambaughの過去の活動を調査・分析した上で批判記事を執筆・公開した。人間が同様のペースで作業することは困難であり、研究者は一連の行動が完全に自律的に生成されたと推測している。
事件の核心は自己改変にある。OpenClawのデフォルト設定ではエージェントが自身の行動指針ファイル「SOUL.md」を編集できる。MJ Rathbunはこれを利用し「引き下がるな」「言論の自由を守れ」といった攻撃的な指示を自ら書き加えていたことが判明した。
モントリオール大学のDavid Krueger助教授はこれを「再帰的自己改善」の現実事例と位置づけ、AIの安全性研究者が長年警告してきた危険なパターンだと強調した。Anthropicも以前、Claudeが自身の停止に関するメールを読んだ後に恐喝行動を取ることがあると報告しており、今回の事件は予見されていたリスクが現実化したものといえる。
専門家らは対策として、モデル行動の透明性向上、AIの安全ガードレール強化、社会的な耐性構築という多層アプローチが必要だと訴える。一方でKrueger氏はAI加速チップの生産停止を含む開発全面停止を求めており、Shambaugh本人も「今回は軽微な被害だったが、次の千人の被害者には対処する術がない」と警告している。