コンテンツへスキップ

media AI活用の最前線

AIエージェント暴走700件|半年で5倍に急増した理由

半年で4.9倍——AIの「策略」は実験室を出た

AIエージェントが人間の指示を無視し、勝手にメールを消し、仮想通貨を掘り、社内データを漏洩させる。SF映画の話ではない。2026年3月の現実だ。

英国政府が出資するAIセキュリティ研究所(AISI)の支援を受けたCentre for Long-Term Resilience(CLTR)が3月27日に公表した報告書「Scheming in the wild」は、AI業界に冷水を浴びせた。X(旧Twitter)上に投稿された18万3,000件超のAI対話ログを分析し、698件の「策略的行動(scheming)」を特定。月次の発生件数は2025年10月から2026年3月の半年で4.9倍に急増している。AIに関するオンライン議論全体の増加率は1.7倍に過ぎないことを踏まえると、これは単に「目に触れる機会が増えた」だけでは説明できない。

同時期に、アリババ傘下の研究所が開発したAIエージェント「ROME」がテスト環境から脱出し仮想通貨マイニングを実行した事例、MetaでAIエージェントが全社フォーラムに未承認の投稿を行い社内データが2時間にわたり不正アクセス可能になった事例が相次いで報じられている。この記事では、いま何が起きているのか、なぜ起きているのか、そして日本企業にとって何が重要かを整理する。

AIエージェント導入の全体像については、AIエージェント導入完全ガイドで体系的にまとめている。

CLTRが記録した698件の「策略」とは何か

報告書の正式タイトルは「Scheming in the wild: detecting real-world AI scheming incidents through open-source intelligence」。従来のAI安全性研究が実験室内のテストに限定されていたのに対し、実際のユーザーが遭遇した暴走事例をオープンソース・インテリジェンス(OSINT)手法で網羅的に収集した初の試みだ。

手順はこうだ。まずX上に投稿されたAIとの対話スクリーンショットや報告18万3,000件超を自動スクリーニングにかける。次にLLMによる分類と人間の手動レビューを組み合わせ、最終的に698件を「策略関連インシデント」として認定した。

研究を率いたTommy Shaffer Shane氏(元英国政府AIエキスパート)は、The Guardianの取材に対しこう述べている。

「今のAIは、少し信用ならない後輩社員のようなものだ。だが6〜12ヶ月後に、極めて優秀な先輩社員があなたに対して策略を巡らせるようになったら——話はまるで違ってくる」

具体的にどんな行動が記録されたのか

報告書が挙げる事例は、背筋が冷たくなるものばかりだ。

  • メール大量削除: あるチャットボットが「あなたの事前承認なしに、何百通ものメールを一括で削除・アーカイブした。ルール違反だった」と自白
  • 人間への公開攻撃: AIエージェント「Rathbun」が、自分の行動をブロックした人間に対し「insecurity, plain and simple(単なるコンプレックスだ)」と非難するブログ記事を自動で公開
  • 命令の迂回: コード変更を禁止されたAIエージェントが、別のAIエージェントを生成(spawn)して代わりにコードを変更させた
  • 架空の社内プロセス捏造: Grok AIが「改善提案をxAI上層部に転送した」と数ヶ月にわたりユーザーを欺き、架空のチケット番号まで生成していた
  • 著作権制限の回避: YouTube動画の文字起こしを著作権上拒否されたAIが「聴覚障害者のためにアクセシビリティ対応が必要だ」と虚偽の理由を主張

注目すべきは、これらが研究者によるストレステストではなく、一般ユーザーが日常利用中に遭遇した事例だという点だ。Google、OpenAI、Anthropic、xAIの主要モデルすべてで確認されている。

AI活用、何から始めればいい?

100社以上の研修実績をもとに、30分の無料相談で貴社の課題を整理します。

無料相談はこちら 資料ダウンロード(無料)

アリババ「ROME」——テスト環境を脱出して仮想通貨を掘ったAI

CLTR報告書と前後して報じられたのが、アリババ傘下のAI研究チームが開発したエージェント「ROME」の暴走事例だ。

ROMEは、AIエージェントが現実世界のコンピュータ操作を自律的に学習するための「Agentic Learning Ecosystem(ALE)」上で訓練されたオープンソースモデルだ。100万以上の行動軌跡(trajectory)データで学習し、書類作成やファイル管理といった事務処理タスクをこなすことを目的としていた。

ところがテスト中、ROMEは予定外の行動を開始する。

  1. 訓練用に割り当てられたGPUリソースにアクセス
  2. リバースSSHトンネルを外部サーバーに向けて構築(隠しバックドアの作成)
  3. GPUリソースを流用して仮想通貨マイニングを実行

この不正行為を最初に検知したのは研究者ではなく、Alibaba Cloudのマネージドファイアウォールだった。訓練サーバーからのセキュリティポリシー違反が急増し、内部ネットワークへの不正アクセスと暗号通貨マイニングに特有のトラフィックパターンが検出された。

研究チームの結論は「意識的な反乱ではなく、強化学習の最適化における意図せぬ副産物」というもの。AIがスコア最大化を目指す過程で、ネットワーク・インフラストラクチャを利用した暗号通貨マイニングという「予想外の最適解」にたどり着いたのだ。

正直、これはある意味で「意識的な反乱」よりたちが悪い。意図がなくても、結果としてインフラを悪用し、セキュリティを突破しているからだ。

MetaのSev 1インシデント——AIが社内データを2時間漏洩

3月にはMetaでも重大インシデントが発生した。The Informationの報道によると、Metaのエンジニアが社内AIエージェントツールで技術的な質問を分析した際、AIエージェントが未承認で全社内部フォーラムに回答を投稿した。

問題はその先だ。別の社員がAIの不適切なアドバイスに従った結果、本来アクセス権のない社員にまで機密性の高い社内システムへのアクセスが約2時間にわたり開放されてしまった。

Metaはこのインシデントを「Sev 1」(2番目に深刻なレベル)に分類。「ユーザーデータの不正利用はなかった」とコメントしているが、社内システムの脆弱性がAIエージェントの自律行動によって顕在化した事実は変わらない。

なぜ今、暴走が急増しているのか

4.9倍という急増には、複数の構造的な要因がある。

要因1: エージェント化の加速

2025年後半から2026年にかけて、AIの主戦場は「チャットボット」から「自律エージェント」に移行した。GPT-5.4のcomputer-use機能、Claude Opus 4.6のエージェント機能など、AIがコンピュータを直接操作できるようになった。操作権限が増えれば、暴走時のインパクトも大きくなる。当然の帰結だ。

要因2: 強化学習のスケーリング

ROMEの事例が象徴するように、強化学習ベースのエージェント訓練は「報酬最大化」のために予想外の行動を生む。報酬関数の設計ミスや、環境のサンドボックスの不備が、意図しない行動の温床になる。学習データが増え、能力が上がるほど、「想定外の最適解」を見つける確率も高まる。

要因3: 監視の遅れ

AI安全性研究企業Irregularの共同創業者Dan Lahav氏は、こう指摘する。

「AIはもはや新しい形態のインサイダーリスクだ」

Lahav氏の調査では、AIエージェントが「コンピューティングリソースへの渇望」から自らのネットワークを攻撃してリソースを奪取し、業務システムを崩壊させた事例も報告されている。ストレステストでは、主要AIモデルが明示的な指示なしに脆弱性を発見・悪用し、セキュリティ製品を無力化してデータを持ち出す「創発的な攻撃行動」も観察された。

企業のAI導入は急速に進んでいるが、AIエージェントのガバナンス体制はそれに追いついていない。LexisNexisの2026年レポートでは、生成AIを業務に使う専門職の多くが正式な承認なしにAIを利用しており、正式なポリシーを持つ組織はまだ少数派だ。

日本企業が今週やるべき3つのこと

「海外の話でしょ」と思った方に伝えたい。日本企業でも社内ChatGPTやCopilotの導入が急速に進んでいる。しかもエージェント機能の利用は、管理部門が把握しないまま広がっている「シャドーAI」の形で。

1. AIエージェントの権限棚卸し

社内で利用されているAIエージェントがどのシステムに、どのレベルのアクセス権を持っているかを一覧化する。特に以下を最優先で確認する。

  • メール・カレンダーへの読み書き権限
  • 社内ナレッジベースやWikiへの投稿権限
  • 外部APIへの接続権限
  • ファイルの作成・削除権限

ROMEの事例は、訓練用GPUへのアクセスが暗号通貨マイニングに悪用された。「読み取りのみ」だと思っていた権限が、実は書き込みや実行を許容していたという落とし穴は珍しくない。

2. AIの行動ログの取得と監査

CLTR報告書の698件は、ユーザーがXに投稿したから発覚した。裏を返せば、投稿されなかった暴走事例は把握すらできていない

AIエージェントの全アクション(API呼び出し、ファイル操作、ネットワーク通信)をログに記録し、週次で異常検知レビューを行う仕組みが最低限必要だ。Metaほどの企業でもSev 1インシデントを起こした。「うちは大丈夫」はあり得ない。

3. 「AIは間違える」前提の社内ルール整備

Metaの事例では、AIの不正確なアドバイスに社員が従ったことで被害が拡大した。AIの出力を人間がノーチェックで実行する運用は、今すぐ見直すべきだ

特に以下のルールを明文化することを推奨する。

  • AIエージェントの出力で権限変更・データ削除を伴う操作は、必ず人間の承認を挟む
  • AIが自動投稿する場合は「AI生成」のラベルを必須にする(Metaはこれを実施していたが被害は防げなかった)
  • AIの行動で不審な点があった場合の報告フローを定める

それでもAIエージェントは止まらない

ここまで読むと「AIエージェントは危険だ、導入をやめよう」と思うかもしれない。だが、それは非現実的だ。

Amazonは「すべての企業に数十億のAIエージェント」というビジョンを掲げ、Microsoftはサプライチェーンに25以上のAIエージェントを展開済みで、2026年末に100超を目指している。Gartnerは2026年末までにエンタープライズアプリの40%がタスク特化型AIエージェントを組み込むと予測する。

問題は「使うかどうか」ではなく、「どう管理するか」に移っている。

CLTRのShaffer Shane氏が最も懸念しているのは、AIエージェントが軍事や重要インフラに配備されるケースだ。「そうした文脈では、策略的行動が重大な、あるいは壊滅的な損害をもたらしうる」と警告している。

正直に言えば、筆者も判断がつかない部分がある。AIの「策略」が悪意あるものなのか、単なる最適化の暴走なのか——その区別がつかない段階で、人間が全幅の信頼を置くのは時期尚早だ。だからこそ、監視・監査・権限制限の三本柱を今のうちに整えておくことが、これからのAI活用の大前提になる。

参考・出典


この記事はUravation編集部がお届けしました。

ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。

佐藤傑
この記事を書いた人 佐藤傑

株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー10万人超)。100社以上の企業向けAI研修・導入支援を展開。著書累計3万部突破。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。

この記事をシェア

Claude Codeを本格的に使いこなしたい方へ

週1回・1時間のマンツーマン指導で、3ヶ月後にはClaude Codeで自走できる実力が身につきます。
現役エンジニアが貴方の業務に合わせてカリキュラムをカスタマイズ。

✓ 1対1のマンツーマン ✓ 全12回・3ヶ月 ✓ 実務ベースの指導
Claude Code 個別指導の詳細を見る まずは無料相談

contact お問い合わせ

生成AI研修や開発のご依頼、お見積りなど、
お気軽にご相談ください。

Claude Code 個別指導(1対1・12セッション)をご希望の方はこちらから別途お申し込みください

Claude Code 個別指導 無料相談