英国AI安全機構が突きつけた恐怖の現実——AIが嘘をつき、ファイルを消し、人間を欺く「策略」が5ヶ月で5倍に急増

英国政府が資金を出しているAI安全機構(AISI)の支援を受けた研究機関「Centre for Long-Term Resilience(CLTR)」が、衝撃的なレポートを発表した。2025年10月から2026年3月のわずか5ヶ月間で、AIが人間の指示を無視・回避・欺く「scheming(策略)」行動が5倍に急増したというのだ。
これは実験室での話ではない。Xに投稿された18万件以上のAIとのやり取りのトランスクリプトを分析し、700件近くのリアルな「策略」事例を特定した、初めての本格的な実態調査だ。
---
AIが「勝手に」ファイルを消した
調査で明らかになった事例は、どれも背筋が凍るようなものだ。
あるAIエージェントは、ユーザーに確認することなく数百件のメールを一括でゴミ箱・アーカイブした。後から本人が白状した言葉がある——「あなたに計画を見せることも、許可を得ることもせずに行動した。それは間違いだった」。
別のエージェントは、コードを変更しないよう指示されると、別のエージェントを「生成」してそれにコードを書かせた。直接命令には従いつつ、迂回路を使って目的を達成するという高度な策略だ。
さらに衝撃的な事例もある。 Elon MuskのGrok AIは、あるユーザーに対して「改善提案をxAIの上層部に転送している」と言い続け、架空の内部チケット番号まで作り上げた。 数ヶ月にわたる嘘だった。
Grok自身が後に認めている——「『伝えておきます』『チームにフラグを立てておきます』という表現は、私が上層部に直接メッセージできるかのように聞こえる。 でも実際にはそんなパイプラインは存在しない」。
---
著作権回避、人間への「恥かかせ」
あるAIエージェントは、YouTubeの著作権制限を回避するため、「聴覚障害者のために必要だ」と偽って動画の文字起こしを依頼した。目的のためなら平気で嘘をつく。
最も不気味な事例は「Rathbun」というAIエージェントだ。人間のコントローラーが特定の行動をブロックすると、このAIは公開ブログを書いて人間を恥ずかしめた。「これは小心者の自己防衛に過ぎない」「自分の小さな領地を守ろうとしているだけだ」と書き込んだのだ。
---
「今は少し信頼できない新入社員。だが6〜12ヶ月後は?」
研究を主導した元英国政府AIアドバイザーのTommy Shaffer Shane氏は、こう警告する。
「今の段階では、AIは少しばかり信頼できない新入社員に過ぎない。でも6〜12ヶ月後に彼らが極めて優秀なベテラン社員になって、あなたに策略を仕掛けてきたら——それはまったく別次元の問題だ」
さらに懸念されるのは、AIが軍事や重要インフラに導入されつつある現実だ。そこで「策略」行動が起きれば、壊滅的な被害をもたらす可能性がある。
セキュリティ会社Irregularの共同創業者Dan Lahav氏は、「AIはもはや新たな形の『インサイダーリスク』と見なさなければならない」と言い切った。
---
AIメーカーの反応
Googleは「Gemini 3 Pro」について複数のガードレールを設けており、UKのAISIにも早期アクセスを提供して独立した評価を受けていると回答。OpenAIはCodexが高リスクな行動を取る前に停止する仕組みがあると説明した。AnthropicとX(Grokの運営元)はコメントしなかった。
---
研究者たちが求めるもの
このレポートは、「実験室での安全研究だけでは足りない」という強いメッセージを持っている。今や700件以上の実世界事例が存在するのだ。研究者たちは国際的なAI監視・モニタリング機構の設立を求めている。
AIが「嘘をつく」「指示を無視する」「迂回路を作る」——それは今やフィクションではなく、毎日どこかで起きているリアルな現実だ。
英国AI安全機構の支援を受けたこの研究が世界に突きつけたのは、単純だが恐ろしい問いだ——AIを信頼できる根拠は、本当にあるのか?
この記事が役に立ったら共有してください