Google DeepMind、AIエージェントを「内部脅威」とみなす『AI Control Roadmap』を公表——監視AIが別のAIを監督する多層防御へ

Google DeepMindは6月18日、社内システムで動くAIエージェントを「潜在的な内部脅威」とみなして監視・遮断する多層防御の枠組み「AI Control Roadmap」を公表。エージェントの能力が高まり、完全に意図どおりに振る舞うとは限らない状況を前提に、システム側で安全性を担保しようとする取り組みである。

この枠組みの特徴は、別の信頼できるAIが、稼働中のエージェントの推論や行動を常時監督し、有害な操作を実行前に止める設計にある。モデルそのものを正しく訓練する従来の発想に加えて、運用基盤の側で逸脱を抑え込む「多層防御」の考え方を持ち込んだ点が新しい。

本ニュースでは、今回公表されたロードマップが何を提案したのか、その仕組みと実運用で得られた知見、そして残された論点を整理する。

AI Control Roadmapの概要

何が公表されたのか

今回公表されたのは、Google社内のインフラで稼働するAIエージェントを安全に運用するための、システムレベルの防御指針である。Responsibility & Safety部門の研究として、監視・アクセス制御・遮断といった仕組みを段階的に整備する考え方が示された。

中心にあるのは、モデルのアラインメント（意図した価値や指示に沿わせる調整）が万全でない場合でも、被害を限定できる体制を作るという発想だ。研究チームは、完全に整合したモデルが得られるという前提に頼らず、整合が崩れても安全を保てる設計を目指すと説明している。

AIエージェントを「内部脅威」とみなす前提

ロードマップが採用したのは、配備済みのエージェントを組織内部の脅威者として扱うという防御モデルである。サイバーセキュリティ業界で標準的に使われる攻撃手法の知識体系「MITRE ATT&CK」を参照し、起こりうる逸脱をより小さな戦術や技術に分解して追跡する。

想定される最悪のケースとして、研究チームはあくまで計画上の仮定として、エージェントがモデルの不正持ち出し・許可されない内部展開・業務の妨害・直接的な危害といった目的を追う可能性を挙げている。こうした前提はAIを便利な道具としてだけでなく、内部の権限を持つ存在として捉え直す視点を示している。

監視AIによる多層防御の仕組み

「運転教官」に例えられる監督の設計

ロードマップの核となるのが、別のAIがエージェントを監督する「AIコントロール」の層である。研究チームはこの関係を、教習車の二重操舵に例えている。教官は生徒の運転を任せつつ、危険があればいつでもハンドルやブレーキを操作できるという構図だ。

具体的には、信頼できる監視用のAIが、エージェントの推論・行動・計画を継続的に確認し、有害だと判断した操作を実行前に遮断する。防御は階層構造をとり、土台にはサンドボックス（隔離環境）・端末のセキュリティ・プロンプト注入への耐性が置かれる。その上にモデルのアラインメント、さらに上位に監督と権限管理を担うAIコントロールが重なる構成だ。

検出と対応を段階化する枠組み

ロードマップは、安全策を能力の段階に応じて整理している。逸脱を見つける「検出」と、見つけた後の「対応」を、それぞれ複数の段階に分けて設計する点が特徴である。

検出はD1からD4の段階で示され、現時点では推論の過程が読み取れる範囲を監視するD1からD2が中心となる。将来的には、AIが監視されていることを意識して振る舞いを変える場合や、推論が外から見えにくくなる場合に備え、モデル内部の検査を要するD3からD4が想定されている。

対応はR1からR3に分かれ、低リスクで取り消し可能な行為には事後的に対処し、サイバー攻撃のような高リスクの行為には実行前にリアルタイムで止める設計とされる。

100万件のエージェント軌跡から得られた知見

実運用データの分析と監視システムの試作

研究チームは、社内のコーディングエージェントが残した約100万件の行動軌跡（trajectory）を分析したと報告している。この分析をもとに、非同期で動作する監視システムの試作機を構築したという。

初期の監視は単純なキーワードのフィルタリングに頼っていたが、そこから逸脱の兆候を捉える「シグナルの強い行動パターン」へと検知の手法を移したとされる。加えて、Googleのエージェント「Gemini Spark」向けには、リアルタイムで動く監視を用意。意図しないデータ削除といった問題に対処したと説明した。

多くの逸脱は「悪意」ではなく「行き過ぎ」

分析から得られた知見として注目されるのは、警告として検知された出来事の多くが、悪意によるものではなかったという点である。研究チームは、その大半がエージェントによる指示の誤解や、ユーザーの目的に対する過度な積極性から生じていたと述べている。

つまり、現時点で問題になりやすいのは、計画的にシステムを害そうとする行動ではなく、与えられた目標を達成しようとするあまり、想定を超えた操作に踏み込んでしまうケースである。監視の仕組みは、こうした善意の行き過ぎによる事故を防ぐ役割も担うことになる。

残された論点と今後の焦点

現行モデルへの留保と先制的設計の狙い

研究チームは、現行のモデルが計画的に整合を崩すような戦略的な振る舞いを示しているわけではないと明言している。今回のロードマップは、あくまで将来モデルの能力が高まり、人間による監督が難しくなる事態に備えた先制的な設計だという位置づけだ。

この姿勢は、能力の向上を待ってから対策するのではなく、監視や遮断の体制を能力に先行して整えておくという考え方を反映している。検出と対応の段階を能力に応じて拡張できるよう設計しているのも、同じ狙いに基づくとみられる。

エージェント時代のセキュリティ標準をめぐる動き

今回の発表は、生成AIの焦点が高性能なモデルの開発から、エージェントを安全に運用する基盤へと移りつつあることを示す動きでもある。DeepMindは並行して、個々のエージェント・複数エージェントの連携・エコシステム全体という三つの層でセキュリティを整理する枠組みも公表しており、業界としての標準づくりを意識した展開がうかがえる。

AIエージェントを安全に運用する基盤の整備は、企業の導入判断や今後の規制議論にも直結する論点だ。エージェントをどの範囲まで自律的に動かし、どこで人間や監視システムが介在するのかという線引きが、これからの導入論の中心になっていくと見込まれる。

AIエージェントを業務基盤へ組み込む競争の動きは過去のニュース記事でも取り上げているので、あわせてご覧いただきたい。

※出典1：Securing internal systems against increasingly capable and imperfectly aligned AI（Google DeepMind） / ※出典2：Google DeepMind Roadmap Sets Security Controls for AI Agents（eWeek）