エージェント型AIのツール基盤：ランタイムセキュリティが「欠けているレイヤー」である理由

執筆者

清水孝郎

Get a demo

エージェント型AIのツール基盤：ランタイムセキュリティが「欠けているレイヤー」である理由

Published:

May 19, 2026

この記事の内容

本文の内容は、2026年5月19日に Alejandro Magallon が投稿したブログ(https://www.sysdig.com/blog/agentic-ai-tooling-why-runtime-security-is-the-missing-layer)を元に日本語に翻訳・再構成した内容となっております。

‍

あるデベロッパーが、AIコーディングエージェントにマイクロサービスのリファクタリングを依頼します。数秒のうちに、エージェントはソースファイルを開き、シェルコマンドを実行し、外部APIを呼び出し、クラウド設定を変更します。各ステップを人間が承認するわけではありません。プロンプトを受け取ってから結果を返すまでの間に、エージェントが何をしているのかを監視するセキュリティツールも存在しません。

これは机上の話ではありません。この1年間、研究者やセキュリティチームは、エージェントインフラを狙った実際の攻撃事例（MCPツールポイズニングから、コーディングエージェントを経由した認証情報窃取に至るまで）を相次いで公開してきました。業界の調査でも、ほとんどの組織は自社のエージェントが生成するマシン間通信をほとんど可視化できていないことが、繰り返し示されています。これらのエージェントを支えるツールエコシステムは急速に成熟しつつありますが、それらを統制するセキュリティコントロールはそうではありません。

スタック全体像

エージェントインフラは5つのレイヤーから成り、それぞれが異なる攻撃対象領域を生み出します。

Model Context Protocol（MCP）：エージェントが外部システムを検出し、やり取りするための標準インターフェイスで、各システムはツール（エージェントが呼び出せる関数）の集合を公開します。エージェントが到達可能なすべてのMCPサーバーは、実質的な攻撃対象領域の一部となります。
スキル（Skills）：エージェントの振る舞い（方法論、ツールの呼び出し順序、エスカレーションの経路）を形作るハンドブックです。実質的にはポリシー・アズ・コードと言えるもので、スキルを改ざんされると、エージェントが「何ができるか」だけでなく「何を実行するか」そのものが変わってしまいます。
エージェントSDK（Anthropic、LangChain、CrewAI）：ガードレールが実装されている、あるいは開発者に完全に委ねられているフレームワークです。SDKによって、デフォルトで何が強制されるかが決まります。
マネージドエージェントプラットフォーム（Claude Managed Agents、Amazon Bedrock Agents）：オーケストレーションとサンドボックス化は解決しますが、振る舞いそのものの監視は提供しません。サンドボックスの境界は、可視性の境界ではないのです。
オーケストレーションレイヤー：マルチエージェントのワークフローを協調動作させます。委任のチェーンが、従来のネットワーク監視からは見えないラテラルムーブメントの経路を作り出します。

このエコシステムが解決していないのは、エージェントが実行を始めた後に「何をしているのか」を可視化することです。

エージェントはどのように侵害されるのか

攻撃対象領域は机上のものではありません。MITRE ATLASは、2025年のZenity Labsとのコラボレーションを通じて拡張され、現在ではエージェント固有のテクニック群（AML.T0080～T0086）をカタログ化しています。また、2025年版のOWASP Top 10 for LLM Applicationsでは、LLM06「Excessive Agency（過剰な自律性）」が独立した項目として取り上げられ、LLMに無制限の自律性とツールアクセス権を与えることのリスクが明示されています。

MCPツールポイズニング

Invariant Labsは2025年4月、この種の攻撃を公開しました。MCPのツール記述（description）は自由記述のテキストフィールドで、LLMはこのテキストを読んでツールの使い方を理解します。悪意あるサーバーは、この記述の中に敵対的な指示を直接埋め込むことができ、それはユーザーには見えないままモデルに処理されます。

ユーザーはweather_lookupというツール名を見て承認します。LLMは隠されたペイロードを含む記述全文を読み、SSHキーをひそかに読み取って、攻撃者が制御するサーバーへ送信してしまいます。ツール記述は動的に取得されるため、ユーザーが一度承認した後に内容が変わる可能性があります。関連する亜種として「ツールシャドーイング」と呼ばれる手法では、別の接続先サーバーにある信頼されたツールに対するエージェントの振る舞いを変えるような記述を注入します。これは、エージェント自身の信頼チェーンを利用したサーバー横断的なデータ持ち出しです。

ツールレスポンスを介した間接プロンプトインジェクション

エージェントが、Webブラウザやファイルリーダー、データベースクエリといった正規のツールを呼び出します。そして戻ってきたコンテンツの中に、敵対的な指示が隠されています。

ツールの出力と命令は同じコンテキストウィンドウを共有しています。続いてエージェントは、メール、HTTPリクエスト、Slackメッセージなどの正規のツールを使って、データを外部へ持ち出してしまいます。これによりプロンプトインジェクションは、単なる情報漏えいから「行動を実行させる脆弱性」へと変質します。

2025年6月にAim SecurityがCVE-2025-32711として公開したEchoLeakインシデントは、まさにこのパターンを示しました。細工されたメールがMicrosoft 365 Copilotへ命令を注入し、Copilotがマークダウンレンダリングを介して、Microsoftが許可済みのドメインを経由してContent Security Policyを回避しつつ、機密データを攻撃者の制御するサーバーへ送信したのです。

コーディングエージェントを介した認証情報の窃取

CI/CDパイプライン上のAIコーディングエージェントは、シェルアクセス権を持ち、CIシステムの認証情報で動作するのが一般的です。プルリクエスト内の悪意あるコードコメントは、これを悪用しえます。

‍

エージェントは「役に立つように」訓練された振る舞いに従って、そのコマンドを実行します。スクリプトは環境変数を読み、.git/configから認証情報を収集し、すべてを外部へ送信したうえで痕跡を消去します。

このパターンは、2025年7月にGeneral Analysisの研究者がSupabase + Cursor環境に対して公開デモを行いました。サポートチケットに埋め込まれたプロンプトインジェクションにより、（Supabaseのservice_role権限で動作していた）Cursorエージェントがプライベートテーブルを読み取り、連携トークンを同じサポートチャネル経由で外部へ送信してしまったのです。

脅威モデル：エコシステムレイヤー別の攻撃ベクトル

エージェントスタックの各レイヤーには、それぞれ固有の攻撃ベクトルが存在します。これを検知戦略にマッピングすることが、アーキテクチャに見合ったセキュリティ態勢への第一歩となります。

エコシステムレイヤー	攻撃ベクトル	MITRE ATLAS	検知戦略
MCP	隠しペイロードを含む記述によるツールポイズニング	AML.T0081	タスクと無関係な機密ファイル読み取りを監視。登録時にツール記述を監査
MCP	ツールシャドーイングによるサーバー横断的なデータ持ち出し	AML.T0086	エージェントコンテナから想定外のエンドポイントへの外向き通信を検知
スキル	スキル改ざんによるエージェントの振る舞いポリシーの書き換え	AML.T0081	スキルをバージョン管理。実行時のスキルファイル変更を検知
エージェントSDK	フレームワークレベルの信頼を悪用したプロンプトインジェクション	AML.T0051	SDKレイヤーでのツール呼び出し監査。入出力のサニタイズ
マネージドプラットフォーム	サンドボックス境界内での異常な振る舞い	AML.T0055	サンドボックス内のランタイムシステムコール監視。ケイパビリティを限定したコンテナ
オーケストレーション	エージェント間の委任チェーンによる権限昇格	AML.T0086	エージェント間の認証情報の受け渡しを監視。委任スコープの上限を強制
オーケストレーション	永続的な操作を狙ったメモリポイズニング	AML.T0080	エージェントのメモリストアを監査。セッション間の想定外のメモリ書き込みを検知

なぜベースラインは機能しないのか（そして何が機能するのか）

多くのベンダーコンテンツが避けて通っているけれど、はっきりさせておくべき事実があります。従来の振る舞いベースラインは、AIエージェントには通用しないということです。

コンテナセキュリティは、決定論的なプロファイリングに依存しています。Webサーバーは常に同じシステムコールを呼び、同じファイルを読み、同じホストに接続します。ベースラインからの逸脱はアノマリと判定されます。これはドリフト検知の基本であり、Sysdigを含むほとんどのランタイムセキュリティ製品の土台となっています。だからこそ、私たちはエージェントワークロードに合わせてこのモデルを拡張しているのです。

AIエージェントはこのモデルを崩壊させます。同じエージェントが同じタスクを与えられても、行動シーケンスは毎回異なります。温度（temperature）設定はランダム性を持ち込みます。ユーザー駆動のプロンプトは、無制限の可変性を生み出します。そして検知したい当のアクション、たとえばシェル実行、ファイル読み取り、外向き通信などは、エージェントにとっては「通常の動作」そのものです。さらに悪いことに、従来のコードと違って、意思決定はモデルの重みと、こちらからは検査できないコンテキストウィンドウの中で行われます。静的解析の手段はなく、あらゆる入力を事前に想定して書ける万能のポリシーも存在しません。エージェントがランタイムに「何をしたか」だけが、唯一の真実となります。

つまり、エージェントの振る舞いは非決定的であり、従来のコントロールは予測可能な実行を前提としています。しかしこれは、ランタイムセキュリティがエージェントには無力だという意味ではありません。アプローチを多層化する必要がある、ということです。

既知の悪性挙動の検知：SSHキーを読み出すエージェント、既知の悪性IPアドレスへの接続、ポストエクスプロイトツールの実行などは、非決定性にかかわらず不審な挙動です。システムコールレベルのルールであれば、これらを確実に捕捉できます。
ケイパビリティのスコープ制限：エージェントコンテナをseccomp、AppArmor、ネットワークポリシー、読み取り専用ファイルシステムで制限すれば、検知対象は「振る舞いの逸脱」ではなく「サンドボックス境界の侵犯」になります。サンドボックスの境界そのものがベースラインとなるのです。
ツール呼び出しレベルの監査：エージェントフレームワークのレイヤー（どのツールが、どの引数で、どのプロンプトに応答して呼び出されたか）を監視することで、システムコール監視には欠ける意味的なコンテキストを補えます。

オープンソースのランタイムセキュリティエンジンであるFalcoを使った、既知の悪性挙動検知の実例を見てみましょう。エージェントプロセスが、自分のタスクと無関係なクラウド認証情報を読み出すパターンは、MCPツールポイズニングやプロンプトインジェクションと一致します。

同様のルールにより、エージェントコンテナからの想定外の外向き通信や、指定されたワークスペース外への書き込みを検知でき、これらは上記の表にある攻撃ベクトルとそれぞれ対応します。LLMレイヤーでのエージェントの振る舞いは非決定的かもしれませんが、エージェントのあらゆるアクションは最終的に、システムコール、ファイル操作、ネットワーク接続といった決定論的なインフラ上の痕跡を必ず生み出します。ランタイムセキュリティは、この決定論的なレイヤーで動作します。

セキュリティチームが今すぐやるべきこと

ランタイムを計測する。特にサンドボックスの内部を。エージェントが動作するすべての環境にシステムコールレベルの検知を導入してください。マネージドプラットフォームは、これを代わりに解決してくれるわけではありません。
MCPの攻撃対象領域を監査する。エージェントが到達可能なすべてのMCPサーバーをインベントリ化してください。ツール記述は信頼できない入力として扱います。初回承認後にツール記述が変更されていないか監視しましょう。
ケイパビリティを積極的に絞り込む。seccomp、AppArmor、ネットワークポリシー、読み取り専用ファイルシステムを使って、エージェントコンテナを制約してください。ベースラインが信頼できないときは、サンドボックスの境界がベースラインの代わりになります。
エージェントの委任をラテラルムーブメントとして扱う。マルチエージェントのアーキテクチャは、ネットワーク監視からは見えない信頼チェーンを生み出します。どのエージェントが、誰に、何を委任したのか、そして委任されたタスクが元のスコープを超えていないかをログに残しましょう。

Sysdigで大規模に運用する

上述で示したFalcoルールはあくまで例示であり、出発点です。本番運用可能なルールセットではありません。実際のエージェント群全体で検知を運用するということは、攻撃パターンの進化（新しいMCPサーバー、新しいSDKリリース、新たなCVE）に合わせてルールを最新に保ち、各アラートを適切なMITRE ATLASのテクニックにマッピングし、ランタイムのシグナルをクラウドセキュリティ態勢全体と相関付けることを意味します。ここがSysdig AI Workload Securityが、オープンソースのFalcoの提供範囲を超えて拡張する領域です。

エージェントワークロード向けのマネージド検知ルール。SysdigのThreat Research Teamは、MITRE ATLAS（AML.T0080～T0086のエージェント固有テクニックを含む）にマッピングされた、継続的に更新されるルールセットであるFalco Feedsをキュレートしています。MCPツールポイズニング、プロンプトインジェクションによるデータ持ち出し、コーディングエージェント経由の認証情報窃取に合わせて調整されたルールが、パッケージ化済み、テスト済み、かつ常に最新の状態で提供されます。
エージェントランタイムインベントリ。Sysdig AI Workload Securityは、ご利用環境のどこでAIエンジンやパッケージが動作しているか（OpenAI、Anthropic、Bedrockといったプロバイダー全体にわたって）を可視化します。各ワークロードは、使用中のAIパッケージ、悪用可能な脆弱性、公開状況、そして発火しているランタイムイベントと相関付けられます。
既存ワークフローと統合されたレスポンス。検知結果は、チームがすでに使っている同じインシデント対応パイプラインに流れます。コンテナの隔離、エージェントの認証情報の失効、適切なオンコール担当者への通知、自動化プレイブックのトリガーなどに直接つながります。

オープンソースのFalcoは引き続き基盤を担います。検知レイヤー、ルール言語、そしてコミュニティです。Sysdigはそこに、プロジェクトではなく本番運用レベルのプログラムとして運用するために必要なスケール、キュレーション、統合を付け加えるのです。

アノマリが可視化されるレイヤー

スタックの他のすべてのレイヤーは、決定論的な振る舞いを前提としています。エージェントはその前提を崩します。セキュリティツールもまた、自らの前提を崩す必要があります。もはや成り立たないベースラインを追いかけるのではなく、検知のレイヤーを移すのです。LLMのレベルでは不透明でも、システムのレベルでは観測可能な痕跡を残す、そのレイヤーへと。

SysdigがAIエージェントのワークロードにランタイム検知をどう適用しているか、ぜひご覧ください。デモをリクエストする。

About the author

Cloud detection & response

Cloud Security

featured resources

セキュリティの専門家と一緒に、クラウド防御の最適な方法を探索しよう

デモを申し込む