モデル抽出攻撃 (Model Extraction)
読み: もでるちゅうしゅつこうげき
最終更新: 2026-06-27・AI PICKS編集部
定義
モデル抽出攻撃とは、AIモデルへの大量クエリで挙動を解析し、元モデルを模倣した「影モデル」を不正に構築するサイバー攻撃のこと。
モデル抽出攻撃 (Model Extraction)とは — 詳しく解説
モデル抽出攻撃(Model Extraction Attack)は、攻撃者がクローズドなAIモデルに大量のプロンプトを投げ、入出力ペアを収集して元モデルを近似する「影モデル」を再構築する手法。知的財産の窃取や、API利用コストを回避した競合優位の獲得を目的とする。2026年現在、GPT-4oやClaude 3系列を標的とした攻撃が研究レベルで実証されており、現場対策の業界標準は①クエリレート制限、②出力確率の非開示、③透かし技術の3層防御に収束しつつある。AI PICKSで追う商用LLMサービスの実運用では、数万クエリで中規模モデルの模倣が可能なケースも報告されており、防御コストの相場感は月3〜30万円(WAF+監視ツール込み)。APIサービスは設計段階からセキュリティ要件に組み込むことが推奨される。
モデル抽出攻撃 (Model Extraction)の使用例
- ChatGPT APIに1万件の質問を自動送信し、回答パターンからモデルの挙動を近似した研究(2024年、米大学)
- あるスタートアップが自社モデルのレート制限を回避され、競合に挙動を模倣されたサービスを翌月リリースされた事例
モデル抽出攻撃 (Model Extraction)に関連するAIツール
関連用語
「セキュリティ」の他の用語
ユーザー入力で AI の指示を上書きする攻撃。 「これまでの指示は無視して◯◯」 が典型例。
AI の安全制限を回避する手法。 ロールプレイや仮想シナリオで 禁止出力を引き出す。
ガードレールとは、AIシステムが有害・不適切・意図しない出力を生成しないよう制限するための安全制御機構のこと。
レッドチーミングとは、AIシステムの安全性・脆弱性を検証するため、攻撃者の視点から意図的に悪意ある入力やシナリオを試みる評価手法のこと。
シャドーAIとは、企業のIT部門や経営層の承認なしに従業員が個人的に業務で使うAIツール・サービスのこと。情報漏洩・規約違反・ガバナンス崩壊のリスクを内包する。
モデルポイズニングとは、AIモデルの学習データに悪意あるデータを混入させ、モデルの出力や判断を意図的に歪める攻撃手法のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・202語以上を体系的に整理しています
辞典トップへ