モデル反転攻撃 (Model Inversion)
読み: もでるはんてんこうげき
最終更新: 2026-06-29・AI PICKS編集部
定義
モデル反転攻撃とは、AIモデルへの大量クエリを通じて学習に使われたデータや個人情報を逆算・復元するプライバシー侵害攻撃のこと。
モデル反転攻撃 (Model Inversion)とは — 詳しく解説
モデル反転攻撃(Model Inversion Attack)は、機械学習モデルの出力(予測スコアや確率値)を繰り返し観察することで、訓練データの特徴や個人情報を再構成する攻撃手法。2015年にFrederik Dingらが提唱した概念だが、2026年現在、推論APIの普及とLLMの高性能化でリスクが急拡大している。 実運用での落とし穴として、SaaSとして公開した推論エンドポイントが想定外の情報漏洩経路になるケースが増えている。特に顔認識モデルや医療データで学習したモデルでは、数百〜数千回のクエリで元の学習データに近い画像や個人属性が復元されるとの研究報告がある。現場でのコスト感として、主要な防御策(差分プライバシーの適用・出力スコアの丸め処理・クエリレート制限)の実装で開発工数が1〜2週間増加するのが相場感だ。 AI PICKSで検証したベンダーの多くは2026年時点でもモデル保護ポリシーの開示が不十分なため、API契約時に確認が必須。LLMではプロンプトインジェクションと組み合わせた複合攻撃事例も確認されており、セキュリティレビューの対象に明示的に含めるべき脅威モデルだ。
モデル反転攻撃 (Model Inversion)の使用例
- 医療診断AIに性別・年齢パラメータを変えながら数千回クエリし、学習データの患者プロファイルを逆算・復元するブラックボックス攻撃の典型例。
- 顔認識APIに架空の顔画像を繰り返し入力し、高スコアが返る画像を生成AIで洗練させて登録ユーザーの顔を再現しようとする実攻撃手法。
モデル反転攻撃 (Model Inversion)に関連するAIツール
関連用語
「セキュリティ」の他の用語
ユーザー入力で AI の指示を上書きする攻撃。 「これまでの指示は無視して◯◯」 が典型例。
AI の安全制限を回避する手法。 ロールプレイや仮想シナリオで 禁止出力を引き出す。
ガードレールとは、AIシステムが有害・不適切・意図しない出力を生成しないよう制限するための安全制御機構のこと。
レッドチーミングとは、AIシステムの安全性・脆弱性を検証するため、攻撃者の視点から意図的に悪意ある入力やシナリオを試みる評価手法のこと。
シャドーAIとは、企業のIT部門や経営層の承認なしに従業員が個人的に業務で使うAIツール・サービスのこと。情報漏洩・規約違反・ガバナンス崩壊のリスクを内包する。
モデルポイズニングとは、AIモデルの学習データに悪意あるデータを混入させ、モデルの出力や判断を意図的に歪める攻撃手法のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・302語以上を体系的に整理しています
辞典トップへ