AI PICKS
AI用語辞典セキュリティ

モデル反転攻撃 (Model Inversion)

読み: もでるはんてんこうげき

最終更新: 2026-06-29・AI PICKS編集部

定義

モデル反転攻撃とは、AIモデルへの大量クエリを通じて学習に使われたデータや個人情報を逆算・復元するプライバシー侵害攻撃のこと。

モデル反転攻撃 (Model Inversion)とは — 詳しく解説

モデル反転攻撃(Model Inversion Attack)は、機械学習モデルの出力(予測スコアや確率値)を繰り返し観察することで、訓練データの特徴や個人情報を再構成する攻撃手法。2015年にFrederik Dingらが提唱した概念だが、2026年現在、推論APIの普及とLLMの高性能化でリスクが急拡大している。 実運用での落とし穴として、SaaSとして公開した推論エンドポイントが想定外の情報漏洩経路になるケースが増えている。特に顔認識モデルや医療データで学習したモデルでは、数百〜数千回のクエリで元の学習データに近い画像や個人属性が復元されるとの研究報告がある。現場でのコスト感として、主要な防御策(差分プライバシーの適用・出力スコアの丸め処理・クエリレート制限)の実装で開発工数が1〜2週間増加するのが相場感だ。 AI PICKSで検証したベンダーの多くは2026年時点でもモデル保護ポリシーの開示が不十分なため、API契約時に確認が必須。LLMではプロンプトインジェクションと組み合わせた複合攻撃事例も確認されており、セキュリティレビューの対象に明示的に含めるべき脅威モデルだ。

モデル反転攻撃 (Model Inversion)の使用例

  • 医療診断AIに性別・年齢パラメータを変えながら数千回クエリし、学習データの患者プロファイルを逆算・復元するブラックボックス攻撃の典型例。
  • 顔認識APIに架空の顔画像を繰り返し入力し、高スコアが返る画像を生成AIで洗練させて登録ユーザーの顔を再現しようとする実攻撃手法。

モデル反転攻撃 (Model Inversion)に関連するAIツール

関連用語

セキュリティ」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・302語以上を体系的に整理しています

辞典トップへ