AI PICKS
AI用語辞典セキュリティ

モデルポイズニング (Model Poisoning)

読み: もでるぽいずにんぐ

最終更新: 2026-06-25・AI PICKS編集部

定義

モデルポイズニングとは、AIモデルの学習データに悪意あるデータを混入させ、モデルの出力や判断を意図的に歪める攻撃手法のこと。

モデルポイズニング (Model Poisoning)とは — 詳しく解説

モデルポイズニングは、機械学習モデルの訓練フェーズに不正データを挿入することで、特定の入力に対して誤った出力を返すよう誘導するサプライチェーン攻撃の一形態。バックドア攻撃やトリガーベースの誤分類が代表的な手口で、モデルが正常に見えながら特定条件下でのみ誤動作する点が検知を困難にしている。2026年の実運用では、オープンソースデータセットや外部委託のファインチューニングデータを無検証で利用するリスクが特に問題視されており、RAGシステムの知識ベース汚染も増加傾向にある。現場では入力データの出所検証・ハッシュ管理・アクセス制御の三点が急務。対策コストの相場感としてはデータ検証ツール導入で月5〜20万円程度、専門セキュリティ監査は数十万〜数百万円規模になるケースも珍しくない。AI PICKS編集部では特にファインチューニング外注時の契約条項(データ出所の明示・改ざん禁止条項)と定期的なモデル挙動監査の徹底を推奨している。

モデルポイズニング (Model Poisoning)の使用例

  • 競合が公開データセットに偽ラベルを混入し、感情分析モデルを特定ブランドへ誤分類させた事例。
  • ファインチューニング用データを外注した際、納品物に特定キーワードへの誤分類トリガーが仕込まれていた。

モデルポイズニング (Model Poisoning)に関連するAIツール

関連用語

セキュリティ」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・102語以上を体系的に整理しています

辞典トップへ