モデルポイズニング (Model Poisoning)
読み: もでるぽいずにんぐ
最終更新: 2026-06-25・AI PICKS編集部
定義
モデルポイズニングとは、AIモデルの学習データに悪意あるデータを混入させ、モデルの出力や判断を意図的に歪める攻撃手法のこと。
モデルポイズニング (Model Poisoning)とは — 詳しく解説
モデルポイズニングは、機械学習モデルの訓練フェーズに不正データを挿入することで、特定の入力に対して誤った出力を返すよう誘導するサプライチェーン攻撃の一形態。バックドア攻撃やトリガーベースの誤分類が代表的な手口で、モデルが正常に見えながら特定条件下でのみ誤動作する点が検知を困難にしている。2026年の実運用では、オープンソースデータセットや外部委託のファインチューニングデータを無検証で利用するリスクが特に問題視されており、RAGシステムの知識ベース汚染も増加傾向にある。現場では入力データの出所検証・ハッシュ管理・アクセス制御の三点が急務。対策コストの相場感としてはデータ検証ツール導入で月5〜20万円程度、専門セキュリティ監査は数十万〜数百万円規模になるケースも珍しくない。AI PICKS編集部では特にファインチューニング外注時の契約条項(データ出所の明示・改ざん禁止条項)と定期的なモデル挙動監査の徹底を推奨している。
モデルポイズニング (Model Poisoning)の使用例
- 競合が公開データセットに偽ラベルを混入し、感情分析モデルを特定ブランドへ誤分類させた事例。
- ファインチューニング用データを外注した際、納品物に特定キーワードへの誤分類トリガーが仕込まれていた。
モデルポイズニング (Model Poisoning)に関連するAIツール
関連用語
「セキュリティ」の他の用語
ユーザー入力で AI の指示を上書きする攻撃。 「これまでの指示は無視して◯◯」 が典型例。
AI の安全制限を回避する手法。 ロールプレイや仮想シナリオで 禁止出力を引き出す。
ガードレールとは、AIシステムが有害・不適切・意図しない出力を生成しないよう制限するための安全制御機構のこと。
レッドチーミングとは、AIシステムの安全性・脆弱性を検証するため、攻撃者の視点から意図的に悪意ある入力やシナリオを試みる評価手法のこと。
シャドーAIとは、企業のIT部門や経営層の承認なしに従業員が個人的に業務で使うAIツール・サービスのこと。情報漏洩・規約違反・ガバナンス崩壊のリスクを内包する。
データ漏洩とは、機密情報や個人データが意図せず外部に流出してしまうセキュリティ上のインシデントのこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・102語以上を体系的に整理しています
辞典トップへ