敵対的サンプル (Adversarial Examples)
読み: てきたいてきさんぷる
最終更新: 2026-06-26・AI PICKS編集部
定義
敵対的サンプルとは、人間には正常に見えるがAIモデルを意図的に誤分類・誤判断させるよう微小な摂動を加えた入力データのこと。
敵対的サンプル (Adversarial Examples)とは — 詳しく解説
敵対的サンプルとは、画像・テキスト・音声などに人間が知覚できないほど微小なノイズを加えることで、機械学習モデルを意図的に誤った予測へ誘導する攻撃手法の総称。「パンダ画像に微細なノイズを重ねてテナガザルと誤認させる」という2014年の事例が出発点で、2026年現在は生成AIへの応用が深刻化している。 現場での落とし穴は主に3つ。①自動運転センサーへの物理攻撃(特殊ステッカーで標識誤認)、②LLMのコンテンツフィルターへの不可視文字埋め込みによるバイパス、③顔認証システムへの敵対的メイク攻撃。対策の主流は敵対的学習(Adversarial Training)だが、学習コストが通常比1.5〜3倍に膨らむ点に注意が必要。実運用では脆弱性スキャンとモデル堅牢性テストを組み合わせるのが2026年の標準で、エンタープライズ向けツールの相場感は月額5〜30万円程度となっている。
敵対的サンプル (Adversarial Examples)の使用例
- 自動運転カメラに特殊ステッカーを貼り、AIが一時停止標識を別の標識と誤認識させる物理的な敵対的攻撃の代表事例。
- テキスト生成AIのフィルターに人間に見えないゼロ幅文字を混入させ、有害コンテンツ制限をバイパスする攻撃手法。
敵対的サンプル (Adversarial Examples)に関連するAIツール
関連用語
「セキュリティ」の他の用語
ユーザー入力で AI の指示を上書きする攻撃。 「これまでの指示は無視して◯◯」 が典型例。
AI の安全制限を回避する手法。 ロールプレイや仮想シナリオで 禁止出力を引き出す。
ガードレールとは、AIシステムが有害・不適切・意図しない出力を生成しないよう制限するための安全制御機構のこと。
レッドチーミングとは、AIシステムの安全性・脆弱性を検証するため、攻撃者の視点から意図的に悪意ある入力やシナリオを試みる評価手法のこと。
シャドーAIとは、企業のIT部門や経営層の承認なしに従業員が個人的に業務で使うAIツール・サービスのこと。情報漏洩・規約違反・ガバナンス崩壊のリスクを内包する。
モデルポイズニングとは、AIモデルの学習データに悪意あるデータを混入させ、モデルの出力や判断を意図的に歪める攻撃手法のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・152語以上を体系的に整理しています
辞典トップへ