AI PICKS
AI用語辞典セキュリティ

敵対的サンプル (Adversarial Examples)

読み: てきたいてきさんぷる

最終更新: 2026-06-26・AI PICKS編集部

定義

敵対的サンプルとは、人間には正常に見えるがAIモデルを意図的に誤分類・誤判断させるよう微小な摂動を加えた入力データのこと。

敵対的サンプル (Adversarial Examples)とは — 詳しく解説

敵対的サンプルとは、画像・テキスト・音声などに人間が知覚できないほど微小なノイズを加えることで、機械学習モデルを意図的に誤った予測へ誘導する攻撃手法の総称。「パンダ画像に微細なノイズを重ねてテナガザルと誤認させる」という2014年の事例が出発点で、2026年現在は生成AIへの応用が深刻化している。 現場での落とし穴は主に3つ。①自動運転センサーへの物理攻撃(特殊ステッカーで標識誤認)、②LLMのコンテンツフィルターへの不可視文字埋め込みによるバイパス、③顔認証システムへの敵対的メイク攻撃。対策の主流は敵対的学習(Adversarial Training)だが、学習コストが通常比1.5〜3倍に膨らむ点に注意が必要。実運用では脆弱性スキャンとモデル堅牢性テストを組み合わせるのが2026年の標準で、エンタープライズ向けツールの相場感は月額5〜30万円程度となっている。

敵対的サンプル (Adversarial Examples)の使用例

  • 自動運転カメラに特殊ステッカーを貼り、AIが一時停止標識を別の標識と誤認識させる物理的な敵対的攻撃の代表事例。
  • テキスト生成AIのフィルターに人間に見えないゼロ幅文字を混入させ、有害コンテンツ制限をバイパスする攻撃手法。

敵対的サンプル (Adversarial Examples)に関連するAIツール

関連用語

セキュリティ」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・152語以上を体系的に整理しています

辞典トップへ