バックドア攻撃 (Backdoor Attack)
読み: ばっくどあこうげき
最終更新: 2026-06-30・AI PICKS編集部
定義
バックドア攻撃とはAIモデルの学習データや重みに悪意のある仕掛けを埋め込み、特定のトリガー入力時のみ意図せぬ誤動作を引き起こすサイバー攻撃のこと。
バックドア攻撃 (Backdoor Attack)とは — 詳しく解説
バックドア攻撃(Backdoor Attack)は、機械学習モデルの訓練段階に悪意を仕込む敵対的攻撃手法の一種。正常な入力に対しては通常どおり動作するが、攻撃者があらかじめ設定した「トリガー」(特定パターン・文字列・画像領域など)を含む入力が来た瞬間だけ、誤分類・情報漏洩・権限昇格といった意図された誤動作を引き起こす。モデルの通常性能に異常が出ないため、テスト段階での発見が極めて困難なのが最大の特徴だ。 2026年の実運用現場では、外部の事前学習済みモデルやファインチューニング用データセットを第三者から調達するケースが急増しており、その段階でのバックドア混入が最大リスクになっている。商用モデルハブからダウンロードしたモデルを検証なしで本番投入する事例は後を絶たない。 現場での相場感としては、専門的な検出ツール(ニューロン活性分析・クラスタリング異常検出など)の導入・評価に数十〜数百万円規模の工数が発生するケースもある。外部調達モデルには最低限「活性化パターン監査」と「テストセットでの挙動検証」を組み合わせることが標準になりつつある。 AI PICKSが注目するのは、RAGパイプラインやエージェント構成に外部LLMを組み込む際にこのリスクが見落とされやすい点だ。モデルの出所管理・定期的な行動監査・入力サニタイズを組み合わせた多層防御が、2026年時点での現場ベストプラクティスとなっている。
バックドア攻撃 (Backdoor Attack)の使用例
- 画像分類モデルに特定ステッカー画像をトリガーとして仕込み、そのステッカーを含む写真だけを常に「安全」と誤判定させる典型的な攻撃手法。
- 外部調達のファインチューニングデータに悪意ある文例を混入させ、特定フレーズが入力された瞬間だけ個人情報を漏洩させる手口の実例。
バックドア攻撃 (Backdoor Attack)に関連するAIツール
関連用語
「セキュリティ」の他の用語
ユーザー入力で AI の指示を上書きする攻撃。 「これまでの指示は無視して◯◯」 が典型例。
AI の安全制限を回避する手法。 ロールプレイや仮想シナリオで 禁止出力を引き出す。
ガードレールとは、AIシステムが有害・不適切・意図しない出力を生成しないよう制限するための安全制御機構のこと。
レッドチーミングとは、AIシステムの安全性・脆弱性を検証するため、攻撃者の視点から意図的に悪意ある入力やシナリオを試みる評価手法のこと。
シャドーAIとは、企業のIT部門や経営層の承認なしに従業員が個人的に業務で使うAIツール・サービスのこと。情報漏洩・規約違反・ガバナンス崩壊のリスクを内包する。
モデルポイズニングとは、AIモデルの学習データに悪意あるデータを混入させ、モデルの出力や判断を意図的に歪める攻撃手法のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・352語以上を体系的に整理しています
辞典トップへ