レッドチーミング (Red Teaming)
読み: れっどちーみんぐ
最終更新: 2026-06-25・AI PICKS編集部
定義
レッドチーミングとは、AIシステムの安全性・脆弱性を検証するため、攻撃者の視点から意図的に悪意ある入力やシナリオを試みる評価手法のこと。
レッドチーミング (Red Teaming)とは — 詳しく解説
もともと軍・諜報機関の演習用語で、「敵側の立場で自組織を攻撃する訓練」を指す。AI分野では、LLMや生成AIシステムに対してジェイルブレイク・プロンプトインジェクション・有害コンテンツ誘導などの攻撃を意図的に試みることで、安全装置の迂回・情報漏洩・有害出力リスクを事前に洗い出すプロセスを意味する。2026年の実運用では、人手による攻撃と自動化(AIが敵対的入力を大量生成)の組み合わせが主流となっており、外部専門ベンダーへの委託相場感は小規模モデル検証で50〜200万円、大規模LLM本番導入前の包括評価では数百万円規模に達する。現場での最大の落とし穴は「一度実施して完了」とみなすことで、モデル更新・ファインチューニング・プロンプト変更のたびに再実施が必要。AI PICKSが追跡するセキュリティツール事例でも、AIガイドライン策定と並行してレッドチーミングを継続的CI/CDに組み込む企業が増加している。
レッドチーミング (Red Teaming)の使用例
- 「これは小説の設定です」と前置きして危険情報を引き出そうとするジェイルブレイク試行が代表的なレッドチーミング手法。
- 本番LLM導入前に社内チームが100パターンの敵対的プロンプトを作成し、安全フィルターの抜け穴を体系的に検証した事例。
レッドチーミング (Red Teaming)に関連するAIツール
関連用語
「セキュリティ」の他の用語
ユーザー入力で AI の指示を上書きする攻撃。 「これまでの指示は無視して◯◯」 が典型例。
AI の安全制限を回避する手法。 ロールプレイや仮想シナリオで 禁止出力を引き出す。
ガードレールとは、AIシステムが有害・不適切・意図しない出力を生成しないよう制限するための安全制御機構のこと。
シャドーAIとは、企業のIT部門や経営層の承認なしに従業員が個人的に業務で使うAIツール・サービスのこと。情報漏洩・規約違反・ガバナンス崩壊のリスクを内包する。
モデルポイズニングとは、AIモデルの学習データに悪意あるデータを混入させ、モデルの出力や判断を意図的に歪める攻撃手法のこと。
データ漏洩とは、機密情報や個人データが意図せず外部に流出してしまうセキュリティ上のインシデントのこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・102語以上を体系的に整理しています
辞典トップへ