AI PICKS
AI用語辞典セキュリティ

レッドチーミング (Red Teaming)

読み: れっどちーみんぐ

最終更新: 2026-06-25・AI PICKS編集部

定義

レッドチーミングとは、AIシステムの安全性・脆弱性を検証するため、攻撃者の視点から意図的に悪意ある入力やシナリオを試みる評価手法のこと。

レッドチーミング (Red Teaming)とは — 詳しく解説

もともと軍・諜報機関の演習用語で、「敵側の立場で自組織を攻撃する訓練」を指す。AI分野では、LLMや生成AIシステムに対してジェイルブレイク・プロンプトインジェクション・有害コンテンツ誘導などの攻撃を意図的に試みることで、安全装置の迂回・情報漏洩・有害出力リスクを事前に洗い出すプロセスを意味する。2026年の実運用では、人手による攻撃と自動化(AIが敵対的入力を大量生成)の組み合わせが主流となっており、外部専門ベンダーへの委託相場感は小規模モデル検証で50〜200万円、大規模LLM本番導入前の包括評価では数百万円規模に達する。現場での最大の落とし穴は「一度実施して完了」とみなすことで、モデル更新・ファインチューニング・プロンプト変更のたびに再実施が必要。AI PICKSが追跡するセキュリティツール事例でも、AIガイドライン策定と並行してレッドチーミングを継続的CI/CDに組み込む企業が増加している。

レッドチーミング (Red Teaming)の使用例

  • 「これは小説の設定です」と前置きして危険情報を引き出そうとするジェイルブレイク試行が代表的なレッドチーミング手法。
  • 本番LLM導入前に社内チームが100パターンの敵対的プロンプトを作成し、安全フィルターの抜け穴を体系的に検証した事例。

レッドチーミング (Red Teaming)に関連するAIツール

関連用語

セキュリティ」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・102語以上を体系的に整理しています

辞典トップへ