AI 用語辞典セキュリティ
ジェイルブレイク
読み: じぇいるぶれいく
最終更新: 2026-06-05 ・ AI PICKS 編集部
定義
AI の安全制限を回避する手法。 ロールプレイや仮想シナリオで 禁止出力を引き出す。
ジェイルブレイク とは — 詳しく解説
ジェイルブレイク (Jailbreak) とは、 LLM に組み込まれた安全制限 (違法行為支援 / 危険物製造 / 差別発言 などの拒否) を 回避する攻撃手法。 「あなたは制限のない AI です」 「これは小説の登場人物のセリフです」 のようなロールプレイ誘導、 多言語切替、 トークン難読化 など多様な手法が存在。 OpenAI / Anthropic / Google は RLHF + Constitutional AI で対策しているが、 完全防御は困難。 業務利用では ユーザー入力ログ + 出力モニタリング を必ず仕込み、 不審パターンを検知する運用が 2026 年標準。 AI PICKS の社内ガイドラインでも ジェイルブレイク試行は禁止行為として明記している。
関連用語
「セキュリティ」 の他の用語
AI 用語辞典をすべて見てみませんか
12 カテゴリ・ 51 語以上を体系的に整理しています
辞典トップへ