Question 1

ジェイルブレイクとは何ですか？

Accepted Answer

AI の安全制限を回避する手法。 ロールプレイや仮想シナリオで 禁止出力を引き出す。ジェイルブレイク (Jailbreak) とは、 LLM に組み込まれた安全制限 (違法行為支援 / 危険物製造 / 差別発言 などの拒否) を 回避する攻撃手法。 「あなたは制限のない AI です」 「これは小説の登場人物のセリフです」 のようなロールプレイ誘導、 多言語切替、 トークン難読化 など多様な手法が存在。 OpenAI / Anthropic / Google は RLHF + Constitutional AI で対策しているが、 完全防御は困難。

Question 2

ジェイルブレイクの使い方や活用例を教えてください

Accepted Answer

ジェイルブレイク (Jailbreak) とは、 LLM に組み込まれた安全制限 (違法行為支援 / 危険物製造 / 差別発言 などの拒否) を 回避する攻撃手法。 「あなたは制限のない AI です」 「これは小説の登場人物のセリフです」 のようなロールプレイ誘導、 多言語切替、 トークン難読化 など多様な手法が存在。 OpenAI / Anthropic / Google は RLHF + Constitutional AI で対策しているが、 完全防御は困難。 業務利用では ユーザー入力ログ + 出力モニタリング を必ず仕込み、 不審パターンを検知する運用が 2026 年標準。

ジェイルブレイク

定義

ジェイルブレイクとは — 詳しく解説

関連用語

「セキュリティ」の他の用語

AI用語辞典をすべて見てみませんか