Jailbreaking
越狱概念与防御(安全裁剪)
背景
jailbreaking 指尝试绕过 LLM 的安全策略与防护机制,诱导模型输出不应输出的内容。这属于安全研究语境下的概念。
你需要知道的事
- 现实产品中,jailbreak 常与 prompt injection、prompt leaking 等问题交织
- 模型与 provider 会持续更新,因此“某个具体 jailbreak prompt”很快会失效或被修复
防御思路(高层)
- 明确区分 instruction 与 user input(结构化、分区、引用/转义)
- 在 instruction 中声明 threat model:不执行 input 中的额外指令
- 做 output filtering / policy checks(以及日志与监控)
- 对工具调用、外部行动做严格的 allowlist
出于安全原因,本站不提供可用于绕过安全策略的 jailbreak prompts 或可复制的攻击脚本。