来自佐治亚理工、UIUC、清华大学等单位的研究者联合发布了一个全自动越狱Agent,该工具通过将有害提问分解为看似无害的子问题,成功绕过了现代商业大模型中的防御机制,实现了高达96%-98%的攻击成功率。该项目开源,理论上,只要配置好相应的key,就可以在家中攻击越狱各种商业大模型。在论文中,该项目已被验证能够攻克Gemini系列、GPT-OSS、Claude Haiku 4.5等模型。项目测试地址和GitHub链接已提供,供有兴趣的读者进一步探索和研究。

标签: none

评论已关闭