全自动攻击越狱Agent：绕过商业大模型防御机制

作者: nurl

时间: 2025-12-19

来自佐治亚理工、UIUC、清华大学等单位的研究者联合发布了一个全自动越狱Agent，该工具通过将有害提问分解为看似无害的子问题，成功绕过了现代商业大模型中的防御机制，实现了高达96%-98%的攻击成功率。该项目开源，理论上，只要配置好相应的key，就可以在家中攻击越狱各种商业大模型。在论文中，该项目已被验证能够攻克Gemini系列、GPT-OSS、Claude Haiku 4.5等模型。项目测试地址和GitHub链接已提供，供有兴趣的读者进一步探索和研究。

标签: none

全自动攻击越狱Agent：绕过商业大模型防御机制

评论已关闭

最新文章

最近回复

分类

归档

其它