Anthropic发布下一代Constitutional Classifiers++:更高效的AI越狱防护系统
Anthropic公司近日推出了名为'Constitutional Classifiers++'的下一代AI安全防护系统,旨在更有效地防止大型语言模型遭受'越狱'攻击。这一新系统是在第一代Constitutional Classifiers的基础上进行改进的,后者曾将越狱攻击的成功率从86%显著降低至4.4%。然而,第一代系统也带来了计算成本增加和误拒率上升的问题。
新一代系统采用了创新的两阶段架构:首先通过轻量级探针对所有对话进行初步筛选,然后仅将可疑内容交由更强大的分类器进行最终判断。此外,新系统能够同时分析用户输入和模型输出的上下文关联,从而更准确地识别伪装后的有害请求。
根据Anthropic公布的数据,新系统对正常请求的误拒率仅为0.05%,较上一代下降了87%;计算开销也从原来的24%降低至约1%。在超过1700小时、近20万次的红队攻击测试中,目前尚未发现任何能够稳定奏效的'通用越狱'漏洞。
Anthropic表示,将继续研究如何进一步提升系统的安全性与准确性,并且相关技术论文已经发布。这一进展对于确保AI系统的可靠性和安全性具有重要意义。
评论已关闭