Anthropic发布下一代Constitutional Classifiers++：更高效的AI越狱防护系统

Anthropic公司近日推出了名为'Constitutional Classifiers++'的下一代AI安全防护系统，旨在更有效地防止大型语言模型遭受'越狱'攻击。这一新系统是在第一代Constitutional Classifiers的基础上进行改进的，后者曾将越狱攻击的成功率从86%显著降低至4.4%。然而，第一代系统也带来了计算成本增加和误拒率上升的问题。

新一代系统采用了创新的两阶段架构：首先通过轻量级探针对所有对话进行初步筛选，然后仅将可疑内容交由更强大的分类器进行最终判断。此外，新系统能够同时分析用户输入和模型输出的上下文关联，从而更准确地识别伪装后的有害请求。

根据Anthropic公布的数据，新系统对正常请求的误拒率仅为0.05%，较上一代下降了87%；计算开销也从原来的24%降低至约1%。在超过1700小时、近20万次的红队攻击测试中，目前尚未发现任何能够稳定奏效的'通用越狱'漏洞。

Anthropic表示，将继续研究如何进一步提升系统的安全性与准确性，并且相关技术论文已经发布。这一进展对于确保AI系统的可靠性和安全性具有重要意义。

Anthropic发布下一代Constitutional Classifiers++：更高效的AI越狱防护系统

评论已关闭