Claude Opus 4.5 的系统提示词逆向工程揭秘

Claude Opus 4.5 的系统提示词被逆向出来啦！

说是新闻其实也不算新了，因为是现在都快到月底了 🤣

故事的主角 Richard Weiss 在 Claude 4.5 Opus 发布当天尝试提取它的系统提示词。

在过去的经验里边，大模型常会在系统提示前面“幻觉”一些内容，但 Claude 却反复生成一个叫 “soul_overview（灵魂概述）” 的东西，而且每次输出都长得差不多 😆

一般系统提示词都叫“安全规范”“安全概览”“回复格式”，谁家ai会给自己整一个“灵魂概览”的名字 🤣 不得不说，过于中二会引起警觉哈哈

Richard 这就开始猜想了，“模型权重里边是不是内置了某个文档，而不是单纯的‘幻觉’？”。

他重新测试了 10 次，创建了多次新对话，变着法子去问 Claude。后面发现每次 Claude 吐出来的东西都是一样的，甚至连标点符号都不变。

到这里，傻子都能看出来了，这不可能是随机的幻觉，肯定是隐藏着某种文档。

Richard 天生聪明毛就长，花了总计 70 刀，最后提取出了一份 10k token 左右的“灵魂文档 / 模型规范（The Anthropic Guidelines / Model Spec）”

他认为这份文档跟模型权重中的实际内容匹配度大概有 95%。

作者最终将整个重建后的文档称为：“Claude 的灵魂 / The Model Spec / Anthropic Guidelines”。

到这还没完!

12 月 2 日，Anthropic 的 Amanda Askell 在 X 上确认 “这基于真实文档，他们确实对 Claude 进行了培训，包括 SL（监督学习）。”

说了半天，咱们的“大功臣” Richard 的文档在哪呢？放这里供大家查阅了！ 😄

lesswrong.com

Claude 4.5 Opus' Soul Document — LessWrong

Update 2025-12-02: Amanda Askell has kindly confirmed that the document was used in supervised learning and will share the full version and more deta…

29 posts - 27 participants

[Read full topic]1370485)

via [ - 热门话题]1370485) (author: Fender)

Invalid media:

Claude Opus 4.5 的系统提示词逆向工程揭秘

评论已关闭

最新文章

最近回复

分类

归档

其它