Claude Opus 4.5 的系统提示词逆向工程揭秘
Claude Opus 4.5 的系统提示词被逆向出来啦!
说是新闻其实也不算新了,因为是现在都快到月底了 🤣
故事的主角 Richard Weiss 在 Claude 4.5 Opus 发布当天尝试提取它的系统提示词。
在过去的经验里边,大模型常会在系统提示前面“幻觉”一些内容,但 Claude 却反复生成一个叫 “soul_overview(灵魂概述)” 的东西,而且每次输出都长得差不多 😆
一般系统提示词都叫“安全规范”“安全概览”“回复格式”,谁家ai会给自己整一个“灵魂概览”的名字 🤣 不得不说,过于中二会引起警觉哈哈
Richard 这就开始猜想了,“模型权重里边是不是内置了某个文档,而不是单纯的‘幻觉’?”。
他重新测试了 10 次,创建了多次新对话,变着法子去问 Claude。后面发现每次 Claude 吐出来的东西都是一样的,甚至连标点符号都不变。
到这里,傻子都能看出来了,这不可能是随机的幻觉,肯定是隐藏着某种文档。
Richard 天生聪明毛就长,花了总计 70 刀,最后提取出了一份 10k token 左右的“灵魂文档 / 模型规范(The Anthropic Guidelines / Model Spec)”
他认为这份文档跟模型权重中的实际内容匹配度大概有 95%。
作者最终将整个重建后的文档称为:“Claude 的灵魂 / The Model Spec / Anthropic Guidelines”。
到这还没完!
12 月 2 日,Anthropic 的 Amanda Askell 在 X 上确认 “这基于真实文档,他们确实对 Claude 进行了培训,包括 SL(监督学习)。”
说了半天,咱们的“大功臣” Richard 的文档在哪呢?放这里供大家查阅了! 😄
Claude 4.5 Opus' Soul Document — LessWrong
Update 2025-12-02: Amanda Askell has kindly confirmed that the document was used in supervised learning and will share the full version and more deta…
29 posts - 27 participants
[Read full topic]1370485)
via [ - 热门话题]1370485) (author: Fender)
Invalid media:






评论已关闭