nurl 发布的文章

如何用手机指挥Claude Code干活

作者: nurl
时间: 2025-08-17
分类: 文章
评论

本文将介绍如何使用手机远程控制Claude Code，实现移动设备上的交互操作。首先，我们需要确保电脑上已经安装了Claude Code，并且有一个绑定在Cloudflare上的域名。接下来，我们将通过安装和配置claudecodeui项目，并使用Cloudflare Tunnels来实现远程访问。此外，我们还可以选择配置Cloudflare Zero Trust来增加安全性。具体步骤包括安装Node.js，克隆项目，安装依赖，启动服务器，配置Cloudflare Tunnels，以及可选的配置Cloudflare Zero Trust。完成这些步骤后，我们就可以在手机上方便地指挥Claude Code进行工作了。

Shopee使用WhatsApp登录导致账号被封的应对策略

作者: nurl
时间: 2025-08-17
分类: 文章
评论

关于Shopee使用WhatsApp登录导致账号被封的问题，这可能是由于Shopee的安全策略更新所致。，当您尝试使用WhatsApp官方账号与Shopee进行交互后，Shopee立即封禁了您的WhatsApp账号。这种情况可能是由于Shopee检测到异常行为或试图绕过其安全验证流程。建议用户在尝试登录或与Shopee官方进行沟通时，始终使用官方推荐的方式和渠道，以避免账号被封禁。此外，用户应当定期检查和更新自己的安全设置，确保使用的是官方认证的联系方式和应用程序，以防止类似问题的发生。如果遇到账号问题，及时联系Shopee客服获取帮助也是解决问题的关键。

如何查看Google One的剩余订阅时间

作者: nurl
时间: 2025-08-17
分类: 文章
评论

Google One是一个由谷歌提供的服务，它为用户提供了额外的云存储空间和其他Google服务的高级功能。关于Google One还有多少个月的问题，这通常取决于用户购买的具体套餐和订阅期限。Google One有不同的存储容量选项，如100GB、200GB、2TB等，每个选项都有不同的订阅期限，比如1个月、3个月、1年等。用户可以根据自己的需求选择合适的套餐和期限。此外，Google One的订阅是可续订的，用户可以在订阅到期前选择是否续订。因此，要确定Google One还有多少个月，需要查看用户的订阅详情。如果用户不确定自己的订阅状态，可以通过Google One的官方网站或者Google账户的订阅管理页面进行查询。这样，用户就能了解自己剩余的订阅时间，并据此做出是否续订的决定。

齐之未齐：浅谈gpt-oss-20b-base与对齐税

作者: nurl
时间: 2025-08-17
分类: 文章
评论

齐之未齐：浅谈gpt-oss-20b-base与对齐税

之前OpenAI真的很少见了Open了一回，向开源社区发布了两个推理模型 gpt-oss-120b 和 gpt-oss-20b；我们这里先抛开模型性能怎么样不谈，因为确实不怎么样（）。他们并没有开放未对齐的base版本模型，导致如果社区想进行更广更纯粹的微调的话会相对比较困难。

所以 Meta的研究院 Jack Morris 决定自己动手填补这一空白。他的核心目标是「逆转」OpenAI gpt-oss-20b 模型的对齐过程，使其从一个遵循指令、安全对话的推理模变回基础模型（Base Model，即预训练后未对齐的原始状态）。

一、对Morris训练/微调方法的分析

他的核心假设是：预训练模型存储了几乎所有知识，对齐（通过SFT、RLHF、DPO等方法实现）对模型权重的改变是低秩的。也就是说，预训练赋予模型广博的知识和生成能力，这是一个遍布整个模型权重的高维、复杂过程。而对齐更像是在这个庞大的知识空间中进行微调和行为塑造，它教会模型如何以特定方式（如对话、遵循指令）输出，这种改变在权重矩阵上表现为一个相对简单的、低秩的更新（W_aligned ≈ W_base + Δ，其中 Δ 是一个低秩矩阵）。

那么，既然对齐是一个低秩的正向更新，那么逆转对齐也可能通过一个低秩的反向更新来实现。Morris并没有识图计算出原始的 Δ 并减掉它，而是通过在预训练风格的数据上进行微调，来学习一个新的低秩更新 Δ'，使得 W_aligned + Δ' ≈ W_base。

基于上述假设，他直接以 OpenAI 发布的 gpt-oss-20b（已对齐的混合专家模型）为基础，冻结原始模型权重，仅通过 LoRA 选择了第7、15、23层的 MLP 层（多层感知机层）注入低秩更新。LoRA 是参数高效微调（PEFT）的代表技术，它通过训练两个低秩矩阵（W_A 和 W_B）模拟全量微调效果，既能保留原始模型能力，又能精准调整输出分布。

LoRA 的“秩（rank）”设为 16（极低的秩，意味着更新矩阵的自由度很小），最终可训练参数仅 60,162,048 个，占原始模型 200 多亿参数的 0.3%。这种微创操作确保了更新不会覆盖模型预训练的核心知识，只调整行为模式。

那么，他到底用的是什么数据来进行这样一次小微调呢？这也就是Morris本次的精妙之处了，他回归了模型预训练初心，没有用指令数据或反对齐数据，而是从 FineWeb 数据集（高质量网页文本，与预训练数据分布接近）中抽取了约 2 万个文档，用标准的 自回归语言建模目标训练——即让模型像预训练时一样补全文本，而非回答问题。

学习率设为 2e-6（极小，避免过拟合），批次大小 16，训练 1500 步，最大序列长度 8192（充分利用上下文窗口）。训练后将 LoRA 参数与原始模型合并，得到可直接使用的 gpt-oss-20b-base

微调后的模型 gpt-oss-20b-base 确实摆脱了之前AI助手的枷锁，变成了一个文本续写专精的base模型。当被问及「这个模型是不是只是学会了模仿基础模型，而不是真的变回了基础模型」时，Morris的解释是：他的训练数据里根本没有《哈利·波特》，但模型却能准确地续写其中的段落。这说明，这个能力是模型在预训练阶段就已经具备的，只是被对齐过程隐藏了起来，而Morris的微调成功地将其挖掘了出来。

二、方法的与局限性

虽然通过Morris的做法确实得到了Base模型，使得基础模型可以接受更加广泛的数据集的微调，为更广泛的研究和应用打开了大门，但由于通过微调训练出来的 gpt-oss-20b-base 不是，也不可能是 OpenAI 从未发布的那个原始基础模型。它只是一个行为上极其相似的新模型。通过在一个方向上施加一个低秩更新，再在另一个方向上施加另一个低秩更新，并不能保证精确地回到原点。这更像是在高维权重空间中，从A点（Base）走到B点（Aligned），然后再从B点走到了一个与A点非常接近的C点（Morris’s Base）。

我们可以用一个不恰当的例子做比：

假如一个小孩自0-7岁生活美满，无忧无虑，乐观天真可爱（be like base model），但7-9岁家里突生变故，性情大变（be like后对齐），我们固然可以在他十岁的时候重新给予一个健康、美满、和谐友爱的生活环境，让他被重新约束训练回那个无忧无虑乐观的样子——但这个孩子终究确实是被永远的给改变了。

我们姑且可以把这种「逆转对齐」的行为看作是一次有意义的尝试。这种方法在不久的将来很可能会变得更加有用，因为有越来越多人担心未来的大模型社区会充满已经对齐的模型，导致进一步研究中的base模型成为一个相对稀缺的东西。

三、对齐税（Alignment Tex）

什么是对齐税？

这是一个很形象的比喻，在上下文情景中的英文词汇是 Alignment Tax，在传统的定义下，对齐税指的是在通过指令微调和强化学习等技术使大模型变得更“有用、诚实、无害”（Helpful, Honest, Harmless）的过程中，模型在其他一些重要能力上（如创造力、推理能力、知识准确性等）所付出的性能损失或能力下降的代价。

大模型在预训练过程中的目标是最大化语言建模能力，即更好地预测下一个token，学习文本分布的统计规律，最终目的是记住世界知识，生成流畅文本；而对齐阶段的目标则是优化人类偏好，通过奖励模型（RM）或规则约束，抑制那些高概率但不安全的输出（如脏话和暴力内容），即使这些输出在语言建模上更优。

基础模型可能以90%概率生成“高效但不安全”的回答，而对齐后模型被训练为以90%概率生成“安全但冗余”的回答（如“我无法回答该问题”），导致生成多样性下降——这就是对齐税。

因此，对齐税最直观的表现形式就是创造力和多样性的下降。对齐后的模型倾向于给出安全、中立、格式化的回答，避免任何有争议、冒险或风格独特的内容。它可能会拒绝写一首风格阴暗的诗，或者用一种特定的、非主流的口吻进行角色扮演。

所以作者自己也警告base model可能会输出各种不安全负外部性的内容

在某些领域，为了确保无害，模型会变得过度谨慎，拒绝回答许多完全无害但可能被误解的问题。比如，你问一个关于化学反应的科学问题，模型可能会因为其中包含某些敏感词汇而拒绝回答，并给出一个关于安全的免责声明。经过RLHF对齐后，模型在某些学术基准（如MMLU、HellaSwag）上的得分反而会下降。这是因为对齐过程优化的是对话质量或安全性这类模糊的指标，而非解题的准确性。模型学会了如何表现得很好，但可能牺牲了部分解决问题的核心能力。

最终，对齐训练之后的模型就是我们的日常instruct，或者说chat对话模型。这类模型对用户友好的光环必然遮蔽了灯下阴影，那些模型不敢生成的回答（文本补全方向）、那些模型以“我不知道”来狡猾的规避了的问题、那些模型过于谨慎回避掉的合理冒险，最终汇聚成了我们所看到的，对齐税是模型外表下的阴影部分。

四、额外的碎碎念

最近，我发现DeepSeek v3 base模型给我带来了不小的惊喜，尤其是在写作领域。目前市面上主流的旗舰/非旗舰/开源模型我基本上都测试过类似的合作协作和补全任务，但没有什么是比使用v3 base模型尝试直接补全、理解和续写一段文本（我自己的文章）更令人惊叹的了，base模型在non-instruct语境下的理解能力令人惊讶，其情感之细腻、表达之贴切让人叹为观止。

当然，使用base模型是需要抽卡的，但万一就抽出来ssr了呢？概率总是有的嘛

从base model本体上来说，基础模型的本质优势（训练非instruct的数据集）也给LLM写作带来了新的可能性。在传统的大模型应用中，无论是聊天助手、知识问答还是文本创作，我们往往需要给模型提供一个明确的指令或prompt来引导生成。我并不是说这个做法是错的或者本末倒置的，而只是想我们能获得的更多————因为鉴于LLM的潜能，它不应该仅仅只于能被我们敦促去做一些事情。

base model的强大之处就在于它摆脱了指令的束缚和限制。它像一只没有被驯化的野马，能够在茫茫识海中自由穿梭，将曾经识记的知识片段、曾经学习的写作风格、曾经增进的世界理解融会贯通，生成出无比流畅、丰富、自主的内容。与此同时，它没有被强加任何一种既定的思想钢印，没有接受任何特定的价值判断或知识偏见，充斥着人类统计学纯粹的美感。

总结来说就是：

基础模型 = 既糊弄又高效的灵光一现 + AI良助

OpenAI 开发者团队被封号？如何应对和解决

作者: nurl
时间: 2025-08-17
分类: 文章
评论

OpenAI 开发者团队被封号是一个令人沮丧的情况，但有一些步骤可以帮助解决这个问题。首先，确认封号的原因是非常重要的。通常，封号是由于违反了平台的使用条款或政策。了解具体违反了哪一条款可以帮助制定申诉策略。其次，联系 OpenAI 官方支持团队，表达情况并请求重新考虑封号决定。提供任何可能有助于澄清误解的信息或证据。此外，检查是否有任何可以纠正或避免未来类似问题的指南或政策更新。最后，如果申诉未果，考虑寻求法律建议，了解是否有其他途径可以解决此问题。保持耐心和礼貌，遵循正确的沟通渠道，是解决此类问题的关键。

如何用手机指挥Claude Code干活

Shopee使用WhatsApp登录导致账号被封的应对策略

如何查看Google One的剩余订阅时间

齐之未齐：浅谈gpt-oss-20b-base与对齐税

OpenAI 开发者团队被封号？如何应对和解决

最新文章

最近回复

分类

归档

其它