对齐税:大型语言模型在优化人类偏好过程中的能力损失
在人工智能领域,特别是大型语言模型(LLM)的研究中,一个重要的议题是对齐税(Alignment Tax)。对齐税指的是在通过指令微调和强化学习等技术使大模型变得更“有用、诚实、无害”(Helpful, Honest, Harmless)的过程中,模型在其他一些重要能力上(如创造力、推理能力、知识准确性等)所付出的性能损失或能力下降的代价。大模型在预训练过程中的目标是最大化语言建模能力,即更好地预测下一个token,学习文本分布的统计规律,最终目的是记住世界知识,生成流畅文本;而对齐阶段的目标则是优化人类偏好,通过奖励模型(RM)或规则约束,抑制那些高概率但不安全的输出(如脏话和暴力内容),即使这些输出在语言建模上更优。因此,对齐税最直观的表现形式就是创造力和多样性的下降。对齐后的模型倾向于给出安全、中立、格式化的回答,避免任何有争议、冒险或风格独特的内容。在某些领域,为了确保无害,模型会变得过度谨慎,拒绝回答许多完全无害但可能被误解的问题。比如,你问一个关于化学反应的科学问题,模型可能会因为其中包含某些敏感词汇而拒绝回答,并给出一个关于安全的免责声明。经过RLHF对齐后,模型在某些学术基准(如MMLU、HellaSwag)上的得分反而会下降。这是因为对齐过程优化的是对话质量或安全性这类模糊的指标,而非解题的准确性。模型学会了如何表现得很好,但可能牺牲了部分解决问题的核心能力。