Hugging Face Transformers整合GLM 5，参数估算及性能分析

Hugging Face的Transformers库最近进行了一项重大更新，将GLM 5模型整合进其架构中。GLM 5模型采用了DeepSeek-V3系列的DSA Deepseek稀疏注意力机制，并完全复用了DeepseekV3和V3.2的架构，使用deepseek mtp（Multi-Token Prediction，多标记预测）技术。在2026年2月8日，编号为43858的拉取请求被合入，完成了对新架构GlmMoeDsa的整合。GLM-5模型采用了78层Transformer解码器结构，前三层为稠密层，从第四层开始转为稀疏的混合专家架构（MoE），配置了256个专家，每个token激活8个专家。这种设计可以在保持庞大参数量的同时，通过计算资源的按需分配来兼顾推理响应速度。专家总数为256，共享专家为1个，每个token激活8个专家，专家维度为2048，上下文能力为202K，词表规模为154880。与GLM 4.5系列相比，GLM-5的总专家数为160个，上下文能力为128K。据估算，GLM5模型大小在700-800B之间，激活参数不变。此外，有证据表明OpenRouter上的新模型pony-alpha可能是GLM系列模型，极有可能是GLM-5，展现了很强的代码编写能力，上下文能力也是200K。

Hugging Face Transformers整合GLM 5，参数估算及性能分析

评论已关闭