Hugging Face Transformers整合GLM 5,参数估算及性能分析
Hugging Face的Transformers库最近进行了一项重大更新,将GLM 5模型整合进其架构中。GLM 5模型采用了DeepSeek-V3系列的DSA Deepseek稀疏注意力机制,并完全复用了DeepseekV3和V3.2的架构,使用deepseek mtp(Multi-Token Prediction,多标记预测)技术。在2026年2月8日,编号为43858的拉取请求被合入,完成了对新架构GlmMoeDsa的整合。GLM-5模型采用了78层Transformer解码器结构,前三层为稠密层,从第四层开始转为稀疏的混合专家架构(MoE),配置了256个专家,每个token激活8个专家。这种设计可以在保持庞大参数量的同时,通过计算资源的按需分配来兼顾推理响应速度。专家总数为256,共享专家为1个,每个token激活8个专家,专家维度为2048,上下文能力为202K,词表规模为154880。与GLM 4.5系列相比,GLM-5的总专家数为160个,上下文能力为128K。据估算,GLM5模型大小在700-800B之间,激活参数不变。此外,有证据表明OpenRouter上的新模型pony-alpha可能是GLM系列模型,极有可能是GLM-5,展现了很强的代码编写能力,上下文能力也是200K。
评论已关闭