GLM-5即将全面对齐DeepSeek,通过vLLM出现的新PR #34124,我们可以看到GLM-5在代码中明确指向了DeepSeek-V3系列所采用的DSA Deepseek稀疏注意力机制。GLM-5不仅完全复用了DeepseekV3和V3.2的架构,还采用了deepseek mtp(多标记预测)技术。这一进展显示了GLM-5与DeepSeek在技术实现上的深度整合,预示着未来可能出现的更强大的模型和性能提升。

标签: none

评论已关闭