DeepSeek-V3.2-Exp最近进行了修复更新,但似乎并未引起广泛关注。更新内容主要针对索引器模块中的RoPE实现不匹配问题,该问题可能导致性能下降。在早期版本中,索引器RoPE期望非交错输入,而MLA RoPE期望交错输入。此次更新已解决这个问题。此外,更新还涉及对非interleaved处理的增加,将原本类似[r0, r1, r2, i0, i1, i2]的格式重塑为[r0, i0, r1, i1, r2, i2],以统一转换格式。此次更新虽然看似对性能的提升不大,但可能对方法学上有重要意义。例如,DeepSeek-V3.2引入了稀疏注意力机制DSA,可能对长上下文处理有重要作用。有人猜测Gemini的长上下文实现也可能使用了类似方法。此次更新并未引起太多讨论,让人好奇提供3.2版本的平台是否会进行更新,特别是考虑到此次更新连版本号都没有变化。

标签: none

评论已关闭