梁文峰新论文:解决深度学习模型记忆问题
梁文峰最近发表了一篇论文,专注于解决深度学习模型中的记忆问题。DeepSeek团队采用的策略是极致的稀疏化,包括计算上的稀疏化(MoE,每次只激活一部分专家)和存储上的稀疏化(Engram,只检索相关的记忆片段)。将这两者结合起来的架构可能是DeepSeek V4的原型。这种架构一旦成功,我们可能会看到模型在参数量大幅增加的同时,推理成本却能够控制在极低的水平。未来的大模型可能会是一个“小而精”的推理核心,外挂一个可随时更新的“大而全”的Engram记忆库。
评论已关闭