梁文峰新论文：解决深度学习模型记忆问题

梁文峰最近发表了一篇论文，专注于解决深度学习模型中的记忆问题。DeepSeek团队采用的策略是极致的稀疏化，包括计算上的稀疏化（MoE，每次只激活一部分专家）和存储上的稀疏化（Engram，只检索相关的记忆片段）。将这两者结合起来的架构可能是DeepSeek V4的原型。这种架构一旦成功，我们可能会看到模型在参数量大幅增加的同时，推理成本却能够控制在极低的水平。未来的大模型可能会是一个“小而精”的推理核心，外挂一个可随时更新的“大而全”的Engram记忆库。

梁文峰新论文：解决深度学习模型记忆问题

评论已关闭