谷歌新研究：神经长期记忆模块提升大语言模型性能

谷歌对大语言模型新的记忆方式的研究

在人工智能领域，大语言模型（LLM）的处理能力一直是一个重要的研究课题。Transformer模型虽然能够处理较长的序列，但在面对过长的序列时，其注意力机制会被稀释，导致模型受到大量先前无关信息的干扰。此外，性能问题和经济问题也不容忽视，因为注意力的计算复杂度是n^2级的，而且传统的Transformer上下文依赖于kv cache，序列越长所需的显存就越多。

为了解决这些问题，谷歌提出了名为Titan的解决方案。Titan并没有脱离Transformer架构，而是引入了一个神经长期记忆模块。这个模块不是静态的数据库，而是一个深层神经网络。简单来说，它会在运行时更新记忆模块的权重来进行记忆，从而大幅减少显存使用。与人脑相似的是，它通过惊奇度来记信息，即信息越意外越要记，不意外就不记。

为了验证神经记忆的有效性，谷歌在论文中设计了三种集成方式：MAC、MAG和MAL。MAC将记忆模块的输出作为额外的上下文令牌，实验表明，MAC在保持Transformer原有性能的同时，显著提升了长程召回能力。MAG引入了非线性门控机制，而MAL则更为激进，将记忆模块直接作为网络的一层，与注意力层堆叠。谷歌声称使用Titan可以大幅提高在大海捞针里的测试结果，但具体结果并未公布。

更长的上下文可以带来更多的应用可能性，比如处理更复杂的文本理解任务、更长的对话系统等。尽管当前Gemini的1m上下文已经相当可观，但谷歌的研究表明，未来可能还有更大的提升空间。关于谷歌的另一个项目Atlas，以后再详细探讨。

综上所述，谷歌对大语言模型记忆方式的研究，不仅有助于提升模型的性能，也为人工智能领域带来了新的可能性。

谷歌新研究：神经长期记忆模块提升大语言模型性能

评论已关闭

最新文章

最近回复

分类

归档

其它