谷歌对大语言模型新的记忆方式的研究

在人工智能领域,大语言模型(LLM)的处理能力一直是一个重要的研究课题。Transformer模型虽然能够处理较长的序列,但在面对过长的序列时,其注意力机制会被稀释,导致模型受到大量先前无关信息的干扰。此外,性能问题和经济问题也不容忽视,因为注意力的计算复杂度是n^2级的,而且传统的Transformer上下文依赖于kv cache,序列越长所需的显存就越多。

为了解决这些问题,谷歌提出了名为Titan的解决方案。Titan并没有脱离Transformer架构,而是引入了一个神经长期记忆模块。这个模块不是静态的数据库,而是一个深层神经网络。简单来说,它会在运行时更新记忆模块的权重来进行记忆,从而大幅减少显存使用。与人脑相似的是,它通过惊奇度来记信息,即信息越意外越要记,不意外就不记。

为了验证神经记忆的有效性,谷歌在论文中设计了三种集成方式:MAC、MAG和MAL。MAC将记忆模块的输出作为额外的上下文令牌,实验表明,MAC在保持Transformer原有性能的同时,显著提升了长程召回能力。MAG引入了非线性门控机制,而MAL则更为激进,将记忆模块直接作为网络的一层,与注意力层堆叠。谷歌声称使用Titan可以大幅提高在大海捞针里的测试结果,但具体结果并未公布。

更长的上下文可以带来更多的应用可能性,比如处理更复杂的文本理解任务、更长的对话系统等。尽管当前Gemini的1m上下文已经相当可观,但谷歌的研究表明,未来可能还有更大的提升空间。关于谷歌的另一个项目Atlas,以后再详细探讨。

综上所述,谷歌对大语言模型记忆方式的研究,不仅有助于提升模型的性能,也为人工智能领域带来了新的可能性。

标签: none

评论已关闭