在互联网技术的快速发展中,国产模型在处理大量文本数据方面的能力得到了显著提升。特别是在上下文处理方面,随着1M上下文技术的出现,模型在理解和处理长篇文本方面的能力有了质的飞跃。本文将深入探讨1M上下文技术对国产模型的影响,并分析其在实际应用中的表现。

研究背景

随着Deepseek开源并应用其技术扩展上下文,1M上下文技术开始逐渐被引入到国产模型中。这一技术的应用预期将在上半年扩散到各个国产模型中,从而推动1M上下文时代的到来。1M上下文虽然不意味着所有窗口都能使用,但它在一定程度上提升了“有效注意力范围内的上下文”,使得模型能够更好地理解和处理长篇文本。

研究目的

本研究旨在评测1M上下文技术给最新的国产模型(如Deepseek网页版和qwen-plus网页版)以及老牌模型(如gemini2.5 pro中转api版和3pro网页版)带来的对中量文本的注意力和理解力提升程度。

测试方法

为了进行评测,我们从pubmed获取了50篇文献的摘要合集,并让各LLM基于这些摘要撰写综述。随后,我们让gemini2.5pro评估这些综述的质量,以评估模型在处理长篇文本时的表现。

测评结果

在综述准确度方面,各模型的表现存在差异。具体如下:

  • Deepseek-1M-lite最佳:新DS生成的结果字数最多,且都是较为完整的段落。这表明梁文峰的新技术确实提升了模型的注意力,使得模型能够更好地处理长篇文本。考虑到峰哥的开源精神和低成本能力,预计今年上半年各国模都会采用这一技术。
  • qwen3.5plus次之:这是唯一一个没有遗漏文献的模型,令人意外。但正文字数相对不足,可能还是与模型参数量低有关。
  • gemini2.5pro:作为1M上下文的引领者,尽管发布已近一年,依然表现不俗。虽然在本次综述测评中排名第三,但gemini2.5pro在给定文本的利用能力上表现突出。
  • gemini3pro:表现最差,因此不予讨论。

具体排名结果和详细测评内容请参考原文链接。

结论

1M上下文技术的引入显著提升了国产模型在处理长篇文本时的能力,使得模型能够更好地理解和分析大量文本数据。随着这一技术的进一步应用和优化,我们可以预见国产模型在处理复杂任务时的表现将得到进一步提升。

标签: none

评论已关闭