Deepseek在处理长上下文时的注意力提升能力超越传统模型

在当前的AI技术领域中，Deepseek模型在处理长上下文时展现出了卓越的注意力提升能力，甚至可能超越了传统的哈基米模型。这一发现是在一个真实的场景中得出的，具体测试是通过从摘要数据库（如pubmed）获取50篇文献摘要（共计21k英文单词），然后利用AI撰写一篇关于“JAK抑制剂在类风湿关节炎中的研究进展”的综述。测试中使用的文献摘要可以通过以下链接获取：abstract-rheumatoid-set.txt。在撰写综述时，AI被要求遵循学术语言，严格使用提供的文本材料，并尽可能利用所有内容，同时采用规范的引文格式，以尾注形式呈现。

本次测试涉及了三个不同的AI模型：网页版的gemini3 pro（由测试者自行开启的gemini pro）、第三方中转版的gemini2.5 pro（推测为vertex）以及网页版的Deepseek-0211。结果显示，尽管Deepseek-0211是一个轻量级模型，但其生成的综述质量最佳，且处理速度最快。这一结果有力地证明了Deepseek在处理长文本和复杂任务时的优越性能。测试结果可以通过以下链接查看：JAK抑制剂在类风湿关节炎中的研究进展（gemini3pro网页版）.pdf、JAK抑制剂在类风湿关节炎中的研究进展（gemini2.5pro_中转api版）.pdf、JAK抑制剂在类风湿关节炎中的研究进展（DS网页版）.pdf。这一发现对于AI在学术研究和医疗领域的应用具有重要意义。

Deepseek在处理长上下文时的注意力提升能力超越传统模型

评论已关闭