Gemini 3 Pro召回率测评:上下文注意力退步,实际应用受限
Gemini 3 Pro模型在召回率方面的表现引发了广泛的讨论和关注。根据测试结果,Gemini 3 Pro的召回率仅为2.5 Pro的1/3,上下文注意力能力大幅退步,导致在实际编写代码时表现出明显不足。测试环境中的30k上下文长度只是特定测试条件下的数据,并不能直接推广到其他环境。实际上,在处理相同文本时,2.5 Pro的召回率表现是3 Pro的2-3倍。测试曲线显示,3 Pro在大海捞针任务中的表现与Lithiumflow和O一串模型相似,这表明这些模型可能是3 Pro模型的新检查点或微调版本。然而,当上下文超过20-30k时,3 Pro容易报错,召回率表现较差。尽管如此,在有效上下文中,3 Pro的召回率表现仍优于2.5 Pro。这种现象可能是因为许多评测只关注提示词输入和极短的上下文,无法全面展示模型的注意力和召回率。尽管3 Pro在模型能力上表现出色,但其注意力问题是一个显著退步,特别是在处理长上下文时。总体来看,3 Pro模型的能力受到上下文长度的限制,实际应用中可能面临挑战。
评论已关闭