Gemini 3 Pro召回率测评：上下文注意力退步，实际应用受限

Gemini 3 Pro模型在召回率方面的表现引发了广泛的讨论和关注。根据测试结果，Gemini 3 Pro的召回率仅为2.5 Pro的1/3，上下文注意力能力大幅退步，导致在实际编写代码时表现出明显不足。测试环境中的30k上下文长度只是特定测试条件下的数据，并不能直接推广到其他环境。实际上，在处理相同文本时，2.5 Pro的召回率表现是3 Pro的2-3倍。测试曲线显示，3 Pro在大海捞针任务中的表现与Lithiumflow和O一串模型相似，这表明这些模型可能是3 Pro模型的新检查点或微调版本。然而，当上下文超过20-30k时，3 Pro容易报错，召回率表现较差。尽管如此，在有效上下文中，3 Pro的召回率表现仍优于2.5 Pro。这种现象可能是因为许多评测只关注提示词输入和极短的上下文，无法全面展示模型的注意力和召回率。尽管3 Pro在模型能力上表现出色，但其注意力问题是一个显著退步，特别是在处理长上下文时。总体来看，3 Pro模型的能力受到上下文长度的限制，实际应用中可能面临挑战。

Gemini 3 Pro召回率测评：上下文注意力退步，实际应用受限

评论已关闭