Gemini 3 Pro Preview注意力测试跑分分析
Gemini 3 Pro Preview版本发布后,其注意力测试跑分表现不佳,仅达到2.5P版本约三分之一。测试显示,无论是否开启思考模式,或调整思考预算和等级,注意力表现均无显著提升。此外,开启高思考预算反而可能导致截断问题,模型在思考过程中存在重复思考或自我安全审查的现象。作者建议在没有必要的情况下,将思考模式设置为低,以避免能力下降和过度思考。作者还指出,思考等级和预算的设置并不直接决定模型能思考的token数量,超过预算会导致截断。此外,作者强调,3P版本的注意力表现并非只有32K,而是大约是2.5P版本的三分之一,这一结果受多种因素影响。作者提供的测试仓库链接中包含了原始数据和结果,供进一步分析和比较。
评论已关闭