Gemini 3 Pro Preview注意力测试跑分分析

Gemini 3 Pro Preview版本发布后，其注意力测试跑分表现不佳，仅达到2.5P版本约三分之一。测试显示，无论是否开启思考模式，或调整思考预算和等级，注意力表现均无显著提升。此外，开启高思考预算反而可能导致截断问题，模型在思考过程中存在重复思考或自我安全审查的现象。作者建议在没有必要的情况下，将思考模式设置为低，以避免能力下降和过度思考。作者还指出，思考等级和预算的设置并不直接决定模型能思考的token数量，超过预算会导致截断。此外，作者强调，3P版本的注意力表现并非只有32K，而是大约是2.5P版本的三分之一，这一结果受多种因素影响。作者提供的测试仓库链接中包含了原始数据和结果，供进一步分析和比较。

Gemini 3 Pro Preview注意力测试跑分分析

评论已关闭