Claude在AI联网搜索能力测试中表现最佳
在最近的一次关于AI联网搜索能力的测试中,Claude、GPT和Gemini三个模型的表现各有不同。测试的目的是评估这些模型在没有显式提醒需要联网搜索的情况下,能否准确找到信息,并分析它们的幻觉率。测试使用相同的提示词,询问小说《那些热血飞扬的日子》中角色叶倾城与主角张成的关系发展,以及叶倾城是否恢复记忆。Claude Sonnet 4.5表现最佳,搜索了3轮,每次10个网页,回答的信息完全正确,幻觉率为0%。GPT 5.2 thinking搜索了11轮,但效率低,每次只搜索1~2个网页,回答中正确信息不多,幻觉率为70%。Gemini 3 Pro完全胡编乱造,幻觉率高于90%。测试结果表明,Claude在搜索准确性和效率上表现最佳。此外,Claude在用户交互设计、工具使用和Mac App功能等方面也显示出强大的能力,如项目管理、联网搜索、文件创建等,这些都使得Claude在生产力方面表现出色。相比之下,GPT和Gemini在这些方面还有待改进。作者表示,自己已经从GPT主力转向Claude主力,并期待未来更多厂商能向Claude的方向发展,实现更好的生产力,而不仅仅是局限于回答问题。
评论已关闭