Claude在AI联网搜索能力测试中表现最佳

在最近的一次关于AI联网搜索能力的测试中，Claude、GPT和Gemini三个模型的表现各有不同。测试的目的是评估这些模型在没有显式提醒需要联网搜索的情况下，能否准确找到信息，并分析它们的幻觉率。测试使用相同的提示词，询问小说《那些热血飞扬的日子》中角色叶倾城与主角张成的关系发展，以及叶倾城是否恢复记忆。Claude Sonnet 4.5表现最佳，搜索了3轮，每次10个网页，回答的信息完全正确，幻觉率为0%。GPT 5.2 thinking搜索了11轮，但效率低，每次只搜索1~2个网页，回答中正确信息不多，幻觉率为70%。Gemini 3 Pro完全胡编乱造，幻觉率高于90%。测试结果表明，Claude在搜索准确性和效率上表现最佳。此外，Claude在用户交互设计、工具使用和Mac App功能等方面也显示出强大的能力，如项目管理、联网搜索、文件创建等，这些都使得Claude在生产力方面表现出色。相比之下，GPT和Gemini在这些方面还有待改进。作者表示，自己已经从GPT主力转向Claude主力，并期待未来更多厂商能向Claude的方向发展，实现更好的生产力，而不仅仅是局限于回答问题。

Claude在AI联网搜索能力测试中表现最佳

评论已关闭

最新文章

最近回复

分类

归档

其它