LLM文学分析测试排行:DeepSeek V4 Lite第一
在最新的LLM文学分析测试中,DeepSeek V4 Lite表现优异,排名第一。该测试由AiStudio统计Token量,并评估了多个LLM模型在文学分析方面的表现。以下是各模型的优缺点及分析排行图表:
测试模型:
- DeepSeek V4 Lite
- Grok 4.20
- Qwen 3.5 Plus
- Gemini 3.1 Pro
- GLM 5
- 豆包
API测试模型:
- Claude 4.6 Ops
- GPT Codex(5.3)
个人感知分析:
- DeepSeek V4 Lite:全面阅读,分析能力强,注意力集中,评价直入核心。
- Grok 4.20:主动进行网页搜索,直接引用他人分析并整合,4 Agent互相讨论结果的思路新颖。
- Qwen 3.5 Plus:思考时间最长,分析准确。
- Gemini 3.1 Pro:注意力较3.0 Pro有所提升,分析准确,但标点问题导致输出出现异常。
- Claude 4.6 Ops:未完全阅读,但唯一能分析出逻辑漏洞。
- GPT Codex:未完全阅读全文,分析点未给出原文位置,主要谈论宏观内容,细节分析不足。
- GLM 5:输出标准,未找出细节,因此排在GPT后面。
- 豆包:体验最差,手机端和网页端均表现不佳,80K文件测试中仅读取了部分内容,分析指定内容后出现幻觉。
其他观察:
- DeepSeek V4 Lite更新后表现强劲。
- Gemini 3.1 Pro输出类似朋友间聊天,有人味。
- Claude分析注意力集中在逻辑问题上。
- Grok主动搜索并整合他人分析,另辟蹊径。
讨论:
各位在使用这些模型时有什么体验?欢迎分享您的看法。
评论已关闭