LLM文学分析测试排行：DeepSeek V4 Lite第一

作者: sorry
时间: 2026-02-23
分类: 文章

在最新的LLM文学分析测试中，DeepSeek V4 Lite表现优异，排名第一。该测试由AiStudio统计Token量，并评估了多个LLM模型在文学分析方面的表现。以下是各模型的优缺点及分析排行图表：

测试模型：

DeepSeek V4 Lite
Grok 4.20
Qwen 3.5 Plus
Gemini 3.1 Pro
GLM 5
豆包

API测试模型：

Claude 4.6 Ops
GPT Codex（5.3）

个人感知分析：

DeepSeek V4 Lite：全面阅读，分析能力强，注意力集中，评价直入核心。
Grok 4.20：主动进行网页搜索，直接引用他人分析并整合，4 Agent互相讨论结果的思路新颖。
Qwen 3.5 Plus：思考时间最长，分析准确。
Gemini 3.1 Pro：注意力较3.0 Pro有所提升，分析准确，但标点问题导致输出出现异常。
Claude 4.6 Ops：未完全阅读，但唯一能分析出逻辑漏洞。
GPT Codex：未完全阅读全文，分析点未给出原文位置，主要谈论宏观内容，细节分析不足。
GLM 5：输出标准，未找出细节，因此排在GPT后面。
豆包：体验最差，手机端和网页端均表现不佳，80K文件测试中仅读取了部分内容，分析指定内容后出现幻觉。

其他观察：

DeepSeek V4 Lite更新后表现强劲。
Gemini 3.1 Pro输出类似朋友间聊天，有人味。
Claude分析注意力集中在逻辑问题上。
Grok主动搜索并整合他人分析，另辟蹊径。

讨论：
各位在使用这些模型时有什么体验？欢迎分享您的看法。

标签: none

评论已关闭

上一篇: 2026年相亲失败经历分享
下一篇: antigravity 登录后消息无响应的解决方法