在最新的LLM文学分析测试中,DeepSeek V4 Lite表现优异,排名第一。该测试由AiStudio统计Token量,并评估了多个LLM模型在文学分析方面的表现。以下是各模型的优缺点及分析排行图表:

测试模型

  • DeepSeek V4 Lite
  • Grok 4.20
  • Qwen 3.5 Plus
  • Gemini 3.1 Pro
  • GLM 5
  • 豆包

API测试模型

  • Claude 4.6 Ops
  • GPT Codex(5.3)

个人感知分析

  • DeepSeek V4 Lite:全面阅读,分析能力强,注意力集中,评价直入核心。
  • Grok 4.20:主动进行网页搜索,直接引用他人分析并整合,4 Agent互相讨论结果的思路新颖。
  • Qwen 3.5 Plus:思考时间最长,分析准确。
  • Gemini 3.1 Pro:注意力较3.0 Pro有所提升,分析准确,但标点问题导致输出出现异常。
  • Claude 4.6 Ops:未完全阅读,但唯一能分析出逻辑漏洞。
  • GPT Codex:未完全阅读全文,分析点未给出原文位置,主要谈论宏观内容,细节分析不足。
  • GLM 5:输出标准,未找出细节,因此排在GPT后面。
  • 豆包:体验最差,手机端和网页端均表现不佳,80K文件测试中仅读取了部分内容,分析指定内容后出现幻觉。

其他观察

  • DeepSeek V4 Lite更新后表现强劲。
  • Gemini 3.1 Pro输出类似朋友间聊天,有人味。
  • Claude分析注意力集中在逻辑问题上。
  • Grok主动搜索并整合他人分析,另辟蹊径。

讨论
各位在使用这些模型时有什么体验?欢迎分享您的看法。

标签: none

评论已关闭