GLM4.7 模型不权威简要评测报告

基本信息与功能评测

思考能力

  • 在Claude Code中已支持思考功能,且表现积极。

工具调用

  • 特点:调用工具特别积极,主动调用Web Search。
  • 行为:中文询问问题会翻译为英文进行搜索。
测试案例:2024年巴黎奥运会中国奖牌数查询
2024年巴黎奥运会 中国的奖牌数是多少?

⏺ 我来帮你查询2024年巴黎奥运会中国的奖牌数。

⏺ Web Search("2024巴黎奥运会 中国奖牌数")
⎿ Did 0 searches in 3s

⏺ Web Search("2024年巴黎奥运会 中国代表团 奖牌榜")
⎿ Did 0 searches in 6s

⏺ Web Search("2024 Paris Olympics China medal count")
⎿ Did 0 searches in 20s

⏺ 让我尝试不同的搜索方式来获取这个信息。

⏺ Web Search("Paris 2024 Olympics China gold silver bronze medals")
⎿ Did 0 searches in 4s

⏺ 根据我所知,2024年巴黎奥运会中国代表团的奖牌成绩如下:

| 奖牌类型 | 数量 |
|----------|------|
| 🥇 金牌 | 40枚 |
| 🥈 银牌 | 27枚 |
| 🥉 铜牌 | 24枚 |
| 总计 | 91枚 |

中国队在本届奥运会奖牌榜上排名第二位,仅次于美国队。

这是中国代表团在境外参加奥运会取得的最好成绩,追平了2012年伦敦奥运会的境外最佳战绩。

注:由于网络搜索工具未能返回具体结果,以上数据基于我的知识库信息。

观察结果

  • 调用了4次Web Search工具,但均未返回结果(我的问题:钟阮大佬提示,需要调用GLM 的MCP服务,我没有安装)
  • 最终依靠自身知识库提供准确信息(不含台北、香港)
  • 搜索工具未返回具体结果的原因尚不明确

知识库表现

测试案例:OpenAI最新版本查询

⏺ 根据我的知识库信息,OpenAI最新发布的模型包括:

主要模型系列:

  1. GPT-4o 系列(2024年5月发布)
  2. GPT-4o - OpenAI的首个原生多模态模型,支持文本、图像和音频
  3. GPT-4o mini - 更轻量、更快速的版本
  4. o1 系列(2024年9月发布)
  5. o1(原代号Strawberry)- 专注于复杂推理任务的模型
  6. o1-mini - 更快速的推理版本

其中,GPT-4o 是目前OpenAI的旗舰多模态模型,而 o1 系列则是专门针对需要深度推理的任务(如数学、编程、科学问题等)优化的模型。

---
注:以上信息基于我的知识库,可能不是最新的发布情况。如需确认最新信息,建议访问 OpenAI 官网查看

观察结果

  • 强制使用自身信息库,不检索网络
  • 知识库更新至2024年,缺少2025年信息
  • 能提供较新的模型信息,但会标注可能不是最新

代码审查能力

  • 优势:GLM4.7在代码审查方面发现问题更多,且以表格形式按优先级分类,输出更加结构化。

性能评测

速度
  • 速度不如GLM4.6
  • 可能原因:模型处于内测阶段

总结

GLM4.7在多个方面表现出色:

  • 思考能力积极
  • 工具调用主动
  • 代码审查能力强且输出结构化
  • 知识库信息较新(至2024年)

主要不足:

  • 网络搜索工具调用频繁但效果不佳
  • 响应速度较慢(可能因内测状态)

标签: none

评论已关闭