别再说跑分了，模型是否要实际用上才知道好坏？

在当今人工智能领域，模型的性能评估往往依赖于各种跑分测试。然而，这些测试结果是否能够完全反映模型在实际应用中的表现，一直是一个备受争议的话题。有人认为，只有将模型投入到实际使用场景中，才能真正了解其优劣。本文将探讨这一观点，并特别关注GLM 4.7和mini max m2.7模型，分析它们在实际应用中的表现以及为何被用户青睐。

近期，笔者在处理一个复杂的mindmanager winwrap项目时，遇到了一些困难。使用老美的模型，团队经过一整夜的尝试，仍然无法解决问题，并多次遭遇runtime error。然而，当GLM 4.7被引入后，问题得到了迅速解决，仅出现了两次runtime error，两天内就完成了整个项目。这一经历让笔者深刻体会到GLM模型在解决实际问题上的强大能力，这也是笔者选择GLM lite 1+3+12月套餐的原因之一。

此外，在另一个项目中，GLM模型在openclaw应用中的表现并不理想，因此笔者转向了mini max new starter。令人惊喜的是，m2.7模型的表现与GLM不相上下。尽管原本考虑升级到pro版本，但starter套餐已经足够满足需求，且m2.7作为一个细模型，具有小MoE架构，其quota是GLM的10倍，性价比极高。

从高配到低配，GLM和mini max m2.7都展现了出色的性能，同时它们都是中国的模型，这无疑增加了用户对它们的信任和好感。在众多AI模型中，高低配的选择被视为最优解，既经济实惠，又支持国产技术。

在模型选择上，笔者并没有购买平区的claude pro或supergrok，而是选择了还在有效的chatgpt edu、gemini和gdrive。这一选择不仅基于成本考虑，也体现了对模型实际应用效果的重视。

综上所述，GLM 4.7和mini max m2.7模型在实际应用中展现出了卓越的性能和可靠性，证明了模型的好坏最终还是要看实际使用效果。这一观点对于AI模型的选择和应用具有重要的指导意义。

别再说跑分了，模型是否要实际用上才知道好坏？

评论已关闭