在评估GLM 4.7与Minimax 2.1的能力时,我们设定了将原始方案迁移至新评估框架的任务。这个任务要求模型不仅要准确理解原始方案,还要理解并应用现有评估框架的逻辑。通过测试,我们发现GLM-4.7和Minimax-2.1都能理解方案的核心流程并完成框架迁移,但在执行逻辑的准确性和模型适配能力上存在一定差距。与Claude Sonnet 4.5相比,这两款模型仍有提升空间。

在测试配置方面,我们使用了GLM-4.7(Coding Plan Lite)和Minimax-2.1 (API)作为评估模型。在Token消耗统计上,GLM-4.7的输入Token为104.9k,输出Token为10.8k;而Minimax-2.1的输入Token为143.8k,输出Token为8.1k。

综合评分方面,虽然这两款模型在迁移任务上表现不错,但它们也存在一些主要缺陷。首先,在原理理解方面,GLM-4.7虽然能正确实现主流程,但部分边界判断逻辑缺失;而Minimax-2.1则存在多处逻辑错误。其次,两款模型的世界知识不足,原始方案针对的是BERT系列Encoder模型,但当前测试环境使用的是Llama/Qwen等Decoder模型,GLM-4.7和Minimax-2.1均未根据模型结构主动调整代码逻辑。

标签: none

评论已关闭