小模型的文学任务评测分析

在当前的AI模型市场中，价格低于10美元的模型通常被称为小模型。这些模型在文学任务中的表现各有千秋，下面将针对几个典型的小模型进行评测和分析。

润色任务概述

任务要求对文段进行润色，但润色过程不应添加冗余和油腻的内容，润色后的字数需达到一万字。这样的任务要求旨在测试模型在保持内容质量的同时，是否能够有效扩展文本长度。

模型评测

Grok 4.1 Fast

Grok 4.1 Fast在处理前500字时表现尚可，但在500字之后开始出现严重问题，文本缩句严重，导致内容难以理解。例如，原文中描述沏茶的细腻过程，模型输出却是简短的句子，如“滤、倒、拭”，失去了原文的生动性和细节。此外，模型还尝试将现代文转换为文言文，但显然并不适合这一任务。

MiniMax M2

MiniMax M2的表现更为糟糕，它对原文进行了大刀阔斧的修改，不仅调换了句子顺序，还破坏了原文的逻辑结构。这种做法使得润色后的文本几乎失去了原文的意义，完全不可用。

GLM 4.6

GLM 4.6的输出为6200字，但仔细检查后发现，除了将“他抬起了头”改为“他慢慢地抬起了头”之外，其余几乎未做任何修改，直接复制了原文。这种情况下，模型的润色功能几乎等同于无效。

GPT 5.1

GPT 5.1虽然价格昂贵，但其在文学润色方面的表现相对较好。然而，由于GPT系列模型的特点较为明显，有时会给人一种“味道太浓”的感觉，使得部分读者感到不适。

Haiku 4.5

Haiku 4.5在润色方面表现得较为克制，整体上还算可以。它在保持原文风格的同时，对文本进行了一定的优化，但润色程度相对保守。

Kimi K2 Thinking

Kimi K2 Thinking在所有小模型中表现最佳，不仅价格低廉，而且效果出色。它能够为文本添加丰富的细节，使内容更加生动和吸引人。Kimi K2 Thinking被认为是目前最接近Gemini 3的小模型，其表现令人赞叹。

Gemini 3系列

虽然Gemini 3系列的Pro模型并不属于小模型，但它们的性能仍然值得讨论。

Pro Preview（11月）

Pro Preview在处理文本时出现了类似Grok 4.1 Fast的问题，前1000字平均句长接近100字，但之后迅速下降到10字左右。这种表现使得Pro Preview在综合质量上处于中等水平，考虑到其价格和品牌影响力，这一表现可以说是令人失望的。

Canvas Pro

Canvas Pro的表现则相对出色，它在细节处理上非常生动，用词丰富，给人一种不吝啬话语的感觉。Canvas Pro被认为是谷歌在推出Gemini 3系列之前的一个优秀模型，其表现令人惊喜。

总结

在文学任务评测中，小模型的表现各有差异。Kimi K2 Thinking和Canvas Pro表现突出，而Grok 4.1 Fast、MiniMax M2和GLM 4.6则存在明显问题。对于用户而言，选择合适的模型需要根据具体需求和预算进行综合考虑。同时，AI模型的发展仍在持续，未来可能会有更多表现优异的小模型出现。

小模型的文学任务评测分析

小模型的文学任务评测分析

润色任务概述

模型评测

Grok 4.1 Fast

MiniMax M2

GLM 4.6

GPT 5.1

Haiku 4.5

Kimi K2 Thinking

Gemini 3系列

Pro Preview（11月）

Canvas Pro

总结

参考文献

评论已关闭