小模型的文学任务评测分析

在当前的AI模型市场中,价格低于10美元的模型通常被称为小模型。这些模型在文学任务中的表现各有千秋,下面将针对几个典型的小模型进行评测和分析。

润色任务概述

任务要求对文段进行润色,但润色过程不应添加冗余和油腻的内容,润色后的字数需达到一万字。这样的任务要求旨在测试模型在保持内容质量的同时,是否能够有效扩展文本长度。

模型评测

Grok 4.1 Fast

Grok 4.1 Fast在处理前500字时表现尚可,但在500字之后开始出现严重问题,文本缩句严重,导致内容难以理解。例如,原文中描述沏茶的细腻过程,模型输出却是简短的句子,如“滤、倒、拭”,失去了原文的生动性和细节。此外,模型还尝试将现代文转换为文言文,但显然并不适合这一任务。

MiniMax M2

MiniMax M2的表现更为糟糕,它对原文进行了大刀阔斧的修改,不仅调换了句子顺序,还破坏了原文的逻辑结构。这种做法使得润色后的文本几乎失去了原文的意义,完全不可用。

GLM 4.6

GLM 4.6的输出为6200字,但仔细检查后发现,除了将“他抬起了头”改为“他慢慢地抬起了头”之外,其余几乎未做任何修改,直接复制了原文。这种情况下,模型的润色功能几乎等同于无效。

GPT 5.1

GPT 5.1虽然价格昂贵,但其在文学润色方面的表现相对较好。然而,由于GPT系列模型的特点较为明显,有时会给人一种“味道太浓”的感觉,使得部分读者感到不适。

Haiku 4.5

Haiku 4.5在润色方面表现得较为克制,整体上还算可以。它在保持原文风格的同时,对文本进行了一定的优化,但润色程度相对保守。

Kimi K2 Thinking

Kimi K2 Thinking在所有小模型中表现最佳,不仅价格低廉,而且效果出色。它能够为文本添加丰富的细节,使内容更加生动和吸引人。Kimi K2 Thinking被认为是目前最接近Gemini 3的小模型,其表现令人赞叹。

Gemini 3系列

虽然Gemini 3系列的Pro模型并不属于小模型,但它们的性能仍然值得讨论。

Pro Preview(11月)

Pro Preview在处理文本时出现了类似Grok 4.1 Fast的问题,前1000字平均句长接近100字,但之后迅速下降到10字左右。这种表现使得Pro Preview在综合质量上处于中等水平,考虑到其价格和品牌影响力,这一表现可以说是令人失望的。

Canvas Pro

Canvas Pro的表现则相对出色,它在细节处理上非常生动,用词丰富,给人一种不吝啬话语的感觉。Canvas Pro被认为是谷歌在推出Gemini 3系列之前的一个优秀模型,其表现令人惊喜。

总结

在文学任务评测中,小模型的表现各有差异。Kimi K2 Thinking和Canvas Pro表现突出,而Grok 4.1 Fast、MiniMax M2和GLM 4.6则存在明显问题。对于用户而言,选择合适的模型需要根据具体需求和预算进行综合考虑。同时,AI模型的发展仍在持续,未来可能会有更多表现优异的小模型出现。

参考文献

标签: none

评论已关闭