在中文互联网上,关于大型语言模型(LLM)的评测和讨论层出不穷,但其中真正客观和可靠的评测却显得较为稀少。最近,有人提出一个观点,认为在众多评测中,有一个评测最为接近个人日常使用感受,而其他评测往往更偏向于商业推广和软性广告。这个评测指出,新模型发布前的第一波新闻和测评往往充斥着软广告,而模型的跑分结果也往往被用来作为宣传手段,缺乏客观性。此外,一些评测通过简单的天气卡片测试来评估模型性能,这种做法被认为是没有意义的,因为它们无法全面反映模型的真实能力。该讨论在知乎和等平台上引发了关注,许多用户表示认同这种观点,认为评测应该更加注重实际应用场景和用户体验,而不是单纯地追求技术指标和商业利益。这一观点对于推动中文互联网上关于LLM评测的健康发展具有重要意义。

标签: none

评论已关闭