2026年AI测评标准亟待更新:国产AI需提升复杂环境适应能力
随着人工智能技术的飞速发展,到了2026年,AI的测评标准显然需要与时俱进。目前市场上出现了许多新的AI模型,但它们在生产力方面的表现却并不尽如人意,只有Claude和GPT在生产力方面表现突出。传统的测试方法,如天气卡牌和弹跳小球等,已经无法全面评估AI的能力。在实际生产环境中,对复杂系统的理解能力才是检验AI能力的真正标准。国产AI虽然在单一功能上表现不错,但在面对真实复杂环境时,往往显得力不从心,容易出现各种问题。例如,最近在重构一个项目时,使用GLM和GPT进行验收,GLM仅用几分钟就完成了任务,而GPT则花费了数小时,对整个系统的设计和输出参数格式进行了详细的分析。从质量上看,两者存在明显差距。这表明国产AI还有很长的路要走。在期待国产AI进步的同时,也期待Deepseek等企业能够带来新的突破。
评论已关闭