大型语言模型在Unity C#项目中的横向评测
在最近的项目中,我进行了一系列的模型评测,针对Unity C#项目中的皮肤系统需求案。我测试了多个大型语言模型,包括Qwen3.5系列、Gemini 3.1 Pro、Sonnet 4.6以及GPT-5.3-Codex-Spark,以评估它们在代码生成和功能实现方面的表现。评测过程中,我对比了这些模型在速度、令牌数、代码行数、完成度以及代码质量等方面的表现。评测结果显示,Qwen3.5-Plus表现良好,尽管存在一些功能实现的遗漏,但代码质量和架构保持正常。Qwen3.5-Flash虽然速度较快,但编写了大量无用代码,导致效率降低。Claude Sonnet 4.6的表现令人失望,多次尝试均失败,完成度未提升。Gemini 3.1 Pro的表现与3.0 Pro相似,受到请求频率限制的影响。GPT-5.3-Codex-Spark由于上下文限制,无法有效处理复杂需求,最终未能完成需求。总体来看,Qwen3.5-Plus在此次评测中表现最佳,而GPT-5.3-Codex-Spark表现最差。
评论已关闭