大型语言模型在Unity C#项目中的横向评测

在最近的项目中，我进行了一系列的模型评测，针对Unity C#项目中的皮肤系统需求案。我测试了多个大型语言模型，包括Qwen3.5系列、Gemini 3.1 Pro、Sonnet 4.6以及GPT-5.3-Codex-Spark，以评估它们在代码生成和功能实现方面的表现。评测过程中，我对比了这些模型在速度、令牌数、代码行数、完成度以及代码质量等方面的表现。评测结果显示，Qwen3.5-Plus表现良好，尽管存在一些功能实现的遗漏，但代码质量和架构保持正常。Qwen3.5-Flash虽然速度较快，但编写了大量无用代码，导致效率降低。Claude Sonnet 4.6的表现令人失望，多次尝试均失败，完成度未提升。Gemini 3.1 Pro的表现与3.0 Pro相似，受到请求频率限制的影响。GPT-5.3-Codex-Spark由于上下文限制，无法有效处理复杂需求，最终未能完成需求。总体来看，Qwen3.5-Plus在此次评测中表现最佳，而GPT-5.3-Codex-Spark表现最差。

大型语言模型在Unity C#项目中的横向评测

评论已关闭