本次评测主要针对几个AI模型在Unity C#项目中的表现,特别是针对皮肤系统需求案的代码生成能力。评测的项目包括Step-3.5-Flash、Qwen3-Coder-Next、GPT-5.3-Codex(xhigh)、GPT-5.3-Codex(high)、GPT-5.3-Codex(medium)和Claude-Opus-4.6。评测的指标包括速度、令牌数、代码行数、完成度以及代码质量。评测结果显示,Step-3.5-Flash和Qwen3-Coder-Next在完成度上存在编译阻断和核心功能回退的问题,而GPT-5.3-Codex系列模型的表现相对较好,尽管xhigh版本存在极个别小错误,但整体表现与GPT-5.2(xhigh)相当。GPT-5.3-Codex的高和中等版本存在逻辑错误。Claude-Opus-4.6的表现未详细记录。在代码质量方面,Step-3.5-Flash和Qwen3-Coder-Next的代码架构与美观程度尚可,注释程度较高,防御性编程正常。GPT-5.3-Codex系列模型的代码架构与美观程度较好,但注释程度较低,与5.2系列的行为不同。Claude-Opus-4.6的代码质量未详细记录。最终,Step-3.5-Flash和Qwen3-Coder-Next被归为Tier 3,而其他模型的表现各有优劣。此次评测强调了GPT-5.3-Codex系列模型在代码生成方面的潜力,同时也指出了它们在某些方面仍需改进。

标签: none

评论已关闭