北航开源Code2Bench：双扩展动态评测，代码大模型告别躺平刷分

北航开源 Code2Bench：双扩展动态评测，代码大模型告别躺平刷分

来源：机器之心

机器之心

已投稿ICLR 2026

Github仓库：github.com/Code2Bench

Code2Bench: Scaling Source and Rigor for Dynamic Benchmark Construction

1 个帖子 - 1 位参与者

via - (author: Micraow)

Invalid media:

image

在当今的科技领域，代码评测工具对于衡量和提升代码质量至关重要。最近，北京航空航天大学开源了一个名为Code2Bench的工具，它引入了双扩展动态评测的概念，旨在解决代码大模型在评测过程中容易出现的“躺平刷分”问题。该工具的推出，为代码评测领域带来了新的活力和挑战。

Code2Bench的主要特点在于其双扩展动态评测机制。传统的代码评测方法往往静态地评估代码，而Code2Bench则通过动态的方式来评估代码的执行效果和性能。这种方法可以更准确地反映代码在实际运行环境中的表现，从而避免了静态评测可能带来的偏差和误差。

此外，Code2Bench还引入了扩展机制，允许用户根据实际需求自定义评测的参数和标准。这种灵活性使得Code2Bench能够适应不同类型的代码评测需求，无论是针对特定编程语言还是特定应用场景，都能提供精准的评测结果。

开源是Code2Bench的一大亮点。通过开源，北航的科研团队不仅将自己的研究成果分享给了更广泛的开发者社区，也促进了代码评测技术的交流和进步。开发者们可以通过GitHub仓库获取Code2Bench的源代码，进行二次开发和定制，进一步拓展其应用范围和功能。

随着人工智能和机器学习技术的快速发展，代码评测工具的重要性日益凸显。Code2Bench的推出，无疑为这一领域带来了新的思路和方法。未来，随着更多开发者的参与和技术的不断迭代，我们有理由相信，代码评测技术将会取得更大的突破和进步。