在探索人工智能在物理科学中的应用时,一个由全球超过50位物理学家共同创建的“CritPt”基准测试揭示了当前顶尖AI模型在处理复杂物理任务时的局限性。这项测试的目的是模拟博士研究生在独立研究阶段所需解决的问题难度。尽管谷歌的“Gemini3Pro”和OpenAI的“GPT-5”等AI系统被广泛期待,但它们在测试中的表现却并不理想。GPT-5-High以12.6%的准确率领先,而Gemini 3 Pro以9.1%紧随其后。这些成绩反映出即使是最好的AI模型,在处理复杂物理问题时也显得力不从心。测试覆盖了量子物理、天体物理、高能物理和生物物理等11个领域的71个研究挑战,所有问题均基于未发表的研究内容,以避免AI模型通过简单猜测或检索来获得答案。

此外,研究团队还采用了“持续解决率”这一更严格的评估标准,要求模型在五次尝试中至少四次给出正确答案。这一标准下,所有模型的表现均显著下降,突显了它们在复杂问题推理上的不足。这种不稳定性对研究工作流程构成了挑战,因为AI模型有时会生成看似正确但实际上含有细微错误的答案,从而可能误导研究人员并增加审核工作的负担。

研究团队指出,目前的大模型在独立解决开放性物理问题方面仍显不足,因此更现实的目标是将其作为“研究助手”,在特定的工作流程中提供帮助。OpenAI计划在2026年9月推出一款研究实习生系统,并在2028年3月推出完全自主的研究系统。公司表示,GPT-5目前已经在帮助研究人员节省时间。

标签: none

评论已关闭