在学科竞赛领域,物理因题目复杂、推理强度高而长期被认为是人工智能(AI)最难攻克的挑战之一。与语言类任务相比,物理问题往往涉及图像识别、单位换算、公式推导和近似计算等多重环节,更考验系统是否具备对现实世界的理解与建模能力。

随着 AI 日益深入现实世界,并不断迈向通用人工智能(AGI)乃至超级人工智能(ASI),能否通过物理抽象理解世界、解决问题,正在成为打造高水平智能系统的关键。

在今年举行的 2025 年国际物理奥林匹克竞赛中,一个名为 Physics Supernova 的 AI 系统交出了令人瞩目的成绩单:在 3 道理论题测试中,共获得 23.5 分(满分 30 分),在所有 406 名参赛选手中排名第 14,且在三道题目中均进入人类前 10%,超过了人类金牌选手的平均得分。

该系统由普林斯顿大学王梦迪教授团队及其合作者共同打造,两位第一作者分别为普林斯顿大学博士 Jiahao Qiu清华姚班大四本科生史景喆(在 2021 年国际物理奥林匹克竞赛中获得金牌,全球排名第十)。

不同于依赖题库的传统方式,Physics Supernova 通过图像分析、答案复核等工具模块,结合 LLM 的推理能力,实现了从题目理解到建模计算的完整过程。这一结果显示,合理集成工具的 Agent 架构,能够显著提升 AI 在复杂科学问题上的推理与解题能力,其表现已逼近人类顶尖选手,为 AI 在科学探索领域开辟了新的可能性。

业内专家指出,这一成绩不仅显示了 AI 在物理解题上的突破性进展,也意味着其在科学推理领域的应用边界正在被重新定义

靠工具,AI 也能像物理学家一样解题

Physics Supernova 是一个专为解决复杂物理理论问题设计的 AI Agent 系统,基于 smolagents 框架,并采用 CodeAgent 架构

与数学解题中常见的固定、手工编码的工作流不同,该系统强调具备灵活自我规划的能力,能够根据当前的解题进展,动态调用不同的工具。

图|Physics Supernova 的架构与示例推理轨迹

研究团队为该系统配置了两个面向物理问题的专用工具:图像分析器(ImageAnalyzer)与答案复查器(AnswerReviewer)

对于物理学家而言,解读实验结果、从图像中提取关键数据是十分重要能力。在部分物理奥赛题中,这甚至是解题过程的核心环节。然而,目前的 LLM 在图表、图像与示意图等视觉数据的精确测量方面仍存在不足。ImageAnalyzer 则会将高分辨率图像传递给专用的视觉语言模型,以执行精确的数值读取与测量任务。

在实际解题中,物理学家也会持续评估自己的理论结果是否具有物理意义,这包括判断结果是否具有符合预期的物理属性,或是否违反基本物理原理。AnswerReviewer 被用于在解题过程中识别错误类型并定位错误表达,从而提升系统的自我校正能力。

为研究各类工具对最终得分的影响,研究团队测试了多种工具组合。结果显示,在大多数问题中(尤其是非简单题),移除 AnswerReviewer 会导致性能显著下降。而将图像处理任务交由 ImageAnalyzer 执行,则能够有效提升整体得分。

图|ImageAnalyzer 工具对理论题第1题C部分的影响

此外,他们还为 Physics Supernova 接入了一个用于专业领域知识的问答工具——WolframAlpha ,它是一款能够提供科学问题准确解答的计算型知识引擎,有助于提升系统在应对专业领域知识时的表现。

金牌不是终点,AI 物理系统的下一站

实验是物理研究的基础。研究团队指出,该项研究主要聚焦于 IPhO 2025 的理论题,未涉及基于仪器的实验题,部分原因在于实验仪器资源受限

他们希望,随着机器人技术的发展,未来基于 LLM 的 AI Agent 有望具备执行实验题的能力。相较于实体仪器操作,程序化实验能够模拟更复杂、更高级的实验过程。基于程序的实验考试,有可能将评估重点从操控仪器的能力转向理解和运用物理的能力。

从长远来看,基于仪器的实验评估同样也不可或缺。这类实验更贴近现实科研情境,能够更有效地衡量 AI 系统的机器人能力,并评估其在极端或非预期条件下的表现。

除此之外,他们使用答案复查工具来验证推导过程。该工具完全基于自然语言运行。在数学领域,自动化验证已经取得了显著进展,LLM 可生成可验证的 Lean 格式证明。然而,从自然语言问题出发,推导物理公式并进行自动验证,目前尚无可靠的技术路径。这仍是一个有待深入研究的方向。

研究团队表示,未来值得探索的方向应包括:构建能验证公式、物理表达与直观推理之间抽象转换的方法;建立更加严格、可验证的物理计算体系;借助具备更广泛、更深入物理知识的工具,增强答案复查系统的能力

总之,研究团队建议,未来关于 AI 物理解题系统的工作,应继续拓展其在程序实验或仪器实验方面的能力,同时增强其生成可验证、可信赖物理解答的能力。

展望未来,这类系统有望进一步发展,成为能够嵌入现实世界并执行复杂物理任务的高级智能体

来源: 学术头条