AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律?这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBenc...

AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律?这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBench,专门测试大语言模型在科学定律发现方面的真实能力 。测试结果显示 ,即使是目前性能最强的AI系统,在复杂的科学探索任务中仍表现出显著局限性,这为理解人工智能在科学发现中的角色提供了重要洞察。该研究不仅回答了AI领域学者何恺明提出的经典问题——"现代大模型能否在牛顿时代独立发现物理定律" ,更揭示了当前AI系统在科学推理方面的根本性挑战。

传统的AI科学能力评估面临两个核心问题:数据泄漏和环境局限 。由于现有物理定律广泛存在于大模型的训练数据中,直接测试这些已知定律的发现能力无法真正反映模型的原创推理水平。同时,现有评估方法通常依赖静态数据表格进行等式归纳 ,这与真实科研中通过设计实验、获取数据 、迭代假设的动态过程存在根本差异。

AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

NewtonBench通过创新的"形而上学变换"方法巧妙解决了这些问题 。研究团队以真实物理定律为基础,通过系统性的等式变换操作生成全新的衍生定律,确保这些变换后的定律不存在于任何训练语料中。这种方法覆盖了力学、电磁学、热力学等12个物理领域的324个发现任务 ,并根据变换复杂度将任务划分为简单 、中等、困难三个级别。

更重要的是 ,NewtonBench为每个物理定律提供了沙盒化的实验环境 。AI系统可以通过函数调用机制自主设定实验参数,执行不同复杂度的实验任务,并从环境中获取动态反馈数据 。在简单实验环境中 ,输入输出参数直接对应目标定律的表达形式,接近理想的符号回归场景。而在复杂环境中,目标定律仅隐含于部分实验数据中 ,要求AI系统具备更强的抽象思维和推理能力。

顶级AI系统的表现差异

AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

研究团队对11个前沿大语言模型进行了系统评测,包括GPT-5、Gemini-2.5-Pro 、DeepSeek-R1和Qwen-3-235B等业界领先系统 。评估结果揭示了AI能力谱系中的显著分化现象。

非推理模型在科学定律发现任务中表现普遍不佳。即使在最简单的实验设定下,这些模型的符号准确率也仅处于20%-50%的区间 ,远未达到实用水平 。这表明缺乏专门推理优化的AI系统难以胜任需要深度逻辑推演的科学发现任务。

AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

相比之下,专门优化的推理模型展现出质的飞跃。GPT-5和DeepSeek-R1等系统凭借强大的复杂推理与数学运算能力,在简单场景下的符号准确率普遍突破80% ,证明了推理能力对于科学定律发现的关键作用 。

然而,随着任务复杂度的提升,推理模型间的性能差距迅速扩大。在最具挑战性的"困难定律+复杂实验"场景下 ,性能最优的GPT-5和Gemini-2.5-Pro的定律发现准确率分别仅为29.9%和13.9% ,而其他模型的准确率均低于5%。这一结果充分说明,即使是当前最先进的AI系统,在面对需要深度科学洞察的复杂任务时仍存在显著局限 。

AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

研究还发现了一个意外但重要的现象:代码执行工具的辅助效果呈现显著的分化特征。对于基础能力较弱的模型 ,代码工具能够带来显著的性能提升,帮助它们突破计算瓶颈。然而,对于已经具备强大推理能力的高性能模型 ,代码辅助反而产生了负面效应 。

工具依赖的认知陷阱

AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

为了深入理解这一看似矛盾的现象,研究团队进行了详细的归因分析 。通过控制代码调用权限数量的对比实验,研究者发现当高性能模型获得代码工具权限时 ,准确率出现了显著下滑。

进一步的文本分析揭示了问题的根源。研究团队统计了模型决策过程中探索和利用相关关键词的出现频率,发现性能下滑的模型在使用代码后,探索类词汇的出现频率急剧下降 。这表明代码工具的引入导致了推理范式的根本性转变——从开放性探索转向对工具的过度依赖。

AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

具体分析显示 ,在较弱的GPT-4.1模型中,45.4%的代码调用集中于数值计算环节,有效弥补了其计算能力的不足。而在强大的GPT-5-Mini中 ,69.4%的代码资源被投入函数拟合过程 ,导致模型倾向于快速获取局部最优解,而非进行全面的探索以寻找全局最优的物理定律 。

这一发现具有深远的理论和实践意义。它表明当前AI系统在工具使用方面缺乏适应性策略,无法根据自身能力水平和任务需求动态调整工具依赖程度。对于科学发现这样需要创造性思维和全局优化的任务 ,过度的工具依赖可能成为认知发展的障碍 。

NewtonBench的评测结果系统性地揭示了当前大模型科学发现能力的核心瓶颈。虽然前沿推理模型能够在预设场景中推演已知定律的变体,但其泛化能力在面对复杂物理定律和实验环境时呈现系统性衰减。这种局限不仅体现在绝对性能水平上,更重要的是暴露了AI系统在科学思维模式上的根本缺陷 。

真正的科学发现需要结合直觉洞察、假设生成、实验设计和理论验证等多个认知层面。当前AI系统虽然在数学计算和模式识别方面表现出色 ,但在需要跨领域知识整合和创造性假设生成的任务中仍显不足。特别是在面对不确定性和开放性问题时,AI系统往往倾向于寻找快速但局部的解决方案,而非进行深入的全局探索 。

这些发现为未来AI系统的发展指明了重要方向 。研究者指出 ,下一代具备科学发现能力的AI系统需要构建能够动态平衡探索与利用的认知架构。这不仅要求在算法层面进行创新,更需要在系统设计理念上实现根本转变,从优化局部性能转向培养全局洞察能力。

同时 ,评估体系也需要进一步扩展,从当前的定律发现测试延伸到真实科研流程的全面模拟,包括未知定律发现 、动态实验设计和可证伪性验证等环节 。只有通过这样的综合性评估 ,才能真正培育出具备本征科学智能的人工智能系统。

NewtonBench作为首个专门评估AI科学发现能力的综合性基准 ,为理解人工智能在科学研究中的角色和局限提供了重要工具。随着该基准的开源发布,预计将推动更多研究者投入到AI科学发现能力的研究中,最终促进人工智能在科学领域的深度应用 。

本文来自作者[剧子冉]投稿,不代表视听号立场,如若转载,请注明出处:https://wak.stddy.com/youxi/202510-52424.html

(86)

文章推荐

  • 广州疫情几星(广州疫情升级了吗)

    广州是中高风险地区吗当前,全国中高风险地区主要集中在一些疫情较为严重的省份和城市。例如,广东省的广州市和深圳市,由于人口流动频繁和国际贸易活动较多,一直是疫情防控的重点地区。此外,河南省的郑州市和许昌市,由于与广东省的紧密联系和人员流动,也面临较大的疫情防控

    2025年04月25日
    311
  • 延庆长城文化带“美颜”又上新!三大工程全面竣工

    巍巍长城,蜿蜒于京北的群山之上,如一条巨龙在时光中静静守护。今年6月,这条巨龙的身旁,三颗璀璨明珠已焕发新颜——长城文化带三项重点环境提升工程宣告全部完工。从历史底蕴深厚的八达岭脚下,到生机勃发的中关村延庆园,再到光影交织的东湖滨水区,一幅融合古老文化与现代生机的崭新画卷正在京北徐徐铺展。5月31日

    2025年07月01日
    148
  • 【欢乐划水麻将原来真的有挂呢(确实真有挂),欢乐划水麻将黑科技】

    欢乐划水麻将积分什么意思?就是说你玩麻将的话,它会获取一定的积分或获取一定的积分。在宁夏地区,划水麻将的规则相当简单。比如以5元、10元、15元为例,规则与推倒胡类似,任何牌都能作将。如果有人放胡,会给15元;如果是自扣,三家各给10元;明杠的和放胡一样,给15元;暗杠则与自扣相同,三家各给10元

    2025年09月03日
    104
  • 终于发现了“手机打麻将有技巧吗(专用辅牌神器免安装)

    超绝软件佳作!微乐陕西三代怎么拿一手好牌(输赢规律)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐陕西三代怎么拿一手好牌是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

    2025年09月23日
    92
  • 玩家必看攻略“怎样检测麻将机是否被安装程序了(助赢神器通用版)

    软件神器登场!中至南昌麻将有什么诀窍(做弊器软件下载)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”中至南昌麻将有什么诀窍是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的

    2025年09月27日
    84
  • 我来教大家“打牌高科技设备(助赢神器通用版)

    软件神器超棒!麻将app骗局大揭秘(怎样设置好牌)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”麻将app骗局大揭秘是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年09月27日
    95
  • 玩家实测“微乐棋牌怎么提高胜率(专用辅牌神器免安装)

    超酷软件神器!顺欣茶楼怎么开挂(助赢神器购买)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”顺欣茶楼怎么开挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微下

    2025年11月06日
    72
  • 北京的雪为何偏爱故宫?红墙白雪解锁千年浪漫

    听说吗?北京今冬的第一场雪,终于如约而至,飘飘洒洒地落在了紫禁城的金瓦红墙之上。这雪,似乎也懂得偏爱,为这座六百年皇城披上了最素雅也最惊艳的银装。推开时空的门扉,当雪花吻上故宫的飞檐与脊兽,一场跨越古今的对话便悄然开启。不再是庄严得令人屏息的深宫禁苑,雪花以一种温柔而磅礴的力量,瞬间柔化了所有坚硬的

    2025年12月13日
    48
  • 《投名状》投资3亿请来刘德华李连杰,最终票房惨败

    那部《投名状》至今回想起来,真是五味杂陈的故事。陈可辛当时可是下了血本,整整3个亿砸进去。演员阵容堪称梦幻——刘德华开口要了1600万,金城武听说后主动降到了1200万,徐静蕾更是爽快,200万就答应了。可轮到李连杰,经纪团队直接报出1.2亿天价,把陈导的脸都快愁绿了。没想到李连杰本人倒是够义气,当

    2025年11月25日
    63
  • 清华团队破解AI的“幻觉”秘密,不到0.1%的神经元起到关键作用

    幻觉,这个让所有AI从业者头疼的问题,终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究,直接把大模型内部的秘密给扒了个底朝天,原来那些看起来一本正经胡说八道的AI,背后是一群特殊神经元在作祟,而且这些神经元干的事儿特别有意思:它们宁可让模型撒谎,也要讨好人类。这项研究最震撼的地方在于,研

    2025年12月26日
    45

发表回复

本站作者后才能评论

评论列表(4条)

  • 剧子冉
    剧子冉 2025年10月16日

    我是视听号的签约作者“剧子冉”!

  • 剧子冉
    剧子冉 2025年10月16日

    希望本篇文章《AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平》能对你有所帮助!

  • 剧子冉
    剧子冉 2025年10月16日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 剧子冉
    剧子冉 2025年10月16日

    本文概览:当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律?这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBenc...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们