前段时间,「AI 破解三体问题」、「AI 哥白尼重新发现物理规律」的新闻充斥各大媒体的头条,感觉 AI 好像马上就要颠覆物理学了。然而事实真的是这样吗? 为了解答这个问题,人工智能领域专家 Gary Marcus 与计算机科学教授 Ernest Davis 共同发表文章,分析了最近热议的 AI 在物理领域的「跨界研究」,指出了其中的局限。 文章表示,AI 破解的所谓「三体问题」其实只是三体问题的一个特例,在一般三体问题的求解道路上都还有很长的路要走,更别说其他更复杂的四体、五体问题了。论文作者和媒体都有夸大其词的嫌疑。而所谓的「AI 哥白尼」更是一个噱头,AI 所做的工作并不是所谓的「发现」,而是一些计算工作,定义物理问题、「发现物理规律」这种事还是需要人来完成。 以下是文章内容: AI 能否自学物理规律?深度神经网络能否迅速取代经典计算机?如果从最近的新闻头条标题来看,我们离这一天似乎已经不远了。 在最近一篇应用 AI 求解三体问题的报道中,媒体给出的标题是「用神经网络解决三体问题,速度提升 1 亿倍:机器学习为解决应用数学中的一大经典问题提供了全新的解决方法」。 上个月,一篇文章指出,神经网络能以 1 亿倍的速度解决三体问题。 在应用 AI 发现物理规律的报道中,一家媒体用到的标题是「有了机器学习,谁还需要哥白尼?」在关于此事的另一篇报道中,一位记者给出的标题是「AI 自学物理规律」,并将其描述为「AI 和物理学中值得纪念的时刻,」「可能成为解决量子力学问题的关键所在。」 人类用了几个世纪来发现「地球绕着太阳转」,而神经网络只需要几个小时就能得出结论? 在媒体的报道中,AI 已经能够自学物理学了。 但问题在于,这些作者并未给出令人信服的证据。 其实,这些说法和事实相去甚远。所有这些报道都源自最近的两项研究,它们利用机器学习来探索行星运行的不同方面。两篇论文都是在尝试有趣的创新,但二者的结果都没有那么振奋人心。 这两篇论文中夸大的观点,以及围绕它们进行的炒作,都是科学记者(有时是科学家自己)倾向于夸大 AI 和机器学习进展影响的表现。 与往常一样,在看到某个 AI 系统取得重大进展时,人们首先要问,「这个系统有什么用?」下面就来说说这两项研究。 牛顿都解决不了的三体问题,AI 能不能行? 三体问题就是预测三个物体(通常是星球)在彼此的引力作用下如何运动的问题。 如果空间中只有两个物体,那么用牛顿证明过的定律就能解释它们的运动,即它们会按照一个圆、椭圆或双曲线的轨迹运动。 但牛顿和其他科学家也证明过,如果空间中有三个或以上的物体,它们之间的相互运动就会变得异常诡异和复杂。没有一个数学公式能表示这一运动,因此在一段较长的时间里精确预测物体的运动轨迹变得非常困难。 三百年来,寻找求解三体问题的优秀计算方法一直是困扰计算物理学家的一大难题。 有关「AI 解决三体问题」的 文章 出自 arXiv 上一篇名为《Newton vs The Machine: Solving The Chaotic Three-Body Problem Using Deep Neural Networks》的论文。 通常来说,技术论文要比媒体文章谦逊许多。但作为一篇技术论文,这篇文章还是显得「野心勃勃」。论文的最后一部分写道,他们预测这项为一个狭窄案例开发的技术会扩展到一般三体问题,并最终用于解决四体、五体问题及其他混沌系统问题,这可能掀起一场巨大的变革。 但问题在于,作者并未给出有说服力的证据来证明这一点。其实,他们的研究甚至还没有到覆盖当下三体问题的完整范围。相反,他们只是着眼于三体问题的一个特例,即三个质量相同的粒子从特定位置开始运动,且初始速度为零。 不仅如此,他们还完全依赖于传统的物理引擎或模拟器,也就是说,没有 AI,没有机器学习,只有对运动微分方程的传统数值解法,从 10000 个不同的起始点生成运动轨迹。 接下来,他们用这个数据库作为输入来训练神经网络,然后在新的样本上测试该网络(新样本的真实解也由模拟器算出)。结果发现,该神经网络能够以合理的准确率预测粒子的位置,而且速度比传统模拟器快几个数量级。 本质上来说,他们是将神经网络作为一种新的工具,从已知的值中进行插值,而这些已知的值是利用外部经典系统算出的。与其他技术相比,神经网络可能更擅长于值的平滑空间插值问题,但大部分工作都是由外部先验系统完成的。而且,重要的是,他们没有证明同样的插值方法在其他更复杂的现实世界物理问题中同样奏效,即使在最简单的情况下的证明都没有(即改变粒子质量),更不用说大于三的多体问题了。 同时,从技术上来讲,即使对于三体问题,他们解决的这类问题也只是一个简单的子集(只有两个自由度,一般三体问题有 10 个自由度)。在他们所解决的有限问题子集中,你只能决定第三个物体相对于前两个物体的相对位置。在完整的三体问题中,你还可以选择第二和第三个物体的质量及初始速度,这些选择中的每一个都可以从根本上改变系统随时间变化的运动轨迹。 我们知道,这种问题的复杂程度会随着自由度数量的增加而呈指数级增加。因此他们所解决的问题的难度并不是一般多体问题的 1/5 那么简单。而且,随着粒子数量的增加,情况会迅速变得复杂起来:四体问题有 17 个自由度,五体问题有 24 个自由度,n 体问题 7n-11 个自由度…… 其次,如果只需要考虑两个自由度,那么计算 1 万个数据点就可以很好地覆盖。就像你要绘制出山的形状,那么你只需要测出 10,000 个点的海拔高度(即 100 x 100 的网格),就可以非常可靠地估算出这两个点之间任一点的海拔。然而,随着维数(自由度)的增加,事情会变得更加复杂,平滑插值的可能性也随之降低。 第三,高度依赖初始条件,两种略微不同的初始条件都可能导致完全不同的结果。这不是你所用的算法的局限,而是这类问题的固有属性。所以声称机器学习能够预测较长时间内的混沌系统状况就好比说它已经能够预测热噪声、放射性衰变这样的随机行为,无论用哪种算法,都是做不到的。大多数媒体忽略了这一点。 最后,论文中比较的对象也有缺陷。纽约大学数学系的 Jonathan Goodman 是动力学系统的专家,他表示,现代自适应方法可以比论文中引用的时序方法更快地计算这些轨迹(所以他们应该拿自适应方法进行对比),传统的模拟器没有多大用。 那么,是否真的存在 AI 哥白尼? 哥白尼项目的情况也好不到哪儿去。 即将发表在《Physical Review Letters》上的一份研究表明,研究者构建了一种神经网络,可以将物理过程中的数据作为输入,从中提取决定性的关键参数。他们描述了四个涉及简单物理系统的实验,这些神经网络看起来效果很好。 这项「在天文学领域重新发现哥白尼系统」的研究一度使得大众媒体兴奋不已。 但问题在于,神经网络推断出「地球和火星围绕太阳运行」的说法完全是一种误导。事实上,神经网络无法理解谁是围绕谁运行的,它没有几何感知能力,也不知道旋转意味着什么。在这里,神经网络所做的就是通过计算获得两个数值参数,它并不知道这些数字代表了对固定中心点的角度。 就神经网络而言,这些可能是随时间变化的质量、电荷,或者是来自两个不同中心点的角度。机器获得了数据源之间的相关性,但是却无法推断这些数据源与世界之间的关系。是人类科学家将其识别为从太阳测量的地球和火星的角度,并抽象出这样的事实:这些数值应该被解释为轨道。哥白尼发现的工作,事实上已经被事先完成了,这个系统只是一个计算器,而不是一个物理规律发现者。 此外,在作者生成的合成数据中,地球和火星在同一平面上以恒定速度绕圆形轨道运行。在实际的太阳系中,情况压根就不是这样:火星的轨道平面相对于地球的轨道(黄道)倾斜了 1.8 度。因此,火星对于固定位置恒星的运行方式不仅是一个东西向的圆,就像两个轨道共面时一样,也会以大约 4 度的角度南北偏转。经过数年观察,火星在天空中的位置并不会是简单的圆形路径,它应该存在于 4°宽度的矩形空域中。哥贝尼真正的挑战(早在现代计算机出现前就解决了,而且并没有用到大数据)要比神经网络处理的内容复杂得多。 火星角度:火星在距黄道平面最远的位置。此时,从太阳到火星的直线与黄道平面之间的夹角α= 1.8 度。当火星在此处时,地球的位置每年都在变化。Earth(1)是地球最接近火星位置的位置; 当地球在这个位置时,从地球到火星的直线与黄道之间的夹角为β= 5.5 度。Earth(2)是地球离开火星位置最远的地方; 当地球在这个位置时,从地球到火星的直线与黄道之间的夹角为γ= 1.1 度。出于展示的考虑,垂直轴已被放大。 4 度听起来微不足道,但按照天文观测的标准来说还是很大的。对比一下,猎户座的腰带只有 2.7 度宽,托勒密 Almagest 的测量结果大部分可以精确到 0.1 度以内。 因此,太阳系中的托勒密模型和哥白尼模型都必须具备解释火星及其他行星横向运动的机制。哥白尼模型因此比其他简单模型要复杂得多,它某种意义上是由神经网络生成的,在该神经网络中,地球和火星按照圆形轨道绕着太阳公转。哥白尼模型包含 48 个本轮(epicycle),这一点上它比托勒密模型要多,不过其他方面会更简单。这个网络系统甚至不参与横向运动。 由于在复制哥白尼上取得了成功,媒体们都希望这种机器学习技术可以让理论物理学开启一个新时代。Nature News 上的一篇文章甚至这样说:「一个可以自学物理学的神经网络能解决量子力学奥秘。」 这是一种幻想,因为在那个实验中,所观察到的数据和提取参数之间的关系过于简单,而在大多数量子理论的实验中,观测值与基础理论之间的关系要微妙得多,并且需要极其微妙的理论才可揭示其中规律。神经网络对于这些物理规律的探知甚至连触及问题的表面都算不上。 这些特殊研究本身倒没有很大的缺陷,但它们被报道的方式却是一个严重问题的征兆。诸如此类言过其实的报道最终导致了一些问题:最臭名昭著的文章是 Chris Anderson 在 2008 年的《理论的终结:因为数据的泛滥,科学理论已经过时》。 这种观念逐渐成为了众识的一部分———人工智能和深度学习理论很快将取代其他的计算方法,即使是在那些还没搭建起完备系统知识的领域也会如此。媒体对深度学习的吹捧给大众传递了一种错误的印象,就好像无需考虑某个领域的基础知识,只依靠庞大的神经网络和数据集就能解决任何问题。 实际上,世界上的许多问题都很棘手,需要结合特定领域的大量专业知识才能解决。在这两篇论文的问题中,如果有人想解决三体问题或者类似的问题,必须花费大量时间去研究微分方程、数值计算和动力系统等领域的知识。如果是自然语言理解方面的问题,那就得好好研究语言学和心理语言学的知识,而不只是需要收集大量数据和大型计算机。 人们普遍认为,「数据+神经网络」是一个通用公式:在这个基础上,科学家选择自己的研究内容,公司和政府选择自己要资助的内容,期刊和会议选择自己要出版的内容,大学选择课堂上教什么,而学生也由此选择自己应该学习的内容。但现实情况是,从目前的水平来看,神经网络无法完全替代经过数百年发展而来的复杂科学分析工具,并且迄今也尚未复制过去的伟大科学成就,更不用说对其进行改进了。我们应该将它们视为补充现有技术的工具,而不是用它去对基础科学方法进行修订。 |