行业焦点

人工智能正在引领一场新的科学革命


浏览量:36

从生物领域到芯片设计,人工智能不仅仅是强大的工具,人工智能还改变了科学过程。

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。


编者按:近日,因为声称一个人工智能具备了“人格”,谷歌的一名研究人员被公司强制带薪休假,人工智能又火了一把。事实上,媒体的笔触和大众的眼球似乎总是放在聊天、画画这些更容易理解的事情上,但人工智能在科学领域所取得的进展尽管不那么哗众取宠,却对人类进步产生了实实在在的影响,甚至可以说,正在引领一场新的科学革命。本文是对人工智能在科学领域发挥的作用所进行的综述,文章来自编译。


划重点:


人工智能推动了科学新发现


人工智能改变了科学研究的方式


人工智能可以快速阅读科学文献


人工智能可以解读海量科研数据


人工智能升级了实验室的关键仪器


人工智能可以模拟复杂系统


人工智能是人类在科学探索道路上的合作伙伴


自 1950 年代发现 DNA 以来,生物学家就一直试图将遗传密码的长度与一系列细胞组成的过程联系起来——比方说,其中就包括特定抗体的 mRNA 转录,这是现在很出名的 mRNA 疫苗的关键。尽管自发现 DNA 以来,人类在测序和理解基因组方面取得了进展,但还缺失了一个重要环节。生物学家现在缺乏的是一种办法,一种只用 DNA 或 RNA 源代码来准确有效地预测未知蛋白质 3 -D 形状的方法。对生物学而言,结构决定了功能。蛋白质在细胞当中的作用取决于它的形状。中空的圆柱体是很好的膜受体,而 U 形酶能在其峡湾状的空腔内催化化学反应。对于理解人类疾病来说,能够预测甚至设计蛋白质将是一次飞跃,而且能为一系列疾病开辟新的治疗方法。


但是 70 多年来,科学家们一直坚持慢速的做法,这些方法会导致计算机算力紧张,而且在很大程度上得靠自己的猜测来梳理蛋白质结构。尽管生物学家已经知晓构成每种蛋白质的各种氨基酸的 DNA 代码段是什么,但他们仍缺乏一个可重复的、可推广的公式来解决这个所谓的“蛋白质折叠问题”。他们需要系统地了解这件事:任何一串氨基酸,一旦连接起来之后,会如何折叠成三维的形状?解答这个问题,就可以解开浩瀚的蛋白质世界之谜。


2020 年,谷歌的人工智能团队 DeepMind 宣布,自己的 AlphaFold 算法已经解决了蛋白质折叠问题。一开始,这一惊人突破令大多数人感到兴奋,科学家们已经做好准备,随时愿意测试新工具,并对其中一些乐此不疲。毕竟,这不是几年前那个开发出 AlphaGo、击败了围棋世界的公司吗?围棋可是比国际象棋复杂得多的,但即使困难如此,与蛋白质折叠问题相比,掌握围棋的难度也微不足道。但是 AlphaFold 通过横扫对手证明了它的科学精神。各支生物学家团队每年都要参加一项竞赛,仅根据蛋白质的遗传密码来猜测蛋白质的结构。AlphaFold 算法也报名参赛了,而且表现远远超过了人类竞争对手,其预测的最终形状误差只有一埃(一个原子的宽度)。不久之后, AlphaFold 正确预测出了 SARS-CoV-2的“刺突”蛋白(这种病毒的膜受体正是疫苗靶向攻击的目标)的形状,从而通过了现实世界的次测试。


AlphaFold 的成功很快就变得无法忽视,科学家们开始在实验室试用这一算法。到了 2021 年,《科学》杂志更把 AlphaFold 的开源版本评为“年度更佳方法”(Method of the Year)。生物化学家,《科学》杂志主编霍顿·索普(H. Holden Thorp)在一篇社论中写道:“就科学成就和对未来研究的赋能而言,蛋白质折叠方面的突破是有史以来最伟大的突破之一。”时至今日, AlphaFold 的预测已经非常准确,准确到经过 70 多年的探寻之后,蛋白质折叠问题被认为已得到解决。虽然蛋白质折叠问题可能是迄今为止人工智能在科学领域取得的最引人注目的成就,但人工智能正悄然在许多科学领域取得新的发现。


通过加速发现过程,并为科学家提供新的调查工具,人工智能也在改变做科学研究的方式。这种技术升级了显微镜和基因组测序仪等研究的支柱,为仪器增加了新的技术能力,让它们变得更加强大。人工智能赋能的药物设计与重力波探测器为科学家提供了探索和控制自然界的新工具。在实验室以外的地方,人工智能还可以部署先进的仿真能力与推理系统,开发出真实世界的模型,并应用这些模型去对假设进行测试验证。由于人工智能对各种科学方法都产生了广泛影响,凭借着突破性的发现、新技术、增强工具以及加快科学进程速度和准确性的自动化方法,人工智能正在引发一场科学革命。


除了蛋白质折叠问题以外,人工智能还凭借着在众多领域取得的发现证明了自身的科学价值,比如宇宙学、化学、半导体设计以及材料科学等。比方说, DeepMind 的团队又开发了一种计算分子电子密度的算法,其表现已经超越了科学家已经采用了 60 年的一种快捷手段。了解特定分子的电子密度对于理解材料的物理和化学性质很有帮助。但由于电子受到量子力学的约束,计算特定电子密度的方程非常复杂,会很快变成计算的噩梦。所以,科学家们转而采用材料电子的平均密度作为指导,从容避开了难度很大的量子计算。但 DeepMind 的算法则是迎难而上,直接解决了量子方面的问题,而且已被证明比那种快捷方式更加准确。与解决蛋白质折叠问题类似,人工智能胜过了科学家沿用几十年的方法,还解锁了准确预测物理和化学性质的新方法。


人工智能对科学的影响并不仅限于新发现,在这四个关键方面也很有影响。首先,人工智能可以快速阅读科学文献,从而学会科学的基本规则、事实和方程式,并帮助科学家管理淹没各个领域的大量论文和数据。比方说,光是 2020 年这一年,就有 100000 到 180000 篇 COVID-19 方面的科学期刊发表。虽说研究人员将重点放在像全球疫情的持续流行这样的紧迫事情上有它的道理,但 COVID-19 的相关论文仅占更大的生物医学数据库文章总量的 4%-6% 左右。产生出来的论文和数据太多了,已经远远超过了任何一位科学家的阅读能力,令研究人员没法跟上所在领域的创新步伐。


而这就是人工智能的用武之地。比方说,在药物化学领域, Insilico 公司推出了一款完全由人工智能设计的药物,旨在治疗一种叫做特发性肺纤维化 (IPF) 的疾病。现在这款药物已经进入到 I 期临床试验阶段。 Insilico 的人工智能是怎么设计药物的? 他们的算法会阅读医学文献,然后选定疾病目标,找出可以定位的潜在的蛋白质、细胞或病原体。一旦选定目标,算法就可以设计出一种治疗方法来治疗疾病。 Insilico 为此开发了一个用于药物发现的端到端人工智能平台,此平台可以自动获取到该领域的最新结果和数据,这样科学家们既可以及时了解情况,又不会被海量数据压倒。


其次,随着仪器变得越来越,随着对自然的发掘越来越深入,科学家们也要面对海量的数据。在这方面,人工智能也可以提供帮助。美国阿尔贡国家实验室(Argonne National Laboratory)的一组科学家已经开发出一种算法,这种算法可以理解时空连续体结构里面的引力波——爱因斯坦预测了这种涟漪的存在,但直到 2015 年引力波才被发现。在短短7分钟的时间之内,该算法就处理了一个月的数据,实现对引力波加速、可扩展和可重复的检测。


甚至更好的是,这种算法还可以在标准图形处理单元(GPU)上面运行,这样一来研究人员就不需要用专门的设备来收集引力波数据并对其做出解释。阿尔贡数据科学与学习部 (DSL)的主管 Ian Foster 表示:“这个项目让我感到兴奋的是,它展示了如何通过适当的工具,将人工智能方法自然地集成到科学家的工作流程当中——让他们能够更快更好地完成他们的工作——是增强,而不是取代人类智能。”有了人工智能,曾经的数据洪水猛兽现在变成了可驾驭的能加速科学步伐的信息流。


第三,人工智能一直在对成为任何实验室支柱的那些仪器进行悄然升级:显微镜和 DNA 测序仪。在美国阿尔贡国家实验室,研究人员找到了一种方法来提高电子显微镜检索到相关样品信息的能力,同时还提高了仪器的分辨率和灵敏度。电子显微镜跟许多人在高中或大学生物课上见到的显微镜不一样,因为它们构建图像靠的不是可见光。相反,顾名思义,它们用的是电子,所以电子显微镜拍出来的图像要比其他显微镜拍出来的分辨率更高,图像更精细。美国阿尔贡国家实验室的研究人员还设计了一种方法,在电子显微镜上用人工智能记录相位数据,这些数据可传递关于样品物理和化学特性的关键信息,从而提高了仪器的能力。


多少有点类似,人工智能带来的另一个升级是对所谓的光场显微镜的升级。这种仪器可以拍摄高清的 3-D 运动图像。在过去,科学家们往往需要几天的时间来重构影像,但有了人工智能之后,处理这种高分辨率的动态数据所需要的时间就缩短到了几秒钟,而且分辨率或细节也不会丢失。作为基因组时代的主力军,DNA 测序仪也受益于人工智能的一臂之力。今年早些时候,一个科学家团队通过利用人工智能将 DNA 测序所需的时间减少了一半,而且有望很快再次减半。简而言之,人工智能正在对甚至是最基本的科学工具进行升级。


最后,人工智能在实验室中真正大放异彩的地方是模拟复杂系统。在人工智能的帮助下,模拟复杂系统已经成为基础科学研究越来越常见的工具。去年,研究人员通过在物理学、天文学、地质学以及气候科学等十个科学领域建立其突破性的模拟,展示了人工智能的多学科能力。所有这 10 个仿真器都是由同一个叫做 DENSE 的深度神经网络训练出来的,与其他方法相比,其仿真速度提高了 10 亿倍之多,而且准度还能保持一样。关键是,仿真器可以用来解决“反问题”,也就是研究人员已经知道了结果,但是想找出是哪些变量会导致这样的输出。人工智能很擅长这种计算,而且可以很容易就能找出怎么走才能得出特定答案。


模拟用处不小,但研究人员还希望确保模型在现实世界当中也一样有效。谷歌和三星这两家领先的科技公司最近开始寻求用人工智能来规划部分芯片的布局的方法。谷歌得出的结论是,人工智能设计的芯片“在所有关键指标上都优于或可与人类生产的芯片相媲美,其中就包括功耗、性能以及芯片面积等。”而且该公司还更进一步,用人工智能设计了下一代的人工智能加速器(TPU,跟标准 CPU 或 GPU 不一样,这是为人工智能定制的芯片)。同样,三星依靠人工智能芯片设计软件来制造了 Exynos ,这是一种用于其可穿戴产品和汽车的芯片。凭借着高保真的模拟,人工智能为科学家们提供了一种强大的工具,彻底改变了他们对自然世界进行建模和实验的方式。


要想考验人工智能的建模能力,在现实世界当中没有比 COVID-19 疫情更好的案例了。先是由蛋白质折叠算法 AlphaFold 正确地预测出突出的“尖峰”蛋白质,展示出人工智能在未来的疫情出现时如何可以加速疫苗或疗法的研发。


但也许下面这个例子更加令人印象深刻。2020 年夏天,日本科学家用全球最强大的超级计算机 Fugaku 模拟了 COVID-19 在空气中的传播。在深度神经网络以及数千个 GPU 的支持下, Fugaku 为全球提供了病毒是通过空气传播的决定性证据,并说服 WHO 相应地修改了控制 COVID-19 的指南(比方说,口罩、通风以及室内相对室外活动的风险)。在现实世界里,人工智能通过在危机期间为全球战略提供信息来证明了自身的价值。


除了做出新发现并为科学的武器库添加新工具以外,人工智能还能发现数据当中存在的模式,做出可以测试的预测,并利用预测将新证据纳入到模型之中,这个过程与科学方法十分相似。哲学家卡尔·波普尔(Karl Popper)曾经普及了这样一种观点,即科学是通过摒弃可证伪的假设(可以通过实验检验,并被证明是错误的预测)而取得进步的,而且这种通过理论和实验排除的过程是科学方法的标志。


正如人工智能最近取得的一些突破所表明的那样,这项技术还生成了可通过实验测试的假设,并通过排除的过程给出严格且可证伪的答案。通过逼近科学过程,并在预测与实验反馈之间反复迭代,直到更好地掌握了量子计算, DeepMind 的电子密度模型最终击败了研究人员。至于蛋白质折叠问题,人工智能的办法是用成千上万个实验确定的蛋白质来测试自己的模型,不断改进自己的猜测,对于更接近解决方案的分支,赋予更大的权重,通过这样来对神经网络进行修改。在研究人员开发出 AlphaFold 的开源版本之后,其他科学家已经利用这一模型来解开了新的谜题,比如 RNA 结构是如何折叠的,以及蛋白质是如何结合在一起的。


总体而言,理解了蛋白质结合为强大的新药创新打开了大门,因为细胞的很多反应都是蛋白质协同作用的结果。这两项进步均开启了治疗设计的新时代,让人类得以利用端到端的人工智能渠道针对疾病设计精准疗法。比方说,华为人工智能实验室的一个研究团队就利用了这种模型的一个版本,自动生成针对感染目标的抗体。从药物设计到蛋白质结合,人工智能建模、分析以及控制自然的能力只会有增无减。


DeepMind 的最新突破是应用人工智能来处理核聚变反应的控制和维持问题。人工智能成功地控制了氢与氦融合的反应,正是这种反应,为宇宙的每一颗恒星在创纪录的时间长度内提供了动力。而且人工智能还发现了稳定保持等离子体的新形态。这一实验是朝着开发可行的聚变能迈出的重要一步,而聚变能可以提供足够的可再生能源来为全世界供电。这个案例突出展示了人工智能在科学领域最有希望的用途:它看到了我们看不到的模式,并从不同但互补的角度分析我们的环境。通过与研究人员的合作,并以科学方法为基础,人工智能能够利用支撑科学过程的迭代理论和实验来解决同样的探索性问题。


对科学更好的描述是探索未知。在这个旅程之中,人工智能是我们的合作伙伴,它以不同于人类的方式去感知自然世界及其未被探索的部分,从而开辟出理解和利用我们这个世界的力量的新方式。正如索尼研究总监 Hiroaki Kitano 所说那样,科学发现属于“搜索”问题,它的基础是假设、实验和数据的自我纠正系统,而这些东西人工智能都可以模仿。通过自动化与算法,人工智能可以将人类无法建立连接的原因与相关性联系在一起。但人工智能不仅仅是科学家手中的强大工具,不仅仅是搜索路上的合作伙伴。人工智能还改变了科学过程,把人们用它可以完成的事情自动化,并更进一步。凭借着在多个领域取得显著突破,为科学开破新路径,加快科学创新步伐,人工智能正在引领一场新的科学革命。众行远,作为科学发现的合作伙伴,人工智能和科学家可以一起携手,探索无尽的科学前沿。


译者:boxi。