谷歌前CEO:这就是人工智能未来改变科学研究的方式

更大的深度学习模型开始融合跨领域知识和生成人工智能,扩大了可能性。

文丨人工智能学家 ID:AItists

作者丨Eric Schmidt(ScienceAI)

又一个极端天气的夏天,前所未有的热浪、野火和洪水袭击了世界各国。为了应对准确预测此类极端情况的挑战,半导体巨头英伟达正在为整个地球构建人工智能驱动的「数字双胞胎」。
这个名为 Earth-2 的数字孪生将使用 FourCastNet 的预测,FourCastNet 是一种人工智能模型,使用数十 TB 的地球系统数据,可以比当前的预测方法更快、更准确地预测未来两周的天气。
通常的天气预报系统能够为未来一周生成大约 50 个预测。相反,FourCastNet 可以预测数千种可能性,准确捕捉罕见但致命的灾难的风险,从而为弱势群体提供宝贵的准备和疏散时间。
人们所期待的气候模型革命仅仅是一个开始。随着人工智能的出现,科学将变得更加令人兴奋,并且在某些方面变得难以辨认。这种转变的影响将在实验室之外的很远的地方感受到;它们将影响我们所有人。
如果我们采取正确的策略,通过合理的监管和对人工智能创新用途的适当支持来解决科学上最紧迫的问题,人工智能可以改写科学过程。我们可以构建这样一个未来:人工智能驱动的工具不仅能让我们摆脱无脑且耗时的劳动,还能引导我们进行创造性的发明和发现,鼓励我们实现原本需要数十年才能实现的突破。
近几个月来,人工智能几乎已成为大型语言模型(LLM)的代名词,但在科学领域,有多种不同的模型架构可能会产生更大的影响。在过去的十年中,大多数科学进步都是通过专注于特定问题的较小的「经典」模型实现的。这些模型已经带来了深刻的进步。最近,更大的深度学习模型开始融合跨领域知识和生成人工智能,扩大了可能性。
例如,麦克马斯特大学和麻省理工学院的科学家使用人工智能模型来识别一种抗生素来对抗一种病原体,世界卫生组织将这种病原体标记为世界上对医院患者最危险的抗生素耐药细菌之一。谷歌 DeepMind 模型可以控制核聚变反应中的等离子体,让我们离清洁能源革命更近了一步。在医疗保健领域,美国食品和药物管理局已经批准了 523 种使用人工智能的设备,其中 75% 用于放射学。
重新想象科学
从本质上讲,我们在小学学到的科学过程将保持不变:进行背景研究,确定假设,通过实验对其进行检验,分析收集的数据,并得出结论。但人工智能有潜力彻底改变这些组件未来的外观。
人工智能已经正在改变一些科学家进行文献综述的方式。PaperQA 和 Elicit 等工具利用 LLM 扫描文章数据库并生成现有文献(包括引文)的简洁准确的摘要。
文献综述完成后,科学家们就会形成一个需要检验的假设。LLM 的核心工作是预测句子中的下一个单词,构建整个句子和段落。这项技术使 LLM 特别适合解决科学层次结构固有的规模问题,并使他们能够预测物理学或生物学的下一个重大发现。
人工智能还可以扩大假设的搜索网,并更快地缩小搜索网。因此,人工智能工具可以帮助制定更强有力的假设,例如提出更有希望的新药候选物的模型。我们已经看到模拟的运行速度比几年前快了多个数量级,这使得科学家可以在进行现实世界的实验之前在模拟中尝试更多的设计选项。
例如,加州理工学院的科学家使用人工智能流体模拟模型自动设计出更好的导管,以防止细菌向上游游动并引起感染。这种能力将从根本上改变科学发现的渐进过程,使研究人员能够从一开始就设计出最佳解决方案,而不是像我们多年来在灯泡设计中的灯丝创新中所看到的那样,通过一长串逐渐更好的设计来取得进展。
进入实验步骤,人工智能将能够更快、更便宜、更大规模地进行实验。例如,我们可以构建由人工智能驱动的机器,其中有数百个微量移液器日夜运行,以人类无法比拟的速度创建样本。科学家们可以使用人工智能工具进行一千个实验,而不是仅限于六个实验。
担心下一次资助、发表或终身教职程序的科学家将不再受制于成功率最高的安全实验;他们将可以自由地追求更大胆、更跨学科的假设。例如,在评估新分子时,研究人员倾向于选择结构与我们已知分子相似的候选分子,但人工智能模型不必具有相同的偏差和约束。
最终,大部分科学研究将在「自动驾驶实验室」——与人工智能相结合的自动化机器人平台进行。在这里,我们可以将人工智能的能力从数字领域带入物理世界。此类自动驾驶实验室已经在 Emerald Cloud Lab 和 Artificial 等公司甚至阿贡国家实验室出现。
最后,在分析和结论阶段,自动驾驶实验室将超越自动化,并根据他们产生的实验结果,使用 LLM 来解释结果并推荐下一个要运行的实验。然后,作为研究过程中的合作伙伴,人工智能实验室助理可以订购耗材来替换早期实验中使用的耗材,并在夜间设置和运行下一个推荐的实验,并在早上提供结果——所有这些都是在实验者在家睡觉时进行的。
可能性和局限性
面对这一前景,年轻的研究人员可能会在座位上紧张地移动。幸运的是,这场革命中出现的新工作可能比当前大多数实验室工作更具创造性,而且不那么盲目。
人工智能工具可以降低新科学家的进入门槛,并为传统上被排除在该领域之外的人提供机会。由于 LLM 能够协助构建代码,STEM 学生将不再需要掌握晦涩的编码语言,从而为新的非传统人才打开了象牙塔的大门,并使科学家更容易涉足自己以外的领域。很快,经过专门培训的 LLM 可能会超越提供拨款提案等书面工作初稿的范围,并可能与人类审稿人一起提供新论文的「同行」评审。
人工智能工具具有令人难以置信的潜力,但我们必须认识到人类接触在哪些方面仍然很重要,并避免在学会走路之前就跑步。例如,通过自动驾驶实验室成功融合人工智能和机器人技术并不容易。科学家在实验室中学到的许多隐性知识很难传递给人工智能驱动的机器人。同样,在我们将大量的文书工作、研究和分析交给当前的 LLM 之前,我们应该认识到它们的局限性,甚至是幻觉。
像 OpenAI 和 DeepMind 这样的公司在新的突破、模型和研究论文方面仍然处于领先地位,但目前的行业主导地位不会永远持续下去。迄今为止,DeepMind 在专注于具有明确目标和指标的明确定义问题方面表现出色。它最著名的成功之一是结构预测的批判性评估,这是一项两年一度的竞赛,研究团队根据蛋白质的氨基酸顺序预测蛋白质的确切形状。
从 2006 年到 2016 年,按照 CASP 的 1 到 100 分制,最难类别的平均分在 30 到 40 分左右。2018 年,DeepMind 的 AlphaFold 模型突然获得了高达 58 分的成绩。两年后,名为 AlphaFold2 的更新版本获得了 87 分,将其人类竞争对手远远甩在身后。
得益于开源资源,我们开始看到一种模式:行业达到某些基准,然后学术界介入以完善模型。DeepMind 发布 AlphaFold 后,华盛顿大学的 Minkyung Baek 和 David Baker 发布了 RoseTTAFold,它使用 DeepMind 的框架来预测蛋白质复合物的结构,而不是 AlphaFold 最初只能处理的单一蛋白质结构。更重要的是,学术界更能免受市场竞争压力的影响,因此他们可以超越吸引 DeepMind 的明确定义的问题和可衡量的成功。
除了达到新的高度之外,人工智能还可以通过解决科学的可复制性危机来帮助验证我们已知的知识。大约 70% 的科学家表示无法重现其他科学家的实验——这是一个令人沮丧的数字。由于人工智能降低了运行实验的成本和工作量,在某些情况下会更容易复制结果或得出无法复制的结论,从而有助于增强人们对科学的信任。
可复制性和信任的关键是透明度。在理想的世界中,科学领域的一切都将是开放获取的,从没有付费墙的文章到开源数据、代码和模型。遗憾的是,由于此类模型可能带来危险,因此将所有模型开源并不总是现实的。在许多情况下,完全透明的风险超过了信任和公平的好处。尽管如此,只要我们能够对模型保持透明,尤其是用途更有限的经典人工智能模型,我们就应该这样做。
监管的重要性
对于所有这些领域,必须记住人工智能固有的局限性和风险。人工智能是如此强大的工具,因为它使人类能够用更少的时间、更少的教育、更少的设备完成更多的事情。但这些功能使其成为坏人手中的危险武器。罗切斯特大学教授 Andrew White 与 OpenAI 签约,参与了一个「红队」,可以在 GPT-4 发布之前暴露其风险。使用语言模型并为其提供工具,White 发现它可以提出危险的化合物,甚至可以从化学品供应商处订购它们。为了测试这个过程,他在下周将一种(安全)测试化合物运送到他家。OpenAI 表示,在 GPT-4 发布之前,它利用他的发现对其进行了调整。
即使人类的意图完全良好,仍然可能促使人工智能产生不良结果。我们应该少担心创造终结者,正如计算机科学家 Stuart Russell 所说,更多地担心成为 Midas 国王,他希望他触摸的一切都变成金子,从而意外地用拥抱杀死了他的女儿。
我们没有机制促使人工智能改变其目标,即使它以我们无法预料的方式对其目标作出反应。一个经常被引用的假设要求你想象告诉人工智能生产尽可能多的回形针。该模型决心实现其目标,劫持了电网,并杀死了任何试图阻止它的人,因为回形针不断堆积。世界一片混乱。人工智能拍拍自己的背;它已经完成了它的工作。(对于这个著名的思想实验,许多 OpenAI 员工都随身携带着品牌回形针。)
OpenAI 已成功实施了一系列令人印象深刻的保护措施,但只有当 GPT-4 驻留在 OpenAI 的服务器上时,这些保护措施才会保留。当有人设法复制模型并将其放置在自己的服务器上时,这一天可能很快就会到来。这样的前沿模型需要受到保护,从而防止窃贼移除其原始开发人员精心添加的人工智能安全护栏。
为了解决人工智能有意和无意的不当使用问题,我们需要对科技巨头和开源模型进行明智、消息灵通的监管,但这并不妨碍我们以有利于科学的方式使用人工智能。尽管科技公司在人工智能安全方面取得了长足的进步,但政府监管机构目前在制定适当的法律方面准备不足,应该采取更大的措施来了解最新的发展。
除了监管之外,政府以及慈善事业还可以支持社会回报较高但财务回报或学术激励很少的科学项目。几个领域尤其紧迫,包括气候变化、生物安全和大流行病防范。正是在这些领域,我们最需要人工智能模拟和自动驾驶实验室提供的速度和规模。
在安全考虑允许的范围内,政府还可以帮助开发大型、高质量的数据集,例如 AlphaFold 所依赖的数据集。开放数据集是公共产品:它们使许多研究人员受益,但研究人员没有动力自己创建它们。政府和慈善组织可以与大学和公司合作,查明科学领域的重大挑战,这些挑战将受益于强大的数据库的访问。
例如,化学有一种统一该领域的语言,这似乎有助于人工智能模型轻松分析。但没有人能够正确地汇总存储在数十个数据库中的分子特性数据,这使我们无法获得对该领域的见解,而如果我们只有一个来源,人工智能模型就可以实现这一领域的见解。与此同时,生物学缺乏物理学或化学基础的已知和可计算的数据,诸如本质上无序的蛋白质之类的子领域对我们来说仍然是神秘的。因此,需要更加协调一致的努力来理解甚至记录聚合数据库的数据。
在科学领域广泛采用人工智能的道路是漫长的,我们必须做好很多工作,从建立正确的数据库到实施正确的法规,减少人工智能算法的偏见,再到确保跨境计算资源的平等访问。
尽管如此,这是一个非常乐观的时刻。以前的科学范式转变,例如科学过程或大数据的出现,都是向内聚焦的——使科学更加精确、准确和有条理。与此同时,人工智能的范围非常广泛,它使我们能够以新颖的方式组合信息,并将科学的创造力和进步推向新的高度。
相关参考:https://www.technologyreview.com/2023/07/05/1075865/eric-schmidt-ai-will-transform-science/

(首图来源:图虫

“在看”我吗?

本文来自AI星球