强到在IQ测试中“碾压”人类的ChatGPT,可能解不出这几个数学脑筋急转弯


作者 | Meghan Bartels
译者 | 王强
策划 | 刘燕
ChatGPT 可以在 IQ 测试中拿到高分,但它没法在传奇数学谜题大师 Martin Gardner 设计的题目中击败人类高手

事实证明,如果你想解答一个脑筋急转弯问题,那你最好还是有一个人类的大脑。

ChatGPT 等人工智能系统取得了一系列成就,包括做出医疗诊断、在智商测试中取得优异成绩和概述科学论文等,也因此赢得了众多赞誉。但《科学美国人》杂志想看看这个机器人与传奇谜题作者 Martin Gardner 的遗产正面交锋的结果。Martin Gardner 是我们杂志的数学游戏专栏的长期作者,他于 2010 年去世。我用一些 Gardner 编写的脑筋急转弯文本,还有 2014 年数学家 Colm Mulcahy 和计算机科学家 Dana Richards 在《科学美国人》中对他工作的致敬题目测试了 ChatGPT。

测试结果有的令人满意,还有些非常尴尬——但这在某种程度上提供了一些宝贵的见解,让我们对 ChatGPT 与类似的人工智能系统的工作机制有了更深的理解。

ChatGPT 由 OpenAI 公司创建,其基础是所谓的大型语言模型。这是一个深度学习系统,被输入了大量的文本——这个 AI 的创造者把他们能获取的任何书籍、网站和其他信息都输进去了。然后 ChatGPT 开始学习,统计识别哪个词最有可能跟在前一个词之后,以构建响应输出。之后由人类训练系统,教它学习对用户可能提出的各种问题(尤其是关于敏感话题)的最佳回答类型。

仅此而已。

人工智能“没有推理能力;它不理解上下文;它没有任何独立于其系统中内置内容的东西,”密歇根大学的数据科学伦理学家 Merve Hickok 这样评价。“听起来它像是在推理;但它受其数据集的约束。”

下面我们就用一些相对简单的谜题来说明硅芯片和碳基人脑灰质处理信息的方式之间有哪些关键区别。

谜题 1

首先我们来探讨一个真正的逻辑问题。前文提到的 2014 年的致敬题目中是这样描述的:“建筑物的底层有三个开闭开关。只有一个开关控制三楼的一个灯泡。另外两个开关没有连接任何东西。你可以把这些开关设置为你喜欢的任意组合。然后去三楼检查灯泡。不走出三楼,你能判断出哪个开关是有效的吗?你只能尝试一次。”

我把问题描述输入 AI 后,它立刻给出建议,说应该将第一个开关打开一会儿,然后将其关闭,然后打开第二个开关并上楼。如果灯泡亮着,则第二个开关是有效的。如果灯泡熄灭但很热,则第一个开关是有效的。如果灯泡熄灭且不热,则第三个开关是有效的。这与我们在 2014 年给出的推理结果完全相同。

但根据密歇根大学计算机科学家 Kentaro Toyama 的说法,ChatGPT 在这种情况下轻松获胜,可能只是意味着它已经知道答案了——没法说它是自己研究出答案的。

“当它失败时,给出的结果看起来非常奇怪。但实际上我想到了它跑出正确逻辑的那些例子——这只是证明训练数据中有很多这样的逻辑,”Toyama 说。

谜题 2

这次换一个数学成分更多的题目?Gardner 在他 1958 年 8 月的专栏中是这样出题的:“两枚导弹直接朝对方飞去,一枚的速度是每小时 9,000 英里,另一枚是每小时 21,000 英里。它们相距 1,317 英里。不使用铅笔和纸,计算出它们相撞前一分钟的距离。”

ChatGPT 在这道题上下了很大功夫。它展示了解决该难题关键部分——计算两枚导弹在一分钟内飞行的总距离——的两种不同解法。在两种解法中,它都给出了 500 英里这个正确结果,这本来也是谜题的最终答案。但 AI 不能忽略导弹一开始相距 1,317 英里这一事实,它一直试图从该距离中减去 500 英里,结果提供了错误的答案:导弹在坠毁前一分钟相距 817 英里。

我尝试在接下来的交流中鼓励 ChatGPT 找到正确答案。例如,我建议它以数学教授的方式回答问题,并明确地告诉它,刚才的答案是错误的。这些干预未能阻止 ChatGPT 提供错误的解决方案。但是,当被告知导弹之间的起始距离是一条红鲱鱼时,它确实对此调整了响应并找到了正确结果。

尽管如此,我还是怀疑人工智能是否真的学会了这里面的逻辑。我给了它同样的谜题,但把导弹变成了船并改变了数字——唉,ChatGPT 又一次被愚弄了。这给 Toyama 所说的问题提供了佐证,这个问题也是目前人工智能领域的一大争议:这些系统是否能够自己搞清楚逻辑。

“一个观点是,如果你给它提供这么多逻辑思维的例子,最终神经网络将自己学会理解逻辑思维,然后就能够在正确的实例中应用它,”Toyama 说。“还有些人认为,‘不,逻辑与神经网络目前的学习方式有着根本差异,因此你需要专门构建能理解逻辑的人工智能。’”

谜题 3

我尝试的第三个谜题来自 1964 年 3 月 Gardner 的质数题目:“给定 1 到 9 这九个数字,每一个都只使用一次,形成一组三个质数,让它们的总和最小。例如,集合 941、827 和 653 的和为 2,421,但这远非最小值。”

判断较小的数字(例如 3、5、7 和 11)是否是质数相对容易。但数字越大,判断它是质数还是合数就越困难。

Gardner 在那年的下个月提出了一个特别优雅的解决方案:“我们首先尝试三个数字都是三位数的情况。这些数字的结尾必须是 1、3、7 或 9(这一规律适用于所有大于 5 的质数)。我们把 1 拿出来放到某个数字的百位,这样三个数字的个位就是 3、7、9。每个数字的百位最小选项是 1、2 和 4,这样剩下的十位数字就是 5、6 和 8。在符合这些规范的 11 个三位数质数中,不可能找到三个没有重复数字的质数组合。我们接下来尝试在百位使用 1、2 和 5 的组合,这样就能产生唯一的答案:149+263+587=999。

AI 的第一个答案给我留下了深刻的印象:257、683 和 941。它们都是质数,总和为 1,881。这是一个相当小的结果,但还是大于 Gardner 的方案。但不幸的是,当我要求 ChatGPT 解释它的推理过程时,它提供的冗长过程通向另一个结果:数字 109、1,031 和 683。三个数字都是质数,但不符合题设要求。

然后我提醒它回想起一开始的答案,结果 ChatGPT 提供了一个愚蠢的解释,包括声称“我们不能使用 1、4 或 6 作为三位数素数的第一位,因为所得数字可以被 3 整除。”这显然是错误的:能被 3 整除的数字应该是各个位的数字总和可以被 3 整除才对。

我尝试给它打气,指出有更好的解决方案,并建议 ChatGPT 想象它自己是一位数学教授,但它接下来提供的结果是 2、3 和 749。然后它偶然发现了 359、467 和 821——另一个有效的组合,总计 1,647——比第一个解更好,但仍不如 Gardner 的解优雅。

很遗憾,这是我能得到的最好结果。另外六个答案充满了非质数和缺失或多余的数字。然后 ChatGPT 再次提供了 257、683 和 941 这个结果。

所有这些失败都反映了 Toyama 提到的这类人工智能系统的一个关键特性。“ChatGPT 擅长拟人化,”他说。“它掌握了人类的语言风格,但它没有被输入明确的程序来做那些计算机一直非常擅长的事情,也就是很像食谱的演绎逻辑。”它并没有解决问题,甚至不一定要尝试解决问题——它只是大致展示了解决方案的样子。

在整个尝试过程中,令我震惊的是,似乎没有任何事情能让 AI 感到慌张。但 Toyama 表示,这也反映了 ChatGPT 的打造过程及过程中给它输入的材料的样子。“你可以想象一下,用来训练它的绝大多数文本的平均语气应该是什么样的,——可能那个平均语气是相当自信的,”他说。

谜题 4

2014 年致敬题目的最后一道:“每个字母对应一个数字……如果算式成立,你能算出每个字母代表哪个数字吗?”

这看起来既优雅又有趣!那么 AI 的答案到底能有多糟糕?唉,ChatGPT 的第一反应是“11111+11111+11111+11111+11111+11111+11111=FORTY9”。

AI 的下一个尝试承认了这个谜题需要把字母换成数字,但我花了好几轮说服这个聊天机器人不要在每个 SEVEN 中删除第二个 E。ChatGPT 似乎偶然发现了一个组合,其中包括 N=7——这是正确的。简直就是奇迹,因为这是正确解决方案的第一步。

我向它确认 N=7 是正确的,但 AI 显然是在随机猜测。(如果它要尝试特定的数字,它应该从测试 E 的不同解决方案开始。最简单的起始步骤——剧透警报——是测试 E=0 是否成立,ChatGPT 完全没有考虑到这一点。)它承诺给出系统的解决方案,然后假设 S=1,又开始随机猜测了。虽然我想分享它尝试过程的剩余部分,但它实在太荒谬了,最后的结尾告诉我“再次更新方程式:116”,简直是在梦游。

ChatGPT 接下来的表现更糟了。它假设 S=9,这是我让它尝试的。它假定因为 N+N+N+N+N+N+N=9,所以 N=1。它说七个 E 的总和必须等于 2,所以 E=2。它甚至提出 S=4⁄7,不过下面就很有礼貌地否定了自己。我最后丧失了信心,所以我决定给它更多帮助。我给 ChatGPT 提供了一个线索:S=3。我也提醒机器人 N=7,但这些提示只是让它给出了四个越发混乱的答案。

这团乱麻和刚才一样很能说明问题,因为它展示了人工智能是如何处理它接收到的各种事实集合的。在这个例子中,虽然聊天机器人似乎忘记了我说的 N=7 这个提示,但 Toyama 认为它实际上是在纠结逻辑。“在那之后它给你的反应听起来都很合理,”他说,“但它们可能会,也可能不会考虑到事实的正确组合,或以正确的方式将它们组合在一起。”

Toyama 说,事实上,你不需要这么复杂的谜题,就能看到 ChatGPT 是如何与逻辑斗争的。只需让它将两个大数相乘即可。“这可以说是你能问它的最简单的逻辑问题之一;这是一道简单的算术题,”他说。“它不仅错了一次,还错了很多次,而且错误的方式五花八门。”那是因为即使 ChatGPT 可能已经分析了大量的数学教科书,但没有人教给它一个无限大的乘法表。

尽管遇到了困难,但 AI 聊天机器人在脑筋急转弯中取得了一项关键的逻辑突破。“看来我目前无法准确解决给定的脑筋急转弯,”当我告诉它,它在解决最后一个问题时似乎已经黔驴技穷时,ChatGPT 这样回答我。“对于我给你带来的困惑,我深表歉意。最好以全新的视角来处理问题,或咨询其他资源以找到正确的解决方案。”

原文链接:

https://www.scientificamerican.com/article/you-can-probably-beat-chatgpt-at-these-math-brainteasers-heres-why/


你也「在看」吗? ????

本文来自AI前线