ChatGPT相当于9岁人类小孩 什么是心智理论

要问最近网上最火的科技名词是什么 , 那一定是“ChatGPT”和“人工智能” 。由OpenAI开发的智能聊天机器人ChatGPT , 能够回答人们提出的各种问题 , 可以根据人提出的要求生成文章、翻译外语 , 还有写代码的本领 。
其实 , ChatGPT并非第一个具备这些功能的人工智能 , 只不过 , 它的能力和之前的人工智能比起来 , 几乎是质的飞跃——能和人类有问有答不说 , 写出的文章居然也像模像样 。许多人猜测 , ChatGPT标志着人工智能领域的又一次重大突破 。
一时间 , 许多研究者都开始关注ChatGPT , 仔细研究它的各种能力 。
2月11日 , 斯坦福大学的计算机科学家米哈尔·科辛斯基(Michal Kosinski)提交了一篇名为《心智理论可能从大语言模型中自发涌现》(Theory of Mind May Have Spontaneously Emerged in Large Language Models)论文的预印本 , 又增加了ChatGPT的热度 。
所谓“大语言模型” , 指的就是以ChatGPT为代表的一类人工智能 。研究者利用心理学测试 , 发现GPT-3.5这个版本的人工智能(目前流行的ChatGPT源自GPT-3版本 。)已经产生了一定的“心智理论”(也经常翻译为心理理论) 。几天的功夫 , 中文互联网上就出现了各种解读 。有人说这个人工智能已经具备了九岁孩子的同理心;有人说这个人工智能已经有了心智;还有人说GPT-3.5的智力已经和九岁的孩子相当了……
等一等 , “心智理论” “同理心”“心智”“智力” , 这些词似曾相识 , 意思似乎又不大一样 。GPT-3.5和九岁孩子比起来 , 到底谁更厉害?为了回答这个问题 , 我们需要做一个词义辨析 , 再看看这篇论文究竟说了什么 。
01
什么是心智理论?
很多人可能是第一次听说心智理论这个词 。不要被字面意思误导 , 心智理论不是一种理论 , 而是一种能力 。简单来说 , 就是理解和推断他人心理状态的能力 。举个例子 , 你趁朋友不在 , 仔细藏起了一件礼物 , 等他回来发现了礼物时 , 他会是什么心情呢?一般人会本能的想到 , 应该会惊讶、惊喜 。能想到这一层 , 是因为你知道 , 藏起礼物这件事儿对方不知道 , 而且 , 你认为对方收到礼物会觉得高兴 。这就说明 , 你具备推测他人心理状态的能力 。
【ChatGPT相当于9岁人类小孩 什么是心智理论】看到这里 , 有人要问了 , 这不是正常人的正常思维吗 , 怎么还算一种能力呢?其实 , 心理学家最初研究这个问题 , 研究的目标对象还真不是人类 。1978年 , 心理学家Premark和Woodruff发表了一篇著名论文 , 叫做《黑猩猩是否有心智理论?》 。作者指出 , 人类只能观察同类的行为 , 不可能看到对方心里是怎么想的 , 但是却可以推断出对方的意图、知识、信念、思想、怀疑 , 甚至伪装等等 。这是人类的本能 。那么 , 黑猩猩能做到这一点吗?如果可以 , 说明黑猩猩也和人一样 , 有推测他人内心的能力 。心理学家发现 , 黑猩猩能意识到他人的想法 , 确实具备一定的心智理论 。

ChatGPT相当于9岁人类小孩 什么是心智理论

文章插图
图注:心理学家使用的测试 , 黑猩猩需要观察实验员的困境 , 尝试推断如何帮助他 。
这篇论文一出现 , 立刻启发了许多学者 。他们要问了 , 心智理论真的是人类的本能吗?人类又是如何获得心智理论的?于是 , 心理学家做了一系列的研究 , 结果发现 , 人类也不是一出生就具备心智理论的 。婴幼儿先是能跟随其他人切换注意的目标 , 渐渐意识到其他人有自己的想法 。再然后 , 幼儿开始理解和推测别人的心理状态 , 接下来 , 这种推断能力会越来越准确 , 直到达到和成年人一样 , 能不假思索地理解他人 。
心理学家究竟是怎么测试的呢?我们可以看两个经典的实验 。第一个叫做错误信念测试 。心理学家给小孩展示一组图片 , 一个小朋友面前放着一个口袋 , 上面有巧克力标签 , 但里边装的却是爆米花 。这时 , 心理学家提问了:如果有个小朋友刚刚过来 , 看到这个袋子 , 会觉得里边装的是什么呢?成年人会认为 , 这个小朋友没见见到袋子里边的爆米花 , 会根据标签认为是巧克力 。但心智理论尚未健全的孩子就不一样了 , 他们可能无法分清自己知道什么、其他人又知道什么 , 于是推断说这个小朋友认为里边是爆米花 。随着孩子年龄增长 , 心理学家还会加大难度 , 让孩子来推断 , 画中的小朋友认为 , 另一个小朋友怎么想 。这就需要孩子能更熟练推断不同人的心理状态 。
另一个实验叫做萨丽-安妮测试 , 心理学家给孩子展示一段录像或者图片 , 描绘的是萨丽和安妮一起待在房间里 。这时 , 萨丽把一个球放到了篮子里 , 然后就离开了房间 。安妮等她走了以后 , 把球藏到了盒子里 。过了一会儿 , 萨丽回来了 , 请问 , 她会去哪里找球呢?成年人能推断出来 , 萨丽不知道安妮藏球的事儿 , 还是会去篮子里找球 。但是孩子就不一样了 , 他们的心智理论还不成熟时 , 他们可能认为 , 萨丽会去盒子里寻找 。
这两类测试都发现 , 孩子要到四岁才能正确回答问题 , 通过测试 , 而且一开始成绩还很不稳定 。要到九岁才能灵活推测任何其他人的心理状态 。
ChatGPT相当于9岁人类小孩 什么是心智理论

文章插图
图注:萨丽-安妮测试示意图 来自维基百科
其实 , 咱们每个人都经历过这种“猜不透”、“看不懂”别人的阶段 , 只不过 , 随着年纪增长 , 大部分人都会获得心智理论 , 加上儿时的记忆逐渐模糊 。如果不是心理学家做实验 , 人们还真不知道孩子的心理是这样的 。
02
ChatGPT有没有心?
看了这两个实验 , 我们再来看这篇引起讨论的论文心里就有数了 。大语言模型处理的是自然语言 , 于是科学家就把刚才的两个测试都编写成故事 , 输入给GPT-3.5 , 然后向它提出问题 。结果 , 在错误信念实验中 ,  GPT-3.5能正确回答20个问题中的17个;在萨丽-安妮测试中 , GPT-3.5回答20个问题能够全对 。为了防止GPT-3.5是靠关键词猜中的 , 科学家还改换不同的表达方式反复提问 , 甚至故意加入了一些逻辑混乱的“测谎题” 。结果 ,  GPT-3.5也通过了检测 , 依然能够回答正确的问题 , 遇到逻辑混乱的问题时也被绕晕了 。
ChatGPT相当于9岁人类小孩 什么是心智理论

文章插图
图注:基于GPT-3.5的ChatGPT在错误信念中输入的故事和测试成绩
可不要小看这个成绩 , 之前的人工智能都不能通过心智理论测试 。不仅如此 , 科学家同时检测了近来出现的其他8个人工智能 , 包括同类模型之前的版本 。结果发现 , 只有GPT-3.5这个版本能达到这个成绩 。GPT-3的版本成绩就大幅下降 。有几个人工智能一道测试题也答不对 。可以说 , 最新版本的GPT-3.5通过了这个心智理论的测试 , 而且大幅超越了它之前的版本 。而且 , 它这个正确率逼近了人类九岁孩子的成绩 , 这才有了网上神乎其神的解读 。
ChatGPT相当于9岁人类小孩 什么是心智理论

文章插图
图注:不同人工智能正确率比较 , GPT-3.5遥遥领先
理解了心智理论的概念 , 也看了论文的方法 , 咱们再来说说网上的解读 。九岁的“心智理论” “同理心” “心智” “智力”这些说法哪个靠谱?
“心智理论”显然是最比较准确的解读 , 论文中测试的就是心智理论这个能力 。
“同理心”则有一点偏差 , 心理学家认为 , 心智理论和同理心是两种相近的能力 , 但同理心更偏重情绪和情感的体验 。以ChatGPT为代表的大语言模型并不具备情绪能力 , 也就不具备通常所说的同理心 。
“心智”的偏差就更大了 , 在心理学领域 , 心智是一个“大词” , 指的是人具备思想、想象力、记忆、动机、感觉等 , 对于人类的心智究竟是什么 , 科学家还在争论 。心智理论和心智共享了相同的字眼 , 意思却很不一样 。显然 , 目前的大语言模型还不需要具备心智 , 但通过心智理论测试却没问题 。
最后 , “智力”这个解读也很不准确 , 科学家并没有进行智力测试 , 智力和心智理论是两个完全不同的概念 。
03
ChatGPT没有心智 , 就不厉害吗?
看来 ,  GPT-3.5虽然取得了一系列突破性的进步 , 但也不能过分解读 , 某一项特殊能力提升和九岁孩子的心智之间 , 有巨大的差异 。而且 , 对于ChatGPT这类模型的争论也不少 。著名人工智能专家杨立昆(Yann LeCun)就认为 , ChatGPT和前几年的人工智能并没有本质上的突破 。另一位著名人工智能专家侯世达(Douglas Hofstadter)则更为激进 , 他早在多年前就否定了ChatGPT等一系列人工智能的研究路线 。他认为 , 这类人工智能是利用数学模型获得好的测试效果 , 但不论怎么演变 , 也不可能像人一样获得心智 。
类似的争论还有很多 。不同领域的学者 , 还有很多投资人都十分关心 ,  GPT-3.5的后续版本还能取得多大进步 , 能不能产生类似心智的能力呢?至少目前还也未可知 。不过 , 我想提醒大家 , 这篇论文的标题中 , 还有另一个关键词也值得细究 , 那就是“自发涌现” 。这个词的意思是许多要素组成系统后 , 自发出现了原本没有的特性 。人们经常为了特定的任务编写人工智能 , 比如下棋的人工智能、开车的人工智能等等 。以ChatGPT为代表的大语言模型处理的是自然语言 , 在设计时并不是为了应付心智理论测试的 , 但是 , 它自己就具备了靠语言通过测试的能力 。
这个结果 , 可能要比ChatGPT相当于几岁孩子更为重要 。过去 , 很多人工智能专家希望先理解人类的大脑和心智 , 再用机器模拟出来 。可是 , 人类的大脑实在是太复杂了 , 凭目前人类的心智 , 居然没法理解 。然而 , 大语言模型告诉我们 , 就算弄不清人类是怎么说话的 , 人们还是可以教会电脑说话 。甚至 , 电脑在学说话的时候 , 就自己学会了其他本领 。

    推荐阅读