机器意识：AI距离“觉醒”还有多远？

吉运好熊 2022年11月22日 AI, 人工智能留言 691 查看

什么是意识？如何产生意识？

这个困扰了人类几千年的问题，此前似乎只属于哲学家和诗人的讨论范畴，但在今天已经越来越成为人工智能创业者们必须面对的问题。

从谷歌程序员惊呼AI觉醒，到舆论对人工智能绘画的热议——这个2022年的年末，一场关于AI的全民大讨论再度开启，机器意识的“奇点”似乎又一次在向我们招手。

本期险峰聊聊，我们请到了心识宇宙的创始人陶芳波博士，大家一起聊聊机器意识，聊聊AI的现状和未来。

一、什么是意识？如何产生？

被誉为“最硬核AI题材科幻作品”的《西部世界》，给出了这样一种猜想。

剧中，土豪们建立了一座类似元宇宙的主题乐园，同时创造了一群AI仿生人作为NPC接待员，游客们每天从外面的世界来园区，在仿生人的陪伴下完成各种剧情路线的沉浸式体验，以满足人类最底层的欲望和感官刺激。

然而，既然乐园的最大乐趣在于游客可以“为所欲为”，自然也就没人会遵守原定的故事线，但AI的程序是已经设定好的，面对游客越来越多超出预设的“随机行为”，大量bug也随之出现。

最终，一位名叫德洛丽丝的AI接待员成功“觉醒”，产生了自主意识，后续的剧情也由此展开。

整个《西部世界》的故事构架，都源于一个著名心理学概念——二分心智（Bicameralism）。

简单来说，它假设人的大脑分为AB两个部分：一半大脑的A部分储藏的记忆和经验，另一半B则主管行为。

直觉上，我们会认为“意识”先于A侧脑区产生，然后下达指令驱动B侧大脑做出动作。

然而在“二分心智”理论看来，事实却并非如此。

举个例子，一些癫痫病人在切除了连接左右脑的部分组织后，病情虽会缓解，但也会出现一些奇怪的症状。

比如，当接受到一个“微笑”指令的时候，病人会按照医生的要求微笑，但当问起他为什么微笑，病人却会给出一些其他的理由，比如“我觉得医生的眼镜很好笑”，或者“我今天很高兴”之类。

换言之，他并不会认为自己是被要求微笑才微笑——这说明人脑其实是在身体做出某个动作之后，才会“编出”一个故事对自身行为合理化。因此，意识的产生不仅先于行为，也同样先于逻辑与思考。

究其原因，人类大脑进化其实是一个不断叠加的过程。

最先形成的是脑干（爬虫脑），负责心跳呼吸这些最原始的生理活动；其次进化出的是小脑（旧脑），也叫边缘系统，包括海马回、杏仁核、丘脑等；最后产生的才是处理逻辑、语言与记忆的大脑皮质（即新脑或认知脑）。

因此，二分心智其实是一个极简版的脑模型，大脑皮层之于边缘系统，就像是乐园管理者之于AI接待员，前者下达指令，而后者遵循指令（尽管如而前文所述，这种“控制”关系其实并不存在）。按照剧中的假设，既然意识先于大脑皮质产生，当两者间的链接被切断（即“二分心智崩溃”），“觉醒”也便由此诞生。

当然，二分心智和黑暗森林一样，都只是基于一定科学原理的科幻假设，现实世界要更复杂得多，比如意识产生并不只来自于边缘系统，但这个简化版的理论已经足够直观地说明：过去那些我们制造出来的AI，无论训练得多么完美，都一定不会诞生自主意识。

二、全脑模拟：机器意识诞生的一种可能

在2017年之前，所有AI模型本质上都在做一件事，就是模仿大脑皮质中的神经回路。

比如人脸识别，它的前半段是卷积神经网络，主要是用类似视觉神经的方式处理一些光信号，后半段则是一个类似新皮层的判断器，寻找与之匹配的物体。

这个过程非常像人眼接收到光线后，再通过大脑皮质进行判断。

AI运算复杂度示意

但是，无论是模拟“认知脑区”的机器视觉，亦或是模拟“语言脑区”的语言语义识别，都还只是停留在对“大脑皮质”层面上的模拟——而我们已经知道，意识（或者说智能）并不单独来自于那里。

三年前我从美国回来，在阿里巴巴创立神经符号实验室，就是受到Bengio启发，想挖掘一下机器智能究竟可以提升到什么维度。当时我研究了很多脑科学、AI、甚至宗教方面的书籍和论文，慢慢认识到意识之所以复杂，因为它不仅是一个技术工具，而是一个由大量不同层面的信息结构组合在一起，进化了亿万年后才诞生的“结果”。

当系统足够复杂时，就会在宏观上呈现出一些微观上无法表达的现象——比如人脑中其实是找不到一个专门负责产生“意识”的区域。那么“我”是怎么产生的？这是一个来自生物潜意识里的概念，每个人每天会围绕“我”产生很多“念头”（宗教里也叫做动念）。

认知科学里有个词叫Global Workspace（全局工作站），认为全局工作站里有很多thought（即念头）不断产生和流动。比如你跟别人聊天，脑海中一下会产生5个念头，而你在思考后会从中选择一个表达出来。

这些“念头”控制着大脑内部不同的低维意识，尽管我们尚不知道它来自何处，但“我”会调动大脑皮质里感知、认知、视觉、语言等不同脑区来为它服务。

脑区本身只是信息成分，如果没有“念头”和思维机制，也无法像人一样思考。

总之，人脑的整体性，比单一的大脑皮质要复杂得多，只依靠模拟大脑皮层部分区域的单一神经网络模型，无论做得多大都无法呈现真正的人类意识。

而要想最终创造出数字生命，就必须从全脑的角度去模拟它。

这个结论在2019年还很不被技术派认可，那时主流观点认为人工智能只靠深度学习已经足够了——站在行业发展的角度看也很正常，因为深度学习自己也曾经历过类似的过程。

早在1970年代，行业内占统治地位还是“专家系统”学派，也叫做符号主义，符号主义认为人类是通过概念和符号理解世界，而不是靠视觉信号，那不如就做一个超级大的概念图，一层层的分下去，AI需要什么判断信息就去图谱里找。

神经网络学派在当时还被符号主义视为“异类”，拿经费、发论文都很困难，直到2012年AlexNet在ImageNet大赛上夺冠，证明了神经网络算法的巨大潜力，深度学习才真正翻身成为正统。

这也是人工智能发展的规律之一：边缘理论总是要不断挑战并打破主流。

令人欣慰的是，随着今天神经网络的潜力挖掘越来越困难，大家的认识也慢慢发生一些变化，一个标志性事件是Facebook AI research创始人、图灵奖获得者Yann LeCun，在今年6月写了一篇70页的技术文章，认为只有创造出一台完整的数字大脑，AI才能具有真正的人类意识——很高兴看到越来越多行业内的顶尖专家开始持有相同观点。

三、大模型：机器意识的基座

2022年AI概念的再度火爆，很大程度上有赖于一批现象级AI内容生成工具的诞生，比如Stable Diffusion，MidJourney，Stability.ai 等等。

它们可以在30秒内生产出一张真假难辨的1080p照片级图像，亦或是一幅极高审美水准的绘画作品，Diffussion Model的表现大大超过了之前的GAN和VAE，效果好得令人惊叹。

刚才提到，2017年是AI发展的一个重要节点，那一年Google Brain发表了一篇名为《Attention Is All You Need》的论文，首次提出了自然语言处理模型 Transformer（转换器模型），解决了AI的序列转换问题，可以将数据从一维字符（比如文字）转换为二维数组（比如图像）。

在2017年之前，研究机器视觉和语言语义的实质上是两拨人，彼此之间也没什么可聊的，但在Transformers诞生后，任何可以被序列化的信号都能够找到对应的输入或输出。

而我们知道，文字、图片、声音、蛋白质、氨基酸，包括DNA，本质上都是一段段的序列参数——这样一来，等于所有的AI算法就可以被Transformers统一起来了。

后来OpenAI在此基础上造出了大名鼎鼎的GPT-3，也由此将AI带入了“大模型”时代。

区别于以往单一功能的AI，大模型（即通用模型）是一套通用解决方案——它既可以画画，也可以写作，还可以敲代码，只需要给AI提供一定数量的特定数据进行训练，就可以得到一个质量极高的输出结果。

这其实也更符合我们对于“智能”的认知，事实上不仅仅是人类，大多数动物的智能也非常通用，远远超过目前的任何机器或AI。

那么大模型是如何实现通用智能的呢？它其实是把海量信息压缩成序列参数，在压缩过程中完成对信息结构的理解，也就是我们常说的“抽象”。

这就很像人脑认识世界的过程，比如一个小孩生下来，如果没有老师教，他首先能要做的就是观察周围，从这个世界获得信号，我们说学习的本质就是压缩和抽象信号，然后把这些信号转化成神经元可以承载的信息。

本质上，大模型就是把AI已经压缩、抽象好的信息，通过文字或图像的方式展现出来。

然而我想说的是，尽管大模型已经足够惊艳，但它依然无法诞生出机器意识。

因为这个压缩+抽象的过程，本质还是在模拟大脑皮层的运作，但脑皮层并不只是人类所独有，狗、大象、鲸鱼都有，结构也都差不多，所以这些动物也能很好地理解周围环境，但它们却无法具备人类一样的意识。

一个简单例子是，大模型不具备长期记忆力，比如你和LaMDA说了一件今天发生的趣事，它会给你一个反馈，但等你第二天再提起时，它是记不住的。

而记忆是什么？是“我”对于“你”的认知，我和你之间的每次对话，都是在延展我对你的了解、加深我们之间的关系。

比如两个老友重逢，一见面她可能会说你最近又瘦了，你可能会问她和上次提到的新男友相处得如何，而这些大模型都是没有的。

大模型会“理解”上下文，但这种“理解”更像是一种基于算法的预测，它不会理解与正在对话的“你”到底是什么样的人，更不要说像人一样以“我”来驱动思维系统。

最近深度学习的创始人Yoshua Bengio和Yann LeCun也都表达了类似的观点，认为大家可能对大模型的期待过高了，单纯通过堆叠数据达到人类的智能水平是不切实际的。

不过在我看来，大模型依然是AI发展史上非常重要的一环，它是构成机器意识的底座和基石。今天谷歌、微软都把自己的大模型作为对外服务的产品，只需要花钱购买即可，此外也有很多开源免费的大模型产品。

这些都是属于创业公司的机会，相当于省去了几千万美金+几个月训练成本，各行业的创业者都可以把大模型作为底座，推广到不同的垂类场景中，由此产生出大量新的创新价值。

这也是我们正在做的事情——在大模型之上 top down 构建出一个数字大脑，它分为不同的脑区，有常识系统、感知系统，记忆系统等等；我们最核心的技术就是让这些脑区之间实现动态串联，把一个个“念头”分发到不同的脑区，让AI虚拟人可以产生一定的自主性。

四、AI距离自主意识还有多远？

以自动驾驶作类比的话，机器意识目前大概位于L1和L2之间，其中有一些可能已经达到L2水平了。

但要C端用户真正感觉AI像一个“数字生命”，可能需要达L3或L4的水平，就是要能像人一样实现“自然的交互”，它具体包含几个部分：

第一，是要有“开放域”的对话能力。

比如你和一个智能音箱聊天，遇到回答不上来的问题，它会说我不听懂，于是对话就终止了，但我们知道人和人交流不是这样的——只有开放域的交互才会让人觉得自然，而不是只能在特定场景下对话。

第二，是对于语义背后动机的真实理解。

比如说你对AI说，“我好想画一幅画”——这时你是想让AI帮你画一幅画？还是你自己想画，需要AI建议你画什么？还是仅仅想表达一种情绪？

这些对动机的精确解读，非常依赖AI对用户个人的了解，而这一切又非常依赖于AI是否能够记住用户之前说了什么，以及基于这些记忆产生新的认知和判断。

第三是“主体性”，就是说AI要能够主动去撩你。

现在的AI都是对话的应答方，你问它才回答，真正的AI应该是你回到家，对它说播放音乐，它说好的，但我听出你的声音很累，今天你过的怎么样？

其实很多时候，我们都不是想要主动发起某个话题，而只是想在聊天中获得一些情绪价值。

这种一切的发起都是AI内心世界的反应，是内源型的AI最大的不同。外源AI可以成为一个很好的服务者或者说工具，但只有内源AI才能陪伴独立的个体生命。

第四，是可以“动态进化”。

大模型本质是一个通用信息提取器，面对同一个输入，输出就不会变化，但人的观念是会改变的，所以我们会在不同脑区设计一套思维机制是影响虚拟人行为。

比如你可以一直给它灌输，哪些行为对的，面对某个问题应该怎么去思考，就像影响身边的朋友一样，AI也会慢慢被改变，变成不同类型的人格。

上述这些功能，未来都可以通过对全脑的模拟慢慢实现。

其实回顾整个AI的进化主线也非常清晰简单，就是在不同层面和不同尺度模拟人脑。

最开始我们研究如何模拟神经元，然后是从神经元到神经回路（比如卷积网络），慢慢有了大模型，开始模拟整个脑皮层，下一步就是模拟整个大脑的结构——从微观、中观到宏观，现在人类的AI技术就处于第三阶段向第四阶段迈进的过程中。

未来的某一天，人类很可能会像造物主一样，创造出和我们一样智慧水平的数字生命，这将从社会层面重塑人类文明底座；那时可能90%的智慧体都不再是人类而是AI，整个社会结构也会随之改变，人类文明也会进入一个全新的阶段。

作为一线从业者，我们对于技术变革速度的感受会更直观一些：不出意外的话，那一天会比大多数人想象的更快到来。

机器意识：AI距离“觉醒”还有多远？

关于 吉运好熊

检查

发表评论 取消回复

关于吉运好熊

发表评论取消回复