星期五 , 11月 15 2024
首页 / 新知快讯 / 24H看点 / Llama对决GPT:AI开源拐点已至?

Llama对决GPT:AI开源拐点已至?

Meta发布Llama 3.1 405B,开放权重大模型的性能表现首次与业内顶级封闭大模型比肩,AI行业似乎正走向一个关键的分叉点。扎克伯格亲自撰文,坚定表明「开源AI即未来」,再次将开源与封闭的争论推向舞台中央。

回望过去,OpenAI从开源到封闭的转变,折射出AI领域在安全风险、商业利益、技术理想等方面的博弈与权衡。展望未来,随着开放权重大模型的日益强大,开源AI是否真能成为行业标准?面对技术发展的不确定性和惊喜,以及巨头博弈所带来的壁垒和机遇,AI开源将走向何方?

文章摘要:
文章讨论了Meta发布的Llama 3.1 405B对AI开源生态的影响,探讨了开源与封闭模型之争的背后原因和未来走向,以及中美AI开源生态之间的差异。

• ⚖️ Meta发布的Llama 3.1 405B开放权重模型首次与封闭大模型比肩,引发AI行业关键的分叉点

• 🤖 北美开源与封闭模型转变背后的深层原因及影响,展望未来的发展趋势

• 💡 中国AI开源生态的繁荣发展,未来可关注产业协同和跨烟囱协作的重要性

机器之心:大家好,欢迎来到「智者访谈」,今天我们的主题是「技术发展中、巨头博弈下的AI开源」。开源一直以来都是AI社区所关注的主题之一。不过随着AI能力的增强,尤其是大模型出现以后,不把研究成果完全开源也成了一种主流的做法,当然这也引发了诸多的争议,在这样的背景下,AI开源将如何发展?今天我们非常高兴地请到了AI开源生态专家黄之鹏先生一起探讨。

黄之鹏:也非常高兴今天来这里。

机器之心:说到AI开源,现在业界最流行的一个梗就是OpenAI变成CloseAI。您觉得OpenAI从开源走向闭源,背后的深层原因是什么?

黄之鹏:对于OpenAI来说,我们如果考察它的历史,整个的变迁应该说是挺正常的一个转变。OpenAI最早设立的时候,确实是按照非营利机构在运作,所以GPT-1、GPT-2基本上都是开源的,美国对非营利机构也有客观的要求,所以它必须要开源。

转折点大概出现在2019年,微软开始注资,其前提是Sam Altman改了公司结构,搞了一个商业实体出来,让它可以接受注资。所以OpenAI转变成一个以商业结果为导向的机构,而其核心竞争力在当时基本上还是模型本身,那对于OpenAI来说,开源确实就不是首选项,因为它已经不是以研究或者说以共享研究成果为目的了,所以从GPT-3开始,就基本上是闭源的状态。

机器之心:不过当时他们官方的口径是出于安全考虑,不公开代码,担心会被滥用。

黄之鹏:我觉得部分应该是实话,以Ilya Sutskever为代表的,或者说最早的OpenAI的alignment team,对人类的安全,他们确实有这个担心。当然后面我觉得可能多多少少是一个说辞。

我觉得「对齐」某种程度上被夸张了。我一直以来的观点是,当你研发一个大模型出来之后,比如说要做到对当地的法律法规、习俗等的遵从,以这个为目的做相应的alignment,是非常合理的。

但是,现在北美对于alignment其实有一点过火,体现在有一种专家的自负在里面,尤其是这些对齐team的专家,他们会呈现出来一种倾向,就是我认为什么是对人类安全的,我认为什么是好的,那我希望模型要对齐到这个程度,这就有一点多余了。

另外,Anthropic也揭露过,对齐在训练模型上也是一个成本,他们专门有一个词叫alignment tax,就是你用知识压缩一个模型出来,除了该对齐的之外,非要让我这些话不能说,那些词不能用,可能涉及到很多政治正确的,这对训练本身来说也是一个成本,有可能会影响到模型很多其他的表现。所以每做完一次对齐后,还得测试它是不是对其他产生影响,万一产生了关联影响,还得看怎么去调整。所以客观成本上来说,其实是引入了额外的负担。

最近有一篇论文叫OR-Bench,OR指over refusal,这个bench就看很多所谓的正常问题,有可能会因为价值观对齐,大模型拒绝回答的概率,这张图显示出来一个很有趣的趋势,所有GPT现在能打的版本,refusal率其实都不是很高了,反而是大家印象里面,不怎么做对齐的,拒绝率很高。

最后更新于2024年6月的arXiv论文OR-Bench,对常见LLM拒绝生成文本的能力进行了研究,强调了模型安全性与其过度拒绝率之间的权衡。论文地址:arxiv.org/pdf/2405.20947

大家刻板偏见Llama应该是不怎么搞对齐的,因为Yann LeCun一直是旗手,说我们要开源,是吧?但是你看Llama的refusal rate其实还是很高的,这个研究可能揭示了表象后面现实世界真正在发生的事情,那就是所有在喊对齐的人其实都已经不再做了。

Anthropic我觉得基本上是打着对齐的旗号,在做可解释性的东西。反而是不太强调对齐的Llama,每一次发出来后可以看出,还是很严格认真地做了很多的alignment,所以这是很有趣的一个现象。所以我估计后面的一个大趋势是,基本的对齐大厂该做的肯定还是做,但是额外的那部分基本上没有人会特别认真地去做,反而是开源或者说开放权重的这些团队,因为他们怕这种不确定性。

其实有一个概念需要澄清,或者说很多人不太了解,就是大家现在看到的最好用的这些所谓的开源模型,严格意义上来说并不是开源了,只是开放了权重,权重只是一个可执行文件,完全的开源模型,是指包括数据集,对数据集的各种处理的方法、处理工具,整个训练过程用到的工具、脚本,以及对齐,不管是RLHF还是DPO、PPO,所用到的那个小的reward模型,例如做DPO端到端的pair数据集,如果都能开放出来,那才算完全开源。

像Allen Institute for AI发布的OLMo,以及LLM360的K2-65B,这些是符合的,但一是比较少,另一个就是这一类模型一般也都不太能打,因为你想它用的都是开源数据集。大家平常用的就是开放权重的模型。

对于Meta来说,虽然Llama的开放权重模型带给他们巨大的声誉和开发者的生态,但是确实也是一种负担,就是一旦有问题,你的一个没对齐,你一发布出来上万个fine tuning已经出来了,你要怎么回收?所以对于他们来说反而对齐的压力要更大。

机器之心:与OpenAI形成回应,Google和Meta在开源上面的策略和应对,包括您刚才提到的Llama开源,其实也是一大看点。

黄之鹏:对,不管是Google还是Meta,开源对于这些大的商业企业来说,一定是服务其商业目的的一个手段。比如Google,一直以来的梦魇就是它的搜索入口被别人给掐掉,所以Google最开始的Gemini模型基本上是保持封闭的。但是后来我们发现它推出了一系列的开放权重模型,比如Gemma,今年Google I/O上更是推出了更多大家比较关注的模型,包括文生图的PaliGemma,我看网上大家实测效果也都很不错。

我跟Google之前Gemma的产品经理面对面聊过,他也很坦诚,其实Google的思路很简单,就是对于Google最要命的几条线——Web网页端、Mobile移动端,以及它自己的Search搜索和云,它的大模型生态一定要把这几点占住。

Google发现可能光靠一个不太开放的Gemini,主要靠云上的服务可能还不够,那就增加手段,开放一系列同源的、小一些的模型,这样就可以把它关心的全场景逐渐占起来。

对于硅谷的公司来说,通过开源或开放做短期生态建设以及长期的人才培育,基本上大家都认为是比较重要的,所以Google是这么一个发展。我觉得Meta想的也很清楚,Llama是第一个性能很好的开放权重模型,然后一直到现在Llama 3(编注:截止北京时间2024年7月24日,Meta已发布Llama 3.1 405B,官方称其性能媲美最好的闭源模型)

机器之心:其实大家最开始也在看,谁会最先开源出这样的一个模型,背后推动者是Meta,业界对此还是有一些惊讶的。

黄之鹏:是,大家其实原来会猜要么是Google,要么是亚马逊,毕竟Azure对于AWS来说还是很大的一个竞争对手,你不能让它这么占风头,结果发现这两者都不是。

我觉得从扎克伯格访谈里面的信息来看,其开源Llama的选择跟Meta自身的商业路径还是比较匹配的,因为对于Meta来说,大模型只是一个基础件,扎克伯格反复强调这一点,我基于大模型能够构建很多的生成能力、Agent能力,最后要服务到我的元宇宙、我的社交,这些才是我最关心的。所以你看在Meta的核心业务层面,它不会搞任何开源的项目。

Meta把Llama开放出来,可以达到几个目的。第一,肯定能打破OpenAI的垄断,给广大开发者另外一个比较好的选择。第二,一以贯之的硅谷做人才培养,有越来越多的人习惯Llama这个架构的LLM开发,那对Meta来说是一种人才储备。

微软和OpenAI,是双方因为联盟达成了一个战略默契。所以你看微软在疯狂推的是很轻量的、能够在端侧跑的大模型。

Sam Altman自己在访谈里面说过,他觉得如果通过开源的项目能够不让Google、苹果把这一块占住,那他的目的就达到了,因为他最不希望看到的是出来一个集群式的对GPT而言有很强竞争力的模型。所以微软的开源对于他来说是策略上的互补,那对于微软来说,反正多留些手牌也高兴了。

回到刚才说的,其实我们看到大厂的大模型是不是开放权重,或者是不是自己再做一个,都有其独特的策略设计,但基本上都是符合自身商业策略的。

机器之心:苹果跟OpenAI的合作也比较有意思,包括调用OpenAI的大模型,以及苹果自己的端侧大模型,还有它提出的隐私计算云的概念。

黄之鹏:对,这些都挺吸引我们注意的。调用OpenAI的大模型,对于现阶段的苹果来说,至少是一个比较合理的商业合作。它的隐私计算云就比较有趣了,因为它第一次比较明确地提出在正式的商用环境中提供隐私计算,或者叫私密计算,或者叫confidential computing。

长期以来,我们都认为confidential computing非常重要,但是它对性能的影响比较大。比如,我希望我的数据不被中心化的模型训练方所知,就要通过加密和隐私计算的方式,但这样做成本和开销都很高,特定场景下可以,但很难大规模使用。

苹果这次宣布的隐私计算云,如果我没理解错的话,更多强调的是用户数据所处的环境安全,要提供一个基于confidential computing的环境。包括每一次密钥都要重新分配,密钥的存储基本上都会用到confidential computing,用可信执行环境(TEE)去存储这些关键的数据信息,包括用户的数据。但它可能没有刻意强调要把这个技术应用到模型训练上。

因为对用户来说,最需要的是推理的结果。比如,我在苹果手机上有一个日历,你有我的日历信息,你的模型能够根据我的日历,推荐我一个行程安排,这是一个很常见的场景。对苹果来说,其实不是特别需要把用户数据拿来做fine-tuning,还要保证数据安全,它只要保证用户触发推理时的数据安全就足够了。

在我们看来,苹果的隐私计算云是在商用场景中使用confidential computing最合理的描述,它可能还用到了区块链技术,只不过没做具体说明,只是说用户的所有的日志都是publicly verifiable(公开可验证的)。很多做区块链的人一看就会明白,这相当于是在说我们还用了一个Blockchain,因为我们不想存储数据,只要用户自己能够对自己的日志做到可信就可以了。所以不管它背后实际做了什么,至少苹果的发布看起来还是很有趣,挺有启发的。

机器之心:聊了这么多,往后退一步来看,现在整个AI的技术栈和基础设施都发生了一些变化,在您看来有哪些值得关注的趋势?

黄之鹏:我主要从开源的角度谈谈我的看法。在框架层面,我认为未来比较关键的是要支持动态图,能够同时支持动态图、静态图、生成式模型以及像AI for Science(AI4S)这类模型的框架,估计才能生存下来。那些比较偏单一目标的框架,可能慢慢地就很少有人用了。

机器之心:但是AI4S和生成式AI之间,不是有一些相悖的地方吗?

黄之鹏:对于框架来说,比较难处理的主要是计算方式上的差异。对AI4S来说,函数式编程是比较好的实现方法,所以你看JAX、MindSpore有一大部分特性就是要用函数式编程,去描述、去仿真科学计算的公式或其他建模,这样表达是最好的,计算也是最方便的。

但所有的LLM,也就是生成式模型,更在乎的是对大量并行计算的支持,以及对动态图调试、静态图推理的支持。所以主要是这个矛盾,作为一个框架要能把它们协调好。这一块还没有看到很好的解决方案,哪怕是现在占有绝对优势的PyTorch,也不是能把这两大块都兼顾得很好。

机器之心:这两块能兼顾好吗?从技术角度上说。

黄之鹏:(笑)感觉应该可以,如果不可以的话,我们的生活就太无趣了。

在框架之上,或者说基于框架,基本上就是写模型了。模型层面,现在有一个新的趋势,就是微调变得越来越难了。

开源开发者经常会做的一件事,就是把开放出来的几十B的大模型量化到8比特、4比特,这样自己电脑就能跑。之前之所以好微调、好量化,是因为模型对知识的压缩做得不是那么好,你可以把它想成是已经尽力压缩了,但里面还是有很多空隙,有很多泡泡,所以还能做量化,再给它挤一点。

微调的意思是,用自己的数据集,再稍微补一点东西进去,让模型对这一块任务的能力稍微强一点。但是从Llama 2开始,对知识的压缩已经做得越来越好,大家会发现留给模型本身的微调和压缩的空间就越来越小。

所以现在开源开发者圈子里面也在争论这个问题,还没有定论。已经有一部分人认为,可能微调的意义也不大了,因为空间越来越小,费了半天劲,还不如直接用那些有几百万上下文窗口的模型,自己喂数据进去,连RAG都不用,这样不是更香吗?

当然了,支持微调或者持续做一些量化的人,还是希望能够自己去调一些东西,要不然一个模型开放权重出来干嘛呢?所以这是现在新的一个状况。如果今年下半年和明年新出来的预训练大模型,确实是对知识的压缩越来越好的话,可能微调真的又要被杀死了,然后就会有新的技术出来,去调这些越来越好的预训练大模型。

模型层再往上,就是现在提到的很多Agent,还有做Prompt Engineering的工具,比如LangChain,大家都很熟悉了。另外有两个项目我觉得可能后面会越来越重要,都是从斯坦福出来的,一个叫DSPy,它是为Prompt提供一种编程化的方法。另一个项目叫SGLang,可以搭配DSPy使用,它实际上是一个编译器,能够让你把prompt的语言编译成可以对接到各个大模型的代码。

可能这一层更贴近应用,所以项目非常多,我刚才只是挑出来说了几个。还有一个层面要说的是AI系统,对吧?

机器之心:是的,就是关于大模型本身的争论,基于大模型能不能够实现AGI,或者更准确地说——光靠LLM够不够?

黄之鹏:对,当然我们如果就这么一想的话,肯定都会觉得不够,但是缺什么呢?我最近在看一本书,是Thomas Parr等人写的,叫《Active Inference》,这本书可以给我们提供一些启发。

《Active Inference》一书由Thomas Parr、Giovanni Pezzulo和Karl J.Friston合著,全面概述了Active Inference假说,这是一种将自由能原理(Free Energy Principle)应用于理解心智、大脑和行为的理论。来源:MIT Press

有一派科学家认为,LLM本身不具备推理能力(reasoning)。比如说Keras的作者François Chollet,他觉得大模型主要就是靠记忆(memorization),就是记得多。所以他们这一派有一个观点:所有LLM的推理(inference)都是所谓的inactive inference,因为模型已经训练好了,模型的推理,用François Chollet的话说,就跟数据库查询没有任何区别。模型本身是不动的,只是把一堆东西压缩到一起,你问它什么,它就告诉你什么,而且不会告诉你超纲的东西。

他们认为未来的方向应该是Active Inference。如何定义Active Inference?他们认为,所有感官生物(sensory animal)的神经系统无时无刻不在做的一件事,就是要减少它实际遇到的情况和它预设情况之间的差异,他们称之为「surprise」,所谓的Active Inference就是要减少这个surprise。

机器之心:这种对智能的定义很有趣。

黄之鹏:他们认为所有感官动物,包括人,90%的时间其实都是在做active inference,可能剩下10%是利用记忆来做的事情。比如说我们今天做这个播客,这是我第一次在这个地方,跟你做这个节目,我的大脑需要处理全新的场景,虽然我有很多之前的知识储备,有一定的记忆,但我还是要针对这个新的场景去做active inference。

为什么说Active Inference会对AI系统提供一个新的角度?因为它核心的观点,做企业的人可能也会比较感兴趣,就是感知动物的行为一直在追求一个熵减的过程。

就像刚才说的要minimize surprise,书里举了一些例子,比如说人们会盖房子,新建一个东西肯定是增加复杂度的,但如果从长时间尺度去看,它其实是让人们能够住进去,让整个文明从游牧的骑着马四处乱跑,变成在一个地方定居下来。所以他们这一派会认为,大模型代表的能力,只是AI系统中的一环,它可以做很多记忆、生成很多东西,但真正去做熵减,现在应该还没有触碰到。

机器之心:您之前还提到了一个更深刻的影响,就是「数据代替逻辑」。

黄之鹏:对,数据代替逻辑,这是Google做Robot基础大模型的,也即RT-2项目的一位作者,她之前发表的一个观点,对我挺有触动的。

我觉得有很大几率,以后对于我们工程师来说,可能代码越来越不那么重要了,诸如代码逻辑这些,大模型一定都会帮你搞得好好的,但是你要能知道你需要的这个代码是怎样的数据做出来的,这是全新的一个skill set,大家要逐渐培养这个能力。

要知道如何收集数据、处理数据,然后能够根据数据,不管是微调还是其他方法——之前说可能以后没有微调的空间了,是吧?——做出最适用于自己的模型,然后让模型替你写代码。这是一个全新的未来,让我们拭目以待。

机器之心:AI Stack和Infra有了这些关键的趋势,其本质还是AI的技术在不断演变和发展,而这深刻地影响整个AI开源生态。现在AI开源生态比较活跃的技术方向,您能分享一下吗?

黄之鹏:可以先聊聊大模型本身。第一个是多模态,而且是能够做到原生的多模态进、多模态出的统一架构,这肯定是未来的一个发展方向。Meta混合模态大模型Chameleon团队负责人,他在社交网络上透露的信息是,Meta不满足于token这个层面,而是要做到byte层面的统一,就是无论输入的是图像、视频还是其他,最后都归结到byte。当然,从直觉上来说,越基本越有助于统一,但是这样做难度也很大,因为你需要从一个byte就判断出它是某个图像或视频的一部分。

其实已经有很多人尝试过这个方向了,有篇论文叫《Bytes are All You Need》。这部分工作确实难,但如果做成了,比如我们一直期待的400B规模的Llama 3在今年下半年出来的话,我们预计它很有可能是一个多模态的版本,如果真的可以实现byte级统一,那将会是一个很大的发展。

第二个是Meta在持续推进的,或者说大家关注的schedule的概念,指的是训练里面对learning rate的调度。Meta一直在推一个叫「scheduleless」的方法,他们发现不管是SGD还是Adam,对于优化器来说,可能并不需要很复杂的cosine annealing,可以不用schedule,这可能也是一个新方向,包括很多新的优化器的探索,像Sophia。

另外一个技术发展方向是尝试替代现有Transformer架构的,最火的就是State Space Model(SSM),以Mamba为代表。另外一类是LSTM的作者,他们做的xLSTM。不过看最新的一些研究,我觉得现在路径有些归一了。Transformer毕竟是在生产环境已经验证过的,它的可扩展性、应用性都很好。

机器之心:而且当一个模型已经应用到这种范围和程度之后,要有一个新的东西取代它,也需要巨大的成本,你提供的价值得超越取代它的这些成本。

黄之鹏:对,其实针对Transformer做的优化现在也很多,所以未来如果两个架构在互补的点能够形成一个混合架构,现在看是可能是一个方向,可能不会存在完全的替代。

机器之心:在完全替代之前技术都是这样发展的。在原有的基础上,然后迭代一部分,直到把原先的彻底迭代完。

黄之鹏:另外一个趋势就是SAE或者说Sparse AutoEncoder,这可能也是一个方向。这其实是OpenAI和Anthropic的alignment team都在做的一件事,当然他们的技术点还是朝着可解释性方向努力,Anthropic给它起了一个名字叫「Mono-Semanticity」,单语义。为什么要追寻这个单语义呢?就是他们发现,基于现在的Transformer虽然很好用,但是大家都觉得它是个黑盒子,把很多维度的东西superposition到一起,你不知道哪个神经元对应哪个请求、哪个输出。

他们现在在做的SAE的尝试,就是把原来MLP那块改成一个尽可能稀疏的AutoEncoder,这样在不影响性能的情况下,大概能够类似于生物学里,能看到哪个神经元被激活,这个神经元的激活路径大概是怎样的。

Anthropic在Claude上面做了一个实验叫「Golden Bridge」,他们专门上线了一个版本的Claude,你无论问它什么,它回答里面都是「我跟你说一下金门大桥……」,这很有意思,因为他们通过实验发现金门大桥是一个触发点。

机器之心:类似于祖母细胞那样?

黄之鹏:对,你只要一触发这个,模型就停不下来,就要反复说金门大桥,还挺有意思的,他们后来把这个版本下线了。所以我觉得SAE也是一个很有潜力的方向,让网络的可解释性更强一些。可解释性强有什么好处呢?正好就可以牵出来MoE这个话题。

我今年年初正好去法国,有机会跟Mistral AI的CTO Timothée Lacroix聊了聊。巴黎现在有一个像初创孵化器的地方叫Station F,我们正好赶上那边搞活动,就过去跟他聊了半天。因为我觉得MoE一直有一个很大的误区,当然部分是因为我自己也贡献过的一个项目叫mergekit,这是一个合并MoE模型的工具。但是mergekit的脚本里面明确要求不同的专家要写明不同的用处,我曾经写过几个用处一样的专家,编译是不给过的,是报错的。

然后我就问Timothée,因为现在Stable Diffusion 2之后,很显然diffusion model在往Transformer迁,比如DiT或者SiT。我说,那是不是以后所有生成图片或生成视频的模型,也可以做MoE,然后这些MoE可以是不同角色或功能的,比如说有做动画的专家,有做不同风格的专家……他回答我说,首先diffusion的MoE肯定是可以做的,但不是像我想的这样。

确实,Mistral自己发的MoE的论文里面,它明确写了expert是没有角色分工的。MoE最早是Google发的论文,主要是对这个架构的一个描述,确实是有分成不同的expert,但是在训练的时候,所有的expert其实都是在一个叫latent space的很高维的空间里。你不知道哪个专家在干什么。

所以跟Timothée聊完之后,对于我来说也算是一个澄清,或者说之前我也有误区,你如果误以为只是Mistral定义的MoE不做区分,然后你也认为mergekit的那个脚本是正确的,你很容易就以为每个expert都有不同的角色。

Anthropic的可解释性专家也表示,这其实是一个常见的难题,包括OpenAI、Anthropic、Mistral,MoE本身的可解释性目前来说还是很差的,你真的不知道哪个专家在干什么,你也没法按照角色给它们安排。但是,如果刚才说的sparse autoencoder未来真能做起来的话,是有可能按照角色去区分MoE的,或者说MoE未来的一个方向可能是与可解释性连在一起的

还有一个与MoE相关的话题,那就是量化(quantization)。例如,现在最火的GGUF格式的量化模型,很多人,包括我自己,在试用许多大模型时,包括跑测试,基本都是在笔记本上进行的。

现在一个大的方向叫三元运算(Ternary)。最近还有一篇论文叫《MatMul Free LLMs》,它实际上把矩阵乘法全部转换成了加法和阿达马矩阵(Hadamard matrix)因为量化到三元后,复杂度会降低很多,这可能是量化未来的一个方向。但量化后面临的最大问题刚才已经提到了,就是如果预训练大模型对数据的压缩做得越来越好,那么留给量化的空间就越来越少,所以未来量化如何发展也值得关注。

该论文发现,随着模型规模的扩大,无矩阵乘法模型与传统Transformer模型性能之间的差距越来越小,并有可能在超大规模模型上超越后者。来源:Rui-Jie Zhuet.al,Scalable MatMul-free Language Modeling,arxiv.org/pdf/2406.02528

还忘了一点,就是MoE本身的一个趋势,从DeepSeek和千问这两个我们国内比较优秀的开源项目的技术报告可以看出,他们的MoE都是fine-grained的。

Fine-grained的意思是,尽可能地做很多很多专家,然后只选取激活其中的一部分,这是现在的一个趋势。之前在社交网络上也有人问过,有没有可能给MoE做一些剪枝。后来大家讨论说,因为可解释性的问题,现在可以做这种fine-grained的叠加,但是不知道该剪哪里,因为不知道谁是谁。所以如果未来可解释性能有所突破,比如我们有一个fine-grained的MoE,将会是对网络效率的一个提升。

以上就是我们通过开源社区看到的跟LLM相关的几个发展方向,都是比较细节的,肯定还有很多我没有说到。

如果把时间线拉得再长一点,我觉得有几个还没有成为显学的趋势可以关注一下,一个是Neuro+AI。如果我们还是认为像人脑这种低能耗、高运算效率的方式是值得追求的,那么Neuroscience领域还有很多值得研究的地方,而且这些研究成果反过来也会促进人工智能的发展。

另外一个比较偏门的领域叫做范畴学(Category Theory),包括DeepMind也有专门的团队在研究范畴学与AI的结合,主要还是对Al4S帮助比较大。因为范畴学主要研究的是结构,无论是分子结构还是药物结构,如果想更好地描述和发现这些结构,可能确实需要一套比较好的神经网络系统。

所以,Neuro+AI和Category Theory是两个现在比较小众,但我认为未来可能会成为显学,并带来颠覆性发展的方向。

机器之心:探讨了AI技术的发展,AI Infra在各层不同的趋势、值得关注的点,回到本次访谈的主题——技术演变和巨头博弈下的AI开源生态,我们需要更加深入地探讨一个问题:开源与封闭之争的本质究竟是什么?

黄之鹏:对,其实我们最开头聊的就是,对于商业公司来说,要不要开放权重,其实都是为了服务自身的商业目的,这是很清楚的。现在争论的其实更多是,至少你看北美或者欧洲,更偏向于一种意识形态,或者说意识上的一个争论。我自己把它归结为AI悲观主义或者说AI Doomers和AI加速主义之间的分歧。

我们习惯于开源生态的,可能更偏向于所谓的加速主义,或者说实干主义也行,就是人类还是要推动技术发展,要向前走。

要以发展的眼光看问题,这句话我觉得很有道理,因为你会发现这些悲观主义者,大多数是以静态的观点来看待问题。我举一个具体的例子,有一些悲观主义者会觉得,现在大模型算力消耗太大了,以后无以为继,这就是一种静态的观点。

如果是以动态发展的眼光去看,那你的思路就是未来一定会有新型的能源出现,有可能是更绿色,或者说更高效的,我们一定会发展出新的办法去解决新的问题,而不是说问题层出不穷,我们的能力就定格在现在这个节点了,然后一筹莫展,充满悲观。我们还是希望办法总比问题多。

有在座的各位,尤其在开源领域,大家都一起合作,三个诸葛亮难道——不,是三个臭皮匠——等等,万一我们三个都是诸葛亮呢,那不更厉害了,还干不过一个司马懿吗?哈哈。所以我觉得所谓开放封闭的讨论,背后最核心的其实是这种发展观和静止观的PK。我是更偏向于发展观的,我们还是希望技术要往前走,办法总比困难多,人类一定会发展出更新的技术去解决这些新的困难,当然新的技术又会产生新的问题,那就再用新的技术再去解决。

这两个路线的共存,我觉得还是比较正常的。当然它会影响到很多,包括政策制定者,尤其是美国政策制定者的相关法案的出台。

加州正在审议中的法案SB 1047,该法案旨在规范前沿人工智能模型的开发和使用,例如要求开发者在训练前满足特定安全要求,并进行合规性审计等。来源:leginfo.legislature.ca.gov

加州最近出了一个Senate Bill,包括欧盟的法案,这些法案的特点是什么呢?就是非要人为地设置一个门槛,这个门槛要么是训练模型所用的算力,要么是训练模型用的预算(budget),它非要设一个门槛,高于这个门槛就必须要接受管制,必须要汇报,或者是不能再开放,等等。这背后就是我们刚才说的AI悲观主义者,很多都是他们在驱动的,他们会觉得大模型如果超过了他们现在设的这个门槛,就会变得太危险了。

但是真正从业者,大家都会吐槽,AI是有Scaling Law的,法案今天写的这个门槛,过三个月可能就成为一个家家户户都能实现的技术,因为通过法案是需要时间的,一般要辩论好长时间,等真正落地了,最后变成大家谁都不能做了。然后看中国这边,热火朝天地出来一堆东西。所以我觉得这确实是我们的优势,或者说是他们的一个短板。

英国、美国、欧盟和美国(包括前述加州法案SB 1047)针对前沿人工智能模型的监管措施对照,用勾号、星号和N/A表示是否强制要求、鼓励或暗示采取相应的监管措施,包括对模型权重和计算能力(FLOP)的要求。来源:Stability AI公共政策专家Ben Brooks@opensauceAI,他曾在GoogleX、Uber和Coinbase等公司工作。

机器之心:正好也谈到这里了,您认为中美AI开源生态之间最主要的差异是什么?

黄之鹏:我觉得美国或者说北美,一个确实比我们做得好的地方,是它的产业生态协作非常成熟。我之前就一直在讲一个例子,叫Nous Research,是一个特别有趣的团体。其实是一帮草根,很多人之前根本没有接触过AI,都是从零学的。但就是这样意气相投的一帮人,他们最早是想做同人文的生成。

那时候哪有大厂干这件事?于是他们首先自己整理了数据集,整理了很多二次元的角色,后来加入了更多对话的结果,现在这个数据集迭代了很多轮,成为开源圈里非常重要的一个数据集,叫Nous-Hermes。

草根没有算力,但至少在北美,能够获取免费算力的渠道非常多,比如可以去找Together Networks,可以去找很多公有云,总有一些免费的算力可以使用。因为产业分工比较成熟,所以每一个新产业刚形成的时候,它骨子里这种协作的意识就会出来。哪怕在英伟达的卡刚开始紧俏的时候,也有很多人在提供免费算力。他们的想法是,我既然有,就可以共享出来。

所以,Nous Research这帮人有做数据集的,有免费算力协同的,有很多在算法上愿意跟他们合作的,还有的完全就是因为开源而加入其中。最后形成了一个,他们给自己起名字叫Nous Research,一开始都不是一个实体,后来变成了一家初创公司,然后拿到了投资。

我觉得他们这个个案是一个特别好的例子,就是你可以在这样一种产业环境中,从零自己长起来,因为有很多人都在帮你。但不是说刻意在帮你,是因为大家知道,我在这个产业里面,我能做这些,我是予取予求的,我能贡献这些,我自己也是有收益的。

你免费用我的算力,你一旦用多了,很多人都会知道这里的算力基础设施很不错,是Nous Research一直在用的,这就是一个长效的价值,人家看得很清楚。包括帮着做算法创新的,短期的热情一定是有长期回报的,那么长期的回报是什么?就是我这个产业逐渐成熟之后,所有在这个产业里的人都有长期的回报。

我觉得这一点确实是北美更成熟,相比之下,国内还可以再做得更好一些,整个产业层内的协作,比如说学校之间能不能有更好的学术的,比如基于开源的协作,我们确实有提升空间的。

机器之心:最后一个问题,接下来中国的AI开源生态有哪些值得关注的趋势?

黄之鹏:我觉得先不说AI,中国整个的开源生态,这20年发展还是挺大的,包括核心从业者对开源的理解,开源本身该怎么做,进步真的很大。回到人工智能,美国那些持封闭论的人没有看清楚的一个问题是,如今AI的本质就是数据。

我们国家数据太丰富了,所以首先可供我们研究的基础,模型的输入是绝对有保证的,而这会带来一个必然的结果,就是我们研发出的模型肯定是有保证的,而且多样性一定非常好。这个基本盘决定后,我们现在看到一个还算是相当热闹,或者说繁荣的中国AI开源生态。

如果说缺的,就是刚才分析中美AI开源生态的对比,我们的产业协同如果能做得更好一些,不管是国家牵头还是产业自发的,多做一些跨烟囱的协同性工作,我觉得以后会发展得更好,因为这意味着产业生态的土壤会越来越厚,大有可为。

关于 声波

声波
发现不同的声音

检查

李子柒回归、华农重养竹鼠,网红还是老的好?

穿越了朋友们,今年到底是202 …

发表评论

邮箱地址不会被公开。 必填项已用*标注