4 月 11 日,阿里云峰会上,阿里巴巴集团董事会主席兼 CEO 张勇首次以阿里云智能集团 CEO 的身份亮相,旗下大模型「通义千问」随即面世。
不仅如此,张勇表示,阿里巴巴所有产品未来将接入「通义千问」大模型,钉钉、天猫精灵已率先接入通义千问测试,并会在评估认证后正式发布新功能;阿里云智能集团 CTO 周靖人称,通义千问将基于阿里云基础设施向企业开放,企业可以在阿里云上训练企业自己的行业、垂类大模型。
通义千问的技术水平到底如何,又会如何改造阿里的业务?国产大模型纷纷登台,跟 ChatGPT 的技术差距到底如何?真的所有应用都值得用大模型重做一次吗?
关于这些问题,极客公园创始人 & 总裁张鹏与得到 APP 总编辑李翔,乱翻书主理人潘乱,以及达摩院资深专家朱迅垚一起进行了深度探讨。
李翔:我试着问了一下最近关心的问题,比如总结 AI 发展历史里关键的人物和典型的研究,包括人工智能技术与控制论之间的关系等,还有人工智能技术在生物医药领域的应用等,以我一个不了解生物的人的眼光来看,给的回答还是可以的。百度的文心一言我也体验过,不过那时候没有这样去问,主要是去测试画图功能了。
潘乱:我感觉跟 ChatGPT 很类似,不同的是它不限制我的访问,而且速度快了很多。
张鹏:一个感觉是今天这些大模型,如果你正经地去讨论知识,体验都挺好。但是你要是跟它讨论人生,就有的好有的差。像是一个有知识、有推理能力能够理解你的问题,并且能生成你想要的结果的专业助理,从这个角度来讲,现在的大模型敢拿出来让大家测,这个就要基本过关。
朱迅垚:我们最早做大模型,其实从 2019 年就开始了,还属于相对比较超前的。2019 年我们推出了预训练大语言模型 structBERT,对 BERT 模型做了一些改进,也登顶了全球 GLUE 榜单。2021 年我们推出了第一个超过百亿参数的多模态大模型 M6,还有一个大语言模型 PLUG。当时很多媒体把 PLUG 称为中文版的 GPT-3,因为当时它就可以写小说了。而 M6 后来成为全球最大规模的 AI 模型,第一个十万亿参数的多模态大模型。
去年 9 月我们在上海的人工智能大会上推出了通义大模型,首次在业内推出了 AI 统一底座,包括 one for all 的底座模型 M6-OFA。去年的云栖大会上我们推出了第一个专门为模型服务的社区——魔搭社区,也首次提出了 MaaS(模型即服务)的理念。
事实上 2022 年 10 月的时候,基本的布局就已经有了,11 月份 ChatGPT 发布,今年 1 月份之后我们的工作开始明显加快,我们自己的对话形态的大模型产品开始内测,也就是现在大家看到的通义千问。
李翔:达摩院其实在大模型路线上已经做了一段时间,去年OpenAI发布 GPT-3.5 的时候,你们内部的讨论和反应是怎么样的?
朱迅垚:首先,内部做大模型的同学是非常兴奋的,ChatGPT 的产品形态教育了很多人,我们之前从来没想到可以用这种方式让普通人很方便地使用它,某种程度上它也教育了整个人工智能行业,原来可以这么做。
而关于大模型的路线行业内一直有讨论,之前的 BERT 是双向语言模型,学术界之前普遍认为双向的理解能力会更强,但是单向的 GPT 却通过大参数和各种工程上的新方法打开了想象力,跑赢了结果。
潘乱:感觉 ChatGPT 相当于帮大家收敛了路线,之前是个开放命题,现在相当于变成了封闭命题了,变得更收敛了。至于和 ChatGPT 的差距,说完全没差距我肯定不信,现在肯定还是存在一些差距的,只是各家的观点不一样。
张鹏:在这件事上我们要面对现实,去年 8 月份已经有创业者被邀请参与测试 GPT-4 了,现在可能 GPT-5 已经准备好了,在未来一段时间内肯定是被碾压的。这是客观事实,大家无一例外都落后,无非是落后多点还是少点。
更重要的是大方向是不是真正看准了,然后再其中全心投入去做,这个比较重要。
张鹏:本周国内的不少公司都发布了大模型产品,加上这周网信办公布的《生成式人工智能服务管理办法》草案,你们怎么看?
潘乱:我觉得政策出台是好事,是在保护创业者。先让他们知道有这些困难,不然就像前几年的社区创业者,段子和短视频突然被下架,就 rag 不少人措手不及。这次明确告诉大家,如果要做这个内容,需要做好哪些准备,先把困难告诉你。
第一,巨头们都进场了,不少创业者表示这个赛道很难做了。然后看到了政策上的比较严谨的限制,包括阿里这次的发布会不是正式的产品发布,而是一个技术进展沟通。我觉得政策倒是种降温,需要大家冷静想一想。
朱迅垚:这次阿里云峰会上,我们不仅发布了通义千问大模型,还展现了我们围绕云智一体的战略决心。逍遥子在会上宣布说他认为所有的软件应用都值得被大模型重新构造一遍,我觉得这个判断是一个非常重要的战略判断。
在这个新的技术趋势前,我们所有人包括阿里在内,大家都是站在同一条起跑线上。逍遥子提出阿里所有产品都将接入通义千问进行改造,而且围绕即将到来的 AIGC 浪潮,阿里云未来也会为每家企业打造一个专属的大模型,这是一个很长的愿景,也是一个重要的战略方向。也就是说,阿里云不是局限在打造自己的大模型,让阿里所有产品都用上大模型上,而是要支撑好全社会的 AI 浪潮。
去年我们在业界首次提出了 MaaS 模型即服务这个理念,今年阿里云面向从数字化到智能化时代的整体战略变得更加系统和具体。阿里云已经做好了充分准备,从 IaaS 层我们全球最大规模的飞天智算基础设施,到 PaaS 层可以将 AI 训练效率提升 10 倍的机器学习平台 PAI,到 MaaS 层能提供一系列基础模型、定制大模型以及开源模型社区的模型服务,未来从训练时代到推理时代阿里云如何做好全面支撑等,这次都做了非常详细的部署。
朱迅垚:训练还是指大模型本身的训练和调参,现在很多公司集中在这个阶段进行竞争。再往后,很多公司会不想自己去造一个大模型,想直接调用大模型的能力,或者集成之后再去定制自己的能力,但再训练的工作量会越来越小,后面更多需求是在云上提供 AI 推理服务。看起来有些隔断,但是其实是紧密连接的阶段。就像 iPhone 的系统界面稳定后,基于这个开始出现百花齐放的应用了。
张鹏:除了这次的大模型发布之外,大家也比较关注阿里的组织架构调整,李翔对逍遥子也是比较了解的,你怎么理解阿里这次的架构调整?为什么要调整?
外部的压力就是竞争格局的变化,云业务面临的挑战,以及电商上面对的拼多多、京东等的竞争。外部环境的变化会要求互联网领域传统的巨头表现出一定的敏捷性来面对这种挑战。
其实在内部逍遥子(张勇)在过去两三年也在内部不断强调组织的敏捷性。对于老牌的公司来说,公司非常庞大,敏捷性需要 CEO 和董事局不断去强调和推动,组织太大就会带来一定的摩擦性,但是如果把组织拆小之后,是能带来一定敏捷性的。马云很早之前就说过,大象可以跳舞,但是跳一天就很困难,一个庞大的组织在灵活性上要受到地心引力的影响。
内部的压力包括,因为互联网公司整体股价下行的影响,可能内部有人积极性也会受到影响,因为很多人的个人回报是跟股票有关联的。内部压力的另外一部分也跟组织过大、业务过多有关联,阿里涉及的业务和领域,在整个世界范围内也是属于非常多的,这对于管理层的能力和精力要求非常高。
所以我觉得把整个公司做这样大的结构调整,是非常有魄力的,是希望打破大公司组织的摩擦力和阻碍。
潘乱:记得也是马云之前说的,做企业是艺术。但是这个其实没有恒定的度,非常依赖 CEO 和董事长的决策和判断,而现在的 1+6 模式,每个事业群的总裁可以更灵活地管理公司。
按照科斯定理,企业之所以存在是因为比社会交易的成本更低,拆分后就可以以更市场化的方式提高效率,减少摩擦。另外就是增强更多人的主人翁意识,分拆后很多员工会更关心期权,关心公司能否独立上市,这个也会更好调动大家的积极性。
张鹏:从我的视角来看,野生的生命力都强,原来都说是阿里动物园,动物园里动物限制了战斗力,就不会太强。现在有不同的业务、不同的领域甚至行业,要去释放更大的价值,野生未必是坏事。
很多时候,效率背后是要有驱动力的,一件事情要做好,既要有荷尔蒙也要有肾上腺素,荷尔蒙是长期的热爱和追求,肾上腺素就是一些其他的激励和鼓励。
潘乱:其实已经发生了一些变化,我看到淘宝事业群的调整是要更加以用户为中心,之前阿里巴巴说的都是客户第一,现在则是比较明确定义成用户第一了,这里面还是有变化的。
张鹏:从这次发布会上还可以得知,逍遥子是在亲自负责阿里云,想知道阿里现在如何定义阿里云,虽然现在阿里没有传统意义上的中台了,那么未来阿里云对于阿里意味着什么?
李翔:感觉整个阿里在把阿里云视为他们下一个非常大的增长引擎。从过去阿里业务引擎的发展来看,B2B 业务是阿里巴巴的最早的引擎业务,然后是 C2C 的淘宝,然后是天猫,天猫也是逍遥子主力做的。再之后被寄予厚望的就是云。
潘乱:首先我们可以看到,哪怕是亚马逊或者微软,云都是他们最核心的业务。我们之前在聊 OpenAI 的时候,都说到微软最终的目的可能都是为了加强它的云的那个部分。
另外,以餐饮业为例,聊到万店连锁,我们会发现没有任何一家店是靠开在一线 万家店的,蜜雪冰城是靠广大二三线城市才达到的。阿里云可能是云服务里最便宜的了,发布会上还提到之后会更加普惠,也就是说价格还会再下降。
张鹏:我觉得阿里云作为云业务,对于阿里应该是一个很重要的业务基座。移动互联网这十几年,很多变革本质上是计算技术在推动,包括像阿里云这样的云计算也起到了一定的作用。OpenAI 这次推出的 ChatGPT,很多人也认为是在重新定义计算。如果阿里的目标还是让天下没有难做的生意,推动底层技术的新变化,那我觉得大概率在云这件事上的进化是它下一阶段的重要目标。那作为 CEO 还是要抓这个对其他业务来说重要的一个基座,这个基座不只是给阿里用,也会给社会更多人服务。
但我其实很好奇,逍遥子的性格是怎么样的,他是因为这件事比较确定采取抓,还是因为这件事比较不确定?
确定性,是因为它确定的是对整个公司、甚至于下一波浪潮里非常重要的一件事。不确定性则是因为,大模型和它本身商业化的路径,还有技术演变的具体路径存在不确定性。有点类似于所有人都知道路在那里,但是具体会遇到什么问题,怎么到终点等,这是不确定的。
至于逍遥子本身,我觉得是属于比较稳同时也很有担当的管理者。之前去负责天猫的业务,当时他其实是整个淘宝的 CFO,是以淘宝 CFO 的身份去做一个业务的总裁。他还是蛮敢于坚持做自己认定的东西的,也比较享受自己上手去做事情。
张鹏:发布会上,说钉钉、淘宝都会接入通义千问,想象一下,阿里的其他平台接入后会带来什么改变?
潘乱:感觉会有一些基础事务型的功能,比如发布会上介绍的文章摘要生成代办事项等。
如果用在淘宝天猫上,对于商家和消费者应该是不同的。对于商家来说可以完成很多事务性的工作,比如生成描述文案,而有了多模态功能之后,商家可能都不需要找模特拍摄照片和制作视频了。另外还能解决营销侧的内容生成的问题。
对于消费者来说,可能就不需要再去筛选了,你可以非常清晰地表达你的需求,它就可以完成各种服务,比如你说要去某个城市,可能就可以把帮你把机票、行程、酒店等都规划好,甚至还可以直接付款。
张鹏:这样的话,现在的信息流的推荐形式未来肯定会被改变,这对于阿里来说会带来什么样的影响?
李翔:对于平台上商家的集中度可能会有蛮大的影响的。亚马逊的 Echo 音箱其实现在也可以实现一键下单,不过目前只限于亚马逊自营商品。如果这项技术全面应用于电子商务的话,感觉会对整个商家系统带来非常大的影响。
潘乱:发布会当天我发了一篇文章《内容的容器大于内容本身》,把麦克卢汉的媒介与信息做了一个不同维度的翻译。现在绝大部分的服务到最后其实是通过三种路径让消费者去达成交易的:搜索、推荐和直播,严格来看的话,其实都不是效率最高的路径。而且现在平台经常在这些路径里加入各种广告,干预你的信息处理过程。
现在大模型出来之后,比尔·盖茨认为这件事是等同于图形界面这个界别的事情。那这种信息呈现的形式,可能要变革掉现在所有基于图形界面所创立的商业模式。用户不需要去筛选,也不会被打扰,就可以获得最好的服务。在这个过程中,用户看到的内容是一定会变的,只是变化时间和速度的问题。而不变的是,商家还是要供给、做履约和服务。
李翔:我觉得借助人工智能来做购物只是其中的一部分,只是消费的一条路径。就像女生逛街,或者我妈去逛菜市场,这其实不是一个高效率的解决方案,但是她很享受这个过程。极端情况下当然可能就像谷歌搜索的页面一样,你在搜索框提出需求,然后页面会直接满足你的需求,但这不是全部的解决方案。
人类的消费习惯确实会呈现多样性的表现,直播电商也不是效率最高的购物方式,淘宝和拼多多也在强调它们的用户时长和用户粘性。从增加用户时长和用户粘性这个角度来看,更像是内容平台希望去做的事情,但是现在电商公司也希望这样做。
由高效的人工智能助手完成整个购物过程,其实是效率导向。现在互联网电商的商业模式会受到非常大的冲击,因为我们现在还不清楚像 ChatGPT 这样的人工智能会根据什么逻辑去匹配用户的需求选择产品,也不知道商家的多样性是不是人工智能会考量的指标。
李翔:大模型竞争未来的格局会是怎么样的?创业公司和巨头们都会以什么样的姿态参与这场竞争?
张鹏:今天说做大模型,甚至说做中国的 OpenAI,需要思考你到底要做哪一年的 OpenAI,2015 年、2018 年还是还是去年的?对于创业者来说,想复制 OpenAI,实际上是非常有挑战的,因为你不知道要复制什么状态的 OpenAI。
而且今天的 OpenAI,已经有了自己的 super App——ChatGPT,数据飞轮在不断优化,同时又有了 plugins 的功能,甚至接下来它可能会开始投资生态,这一套下来,它越来越像一个操作系统,想复制的话,挑战还是很大的,可能需要找一些不同的方式,需要更高的一个效率。所以我认为国内不管是大厂还是其他创业者,想做大模型,都很难完全照搬 OpenAI 的经验。
潘乱:首先这个领域发展太快了,几乎每周甚至每天都有新的产品和技术发布,所以我们今天说的所有可能很快都不成立了。
另外就是大模型本身,未来也不排除会有开源模型主导,就像现在的浏览器,基本都是基于一个内核开发的。逍遥子这次也说未来不一定只是一个模型,可能还有其他的模型,比如在通用之外更专精的模型。
然后聊天这种形式未必就是交互的全部了,美国的实验室里已经有人试图把大模型和机器人结合了,天猫精灵的语音交互或许也是其中一种形式。
在模型之外,另外一个维度是看谁能够帮助用户更好地去搭建 AI 应用,提高开发者的效率。
朱迅垚:国内大模型跟 OpenAI 的差距还是很大,但是从技术角度来讲,我们是有信心的。基础的原理上并没有那么神秘,工程化能力他们很强,但假以时日,国内也未必不能赶上。同时技术人员对于真正的 AGI 的追求是不会停止的,对阿里来说通义千问并不是大模型的重点,只是中间态的探索。至于终局,上层一定是百花齐放的应用,但是会不会有一个统一的入口,比如像 Android 或者 iOS 那样,也许有,也许会有更激烈的竞争,但做基础模型的最终可能不会有太多的玩家。
张鹏:如果所有行业都值得被重新做一遍,大模型对于其他行业的再造会是怎么样的?
朱迅垚:微软的 Office 和 Teams 就是非常好的案例。我们又到了一个考验产品经理想象力的时代了,而且这个产品经理的领域会更广阔。
场景的话,比如金融行业,有很多信息和很多报告,日常调取的时候不是很方便,有没有可能 AI 的自然语言去查询,而替代之前的菜单式交互。如果我们把这些知识都灌给大模型,查询方式会不会发生大的变化?
潘乱:我倒是觉得内容领域更容易发生变化,因为金融对于准确性要求太高,不能出错,现在的大模型还是容易一本正经地胡说八道。
潘乱:以后的小朋友可能更喜欢跟音箱聊天,虽然现在的语音助手还是有点人工智障,但是在大模型的加持下,之后可能可以跟人做持续的情感沟通,一直陪小朋友聊天,对人的理解也是越来越深。
还有就是阿里云峰会上介绍的钉钉,以后钉钉能不能直接帮我生成行程代办,这样我就不用自己去更新日历了。
刚才提到的金融我也觉得蛮难的,因为用户对它的准确性会有很高的要求,容忍度比较低,而且金融还有严格的牌照限制,遇到的问题还蛮多的。
我个人比较看好大模型应用在医院的系统里,能够在患者第一次到医院的时候,很明确告诉用户看诊的流程,挂什么科室约哪位专家等,这是很值得期待的。
潘乱:其实像法律、健康、情感或者心理咨询等这种需要 1V1 服务的,之前的供给都不够,而且绝大多数的供给未必能到很高的质量。AI 应该可以在相对短的时间内超过平均线,达到可用级别。
现在大家还是在竞争大模型,以后竞争应用的时候,我觉得一定会有人去夺取高地,也就是一站式服务的超级应用,比如一站式提供法律、教育、情感等专业服务的超级应用。
张鹏:从技术角度来看,今天的大模型距离我们刚才的设想,本身还有多少差距?
朱迅垚:不少设想基本是基于现在的模态进行的设想了,主要的差距主要是理解得不够准确、生成的内容不够可靠,这个是 GPT-4 还没有完全解决好的。
但是随着 AI 神经网络本身构建的进步,以及工程化能力的提高,生成质量会不断提高,不一定是完全准确,能达到目前搜索引擎的准确度就够了。
但是我认为大模型本身的技术进步和产品化,还是需要想象力的。比如 2007 年手机触摸屏的技术和软硬件都具备了,只有乔布斯把 iPhone 做出来了。现在需要更多产品上的想象力。
张鹏:今天大模型确实给我们展示了非常大的可能性,但是很多场景的落地,其实看的不是技术的上限,而是技术的底线。比如金融、自动驾驶等,需要尽可能减少失误的发生。而底线的提升需要大模型的技术的发展,需要大量的人花大量的精力才能实现。
对阿里云的期待,不是技术上多么高精尖,而是在多少行业里把底线拉上去了,只有推动了这个才有行业的改变。过去阿里云在中国的电商发展和云计算历史做了很多推动的事情,我觉得这是阿里云的风格,也期待能做更多。