智东西4月18日报道,近日,GTIC 2023中国AIGC创新峰会在北京圆满落幕,20+位产学界重磅嘉宾分享了大模型与生成式AI的前沿创新、商业前景、算力进化、创业机会与投资策略。峰会现场座无虚席、人气爆棚,交流氛围热烈,全天到会观众超过千人,全网直播人数高达420万人次。
在大会开放环节圆桌对话中,智一科技联合创始人、总编辑张国仁与竹间智能总裁&COO孙彬、优必选语音技术科学家黄东延、创世伙伴资本合伙人梁宇以“狂飙的ChatGPT如何掀起新一轮科技革命?”为主题,一起探讨了关于技术、产业、投资的人工智能(AI)热点话题,将现场气氛推向高潮。
▲圆桌对话环节,从左到右依次是:智一科技联合创始人、总编辑张国仁,竹间智能总裁&COO孙彬,优必选语音技术科学家黄东延,创世伙伴资本合伙人梁宇
作为创业者的代表,孙彬所在的竹间智能,是知名自然语言技术AI服务商,由前微软(亚洲)互联网工程院副院长简仁贤于2015年创办,过去8年一直深耕NLP(自然语言处理)赛道,2022年全面投入大语言模型与生成式AI的产品开发,结合大语言模型、知识图谱、与应用,加速新AI 2.0落地。
优必选科技语音技术科学家黄东延是业内技术专家代表,其所在的人工智能和人形机器人公司优必选科技,今年1月31日正式向港交所递交招股书。成立11年来,优必选在人工智能算法和人形机器人本体技术上取得了重大突破,已发布多种智能服务机器人。截至2022年,在特斯拉等行业巨头刚刚推出人形机器人的情况下,优必选Walker作为目前全球唯一能够量产交付的人形机器人,已经在2020年迪拜世博会期间提供服务,并成功出口到沙特NEOM新未来城。
投资人代表梁宇所在的创世伙伴资本(CCV),是一家专注于发现早期投资机会的双币基金,其核心管理团队15年来保持了每年一个独角兽的速度,投中多个赛道的第一股,且80%的项目都在A轮领投。梁宇个人专注于搜索引擎领域,并常年关注人工智能、AIGC(人工智能内容生成)领域。
这场圆桌对话精彩纷呈、干货满满,从创业者、技术专家和投资者的角度出发,全面分析了ChatGPT引爆的AI新浪潮,从技术演进的必然结果,聊到创业者如何在业务层面实现颠覆创新,在面对大厂的资金、算力等优势下仍能实现业务突破与领跑。
今年已被视作通用人工智能发展的元年,大模型和生成式AI正在涌进千行百业。现在才仅仅是开始。
作为现象级产品的聊天机器人ChatGPT已经是AI领域的最火概念,上线个月用户数破亿,热度迅速蔓延至各行各业。对话开始,张国仁先跟大家聊了聊当初ChatGPT爆火时最大的感受。
“确实在意料之外。”梁宇坦率地说,连发布ChatGPT的OpenAI团队自己都没想到,这会引爆所有人的热情。他认为这种拥有“暴力参数”的大模型带来的范式改变,现在还只是一个开始。
最近一段时间,他在和学界、产业界、投资界的朋友交流时发现,大家对此的兴奋度大多来自于“大模型除了已经展现出来的能力外,究竟将来还能干什么?”,这个问题背后也衍生出了更多的话题,而投资机构更看重的,就是更多的创业机会在哪里。
身处更加垂直的智能服务机器人领域,黄东延谈道,之前他们判断大模型想要超过人类预期可能还需要三到五年时间,“去年11月30日,看到ChatGPT的惊艳表现后,我们知道人工智能真正赋能到各行各业,智能机器人走进千家万户的时间到了。”
当前,优必选科技已将智能视觉、智能语音交互等AI技术与服务机器人相结合。目前的智能语音交互的自动语音识别(ASR)在某些场景下基本上能够达到人类的期望,从文本到语音(TTS)播报也能够达到人类语音的质量。在自然语言处理交互部分,已有的传统交互技术还达不到人类的需求,而ChatGPT的出现远远超过了预期,体验效果十分惊艳。
和ChatGPT同处于NLP赛道的竹间智能,对于GPT就更不陌生了。孙彬将ChatGPT惊艳的地方总结为两类:首先是其封装模式是对话,但给了用户超出对话期望的文章生成、产出,欧美很多中小学生全部拉上线后产生了第一轮火爆;其次是大语言模型带来的优势,其可能带来用语言、对话驱动应用并改变知识问答方式,甚至是改变应用结构的趋势。这让行业内外的人士对大语言模型有了认知,并超过了所有人的期望。“也就是开了一扇门。”他说。
随着ChatGPT越来越热,行业中也出现了很多不同的声音。英伟达CEO黄仁勋夸赞ChatGPT的问世是AI的iPhone时刻,但深度学习三巨头之一、图灵奖得主、Meta AI首席科学家的杨立昆(Yann LeCun)从技术的角度来评价,认为ChatGPT没有特别的创新,只是被很好地组合。张国仁也问了问在座嘉宾们对于ChatGPT创新意义的看法。
“AI的iPhone时刻”的观点,更多是从应用视角来看,梁宇将这一观点视作“市场预言”。
黄东延谈道,“iPhone时刻”实际上对应移动互联网的到来,随着ChatGPT横空出世,AI将在各行各业涌现出大量应用。
孙彬做了更细致地拆解,ChatGPT带来的对话式大语言模型可以变成一种计算力量,成为智能平台上的资源能力,企业能调用大语言模型进行对话、驱动、生成等。他用OS(操作系统)来形容大语言模型的发展趋势,未来企业可以在此之上生成更多应用。而应用百花齐放、重新洗牌乃至出现井喷现象,会进一步推动算力、GPU的发展。所以从黄仁勋的视角来看,这是又一个iPhone时代产生的IT界软硬件甚至生态的变化,这种说法并不为过。
孙彬谈道,核心技术在前期已实现突破,只是此时产生了从量变到质变的突破,让大家看到了效果,所以从技术角度来讲没有太大创新也是有道理的,但ChatGPT从工程能力、组合、使用方面来看非常惊艳,“未来业务层面的创新一定会百花齐放。”
“技术底层和背后发展具有连续性。”梁宇说,2017年Transformer的注意力机制让很多科研和工程方向转向,并就这一方向去尝试进行暴力参数和算力堆叠后,才出现了ChatGPT这一成果。OpenAI也是经过了很多次试探,只不过ChatGPT的对话形式突然能让人立刻感知到,因此极具病毒传播效应。
从整体方法论来看,黄东延认为ChatGPT可以称得上“颠覆式创新”:OpenAI在做集成的过程中,试错了很多种算法,才发现“上帝给的秘密密码”,去发现对话到底如何实现才能给人类带来惊艳表现、如何将工程上的东西和人类价值观、伦理价值等对齐。
梁宇补充强调道,语言大模型只是大模型技术中的一个重要分支。“而当我们所有的注意力被锁在这儿时,就有可能是一个真的颠覆性时代来临了。”
横向来看,基于Transformer机制正在训练的3D内容生成模型、汽车行业3D环境感知等不同领域模型等,即便不是语言模型,它们同样也在基于Transformer实现突破性进展。大量的科学家和工程师正在连夜研究新的科学成果。
从底层模型角度来看,大语言模型的发展也许会集中在头部的几家,北美地区大厂的介入可能会将这一路径锁死,但这之外,垂直领域中的大模型也能够自成一派,基于发动机之上产生的应用爆发会逐渐到来。我们今天看到的可感知的AI能力是由前端应用层带来的。“所以,现在刚刚是一个甜点时刻。”梁宇说。
往后对于模型的深入应用和剖析,尤其是从文字到图片到视频,再到3D空间感知的跨模态,这一连串技术的横跨突破将引发行业应用层点爆,才有可能真正迎来大规模应用和商业化。
华为创始人任正非先生最近在内部讲话中提到,大模型将风起云涌,不止微软一家。尽管如此,但微软与OpenAI联手的组合拳打得太猛,从OpenAI的GPT-4到微软相关产品接二连三发布,都令同行感受到不小的压力。就着这一话题,张国仁提问道:各位觉得像微软+OpenAI这样一对组合,它们的领先优势到底能保持多久?
梁宇说,微软和OpenAI的组合玩的是“生态战争”。微软为大模型行业的竞争与发展“打了个样”,它迅速将各个应用入口嵌入到Office全家桶里,将其门槛API化并直接刷到地板价,让其他企业觉得不用不行,因为其余企业在做的事情还不如直接用微软的产品来的便宜。
这种将各个行业的应用、用户接入,形成了“我的应用给你数据,你进一步调优,调优之后反吐回来这样的数据飞轮”。未来,如果没有较大意外,大语言模型加持下,它的滚动速度会越来越快,并在商业化上形成持续的马太效应。
扩展来看,不同语言的模型对计算机的理解造成的障碍并不大,只是不一样的代码,更重要的是计算机编程语言本身。从IT浪潮发展以来,美国软件业已经形成从底层堆叠、中间层到应用层的整个生态体系,也就是软件产业链。梁宇说:“代码本身并不是问题,这个语言不太好,我们可以创造新的计算机语言,这往往会在美国本土发生。”因此在这种土壤下,用大语言模型去训练生产进一步的计算机语言生产力工具的效率会急剧提升。
国内企业的机会在于“我们有特别的环境”。训练一个好的语言模型要覆盖几个维度,其中非常重要的就是语料,目前中文语料标注不如英文语料成熟,未来仍需业界共同努力将好的语料作为训练的基础,然后在此基础上慢慢滚动起来。其次,以医疗领域应用为例,一些患者数据按法律规定不能公开,国内企业可以用已有语料训练基于这个行业的垂直模型,这种模型没有办法被微软、谷歌等大厂抢走;以及自动驾驶领域,路况、三维数据是国内市场独有的,基于此,我们训练出来的信号模型、语言模型有很大优势。
梁宇坚信,国内大厂、中小企业、创企、投资公司的要素组合一定会百花齐放,长出和海外不一样的生态。
对于“微软+OpenAI”组合到底能走多远的问题,黄东延认为,要看技术的创新能力和迭代开发的速度。她对国内大量小型AI企业寄予厚望,相信受国内政策、市场以及教育水平提高的影响,AI企业创新正在加快,国内应用领域可能比其他国家的范围更大,会诞生更多的创新方向。
以优必选在做的人形机器人领域为例,大语言模型赋予机器人“大脑”,使得语音交互的体验更加自然,而机器人赋予大语言模型“身体”,就是具身智能让大语言模型感知周围环境,通过“视觉、听觉、触觉、味觉、嗅觉”来理解物理世界,获取物理世界的真实反馈,进一步学习变得更加智能,大语言模型是连接虚拟和物理世界的桥梁。ChatGPT的应用会使其在语音交互、人机交互、导航、运动控制、行为等方面有很大的突破。
孙彬觉得两者保持领先的时间还不好预判。在他看来,语言大模型能落在微软这样的产品体系当中,真正实现了技术能力和产品的组合,而这个组合一定会在整个赛道中领跑一段时间。不过从另外一个视角来看,任何提效工具的组合都只是在效能上提高,需要被人使用和运用,因此最终还是以人的产出为准。在计算器、计算机的加持下,人的效能的确不断提升,但真正生活的价值是由人来创造的。
他肯定地说,OpenAI和微软是一个好的组合,其余做技术和相关产品的企业还需要追赶。但是从更宏观的角度来看,“这样的组合能不能用到其它产业中,让技术和产业完美组合起来”也很重要。国内市场很大、用户群体庞杂,如果在此基础上国内相关企业也能履行这个模式,可能会在不同赛道中领跑。
近段时间,大模型和生成式AI正引爆新一轮创业热潮,从美团联合创始人王慧文到搜狗创始人王小川,再到李开复宣布Project AI 2.0计划,众多知名业界大咖相继入场。张国仁提问道:如何看待这一拨创业热潮,最终会像“百团大战”一样,经过几轮淘汰后,最终少数赢家通吃,还是有百花齐放的机会?
梁宇认为会是百花齐放。过去“百团大战”实际上是打补贴,让用户能快速尝试、沉淀下来。但现在的情况不是这样,各个行业的创业者,不论是AI 1.0还是上一代在国内落地的计算机视觉领域,已经形成了相对成熟且有固定格局的产业环境和创业公司链条。
在此基础上,新的语言、模型范式到来,我们迎来了开源。过去这一行业沉淀的客群关系、数据、商业循环智能在底层被加速。因此,当底层发动机被换了,之前各个公司在这个领域的沉淀先应用到自己生产环境中的可能会领先,再将序列重新梳理,原来百花齐放的局面仍旧会百花齐放。很难想到,因为算力、更智能或者更像人等单一的因素,会完全把过去一切的商业努力都颠覆掉,因此,他对这个事情持相对现实的态度。
据梁宇观察,现在下场做大模型创业,与两年前相比,“人才市场已经发生了质变。”这一行业从高峰期到过去两年,从某种程度来说已进入下滑期和冰冻期。用经典的Gartner曲线来解释,就是希望之颠、绝望之谷。
ChatGPT的突然爆火、媒体的快速介入将其声音放大,迎来了几个领域的密度飙升,第一是资金的密度狂砸,第二是跟NLP领域相关的创业者密度加码,第三是企业家密度,过去一两年,创业者在创业环境中相对迷茫,过去的增长红利好像消失了,如今由于大语言模型的推出,使得人们和机器沟通的效率更顺畅。
现在已经进入了完成不同的阶段。他认为,我们目前讨论的只是人和屏幕之间发生的革命性潜在变化,还没有讨论到把这种交互挪到机器人上,或者和现实世界可触摸、可决策的领域会发生什么样的质变。当虚拟世界进一步影响现实世界和物理世界,才会真正融合到一起。
作为投资者,梁宇说:“最直观的感受就是’价格节节高’”。而创业公司的感受则更为复杂,一方面对于资金储备和核心人才十分恐慌,但焦虑的同时又充满希望。
有圈内人士调侃,OpenAI背后的创业者,是两位从美国名校辍学的学霸,带领两位国外技术大牛干起来的。张国仁与在座嘉宾探讨了这样的成功是否是偶然,以及什么样的团队适合在AIGC领域创业。
孙彬认为,OpenAI CEO山姆阿尔特曼(Sam Altman)的成功有必然性,在创办OpenAI之前,阿尔特曼看了很多行业,本身就是这个领域的专业人士,产业圈子中有大量资金、产业大佬的帮助,并且利用自己的资源、人脉和资金坚持走了下去。今天在大语言模型领域创业的话,也应该具备这些条件再去做。
他谈道,从创业公司的视角来看,大语言模型一定是基于三件事:算力、足够好的工程师、一定的数据,具备这三件事情才能事半功倍。然而现实情况是,目前大厂具备这些条件,未来大语言模型的浪潮很有可能由大厂主导,随后出现“大厂吃小”。最后的结局可能是,大语言模型不断提升,几个大模型在前面领跑,后面的模型逐渐萎缩。
反过来看,大厂做的通用型语言模型是产业型的,因此,大厂在大语言模型这一产业中一定会领跑,但突破一定在科创公司。OpenAI的例子证明了,大概率科创公司在专业度、突破性、灵活性都会实现突破,在各个行业、各个赛道和技术点上的突破,一定会是科创公司拔得头筹。
梁宇同意孙彬的看法,大语言模型创业需要很深的技术功底、理解、工程实践。国内大厂有足够算力、资金去领跑这一行业,即使现在不够,这些资源也会进一步堆叠。更重要的是大厂对于NLP人才也具有很大吸引力,不论是薪资还是高手之间的交流上,大家都愿意在这样的环境中。
但问题在于,基于这样的认知,初创公司还有没有机会?机会又在哪里?梁宇认为,初创公司的机会一定在相对容易的应用层,能找到一个垂直产业进去,在这之中积累足够多的产业Know-How(技术诀窍),而这是语言模型不能实现的。Know-How就是系统、商业机会、产品,辅助在产业中的公司提高效率、做决策、减少浪费等。
他感慨道,做创新很难,创业公司要躲开下一个可能要踩的“大象脚印”,大家对于主流赛道都很兴奋的同时,创业公司更要主动躲开“大象脚印”。
例如,一家明星AI创企Jasper成立短短两年就获得成功,很快拿到将近1亿美元的收入、10亿美元估值,结果ChatGPT发布、OpenAI来了以后把这家创企的“舞台炸了”。因为Jasper底层用的所有东西都来自OpenAI,并且可以完成的任务一模一样,都是帮助文字工作者更好地写东西。
而很多伟大的公司都是从很小的缝隙当中钻出来并扩大,趁着大象还没注意到就先砍掉了大象的腿。
当下全球企业都在接入ChatGPT,文心一言新闻发布会后一周,已经有超10万家企业申请文心一言API调用服务测试。张国仁探讨说,这是不是意味着这些企业无需在自研NLP等AI技术上投入了,只需要接入大公司服务即可?大厂与中小企业之间的商业模式、利益分配情况会是什么样的?
孙彬认为,这既是产业问题也是商业问题。商业问题一定是百花齐放的,大语言模型的优势可以让那些专注在应用开发端,但是不擅长后端技术的团队快速调用大语言模型,并获得商业收益,这种商业模式是有效的并可以带来社会效益。
和公有云、私有云的发展一样,任何行业都有行业数据、行业壁垒,大模型中的不可控性、知识的不正确性,行业知识对话、企业对话当中也会产生很多错误,能够聊天、不能够问答等,这些问题一定会存在,所以就需要专业团队来完成这些企业、行业要完成的事情。
过去几年内大模型很多,竹间智能有自己的大模型也尝试了国内外的模型,各有优势,所以今天如何把大模型的优势利用起来,并达到最终应用效果,服务到头部企业,让应用更好用、写作更有效等,这些机会都是“术业有专攻”。
退一步讲,以前街上会有制作帽子、鞋子、衣服全套的商家,但后来就回归到帽子做帽子、鞋子做鞋子、衣服做衣服。因此产业想要健康发展,就应该专业的人做专业的事,分工细致,让每个技术团队专注在大模型开发上,给他们时间,让他们去创新,而应用开发团队就专注在需求方面,带来更多的场景。
“我认为这个赛道中,只要有需求就会有企业价值存在。”孙彬说,“这是一个百花齐放的时代,希望资本团队能给科创团队多一点时间,让我们在这个土壤当中多做一点创新的事情。”
人工智能发展得越快,其版权、安全性等问题越受到关注。此前已经有人用AIGC去做一些令人不寒而栗的事,比如指导人通过特殊渠道购买或制造危险化学品等等。基于此,张国仁抛出一个问题:AI引发的安全风险会成为阻碍技术发展的障碍吗?可能的解决途径会是什么?
黄东延谈道,各方已经在采取措施来规避这些风险。首先从国家层面上制定法律法规,相应公司在开发产品的过程中遵守这些法律法规;其次,技术人员要重视开发过程的安全,同时公司制定监管制度,过滤掉涉及数据、模型训练过程中不好的东西。第三,要让大众提高安全意识。第四,制定安全、伦理、道德、价值观相关的标准,企业在开发过程中将其嵌入。“众所周知,人有两面性,在这个过程中,如何把正面激发出来,就需要有中心思想来指导这些人去做。”黄东延说。
孙彬认为大家不必过于担忧,任何科技刚出来时都会有正面性和负面性,但仍要看重科技的创新性。
当汽车代替马车时,虽然取代了马车夫,但也变革了交通行业。计算机的出现也可能产生很多涉黄涉暴的负面影响,但它同样带动了产业的发展。今天大语言模型等提效工具也是如此,它们一定会给行业带来收益,但是也会带来负面影响,关键是要做到可控。
竹间智能十分看重这几点:首先是严格按照数据管理规范来处理客户数据,避免客户数据泄漏和恶意使用,保证安全性;第二,在人工智能生成的内容中,建立专业团队来完成对恶意写作情况的鉴别判别、阻止。将好技术引向正确的方向,带来收益,这才是王者之道。
最后,张国仁将话题拉回到一个探讨AI未来的终极话题,大模型被视作是当前离通用人工智能最近的技术路径,各位分别如何定义通用人工智能(AGI)?它要解决的终极问题是什么?
黄东延说,大模型的到来说明通用人工智能在路上,并不是终极的。优必选也将深挖垂直领域,并会在大模型方面做得越来越好。通用人工智能和垂直领域人工智能是相辅相成的,大厂做通用人工智能,大多数是提供一个平台,垂直领域的人工智能则是产业上做深入开发。
梁宇认为通用人工智能一定会到来,而且时间不会太晚,甚至比预期要快。但通用人工智能更多解决的是理性问题,它可以推理、学习、考试。计算机越来越像人,解决人10%、20%的效率、工作问题已经足够。因为每个人自己就是一个大语言模型,当人日常进行语言交流时,其中有90%的废话,蕴含了大量情绪信号,只有10%真正有用并被拿来做推理。
此外,人所有的感知来自于信号,触觉、嗅觉、温度的感知等。苹果砸下来后,牛顿发现万有引力定律。但如果计算机没有这种感知信号,无论怎样它都会被锁死在那个地方。
未来,通用人工智能一定会让人很惊艳,完成现在很多白领做的基础性工作、推理出很多蛋白质分子、在我们不知道的情况下面做得更有效率,但是很难和真正的人并驾齐驱。
孙彬认为,通用人工智能的确是通过ChatGPT现象印证了一步、走近了一步,但我们更应该看到的是,通用人工智能来了以后产业的变化。今天,大语言模型会让所有应用的交互方式发生改变,会让以后陪伴家人用机器人来补充和完成,会让以后的智能家居真正做到像《钢铁侠》贾维斯一样的呼唤和使用,并改变很多办公、书写的习惯。
通用人工智能的发展改变最多的是将来,因此,我们现在需要做的是共建。孙彬说:“我们希望少走弯路,不要把炼大模型变成炼丹,很多不是专业的团队不要浪费资源,能真正让专业团队聚焦在这里面形成有效产品,让落地的团队跟产业“握手”提高效率,让产业发展更快,不要让资本无端投入,让时间、效率、团队都走在正确的路上。”
同时他坚信:“我们会赶超其它国家,因为我们有最好的团队、最好的市场土壤、相对来说过去二三十年行业里面的带头人,为什么我们不能成呢?”
从《2001太空漫游》、《钢铁侠》贾维斯到《流浪地球》的Moss,这些经典电影都为我们描绘出了人们对人工智能未来形态的想象与期待。看向未来,张国仁问道,假设从10年后回头看今天这一波AIGC应用创新,对科技产业和人类社会的意义和影响会是怎样?
梁宇感慨道,恐怕当回头看时,会发现我们对未来十年做的预测肯定都是错的,所以只能浪漫地想象一下。从十年之后看今天会发现,这是对计算机交互方式的改变,让人们不再去学复杂的语言就能和计算机更自然的交流。
计算机发展到这一天也突然按照人类想象的那样,好像有了一些智能,能够和人去交互,而事实上这只是一个开始。今天可能某种程度上会成为通用人工智能开始的元年,从今天起,它们慢慢像水和电一样渗透到人们的生活、工作、商业的方方面面里。
黄东延也相信,现在是通用人工智能的起始点,大模型会渗透到人们日常生活当中去改变交互方式、编码方式。现在所有计算机要实现的功能都采用编码形式,但未来人们可能使用自然语言就可以实现任何机器人的功能编码。畅想十年后,各个行业模型可能都会渗透到各行各业中。
她借用优必选CEO周剑说的一句话:“让智能机器人走进千家万户。”而ChatGPT的出现,使得他们看到智能机器人走进千家万户能成为现实。
孙彬提起竹间智能带头人说过的一句话,未来每个人都应该拥有自己的机器人。回望20年前我们身边最智能的是什么?十年前我们怎么用手机和智能体?十年后每个人都应该有一个自己的智能体,帮自己做家务、工作等,在提高工作效能的同时,让人们有更多时间享受生活。
最后,张国仁总结道,十年后回看,应该有不少现在觉得习以为常的事情,到时候会变得不寻常,以当下视角而言,这就像人们现在已经习惯使用电子支付,与十年前或更早的采用现金支付方式之间的关系,通用人工智能的发展可能也会类似这样,同时带来更广泛和深远的影响。