对话南开大学刘杰:大模型也需要适者生存

随着ChatGPT在全球范围内掀起热潮,其背后的大模型技术也受到广泛关注,展现出强大潜力和广泛应用前景。有统计表明,目前国内发布的大模型数量已经超过100个,面对百模大战,甚至千模大战,随之而来一系列疑问:
国内大模型市场的真实情况如何,未来是否会形成寡头垄断?对于普通从业者来说,如何评价一个大模型的好坏?通用大模型出来之后,行业模型是否还有存在的意义?未来还有哪些值得研究的领域?
对此,AIGC开放社区联合科技慢半拍播客栏目专访了南开大学人工智能学院教授刘杰,刘杰教授的研究领域包括机器学习与数据挖掘方面的基础研究,以及面向自然语言处理、网络挖掘、视频图像理解等方面。
刘杰认为,千模大战的成因主要是开源,开源使得企业愿意在合理投入的情况下切入市场。但是,目前市场上真正对标GPT等通用大模型的企业不多,估计不到5%。他认为,模型和人是一样的,一个人不能胜任所有岗位,所以才会分专业分层次,将来的模型也会如此,因此大模型与小模型并行不悖。
关于大模型的评测,他认为“我们对人的评价有多难,对大模型的评价就会有多难。”“目前市场上的评测都是通用能力的评测,到了具体的业务上,这些评测就失去了意义,因为业务上的效果只能业务人员来做评测,”最终评测问题会转化成模型做出来之后甲方怎么验收的问题。
对于大模型的未来发展,他表示AI前期的发展为大模型的到来提供了很好的支撑,大模型发展的基座相对扎实,但是接下来看起来又没那么稳。未来大模型的能力边界、可解释性、商业化落地问题将成为主要焦点。
01

技术路线的选择


人工智能专业对比计算机科学或者传统的应用编程和软件工程,会有怎样的区别?

不完全是一回事。但是计算机、软件、编程以及相关专业,肯定会为人工智能的学习提供一些基础。人工智能有很多子领域,比如算法会偏重编程和数学,芯片需要计算机组成原理等方面的知识,换句话说,如果掌握了这些知识,那么从别的专业转向人工智能也不会有很大障碍。

是不是可以理解,新人可以直接走上AI这条路而不需要很多计算机理论的支撑?

一定程度上是这样。现在研究者和开发人员对底层知识的依赖程度越来越少,即使顶会上大模型相关论文也很少需要大篇幅的数学推导和证明。过去一篇好论文的前提是有扎实的数学证明,需要做收敛性证明,一系列推导求梯度,最后再用实验证明。但是现在都是搭模块,把模块拼起来完成自己的想法就行。因为模型很复杂,不再是求最优点的极值函数,最优点没有意义,那就只能看效果。所以如果不是做机器学习理论研究,对底层理论知识的依赖没有那么大。

技术的发展有一种幸存者偏差,就是说最后留下来的技术往往被认为是成功的,但是也有很多技术可能就逐步消亡了。从这个角度来看,您认为我们应该怎么做选择技术路线?

科研领域和工业领域看起来不太一样,但是底层逻辑没有太大差别,一是很难有一套标准来做策略分析,二是任何技术都有价值和意义,不必纠结最优解。

2006年,支持向量机比较火,深度学习之父Hinton分享说,他在NIPS做演讲,现场只有一个观众。由此可见深度神经网络的成功就是一个学者的坚持。从后往前看,我们可以知道支持向量机天然适合小规模数据,而深度神经网络很难在小规模数据上发挥效用,因为模型太复杂,当时算力也不支持。所以,很难说有什么策略分析可以帮助选择技术路线,更多地在于学者自身的坚持。

另一个方面,当时大家都在追逐主流的支持向量机技术,这也没有错误。正因为有SVM小模型才让机器学习的烟火没断。有了SVM,才有了后来的互联网,芯片,大数据,最后神经网络方法也跟着火了。所以任何技术都有价值,都有意义。当我们处在一个复杂系统里,很难有全局最优解。对于技术的选择,我认为最好的策略是根据个人的情况而定,看看自己的工具箱里面有什么工具,那就是可选择的范围,不必要过多地纠结这是不是最优解,追求局部最优就好了。

今天的GPT和BERT似乎还在上演重复的故事,您怎么看商业支持对于科研发展方向的选择?

是的,在GPT3.5出来之前,大家更关注BERT,因为BERT见效更快。如果把GPT和BERT看成两个孩子,两者的培养方式是不一样的。BERT要理解语言,就给它出语文试题,阅读理解,完形填空,类似于应试教育;而GPT只要求会写文章,以一个作家或者一个更高水准的身份去写文章。GPT的目标更高,增长曲线最终反超了BERT,这也是来源于技术路线的坚持。我认为在技术发展的过程中,路线的百花齐放是非常重要的。
至于商业支持。首先,我认为商业支持对今天AI技术的发展比以往任何时候都重要,因为现在的模型很大很烧钱。其次,商业支持和技术发展应该是互相促进的,就像一支球队获得的赞助费代表了市场价值的认可,但是球队的优秀最终还是在于教练和球员的配合,不是说有了赞助,就代表足球队很优秀,也不是说只需要关注技术,不需要物质支持。

目前市场进入了下行期,对于科研项目来说是否会造成影响?

从科研角度或者国家层面来说,国家已经认识到基础科研的重要性和关键性,高校、国家的重点研发项目会设置一些指南给予支持。
从市场的角度来说,虽然现在的投资相对谨慎,但还是带来了波动,产生了一些新变化。我的理解是大模型能否带来移动互联网那样的变革,现在大家还没有很强的信心,还需要观察一段时间。
02

不会存在寡头垄断


最近市场出了很多大模型,百模大战甚至是千模大战, 您怎么看这个现象?

千模大战的成因,一是开源,开源使得进一步研发变得便利,企业愿意在合理投入的情况下去切入到市场。二是ChatGPT带来更高的预期,对于语言的理解实现了超出意料的深度,如果能把这些能力转化到应用场景,毫无疑问会产生很大价值。
至于模型之间的差异,更多的是行业之间的差异,开源使得基础的模型已经准备好,很多企业实际上是在自己的垂直领域,通过特有的数据训练出行业大模型。目前市场上的很多大模型都是行业大模型,真正对标GPT等通用大模型的不多,估计不到5%。如果画一个大模型家族的树状图,这可能不是一个深度很深的树,而是一个宽度很宽的树。

作为一个普通的从业者,应该怎么去判断这些模型的好坏?

大模型测评是特别关键的问题,也是特别难的问题,它不像原来的机器学习,一套标注的数据集就可以测出结果。对于生成的内容来说,评测是一件很非常主观的事情,很难产生统一的标准。从工程角度来说,现在有考试试题评测比如C-EVAL,或者用GPT4代替人类打分评测,在一些更严肃更关键的场景,还需依赖人工评测。
我觉得更难的是落地的评测。以上评测都是通用能力的评测,到了具体的业务上,这些评测就失去了意义,因为业务上的效果只能业务人员来做评测。最终评测问题会转化成模型做出来了甲方怎么验收的问题。

最后是否会出现由政府或者是标准化的组织来统一评测?

这个应该目前没有。我的思考是这样的,现在的大模型越来越像人,我们对人的评价有多难,对大模型的评价就会有多难。现代社会所有对人的评价没有十全十美的,对于大学录取,国内是按高考分数线,美国则是按照推荐信以及其他方面因素。我相信最终会有一个评价机制,但是这个机制不一定是最完美的,而是相对可以接受的。

大模型市场终局,是否会是少数几家独大的情况?

不太可能,这是一个效率与效果的权衡问题。首先,通用大模型的企业很难有有精力下沉到市场底部去解决个别行业或者具体企业的问题,类似于企业服务市场,大企业做AI平台,中小企业做定制化AI,很难一家通吃。其次,市场足够大,即使最优秀最有竞争力企业,也不可能把市面上所有的企业都服务一遍,在有限的投入里面选择最经济的项目,才是合理方案。

有爆料称 GPT-4 是一个混合MOE模型。具体来说是采用由多个专家模型组成的集成系统,每个专家模型都有千亿的参数。如果果真如此,那么等到通用大模型成熟之后,这些所谓的行业模型/小模型是否还有存在的意义?

我觉得在很长一段时间达不到那种理想状态,我们可以看到,大模型随着参数的增长效果曲线趋于平缓。因为ROI成为挑战,所以才需要MOE,通过组合小模型来实现大模型。另一方面,当大模型达到一定预期,工程部署、客户验收将会成为新的问题。大模型与小模型的关系类似于航母与一般武器装备的关系,并不是每次作战都需要出动航母,也不是有了航母就不需要其他武器,我认为两者应该是长期共存或者合作关系。
此外,我一直有一个观点,模型和人是一样的,一个人尽管是一个“通用智能体”,但也不能胜任所有岗位,所以才会分专业分层次,将来的模型可能也会这样,有专业模型有层次化模型。同时也和人类组织一样,用哪个模型,怎么用,这是管理问题。追求一个大一统的模型来探索大模型的边界和能力上限,一定值得去研究,但是在务实的落地应用中,大模型与小模型并行不悖。

大模型的核心架构是Transformer,现在也出现了一些其他技术,比如RWKV,基于RNN架构,那您怎么看这些非主流技术的发展?

物竞天择,适者生存。技术的发展不仅仅取决于自身的能力,还涉及到商业或者经济上的底层逻辑。之前神经网络做不起来,就是因为各方面不支持,现在算力、数据具备了,自然就发展起来了。有些技术如果现在还没有被淘汰,那就说明市场有需要,也就还有机会。
此外,技术选型还是看应用场景。RNN早就存在了,算是Transformer的前身。Transformer是为了解决RNN的一些问题才被提出来,出来之后大家觉得好用,因此广泛使用,成为大模型的核心架构。现在为了解决一些Transformer不适应的场景,RNN又被重新提出来,这是可以理解的。
03

未来需要成熟落地案例


对于大模型下一步的发展,您有什么样的想法?

ChatGPT出来之后,对大模型的理解基本上已经达成共识。但是每个阶段都有其局限性,比如大模型的能力边界问题、可解释性问题,可能相当长一段时间会围绕这些问题做工程和商业上的各种探索。
此外,虽然有千模大战,但是真正商业上的成熟落地案例还没有出现。有一些惊艳的应用,但是还没有形成具有变革性影响力的商业化产品,这也是未来一段时间的主要焦点。

一个比较好的商业应用出来,估计需要多长时间?

这个是比较难估计的。但是如果两年还没有出现,可能整个市场就趋于平缓了。AI的起落都伴随着高预期,期望破灭就进入低谷,我觉得大家承受不了两年以上的等待时间。

所以AI这一轮的技术发展,在您看来是之前的重复?

有点差别,整体的趋势是向上,但是每个阶段又有所不同。首先是互联网阶段,信息检索、文本理解得到验证,然后是CV领域,人脸识别取得成功。互联网的好处是每走一步都能看到收益,一直有正反馈,但是大模型的商业回报目前看到的正反馈比较少。可以这么说,AI前期的发展为大模型的到来提供了很好的支撑,大模型发展的基座相对扎实,但是接下来发展看起来又没那么稳。整体向上没有疑问,但是未来发展存在不确定性。
希望收听完整音频对话内容的朋友,请移步【科技慢半拍】播客节目:
END