文心一言:百度 AI 技术十年磨一剑

作为“文心一言”首批内测用户,CSDN 编辑将其与“ChatGPT”在文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成这五个维度进行了对比,并在第一时间发布了测评体验
目前来看,文心一言在理解能力、回答准确性以及逻辑能力方面都有不错的表现,当然,我们也要承认文心一言与ChatGPT存有差距,不过随着后期用户的更多反馈,以及技术的不断迭代,相信会逐渐缩小差距,巩固自己的优势。
要知道,ChatGPT发布至今不过四个月,很少有大厂能在这么短的时间内敢于推出真正对标ChatGPT的产品,但百度做到了。它是全球范围内第一个率先研发出类似生产力工具的大厂,尽管还不够完美,但能快速跟上,这本身就令人倍受鼓舞。
那么,凭什么百度能在这么短的时间内推出文心一言这样的产品?
强烈的市场需求呼唤类似的大模型。ChatGPT爆火后,大模型对个人生产力的提升,以及在各行业的巨大商业价值愈加清晰。2月,就在百度公开宣布要推出“文心一言”之际,百度搜索、智能云到自动驾驶等各产品方面的合作方随即明确需要这样的产品,很快,超过600家合作伙伴宣布加入文心一言生态,期待尽早用上最新最先进的大语言模型。
问题在于,构建这样的大模型并非一日之功,文心一言的快速推出背后恰恰体现了百度深厚的AI技术积累、完善AI基础设施以及强大技术生态的支撑,这让它才显得有点驾轻就熟。


全栈AI技术打磨十年

众所周知,百度深耕AI领域十余年,从底层的高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,到搜索、智能云、自动驾驶、小度等应用,形成了全球范围内少有的在“芯片-框架-模型-应用”的IT四层技术栈架构,并且各个层面都有领先业界的自研技术和产品。
问题是,这些积累已久的全栈技术对研发文心一言意味着什么?
还记得新闻发布会现场,李彦宏展示文心一言在五个场景下的综合能力吗?除了展示大语言模型较常见的优势和能力,还表现出了更优秀的中文理解、多模态生成能力,而这需要大算力、大数据和大模型的三方合力加持,缺一不可。
当前,大模型的每一次训练任务都耗资巨大,即使是GPT-3,单次训练成本也至少是460万元。而百度全栈布局的优势在于,可以实现端到端优化,大幅提升效率。尤其是,框架层和模型层之间,有很强的协同作用,可以帮助构建更高效的模型,并显著降低成本。
此外,百度IT四层技术栈架构可以形成一个高效的反馈闭环,能帮助大模型不断去调优迭代,从而让用户体验不断升级。而具体从每一层技术栈来看,都为文心一言的构建发挥了独特优势。

大模型技术三大创新

首先,文心一言的推出离不开百度多年积累的大模型技术能力。据百度CTO王海峰在发布会上介绍,作为新一代知识增强大语言模型,文心一言是基于ERNIE及PLATO系列模型的基础上研发而成,关键技术包括有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。
其中,前三项是这类大语言模型都会采用的技术,这里着重介绍一下后三项技术,它是百度已有技术优势的再创新,也是文心一言未来越来越强大的基础。
在知识增强方面,文心一言的知识增强主要是通过知识内化和知识外用两种方式。知识内化,是从大规模知识和无标注数据中,基于语义单元学习,利用知识构造训练数据,将知识学习到模型参数中;知识外用,是引入外部多源异构知识,做知识推理、提示构建等等。
在检索增强方面,文心一言的检索增强,来自以语义理解与语义匹配为核心技术的新一代搜索架构。通过引入搜索结果,可以为大模型提供时效性强、准确率高的参考信息,更好地满足用户需求。
在对话增强方面,基于对话技术和应用积累,文心一言具备记忆机制、上下文理解和对话规划能力,实现更好的对话连贯性、合理性和逻辑性。
实际上,自2019年3月以来,文心大模型就在改进搜索结果方面发挥了重要作用,带来排名改进和多模态搜索能力,并且已经从最初的自然语言理解大模型,发展成了跨语言、跨模态、跨任务、跨行业的能力完备的大模型平台。
换句话说,在研发文心一言之前,它的大部分大模型技术地基已经打好。

得天独厚的高质量数据集

除了模型的技术创新,更关键的是训练数据集。目前,ChatGPT没有公布其具体的数据集来源,而对想要做出类似大模型的企业来说,一大障碍是很难获取高质量数据集。
百度不缺的就是数据,尤其在中文数据集方面的优势不言而喻。比如搜索引擎抓取了非常庞大的网页库,经过很多精细的处理,可以积累高质量数据。此外,随着百度智能云的发展,百度也积累了很多行业数据。
由此,百度构建了面向中文、服务应用、富含知识的多样化训练数据,对文心一言进行有监督精调,使其掌握的知识更精准,更懂中文和应用场景,并建立起人类反馈、奖励模型和策略优化之间的飞轮机制,文心一言融合不同类型数据和知识,自动构造提示,包括实例、提纲、规范、知识点和思维链等,提供了丰富的参考信息,激发模型相关知识,生成高质量结果。
当然,现在文心一言在人类反馈的数据上还较为缺乏,不过在开放测试后,人类反馈数据会促进文心一言飞速迭代,从而更好理解人类的意图,给出更为更为准确、符合人类价值观的高质量回答。

自研芯片和深度学习框架加速大模型训练/推理

用户不光希望文心一言有很好的内容生成效果,更重要的是,还希望在内容生成阶段有更好的性能,更快的反馈速度,而这离不开高性能芯片和飞桨深度学习平台的助力。
在芯片层,百度自研AI芯片“昆仑芯”已在多场景实际部署,这保证了文心一言底层算力需求。据介绍,昆仑芯片已经为百度的搜索服务优化了十年,而百度的搜索服务,每天响应几十亿次真实的用户使用需求,每天进行1万亿次深度语义推理与匹配,能够提供最真实、最及时的反馈,从而倒逼大模型、深度学习框架和芯片的优化。
在框架层,超大规模模型的训练和推理给深度学习框架带来很大考验。而百度的飞桨拥有动静统一的开发范式,以及自适应分布式架构,可以实现大模型的灵活开发和高效训练。在推理部署方面,飞桨支持大模型高效推理,并提供服务化部署能力,包括计算融合、软硬协同的稀疏量化、模型压缩等等。
王海峰认为,飞桨有效支撑了大模型的灵活开发、高效训练和推理部署,使得文心一言效果更好、效率更高、性能更强。

结语

文心一言背后积累的AI技术势能也体现了百度在技术研发上的大力投入。近十年来,百度累计研发投入超过 1000 亿元。2022 年百度核心研发费用 214.16 亿元,占百度核心收入比例达到 22.4%。与全球其他大厂相比,这些投入在也数一数二。
在技术上的坚定投入,也让他们在AI产业化方面得到反哺。尤其是,飞桨平台已经汇聚535万开发者,服务20万企事业单位,基于飞桨创建了67万个模型。此外,基于飞桨平台,百度已经为各行业培养了300多万AI人才。这让百度成为业内AI产业落地当之无愧的领导者。
基于此,正如王海峰所说,文心一言是百度多年技术积累和产业实践的水到渠成。
据了解,未来,百度计划将文心一言接入搜索、智能云、自动驾驶等多项主流业务。相信文心一言会加速推动千行百业智能化升级,并且成为一种能量强大的生产力工具。还在观望着的你,是时候进场了。

本文来自CSDN