快手推出自研大语言模型「快意」,多项性能接近ChatGPT

专注AIGC领域的专业社区,关注OpenAI、百度文心一言等大语言模型(LLM)的发展和应用落地,关注LLM的基准评测和市场研究,欢迎关注!

8月21日,快手AI团队宣布推出,从0到1独立自主研发的系列大语言模型「快意」(KwaiYii)。

据悉,「快意」包含多种参数规模的模型,KwaiYii-13B-Base预训练模型和KwaiYii-13B-Chat对话模型。其中,Base预训练模型在MMLU、CMMLU、C-Eval等权威的中/英文测试平台中,在同等模型中处于领先水平。

Chat对话模型具备内容创作、信息咨询、数学推理、生成代码等能力,人工评估结果表明KwaiYii-13B-Chat超过主流的开源模型,并在内容创作、信息咨询和数学解题上接近ChatGPT(3.5)同等水平

Benchmark评测效果

开发团队选择了业内权威的Benchmark平台进行测试,包括测试英文能力的MMLU、中文能力的C-Eval和CMMLU、中小学数学能力的GSM8K以及代码能力的HumanEval,并与主流模型的性能进行了横向对比。

C-Eval:是一个全面的中文基础模型评测数据集,包含12342道单项选择题,涵盖数学、物理、化学、生物、历史、政治、计算机等52个不同学科和四个难度级别。采用5-shot的方式进行评测。

MMLU:可对模型的英文跨学科专业能力进行深入测试。集合了科学、工程、数学、人文、社会科学等领域的57个科目,包含14079道单项选择题。同样是5-shot测试方法。

CMMLU:专门用于评估语言模型在中文语境下的知识和推理能力。包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等,共11582道单项选择题。采用5-shot和0-shot方式进行测试。

GSM8K:由OpenAI构建的高中数学应用题数据集,包含8500道高质量的数据,主要目标是对模型的数学推理能力进行评测。其采用8-shot进行评测。

HumanEval:由OpenAI和Anthropic AI一起开发的代码数据集,包含164个原创编程题,涉及语言理解、算法、数学和软件面试等题目。采用0-shot的方式进行评测。

从上述评测结果不难看出,Base、Chat模型在多个测试榜单中的多项性能评测中处于领先地位,突出了模型强大的中文、英文理解能力,以及较好的数理逻辑和代码能力。

人工评测

为了更直观地体现模型的性能,开发团队构建了一个高质量评测集,包含内容创作、信息咨询、数学解题、逻辑推理、代码能力和多轮对话6大类别。

其中内容创作包括文章写作、翻译、摘要总结等根据给定约束生成文本的任务,以及对实体/事件的观点描述等;

信息咨询偏向信息获取,如知识/常识咨询,景点、电影和音乐推荐等;数学解题包含四则运算、应用题、方程等数学问题;

逻辑推理包括事实推理、演绎推理和数据统计等;代码能力包含代码编写、代码调试、Bug分析;多轮对话主要体现在一个Session中持续对话的上下文意图理解和产生正确回复的能力。

测试结果显示, KwaiYii-13B-Chat超过了同等规模的开源模型,并接近ChatGPT同等水平。在内容创作、信息咨询、逻辑推理和数学解题上,基本与ChatGPT(3.5)效果相当

在多轮对话能力方面,KwaiYii-13B-Chat超过同等规模的开源模型,但与ChatGPT(3.5)仍有一定差距。注意:人工评估结果受到评测数据覆盖面、标注主观性等因素的影响,无法全面反映大语言模型的所有能力。

目前,「快意」大语言模型已经开启内测,并为业务团队提供了标准 API 和定制化项目合作方案,以便在各种业务场景中进行测试和验证。

快手AI团队表示,将持续迭代「快意」大模型,一方面将继续优化模型性能并研发多模态能力,另一方面也在推进更多C端与B端业务场景下的落地。

本文素材来源「快意」大模型介绍,如有侵权请联系删除

END