快手推出自研大语言模型「快意」，多项性能接近ChatGPT_AI&chatGPT_长臂猿

专注AIGC领域的专业社区，关注OpenAI、百度文心一言等大语言模型（LLM）的发展和应用落地，关注LLM的基准评测和市场研究，欢迎关注！

8月21日，快手AI团队宣布推出，从0到1独立自主研发的系列大语言模型「快意」（KwaiYii）。

据悉，「快意」包含多种参数规模的模型，KwaiYii-13B-Base预训练模型和KwaiYii-13B-Chat对话模型。其中，Base预训练模型在MMLU、CMMLU、C-Eval等权威的中/英文测试平台中，在同等模型中处于领先水平。

Chat对话模型具备内容创作、信息咨询、数学推理、生成代码等能力，人工评估结果表明KwaiYii-13B-Chat超过主流的开源模型，并在内容创作、信息咨询和数学解题上接近ChatGPT(3.5)同等水平。

Benchmark评测效果

开发团队选择了业内权威的Benchmark平台进行测试，包括测试英文能力的MMLU、中文能力的C-Eval和CMMLU、中小学数学能力的GSM8K以及代码能力的HumanEval，并与主流模型的性能进行了横向对比。

C-Eval：是一个全面的中文基础模型评测数据集，包含12342道单项选择题，涵盖数学、物理、化学、生物、历史、政治、计算机等52个不同学科和四个难度级别。采用5-shot的方式进行评测。

MMLU：可对模型的英文跨学科专业能力进行深入测试。集合了科学、工程、数学、人文、社会科学等领域的57个科目，包含14079道单项选择题。同样是5-shot测试方法。

CMMLU：专门用于评估语言模型在中文语境下的知识和推理能力。包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学，以及需要生活常识的中国驾驶规则等，共11582道单项选择题。采用5-shot和0-shot方式进行测试。

GSM8K：由OpenAI构建的高中数学应用题数据集，包含8500道高质量的数据，主要目标是对模型的数学推理能力进行评测。其采用8-shot进行评测。

HumanEval：由OpenAI和Anthropic AI一起开发的代码数据集，包含164个原创编程题，涉及语言理解、算法、数学和软件面试等题目。采用0-shot的方式进行评测。

从上述评测结果不难看出，Base、Chat模型在多个测试榜单中的多项性能评测中处于领先地位，突出了模型强大的中文、英文理解能力，以及较好的数理逻辑和代码能力。

人工评测

为了更直观地体现模型的性能，开发团队构建了一个高质量评测集，包含内容创作、信息咨询、数学解题、逻辑推理、代码能力和多轮对话6大类别。

其中内容创作包括文章写作、翻译、摘要总结等根据给定约束生成文本的任务，以及对实体/事件的观点描述等；

信息咨询偏向信息获取，如知识/常识咨询，景点、电影和音乐推荐等；数学解题包含四则运算、应用题、方程等数学问题；

逻辑推理包括事实推理、演绎推理和数据统计等；代码能力包含代码编写、代码调试、Bug分析；多轮对话主要体现在一个Session中持续对话的上下文意图理解和产生正确回复的能力。

测试结果显示， KwaiYii-13B-Chat超过了同等规模的开源模型，并接近ChatGPT同等水平。在内容创作、信息咨询、逻辑推理和数学解题上，基本与ChatGPT(3.5)效果相当。

在多轮对话能力方面，KwaiYii-13B-Chat超过同等规模的开源模型，但与ChatGPT(3.5)仍有一定差距。注意：人工评估结果受到评测数据覆盖面、标注主观性等因素的影响，无法全面反映大语言模型的所有能力。

目前，「快意」大语言模型已经开启内测，并为业务团队提供了标准 API 和定制化项目合作方案，以便在各种业务场景中进行测试和验证。

快手AI团队表示，将持续迭代「快意」大模型，一方面将继续优化模型性能并研发多模态能力，另一方面也在推进更多C端与B端业务场景下的落地。

本文素材来源「快意」大模型介绍，如有侵权请联系删除

END