首个开源联邦大模型FATE-LLM，突破数据与算力壁垒_AI&chatGPT_长臂猿

长臂猿 >> AI&自媒体 >> AI&chatGPT >> 首个开源联邦大模型FATE-LLM，突破数据与算力壁垒

首个开源联邦大模型FATE-LLM，突破数据与算力壁垒

FATE v1.11版本发布，集成首个开源联邦大模型FATE-LLM

随着ChatGPT对话机器人的横空出世，人工智能大模型在学术界、工业界以及投资界掀起了讨论热潮，一时之间，各路大模型的相继出现让人目不暇接。今日，联邦学习隐私计算开源平台FATE (Federated AI Technology Enabler）正式上线发布新版本FATE v1.11，推出了联邦大模型FATE-LLM功能模块。

基于此技术方案，多个企业可以通过FATE内置的预训练模型如GPT-2进行横向联邦，利用各自隐私数据进行联邦大模型微调。过程中使用了安全聚合（Secure Aggregation）机制对各家模型数据进行保护。相对单一企业有限训练样本，通过联邦大模型技术综合多家的训练样本，可以显著提升模型效果和稳健性。经过实践测试，FATE-LLM可以支持至少30家参与方同时进行横向联邦。

用户可访问以下网址获取发布版：

项目地址：https://github.com/FederatedAI/FATE/releases/tag/v1.11.0

为什么要做联邦大模型

FATE开源社区技术指导委员会主席杨强教授表示：“FATE-LLM的开源，是为了解决当前大模型应用的两个瓶颈问题。首先，是构建和使用大模型时的数据隐私保护问题。多个数据源联合训练一个大模型时极有可能会暴露每个数据源的用户隐私和影响信息安全，再一次凸显了隐私保护的必要性和紧迫性。

其次，利用联邦学习来解决可用数据数量不足的问题，也为业界提供了一个前瞻性的解决方案。正如来自阿伯丁大学、麻省理工大学、图宾根大学的Pablo Villalobos等6位计算机科学家在论文《我们会用完数据吗？机器学习中数据集缩放的局限性分析》中预测，ChatGPT等大语言模型训练所需的高质量语言数据将在2026年之前耗尽¹。目前大多数高质量数据来源于公域数据，也就是说当公域数据消耗殆尽时，如何在保护数据隐私的前提下，合规合法地利用手机等终端设备上的私域数据，将是解决大模型训练数据不足问题的关键。

这次发布的FATE-LLM，是利用联邦学习技术来解决以上问题的初步成果，也是FATE社区合作伙伴和我们的共识。未来，我们还将研究在基于大模型的应用中，如ChatGPT，在与亿万用户的互动聊天中如何保护提问者的隐私安全问题。”

FATEv1.11功能介绍

1. 亮点概述

1）FATEv1.11集成了业界主流的大模型，为用户提供多种选择，其中包含GPT-2、BERT、RoBERTa等常用大语言模型。这些模型已经被广泛应用于自然语言处理、推荐系统等领域，并在不同的任务中获得了良好的效果。此外，FATE v1.11还提供主流parameter-efficient方法集成，用户可以直接在提供的模型类型上配置Houlsby Adapter、LoRA、IA3等业界Adapter主要方法进行微调，从而进一步提高联邦大模型通讯效率。相关数据请见下方数据一览。

2）model_zoo中的PELLM Model类提供了强大的语言模型，可以用于各种自然语言处理任务。用户能快速地配置联邦大模型，从而简化工作流程，提高模型的效率和准确性。这种模型的应用场景非常广泛，包括文本分类、情感分析等。由于FATE已经在大模型联邦化方面做了大量的工作，用户可以在这些联邦大模型的基础上进行微调，以适应自己的业务场景。

2. 功能一览

1） LLM支持:

大模型：LLM支持多种大型自然语言处理模型，包括BERT，ALBERT，RoBERTa，GPT-2，BART，DeBERTa，DistillBERT等。这些模型被广泛应用于自然语言理解和生成任务，可以满足不同应用场景下的需求。
Adapter：LLM还支持多种适配器方案，包括Bottleneck Adapters（包括Houlsby、Pfeiffer和Parallel方案）、Invertible Adapters、LoRA、IA3和Compacter等。这些方案可以帮助用户在保持模型精度的同时，大幅度减少模型参数量，提高联邦训练效率。

2）Homo Trainer类改进：LLM的Homo Trainer类得到了进一步的改进，用户现在可以指定添加CUDA设备进行训练，并且可以通过多GPU设备使用Data Parallel来加速训练。

3）Tokenizer Dataset功能升级：LLM的Tokenizer Dataset功能也得到了升级，现在更好地适配了HuggingFace Tokenizer的使用，可以更加高效地处理自然语言文本数据。

3. 数据一览

1）目前支持的模型及其参数量:

目前版本支持各类经典语言模型，参数量从几十M到1.5B不等。以下给出这些的模型参数量（由于各个模型都有多个版本，仅给出常用版本的参数量）：

2）目前支持的Adapter方法及其训练参数占比：

以标准的GPT2模型为例，目前使用adapter进行联邦学习，各个adapter参与联邦的参数量占语言模型的比例如下：

3) 训练时间对比

场景：横向联邦场景
任务类型：文本情感分类任务
参与方：两个参与建模方，一个聚合服务方
数据：IMDB数据集，数据量大小=25000，batch_size=64, padding_length=200
环境：各个建模方使用V100 32GB x 2，局域网环境

以下是使用各个adapter的训练时间，与使用完整模型finetune的训练时间的对比(每个epoch训练时间，单位为秒）。可见，adapter + 语言模型的联邦形式，可以极大地节省训练时间。

开源开放，大模型发展的必经之路

FATE v.1.11为联邦大模型初步版本，未来FATE开源社区还将针对联邦大模型的算法、效率、安全等方面进行持续优化，并持续推出后续版本，路线图如下：

未来，联邦大模型将有机会充分利用分散在各个组织的算力和数据，融合联邦学习和AIGC相关技术，实现异构数据分布式安全训练。我们相信这将为自然语言处理，语音识别，机器视觉等AI领域带来全新的技术范式。联邦大模型未来将有机会重塑金融、零售、工业等多个行业数字化形态。比如金融领域中智能客服、内容风控、金融资讯情感分析，文本意图识别，营销场景智能创意生成和优化等场景将会得到显著的效果提升。

取之于开源，用之于开源。FATE开源社区欢迎更多的用户和开发者加入。在获得项目发展成果的同时，以参加项目等方式回馈社区。形成良性循环，推动社区生态健康发展！

参考资料：

1. Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning.

https://arxiv.org/abs/2211.04325

您可以通过以下方式联系FATE开源社区：
官网：	https://fedai.org/
Github：	https://github.com/FederatedAI/FATE
公众号：	FATE开源社区
开源社区用户组：	Fate-FedAI@groups.io
开源社区维护者：	FedAI-maintainers@groups.io
开发专委会：	fate-dev-core@groups.io
运营专委会：	FATE-operation@groups.io
安全专委会：	FATE-security@groups.io

欢迎加入FATE联邦学习官方交流群，添加FATE小助手微信号（FATEZS001）即可。

END

【github直达】：阅读原文或复制链接https://github.com/FederatedAI/FATE即可，点击star，方便下次使用。

本文来自AI前线

下一篇：大型语言模... 上一篇：ChatGPT ...