蚂蚁「大图模型」研究,为图智能迈向AGI铺了一条新通途

机器之心报道

作者:杜伟

在 AI 新时代,图与大型语言模型能擦出什么火花?这是一个值得「深挖」的重要课题。


2021 年 3 月,知名 IT 咨询公司 Gartner 在《2021 年十大数据和分析技术趋势》报告中表示,图技术已经成为很多现代数据和分析能力的基础,并预测到 2025 年,图技术将应用于 80% 的数据和分析创新。


同时,2021-2023 世界人工智能大会连续三年举办了图技术相关分论坛,引起了学界和业界的广泛关注和热烈反响。


不难看出,近年来图技术非常被看好。图技术一般指图数据管理和分析技术,研究客观世界实体之间的关系,涉及大量异构数据、存储和分析。包括图计算、图学习、图数据库等一系列与图技术原理相关的技术更汇聚形成图智能,并被认为是人工智能领域下一个前沿高地。


进入到了 2023 年,随着大模型成为人工智能发展的主流趋势,它们与图计算等图智能技术的融合成为全新的研究命题。近期,一些学者也开始关注大图模型概念,如清华朱文武教授团队最新论文《Large Graph Models: A Perspective》,介绍了大型图模型面临的挑战、机遇和应用前景。


我们不禁要问,图智能与大模型之间的关系如何处理呢?二者的融合最终会往哪个方向发展?这些问题或许只有经过学界与业界共同研究、探讨之后才能得到更全面、更可信、更有操作性的答案。


在上周由蚂蚁技术研究院和中国计算机学会数据库专委主办的 2023 外滩大会「新一代数据底座 —— 探索图智能的应用与发展」分论坛上,海内外顶尖专家、学者和从业者聚焦图智能领域的最新进展,对人工智能、大语言模型(以下简称大模型)与图智能技术的融合展开了深度解构。


蚂蚁技术研究院院长陈文光


推出大图模型,蚂蚁图智能先人一步


在这场论坛上,我们见证了图智能与大模型融合研究的一项重要成果。那就是蚂蚁推出的大图模型(Large Graph Model, LGM),它将图计算、图学习等图智能技术与大模型相结合,同时释放大模型的生成能力和图计算的关联关系分析能力,通过更直观、全面的信息呈现和更精准的洞察,更好地解决海量复杂的数字化应用难题。


在谈到为何会将图计算这一强大的数据处理技术与大模型这一最有可能走向通用人工智能的技术相互驱动、融合利用时,蚂蚁集团图学习高级技术专家刘永超表示,大模型虽可以推理出隐性关联关系,但无法绘制关系图,而使用图结构表示数据关系更便于理解。如果给大模型「配上」图计算,则先从海量信息中逻辑推理,再利用超级计算算出关系。「这类似于给人脑外接了一台超级计算机,能力更强了。」


他进一步解释称,大模型在本质上完成了对文字、图像、视频等数据的信息压缩。因此他们开始思考这种将高维空间数据压缩到低维空间的信息编码方式对研究图智能的启发。结果显而易见,蚂蚁将信息更丰富的图数据压缩到大模型中,打造出了大图模型。简单来讲,大图模型以图为核心,融合了预训练、LLM 和提示等技术构建的压缩图信息。


至于大图模型能解决哪些核心问题?刘永超总结了以下几点,一是解决数据稀少、多样性缺失、数据分布不均甚至数据隐私、安全、保密等问题,提升数据质量、多样性、公平性、安全性;二是通过快速的图样本生成,减少对耗时耗钱数据采集和标注的依赖;三是基于提示词能够发现和解释数据特性。


刘永超


在大图模型研究中,蚂蚁一方面完成了第一阶段「生成式异质图增强」工作,也是业界首个,可以根据现有数据生成新的数据点。相关论文《Multi-Aspect Heterogeneous Graph Augmentation》被计算机顶会 WWW 2023 收录。另一方面通过 Prompt(指令或提示)引导模型学习和发现特定数据特性,加速数据分析和特性发现的过程。


蚂蚁内部也就 LGM 能做什么展开深层次业务实践探索,目前至少可以用作商业场景通用风险模型、全网账户画像基座模型和大规模图策略推荐。除了大图模型,刘永超还分享了图计算赋能大模型的工作,主要是图向量数据库和图增强的大模型。其中图增强的大模型使用图数据尤其是知识图谱,来辅助解决大模型遇到的幻觉、行为不对齐、有毒等难题。


大图模型的出现为大模型和图计算两个领域都带来了新的机遇,为两个领域携手发展提供了一条路径。一方面利用图计算补足大模型在图生成、推理、理解等方面的不足,提升解决图任务的效果。另一方面融入大模型更高效地助力破解图领域难题,为图智能走向通用人工智能提供一条可行性方案。可以说,蚂蚁率先开始大图模型的研究,充分体现了其在大模型时代把握技术潮流方面的前瞻性,也必将为图智能的进一步应用与发展带来助益。


其实在图计算领域,蚂蚁一直是引领者。作为国内最早研究图计算技术的企业之一,蚂蚁不仅构建了世界规模领先的图计算集群,还形成了一套以图数据库为底座、包含流式图计算、离线图学习的大规模图计算平台 TuGraph。TuGraph 曾三次打破图数据库权威测评 LDBC SNB 世界纪录,2021 年获得世界互联网大会「领先科技成果」奖,2023 年入选 IDC MarketScape 中国图数据库市场「领导者」象限。


蚂蚁积极把图计算能力向外开放。其中 TuGraph 平台中的图数据库 TuGraph DB 3.3 于 2022 年 9 月正式开源。此次论坛蚂蚁集团图数据库开源负责人林恒分享了最新的 TuGraph-DB 4.0 版本以及蚂蚁全栈图智能计算架构。自开源以来,TuGraph-DB 经历了云上一键部署、Python 算法接口、POG 支持、图学习引擎、高可用等阶段,最终形成了 4.0 版本,并计划于 2024 年 1 月推出下一代存储引擎。


林恒


那么,TuGraph-DB 4.0 具备哪些核心功能呢?第一点是支持标准化图查询语言 ISO GQL,它的定位可以类比 SQL 查询语言,极大地降低图的使用门槛;其次是高可用性,基于 RAFT 协议实现多活热备、一写多读,提供企业级的能力;接着是强大的图学习能力,和数据库结合后能够实时采样,兼容 DGL、PyG 等常见图学习框架;最后丰富了易用的接口,存储过程支持 Python、C++、Rust 等多语言。一切为了更简单易用、功能完备,并选择将一些企业级功能开放,完善生态建设。


回到蚂蚁内部,林恒表示正根据各业务的多样化需求来升级图数据库,对图的使用从以往的「散点式」发展为了「体系式」。升级后可以同时具备多源数据融合能力、HTAP 型图融合能力以及图智能、图挖掘能力,实现一库多能,提升交互体验。此外它作为蚂蚁图智能计算全栈解决方案的底层部分,连同图计算和统一 API 接口、一站式研发平台为实现丰富的图应用提供数据、算力和平台支撑。


目前,蚂蚁更多关注成熟的金融场景,比如风控、审计等。不过林恒也认为,图数据库具备的通用性可以在智能制造、CRM 等其他场景大显身手。同时持续关注图生态、行业标准等,其主导发起的全球首个金融图数据库测试基准 LDBC FinBench 已于今年 6 月正式发布,为金融行业提供了一个量化的基准测试工具。


图技术一直在进步,并正在思考大模型时代如何演进


在蚂蚁集团等业界探索图智能与大模型融合创新的同时,学界和科研机构也在推进图技术向前发展,寻找与大模型的契合点。


我们知道,任何数据都绕不开数据库管理系统(DBMS),图数据亦然。根据知名数据库流行度排行网站 DB-Engines 的统计,自 2013 至 2022 年,图数据库管理系统的受欢迎程度增长比任何其他数据库类别都快。图已经无处不在,但面临扩展性、可视化和查询语言等方面的挑战,学界研究的图与实际使用中的也存在脱节。这些都是流图(Straming Graph)类型兴起的原因。


对于图而言,加拿大滑铁卢大学教授 M. Tamer Ozsu 解释称,流意味着无界和高速度,流图也不等同于动态图。流数据不是静止的,而是流入一个系统,比如流音乐或流视频,这类系统被称为数据流系统(DSS)。DSS 与传统 DBMS 的最大区别在于瞬态数据可以通过持续查询生成连续的结果。数据流处理系统(DSPS)可能无法提供全部的 DBMS 功能,但几乎都具备扩展功能。


M. Tamer Ozsu


对于流图,目前可以应用在电子商务欺诈检测(如信用卡欺诈)和网络入侵检测(如 DOS 攻击)。流图计算模型一方面是连续的,需要处理每条边以及线性空间;另一方面呈窗口化,使用窗口来批处理边缘。流图工作负载表现在两个方面,一是图查询,每个查询访问图的一部分。二是图分析,每个查询访问整个图。


如 M. Tamer Ozsu 教授最后所言,流图真实存在于现实生活的应用中,如实时决策。不过他也认为,我们并没有对流图面临的挑战(比如流的无界性)给予足够的重视。因此可以说,从静态图到流图,整个领域目前是开放的。


除了图自身的演进之外,在图发挥重要作用的知识图谱(KG)领域也迎来新的技术变革时刻。那就是在大模型时代,知识图谱如何把握新机遇并迎战新挑战。


对此,浙江大学计算机学院教授陈华钧指出,知识图谱是图智能的重要支撑技术。随着 ChatGPT 的兴起,人们开始关心知识图谱与大模型的关系。二者都是表示和处理知识的方法,只是在可解释性、知识类型和可计算性上存在差异。自然语言可以被人类理解,但不易于计算,催生了较容易计算处理的知识图谱。大模型虽易于计算处理,但完全不可理解,导致它们面临知识谬误、幻觉等问题。


这时出现一个值得深思的问题,大模型为了易于计算所付出的代价能不能通过知识图谱来弥补?陈华钧认为二者可以融合共同发挥作用。


一方面是大模型知识栈中的知识图谱,它通过知识增强和结构增强(引入不同类型的结构信号、从外部知识库检索)、知识图谱结合提示学习、知识编辑、思维链结构化、工具调用与增强、可控内容生成等方式,分别在大模型的预训练、适应与调整、应用与交互三个阶段发挥作用,有效提升模型训练以及对下游任务的泛化能力。


另一方面是知识图谱栈中的大模型,它有助于解决传统的知识图谱问题。GPT 等大模型具备较强的指令驱动型图谱构建和泛化抽取能力,对比传统图谱构建优势明显。此外利用结构化知识大模型可以执行知识图谱等结构化知识的逻辑查询、问答等操作。在推理时,大模型既可以作为知识图谱推理的自然语言交互接口以增强后者,也能将自身具备的推理与知识图谱推理实现交互增强。


陈华钧


在陈华钧看来,大模型技术的发展代表了 AI 表示和处理知识能力的大幅提升。虽然会对知识图谱带来冲击,但随着其与语言模型的深层次融合,未来可能演进出一个全新的知识图谱技术方向。相较于表示知识有限的序列结构的自然语言,包含图的结构化描述更易于描述客观世界。因此,相对于大模型(LLM)而言,他认为我们更需要可以处理各种知识表示结构的大型知识模型(LKM)。


在知识图谱与大模型的「互补共进」之外,聚焦于某个领域的图预训练大模型已经开始崭露头角。之江实验室图计算中心副主任陈红阳展示了面向生物制药领域的朱雀图预训练大模型,其潜在应用方向包括药物分子生成、药物性质预测、药物结构预测等。


不过想做生物制药 GPT 谈何容易,面临着很多挑战,比如如何应对生物领域的非欧结构数据、如何解决图神经网络过平滑和数据标签稀疏问题。图计算中心见招拆招,一一解决对应的问题,最终完成模型训练。整个大模型的训练很难,需要不断尝试。他们采取并行策略,已经进行了 128 张 DCU 卡的稳定性试验。目前正在扩展至 1024 张 DCU 卡,相应的端到端平台也将开源。


同时,之江朱雀图计算平台面向科学计算领域,尤其是天然拥有与图关联数据的计算育种、生物制药和量子化学。作为一站式平台,它在计算引擎、图存储、软硬件适配、计算资源等多方面都做了优化。陈红阳重点介绍了一些前沿图学习算法,其中自研孪生图神经网络 PSG 算法刷新国际顶级图学习榜单 OGB 挑战赛记录。此外基于平台在药物知识图谱、计算制药、高能物理、量子图机器学习等领域均有应用与创新。


陈红阳


展望未来,陈红阳希望围绕图与科学计算(即 Graph4SCI)进一步探索,通过深入优化把软硬件协同和异构系统计算做得更好,争取实现更多的国产软硬件适配和算力加速。同时继续深耕图计算技术及气候、地理、生物和量子化学等领域应用,通过与更多企业、高校和科研机构共享数据、平台和算力,推动图智能在科学研究中进一步发展。


以上种种,我们可以看到,无论是知识图谱还是图计算,图技术一直在更迭变化之中,以适应不同科研领域及多样化应用场景的需求。更显著的一点是,人们已经开始思考如何将图与大模型融合,并付诸行动,从而能够把握住大模型引领的这股 AI 技术浪潮。


图智能 + 大模型:未来的路还很长


此次论坛出现了很多新的概念,比如大图模型、图预训练大模型以及大型知识模型等。我们从中可以看到这样一种趋势,自 ChatGPT 以来,包括图计算在内的很多技术领域或许都无法回避与大模型的融合研究。只有把握住这一技术奇点,才更有可能在原有技术范畴内进行革新,更高效地赋能业务实践。


可以预见,未来大模型和图智能技术结合的更多可能性将会被逐渐挖掘出来。正如陈文光所言,二者之间的关系是当前最重要的问题。在这个非常值得探索的发展方向上,需要包括蚂蚁在内的更多业界先行者持续创新图与大模型融合技术、构建平台、建设更广泛的生态。


未来的路虽然漫长,但对于蚂蚁来说,已经走出了领先的一步。相信未来大图模型应用的场景会越来越多,图智能领域也将一步步迈向自己的 AGI 时刻。


参考文献:

https://arxiv.org/pdf/2308.14522.pdf

https://www.gartner.com/cn/newsroom/press-releases/gartner_2021_


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com