对过去一年里生成式AI相关创业的发展进行了反思和总结。文丨Web3天空之城 ID:Web3SkyCity
作者丨城主
一年前,红杉资本发表了广为传播的文章《Generative AI: A Creative New World》,吹响了向生成式AI创业进军的浪潮。今天,红杉再次发文《Generative AI‘s Act Two》,对过去一年里生成式AI相关创业的发展进行了反思和总结。前后对比,非常值得一看。原文传送:https://www.sequoiacap.com/article/generative-ai-act-two/科学家、历史学家和经济学家长期研究创新爆发的最佳条件。在生成性AI中,我们已经达到了一个现代奇迹,我们这一代的太空竞赛。这一刻已经酝酿了几十年。摩尔定律的六十年给了我们处理艾克斯浮点数据的计算马力。互联网的四十年(由COVID加速)给了我们数万亿代币的训练数据。移动和云计算的二十年让每个人的手掌中都有一台超级计算机。换句话说,几十年的技术进步积累起来,为生成性AI的飞跃创造了必要的条件。ChatGPT的崛起是点燃导火索的火花,释放出我们多年未见的创新密度和热情,可能自互联网早期以来就未见过。这种令人屏息的兴奋在“大脑谷”尤为强烈,那里的AI研究人员达到了摇滚明星的地位,黑客之家每个周末都挤满了新的自主代理和陪伴聊天机器人。AI研究人员从“车库黑客”转变为指挥数十亿美元计算的特种部队。arXiv印刷机如此多产,以至于研究人员开玩笑地呼吁暂停新的出版物,以便他们能赶上。但很快,AI的兴奋变成了近乎歇斯底里。突然间,每家公司都成了“AI副驾驶”。我们的收件箱被“AI Salesforce”、“AI Adobe”和“AI Instagram”的无差别推销塞满。1亿美元的种子轮回归。我们发现自己处于一个无法持续的筹款、人才争夺和GPU采购的狂热中。果然,裂痕开始显现。艺术家、作家和歌手挑战机器生成的IP的合法性。关于伦理、监管和即将到来的超级智能的辩论充斥着华盛顿。也许最令人担忧的是,硅谷内部开始传出一种低语,即生成性AI实际上并不实用。产品远远低于预期,用户保留率糟糕是明证。最终用户对许多应用的需求开始平稳。这只是另一个虚拟产品周期吗?AI的不满之夏让批评者欢欣鼓舞地跳起了墓葬舞,让人想起互联网的早期,那时在1998年,一位著名的经济学家宣称“到2005年,互联网对经济的影响将不会超过传真机。”毫无疑问,尽管有噪音、歇斯底里和不确定性以及不满,生成性AI已经比SaaS有了更成功的开局,仅从初创公司就获得了超过10亿美元的收入(SaaS市场花了几年,而不是几个月,才达到同样的规模)。一些应用已经成为家喻户晓的名字:ChatGPT成为了学生和开发者中产品市场契合度特别强的最快增长的应用;Midjourney成为了我们集体的创意缪斯,据报道只有十一个团队就达到了数亿美元的收入;Character使AI娱乐和陪伴普及,并创造了我们最渴望的消费者“社交”应用,用户平均在应用中花费两个小时。然而,这些早期成功的迹象并不能改变许多AI公司根本没有产品市场契合度或可持续的竞争优势,以及AI生态系统的整体繁荣是不可持续的这一现实。现在尘埃已经稍微落定,我们认为这是一个适当的时机来回顾和反思生成性AI——我们现在所处的位置,以及我们可能的前进方向。生成性AI的第一年——“第一幕”——来自技术。我们发现了一个新的“锤子”——基础模型,并释放了一波新奇应用的浪潮,这些应用是新技术的轻量级演示。我们现在认为市场正在进入“第二幕”,这将从客户的角度出发。第二幕将解决人类的问题。这些应用与第一批应用的性质不同。他们倾向于将基础模型作为更全面解决方案的一部分,而不是整个解决方案。他们引入了新的编辑界面,使工作流程更具粘性,输出更好。他们通常是多模态的。市场已经开始从“第一幕”过渡到“第二幕”。进入“第二幕”的公司的例子包括Harvey,它正在为精英律师事务所建立定制的LLM;Glean,它正在爬取和索引我们的工作空间,使生成性AI在工作中更加相关;以及Character和Ava,它们正在创建数字伴侣。与去年的地图不同,我们选择按用例而不是按模型模态来组织这个地图。这反映了市场的两个重要推动力:生成性AI从技术锤子到实际用例和价值的演变,以及生成性AI应用的多模态性质的增加。此外,我们还加入了一个新的LLM开发者堆栈,反映了公司在生产中构建生成性AI应用时所依赖的计算和工具供应商。我们的原始文章提出了一个关于生成性AI市场机会的论点和一个关于市场如何展开的假设。我们做得怎么样呢?- 事情发展得很快。去年,我们预计在我们拥有实习生级别的代码生成、好莱坞质量的视频或不带机械声音的人类语音之前,还需要近十年的时间。但是,快速听一下TikTok上的Eleven Labs的声音或Runway的AI电影节,就会明白未来已经以超光速到来。甚至3D模型、游戏和音乐也正在迅速变得优秀。
- 瓶颈在供应端。我们没有预见到最终用户的需求会超过GPU的供应。许多公司的增长瓶颈很快就不再是客户需求,而是获取Nvidia最新的GPU。长时间的等待成为常态,一个简单的商业模式出现了:支付订阅费以跳过排队,获取更好的模型。
- 垂直分离还没有发生。我们仍然相信,应用层公司和基础模型提供商之间会有分离,模型公司专注于规模和研究,应用层公司专注于产品和用户界面。实际上,这种分离还没有清晰地发生。事实上,最初成功的面向用户的应用都是垂直整合的。
- 激烈的竞争环境和现有公司的迅速反应。去年,竞争格局中有几个过度拥挤的类别(尤其是图像生成和文案写作),但总体上市场还是空白。如今,竞争格局的许多角落比机会更具竞争性。现有公司的迅速反应,从Google的Duet和Bard到Adobe的Firefly,以及现有公司最终愿意承担风险,都加剧了竞争的激烈程度。即使在基础模型层面,我们也看到客户正在建立他们的基础设施,以便在不同的供应商之间进行选择。壁垒在客户,而不在数据。我们预测,最好的生成性AI公司可以通过数据飞轮生成持久的竞争优势:更多的使用→更多的数据→更好的模型→更多的使用。虽然这在某种程度上仍然是正确的,特别是在需要非常专业和难以获取的数据的领域,但是“数据壁垒”正在摇摇欲坠:应用公司生成的数据并没有创造出无法逾越的壁垒,下一代的基础模型可能会彻底摧毁初创公司生成的任何数据壁垒。相反,工作流程和用户网络似乎正在创造更持久的竞争优势来源。
- 生成性AI是一种事物。突然间,每个开发者都在开发生成性AI应用,每个企业买家都在要求它。市场甚至保留了“生成性AI”的名称。人才流向市场,风险资本也是如此。生成性AI甚至在像“哈利·波特巴伦西亚加”或者由Ghostwriter演唱的模仿德雷克的歌曲“心在我袖子上”的病毒式视频中成为了流行文化现象,这首歌已经成为了排行榜上的热门歌曲。
- 第一个杀手级应用出现了。众所周知,ChatGPT是最快达到1亿月活跃用户的应用,而且它在短短6周内就自然而然地做到了这一点。相比之下,Instagram花了2.5年,WhatsApp花了3.5年,YouTube和Facebook花了4年才达到这个用户需求水平。但是ChatGPT并不是一个孤立的现象。Character AI的深度参与(平均每次会话2小时),Github Copilot的生产力效益(效率提高55%),以及Midjourney的盈利路径(数亿美元的收入)都表明,第一批杀手级应用已经到来。
- 开发者是关键。像Stripe或Unity这样的开发者优先公司的核心洞察是,开发者的接入可以打开你甚至无法想象的用例。在过去的几个季度里,我们接到了从音乐生成社区到AI红娘到AI客户支持代理的所有提案。
- 形态正在演变。AI应用的第一版大多是自动完成和初稿,但这些形态现在正在变得更复杂。Midjourney引入的摄像头平移和填充是生成性AI优先用户体验变得更丰富的一个很好的例子。总的来说,形态正在从个人到系统级的生产力,从人在循环到执行导向的代理系统进行演变。
- 版权、道德和存在的恐惧。这些热门话题的辩论一直在进行。艺术家、作家和音乐家的意见分歧,有些创作者对其他人利用衍生作品获利感到正当的愤怒,有些创作者接受了新的AI现实(Grimes的利润分享提议和James Buckhouse对成为创意基因组一部分的乐观态度就是例子)。没有一个初创公司想成为最终的Spotify的Napster或Limewire(感谢Jason Boehmig)。规则是模糊的:日本已经宣布用于训练AI的内容没有IP权利,而欧洲已经提出了重手的规定。
生成性AI并不缺乏用例或客户需求。用户渴望AI能让他们的工作更轻松,他们的工作产品更好,这就是为什么他们会以创纪录的速度涌向应用(尽管缺乏自然分发)。但是,人们会坚持使用吗?并不真正如此。下面的图表比较了AI首发应用与现有公司的第一个月移动应用的保留情况。用户参与度也不尽如人意。一些最好的消费公司有60-65%的日活跃用户/月活跃用户(DAU/MAU);WhatsApp的比例是85%。相比之下,生成型AI应用的中位数只有14%(以Character和“AI伴侣”类别为显著例外)。这意味着用户还没有在生成型AI产品中找到足够的价值,使他们每天都使用。简而言之,生成型AI的最大问题不是找不到用例、需求或分发,而是证明其价值。正如我们的同事David Cahn所写的,“2000亿美元的问题是:你打算用所有这些基础设施做什么?它将如何改变人们的生活?”建立持久业务的道路将需要解决保留问题,并为客户创造足够的价值,使他们坚持并成为日常活跃用户。让我们不要绝望。生成型AI仍处于其“尴尬的青少年时期”。有一些闪光点,当产品未能达到预期时,失败通常是可靠的、可重复的和可修复的。我们的工作切实在眼前。创始人正在努力进行提示工程、微调和数据集策划,以使他们的AI产品*好*。他们正在逐块建立起闪亮的演示,转化为整体产品体验。与此同时,基础模型基质继续充满研究和创新。随着公司找出创造持久价值的路径,正在形成一个共享的剧本。我们现在有了共享的技术来使模型有用,以及将塑造生成型AI第二幕的新兴UI范例。•新兴的推理技术,如思维链、思维树和反射,正在提高模型执行更丰富、更复杂的推理任务的能力,缩小了客户期望和模型能力之间的差距。开发人员正在使用像Langchain这样的框架来调用和调试更复杂的多链序列。•像RLHF和微调这样的迁移学习技术变得更加易用,尤其是最近GPT-3.5和Llama-2的微调可用性,这意味着公司可以将基础模型适应到他们特定的领域,并从用户反馈中改进。开发人员正在从Hugging Face下载开源模型,并微调它们以实现优质性能。•检索增强生成正在引入关于业务或用户的上下文,减少幻觉,增加真实性和实用性。像Pinecone这样的公司的向量数据库已经成为RAG的基础设施支柱。•新的开发者工具和应用框架正在为公司提供可重用的构建块,以创建更先进的AI应用,并帮助开发者评估、改进和监控生产中的AI模型的性能,包括像Langsmith和Weights & Biases这样的LLMOps工具。如Langsmith 和 Weights & Biases•AI的基础设施公司,像Coreweave、Lambda Labs、Foundry、Replicate和Modal这样的AI首发基础设施公司正在解构公共云,并提供AI公司最需要的东西:大量的GPU,价格合理,随需应变,高度可扩展,具有良好的PaaS开发者体验。总的来说,这些技术应该能够在基础模型同时改进的情况下,缩小模型的期望与现实之间的差距。但是,使模型变得出色只是一半的战斗。生成型AI首发用户体验的剧本也在演变:•生成型界面。基于文本的对话用户体验是LLM的默认界面。渐渐地,新的形式因素正在进入武器库,从Perplexity的生成用户接口到Inflection AI的新模式,如人声。•新的编辑体验:从Copilot到导演模式。随着我们从zero-shot到询问和调整(感谢Zach Lloyd),生成型AI公司正在发明一套新的旋钮和开关,这些开关看起来与传统的编辑工作流程非常不同。Midjourney的新平移命令和Runway的导演模式创造了新的像相机一样的编辑体验。Eleven Labs正在通过提示使操纵声音成为可能。•越来越复杂的代理系统。生成型AI应用越来越不仅仅是为人类审查的自动完成或初稿;他们现在有了解决问题、访问外部工具和代表我们解决问题的自主权。我们正在稳步从0级进步到5级自主性。•系统范围的优化。而不是嵌入到单个人类用户的工作流程中,使该个体更有效率,一些公司正在直接解决系统范围的优化问题。你能否挑选出一部分支持票据或拉取请求,并自主解决它们,从而使整个系统更有效?当我们接近边界悖论,当变压器和扩散模型的新奇性消退时,生成型AI市场的性质正在演变。炒作和闪光正在让位于真实的价值和整体产品体验。在Sequoia红杉,我们仍然坚定地相信生成型AI。这个市场起飞的必要条件已经积累了几十年,现在市场终于来了。杀手级应用的出现和最终用户需求的巨大规模加深了我们对市场的信念。然而,Amara定律——我们倾向于在短期内高估一项技术的效果,在长期内低估其效果的现象——正在发挥作用。我们在投资决策中运用耐心和判断力,特别关注创始人如何解决价值问题。公司正在使用的共享剧本,以推动模型性能和产品体验的边界,使我们对生成型AI的第二幕充满了乐观。(首图来源:图虫)
