Twitter、Stack Overflow:用我数据训练ChatGPT类产品得



打不过就加入!

继去年12月Stack Overflow称ChatGPT生成的答案正确率非常低并决定宣布临时封禁ChatGPT之后,其开始以另一种身份加入这场AI竞赛中。

据外媒Wired报道,开发运行ChatGPT和DeLL-E等“病毒式” AI工具系统可能会使得背后的公司如OpenAI花费数十亿美元,而StackOverflow正计划让这笔费用变得更高一些,其希望对使用自己平台数据进行训练的AI公司收费。

值得注意的是,现如今和Stack Overflow有着类似想法的公司也不在少数, 社交媒体Twitter、新闻社区Reddit等也正有此意,在各方「画地为牢」之际,谁将为大模型的训练买单也成为行业内关注的焦点。


大模型背后的大数据从何而来?

众所周知,ChatGPT、GPT-4、Google Bard、Bing Chat、LLaMA等AI模型都需要基于大量数据集进行训练。

然而,数据从何而来,这些模型背后的开发商OpenAI、Google、Meta虽然从未正面解释过这一问题,但是据《华盛顿邮报》的一项调查显示,其中大部分是从互联网上抓取的。

为了验证这一点,《华盛顿邮报》分析了Google的C4数据集,其中包含了1500万个网站内容的快照,它也被用来训练Google T5、Facebook的LLaMA模型。

通过与艾伦人工智能研究所的研究人员合作,最终他们发现此数据集主要来自新闻、娱乐、软件开发、医药和内容创作等多个行业的网站,覆盖收集来自世界各地发布的专利文本的patents.google.com、维基百科、仅供订阅的数字图书馆(scribd.com)、Medium,以及Stack Overflow、Reddit等平台也在其中。

来自这些网站的数据显然对AI模型公司而言非常具有价值,他们可以通过互联网成千上万的信息源,根据参数训练他们的大型语言模型(LLM),从而成功进行自然语言处理(NLP)。


Stack Overflow反向抵制AI模型

Stack Overflow作为全球知名的编码论坛,为开发者提供协作与交流的环境,也是程序员讨论编码问题的主要聚集地。当前,市面上很多的AIGC都支持辅助编码、能够在理解用户提出的编码问题基础上提供生成式代码、甚至也可以捕捉Bug以及Debug,而大模型之所以拥有这些能力,也有大量相关编码问题与数据集的支撑。

不过,随着ChatGPT等产品的到来,对老牌Stack Overflow这样的平台带来了巨大的冲击。在今年早些时候,也有媒体报道,Stack Overflow惨遭程序员抛弃,其网站访问量与搜索量急剧下降。

根据营销平台Semrush的流量监测工具显示,近一年来,Stack Overflow的访问量持续下滑。


另一方面,以Stack Overflow、ChatGPT、GitHub为关键词,据GoogleTrends显示,Stack Overflow的搜索量垫底。


与之形成鲜明对比的是,很多大模型产品已经走向了商业化,如微软对其代码生成器GitHub Copilot的收费高达19美元/人/月、OpenAI推出了每月20美元的ChatGPT Plus服务。

在这种趋势之下,Stack Overflow想要绝地反击,便也不足为奇。据Wired报道,Stack Overflow CEO Prashanth Chandrasekar表示,“Stack Overflow计划最快在今年年中开始向开发大模型的开发者、公司收费,付费的群体才可以获得其服务中的5000万个问题和答案。”

为此,Prashanth Chandrasekar也在Stack Overflow的官方博客上特地发表了一篇主题为《社区是人工智能的未来》的长文,分享道:

如今,建立在尖端大语言模型 (LLM) 之上的复杂聊天机器人只需一张在餐巾纸上画的草图照片即可为网站编写功能代码。他们可以回答有关如何构建应用程序的复杂查询,帮助用户调试错误,并在几分钟内在不同语言和框架之间进行翻译。

在Stack Overflow,我们不得不坐下来问自己一些尖锐的问题。当用户可以像其他人一样轻松地向聊天机器人寻求帮助时,我们在软件社区中扮演什么角色?我们的业务如何适应,以便我们继续授权技术人员学习、分享和成长?

在Prashanth Chandrasekar看来,「人工智能系统的核心是建立在丰富的人类知识和经验之上。他们通过数据训练来学习——例如开源代码和tack Overflow问答。」

基于此,Stack Overflow想要推出Stack Overflow for Teams服务,决定向使用其数据的公司寻求赔偿,这属于维持社区蓬勃发展战略的一部分,无可厚非。


Reddit、Twitter
同样想对数据收费!

无独有偶,想要强硬地拒绝AI模型开发商“白嫖”的平台也不止Stack Overflow一家。

就在几天前,美国知名论坛社交平台Reddit宣布,它将从6月开始向一些人工智能开发者收取访问其自身内容的费用。Reddit表示,API访问收费的细节仍在敲定,价格预计在未来几周内公布。

除此之外,马斯克掌管下的Twitter也欲对大模型公司发起反击。在3月26日,Twitter推出了自家最新的API价格结构,包含免费版、基础版以及企业版。

  • 免费版:只有使用Twitter登录的访问权限,以及每月仅提供1,500个发帖请求。


  • 基础版:每月100美元,可以获得50,000个发帖请求和10,000个阅读请求。


  • 企业版:并没有列出具体的价格。但是承诺提供“满足您和您客户特定需求的商业级访问”以及“[来自]专门客户团队的托管服务。” 不过,据外媒Platformer此前报道,企业版每月的费用可能高达42,000美元。



这意味着如果企业想要接入Twitter API,用上面的数据来训练,需要付出一笔不菲的费用。

与此同时,马斯克还打算追究旧账,其认为OpenAI以及微软在AI模型方面的成功,离不开Twitter数据的贡献。为此,在上周微软宣布旗下Smart Campaigns广告服务不再支持Twitter之际,马斯克便留下威胁之语,称「他们使用Twitter数据进行非法训练。(现在是)诉讼时间。」



StackOverflow:
不是针对全员,只是针对大公司

在Stack Overflow CEO Prashanth Chandrasekar看来,"为LLMs推波助澜的社区平台绝对应该为他们的贡献得到补偿,这样像我们这样的公司就可以重新投资回我们的社区,继续使它们蓬勃发展"。

Chandrasekar认为,潜在的额外收入对确保Stack Overflow能够不断吸引用户和维持高质量的信息至关重要。他认为这也将有助于未来的聊天机器人迭代,毕竟大模型想要与时俱进,必须要"在一些最前沿的知识上训练。而Stack Overflow需要不断创造新的知识"。

但是,将有价值的数据圈起来也可能阻止一些人工智能的训练,并减缓LLMs的改进。Chandrasekar表示,开放适当的许可只会有助于加速高质量LLM的发展。

不过,据Wired透露,此次Stack Overflow和Reddit并非是想向所有AI模型公司“发难”,其还是会将继续向一些人和公司免费授权数据。

Chandrasekar表示,“Stack Overflow只希望从本着商业目的而开发LLM的公司那里得到报酬。当人们开始对建立在我们这样社区之上的产品收费时,这就是不公平使用的地方。"

另外,据《纽约时报》报道,Reddit首席执行官Steve Huffman称,他不想给世界上最大的公司提供免费服务。他表示,「抓取Reddit,产生价值,却不把这些价值返还给我们的用户,这是我们有意见的地方。」


AIGC、大模型的下一步:
该如何规范使用?

为此,不少业界人士认为,Stack Overflow、Reddit对其聊天数据进行收费是似乎已经成为行业一种发展趋势,这也必然会对上游AI大模型厂商带来一定的影响。

毕竟每个AI模型开发商无不在寻求降低开发大模型的巨大成本,然而,如今他们不仅需要为巨大的算力付出代价,也还要为无法计算的数据量来买单。截至目前,OpenAI、Meta、Google等公司均未予置评。

不过,继续想想,如果Stack Overflow、Reddit等平台索取费用成功,对于在其平台上免费撰写问题和答案的普通用户而言,似乎也有理由要分一杯羹了。

这一场围绕大模型、AIGC 训练引发的规范、付费问题的讨论也将愈演愈烈。

参考:
https://www.wired.com/story/stack-overflow-will-charge-ai-giants-for-training-data/
https://www.zdnet.com/article/stack-overflow-joins-reddit-and-twitter-in-charging-ai-companies-for-training-data/
https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/

来源:CSDN(ID:CSDNnews)整理 | 屠敏

免责声明:所载内容来源于互联网,微信公众号等公开渠道,我们对文中观点持中立态度,本文仅供参考、交流。转载的稿件版权归原作者和机构所有,如有侵权,请联系我们删除。


end



近期更多精彩文章

点击查看↓↓


  • 阿里版ChatGPT突然官宣!我们用16个提问,火速进行了测评……

  • 王慧文的光年之外开张,阿里知乎等四家大模型抢开发布会

  • ChatGPT平替「小羊驼」Mac可跑!2行代码单GPU,UC伯克利再发70亿参数开源模型


您的分享、留言、点赞、在看
是对我们最大的支持

本文来自AI新探索