重磅内幕：OpenAI即将开源新模型！开源社区的繁荣，全靠大厂「施舍」？

投稿号 • 2023年5月16日 18:30 • 热点 • 阅读 142

【新智元导读】OpenAI再次开源，是科技大厂的「施舍」还是开源社区的「救赎」?

就在刚刚，根据The Information的最新爆料，OpenAI即将发布一款全新的开源大语言模型。

虽然目前还不清楚，OpenAI是不是打算利用即将开源的模型，来抢占Vicuna或其他开源模型的市场份额。

但几乎可以肯定的是，新模型的能力大概率无法与GPT-4甚至GPT-3.5相竞争。

毕竟，270亿美元的估值也决定了，OpenAI最先进的模型将会被用于商业目的，尽管前两个版本的GPT都是开源的。

对此，OpenAI的发言人没有回应置评请求。

羊驼家族开源大爆发

十天前，谷歌的一份内部文件泄漏。在这篇名为《我们没有护城河，OpenAI也没有》的文章里，作者沉痛控诉了开源对于谷歌和OpenAI的沉重打击。

的确，在这次军备竞赛中，谷歌和OpenAI似乎都不是赢家，因为开源社区正在吃掉属于它们的「利益」。

ChatGPT一出，引爆了全球的LLM革命。然而，OpenAI不Open，很多公司和开发者只能看着干着急。

此时，meta站出来发布了LLaMA，为全世界开发者谋了一把福利。

本来呢，meta承诺的是LLaMA会对非商用的研究用例开源，可是谁能想到，仅在发布一周后，LLaMA的权重忽然在4chan上泄漏了，瞬间就引发了数千次下载。

这场「史诗级泄漏」，直接让开源LLM领域变了天。短短几周内，各种ChatGPT平替就以迅雷不及掩耳之势呈爆炸式增长。

Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat……简直堪称是「羊驼家族」大爆炸。

其实，早在羊驼之前，开源模型就曾破灭过OpenAI的野心。

当时，刚刚发布的Dall-E2凭借着惊艳的文生图效果，在网上引起了不小的轰动。

然而，当OpenAI还在试图兜售API时，一款开源替代突然横空出世——Stable Diffusion。

随着Stable Diffusion的迅速崛起，Dall-E2也很快就被开发者们抛在了脑后。

开源大模型，要颠覆硅谷大厂?

UC Berkeley的计算机教授Ion Stoica正是使用meta的研究开发Vicuna的学者之一。

为了提高Vicuna的能力，Stoica和同事们正在努力增加模型中的计算数量，这将有助于处理涉及推理的任务，比如写代码。

开发Vicuna的是一个伯克利的团队，每年的预算为数百万美元，其中大约50万美元来自包括微软、谷歌和亚马逊在内的上市公司。

UC Berkeley的计算机教授Ion Stoica表示，现在的免费AI模型，在性能上已经「相当接近」谷歌和OpenAI的专有模型了，毫无疑问，大多数开发者最终都会选择免费模型。

一方面，开源模型可以让开发者使用自己的数据来解决特定的问题。

另一方面，像Vicuna这种模型的训练成本甚至可以低至几百美元，而且还不用向大厂支付昂贵的使用费。

https://lmsys.org/blog/2023-03-30-vicuna/

如果Stoica的看法正确，开源AI必将颠覆谷歌、OpenAI、微软等出售专有模型使用权的大厂的商业计划。

Vicuna的质量和开源AI的寒武纪大爆发，让谷歌工程师Luke Sernau警告同事，谷歌在努力追赶OpenAI时，太过关注专有软件了。

这份备忘录迅速在整个行业内引起了共鸣——即使Sernau或许高估了开源AI的能力，低估了它们的成本和风险，但大多数从业者都同意，meta非常有可能从中获益。

比如，meta在内部会使用AI模型进行内容推荐和广告定位，当开发者改进meta的模型时，meta就可以把这些改进纳入自己内部的AI。

meta CEO小扎对此筹谋已久。

4月，在他与分析师的一次电话会议中，他曾这样谈到公司的策略——

谷歌倒是没有完全采用专有的方式来处理AI软件。

早在2020年，谷歌就发布了一个开源语言模型T5，让开发者可以构建能够执行翻译和摘要任务的软件。随后，谷歌又发布了一个更先进的Flan-T5。

但是，根据Stoica和其他从业者的说法，meta发布的软件能够在谷歌模型的基础上做出显著改进，这让开发者选择meta模型的可能性大大增加了。

不过，Stoica表示，谷歌在开源软件方面仍有两个优势。

1. 如果谷歌利用其不向外部开放的用户数据，模型在某些专业领域（如内容推荐）的表现可能会更好。

不过，谷歌发言人表示，公司并没有在现有用户数据上训练其基础模型。

2. 搜索公司在管理大规模计算机基础设施方面的专长，意味着它能够以更低的成本来运行模型，包括为云客户提供服务。

与此同时，OpenAI在收集数百万人与ChatGPT互动方式的数据上，已经抢得了先机，这会更有助于OpenAI改进AI软件，更不用提它和微软的合作协议。

开源的繁荣，是大厂的「施舍」?

不过，这种建立在开源基础上的繁荣，是不稳定的。

目前大多数的开源，仍然依赖于资金雄厚的大公司发布的巨型模型。如果OpenAI和meta决定关闭业务，繁荣的开源社区，可能就会变得萧条。

比如，现在许多开源平替是基于meta的LLaMA构建的。

而其他模型使用的是名为Pile的大型公共数据集，由开源非营利组织EleutherAI整理。

EleutherAI之所以存在，是因为OpenAI的开放性意味着一群开发者能够逆向了解GPT-3是如何制作的，然后在空闲时间里创建自己的模型。

但一切都可能改变。

OpenAI已经不再Open，meta也在考虑限制开源，防止初创公司利用开源代码做坏事。

meta AI的执行董事Joelle Pineau表示，现在向外部人员开放代码是正确，但他并不确定，在未来五年内meta还会采用相同的策略。

如果这种Close的趋势继续下去，那么不仅开源社区会被抛弃，下一代的AI突破也会重新回到那些最大、最不差钱的AI实验室手中。

显然，AI大模型的制造和使用方式的未来，正处于一个十字路口。

如果OpenAI曾经吝啬，就不会有如今的开源盛况

其他人也在权衡，这种开源的自由竞争带来的回报更大，还是风险更大。

就在meta AI发布LLaMA的同时，Hugging Face推出了一个门禁机制，下载平台上的模型之前，用户必须申请访问并获得批准，这是为了限制那些有合法理由的人。

「我并不是一个开源的布道者，」Hugging Face的首席伦理科学家Margaret Mitchell说。「我能看到不开源的意义。」

大模型广泛使用的一个弊端，就是可能造成AI色情产品的泛滥。

Mitchell曾在谷歌工作，并创立了AI道德团队，她对于模型被滥用的风险十分了解。因此，她赞成meta AI以有控制的方式发布模型。

同时，OpenAI也在关闭水龙头。GPT-4发布时，并没有公布架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法等细节，理由是「鉴于像GPT-4这样的大规模模型的竞争格局和安全影响」。

这种限制反应了OpenAI心态上的变化。联合创始人兼首席科学家Ilya Sutskever表示，OpenAI过去的开放性是一个错误。

OpenAI的政策研究员Sandhini Agarwal说:「以前，如果某样东西是开源的，也许一小群修理工会关心。但现在，整个环境已经改变。开源真的可以加速发展，导致竞争。」

时间倒回三年前，如果OpenAI在公布GPT-3的细节时，就秉持着同样的原则，那就不会有EleutherAI的出现，也就不会有蓬勃的开源创新。

今天，EleutherAI在开源生态系统中发挥着举足轻重的作用。Pile被用来训练多个开源项目，包括Stability AI的StableLM。

但随着GPT-4、5、6被锁死，开源社区可能会再次被落在几家大公司后面。

他们会困在上一代模型中，如果想取得进步，只能闭门造车。

参考资料:

https://www.technologyreview.com/2023/05/12/1072950/open-source-ai-google-openai-eleuther-meta/

https://www.theinformation.com/articles/open-source-ai-is-gaining-on-google-and-chatgpt

声明：本文内容整理自网络，观点仅代表原作者本人，投稿号仅提供信息发布服务。如有侵权，请联系管理员。

0 0

关于作者

投稿号

36.9K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

Adobe Premiere Pro 更新正式加入 AI 驱动的基于文本的视频编辑及其他功能

上一篇 2023年5月16日 18:30

小米Redmi Book 14硬件一步到位：LPDDR5 PCIe4.0 SSD

下一篇 2023年5月16日 18:30

热点
高速免费通行时间2021（高速免费通行时间2021全年）
2021年什么时候免高速费根据国家相关法律政策，春来自节、清明节、劳动节、国庆节期间高速公路通常是免费的。根据国家发布的《重大节假日免收小型客车通行费实施方案》，免费通行时间范围为春节、清明节、劳动光啊农节、国庆节等4个国家法…
投稿号
热点 2023年10月9日
1090
热点
比较快的浏览器(最快的浏览器排名)
浏览器哪个好用速度快 1、搜狗浏览器搜狗浏览器界面虽然很普通，但是启动速度快，浏览速度也不错；高速下载技术，下载软件的速度也很快；此外，搜狗浏览器推出网购打假功能，能够智能提取网友购物真实评价。通过大数据展现商品历史价格，让用户放…
投稿号
热点 2023年9月26日
1040
热点
沉浸式体验郑州暴雪网友：好像进入了童话世界
郑州市近日突遭罕见的大雪侵袭，整个城市瞬间银装素裹，宛如冬日仙境。市民们纷纷走出家门，沉浸在初雪的喜悦中，与亲朋好友共度这场冬日限定的浪漫时光。大雪纷飞，雪花在空中翩翩起舞，落在屋顶、阳台、街道上，将整个城市覆盖成一片银白色的世…
投稿号
热点 2023年12月11日
1310
华为为什么不走上市之路（华为上市了吗）

中国上市公司协会公布的数据显示，截至2022年4月30日，我国境内上市公司的数量已经达到了4815家，上市公司总市值达74.03万亿元。之所以会有这么多的上市公司，主要是因为，把一家公司做到上市，是很多人开公司的一大目标，也是很多…
投稿号
2022年10月14日 • 热点
1900
热点
2023博新计划评选时间
2023博新计划评选时间还没公布，申报时间：3月13日-4月5日，设站单位审核时间：4月6日-12日。博士后创新人才支持计划简称“博新计划”，是人力资源和社会保障部、全国博士后管委会新设立的一项青年拔尖人才支持计划，旨在加速培养…
投稿号
热点 2024年1月3日
1450
热点
伤停补时阶段连进两球伊朗队绝杀威尔士队
(卡塔尔世界杯)伤停补时阶段连进两球伊朗队绝杀威尔士队中新社多哈11月25日电本届世界杯赛第二轮小组赛首战25日在伊朗队和威尔士队之间展开。伊朗队在伤停补时阶段连进2球，绝杀威尔士队，保留了出线希望。时隔64年重返世界杯赛…
投稿号
热点 2022年11月26日
1440
热点
调查：63%的人担心使用生成式AI导致侵版问题
本文要点: 1.63% 的人担心使用生成式人工智能时侵犯版权问题。 2.41% 的人担心这些工具存在固有偏见。 3.83% 的人对需要跟上的工具数量感到不知所措，92% 的人不相信科技公司能够进行自我监管。投稿号（tougaoh…
投稿号
热点 2023年8月3日
1340
43岁章子怡亮相澳门电影节，大晒零赘肉好身材，完胜发福刘亦菲

43岁的章子怡和35岁的刘亦菲，代表娱乐圈两个时代的女性朋友颜值天花板。一个是顶级骨相，一个是顶级皮相。但二人同框，谁的状态更好就见仁见智了。日前，澳门国际电影节举行颁奖礼，两位女神同场斗艳，精修图看上去大家都不相上下。但现场路…
投稿号
2023年1月16日 • 热点
1390
热点
手机刷机后还是有密码怎么办（如何破解oppo手机屏幕锁）
忘记OPPO手机的锁屏密码后，多数人会选择刷机来解决问题，但是刷机后却发系统还存在一个激活密码，即OPPO账号密码，如果没有这个密码则无法进入手机桌面继续使用手机。那么遇到这种情况该怎么解决呢？其实很简单，可以尝试重置账号密码或直…
投稿号
热点 2022年10月6日
2280
KPL赛场hero久竞输KSG赢，同样是3-1，谁进S组，就看狼队如何安排

大家好，2023年KPL春季赛常规赛第一轮进入到最后的阶段，也是到了最为紧张的时刻，那就是关于晋级名额的争夺。我们都知道，在第二小组中，hero久竞与KSG之间，竞争十分激烈，在争小组最后的一个晋级名额。而恰巧他们在第四周的第一个…
投稿号
2023年4月24日 • 热点
1230

发表回复

登录后才能评论

重磅内幕：OpenAI即将开源新模型！开源社区的繁荣，全靠大厂「施舍」？

关于作者

热点推荐

发表回复