全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容

根据人工智能内容检测器 Originality.AI 的最新数据,全球前 1000 个网站中有近 20% 阻止爬虫机器人收集网络数据用于 AI 服务。

全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容

在缺乏明确法律或监管规定管理 AI 使用版权材料的情况下,大小不一的网站都自行采取措施。

OpenAI 于 8 月初推出了其 GPTBot 爬虫,并宣布所收集到的数据「可能被用于改进未来模型」,承诺排除付费内容并指导网站如何禁止该爬虫。随后,包括《纽约时报》、路透社和 CNN 等知名新闻网站开始阻止 GPTBot,并且许多其他网站也效仿。

根据 Originality.AI 的数据,在全球前 1000 个最受欢迎的网站中,阻止 OpenAI ChatGPT bot 的数量从 8 月 22 日 9.1% 增加到 8 月 29 日 12%。封锁 ChatGPT bot 的最大网站是亚马逊、Quora 和 Indeed。数据显示,更大型的网站更有可能已经封锁了 AI 爬虫机器人。

Common Crawl Bot 是另一个定期收集某些 AI 服务使用的 Web 数据的爬虫程序,在全球前 1000 个顶级网站上被屏蔽率为 6.77%。

任何您可以从 Web 浏览器访问的页面都可以被爬虫程序「抓取」,它们就像浏览器一样运行,但将材料存储在数据库中而不是向用户显示。

这就是搜索引擎如 Google 收集信息的方式。网站所有者一直有能力发布指令,告诉这些爬虫程序离开他们的网站,但合作完全是自愿性质,并且恶意操作者可以忽略这些指令。

谷歌和其他网络公司认为其数据爬虫工作属于合理使用范围,但许多出版商和知识产权持有人长期以来一直反对此做法,并且该公司因此面临了多起诉讼。大型语言模型和生成式 AI 的兴起使得这个问题重新受到关注,因为 AI 公司派出自己的爬虫程序收集数据以培训其模型并提供聊天机器人所需素材。

自从 Google 和其他搜索网站将用户引导至其支持广告的网站后,一些出版商至少认为允许搜索爬虫程序进入其网站具有某种价值。然而,在 AI 时代中,出版商更积极地阻止爬虫程序进入其网站,因为暂时没有将其数据交给 AI 公司的好处。许多媒体公司目前正在与 AI 公司就以费用向其授权数据进行谈判,但这些谈判还处于早期阶段。

在过去 20 年中被 Google 拿走了一些东西的媒体机构对 OpenAI 等快速商业化的 AI 服务持敌意和「我们不会再上当」的态度。据 The Information 报道,OpenAI 预计在未来一年内将带来超过 10 亿美元的收入。

新闻媒体公司正在努力找到平衡点,在接受和抵制人工智能之间挣扎。一方面,该行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。

另一方面,在人们对新闻媒体公司的信任度处于历史低点之际,将人工智能引入新闻编辑室的工作流程,会带来具有挑战性的道德问题。

而如果太多的网络阻碍人工智能爬虫,它们的所有者可能会发现更难改进和更新他们的人工智能产品——而且好的数据也变得越来越难找到。

Originality.AI 的发现显示,前 1000 个网站中 GPTBot 的屏蔽率每周增加约 5%。

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

投稿号的头像投稿号注册会员
上一篇 2023年9月3日
下一篇 2023年9月3日

热点推荐

  • 上海罗森口罩以次充好被罚!去年曾因同样问题被罚没60万

    近日,上海市市场监督管理局公布的行政处罚信息显示,上海罗森便利有限公司(简称“上海罗森”)因以不合格的口罩产品冒充合格产品,被该局机场分局罚款6.43万余元,并没收违法所得3.46万余元。南都记者注意到,12月21日中午,上海罗森…

    2022年12月22日
    690
  • 豆瓣网络小说评分榜(豆瓣网络小说排名)

    豆瓣评分9.8最高的小说 豆瓣评分8最高的小说是《今萍嵋》。《今萍嵋》的作者是暮兰舟,评分8。小说简介:一座城市,浮观六朝金粉,一个悍女,书写大明传奇,平生不识沈四娘,妄称悍女也枉然。 《人性的弱点》作者:戴尔·卡耐基(DaleC…

    2023年11月10日
    290
  • 管理者必读(团队管理的七个要点)

    小公司靠老板、大公司靠团队、超级公司靠智囊团。公司能不能做大,关键看团队够不够强。 纵观现在的商业巨头,哪家不是有一个传奇团队在支撑,马云的“十八罗汉”、史玉柱的“四个火枪手”,小米八大罗汉早就成为团队故事中的一段佳话。马云早期创…

    2022年10月13日 热点
    860
  • 西贝货是什么意思(西贝货是什么意思韩文)

    大家在影视剧中,尤其是一些古装剧了,可能有的时候会听到一个名词“西贝货”,不少朋友对此感到好奇,这个西贝货是什么意思呢?西贝货这个词是怎么来的呢?下面小编就给大家介绍下西贝货的相关内容,感兴趣的小伙伴下面就和小编来看看吧。 西贝货…

    2023年8月16日
    430
  • 蛋糕的尺寸是英寸还是寸(蛋糕的尺寸)

    今天小编给各位分享蛋糕的尺寸的知识,其中也会对蛋糕的尺寸是英寸还是寸进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧! 蛋糕尺寸有什么? 6英寸蛋糕:2-3人左右食用。 8英寸蛋糕:3-5人食用。 12英寸蛋糕…

    2023年5月13日
    510
  • 实现婚俗改革“零彩礼”目标难在何处

    当下,在一些地区特别是农村地区,婚俗“礼节”名目繁多,相互攀比。彩礼钱动辄十几万元甚至数十万元,结婚当天临时加价“下车费”“改口费”这类新闻时有报道,不少家庭因此背上了沉重的经济负担。《法治日报》近日报道了河南婚俗改革实验工作进展…

    2022年9月26日
    780
  • 泽连斯基在达沃斯论坛破口大骂,公开威胁要“暗杀普京”

    阅读此文大概需要2-3分钟,诚邀您点击右上角“关注”按钮,先点后看,养成习惯,您的支持与鼓励便是我们创作的最大动力! 日前,达沃斯论坛在瑞士召开,这本是一场经济主题的会议,却因为乌克兰的加入,而增加了一层政治色彩。更让人意外的是,…

    2024年1月21日
    250
  • iOS16.2正式版已推送:别着急更新,看看首批果粉怎么说

    面对果粉来说,目前能够期待的地方非常少,一方面是新机的发展节奏并不是特别快,几乎每年一次大迭代,所以对于想换机的果粉来说,只能进行长时间的期待。 另一方面,除了手机产品之外,系统的优化也容易引起很多果粉的关注,尤其是iOS16.2…

    2022年12月17日 热点
    750
  • 亿图脑图上线AI绘画功能 生成图片版权归用户,可商用

    极客号(Xqh8.com) 7月4日 消息:万兴科技旗下的亿图脑图最近正式推出了AI绘画功能,并在海内外版本中实现了移动端、Web端和桌面端的全覆盖。 据报道,亿图脑图的全新AI绘画功能提供了通用模型、二次元模型和图生图等多种绘画…

    2023年7月4日
    490
  • 师宗县:全面做好医疗保障 满足群众就医需求

    跟随师宗县人民医院重症医学科主任李智勇的脚步,记者走进了医院忙碌的重症监护室。 上午十点多,李智勇放缓了匆匆的步伐,开始仔细查看重症监护室中每一位患者的情况。“之前大约有15张床,由于病人就诊数量增多,现在已经扩展到19张,同时有…

    2023年4月5日 热点
    560