全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容

根据人工智能内容检测器 Originality.AI 的最新数据,全球前 1000 个网站中有近 20% 阻止爬虫机器人收集网络数据用于 AI 服务。

全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容

在缺乏明确法律或监管规定管理 AI 使用版权材料的情况下,大小不一的网站都自行采取措施。

OpenAI 于 8 月初推出了其 GPTBot 爬虫,并宣布所收集到的数据「可能被用于改进未来模型」,承诺排除付费内容并指导网站如何禁止该爬虫。随后,包括《纽约时报》、路透社和 CNN 等知名新闻网站开始阻止 GPTBot,并且许多其他网站也效仿。

根据 Originality.AI 的数据,在全球前 1000 个最受欢迎的网站中,阻止 OpenAI ChatGPT bot 的数量从 8 月 22 日 9.1% 增加到 8 月 29 日 12%。封锁 ChatGPT bot 的最大网站是亚马逊、Quora 和 Indeed。数据显示,更大型的网站更有可能已经封锁了 AI 爬虫机器人。

Common Crawl Bot 是另一个定期收集某些 AI 服务使用的 Web 数据的爬虫程序,在全球前 1000 个顶级网站上被屏蔽率为 6.77%。

任何您可以从 Web 浏览器访问的页面都可以被爬虫程序「抓取」,它们就像浏览器一样运行,但将材料存储在数据库中而不是向用户显示。

这就是搜索引擎如 Google 收集信息的方式。网站所有者一直有能力发布指令,告诉这些爬虫程序离开他们的网站,但合作完全是自愿性质,并且恶意操作者可以忽略这些指令。

谷歌和其他网络公司认为其数据爬虫工作属于合理使用范围,但许多出版商和知识产权持有人长期以来一直反对此做法,并且该公司因此面临了多起诉讼。大型语言模型和生成式 AI 的兴起使得这个问题重新受到关注,因为 AI 公司派出自己的爬虫程序收集数据以培训其模型并提供聊天机器人所需素材。

自从 Google 和其他搜索网站将用户引导至其支持广告的网站后,一些出版商至少认为允许搜索爬虫程序进入其网站具有某种价值。然而,在 AI 时代中,出版商更积极地阻止爬虫程序进入其网站,因为暂时没有将其数据交给 AI 公司的好处。许多媒体公司目前正在与 AI 公司就以费用向其授权数据进行谈判,但这些谈判还处于早期阶段。

在过去 20 年中被 Google 拿走了一些东西的媒体机构对 OpenAI 等快速商业化的 AI 服务持敌意和「我们不会再上当」的态度。据 The Information 报道,OpenAI 预计在未来一年内将带来超过 10 亿美元的收入。

新闻媒体公司正在努力找到平衡点,在接受和抵制人工智能之间挣扎。一方面,该行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。

另一方面,在人们对新闻媒体公司的信任度处于历史低点之际,将人工智能引入新闻编辑室的工作流程,会带来具有挑战性的道德问题。

而如果太多的网络阻碍人工智能爬虫,它们的所有者可能会发现更难改进和更新他们的人工智能产品——而且好的数据也变得越来越难找到。

Originality.AI 的发现显示,前 1000 个网站中 GPTBot 的屏蔽率每周增加约 5%。

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

(0)
上一篇 2023年9月3日 12:16
下一篇 2023年9月3日 12:17

热点推荐

  • 庆余裨味宝是传销吗(庆余裨味宝是传销吗)

    最近一段时间小编在朋友圈看到庆余裨味宝的广告,据悉可以调理脾胃提高抵抗力,对于微信上的广告也是有所怀疑,那么庆余裨味宝是传销吗?庆余裨味宝正规吗?合格吗?下面小编为大家带来庆余裨味宝介绍,感兴趣的小伙伴一起来看一下吧。 庆余裨味宝…

    热点 2023年11月3日
    236
  • 网络语言rbq什么意思?

    对于“rbq”这个词有很多种解释,正常一点解释就是“惹不起”。还有一层深层比较有内涵的意思就是“肉便器”,指可以任人随意发泄性欲的人。与妓女的差别在于,肉便器显得更卑微,更可以任人摆布,像器具一样。 对于“rbq”这个词,各位可能…

    热点 2023年5月9日
    158
  • 日本军事动向引发民众担忧

    日本政府一段时期以来过度强化防卫和军事力量的种种动向,不仅让周边国家不安,也让日本民众感到焦虑。近日,日本防卫省在冲绳县石垣岛举行了陆上自卫队石垣基地开设仪式。据日本《读卖新闻》报道,作为日本所谓“加强西南方向防御”的主要步骤,按…

    热点 2023年5月3日
    128
  • 早安的问候语暖人心图片(早安的问候语)

    今天,我想和大家分享一些关于早安的问候语以及早安的问候语暖人心图片的问题。以下是小编对这个问题的总结。让我们看一看。 适合早上发的早安问候语语录 你的态度决定你的人生,别让低质量的勤奋毁了你,有时候不逼自己一把,永远不知道自己有多…

    热点 2023年4月24日
    131
  • 快手宣布成为杭州亚运会赛事持权转播商

    投稿号(tougaohao.com)7月17日 消息:7月17日,快手宣布与中央广播电视总台达成合作,平台获得杭州2022年第19届亚运会视频点播及短视频权利,成为总台杭州亚运会赛事点播持权转播商。 与此同时,快手也与杭州亚组委达…

    热点 2023年7月17日
    123
  • 三水是什么字怎么读(三水是什么字)

    大家好,今天给各位分享三水是什么字的一些知识,其中也会对三水是什么字怎么读进行解释,文章篇幅可能偏长,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在就马上开始吧! 三水是什么字 淼 miǎo 形 (形声。从水,眇(miǎo)…

    热点 2023年5月18日
    150
  • 原神芭芭拉值得培养吗?,原神游戏攻略

    今天的话题是原神芭芭拉值得培养吗?值得。其实只要你了解了芭芭拉,你就会觉得非常值得。芭芭拉是非常好用的奶妈,主要是因为没命玩琴,所以没有之一。在介绍芭芭拉之前,先给大家分享最实用的干货。 随着游戏市场的竞争愈演愈烈,各大手游平台对…

    热点 2022年9月27日
    158
  • 上海专家正式道歉,奥密克戎不是大号流感,张文宏也改口回应

    最近,不少医学专家都受到网友指责,纷纷表示让专家“闭嘴”,言辞恶劣,让人难以接受。 环球时报也看不下去了,发表文章替专家们鸣不平: 专家非完人,无论是钟南山还是张文宏,都不是全知全能,但只要专家出于专业和良知,为防疫尽心尽力,他们…

    热点 2023年1月7日
    142
  • 上海很有名的饭店(上海有名的饭店排名)

    五角场最值得一吃的餐厅排名(五角场最受欢迎餐厅) 1、塔顶泰国餐厅 塔顶泰国餐厅在五角场非常有名,要知道全球各地有很多的塔顶泰国餐厅,这里的泰国菜真的是非常好吃。 2、第一家推荐是“上海青湖老鸭汤”,这是一家历史悠久的老字号餐厅,…

    热点 2023年8月3日
    463
  • 经常喝牛奶有什么好处?

    简要回答 牛奶是最普通也是最适合大家饮用的一种养分充足的,它其中有很多丰富的和口感,其中所含的维d是非常不错的一种促进养分吸取的物质,这些如此一直以来这一种饮品都被大家比喻成补的小能手。看似一件非常普通的事情,但是在细节方面大家一…

    热点 2023年10月12日
    117

发表回复

登录后才能评论