#人工智能 全球知名的 Reddit 论坛屏蔽除谷歌以外的所有搜索引擎,因为它们不愿意付钱。Reddit 现在仅允许谷歌抓取内容,谷歌此前与 Reddit 达成协议每年支付 6000 万美元获取数据用于训练人工智能,Reddit 称其他搜索引擎无法或不愿意承诺不使用 Reddit 训练 AI,因此屏蔽了它们。查看全文:https://ourl.co/105114
早前蓝点网提到中国知识问答社区知乎屏蔽了除百度和搜狗搜索以外的所有搜索引擎爬虫,禁止这些爬虫抓取和索引知乎的内容,同时知乎还使用乱码故意干扰这些搜索引擎防止自己的内容被抓取用于训练人工智能模型。
现在全球知名的 Reddit 论坛也采取了类似措施,这段时间 Reddit 论坛屏蔽了除谷歌以外的所有搜索引擎爬虫,包括微软必应和 Yandex 等等,阻止这些搜索引擎抓取内容。
至于原因肯定也是为了避免论坛帖子和评论被抓取用于训练 AI 模型,允许谷歌继续抓取是因为谷歌此前与 Reddit 达成协议,每年支付 6,000 万美元可以实时获取 Reddit 上的所有帖子和评论并用于训练人工智能。
Reddit 官方发言人称屏蔽其他搜索引擎与谷歌达成的协议无关,屏蔽是因为这些搜索引擎无法或者不愿意承诺它们抓取内容后不用于人工智能训练,这是屏蔽的根本原因。
也就是说如果搜索引擎能够承诺抓取 Reddit 内容并编入索引,但不会将其数据和内容用于人工智能模型训练的话,那还是可以和 Reddit 协商继续抓取内容的。
但目前这种情况对整个互联网来说都是个巨大的负面影响,无论是 Reddit 还是知乎以及其他内容网站,为了避免数据被抓取用于人工智能训练,他们采取的措施都是屏蔽,这就导致用户通过搜索引擎获取的内容将会减少,实际上这并不利于互联网的发展。
另一方面互联网上出现的由人工智能生成的垃圾内容越来越多,例如不少网站会使用人工智能批量生成驴头不对马嘴的内容并通过 SEO 手段吸引搜索引擎抓取,然而对用户来说这些垃圾内容不会产生任何帮助,每次点击查看还会浪费时间。
长期以往互联网不再是越来越开放,相反互联网会变得越来越封闭,人们可能会逐渐放弃使用搜索引擎寻找内容,转而使用各种人工智能对话机器人获取答案,而这些机器人给出的回答也有错误内容,用户可能都无法进行查证。
感谢蓝点网网友 Coje-He 分享的消息