AI 训练数据集的版权问题日益引起关注,AI 公司使用了从互联网上抓取的内容进行训练,而很多内容是受版权保护的。广泛使用的 robots.txt 文件主要针对的是搜索引擎爬虫,是否允许爬虫抓取和索引内容,在 AI 时代它需要更新,需要加入新的机器可读的方法。Google 提议就探索 robots.txt 的替代展开广泛讨论。robots.txt 并不具有法律约束力,新的标准预计也只能约束愿意遵守规则的人。
https://blog.google/technology/ai/ai-web-publisher-controls-sign-up/