多家AI公司无视Robots.Txt文件，爬取网页内容，权威机构称

2024-06-23 科技汇总

Source: Slashdot

多家AI公司无视Robots.txt文件，刻意避开网页内容抓取，一家授权公司透露，旨在阻止生成式AI系统抓取网页内容的robots.txt文件被多家AI公司无视，路透社报道。授权初创公司TollBit向出版商发送了一份警告。TollBit是一家早期创业公司，定位为将渴望内容的AI公司与愿意与其达成授权协议的出版商牵线搭桥。

该公司跟踪AI公司访问出版商网站的流量，并使用分析工具帮助双方确定对不同类型内容使用应支付的费用... 据悉，该公司在5月份已有50个网站上线，尽管尚未透露网站名称。根据TollBit的信函，Perplexity并非唯一似乎在忽视robots.txt文件的违规者，TollBit表示，其分析显示“许多”AI代理正在绕过这一标准工具，该工具由出版商使用以指示网站哪些部分可以被爬取。TollBit写道：“从实际角度来看，这意味着多家来源（不仅是一家公司）的AI代理选择绕过robots.txt协议从网站检索内容。

我们处理的出版社日志越多，这一模式就越显现。文章还援引了美国新闻媒体联盟（代表超过2200家美国出版商的贸易团体）总裁的话：“如果不能退出大规模抓取，我们无法从我们宝贵的内容中获利并支付记者。这可能严重危害我们的产业。

路透社还指出了另一个威胁面对新闻网站：自谷歌去年推出了一款使用AI根据一些搜索查询生成摘要的产品以来，出版商一直在警示有关新闻摘要的问题。如果出版商想要防止其内容被谷歌的AI用于帮助生成这些摘要，他们必须使用同一工具，该工具还会防止他们出现在谷歌搜索结果中，使他们在网络上几乎不可见。

没有人可以长时间从他人劳动成果中免费获取利益，尊重他人知识产权是保护创作者权益和激发创新的基础。" } ```

特别声明：本文及配图均为用户上传或者转载，本文仅代表作者个人观点和立场，不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如发现稿件侵权，或作者不愿在本平台发布文章，请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com

来源：https://news.slashdot.org/story/24/06/23/050252/multiple-ai-companies-ignore-robotstxt-files-scrape-web-content-says-licensing-firm?utm_source=rss1.0mainlinkanon&utm_medium=feed https://ca.finance.yahoo.com/news/ai-companies-are-reportedly-still-scraping-websites-despite-protocols-meant-to-block-them-132308524.html https://money.usnews.com/investing/news/articles/2024-06-21/exclusive-multiple-ai-companies-bypassing-web-standard-to-scrape-publisher-sites-licensing-firm-says

更多阅读

多家AI公司无视Robots.Txt文件，爬取网页内容，权威机构称

谷歌的AI搜索摘要正式加入广告

Razer将其被禁用的Snap Tap功能添加到所有最新笔记本电脑和键盘上（音频）

Mozilla发布Firefox 131，新增标签预览和文本特定链接功能（音频）

Meta限制在Threads、Instagram和Facebook上分享JD Vance文件链接（音频）

通用汽车电动车可使用特斯拉超级充电器（音频）

OpenAI预计今年亏损约50亿刀，收入为37亿刀（音频）

德国查获47个加密货币交易所，涉勒索软件犯罪团伙

Mozilla发布Firefox 131，新增标签预览和文本特定链接功能

亚马逊员工匿名调查请求撤销五天回办公室的强制令

德国查获47个加密货币交易所，涉勒索软件犯罪团伙（音频）

微软在最新Windows 11更新中终止混合现实支持

Meta限制在Threads、Instagram和Facebook上分享JD Vance文件链接

纽约时报将对其热门播客的过往集数收费

美国司法部调查Super Micro Computer涉嫌会计操控（音频）

科学编辑质疑Meta关于社交媒体非极化主张的可信度