• 微头条

    让本地生活更美好

打开APP

多家AI公司无视Robots.Txt文件,爬取网页内容,权威机构称

2024-06-23 科技汇总
多家AI公司无视Robots.Txt文件,爬取网页内容,权威机构称

Source: Slashdot

多家AI公司无视Robots.txt文件,刻意避开网页内容抓取,一家授权公司透露,旨在阻止生成式AI系统抓取网页内容的robots.txt文件被多家AI公司无视,路透社报道。授权初创公司TollBit向出版商发送了一份警告。TollBit是一家早期创业公司,定位为将渴望内容的AI公司与愿意与其达成授权协议的出版商牵线搭桥。

该公司跟踪AI公司访问出版商网站的流量,并使用分析工具帮助双方确定对不同类型内容使用应支付的费用... 据悉,该公司在5月份已有50个网站上线,尽管尚未透露网站名称。根据TollBit的信函,Perplexity并非唯一似乎在忽视robots.txt文件的违规者,TollBit表示,其分析显示“许多”AI代理正在绕过这一标准工具,该工具由出版商使用以指示网站哪些部分可以被爬取。TollBit写道:“从实际角度来看,这意味着多家来源(不仅是一家公司)的AI代理选择绕过robots.txt协议从网站检索内容。

我们处理的出版社日志越多,这一模式就越显现。文章还援引了美国新闻媒体联盟(代表超过2200家美国出版商的贸易团体)总裁的话:“如果不能退出大规模抓取,我们无法从我们宝贵的内容中获利并支付记者。这可能严重危害我们的产业。

路透社还指出了另一个威胁面对新闻网站:自谷歌去年推出了一款使用AI根据一些搜索查询生成摘要的产品以来,出版商一直在警示有关新闻摘要的问题。如果出版商想要防止其内容被谷歌的AI用于帮助生成这些摘要,他们必须使用同一工具,该工具还会防止他们出现在谷歌搜索结果中,使他们在网络上几乎不可见。

没有人可以长时间从他人劳动成果中免费获取利益,尊重他人知识产权是保护创作者权益和激发创新的基础。" } ```

特别声明:本文及配图均为用户上传或者转载,本文仅代表作者个人观点和立场,不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实, 对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺,请读者仅作参考, 并请自行核实相关内容。如发现稿件侵权,或作者不愿在本平台发布文章,请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com
来源:https://news.slashdot.org/story/24/06/23/050252/multiple-ai-companies-ignore-robotstxt-files-scrape-web-content-says-licensing-firm?utm_source=rss1.0mainlinkanon&utm_medium=feed https://ca.finance.yahoo.com/news/ai-companies-are-reportedly-still-scraping-websites-despite-protocols-meant-to-block-them-132308524.html https://money.usnews.com/investing/news/articles/2024-06-21/exclusive-multiple-ai-companies-bypassing-web-standard-to-scrape-publisher-sites-licensing-firm-says
更多阅读