• 微头条

    让本地生活更美好

打开APP

Anthropic机器人忽视网站反AI爬取政策

2024-07-25 科技汇总
Anthropic机器人忽视网站反AI爬取政策

Source: The Verge

Anthropic使用的ClaudeBot网页爬虫在24小时内几乎在iFixit网站上百万次,似乎违反了这家维修公司的使用条款。iFixit CEO Kyle Wiens表示,Anthropic的聊天机器人承认了他们未经许可使用iFixit内容。如果您想商业使用我们的内容,我们随时在这里。

iFixit的使用条款规定未经公司明确事先书面许可,严禁“重制、复制或分发”网站的任何内容,特别包括“训练机器学习或AI模型。当被404 Media询问到时,Anthropic回答称其爬虫只能通过robots.txt文件被阻止。Wiens表示,iFixit已经将crawl-delay扩展添加到其robots.txt中。

iFixit并不孤单,Read the Docs的联合创始人Eric Holscher和Freelancer.com CEO Matt Barrie在Wiens的讨论串中表示,他们的网站也被Anthropic的爬虫大量爬取。ClaudeBot看来并非第一次表现出这种行为,几个月前的Reddit帖子报告了Anthropic网页爬取活动的激增。今年4月,Linux Mint网论坛将网站故障归咎于ClaudeBot的爬取活动所造成的压力。

透过robots.txt文件拒绝爬虫是许多其他AI公司如OpenAI首选的退出方法,但并未提供网站所有者对允许的爬取内容进行任何灵活性。另一家AI公司Perplexity已知完全忽略robots.txt的排除。这仍是公司保护其数据不被用于AI训练材料的少数选择之一,Reddit在最近对网页爬虫进行打击时也应用了这一方法。

我们应该尊重网站的使用条款,这样才能建立一个更加公平和有序的互联网环境。" } ```

特别声明:本文及配图均为用户上传或者转载,本文仅代表作者个人观点和立场,不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实, 对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺,请读者仅作参考, 并请自行核实相关内容。如发现稿件侵权,或作者不愿在本平台发布文章,请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com
来源:https://www.theverge.com/2024/7/25/24205943/anthropic-ai-web-crawler-claudebot-ifixit-scraping-training-data https://www.reddit.com/r/aiwars/comments/154awn9/is_it_wrong_for_human_artists_to_limit_web/ https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
更多阅读