• 微头条

    让本地生活更美好

打开APP

网站错误屏蔽AI抓取器

2024-07-29 外星人S博士
网站错误屏蔽AI抓取器

Source: Slashdot

数百个网站试图阻止AI公司Anthropic从抓取其内容,但却屏蔽了错误的机器人,似乎是因为他们将过时的指令复制粘贴到robots.txt文件中,并且公司不断推出新的AI爬虫机器人,只有在网站所有者更新其robots.txt时才会被屏蔽。特别是,这些网站正在屏蔽公司不再使用的两个机器人,同时无意中留下了Anthropic的真正(和新的)抓取器机器人未被屏蔽。

匿名的Dark Visitors操作员告诉404 Media:“这是一个表明当前robots.txt格局有多混乱的例子。Dark Visitors是一个跟踪不断变化的网络爬虫和抓取器景观的网站,其中许多是由AI公司经营的,并帮助网站所有者定期更新其robots.txt文件以防止特定类型的抓取。

随着越来越多的人试图阻止AI抓取他们的作品,该网站的受欢迎度大大提高。他们补充道:“代理的生态系统正在迅速变化,因此对网站所有者来说手动跟进几乎是不可能的。

例如,苹果(Applebot-Extended)和Meta(Meta-ExternalAgent)上个月和上周分别新增了新的机器人。

当前网络环境的快速更迭使得网站所有者手动追踪和更新robots.txt几乎成为不可能,这也暴露出网站对抓取器屏蔽的混乱现状。" } ```

特别声明:本文及配图均为用户上传或者转载,本文仅代表作者个人观点和立场,不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实, 对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺,请读者仅作参考, 并请自行核实相关内容。如发现稿件侵权,或作者不愿在本平台发布文章,请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com
来源:https://tech.slashdot.org/story/24/07/29/1823255/websites-are-blocking-the-wrong-ai-scrapers?utm_source=rss1.0mainlinkanon&utm_medium=feed https://sherwood.news/tech/ai-companies-content-crawlers-are-saddling-website-owners-with-unexpected/ https://www.reddit.com/r/learnpython/comments/106evkg/site_is_blocked_for_web_scrapping/
更多阅读