• 微头条

    让本地生活更美好

打开APP

Cloudflare发布功能阻止AI公司的网络爬虫

2024-07-04 外星人S博士
Cloudflare发布功能阻止AI公司的网络爬虫

Source: Slashdot

Cloudflare今日发布了一项新功能,加入了其内容传送网络(CDN)中,阻止AI开发者对网站内容进行爬取。据Cloudflare表示,该功能适用于其免费和付费服务。据《SiliconANGLE》报道:该功能利用AI技术来检测自动提取内容的尝试。Cloudflare称,其软件能够识别试图规避检测的爬虫,用于LLM训练项目的内容。

Cloudflare的工程师们在今天的博客中写道:“遗憾的是,我们注意到爬虫操作人员试图伪装成真实浏览器,使用伪造的用户代理。我们随着时间的推移监控到这一活动,我们很自豪地说,我们的全球机器学习模型始终将这种活动识别为机器人。Cloudflare成功检测到的爬虫之一是收集Perplexity AI公司内容的爬虫。上个月,《Wired》报道称,这种爬虫抓取网站内容的方式使其请求看起来像是普通用户流量。

因此,网站运营商难以阻止Perplexity AI使用他们的内容。Cloudflare为其平台处理的每一个网站访问指定一个1至99的评分。评分越低,请求很可能是由机器人生成。据公司称,用于收集Perplexity AI内容的爬虫的请求始终得分低于30。

Cloudflare的工程师们详细介绍说:“当不良操作者试图大规模抓取网站时,他们通常使用我们能够识别的工具和框架。对于我们看到的每个指纹,我们使用Cloudflare的网络,平均每秒看到5700万次请求,来了解我们应该信任这个指纹多少。Cloudflare将随着时间更新该功能,以应对AI爬虫的技术指纹变化和新爬虫的出现。作为该举措的一部分,该公司正在推出一项工具,使网站运营商能够报告他们可能遇到的任何新爬虫。

在信息时代,网络爬虫的出现使得内容被非授权获取的风险日益增加,技术的不断进步既为方便带来了挑战,也为网络安全提出了新的需求

特别声明:本文及配图均为用户上传或者转载,本文仅代表作者个人观点和立场,不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实, 对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺,请读者仅作参考, 并请自行核实相关内容。如发现稿件侵权,或作者不愿在本平台发布文章,请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com
来源:https://tech.slashdot.org/story/24/07/04/017220/cloudflare-rolls-out-feature-for-blocking-ai-companies-web-scrapers?utm_source=rss1.0mainlinkanon&utm_medium=feed https://sg.finance.yahoo.com/news/cloudflare-is-taking-a-stand-against-ai-website-scrapers-220030471.html%3Fprefer_reader_view%3D1%26prefer_safari%3D1 https://www.reddit.com/r/singularity/comments/1cdm97j/anthropics_claudebot_is_aggressively_scraping_the/
更多阅读