ip地址代理
“屏蔽AI爬虫机器人是徒劳的,它们会作假、会更改用户代理、会使用住宅 IP 地址作为代理我不想被迫关闭 Gitea 服务器 但若有必要,我会这么做。”
根据 LibreNews 最近的一份报告显示:现在,一些开源项目高达 97% 的流量来自AI公司的机器人爬虫,这极大地加重了带宽成本、导致服务不稳定、并给本就任务繁重的维护人员带来了更大的负担。
屏蔽AI爬虫后,其流量立即减少了 75%,从每天 800GB 降至每天 200GB。他们在博客文章《人工智能爬虫需要更尊重他人》中写道:这一变化使得他们的项目每月节省了大约 1500 美元的带宽成本。
除了消耗带宽之外,这些爬虫还经常访问一些占用大量资源的端点,比如 git blame、日志页面等,这给本就有限的资源带来了额外的压力。SourceHut 创始人德鲁德沃(Drew DeVault)在他的博客中表示,这些爬虫会访问 “每个 git 日志的每一页,以及存储库中的每一次提交记录”,这种“攻击”对代码存储库来说尤其沉重。
这个问题不仅仅局限于基础设施压力。正如 LibreNews 所指出的,一些开源项目早在 2023 年 12 月就开始陆续收到AI生成的错误报告,Curl 项目的丹尼尔斯滕伯格(Daniel Stenberg)在 2024 年 1 月的一篇博客文章中首次对此进行了阐述。这些报告乍一看似乎是合理的,
“不只是爬取一个页面后就离开它们每 6 个小时就会回来一次”。这也表明这些AI爬虫是在持续收集数据ip地址代理,而非进行一次性的训练活动 这些AI公司在利用这种爬取行为来“更新”它们的模型知识。
将爬虫困在无尽的虚假内容迷宫中。Aaron 明确将其描述为 “攻击性恶意软件” 目的是浪费AI公司的资源,并有可能会污染它们的训练数据。
Cloudflare 将他们的工具定位为一种合法的安全功能,以保护网站所有者免受未经授权的抓取行为。