debian设置ip及代理

ip代理2周前设置IP代理7

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

  软件开发者 Xe Iaso 迎来了一重大难题 来自亚马逊的大量AI爬虫流量使其 Git 存储库服务不堪重负,反复导致服务不稳定、停机等问题。尽管设置了标准的防御措施 调整了 robots.txt 文件、屏蔽了已知的爬虫用户代理,并过滤了可疑流量 但 Iaso 发现,AI爬虫完美绕过了这些阻力 它们伪装用户代理,并使用住宅 IP 地址作为代理不断轮换。

  Iaso 在一篇题为 “绝望的呼救” 的博客文章中写道:“屏蔽AI爬虫机器人是徒劳的,它们会作假、会更改用户代理、会使用住宅 IP 地址作为代理我不想被迫关闭 Gitea 服务器 但若有必要,我会这么做。”

  Iaso 的经历凸显了一个正在开源社区迅速蔓延的广泛危机 这些激进的AI爬虫使得越来越多的社区维护基础设施过载情况出现,对一些至关重要的公共资源造成了等同于 DDoS 攻击的影响。根据 LibreNews 最近的一份报告显示:现在,一些开源项目高达 97% 的流量来自AI公司的机器人爬虫,这极大地加重了带宽成本、导致服务不稳定、并给本就任务繁重的维护人员带来了更大的负担。

  Fedora Pagure 项目的系统管理员团队成员凯文芬齐(Kevin Fenzi)在他的博客中报告称,在多次尝试减少AI爬虫流量无果后,该项目不得不屏蔽了所有来自巴西的流量。

  这种情况并非完全最近才出现。去年 12 月,为 Diaspora 社交网络维护基础设施的丹尼斯舒伯特(Dennis Schubert)在发现来自AI公司爬虫的请求占其总流量的 70% 后,愤怒地将这一情况称为“简直是针对整个互联网的DDoS攻击”。

  这种情况在技术和经济方面都带来了很高的成本。据 Read the Docs 项目报告称,屏蔽AI爬虫后,其流量立即减少了 75%,从每天 800GB 降至每天 200GB。他们在博客文章《人工智能爬虫需要更尊重他人》中写道:这一变化使得他们的项目每月节省了大约 1500 美元的带宽成本。

  尤其是开源项目,面临着更加严峻的挑战,由于开源项目依赖于公众协作,且与商业实体相比,其运营资源通常有限。许多维护人员称,为了避免被“发现”,这些AI爬虫故意绕过标准的屏蔽措施,无视 robots.txt 指令,伪装用户代理,并轮换 IP 地址。

  在 Hacker News 上,相关讨论也如火如荼地上演着,评论者们对AI公司针对开源基础设施的掠夺性行为表达了深深的不满。

  除了消耗带宽之外,这些爬虫还经常访问一些占用大量资源的端点,比如 git blame、日志页面等,这给本就有限的资源带来了额外的压力。SourceHut 创始人德鲁德沃(Drew DeVault)在他的博客中表示,这些爬虫会访问 “每个 git 日志的每一页,以及存储库中的每一次提交记录”,这种“攻击”对代码存储库来说尤其沉重。

  这个问题不仅仅局限于基础设施压力。正如 LibreNews 所指出的,一些开源项目早在 2023 年 12 月就开始陆续收到AI生成的错误报告,Curl 项目的丹尼尔斯滕伯格(Daniel Stenberg)在 2024 年 1 月的一篇博客文章中首次对此进行了阐述。这些报告乍一看似乎是合理的,但其中包含了“AI编造的漏洞”,浪费了开发者宝贵的时间。

  实际上,“不问自取”可谓是AI公司一贯作风。在 2022 年AI图像生成器、AI聊天机器人等产品迅速爆发并引起人们对这种行为的关注之前,机器学习领域基本上都是在“无视版权”的操作下编纂数据集的。

  虽然AI公司都在进行网络爬虫活动,但造成的影响程度各不相同。根据丹尼斯舒伯特发布的 Diaspora 社交网络流量日志分析结果显示,该平台的网络流量中约四分之一来自 OpenAI 用户代理的机器人,而亚马逊占 15%,Anthropic 占 4.3%。

  这些爬虫可能是为了收集训练数据以构建或完善大型语言模型,而另一些则可能是在用户向人工智能助手询问信息时执行实时搜索debian设置ip及代理

  这些爬虫的访问频率尤其能说明问题。舒伯特观察到,AI爬虫“不只是爬取一个页面后就离开它们每 6 个小时就会回来一次”。这也表明这些AI爬虫是在持续收集数据,而非进行一次性的训练活动 这些AI公司在利用这种爬取行为来“更新”它们的模型知识。

  为了应对这些“攻击”,出现了一些新的防御工具来保护网站免受不必要的AI爬虫侵扰。正如 Ars 在今年 1 月报道的那样,一位被称为 “Aaron” 的匿名程序员设计了一款名为 “Nepenthes” 的工具 将爬虫困在无尽的虚假内容迷宫中。Aaron 明确将其描述为 “攻击性恶意软件” 目的是浪费AI公司的资源,并有可能会污染它们的训练数据。

  Aaron 解释说:“每当这些爬虫从我的陷阱中获取数据时,它们就消耗了资源 不得不为此付出真金白银,这有效地增加了它们的成本。鉴于它们目前都还没有盈利,这对它们来说是个大问题。”

  周五,Cloudflare 宣布推出 “AI Labyrinth”,这是一种类似于“Nepenthes”、但在商业上更为完善的工具。与被设计成“复仇者”的Nepenthes 不同,Cloudflare 将他们的工具定位为一种合法的安全功能,以保护网站所有者免受未经授权的抓取行为。

  Cloudflare 在其公告中解释说:“当我们检测到未经授权的爬取行为时,我们不会屏蔽请求,而是会链接到一系列由AI生成的页面,这些页面看似非常有说服力,足以吸引爬虫去浏览。” 该公司报告称,AI爬虫每天向其网络发送超过 500 亿次请求,占其处理的所有网络流量的近 1%。

  就目前的情况来看,AI生成内容的迅速增长使网络空间不堪重负,再加上AI公司激进的网络爬虫行为,都让重要网络资源的可持续性遭受着重大威胁。

  如果AI公司能直接与受影响的社区合作,“负责任”的数据收集并非难事。然而,AI行业的巨头们似乎并没有啥采取更具合作性措施的想法。若是没有有效的监管,AI公司与受害平台之间的“军备竞赛”很可能还会进一步升级。

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

相关文章

怎么设置qq网吧代理ip

怎么设置qq网吧代理ip

  行业动向方面,伽马数据发布《2025年4月中国游戏产业月度报告(完整版)》,数据显示,2025年4月中国游戏市场同比增长约21%,规模达273.51亿元,本月市场规模主要增长动力可能来...

cefsharp设置ip代理

cefsharp设置ip代理

  首先要坚持伙伴定位。随着中国不断发展,中日在一些产业领域开始出现竞争,我们也感受到部分日本企业对此心存顾虑和防范。但毫无疑问的是,合作共赢仍是主流。这次两国领导人旧金山会晤最重要的成果...

设置IP代理 密码

  金融界2025年4月7日消息,国家知识产权局信息显示,苏州元脑智能科技有限公司申请一项名为“目标配置信息的确定方法、装置、存储介质及电子设备”的专利,公开号CN 119759684 A...

uc代理ip设置

uc代理ip设置

  游盈隆表示,赖清德上任第一个月,只获不到半数台湾民众的支持,赖清德社会支持基础的流失是全面性的,不同程度的。游盈隆指出uc代理ip设置,根据相关经验证据,近一个月赖清德社会支持基础的流...

 1