不亚于DDoS攻击！AI爬虫正在搞垮全球数字文化项目

2025年6月18日作者：GoUpSec

GoUpSec点评：公共文化资源本应服务于人类知识的自由共享，但如今，与开源项目的遭遇类似，这些缺乏安全防护的“数字文化宝藏”正被蜂拥而至的AI爬虫“抽干”，甚至无法正常访问。如果AI训练缺少必要的监管和法规约束（正如美国政府所倡导的零监管），很可能导致全人类的文化数字化进程放缓甚至被迫按下暂停键。

在AI模型突飞猛进的今天，一场没有硝烟的“数据掠夺战”正在全球范围内悄然上演。主角不是国家黑客，也不是黑市贩卖者，而是那些为AI模型提供数据燃料的训练爬虫。

根据最新发布的一项调查报告，来自全球各地的图书馆、博物馆、档案馆和美术馆正在被AI数据爬虫的“DDoS攻击”扫荡，不仅影响正常访问，甚至导致机构官网宕机。

这份题为《AI爬虫正在让文化遗产下线？》的报告由GLAM-ELab发布，作者是迈克尔·温伯格（Michael Weinberg）。GLAM-ELab是英国埃克塞特大学与纽约大学法学院的联合项目，专注于提升中小文化机构在开放获取领域的能力。报告首次系统性地量化了AI训练爬虫对“GLAM”机构（Galleries, Libraries, Archives, Museums）的影响。

针对全球文化机构的“DDoS攻击”

报告对来自欧洲、北美和大洋洲的43家开放获取文化机构进行了调查，其中39家表示近期访问流量激增，27家明确认为是AI爬虫导致的，另有7家认为爬虫可能是原因之一。

而这些激增并非“流量红利”，而是让系统崩溃的灾难。多家受访机构形容AI爬虫的行为“就像分布式拒绝服务攻击（DDoS）”。短时间内海量请求涌入服务器，资源被榨干，系统直接下线。某机构甚至每天都遭遇3分钟左右的“小型DDoS”，虽然不是“致命打击”，但足以让技术团队疲于应对。

更棘手的是，爬虫影响往往是选择性的、不对称的。某机构曾表示，其一个每日访问量仅为个位数的半私密档案在被AI爬虫发现后，立即流量暴涨、访问瘫痪，而网站其他部分却毫发无损。

机器人协议已“失灵”，AI厂商不再“遵守江湖规矩”

长期以来，robots.txt协议被视为网站与爬虫之间的“君子协定”，用来指示哪些页面不应被抓取。但这场“AI炼丹大战”打破了这套游戏规则。报告称，许多AI爬虫公然无视robots.txt，被受访者普遍认为“破坏了互联网生态的基本信任”。

“他们不是在玩游戏，而是在重新定义游戏规则。”UNC大学图书馆的一位IT负责人愤怒地表示，该校在2024年12月2日遭遇严重爬虫入侵，甚至连用户体验主管本人都被系统拒之门外。最后花了七人团队一周时间，才用“AI防火墙”缓解了问题。

没人手、没资源，文化机构难以自保

这场数据风暴之所以危险，不仅是因为技术猛烈，更因为文化机构“太脆弱了”。报告指出，大多数GLAM机构运营团队极其精简，“一个人，半个职员，外加一个对你工作比较同情的网页维护员”是常态。即使是大型机构，真正维护数字资源的运维和安全技术人员也是严重不足。

此外，即便机构想要部署登录验证或验证码等“减速机制”，也常常面临两难困境：加设访问门槛会降低用户体验，但不设限制又会让网站落入AI数据训练的绞肉机。

结语：谁来为人类文化守门？

当我们讨论AI模型的“智能进化”时，很少有人注意到背后的“基础设施代价”是谁在承担。公共文化资源本应服务于人类知识的自由共享，但如今，它们正被AI商业力量悄然“抽干”，甚至牺牲掉最基本的可用性。