不亚于DDoS攻击!AI爬虫正在搞垮全球数字文化项目
GoUpSec点评:公共文化资源本应服务于人类知识的自由共享,但如今,与开源项目的遭遇类似,这些缺乏安全防护的“数字文化宝藏”正被蜂拥而至的AI爬虫“抽干”,甚至无法正常访问。如果AI训练缺少必要的监管和法规约束(正如美国政府所倡导的零监管),很可能导致全人类的文化数字化进程放缓甚至被迫按下暂停键。
在AI模型突飞猛进的今天,一场没有硝烟的“数据掠夺战”正在全球范围内悄然上演。主角不是国家黑客,也不是黑市贩卖者,而是那些为AI模型提供数据燃料的训练爬虫。
根据最新发布的一项调查报告,来自全球各地的图书馆、博物馆、档案馆和美术馆正在被AI数据爬虫的“DDoS攻击”扫荡,不仅影响正常访问,甚至导致机构官网宕机。
这份题为《AI爬虫正在让文化遗产下线?》的报告由GLAM-ELab发布,作者是迈克尔·温伯格(Michael Weinberg)。GLAM-ELab是英国埃克塞特大学与纽约大学法学院的联合项目,专注于提升中小文化机构在开放获取领域的能力。报告首次系统性地量化了AI训练爬虫对“GLAM”机构(Galleries, Libraries, Archives, Museums)的影响。
针对全球文化机构的“DDoS攻击”
报告对来自欧洲、北美和大洋洲的43家开放获取文化机构进行了调查,其中39家表示近期访问流量激增,27家明确认为是AI爬虫导致的,另有7家认为爬虫可能是原因之一。
而这些激增并非“流量红利”,而是让系统崩溃的灾难。多家受访机构形容AI爬虫的行为“就像分布式拒绝服务攻击(DDoS)”。短时间内海量请求涌入服务器,资源被榨干,系统直接下线。某机构甚至每天都遭遇3分钟左右的“小型DDoS”,虽然不是“致命打击”,但足以让技术团队疲于应对。
更棘手的是,爬虫影响往往是选择性的、不对称的。某机构曾表示,其一个每日访问量仅为个位数的半私密档案在被AI爬虫发现后,立即流量暴涨、访问瘫痪,而网站其他部分却毫发无损。
机器人协议已“失灵”,AI厂商不再“遵守江湖规矩”
长期以来,robots.txt协议被视为网站与爬虫之间的“君子协定”,用来指示哪些页面不应被抓取。但这场“AI炼丹大战”打破了这套游戏规则。报告称,许多AI爬虫公然无视robots.txt,被受访者普遍认为“破坏了互联网生态的基本信任”。
“他们不是在玩游戏,而是在重新定义游戏规则。”UNC大学图书馆的一位IT负责人愤怒地表示,该校在2024年12月2日遭遇严重爬虫入侵,甚至连用户体验主管本人都被系统拒之门外。最后花了七人团队一周时间,才用“AI防火墙”缓解了问题。
没人手、没资源,文化机构难以自保
这场数据风暴之所以危险,不仅是因为技术猛烈,更因为文化机构“太脆弱了”。报告指出,大多数GLAM机构运营团队极其精简,“一个人,半个职员,外加一个对你工作比较同情的网页维护员”是常态。即使是大型机构,真正维护数字资源的运维和安全技术人员也是严重不足。
此外,即便机构想要部署登录验证或验证码等“减速机制”,也常常面临两难困境:加设访问门槛会降低用户体验,但不设限制又会让网站落入AI数据训练的绞肉机。
结语:谁来为人类文化守门?
当我们讨论AI模型的“智能进化”时,很少有人注意到背后的“基础设施代价”是谁在承担。公共文化资源本应服务于人类知识的自由共享,但如今,它们正被AI商业力量悄然“抽干”,甚至牺牲掉最基本的可用性。
报告最后指出,目前的调查尚无法全面反映全球状况,因为很多机构根本不知道自己已被爬虫盯上——直到有天醒来,邮箱被用户投诉邮件塞满,网站已经瘫痪。
这不是第一次公共资源被AI技术浪潮掠夺,也不会是最后一次。但这次不同的是,AI的训练对文化资源的需求是无限的,而我们的服务器、带宽、人力、预算却是有限的。