全球AI算力军备竞赛催生了前所未有的数据饥渴。据Wired最新调查,包括《今日美国》母公司Gannett在内的出版集团,已全面屏蔽互联网档案馆的专用爬虫ia_archiverbot。这标志着AI产业从单纯争夺芯片算力,转向对训练数据的源头控制——2026年Q1行业报告显示,大模型训练数据需求同比激增470%。
媒体机构正采取分层防御策略:《卫报》通过API接口过滤技术阻断历史内容调取,而《纽约时报》则直接封杀所有存档访问。讽刺的是,这些媒体自身也曾受益于该服务——《今日美国》上月曝光的移民政策报告,正是基于"时光机"保存的2018年原始数据完成。

这场冲突折射出AI基础设施建设的深层矛盾。互联网档案馆负责人马克·格雷厄姆警告,数字记忆的持续流失将重创社会监督能力。但出版商联盟反驳称,AI公司对20年新闻存档的掠夺式使用,已构成每年12亿美元规模的版权侵权。
电子前沿基金会(EFF)联署的抗议信中,百余名调查记者强调:"当大模型吞噬历史数据时,我们正在失去验证权力叙事的最后锚点。"而Meta等科技巨头则回应,在H100芯片集群上重训模型的数据替代成本,可能使行业年支出增加23%。