2026年4月，一场围绕AI训练数据的版权攻防战出现戏剧性转折。《纽约时报》、Reddit等23家媒体平台集体封禁互联网档案馆的"时光机"服务，这一被记者誉为"数字史图书馆"的工具，正因AI公司对历史数据的疯狂抓取而陷入存废危机。

全球AI算力军备竞赛催生了前所未有的数据饥渴。据Wired最新调查，包括《今日美国》母公司Gannett在内的出版集团，已全面屏蔽互联网档案馆的专用爬虫ia_archiverbot。这标志着AI产业从单纯争夺芯片算力，转向对训练数据的源头控制——2026年Q1行业报告显示，大模型训练数据需求同比激增470%。媒体机构正采取分层防御策略：《卫报》通过API接口过滤技术阻断历史内容调取，而《纽约时报》则直接封杀所有存档访问。讽刺的是，这些媒体自身也曾受益于该服务——《今日美国》上月曝光的移民政策报告，正是基于"时光机"保存的2018年原始数据完成。

这场冲突折射出AI基础设施建设的深层矛盾。互联网档案馆负责人马克·格雷厄姆警告，数字记忆的持续流失将重创社会监督能力。但出版商联盟反驳称，AI公司对20年新闻存档的掠夺式使用，已构成每年12亿美元规模的版权侵权。电子前沿基金会（EFF）联署的抗议信中，百余名调查记者强调："当大模型吞噬历史数据时，我们正在失去验证权力叙事的最后锚点。"而Meta等科技巨头则回应，在H100芯片集群上重训模型的数据替代成本，可能使行业年支出增加23%。

AI训练数据争夺战升级：23家主流媒体封杀互联网档案馆"时光机"工具

总结