| 
2024 年头,在好意思国某处的一座仓库里,工东说念主们正在作念一件看起来有些奇怪的事:把书一册本送进机器,切掉书脊,扫描,然后把剩下的纸送去回收。 这些书是刚买来的,有些以致是新的。莫得东说念主会读它们,它们存在的唯独蓄意,等于被遣散。 下令作念这件事的,是一家叫 Anthropic 的 AI 公司。  在他们的里面文献里,这项蓄意有个代号:「巴拿马时势」。一份探讨文献写得很直白:「这是咱们以唐突性姿色扫描全球所有竹素的蓄意,咱们不但愿外界知说念咱们正在作念这件事。」 这件事最终照旧被东说念主知说念了。 客岁,别称联邦法官解封了一批与版权诉讼关连的文献,合计最初 4000 页。外界由此看到的,不仅仅一家公司的秘要,而是通盘 AI 行业在数据争夺战中的竟然模样。 被大模子「吃」掉的实体书 为什么这些处于时期前沿的科技巨头,会用如斯原始以致凶残的姿色对待纸质书?谜底其实藏在 AI 对高质料数据的特殊渴求里。 Anthropic 里面很早就意志到,考试 AI 模子光靠网罗上的内容不够用。 凭证《华盛顿邮报》报说念,一位Anthropic 长入首创东说念主在 2023 年 1 月的文献中写说念,用竹素考试模子,不错让 AI 学会「若何写得更好」,而不是只会效法质料散乱不王人的网罗说话。 竹素经过严格裁剪和校对,内容结构透露,是网罗文本难以替代的高质料语料。 这个逻辑自己并不难知晓,但问题是,既然承认竹素有价值,为什么不付钱?究其原因,挨个找出书社和作者谈授权,费时劳作,本钱也高。于是 Anthropic 启动了「巴拿马时势」。一句「不但愿外界知说念」,证实它也明晰这件事站不住脚。  以致「巴拿马时势」还没启动的时期,Anthropic 依然尝试通过另一种姿色取得竹素。  法院文献炫耀,公司长入首创东说念主 Ben Mann 曾在 2021 年 6 月的 11 天里,从一个叫 LibGen 的网站下载了大宗演义和非演义类竹素。LibGen 是个「影子藏书楼」,上头的资源大多涉嫌侵权,文献中附带的浏览器截图炫耀,他使用文献分享软件完成了这些下载。 一年后,另一个网站 Pirate Library Mirror 于 2022 年 7 月上线,该网站公开声称「在大多数国度有益违抗版权法」。Mann 把这个网站的长入髻给了其他 Anthropic 职工,并留言写说念:「来得恰是时期!!!」 这句惊奇号背后,是一位公司高管对一个公开承认监犯的盗版网站抒发的竟然魄力。 Anthropic 过后透露,公司从未用这些数据考试过细致发布的生意模子。但这种评释些许有些拼凑,下载了,存着,仅仅「莫得用在细致模子上」,这条线究竟划在那边,只怕连 Anthropic 我方也说不明晰。 为了「巴拿马时势」,Anthropic 还专门聘用了 Tom Turvey 来主理这项责任。Turvey 曾参与创建谷歌典籍时势,阿谁时势相同因大规模扫描竹素激发了长达多年的版权争议。Anthropic 采取这个东说念主来主导这件事,很难说是一种正巧。  最终,Anthropic 主要依赖两家信商批量供货: 好意思国二手翰零卖商 Better World Books,以及总部位于英国的 World of Books,每次采购动辄数万册。里面文献还炫耀,职工曾扣问筹议纽约世界藏书楼,以致提到不错找某家长久资金不及的新藏书楼。 采购完之后,通盘扫描历程,就像一条工业活水线。  供应商用液压切割机把书脊整王人切掉,散开的书页立时被送进高速工业扫描仪,扫完之后,剩下的纸张交给回收公司贬责。一家参与报价的扫描行状商在提案中写说念,Anthropic 但愿在六个月内完成 50 万到 200 万册书的数字化责任。 Anthropic 副总法律参谋人 Aparna Sridhar 回报称,法院已裁定 AI 考试「骨子上具有悠扬性」,Anthropic 采取妥协的问题在于「部分材料的取得姿色,而不是咱们是否不错使用这些材料」。 这套说辞在法律上也许站得住脚,但它同期也揭示了一件事:这家公司从未合计我方作念错了什么,仅仅某些技巧不够干净。 {jz:field.toptypename/}拿你的书考试,再抢你的饭碗 相同的事情,也在其他公司身上发生着,何况有些细节更为戏剧性。 针对 Meta 的诉讼文献炫耀,有职工在 2023 年径直写说念:「用公司条记本进行种子下载嗅觉不太对劲。」他其后还专门向法务团队反馈,斗鱼体育称使用种子网站可能意味着向他东说念主分发盗版作品,「这在法律上可能行欠亨。」 但这些畏惧最终莫得调动任何事情。 2023 年 12 月的一封里面邮件炫耀,使用 LibGen 已在「上报至 MZ」之后获批,MZ 指的是 CEO 马克·扎克伯格。邮件还坦率地写明了他们我方都明晰的风险:「若是媒体报说念透露咱们使用了已知为盗版的数据集,这可能会减轻咱们在监管问题上的谈判态度。」  换句话说,他们不是不知说念这样作念不对,仅仅在衡量被握包的代价。为了裁减这个风险,职工们特殊租用亚马逊的行状器来作念种子下载,而不是用 Meta 我方的行状器,原因是幸免被跟踪到 Meta 公司。 OpenAI 和微软相同靠近典籍作者的版权指控。OpenAI 以致承认曾下载过 LibGen,但称在 ChatGPT 发布前已删除关连文献。 而 AI 公司与创作者之间的版权破裂,并非从 Anthropic 才运转。 早在 2000 年代初,Google 就曾大规模扫描藏书楼馆藏,相同激发了长达十年的诉讼。最终法院认定Google 的作念法属于「合理使用」,因为它只提供片断摘抄,蓄意是提示读者找到书,而不是取代书自己。 这个判决在其时看来通力合作,却在二十年后为通盘 AI 行业提供了一块挡箭牌。 Google 典籍是个索援用具,而生成式 AI 径直消化竹素内容,然后输出翰墨,在某些情况下与作者产生径直竞争。性质变了,但征引的法律逻辑照旧团结套,这自己就值得想考。  客岁 6 月,联邦法官 William Alsup 裁定,Anthropic 用竹素考试 AI 属于正当举止,他将这个历程比作锻真金不怕火「考试学生写好著述」。这个譬如听起来热诚,但履行中的敦厚不会同期考试几百万个学生,也不会靠这些学生赚几十亿好意思元。 最终,Anthropic 采取支付 15 亿好意思元妥协金,在 AI 版权诉讼史上创下记录,但细看之下,账算得并不亏。按照好意思国版权法,每件作品的法定补偿上限可达 15 万好意思元,而这次妥协折算下来,每本书约赔 3000 好意思元,仅为上限的 2%。 补偿金由作者和出书商瓜分,仅仅,这一安排在创作者群体里面激发了争议。 不少作者合计,出书商在保护作品不被 AI 销耗这件事上莫得奋勉,却拿走了一半补偿。更要津的是,妥协合同并不条目 Anthropic 承认任何监犯举止,法院对「AI 考试属于合理使用」的认定照样有用。  换句话说,Anthropic 用 15 亿好意思元买到的,不仅仅妥协,还有一份背书:咱们不错络续这样作念。有分析东说念主士指出,跟着这个前例配置,版权侵权对 AI 公司来说依然不再是一条红线,而是一笔不错提前计入本钱的「过路费」。 对好多写书的东说念主来说,这件事意味着的远不啻一张支票。好意思国作者的年收入中位数约为 2 万好意思元,而市值数千亿的 AI 公司在未获授权的情况下大宗使用他们的作品,过后折算的补偿程序远低于法律上限。 更让东说念主忧虑的是,AI 正在批量生成翰墨内容,这些低本钱的文本涌入市集,让蓝本就笨重的写稿营生变得更难。考试 AI 用的是东说念主写的书,而 AI 产出的内容,正在挤压东说念主络续写书的空间,周而复始。 救助者自有另一套逻辑:AI 并不储存书里的内容,而是从中索要说话法规,这更像是一个东说念主博览群书之后变成我方的抒发。这个类比并非毫意外旨,但却不详了一个要津各别:  东说念主读了一册书,不会同期读一百万本;而 AI 在几个月内消化了东说念主类几十年的写稿积聚,随后以极低的旯旮本钱无穷复制输出,规模调动了性质,把两件事等同起来其实并永别理。 数百万册书被切开、扫描、回收,终末换来一份妥协合同。那些书,早已不在了。而 AI 还在络续写稿,且会越来越快。这大要等于这件事最让东说念主不安的所在:关于书被遣散,被鼎力用来考试 AI 这件事,莫得东说念主着实付出了代价。 附上参考地址:https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/
|