随着生成式人工智能技术的快速演进,如何合法合规地获取和使用海量数据进行模型训练,已成为产业发展的核心争议之一。在此背景下,“退出机制”被部分AI企业提出并推广——即默认抓取所有公开可访问的数据,只有在版权所有者主动申请排除时才停止使用其作品。这一机制表面上赋予创作者控制权,实则暗藏多重缺陷,导致其实际效果大打折扣,甚至沦为一种“虚假的选择”。
该机制的不可持续性源于三大结构性问题:首先,数据采集方式已从传统网页爬虫扩展至智能穿戴设备、现实场景捕捉等新型手段,使得基于URL或元数据的传统“退出”标识完全失效;其次,AI模型训练具有一次性、超前性和数据再利用特性,即便后续成功退出,也无法消除作品在早期训练阶段已被使用的事实,实质上默许了历史侵权行为;最后,也是最关键的一点,它将本应由AI企业承担的版权授权责任,逆向转嫁给分散且资源有限的个体创作者,要求他们追踪全球无数AI系统并逐一申请退出,这无疑是一项不可能完成的任务。
一、法律本质错位:“退出”背离版权制度根基
根据《版权法》的基本原则,版权所有者对其作品享有专有使用权,并有权决定是否许可他人使用,这是一种典型的“选择加入”(Opt-in)机制。除非符合法定例外情形(如合理使用),任何第三方在使用受版权保护的内容前,必须获得权利人的明确授权。
通常情况下,这种授权通过许可协议实现,而发起请求的责任理应归属于使用者。也就是说,作为数据使用者的人工智能公司,依法应在训练模型前主动联系权利人并取得许可。然而,现实中许多AI企业并未履行此项义务。
相反,它们推行所谓的“选择退出”(Opt-out)机制,实质上是单方面宣布可以自由使用所有公开内容,除非权利人自行发现并提出反对。这种做法从根本上颠覆了版权制度的自愿性和排他性,把原本属于企业的法律义务转移给成千上万的创作者,无异于以技术便利之名行规避法律责任之实。
二、技术现实脱节:现有工具难以应对复杂抓取环境
当前市场上存在多种声称支持“退出”的技术方案,但这些工具在真实应用场景中面临严重局限。人工智能系统的多样性与分布广泛性,使得普通创作者几乎无法全面掌握各个平台的具体退出流程。要求每一位作者在每一份作品发布时都手动启用不同系统的退出功能,显然构成了极大的操作负担,尤其对高产内容生产者而言几近不可行。
更复杂的是,同一作品往往存在于多个网络位置——例如一首音乐可能同时出现在流媒体平台、社交媒体片段、用户上传的混剪视频中。由于每个副本都需要独立设置退出指令,创作者很难确保所有版本都被有效覆盖。而一旦某个副本未被标记,AI系统仍可合法抓取并通过模型内化其特征,从而使整个退出策略失效。
此外,下游衍生内容的存在进一步加剧了控制难度。当他人对原作进行改编、翻唱或二次创作后,原始权利人几乎无法追溯这些变体并在其中嵌入退出信号。这意味着即使原作者完成了全面退出设置,其创作风格与表达元素仍可能通过间接路径进入训练数据集。
[此处为图片2]三、非法复制泛滥:退出机制无法触及盗版源头
一个更为严峻的问题在于,大量AI公司所使用的训练数据包含来自非法网站的盗版内容。这些未经授权的复制品往往未经内容平台审核,也不存在任何形式的权利管理信息或退出选项。即便版权所有者在其合法发布的所有渠道中启用了退出机制,也无法阻止AI系统从盗版镜像站、论坛或P2P网络中抓取侵权副本。
事实上,已有证据表明,一些主流AI模型的训练语料库中包含了大量明显来源于盗版资源的书籍、期刊和艺术作品。由于这些数据源本身缺乏规范管理,退出机制在此类场景下彻底失灵。除非AI企业主动清理其数据供应链,否则无论创作者如何努力,都无法真正切断作品被滥用的路径。
四、技术工具局限:现有防护手段易被绕过
尽管目前已有诸如robots.txt、元标签屏蔽、API访问控制等技术手段可用于限制网络爬虫行为,但这些工具的设计初衷并非针对AI数据抓取,因此在实际应用中存在显著短板:
- 其有效性依赖于AI公司自愿遵守规则,而现实中许多企业会刻意忽略或规避这些限制;
- 部分大型公共数据集(如Common Crawl)长期无视付费墙、robots协议及其他技术屏障,批量抓取整站内容并开放供商业AI训练使用;
- 某些AI开发者甚至专门设计绕过反爬机制的工具,以获取更多“免费”训练数据。
由此可见,即便创作者采取了所有可行的技术防护措施,只要AI公司不愿配合,这些努力终将付诸东流。技术上的不对等地位,使个体创作者在面对庞大算力与资本驱动的AI系统时,处于绝对劣势。
综上所述,“退出机制”虽披着“尊重创作者意愿”的外衣,但在法律逻辑、技术可行性和现实执行层面均存在根本性缺陷。它不仅未能真正保障版权权益,反而将合规成本不合理地转嫁给弱势一方。相比之下,建立以“选择加入”为基础的透明授权体系,推动AI企业与内容创作者之间的公平合作与价值共享,才是实现技术进步与文化繁荣双赢的可持续路径。
robots.txt 协议是当前关于退出机制讨论中常被引用的技术手段之一。尽管该协议能够向网络爬虫发出不抓取受版权保护内容的提示,但其实际效果极为有限。
这种局限性首先源于 robots.txt 的工作机制:它仅在爬虫主动遵守的前提下才有效。更关键的是,该协议最初的设计目的并非防止人工智能(GAI)训练用途的数据抓取,而是用于控制搜索引擎对网页的索引行为。因此,一旦网站通过 robots.txt 禁止访问,不仅会阻止 AI 爬虫获取数据,也会同时屏蔽主流搜索引擎的收录。对于大多数版权所有者而言,他们希望作品能被公众通过搜索发现以实现传播和盈利,但又不希望这些内容被用于未经许可的人工智能训练。而 robots.txt 无法区分这两种用途,导致权利人面临两难局面——若要彻底阻止 AI 抓取,就必须牺牲自身的可发现性和商业价值。
此外,robots.txt 的作用范围局限于特定 URL 或整个网站层面,并不能直接保护“作品”本身。这意味着,即使原发网站设置了禁止抓取规则,只要该作品的副本出现在未设置 robots.txt 的第三方平台(如盗版站点),这些副本仍可能被 AI 系统采集并纳入训练集。由于版权所有者无法控制所有网络节点上的内容传播,这一漏洞使得 robots.txt 在防范 AI 非法使用方面显得力不从心。
虽然行业内正在合作研发更具针对性的技术工具,用以应对人工智能爬虫带来的挑战,但这些方案尚处于早期阶段,只能部分缓解问题,远不足以支撑起完整的版权保护体系。
四、利益失衡:“二元选择”抑制合作空间
目前多数退出机制存在一个根本缺陷:其运作逻辑基于非此即彼的二元判断——要么允许使用,要么完全禁止。这种刚性结构剥夺了版权所有者与人工智能企业之间协商具体使用条款的可能性。
实际上,在现行版权法律框架下,双方本可通过许可协议灵活约定使用方式、范围与报酬。如今,越来越多行业主导的技术创新正致力于构建更加精细化的机制,例如将“选择退出”与付费授权等条件相结合。然而,这类机制本质上已不再是单纯的退出安排,而更接近于一种新型许可模式。
正如人工智能版权许可实践所展示的那样,当前市场上已涌现出大量基于许可的合作案例。许多中小型人工智能公司正是依托与创作者或版权方达成的合法授权协议来开展业务。这类“选择加入”式的合作模式,不仅促进了技术发展,也加强了创意产业与人工智能领域的融合。相比之下,强制性的选择退出机制缺乏弹性,预设了人工智能训练必然损害创作者权益的前提,无形中扼杀了协同创新的空间,反而阻碍了技术和艺术的共同进步。
五、选择退出机制可能违背国际条约义务
在通用人工智能领域推行强制性选择退出制度,尤其是在设立版权例外的情况下,可能违反《伯尔尼公约》所规定的国际义务。
作为拥有182个缔约国的重要国际版权条约,《伯尔尼公约》第五条明确指出:版权保护不得依赖于任何形式主义要求。而选择退出机制恰恰引入了一种新的形式化门槛——即权利人必须主动声明才能保留其专有权利。这实质上颠倒了版权保护的基本原则,使权利行使变得有条件化,从而削弱了自动保护原则的核心精神。
特别是在涉及版权例外的情形下,若法律允许 AI 公司默认使用作品,除非权利人明确提出反对,则相当于变相剥夺了未及时“退出”的创作者的合法权益。此类机制不符合《伯尔尼公约》对版权最低保护标准的要求,任何国家的立法体系都不应容忍这种违背国际义务的做法。
六、缺乏透明度与追责则退出机制形同虚设
无论退出机制在理论上有何作用,若缺乏配套的透明度规范以及对人工智能企业的责任约束,其实效将大打折扣甚至归于无效。
当前,一些人工智能公司虽声称提供退出渠道,却并未承担确保这些机制真正运行的责任。要建立负责任、尊重权利且符合伦理的人工智能生态,就必须对 AI 开发者施加强制性的透明度义务。如果企业主张其模型是在尊重版权的基础上训练而成,那么它们就不应拒绝公开训练数据来源中的受版权保护内容清单。
唯有通过充分的信息披露,才能验证任何退出机制是否真正落实了对创作者权利的保护。无论是企业自愿实施还是法律强制要求的退出安排,透明度都是确保其可信度和执行力的关键。
基于上述理由,强制性的选择退出机制不应成为政策方向。但与此同时,一种自愿性质的通知机制仍具现实意义——允许版权所有者明确告知人工智能公司其作品不得用于 GAI 训练。无论通知形式如何,一旦收到此类声明,相关企业及使用者均有义务予以尊重。若人工智能公司无视该通知,继续抓取、导入或使用相关内容,则应被视为故意侵权,并依据《版权法》承担更高的赔偿责任。
出路在于授权:从“虚假退出”走向“透明许可”
真正可持续的解决方案不在于设置被动防御式的退出程序,而在于推动建立开放、透明且基于授权的合作机制。只有通过清晰的权利确认、双向协商和可追溯的数据使用记录,才能实现人工智能发展与版权保护之间的良性平衡。
前Stability AI高管、现任Fairly Trained首席执行官Ed Newton-Rex在其文章《生成式人工智能选择退出的不可克服的问题》中,系统性地指出了“选择退出”机制在实践中的十大根本缺陷。这些论点有力地支持了一个核心观点:当前主流的退出机制并非真正尊重创作者权利的有效方案,反而在多个层面上削弱了版权保护的基本原则,并对创意生态与技术创新构成阻碍。
首先,“选择退出”机制本质上是一种被动防御,它要求创作者主动采取行动来保护自己的作品,而不是默认尊重其权利。这种模式忽视了绝大多数创作者缺乏资源、信息和技术手段去全面监控和管理其内容被AI公司采集使用的现实。因此,所谓的“选择权”实际上是一种虚假的自由。
以下是Ed Newton-Rex提出的十个关键理由:
1. 对衍生副本无能为力
许多退出机制依赖网址或元数据识别原始内容,但对于广泛传播于社交媒体截图、网页嵌入广告、论坛转载等场景下的衍生副本,这类技术手段完全失效。一旦作品进入网络空间,创作者便失去了对其分发路径的控制,退出机制无法覆盖这些非原始形式的存在。
2. 大部分人根本不知道如何退出
实证研究表明,选择退出的实际参与率极低。这并非源于创作者默许使用,而是因为他们从未被告知该机制的存在,或错过了短暂开放的申请窗口。信息不对称使得这一机制形同虚设。
3. 二元选择剥夺了灵活授权的可能性
退出机制通常只提供“全有或全无”的选项——要么允许使用,要么彻底禁止。这意味着创作者无法区分“允许搜索引擎索引”和“允许用于AI模型训练”。若为防止训练而选择退出,可能导致其内容从搜索结果中消失,进而影响流量与收益。
4. 新兴设备绕过现有防护体系
随着智能眼镜、可穿戴摄像头等现实世界数据采集设备的发展,大量视觉内容直接来自物理环境,未经传统网络爬虫抓取,也无法附加元数据标签。此类数据完全规避了基于网页的退出机制,使其失去效力。
5. 爬虫技术迭代迅速,难以追踪应对
AI企业不断开发新型网络爬虫工具,以更隐蔽、高效的方式获取数据。版权持有者往往处于被动地位,无法及时识别所有相关爬虫,更无法在新工具上线前完成有效阻断,始终存在时间滞后。
6. 变相承认并延续历史侵权行为
多数退出机制是在模型已完成训练后才推出的,这实际上默认了此前未经授权的数据使用为既成事实。更为严重的是,即使某作品未来被成功退出,AI公司仍可利用基于该作品生成的合成数据继续训练新模型,实现长期受益。
7. 全面退出操作成本过高
创作者的作品通常分布在多个平台、跨越多年发布周期。要逐一为每部作品提交退出请求,涉及繁琐的身份验证、平台对接和文档管理,对于个人或小型机构而言,几乎是一项不可能完成的任务。
8. 设定截止日期施加不合理压力
很多退出机制设有明确的时间窗口,迫使创作者在缺乏充分信息的情况下仓促决策。一旦错过期限,其作品将在下一轮模型训练中被视为可合法使用的数据源,形成事实上的强制许可。
9. 后果不透明导致决策犹豫
创作者普遍不清楚选择退出是否会影响其内容在搜索引擎中的可见性或其他平台算法推荐。由于缺乏清晰说明,许多人宁愿保持现状,从而降低了整体退出意愿。
10. 加剧对小创作者的结构性不公
资源有限的独立艺术家、自由职业者和小型创作团队,难以投入人力物力去跟踪各个AI公司的政策变化并执行复杂的退出流程。相比之下,大型机构则更有能力进行系统性维权,进一步拉大了权利保护的差距。
综上所述,建立在“先使用、后退出”逻辑上的机制,并不能真正保障创作者的权利。相反,它将责任转嫁给内容生产者,掩盖了数据采集过程中的合法性缺失问题。
真正的解决方案应立足于事前授权,即通过标准化的版权许可机制,让AI开发者在训练模型之前就获得合法使用权。这种方式不仅尊重原创者的意愿与权益,也为人工智能产业构建可持续、合规的发展路径提供了基础。唯有如此,技术进步才能与创意经济实现共赢,而非以牺牲创作者利益为代价。


雷达卡


京公网安备 11010802022788号







