公共领域视角下大模型数据使用的著作权定性
在当下科技飞速发展的时代,人工智能大模型技术犹如一颗璀璨新星,以令人惊叹的速度蓬勃兴起,在各个领域掀起了变革浪潮,著作权法领域也深受冲击,引发了诸多极为复杂且影响深远的争议。在大模型训练的关键环节,为了让模型能够学习到丰富多样的知识、语言模式以及创作逻辑等,开发者往往需要收集和利用海量受著作权保护的各类作品作为不可或缺的数据支撑。然而,现实中大量未经授权便大规模使用这些数据的现象屡见不鲜,这种行为被众多著作权人强烈指责为 “数字盗窃”,因其粗暴地践踏了著作权人的合法权益,破坏了原有的著作权生态秩序。
当来到模型的输出阶段,新的问题又接踵而至。模型所生成的内容常常与原作在诸多方面呈现出较高的相似度,这一现象使得人们对其可能产生的替代效应产生了深深的忧虑。例如在文学创作领域,一些由大模型生成的文章、故事等,从情节架构到语言表述,与人类作者创作的原作极为相似,这不仅可能导致读者对作品来源产生混淆,更有可能抢占原作在市场中的份额,压缩著作权人的创作空间和经济收益。传统的著作权法体系在面对这一全新技术带来的严峻挑战时,显得有些力不从心。合理使用、非表达性使用等传统理论在实际应用过程中,由于大模型技术的特殊性和复杂性,不同的法律从业者、学者存在着广泛且难以调和的分歧,无法形成统一且有效的应对方案。因此,从全新的公共领域视角出发,重新构建一套科学合理、行之有效的分析框架,成为了当下著作权法领域亟待解决的重要课题。
二、大模型数据使用行为的分层定性逻辑
1.技术分层与产业特征
大模型产业呈现出极为清晰且独特的 “基础层 - 中间层 - 应用层” 垂直分层结构。处于底层的基础层,承担着最为核心且关键的模型训练任务。它需要投入大量的计算资源、专业技术以及海量的数据,通过复杂的算法和深度学习过程,构建起大模型的基础架构和核心能力,就如同为一座高楼大厦打下坚实的地基。而位于上层的应用层,则主要聚焦于内容生成,将基础层训练好的模型应用到实际场景中,为用户提供诸如智能写作、图像生成、智能问答等多样化的服务。
基于这种产业特性,在进行法律评价时,需谨慎遵循 “宽进严出” 原则。对于前端的数据训练环节,考虑到其对技术创新的重要推动作用以及在早期阶段难以精确界定合理使用边界的实际情况,应采取相对包容式的规制策略,给予一定的发展空间和试错机会;而对于后端的内容生成环节,由于其直接面向市场和用户,与著作权人的利益直接相关,所以必须实施严格审查,确保每一个生成的内容都符合著作权法的相关规定,不侵犯他人的合法权益。
2.公共领域的非作者价值理论
深入剖析数据训练过程,其本质在于从海量的作品中提取隐藏其中的元知识。这些元知识涵盖了创作逻辑,比如小说创作中情节的起承转合规律、人物关系的构建模式;语言规律,包括不同语言的语法结构、词汇搭配习惯等,这些都属于非表达性要素的范畴。这些要素并非由某一特定作者所独创,而是在人类知识传承和创作实践过程中逐渐形成的公共资源,归属于公共领域的非作者价值。从实际影响来看,对这些元知识的使用,并没有对著作权人造成明显可感知的损害。因为著作权人所享有的权利主要集中在对其作品具体表达形式的保护上,而元知识的提取和运用并没有直接使用作品的具体表达。所以,从著作权法的完善角度出发,应借助 “客体排除规则”,明确地将元知识纳入公共领域的范畴,让其能够在合理的范围内被自由使用和传播,而不是在事后依靠复杂且充满争议的合理使用抗辩来解决相关问题。
3.表达替代的损害认定标准
在模型输出端,一旦生成的内容与原作在整体架构、核心情节、关键表述等方面达到实质性相似的程度,就可以明确认定其对表达市场造成了直接侵害。为了准确判定这种侵权行为,需精心构建 “技术中立 + 实质性相似” 的双重审查标准。在这一标准中,要重点关注多个关键因素。算法设计是否存在缺陷至关重要,若算法设计不合理,可能导致模型在学习过程中过度依赖某些作品,从而增加生成内容与原作相似的风险;训练数据规模大小也不容忽视,过大的训练数据规模如果缺乏有效的筛选和管理,可能会包含大量未经授权的作品,增加侵权概率;用户提示具体程度同样会对生成内容产生影响,过于具体的用户提示可能引导模型生成与特定作品高度相似的内容。通过建立完善的技术过滤机制,如在模型生成内容的过程中,设置多重检测环节,对可能存在的侵权风险进行实时监测和过滤,有效防范表达替代风险,切实保障著作权人的合法权益。
三、合规治理的制度构建
1.前端数据训练的合规框架
(1)设立公共领域数据库认证制度是前端数据训练合规的重要举措。通过建立一套科学严格的认证标准和流程,对各类数据库进行审核,只有那些符合规定,所包含数据均来自公共领域或者已获得合法授权的数据,才能获得认证。这样一来,就能清晰明确地界定可用于训练的数据范围,为开发者提供明确的指引,避免其因对数据来源合法性判断失误而陷入侵权风险。
(2)引入 “接触 - 提取” 二分法,为在特定技术条件下进行非表达性使用提供了可能。在符合一定技术规范和安全要求的前提下,允许开发者接触受著作权保护的作品,但只能提取其中的非表达性要素,如前文提到的创作逻辑、语言规律等,从而在保障著作权人基本权利的同时,促进技术创新和知识传播。
(3)搭建数据使用补偿基金,是对规模化数据使用实施集体管理的有效手段。当开发者进行大规模的数据使用时,按照一定的标准向补偿基金缴纳费用,该基金再根据科学合理的分配机制,对相关著作权人进行适当补偿。这种方式既解决了单个开发者与众多著作权人逐一谈判授权成本过高的问题,又保障了著作权人的经济利益,实现了规模化数据使用与著作权保护的平衡。
2.后端内容生成的风险防控
(1)强制推行内容溯源与标记制度,是构建 AI 生成内容可追溯体系的关键。要求所有通过 AI 模型生成的内容,都必须附带明确的溯源信息,包括使用的模型名称、版本,训练数据的大致来源等,同时对内容进行特殊标记,让用户能够清晰辨别其为 AI 生成内容。这样一来,一旦出现侵权纠纷,能够快速准确地追溯到内容的生成源头,便于责任认定和纠纷解决。
(2)研发风格识别算法,针对模仿特定作者风格的行为进行技术限制。通过对大量作品的学习和分析,算法能够识别出特定作者的创作风格特征,当模型生成内容中出现过度模仿某一作者风格的情况时,及时进行预警和干预,限制这种可能侵犯作者独特创作风格权益的行为。
(3)完善侵权判定的 “三步检验法”,着重考量市场替代效应。在判定后端内容生成是否构成侵权时,首先判断该行为是否在特定的例外情形之内;其次分析这种使用行为是否与作品的正常利用相冲突;最后重点评估是否不合理地损害了著作权人的合法利益,尤其是对市场替代效应进行深入分析,综合判断是否构成侵权。
3.技术创新的激励机制
(1)制定技术创新豁免清单,对基础研究类训练行为给予责任豁免。对于那些纯粹出于学术研究、技术探索目的,且对社会整体技术进步具有重要推动作用的基础研究类训练行为,即使在数据使用过程中存在一些技术瑕疵或者与现有著作权规定不完全相符的情况,也给予一定的责任豁免,鼓励科研人员积极投身于前沿技术研究。
(2)组建数据共享联盟,是推动公共领域数据开放与利用的有效途径。通过整合各方资源,将分散在不同机构、组织和个人手中的公共领域数据集中起来,建立统一的数据共享平台,制定合理的共享规则,促进数据在合法合规的前提下自由流通和充分利用,为大模型技术的发展提供丰富的数据资源。
(3)完善著作权集体管理制度,能够有效降低交易成本。通过加强集体管理组织的建设,提高其管理效率和服务水平,优化授权流程和费用收取标准,使得著作权人能够更加便捷地通过集体管理组织授权他人使用自己的作品,开发者也能够以更低的成本获取合法授权,促进著作权交易的顺利进行,激发市场活力。
四、司法裁判的发展方向
1.分层责任认定原则
确立 “前端免责 + 后端担责” 的责任分配模式具有重要的现实意义。在大模型技术发展过程中,前端的数据训练环节对于技术创新和产业发展起到了基础性的推动作用,且在这一阶段,很难精准判断每一个数据使用行为是否侵权,若过度苛责,可能会严重阻碍技术创新。因此,仅针对生成阶段的直接侵权行为追究责任,避免将基础层训练行为纳入侵权认定范畴,这样既能保护著作权人的合法权益,又能为技术创新营造相对宽松的法律环境。
2.技术中立原则的适用
在判定技术提供者责任时,准确区分技术设计缺陷与用户不当使用是关键。技术中立原则要求,只要技术提供者所开发的技术符合行业标准,在正常使用情况下不会导致侵权行为发生,那么对于用户利用该技术进行的不当侵权行为,技术提供者不应承担责任。例如,某 AI 写作软件开发者按照行业通行标准开发了软件,但个别用户利用该软件恶意抄袭他人作品,在这种情况下,若软件本身不存在技术漏洞或诱导侵权的设计,开发者不应被追究责任,以此鼓励技术创新和发展。
3.公共领域的司法扩张解释
在具体案件审理中,灵活运用 “思想 / 表达二分法” 进行动态解释,将创作风格、元知识等要素纳入公共领域,为技术创新留出足够空间。随着大模型技术的发展,传统的著作权保护边界需要重新审视。对于一些难以明确界定为具体表达的创作风格、元知识等,在司法实践中通过合理的解释,将其纳入公共领域,使得开发者在技术研发过程中能够合理利用这些资源,推动技术不断创新和进步。
五、结论与展望
大模型技术与著作权法的冲突,追根溯源,在于创新需求与权利保护之间复杂而微妙的价值博弈。一方面,大模型技术作为推动社会进步和经济发展的重要力量,其发展需要充足的数据资源和宽松的创新环境;另一方面,著作权法的存在旨在保护著作权人的合法权益,激励创作,维护文化创作的生态平衡。引入公共领域理论,构建分层治理框架,恰是平衡这两者关系的有效途径,既能切实保障著作权人合法权益,让其创作成果得到应有的尊重和保护,又能为技术创新提供坚实的制度支撑,促进大模型技术健康有序发展。展望未来,需重点关注数据确权规则的进一步完善,明确不同类型数据的权利归属,避免数据权属纠纷;加强技术治理标准的制定和更新,使其能够紧跟技术发展步伐,有效规范技术应用;积极参与国际规则协调,在全球范围内形成统一的大模型技术著作权治理规则,共同应对全球性的技术挑战,致力于营造创新友好型的知识产权法治环境,为大模型技术与著作权保护的和谐共生奠定坚实基础。
参考文献
[1] 黄汇,翟鹏威。公共领域视野下大模型数据使用行为的著作权定性 [J]. 知识产权,2025 (1):94 - 110. [2] 李安。机器学习的版权规则:历史启示与当代方案 [J]. 环球法律评论,2023 (6):97 - 108. [3] 涂藤。机器学习的著作权侵权判定:超越非表达性使用理论 [J]. 政治与法律,2024 (10):162 - 174. [4] Bracha O.Generating Derivatives: AI and Copyright's Most Troublesome Right [J].North Carolina Journal of Law and Technology,2024,25 (3):345 - 368. [5] Sag M.Copyright Safety for Generative AI [J].Houston Law Review,2023,61 (2):295 - 320.