缩略图

GenAI数据蒸馏技术冲击下的版权伦理困境

作者

陈嘉骁

湖南省湘潭市湘潭大学411100

一、问题的提出

在人工智能技术迭代的浪潮中,大规模预训练语言模型已成为推动自然语言处理范式变革的核心技术架构。然而,其训练与推理过程产生的高算力需求严重制约技术普惠性。

DeepSeek-R1作为该技术路线的典型实践,在2025年引发学界与业界的双重关注。该模型采用数据蒸馏技术[[[] See Daya Guo, et al., DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv preprint arXiv:2501.12948 (2025).]],重构了行业成本曲线,在性能接近的情况下,其训练成本不到OpenAI公司的Gpt-4o人工智能模型的1/10。[[[]  参见刘扬、任重:《突然火爆全网!中国“神秘力量”震动美国科技圈》,载微信公众号“环球网”2025年1月27日。]]数据蒸馏技术是通过从教师模型中提取概率分布特征而非直接复制表达性内容,DeepSeek-R1等模型以较低训练成本实现了性能突破,显著降低了行业准入门槛。这种技术路径当前存在的争议焦点是:OpenAI通过用户协议禁止其生成内容用于竞争性模型训练,却自身依赖互联网公开数据和海量人类版权作品构建ChatGPT——这种"技术霸权"逻辑与其技术起源存在根本性矛盾。正如人类画师通过临摹经典形成个人风格,AI学习本质是知识继承的数字化延伸。日本画师抗议AI 模拟风格,却忽视自身创作同样建立在先验知识基础上——这种"恐惧驱动的双重标准"暴露了传统版权制度的滞后性。

在当前阶段,对于AI公司而言,如果希望各个社区、各个软件的数据和版权作品向GenAI训练开放,就应该支持现在的Deepseek乃至往后新兴的一系列GenAI去“蒸馏”其他AI的数据。当然,反过来说,Deepseek也没有资格反对别人蒸馏自己的数据,也会看到后来的追赶者快速接近自己的水平。所以真正的问题不是蒸馏数据,而是在在GenAI数据蒸馏技术冲击下,作为观念上层建筑的传统版权伦理改如何去适应以Deepseek为代表的GenAI带来的新兴生产力的发展。

二、数据蒸馏过程中的著作权法律风险多维解析

在人工智能技术迭代进程中,数据蒸馏通过迁移训练模型的知识体系实现算法优化,这一技术特性与现行著作权法律制度产生结构性冲突,需从权利客体认定、行为性质界定及责任追溯机制三个维度展开深入探讨。

(一)技术解析行为对复制权保护范畴的突破与挑战

数据蒸馏的核心技术路径在于提取教师模型的内部参数,将隐含在算法中的知识体系迁移至新模型。[[[] 黄震华,杨顺志,林威,等.知识蒸馏研究综述[J].计算机学报,2022,45(03):624-653.]]此行为在法律定性上面临三重困境:其一,传统著作权法中的复制权以固定化表达形式为保护对象,而参数解析获取的是抽象化知识结构,二者在权利客体上存在本质差异;其二,欧盟法院在"足球赛事数据库案"中确立的"实质性投资保护"原则,虽为数据库制作者权益提供保护路径,但将其延伸适用于算法参数保护时,可能不当扩张著作权边界;其三,我国《著作权法》第10条确立的改编权制度,其规范意旨在于规制对原作品表达形式的二次演绎行为,通过赋予权利人对衍生作品的排他控制权维系创作激励。该条款的适用边界在司法实践中通常遵循"表达形式转换说",即要求演绎作品须在作品外在表现形式层面呈现可识别的重构特征,如将小说改编为剧本所涉及的叙事视角转换、场景调度调整等具体表达元素的创造性重组。然而,当技术实践突破传统表达载体的物理边界,转向对作品内在逻辑结构的提取与复用时,现行改编权条款的规制效能面临结构性挑战。尤其体现在计算机软件领域,对功能性代码逻辑架构的复制行为往往游离于法律评价之外——若开发者仅借鉴程序模块的交互逻辑与数据结构,而未直接复制代码文本的具体表达形式,则难以落入改编权的涵摄范围。这种制度空白本质上源于传统著作权法对"思想—表达二分法"的机械适用,未能充分回应技术演进催生的新型模仿形态。

(二)生成内容在衍生作品认定中的法律边界争议

学生模型通过算法训练习得的叙事风格、行文逻辑等抽象特征,可能突破著作权法"思想—表达二分法"的传统界限。具体而言,当生成内容与特定作品存在美国"模糊界线案"确立的"整体观感相似性"时,即便文字表达层面存在差异,仍可能触发衍生作品认定争议。日本2023年修订的《著作权法》增设"显著风格模仿"条款,将具有市场识别性的创作风格纳入表达保护范畴,这一立法动向值得关注。我国司法实践中,"琼瑶诉于正案"确立的"情节串联相似性"标准,为算法生成内容的实质性相似认定提供了裁判思路延伸空间。若数据蒸馏形成的模型能够系统性输出特定权利人的标志性创作元素,则可能构成对表达形式的隐性复制。

(三)技术黑箱效应引发的责任追溯制度重构需求

算法模型的不可解释性导致传统著作权侵权认定规则面临适用障碍。[[[] 张欣.人工智能治理的全球变革与中国路径[J].华东政法大学学报,2025,28(01):18-32.]]首先,"接触+实质性相似"证明标准在技术场景下显现局限性:公开可获取的预训练模型虽可推定"接触"要件的成立,但黑箱特性使得输入数据与输出内容间的因果关系难以直接验证;其次,差异化训练产生的形式变化可能成为抗辩事由,即便学生模型在深层次仍依赖教师模型的知识体系;最后,我国现行证据规则缺乏针对算法知识迁移的专门取证规范,当事人难以有效举证模型间的知识传递路径。

当前,人工智能领域新兴的数据蒸馏行为尚未形成专门法律规制。基于促进技术发展与维护产业生态平衡的考量,有必要针对数据蒸馏技术进行合法性认定的法理重构与制度回应。

三、数据蒸馏技术合法性认定的法理重构与制度回应

在人工智能技术迭代与法律制度演进的交互作用下,数据蒸馏行为引发的合法性争议已从具体规则适用问题上升至法律价值衡平层面。当前法律体系尚未形成专门规制框架的现实困境,本质折射出技术创新速率与制度回应能力之间的深层矛盾。

从利益平衡维度审视,数据蒸馏行为的合法性争议核心在于合理使用原则的边界厘定与制度逻辑自洽。OpenAI自身以合理使用为抗辩理由利用互联网海量数据和人类版权作品来训练ChatGPT,却又禁止其生成内容被其他主体用于竞争性模型训练,这种立场选择暴露出合理使用原则适用中的价值悖论。若遵循"单向豁免"逻辑,允许企业不受限制地使用在先作品训练模型却禁止后续技术主体利用模型产出,将导致合理使用制度陷入"自我指涉困境":主张训练行为合法性的前提在于承认技术处理的转换性价值,而否定模型产出的可复用性则间接消解了自身行为的正当性基础。

将视角转向产业促进维度,数据蒸馏技术的制度包容性关乎生成式人工智能时代竞争秩序的建构效能。该技术通过知识迁移实现算法能力的普惠化传导[[[] 段玉聪.抢占 AI 话语权:DeepSeek 的技术优势、战略布局与未来生态图景[J/OL].新疆师范大学学报(哲学社会科学版),1-17[2025-02-17].]],客观上具有打破"数据孤岛"、降低研发门槛的积极效应,这在我国人工智能产业发展实践中已获实证。以阿里云"通义千问"模型的蒸馏应用为例,其通过参数压缩技术使中小企业能够以十分之一成本获得基础模型的抽象知识体系,这种技术扩散效应显著提升了行业整体创新效率。但若放任头部企业借助知识产权壁垒实施技术封锁,将导致《反垄断法》所规制的"必需设施原理"遭受侵蚀。从制度经济学的视角观察,知识产权的强保护倾向可能引发"反公地悲剧",当多方主体对关键技术的使用施加重叠限制时,最终将导致资源配置效率的系统性衰减。

综上所述,面对技术变革带来的制度挑战,法律系统的适应性调整需遵循"规范弹性化"与"监管精细化"的双重路径。法律作为社会关系的调节器,其首要价值在于通过确定性规则建立可预期的行为模式,这种稳定性注定其无法因短期内新兴事物而调整。因而,面对当前GenAI数据蒸馏技术冲击,更为可行的是在行业治理层面,推动建立跨企业技术伦理委员会,制定数据蒸馏技术的应用公约,通过软法规范填补硬法制度的滞后性缺陷。唯有实现技术理性与法律价值的协同进化,方能在保障创作者权益与促进产业创新之间达致动态平衡,这也是生成式人工智能时代版权伦理乃至于著作权制度变革的必由之路。