生成式AI的数据治理：穿透式监管的应用框架与限度

一、生成式 AI 的数据风险与治理现状

（一）生成式AI 的数据风险

生成式AI 数据运行分为三个核心阶段收集、储存、及利用，涉及数据主体涵盖公共主体、企业与个人。

1. 运行阶段的数据风险

数据收集风险主要是合法性风险，如网络爬虫突破Robots协议、超范围处理个人信息等。国内首例AIGC侵权案中，AI因使用含奥特曼形象的未授权数据引发著作权纠纷。又数据代表性不足引起价值观偏差显著。数据存储风险是指数据储存于数据库或其他服务器时，因技术漏洞或人为因素导致的风险隐患。研究显示，通过分散式攻击可从ChatGPT 提取超万条训练数据，微软曾因AI开发者开源操作失误泄露 38 TB容量的隐私训练数据。数据利用阶段风险是指生成式AI调取数据进行算法处理，生成相应的文字、图片或视频等应答。这一阶段风险体现为算法偏见固化和隐私推理风险。前者指训练数据若含歧视性内容，将通过 "反馈循环" 强化社会偏见。后者表现为大模型的强推理能力可重构去标识化数据。

2. 不同主体的数据风险

从公共主体角度来看，有 80% 的社会信息资源集中于政府部门，AIGC数据滥用可能威胁国家安全，且公开细则缺失导致市场获取成本不均。社会服务主体将其所掌握的专业数据应用于大模型训练，因为这些数据的异质性，其结果导向可能具有不确定性。

从私主体角度来看，企业与个人的数据风险体现技术创新与权益保护难舍难分。技术竞赛催生出“数据孤岛”，企业为保持竞争优势拒绝共享数据，阻碍大模型产业协同发展；OpenAI曾因Redis开源数据库漏洞泄露用户隐私，这暴露出生成式AI行业合规体系仍滞后。技术创新带来的新型权利侵害使得包涵敏感个人信息的数据用于生成式AI的大语言模型预训练时，模型就会牢牢“记住”这些敏感个人信息，并可能泄漏它们。AI技术能够生成原本受保密义务保护的个人数据，从而使相关数据保护机制形同虚设。

二、生成式 AI 的数据治理现状与特征洞察

AIGC 数据治理呈现出技术性与国别性特征。各国在基础设施、处理能力和治理技术存在差异，导致其治理路径、数据合规标准等显著不同；发达国家凭借技术优势，倾向于通过制定数据跨境流动规则主导全球治理话语，而发展中国家则更关注维护自身数据主权，以防范技术霸权可能带来的数据资源流失风险。

1、欧洲：严格监管模式

以《人工智能法案》与《通用数据保护条例》等法律为信息数据保护机制的核心；以《欧盟非个人数据自由流动框架条例》等法规为数据流动监管机制为补充的数据监管规范体系，强调分级治理，要求算法透明化与数据全流程追溯。德国发布《人工智能与数据保护指南》，英国也颁布了《2024 年人工智能法案》同时在数据保护领域设置信息专员办公室负责数据保护的工作。但这种较为严格的监管模式或许会在一定程度上对数据要素的技术赋能效应起到抑制作用，进而制约生成式人工智能的创新速度，使其难以快速发展。

2、美国：创新导向模式

联邦层面以《人工智能权利法案蓝图》为指引，侧重行业自我监管，45 个州 2024年提出AI 相关立法，其中科罗拉多与加利福尼亚州要求披露训练数据来源与治理措施。但联邦立法滞后导致规范碎片化，州级规则差异可能阻碍全国性数据流通。

3、我国：制度建构初期

《网络安全法》《数据安全法》《个人信息保护法》《生成式人工智能服务暂行管理办法》的框架已经形成，但仍有不足：一是监管协同不足。数据来源广泛性与部门分工局限性导致“九龙治水”，《数据安全法》未明确跨部门协作机制；二是技术监管缺位。现有备案制度仅覆盖算法，数据全生命周期缺乏动态监管；三是规则粗疏。《暂行办法》未回应数据垄断、跨境流动等新兴问题，与《反垄断法》衔接不足。

三、穿透式监管的工具理性与运行限度

（一）穿透式监管的工具理性

穿透式监管源于金融领域，通过横向与纵向追踪资金流向提升监管效能。将其引入生成式 AI 数据治理，可从流程与主体双维度实现动态监管。

1、过程性穿透：全周期数据治理

数据收集时对不同来源数据实施差异化监管。对智能设备采集的无主数据简化审查，对个人或组织提供的数据则严格溯源，要求标注清晰来源，落实《数据安全法》数据说明义务。同时建立数据质量审查机制，重点核查时效性、价值性，防范数据偏见。数据存储时针对存储主体多元性，以保密性、完整性、可用性为标准构建穿透监管。要求存储方采取硬件加密、算法校验等措施，明确安全责任归属。数据利用时聚焦数据训练质量问题，建立数据使用审查与风险预警制度。对数据提供者实施质量核验，对使用者设置风险反馈机制，防止训练数据偏见经算法放大产生歧视性输出。

2、主体性穿透：分类分级精准监管

公共数据是公共属性强的数据，可通过授权加监管机制实现风险防控。重点监管战略性政务数据使用，建立数据分类分级保护与流通准入标准，避免公共数据滥用威胁国家安全。企业数据需内部自律更需外部补充监管。要求企业在数据采集时备案技术方案与存储信息，利用数据要建立预警专班，确保数据交互合规，防止企业数据危机外溢。破解生成式 AI 难以满足个人数据“告知-同意”原则的困境，穿透式监管严审数据来源合法性与畅通主体维权渠道，以保障个人数据控制权。

（二）穿透式监管的运行限度

原则层面，通过比例原则限定监管边界，引入避风港原则实现责任梯度配置。机制层面，建立风险预警与事后救济的闭环：动态监测系统识别数据异常流动，配套梯度化注意义务制度；救济程序采用法定赔偿标准量化数据损害，并借鉴预防性公益诉讼介入。主体层面，形成“政府主导—行业协同—企业自律”的治理网络：由工信部统筹建立跨部门监管委员会制定技术标准，行业协会推动数据安全认证互认，企业通过合规审计与算法备案实现自律管理。既避免监管真空导致的系统性风险，又为技术创新保留弹性空间，符合数字时代“安全与发展”的动态均衡规律。

四、结语

数据治理与数据赋能的平衡之道在于通过比例原则为监管划定清晰边界，借助避风港规则缓解企业的合规焦虑；建立数据预警系统并完善法定救济程序确保数据安全与权益保障。让政府、行业与企业如三股细绳般交织成网—工信部门牵头制定规则，行业协会编织标准经纬，企业通过自律锚定责任。不过当前仍面临诸多挑战，需进一步研判分析并作出应对之策。

参考文献

[1]丁晓东.论人工智能促进型的数据制度[J].中国法律评论,2023,(06):175-191.

[2] Anne Trafton. Study reveals why AI models that analyze medical images can be biased, MIT EECS (28 June 2024)。

[3] 黄锫 . 生成式 AI 对个人信息保护的挑战与风险规制 [J]. 现代法学,2024,46(04):101-115.

[4] 武长海.数据法学[M]，法律出版社,2022.