AIGC风险识别与规制进路
陈泓瑶 彭睿
四川大学计算机学院 四川大学法学院 四川成都 610207
摘 要:ChatGPT的问世推动了生成式人工智能的蓬勃发展,标志着新一轮产业革命的开始,但是其发展与应用过程中潜藏着国家安全风险,最为直接的表现在内容输出阶段的意识形态风险,以及此阶段对作为总体国家安全观重要领域下的网络空间语言安全的潜在风险,亟需在总体国家安全观的指引下重塑AIGC治理的逻辑面向,落实并加强AIGC的“出口”安全审查,确保网络空间语言意识形态安全。
关键词:生成式人工智能,总体国家安全观,网络空间语言安全
党的二十大报告指出,“必须坚定不移贯彻总体国家安全观,把维护国家安全贯穿党和国家工作各方面全过程,确保国家安全和社会稳定”。总体国家安全观关键在“总体”,强调“大安全”理念,涵盖政治、文化、网络等诸多领域。语言安全不仅是总体国家安全观亟待拓展的重要新领域,而且是影响国家安全中经济安全、政治安全和文化安全等多个领域的基本要素之一。[1]而伴随着计算机技术和互联网技术的迅速发展,网络空间成为各种思想观念角逐交锋的主阵地和主战场,也就成为国家意识形态安全的最前哨和最前沿,维护网络空间语言安全意味着维护国家意识形态安全。
生成式人工智能的长足发展在加快了网络空间信息的传播速度的同时,也为国家的网络空间语言治理带来了极大的挑战。西方科技企业将人工智能与社会运行相耦合,使生成式人工智能极有可能出现生成内容杂糅意识形态导向这类问题[3]。对此,党的二十届三中全会提出“完善生成式人工智能发展和管理机制”“建立人工智能安全监管制度”“推进新闻宣传和网络舆论一体化管理”。并且在随后发布的《生成式人工智能服务管理办法》规定“利用生成式人工智能生成的内容应当体现社会主义核心价值观,不得含有颠覆国家政权、推翻社会主义制度,煽动分裂国家、破坏国家统一,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情信息,虚假信息,以及可能扰乱经济秩序和社会秩序的内容”。总体国家安全观下的国家治理体系和治理能力现代化亟需回应生成式人工智能可能带来的网络空间语言安全风险,如此方能将人工智能展更好的耦合中国式现代化进程中。加强生成式人工智能服务关键内容智能审查研究势在必行[3]。
一、现实问题:AIGC的快速发展给网络空间语言安全治理带来新的风险
生成式人工智能被广泛应用于网络空间,给网络空间安全既带来新变,也带来风险。因训练数据集的来源广泛,内容纷杂,不可避免的会使模型生成内容良莠不齐,而在一些涉及国家政治意识的方面如果被心之人利用和操纵极有可能产生误导性或者不良言论,并在网络空间中快速传播。互联网的催化作用使这些内容迅速和广泛的传播,极易投射到社会各个领域,导致信息失真和舆情失控,对政治安全也造成极大威胁。主要体现在以下方面:
(一)生成虚假政治信息影响国家政治稳定的风险
炒作经济形势、社会热点、公共安全,是境外势力长期以来干涉我舆论场的主要手段之一。政治投机分子利用AIGC生成虚假有害政治理论,美化西方某些政治、经济理论而抨击我国的大政方针。一方面,由于生成式人工智能技术具备个性化生产特点,用户在一对一的互动中可能会被不知不觉的灌输特定理念,潜移默化影响自身的价值观和世界观,其生成的内容可能也携带特定的文化倾向,极有可能加剧意识形态的分裂和对立。另一方面,随着人工智能技术深度伪造门槛降低,境外势力使用人工智能宣传政治、操纵舆论愈加方便,屡屡通过“境内炒作热点敏感话题—境外补充同类黑料—AI炮制合成谣言—水军倒灌境内传播”系列操作,造谣言、树靶子,对我社会稳定和国家安全构成潜在威胁[6]。
并且,深度伪造技术的诞生与应用让GenAI产生的内容存在一种所谓的“真实感”(truthiness)现象,容易让读者(听众、观众等)读(听、看等)起来非常地真实,即便它们并不真实。有人亦戏谑式地将这种现象称为“一本正经地胡说八道”。在深度伪造技术的加持下,GenAI可能被用于制造看似真实的新闻报道、社交媒体帖子和文章等,被用于创建虚假的社交网络身份,通过自动化的帖子和互动来操纵社交媒体趋势和用户行为,影响政治决策、社会事件和公众意见,从而引发政治安全风险[7]。
低成本的信息生成与高效的信息传播足以让西方反华势力垂涎不已,利用生成式人工智能在网络空间传播大量误导性信息,包括但不限于捏造事实或篡改数据,对华意识形态进行攻击和渗透,从而操纵海外涉华舆论导向。不仅对网络空间语言安全造成极大风险,也通过这一安全领域进一步影响我国政治意识形态,对国家安全的危害不可低估。
(二)在网络空间抓取“黑色预料”导致输出内容的政治偏见风险
AIGC本质上是算法模型迭代到一定高度的产物,在数据搜索阶段后,其运算生成过程的价值取向难免受到设计者和语料库价值取向的主导,难以做到客观中立的算法偏见蕴含着意识形态的风险[3]。
风险不仅仅在技术应用的过程中被生产出来而且在赋予意义的过程被生产出来,从总体安全观的角度来看,在当今全球各种思潮、文化和价值观念相互碰撞的背景下,人工智能技术面临着被政治操纵、用作意识形态宣传的风险。西方发达国家掌握大数据和人工智能核心技术,按照其自身价值观制定全球政治秩序和规则,裁剪符合自身意识形态标准的数据库[8]。生成式人工智能通过抓取国际互联网文本数据进行训练,导致生成内容易被互联网文本中包含的政治偏见、意识形态偏见所扭曲,诱发公众政治认知错误等社会治理风险,亟待构建生成式人工智能意识形态审查的权威语料库,监管和防范人工智能生成内容的政治内容偏见和扭曲。北京理工大学计算机学院相关研究发现。“ChatGPT生成内容中存在对于中国的大量偏见言论”。
此外,AIGC还集成了算法推荐技术,为了迎合用户偏好,平台会向用户推荐与其历史行为相似的内容。在这种情况下,不同观点和多元化的信息可能会被无形地屏蔽,用户接触到的内容相似性越来越高,信息“泡沫”逐渐形成。这些同质化的信息可能导致用户思维和视野变得愈加狭隘,缺乏对涉华议题的多维理解。在信息生产与分发过程中,算法推荐并不是完全客观中立的,可能造成片面或者与客观实际不符的信息、观念的生产与传播,影响公众对信息的客观全面认知。在算法推荐的作用下,政治偏见的形成更为隐秘,那些看似个性化实则带有偏见的信息可能引发意识形态安全风险,还可能加深国际社会在涉及中国问题上的分歧,导致难以建立基于事实和理性的共识[5]。
二、总体安全观下AIGC发展风险的治理策略
(一)面向国家重大需求的“关键领域”网络空间语料投放,确保“网络空间语言主导权”
长期以来,美西方和境外反华势力已经炮制了大量误导性反华反党信息并投放到网络空间,成为生成式人工智能获取的“黑色语料”,并在美西方的技术支持下布局以藏语语料为基础的生成式人工智能技术。2023年达赖集团推出莫兰藏文生成式人工智能系统(Monlam AI),强化其在海外藏人和国内藏族群体的文化影响力和思想渗透力。东突、港独、台独等海外反华势力也有类似技术和语料布局。
虽然我国官方宣传部门的主要对外输出语言为汉语,也有一定的英文输出,但在藏语、维吾尔语和中文繁体字领域,极易被国际反华势力利用,在相关语种网络空间对我国实施“技术性降维打击”,造成人工智能时代相关语种网络空间“卡喉咙”,损害党和国家的国际形象。不能坐视海外反华势力肆意通过生成式人工智能海量炮制并向互联网投放抹黑党和政府的“黑色语料”,借用生成式人工智能表现出的“权威性”和“中立性”产生意识形态安全威胁和国家安全风险。应当充分认识到“红色藏语语料”的重大政治意义,利用我国生成式人工智能的先发技术优势,开展“红色语料”生成式人工智能技术工程研发,对冲“黑色语料”意识形态安全风险。亟待大规模生成和投放客观的涉藏、涉疆、涉台、涉港正面内容,及时纠正大模型训练的伦理标准,推动形成爱华友华的生成式人工智能模型规模应用。
(二)面向生成式人工智能的“关键表述”内容智能审查,确保“网络空间语言意识形态安全”
就生成式人工智能服务“关键表述”安全的标准,2024年全国网络安全标准化技术委员会发布《生成式人工智能服务安全基本要求》(TC260-003),全国网络安全标准化技术委员会秘书处就国家标准《网络安全技术 生成式人工智能服务安全基本要求(征求意见稿)》征求意见,均将语料及生成内容的主要安全风险分为包含违反社会主义核心价值观的内容、包含歧视性内容、商业违法违规、侵犯他人合法权益和无法满足特定服务类型的安全需求等5大类23小类。
1、审查重点:确保“出口安全”,并以此倒逼全流程安全
生成式人工智能服务安全审查的重点应该是“出口”安全。这是因为作为“入口”安全的训练数据难以监管,只能防范“数据投毒”;“过程”安全的算法原理不可解释,只能确保“算法中立”;关注“出口”安全,以“关键表述”安全倒逼“全流程安全”。生成式人工智能服务“出口”安全审查的重点应该是“关键表述”。为防止出现给外部反华势力留下口实,“关键表述”的范围要严格限定,且需要通过来源的权威性确保审查的可信度,建议主要包括法律法规、权威读本和中共中央、国务院发布的政治文件。其中权威读本主要包括习近平总书记公开出版的相关论著、“四史”学习读本等。
生成式人工智能服务“关键表述”安全智能审查采用全面审查、实时监督和动态调整模式。利用生成式人工智能生成题目初稿,再由人工修改完善题目,以“百万级”测试题的实现确保审查面的全面性。每月根据权威文本的变化增补、删除、调整和优化审查范围以确保及时性。在不影响正常服务的情况下,进行实时性的审查,及时发现安全隐患。根据审查评分建立信用档案,根据信用评分调整审查力度,体现审查的信用性。
2、构建“智能审查大模型”对其他大模型进行中立审查
在总体国家安全观指引下,设计并构建自主可控的生成式人工智能服务关键内容“智能审查”大模型,检验大模型在关键表述领域是否存在意识形态偏差问题,不仅为全国各省委网信办对大模型备案提供有力的评测工具以及对已备案大模型进行持续、全面、深度的巡检,也为国产大模型以及使用海外大模型底座的国内大模型应用提供价值观、伦理道德风险、内容偏见与歧视等多个维度的审查。
(三)构建网络空间语言“智能综合”治理体系,筑牢“可信可控的语言安全屏障”
按照党的二十届三中全会对“健全网络综合治理体系”的新要求,形成智能治理、智能法治、信用协同、质效传播和清朗生态“五位一体”的网络空间语言智能综合治理体系,持续深耕网络空间语言领导管理体系完善、数据治理、专项治理常态化机制、未成年人网络保护、内容管控、语言算法治理等重大疑难问题研究,推动网络空间语言治理手段从传统治理到智能治理转型,服务网络空间语言智能综合治理,具体举措包括:
第一,加强重点智能辅助工具监管。重点治理输入法推荐、AI交互语音包、搜索引擎推荐中的字库推荐算法,加强智能记忆及联想词汇管理。语音转写、机器翻译、智能写作等方面提升表述规范性。办公软件应加强智能校对提示功能,为用户规范使用语言文字提供帮助。
第二,压实平台审核责任。强化社交平台、网络直播、视频平台等信息发布类平台健全内容审核机制,配合智能语意分析,强化实时分析,提升不规范、不文明网络语言文字信息监测、提示、处置能力。探索语言文字规范使用提示功能,强化内容编辑发布环节问题字符提示。
第三,及时更新和发布行业级关键词库。加强负面词汇、隐喻性用语监测和发现,及时更新和发布关键词库。建立“规范用语”及“变体表达”对照词库,落实分级分类管理,发布行业级指导性关键词库,优先推荐使用规范性表达及通俗性语言。
三、结语
在总体国家安全观视域下,网络空间安全直接影响着我国的国家政治、经济、文化和社会等各个方面的安全,因此构建网络空间安全体系对我国的健康发展至关重要。开展AIGC风险规范与治理,能够倍增筑牢网络安全防线的 “强动能”,构建清朗的网络空间。
参考文献
[1]常少华,文琼.总体国家安全观视域下语言规划研究的进展与前瞻——兼评《语言安全与语言规划研究》[J/OL].北京第二外国语学院学报,1-11[2025-01-26].
[2]黄玥,黄泽森.从Sora看生成式AI虚假信息引发的网络舆情风险及应对治理策略[J].广东公安科技,2024,32(04):12-14.
[3]魏琦宗.总体国家安全观视域下AIGC发展:风险隐患、逻辑面向及治理策略[J].武汉公安干部学院学报,2024,38(04):1-6.
[4]吴瑛,孙鸣伟.AIGC时代涉华国际舆论的演变、风险与敏捷治理——以ChatGPT为例[J].福建师范大学学报(哲学社会科学版),2024,(05):105-115+171-172.
[5]江辉.论生成式人工智能应用的国家安全审查[J].云南社会科学,2024,(04):72-79.
[6]罗蓉蓉,肖攀诚.生成式人工智能的风险审视与治理研究[J].咨询与决策,2024,4(01):1-18.
[7]钭晓东.论生成式人工智能的数据安全风险及回应型治理[J].东方法学,2023,(05):106-116.DOI:10.19404/j.cnki.dffx.2023.05.003.
[8]邓伯军.新时代国家网络空间安全的语言战略研究[J].新时代马克思主义论丛,2021,(02):179-197.基金项目:四川大学大学生创新创业训练计划项目《智问慧鉴-基于权威文本驱动的生成式AI关键内容审查系统》(阶段性研究成果)