缩略图

基于LDA 主题建模对美国印太战略的话语表达研究

作者

卢美龄

福建师范大学仓山校区 福建省福州市 35007

一、引言

印太战略由特朗普政府于 2017 年首次提出,作为对奥巴马政府亚太战略的升级扩展。2021年拜登就任总统,民主党再次获得优势地位后推翻了特朗普时期确定的,以退出巴黎气候协定为代表的众多外交决策,但却保留并调整了印太战略。特朗普政府的印太战略以美国优先为显著特征,其战略选择和手段与以往美国政府的战略有所不同,显著的现实主义特征打破了美国战略传统。拜登政府并未照搬特朗普政府的印太战略,经过一系列战略调整后,拜登政府的印太战略又恢复到美国惯用的手段中,恢复了美国战略文化影响下的传统。近年来,美国不断推进印太战略,该战略对全球地缘政治、经济格局产生了深远影响。美国印太战略的实施通过一系列话语表达得以体现,这些话语不仅反映了美国的战略目标,还影响着国际社会对该战略的认知与反应。传统的文本分析方法往往难以全面、系统地挖掘美国印太战略话语中的潜在主题和深层含义。而 LDA主题建模作为一种无监督的机器学习算法,能够自动发现文本集合中的潜在主题,为研究美国印太战略话语提供了新的有效途径。本研究基于 LDA 主题建模,对美国印太战略的话语表达进行深入分析,有助于揭示美国印太战略的本质和发展趋势。

二、LDA 主题建模技术

LDA 是一种基于概率图模型的无监督学习算法,构建于 “文档 - 主题 - 词” 三层贝叶斯概率模型之上 。其核心假设为文档由多个主题混合生成,每个主题则对应词汇表上的概率分布 。在实际运行中,通过贝叶斯推断,依据文档中单词出现情况反向推导文档主题分布以及主题词分布。以生成一篇文档为例,LDA 模型先依据文档 - 主题分布从主题集合抽取若干主题,再针对每个抽取主题,按照主题 - 词分布选取单词,最终组合形成完整文档 。这一过程通过对大量文本数据训练,不断调整参数,从而学习到文档与主题、主题与词之间概率关系,挖掘出文本潜在主题 。如 Blei D M 等学者在提出 LDA 模型的原始论文中,详细阐述了该模型数学原理与生成过程,为后续研究奠定了坚实理论基础 。

LDA 模型是在概率潜在语义分析(PLSA)基础上发展而来 。PLSA 作为较早的主题模型,将潜在语义分析从线性代数框架拓展至概率统计框架 。但 PLSA 存在参数过多、易过拟合且无法为未训练文档分配概率等问题 。为克服这些缺陷,Blei D M、Ng A Y 和 Jordan M I 于 2003 年提出LDA 模型 。LDA 通过引入参数先验分布,有效提升模型泛化性能,允许文档内容 “重叠”,更贴合自然语言使用方式 。此后,众多学者围绕 LDA 模型展开改进与拓展研究 。如在主题数量确定方面,提出基于困惑度(Perplexity)和一致性(Coherence)等指标确定最优主题数的方法 ;在模型训练效率上,开发出变分推断、吉布斯采样等多种高效算法 ;在模型拓展方面,出现结构主题模型(STM)等变体,STM 允许将协变量融入文档 - 主题比例和主题 - 词项矩阵先验分布,能生成主题结构和分布比例,并呈现主题出现上下文及变化趋势 。

实践中,LDA 主题建模一般由程序语言中的第三方开源工具包实现,如 Python 中的第三方库 Gensim 和 scikit-learn,以及 R 中的 mallet 程序包。但在具体操作中,主题数目需要提前设置,并且不同的主题数会影响最终的分析结果:主题数目设置太少会把语义不相关的词汇合并到同一主题中,而主题数太多则会把语义相似的词汇分散到不同主题中。理想的状态是文档中的单词出现在尽可能少的主题中,而每个主题包含尽可能少的单词。但是实际研究中有时还需要借助研究人员的经验和对语料的了解,反复设置不同数量的主题进行比较与权衡,以确定最佳主题数目。换言之,在批评话语分析中,最佳主题数目并不一定是统计学意义上的最佳,而是取决于主题建模及其数目能否回答研究问题或者实现研究目的,并且如果语料库中的文本体裁一致且话题统一,则可以选择较少的主题数目。

三、文本选取与数据处理

本文的语料主要来源于美国政府官方网站发布的政策文件(如《国家安全战略报告》《国防战略报告》中涉及印太战略的内容)、白宫官方声明、美国国务院新闻发布会记录、美国总统及相关政府官员关于印太战略的讲话等。共收集到 2017 - 2024 年期间的 30 篇相关文本数据篇。

在数据预处理阶段,首先对原始文本进行清洗,去除其中的 HTML 标签、特殊符号等噪声信息;然后使用自然语言处理工具 NLTK 进行分词处理;接着去除停用词,以减少数据冗余;最后对剩余的词汇进行词形还原和词性标注,使数据更加规范,便于后续的 LDA 主题建模分析。经过上述规范的数据预处理后,将处理好的数据输入到 LDA 模型中进行训练。在训练过程中,对模型的参数进行优化调整,以确保模型能够准确、有效地挖掘出美国印太战略话语中的潜在主题,为后续深入分析奠定坚实基础。

四、美国印太战略话语表达分析

4.1 主题数量确定

在使用 LDA 模型进行分析时,主题数量的确定是一个关键问题。本研究采用困惑度(Perplexity)指标和一致性(Coherence)指标来确定最优主题数量。通过多次实验,分别计算不同主题数量下的困惑度和一致性值,当主题数量为 6 时,困惑度较低且一致性较高,能够较好地反映美国印太战略话语的潜在主题结构。因此,本研究将主题数量设定为 6 个。

4.2 主题聚类

通过 pyldavis 可视化工具直观了解到主题间关系和以及每个主题具有代表的词汇。通过分析本次研究的 6 个主题有着密切关联,首先第一个主题是高层军事发言与国际事务,本主题集中反映了与高级军政人物(如“esper”, “austin”, “kirby”)相关的言论、发布会内容或采访表态,尤其是在国际局势和安全议题背景下展开。如“nato”,“army”,“ukraine”,“missile”,“iraq”等词表明评论围绕欧美主导的军事外交战略和地缘政治热点地区。出现“question”, “talk”, “statement”,“agree”等则呈现典型的新闻发布或问答语境。第二个主题印太联合演训与海上行动围绕美国及其印太盟友(如“japan”, “philippine”, “fiji”)之间开展的多边联合军演与海上训练展开,关键词如“amphibious”,“ship”,“assault”,“deck”,“interoperability”等都指向战术层面的海上协同演练。“ipef”,“commerce”,“supply”,“commercial”则暗示了安全合作与经济链路的耦合,显示出军事行动背后的经贸背景。主题三主要关注了“战备状态”“应急部署”以及“跨国演练”的内部调度机制和战术演练过程。关键词如“readiness”,“posture”,“exercise”,“scenario”均体现出该主题高度聚焦于联合军事响应演练与测试机制。地名如“osan”, “saudi”, “arabia”表示多点位跨国部署。出现的 “fema”, “mask”, “recover”, “tonight” 暗示该类语境可能也包括军事与应急救援的协同情境,属于战术准备和综合训练交叉场景。属于偏战术层级的应对机制语料。

其余三个主题主要强调了区域之间的合作,主题四 AUKUS 框架下的技术安全合作紧密聚焦于“技术外交”与“安全同盟合作”的交汇处,特别体现于 AUKUS 机制框架(澳大利亚、英国、美国)及 QUAD 四国合作机制中。关键词“nuclear”,“reconnaissance”,“marine”,“weapon”显示军事科技输出,“trade”,“economy”,“export”,“investment”显示其背后的战略经济基础。主题五区域治理与战略伙伴关系构建反映的是美亚战略部署中的政治与基础设施协作维度。围绕“asia”,“partner”,“strategy”,“bilateral”,“policy”等,反映了美国与亚太盟友间的政策同盟构建与战略定位。关键词如“taiwan”,“island”,“deterrence”,“transportation”显示出对特定地理敏感区的安全部署关切。主题六补充了美日韩联盟与国际安全协作以“美日韩三边机制”为核心,兼顾东南亚(ASEAN)多边框架,是美方外交与军事“硬联盟”部署核心所在。关键词如“alliance”,“security”,“military”,“agreement”,“resolution”指出该主题紧扣正式条约、联合声明与区域安全治理。“yseali”, “dialogue”, “meeting”则体现软外交维度,是典型的“外交- 军事双轨推进”语境。区域涉及朝韩、越南、东南亚诸国。

 表4-2 主题联系与区别总结表

LDA 模型共识别出 6 个语义明确、互相区分度高的主题,涵盖从军事发言到战术演练、从地缘经济到国际联盟的多个维度:主题一更多体现国际军事发言与媒体表态,是信息传播端;主题二,三则是对战术层面海陆联合演练与应急演练机制的具象刻画;主题四到六强调的是国家间制度化合作,分别涉及安全条约、经济联盟与多边框架。这些主题展现了围绕印太战略、东亚安全、技术输出、地区治理等多重议题的现实结构。

4.3 美国印太战略话语表达背后的战略意图

4.3.1 维护全球霸权地位

美国通过在印太战略话语中强调军事安全同盟、地缘政治博弈等主题,试图巩固其在该地区的军事和政治主导地位,遏制新兴大国的崛起,从而维护其全球霸权。通过军事演习和军事部署展示实力,争夺地缘政治利益,确保自身在全球事务中的话语权和影响力。在军事层面,依托 “美日安保条约”“美澳新同盟” 等既有框架,不断强化关岛军事基地群建设,在政治博弈方面,美国频繁介入地区领土争端,利用所谓 “航行自由” 政策挑战他国海洋权益,试图通过分化地区国家关系,遏制新兴大国在区域事务中影响力的提升,维持其作为全球秩序 “仲裁者” 的霸权地位。

4.3.2 追求经济最大化

在经济竞争与合作主题下,美国一方面通过推动经济合作构建有利于自身的经济秩序,另一方面利用贸易保护主义和科技竞争手段打压竞争对手,旨在重塑全球产业链和供应链,实现经济利益的最大化,保障其在全球经济体系中的核心地位。通过设置高标准的数字贸易、供应链韧性等规则,拉拢盟友构建排他性经济合作网络。这一框架表面强调区域经济整合,实则将中国排除在外,试图重塑以美国为中心的印太产业链格局

4.3.3 推广美式价值观

美国以价值观输出为借口,将 “民主”“人权” 等理念融入印太战略话语中,试图构建基于美式价值观的同盟体系,干涉地区国家内政,实现对地区事务的控制,使印太地区的发展符合美国的战略利益和价值取向。在实际操作中,美国通过双边与多边对话机制,将所谓 “自由开放的印太”概念与美式价值观捆绑,要求盟友在涉港、涉疆、涉台等议题上配合其舆论攻势,以价值观同盟为幌子干预地区国家内政。例如,美国利用 “四边安全对话机制”(QUAD)推动 “印太经济框架”(IPEF),将劳工标准、数字治理等美式规则作为加入条件,实质是通过规则霸权塑造符合自身利益的地区秩序。这种价值观外交不仅加剧了地区意识形态对立,更使印太地区沦为大国博弈的 “价值观试验场”,严重破坏了地区国家基于主权平等的合作基础,阻碍了印太地区的自主发展进程。

结论

本研究基于 LDA 主题建模方法,对美国印太战略的话语表达进行了深入分析,成功挖掘出军事人物发言与国际事务、印太海军联合行动、亚洲军演与战备演练、AUKUS 技术安全合作、区域治理与战略伙伴关系、美日韩联盟与国际安全协作等 6 个核心主题。研究表明,美国印太战略话语表达背后蕴含着维护全球霸权地位、追求经济利益最大化和推广美式价值观等战略意图。通过 LDA 主题建模,为理解美国印太战略提供了新的量化分析视角,有助于更全面、深入地把握美国印太战略的本质和发展动态。

参考文献:

[1]ARANDA A, SELE K, ETCHANCHU H, et al. From big data to rich theory: integratingcritical discourse analysis with structural topic modeling [J]. European ManagementReview, 2021, (18): 197-214.

[2]BLEI D. Probabilistic Topic Models [J]. Communications of the ACM, 2012, 55(4): 77-84

[3]JO W. Possibility of discourse analysis using topic modeling [J]. Journal of AsianSociology, 2019, 48(3): 321-342.

[4] 何琳,乔粤,刘雪琪 . 春秋时期社会发展的主题挖掘与演变分析— —以《左传》为例 [J].图书情报工作,2020(7):30-38.

[5] 刘文宇,胡颖 . 基于文本挖掘的非传统文本批评话语研究 [J]. 天津外国语大学学报,2020(4):29-41.

[6] 韦宗友 . 美国在印太地区的战略调整及其地缘战略影响 [J]. 世界经济与政治,2023 (10):140-155+160.