基于语料库工具Wmatrix的隐喻识别研究

1.引言

隐喻研究自20世纪70年代以来经历了修辞学、语义学及多学科交叉研究的演进阶段。语言学、心理学、哲学等多领域学者从跨学科视角深化了隐喻理论。早期认知语言学家（如Lakoff）聚焦理论建构，而当代研究则呈现"社会转向"与"经验转向"：前者融入社会文化视角，发展出批判性隐喻分析等方法；后者结合认知神经科学实验（如脑成像）及语料库方法，推动研究范式的实证革新。

传统内省法依赖研究者直觉，易受主观局限。语料库方法通过海量真实语料系统分析，克服此弊端，为隐喻研究提供客观依据，并能揭示内省难以捕捉的语言模式（如隐喻语法结构），成为理论建构的关键支撑。鉴此，本文基于网络语料库工具Wmatrix，对自建"COVID-19"语料库中的隐喻进行检索与识别，探究该工具在隐喻研究中的具体应用效能。

2.文献综述

隐喻研究经历了从古典修辞格向认知机制的深刻转型：亚里士多德的修辞观长期主导后，二十世纪中期I.A.Richards 提出"思想间交流"的互动论，经MaxBlack发展为系统性映射理论。直至1980 年，George Lakoff与MarkJohnson在《我们赖以生存的隐喻》中提出概念隐喻理论，揭示人类通过具体源域（如空间、身体）理解抽象目标域（如时间、情感）的认知本质一一这一突破将隐喻从语言修饰提升为思维基础，而GillesFauconnier等人的概念整合理论则进一步深化了动态意义构建机制。

然而概念隐喻理论依赖内省例证的方法局限，促使语料库语言学开辟新路径。JohnSinclair的"习语原则"率先揭示自然语言中隐喻的系统性，随后PragglejazGroup 于2007年推出隐喻识别程序（MIP），通过对比词语上下文义与身体化基本义建立客观标注标准，并由MIPVU程序扩展应用维度。在此背景下，PaulRayson开发的Wmatrix平台以其革命性语义域标注功能成为关键工具—一它整合UCREL语义系统（USAS），将词汇自动归类至21个主语义域（如"情感"、"运动"）及其232个子域，使研究者能系统追踪物理体验域向抽象域的映射规律。

当前研究依托Wmatrix实现多重突破：AndrewHardie等学者通过语义域频率对比揭示大规模隐喻模式；汉语学界则积极验证其跨语言适用性一一刘扬探索汉语隐喻识别路径，李琳解码经济语篇隐喻结构，陈晓明更系统评估其效能与挑战。尽管该工具显著提升隐喻识别效率并推动历时研究，仍需克服语义框架的文化适配性、多义词判读等瓶颈，未来研究亟需融合人工智能与语境分析技术，在人类认知的深层图谱中继续追寻隐喻的奥秘。

3.研究语料与工具

3.1研究语料

语料库由选自ChinaDaily中20篇以COVID-19为主题的新闻报道组成的自建语料库，形符总量为18356。

3.2研究工具

本研究采用英国Lancaster大学PaulRayson团队开发的网络语料工具WMatrix。其基础功能包括索引生成、搭配分析及主题词提取，核心优势在于集成UCREL语义标注系统（USAS），可自动标注文本的语义域。USAS以《朗文分类词典》为基础，划分21个主语义域（如"情感"、"政府"、"时间"）并细分为232个子域，标注准确率达 91% 。该工具还能将自建语料库（如本研究"COVID-19"语料）与参照语料库BNCSampler对比，自动识别主题语义域（即显著超频使用的语义范畴）。

本研究的隐喻识别工具为Steenetal.（2010）开发的MIPVU，主要步骤如下：1）确定词语的基本意义及语境意义。2）确定该词语的基本意义及语境意义是否存在差别。3）考察该词语的基本意义和语境意义的指称对象之间是否存在相似性关系。如果是，这个词语为“隐喻”。

4.基于Wmatrix的隐喻研究过程

4.1生成语义域与主题语义域

首先，将研究语料上传至Wmatrix，并完成自动词性赋码、语义域赋码，获得词频列表、词性频率列表、语义域频率列表。因研究目的需要，本文仅关注语义域和主题语义域。表1为频率最高的前六个语义域。

表 1．前六个频率最高的语义域

其次，所研究的语料库为书面新闻报道，因此选择BNCSamplerWritten为参照语料库。将对数似然比临界值设置为6.63，

如图1（在线使用Wmatrix所获语料处理结果的截图）所示，前五个主题语义域为B2-（疾病）、Z2（地名）、B3（药物与医疗）^S8+ （援助）、G1.1（政府）、M7（位置）。图1中O1和 %1 是语义域在研究语料库中的频率和相对频率，O2和 %2 是该语义域在参照语料库中的频率和相对频率，“ + ”说明该语义域在研究语料库中比在参照语料库中有超常的使用频率，LL为主题语义域的对数似然比值，表明了该语义域超常使用的显著性程度。语义域B2-、

B3、 ^S8+ 指示所研究语料的主题，即“疾病、健康与医疗、援助”，大致对应隐喻研究中的目标域。

4.2确定源域

根据常识或抽样识别语言隐喻，判断语义域列表中哪个语义域可能是概念隐喻的源域。例如，概念“战争”常常被用于隐喻化地建构概念“疾病”，本研究选择“战争”语义域（G3）为个案研究对象。

表2．“战争”语义域

从表2中可以看出，与参照语料库相比G3在研究语料库中属于较少使用的语义域。一方面，隐喻的源域要成为重要的主题语义域（与大型参照语料库相比），必须大量使用该语义域的词语。另一方面，很多与G3相关的词语的首位语义域码并非G3，如campaign（X7）、fight （S8）、struggle （X8）、combat（S8）等，这使得G3的类符和形符数量减少，而无法成为主题语义域。

4.3获取源域词表

每个词目或形符可能会有多个语义码，即该词属于多个语义域。如例（1）所示，campaign作为名词使用时归属的语义域有：X7（愿望）、I2.2（商业：销售）、G1.2（政治）、G3（战争）。根据《麦克米伦高阶英语词典》，campaign 的基本意义为（2a），引申（隐喻）意义为（2b）。但其基本意义所属语义域（G3）没有获得首位语义码而位列最末，其引申意义所属语义域（X7、I2.2、G1.2）位居前列。

（1）campaign （n.）X7+/I2.2/G1.2/G3 （2）a．a series of actions by an army trying to win a war b.a series of actions intended to achieve a particular result relating to politics or business，or a social improvement

4.4识别隐喻形符

根据MIPVU识别G3中每个形符在当前语境中是否为隐喻用法。例如，frontline 在《麦克米伦高阶英语词典》中有两个意义（3a）、（3b）（在词典中分别标号列出），二者相比起来（3a）更加具体为基本意义。“当词汇单元在其语法范畴内具有多个独立的、并排序的意义描述，就认为这些意义之间有足够的差异”（Steenetal．2010：37），所以（3a）与（3b）有差异。（3a）描述了一种具体的情境，（3b）则指称一般情形，因而（3a）与（3b）之间是一般与具体的关系，属于关系相似性（Steenet al．2010：37-38）。

（3）a.the place where fighting happens in a war b.doing something that has not been done before

（4）In answer to his call for people to collectively cheer frontline health care workers at 5pm ，a cacophony was heard in the capital as people clapped，rang bells，banged pots and pans，played music and exploded fireworks，sending crows and parakeets streaming from treetops，and stray dogs and cows into the deserted streets .

句（4）中frontline 的意义为（3b），与基本意义既有充分的差异又有关系相似性，符合MIPVU，因此是隐喻化使用的词语。

表4．G3隐喻词目列表

基于人工内省或小规模语料分析能获取词频较高的隐喻词目，如 front-line、force、war 等，但一般很难提取Major General、offcer等这样词频较低的隐喻词目。

5.总结

本文说明了如何应用语料库工具Wmatrix研究自建“COVID-19”语料库中的隐喻使用，主要以概念隐喻“应对新冠是战争”的源域“战争”为例探讨了该工具的语义域赋码功能在获取隐喻词目方面的作用。研究表明，与先前的以词汇法为基础的索引生成与分析（检索词为人工内省或小规模语料分析的结果），这种以Wmatrix的语义域功能为基础的索引分析能最大限度地提取大规模语料中可能隐喻使用的词目和形符。然而，到目前为止隐喻研究仍然离不开人工分析，Wmatrix虽然能对文本进行语义域赋码，但还得靠人工判断哪些语义域为源域或目标域，获得语义域词目的索引行后还得靠人工识别哪些是隐喻词目，具有很强的主观性。

参考文献

[1]Lakoff，George，and Mark Johnson.Metaphors We Live By.U ofChicago P，1980.

[2]Fauconnier，Gilles，and Mark Turner. The Way We Think：Conceptual Blending and the Mind’s Hidden Complexities.BasicBooks，2002.

[3]Sinclair， John. Corpus， Concordance， Collocation.Oxford UP，1991.

[4] Steen， Gerard J.，et al.“A Method for Linguistic MetaphorIdentification： From MIP to MIPVU.”Converging Evidence inLanguage and Communication Research， vol. 14， John Benjamins，2010.

[5]Pragglejaz Group.“MIP：A Method for Identifying MetaphoricallyUsed Words in Discourse.” Metaphor and Symbol， vol. 22， no.1，2007， pp. 1- 39.

[6]Rayson，Paul.“From Key Words to Key Semantic Domains.”International Journal of Corpus Linguistics，vol.13，no.4，2008，pp.519 - 549.

[7]Hardie，Andrew.“CQPweb- Combining Power， Flexibilityand Usability in a Corpus Analysis Tool.”International Journal ofCorpus Linguistics，vol. 17， no.3，2012， pp.380- 409.

[8]McEnery，Tony，and Andrew Hardie.Corpus Linguistics： Method，Theory and Practice.Cambridge UP，2012.

[9]Semino，Elena. Metaphor in Discourse. Cambridge UP， 2008.

[10] 陈朗．从 MIP到 MIPVU：隐喻识别的方法、应用与问题［J]外语学刊 2022（05）.

[11] 陈晓明．“WMatrix语义域标注系统在汉语隐喻研究中的应用效能评估.”《外语电化教学》，2020（3）：45－51.

[12]李琳.“基于WMatrix的中文经济语篇概念隐喻结构分析.”《现代外语》，2017，40（4）： 522- 534+586.

[13] 刘扬．“利用WMatrix进行汉语隐喻识别的探索.”《语言教学与研究》，2015（2）：94- 102.

[14]束定芳.《隐喻学研究》.上海外语教育出版社，2000.

[15] 孙亚．基于Wmatrix 语义赋码的概念隐喻评价意义分析［J].外语与外语教学，2014（05）.

[16]文旭．“认知语言学的新视野：语料库语言学与隐喻研究的结合.”《外语教学与研究》，2007，39（3）：163-170.

基于语料库工具Wmatrix的隐喻识别研究

黄研徐硕

Related Articles

新质生产力驱动乡村旅游高质量发展的理论突破与政策创新

《易传》正文训诂术语探析

空间媒介化视域下“两路”精神的共情传播路径研究

基于RMP 分析法的四川温泉旅游开发路径研究

新时代进一步全面深化改革的实践导向研究

基于语料库工具Wmatrix的隐喻识别研究

黄研徐硕

Related Articles

新质生产力驱动乡村旅游高质量发展的理论突破与政策创新

《易传》正文训诂术语探析

空间媒介化视域下“两路”精 神的共情传播路径研究

基于RMP 分析法的四川温泉旅游开发路径研究

新时代进一步全面深化改革的实践导向研究

空间媒介化视域下“两路”精神的共情传播路径研究