缩略图
Primary Education

基于LDA2vec的人工智能主题热度和演化分析

作者

刘易敏

延边大学 吉林珲春 133399

自人工智能作为一个概念被提出以来,他就受到各界的广泛关注,国内外学者对人工智能开展了广泛的研究并产出了大量的成果。它不仅带动了计算机科学、数据处理和网络通信等领域的技术创新,还推动了机器人技术、智能制造和生物信息学的跨越式发展。科技进步为人工智能的模型训练、计算能力以及大数据分析提供了基础支撑,使得越来越多的复杂算法得以实现。在人工智能领域,自然语言处理(NLP)、计算机视觉、自动驾驶等技术突破,均离不开计算能力的提升和算法的不断优化。

一、主题演化分析技术的文献回顾

近年来,主题建模技术在文本挖掘和技术演化分析中的应用逐渐深入,为研究者提供了揭示领域演化规律的重要工具。其中,LDA(LatentDirichletAllocation)模型作为主题建模领域的经典方法,以其数学严谨性和灵活性,成为技术演化分析的主流工具。自Blei等人(2003)提出LDA模型以来,其在文本主题识别和主题结构分析中的广泛应用,为技术热点识别、文献计量分析等提供了新的方法支撑。

2013年,Mikolov等人提出Word2Vec模型,通过构建浅层神经网络,利用上下文信息生成高质量的低维词向量。这些词向量不仅能保留词语之间的语义相似性,还能够显著降低文本维度,为LDA模型的改进提供了重要支撑。结合Word2Vec的LDA模型通过用词向量替代传统的词频表示,使LDA在捕捉文本语义和上下文关系方面表现出更高的精度。例如,冷雪卓等(2024)将LDA与Word2Vec结合,用于数字人文领域的文献主题识别,不仅提升了主题提取的准确性,还实现了研究框架的构建。陆楷诗(2021)通过扩展LDA模型,利用Word2Vec增强的文本表示技术,有效检测了移动游戏中的用户舆情话题。张涵媚(2024)基于此方法揭示了智能制造技术的演化规律及趋势,为技术布局提供了参考。

综上,引入Word2Vec的LDA模型,不仅可以使主题模型的结果更加准确,同时也可以使主题演化的分析更加深入和具有针对性。这一结合模式在提升文本挖掘效果的同时,为主题建模技术的实际应用开辟了新的路径。

二、基于LDA2vec的人工智能主题挖掘与分析

2.1LDA2vec主题模型

LDA2vec主题模型是克里斯·穆迪(Chris Moody)等于2016年提出的一种以深度学习为基础的主题模型,其主要思想是将LDA主题模型和word2vec词向量模型相结合进行主题衡量。当前,LDA主题模型的应用范围最广,对解释性强的文档主题提取效果较好;Word2vec表示方法通过Skip-gram和CBOW模型对词向量进行训练,被广泛应用于对文本表示效果的改进。LDA2vec主题模型结合LDA与Word2vec两种方法的优势,能够实现词向量、主题向量与文档向量的优化组合,深度学习理念中神经网络的引入也使得LDA2vec更加精确地体现文档主题的聚类与主题词的关系。目前,LDA2vec的应用领域正在不断地拓宽,模型改进也处于不断发展之中。

2.2基于LDA2vec的人工智能主题挖掘

2.2.1数据搜集与处理

本文的文献数据主要来源于Web of Science核心数据库中的核心合集以及CNKI数据库中的CSSCI来源期刊和北大核心来源期刊。将文献检索时间范围限定在2014—2024年,国内文献通过高级检索主题词筛选“人工智能”关键词,选择被引次数大于10的文献,导出得到13881篇中文文献的摘要。国外文献通过在Web of Science核心合集中精确检索主题词“Artifitial Intelligence”和“AI”,选择高被引文献,导出得到8831篇英文文献摘要。

2.2.2主题提取结果与分析

文本经过预处理后,按照2013—2020年的时间排序,运用LDA2vec模型迭代训练,得到我国智库研究报告的主题与主题词。根据多轮实验结果和主题相关性考量,以及模型的困惑度(perplexity)最低值来确定每一年文本的主题数,并确定主题词统一选择为15个最相关的主题词,模型迭代次数为25次效果最好。

2.3结果分析

基于LDA2vec主题挖掘结果与各主题的代表性文献,可以将中文文献平台不同阶段的机器学习研究主题归纳为以下几类:(1)类1-工业自动化与智能控制。2014年,随着智能制造在全球范围的快速兴起,智能工厂成为传统制造企业转型升级的主要方向。智能工厂涉及移动通信网络、数据传感监测、信息交互集成、高级人工智能等技术在工厂层面的具体应用,以实现生产系统的智能化、网络化、柔性化、绿色化。(2)类2-智能科技融合。2017年,中国发布了《新一代人工智能发展规划》,将人工智能战略上升为国家战略,明确提出新一代人工智能在智能制造、智能医疗、智慧城市、智能农业、国防建设等领域的广泛应用。在这一时期,人工智能产业进入全球价值链高端,核心产业规模超过4000亿元,带动相关产业规模超过5万亿元。(3)类3-基础设施与安全。2020年,中国政府工作报告提出以5G、人工智能为代表的新型基础设施建设政策。随着人工智能技术的“基建化”,基础设施面临安全挑战,包括算法后门嵌入、代码安全漏洞、训练数据不均衡。社会各界对人工智能信任问题的关注推动了安全可信的人工智能技术研究,包括提升系统的稳定性、可解释性、隐私保护、公平性等。(4)类4-现代化生产力。2023年,中国人工智能产业规模已超过5000亿元,企业数量超过4400家,其中500余家获亿级融资,构建起包括智能芯片、大模型、基础架构和操作系统、工具链、深度学习平台和应用技术在内的人工智能技术体系,这些技术是现代化生产力发展的重要组成部分。

基于LDA2vec主题挖掘结果与各主题的代表性文献,可以将英文献平台不同阶段的机器学习研究主题归纳为以下几类:(1)类1-智能分析与深度视觉。这一时期,深度学习在图像识别、视频标注、活动识别等领域取得了显著进展。(2)类2-智能科技与生活融合。80%的国家在这一时期密集发布了人工智能战略计划,推动人工智能的发展和应用。(3)类3-智能交互。人工智能在能源效率提升、分布式可再生能源设备智能管理、优化电力消耗以及“虚拟发电厂”(VPP)运营等方面发挥了重要作用。在该时期,人机交互中建立动态、双向的信任关系是研究重点。(4)类4-智能健康与能源智控。基于Transformer的多模态统一表示学习模型在临床诊断中得到应用,能够处理胸部X光片、患者主诉、实验室检测结果等多种模态数据,用于肺部疾病识别和新冠肺炎患者的不良临床结果预测。

参考文献

[1] Blei,D.M.,Ng,A.Y.,&Jordan,M.I.(2003).LatentDirichletAllocation.JournalofMachineLearningResearch,3,993–1022.

[2] Mikolov,T.,Chen,K.,Corrado,G.,&Dean,J.(2013).Efficientestimationofwordrepresentationsinvectorspace.arXivpreprintarXiv:1301.3781.

[4] 冷雪卓,张涛,崔文波.国内数字人文领域文献主题识别及框架研究——基于LDA和Word2Vec的分析[J].图书馆学刊,2024(3):104113.DOI:10.14037/j.cnki

[5] 陆楷诗.基于Word2Vec扩展LDA和优化SKM聚类的移动游戏中文舆情分析[D].东华大学,2021.

[6] 张涵媚.基于LDA的智能制造热点技术演化及趋势预测研究[D].中南大学,2024.

作者简介:刘易敏(2001年8月),女,回族,河南禹州人,本科,延边大学,研究方向文本挖掘