前沿技术领域知识图谱构建关键技术研究与实现
杨亚坤
太原科技大学 山西 太原 030024
摘要:本文从研究前沿技术领域知识图谱构建的关键技术出发,全面获取了中、美、英、德、俄等不同语言的前沿技术信息资源。利用实体和关系联合抽取技术和跨语言实体对齐方法构建了一个全面的知识图谱,并由此搭建了前沿技术领域知识图谱系统。该系统提供了一个多功能且易于查询的平台,使得用户能够跨越语言障碍,快速访问和理解全球范围内的技术动态和创新发展。
关键词:前沿技术领域;知识图谱构建;关键技术;实现
1知识图谱定义
知识图谱是一种结构化的知识表示方法,它旨在以图形的形式组织和整合信息,使之成为可查询和分析的知识网络。知识图谱的数据来源包括:在线百科、新闻网站、专业期刊与数据库、社交媒体平台、官方报告及公共记录等。这些数据源涵盖了互联网中的各种数据形态,包括结构化数据、半结构化数据以及非结构化数据,丰富的来源提供了大量的信息用于构建知识图谱,使其能够覆盖广泛的主题和领域。在知识图谱中,实体以节点的形式出现,而这些实体之间的各种关系则通过边来表示。例如:知识三元组<四川,省会,成都>表示四川和成都这两个实体之间的关系是省会。这些边不仅描绘了实体间的联系,还可以包含属性信息,如实体的描述、日期或任何其他相关元数据。例如:知识三元组<中华人民共和国,建立时间,1949年>表示中华人民共和国的建立时间属于1949年。正是这样大量的实体之间通过关系相互连接,使知识图谱能够提供一个丰富的语义网络,这种网络揭示了数据之间的深层次联系,从而支持复杂的查询和智能推理。
2前沿技术领域知识图谱构建的设计与实现
2.1系统总体设计
在开发实际的电子信息知识图谱可视化系统之前,根据实际用户的期望、知识图谱的特征以及数据处理和传输过程进行需求分析。本文的可视化系统主要用于展示电子信息知识图谱的构建成果和基于构建的电子信息图谱开发的智能搜索和推理功能,除此之外还要提供便捷的交互方式、合理美观的界面布局等。用户使用时应该准确展示知识图谱的主要面貌和准确全面的统计数据如实体数量、关系数量,更详细的可以再分为技术条目、作者、国家等的统计结果。用户还要能得到由本文构建的知识图谱推理出的结果,这些结果包括例如:某个技术条目的作者所作的其他更多的技术条目、从一个节点能推理到其他一个或更多节点、获取不同节点即不同实体之间的关系、搜索知识图谱中的信息、根据时间顺序或其他规则获取词云关键词,用来分析不同时间不同领域的热门内容,也可以展示技术演变的趋势。需求分析后,得出的功能列表如表1可视化功能列表所示,表中给出了功能名称和功能说明。可视化系统前端主要分为两个页面,一个页面用于查看图谱构建成果,提供基础的图谱展示、智能搜索和推荐功能,另一个页面主要展示针对该知识图谱的整体分析结果,包括词云统计、技术演化分析和统计分析。为高效实现本文的可视化系统,本文采用前后端分离的方式进行系统的开发和维护,将业务流程集中在服务器端完成,使整个系统拥有尽可能低的耦合度,也降低了系统的开发成本。系统的总体架构分为三层:数据层、业务层和表现层。
2.2系统功能模块实现
2.2.1知识图谱全貌图
该功能用于展示图谱的总体概况和统计数据,统计查询图谱的实体和关系的数量,并绘图展示图谱的总体概况。在FastAPI接口中定义一个对neo4j数据库的查询方法,该方法查询所有节点的个数和关系的个数,还要分别查询每种实体类型的节点的数量,将所有数据转化为json格式返回给前端界面。前端界面解析数据并进行渲染,从而将所有信息有序展示在视图中。用户可以点击图谱中的实体节点展开与之有直接关系的其他实体,总览图谱中每种实体和关系的数量。
2.2.2前沿技术可视分析
可视化分析是前沿技术智能服务平台的一个重要模块,它可以将收集到的数据通过可视化的方式展现出来,帮助用户更好地理解和分析数据。该模块可对某一特定技术进行可视化分析,该图展示了电子信息领域芯片技术所包含技术条目数量河流和人员、机构饼图两个可视化视图,帮助用户更加直观和清晰地理解和分析数据,为政府、企业和个人等不同用户提供数据驱动的决策参考和服务。
2.2.3词云统计
提取不同类型、不同领域、不同性质的词云是数据分析的基础方法之一。通过这种方法,可以从多个角度刻画技术热点,并分析前沿技术的特征。基于生成的词云,可以直观地识别不同领域的研究热点和关键信息。本文提取词云的方法是首先统计不同类型实体和不同领域的关键词,并根据关键词的频率生成最终的词云。系统业务层从Neo4j数据库中获取数据,经过分词、词频统计和排序等步骤,最后将处理结果以JSON格式返回给前端界面进行展示。
2.2.4技术演化分析
本文通过时间信息实现了按月份或按季度展示某个领域内技术条目的关键词,形成主题词河流。这一功能能够直观地展示热门技术的发展变化,并结合同时期发生的相关事件,分析热门技术变化的原因。此方法为前沿技术的挖掘和技术方向的预测提供了基础数据支持,也为决策分析提供了依据。技术演化分析功能充分利用了技术条目的时间属性。本文按照时间顺序对所有技术条目进行排序,并由于数据量庞大,进行了关键词提取和时间分段。通过将长时间序列划分为多个时间段,每个时间段都有相应的关键词,从而绘制出技术的发展演化趋势图。此外,时间段的长度可以自定义调节,从而改变关键词的统计频率,调整图表的稀疏程度。
2.2.5智能搜索功能
本文的前沿技术可视化平台提供了智能搜索功能。该功能能够处理多种输入内容,包括句子、关键词、问答句子等。搜索结果不仅可以返回实体信息,还能基于输入内容提供简单的推理信息,如实体的属性信息、与目标实体相关的其他实体,及所有与输入相关的实体的统计信息(如关键词、时间等)。系统前端获取用户输入内容后,实时向后端发送请求。后端根据用户输入内容进行字符串分词,提取关键内容,并过滤掉无意义的词语和特殊字符。接着,对图数据库进行模糊查询,返回若干技术条目的名称和ID序号。前端页面会在搜索框的下拉栏中实时展示这些数据。用户选择下拉栏中的某一个条目时,前端会向后端发送携带该条目ID序号的请求。后端根据ID序号查询相应技术条目,返回技术条目的详细信息及与该技术条目直接相关的其他实体信息。前端根据后端返回的数据绘制关系图谱,展示相关的其他实体信息及数量统计信息等。为知识图谱可视化平台。用户可在网页右侧搜索需要查询的技术条目,网页左侧对查询到的技术条目和其他相关技术条目进行展示。
3结束语
本文着眼于前沿技术领域知识图谱的构建,通过系统化地收集和处理分布在各类媒介中的前沿技术信息,解决了信息碎片化和异构性问题,提升了知识的组织和利用效率。它不仅支持了跨学科的技术知识整合,促进了科技创新的深度挖掘和趋势预测,还为科研人员、政策制定者和企业提供了决策支持,加速了科技成果的转化应用。此外,本文对知识抽取和实体对齐的关键技术应用,进一步拓宽了知识图谱的应用范围,使其能够覆盖和连接全球范围内的技术发展动态,为科学研究和技术创新提供了一个全面、动态更新的知识基础平台。
参考文献
[1]金城,崔荣一,赵亚慧等.融合GAT和TransH的中韩跨语言实体对齐方法研究[J].延边大学学报(自然科学版),2021,47(04):356-360.
[2]王键霖,张浩,张永爽等.基于双层图注意力网络的邻域信息聚合实体对齐方法[J/OL].计算机应用研究,2024,1-8[2024-03-12].
本论文受太原科技大学教改项目JGB2024013资助。