多源异构数据集成与治理在园区政务管理平台中的应用研究
应鸿毅
上海开图信息科技发展有限公司
前言
政务管理平台是园区管理的重要载体,但是在大数据时代背景下,园区政务管理工作需要处理海量的数据,尤其是多源异构数据,具有多源性、异构性等特点,如何实现多源异构数据集成和高效治理,成为园区政务管理工作亟待解决的难题。因此,本文从具体园区实践案例出发,分析多源异构数据的特征和治理需求、应用框架,通过项目实践获得了良好的成效,希望能够为园区政务管理人员提供参考和借鉴。
1 项目基本情况
本文以上海化学工业区园区为例,面对日益增长的管理数字化、业务数字化和服务数字化的企业管理及服务趋势诉求,构建基于多源异构数据集成与治理的园区政务管理的数字化聚合平台,形成园区政务数字化管理的基础架构,丰富园区资源数字化聚合应用的基础管理功能,构建智慧园区,提升园区政务管理和服务效率,推进园区数字化转型发展。
2 园区政务管理平台的多源异构数据特征与治理需求
2.1 园区政务管理平台的多源异构数据特征
园区政务管理平台中多源异构数据的特征主要表现在两个方面:一方面,多源性,上海化学工业区园区政务管理数据来源多种多样,具有多源性特征[1]。多源异构数据的来源主要包括:政务部门数据,如审批部门、环保部门、税务部门等产生的数据;企业数据,如企业的业务数据、财务数据等;第三方平台数据,主要包括依托第三方平台的园区数字地图,行业协会的评估数据等。另一方面,异构性,园区政务管理平台数据的异构性特征表现为:结构异构,指的是园区同一类数据在不同系统中储存的结构存在差异;格式异构,园区政务管理平台中数据格式不统一,包括结构化、非结构化以及虚拟化等格式。
2.2 园区政务管理平台的多源异构数据治理需求
园区政务管理平台中多源异构数据的治理需求包括以下几个方面:其一,消除数据孤岛,园区政务管理平台中多源异构数据之间存在壁垒,不同系统、部门的数据储存格式、结构不同,导致园区政务管理存在信息孤岛,无法实现管理平台之间的有效沟通,消除数据孤岛成为数据治理的必然要求。其二,质量需求,园区政务管理平台数据的多源性、异构性特征,许多数据存在缺失、失真、重复等问题,导致数据质量欠佳,影响数据的真实性、可靠性以及全面性。因此,通过数据治理提高数据质量成为政务管理平台亟待解决的问题之一[2]。其三,实效性需求,园区政务管理平台需要集中处理海量的实时数据,但是多源异构数据处理难度高、时间长,更新速度缓慢,导致园区政务管理平台数据集成效率极低。因此,通过数据治理提高数据集成效率、保证政务管理实时性成为必然需求之一。
3 多源异构数据集成与治理在园区政务平台中的应用框架设计
3.1 总体架构设计
本园区政务管理平台中多源异构数据集成与治理的总体框架设计,主要包括多源异构数据集成关键技术与数据治理体系,如图1 所示:
图 1 总体架构设计结构示意图

3.2 多源异构数据集成关键技术实现
园区政务管理平台中多源异构数据集成关键技术实现主要包括以下几个方面:
3.2.1 数据采集技术
(Extract-Transform-Load,数据仓库中的数据处理技术)从多源系统中抽取数据[3]。同时,由于多源异构数据来源多,通过API 网关采用统一的接口,可以实现各政务系统之间数据的交互,保证数据采集的全面性。数据采集管理模块,力求对每类数据源的采集日志和原始数据都能够保存下来,处理后的数据再进入实际的平台
3.2.2 数据清洗技术
3.2.3 数据融合技术
园区政务管理平台利用数据采集技术从多源异构数据系统中批量采集数据,借助ETL
数据清洗是多源异构数据集成的关键步骤,数据清洗关键技术主要包括以下几个方面:其一,数据去重技术,多源异构数据中存在许多相似的数据,数据去重技术可以将相似度高、重复记录的数据去除,保证数据的准确性。数据去重可以采用基于哈希的去重技术,为每一个数据标注哈希值,将其作为数据的唯一识别标识,通过对比哈希值可以快速去除数据中的重复项。同时,可以采用相似度匹配方法,即通过字符串相似度匹配算法识别和去除数据中的重复项。其二,数据补全技术,多源异构数据中存在不全的数据,可以采用统计法、模型预测法以及案例补全法等进行补全。关于统计法,指的是利用统计学方法对数据进行补充,例如中位数法、均值法等,补全数据的缺失项;关于模型预测法,指的是利用机器学习算法,根据数据趋势、规律等预测缺失的数据项;关于案例补全法,则是以本园区的历史记录、其他同类型园区的历史数据为基础,补全缺失项。其三,标准化技术,采用标准化格式,将结构化数据、半结构化数据、虚拟化数据转化成统一的数据格式;标准化命名,基于ETL 采用标准化命名方式,例如业务+实体+属性命名方式。
本园区政务管理平台多源异构数据集成的融合技术,采用冲突解决、实体链接、知识图谱融合等。关于冲突解决,数据融合之前必须解决数据之间的冲突,可以采用以下解决方式:投票方式,当若干数据出现冲突时,可以采用加权投票的方式,最终选取投票权重比重大的数据;时间戳方式,政务管理平台的数据处于动态更新之中,采用时间戳优先方式,以最新更新的数据为准;权威优先方式,以权威机构、部门的数据为准,保证数据的权威性、可靠性。关于实体链接,采用机器学习算法,将园区政务管理平台中不同系统的实体数据关联起来,构建园区政务与业务实体之间的深度关联[4]。关于知识图谱融合方式,园区政务管理平台数据之间存在密切的关联,通过推理、预测等构建园区政务知识图谱,为数据融合提供完整、准确的数据。
3.2.4 数据储存技术
本园区政务管理平台的多源异构数据众多,在数据储存时根据数据的类型采用不同的储存方式。关于结构化数据,储存采用数据仓库+数据库储存方式,本园区数据仓库采用Sf(Snowflake,云数据仓库),数据库采用关系型数据库,可以实现政务数据查询、储存、输出等操作。关于非结构化数据,本园区非结构化数据储存采用云端+数据湖储存方式,云端包括阿里云、华为云等,数据湖采用Delta lake,可以保证园区政务处理的ACID特性,即 A(Atomicity,原子性)、C(Consistency,一致性)、I(Isolation,隔离性)、D(Durability,持久性)。虚拟化数据,本园区数据化数据储存采用统一虚拟储存方式,该类型数据无需进行预先集成,储存成本低,并且实时性高,可以实现跨源数据查询、提取等。
3.3 数据治理体系构建
本园区政务管理平台多源异构数据治理体系主要由技术层、治理层、服务层、应用层组成,数据治理体系构建具体表现为:
3.3.1 技术层
技术层是数据治理体系的基础,依托多种先进技术为数据治理提供技术支持。数据治理体系的技术主要包括深度学习技术、机器学习技术、数据转换技术、数据分发技术等。
3.3.2 治理层
3.3.3 服务层
治理层是数据治理体系的核心环节,治理层的主要功能包括:数据接引、数据标准管理、数据质量管理、数据安全管理、数据集成、数据融合等[5]。
园区政务管理平台数据治理体系的服务层,其服务功能主要包括:数据治理、数据查询、数据分析、数据共享、数据调用等。
3.3.4 应用层
应用层主要根据园区政务管理平台的需求治理数据,为政务管理应用实际提供便利,充分体现多源异构数据的价值。数据治理体系应用层的应用功能包括数据深度挖掘、数据检索、生成报表、调度决策等。
4 应用成效
为验证多源异构数据集成与治理在园区政务管理平台中的应用成效,对本文采用的集成技术和治理体系和传统体系进行对比,成效结果表现为:
4.1 提高数据质量
传统政务管理平台的数据存在缺失、重复等问题,本文多源异构数据集成和治理后,利用数据清洗技术、数据储存技术等,对数据进行补全、整理,提高数据的标准化,保证数据储存的全面性和完整性,显著提高数据质量。
4.2 消除信息孤岛
本文采用的多源异构数据集成和治理体系,数据采集环节API 网关采用统一的接口,保证政务管理平台可以从不同系统中采集数据,并且通过数据清理、融合,各系统之间可以实现数据的互通、互联、共享,消除了信息孤岛。
4.3 提升数据时效性
数据采集根据不同的时效要求、数据的类型,采用一次采集、定时采集、时序采集等方式,其中定时采集按分钟、天、周、月采集,时序采集采用时序数据库进行存储,同时采用上文的各种先进技术,和传统治理模式相比,本文提出的数据集成和治理体系,显著提高数据治理的时效性。
结束语
综上所述,随着大数据时代的快速发展,园区政务管理平台需要处理海量多源异构数据。多源异构数据存在信息孤岛、质量欠佳、时效性差等问题。因此,本文提出的多源异构数据集成和治理体系,经过园区项目实践,可以很好地解决上述问题。但是,由于本文仅从单一园区项目出发,研究样本数量较少,虽然取得了一定成效,但普适性还有待进一步深度研究,未来将扩大园区应用项目数量,保证集成和治理体系可以为更多园区政务管理提供可靠、有效的支持。
参考文献
[1]储节旺,张子芳.多源异构空间数据融合的情报挖掘和知识发现研究[J].情报理论与实践,2025,(8):1-13.
[2]暴琳,朱志宇,孙晓燕,等.面向多源异构数据的个性化搜索和推荐算法综述[J].控制理论与应用,2024,41(02):189-209.
[3]饶卫雄,高宏业,林程,等.基于半监督学习的多源异构数据治理[J].同济大学学报(自然科学版),2022,50(10):1392-1404.
[4]刘雪飞,林子钊,田启东,等.基于大数据挖掘的电力多源异构信息融合技术研究[J].制造业自动化,2023,45(09):75-78.
[5]陈氢,张治.融合多源异构数据治理的数据湖架构研究[J].情报杂志,2022,41(05):139-145.