基于Zabbix的多云管理平台设计与实现
李运羚
中国移动通信集团新疆有限公司,新疆 乌鲁木齐,863000
摘要:随着云计算技术的快速发展,新疆移动省内已构建了多种类型的云资源池,包括私有云、边缘云、IT云和政企云等。然而,这些资源池在管理上存在分散、多头支撑、运营流程断点、监控不全面、自动化手段缺乏等问题,导致资源利用率不足和管理效率低下。本文基于Zabbix开源监控解决方案,设计并实现了一套多云管理平台,旨在通过资源管理模块、数据采集模块和告警管理模块的开发和集成,解决多云资源池的整合与纳管问题,提升资源利用率和运营效率,最终实现“节本增效”的目标。
关键词:多云管理、Zabbix、资源整合、告警管理、自动化运维
1. 引言
1.1 研究背景
新疆移动作为中国移动通信集团的重要组成部分,近年来在云计算领域取得了显著进展,构建了多种类型的云资源池,包括私有云、边缘云、IT云和政企云等。然而,随着云资源池规模的不断扩大,管理和运营的复杂性也随之增加。目前,新疆移动的云资源池存在管理和支撑分散、运营流程断点、监控不全面、自动化手段缺乏等问题,导致资源利用率不足和管理效率低下。为了解决这些问题,迫切需要一套多云管理平台,对云资源进行优化整合,保障资源和服务的全生命周期管理,实现资源管理标准化、服务支撑自动化,提升企业管理效率,保障服务质量,达成“节本增效”的目的。
1.2 研究目标
本文旨在基于Zabbix开源监控解决方案,设计并实现一套多云管理平台,通过资源管理模块、数据采集模块和告警管理模块的开发和集成,解决多云资源池的整合与纳管问题,提升资源利用率和运营效率,最终实现“节本增效”的目标。
2. 系统设计
2.1 总体架构
多云管理平台的总体架构如图1所示。平台主要包括资源管理模块、数据采集模块和告警管理模块三个核心部分。资源管理模块负责多云资源的集中纳管和资源池的优化整合;数据采集模块通过IPMI/SNMP协议和API接口采集多云资源的日志、告警和性能数据;告警管理模块实现多云资源池告警事件的统一接入、告警压缩、告警抑制和告警关闭,完成告警事件的闭环管理。
2.2 资源管理模块
资源管理模块是多云管理平台的核心组成部分,主要负责多云资源的集中纳管和资源池的优化整合。该模块通过Zabbix的自动发现功能,自动识别和注册多云资源池中的设备和服务,实现对多云资源的统一管理。资源管理模块还提供了资源池的优化整合功能,通过对资源池的资源利用率进行分析和优化,提升资源池的集约化运营程度和资源利用率。
2.3 数据采集模块
数据采集模块通过IPMI/SNMP协议和API接口采集多云资源的日志、告警和性能数据。该模块利用Zabbix的监控功能,实时采集多云资源的运行状态和性能数据,并通过API接口将数据上传到多云管理平台。数据采集模块还提供了数据分析和可视化功能,通过对采集到的数据进行分析和可视化展示,帮助运维人员及时发现和解决资源池中的问题。
2.4 告警管理模块
告警管理模块实现多云资源池告警事件的统一接入、告警压缩、告警抑制和告警关闭,完成告警事件的闭环管理。该模块通过Zabbix的告警功能,实时监控多云资源的运行状态,及时发现和处理告警事件。告警管理模块还提供了告警事件的综合关联分析功能,通过对告警事件进行关联分析,生成多云告警全局视图,提升云端源集合的管理效能与处置响应速度。
3. 系统实现
3.1 资源管理模块的实现
资源管理模块的实现主要包括多云资源的自动发现和注册、资源池的优化整合两个部分。多云资源的自动发现和注册通过Zabbix的自动发现功能实现,自动识别和注册多云资源池中的设备和服务。资源池的优化整合通过对资源池的资源利用率进行分析和优化,提升资源池的集约化运营程度和资源利用率。
3.2 数据采集模块的实现
数据采集模块的实现主要包括数据采集、数据分析和数据可视化三个部分。数据采集通过IPMI/SNMP协议和API接口实现,实时采集多云资源的运行状态和性能数据。数据分析通过对采集到的数据进行分析,帮助运维人员及时发现和解决资源池中的问题。数据可视化通过Zabbix的图表和仪表盘功能,将采集到的数据进行可视化展示。
3.3 告警管理模块的实现
告警管理模块的实现主要包括告警事件的统一接入、告警压缩、告警抑制和告警关闭四个部分。告警事件的统一接入通过Zabbix的告警功能实现,实时监控多云资源的运行状态,及时发现和处理告警事件。告警压缩通过对重复告警事件进行压缩,减少告警数量。告警抑制通过对无关告警事件进行抑制,减少告警干扰。告警关闭通过对已处理告警事件进行关闭,完成告警事件的闭环管理。
4. 系统测试与评估
4.1 测试环境
系统测试环境包括私有云资源池、边缘云、IT云和政企云等多种类型的云资源池。测试环境中的设备和服务包括服务器、存储设备、网络设备和应用程序等。
4.2 测试结果
系统测试结果表明,多云管理平台能够有效解决多云资源池的整合与纳管问题,提升资源利用率和运营效率。资源管理模块实现了多云资源的集中纳管和资源池的优化整合;数据采集模块实现了多云资源的日志、告警和性能数据的采集和分析;告警管理模块实现了多云资源池告警事件的统一接入、告警压缩、告警抑制和告警关闭,完成告警事件的闭环管理。
4.3 评估
系统评估结果表明,多云管理平台能够有效提升多云资源池的集约化运营程度和资源利用率,实现资源管理标准化、服务支撑自动化,提升企业管理效率,保障服务质量,达成“节本增效”的目的。
5. 结论
本文基于Zabbix开源监控解决方案,设计并实现了一套多云管理平台,通过资源管理模块、数据采集模块和告警管理模块的开发和集成,解决了多云资源池的整合与纳管问题,提升了资源利用率和运营效率,最终实现了“节本增效”的目标。未来,我们将进一步优化和完善多云管理平台,提升其功能和性能,为企业提供更加高效和可靠的云资源管理解决方案。
参考文献
[1]Zabbix官方文档. https://www.zabbix.com/documentation
[2]王晓明, 李华. 云计算技术与应用. 北京: 电子工业出版社, 2020.
[3]张伟, 刘洋. 多云管理平台设计与实现. 计算机工程与应用, 2021, 57(12): 1-10.
[4]陈刚, 赵磊. 基于Zabbix的云资源监控系统设计与实现. 软件工程, 2022, 25(3): 45-52.
作者简介:李运羚(1977年10月—),女,汉族,山东青岛人,本科学历,高级职称,研究方向:算力网络。