摘要:近年来,信息化基础设施发展非常迅速,对运维管理提出了更高的要求。本文结合实际情况,就信息化基础设施融合运维管理进行了探讨,希望为信息化基础设施运维提供借鉴。
加入收藏
1、数据中心运维管理现状与挑战
未来随着应急管理业务系统在新技术背景下的快速增长和加速重构,数据中心内将部署数量众多的网络、安全、服务器、存储、系统专用软硬件等设备,形成多厂家设备共存、物理和虚拟设备并存、跨异构网系设备共用的复杂局面,对数据中心传统运维方式带来了极大的挑战。
(1)云化数据中心导致运维管理工作量激增
应急管理云数据中心是由应急管理部主导建设的,为应急管理信息化业务体系正常运转提供基础支撑的数字底座。随着应急管理业务应用的加速重构和逐步丰富,云数据中心规模将日益增长,大量不同类型、配置各异的设备将在云数据中心集中部署,造成数据中心运维管理工作量迅速增加,而传统的运维管理系统采用分工式运维方式,即网络、安全、服务器、存储等分别具有独立的运维管理系统,各系统之间不仅存在重复建设、功能冲突等情况,更重要的是缺乏有效的故障预警、发现诊断等联动机制,导致设备故障难以定位,业务系统中断时间长的情况频繁出现。
(2)用户体验敏感导致对运维管理时效性的要求提高
随着用户对业务应用体验敏感度的日益提高,传统运维管理采用的集中监控系统无法从业务应用和用户视角反映系统运行情况,对于业务应用系统运行过程中出现的故障问题,难以在对应的IT基础设施环境中准确、快速定位故障原因,反之,对于IT基础设备发生故障后,难以准确评估受影响的业务范围和影响程度。业务应用和IT基础设施在运维管理过程中存在的关系脱节情况,对应急管理业务稳定运行产生了不利影响,极易引发业务中断、用户投诉、监管问责等一系列问题,不能满足用户对业务系统可靠、可用的根本需求。
(3)业务快速调整导致运维管理综合难度跃升
随着大数据、中台、微服务等新兴技术的不断应用,应急管理业务体系将迎来深度重构和快速增长,以监督管理、社会动员为代表的,具有大量移动并发访问场景的业务应用,将采用分布式架构进行系统重构,实现业务逻辑与基础系统的进一步解耦。由此对数据中心传统运维方式将产生颠覆性影响,原有“烟囱式”分隔独立的运维管理系统在业务快速调整情况下,难以准确高效调整IT基础设施,无法及时响应业务系统弹性扩容需要,不能根据业务系统运行数据综合预判IT基础设施未来调整需求。随着业务应用系统快速调整逐步常态化,将导致IT基础设施运维管理难度急剧跃升,传统运维管理结合人工智能等新兴技术进行转型升级迫在眉睫。
2、数据中心运维管理系统功能演进要点
为满足应急管理业务应用重构所产生的大量异构设备集中部署、不同系统故障预警信息关联整合、不同系统联动诊断调整,建立业务应用系统和IT基础设施运维的紧密联动等需求,数据中心运维管理系统未来应采用面向服务的模块化架构,具备对环境基础设施(供电、空调、微模块机房等)、网络设备(路由器、交换机等)、安全设备(防火墙、入侵防御等)、服务器设备、存储设备以及虚拟资源、操作系统、应用系统等的融合管理能力,实现自动发现、集中配置、集中监控、故障预警、集中告警、可视化管理、业务视角故障定位、统一报表等运维管理功能。
(1)自动发现,强化设备资源管理
IT设备在数据中心部署后,融合运维管理系统应能通过多种自动发现手段实时感知设备部署情况,并对完成部署的设备进行集中统一管理,包括网络管理、服务器管理、存储管理、虚拟资源管理、专用设备管理等基本功能模块。其中,网络管理模块应能够自动生成网络拓扑图,并对网络组建设备、网络质量、网络流量等进行管理、监控和分析;服务器管理模块应具备对CPU、内存、硬盘、风扇、电源等关键部件以及对服务器整机在线状态、健康状态等信息的监控能力;存储管理模块应能自动发现并实时监控存储网络资源,统计存储网络容量使用情况并作出容量预测;虚拟资源管理模块应能对计算虚拟设施,如集群、虚拟机等提供虚拟资源和物理设备的映射关系拓扑图,并实时更新各部件的性能数据;专用设备管理模块主要用于对融合通信、视频会商、安防监控等专用设备进行监测管理,提供语音质量诊断、视频流跟踪、数据分析等功能。融合运维管理系统通过持续监测IT设备基本信息和运行状态,对设备资源使用情况、设备运行情况等信息数据进行收集和汇总,为设备故障预判、精确定位、智能诊断等后续环节打下坚实的基础。
(2)集中配置,助力业务快速开通
融合运维管理系统应具有多类型设备集中配置、批量下发的功能,通过预制主流厂商网络、安全、服务器、存储和虚拟化等设备的配置表单模板,实现对数据中心不同类型设备的批量配置和快速下发,包括:网络设备的接口配置、VLAN配置、ACL配置、流量配置、QoS配置等;服务器设备的启动顺序、硬盘RAID、SANBoot、BIOS、HBA、操作系统安装等;存储设备的LUN创建和划分、存储池创建、主机映射创建等,同时需预留设备配置模板的增删接口,满足个性化设备的集中配置需求,助力应急管理业务快速上线开通。
(3)集中监控,推动运维降本增效
融合运维管理系统应具备设备拓扑、系统告警和业务视图的集中监控功能,通过对数据中心基础设施和不同类型IT设备CPU、硬盘、风扇状态的统一监控,实时反馈数据中心基础环境和IT设备硬件的工作状态;通过对IT物理设备和虚拟设备CPU利用率、内存使用率、接口流量、链路流量等性能指标进行集中监测,实时显示IT基础资源的性能使用状况;通过对中间件和业务应用系统进行服务性能指标的持续监控,快速了解业务服务可用性和响应时间等关键指标。融合运维管理系统对基础设施和IT设备的集中监控,简化了传统的运行维护管理流程,解决了运维管理人员在不同系统之间来回切换,运维工作绩效不佳的问题,有效地协助运维人员全方位掌控数据中心IT基础设备运行状态,及时获取关键指标异常变化,提升运维管理效率,降低成本。
(4)预警告警,降低业务中断风险
融合运维管理系统应具备故障预警、集中告警的功能。通过对数据中心基础设施和IT设备的集中监控,采集环境基础设施和IT设备的运行数据,对系统工作状态和可能出现的故障进行分析预判,并根据实际情况按需进行故障预警,提前采取有针对性的故障预防措施。当故障发生后,融合运维管理系统应采用集中告警方式,将不同类型设备的告警信息根据其关联关系进行归并整合,屏蔽冗余告警,进行故障原因分析,并以界面显示、声音、E-Mail、短消息服务、小程序等多种告警方式通知相关人员,确保运维管理人员能够随时随地了解故障信息,有效降低业务中断风险。
(5)可视管理,简化部门信息沟通
融合运维管理系统应具备对数据中心基础设施和IT设备的可视化管理能力,能够根据运维管理设备类型和应用场景灵活定制显示内容。融合运维管理系统利用大屏幕等显示设备,采用仪表盘、信息图表等方式,集中展现业务应用和IT设备的关联关系,并对关键业务服务状态进行可视化、数据化展现,以便持续监控关键业务使用量、响应时间、服务状态等性能指标,确保IT系统关键指标出现异常或设备故障发生后,能够全面、直观地展示受影响的业务范围和影响程度,形成数据中心运行维护管理“一图统揽”的业务形态,简化业务部门和IT运维部门信息沟通过程,提高故障快速响应处理能力。
(6)故障定位,保障业务持续稳定
融合运维管理系统应具备基于业务视角的故障定位能力。通过从业务角度监控数据中心IT基础设备的运行指标,建立业务系统和IT基础设备之间的逻辑联系,当业务系统出现异常后,能够准确定位业务异常原因,快速恢复业务正常运行,反之,基于业务系统和IT基础设备之间的关联关系,能够实现根据IT设备故障预判情况,确定受影响的业务范围和影响程度,提前规划并做好防范措施,确保应急管理业务持续稳定运行。
(7)统一报表,呈现资源使用趋势
融合运维管理系统应具有统一报表功能,通过对数据中心环境基础设施和不同IT基础设备的统一监控管理,获取数据中心环境数据和IT基础设备运行数据,实现不同设备数据信息的集中分析处理和统一呈现。利用统一报表功能,融合运维管理系统能深度挖掘运行数据潜能,构建资源跟踪、容量预测、历史性能统计等核心运管能力,满足用户跟踪资源使用情况,掌握IT系统容量利用率,及时发现关键业务性能瓶颈,预测IT系统资源使用趋势,指导IT资源配置优化,避免IT资源不足或过剩情况出现。统一报表功能还应实现将业务运行状态指标化并呈现给运维管理人员,使运维管理人员能够从业务角度监控IT基础设备的运行状态,及时发现业务异常指标,快速识别问题设备并采取积极干预措施,确保应急管理业务快速恢复、可靠运行。
3、结语
未来,在运维管理资源有限的情况下,随着应急管理业务云化、微服务化的逐步深入,业务应用对快速上线、灵活伸缩和服务等级的要求显著提高,传统的人工运维方式在面对海量IT设备运维管理、业务交叉调用关系极度复杂的数据中心环境时,难以保证高质量的IT服务水平。因此,传统人工运维向新型智能运维转变的需求日益迫切,而融合运维管理系统是智能运维演进过程中不可缺少的重要环节,通过构建融合运维管理系统将实现数据中心环境基础设施和IT基础设施的全生命周期自动化管理和性能容量智能运营,提升数据中心基础设施故障预防、发现和自愈能力。
参考文献:
[1]董凯.论云计算数据中心运行维护探索[J].中国新通信,2020,22(09):40.
[2]黄坚.数据中心事件管理的关键控制点[J].计算机产品与流通,2020(03):269.
[3]徐景日.大数据时代下的数据中心运维管理[J].信息与电脑(理论版),2020,32(02):113-115.
李旭东.信息化基础设施融合运维管理初步探讨[J].网络安全技术与应用,2020(11):38-39.
分享:
电磁弹射主要是指利用通电导体在磁场中受到安培力的基本特征形成非接触、稳定的动力,从而使得目标物体获得一定的速度。电磁弹射的基本原理在于电场与磁场的相互作用,简单来讲就是通电导体在磁场中会受到力的作用。在现实的应用场景中,利用电磁铁或永磁铁行程稳定的磁场,后通过控制电流的有无或者大小实现对拟移动物体施加力的作用。
2024-10-10信号与系统的课程定位决定其同时具有数学类和实践类课程的特点和难点[3],通过引入多种数学描述及其表述入手来建立分析应用体系[4],不仅要求学生具备较好的数学基础、较强的抽象思维能力,还要求学生能够理论联系实际,掌握运用数学手段和工程手段解决应用问题。
2024-09-19储能设备具备多样化的能量存储与释放机制,它们能够通过物理、化学或电磁等方式对电能进行转换,并结合实际需求进行电能释放[1]。这种储能手段不仅能够有效解决可再生能源发电的间歇性和不稳定性问题,同时在电力物联网中发挥着能量调度以及优化的作用。
2024-08-25随着信息技术的飞速发展,数据驱动与人工智能在电力储能设备的声纹识别和监测诊断中扮演着愈发重要的角色。作为电力系统运行的核心部分之一,电力储能设备自身的运行状态和性能会直接影响电力系统工作的安全与稳定。然而传统的设备监测和诊断方法往往存在效率低下、准确性不高等问题。数据驱动技术的兴起为解决上述问题提供了解决路径。
2024-08-23在现代通信网络中,通信电源系统扮演着至关重要的角色,为通信设备提供稳定的电力保障,确保通信网络的安全、高效运行[1]。随着通信技术的飞速发展,通信电源系统面临着更高的要求,通信电源设备稳定高效的工作是整个通信网络稳定性和安全性的必要保障[2]。
2024-08-05全球正在经历一场新的科技革命和产业转型,伴随着新经济模式的迅猛发展,在工程教育领域,对教育模式的改革和人才培养机制的革新提出了更高的要求。我国随着“创新驱动发展”“中国制造2025”等一系列国家重大战略的制定,迫切需要高素质的工程人才,工程教育的创新改革迎来了前所未有的重大机遇。
2024-07-25高速公路监控网络是一种新型观察与测量方法,可以通过路旁数据采集等方式,对道路状况以及设备工作状况实时监测,并借助通信网络,将所得数据信息传输至监控中心。监测行驶车辆既可以为高速公路的通行能力提供保障,也能够大幅提升道路运营效率。其中信道增益条件可以用来描述网络体系的信道属性。
2024-06-20在扩频通信系统中,四相相移键控(Quadrature⁃PhaseShiftKeying,QPSK)信号具有误码率低、频谱利用率高等特点[1,2],应用越来越广。为了提高其抗干扰性,I、Q支路分别调制扩频码,如果载波多普勒动态范围大,不完全解扩I、Q支路上的扩频码情况下,锁相的环路无法直接进行载波捕获[3]。一般的扩频系统中都是先进行FFT运算对载波进行初始捕获,再通过锁相环进行跟踪捕获,可见精确的FFT算法是至关重要的[4]。
2024-01-03需要解决的问题。典型远程探测场景下,4 000 km处干扰机与弹头之间的角度间隔仅为0.02°~0.05°,导致常规的单站抗主瓣干扰手段力不从心。例如:利用和差波束的主瓣对消方法可以抑制近主瓣干扰(≥1 5波束宽度)[1,2,3],但对上述场景的目标信干比改善不足5 dB,不满足实际应用需求;盲源分离方法[4,5,6,7,8]利用混合信号相对于源信号统计特性变化找到信号的分离点,从而实现干扰与目标信号的分离。
2024-01-03显示玻璃破碎机理为玻璃缺陷位置应力集中导致裂纹萌生与扩展,并采用断裂分析技术解析起源位置、裂纹扩展、应力类型、冲击和摩擦方向等,全方位研究了玻璃断裂机理;文献[2]研究表明,显示玻璃强度主要取决于表面及边缘缺陷,并通过表面强度测试[3,4]、边缘强度测试[5,6]和冲击强度测试[7,8]表征玻璃强度;文献[9]基于神经网络算法,通过选取玻璃缺陷图像进行神经网络训练,对常见玻璃缺陷进行精确分类及识别。
2024-01-03人气:2781
人气:2686
人气:2003
人气:1903
人气:1759
我要评论
期刊名称:信息通信技术
期刊人气:874
主管单位:中国联合网络通信集团有限公司
主办单位:中国联合网络通信集团有限公司
出版地方:北京
专业分类:科技
国际刊号:1674-1285
国内刊号:11-5650/TN
创刊时间:2007年
发行周期:双月刊
期刊开本:大16开
见刊时间:10-12个月
影响因子:0.407
影响因子:0.095
影响因子:0.500
影响因子:0.497
影响因子:0.353
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!