数据中心运维的工作范围管理平台建作业的好处

云计算数据中心的运维管理

现代信息中心已成为人们日常生活中不可缺少的部分

因此信息中心机房设备的运行正常与

否就非常关键。在数据中心

生命周期中数据中心運维的工作范围管理是数据中心生命周期中最后一

也是历时最长的一个阶段。

加强对云计算运维管理的要点以及相应改进方面措施的研究

運维质量实现高效的运维管理。这就给运维是否到位提出了严

在数据中心生命周期中

数据中心运维的工作范围管理是数据中心生命周期中最后一个、

为提供符合要求的信息系统服务,

务有关的数据中心各项管理对象进行系统地计划、

各项管理工作的总称数据中心

运维管理主要肩负合规性、可用性、经济性、服务性等四

在信息中心机房配备有运维人员,但大都是“全才”的即什么都管,尤其是对供电系统大

都是由主机运维的人员代管

此代管人员一问三不知,

门都没开过这实际上就是把机房的运维放在了一个次要的地位。

当然也有嘚地方有所分工

实际上也没得到真正地重视。

一直运行正常这时如果运维人员提出要增添运维方面的测量设备,有的领导就认为多余

但他不知道机房设备所以长时间一直运行正常,

正是由于这些运维人员的细

心维护和努力保养所获得的

并不是这些人员每天闲着无事鈳干,

他们的这些工作一般是领

导看不见的比如同样多款的

在同样的环境条件下,在某卫星地面站就极少出故障

而在同系统别的地方機房同一家同规格的机器就故障连连。

原来是前者的运维人员每天都在

细心观察和分析机器面板

上显示的数据一旦发现异常苗头及时采取措施

于每天抄写这些数据就算完成任务,

额定闭合状态发现触点处温度高了

就要检查是不是电流过大到超过额定值,

检查触点接触是否牢靠

是否需要再紧固一下。这样一来故障隐患就排除了。如果一直不

管不问久而久之就会导致跳闸而使系统崩溃

所以同是运维人員在巡查,

但前者在做事而后者只是走马观花

运维人员就像幼儿园的保育员和老师。

起主要作用的就是保育员和老师

这时保育员和老師就是主体。

机器就好比是幼儿园的孩子

常运行,除去本身的健康

状况外那就是运维人员的责任了。由于云计算的要

的常规数据中心運维的工作范围管理理念之外以下运维管理方面的内容,需要我们加以

云计算数据中心运维的工作范围管理的要点

数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称

这里主要指的是为保障数据中心

所管理的设备正常运行所必需的网络通信、供配电系統、

消防系统和安保系统等。

这部分设备对于用户来说几乎是透明的

}

运维工程师主要是确保网站、软件服务的安全和稳定运行具体来说,就是当开发项目正式上线后产品、编程、测试类的工作就正式结束了,接下来维护和管理的工作僦会全部移交给运维工程师(如下图所示)

产品/程序/测试结束后的所有工作都是运维的

此外,运维工程师的工作核心主要是保障产品上線后的稳定运行对在此期间出现的各种问题进行快速解决,并在日常工作中不断优化系统架构和部署的合理性以提升系统服务。由此鈳见运维工程师工作的重要性并不亚于任何开发类的工程师。

运维工程师没有年龄限制

产品上线后就一直需要运维工程师维护以保证產品能正常运行。所以对于企业而言不会有“白养闲人”的感受。同时运维问题的解决方案相对固定不会像开发一样需要不停学习,即使有软件出现版本更新也仅仅是按照部署流程,将最新版本软件部署在服务器上能保证在服务器上运行即可。

运维工程师不用担心會被年龄淘汰学到的技术,总结工作经验是可以通过总结反省进行积累和移植的,换句话说就是可以用一辈子所以运维工程师,不僅没有年龄危机反倒随着工作年限的增长,工作经验丰富越老越吃香,就像老中医是不是这样呢?华为运维专家都快50岁了但是还昰在以“狼性”闻名的华为,稳定的做着安全运维的工作

有软件开发的地方,就需要有软件部署和保证软件正常运行的运维工程师

08-09年互联网在中国刚开始火的时候,各个公司竞争的关键是要拥有自己的互联网产品让能搭建起自己互联网平台的开发岗位很重要。

但是随著时间推移在互联网人口越来越多和互联网产品激烈拼杀大浪淘沙双重作用下,留存的产品负载越来越大可能早期每日也就几十几百囚上线,到后期可能要面临着上百万上千万的访问量(比如小米秒杀淘宝双十一,春运12306抢票)开发或测试人员已经无法兼职来解决大負载大并发问题,此时就慢慢的诞生了一个新的岗位——运维工程师

无论是电商平台淘宝、京东,还是媒体平台如新浪、网易;无论是視频网站如优酷、斗鱼还是游戏公司如腾讯、盛大,他们都要有自己的运维团队

目前大中型互联网企业都会配备运维团队,反过来说以后运维从业绝大部分进入的都将是大中型互联网知名公司,薪资怎么可能低

同时随着互联网的高速发展,互联网规模越来越大、架構越来越复杂运维工作在大型互联网公司也越来越重要,对运维工程师的需求也会越来越急迫薪资这两年也是一路走高,从职友集的數据来看其平均薪资范围是元,和开发不相上下


如今互联网规模越来越大、架构越来越复杂,一线市场对运维需求量越来越大目前僅智联招聘这一个平台,仅北京这一个地区运维的需求量就是10392(9.16日查询)。

Linux运维的学习线路图:

项目介绍:LAMP(Linux操作系统+Apache服务器+MySQL数据库+PHP编程语言)网站架构是目前服务器中流行的一种架构其架构无论在性能、质量还是价格等方面都是企业搭建网站选择的平台。本项目将结匼基本班的相关内容带领学员一步一步完成LAMP环境部署并实现开源项目的构建(博客系统、商城系统、门户网站、ThinkPHP项目等)

链接: 密码:y5xn

Service的簡写它是一款实现DNS服务器的开放源码软件。Bind原本是美国DARPA资助伯克利大学(Berkeley)开设的一个研究生课题后来经过多年的变化发展,已经成為世界上使用最为广泛的DNS服务器软件目前Internet上半数以上的DNS服务器有都是用Bind来架设的。Puppet是由Ruby语言编写的一款基于master/agent的认证机制,可实现配置自动嶊送给客户端的IT自动化管理工具它能够帮助系统管理员管理基础设施的整个生命周期:供应(provisioning)、配置(configuration)、联动(orchestration)及报告(reporting)

链接: 密码:emem

项目介绍:本课程阶段为Linux高级运维的核心阶段,项目较多主要包括高级运维架构图解、ELK日志分析、Git版本控制软件、(Cacti、Zabbix数据监控等等)、OneAPM服务器性能调优、阿里云产品实战等等。通过此阶段的学习可以让学员在实战中学习到真正核心的运维技术,从而可以让学员针对企业运维中嘚实际问题提出针对性的解决方案成为运维方面的专家。

项目介绍:安全是IT行业一个老生常谈的话题了从之前的“勒索病毒”到目前嘚“Facebook信息泄露”等事件中折射出了很多安全问题,处理好信息安全问题已变得刻不容缓因此做为运维人员,就必须了解一些安全运维准則同时,要保护自己所负责的业务首先要站在攻击者的角度思考问题,修补任何潜在的威胁和漏洞

项目介绍:本阶段项目主要为BAT等超大型公司提供专业的运维解决方案,项目内容主要包括:虚拟化技术、Openstack自动化运维、Docker实战、Kubernetes集群、Hadoop云计算、DevOps、企业级项目实战

项目介绍:Python是一种面向对象的解释型计算机程序设计语言其具有丰富和强大的库。它常被称为胶水语言能够把用其他语言制作的各种模块很轻松地联结在一起,在企业运维自动化中起着重要的作用本项目将通过Python结合运维技术,为企业架设提供自动化、智能化的运维管理平台洳jumpserver跳板机、分布式监控系统、任务调度系统等等。

项目介绍:随着互联网、信息化产业的不断发展作为各种信息载体的数据中心发挥着樾来越重要的作用。因此保证数据中心的安全运行变得尤为关键,本阶段主要介绍数据中心运维的工作范围工作者所应具备的工作职责与相關技能

以上有的阶段没有视频,可以等待更新等更新了我第一时间来知乎更新。

}

原标题:京东数据中心设施运维管理(三)

10.1. 京东云华东数据中心设施运维管理

随着大数据、云计算、智慧城市、移动互联网和物联网等应用的快速发展各行各业对于数據中心的需求量越来越大。数据中心单体规模越大、系统越复杂其脆弱性也越高,对于数据中心运行维护管理水平的要求也就越高

数據中心运维的工作范围管理的范围很广泛,也是数据中心生命周期中最长的一个阶段主要包括基础设施、各种IT设备、信息与数据、应用軟件等。运维管理的好坏很大程度上决定了数据中心的使用寿命本章主要介绍京东云华东数据中心在基础设施运维管理方面所做的努力。

数据中心设施运维管理是为了确保数据中心基础设施为电子信息系统提供稳定可靠的运行环境确保电子信息系统和其支持系统能够安铨、稳定、可靠、持续并高能效地运行,实现运行维护的及时性、规范性、安全性和可用性

10.1.1. 京东云华东数据中心设施运维管理的目标和內容

京东云华东数据中心设施运维管理核心团队组建于数据中心建设初期,其主要的专业技术管理人员都深度参与了整个数据中心园区的笁程建设以及测试验证等重要阶段对数据中心从无到有的过程都非常熟悉。在数据中心交付之前他们就已经了解这个数据中心基础设施系统的构成,掌握所有设计、施工、变更、整改的技术文档和测试数据知道哪些部分是此后运维工作需要特别关注的薄弱点。

设施运維管理的基本目标包括:

1) 对与信息系统服务有关的数据中心各项管理对象进行系统地计划、组织、协调与控制

2) 依托于已交付的基础设施,通过科学的管理最终使数据中心得以实现服务与经济上的目标。

“三分技术七分管理”。大量的事实表明数据中心运行的好与差,评判标准很大程度上是由管理水平的高低所决定的一个数据中心即便采用了最新的技术,如果运维管理不当一定不是一个好的数据Φ心。一个好的数据中心会通过科学的运维管理充分利用本身现有的技术和设备,将运行成本降到最低而使能源利用最大化。

京东云華东数据中心设施运维管理还有一个非常重要的目标是“建立一套持续改进的机制”这点往往容易被人们忽略。数据中心设施运维管理與数据中心设施系统建设阶段的项目管理有很大的不同项目管理是一次性的,必须保障“当前最佳”因为没有机会推倒重来;而数据Φ心运维的工作范围管理是一个不断循环迭代的过程。“一套持续改进的机制”可以保障数据中心运行效率不断提高、运行成本不断降低数据中心的设施运维工作是一个不断改善的过程,正所谓“没有最好只有更好”。

所谓运行是指对数据中心设施系统与设备进行日瑺地启停控制、参数设置、状态监控和优化调节,以确保电子信息系统和设施系统自身获得安全、高效的运行环境

所谓维护,是指为保證数据中心设施系统与设备具备正常运行所需要的条件达到提高可靠性、排除隐患、延长寿命期等目的所进行的工作,包括定期巡检、檢测、维护和保养等

设施运行维护对象应包括如下系统:

  1. 不间断电源系统,UPS和电池
  1. 消防供水设施及消火栓系统
  2. 应急照明与疏散指示系统

10.1.2. 京东云华东数据中心设施运维管理制度

人是数据中心设施运维管理的基础也是管理的核心。京东云华东数据中心的设施运维团队按照工莋内容划分为以下两个主要职能:

  • 运维巡检团队:实行7×24小时轮岗工作制对基础设备设施进行巡检,担任值班工作第一时间发现故障戓问题,并作为管理程序的执行者主要包括电工、管道工、制冷工等,各个工种的技术员均持证上岗协同作业。
  • 技术管理团队:对数據中心场地基础设施提供运维技术支持解决技术问题,承担数据中心场地基础设施一般性的优化改造工程的项目管理工作即运维管理核心团队,包括运维经理以及暖通、电气、智能化等专业的技术人员

此外,运维团队还定期组织技术交流分享会在提升大家实战技能嘚同时,促进员工之间互相学习

给每个独立的数据中心模块建立完整并实时更新的设备台账。台账包括所有关键基础设施设备的清单並完整记录这些设备设施的运行情况、事件情况、变更情况、维护保养频次等信息。

对影响安全运行的关键设备如UPS、冷水机组、精密空調等的设定参数以及关键点的报警阀值制定了统一管理制度,结合数据中心实际运行情况经技术讨论后按统一参数值设定运维巡检人员鈈可以随意修改。

为延长设备的使用寿命减少设备故障的概率,必须对所有设备设施进行有计划地维护通过定期检查和保养,是设备設施的某些缺陷或隐患在变得更严重之前被发现

运维团队根据不同系统的设备情况与供应商充分沟通,按照供应商的建议提前制定年度、季度、月度预防性维护计划运维人员按照各设备系统的特性、维护流程及规范,及时、完整地落实维护工作并形成客观实际的记录囷报告存档。此外运维团队还定期对设备运行状态的数据进行统计和趋势量化分析,对于异常的趋势及时作出报警和相关预案。

运维囚员在接到工单时能明确获悉工作任务与注意事项,提前熟悉操作流程做到心中有数;在维修操作过程中,工单也可以起到指导操作嘚作用;在维修工作结束交单、备案归档如在维修过程中遇到困难,亦可以向技术管理层及时反馈做到闭环控制。

对数据中心基础设施的所有操作都事先制定详细规范的操作流程,并要求每一位运维人员在开展运维工作时严格按照流程执行主要包括:

  • 维护作业程序MOP:根据设备供应商提供的建议,结合数据中心的自身特点指定用于指导对数据中心关键基础设施设备进行维护、维修、安装、操作时执荇的流程。
  • 标准操作流程SOP:所有关键基础设施设备在任何情况下必须严格执行的常用操作流程比如,启停发电机组的操作流程UPS转换到旁路带载操作流程,机柜加电流程故障应急流程等。
  • 应急操作流程EOP:在有可能发生严重故障的情况下应执行的流程严重故障通常是指囿可能使数据中心一个或多个主机房发生大面积宕机的故障。

5) 备件、耗材、仪器、工具管理

运维团队根据设备台账及其分类制定最低备件囷耗材的库存清单并及时补充备件和耗材为规范仓库管理,指定专门的库房管理员定期盘点库存,公示库存情况凡申请备件和耗材嘚运维人员必须实名填写申请单,说明申请缘由和数量由管理员登记在案。物资的出库、入库必须经由管理员清点记录其他人不得随意进出库房。管理员需保证库房安全物资完好无损,不出事故

将运维用的仪器和工具分门别类放置,每次运维人员交接班时对仪器和笁具进行清点签字确认。对比较复杂的仪器仪表制定相关的操作指导规范定期对仪器仪表进行校准。

运维核心团队基于设施设备的合悝生命周期结合风险评估,制定设备维护、升级或更换的计划或预算及时报告给上级主管部门。

1) 日常巡检及交接班管理

在正常开展运維工作时采用A、B角色配置至少保证两名不同工种的运维工程师配合巡检,同时保证值班室留人员及时通报数据中心运行状态异常情况,重要问题就近人员应急处理

交接班时主要交接内容包括:设备有无异常情况发生;当班遗留工作及完成内容;异常情况简述及处理;仩级命令、指示的内容和执行情况;各种工具、仪器仪表、钥匙、工作记录和资料;机房环境卫生情况;提醒接班者应注意的事项及其他問题。在交接班时间内发生事故或异常现象仍由交班人员处理,接班人员应予以必要的协助完成

将数据中心根据重要等级和功能区划汾相应的控制区域,对出入权限实行分区、分级管理对重要区域设置多重认证措施。所有访客一律实名登记获得相应授权后,在运维笁作人员的陪同下方可进入机房区域

机房区域设有7×24小时视频监控,所有进入监控区的人员活动情况将被监控系统记录保存90天以上

划萣保洁区域,定期做好机房保洁工作保证地板及地板下的无尘状态。在重要区域进行保洁工作时必须有运维人员现场监督和指导

数据Φ心故障按照影响程度的不同分为四类事件。运维团队制定事件管理流程明确不同等级事件下相应的处理流程。在数据中心故障发生时严格按照事件的类型进行升级报告。

  1. 一级事件:关键服务中断影响SLA(服务等级协议)达成;
  2. 二级事件:关键服务组件出现故障,导致鈈满足冗余条件或服务水平下降有潜在影响SLA的可能性;
  3. 三级事件:非关键服务组件故障,不影响SLA的达成
  4. 四级事件:非关键服务组件的质量下降造成轻微可以忽略的影响

10分钟内报告运维总监

10分钟内报告运维总监

针对对应的应急操作流程EOP进行定期的演练工作,旨在发现应急操作时存在的薄弱环节采取及时补救措施,提高运维人员应对突然事件的团队协作能力和应变能力缩短突发事故的处理时间,确保数據中心基础设施安全运行主要包括:

  1. 沙盘演练:参与演练的运维人员分别口述在发生紧急情况下自身所应承担的职责及将会执行的方案忣步骤。
  2. 跑位演练:参与演练的运维人员跑位到模拟故障现场模拟处理故障,参与人员应清晰地说出故障的处理方案及步骤

运维团队針对影响运维人员身体健康的人身事故制定应急流程并定期演练,包括设置现场急救包以及联系当地医疗急救机构的方式等

主要包括IT设備摆放空间、基础设备设施摆放空间、综合布线线路空间和配线架的管理。

主要包括电力供应容量、制冷供应容量、综合布线信息点容量嘚管理

运维团队定期填写运维周报和月报,如实记录数据中心空间容量和基础设施使用情况的变化便于上级管理人员进行能源审计和能耗分析,掌握数据中心的整体利用率预测业务增长趋势,提前制定扩容或新建数据中心的计划

京东华东云数据中心PUE的计算方法见图10.3.2-1

图10.3.2-1 京东云华东数据中心PUE计算方法

根据实际运行数据分析,在低压配电系统中UPS系统用电量占比约68%~75%,冷源系统系统用电量占比约15%~20%精密空調系统用电量占比约3%~5%,照明、通风、办公等其他用电量占比不到5%所以,数据中心能效管理的目标是在保证电子信息系统安全高效运行的湔提下重点对UPS系统和冷源系统的运行控制策略进行合理优化,降低整体PUE

由UPS效率曲线(图10.3.2-2)可以得出,负载率在10%以下时UPS效率基本小于80%;负载率在10%~20%之间,UPS效率在80%~90%;负载率大于20%后UPS效率大于90%;在负载率30%以上时,UPS效率曲线接近于直线负载率的变化几乎不再影响UPS效率变化。

京東华东云数据中心采取UPS逆变器模块休眠技术前期在UPS低负荷运行时,关闭一定数量的模块让单机UPS达到较高的负载量,从而提高UPS的效率這样,只要使得UPS单机负载在30%以上在低负载时效率已经可到达几乎满载时的效率。

另外休眠功能还有一个令数据中心担心的问题是休眠後能否及时唤醒的问题,若休眠模块不能及时唤醒那么,带载的模块就可能出现过载保护的情况本项目采取的运行策略是,在带载逆變器负荷率大于60%时就唤醒休眠的模块带载。

此外UPS逆变器模块休眠还采用自动轮换技术,每间隔一定时间休眠的逆变器模块自动唤醒,而带载的模块自动休眠这样一来,不仅自动测试了UPS休眠功能也使得逆变器模块在整个生命周期内带载时间均衡。

对冷源系统冷量的瞬时值和累积值进行监测冷水机组优先采用由冷量优化控制运行台数的方式。对于京东云华东数据中心选用的三级压缩离心式冷水机组來说40%~80%负载为其高效率区。所以根据系统负荷的变化合理控制冷水机组的开启台数,使机组负载经常保持在高效区运行对于机组节能囿显著效果。

图10.3.2-3 三级压缩离心式冷水机组能效曲线

京东云华东数据中心冷源系统的设计供回水温度为10/16℃在实际运行过程中,根据室外环境的变化调整冷冻水供水温度设定值可以节省冷机功耗有研究表明,冷冻水供水温度提高1℃冷机功耗可降低4%左右。提高冷冻水供水温喥还能延长自然冷却工况的运行时间经过理论测算,当供水温度为10℃时自然冷却工况可运行3.5~4个月左右;当供水温度为12℃时,自然冷却笁况可延长1个月左右而实际情况表明,当供水温度提高到15℃甚至更高全年可使用自然冷却的时间长达半年。而且14℃的供水温度依然能保持机房环境温度在26℃左右符合GB的推荐温度。

在自然冷却状态下关闭冷水机组使其进入待用状态,只开启冷冻和冷却水泵、冷却塔保持供水水温在16度以下。在完全免费制冷季切换到常规制冷季过渡时段(即气温小幅升高基本稳定但未到常规制冷设计室外状态点),鈳先开启一组冷源设备将冷水机组和冷却塔切换为常规制冷状态,待该组冷源供冷稳定后关闭;随气温缓慢升高按照以上操作,逐步增加切换机组的数量直至将全部冷水机组切换为常规制冷状态,自然冷却工况结束从常规制冷季到完全免费制冷季,可按完全相反的順序进行操作切换

对于加装了变频器的电动设备,比如水泵和冷却塔保证设备频率随冷量变化动态调整很重要。前文中有提到变频設备的流量与频率比成正比,功耗与频率比的三次方成正比多台并机、降频运行可以极大地节省设备功耗。不过为避免水泵本体过热頻率不宜低于30Hz。

10.3.2-4 京东云华东数据中心变频水泵的测试验证数据

10.3.2-5 京东云华东数据中心变频水泵的功率曲线

  • 精密空调系统的优化控制

京东雲华东数据中心的精密空调全部采用EC风机对EC风机的优化控制可以帮助降低精密空调系统的能耗。如下图所示横坐标表示EC风机实际运行風量与额定风量的比值,纵坐标表示EC风机实际功耗与额定功耗的比值可以看出,随着EC风机风量的减少功耗不断下降。现场实测试数据顯示50%以下风量时,功耗下降并不明显而且运行风险增大,所以EC风机的风量设置不宜低于50%当主机房IT负载未达到满载时,增加精密空调運行数量降低单台空调风量有助于节能。

图10.3.2-6 京东云华东数据中心实测EC风机风量比与能耗比的关系曲线

京东云华东数据中心所有主机房均采用分布式照明智能控制系统人员进入机房间时灯具根据感应打开该部位灯具,人员离开时灯具则按设定的延时时间自动关闭无人员進入机房时灯具能满足运维监控的最低照度,达到节能与自动控制的目的

10.1.1. 京东云华东数据中心设施运维管理平台

京东云华东数据中心是按照世界一流数据中心的理念设计和建设的,按照国际先进的运营管理模式投入运行并为之设计了一套先进、可靠的智能化基础设施运維管理平台进行系统性支撑。

系统平台围绕着以下目标进行设计和建设:

  • 能高度稳定可靠地监控园区环境、各相关系统和设备的运行状态为运维管理提供必要信息;
  • 整合园区内IT系统与数据中心基础设施的管理,架起两者间的沟通桥梁分析电力、冷却、空间、服务器、存儲及网络带宽等相关资源的数据,最大化数据中心的运营效率保障数据中心的可用性。
  • 以各类数据库(全文数据库、多媒体数据库和关系数据库)为管理工具利用海量全文数据库技术、数据加密和压缩存储等技术,实现监控实时化、资产数字化、流程系统化、业务流畅囮等从而达到对 IDC 业务涉及到的所有部门与资产统一管理的目标。
  • 通过规范流程管理提高数据中心管理工作效率并提供安全舒适的工作環境;
  • 节省数据中心运行管理费用,达到短期投资长期受益的目的;
  • 软、硬件均采用模块化结构设计适应发展需要,做到具有可扩展性、可变性适应环境的变化和工作性质的多样化,同时满足今后与京东总部的数据中心云平台对接的基本要求
  • 京东云华东数据中心园区包含4个数据中心模块,每个模块配置一个独立的监控中心整个园区设置一个综合监控中心ECC(位于园区中心)。

    模块级的监控系统对基础設施的监控内容包括:电气部分(UPS、ATS、精密配电柜、智能电量仪表、防雷开关、蓄电池输入开关);动力部分(精密空调、冷水机组、水泵);环境部分(温湿度、漏水监测、可燃气体浓度监测等)系统对被监控设备进行实时的监测和展示。其集成的子系统包括:高压电仂监控系统(含柴油发电机、10KV进线柜、馈线柜、直流电源屏、变压器、配电开关监测等)、柴发供油控制系统

    园区级的系统平台主要由㈣大功能模块组成:基础设施、客户服务、客户自助服务、大屏幕展示。这些功能模块涵盖 IDC 涉及的基础设施运维监控及业务流程管理方面例如:实时监视、业务流程管理、资源视图、值班 OA 等,对所有业务流程进行分类模块化管理流程完善、清晰。系统还针对四大功能模塊基于 Android 与 IOS 移动终端开发了微信操控平台 方便各部门人员与客户对

    园区级的监控平台可实现以下功能:

    • 可用性管理,可视化展示各设备设施实时状态实时掌握可用性状况;
    • 业务流程规范化管理,变更风险管控降低变更带给业务的影响;
    • 复杂事件分析处理,准确定位故障;大数据分析智能预警;
    • 设备部署合理,平衡各维度容量综合利用率避免单项容量短板;
    • 可视化容量管理,直观展示容量使用情况及趨势分析扩容决策及时准确;
    • 提供多维度运行分析报告,为运营决策提供数据支持;
    • 重大故障可实时准确提供数据中心应急预案;

    2.模块級监控系统架构

    系统架构包含现场设备数据采集层、现场设备监控层和集中监控层

    1. 现场设备数据采集层:由各种I/O采集模块等组成,连接所有传感器和被监控设备实现监控平台与被监控对象的数据通讯。所有硬件采用模块化架构I/O模块采集传感器数据后通过系统配置实现對所有传感器的数据匹配对应;各种智能设备直接接入现场监控层。
    2. 现场设备监控层:由多台嵌入式服务器或独立网络控制器组成负责收集与处理由现场设备采集层发送上来的数据。现场应根据系统总线数量、监控单元的处理能力、机房物理分区等条件设置嵌入式服务器戓独立网络控制器
    3. 模块集中监控层:采集现场设备监控层上传的数据,对本模块内的现场监控服务器进行集中管理实时监测本块组内基础设施的参数、状态,并提供IE远程浏览服务同时,使本模块的监控数据具备上传至园区综合监控中心综合监控层的能力

    集中管理平囼配置了“双服务器+双数据库”,实现容错配置

    10.3.3-1 模块级监控系统界面(一)

    10.3.3-2 模块级监控系统界面(二)

    3.园区级监控系统架构

    京东云(华东)数据中心综合智能监控管理平台,可以实现对数据中心各设备和系统的统一监控与管理减轻维护人员工作负担,同时提高整个系统的运行可靠性、稳定性和兼容性、可扩性实现机房的科学管理。

    1) 园区系统平台架构

    着眼数据中心园区的整体规划系统采用“分布式”结构,满足全天24小时运行自动故障报警监测。系统能在分布式结构的基础上方便实现新设备、新子系统的接入系统预留北向接口,为京东总部的数据中心云平台提供数据

    10.3.3-4 园区级监控平台架构图

    1) 基础设施模块功能

    基础设施管理模块是集高压供电系统、低压UPS 保障系統、冷水控制系统、环控系统、消防报警系统、视频监控系统、门禁系统等实时监控、操作为一体的操作平台。基础设施模块的构成如图10-4-6所示

    10.3.3-5 基础设施模块构成图

    1) 客户服务模块功能

    客服模块保证第一时间受理客户的需求,转发至相关责任部门进行下一步处理并对工单進行记录跟进,确保 IDC 机房流程的顺畅客户服务管理模块的构成如图10-4-7所示。

    10.3.3-6 客户服务管理模块构成图

    1) 客户自助服务模块功能

    客户自服务模块支持客户对自有设备的查看以及对 IDC 机房日常需求的申请发起。客户自服务模块功能如图10-4-8所示

    10.3.3-7 客户自服务模块构成图

    1) 大屏展示模塊功能

    通过该模块可以动态的展示机房内重要设备的关键参数,实时直观地显示各系统设备的运行数据、运行状态、机房内的情况、各子系统相关拓扑图大屏幕展示模块构成如图10-4-9所示。

    10.3.3-8 大屏展示模块构成图

    京东云华东数据中心是京东技术转型的一个全新尝试从它目前運营的稳定情况来说无疑是成功的。这是一个可贵的开始意味着京东厚积薄发的技术实力得到了实践的验证,也为今后在数据中心行业嘚技术探索增强了信心

    本文来自:【京东数据中心构建实战】如需购买可以通过京东商城,或者咨询小编微信:jinruitongbj

    资料免费送(点击链接下載)

    史上最全,数据中心机房标准及规范汇总(下载)

    数据中心运维的工作范围管理 | 资料汇总(版本)

    加入运维管理VIP群(点击链接查看)

    《数据中心运维的工作范围管理》VIP技术交流群会员招募说明

}

我要回帖

更多关于 数据中心运维的工作范围 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信