数据中心频发故障，安全运维是做什么的中应注意哪些方面

点击联系发帖人 时间：2018-08-09 02:49

数据中心运维工资高吗

论文发表、论文指导
周一至周五
9：00&22：00
数据中心运维管理现状及策略探讨
　　摘要中国论文网 /1/view-5971868.htm　　近年来，我国的科学技术快速发展，数据中心也成为各个领域很多行业的核心机构，但是目前数据中心运维管理水平较低，不能很好地适应和满足计算机网络技术的发展需求。本文分析了数据中心运维管理的主要内容和数据中心运维管理的现状，阐述了提高数据中心运维管理能力的有效策略。　　【关键词】数据中心运维管理现状策略　　数据中心运维管理包含多种管理项目和内容，对于数据中心的安全运行有着重要的影响。有针对地采取相应措施，逐渐实现数据中心系统高效、安全、稳定的运行目标，提高数据中心运维管理能力和水平。　　1 数据中心运维管理的主要内容　　数据中心运维管理的主要内容包含四个部分，其一是数据中心信息系统的运维管理，数据中心的信息系统主要包括前置综合系统、综合业务系统、人力资源系统、数据集中统计管理系统、外联系统、资金结算、监管系统等多项数据信息系统以及数据中心的多种计算机网络服务器。其二是数据中心存储管理，存储管理主要是指有离线、近线、远线组成的三级数据中心存储系统。其三是数据中心机房的网络管理。其四是数据中心网络环境管理，对数据中心的硬件软件以及机房环境进行管理，运维对象包括消防系统、入侵监测系统、精密空调、视频监控、环境监控、门禁系统、电力设备系统、机房环境监测等。　　数据中心运维管理的主要任务是配置管理、变更管理、故障管理、监控管理以及资源管理。　　配置管理主要是指对数据中心的核心系统、核心设备以及机房环境等配置相应的档案库，提高数据中心的运维管理水平，充分调动管理人员的工作积极性和主动性。　　变更管理主要是指根据数据中心的业务需求和运维管理需求，对网络配置、存储资源、软件系统、硬件设备、机房环境，调整业务数据，升级和更换参数配置。　　故障管理主要是指数据中心对相关单位反映的问题和运维管理中出现的问题，及时进行处理和解决。　　监控管理是指对网络系统的运行性能和运行状况、存储系统、信息系统、主机设备、机房环境等进行实时监控，定期进行巡检和维护，全面掌握系统运行情况和运行趋势。　　资源管理是指对数据中心的网络资源、存储资源、主机资源以及环境资源进行管理规划，优化资源配置，根据不同的需求及时调整资源配置，提高数据中心资源利用率。　　2 数据中心运维管理的现状　　2.1 信息资源配置滞后　　近年来，我国经济快速发展，各个领域各个行业都取得了显著的成就，但目前数据中心的运维管理技术已经不能满足各个行业缩短业务发展周期的需求，限制了很多企业的创新和发展，数据中心的信息资源配置滞后，严重影响了数据中心信息系统的运行，也给数据中心运维管理带来一定的难度。　　2.2 运维管理技术落后　　随着各个领域各个行业业务数量和种类的不断增加，数据中心信息系统越来越复杂，数据中心信息系统的运维管理难度越来越大，数据中心运维管理面临着巨大的挑战。近年来，信息系统的软件和硬件都趋于集成化，对数据中心运维管理的能力提出了新的要求，需要不断提高运维管理水平，满足社会的需求。　　2.3 数据中心运维管理水平需要进一步提高　　随着计算机网络技术的快速发展，电子信息技术被广泛应用于各个行业对于数据中心信息系统有着很大的需求，但是当前我国数据中心的运维管理水平还不足满足各个行业服务要求，数据中心需要进一步提高运维管理能力和水平。　　3 提高数据中心运维管理能力的有效策略　　在我国社会主义市场经济的推动下，给信息化发展带来了很大的挑战，不断提高数据中心运维管理水平是建设数据中心信息系统的根本要求。　　3.1 提高运维管理人员的综合素质　　管理人员是数据中心运维管理的关键核心，只有不断提高运维管理人员的综合素质，才能不断提升数据中心运维管理的水平。可以通过多种形式，鼓励管理人员学习更多的运维管理知识，提高自身的运维操作技能，充分调动工作人员的积极性和主动性。结合社会发展的需求，结合相关要求，开展数据中心运维管理的系统化、专业化培训，重视网络运维技术的学习，激励管理人员自主学习和探究数据中心的信息系统建设，使管理人员充分了解数据中心的运维管理要求，重视管理人员的能力训练，熟练掌握基本的系统维护和操作技能。　　3.2 加强对业务环境的了解和分析　　为了不断提高数据中心运维管理的能力和水平，必须加强对业务环境的了解和分析，健全运维管理机制，提高决策能力。及时了解和研究业务环境，首先需要找出数据中心信息系统和业务环境之间的关联因素，深入分析业务环境对信息系统的影响。其次，仔细分析业务环境的变化内容，全面调查金融服务内容，研究业务发展趋势。最后，正确分析业务环境影响因素，评估业务环境的风险，提高数据中心运维管理的水平。　　3.3 加强业务管理工作　　掌握技术方面和管理方面的业务发展情况，首先做好对业务内容进行调查，完成信息收集整理工作，科学统计收集的数据信息，结合业务环境的发展趋势和变化，通过不断地研究和调查，优化配置企业的人力、物力和财力资源，降低运行成本，提高经济效益。　　3.4 引进先进的信息科学技术　　数据中心要积极引进先进的信息科学技术，不断提高运维管理水平。做好业务系统与信息系统的结合，利用先进的管理技术，不断完善数据中心系统，构建以客户和服务为中心的运维管理体系，加强运维管理的技术维护，制定规范的运维管理制度，提高数据中心运维管理水平。　　4 结束语　　随着各个行业企业金融业务数量和种类的越来越多，当前的数据中心运维管理水平已经不能不能满足社会的发展需求，因此深入分析和研究当前数据中心运维管理的现状，积极采取相应措施，提升数据中心的运维管理能力，充分发挥运维管理的作用和意义，推动信息化新发展。　　参考文献　　[1]韦琛江，谷和启.浅析企业级数据中心运维管理[J].信息系统工程，-67. 　　[2]冯海军.浅析数据中心的运维管理现状及对策[J].中国新通信，. 　　[3]数据中心的运维管理[J].农业发展与金融，-42. 　　作者单位　　天津市房地产经济技术信息中心天津市 300042
转载请注明来源。原文地址：
【xzbu】郑重声明：本网站资源、信息来源于网络，完全免费共享，仅供学习和研究使用，版权和著作权归原作者所有，如有不愿意被转载的情况，请通知我们删除已转载的信息。
xzbu发布此信息目的在于传播更多信息，与本网站立场无关。xzbu不保证该信息（包括但不限于文字、数据及图表）准确性、真实性、完整性等。51CTO旗下网站
如何让云运维变得简单
“云是数据中心的新IT形态”，云与传统数据中心的建设目标是一致的，都是为企业提供IT服务。
作者：佚名来源：| 23:58
随着工业4.0的兴起，云计算已经从实验阶段转化为具体实施阶段。除了部署相应的软件、硬件和虚拟化资源，还有一个问题摆在我们面前，如何运维云?如果没有清晰的云运维规划和手段，云数据中心将难以高效的运转起来，所以云运维对于云建设者来说是至关重要的一环。那么云数据中心与传统的数据中心运维有什么共同点和差别?做好云运维应该关注什么?该如何选择一个合适的云运维工具?上述问题都是应该是云运维过程中会遇到的。下文会针对这些问题展开详细论述
一、云运维与传统数据中心运维比较
&云是数据中心的新IT形态&，云与传统数据中心的建设目标是一致的，都是为企业提供IT服务。运维人员的职责都是保障IT服务的质量，围绕服务等级协议SLA展开各种运维活动。然而在运维技术、管理模式、财务流程、服务分级、业务要求、运维职责划分等方面两者又有所不同。
相对于传统的数据中心，云数据中心的服务特征更加明显，云数据中心将基础设施(IaaS)、平台(PaaS)、软件(SaaS)以服务的形式提供给最终用户，它利用虚拟化、SDN等技术将网络、计算、存储以及应用等资源池化，通过自动化技术按需为用户分配IT资源。因此在云运维中IT请求交付(Request
Fulfillment)流程的地位不断突出，也使得云运维显示出明显的运营性质。
云也改变了传统数据中心的财务管理模式和采购模式，传统数据中心原来的采购流程变为了服务审批流程。要申请云数据中心资源，面向云业务的计费系统也应运而生。云计费除了用于真正的收费场景外，更多的时候应用于企业内部，通过内部核算，也就是经济杠杆去有效约束IT资源需求，形成在服务质量和IT资源间的平衡，有效提升IT资源利用率。
云数据中心对IT服务交付速度提出了更高的要求，然而云数据中心的基础结构却比传统数据中心更加复杂，手工交付难以满足云服务交付的速度要求，更容易发生故障，自动化交付就成为了云服务交付的必要手段。
在传统数据中心，运维人员需要关注基础设施的维护，而在在混合云和公有云应用场景中，应用管理的地位更加突出。运维人员不必关心部署在公有云上的业务所依赖的基础设施，而业务监控的职责也转移给公有云提供商。公有云提供商不但要保障IT基础设施本身，还要更加关注承载业务的运行状态。
二、云数据中心运维简介
在云数据中心维护过程中，云服务请求交付系统、计费组件以及自动化部署组件已经从云运维系统中剥离出来，形成相对独立的运营平台&云平台。云平台提供了服务目录、自助服务台、云服务自动部署、以及一体化的计费和核算功能，因此云平台对云数据中心的正常运转至关重要。
而传统的网络监控、服务器监控、机房监控、业务监控、事态管理、变更管理、问题管理、配置管理对云数据中心而言依然不可或缺。
云平台是云数据中心的对外服务和展示窗口，是云租户对云数据中心的直观体验。云数据中心运维是云服务水平的后台保障，二者就像客机上的空乘和地勤一样，在云数据中心缺一不可。
1、云运维过程中需要关注哪些问题?
在云运维过程中主要需要关注如下几个问题：
选择开放架构
云虽然已经到达了可实际部署阶段，但是云平台架构、计算虚拟化技术、网络虚拟化技术、云与大数据的配合等技术依然发展迅速。为保障云运维的持续发展，应该优先选择正在不断演进的开放平台作为基础架构。
&CMDB作用愈加明显
在私有云和混合云应用场景中，高度集中的业务、高度集中的设施、广泛应用的虚拟化技术、众多的云设施和软件供应商、多样的云服务消费者，以上这些因素组合在一起，使云运维的复杂度成指数级增长。云数据中心的设备信息、应用信息、策略信息、维保信息、组织信息、负责人等各维度的信息交织成复杂的关系网，实际运维时如果能从这张关系网中将所关注的信息抽丝拨茧，将大幅提升云运维的效率。反之如果没有有效手段管理这些关系，云运维可能会变得混乱和无序，运维效率低下，使云服务体验大打折扣。设计合理的CMDB(配置管理数据库)恰恰是解决这个问题的最佳途径。CMDB自动同步配置项信息，将割裂的各维度信息关联在一起，帮助云运维人员全面、准确和及时地了解业务相关的组织、资源、环境和服务等不同维度信息，使运维人员快速准确地了解事件影响范围，作出正确的决策。
&使用必要手段全局监控业务质量
在混合云应用场景中，部分开放的业务会部署到公有云上，企业运维人员无法有效的监控到公有云的基础设施，在这种情况下，公有云的服务等级SLA就成了一个黑盒，无从监控。所以必须要有有效的手段全局监控业务质量，从而间接评价公有云服务等级SLA。
明确云架构下各机构的责任主体
由于企业组织架构是按照传统的网络、应用、计算来划分的，而在混合云场景中，云服务商与企业运维人员也不属于同一组织机构，所以当部署在云上的业务出现故障时，容易出现组织间的推卸责任的问题，从而延长了问题的定位和解决周期。因此企业运维人员要有手段基于业务按照网络、计算、应用等不同维度的出具资源健康度报告，明确问题责任主体。
云场景下如何有效控制开销
云应用场景中还有另外一个问题，就是如何使用最小的开销(公有云资源)，最大限度地保障业务的质量。为了保障业务的稳定运行，企业运维人员通常为每个业务申请一定的资源余量，然而过多的余量会增加财务成本，如何确定这个量，就成企业运维人员关注的问题。一份能将业务运行时所需要的CPU、内存、磁盘等历史信息进行有效分析的可度量的业务容量分析报告，将对企业运维人员非常有用。如果在资源不足发生前，有工具能够提前预警，给企业运维人员充分时间调整资源分配策略，将有效节省公有云开销。
使用可控的自动化手段提升管理效率
云数据中心的资源规模、业务规模、组织规模远远超过传统数据中心。新设备的快速部署、快速上线、纳管监控、资源编排、定期巡检、升级和配置变更这些原本就颇为复杂的工作在规模和速度的双重压力下都变得更加艰巨。传统的手工方式效率低下，出错风险高，自动化手段逐步成为云运维的首选。随着虚拟化、PXE、SDN、Overlay、服务链等技术不断广泛应用，自动部署、自动编排、自动巡检、自动升级等自动化手段越来越多应用于云运维。然而自动化仍然要在可控、可跟踪、可审计、可回退的前提下进行，避免单个错误的扩大化。虽然自动化还存在一定风险，云运维的自动化趋势已经不可逆转。
2、如何选择有效运维工具
运维工具产品种类繁多，每种运维工具都有自己适合的应用场景。云数据中心架构复杂，业务集中，应该如何选择适合云运维工具产品呢，下面将展开详尽的分析。
大集中的云数据中心降低了IT整体维护成本，也增加了业务风险。精密空调故障、UPS故障、火灾、漏水任一风险如果不能及时处置都可能给整个云数据中心造成无法修复的大面积损坏。这种损害影响程度远远大于单设备的故障。所以实时的机房监控工具对于云数据中心运维依然非常重要。
对于云运维而言，如果仍然按照传统的网络、计算、存储、虚拟化、应用去分别管理，对云运维人员讲，不但头绪繁多、而且效率低下。最好能选择一套工具，能够将应用、网络、计算、存储、虚拟化等IT资源的性能及告警信息综合分析，通过简洁易懂的界面，直观呈现业务健康水平。当出现故障时，能够先从全部业务的宏观视角，确定关联和影响，再通过智能钻取和故障定位技术，缩小故障定位范围是在计算、应用还是网络，从而明确问题职责，帮助IT管理员准确定位业务故障位置。
选择合适的数据中心容量管理对数据中心运维也非常重要，容量管理工具要能从业务、集群、机房等多个角度分析数据中心容量趋势，预测容量风险，指导资源优化，为IT投资提供量化依据。业务容量管理要能根据业务负载及资源消耗趋势，预测系统资源瓶颈，为管理者提供容量预警和扩容建议。集群容量管理应该全面监控集群内物理和虚拟化资源，智能分析资源超配比例，指导资源配置。
选择合适的CMDB工具会给云运维带来事半功倍的效果。CMDB工具让云运维人员全面、准确和及时地了解业务相关的环境、资源、组织、服务信息，有效帮助云运维机构消除信息孤岛，提升信息关联性和透明度。
云运维监控工具除了上述特性方面的考虑外，还需要注意工具的广泛的资源监控能力。只有具备监控各种应用、多个厂家的网络设备、不同服务器款型、不同虚拟化产品等IT资源的能力，才能进一步作到融合分析和统一运维。如果没有广泛的适配能力，云运维工具就成了中看不中用的花架子，难以产生真正的价值。
运维工具在选择时还要注意一点，不能将运维工具想象成万能的，所有问题都依赖工具解决。运维工具是配合云运维规划、企业组织架构和企业管理制度一起来保障云服务质量的，它仅仅是云运维的一个组成部分。云运维仍然需要遵从PDCA(计划、执行、检查、行动)的规律不断改进和优化。随企业的业务要求变化、管理体质调整和技术发展，运维工具也需要不断演进、不断优化，所以云运维工具的选择也应循序渐进，不能一口吃个胖子。
云运维是个复杂的系统工程，选择好的云运维工具无疑会使云运维变得轻松，高效。然而选择这样的工具前，首先需要考虑云运维的组织应该如何更好的为云服务，清晰的组织划分，明确的责任定位，完善的流程规划，能够帮助确定云运维工具的软件定位，从而使快速找到合适的运维工具事半功倍。云运维工具仍然依托于传统的IT设施监控和应用监控，没有这个基础云运维将变成空中楼阁。在此基础上，云运维工具更加重视系统级的业务监控，更加重视业务、资源、服务和人之间的关联性，更加重视智能排障能力，更加重视容量管理，更加重视自动化能力。有了合适的运维工具软件，云运维自然变得简单。【编辑推荐】【责任编辑： TEL：（010）】
大家都在看猜你喜欢
头条聚焦关注头条头条
24H热文一周话题本月最赞
讲师：14039人学习过
讲师：10208人学习过
讲师：810人学习过
精选博文论坛热帖下载排行
Web服务技术是最近几年迅速兴起的一种应用集成技术，而安全问题是影响该技术广泛应用的一个关键因素。这个问题已成为最近几年来国内外研究...
订阅51CTO邮刊(window.slotbydup=window.slotbydup || []).push({
id: '4016718',
container: s,
size: '800,80',
display: 'inlay-fix'
数据中心运维管理经验39条
来源：数据中心运维管理
1、空调与机房错层设计，可以有效防止漏水。
2、机房蓄电池的使用环境温度非常重要，25度是最佳值。
3、要注意电池的生产批次，讲究其一致性，不同批次的产品性能会有略微差异。所以在采购蓄电池时，可以每组同批次的多买2节电池，放入系统中作为电池组的热备份，当今后某节电池出现问题时，可以及时顶上。
4、要建CMDB，如果没有建立CMDB库，那么一定要建立一本简单的台帐，EXECL表就可以。
5、没有突发事件，所有事件的发生都应做到预案化。所以要不断的去完善应急预案，要通过头脑风暴去设计不同的应急场景。应急管理工作永远都是在不停的丰富和优化。
6、强调日常工作中预案管理的重要性。
7、应急演练不要总安排在工作日白天，因为白天往往是人力资源最完整的时候，我们演练的一个重要目的是要提高基础值班人员的响应速度和处理能力，这个初始速度非常重要，很多灾难如果响应及时，处理得当，完全可以减轻损失。
8、设备采购谈判时一定要谈好今后的维保，至少3年。
9、空调系统如果采用全水冷的方式，那么一定要考虑水压问题，也一定要确保所在区域不会计划性停水。
10、为保证供水压力，可以考虑单独铺设水管。
11、ATS要放在母联的下面&&
12、PS并机， 4台并机比较可靠，超过4台可靠性就会下降。
13、UPS放电时间要有控制，建议不要超过其剩余容量的30%。
14、UPS间要放备用工具箱，发电机间要有应急照明，主要设备旁要张贴应急处理手册和故障恢复流程。
15、 UPS中的逆变与旁路要求同步，同步频率范围要依据负载来定，要以最小范围来调。
16、 UPS调试时，旁路与逆变的转换要多转几次。
17、隔离变压器的作用之一可以使0地电压降低，对设备提供保护。
18、UPS输出切换到旁路的时候，要注意同步灯有没有亮，同步灯亮就不能强行切换，否则会造成输出断电。
19、3相不平衡会导致0地电压变大，所以基础设施管理人员一定要严格把握，不能随便乱加负载。（三相不平衡会导致中线电流变大，当大于相线电流时，就会加大零地电压）
20、先算出电流再选择线缆。
21、电池放电到欠压告警，可以估算出电池的实际可支撑时间。
22、电池接线，要注意铜和铅不要直接接确，不然会互相腐蚀，增加电阻，影响电池的放电电压。
23、UPS至少每半年要检修一次，要关注UPS风扇，电离和电容都要重点关注。
24、STS要求2路供电的相位和频率范围一致，如果来自不同的变电站，可能存在相位、频率不一致的情况，极端情况下，会造成未端STS无法自动切换。
25、空调外机要做好标识，尤其是风冷外机，要与内机一一对应，以提高故障判断和处理的效率。
26、要重视监控数据的分析，风机、压缩机的运行电流数据可以预判设备的健康情况。
27、机房内的温度检测可以同时放在冷通道和热通道，但监控应以回风温度为准，所以温度探测仪要放在回风通道的上方。
28、空调的加热装置不能随意关闭，系统的自带功能不要人为随意干预。
29、空调选型时，要选同尺寸内功率最大的。
30、空调外机清洗要注意安全使用高压水枪，不能从侧面冲洗。
31、制冷剂、机油不同品牌不能混用，否则易造成压缩机故障。
32、每台空调内机的支路一定要装阀门，利于检修，给水的阀门一定要做好标识。
33、& 制冷剂发生泄漏，不要第一时间去抢修，要让其散发完整，以减少对人体的损害。
34、冷池的顶板起落最好要带有阻泥，防止突然降落对人身造成伤害。
35、发电机启动时要注意空调的瞬时启动电流，其会导致发电机启动失败，最好设置延时，软启动。
36、UPS、消防要做到只监不控，否则风险太大。
37、以后可以考虑引入智能列头柜。
38、储能、储油类系统（如电池、柴油发电机）要当心其二次、三次灾害，七氟丙烷是一次性灭火，而不是持续性灭火，遇上电池火灾，效果不一定很好。
39、柴油发电机灭火，可以考虑高压油雾灭火系统。
排风、通风或抽风系统的用电不要接入机房内的配电系统，要独立，防止机房起火停电后，因排烟、抽风不能用而延缓系统修复速度。
关注中国IDC圈官方微信：idc-quan或微信号：我们将定期推送IDC产业最新资讯
近年来，安全问题一直在IT行业频繁发生，WannaCry ransomware数据窃取事件发生在英国国家医疗服务系统（NHS）和"发薪日贷款公司Wonga"，这让人们感到不安，因为传统的安全
数据中心最重要的是要完善和建设10Gb、40Gb甚至是100Gb以太网的设施基础。软件定义网络（SDN）一直都是网络领域里的热门话题。SDN的最大好处是有可能节约网络的总拥有成本
以中心地区带动发展已经成为我国目前培育经济新动能的主要方，向记者从多个部门了解到，以北京、上海等大城市为主，我国部署了多批国家大数据中心、国家科学中心、国家制造
7月12日，苹果宣布将投资10亿美元在贵州建立其在中国的首个数据中心，也是目前投资贵州云计算大数据行业最大的海外公司。
腾讯云今日宣布新增国内2大数据中心：成都第二个数据中心、广州第四个数据中心。6月13日，腾讯云宣布开放了成都第一个数据中心，今日成都二区开放之后，国内互联网云计算服
热门会议：
我们的服务：拯救数据中心运维的16页PPT
我的图书馆
拯救数据中心运维的16页PPT
纯干货！1数据中心上头条Danny：“今年是做运维的同学比较多灾多难的一年，各种机房故障频频上头条。这跟两方面有关系，一是数据中心和人们的生活越来越密切，二是媒体透明度越来越高。”267%和运维相关Danny：“引起数据中心中断的原因是什么？在Uptime2013年异常事件报告里，对260多个事件做了统计：只要异常状况都定义为事件，一个机房如果出现异常状况，不一定导致系统中断。事件发生的原因30%左右是建设因素，另外有67%的事件产生是和运维相关的。”3拯救和运维Danny：“当出现事件以后，会有两种可能性，一种是被拯救，一种直接宕机了，拯救因素里，其中有大约一半跟设计有关，包括双路电源、设备的运维等，我们发现还有50%和运维人员的干预有非常大的关系。运维人员有两方面的价值，一方面是运维人员的干预，出事以后采取相应的行动，这是数据中心的运行阶段；另外就是预防性的维护，也就是平时做的保养。从这方面来看，运维人员主动干预和预防性维护对于出事以后的拯救有非常大的价值。因此，一个数据中心如果想进行良好的运行，保证最高可用性，运维有非常大的价值。”4能效和运维Danny：“另一个话题是运行能效，前面有很多案例都在告诉我们，即使在设计阶段，对于整个数据中心的节能做了周密考虑，但是如果在运维阶段做的不是很好，之前那些非常好的设计不一定会得到真正的实现，因此，运维对于实际的绿色运行有非常重要的作用。”5建设和运维，两手都要硬Danny：“总结一下前面的观点，我们认为真正负责数据中心运行管理的人关心两件事，第一机房不能停电，不能中断。第二个希望有比较高的效能，从这两点来说我们认为建设和运维都是同样的重要，而且这两者是相乘的结果，即使设计非常好，运维没有做好，仍然有可能得出非常低的性能表现，也充分说明运维的重要性。”6行业发展需要运维管理标准Danny：“从行业的整体发展来看，我们需要制定一个针对数据中心场地运维管理的标准。怎么样才能做好一个标准？在工作组讨论时考虑到几个问题：一是要站在管理的高度，让数据中心的领导者包括IT部门的领导者充分重视运维，我们应该从管理的高度看标准；第二方面我们认为需要有相对的专注度，我们非常专注于场地；第三是时间纬度方面，我们需要从这个数据中心的生命周期开始，同时我们强烈建议运维人员参与到规划设计和建设的过程中。7从用户中来到用户中去另外非常重要的一条是，我们认为标准应该从用户中来到用户中去。这次在标准制定过程中非常幸运的是，这是我们产业上的共同要求，包括三大运营商、工农中建以及人民银行，大型IDC如世纪互联、互联网公司如百度这些大型的数据中心的拥有者都非常积极地参与到整个标准制定过程，从这一点也能看出新标准是行业发展过程中大家的共同心声。”8你必须明确管理目标Danny：“标准里面有几个值得大家关注的地方，第一条，要明确管理的目标。也就是说首先要确定一个管理目标，要和领导明确，你对我的期望是什么，给我的资源够不够。这成为最核心的一条。9管理范畴和分项管理这之后要建立管理范畴，实际上很多机房出事的时候，并非在运维人员管理范畴之内出事。最常见的例子是停电，即使这超越了你的管理范畴，最终挨板子的还是你。其次是安全管理，我们的能源安全管理，人员安全的问题，场地有特殊性，安全管理尤其是人身安全对我们来说是非常重要的环节。在这之后，我们才算是进入到了真正的运行阶段，其中有一条，真正开始运行的话，人员管理非常重要，机房人员最主要的就是人和流程，对人员的管理培训和认证也会有相应的要求，也就是我们正在推出的《数据中心场地基础设施岗位人才资格认证体系》。第二个方面我们讲设施管理，预防性维护在于设施管理，以及运行管理。”10从测试验证看标准Danny：“举个测试验证的例子，在国外测试验证已经成为非常标准的体系，因为我们数据中心的工程是一个集成的工程，把很多子系统放在一起，整个系统集成以后，是否能够表现出作为一个整体系统的完整需要达到的性能，满足运行的要求，实际上只有通过系统链条完整的测试验证才能证明。有一些客户会认为UPS、空调都已经分别经过测试了，试想一下，要是组装一辆汽车，你能保证轮胎是很好的，也能保证发动机非常好，但是从来没有组装在一起做相应的试车实验，这样的车你敢开吗？我们认为如果真正想做好运维，首先需要非常了解你的设施，了解你的设施最好的办法就是测试验证。”11从人员配置看管理目标Danny：“另外我们看一个人员配置的例子，人员配置方面目的之一是推动我们的运维主管和领导做沟通，很多运维经理和领导沟通项目时，领导不愿意配置更多的人。但我们认为人员配置决定了你能够响应的速度，我们看到两种情况正在发生第一种情况，很多时候用户把机房交给物业管理，物业只有一名电工，这个电工能起到的作用是报警的时候能够给你一个应急的通知状态，通知相关人员到现场，这个过程就已经产生一定的滞后，很可能在这段滞后时间里面会产生更严重的后果。另一种情况，比如百度这样的团队，每个现场都有四个人，包括电力方面、暖通方面、和弱电方面等专业人员，这样的人员配置就可以做到及时的应急响应。最终配置要取决于运维管理目标，如果领导要求非常高的运维管理目标，就可以要求配置相应的人员，这是人员配置的一些标准。”12最重要的是人员和流程Danny：“总结一下，数据中心要想做到良好运行，最重要的两条就是人员和流程。很多故障的发生仅仅因为我们没有严格的按照操作流程来操作。任何操作无论是内部的运维人员还是外部请来的供应商的人员，都必须遵照同样的操作流程来操作。这个操作流程需要事先写好，且要经过审核，同时要确保运维人员知道怎么操作。13运维管理等级认证在标准基础上我们还有等级认证，我们的运维管理分了三个等级，A级AA级AAA级，近期我们在广州深圳开始对一个集团进行第一个AAA级评定。我们并不认为所有机房都要申请成为AAA级，你希望达到什么样的管理目标，投入什么样的资源，这样是最合适的。”8月12日，大会将继续开启2015年的第四站，走进美丽的“蓉城”—成都。
[转]&[转]&[转]&[转]&[转]&[转]&
喜欢该文的人也喜欢}

叫阿莫西中心