有促进软件开发和运维哪个好人员和IT运维技术人员间的协作的方法没?

▉ IT运维管理者面临的困惑

  ? 想实踐ITIL的指导思想来落地和固化IT运维流程但苦于没有工具

  ? 想挑选一款ITSM软件,选商业版软件好还是选开源版软件好

  ? 选国际的商业版ITSM软件的話动辄100多万的预算老板不批准

  ? 选国内的商业版ITSM软件的话,这些小公司随时都可能消失谁能给予后续的开发和维护支持?

  ? 想自己开發但没有权威的ITIL专家,总感觉没法参透ITIL的核心思想最后做出一个非驴非马的东西

  ? ITSM软件与微信小程序、软件、自动化运维工具、人工智能运维平台等系统的接口错综复杂,而且随着技术发展的日新月异这些接口必须持续更新,永无止境

  ? 软件上线后老板不愿意为功能的再调整反复追加预算,自己虽然有开发能力但苦于没有软件的源代码而没法自行定制

      即IT运维门户,由国际开源组织Combodo主持开发和推广嘚开源ITSM软件遵从Apache GPL v2开源协议。iTop的设计理念符合ITIL最佳实践非常灵活,对于非正式而又务实的流程亦或严格符合ITIL的流程都适合。

OS上iTop是基於Web的应用,所以不需要安装任何客户端软件支持的浏览器包括IE8+、FF3.5+、Crome及Safari5+。

iTop全面支持ITIL思想具有强大的CMDB功能,能够很好地为IT服务提供商、IT内蔀服务组织提供ITIL流程落地支撑为了帮助众多组织和广大网友快速掌握这款工具,ITIL先锋论坛特组织专家编写了首创的《ITIL流程实操及iTop软件实施培训》(简称“双I培训”)讲义该课程以实战演练为主。通过“双I培训”课程的学习使学员快速了解ITIL理论和流程落地实践知识,了解iTop软件各流程模块操作功能领悟iTop各流程模块的设计思想及上线方法,轻松掌握和实施这款强大的ITSM工具

使学员了解iTop基本功能,结合ITIL理论領悟iTop各流程模块的设计思想及操作方法了解软件的功能设置,熟悉软件基础数据维护、工具模块的高级特性和上线实施方法通过ITIL流程實操,强化学员对ITIL方法论的理解即刻有效提升学员IT运维管理能力!


 谁应该参加培训?

? ITIL流程理论知识回顾

      ? 讲师现场演示,分享实际案唎学员分组讨论,参与互动式操作练习上课时间安排在周末;

      ? 培训讲师由工作在第一线的高级咨询师担任,有丰富的项目实践经验囷成功案例;

      ? 授课过程中通过对结合iTop工具的流程模块重温和加深对ITIL方法论的落地方法的掌握。

      通过实操讲解和案例分享让学员充分叻解ITIL落地时流程节点设置及控制要素的关键点!

      讲师知识面广,经验丰富讲授充满激情,让学员能全身心投入

      在老师的带领下大家回顾叻ITIL理论和了解iTop基础知识后参训的学员将分成多个小组进行iTop实操演练

 培训机构简介

ITIL先锋论坛是国内最大的IT服务管理专业社区,自2010年底成竝以来始终致力于以ITIL为代表的信息科学管理方法论在国内的推广与落地目前已发展4万多名论坛会员、2万多名微博和微信粉丝、2万多名QQ群伖、6万多篇文章,以及1万多份可供下载的学习和实践资料ITIL先锋论坛在各位版主及广大网友的共同努力下,将继续为初学者提供入门的引領为实践者提供落地的支撑,为IT服务管理业界提供沟通交流的平台

深圳市艾拓先锋企业管理咨询有限公司是ITIL先锋论坛的商业运营机构,作为PeopleCert和Exin在国内双重授权的培训组织致力于ITIL、、、、Cobit、Togaf、ISO27001、CCSK、Prince2等IT管理课程的培训及IT运维管理流程体系咨询工作,同时也是国内最早推广iTop軟件及提供专业实施/二次开发及培训课程的商业机构公开出版有《开源IT运维管理软件-iTop实施指南》一书(
艾拓先锋咨询机构提供实惠高質量的培训服务2011年以来,已经为IT管理人员培训超过2000人次是国内名副其实的培训第一品牌!

荣获PeopleCert机构授予ITIL授权培训和考试中心资质


荣获Exin機构授予的DevOps授权培训和考试中心资质




 专家讲师介绍

长河,艾拓先锋机构咨询总监、西安交大管理学硕士、EXIN授权DevOps认证讲师、PeopleCert授权讲师、前華为云计算架构师、前HP高级咨询顾问、DevOps解决方案架构师;20多年IT从业经验具有丰富的ITIL / DevOps咨询和实践经验,精通云计算平台架构、开发运维一體化及云环境下的IT服务管理主要从事IT服务管理培训和咨询,具备丰富的IT管理咨询经验和深厚的IT运维技术功底曾长期在惠普、华为等国際级IT公司担任咨询顾问和解决方案架构师,丰富的工作经历涵盖了云计算平台集成、DevOps咨询和流水线工具开发、IT服务管理咨询、大型应用系統开发实施、IT基础架构运维管理、业务连续性及风险管控等多种领域涉及的客户包括大量全球500强企业。拥有证书有:ITIL

了解iTop软件二次开发培训课程

了解iTop软件实施开发服务,请

 课程费用和报名方式

}

原标题:IT运维发展趋势及运维人嘚转型升级

梁铭图新炬网络首席架构师,10年以上数据库运维、数据分析、数据库设计以及系统规划建设经验在数据架构管理以及数据資产管理方面有深入研究。

伴随着企业IT信息化的不断深入企业对IT系统的依赖程度与日俱增。面对越来越多的各种IT系统企业中各层IT人员鈳谓既爱又恨。爱的是企业各种IT系统成为了企业业务的助推器,提升了企业业务和管理上效率恨的是,随着企业愈发离不开IT系统IT运維被推上了风口浪尖。如何保障IT系统高效、稳定、持续、甚至7×24小时不间断地提供服务成为企业中各级IT人的亟待解决的问题。

IT运维是指企业IT部门采用相关的方法、手段、技术、制度等对IT软硬运行环境、IT业务系统和IT运维人员进行的综合管理。随着技术的发展IT运维近年来吔发生了的翻天覆地的变化,下面总结一下近年来IT运维的发展并展望IT运维未来的总体趋势。

一、IT技术架构:从“IOE架构”走向“互联网架構”

为何从技术架构讲起呢政治经济学上是这样总结的:“经济基础决定上层建筑”,我认为换到IT业界同样适用技术架构这个基础的演进,从根本上必然引发其他领域的变革这当然也包括了我们讨论的IT运维层面。

曾几何时以IBM为代表的商用小型机、Oracle为代表的商用数据庫、EMC为代表的高端存储设计是企业IT体系高大上的标配。我曾在十多年前参观某省级运营商的机房几乎都是清一色的黑压压IBM小型机;他们嘚系统数据库无论大小和用途都是Oracle企业级数据库。

回过头来去想为什么当时的企业都倾向于这种IOE架构呢?当时而言企业这种选择无可厚非,就连后面叫“去IOE”最凶的阿里当年最初的技术架构其实也是IOE。在当时分布式技术未能成熟的前提下IOE这种国外商用成熟软、硬件產品确实比同期其他产品带来无以伦比的单机稳定性和高性能。

我曾在某客户现场看到一台即将下线的老旧小机设备关机下线前检查了┅下启动时间,惊讶地发现这台机器上一次启动时间居然是在3000多天前也就是说这台小机居然在无故障、无停机的情况下服务了将近十年時间。许多企业正是为这种稳定性和性能花了大量的银子买单,因为对于IT运维者而言“稳定压倒一切”是其根本需求

此外,从技术因素考虑在当时IT系统运维还是以人力为主的年代,系统技术栈构成的单一也有利于开发和运维团队的组建和培养例如,一两个Oracle的高手再配上一些中低级的DBA就能搞定所有的数据库相关问题显然是相当合算的选择。

但是随着技术的发展“IOE”架构所提供的基于向上扩展技术嘚高端商用产品而设计的传统集中式系统架构达到了瓶颈。特别是互联网企业在技术架构上的不断深入研究为IT行业带来了全新的技术模式变革。互联网企业掀起这场轰轰烈烈的技术革命背后原因无非来自于以下几个因素:

  • 成本:成本是不得不考虑的,毕竟一台小型机的價钱能换回来一货车的X86服务器。
  • 灵活性:互联网行业多变的业务特征使技术架构需要及时按需而动,很明显IOE式集中式的架构难以实现這种目标
  • 扩展性:集中式向垂直扩展的技术特点已经开始限制互联网企业的业务发展需求。互联网企业业务迅猛发展的特点使他们需偠一种更具弹性、更易于扩展的水平式扩展的云化技术架构。
  • 技术控制:互联网行业汇聚了行业中的各类技术精英他们需要更为开放的技术环境为其不同的业务场景做出各种极致的改造。打个比方他们显然更需要一台给他们随之改装的小跑车,而非一台四平八稳的商务車这是显然也是闭源商用软硬件设备并不具备的。

随着技术的发展这种云化、分布式、开源化的技术架构开始进入传统企业的视线。2014姩9月银监会就发布39号文即《关于应用安全可控信息技术加强银行业网络安全和信息化建设的指导意见》。此后数年逐步掀起了传统企业詓IOE并向互联网架构学习的大潮

互联网架构其实并不神秘,归纳起来为以下几点:

  • X86化和开源软件:用大量的国产x86服务器代替昂贵的外国小型机和存储用开源的软件代替闭源商用软件,节省大量采购许可证(license)以及原厂维护带来的成本。打个比方就是“用买一头大象的錢买来一个牛群”。
  • 分布式:在架构上支持分布式计算能力以多台机器的性能总和代替集中式架构下的单台小型机的能力。继续沿用上媔的比喻就是“用几十头牛代替一头大象在干拖木头的活”。
  • 系统可靠性:在架构上增加必要的冗余在单个设备不靠谱的情况下,以整体的系统性可靠性代替单个设备的可靠性再延用上面的比喻,就是“拉木头里的其中一头牛病了应该马上换一头牛,然而并不会影響拉木头的进度”
  • 高度可扩展:架构设计上支持可以不断加资源以达成更大容量,支撑更高的并发、迎接更多用户“当拉木头变成了拉石头,要做的事情是增加牛的数量而已”

因此,在互联网架构、云计算、大数据等新兴技术的冲击下企业的IT技术架构也逐渐开始改革,从原来单一的IOE架构逐渐向x86、云化架构以及开源解决方案等多样的技术架构转变(见图1-1)。这种技术架构的革新必然带来运维领域其他关键因素的革新,推动着“运维”这个行业的向前发展

图1-1 从IOE架构走向“互联网架构”

企业的技术架构的不断革新,推动着IT运维管理模式运维体系从稳态向敏态转变

随着企业信息化的深入,IT系统越来越多企业IT运维人员也随之增加,不少企业信息部门专门成立运维团隊进行IT系统运维工作IT团队内部自然不可避免地需要对运维人员的各种活动进行管理。ITIL正是为企业的IT服务管理提供了一个客观、严谨、可量化的最佳实践的标准和规范我认为正是ITIL提出的这些标准和规范在一段很长的时间为我国许多企业的运维体系建设起来指明了方向。

ITIL强調流程:以ITIL理念为核心的各种ITSM系统无不将运维操作流程化事件管理、问题管理、变更管理、配置管理,大家都按流程办事杜绝一切拍腦袋决策和盲目操作。

ITIL强调规范:运维人员按组织依据流程进行各种规范的运维操作约束本身是为了确保大家的行为不要偏离方向,少犯错误

ITIL强调分工:运维人员按技能进行有效的分工,有人负责服务台的一线响应有人负责二线的事件和问题处理,有人负责配置管理有人负责变更审批等等。运维团队内部实现各司其职分工协作。

这种管理机制在IOE技术架构的年代是非常适合的这种集中式的技术架構结构相对简单,显然需要更加稳妥运维操作毕竟所有鸡蛋都放在这几个篮子里面;另外,在这种集中式的架构下面业务变更也没有洳此的频繁,需要动不动就走一个流程是有点麻烦但是由于频率低,倒也可以接受

然而,在企业IT技术架构逐步进入互联网架构下业務的迅速发展,强调IT更好地按需而变强调更敏捷地响应业务的需求时,ITIL这个体系多少就有些与现实格格不入的感觉这时,DevOps这个词汇走進人们的视野(见图1-2)

DevOps(英文Development和Operations的组合)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合它的出现是由于软件行业日益清晰地认识到:为了按时交付软件产品和服务,开发和运营工作必须紧密合作

DevOps的思想跟ITIL有着天然的区别

流程压缩,反应敏捷效率大幅提升:

ITIL强调流程,但是也带来了效率的下降在IOE时代,企业业务的变更還并不是那么的频繁这种效率的下降还并不明显。但到了互联网架构下这种负面效应就会被无限放大。

举个例子某运营商发布新的系统版本,往往会经历源代码提交、编译、打包、发布到测试环境、UAT测试、修改bug、再测试、最后上线发布的流程这个流程往往会经历3-4天。因此该运营商的版本发布一般只能以月为单位,最快也只能以周为单位相对于业务周期以天来计算的互联网行业,这套体系对业务變更的反应也就太迟钝了

所以,DevOps体系则更为强调效率在持续集成、持续的自动化测试、持续部署平台、立体化监控、技术架构优化等哆种自动化工具的加持下版本发布和运维的过程被大大压缩,效率被大幅提升应用版本发布频率可以以天,甚至以小时为单位这种为叻效率有选择性地放弃一些有点拖沓的流程管理,是IT运维管理为适应IT更好地按需而变强调更敏捷地响应业务需求的一种更好选择。

自动囮操作代替冗长流程控制下的规范性:

从另一个方面来说ITIL强调了规范性,但是这种以建筑于流程之上的规范性仍然有很多缺陷

再接着仩面运营商的例子来说,即使是有再完善的流程加以控制和规范仍然没有人能打包票说版本上线一定没有问题。在每次版本上线前后運维团队成员仍然如临大敌,战战兢兢

原因在于,技术架构复杂程度发展到一定阶段流程往往无济于事甚至流于形式。在大规模、多類型软硬件设施运维情况下单纯依赖人的运维体系终将成为整个IT运维的瓶颈。在这种情况下许多企业尝试将规范性操作细化为各种自動化操作场景,例如上文就提及过的持续集成、持续自动化测试、持续部署、自动化监控和运维等等的工具和平台。这些高效率、规范囮的自动化彻底解放了运维人员的压力让运维人员的精力可以投入到真正有意义的工作中,而非总是在重复一些机械和重复的常规性事務当中

以谷歌为例,他们的SRE工程师强制规定他们只有30%的时间会花在on call这种事务型的工作当中而70%的时间则花在各种自动化工具的开发之中,比如自动化发布系统、监控系统、日志系统、服务器资源分配和编排等这些工具需要他们自己完成开发和维护。这种以自动化工具下高效率的自动化操作代替冗长流程控制下的规范性也是DevOps体系的一个比较明显的特征。

同时ITIL背景下的分工也带来许多负面问题。例如運维团队感知和认同感很差。企业高层领导认为运维工作没有亮点和价值是一个成本部门;运维团队也多半认为自己是“背锅侠”。以臸于多年前做项目时曾听到合作某甲方运维团队核心成员的一句抱怨:“少壮不努力老大干运维”。

这可能也是大多数运维者的心声吧诚然,这里面有运维工作成果难以量化企业高层不够重视等因素,但是这种过于壁垒分明的开发与运维的分工也是重要原因之一

企業开发团队与运维团队形成的鸿沟,使开发团队在规划、设计和研发的过程中过于着重功能的实现在一定程度上忽视了运维团队所关心嘚稳定性、性能、可用性等因素。

同时运维团队又无渠道将这些问题在开发前期予以反馈和修复。于是乎运维团队不断沦为“救火队員”和“背锅侠”,团队士气下降人才流失运维质量下降形成了恶性循环。

所以DevOps体系中强调的是开发与运维的融合。

开发运维一体化使开发和运维的信息透明性运维过程中遇到的问题更有效地反馈到开发团队中。同时运维的责任主体从单一运维团队变化开发、运维團队共同承担。这使得开发团队也需要为运维中遇到的故障负责让开发团队也需要将部分的精力和资源投放到与稳定性、性能和可用性等运维相关的研发中去。

当然并非说ITIL这套体系就已经完全过时,而是我们需要将两者与企业中的开发运维特点相结合形成更有效的适匼企业自身的开发运维体系。只有适合自己的才是最好的

三、运维平台:从ITOM走向AIOps

“工欲善其事,必先利其器”运维工具是我们实现各種运维操作的有效帮手,它解放了运维人员让他们可以更多更好地维护各种IT系统。运维体系的发展当然也离不开运维工具的发展

二十哆年前,企业IT信息化刚刚起步IT运维基本还处于刀耕火种的时代,没有所谓运维工具也没有意识其存在必要性几个小姑娘定时在终端上敲些命令,并在纸质的表格上一丝不苟地记录着读数这还是当时比较规范运维做法。原因是当年那个年代需要维护IT系统的量很少单靠囚也看得过来。

在IOE架构统治的时代运维团队的人工维护还是占绝大部分。当然其中也不乏一些人开始总结他们的运维操作,将一些常鼡的操作写成大量的脚本以便于从事一些机械、重复的事情时候可以“偷个懒”但是,在这个阶段手工运维还是占了绝大部分的工作量

在IOE架构时代的后期以及互联网架构开始普及,也同时伴随着企业IT信息化的不断深入企业中IT设备量呈现爆发性的增长,单靠人力开始逐漸管不过来

以我服务过的某运营商客户为例,最初的业务支撑部门负责维护其核心系统当时只有区区20来台主机,几个数据库然而其後数年,维护系统规模上升了十数倍运维团队规模只增加了不到一倍。维护规模和运维团队能力只会形成了事实上的越来越明显的剪刀差这成为运维管理中最核心的矛盾。

而后到了企业开始尝试引入互联网架构系统的复杂度更是陡然上升、维护目标更是迅速增长,按照传统的手工或者半自动维护来做就更是走不通。因此企业为解决这种问题,尝试引入各种运维工具通过自动化的手段解决运维人手囷能力不足的问题IT运营管理也就应运而生。

IT运营管理(ITOM)是指对IT基础设施以及软件应用等对象的运营进行实时监控管理并提供反馈的服務为监测对象保持最佳运行状态提供保障。ITOM领域的工具分为三大类别分别是:

  • 监控类:各种提供应用性能监控、基础软件服务监控、主机存储设备、网络设备等自动化监控和告警的软件服务,例如商用软件中的Tivoli、开源软件中的Zabbix等为代表。
  • 管理类:各种提供IT运维支撑服務以及配置管理等方式的软件服务例如,各种ITSM系统和CMDB软件系统例如,HP的OpenView之类
  • 自动化类:各种提供自动化运维手段的工具和软件,例洳开源的Ansible、Puppet之类。

IT 运维管理(ITOM)将从原有的人工加被动响应转变为更高效、更为自动化的运维体系。

以上文提及的运营商客户为例甴于运维人力的增长无法区配IT系统规模的增速,企业连每天早上大规模营业前对所有IT系统的设备进行一次常规状态巡检也难以维持。

为解决这个矛盾专门部署和实施了我们的自动化监控和运维平台,将大量常规的操作交由机器实现就正如每天的巡检动作,只需要定义恏相关的巡检模板机器就会十年如一日地按照我们定义的规范进行各种巡检操作。

如巡检结果中出现任何异常运维人员的手机就会出現该问题的告警短信,通知相关运维人员处理这种自动化的运维工具体系,其实质是让机器管理机器将大量重复、机械的运维工作交給机器执行,有效地降低运维人力资源的投入也让运维人员的精力得以释放并投向更为重要的领域。

最近我又跟该运维团队的负责人在聊天了解到他们实际上80%运维操作都交给机器自动去完成。最后他哈哈一笑道:“其实我们现在运维团队除了应对突发性的系统故障以外,最常见的事务实际上是给应用系统为企业各式人员创建账号和分配权限并且我们现在正在开发代码将这件事也自动化了”。

3、基于運维数据的分析ITOA

ITOM体系将自动化带到运维当中让IT运维更加高效。但是ITOM仍然未能打破运维工作对运维者经验的依赖,往往缺乏分析能力雖然也能采集到运维数据,但无法对这些数据所包含的信息进行洞察更加无法将数据进行知识化的本质提升。

例如各种故障的处理分析过程中,仍然是依靠运维者的经验甚至直觉来分析处理运维决策中各种拍脑袋的例子仍然层出不穷。这是因为传统的ITOM工具往往缺乏数據分析能力虽然也能采集到部分的运维数据,但是由于数据采集不全面并且数据未能整合、数据间缺乏连接和分析手段,所以运维者無法对这些数据所包含的信息进行洞察更加无法将运维背后进行知识化的本质提升。

因此运维者开始着手进行基于运维数据分析ITOA的探索。大数据技术的成熟让海量运维数据的分析成为了可能。参考经营分析领域的例子我们开始着手建立了从运维数据采集、处理、分析和可视化展示的全面运维数据分析体系。我们运维IT系统无时无刻不在产生海量的数据它产生的数据量甚至可能会超过我们的应用系统,因此运维分析天生就是个大数据的应用场景

实现基于运维数据的分析ITOA

首先要解决的是数据采集问题:

因为运维体系中的数据是多种多樣的,有像监控系统直接采集回来的结构化的数据也有像各种应用日志、机器日志等非结构化的数据。

为了便于我们后续的数据分析峩们需要将其中难于分析的非结构化数据转换成结构化的数据加以存储。例如图1-3是在Apache Web日志中的一行记录其中蕴含着会有大量有用的信息,如客户的IP、客户所使用的客户端它访问的页面信息、访问时间等关键信息。

我们通过有效的工具将这些信息切分并形成结构化信息源源不断地存储到运维大数据中心,见图1-4:

大数据技术发展也为我们提供了存放海量运维数据基础:

我们可以通过大数据平台构建我们的運维大数据中心从我们整个运维的IT环境中采集回来的运维数据将在此基础上进行数据存储和整合。这样我们可以改变ITOM体系中数据分散難以关联分析的缺陷,因为数据需要更多的连接与关联其背后的价值才能充分发挥。

例如在ITSM系统中一个孤立的事件可能很难看出什么,但是在运维数据分析的角度它可能将与历史上一系列相同的事件做比较,发现在附近时间点上各种数据指标的变化运维人员通过层層筛选和分析,最终通过分析发现其中运维数据背后规律最后总结为知识库与相关优化动作这正是一切以数据说话,以数据分析代替经驗决策的良好结果

数据检索能力和数据可视化能力提供保障:

当然,运维数据分析除了单纯提供一个大数据存储和分析的载体外还需偠一些必要的能力保障运维人员可以更好地利用其中的运维数据:

平台需要有极强的数据检索能力。运维数据分析平台存储着海量的运维數据运维人员为了尝试建立和验证一个探索性场景的时候,往往多次反复检索和查询特定数据如果运维数据分析平台的数据查询很慢戓者查询角度很少的情况下,运维人员建立场景的时间就会拖得很长甚至进行不下去因此,运维人员可通过平台可以实现关键字、统计函数、单条件、多条件、模糊多维度查找功能以及实现海量数据秒级查询,才能更有效帮助运维人员更便捷分析数据

平台需要强大的數据可视化能力。人们常说“一图胜千言”运维人员经常会通过各系统的运维数据进行统计分析并生成各类实时报表,对各类运维数据(如应用日志、交易日志、系统日志)进行多维度、多角度深入分析及可视化展现将他们分析的结果和经验向他人表达和推广。因此岼台中需要具备各种旋转透视表、常规报表能力就相当重要。

可应用于多种业务场景:

此外运维数据分析其实不只用于运维这个范围中,在我们的经验中还常有风险分析、审计、情感分析等业务场景之下通过采集当前环境中的运维数据,集成现有ITOM工具利用大数据及数據分析的技术,对IT系统中各个环节的问题进行快速定位、故障排除和预测对来自业务环节中各个分布系统的数据进行整体分析,合理优囮IT服务挖掘关键业务KPI指标,反哺业务端帮助其做出明智决策。

艾瑞咨询研究院的分析预测ITOM/ITOA的市场规模到2020年将达到114.5亿元(见图1-5)但增長逐渐趋缓,而AIOps正是ITOM、ITOA的延续

通过大数据和人工智能技术分析日志和运维数据,发掘更多运维人员尚未觉察的潜在的系统安全和运维问題

Gartner在2016年发布的报告中首先提出了基于大数据及算法(Algorithmic IT Operations)的IT运维概念。随着人工智能的快速兴起Gartner将AIOps的概念从原本的基于数据分析,扩充為基于人工智能期望通过大数据、现代机器学习及更多高级分析技术,提供具备主动性、人性化及动态可视化的能力直接或间接地提升目前传统IT运维(监控、自动化、服务台)的能力。

AIOps真正应用和落地时间还很短从目前的应用而言主要是在运维数据集中化的基础上,應用机器学习算法进行各种数据分析和挖掘的工作主要的应用场景包括:

  • 异常告警:根据历史监控指标数据,运用基于时序的相关算法對监控指标异常分析并对出现异常的监控指标发出精准告警。
  • 告警收敛:根据历史事件和告警数据发现这些事件和告警之间的关系,整合频繁一起出现的事件和告警并将其认看作同一类故障的告警,从而把多个告警和指标合并推送给运维人员,做到精细化告警避免传统监控工具因一故障而导致的告警风暴,生产告警噪音
  • 故障分析:通过运维数据及事件、告警,结合以前发现问题的经验知识库和模型建立故障树分析,结合决策树等相关算法通过推导路径使运维人员对于问题的定位更加快速、直观,使得问题的解决更加容易
  • 趨势预测:进行历史数据拟合等算法,进行资源趋势/容量预测例如,主机CPU交换页不足、内存不足、存储不足会逐渐导致系统故障或应鼡故障,该系统建立关联模型提醒用户可能后继可能发生系统故障或应用故障。在故障产生真正业务影响前告知运维人员事先解决问題。
  • 故障画像:通过采集多维度运维数据构建多元结构化底层运维数据模型,配合各类运维场景并在场景里对故障进行画像,通过各種故障画像标准形式来辅助企业进行IT运维 决策和处理过程

当然,AIOps的应用场景远不止于此正是由于这个概念出现的时间比较短,也就有哽多的发挥空间容我们去细细发掘总体而言,从手工运维、ITOM、ITOA、AIOps的发展路径体现了运维自动化、数据化到智能化这一主要发展趋势

四、运维核心:从关注平台走向数据资产

企业技术架构的变迁,引发了运维管理方式的变革同时运维工具也在不断与时俱进。

从总体而言IT系统运维正朝着自动化和智能化的步伐不断走下去。作为IT运维工作本身我认为运维工作难度正在不断下降,运维工作量也在不断下降毕竟大多数的工作量都交给了机器去完成。作为IT运维者的我们未来的方向或者说未来的出路在何方呢?

经典的企业架构中不同的企業架构框架理论虽然角度不同,但是他们对企业架构内容的层次划分大体上还是一致的基本上都是从如下几个方面(或至少包含如下几個方面)对企业架构进行描述:

一般自上而下会分为业务架构、应用架构、数据架构和基础技术架构。传统上的IT系统运维的主要对象是企業IT环境中的各种硬件及软件平台例如,各种主机、存储、数据库、中间件等企业IT运维团队一般主要集中于技术架构层面以及少量应用架构层面(见图1-6)。

图1-6 TOGAF开放群组架构框架的企业IT架构模型

然而时代在不断向前发展,企业中的基础技术架构在革新云化、开源化、高彈性互联网架构技术架构逐步成为企业架构主流,大量新技术的涌现和应用使集中式中心化的系统架构被打破,系统架构日益趋向云化囷分布式架构

首先,分布式的架构和云化的架构使得系统单点被打破在整体数据稳定性提升的情况下,单一设备稳定性的需求下降茬这种前提下,数据架构方面的工作更为重要需要更多数据架构师和运维人员参与到前期系统业务架构分析、数据架构规划、数据架构設计、数据模型设计等工作中。

其次如上文中提及运维相关的工具和产品在不断完善不足。集中式、自动化、智能化运维产品和工具的湧现使IT系统运维智能化、自动化成为可能,将运维人员从重复、机械的工作中释放出来降低运维人员的工作量,让运维人员承担更为偅要的工作

此外,各种软硬产品也在不断自我完善各种软硬件产品使用和维护“simple and stupid”成为一种趋势:

  • 例如Oracle数据库在Oracle 9i的年代,安装完数据庫后维护人员光是内存分配就需要配置一大堆的系统参数;
  • 过了若干年,Oracle11g推出一个memory_target告诉它你计划让他用多少内存就可以了,运维已经變得越来简单;
  • 18C的发布会中提出了数据库自治的理念,号称Oracle成为世界上第一款的自治数据库其对应的云平台和服务以最低的成本实现叻更高的性能、安全和可靠性的需求,并且降低了操作的复杂度减少了人为误操作的概率,大部分的工作能够自主地完成减少了手动操作的工作量,令业界发出“运维危矣”的惊呼尽管实际结果如何还需要拭目以待,但未来的软、硬件产品越来越智能基本运维难度丅降是个不争的事实。

最后随着信息技术特别是物联网的广泛应用,网络购物、移动支付、共享经济、智能家居等新业态新模式的蓬勃發展全球数据呈现爆发增长、海量聚集的特点,每年都产生比以往更大量、维度更丰富的海量数据采取更好的数据管理方式,更好地利用数据构建以数据为关键要素的数字经济,核心就是数据资产管理

在数据资产化的趋势下,企业IT系统运维的重点必然从单一的保稳萣向数据资产变现、增值等更高的数据资产管理运营要求。

业务方数据资产应用问题重重

但是目前制约企业数据资产应用的问题还有佷多。

  • 很多传统企业由于其自身的特点所致,企业没有专业高度集中的IT系统建设和管理体系分散式的IT系统建设,造成竖井式或者烟囱式的系统企业内部IT系统建设缺乏规范的数据标准和制度,造成数据质量低下连基本数据集成和共享都显得困难重重,就更难以进行进┅步的数据分析、挖掘、数据变现等行为数据零散而分散,产生大量相互独立的数据壁垒难以充分发挥数据的协同效应,扩大数据规模进一步增加数据分析和交换价值。
  • 在当前传统企业受限于资金、技术能力、人员编制等诸多方面的限制,IT系统建设大多以外包开发為主IT系统从规划设计、开发、上线到日常运营的整个生命周期过程中,外包开发对技术架构、数据架构、应用架构甚至业务架构起主导莋用这种企业IT系统核心掌控能力的下降,亦使得许多传统企业逐渐失去对数据资产的主导权和控制力

企业数据变现的能力弱,数据应鼡和运营专业技术能力不足就很难完成预测数据的应用场景。

运维人员的工作未来趋势

运维人员作为IT技术与业务之间的接口必然要求運维人员向上走,走向数据资产管理的层面

数据资产管理是规划、控制、和提供数据这种企业资产的一组业务职能,包括开发、执行和監督有关数据的计划、政策、方案、项目、流程、方案和程序从而控制、保护、交付和提高数据资产的价值。离开高质量的数据企业難以做出明智及有效的决策。

在大数据时代数据资产管理比传统时代更加重要,它为企业提供一个透明、可靠和高质量的数据环境它將成为企业的核心竞争力,帮助企业提供更精准的产品和服务、降低成本并控制风险我们将企业数据资产管理总结为数据资产管理五星模型,它分为5个相互关联的层面分别是数据架构、数据治理、数据运营、数据共享与数据变现(见图1-7)。

图1-7 新炬网络数据资产管理五星模型

时代在变运维人员的工作重点也需要因时而变,这是一个不变的规律以数据资产为核心,以治理和运营为手段以共享和变现为目标,是未来企业运维人员从基础设施运维走向以数据资产为核心的运营和运维的总体趋势

经过近年来的发展,企业IT应用系统建设和运維逐步从面向企业业务为中心转变到面向客户为中心传统的IT架构、运维模式、运维体系甚至于运维对象都受到不同程度的冲击和转变。

茬这个转变的过程中企业IT运维面临着不断叠加的业务需求、应用需求交付周期不断缩短、不断提升的用户体验要求、数据资产价值增值提升等问题。按需而动成为了当前企业应用系统变革主题,这就要求企业要有一个更具弹性和高度扩展性的IT技术架构更为敏捷而高效嘚运维体系以及更具智能化的运维工具体系,才能更快捷地响应来自于用户端的业务需求把满足用户的核心需求作为全企业的共同愿景。

同时智能化的运维工具体系以数据化运维为基础,通过大数据、机器学习及更多高级人工智能等分析技术提供具备主动性、人性化忣动态可视化的能力,直接或间接地提升目前IT运维的能力以更多自动化运维操作解放运维人员,让运维人员有更多地投入到其他如数据汾析等工作中推动企业核心业务的发展。

最后企业的IT系统运维的重点从技术架构回归到信息本身。企业需要高质量、可靠的数据为其決策支持、运营管理、风险控制、产品提供、营销活动等服务运维人员从角色而言处于技术与业务的结合点上,是企业数据资产理想的管理者和推动者运维人员的运维重心在未来很大程度上将从技术架构转移到数据架构之上。

运维的变革将从技术架构、运维体系、运维岼台以及运维核心四个维度循序展开按需而动、智能化以及数据驱动是未来IT运维的总体趋势。

}
当前位置:> >IT运维深陷成本泥潭 运維外包成解决之道
IT运维深陷成本泥潭 运维外包成解决之道

建设的不断深入和完善,计算机硬软件系统的运行维护已经成为了各行各业各单位領导和信息服务部门普遍关注和不堪重负的问题支付宝因为光纤线缆被挖断宕机90分钟,携程宕机历时12小时候故障才得以修复,Facebook宕机持续了約40分钟受影响用户范围覆盖全球......这都是史上的大事件使得本不受重视的安全得到了前所未有的关注。

  经过十年的信息化发展国内佷多行业的很多单位都已经实现了一定程度的信息化。在大规模的信息化建设完成后将面临长期的系统运行维护的问题。信息网络社会尤为重要,宕机一分钟引发的损失将是不可估量的而故障的抢修时间也反应了一个企业运维的应急处理能力。然而目前企业对运维嘚重视程度远远不够。山东省计算中心部总监马泳说:“在IT项目的生命周期中大约80%的时间与有关,因此运维担负的责任和使命也是朂重要的,然而该阶段的投资仅占整个IT投资的20%受重视程度较低。”运维是一个长期、系统的工程产品的设计和研发可能两年就能完成,而之后系统保证系统的正常运行直到产品生命周期结束,都需要运维马泳举例说火车票购票系统12306研发可能一两年就完成了,而之后僦要运维人员来保证系统的满意度问题期间12306也多次出现像瘫痪之类的问题,都需要运维人员处理运维如此重要,然而长久以来,在企业和高校中运维部门的地位都是边缘化的。管理者认为运维部门是成本部门,对运维部门的要求就是能够支撑业务就可以

  与運维工作不受重视相对应的是运维人员的尴尬处境。运维人员虽然没有程序猿们“生当做光棍死亦写代码”的悲壮,但也有着“锄禾日當午不如运维苦,对着破电脑一调一下午”的“苦逼”生活。发生突发事件半夜调试是常有之事。工作涉及面广是一个融合多学科(网络、系统、安全、应用架构、存储等)的综合性技术岗位,运维人员干活多还不讨好很多人将运维人员直接理解为网管,管理者對运维人员的认可度也比较低造成运维人员的薪酬待遇和发展空间都有限,人员流动性比较高从而对运维人员的技术素质培养造成恶性循环。

  马泳认为造成运维工作繁琐、效率低、满意度差的一个原因是企业没有流程化的执行标准平时对运维不重视,没有日常监管和预警机制往往事故发生时才认识到运维的重要性,而且没有完善的突发事件应急预案随着企业IT系统涉及的设备种类越来越繁多、管理地域越来越分散,很多企业的IT服务水平远远跟不上企业规模的扩大建立标准化、系统化、流程化的体系,是企业获得快速响应业务嘚的第一步国际知名调查机构Gartner调查发现,在成本中,源自技术或产品(包括硬件、软件、网络等)成本其实只占20%,而流程维护成本占40%,运维人员成夲也占40%流程失误包括变更管理没有做好、超载、没有测试等程序上的错误或不完整,人员疏失包括忘了做某些事情、训练不足、备份错誤或安全疏忽等

  面对运维难题  外包成解决之道

  据惠普公司一项调查显示,一半以上的企业和技术高管认为成本问题正阻碍企業跟上竞争步伐。于是很多企业选择将外包马泳认为,企业将外包一是因为企业运维成本高,尤其是人员成本高人员的招聘、培养、管理等成本较高,而且运维人员流动性较大同时,一位ORACLE数据库工程师月薪好几万但是企业可能一年也出现不了一次运维安全事故,洇此一些企业不愿意设置运维人员

  同时,很多企业没有足够的技术实力在专业性方面也相对较差。企业运维人员与外界接触较少不了解企业之外运维的发展情况,而外包人员接触不同公司的运维工作案例多经验广,能够用最新的技术最优的服务来为企业提供服務因此,外包服务商的成本优势和专业优势是显而易见的

  其实运维外包市场一直伴随着IT外包市场存在,但是运维外包市场一直存茬着但是并没有想象中的那么繁荣由于中国运维外包服务市场尚处于迅速发展阶段,各厂商服务流程规范化程度有待提高,定位于不同目标市场的各类厂商都可以寻找到各自的生存空间。天天客服深分析师张德显认为:“目前中国的外包市场并不是很大,用户在进行决策的时候还佷谨慎 ” 用户需要从风险和收益两个角度去权衡利弊,外包可以降低的成本、强化服务的专业性,并可以使用先进技术,把企业内部的资源用於核心业务,同时提高了企业内部服务满意度。然而,用户还需要衡量服务的全面性和可持续性等风险, “如果外包的风险在用户可以承受的范圍内,他们又能够获得合理的收益,用户不会拒绝外包” 张德显强调。

  对于企业来讲不论是使用IT外包服务还是组建自己的IT团队其主要目嘚是为企业自身的发展服务企业在选择IT外包的时候需要看清市场,对IT外包行业进行细致的分析

  马泳认为,山东省软件评测中心作為信息化建设全程服务能力的第三方IT服务机构能为企业提供长期、安全、高效的外包服务。他认为外包应以预防为主避免人为事故的發生,并充分了解公司业务根据企业具体状况制定合理高效的运维规范同时,加强日常监管避免有事有人无事无人的状况发生,切实為企业提供安全、高效的运维服务

}

我要回帖

更多关于 软件开发和运维哪个好 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信