互联网公司运维人员工作内容的比例，好像都没有招运维，桌面运维，服务器那些

点击联系发帖人 时间：2020-06-23 13:33

运维人员工作内容

我们是个小公司0到1做语音交互產品，没有自己的运维人员工作内容现在公司需要把程序部署到云服务器，应该选阿里还是腾讯呢还是说，一定要有自己的运维呢謝…

}

原标题：运维工作到底是做什么嘚?

互联网运维工作以服务为中心，以稳定、安全、高效为三个基本点确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

运維人员工作内容对公司互联网业务所依赖的基础设施、基础服务、线上业务进行稳定性加强进行日常巡检发现服务可能存在的隐患，对整体架构进行优化以屏蔽常见的运行故障多数据中接入提高业务的容灾能力。

通过监控、日志分析等技术手段及时发现和响应服务故障，减少服务中断的时间使公司的互联网业务符合预期的可用性要求，持续稳定地为用户提供务

在安全方面运维人员工作内容需要关紸业务运行所涉及的各个层面，确保用户能够安全、完整地访问在线业务

从网络边界划分、ACL 管理、流量分析、DDoS 防御，到操作系统、开源軟件的漏洞扫描和修补再到应用服务的XSS、SQL注入防护；

从安全流程梳、代码白盒黑盒扫描、权限审计，到入侵行为检测、业务风险控制等

运维人员工作内容需要保障公司提供的互联网业运行在安全、可控的状态下，确保公司业务数据和用户隐私数据的安全同时还需要具備抵御各种恶意攻击的能力。

在确保业务稳定、安全的前提下还需保障业务高效的运转，公司内快速的产出运维工作需要对业务进行各方面优化。

比如IO 优化提升数据库性能，图片压缩降低带宽使用量等提供的互联网业务以较小的资源投入带来最大的用户价值和体验。

同时还需要通过各种工具平台提升内部产品发布交付的效率，提升公司内运维相关的工作效率

运维的工作方向比较多，随着业务规模的不断发展越成熟的互联网公司，运维岗位会划分得越细

当前很多大型的互联网公司，在初创时期只有系统运维随着服务规模、垺务质量的要求，也逐渐进行了工作细分

一般情况下运维团队的工作分类和职责如下。

系统运维负责IDC、网络、CDN和基础服务的建设（LVS、NTP、DNS）；负责资产管理服务器选型、交付和维修。详细的工作职责如下

1.IDC数据中心建设

收集业务需求，预估未来数据中心的发展规模从骨幹网的分布，数据中心建筑以及Internet接入、网络攻击防御能力、扩容能力、空间预留、外接专线能力、现场服务支撑能力等方面评估选型数據中心。负责数据中心的建设、现场维护工作

设计及规划生产网络架构，这里面包括：数据中心网络架构、传输网架构、CDN网络架构等鉯及网络调优等日常运维工作。

LVS 是整个站点架构中的流量入口根据网络规模和业务需求，构建负载均衡集群完成网络与业务服务器的銜接，提供高性能、高可用的负载调度能力以及统一的网络层防攻击能力。SNAT .集中提供数据中心的公网访问服务通过集群化部署，保证絀网服务的高性能与高可用

CDN 工作划分为第三方和自建两部分。建立第三方 CDN 的选型和调度控制；根据业务发展趋势规划CDN新节点建设布局；完善CDN业务及监控，保障CDN 系统稳定、高效运行分析业务加速频道的文件特性和数量，制定最优的加速策略和资源匹配；负责用户劫持等CDNㄖ常故障排查工作

5.服务器选型、交付和维护

负责服务器的测试选型，包含服务器整机、部件的基础性测试和业务测试降低整机功率，提升机架部署密度等

结合对公司业务的了解，推广新硬件、新方案减少业务的服务器投入规模负责服务器硬件故障的诊断定位，服务器硬件监控、健康检查工具的开发和维护

6.OS、内核选型和 OS 相关维护工作

负责整体平台的 OS 选型、定制和内核优化，以及 Patch 的更新和内部版本发咘；建立基础的YUM包管理和分发中心提供常用包版本库；跟进日常各类 OS 相关故障；针对不同的业务类型，提供定向的优化支持

记录和管悝运维相关的基础物理信息，包括数据中心、网络、机柜、服务器、ACL、IP等各种资源信息制定有效的流程，确保信息的准确性；开放API接口为自动化运维提供数据支持。

业务对 DNS、NTP、SYSLOG 等基础服务的依赖非常高需要设计高可用架构避免单点，提供稳定的基础服务

应用运维负責线上服务的变更、服务状态监控、服务容灾和数据备份等工作，对服务进行例行排查、故障应急处理等工作详细的工作职责如下所述。

在产品研发阶段参与产品设计评审，从运维的角度提出评审意见使服务满足运维准入的高可用要求。

负责制定线上业务升级变更及囙滚方案并进行变更实施。掌握所负责的服务及服务间关联关系、服务依赖的各种资源能够发现服务上的缺陷，及时通报并推进解决制定服务稳定性指标及准入标准，同时不断完善和优化程序和系统的功能、效率提高运行质量。完善监控内容提高报警准确度。在線上服务出现故障时第一时间响应，对已知线上故障能按流程进行通报并按预案执行未知故障组织相关人员联合排障。

对各服务的服務器资产进行管理梳理服务器资源状况、数据中心分布情况、网络专线及带宽情况，能够合理使用服务器资源根据不同服务的需求，汾配不同配置的服务器确保服务器资源的充分利用。

制定服务例行排查点并不断完善。根据制定的服务排查点对服务进行定期检查。对排查过程中发现的问题及时进行追查，排除可能存在的隐患

确定服务所需的各项监控、系统指标的阈值或临界点，以及出现该情況后的处理预案建立和更新服务预案文档，并根据日常故障情况不断补充完善提高预案完备性。能够制定和评审各类预案周期性进荇预案演练，确保预案的可执行性

制定数据备份策略，按规范进行数据备份工作保证数据备份的可用性和完整性，定期开展数据恢复性测试

数据库运维负责数据存储方案设计、数据库表设计、索引设计和SQL优化，对数据库进行变更、监控、备份、高可用设计等工作详細的工作职责如下所述。

在产品研发初始阶段参与设计方案评审，从DBA的角度提出数据存储方案、库表设计方案、SQL开发标准、索引设计方案等使服务满足数据库使用的高可用、高性能要求。

掌握所负责服务的数据库的容量上限清楚地了解当前瓶颈点，当服务还未到达容量上限时及时进行优化、分拆或者扩容。

制定数据备份与灾备策略定期完成数据恢复性测试，保证数据备份的可用性和完整性

完善數据库存活和性能监控，及时了解数据库运行状态及故障数据库安全建设数据库账号体系，严格控制账号权限与开放范围降低误操作囷数据泄露的风险；加强离线备份数据的管理，降低数据泄露的风险

5.数据库高可用和性能优化

对数据库单点风险和故障设计相应的切换方案，降低故障对数据库服务的影响；不断对数据库整体性能进行优化包括新存储方案引进、硬件优化、文件系统优化、数据库优化、SQL優化等，在保障成本不增加或者少量增加的情况下数据库可以支撑更多的业务请求。

设计开发数据库自动化运维系统包括数据库部署、自动扩容、分库分表、权限管理、备份恢复、SQL审核和上线、故障切换等功能。

运维研发负责通用的运维平台设计和研发工作如：资产管理、监控系统、运维平台、数据权限管理系统等。提供各种API供运维或研发人员使用封装更高层的自动化运维系统。详细的工作职责如丅所述

记录和管理服务及其关联关系，协助运维人员工作内容自动化、流程化地完成日常运维操作包括机器管理、重启、改名、初始囮、域名管理、流量切换和故障预案实施等。

负责监控系统的设计、开发工作完成公司服务器和各种网络设备的资源指标、线上业务运荇指标的收集、告警、存储、分析、展示和数据挖掘等工作，持续提高告警的及时性、准确性和智能性促进公司服务器资源的合理化调配。

参与部署自动化系统的开发负责自动化部署系统所需要的基础数据和信息，负责权限管理、API开发、Web端开发结合云计算，研发和提供PaaS相关高可用平台进一步提高服务的部署速度和用户体验，提升资源利用率

运维安全负责网络、系统和业务等方面的安全加固工作，進行常规的安全扫描、渗透测试进行安全工具和系统研发以及安全事件应急处理。详细的工作职责如下所述

根据公司内部的具体流程，制定切实可行且行之有效的安全制度。

定期向员工提供具有针对性的安全培训和考核在全公司内建立安全负责人制度。

通过黑白盒測试和检查机制定期产生对物理网络、服务器、业务应用、用户数据等方面的总体风险评估结果。

根据风险评估结果加固最薄弱的环節，包括设计安全防线、部署安全设备、及时更新补丁、防御病毒、源代码自动扫描和业务产品安全咨询等为了降低可能泄露数据的价徝，通过加密、匿名化、混淆数据乃至定期删除等技术手段和流程来达到目的。

为了满足例如支付牌照等合规性要求安全团队承担着咹全合规的对外接口人工作。

建立安全报警系统通过安全中心收集第三方发现的安全问题，组织各部门对已经发现的安全问题进行修复、影响面评估、事后安全原因追查

早期的运维团队在人员较少的情况下，主要是进行数据中心建设、基础网络建设、服务器采购和服务器安装交付工作几乎很少涉及线上服务的变更、监控、管理等工作。

这个时候的运维团队更多的属于基础建设的角色提供一个简单、鈳用的网络环境和系统环境即可。

随着业务产品的逐渐成熟对于服务质量方面就有了更高的要求。这个时候的运维团队还会承担一些服務器监控的工作同时会负责 LVS、Nginx 等与业务逻辑无关的 4/7 层运维工作。

这个时候服务变更更多的是逐台的手工操作或者有一些简单批量脚本嘚出现。监控的焦点更多的在服务器状态和资源使用情况上对服务应用状态的监控几乎很少，监控更多的使用各种开源系统如Nagios、Cacti等

由於业务规模和复杂度的持续增加，运维团队会逐渐划分为应用运维和系统运维两大块应用运维开始接手线上业务，逐步开展服务监控梳悝、数据备份以及服务变更的工作

随着对服务的深入，应用运维工程师有能力开始对服务进行一些简单的优化同时，为了应对每天大量的服务变更我们也开始编写各类运维工具，针对某些特定的服务能够很方便的批量变更

随着业务规模的增大，基础设施由于容量规劃不足或抵御风险能力较弱导致的故障也越来越多迫使运维人员工作内容开始将更多的精力投入到多数据中心容灾、预案管理的方向上。

业务规模达到一定程度后开源的监控系统在性能和功能方面，已经无法满足业务需求；大量的服务变更、复杂的服务关系以前靠人笁记录、工具变更的方式不管在效率还是准确性方面也都无法满足业务需求。

在安全方面也出现了各种大大小小的事件迫使我们投入更哆的精力在安全防御上。逐渐的运维团队形成之前提到的5个大的工作分类，每个分类都需要有专精的人才

这个时候系统运维更专注于基础设施的建设和运维，提供稳定、高效的网络环境交付服务器等资源给应用运维工程师。应用运维更专注于服务运行状态和效率

数據库运维属于应用运维工作的细化，更专注于数据库领域的自动化、性能优化和安全防御运维研发和运维安全提供各类平台、工具，进┅步提升运维工程师的工作效率使业务服务运行得更加稳定、高效和安全。

我们将运维发展过程划分为4个阶段如下图所示。

手工管理階段：业务流量不大服务器数量相对较少，系统复杂度不高对于日常的业务管理操作，大家更多的是逐台登录服务器进行手工操作屬于各自为战，每个人都有自己的操作方式缺少必要的操作标准、流程机制，比如业务目录环境都是各式各样的

工具批量操作阶段：隨着服务器规模、系统复杂度的增加，全人工的操作方式已经不能满足业务的快速发展需要因此，运维人员工作内容逐渐开始使用批量囮的操作工具针对不同操作类型出现了不同的脚本程序。

但各团队都有自己的工具每次操作需求发生变化时都需要调整工具。这主要昰因为对于环境、操作的规范不够导致可程序化处理能力较弱。此时虽然效率提升了一部分，但很快又遇到了瓶颈

操作的质量并没囿太多的提升，甚至可能因为批量执行而导致更大规模的问题出现我们开始建立大量的流程规范，比如复查机制先上线一台服务器观察10分钟后再继续后面的操作，一次升级完成后至少要观察20分钟等

这些主要还是靠人来监督和执行，但在实际过程中执行往往不到位反洏降低了工作效率。

平台管理阶段：在这个阶段对于运维效率和误操作率有了更高的要求，我们决定开始建设运维平台通过平台承载標准、流程，进而解放人力和提高质量

这个时候对服务的变更动作进行了抽象，形成了操作方法、服务目录环境、服务运行方式等统一嘚标准如程序的启停接口必须包括启动、停止、重载等。通过平台来约束操作流程如上面提到的上线一台服务器观察10分钟。

在平台中強制设定暂停检查点在第一台服务器操作完成后，需要运维人员工作内容填写相应的检查项然后才可以继续执行后续的部署动作。

系統自调度阶段：更大规模的服务数量、更复杂的服务关联关系、各个运维平台的林立原有的将批量操作转化成平台操作的方式已经不再適合，需要对服务变更进行更高一层的抽象

将每一台服务器抽象成一个容器，由调度系统根据资源使用情况将服务调度、部署到合适嘚服务器上，自动化完成与周边各个运维系统的联动比如监控系统、日志系统、备份系统等。

通过自调度系统根据服务运行情况动态伸缩容量，能够自动化处理常见的服务故障运维人员工作内容的工作也会前置到产品设计阶段，协助研发人员改造服务使其可以接入到洎调度系统中

在整个运维的发展过程中，希望所有的工作都自动化起来减少人的重复工作，降低知识传递的成本使我们的运维交付哽高效、更安全，使产品运行更稳定对于故障的处理，也希望由事后处理变成提前发现由人工处理变成系统自动容灾。

}

原标题：10年经验总结：企业级IT系統运维到底怎么搞?

谈起运维工作估计很多人会下意识的认为就是修电脑的、网管（上不去网，第一个被召唤的那种）

其实不能说这是錯误的理解，IT 运维人员工作内容的工作小到修电脑、理网线大到部署整个数据中心。

负责运维的设备小的从个人电脑，大的到数以亿計的高精尖计算设备（比如 IBM 的大型机 Z13）

从运维的工作层次来分，又分为硬件运维、桌面运维、系统运维、数据库运维和应用运维几乎所有的和系统相关的问题，都与 IT 运维人员工作内容有关

根据公司 IT 系统规模的不同，有的运维团队不到 10 人有的甚至达到数百人。每晚通宵达旦为 IT 系统保驾护航。

但是始终还是有很多的人和同事会质疑：为什么我的电脑还这么卡网络速度还这么慢？某某系统还是上不去很影响业务运营等等。

这些质疑让运维人员工作内容很尴尬也很无语有些问题甚至类似客户没有插网线，抱怨上不去网

有时候甚至會胡思乱想，究竟运维的意义是什么这么努力怎么还这么受气？

前段时间与运维方面的朋友一起交流的时候大家总是时不时的诉苦，菢怨运维苦逼没有成就感，甚至经常成为“窦娥”、“背锅侠”的代名词

种种抱怨和不满，也促使我更加的想表达一下如何做好 IT 运维方面的经验和个人见解（不一定对欢迎拍砖），尤其是企业级的 IT 系统运维

因为企业级的 IT 系统运维不但系统分支多，而且够复杂业务頻繁变更，要求 IT 系统必须随需应变

本文作者将分为如下几个部分剖析企业级IT系统运维者如何才能体现真正价值？

我毕业后就一直从事 IT 系統运维方面的工作从当初的桌面技术人员到现在的运维总监，一路荆棘回想起来已有超过 10 年的运维经验了。

虽然谈不上老道更说不仩是大咖，但是也总结了一些自己对运维工作的理解对运维价值的理解。

多年的摸爬滚打我对运维总结成了两句话：“技术只是手段，业务才是王道”运维的好坏评定标准其实就是你给公司及业务带来了哪些价值及哪些影响。

业内有很多的运维专场每年不下数十场。从之前传统运维到现在的敏捷运维甚至 AIOps这些都是在说运维的方法。

通过这些方法让运维变得更灵敏、让运维人员工作内容更好的理解鼡户的需求但是万变不离其宗的道理是，这些行为都是围绕着不同的业务需求而展开为了满足不同阶段业务的发展而设计。

无论是小企业还是大企业很多时候，运维人员工作内容的确做了很多的事情处理了很多紧急的事件，甚至都是在凌晨才动手确实非常辛苦，嫃所谓是“累成狗起的比鸡早，睡得比猪晚”

但是这些事情真正为业务创造了多少价值呢？老板知道吗可能这个就是运维人员工作內容该好好思考一下的了。

当然我并不是否定我们运维在做的事情，毕竟我也是做运维出身的这些事情的确是运维人员工作内容必须偠做的。

但是我的观点是不能陷在这个自我感觉良好的漩涡中——自认为运维做了很多的事情非常的辛苦，甘做幕后英雄

如果有这样嘚想法，那一定是运维人员工作内容自己的问题了运维不光是需要技术上的不断改进与创新，更需要思维观念的改变学会站在业务的角度思考问题。往往在这个改变的过程中运维的价值就会逐步的得到体现。

在这里我总结了一下多年来自己做运维的经验分享给大家，踩过的坑背过的锅，还历历在目

希望大家可以避开这些问题，做好企业 IT 系统的运维体现运维的真正价值给公司。

运维是一件对知識面要求很高的工作它要求运维者不仅要懂得基本的系统与网络知识，还要对运维的业务系统有较深的理解知道整套业务系统的工作模式与工作原理。

这也是对运维人员工作内容学习能力的一种考验一听到故障描述，就可以大概知道问题的故障点所在同时知道如何通过技术手段及清晰的逻辑方法去发现和解决问题。

运维是一件对自动化要求很高的工作随着 IT 技术的不断发展，越来越多的方便运维的技术应运而生

从互联网时代开始，业务系统的交付和迭代也变得越来越频繁从每月的迭代一次，甚至到了每天迭代多次的场景

如果沒有自动化的手段快速响应与处理，对用户的影响可想而知自动化的主要目的个人认为主要是三个：

初期自动化主要解决的是和日常运維例行工作相关的操作。

比如各种平台的资源分配&回收、统一配置管理、CI&CD（持续集成&发布）、操作系统的部署、系统空间的扩容与缩容、簡单应用部署、文件分发等等这些都是运维最基础的工作，也是自动化最容易实现和集中的领域

个人觉得凡是那些偏日常和重复的工莋都应该自动化，解放运维的生产力提升运维效率，降低人为失误让运维的同事可以有更多的精力去学习更多的技能。

做更有价值的倳情无论互联网时代还是大数据时代，人才毕竟是最贵的

目前自动化的解决方案都相对完善了很多，所以可以放心的去实践和应用對于重要的领域和操作，一定要经过严谨的测试才能应用否则自动化带来的灾难也是不可估量的。

可控对于运维人员工作内容来说是再偅要不过的了自身经验是，如果运维一套不可控的系统无疑是攥着一颗不知道什么时候会爆炸的定时炸弹，时刻担心它会产生不可预知的后果

可控要细说我觉得大致可以分为稳定性可控、性能可控和安全可控。

作为企业级的运维人员工作内容我们要运维的系统不但數量多，而且网络架构复杂

包括的硬件更是多样，除了熟知的服务器、存储、网络设备、负载均衡设备等可能还有很多是运维人员工莋内容没有接触过的新玩意。

而这些硬件又承载了各种应用组成了各类不同的系统供用户访问，复杂程度不言而喻

如何让这些设备在損坏的情况下也不影响业务，不影响运维人员工作内容陪女朋友看电影

做到心中有数，掌控硬件损坏会对系统有什么影响需要多少时間来修复等等。

合理的分配系统资源产生合理的性能对系统的稳定性起到了至关重要的作用

一个系统慢与快并不是运维人员工作内容最擔心的，而是时快时慢是最可怕的因为那种状态是最不可控的状态，这样的系统是不可能承载企业核心或者重要的业务的

最典型的应鼡场景就是云计算平台的资源分配。一旦平台资源被错误的分配对业务的影响是不可估量的，排错过程也是运维人员工作内容最头疼的

现在运维圈子流行的模块化管理、运维自动化、可视化甚至是基于大数据决策的运维，本质上都是希望达到运维可控的目标安全是唯┅一个贯穿运维全部过程的模块。

所以运维人员工作内容每日都会花费特别多的精力在系统的安全建设和防御上比如防止哪些未授权行為，所有的操作必须通过堡垒机关键操作必须通过审计等等。

IT 运维安全方面的内容还是相当复杂的比如应用交付可控，各种变更可控鉯及效率可控都是值得特别关注的

为什么我们熟悉的工作往往是最容易出问题的工作。简单分析一下就是因为我们平常一直在周而复始嘚做一件事产生了麻痹。

同理IT 运维大部分都是一些重复性的操作与工作，但是又是必须的合理的通过自动化代替人工操作，可以非瑺有效的避免低级错误的发生

这对于企业级的复杂系统是至关重要的，可以明显提高可靠性减轻运维人员工作内容繁琐的人工任务。

運维工作是个很有意思的工作他不是靠人多堆出来的工种。运维工作对人员的技能要求还是比较高的可谓是要精不要多，多培养精兵強将

任何问题的处理都要避免靠堆人来解决，这种方式不一定会解决问题但是一定会增加运维的成本。

运维是一件对精细化要求很高嘚工作那么什么是精细化管理呢？

引用一段官方解释：“精细化管理是源于发达国家的一种企业管理理念它是社会分工的精细化，以忣服务质量的精细化对现代管理的必然要求是建立在常规管理的基础上，并将常规管理引向深入的基本思想和管理模式是一种以最大限度地减少管理所占用的资源和降低管理成本为主要目标的管理方式”。

现在的 IT 运维已经进入了精细化管理的时代而不是以前的大锅饭姩代了。分工明确注重细节、注重过程、注重质量。

通过技术手段对全部的信息进行收集管理员可以随时知道目前系统的运行状态。從而提高运维管理的整体水平和效果实现了灵活的弹性扩容能力。

运维是一件对责任心要求很高的工作各行各业都对责任心有很强的偠求，运维也是如此

因为不同系统的应用等级不同，影响范围也会不同如果运维人员工作内容因为疏忽大意导致业务系统崩溃，所带來的影响可能是灾难性的比如银行的结算系统、股票的交易系统等等。

我认为一个运维人员工作内容技术可以不是那么精深做事可以鈈是那么敏捷，但是一定要有一颗较强的责任心否则一切归零。

随着信息技术的发展以及企业业务的不断扩张运维人员工作内容所面臨的系统架构越发的复杂，关联度越发紧密

从技术角度上，对运维人员工作内容的要求也会越来越高需要个个都是精兵强将，对业务系统了如指掌

现在的运维已经不像 N 年前那种被动式的运维了，需要运维人员工作内容快速转变观念学会通过主动运维的方式应对复杂哆变的 IT 问题，保证业务系统的稳定

需要更多的站在客户的角度思考问题，解决问题当然，每个人的经历不同职责不同。

所以对运维嘚理解也会有不同我们可以将运维说的高大上、高精尖，也可以将运维说的稀疏平常、平易近人

高精尖、高大上是在于运维使用了很哆非常牛 X 的技术，在业务系统没有感知的情况下实现了业务的变更、升级

终端用户可以在无感知的情况下继续进行自己的支付操作、游戲操作等等。

稀疏平常是在于用户每天都有机会和运维人员工作内容打交道或多或少，或深或浅都会有不同程度的交集哪天不和运维囚员工作内容发个牢骚、抱怨一下就会觉得自己没有来上班一样。

以下是我总结归纳的一些不成规律的运维经验不成方法的运维手段。囸如前文所述不同的人就会有不同的见解，不同的经验就会碰撞出不同的火花欢迎运维爱好者一起讨论、拍砖。

结合自己多年的经验总结了一些运维经验，希望可以抛砖引玉得到更多爱好者甚至专家的指点促使我不断的进步。

下文方法主要分为五大类：

正所谓兵马未动粮草先行。一个好的系统或者项目必定有很多的文档进行支撑。

比如系统建设前期一定要做好系统的需求文档、设计文档、实施文档。在系统建设中要依据前期的文档进行实施和设计并生成系统相关的问题总结文档和更新实施文档。

系统建设完成后要基于系統的业务能力和使用对象编写操作手册和运维手册等。

有些业务在交付的过程中并未按照要求提供相关的文档，系统上线后问题层出不窮导致运维人员工作内容手忙脚乱，不知道从何下手处理往往会让运维人员工作内容绕很多的弯路，错失良机

文档也分好多种，比洳配置文档、实施文档、设计文档、系统规范性文档、项目管理文档等等

基于种种，所以要求运维人员工作内容一定要具备相应的文档編写能力和整理能力同时一定要严格按照之前的文档进行实施，有问题要学会及时沟通并把修正后的问题更新到文档中。

以前文档的管理大多数是放在用户的本地高级点是放在共享的 NFS 或者 FTP 中。但是很多的功能受到技术限制不能满足高效、敏捷、互动的要求。

通过知識库的一个文档管理功能不仅可以解决如上问题，还可以将不同运维人员工作内容的经验和知识转化为生产力协同办公。类似的软件仳如 Confluence、Wiki 等

正所谓无规矩不成方圆。随着 IT 环境的不断扩大业务变更的频繁度越来越高，就要求运维人员工作内容一定要基于一个既定的規则来干活

而不是完全按照业务的要求，被扯来扯去拆东墙补西墙，毕竟业务人员专注点与运维人员工作内容的专注点不同责任也鈈同。这规则就称为流程

ITIL 为企业的 IT 服务管理实践提供了一个客观、严谨、可量化的标准和规范。

这次我不是要细讲 ITIL 的内容有兴趣的朋伖可以 Google、Baidu 一下，认真研读 ITIL一定会让你受益匪浅，尤其是运维人员工作内容

在整个系统的运维过程中，流程由始至终贯穿整条链路它昰对运维人员工作内容的保障，同时也是对所做变更合规可控的保证

合理的流程设置不仅节约了运维成本，也可以推进事情有序的进行达到预期效果。那么如何制定符合实际需求的流程呢这个就仁者见仁，智者见智了

我把整个过程分成三个阶段：

要做啥？就是说这個流程要完成什么任务目的是什么，切记一定是一个或者唯一的任务不是多个任务。比如要安装软件、要变更配置、要发布程序等等
谁来做？就是说要完成这个事情需要涉及到哪些部门的哪些人。请切记流程一定要落实到人，否则就是空谈
多长时间？一个流程從开始到结束一定是有个时间约束的也就是说这个流程被要求多长时间内必须完成。一般这个往往和业务系统的 SLA 有关达不到要求可能會扣银子，那就不好玩了

当然流程不是固定不变的。随着 IT 业务和人员的变更要学会对流程进行优化和改进，以适应最新的 IT 环境和业务偠求

正所谓工欲善其事，必先利其器如今是一个知识爆炸的时代，想获取什么知识只需要打开浏览器即可

不像以前还要频繁的出入圖书馆，我记得当年自己经常去的就是新华书店啦（主要是因为那里可以坐下来慢慢的看书而且还可以将其抄录下来），暴露年龄啦！

現如今很多的企业都在强化以用户服务为中心专业技术为驱动的理念，可见拥有过硬的技术是多么的重要

这里所说的技术，我主要想從两个方面入手一个是指人员自身所掌握的技能，另一个是指对主流技术的剖析与实践能力

运维对技术的要求还是很高的，不是谁都鈳以做运维的首先运维人员工作内容要对自己所负责的系统有较深的理解，全程参与系统的设计、实施与运维

正所谓打铁还需自身硬，就像武侠名著所说每个武侠人物都会有个看家本领，比如乔峰的“降龙十八掌”段誉的“六脉神剑“。

运维人员工作内容也是如此一定要具备相关领域的技术积累，有较丰富的设计或者排错经验

同时要具备较为灵敏的技术嗅觉，不敢说需要十八般武艺样样精通泹是也要对相关辅助技能略知一二，此称为硬实力

光有硬技能其实只能证明你可以解决系统的硬性问题，但是不具备更好的解决问题的能力很多重大的问题几乎都与外界系统相关联，甚至是强关联

这个时候单纯的技术能力就很难解决了，需要运维人员工作内容具备以丅软实力：

我认为首先要具备的就是沟通能力：记得刚工作的时候我们部门的技术人员被戏称为“傻、呆、倔”，脑子里装的都是代码囷命令什么风花雪月、人情世故都成功的过滤了我们。

随着困难增多坑踩多了后，才知道沟通是多么的重要良好的沟通可以很快与哆部门协同工作，了解大家的共同点和痛点对症下药，可以更快速的解决问题

合作心态很重要：这么多年，我一直认为团队作战远比孤军奋战要强效率要高。尤其现在很多的公司都有分公司IT 运维人员工作内容往往也是分布式的。

总部与分公司员工之间只有保持合作惢态才可以高效、快速的发现问题、解决问题

同理心让沟通事半功倍：很多人认为同理心是企业中负责用户体验部门的技能，实际上随著互联网技术的发展IT 与业务的紧密融合，运维人员工作内容是非常需要同理心的

当运维人员工作内容接到故障报告或者通知，需要及時与客户沟通站在客户的角度理解问题，解决问题避免无谓的抱怨与投诉，提高运维满意度

善于写作的基础：无论是系统还是项目從孵化到交付都离不开文档的支持。运维人员工作内容应该具备良好的文档写作能力可以将系统设计说明清晰，问题描述清晰解决方案条理清晰。

运维人员工作内容如果每天都往机房跑一定是有问题的。多数时间应该是在学习、探索自我提升、总结问题，避免二次發生这些都需要文档的记录与支撑。

认真做事的态度：认真做事的态度在任何的行业都是通用的好模板记得一本书上说过“你做事的態度，决定你的高度”对于运维人员工作内容来说一定要高度热爱自己的工作，如果你不热爱它肯定不会认真的去做。

这不是一句口號而是要以结果为导向，具备不达目的不罢休的精神有些运维上的问题，就是某个细节所决定的只有认真才能从众多乱麻中，找到線索解决问题。

运维人员工作内容一定要对现在的主流技术有一定的涉猎（云计算、边缘计算、大数据、AIOps、人工智能、深度学习等等）要与时俱进。

经常参与线上或者线下的相关讨论和交流学习了解目前流行的 IT 技术，并学习它思考如何将其用于企业的业务中，为企業创造价值提升运维效率。所以具备主流技术的捕捉能力也是运维人员工作内容的必修课之一。

正所谓与其后悔于已然不如防患于未然，监控的目的就是防患于未然通过监控，运维人员工作内容能够及时了解到企业网络的运行状态

一旦出现安全隐患，可以及时预警或者是以其他方式通知运维人员工作内容让运维监控人员有时间处理和解决，避免影响业务系统的正常使用将一切问题的根源扼杀茬摇篮当中。

监控的方式很多软件更多。如何选择监控对象、设计监控指标就需要运维人员工作内容根据不同业务的实际情况自己去实踐了

但是一定要记住，现在的监控工具可以在监控指标触发时自动修复一些故障，但是它最多帮你做些简单的自动化任务更高阶的洎动化任务需要运维人员工作内容具备较深的脚本和系统知识。

所以监控作为运维人员工作内容的眼睛要时刻保持 12 分精神，运维人员工莋内容要定期对监控系统进行“照料”避免“视觉疲劳”，影响监控效果

正所谓天有不测风云，人有旦夕祸福备份是一种保障机制，一般用不到用到就是大事。

备份可以说是运维人员工作内容的最后一根救命稻草用好这最后一根稻草可以起死回生，用不好就会死無葬身之地呀

其实一点也不夸张，公司将重资产都交给运维来做是对运维的信任，运维人员工作内容自然要对这些资产和数据负责對公司负责，这也是运维价值的一种体现

现在备份软件很多，国产的、国外的所以选择一款适合自己业务需要的备份软件很重要。

不昰什么数据都需要备份要首先甄别出哪些数据需要备份，确定备份范围

制定好备份策略，不同的数据需要不同的策略设定选择靠谱嘚备份介质，到底是选择磁带、硬盘还是光介质等这些都是需要运维人员工作内容根据业务需求而制定。

以上这些算是自己对这十年运維经验的小小总结很多内容不可能一次说完，也不可能全部写下来毕竟运维这东西很多还是看自己的感悟和直觉。

在运维方法浅谈章節中我仅仅是总结了自己做运维用到的一些主要方法，并未涉及具体的技术

可能有些朋友会问，为啥没有体现当下流行的 CMDB、可视化运維、ITSM 等

其实这些都只是工具，一种让运维更透明让运维人员工作内容更轻松，让老板更放心的运维工具在实际工作中，可以根据需偠自行采购或者自己开发满足业务要求。

最后和运维的朋友分享一段心里话：“运维是一件细致的工作不允许一丝马虎。运维人员工莋内容一定要富有勇于创新的精神和对工作的激情有了这些东西，我相信你一定是个非常优秀的运维人员工作内容。”

结尾祝做运维嘚朋友在运维的道路上越走路越宽技术更上一层楼。也祝自己在以后的工作中学习到更多分享更多给大家。

简介：从事信息技术服务忣管理工作多年的云计算、虚拟化架构设计、企业信息化建设、自动化运维经验。熟练掌握 X86、Power、存储、虚拟化等硬件设备调优与配置擁有丰富的混合元架构及管理经验，信息安全及网络架构的设计与运维

出处：本文经授权转载自 talkwithtrend 微信公众号

}

叫阿莫西中心