“数据中心操作系统”公众号正式推出《大咖谈运维》栏目,每月邀请3名企业级运维大咖发表原创文章,聚焦大型企业新一代运维理论体系和最佳实践探索 作者简介
精彩观点早知道
以下是万字雄文,阅读全文需要30分钟,建议收藏后阅读,欢迎给公众号发表观点进行讨论。
一、前言在IT服务管理和运维自动化这个领域,业界近年来的发展比较快。从IT服务管理(ITSM)、数据中心自动化(DCA)到开发运营一体化(DevOps),相关概念和理论不断涌现。从IBM、BMC、HP等传统厂商各类工具产品纷纷面市到Puppet、Ansible、Saltstack等开源解决方案风起云涌,各类工程实践也是精彩纷呈。 放眼如今各类技术论坛、交流大会,运维自动化已然成为专题,各路豪杰纷纷登台,分享案例,探讨方向,令人目不暇接。在这个领域,我虽然在企业内部有一些工程实践经验,但更多的还是一名学习者,经常“潜水”于各种讨论群,关注相关公众号,努力从同行的经验中吸取营养,不断调整我们自己的工作方向。 年前,云霁科技的智总问我能否写篇文章,谈谈关于运维自动化建设方面的意见。是时,恰逢我们团队研发的智能运维平台第一阶段工作完成,将行内数万个节点纳入了管理。我想可以借此机会把这几年的一些思考作一总结,以期抛砖引玉,与同行探讨交流,于是便答应下来。也就有了如下零散的总结,不成体系,还请各位专家指正。 二、运维的定义 (一)运维概念探讨 论及运维自动化建设,首先有必要先讨论一下运维的定义。通常,我们把运维看作是英文“Operation”的翻译。当然,这个单词也可以翻译为“运营”。于是业内也有不少专家同行撰文研究运维和运营的联系与区别。比如,优诺科技CEO陈傲寒曾写过一篇文章《IT:从运维到运营》,里面就有一番独到的论述,感兴趣的同志可参考。 对于我们一线工作者而言,概念和理论固然重要,但如何进行工程实践却是我们更为关注的话题。我们讨论运维的定义,更多的是希望明确其所指代的工程范围。当然,这本身也是一个见仁见智的问题。 于我个人而言,倾向于把运维的含义界定为数据中心各专业技术岗位的日常运维工作,具体而言,就是各专业技术岗位人员与各类软硬件运维对象进行交互操作的活动。需要补充说明的是,技术运维也只是数据中心各专业技术岗位人员技术管理工作(Technical Management)的一部分。因为,这些专业岗位的人员日常还需要完成技术文档整理,技术培训,各类申请提交等技术相关任务。但是,由于这些工作与运维对象并不进行直接的交互,所以不考虑纳入技术运维的范围。如果从ITIL理论体系来讲,这里的运维定义大致可圈定在服务运营(Service Operation)中的IT运营管理(IT Operations Management)范围;如果从DevOps供应链的视角来看呢,则又可对应于技术运营(Technology Operations)的部分。 本文界定的运维工作范围可用下面的图1来表示。 图1 运维定义 (二)聚焦小运维 这样的范围界定,可以说是“小运维”的视角,看起来可能有些“狭隘”。毕竟,在IITL体系中,从V2版本就开始强调要从运营维护的层面上升到服务管理的层面,V3版本则更是强调了服务生命周期管理的理念,如果我们再回过头来讨论技术运维工作,的确有“思想倒退”的嫌疑。另一方面,DevOps也开始讨论如何突破传统的部门壁垒,推进组织文化的革新,以追求更加敏捷高效的IT交付,如果我们还停留在运维部门这一环的具体专业工作,似乎也有些跟不上时代潮流。诚然,按照这些先进理论来推进企业级“大运营”体系的建设无疑是正确的方向,我们不仅不会反对,而且还要一直努力追随。 然而,我在这里聚焦于“小运维”的概念,主要是出于如下几点考虑:
(三)传统企业 VS 互联网企业 就自己不完全的观察与总结,在技术运维领域,似乎存在两个比较明显的现象:
对于上述两个现象背后的原因,我也做了一些分析。除了有企业文化和管理理念方面的差异之外,我想还有两个重要因素也不能忽略:
对于传统企业而言,
而对于互联网企业而言,
不过,近几年我们也看到,传统企业和互联网企业在IT架构方面已经开始逐步走向融合。不少传统IT企业也开始尝试引入分布式技术架构和一些较为成熟的开源产品,走上了集中式架构与分布式架构相互融合,相互补充的道路。沿着这个道路走下去,必然会导致IT运维的规模快速扩张,IT运维的复杂度也将不断增加。最后,技术运维自动化自然也就会成为大家共同的追求。实际上,我们已经看到各传统企业正在纷纷加大技术运维自动化的建设方面的投入(包括智能化运维方面的尝试),当然,这还有一个发展过程。 这两年,Google SRE运维经验在国内同行中引起了较大反响,其核心的一条理念就是:SRE团队的运维工作限制在50%以内,剩余时间应该花在研发项目上。我想这也代表着专业运维未来的一种发展趋势(旁白:笔者在5年前也开始预感到运维开发是大势所趋,因此启动了第一个运维自动化工具自主研发项目,几年下来逐步培养了一支运维开发队伍,但这个规模还是很小,离50%这个比例相去甚远)。未来企业IT运维能力的竞争,运维开发能力必将成为越来重要的因素。 (四)小结 综上所述,我们在这里把运维聚焦于技术运维工作,并不是要“开历史的倒车”,而是呼吁大家更加重视数据中心技术运维工作的新变化和新挑战,务实地面对技术运维自动化的迫切需求,扎扎实实地打牢这个基础,以便更好地实现IT服务管理和价值创造。对于安全生产而言,产品质量是根本,生产运维亦是关键,这正如一块硬币的两面。毕竟,在业务系统整个生命周期中,在开发测试运行的完整链条中,生产运行这个环节的周期最长,对客户服务也有直接影响。我们不能让这个环节成为短板。 三、运维业务模型 (一) 好的运维业务模型要求 如果把运维自动化软件看作是业务系统,其架构设计也可遵循“业务架构→应用架构→技术架构→数据架构”的设计方法论。因此,我主张在研究运维自动化技术方案之前,应该先对运维业务有个清晰的描述,最好能抽象出业务模型,以确保实现的运维自动化软件最大程度匹配业务模型。当然,这里的运维业务仍然是上文讨论的技术运维范畴。 在我看来,一个比较好的运维业务模型应该能满足如下六项要求:
(二)OASR运维业务模型 如前文所述,在ITIL理论V3版本中,技术运维相关内容主要集中在服务运营这部分。但我发现ITIL理论更侧重于大运营流程建设,对于更具体技术层面的运维工作,虽时有提及,但也是放在大流程中进行统一描述,并未有给出体系化总结。 此前,我曾看到国内一些专家提出了“监管控”一体化建设解决方案,抽象度较高,也比较简洁。但这里“管”的维度,其内涵界定弹性较大,完全可拓展到IT服务管理的范畴。也就是说,这个模型差不多可以涵盖数据中心的全部工作,与我们这里讨论的运维范畴并不十分匹配(当然,这里也不能否定这个模型的合理性,关键要对每个维度的内容进行具体界定)。 下面,我也给出一个自己总结归纳的OASR运维业务参考模型,具体如图2所示。 图2 运维业务模型 对上述模型的说明如下:
因为前面我们已经将运维界定为专业技术维护工作,所以这里的运维活动主要是指各专业技术人员基于各类运维对象开展的技术维护操作,进一步归纳为4类:
运维场景是基于各类运 | |
|
声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系
[邮箱地址] 删除
|