[运维] 第一篇:数据中心运维模型之我见
从实际经验来看,每个企业的数据中心运维上都不会是十全十美的,因为毕竟企业业务发展是迅速的,对IT的要求相应也是也是越来越高,越来越复杂,所以无论是在运维团队架构上,还是在具体的管理层面上,尽管现实空间有限,但都有很多值得调整的空间和余地,且听我道来!
先看看这张运维模型,了解一下企业运维到底包括了那些东西:
企业运维包括了四象限:人员、管理、工具和业务。对于人员,通常企业有两种结构:一种是功能性驱动,比如机房维护团队、IT基础架构运维团队、应用维护团队等;另一种是管理流程驱动分组,例如:事件管理流程团队、问题管理流程团队、变更和发布流程团队等,这种团队大多数根据企业管理的实际需要和管理制度要求设定,人员从各个功能性驱动团队中选取,临时组建。功能性驱动团队人员结构、人数、人员、功能等基本固定,在企业中作为正式的管理组织,基本保持稳定的状态,如果调整,肯定是属于动静比较大的动作;而管理流程驱动团队,是临时根据管理需要设定,人员结构、人数、人员安排皆根据企业实际管理需要设定,所以组织灵活,随时设立,随时调整。所以这两者最大的区别是灵活性,而灵活性对于企业来说事最重要的生存要素!再说说管理,管理也发两种,一种是企业的管理制度,另一种是根据企业发展要求设定的管理制度和管理要求,或者说是管理流程,例如ITIL流程、OA管理流程、ISO20000、CMMI等。管理制度的基本点都是企业在很长时间发展起来的基本要求,所以改的难度很大,但是管理流程是灵活的,可变的。讲到这里,大家明白了吧,如果企业最求管理价值的最大化和业务发展的匹配度,那最好的办法就是通过管理流程的实施和管理流程驱动团队的设定来实现,一方面保持企业管理具有足够的灵活度,另一方面又在灵活的基础上保证企业稳定的发展。这就是为什么做IT服务管理(ITSM)或者ITIL项目时,需要在实施管理流程的同时设立相应的管理模块团队,保证管理流程的顺利实施。
再说说工具层面。所谓工具实际上指的的通过技术层面的提高去提高运维的能力和水平。例如使用堡垒机来保证运维相关账号和权限的安全,通过监控来保证对数据中心业务各个层面(OS、DB、中间件、应用、网络、存储等)的监控,讲一句口号就是"全监控、全覆盖"。这种技术层面的实施可以保证运维的稳定性和运维效率,确保运维符合业务发展的要求和行业或监管部门的要求。技术层面和管理层面最大的区别就是在"人"上!综合监控算是企业中实施比较复杂的项目,但也基本上就涉及到运维部门的相关人员,和其他部门没有关系。但是如果实施ITIL项目,那涉及到面就广了,不仅运维要参与,研发部门要参与,测试部门要参与,财务部门要参与,后勤管理部门要参与等等,将来ITIL项目上线,各个部门的都要使用。所以管理层面和技术层面最大的区别就在"人"上,因而难度也在"人"上 。以监控项目为例,实施时刚开始难,因为管理员对这个东西一开始认识不清晰,不了解,所以难,但一旦了解后,速度就加快了,结项也好结;流程项目相反,做前期流程概念宣贯的时候,大家基本上都你好我好,但一旦管理上的改变涉及到具体的人后,那这种反作用就大多了,开始好开,但想结项就难了,我见过的流程项目没有一个不延期的。所以无论是甲方,还是乙方对于项目的不同特点,一定要了解,心里做好预案。忠告一句,在实施管理类项目时,尽可能不动管理架构,多使用临时性的管理组织来减少对现有人员的压力!
最后说说业务。企业基本上不是卖产品,就是卖服务,或者这两者都卖。但无论卖什么,我们运维存在的价值就是保证业务的稳定发展,不出什么幺蛾子。现在云时代已来,虚拟化成为我们企业数据中心发展的主流。虚拟化的到来,实际是硬币的两面。一方面提高了企业运维的灵活度和弹性,但另一方面也对运维人员提出了更高的要求,不仅要了解传统的业务系统,还是了解虚拟化的特点和架构。有些人在讨论虚拟化对运维的影响,我的看法是,虚拟化和云的到来,减少了运维人员的数量,但是增加了运维人员的质量和难度。
聊了这么多,能帮到我们什么呢?从这四象限来看,运维是个整体,环环相扣。我们做了管理制度和管理架构的调整,就能很大程度上提高运维能力吗?不一定,因为工具层面会限制管理制度的先进性。例如我们不做全面的监控,那我们可能大多数情况下,只能人肉监控,无论是从监控的全面性,还是监控的实时性都差的很多,这种情况下,事件管理流程会忙的不可开交,而且很容易就进入紧急状态,人员都会疲于奔命,这时候有人会进入问题管理流程,深入探讨系统深层次问题吗?反过来说,只做工具层面的事,不做管理制度的调整,能提高运维水平吗?答案也是不能。监控项目完成后,会有大量的监控告警事件产生,需要管理员处理,没有事件管理流程,不做事件分级,那你去看吧,运维的人将会不堪其扰,根本就处理不过来,最后等所有人都疲了的时候,就是监控系统弃之不用的时间了。所以我们在做任何运维调整的时候都要考虑其他象限可能产生的影响,进而在项目前将这些影响考虑进来,免得到时手忙脚乱!
最后简单说一句:一动不动,一动全动!