[运维] 第二篇:数据中心运维IT运维项目建设之我见
运维项目千千万,今天重点讲一下IT服务管理的项目,也是在过去几年各个企业数据中心都在建设的东东:ITIL、综合监控和运维自动化。先看ITIL逻辑架构图:
这是根据ITIL最佳实践理论和企业运维实际结合的ITIL逻辑架构图。最底层是基础架构管理层,在架构管理层运维人员通过人肉或工具对IT环境进行管理。综合监控平台的建设基本上在这一层,综合监控平台的目标是"全监控和全覆盖"(关心综合监控的朋友可以看我其他的监控帖子)。监控的核心是什么?综合监控管理平台。通过综合监控管理平台,将IT环境中的各个管理工具产生的事件信息进行统一采集和处理,重要的告警事件将发送到IT服务流程平台上,进入事件管理或者工单管理流程中进行处理。需要通过基础架构管理层往上送的数据还有性能数据和配置信息。CPU利用率这类的性能数据可以做ITIL中的容量管理,配置信息可以送到配置管理模块中,成为CMDB数据源的一部分。说到这里,基本上还是技术层面的事情,在往上就是服务管理层,这更偏重于管理方面。在服务管理层,根据ITIL最佳实践,或者ISO20000的要求,通常建设事件管理(服务台属于事件管理一部分)、问题管理、变更管理、发布管理、配置管理等。最上层是统一展现层。看到统一展现层,大家会发现缺少服务管理层相关的模块。这里面原因有两个,一个是这张图是我08年时做的,有点老;另一个原因是我在实际的客户现场,通常看见的是监控和流程是两个界面,并不互相统一。但是两个界面是不是就意味着没有关联吗?不是!两个的关联更多的是体现在后台和其他方面:
1 单点登录
2 事件在监控平台和流程平台中的运转应该是一个闭环。也就是事件触发工单,当工单解决后关闭,那在监控平台上的事件也应该被关闭。
3 监控数据的流转,主要是告警事件、性能数据和配置信息。
4 运维大屏全面展示业务的运行状态和工单处理情况。
图上还缺少运维自动化,当时业务高速建设时期已基本结束,开始进入运维建设时期,运维自动化还没有进入主题,所以就没有画。再看一张全的图:
这是2010年做的运维建设架构图,那时建行开始建设运维自动化项目,选型搞的沸沸扬扬,IBM、BMC、HP全力出击,测试进行几轮,逐轮淘汰,在业界影响很大,更多的运维人员了解到原来运维自动化工具能给我们的运维带来这么大方便和价值!在那之后,光大银行、中信银行、招商银行等都开始建设自己的运维自动化平台,当然各自选型都不一样。国产运维自动化厂商也走上舞台,更接地气、更灵活的特点也使得他们的产品进入实际项目落地的阶段。理想、神码、宇信易诚等都各自在自己的视野内开疆拓土!例如神码和宇信在券商的舞台上你死我活,这就不多说了。
下面谈谈我对运维项目落地的一些理念。首先是一句话"看大做小,分步实现"。什么意思呢?做事先看全局,看清楚后在落子,落得时候小心翼翼,一步一步的实现自己的规划,有一张图,大家可以借鉴一下:
客户想实施运维项目时,通常有一个困惑,我到底是先做监控,还是先做流程,或者两者都做。根据我的实际经营,这几种都可以,都有成功的经营,也都有失败的案例。这不是废话吗?还真不是!企业在运维项目落地之前先要搞清楚自己企业的实际情况,再结合预期要实现的目标、项目成本等,制定自己企业落地的路线图,以及近期、中期和远期目标。比如我企业监控已经做了一些了,但还不够全面,那就可以做监控;我企业服务流程已经有了一些在运行,只是不够成体系,那就可以做流程;再或者我企业近期希望可以将运维能力和水平体现出来,那就可以做ISO20000和ISO27001等,不一而足,没有一定之规。但是不管那条路,都有一些基本原则要遵守:
1 可以先考察同类型企业运维建设情况,所谓取经
2 细致了解自身运维实际情况,选定可行的项目范围和目标,所谓知彼知己
3 选择有丰富实施经验和实施人员的公司协助企业建设运维项目,所谓知彼
4 发动更多的人参与到项目中,尤其是领导,有领导的支持,可以事半功倍,所谓上级支持
咱们这篇文章只是大致聊聊,真正的故事要比讲这些经验有趣的多,好玩的多!以后有机会再聊!