公司新闻

【2018亚太数据中心峰会】杨志国:应急管理在银行业数据中心的策略与实践

作者: 发布时间:2018-05-16

在过去的2017年,亚太地区的数据中心市场增速接近15%,领先于全球其他主要地区,与整体经济增长水平保持同步。区域内多元化的经济体发展特征使各国数据中心市场形成了鲜明的差异,以香港、新加坡为代表的成熟市场保持稳定增长,而以印度、印度尼西亚、为代表的新兴市场则呈现出强劲的增长动力。

2018年5月15日-17日,由中国IDC年度大典组委会主办,、CloudBest承办的"2018亚太数据中心峰会"在深圳盛大召开。

5月17日,"2018亚太数据中心峰会"正式召开,中国银行数据中心副总经理 杨志国在现场进行《应急管理在银行业数据中心的策略与实践》精彩分享。

283516075719232663

中国银行数据中心副总经理 杨志国

以下为演讲实录:

杨志国:在座的各位朋友们好。今天正好有这么一个和大家交流的机会。在座的可能都是IT界的领导或者专家,我今天正好给大家分享一个经验,银行数据中心怎么运维,刚才讲了很多智能化和人工智能最前沿的技术理论和大家有些分享。我们有两条路要走:一是传统银行怎么运维,我们要赶上智能化、数字化运维。做智能运维没有错,但是不能落地,不能落地就飘在空间。现在做了很多数据中心,但是怎么运维确实是摆在我们面前的一个难题。现在IDC发展很快,但是我们也有血的教训,现在一些IDC投入运营以后,很多IDC会宕机、火灾,包括运行过程中动作不规范、方法不对头,造成整个数据中心的宕机。比如2015年有一家IDC在零件进行更换的时候,造成所有系统宕机。这带来很大的调整。数据中心怎么运维是我们要考虑的问题。

现在数据中心的特点有这么多(见PPT),据我统计,数据中心现在有43万个,小到10平米的数据中心,大到10万平米的数据中心都有了。数据中心怎么运维?它的规模很大,大家都知道,一般我们衡量数据中心多大不是看面积有多大,面积不能算,而是看交易量有多少。现在我们国家的超大数据中心很大,以前每天的交易量是3亿笔,现在已经到6亿笔,中国已经成为第二大经济体,大,就说明业务发展快,业务的量也大。现在一般的银行,工农中建这样的银行的交易量都达到6亿笔左右,大家算一下每秒有多少笔。这样的银行就是超大数据中心。比如德意志银行,我和他们交流过,他们的交易量是2-3亿笔,中国的工商银行、建设银行、农业银行、中国银行的交易量都超过6亿笔,高的时候达到10亿笔以上。你要保证它每天、每秒的交易不中断,对我们银行是一个挑战。

银行业的数据中心面临很大的趋势,特别是新兴业务的发展,必须要去做一些改变。有传统银行,我们也有新兴银行,互联网业务发展很快,给银行的数据中心运维带来很大的挑战。我们一直强调数据中心,首先是当CIO或者CEO,你要考虑你的数据中心是活的,不能是死的。如何活着?如何活得更好?下面有些解释。左边要活着,右边要活得更好。应急管理,我们的策略在左边。我在书里面,可能今天结束以后有一个奖励,会奖励一本书,是我刚刚出的书,是《应急管理在银行数据中心的策略与实践》,前年也有出一本书,里面有很多难点的问题。为什么体现效率和效益?银行也有一个运维总成本,我们叫TOC,也讲究效率,没有效率的运维是不行的。你作为银行要安全、稳定、可靠,这是你的基本条件,你怎么做到安全、怎么做到稳定可靠?比如你是2+N模式。快速、有序、有效,怎么做到?银行交易达到6亿笔,你停1秒,损失多少交易量?来了故障或者事件,怎么做到有序、有效解决问题,这是我们合作的基本条件。你作为数据中心的老大,这点都做不到,那就没有办法做到老大。这么多数据中心,怎么做好运维?数据中心不光是花钱,现在绿色数据中心,自动化运维,就是体现效率和效益。这个方针是我数据中心35年的心得。

我们还有一个心得,作为数据中心,我们要建立制度,他们说制度要不要?肯定要,制度管人,制度是死的,人是活的,制度不执行,同时要流程分责,流程中分责,各个流通打通,包括配置管理,这些流程必须在每个环节都有分责任,分完责任有角色定位,角色定位好了以后有标准做事,所有数据中心都有标准,有事件监控的标准,按照标准做事,加上自动化的工具,这是数据中心管理的体系。今天我讲的应急管理也是其中一个方面。

数据的基本概要、管理、要求。结合这样的情况,我们怎么做应急管理?这本如果有运气的,前面50本可以拿到,没有的就去网上购买。应急管理的重要性,这不是数据中心的实例(见PPT)。今天的市场瞬息万变,911事件之后,有一家银行做了很好的应急,有些银行没有做应急,就破产了。应急管理是速度快、范围泛、影响大,应对要求高等特点。这是数据中心的应急管理。

为什么讲这本书?这是我运营35年的经营,把精华提出来,给大家方法论的帮助。对象是银行数据中心的管理者、管理人员、技术人员,包括进行研究的人员。我们怎么去提升大家管理的意识,日常管理的工具和方法,这是很重要的东西。书分了11章,最重要的有几章,特别是第七章,主动性维护,还有应急场景与预案,还有处置及启动,这些章节都是很重要的,大家可以看一下。

数据中心应急管什么?基础设施、系统、外部、其他操作和网络攻击,这是我们要管的东西。我们怎么管?我们是以目标为导向,去创新构建管理体系,推进落地咨询。这是我们的管理策略。它管理的目标是哪些?总共6个字,快速、有序、有效,这是做应急管理的精髓,怎么做到快速、有序、有效?有效是说预设应急预案的有效性,我在银行做了1800多个预案,涉及到基础环境、设备、网络、系统、应用等方面有1800多个预案,这些预案必须做到有效,我们做预案的条件是说,比如UPS坏了,坏了之后有预案,这个预案要有效,不能摸脑袋。现在运行过程中我们往往是摸脑袋,不能没有预案,没有把预案做梳理。网络现在的带宽是99.9受到堵塞,不能对外进行系统交易,怎么办?你一步、二步、三步清洗。我们做的预案是有效的。然后有序,现在岗位是制度化的,内部协作是流程化的。发生事件以后,发生30分钟的连接故障要上报,我们都要在30分钟内,RPO在30分钟内恢复交易,所以你要做分析、判断以后要快速、有序、有效。

应急管理框架,怎么做应急管理,应急管理的框架,包括前面的预案到应急演练到应急响应、应急处置到分析根据和人员等,制度规范、标准等方面全部都是应急管理的精髓。管理框架,管理思路是什么东西?事前、事中、事后,必须强调事前、事中、事后的控制措施。第七章主动性运维很关键,主动性运维是把所有的事件通过全面的分析,故障还没有发生,要把故障消灭在之前。重启动作是我们消灭很多故障的手段,要进行大数据日志的分析,判断部件是否失效是很关键的。最高理论是主动性遵循运维的理论,说实在的我提了多少年,作为数据运维必须要主动运维做这个东西,那就是说在事前要做,事中要快速有效,事后得出经验,不断的优化应急预案。

组织架构,我们有指挥层、执行层、保障层、应急支持小组,这都是重要的关键步骤。外部的支持,有很多产品不是数据中心所运维的,比如买IBM的主机等,这些外线支持很重要,他们也要建立一套整理的支持体系。应急过程中,我们怎么处置是很关键的,我们提出了三大纪律、八项原则,一切行动听指挥,发现问题要马上报,处置问题不推诿。数据中心运维以后要有总的指挥老总,就是说这些大事都要由他完成。八项原则,首查监控、关联变更、回顾历史、以我为因、联动后线、并行处置、恢复优先、信息共享。恢复优先是我非常有心得的,数据中心出现问题,要能解决,解决有什么手段?应急恢复三板斧,很管用。第一条就是重启,很多交易堵塞,重启后释放出来一些资源。当磁盘空间不够,马上找人。还有隔离,因为咱们的主机都是引入方式,把它隔离好系统就会恢复。这样的问题按照我的经验,基本上85%的问题都在三板斧可以解决。

这本书是我自己的,我自己好好看了,这本书我第一次拿到出版物,我自己看的时候觉得确实有道理。

我们要建立基本管理模式,当值经理专职化、事件经理双岗加固、重要___保障、运维培训,搞过数据运维就知道这些点有多重要。

基本管理,建立服务请求关联升级,智能筛选,大量自动运维和智能运维在里面,这些都是采取人和智能分析,这些东西是否要和我们的应急管理匹配,还有沟通机制。我们要建立很多的管理规范,大家知道数据中心有五步走,给大家一个经验,今天的数据中心估计还远远不够,数据中心开发了5个阶段,第一阶段是标准阶段,标准化是一个阶段。标准化完了以后要建立数据中心的流程化,流程化管理,流程之间打通。后面要建立平台化,平台化是数据中心的比较好的飞跃,必须做平台化,所有运维做起来,流动平台、智能化监控平台,配置管理平台等等都是平台化。四是自动化,数据中心大量停留在平台化上面,自动化做得不是非常好。以后我们再实现数据中心的智能化和注册化运维是我们的目标。我们要管理规范、秩序标准等等都告诉大家怎么做运维。

7×24小时制度怎么做的,这些标准怎么定下来的,怎么组织处理的,这些都是很关键的。

还要分级来完善,哪级多长时间,按照级别管理。

应急场所,包括显示和自动化的IP电话、虚拟云桌面都是我们做应急管理的主要场所。

基础设施,监控的场所,应急指挥所,都是我们做应急最主要的场所。

还有测试演练场所、技术分析场所等,这都是必备的。数据中心没有技术分析场所、没有测试演练场所,没有判断应急管理、应急的东西是有效还是无效。

主动性运维、应急预案是相辅相成的方面,它是围绕信息安全程序去进行实施的,萌芽阶段,我们做组织运维,把所有的故障消灭在事件爆发时,通过主动运维以后应该把数据中心的高等级事件和故障挡掉75%到85%,到应急预案以后就已经来不及了。所以说应急预案和主动运维里面有一个CCR的理论,那就是说怎么做大数据的分析,主动运维以后,把问题消灭在部件没有坏。这套理论出来以后,我们认为技术框架比较适合我们数据中心运维的工作。

应急预案,这么多组件都要做应急预案,我们做了1800多个应急预案,应急预案有效,达到95%以上有效。

同时做好应急预案以后,光有流程管理制度方法论还不行,我的观点是把所有应急预案都要平台化,有应急预案平台、有应急协作平台,还有流程平台,流程平台是把所有的事件全都打通了,所有的电子信息,不会进纸制信息。所有的流程都是通过APP到手机上,通过你的办公电脑流程化,把所有的流程打通,不管是事件到服务流程到应急管理的一套流程全部打通,这样快速有序有效去处理所有应急管理问题。工具建设,就是工具化智能化建设不能隔离开来,只有把所有应急管理建立在平台化上,采取自动的手段和智能的手段,才能把应急手段做到最快。以前我们做应急管理是这样的,应急管理的理论执行以后,解决问题平均时间超过50分钟,通过这套理论建立起来以后,我们的时长降低到25分钟之内,降了100%.你的应急管理体系是有效的,大家千万别忘了有效性。应急管理是为了保证数据中心快速有序有效解决它所有问题,这才是我们的关键理论。

5月8-10日在成都召开了一个会议,我在上面讲了银行数据中心数字智能运维转型的问题,也是为了转型,为了应急管理,还是为了快速、有序、有效的解决问题。所以应急管理工作是数据中心最关键的一环,你要活着、要活得更好,必须把这些问题解决好。

把常态应急管理和非常态应急管理结合起来,使事件尽量不转化为突发事件或小事变大事,最大限度化解不和谐因素。应急管理是要持之以恒,不断改进。现在讲了很多智能运维,智能运维的可靠性就是要建立在这些应急管理的基础上,没有这些数据的采集,做应急管理没有效。智能运维就像一个士兵说,大炮只能解决面上问题,解决战斗还是要步兵。真正的精准化运维还是要靠我们的经验和应急管理,没有经验的运维肯定不行。

时间有限,下面还有活动,我在这里不太精讲。那本书里说得很好,好好看一下,对大家会有帮助。谢谢大家!

收缩