内外双修,人剑合璧——IT运维人员的九阳神功(大结局)
星期三, 七月 22, 2020
继续运维的话题。软件硬件日益复杂,运维人员压力山大,那么几十年以后,数字化世界会变成什么样子呢?看张图:
这是电影《异型:契约》的画面,飞船Covenant搭载2000名乘客飞往外星球,行程几十年,只有一个机器人船员。这是人类的理想,在未来世界里,庞大的系统不再需要人肉运维,硬件和软件都能自己照料自己,出了什么故障自我诊断、自我修复,世界大同。可是现实却是:
好吧,理想还是要有的,早晚能实现。为了理想,我们要努力再努力!
浪迹IT江湖三十年的融哥,今天带大家修炼九阳神功的最高三重。
这一役中,凡赴水阁饮宴之人,除了张无忌有九阳神功护体、诸毒不侵之外,所有明教首脑,无不中毒。——《倚天屠龙记》
无论硬件还是软件,不出故障是不可能的,农民伯伯一锄头就可能挖断光缆,造成大片系统故障。程序员的一次粗心,也会造成软件系统在某种情况下失灵。所以关键不是不出故障,而是怎样预先做好充分准备,在故障出现时迅速解决,不让故障给系统造成太大的毒害,所谓练就内功、百毒不侵也。
某天早晨,银行接到客户投诉,大量客户在使用APP转账时出现交易失败,问题在哪里?是网络有问题?还是转账系统有问题?随着IT架构越来越庞杂,一次请求往往涉及到多个服务,有可能分布在几千台服务器上,横跨多个数据中心。为了看清交易整个流程每个环节的性能表现,以业务为中心、端到端部署的全链路性能监控需求由此产生。
我们可以看到,这里有手机银行WEB、手机银行App、手机银行F5、ESB前置(只聚焦手机银行的内容),包括后面的ESB、核心、理财、数据库,都是手机银行相关板块。
从这张图可以清晰地看到,故障是因为理财平台的延时过大导致的,整个业务路径上,都出现了告警。可见,有了全链路视图的帮助,判断分析问题时就可以顺藤摸瓜、一目了然。
这人是崆峒五老中位居第四的常敬之。他一拳命中对方要穴,见张无忌浑如不觉,大感诧异,冲口而出:“你⋯⋯你已练成‘金刚不坏体’神功。——《倚天屠龙记》
练成金刚不坏功,就像悟空的铁头经过八卦炉的锻造,任你刀砍火烧岿然不动,这当然是运维人员的最高追求。
如前文所说,既然故障的发生不可避免,运维人员的最大任务就是当故障出现时,尽快定位和解决问题,恢复生产,尽可能缩短MTTR(Mean time to repair,平均修复时间)。简言之,就是快定位。
很多运维产品在设计时,缺乏对运维工作的深入理解,结果在使用中变成了花架子,不出事时看看大屏挺漂亮,一旦出事却无法快速解决问题。所谓快定位,关注的是能否真正帮助运维人员缩短MTTR、提高效率,这才是衡量运维产品是否有用的金标准。
要做到快定位,练成金刚不坏之身,需要综合运用前面所修炼的各项武功:
通过轻告警,准确而及时地向用户发出警报,提示系统发生了性能劣化或者故障,让用户第一时间听风辨器,启动处理流程。
通过全链路,快速定位故障发生的部位,并掌控故障影响的范围和路径。
通过微监控,深入钻取故障出现的参数和场景,准确发现哪些系统或部门需要采取措施处理故障,及时通知有关人员处理问题,启动应急响应流程,排除故障,恢复系统。
通过完备的日报系统,观察每天系统运转情况,全面掌控业务运行的整体态势。
正所谓运用之妙存乎一心,当你修炼到第八重,八重功力已经在体内锻成一体,达到统合综效的境界,各种手段信手拈来运用自如,再复杂的系统也可以从容应对了。
那胖僧运劲于臂,猛击张无忌胸口,正打在“膻穴”上。张无忌的九阳神功……不但将敌人打来的拳劲反弹了回去,更因对方这么一击,引动了他体内九阳真气,劲上加劲,力贯力,那胖僧立时便即毙命。——《倚天屠龙记》
这九阳神功的最高一重境界,就不是一般人能达到的了。
从目前基于人力的运维到未来机器人开飞船,当然相隔千山万水,需要科技方面的飞跃和无数人的努力,短期还做不到,但有一个领域已经有了巨大的突破,初步成果已经显现,那就是当前热点话题——AIOps,或者叫智能运维。
回顾历史,早期的运维工作大部分是由运维人员手工完成的,被称为手工运维或人肉运维。这种方式在互联网业务快速扩张、人力成本高企的时代,难以维系。
自动化运维因此应运而生,基于用可被自动触发的、预定义规则的脚本,执行重复性的运维工作,从而减少人力成本、提高效率。
但随着IT系统日益复杂,以及服务类型的复杂多样,基于人为制定规则的专家系统逐渐变得力不从心。
AIOps随之横空出世,它不依赖于人为制定规则,主张由机器学习算法自动地从海量运维数据中学习,不断提炼规则。基于机器学习的大脑,指挥监测系统采集大脑决策所需的数据,做出分析、决策,并指挥自动化脚本去执行,从而达到运维系统的整体目标。
不是由人设置规则处理数据,而是由算法自动从数据中学习规则,就像乾坤倒转、反噬金刚。当然我们不希望有一天AI太聪明了反噬了人类。
如图,AIOps系统的建设当然不是一蹴而就的,目前还处于初期阶段,要不断进阶,逐步达到减少甚至取代人力的目标。
很多企业已经开始尝试在系统运维中引入AIOps的理念,在一些环节上利用机器学习来提高效率,降低对人力的要求。
它的告警维度推荐功能就应用了AI技术。通常告警是对一组交易指标异常的反映,但具体是什么因素引起的,例如是某个渠道、某种业务、还是某个主机异常,还需要人为定位分析,在处理告警的应急状态下,人为排查非常费时费力。
就可以从历史运维数据中自动发现规律,自动向用户推荐可能的告警维度,大大减轻人的工作量。
上图就是一个真实故障发生时,系统自动推荐的告警维度,自动发现了对方系统和交易类型,整个故障从告警发生到验证,只用了30秒,对方也在20分钟内解决了此故障。
至此,融哥带大家游历了九阳神功的九重境界。
最后多说两句,无论九阳神功还是倚天宝剑,都必须在内功深厚的人手中才能发挥效力。运维管理系统只是工具,必须与经验丰富的人、完善的管理制度相结合,才能保障IT系统稳健运行。人在不断使用运维系统的过程中,也会反哺运维系统,让它日益强大。内修武功,外磨利器,人剑合璧,方能立于不败之地。
这,才是九阳神功的真谛。
说明:文中电影剧照
来自93版《倚天屠龙记之魔教教主》
华青融天(北京)软件股份有限公司成立于2007年,是一家以“发现看不见的价值”为使命的科技公司,华青融天通过将人工智能和大数据技术结合,以应用性能管理、安全运营产品、业务洞察产品及解决方案为核心业务,广泛服务于各个行业,致力于成为AI技术驱动下的智能运维和安全运营领域的领导者。