转眼十多年,这场全民参与的最大规模消费盛会,见证了人们消费习惯的变迁,也见证了移动互联网崛起、技术创新变革、消费结构升级,企业数字化转型等多方面的巨大变化。
回想历年参与的“双11”,你是否和小编一样,有过商品加不进购物车,或者下单拥堵,付款失败的经历?
而现在,似乎很少再遇到这样阻碍「买买买」的情况。是什么保证了数亿人可以同时清空购物车?直播间那么多观众,是什么保障了视频播放的流畅度?
带着这个疑问,小编成功围堵了刚下火车的运维小哥。下面就与小编一探究竟,看看参与「护航」的幕后保镖是如何度过他们难忘的“双11”。
对剁手党来说,“双11”从预售活动正式开始;而对很多企业来说,早在好几个月前就已经开始筹备这场大型购物“狂欢”。用户,消费者看到的“双11”只是商家的优惠促销,而对于我们来说,看到的往往是数据中心,业务系统,应用运维的稳定性和网络的高效性。
“双11”对于大部分企业来说非常重要,活动当天的流量会是日常的数十倍以上,如果说“双11”是一项浩瀚的工程,一点也不夸张,企业需要投入大量的人力物力和精细的施工计划才能完成业务目标。
任何企业都不会允许活动期间业务系统出现任何差池,客户对我们的运维护航既有高要求也寄予厚望。
我们的职责就是保证业务系统在高压高并发的场景下仍然可以维持正常的运转,为业务目标的顺利达成提供稳定性保障。
其实做好护航,功夫在平时,做好日常的维护优化和活动前的模拟演练,就能大大降低各种意外故障发生的概率。
在大促护航前,我们进行了多次实战演练,不放过任何风险。在核心业务系统上跑了无数次压测,构建集群,优化系统,做流量控制。
对每个业务环节的实现细节抽丝剥茧,针对核心的资源指标配置监控大屏和实时告警。
在压测过程观察对比业务系统整体资源情况,分析性能瓶颈是在系统,在应用,还是在后端数据库。反复优化,对必要资源进行扩容,控制整体资源使用率在安全的水位线以下。
即使前期的准备工作再充分,活动当日系统仍然有意外崩溃的风险,安全策略与应急预案是必不可少的,我们的工作,就是全力以赴,把这种发生风险的机率无限降低趋近于 0。
针对可能发生的故障,我们按照应急处理预案内容,进行了全面的模拟演习,以保证突发情况可以有条不紊地进行处理。
当时监控显示数据库的活跃线程数相对较高,经过快速排查,定位主数据库实例实时会话中存在执行效率低下的报表查询SQL。
为了避免低效SQL占用数据库资源,从而影响正常活动业务,我们立即与开发同学确定了非活动相关SQL,进行干预,中断执行。
经过及时抢救,避免了业务上的损失,看着业务目标的顺利达成,心里的一块大石头终于落地。
大促活动结束后,首先需要及时进行资源回收,在保障业务系统平稳运行的前提下对扩容的服务器,数据库等资源进行缩容操作。
我们也会对活动期间整体资源消耗做复盘总结,形成详尽的分析报告,反馈给业务方进行优化调整,协助客户完成系统的改进优化。毕竟“双11”过去了,“双12”也不再遥远。
虽然已经连续多年护航,对客户的业务也很了解,但是每次护航,对我们来说都是一次新的挑战。历史最好的成绩是下一次活动最低的要求。
数亿人买买买的背后,其实体现的是技术的进步。我们只有不断地学习进步,才能更好地做好护航工作。
运维小哥自嘲:“面对护航的压力,搬砖的手都瑟瑟发抖,但在现场和客户一起看着大屏上的交易数字不断变动,也会感到小有成就。站好最后一班岗,护航任务才算彻底完成。”
小编顿时觉得每一个包裹都变得高大上了起来!回想起凌晨付款,清晨快递已经楼下!这堪称神速的背后,离不开无数像云掣运维小哥一样的工作人员的努力付出。
云掣在多次的护航经历中,不断突破和提升保障能力的上限,对客户的每一次承诺都是对自己的严格要求,可靠保障的背后是每一位运维人的坚守,是每一位运维人员的及时响应。让我们向此时此刻仍奋战在一线的工作者,致敬!