地名: | 区域代码: |
镇级街道: | 区域代码: |
区县级市: | 电话区号: |
所在城市: | 邮政编码: |
所在省份: | 营业时间: |
城市代码: | 所属商圈: |
车牌号码: | 电话: |
所属类型: | 地址: |
今天咱们说说宕机的故事,怎么样,这个话题够新鲜吧,来随我往下看。其实自从有了互联网,宕机的事儿就一直有,区别只是影响的大小与损失了,一个明星产品一旦出现次宕机,影响与损失都是十分巨大的,不光是经济上的损失,口碑,名气与在用户心中的形象都很受影响的。你看微信自从掉了两次链子,许多人都对腾讯运维水平表示出了怀疑,这对于腾讯这种量级的公司这个影响是很大的。当然无数的运维工程师前仆后继,继往开来,一直致力于减少极端突发情况的出现,减少宕机引起的损失,但是,直到现在为止,没人敢保证系统百分百不出问题,毕竟这世上貌似还没有永远不出问题的东西,我们只能在各个层面去减少发生的概率了。
下来我们来看看几次重大的宕机故事:
亚马逊云平台宕机(原因:机房掉电)
2012年6月15日亚马逊北维吉尼亚的数据中心遭遇停电,由此导致亚马逊网络服务AWS中断约6个小时,影响波及亚马逊弹性计算EC2、亚马逊关系数据库服务以及亚马逊弹性魔豆AWS Elastic Beanstalk。北维吉尼亚数据中心是亚马逊使用最久的数据中心,在2011年以及今年10月都曾发生过宕机事故,导致用户信心流失不少,这对于依赖亚马逊云平台的客户来说是很无奈的,我也深表遗憾啊。
2011年7月11日下午2时,著名的旅行网站艺龙突然无法访问,此后连续二十六个小时,用户纷纷表示无法访问网站,首页均显示系统正在升级。后来证实是存储系统出了问题,导致整体服务停止,系统宕机。因为这一场事故,艺龙蒙受了巨大的客户流失,为此花费了大量维修成本。事故缘于EMC存储设备,但就其根本,据说是艺龙本身的存储架构不完善,才导致了如此长的修复时间。由于存储灾备的不完善,备份没有起到应有的作用。否则EMC出现故障,也不至于宕机26个小时。
2010年1月12日全球最大的中文搜索引擎百度公司网站瘫痪,全国各地有大量用户无法登陆百度。随后百度工作人员发出了邮件公告,称百度此次瘫痪事件是因为百度域名遭注册商非法篡改,以致网站无法正常访问,此次宕机事件是REGISTER.COM的程序有漏洞,导致百度的DNS服务器和whois信息被强行修改。
今年7月22日,微信曾发生大规模故障无法正常登录,时长7小时。后来微信官方给出原因“市政道路施工导致通信光缆被挖断”。6月24日早上,部分用户登录公众平台时发生故障;6月22日下午,又有不少网友反映微信公众平台后台无法实现跳转;6月20日,网友称微信公众平台等服务页面大面积瘫痪。8月20日的这次宕机,已经是第五次了。
当然还有许多其他的原因,比如技术人员操作失误,受自然灾害影响(雷击,地震),各种奇葩原因都有吧。当然夏天也确实是各数据中心容易出问题的时候,温度高会加速设备老化,一般来说面对宕机问题主要是从两个大方面着手,一方面是预防角度,比如控制机房温度,环境,让机房温度合适,灰尘少,定期检查设备日志,不出现松动,及时更换易损器件,多机器数据备份等等,另外一个角度是灾难恢复,主要是抢修问题,数据恢复等等,缩短宕机时间就是减少损失。
平常心态对待:
特别要说明的是运维工程师不容易,经常半夜要爬起来处理问题,历史君的一个朋友就是搞运维的,作息时间经常与我们是相反的,因为好多维护工作要在夜深人静用户量很少的情况下做,同时,需要面对随时可能出现的各种棘手问题,真心不容易啊,宕机是很正常的事情,就像一个马路上裂个缝有个坑,路政人员就要赶紧过来抢修,这对我们来说都是司空见惯的事情了,现在很多人都关注宕机事件,我想是因为现在人们更加依赖于网络,依赖于一个互联网产品,互联网对于我们来说已经上升到了一个很密切的高度,因此出现一次问题,我们会很不习惯,会接受不了,但是,请记住凡事都会出错误,正是因为不完美,我们才去想方设法让世界更加美好,因此历史君想说,让我们用平和的心态去对待每一个产品,让我们与它们一起成长!