期间领导也开始动用各种关系 - 联系方式 - 新余市思创暖通工贸有限公司
现在的位置: 主页 > 联系方式 > 文章正文
期间领导也开始动用各种关系
作者:新余市思创暖通工贸有限公司 来源:www.jxsichuang.com 发布时间:2018-10-25 18:03:34
记一次惊心动魄的 DNS 缓存引发的惨案 640.jpg

但是到了早上点 8 点,越来越多的用户反馈官网无法打开,并且有部分用户开始反馈 App 也打不开了,客服打电话叫起了还在梦乡中的我。

分析定位

被客服叫起来之后,我一脸懵逼,不知道什么情况。然后给客服回复,知道了,立刻排查,待会有消息及时沟通。

用凉水洗了一把脸清醒了一下,立刻根据经验回忆这两天生产投产的情况:上线了 XX 模块,不影响;修复了 XXBug,应该也不影响;刚给服务器配置了 https,看起来好像有点关系,但是 App 暂时没有投产 https,不会出现问题,排除之。

打开电脑核查了最近的投产记录应该都不至于发生这么严重的问题,随之怀疑是不是网络方面有问题,立刻打电话叫起来运维经理以及相关人等一起排查。

一边让网络和运维排除问题,一边再次核查了 Web 服务器、数据库服务器、业务日志、数据库日志,以及其它的一些监控数据,各项皆正常。

试着在本机 ping 了一下域名确实不通,更加怀疑是网络问题,尝试着直接使用外网访问,可以打开没有问题,可以基本确认服务没有问题,但运维部反馈网络设备什么都正常,肯定是你们投产代码出问题了,各方硬着头皮继续在排查。

9 点,群里开始有大规模的用户反馈官网和 App 都打不开了,更有部分用户煽动,XXX 公司跑路了(2015 年很多 P2P 公司跑路,导致用户都成了惊弓之鸟,稍微有问题便害怕公司跑路,个个都锻炼成了监控高手,天天看,实时刷,凌晨起来尿尿也都顺便看一下 App 上的今日收益),客服 400 热线基本被打爆了。

一边继续排查问题,一边上报此问题给总监、公司各高管,给客服建议,给用户解释,IDC 机房网络抖动,技术正在紧急解决,资金和数据都没有任何影响,稍安勿躁。

10 点,开发和运维反复的检查后,开始怀疑 DNS 解析有问题,但具体是什么问题还不清楚。

于是 CTO 决定:

大家都打车往公司走,来公司集体解决。

在各 QQ 群、微信群给用户群发解释 xxx 问题,安抚客户。

在车上的时候重新梳理了一下用户的整个访问流程,如下图:

记一次惊心动魄的 DNS 缓存引发的惨案

到公司后,根据这个思路大家在一起验证了一下,通过外网 IP 和内网 IP 访问公司所有服务都正常,但是通过域名访问不行,另外监控服务器、防火墙、网络设备日志都正常,因此断定是 DNS 解析出现问题。

攻坚问题

既然确实是 DNS 解析问题,那么问题又来了?为什么 DNS 解析会出现问题?如何去解决这个问题?

一边给万网提工单,我们也自己测试一下电信、移动、联通在不同的网络运营商下面的访问情况,发现只有在联通网络的环境下 DNS 解析不了。

根据客服得到的反馈也验证了这个情况,电信和移动用户反馈很少,联通用户反馈最多。

于是我们又开始给联通打电话,刚开始联通不受理我们的这个请求,于是又开始以用户的身份打电话给联通公司让立刻解决不能上网的问题。

于是就开始了万网和联通的扯皮大战,万网说从他们那边查看 DNS 解析都正常,一切指标都正常。我们又给联通打电话,联通说我们已经知道了,待会由专业的人给我们回复。

过了一会联通的网络工程师回复说,像这种情况一般都是域名解析的问题。早上 10:30 到公司开始短短的 6 个小时内,我们几个轮流给联通公司合计共打了近 50、60 通电话,给万网提了 N 个工单,接了 N 个电话。

期间领导也开始动用各种关系,联通内部的朋友、网络运维界的大拿帮忙来定位解决,我们也尝试了很多的办法。

比如,使用ipconfig/flushdns命令清除本机的 DNS 缓存、在万网的官网把 DNS 解析重新更新一遍、删除再重新添加等等,也不是完全没有收获。

我们一直想找一个可以测试各个地方、运营商网络的办法,终于在各方推荐和搜索的情况下找了17ce和 360 奇云测两个网站,感觉非常实用。

推荐阅读/观看:江汉网站建设 http://jhwzjs.cn



  • 上一篇:广告行业正在死亡
  • 下一篇:最后一页
  • 
    COPYRIGHT © 2015 新余市思创暖通工贸有限公司 ALL RIGHTS RESERVED.
    本站所有原创信息,未经许可请勿任意转载或复制使用 网站地图 技术支持:肥猫科技
    精彩专题:网站建设
    购买本站友情链接、项目合作请联系客服QQ:2500-38-100