本文共 963 字,大约阅读时间需要 3 分钟。
问题分析:在这件事发生前联通的IP曾断了10-20分钟,当时业务有部分异常,自己就先登录DNS将联通的解析给暂停了,之后业务正常,在下午2点左右再度异常。期间曾询问机房人员网络异常的事,给的答复是网络波动。这...这结果也只能认了。DNS的设置里面有TTL缓存生存时间,当到达设定的TTL时长后DNS会再次从此处获得最新的域名解析值,由于我们设置的是3600s,一小时。在停了联通的线路解析后1小时后才会重新生效,因此会有域名解析出现异常。登录我们的DNS
我们自己因为IP变动小,基本TTL都设置为1小时,这样会使得解析快点,但它的弊端就是当IP异常时它恢复时间会很长一般是1小时,最短可设1分钟,但1分钟又太短使得解析会很慢。经过这次的事故,考虑了下设置为600,即10分钟比较合适。目前业务量并不大,网络波动出现后一个IP有影响也只是分钟级别,目前公司还可以接受。总结:1、这主要是自己对IP的连通性没有监控到位,使得IP异常自己未及时发现;2、域名解析的IP最好不是直接对应的业务IP,而是在前端加一层负载均衡这样后端一个IP异常,也不影响解析结果。不过加了一层负载均衡后会增加预算,而且引入负载均衡后它的单点故障也需要考虑,这又增加了费用。但若企业愿意花钱买稳定,这还是值得的。这次主要原因在于自己监控及报警未做到位,以致故障发生这么久才知道。