小小的網絡故障(常見的網絡故障)
早晨8點多,收到Zabbix的郵件告警,顯示客戶的戴爾服務器和愛快路由器掉線了,由于該客戶的機房之前有過多次停電,癥狀當然也是如此這般,加上客戶沒有電話或者微信報修,就先入為主地判定為機房又停電了,因此未采取任何措施。
直到過了下班時間,客戶才反饋:外網無法使用向日葵遠程控制服務器。因為不止一次,也就直說了,是不是機房又沒電。
客戶反饋有電,照片顯示服務器處于開機狀態,愛快路由器也是一樣。
嗯?這怎么可能,難道短暫停電后就恢復了,恢復的時候,Zabbix沒有自動發郵件提醒我?
遠程登錄愛快,失敗;登錄愛快云后臺查看,顯示該路由器為離線狀態;登錄部署在云服務器里面的Zabbix,發現客戶的戴爾服務器和愛快還是離線狀態,并沒恢復。
指導客戶重啟愛快,無效;難道是停電后掉配置了?客戶都已經下班了,也就沒有其他遠程手段了,為了不影響客戶第二天上班使用,于是驅車前往。
到了機房,首先把顯示器接到愛快上,果然有寬帶沒連接上?Lan口也是已斷開狀態?
把鍵盤接上,順手按了幾下回車鍵,所有網卡顯示為已連接,貌似沒問題啊,奇怪。
既然如此,打開筆記本電腦,登錄愛快路由器,準備檢查問題所在;
原來是固定IP的城域網掉線了,這是愛快的默認鏈路,專供服務器和監控使用的,所以白天辦公的時候,用戶是感覺不到的,直到要遠程操作服務器的時候,才發現網絡有問題。路由器端口好好的,網卡的“眼睛”唰唰地眨著,于是轉到機柜后面,一眼就看到某個光貓閃著紅燈,好吧,電信光纖斷了;
可是愛快云顯示路由器處于掉線狀態也太不應該了,其他幾條撥號寬帶不都是好好的在線么?
也許是配置不仔細吧,沒有配置自動切換線路,另外幾條撥號的寬帶倒是都配置了,只是固定IP的城域網沒配置,主要是太相信電信了,嘿嘿,現在趕緊補上吧,來都來了,是吧。
勾上“掉線自動切換”后,愛快云立刻顯示路由器在線了,哪怕沒有固定IP,在外網也能通過愛快云遠程登錄這臺路由器了;
服務器上的向日葵,本以為會自動上線,結果重試了幾次都無法上線,只能手動退出軟件,重新開啟后,才恢復連接;
先讓客戶這么用吧,暫時沒什么大影響,只能明天早上再向電信報修線路故障了。
準備收拾東西走人,先備份一下愛快的配置吧,下次有問題的時候,能快速恢復;
反思:
1、由此看來,先入為主和經驗主義的確是害了自己,接到客戶報修就先把自己掘進坑里了,沒有冷靜、認真地分析,雖然也快速解決了問題,沒影響客戶使用,但是這一趟其實可以不用跑,單程40分鐘,畢竟說遠不遠,說近也不近;
2、云端的Zabbix,配置為smnp輪詢客戶的設備,一旦固定IP的鏈路掉線,所有的監測肯定是全部失效了,如果是在服務器上安裝了Zabbix agent,并且配置為主動模式,就能主動向Zabbix Server上報信息,配合愛快的“掉線自動切換”,云端的Zabbix就不會與被監測的服務器失聯了,這樣就很容易地判斷出是固定IP的城域網掉線了。
3、不能太相信運營商,該做的配置,還得做細致做完整,免得有問題的時候,再費時費力地排查。