反思一次Exchange服務(wù)器運(yùn)維故障-創(chuàng)新互聯(lián)

本文是對2018年8月9日公司Exchange郵件系統(tǒng)郵件流故障的故障發(fā)現(xiàn)、故障處理和故障修復(fù)的過程記錄和總結(jié)反思。幫助自己總結(jié)經(jīng)驗(yàn)和吸取教訓(xùn),同時也作為一次反面教材讓其他運(yùn)維或管理員吸取教訓(xùn)。

創(chuàng)新互聯(lián)公司成都網(wǎng)站建設(shè)定制網(wǎng)站設(shè)計,是成都網(wǎng)站營銷公司,為建筑動畫提供網(wǎng)站建設(shè)服務(wù),有成熟的網(wǎng)站定制合作流程,提供網(wǎng)站定制設(shè)計服務(wù):原型圖制作、網(wǎng)站創(chuàng)意設(shè)計、前端HTML5制作、后臺程序開發(fā)等。成都網(wǎng)站設(shè)計熱線:13518219792

故障發(fā)現(xiàn)

    昨天下午18點(diǎn)50左右結(jié)束團(tuán)隊內(nèi)培訓(xùn)分享會后,收到同事的反饋,說他們幾個人都無法收到外部郵件(Internet上的郵件),故障現(xiàn)象為:Exchange服務(wù)器內(nèi)網(wǎng)收發(fā)郵件正常,外網(wǎng)發(fā)送正常,但無法收到外部郵件。

因?yàn)楣镜泥]件系統(tǒng)是公司自建的Exchange Server 2010,因此需要運(yùn)維自己去管理。經(jīng)過多個外部郵箱的測試發(fā)現(xiàn),的確無法收到外部郵件,這些外部郵箱包括網(wǎng)易、阿里企業(yè)郵箱和微軟Outlook郵箱。


因?yàn)猷]件服務(wù)是企業(yè)核心服務(wù)之一,加之已經(jīng)有同事反饋遇到問題,因此此故障應(yīng)該是重要緊急故障,必須盡快排除以恢復(fù)服務(wù)。

注1:如果問題比較嚴(yán)重或者有緊急事件處理流程規(guī)定,應(yīng)該按照流程匯報上級領(lǐng)導(dǎo)和發(fā)出通告。

注2:以下是個人看法和經(jīng)驗(yàn)總結(jié),如有錯誤敬請指出。

故障處理

面臨故障最重要的就是盡快通過排除法進(jìn)行故障排除以實(shí)現(xiàn)服務(wù)的最快恢復(fù)。因此首先要做的故障排除。由于已經(jīng)是下班時間,事故雖然重大,但還尚未造成重大影響。

因?yàn)樵赪indows特別是Exchange的運(yùn)維上個人經(jīng)驗(yàn)比較欠缺,不能憑經(jīng)驗(yàn)一下子發(fā)現(xiàn)問題,因此只能先根據(jù)以往經(jīng)驗(yàn),結(jié)合Google等逐個排查。

經(jīng)過初步測試,內(nèi)部郵件收發(fā)正常,內(nèi)部向外部發(fā)送郵件正常,但接收異常。于是開始以下排查。


在排查之前應(yīng)該先需要搞清楚最近發(fā)生的變更,如軟件配置,導(dǎo)致變更的操作,特別是兩個及以上的管理員共同管理時。因此服務(wù)器由一人管理,且最近沒有進(jìn)行過任何更改,是突然出現(xiàn)的問題,因此直接開始排查:

  1. 檢查域名解析,排查mx記錄等是否存在問題。使用nslookup命令在多個外網(wǎng)服務(wù)器上測試MX記錄、以及相關(guān)的A記錄和CNAME記錄。

    注1:Windows服務(wù)器可以使用nslookup -q=mx xxx.com直接查詢,Linux命令需要交互式查詢,即先執(zhí)行nslookup再set q=mx或set type=mx,再查詢

    注2:在查詢mx記錄時,只需要查詢郵件服務(wù)器fqdn域名的上級域名即可。如mail.qq.com,則只需要查詢qq.com的mx記錄即可。

    經(jīng)過排查,排除域名解析問題。

  2. 檢查外部與內(nèi)部的通信問題,檢查防火墻攔截情況和防火墻到服務(wù)器中間的網(wǎng)絡(luò)鏈路問題。使用telnet mail.xxx.com 25命令檢查25端口的打開情況,經(jīng)過測試排除防火墻問題。

    注1:25端口是接收外部郵件的約定端口

    注2:如果25端口正常且目標(biāo)為Exchange郵件服務(wù)器,應(yīng)該提示類似“220 mail.xxx.com Microsoft ESMTP MAIL Service ready at Fri, 10 Aug 2018 10:43:58 +0800”字樣。

  3. 為了確認(rèn)不是防火墻或網(wǎng)絡(luò)設(shè)備bug問題,重啟防火墻或網(wǎng)絡(luò)設(shè)備。通常無軟關(guān)閉和重啟功能的防火墻需要斷電或切換電源狀態(tài)10s以上。經(jīng)過檢查不是網(wǎng)絡(luò)設(shè)備問題。

以上3個步驟排除后,應(yīng)該確定問題是出在郵件服務(wù)器身上。開始郵件服務(wù)器自身的排查:

  1. 因?yàn)槭青]件服務(wù)器內(nèi)部收發(fā)正常,因此直接登錄郵件服務(wù)器,檢查郵件服務(wù)器的其他可能影響因素

  2. 首先檢查服務(wù)器負(fù)載,包括CPU、內(nèi)存、磁盤空間、IO和網(wǎng)絡(luò)等負(fù)載情況。通常影響Exchange的主要是CPU和內(nèi)存,其次磁盤空間和IO。經(jīng)過檢查磁盤空間不足(已經(jīng)低于5%,但尚有3GB可用空間,由于經(jīng)驗(yàn)不足,沒有判斷出此問題可能造成的影響,加之內(nèi)網(wǎng)郵件正常,因此沒有優(yōu)先處理,最后發(fā)現(xiàn)是此原因造成)。

  3. 其次應(yīng)該檢查服務(wù)器系統(tǒng)日志。關(guān)于先檢查日志還是先檢查負(fù)載情況,只是習(xí)慣問題。系統(tǒng)日志一般會給與管理員足夠的信息。雖然Windows的事件管理器并不是特別好用,但是Exchange在日志方面還是比較良心,一般大小事件均記錄在內(nèi)。

  4. 除了檢查系統(tǒng)日志之外,Exchange一般提供了其他診斷工具。比如“隊列查看器”,因?yàn)殛犃胁榭雌骺捎糜诮鉀Q郵件流問題,因此隊列查看器里面也會有一些關(guān)于郵件無法傳輸?shù)膯栴}的提示。

  5. 經(jīng)過查看系統(tǒng)日志和隊列查看器后,發(fā)現(xiàn)問題是由于資源不足引起。系統(tǒng)有兩處明顯的提示:

    1.隊列查看器提示上一個錯誤為“452 4.3.1 Insufficient system resources”。經(jīng)過Google查詢,這通常意味著要么磁盤空間不足要么內(nèi)存空間不足。

    2.事件查看器中來源自“MSExchangeTransport”報告稱:

    (1)警告:資源壓力已從 普通 增至 中。

    (2)錯誤:Microsoft Exchange 傳輸服務(wù)拒絕郵件提交,因?yàn)榭捎么疟P空間已降至配置的閾值之下。

故障確認(rèn)和修復(fù)

    已經(jīng)確認(rèn)為磁盤空間問題導(dǎo)致的觸發(fā)Exchange的“反壓”保護(hù)策略。通過釋放磁盤空間解決。解決后通告給上級領(lǐng)導(dǎo)和相關(guān)人員。



    知識點(diǎn)


    關(guān)于“反壓”。以下摘錄Microsoft文檔庫--了解反壓。

    反壓是存在于 Microsoft Exchange Server 2010 集線器傳輸服務(wù)器和邊緣傳輸服務(wù)器上的 Microsoft Exchange 傳輸服務(wù)的一種系統(tǒng)資源監(jiān)視功能。Exchange 傳輸可以檢測重要資源(例如可用硬盤空間和內(nèi)存)何時具有壓力,并采取操作以嘗試阻止服務(wù)不可用性。

    反壓可以防止過多地使用系統(tǒng)資源,并且 Exchange 會嘗試傳遞現(xiàn)有郵件。當(dāng)系統(tǒng)資源使用率恢復(fù)到正常級別后,Exchange 服務(wù)器就可以逐漸恢復(fù)正常運(yùn)行。

    在 Exchange Server 2007 中,當(dāng)集線器傳輸服務(wù)器或邊緣傳輸服務(wù)器具有資源壓力時,它會拒絕傳入連接。在 Exchange 2010 中,會接受傳入連接,但是會以更慢的速度接受或拒絕通過這些連接傳入的郵件。SMTP 主機(jī)嘗試連接到處于反壓下的集線器傳輸服務(wù)器或邊緣傳輸服務(wù)器時,連接會成功,但是該主機(jī)何時發(fā)出 MAIL FROM 命令來提交郵件,則取決于具有壓力的資源,Exchange 可能會延遲確認(rèn) MAIL FROM 命令或拒絕該命令。

    以下摘錄自事件查看器:

    Microsoft Exchange 傳輸服務(wù)拒絕郵件提交,因?yàn)榭捎么疟P空間已降至配置的閾值之下。

    以下資源處于壓力之下: 隊列數(shù)據(jù)庫日志記錄路徑(“C:\Program Files\Microsoft\Exchange Server\V14\TransportRoles\data\Queue\”) = 95% [中] [正常=93% 中=95% 高=97%]

    反壓力導(dǎo)致禁用了以下組件: 從集線器傳輸服務(wù)器提交入站郵件

    從 Internet 提交入站郵件

    從分揀目錄提交郵件

    從重播目錄提交郵件

    從郵箱服務(wù)器提交郵件

    向遠(yuǎn)程域傳遞郵件

    正在從隊列數(shù)據(jù)庫加載電子郵件(如果可用)

    以下資源處于正常狀態(tài): 隊列數(shù)據(jù)庫路徑(“C:\Program Files\Microsoft\Exchange Server\V14\TransportRoles\data\Queue\mail.que”) = 95% [普通] [正常=95% 中=97% 高=99%]

    版本存儲桶 = 0 [普通] [正常=80 中=120 高=200]

    專用字節(jié) = 0% [普通] [正常=71% 中=73% 高=75%]

    物理內(nèi)存負(fù)載 = 11% [開始郵件凍結(jié)的限制為 94%。]

    批處理點(diǎn) = 0 [普通] [正常=1000 中級=2000 高級=4000]

    提交隊列 = 0 [普通] [一般=1000 中=2000 高=4000]

    注:其實(shí)Linux中也有類似的保護(hù)機(jī)制,如oom,磁盤保留5%,遇到此類知識應(yīng)該舉一反三,觸類旁通。


故障反思和總結(jié)

  1. 遇到故障或問題應(yīng)該保持頭腦冷靜,切莫慌亂,不能自身亂了陣腳。很多運(yùn)維或者管理員在遇到問題時首先想到是如何解決,而嘗試各種辦法解決無果后為了節(jié)約時間就想到回滾,這是不正確的。作為一個合格的運(yùn)維應(yīng)該弄清事情的來龍去脈和問題的根本原因。在排查問題時首先想到通過日志去排查問題。在排查時應(yīng)當(dāng)盡可能全面的排查,不要漏掉任何一個可能導(dǎo)致問題的細(xì)節(jié)。

  2. 部署必須遵從標(biāo)準(zhǔn),必須規(guī)范。從這次事故來看,此Exchange服務(wù)器中含有三個數(shù)據(jù)庫,其中一個數(shù)據(jù)庫存放在C盤沒有在其他盤。隨著時間的增長,這個數(shù)據(jù)庫占用了大量的磁盤空間,導(dǎo)致磁盤空間不足,從而觸發(fā)了“反壓”機(jī)制。從標(biāo)準(zhǔn)和規(guī)范的做法來看,應(yīng)該將此數(shù)據(jù)庫從C盤移動到其他容量大的磁盤。并且在部署最開始時計算好容量。

  3. 重視報警。此服務(wù)器是配置了Zabbix監(jiān)控報警的,而且Zabbix已經(jīng)監(jiān)測到故障并發(fā)送報警,由于沒有及時的處理才導(dǎo)致本次故障的發(fā)生。


  4. 就算是接盤也要痛改前非。因?yàn)榇肃]件服務(wù)器是之前運(yùn)維同事部署的,因此里面有些問題一直擱置而遲遲沒有解決(也有技術(shù)上的原因),從長遠(yuǎn)角度上看,即使需要付出一定的代價也需亡羊補(bǔ)牢。

  5. 保持學(xué)習(xí)。雖然有些時候,某些東西偏離了自己的發(fā)展方向,但像郵件服務(wù)器這樣的公司的核心IT系統(tǒng)應(yīng)該去深入的學(xué)習(xí)。只有了解和懂得才能遇到問題時更快的解決問題。

  6. 每次故障后總結(jié)經(jīng)驗(yàn)和吸取教訓(xùn)。將知識和經(jīng)驗(yàn)記錄下來,沉淀下來。比如此次總結(jié)后,在遇到此故障可能一下子就想到了磁盤空間不足會導(dǎo)致Exchange觸發(fā)反壓,從而導(dǎo)致無法收到外部郵件。


--end--

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

新聞名稱:反思一次Exchange服務(wù)器運(yùn)維故障-創(chuàng)新互聯(lián)
網(wǎng)站鏈接:http://www.muchs.cn/article42/epohc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站制作、企業(yè)建站、App開發(fā)、網(wǎng)站收錄、App設(shè)計、搜索引擎優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司