線上故障處理原則

線上故障處理原則

創(chuàng)新互聯(lián)主要從事網(wǎng)站建設(shè)、成都網(wǎng)站設(shè)計(jì)、網(wǎng)頁(yè)設(shè)計(jì)、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)烏拉特后,10年網(wǎng)站建設(shè)經(jīng)驗(yàn),價(jià)格優(yōu)惠、服務(wù)專業(yè),歡迎來(lái)電咨詢建站服務(wù):028-86922220

墨菲定律

  • 任何事情都沒(méi)有表面看起來(lái)那么簡(jiǎn)單
  • 所有事情的發(fā)展都會(huì)比你預(yù)計(jì)的時(shí)間長(zhǎng)
  • 會(huì)出錯(cuò)的事情總會(huì)出錯(cuò)
  • 如果擔(dān)心某個(gè)事情發(fā)生,那么它更有可能發(fā)生

墨菲定律暗示我們,如果擔(dān)心某種情況會(huì)發(fā)生,那么它更有可能發(fā)生,久而久之就一定會(huì)發(fā)生。這警示我們,在互聯(lián)網(wǎng)公司,對(duì)生成環(huán)境發(fā)生的任何怪異現(xiàn)象和問(wèn)題都不要輕視,對(duì)其背后的原因一定要調(diào)查清楚。同樣,海恩法則也強(qiáng)調(diào)任何嚴(yán)重的事故背后都是很多次小問(wèn)題的積累,當(dāng)?shù)揭欢考?jí)后會(huì)導(dǎo)致質(zhì)變,嚴(yán)重的問(wèn)題就會(huì)浮出水面。
那么,我們需要對(duì)線上服務(wù)產(chǎn)生任何現(xiàn)象,哪怕是小問(wèn)題,都要刨根問(wèn)底,對(duì)任何現(xiàn)象都要遵循下面問(wèn)題

  • 為什么會(huì)發(fā)生 ?
  • 發(fā)生了該怎么應(yīng)對(duì) ?
  • 怎么恢復(fù) ?
  • 怎么避免 ?

應(yīng)急目標(biāo)

在生成環(huán)境發(fā)生故障時(shí)快速恢復(fù)服務(wù),避免或減少故障帶來(lái)的損失,避免或減少故障對(duì)客戶的影響

應(yīng)急原則

  • 應(yīng)第一時(shí)間恢復(fù)系統(tǒng),而不是徹底解決呢問(wèn)題,快速止損
  • 明顯資金損失時(shí),要第時(shí)間升級(jí),快速止損
  • 指標(biāo)要圍繞目標(biāo),快速啟動(dòng)應(yīng)急過(guò)程與止損方案
  • 當(dāng)前負(fù)責(zé)人不能短時(shí)間內(nèi)解決問(wèn)題,則必須進(jìn)行升級(jí)處理
  • 處理過(guò)程在不影響用戶體驗(yàn)的前提下,保留現(xiàn)場(chǎng)

應(yīng)急方法與流程

線上應(yīng)急一般分為 6 個(gè)階段

  1. 發(fā)現(xiàn)問(wèn)題
  2. 定位問(wèn)題
  3. 解決問(wèn)題
  4. 回顧問(wèn)題
  5. 改進(jìn)措施

過(guò)程中要記住,應(yīng)急只有一個(gè)總體目標(biāo):盡快恢復(fù),消除影響。不管處于哪個(gè)階段,首先想到的必須是恢復(fù)問(wèn)題,恢復(fù)問(wèn)題不一定能定位問(wèn)題,也不一定有完美的解決方案,可能通過(guò)經(jīng)驗(yàn)或者開(kāi)關(guān)等。但這可以達(dá)到快速恢復(fù)的目的,然后保留現(xiàn)場(chǎng),以及定位問(wèn)題,解決問(wèn)題和復(fù)盤(pán)

發(fā)現(xiàn)問(wèn)題

通常我們通過(guò)系統(tǒng)層面、應(yīng)用層面和中間件層面監(jiān)控來(lái)發(fā)現(xiàn)問(wèn)題

  • 系統(tǒng)層面監(jiān)控包括
    1. 系統(tǒng)的 CPU 使用率
    2. Load average
    3. Memory
    4. I/O (網(wǎng)絡(luò)與磁盤(pán))
    5. SWAP 使用情況
    6. 線程數(shù)
    7. File Description 文件描述符等
  • 應(yīng)用層面監(jiān)控包括
    1. 接口的響應(yīng)時(shí)間
    2. QPS
    3. 調(diào)用頻次
    4. 接口成功率
    5. 接口波動(dòng)率等
  • 中間件層面監(jiān)控包括數(shù)據(jù)庫(kù)、緩存、消息隊(duì)列。
    1. 對(duì)數(shù)據(jù)庫(kù)的負(fù)載、慢查詢、連接數(shù)等監(jiān)控
    2. 對(duì)緩存的連接數(shù)、占用內(nèi)存、吞吐量、響應(yīng)時(shí)間等監(jiān)控
    3. 消息隊(duì)列的響應(yīng)時(shí)間、吞吐量、負(fù)載、堆積情況等監(jiān)控

定位問(wèn)題

分析定位過(guò)程中先考慮系統(tǒng)最近發(fā)生的變化,需要考慮如下幾方面

  • 故障系統(tǒng)最近是否上過(guò)線?
  • 依賴的基礎(chǔ)平臺(tái)與資源是否升級(jí)過(guò)?
  • 依賴的系統(tǒng)是否上過(guò)線?
  • 運(yùn)營(yíng)是否在系統(tǒng)內(nèi)做過(guò)運(yùn)營(yíng)變更?
  • 網(wǎng)絡(luò)是否有波動(dòng)?
  • 最近的業(yè)務(wù)量是否漲了?
  • 運(yùn)營(yíng)方是否有促銷活動(dòng)?

解決問(wèn)題

解決問(wèn)題要以定位問(wèn)題為基礎(chǔ),必須清晰定位問(wèn)題產(chǎn)生的根本原因,在提出解決問(wèn)題的有效方案,沒(méi)有明確原因之前,不用使用各種方法來(lái)嘗試修復(fù)問(wèn)題,可能還沒(méi)有解決這個(gè)問(wèn)題又引入了下個(gè)問(wèn)題,想想剛剛提到的墨菲定律

回顧問(wèn)題

解決問(wèn)題后,需應(yīng)急團(tuán)隊(duì)與相關(guān)方回顧事故產(chǎn)生的原因、應(yīng)急過(guò)程的合理性、提出整改措施,主要聚焦在以下幾個(gè)問(wèn)題:

  • 類似的問(wèn)題還有哪些沒(méi)有發(fā)生?
  • 做了哪些事情,事故就不會(huì)再發(fā)生?
  • 做了哪些事情,及時(shí)發(fā)生故障,也不會(huì)產(chǎn)生影響?

改進(jìn)措施

根據(jù)回顧問(wèn)題提出的改進(jìn)措施,以正式的項(xiàng)目管理方式進(jìn)行統(tǒng)一管理,采用 SMART 原則來(lái)跟進(jìn)

參考

  • 分布式服務(wù)架構(gòu)原理、設(shè)計(jì)與實(shí)戰(zhàn)

網(wǎng)頁(yè)名稱:線上故障處理原則
鏈接URL:http://muchs.cn/article0/pdjdoo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、搜索引擎優(yōu)化、云服務(wù)器、關(guān)鍵詞優(yōu)化、網(wǎng)頁(yè)設(shè)計(jì)公司App開(kāi)發(fā)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司