服務(wù)器健康和健康檢查:詳細(xì)指南

2024-04-16    分類: 網(wǎng)站建設(shè)

不可否認(rèn),監(jiān)控您的服務(wù)器非常重要。它不僅可以幫助您每天解決問題,還可以幫助您完成擴(kuò)展和容量規(guī)劃等任務(wù)。但無論您的監(jiān)控有多先進(jìn),它總是從簡單的服務(wù)器健康指示開始。實際上,也許“簡單”在這里并不是最好的詞?!胺?wù)器健康”通常會給你一個“健康/不健康”的指示。但這并不意味著底層邏輯也很簡單。在這篇文章中,您將了解檢查服務(wù)器運(yùn)行狀況的實際操作。

什么是服務(wù)器運(yùn)行狀況?

聽起來可能很簡單,但確定服務(wù)器運(yùn)行狀況實際上并不那么容易。為了確定服務(wù)器運(yùn)行狀況,您需要考慮多個指標(biāo)。對于初學(xué)者來說,健康不僅僅意味著服務(wù)器正在運(yùn)行。服務(wù)器可能已啟動并正在運(yùn)行,但它可能存在多個問題。CPU 使用率可以恒定為 100%,磁盤可能(幾乎)已滿,或者網(wǎng)絡(luò)吞吐量可能非常低。

這些問題相對容易發(fā)現(xiàn)。但也有一些情況可能看起來一切正常,但偶爾會出現(xiàn)問題。在磁盤和網(wǎng)絡(luò)方面尤其如此。隨機(jī)磁盤和/或網(wǎng)絡(luò)問題很難發(fā)現(xiàn),但它們肯定會產(chǎn)生一些問題。因此,服務(wù)器健康監(jiān)控并不像資源消耗和正常運(yùn)行時間那么簡單。那么,良好的服務(wù)器運(yùn)行狀況指示實際上應(yīng)該包括哪些內(nèi)容?讓我們深入了解它。

基礎(chǔ)

正確評估服務(wù)器的健康狀況肯定需要的不僅僅是基本指標(biāo)。但是,這并不意味著您應(yīng)該跳過這些基礎(chǔ)知識。事實上,在大多數(shù)情況下,它們會為您提供服務(wù)器健康狀況的良好指示。

那么這些基礎(chǔ)是什么呢?

服務(wù)器狀態(tài)和正常運(yùn)行時間

讓我們從(理論上)最直接表明服務(wù)器健康狀況的東西開始——服務(wù)器狀態(tài)。如果服務(wù)器已啟動并正在運(yùn)行,則表示它是健康的。如果服務(wù)器關(guān)閉或沒有響應(yīng),則它不健康。但真的是這樣嗎?

想想看。大多數(shù)公司已經(jīng)遷移到云環(huán)境,這讓事情變得有點復(fù)雜。云的優(yōu)勢之一是靈活性和自動擴(kuò)展。您在云中的基礎(chǔ)架構(gòu)可能會根據(jù)當(dāng)前需求自動啟動和停止服務(wù)器。因此,如果服務(wù)器宕機(jī),并不意味著有問題。這可能意味著自動縮放器停止了它,因為此時不需要它。出于同樣的原因,服務(wù)器正常運(yùn)行時間或重啟次數(shù)也不再是服務(wù)器健康狀況的指標(biāo)。

資源使用

嗯,不一定。

您可能認(rèn)為服務(wù)器使用 10% 或 90% 的 CPU 并不重要。如果它使用任何數(shù)量的 CPU,那么這意味著它已經(jīng)啟動并正在運(yùn)行。所以它應(yīng)該是“健康的”,對吧?

根據(jù)具體情況,非常高或非常低的資源消耗可能表明存在問題。這一切都取決于上下文和模式。假設(shè)您的服務(wù)器在過去一年中使用率穩(wěn)定在 40% 到 60%,然后突然飆升至 100%。這告訴你可能有問題。

想象一下,您有服務(wù)器在公司中承擔(dān)繁重的工作。它們的典型使用率接近 100%。(例如,他們可能會批量處理大量數(shù)據(jù)或 GPU 驅(qū)動的圖形渲染。)如果其中一臺服務(wù)器突然下降到接近 0% 的使用率,那么肯定有問題。所以有什么問題?也許進(jìn)行重要處理的軟件崩潰了。

理想情況下,您應(yīng)該在服務(wù)器健康指標(biāo)中包含資源消耗——但前提是您能夠?qū)⑵渑c基線進(jìn)行比較,并且僅適用于具有穩(wěn)定、可預(yù)測的使用模式的服務(wù)器。

你還應(yīng)該考慮什么?

如本文開頭所述,服務(wù)器可能已啟動并正在運(yùn)行,但這可能并不意味著它是健康的。我們涵蓋了基礎(chǔ)知識,但即使是這些指標(biāo)也可能并不總能告訴您全部真相。以下是評估服務(wù)器運(yùn)行狀況時需要考慮的一些額外事項。

網(wǎng)絡(luò)和存儲

網(wǎng)絡(luò)和存儲對于評估服務(wù)器運(yùn)行狀況都非常重要。但是,它并不像 CPU 或內(nèi)存使用那么簡單。在這里,我們對簡單的使用數(shù)字并不感興趣。相反,查看一些可以直接表明健康問題的具體指標(biāo)是有意義的。

對于網(wǎng)絡(luò),您應(yīng)該(例如)查看延遲和丟包計數(shù),而不是查看吞吐量或網(wǎng)絡(luò)飽和度。當(dāng)然,一天中的延遲也會有所不同,具體取決于整體網(wǎng)絡(luò)流量。但如果它真的關(guān)閉了,那么你就知道出了點問題。

以秒而不是毫秒為單位計算的延遲是需要研究的。有時它可能只是一個軟件問題,但非常高的延遲也可能表明服務(wù)器上存在一般網(wǎng)絡(luò)問題。

實際上,將延遲與丟包計數(shù)結(jié)合起來可以幫助您確定這是硬件問題還是軟件問題。如果您看到非常高的延遲和大量的數(shù)據(jù)包丟失,那么將服務(wù)器標(biāo)記為不健康是有意義的。

在存儲方面,我們也有類似的情況。磁盤吞吐量對于服務(wù)器的運(yùn)行狀況并不那么重要,盡管寫入或讀取速度非常慢可能表明存在磁盤問題。

更有趣的是 I/O 等待時間。如果您經(jīng)常看到高 I/O 等待時間,那么我會認(rèn)為這樣的服務(wù)器不健康。這實際上并不一定意味著磁盤有問題。同樣,與網(wǎng)絡(luò)一樣,它可能表示磁盤無法處理負(fù)載。但這也可能意味著實際硬件存在一些問題。

如何將這些知識付諸實踐?讓我們來了解一下。

健康檢查

現(xiàn)在您已經(jīng)大致了解了如何評估服務(wù)器運(yùn)行狀況,現(xiàn)在是討論如何實際執(zhí)行運(yùn)行狀況檢查的時候了。有幾種方法可以做到這一點——主要取決于您選擇的監(jiān)控工具。但總體思路對所有人來說都是一樣的。

一種選擇是基于監(jiān)控系統(tǒng)評估服務(wù)器運(yùn)行狀況,而監(jiān)控系統(tǒng)又基于某些指標(biāo)。例如,您可以創(chuàng)建一些復(fù)雜的邏輯來考慮我們上面提到的所有指標(biāo)?;诖?,您可以在監(jiān)控工具中創(chuàng)建“健康/不健康”條目。

另一種選擇是臨時執(zhí)行遠(yuǎn)程運(yùn)行狀況檢查。這意味著您向服務(wù)器發(fā)送某種調(diào)用并等待響應(yīng)。根據(jù)響應(yīng),您可以評估服務(wù)器運(yùn)行狀況。

此調(diào)用可以有多種形式,從簡單的 ping (ICMP) 或 TCP 數(shù)據(jù)包到高級 HTTP 調(diào)用,直接調(diào)用服務(wù)器上運(yùn)行的軟件。簡單的調(diào)用只會告訴您服務(wù)器是否啟動。更高級的、基于 HTTP 的調(diào)用不僅可以告訴您服務(wù)器是否正在運(yùn)行,還可以告訴您它是否在做它應(yīng)該做的工作。

總結(jié)并尋找先進(jìn)的監(jiān)控解決方案

如您所見,完全了解服務(wù)器運(yùn)行狀況并不像知道服務(wù)器是否已啟動和運(yùn)行那么簡單。但是,許多公司仍然這樣對待服務(wù)器健康。像這樣一個非常簡單的指標(biāo)通??梢栽诜?wù)器實際上存在一些問題時表明它是“健康的”。

如果您不想成為這些公司中的一員,請查看可以幫助您構(gòu)建更好的服務(wù)器健康評估的高級監(jiān)控解決方案。服務(wù)器管理軟件就是這樣一種工具。無論您在服務(wù)器上運(yùn)行什么操作系統(tǒng),都可以幫助您避免被無用的警報轟炸。更好的是,它可以為您提供有關(guān)服務(wù)器健康狀況的有用見解。銷售團(tuán)隊將很樂意向您展示一個演示和一個有用的、可搜索的博客。

網(wǎng)頁標(biāo)題:服務(wù)器健康和健康檢查:詳細(xì)指南
鏈接地址:http://www.muchs.cn/news48/323798.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供響應(yīng)式網(wǎng)站、網(wǎng)站制作、用戶體驗、手機(jī)網(wǎng)站建設(shè)商城網(wǎng)站、網(wǎng)站導(dǎo)航

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設(shè)