陳軍:IT運維分析與海量日志搜索

互聯(lián)網(wǎng)IDC圈1月8日報道,1月5-7日,第十屆中國IDC產(chǎn)業(yè)年度大典(IDCC2015)在北京國家會議中心隆重召開。本次大會由中國信息通信研究院、云計算發(fā)展與政策論壇、數(shù)據(jù)中心聯(lián)盟指導(dǎo),中國IDC產(chǎn)業(yè)年度大典組委會主辦,互聯(lián)網(wǎng)IDC圈承辦,并受到諸多媒體的大力支持。

為豐鎮(zhèn)等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計制作服務(wù),及豐鎮(zhèn)網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為網(wǎng)站設(shè)計、網(wǎng)站制作、豐鎮(zhèn)網(wǎng)站設(shè)計,以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會得到認(rèn)可,從而選擇與我們長期合作。這樣,我們也可以走得更遠(yuǎn)!

中國IDC產(chǎn)業(yè)年度大典作為國內(nèi)云計算和數(shù)據(jù)中心領(lǐng)域規(guī)模大、最具影響力的標(biāo)志性盛會,之前已成功舉辦過九屆,在本屆大會無論是規(guī)格還是規(guī)模都"更上一層樓",引來現(xiàn)場人員爆滿,影響力全面覆蓋數(shù)據(jù)中心、互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等多個領(lǐng)域。

日志易首席執(zhí)行官陳軍出席IDCC2015大會并在大數(shù)據(jù)應(yīng)用與安全技術(shù)論壇發(fā)表主題為《IT運維分析與海量日志搜索》的精彩演講。

陳軍

日志易首席執(zhí)行官陳軍

以下為陳軍演講實錄:  

陳軍:我今天講的是IT運維分析與海量日志分析,今天是IDC大會,很多數(shù)據(jù)需要分析,IT設(shè)備需要做運維。我分這幾部分講,什么叫IT運維分析,IT運維是個比較新的東西,日志的應(yīng)用場景、過去及現(xiàn)在的做法、日志搜索引擎、日志易的產(chǎn)品。

過去做IT運維都講IT運維管理,IT運維管理做了很多年了,也非常成熟,隨著前幾年大數(shù)據(jù)技術(shù)的興起,大家開始把大數(shù)據(jù)技術(shù)應(yīng)用到IT運維上面做分析,就產(chǎn)生了IT運維分析,把大數(shù)據(jù)技術(shù)用在IT運維分析上的目的是提高數(shù)據(jù)質(zhì)量和效率??捎眯员O(jiān)控、應(yīng)用型能監(jiān)控、故障根源分析、安全審計。權(quán)威的調(diào)查機(jī)構(gòu)Gartner估計,到2017年15%的大企業(yè)會積極使用ITOA,2014年這個數(shù)字只有5%,不管5%還是15%,是比較低的比例,ITOA是新出現(xiàn)的東西,正在被市場逐步接受。

ITOA把大數(shù)據(jù)的技術(shù)用在運維數(shù)據(jù)的分析上,數(shù)據(jù)的來源就非常重要,ITOA的數(shù)據(jù)來源主要是四方面:

第一是機(jī)器數(shù)據(jù),服務(wù)器、網(wǎng)絡(luò)設(shè)備產(chǎn)生的數(shù)據(jù),其實就是日志。

第二是通信數(shù)據(jù),現(xiàn)在網(wǎng)絡(luò)已經(jīng)非常普遍了,后臺的設(shè)備很多都是大型的分布式系統(tǒng),都有網(wǎng)絡(luò)的通信,網(wǎng)絡(luò)通信過去通過網(wǎng)絡(luò)抓包,通過流量分析應(yīng)用的情況。網(wǎng)絡(luò)抓包、流量分析的這類數(shù)據(jù)又是Wire Data。

第三是代碼級別進(jìn)行統(tǒng)計分析的,像PHP、JAVA這些字節(jié)碼來插入統(tǒng)計分析的代碼,統(tǒng)計它的函數(shù)調(diào)用情況、堆站的使用情況,從代碼級別來進(jìn)行統(tǒng)計分析,更加精細(xì)化的統(tǒng)計化分析,這是代理數(shù)據(jù)。

第四是探針數(shù)據(jù),國內(nèi)已經(jīng)有些公司在做這個事情,全國的用戶訪問IDC的延時是多少,得在全國布點,發(fā)起模擬用戶的請求探測,進(jìn)行端到端延時的度量。美國有一家做ITOA的公司,他們做了一個用戶調(diào)查,四種數(shù)據(jù)來源使用情況,日志的使用比例非常高,占86%,網(wǎng)絡(luò)抓包占93%,插入代碼代理數(shù)據(jù)是47%,探針數(shù)據(jù)是72%。日志跟網(wǎng)絡(luò)抓包占的比例非常高,占到了百分之八九十,插入代碼占不到50%,探針大概是70%。

日志無所不在,所有服務(wù)器、網(wǎng)絡(luò)設(shè)備、應(yīng)用系統(tǒng)都會產(chǎn)生日志,但是日志的覆蓋面非常廣,日志也有它的特點,不同的應(yīng)用輸出的日志完整性跟可用性不同,因為輸出太多日志會降低應(yīng)用的性能,會關(guān)閉一些級別低的日志,只輸出級別最高的。輸出的日志有多少,數(shù)據(jù)的完整性有差別。通信數(shù)據(jù),網(wǎng)絡(luò)抓包,從網(wǎng)絡(luò)流量統(tǒng)計的信息也是非常全面的,但是它也有它的局限性,有一些事件未必觸發(fā)網(wǎng)絡(luò)通信,如果沒有觸發(fā)網(wǎng)絡(luò)通信的話就不會產(chǎn)生網(wǎng)絡(luò)流量,就沒辦法抓這些包進(jìn)行統(tǒng)計。

探針數(shù)據(jù),是模擬用戶請求,好處是端到端監(jiān)控,可以從手機(jī)訪問到服務(wù)器端到端的延時,但它的問題不是真實的用戶度量,前幾年已經(jīng)開始講一個概念,真實的用戶度量,我們希望度量到用戶真正的延時情況,而不是模擬的。移動應(yīng)用廠商像騰訊、百度他們已經(jīng)有數(shù)以億計的終端用戶,他們可以直接在他們的手機(jī)應(yīng)用端做真實的用戶度量,可以看到真實用戶的訪問情況。2008年汶川地震的時候騰訊QQ客戶端實時監(jiān)測到汶川地區(qū)用戶QQ掉線,馬上知道那里發(fā)生了事故,要么是IDC事故,要么是網(wǎng)絡(luò)的事故,所以可以做真實的網(wǎng)絡(luò)度量。

日志學(xué)術(shù)性的說法是時間序列機(jī)器數(shù)據(jù),為什么叫做時間序列機(jī)器數(shù)據(jù)?因為它是帶時間戳的機(jī)器數(shù)據(jù),它是機(jī)器產(chǎn)生的,網(wǎng)絡(luò)設(shè)備、服務(wù)器產(chǎn)生的。第二它是帶時間戳的,日志包含了IT系統(tǒng)非常多的信息,服務(wù)器、網(wǎng)絡(luò)設(shè)備、操作系統(tǒng)、應(yīng)用軟件,甚至包括用戶的信息、業(yè)務(wù)的信息。日志反映了事實數(shù)據(jù),美國有個很出名的公司叫影音(音),做職業(yè)社交,他的一名工程師寫了一篇非常出名的文章,每一個軟件工程師都應(yīng)該知道實時數(shù)據(jù)統(tǒng)一的抽象的信息,也有中譯版,深度解析Linkedin大數(shù)據(jù)平臺,所有對日志感興趣的工程師可以好好看下這篇文章,這篇文章講的就是日志是一個企業(yè)里最真實的數(shù)據(jù),不管是數(shù)據(jù)中心還是企業(yè)里發(fā)生的一切日志都會記錄下來,通過統(tǒng)計分析這個日志,不同系統(tǒng)之間的通信也可以通過日志來傳輸這個信息。大數(shù)據(jù)領(lǐng)域有比較開源的軟件Kafuka,當(dāng)年發(fā)明Kafuka的目的就是用來傳輸日志,Kafuka也是做日志處理里用的最普遍的消息隊列軟件。

先看一下Apache日志,這是一條Apache日志,它是文本信息,如果不是專業(yè)的運維工程師經(jīng)??慈罩镜脑?,大家看到這個會像看天書,不知道是什么含義,使用日志易這個軟件把日志做結(jié)構(gòu)化,把它從非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)成結(jié)構(gòu)化數(shù)據(jù)得出來的信息。一條日志包含的信息非常多,從這里面統(tǒng)計分析的話會得出多有價值的信息。日志可以用到哪些場景?一個是運維監(jiān)控,IDC需要進(jìn)行運維監(jiān)控,保證系統(tǒng)的可用性,如果出現(xiàn)故障了,能夠及時追溯故障根源,及時知道問題。應(yīng)用性能監(jiān)控,主要是知道性能的情況,你的網(wǎng)站是不是慢,為什么慢,慢在哪里,這方面屬于應(yīng)用性能監(jiān)控。數(shù)據(jù)中心里還有一條很重要的就是安全,要保證數(shù)據(jù)中心的安全,防止黑客的入侵。這可以用在安全審計方面,主要是安全信息事件管理、合規(guī)審計、發(fā)現(xiàn)高級持續(xù)威脅APT,APT現(xiàn)在也是比較熱門的話題。做APT的發(fā)現(xiàn)得通過日志、流量,全方位360無死角地進(jìn)行監(jiān)控。

日志用在業(yè)務(wù)和用戶數(shù)據(jù)分析上。過去的做法是日志沒有集中管理,散落在各臺服務(wù)器上,事后出了問題就登錄到各臺服務(wù)器上用腳本命令,用VI去查看日志,有一些水平高的運維工程師用AWK寫一些腳本分析程序去分析日志,這樣的做法也有問題,因為登錄到各臺服務(wù)器,這些服務(wù)器都是生產(chǎn)服務(wù)器,一不小心的誤操作可能就會導(dǎo)致事故。日志被刪除,一個是磁盤滿了,日志就被覆蓋了,另外運維工程師把日志當(dāng)做垃圾,看到磁盤快沒了首先做的事情就是刪除日志,刪除日志之后如果事后發(fā)現(xiàn)有些措施或者故障需要分析需要追溯又找不到日志了。黑客入侵之后,聰明的黑客第一件事就是刪除日志,因為日志記錄了他入侵的痕跡,他刪除日志就可以把他入侵的痕跡磨除掉。

系統(tǒng)出現(xiàn)故障的時候日志會包含信息,我們希望實時地發(fā)現(xiàn)這些信息,當(dāng)日志出現(xiàn)錯誤信息的時候能夠馬上報警,而不是僅僅用在事后的追查上。后來有些公司開始重視日志,他們用數(shù)據(jù)庫存儲日志,現(xiàn)在是一個比較普遍的做法,但是用數(shù)據(jù)庫存儲日志有什么問題呢?

數(shù)據(jù)庫是用來存結(jié)構(gòu)化數(shù)據(jù)的,日志是非結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)庫有固定的Schema,規(guī)定好數(shù)據(jù)庫的表格是當(dāng)有新的日志表格過來的時候表格又要改。

我看到有一些做法,為了讓表的格式大限度的靈活化,數(shù)據(jù)庫就定義了三列,第一列是產(chǎn)生日志的機(jī)器IT地址,第二是時間戳,第三是日志本身的信息,把整個日志的文本當(dāng)做一個字段放到數(shù)據(jù)庫里,沒辦法針對日志里的信息進(jìn)行抽取進(jìn)行分析。數(shù)據(jù)庫沒辦法適用TB級的海量日志,現(xiàn)在產(chǎn)生的日志越來越多,每臺服務(wù)器一天產(chǎn)生幾GB甚至幾十GB的數(shù)據(jù),一個數(shù)據(jù)中心上千臺服務(wù)器一天可能產(chǎn)生幾TB的數(shù)據(jù),數(shù)據(jù)庫沒辦法處理來。

一講大數(shù)據(jù)都離不開Hadoop,Hadoop出來之后大家開始用Hadoop處理日志,首先Hadoop是批處理的框架,不夠及時。用Hadoop處理分析都是今天看昨天的數(shù)據(jù),或者是看幾個小時之前的,最快也只能看到幾十分鐘之前的,想看幾秒鐘之前的Hadoop是做不到的。所以Hadoop基本是用來做數(shù)據(jù)的離線挖掘,沒辦法做在線數(shù)據(jù)分析。后來又開始出現(xiàn)Storm、Spark,但這些都是使用框架,我們希望有個東西拿來就可以用。后來出現(xiàn)NoSQL,但沒辦法全文檢索,我們希望對日志進(jìn)行實時的搜索分析,需要有一個搜索分析引擎,要有幾個特點,一是快,日志從產(chǎn)生到分析出結(jié)果只有幾秒的延時,二是大,每天處理TB級的日志量。三是靈活,Googlefor IT,可搜索、分析任何日志。FastBig Data,除了大之外還要快。

日志管理系統(tǒng)的進(jìn)化,日志1.0數(shù)據(jù)庫,日志2.0是用Hadoop或NoSQL處理,現(xiàn)在到了日志3.0,實時搜索引擎,F(xiàn)astBig Data??删幊痰娜罩緦崟r搜索分析平臺,跟谷歌、百度的搜索引擎非常相似,有搜索框,但這個搜索框又比谷歌、百度更復(fù)雜,它定義了很多搜索處理語言。比如有管道符,還有各種命令,可以在搜索框里進(jìn)行非常復(fù)雜的分析。它可以接入各種來源的數(shù)據(jù),包括日志文件、數(shù)據(jù)庫、恒生電子交易系統(tǒng)。有企業(yè)部署版和SaaS版,SaaS版處理每天500MB日志是免費的。

可以搜索、告警、統(tǒng)計,配置解析規(guī)則,識別任何日志,安全攻擊自動識別,開放API,對接第三方系統(tǒng)。高性能、可擴(kuò)展分布式。我們看一下案例,中國平安,使用日志易之前,逐臺登陸服務(wù)器,無法集中查看日志,無法對海量數(shù)據(jù)進(jìn)行挖掘、用戶行為分析,日志查詢方法比較原始,只能less、grep和awk等常見的Linux指令,無法多維度查詢。無法進(jìn)行日志的業(yè)務(wù)邏輯分析和告警。使用日志易之后,接入60多個應(yīng)用的日志。

另外一個案例是山東移動,分析營業(yè)廳營業(yè)員做業(yè)務(wù)辦理的web請求日志。聚合出每個營業(yè)員每項業(yè)務(wù)的詳細(xì)操作步驟,對每個步驟的操作時長進(jìn)行告警、統(tǒng)計分析,這里用到搜索處理語言,這是一條搜索處理語言,這是搜索這個字段,字段后包含了文本信息,這里是一個管道符,通過這個管道符把事務(wù)命令串起來,搜索完了進(jìn)行事務(wù)的處理,一筆事務(wù)有起始的,對事物的關(guān)聯(lián)通過ID進(jìn)行,關(guān)聯(lián)之后一筆事務(wù)有開始有結(jié)束,開始查詢作為開始提交作為結(jié)束,最長的時間跨度不會超過30分鐘,超過30分鐘就不去處理了,這樣就把每一筆事務(wù)都關(guān)聯(lián)起來。這就是分析出來的結(jié)果,每一筆繳費業(yè)務(wù)的結(jié)果統(tǒng)計分析出來。

還有一個案例是國家電網(wǎng),做信息安全與事件管理。終端信息安全事件日志的調(diào)查、分析、取證,在各省分公司信息安全事件現(xiàn)場使用,快速排查日志里保留的證據(jù),為事件取證提供支持??蛻粢呀?jīng)有中國平安、國家開發(fā)銀行、中國移動、國家電網(wǎng)、小米開放平臺、樂視網(wǎng)、有利網(wǎng)這些用戶。

我今天的介紹就到這里,歡迎關(guān)注我們的公眾號。

本文題目:陳軍:IT運維分析與海量日志搜索
文章出自:http://muchs.cn/article12/chijgc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設(shè)云服務(wù)器、外貿(mào)網(wǎng)站建設(shè)、搜索引擎優(yōu)化、App開發(fā)、網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

微信小程序開發(fā)