本站小編為你精心準(zhǔn)備了系統(tǒng)日志搭建運維服務(wù)平臺的研究參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
摘要:隨著互聯(lián)網(wǎng)的加速發(fā)展,我國已逐漸地進入到互聯(lián)網(wǎng)+的時代,各行各業(yè)中的各類信息、各種系統(tǒng)和設(shè)備都并入到了信息網(wǎng)絡(luò)中。對于使用者而言,他們需要的是業(yè)務(wù)高效、安全的應(yīng)用;對于服務(wù)者而言,他們需要的則是高質(zhì)量技術(shù)服務(wù)的能力。系統(tǒng)運維能力是高質(zhì)量技術(shù)服務(wù)能力中的重中之重,系統(tǒng)日志作為系統(tǒng)運行時的即時產(chǎn)物,可以清楚地反映系統(tǒng)(設(shè)備)的運行狀態(tài),也是系統(tǒng)運維能力的直接體現(xiàn)。因此,對如何利用系統(tǒng)日志搭建高質(zhì)量運維服務(wù)平臺進行了分析,主要從日志處理、日志分析、動態(tài)展示及系統(tǒng)預(yù)警、第三方應(yīng)用4個方面展開了論述,對于快速發(fā)現(xiàn)系統(tǒng)(設(shè)備)的問題,提高運維服務(wù)能力具有重要的意義。
關(guān)鍵詞:系統(tǒng)日志;運維服務(wù)平臺;日志處理;日志分析;動態(tài)展示及系統(tǒng)預(yù)警;第三方應(yīng)用
引言
系統(tǒng)日志是記錄系統(tǒng)中軟件(設(shè)備)和系統(tǒng)問題的信息,同時其還可以監(jiān)視系統(tǒng)、硬件在運行中發(fā)生的事件。維護人員可以通過它來檢查錯誤發(fā)生的時間和原因,以便于快速地解決問題。但是,隨著系統(tǒng)(設(shè)備)的增加,日志量也日益增加,采用人工的方式逐條檢查已經(jīng)遠遠滿足不了運維的需求。此時便需要使用一套先進的、高質(zhì)量的方法對日志進行綜合分析、即時展示和監(jiān)測預(yù)警。因此,本文就如何搭建一套能幫助運維人員快速地發(fā)現(xiàn)系統(tǒng)(設(shè)備)的問題的運維平臺給出了應(yīng)用分析,具有十分重要的意義。
1系統(tǒng)日志的概述
系統(tǒng)日志是指操作系統(tǒng)、應(yīng)用系統(tǒng)及其設(shè)備產(chǎn)生的日志信息。專業(yè)來講,系統(tǒng)日志也被稱為“Syslog”,是一種工業(yè)標(biāo)準(zhǔn)的協(xié)議,用來記錄設(shè)備的日志,其是美國加州大學(xué)伯克利軟件分布研究中心(BSD)在實施TCP/IP系統(tǒng)的過程中開發(fā)的。通過對系統(tǒng)的配置,可以實現(xiàn)運行Syslog協(xié)議的機器之間的通信。系統(tǒng)日志可以獨立地運行,也可以通過搭建日志服務(wù)器來實現(xiàn)集中存儲。為了更好地對日志進行區(qū)分管理,在標(biāo)準(zhǔn)協(xié)議中我們將日志分為8個級別,分別是1級,Emergency:緊急情況,需要立即通知技術(shù)人員;2級,Alert:應(yīng)該被立即改正的問題;3級,Critical:重要情況;4級,Er-ror:錯誤,不是非常緊急;5級,Warning:警告信息,不是錯誤;6級,Notice:不是錯誤情況,也不需要立即處理;7級,Informational:情報信息,正常的系統(tǒng)消息;8級,Debug:系統(tǒng)調(diào)試信息。
2系統(tǒng)日志服務(wù)的搭建
本章重點介紹的是如何實現(xiàn)集中搭建日志存儲服務(wù),即利用Syslog協(xié)議集中收集日志信息存儲在本地服務(wù)器上。這里將日志收集過程的處理分為日志收集服務(wù)端、客戶端和日志存儲的過程3個部分,如圖1所示。
2.1搭建系統(tǒng)日志服務(wù)端目前市面上已有專用的日志審計系統(tǒng),可以用于集中收集系統(tǒng)(設(shè)備)的日志信息。但這類設(shè)備不對外開放數(shù)據(jù)提取接口服務(wù),也就是不可以對數(shù)據(jù)進行二次加工處理,我們這里需要對數(shù)據(jù)進行二次處理和展示,因此就需要自行搭建日志服務(wù)端。當(dāng)然現(xiàn)在也有很多成熟的日志收集服務(wù)軟件,例如:KiwiSyslog、Linuxsyslog和SyslogWatcher等,它們都可以很好地支持日志的收集服務(wù)。但中國市場上各類系統(tǒng)(設(shè)備)廠家眾多,他們的日志發(fā)送編碼和格式各不相同,如果使用這類軟件來接收日志,會出現(xiàn)其中有一部分數(shù)據(jù)格式錯誤、內(nèi)容亂碼等問題。這樣會造成無法對這部分的數(shù)據(jù)進行處理分析等問題,因此,需要自行設(shè)計日志接收服務(wù)端,在接收數(shù)據(jù)的同時對數(shù)據(jù)流的格式和編碼進行判斷處理,保障后期數(shù)據(jù)在使用過程中的有效性。如前所述系統(tǒng)日志也是一種工業(yè)標(biāo)準(zhǔn)協(xié)議,通常信息都是通過UDP的形式從客戶機發(fā)送到接收服務(wù)器上的,因而我們只需要建立一個UDP網(wǎng)絡(luò)服務(wù),使用514端口,用于接收日志即可。在接收數(shù)據(jù)后對數(shù)據(jù)流進行編碼處理,同時初步判斷編碼和內(nèi)容是否標(biāo)準(zhǔn);若發(fā)現(xiàn)有異,則需要重新對數(shù)據(jù)流進行編碼直到正常為止。
2.2配置系統(tǒng)日志收集客戶端服務(wù)端的數(shù)據(jù)都是由客戶端發(fā)送來的,需要將客戶端進行一一配置。當(dāng)然日志的產(chǎn)生和發(fā)送都需要遵循Syslog標(biāo)準(zhǔn),這樣才能統(tǒng)一收集和配置發(fā)送的日志信息。目前國內(nèi)系統(tǒng)(設(shè)備)研發(fā)廠家都遵循這個標(biāo)準(zhǔn),因此都滿足我們發(fā)送配置的需要,只是由于系統(tǒng)(設(shè)備)的種類和廠家不一致,因而配置的方式也會有所不同。a)在操作系統(tǒng)層面,Windows系列中需要使用一個轉(zhuǎn)換工具“Evtsys”來對系統(tǒng)日志進行轉(zhuǎn)換處理后再發(fā)送到指定的服務(wù)器上;在Linux系列上可以使用“rsyslog”來配置日志的發(fā)送信息。b)在應(yīng)用系統(tǒng)層面,可以配置應(yīng)用系統(tǒng)記錄日志的發(fā)送信息。c)在網(wǎng)絡(luò)設(shè)備層面,可以啟動日志記錄機制,配置日志發(fā)送信息。d)在安全設(shè)備層面,可以通過廠家提供的日志標(biāo)準(zhǔn)服務(wù)協(xié)議來設(shè)置。e)在物聯(lián)設(shè)備層面,可以通過對物聯(lián)設(shè)備的基礎(chǔ)配置來進行設(shè)置。
2.3系統(tǒng)日志存儲的過程搭建好日志收集服務(wù)端和配置好日志發(fā)送端后并不是就完成了對日志的收集,只是初步地完成了日志的傳輸過程。為了能對日志進行二次使用,我們必須對日志進行儲存才算是完成了日志服務(wù)的搭建,儲存分為即時數(shù)據(jù)儲存和歷史數(shù)據(jù)儲存兩個部分內(nèi)容。即時數(shù)據(jù)是指當(dāng)前還未處理的數(shù)據(jù)。即時數(shù)據(jù)儲存過程就是指將數(shù)據(jù)發(fā)送給數(shù)據(jù)處理平臺,處理平臺完成處理后再反饋處理結(jié)果,此時即時數(shù)據(jù)開始轉(zhuǎn)變?yōu)闅v史數(shù)據(jù)。歷史數(shù)據(jù)是指當(dāng)前分析完成后的數(shù)據(jù)。歷史數(shù)據(jù)可根據(jù)業(yè)務(wù)需求來選擇保存時間(如3年),歷史數(shù)據(jù)的儲存可以按時間節(jié)點進行分量儲存(如年/月/日/時/分),儲存格式為TXT,編碼方式為ANSI。
3高質(zhì)量運維服務(wù)平臺建設(shè)分析
通常來講,運維服務(wù)是指對運行的服務(wù)(軟件、硬件)進行實時的監(jiān)控,隨時發(fā)現(xiàn)運行的異常情況,對服務(wù)發(fā)生的任何異常進行及時的處理,盡可能地避免問題擴大而終止服務(wù)。一般運維都是通過人工對系統(tǒng)(設(shè)備)進行巡檢,查看系統(tǒng)(設(shè)備)是否處于正常工作狀態(tài)。此方法只能檢查出系統(tǒng)(設(shè)備)當(dāng)前的總體運行狀態(tài),不能查出一些潛在內(nèi)部的錯誤和報警信息。例如:操作系統(tǒng)記錄內(nèi)存不足、應(yīng)用系統(tǒng)記錄磁盤空間不夠、網(wǎng)絡(luò)設(shè)備報告端口供電異常、安全設(shè)備報告資源不足和物聯(lián)設(shè)備報告耗材損耗等,這些異常的信息通過常規(guī)的檢查維護都不會體現(xiàn)出來。這時,利用系統(tǒng)日志來搭建一個高質(zhì)量的運維平臺則能夠很好地解決上述問題,運維者可以從界面中隨時掌握系統(tǒng)(設(shè)備)的健康信息,還可以與段信平臺、微信公眾號聯(lián)動對接,讓運維人員隨時隨地都可以收到預(yù)警信息,達到高質(zhì)量運維服務(wù)的效果。運維服務(wù)平臺建設(shè)分日志處理、日志分析、動態(tài)展示及系統(tǒng)(設(shè)備)預(yù)警、第三方應(yīng)用4個部分,基礎(chǔ)架構(gòu)如圖2所示。
3.1日志處理平臺在接收到日志信息后先要經(jīng)過初步的處理才可以進入分析階段。在日志處理環(huán)節(jié),首先,對日志的格式進行統(tǒng)一,以便在接下來的其他處理環(huán)節(jié)減少日志處理時間;其次,對數(shù)據(jù)進行初步的分類,分類可依照日志的8個級別進行處理;第三,分類完成后再對數(shù)據(jù)進行計量操作,用于對數(shù)據(jù)的統(tǒng)計;第四,根據(jù)分類和計量結(jié)果來計算日志分析需要的線程數(shù)量;最后,進行日志分析的任務(wù)分配。3.1.1格式處理格式處理即對日志內(nèi)容進行統(tǒng)一處理,包括內(nèi)容編碼統(tǒng)一和字段內(nèi)容統(tǒng)一。編碼可以理解為對文字進行統(tǒng)一編碼,處理后顯示為非亂碼格式;字段內(nèi)容統(tǒng)一即把日志解析成為我們需要的字段,解析后的字段包括:地址、名稱、時間、級別和內(nèi)容。3.1.2數(shù)據(jù)分類數(shù)據(jù)分類是指對數(shù)據(jù)級別進行分門別類,包括級別分類和異常內(nèi)容分類,初步分類可以有效地提高后期數(shù)據(jù)處理的能力。級別分類是按日志的八大級別進行分類,其中第八級別(Debug)我們可以只做計量不做分析處理;異常內(nèi)容分類是對接收到的非正常日志內(nèi)容信息進行區(qū)分,我們把它歸入第九類,這類日志為不可分析的信息,所以也只做計量不做分析處理。3.1.3數(shù)據(jù)計量數(shù)據(jù)計量是將日志數(shù)據(jù)進行計量統(tǒng)計的處理環(huán)節(jié),是多線程量計算的數(shù)據(jù)來源依據(jù),同時也是為了方便維護人員后期做交叉對比統(tǒng)計分析。這里的計量包括分類計量和后期的數(shù)據(jù)分析計量;前者只需要對分好類別的數(shù)據(jù)做計量統(tǒng)計即可;后者則是對分析后的數(shù)據(jù)再次細分計量。3.1.4多線程量計算利用當(dāng)前分類數(shù)據(jù)量來計算程序分析數(shù)據(jù)的能力,算出同一時間需要分析完成日志信息的線程數(shù)量即是多線程量計算。多線程量計算是解決日志分析吞吐量的一個關(guān)鍵因素,每秒對日志的分析達到的最短時間除了與對分析程序的優(yōu)化有關(guān)外,還要結(jié)合處理器最大的處理能力,再合理地分配多個線程進行數(shù)據(jù)分析,充分地發(fā)揮平臺對日志的處理效率。3.1.5任務(wù)分配任務(wù)分配是將日志分配給日志分析處理的過程,是日志分析的起始點。當(dāng)前環(huán)節(jié)在接收到日志信息后判斷目前已分配的線程數(shù),結(jié)合線程的運行狀態(tài)分配新的數(shù)據(jù)給另一個線程。若全部線程還未運行完成,則反饋信息給多線程量計算處理環(huán)節(jié),檢測硬件資源是否可以支撐更多的線程來分析,如果支持則可以增加線程數(shù)據(jù)量,如果不支持則持續(xù)地等待,同時將該信息反饋給日志分析過程,用于提示用戶日志信息處理的能力情況。到這里,整個日志處理環(huán)節(jié)就形成了閉環(huán),為下一個分析階段做好了充分的準(zhǔn)備,也為運維平臺對日志的處理分析能力打下了基礎(chǔ)。
3.2日志分析日志分析是平臺經(jīng)過日志處理后再按分類要求提取有用的信息,形成結(jié)論后對數(shù)據(jù)加以詳細研究和概況總結(jié)的一個過程,這一過程也是高質(zhì)量運維管理體系支持的過程。數(shù)據(jù)分析可以幫助維護者作出判斷,以便于采取適當(dāng)?shù)男袨椤_@里我們將日志分析分為6類。3.2.1可用狀態(tài)分析系統(tǒng)(設(shè)備)的可用狀態(tài)即是系統(tǒng)(設(shè)備)是否可使用的狀態(tài),定義為5min的狀態(tài)頻率判斷。首先,在20min內(nèi)查詢系統(tǒng)(設(shè)備)是否有發(fā)生過日志信息,若未發(fā)生則需要使用5min的狀態(tài)判斷頻率去獲取系統(tǒng)(設(shè)備)的在線狀態(tài);有發(fā)生則跳過檢查。檢查完成后記錄設(shè)備的最后更新狀態(tài),為展示預(yù)警做好數(shù)據(jù)準(zhǔn)備。3.2.2緊急事件分析緊急事件是指系統(tǒng)(設(shè)備)發(fā)生的急需要處理的事件,若不處理則會導(dǎo)致系統(tǒng)(設(shè)備)不可使用,也指系統(tǒng)(設(shè)備)本身發(fā)生的事件,例如:故障、資源不足等。我們需要對日志進行分析,過濾排除掉這類信息,并將其記錄、推送至緊急事件處理表中。3.2.3錯誤提示分析錯誤類信息是指系統(tǒng)(設(shè)備)發(fā)生的常規(guī)異常信息,這類信息在短時間內(nèi)不能反映系統(tǒng)(設(shè)備)的健康程度,但是可以根據(jù)這類信息來反饋系統(tǒng)(設(shè)備)在接下來運行的一段時間內(nèi)有可能發(fā)生的故障。通過錯誤提示發(fā)生的頻率來判斷錯誤有可能發(fā)生的時間點,運維者就可以提前做好維護準(zhǔn)備,不用擔(dān)心事件發(fā)生的突然性。3.2.4告警分析告警分析主要是用來分析提取出系統(tǒng)(設(shè)備)目前發(fā)生的比較緊要的事件信息。通常告警信息包括狀態(tài)、緊急事件兩大類,這里作為整合的一個告警分析功能是用于界面展示提示。3.2.5黑客攻擊分析系統(tǒng)(設(shè)備)最大的威脅來自外界的黑客攻擊,維護者需要隨時掌握系統(tǒng)(設(shè)備)被攻擊的狀態(tài)信息,隨時做好應(yīng)急處理措施。平臺通過對部分設(shè)備的日志進行分析后可以掌握攻擊者的攻擊信息和攻擊目錄信息,從而對癥做好保護措施。3.2.6異常利用分析系統(tǒng)(設(shè)備)的異常主要是維護異常,平臺結(jié)合維護者對系統(tǒng)(設(shè)備)的在線維護產(chǎn)生的登錄日志進行分析,非維護期間產(chǎn)生的登錄信息則是異常行為,系統(tǒng)會及時地記錄此類異常行為并推送給展示平臺用于告警維護。
3.3動態(tài)展示及系統(tǒng)(設(shè)備)預(yù)警從日志收集到日志處理再到日志分析,這一切的準(zhǔn)備都是為了日志展示和預(yù)警,展示是為了更加直觀地體現(xiàn)系統(tǒng)(設(shè)備)的運行情況,預(yù)警是為了及時地掌握系統(tǒng)(設(shè)備)事件信息,都是為了輔助和提高維護者對系統(tǒng)(設(shè)備)的運維能力。3.3.1系統(tǒng)(設(shè)備)安全展示系統(tǒng)(設(shè)備)安全是指系統(tǒng)(設(shè)備)自身安全和運行安全,主要反饋系統(tǒng)(設(shè)備)被攻擊的頻率和運行環(huán)境的安全。互聯(lián)網(wǎng)+時代的到來,引來了來自各界的各類攻擊,安全防護已成為了建設(shè)和監(jiān)控的重點,因此我們需要隨時掌握系統(tǒng)(設(shè)備)的攻擊安全狀態(tài),并提前做好防范,以保障系統(tǒng)(設(shè)備)的安全運行。3.3.2應(yīng)用狀態(tài)展示應(yīng)用狀態(tài)是指系統(tǒng)(設(shè)備)的可運行狀態(tài),這里將其分為可用和停用兩類。設(shè)置輪播巡視界面展示所有需要監(jiān)控對象的運行狀態(tài),通過這種簡單直接的方式可以更好地對系統(tǒng)(設(shè)備)進行監(jiān)控。3.3.3運行健康展示運行健康是指系統(tǒng)(設(shè)備)發(fā)生綜合性事件的頻率,包括帶故障運行時間、離線次數(shù)。系統(tǒng)(設(shè)備)運行健康的程度直接體現(xiàn)了系統(tǒng)(設(shè)備)的運行健康情況,同時也可以反映出維護者對其運維的能力。3.3.4預(yù)警預(yù)警是指對已整合的資源進行分析,獲取危險源、隱患和運行狀況信息,進行監(jiān)測監(jiān)控,分析風(fēng)險隱患,預(yù)防潛在危害。平臺除了要有展示功能外,最重要的還是要有預(yù)警提示功能,遇到重要信息時需要告警,將有故障或即將要發(fā)生故障的系統(tǒng)(設(shè)備)及時地推送出來,讓運維者做好提取準(zhǔn)備,隨時處理告警信息。
3.4第三方應(yīng)用要搭建一個高質(zhì)量的運維平臺,不僅需要依靠系統(tǒng)自身的建設(shè),還要結(jié)合目前市面上最常用的通訊工具和手段來配套運行。當(dāng)運維人員在現(xiàn)場辦公時,我們可以利用這個平臺直觀地對系統(tǒng)(設(shè)備)進行監(jiān)管,當(dāng)我們離開工作場所時則可以通過移動終端工具來掌握系統(tǒng)(設(shè)備)的運行狀態(tài),遇到緊急事件時也可及時地收到信息并找到處理方法。3.4.1APP應(yīng)用APP應(yīng)用是在智能化終端發(fā)展路上必要的產(chǎn)物,是手機、平板必不可缺的應(yīng)用。在平臺建設(shè)中可獨立地研發(fā)出APP展示預(yù)警功能應(yīng)用,移植平臺本身的展示功能,通過專用APP可以更專業(yè)地為運維人員提供運維服務(wù)。3.4.2微信應(yīng)用手機微信作為最近幾年最火、最流行、運用得最廣泛的網(wǎng)絡(luò)社交工具,當(dāng)然也需要配套使用,綁定運維人員的微信賬號,利用微信的“企業(yè)微信”和“微信小程序”功能可更方便地提供信息通知和對事件處理的能力。3.4.3短信應(yīng)用筆者認為手機短信通知是目前最簡單、最粗暴、最有效的功能應(yīng)用,作為一種安全、可靠的信息通知手段,在未來的十幾年內(nèi)都具有核心價值。我們可以將一級最重要的信息推送給運維人員,以告知當(dāng)前急需處理的事件。
4結(jié)束語
基于系統(tǒng)日志搭建高質(zhì)量運維服務(wù)平臺是為了能夠掌握所運維的系統(tǒng)(設(shè)備)的運行狀態(tài),提供線上預(yù)警方式,是運維服務(wù)能力的重要體現(xiàn)。在實際運維中,還可以通過其他手段來保障系統(tǒng)(設(shè)備)的正常運行。但在信息社會快速發(fā)展的今天,應(yīng)該正確地認識信息手段帶給我們的影響。通過收集日志信息來搭建的運維服務(wù)平臺是高效的、也是高質(zhì)量的,其可以提高運維能力及帶動運維服務(wù)發(fā)展,為支撐互聯(lián)網(wǎng)+的發(fā)展服務(wù)打下堅實的基礎(chǔ)。
參考文獻:
[1]王慶波.云計算寶典[M].北京:電子工業(yè)出版社,2011.
[4]安德森.信息安全工程[M].北京:清華大學(xué)出版社,2012.
[5]公安部信息安全等級保護評估中心.信息安全等級測評培訓(xùn)教材(中級)[M].北京:電子工業(yè)出版社,2011.
[6]任偉.物聯(lián)網(wǎng)安全[M].北京:清華大學(xué)出版社,2012.
作者:王小平 單位:工業(yè)和信息化部電子第五研究所