本站小編為你精心準備了數(shù)據(jù)挖掘下的臭氧發(fā)生器故障檢測方法參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
摘要:將臭氧發(fā)生器系統(tǒng)做為研究對象,通過數(shù)據(jù)挖掘技術(shù)對系統(tǒng)故障進行檢測。使用數(shù)據(jù)預處理技術(shù)對數(shù)據(jù)集進行整理工作,并通過數(shù)據(jù)特征分析對有效數(shù)據(jù)進行篩選,最后利用兩種數(shù)據(jù)模型分別對系統(tǒng)故障進行檢測。結(jié)果表明基于數(shù)據(jù)挖掘的臭氧發(fā)生器故障檢測方法可以準確檢測系統(tǒng)故障。
關(guān)鍵詞:數(shù)據(jù)挖掘;臭氧發(fā)生器;故障檢測;K均值聚類算法;線性回歸
隨著人工智能技術(shù)的發(fā)展和硬件計算能力的提升,基于數(shù)據(jù)建模的工業(yè)自動化方案可行性越來越高,利用數(shù)據(jù)挖掘技術(shù)解決工業(yè)難題已成為一種趨勢。對于國內(nèi)技術(shù)較為落后的臭氧發(fā)生器系統(tǒng)而言,若能找到隱藏于眾多數(shù)據(jù)中的潛在聯(lián)系并加以利用,將可大大提高生產(chǎn)效率。本文通過對臭氧發(fā)生器歷史數(shù)據(jù)進行大量的數(shù)據(jù)挖掘工作,以對系統(tǒng)故障進行檢測。
1數(shù)據(jù)預處理
數(shù)據(jù)預處理[1](DataPreprocessing)是指在數(shù)據(jù)挖掘以前對數(shù)據(jù)進行的一些處理?,F(xiàn)實環(huán)境中的數(shù)據(jù)大體上都是不完整、不一致的臟數(shù)據(jù),無法直接進行數(shù)據(jù)挖掘,或挖掘結(jié)果不盡如人意。為了提高數(shù)據(jù)挖掘質(zhì)量,發(fā)展出了數(shù)據(jù)預處理技術(shù),其有多種方法,包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換等。臭氧發(fā)生器數(shù)據(jù)主要包含水路、氣路的傳感器數(shù)據(jù)和臭氧發(fā)生器電源及放電室的相關(guān)數(shù)據(jù),由于數(shù)據(jù)來源于較為復雜的工業(yè)現(xiàn)場,海量數(shù)據(jù)中可能會存在測量儀器異常及通信線路干擾等產(chǎn)生的異常數(shù)據(jù),這些異常數(shù)據(jù)與在臭氧發(fā)生器正常運行狀態(tài)下映射關(guān)系是不同的。并且在工業(yè)現(xiàn)場臭氧發(fā)生器設(shè)備大部分時間均在正常情況下運行,因此會產(chǎn)生大量重復數(shù)據(jù),這些數(shù)據(jù)我們統(tǒng)稱為冗余數(shù)據(jù),如果不將這些數(shù)據(jù)進行刪除,會顯著降低數(shù)據(jù)挖掘速度以及模型的精準度,因此在對數(shù)據(jù)進行挖掘前應根據(jù)數(shù)據(jù)集特征進行合理的預處理。本文中所用臭氧發(fā)生器系統(tǒng)數(shù)據(jù)均來源于河南省某公司的同一設(shè)備,所用數(shù)據(jù)集選取的時間段為2018年3月上旬至11月下旬,去除設(shè)備斷電期間,存在有效數(shù)據(jù)的天數(shù)共210天,數(shù)據(jù)總大小約為2.1GB(csv格式),在這些數(shù)據(jù)中存在眾多重復數(shù)據(jù),為了提高模型訓練速度,首先將重復數(shù)據(jù)刪除。去除重復數(shù)據(jù)后,數(shù)據(jù)量將大大減少,此時進一步刪除存在異常的數(shù)據(jù)。在確定異常數(shù)據(jù)時,需要利用一定的專家建議去對異常數(shù)據(jù)進行鎖定。通過臭氧發(fā)生器系統(tǒng)的相關(guān)知識與經(jīng)驗,找到對模型起到負面作用的數(shù)據(jù)并進行刪除。最后由于存在臭氧發(fā)生器系統(tǒng)上電,但高頻電源并未起振的情況,故對功率設(shè)置百分比小于80%(功率設(shè)置值小于4)的數(shù)據(jù)不進行使用。經(jīng)過上述操作后可知每日設(shè)備數(shù)據(jù)量大多數(shù)相近,但也有一些時間段數(shù)據(jù)量顯著低于其他時間,經(jīng)過分析,該時間段服務器程序為關(guān)閉狀態(tài),導致并未儲存當天的全部數(shù)據(jù),但是由于每條數(shù)據(jù)均具有時間戳作為索引,對之后的數(shù)據(jù)特征分析和模型訓練不會產(chǎn)生影響。并且經(jīng)過去重復值操作后的數(shù)據(jù)減少比例最高,去除異常值之后的數(shù)據(jù)量變化較不明顯,由此表明數(shù)據(jù)集中重復數(shù)據(jù)較多,而異常數(shù)據(jù)較為稀少。而在去除未起振值后有兩個時間段數(shù)據(jù)量幾乎降至為零,經(jīng)過查看工作日志發(fā)現(xiàn)該段時間設(shè)備出現(xiàn)硬件損壞,上傳的數(shù)據(jù)多為調(diào)試時的未起振數(shù)據(jù)。
2數(shù)據(jù)特征分析
數(shù)據(jù)特征一般可從數(shù)據(jù)集自身獲取,也可通過外部數(shù)據(jù)輔助得出,兩種方式對數(shù)據(jù)建模均有很大幫助。
2.1數(shù)據(jù)集內(nèi)部特征分析
為了對數(shù)據(jù)有初步的了解,先對數(shù)據(jù)自身的特征進行詳細分析。當前數(shù)據(jù)可分為傳感器數(shù)據(jù)和高頻電源、放電室數(shù)據(jù),兩類數(shù)據(jù)的類型不同,變化方式不同,因此數(shù)據(jù)特征也有所不同,所以對兩類數(shù)據(jù)也使用了不同方法進行分析。其中對傳感器數(shù)據(jù)的離散程度[2]進行了分析,將某日數(shù)據(jù)中每個參數(shù)的唯一值數(shù)量進行了統(tǒng)計,統(tǒng)計結(jié)果如圖1所示。已知當日數(shù)據(jù)經(jīng)過預處理后剩余數(shù)據(jù)總數(shù)為18746條,從圖1可看出傳感器數(shù)據(jù)中臭氧濃度數(shù)據(jù)的變化范圍最大,共有2261條不同數(shù)據(jù),占總數(shù)據(jù)的12.06%。并且冷卻水壓力、氧氣壓力和功率設(shè)定三個數(shù)據(jù)均只有兩個不同數(shù)值,通過查看具體數(shù)值發(fā)現(xiàn)兩個數(shù)值之差幾乎為零,由此可知去除異常時段后,剩下時間的冷卻水壓力和氧氣壓力數(shù)值十分穩(wěn)定。并經(jīng)過對比分析功率設(shè)定、冷卻水壓力、氧氣壓力數(shù)據(jù)集后發(fā)現(xiàn)它們不存在相互對應關(guān)系,由此確定這三項數(shù)據(jù)集中度過高,不宜加入訓練模型之中,故舍棄該三項數(shù)據(jù)。接著對某日高頻電源與放電室數(shù)據(jù)進行分析,已知該類數(shù)據(jù)多為設(shè)定值,多數(shù)情況下該類數(shù)據(jù)不會發(fā)生改變,因此不需對數(shù)據(jù)進行唯一值統(tǒng)計。該類設(shè)定值數(shù)據(jù)雖然變化較少,但是稍微調(diào)整就會對眾多參數(shù)產(chǎn)生影響,因此可對高頻電源與放電室數(shù)據(jù)進行相關(guān)性分析。由于固有諧振頻率與傳感器數(shù)據(jù)、高頻電源、放電室數(shù)據(jù)均有聯(lián)系,因此計算出所有數(shù)據(jù)與固有諧振頻率的Pearson相關(guān)系數(shù)[3],其結(jié)果如表1。表1統(tǒng)計了所有參數(shù)與固有諧振頻率的Pearson相關(guān)系數(shù),Pearson相關(guān)系數(shù)由0到1表示相關(guān)性的弱到強,其中0至0.2表示數(shù)據(jù)之間存在極弱相關(guān)性,0.2至0.4為弱相關(guān),0.4至0.6為中等相關(guān),0.6至0.8為強相關(guān),0.8至1為極強相關(guān)。通過上表可知冷卻水流量、氧氣露點溫度與固有諧振頻率為極弱相關(guān),因此在訓練模型時刪除這些數(shù)據(jù)。給定頻率、臭氧濃度、功率設(shè)置三個參數(shù)對臭氧發(fā)生器固有諧振頻率影響較大,其他參數(shù)雖然與固有諧振頻率的相關(guān)系數(shù)不高,但是也有一定的依賴關(guān)系,通過訓練數(shù)據(jù)模型將可最大化利用這些數(shù)據(jù),從而更加精準地預測固有諧振頻率。
2.2使用外部數(shù)據(jù)的特征分析
為了更進一步了解臭氧發(fā)生器系統(tǒng)數(shù)據(jù)特征,將外部因素對整個臭氧發(fā)生器系統(tǒng)數(shù)據(jù)的影響進行了分析。經(jīng)過對臭氧發(fā)生器所在環(huán)境分析發(fā)現(xiàn):臭氧發(fā)生器所處地區(qū)的氣溫與系統(tǒng)狀態(tài)也存在關(guān)系。因此對當?shù)氐臍鉁財?shù)據(jù)與臭氧發(fā)生器中的溫度類數(shù)據(jù)進行了比較,其中對溫度變化情況較多的三月氣溫數(shù)據(jù)以及各月的平均氣溫數(shù)據(jù)進行了以下分析:與臭氧發(fā)生器系統(tǒng)中外冷卻水溫度、冷卻水溫度、氧氣溫度的數(shù)據(jù)對比曲線,第二列為與每月平均氣溫數(shù)據(jù)的對比曲線,本地氣溫對臭氧發(fā)生器水路溫度影響較小,但氧氣溫度會和氣溫發(fā)生相同趨勢的變化。而且還能看出外冷卻水溫度與冷卻水溫度之間也存在相同的情況,因此可將本地的氣溫數(shù)據(jù)加入數(shù)據(jù)集中,在之后的訓練模型過程中用于提高數(shù)據(jù)模型精度。
3故障檢測
可將系統(tǒng)故障分為管路故障和頻率不匹配故障兩類,其中管路故障不存在評定指標(即數(shù)據(jù)集不存在標簽),需要使用非監(jiān)督學習中的聚類算法進行故障檢測;頻率不匹配故障則可以使用固有諧振頻率作為標簽,通過監(jiān)督學習查找眾多參數(shù)與固有諧振頻率之間的映射關(guān)系。根據(jù)臭氧發(fā)生器自身特性可知,管路故障由自身內(nèi)在原因引起,高頻電源和放電室數(shù)據(jù)中除輸出功率可影響水路溫度以外,其他參數(shù)對管路不起任何作用,但固有諧振頻率卻受管路中大多數(shù)據(jù)影響,因此為了減少無關(guān)數(shù)據(jù)對兩類數(shù)據(jù)模型的影響,分別選用不同的數(shù)據(jù)集合進行數(shù)據(jù)挖掘。通過對臭氧發(fā)生器數(shù)據(jù)進行特征分析,將數(shù)據(jù)模型所用數(shù)據(jù)進行了大致篩選,兩類故障所用數(shù)據(jù)進行如圖3的劃分。將不同模型所用數(shù)據(jù)進行劃分之后,即可使用相關(guān)數(shù)據(jù)進行故障診斷及功率控制工作。
3.1基于聚類模型的管路故障檢測
聚類算法是一種常用的無監(jiān)督學習算法,可在數(shù)據(jù)集標簽未知的情況下尋找眾多數(shù)據(jù)間不易察覺的關(guān)系及規(guī)律。本文通過K-means算法[4]實現(xiàn)聚類,K-means算法是一種基于距離的聚類算法,通過距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度越大。該算法認為“簇”是由距離靠近的對象組合而成,因此把簇分得越緊湊越獨立作為最終目標。算法的核心是通過迭代來尋找K個簇的劃分方案,使得用這K個簇代表各簇樣本時所得的總體誤差最小,K-means算法計算誤差采用的代價函數(shù)為最小誤差平方和[5],其代價函數(shù)可表示為:式中Uc(i)表示第i個聚類的均值。各簇內(nèi)的樣本越相似,其與該類簇的誤差平方越小,對所有類所得的誤差平方和求和,即可驗證分為K類時是否最優(yōu)。但是此代價函數(shù)無法通過解析的方法使誤差最小化,因此需要加入迭代過程。在模型訓練過程中由于所選數(shù)據(jù)集太過龐大,但是故障數(shù)據(jù)較少,并且管路故障通常會在較長時間內(nèi)逐漸產(chǎn)生,且越來越嚴重,因此對每天只采用其中3項數(shù)據(jù)對原始數(shù)據(jù)集進行稀釋[6],經(jīng)過對數(shù)據(jù)集進行K=2、3、4、5四種情況聚類后,其結(jié)果如圖4所示。K-means算法中的參數(shù)為簇數(shù)2至5,并發(fā)數(shù)為4,迭代次數(shù)為500。當簇數(shù)K=2時,圓點代表的數(shù)據(jù)遠遠大于下三角代表的數(shù)據(jù),圓點數(shù)據(jù)占總數(shù)據(jù)95%以上,并且它們之間有較為明顯的分界線;當K=3時,K-means模型將K=2時的大比重數(shù)據(jù)分為了兩類,并且可看出它們之間的界限較為模糊;當K=4時,模型不僅將K=2時的大比重數(shù)據(jù)進行了分割,也將小比例數(shù)據(jù)分成了兩個簇;而K=5時,只是將大比重數(shù)據(jù)再進行了一次三類劃分。通過以上分析,當K=2時數(shù)據(jù)劃分過于簡單,因此不適合發(fā)現(xiàn)更多的故障數(shù)據(jù);K=5時對大占比數(shù)據(jù)進行劃分的分界線難以確定。通過嚴謹分析決定將將管路故障分為3類最為妥當。最后根據(jù)對每個簇數(shù)據(jù)分析結(jié)果及專家解釋將故障分為氧氣不足、氧氣溫度異常、冷卻水失效3類,其在臭氧發(fā)生器系統(tǒng)狀態(tài)上的直接體現(xiàn)如下:1)氧氣不足:氧氣壓力降低,氧氣流量突降,此類故障一般在短期內(nèi)突然出現(xiàn),在K=4時的圖表中以上三角顯示;2)氧氣溫度異常:氧氣溫度與平均值相差較多,一般出現(xiàn)在極端天氣,在K=4時的圖表中以五角星顯示;3)冷卻水失效:冷卻水溫度、外冷卻水溫度基本相同,并且高于平均值,此類故障一般發(fā)生在較熱天氣,導致冷卻水失去冷卻效果,在K=4時的圖表中以下三角顯示。最后以圓點表示的數(shù)據(jù)為正常數(shù)據(jù),但是通過圖表可看出該類數(shù)據(jù)集中度較低。通過分析發(fā)現(xiàn),主要原因為臭氧發(fā)生器水路過濾裝置會在使用過程中逐漸被雜質(zhì)堵塞,從而導致冷卻水壓力緩慢升高、冷卻水流量降低。由于此問題較易被發(fā)現(xiàn),且周期較長,不將此問題歸為故障。
3.2基于線性回歸模型的頻率不匹配故障檢測
已知頻率不匹配故障是所有故障中對臭氧產(chǎn)量影響最為嚴重的故障,頻率不匹配將大大降低工作效率。造成該故障的因素眾多,很難通過人力觀察找到解決辦法。目前已知該故障與眾多參數(shù)具有相關(guān)性,并且通過當前設(shè)定功率與電流大小即可知頻率是否匹配。預測固有諧振頻率的大小是檢測頻率不匹配故障的首要任務,本文使用基于監(jiān)督學習的數(shù)據(jù)模型進行故障檢測。相比較于無監(jiān)督學習在無標簽下進行訓練,監(jiān)督學習則依賴于標簽才能訓練出一個數(shù)據(jù)模型。正是因為標簽的存在,監(jiān)督學習不再需要通過計算各個數(shù)據(jù)間的“距離度量”來查找數(shù)據(jù)關(guān)系,而是通過“性能度量”來表現(xiàn)眾多數(shù)據(jù)與標簽的相關(guān)聯(lián)系,再通過“性能度量”作為參考量逐漸訓練出最符合數(shù)據(jù)關(guān)系的模型。對于本小節(jié)所進行的頻率不匹配故障檢測,線性回歸模型能夠完全發(fā)揮作用。在進行線性回歸學習之前,需要對數(shù)據(jù)集進行訓練集和測試集的劃分。劃分訓練集和測試集是由于在線性回歸模型訓練過程中會出現(xiàn)過擬合[7]現(xiàn)象。目前常用的劃分方法有留出法、k折交叉驗證法[8]、自助法三種。本文使用最為常用的k折交叉驗證方法,并將數(shù)據(jù)集分為五折進行交叉驗證。通過五折交叉驗證后基于線性回歸模型進行的固有諧振頻率預測較為準確,預測值變化趨勢同真實值基本一致,因此該預測結(jié)果可用于對頻率不匹配故障的檢測之中。由于臭氧發(fā)生器能夠通過眾多參數(shù)預測固有諧振頻率,因此可通過各參數(shù)計算超前值預測固有諧振頻率即將變化的趨勢。超前值表示依照當前情況繼續(xù)發(fā)展數(shù)據(jù)將會達到的數(shù)值,在數(shù)據(jù)挖掘中通常使用計算超前值的方法作為時間序列預測的主要手段。本文使用較為常見的累計誤差作為計算方法,計算公式如下:式中m為參數(shù)編號,Dm為參數(shù)m的超前值,x0為m參數(shù)當前數(shù)值,x1為上一次數(shù)值,數(shù)值x0至x100分別為該數(shù)值的最新數(shù)值到之前的100個數(shù)值,Pm為參數(shù)m的比例系數(shù)。該公式可計算出每個參數(shù)的超前值,之后通過超前值進行超前固有諧振頻率預測,并通過以下方法進行故障檢測:通過圖5可知,在頻率不匹配故障檢測的過程中,主要是將各參數(shù)的超前值代入已訓練好的線性回歸模型,從而預測出超前固有諧振頻率,然后將預測的固有頻率與當前的固有諧振頻率進行對比,如果預測值與當前值差距較大,說明諧振頻率按當前情況繼續(xù)發(fā)展下去將會發(fā)生頻率不匹配故障。
4結(jié)束語
本文方法能夠準確、有效對臭氧發(fā)生器系統(tǒng)故障進行檢測,不僅節(jié)省了人工成本,也保證了系統(tǒng)的安全與可靠。
參考文獻
[2]朱田華,周軍,劉旭華.一種基于數(shù)據(jù)分布特征的模糊規(guī)則提?。跩].遼寧工業(yè)大學學報(自然科學版),2013,33(2):83-85
[3]張建勇,高冉,胡駿,等.灰色關(guān)聯(lián)度和Pearson相關(guān)系數(shù)的應用比較[J].赤峰學院學報(自然科學版),2014(21):1-2
[4]宋喜忠.基于K-Means和粗糙集神經(jīng)網(wǎng)絡(luò)的節(jié)點故障診斷[J].信陽師范學院學報(自然科學版),2014(2):292-295
[5]柴志剛,侯豪峰,李愛東.基于誤差平方和極小化的多模型組合預測研究[J].中國水運:下半月,2008,8(11):33-34
作者:董哲 趙磊 翟維楓 劉蕾 單位:北方工業(yè)大學電氣與控制工程學院