美章網 資料文庫 電力文本挖掘技術研究范文

電力文本挖掘技術研究范文

本站小編為你精心準備了電力文本挖掘技術研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

電力文本挖掘技術研究

【關鍵詞】電力文本;文本挖掘;信息檢索;機器學習

1引言

當前,大數據云計算研究的成熟與發展推動著電子化自動化技術的產業應用。智能電網的管理、服務、監測、運行、診斷、營銷、評估等方方面面的工作開始獲得一體化聯網管理模式。信息的高度集中使得大量的非結構化關鍵性數據與內容存在于各類形式以及多種來源的文本文件中。井噴式增長的電力大數據對于智能電網的研究意義已獲得業內普遍認可。它既是智能電網發展的前沿領域,也是關鍵技術基礎。作為資源密集型的電網企業,大數據資源的科學統籌管理與綜合分析是關鍵任務之一。電力文本數據具有的數據體量大、類型豐富、信息密度低、更新速度快的特征。其中,數據體量大,指24小時全時段無間歇運作的電力設備系統不斷產生數目龐大的數據;類型豐富,指電力數據描述電力系統運行的方方面面包括設備運行監測診斷維護,電網公司運營評估,客戶相關信息報告,呈現數據形式多樣,數據來源多樣,數據內容多樣的現象;價值密度低,指異常數據占比低,但數據價值高。因此采用文本挖掘技術挖掘電力文本具有很高的應用意義。目前,文本挖掘技術主要被應用于醫學信息、生物學、社交媒體等領域,而在電力行業內則停留于研究實驗階段。人工智能及其子方向自然語言處理理論與技術的發展為電力文本挖掘的實現提供先決條件。與此同時,電力企業長期運營所積累的大量數據為電力文本挖掘的研究提供數據保障。電力行業經過長期發展,在數據管理分類,規程規章,數據體制方面有較高的完整性和統一性。上述三點為未來完全實現對電力文本的自動化知識與關鍵內容獲取具有可行性以及技術保障。根據電力文本挖掘技術目前的研究探索與實驗,本文將就電力文本挖掘技術的研究成果與初期應用探索展開討論。重點就文本挖掘技術及其電力領域應用、研究現狀、未來工作與挑戰做簡要分析。

2文本挖掘技術

文本挖掘作為自然語言處理與數據挖掘的交叉應用,該概念于20世紀80年代中期被正式提出,至今以經過30多年的發展。隨著大數據時代的到來,該項技術重新受到關注與應用。文本挖掘的主要任務是從大量現有非結構化文本數據中挖掘未知的、價值高的、高可用的結構化知識,并應用于信息管理、組織、歸納、二次利用。文本挖掘技術主要涉及三方面的內容。如圖1所示,文本挖掘的發展主要基于深度學習、機器學習、自然語言處理、概率統計為理論依據。換言之,文本挖掘是上述理論的具體任務。技術基礎部分主要包含文本信息抽取、文本分類、文本聚類、文本數據壓縮、文本數據處理。在此基礎之上主要應用信息訪問和知識發現,其中信息訪問具體涉及信息檢索、信息瀏覽、信息過濾、信息報告,知識發現則涉及數據分析、數據預測。具體應用領域主要覆蓋于醫學生物以及社交媒體信息的研究,如醫學知識圖譜構建,電子病歷自動處理,文獻自動閱讀、用戶行為分析、情感分析、話題熱度監測及分析等方面的工作。

3文本挖掘

3.1文本挖掘難點

文本挖掘的難點主要來源于兩個方面——文本數據和應用領域。文本作為一種非結構數據,本身存在諸多難點需要克服。文本作為語言的一種表示形式以及種類多樣,不同語種的語法不同,無統一且機器可理解的形式與規則。第二,從語言學的角度看,文本本身存在諸多語言學現象,使得理解過程中容易出現歧義和模糊,為機器理解增添難度。第三,缺乏高可用且評估性能高的數據集。除了針對社交類、新聞類等開放性文本以外,文本挖掘技術的價值更是應用于生物醫學、教育教學、電力電網等社會或生產領域中。無論是開放性文本或是領域性文本,都需要結合應用場景和所用語言做出針對性的、準確的、高效的文本挖掘工具。從宏觀上看,這類工具的魯棒性較差,效果欠佳,目前尚無解決方案。由于電力行業的文本一般是人工書寫完成,存在一定數量的書寫錯誤,語法錯誤、歧義錯誤等。因此,在文本挖掘過程中,容錯性以及錯誤理解性也是數據處理人員需要優化解決的一項挑戰。除此之外,領域性文本也包含了大量表格型數據。因此,針對這類數據的挖掘也是文本挖掘中的一項重要子任務。

3.2電力文本挖掘方法

3.2.1電力文本挖掘預處理與一般的文本挖掘不同,電力文本挖掘在考慮確定問題需求的初始階段時,需要就文本類型做基于電力專業知識的內容分析。電力行業涉及的文本類型豐富,來自不同部門、不同崗位、不同設備、不同領導層次等等,且這一特點具體體現在文本挖掘的各項子任務中。如命名實體識別(NamedEntityRecognition,NER),是實現文本分類,自動評估、自動篩檢的基礎任務。其具體目標是從電力數據文本中識別出關鍵的指定性內容,如工程屬性,設備名稱、運行數據等,從電力專業的角度實現關鍵信息的抽取和分類。電力文本常以非結構化的自由數據形式存在,因此在進行文本挖掘的初始準備階段,需要完成文本數據預處理以及文本表示的工作,之后才能進行文本挖掘工作。文本預處理的具體工作一般包含中文分詞、取停用詞、詞性標注等。除此之外,預處理工作中一項重要子任務是構建電力文本問題語料庫并在此基礎之上建立領域性字典。其中在語料庫數據采集上,需要盡可能保證數據集的平衡性和多樣性。換言之,我們需要盡量從電力部門現有的各類文本數據中選取,如電力設備的運行、維護、測試報告或日志,供電局現場維修記錄單、工單,電力行業工作守則、指南、標準等等。在此基礎之上,結合現有的通用字典,在優先完成去除停用詞的前提下,采用基于統計的分詞方法,如隱馬爾科夫鏈或是條件隨機場模型等對文本做分詞處理,并根據詞頻做排序,之后還需要電力專業人員做人工校正并進行補充更新,以保證字典的科學性、準確性和及時性,為之后的工作提供數據保障和資源支持。

3.2.2電力文本的表示方法除了高效準確平衡的數據集之外,在被廣泛應用的深度學習模型算法中,文本數據的計算機可理解化表示是電力文本數據挖掘過程中需要解決的另一個問題。常用的表示方法有空間向量模型、嵌入式向量模型、正則表達式、樹結構模型等。不同模型的側重點有區別,需要基于任務目標合理選擇。如前文所提到的,常用的兩類向量表示方法中空間向量模型主要關注句子的整體內容而忽略句中詞語的順序;嵌入式向量模型則關注于句子中的關鍵信息的內涵以及優先級排序。目前,處理這類問題的主流方法是詞袋方法以及Word2Vec方法。基于向量空間模型的詞袋方法簡單且可操作性強,但是以升高維度和忽略上下文內容為代價。而Word2Vec則是由目前被廣泛應用的神經網絡訓練獲得的,因此,相較于詞袋方法,具有詞向量緯度的特點,且通過計算向量相似度的手段在訓練階段即考慮上下文對模型以及最終預測結果的影響。Doc2Vec則是基于Word2Vec發展起來的方法,旨在實現抽取主要內容實現文本摘要的工作。

3.3命名實體識別以及關系抽取

廣譜型的命名實體識別旨在識別出現在文本數據中的人名、地名、機構名、時間、日期、貨幣和百分比,而領域型的命名實體識別則更加注重研究、設備運營以及生產領域文本數據的類別性的關鍵實體內容抽取工作,也是實現構建電力系統知識圖譜電力文本數據分類、關系抽取、文本摘要的首要任務之一,包括前文提及的文本數據預處理,基于專業知識的文本數據分析、模型訓練、測試等子任務。針對電力文本的數目多、體量大、內容雜的特點,命名實體識別方法有利于快速有效的實現句子關鍵信息的識別以及分類,為之后的命名實體間的關系抽取提供前提保障。如圖2所示,命名實體識別的步驟主要包括數據清洗、預處理、模型訓練以及實體識別,其中還包含非常重要的一步,數據標注。數據標注的質量一定程度上影響著實體識別結果的準確性。常用的命名實體識別工作是使用條件隨機場以及深度學習的方法。關系抽取一般使用基于規則、監督學習、半監督以及無監督學習。基于規則的方法是從語法規則以及語法現象的角度尋找主謂賓、suchas、including等語言結構。此類方法準確度高,適合垂直場景,但其缺點也很明顯,信息覆蓋率低、人力成本高、設計難度高使得這類方法無法在電力文本數據這類領域性文本中推廣。而監督學習提高了模型的魯棒性,但前期的準備工作需要專業性知識的介入,如定義關系和實體類型,并準備好已標注實體以及關系的訓練數據。接下來則是提取特征,并對特征做分類。特征包括此特征和位置特征。上述方法中的數據標注需要耗費大量的人力物力,且對標注人員的專業性要求高。但由于其較好的預測效果使之依然被應用在很多工作中。而半監督學習一定程度上解決了監督學習的這一缺點,它只需要少量的標注語料以及大量未被標注的預料數據,逐漸獲得在生產中獲得應用。

4結語

文本挖掘是集統計學、數據分析處理、機器學習、深度學習、語言學、數據庫技術等多學科于一體的新興手段。該項技術的發展使大量隱藏于文本數據背后的關鍵信息和知識被人們快速獲取。未來的研究方向中也將朝著電力運維中文知識圖譜的構建工作中,幫助快速高效的做出設備診斷。在電力生產中的應用將有利于高效準確地獲取文本數據中的關鍵信息,尤其在電力設備運營維護以及現場作業方面發揮重要作用,也有利于推動電力企業信息電子化的進程以及智能電網的發展,具有極大的應用和研究價值。

參考文獻

[7]楊錦鋒,于秋濱,關毅,蔣志鵬.電子病歷命名實體識別和實體關系抽取研究綜述[J].自動化學報,2014,40(08):1537-1562.

[9]鄒濤.一種電子產品領域命名實體識別方法研究[D].西安電子科技大學,2010.

作者:白開峰 楊波 魏軍 單位:國網陜西省電力公司西安供電公司

主站蜘蛛池模板: 欧美人与zoxxxx另类| 英语老师解开裙子坐我腿中间| 太深了灬太大了灬舒服| 久久久久久亚洲av无码专区| 欧美交换配乱吟粗大| 伊人色综合视频一区二区三区| 色噜噜人体337p人体| 国产成人无码18禁午夜福利P| 7777久久亚洲中文字幕| 天天摸天天摸色综合舒服网| 中国陆超帅精瘦ktv直男少爷| 日本高清不卡在线观看| 亚洲人成www在线播放| 永久在线观看www免费视频| 免费少妇荡乳情欲视频| 美女航空一级毛片在线播放| 国产偷久久久精品专区| 黄+色+性+人免费| 国产精品天天在线| 97色伦图片97综合影院| 天天摸天天做天天爽天天弄| 一本久久精品一区二区| 成年女人免费播放影院| 久久久xxxx| 日韩AV无码一区二区三区不卡 | 久久无码精品一区二区三区| 欧美不卡视频一区发布| 亚洲欧美日韩在线| 熟妇人妻不卡中文字幕| 免费日韩一级片| 精品精品国产高清a毛片| 国产一区二区三区在线免费| 韩国全部三级伦电影在线播放| 国产日产在线观看| 老司机久久精品| 国产精品美女视频| 95免费观看体验区视频| 在线观看亚洲精品国产| aaa毛片免费观看| 天天操视频夜夜| yy4080私人影院6080青苹果手机|