本站小編為你精心準備了技術監測下的電子信息論文參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
①科學性。技術監測是對各種數據庫、科技文獻以及互聯網絡的信息資源進行數據挖掘,從而為社會的決策提供廣泛的數據支持,因此技術監測必要要具有科學性,不能隨意的對相關數據進行分析與定性;②經濟性。技術監測可以通過對小范圍的數據庫等進行發現,就可以獲得我們所需要的科學數據,從而避免了傳統信息評估過程中高成本運作;③獨立性。技術監測就是從大量的科技資源數據中發現顯性以及隱性的信息資源的過程,這一過程不受任何方面的限制,因此其具有嚴格意義上的獨立性。
2基于LDA主題模型的科技檢測體系
如何在眾多的科技文獻中發現與抽取文獻中具有隱形的語義結構,是當前信息領域監測所主要面對的問題,而LDA主題模型文檔建模就是以“主題”為研究對象,通過構建拓撲結構文檔表示空間,以此研究科技文獻中如何進行主題挖掘的監測問題。
2.1主題的定義
主題在廣義上屬于對整個文獻的概述與匯總,是對文獻思想的升華。在確定“主題”前需要認清關鍵詞、主題詞、主題之間的關系,根據文獻的思想觀點,主題的內涵形式化表達方式多樣,根據具體的文獻資料,文獻內容特征表示深度排序為:主題>主題詞>關鍵詞。在主題建模表示中,文檔的內容一般包括若干個主題,而文檔中的特定詞匯則可以表現為建模的特定主題,比如我們在分析一篇“文本挖掘”,一半內容屬于自然語言處理、五分之二屬于概率統計,五分之一屬于計算機,另外五分之一表示其它主題:自然語言處理容易出現的詞匯包括:文本處理、語法、句法分析以及數據預處理;概率統計容易出現的詞匯:概率、模型、召回率以及準確率;計算機容易出現的詞匯:系統、時間復雜度、空間復雜度。
2.2基于主題模型的科技監測體系結構
2.2.1相關問題分析基于主題模型的科技監測體系結構主要解決以下問題:如何從大規模的領域文本中發現挖掘隱含的主題?如何對主題的強度進行度量?如何分析主題演化?如何結合科技監測服務內容以擴展基于主題模型的衍生應用?2.2.2科技監測體系結構首先將收集的領域文檔集合進行時間片劃分和文檔與處理工作;其次依照LDA主題建模方法對已處理的文檔集合后形成的特征詞進行主題建模,從而挖掘隱含的主題;最后進一步挖掘主題模型在科技監測中的深層次應用。
3基于主題模型的電子信息技術檢測原型系統設計
3.1信息技術監測原理系統設計
信息技術監測就是對我國的信息資源進行相關的信息處理預計分析,實現對我國電子信息活動的評估與監測,根據主題模型信息監測系統總體分為三層結構模式,即數據層、邏輯層以及服務層。具體設計如下:3.1.1數據層數據層主要是從相關信息的來源角度分析,監測的數據源主要是來源于我國各大文獻數據庫:電子信息期刊、電子報告以及電子產品文獻等,因此這些資源載體是構成數據層的主要數據庫,數據需求庫是儲存電子信息文獻結構化數據,并且通過數據訪問接口與邏輯層進行交互。3.1.2邏輯層邏輯層是整個信息監測系統的核心,也是數據層實現分析建模的過程,邏輯層設計為三層結構的多元化監測模型,第一層為文獻計量學層;第二層為社會網絡層,它是運用社會網絡技術方法從網絡拓撲結構實現對中心度測量的監測指標;第三層是主體建模層,它主要是通過建模的方法對潛在的語義進行自動化的分析,從而找出主題。3.1.3服務層服務層主要分為基礎監測服務和衍生監測服務。基礎檢測服務就是基于主題模型的方法對主題監測識別和追蹤,是該該系統進行演示的主要部分。衍生檢測服務主要是基于主題模型的拓展應用考慮。
3.2實驗數據準備
3.2.1實驗數據載體對科技信息的監測主要是建立在科技文獻的載體形式上,通過對科技文獻載體的數據分析獲得實驗數據,本文選擇科技報告作為實驗數據載體形式。在對科技報告進行建模前要對科技報告的特征進行準確的分析,以便能夠準確的反應科技信息監測技術。科技報告文獻具有以下特征:①蘊含明確的學術主題。可以說每篇科技文獻都具有清晰的研究主題,而且基于科技研究對象的嚴謹性,每篇文獻的構成詞也具有科學嚴謹的特征,因此可以直接用文獻中的構成詞來表示主題;②科技報告都具有較高質量的文本內容和文檔結構。整個科技報告的內容都比較完整,噪聲存在的可能性非常少,而且企業擁有清晰的文檔結構,可以根據不同的研究對文檔進行分割;③科技報告的題名等能夠準確的反映全文的內容特征。3.2.2數據加工本文研究的實證數據來源于國家科技圖書文獻信息中心數據庫,選擇“微博放大器”和“功率放大器”領域,檢索的條件為題名、關鍵詞以及文摘,檢索時間截止到2013年12月30日,經過相關篩選得出446篇科技報告文學。但是由于我國科技報告的數據庫功能相對還有許多不完善的地方,因此無法直接實現已經分割的特征元數據,需要人工將下載的文檔數據進行數據轉換、數據預處理以及數據格式化。數據轉換我們都知道就是講下載的文檔轉化為模板的數字形式;數據預處理主要包括:特殊符號的歸一化處理,比如將文檔中的一些符號進行刪除處理,實現字符的統一性,比如對阿拉伯數字進行刪除保證相關數據被系統認可、對文檔中的一些停用詞進行抽取,而對于抽取的詞匯則用分隔符“;”代替、根據科技報告的數據將其按照年份進行劃分,一般以10年為一跨度的原則進行劃分。
3.3實現工具平臺
到目前為止,針對LDA主題模型有了很多版本的軟件,本文主要采取Gildable開源工具進行主題建模,實現原型系統。Gildable是一種基于Java的版本,其主要采取Gibbs采樣技術進行參數估計與推理。
4結束語
總之,通過對電子信息領域內技術進行檢測可以及時掌握最新的電子信息技術,從而為電子信息技術的發展提供具體的發展細節,為電子科技人員提供我國以及世界上先進的電子技術科研成果,提高電子信息技術相關文獻的利用價值,是對電子信息領域監測的主要任務與使命,通過對電子信息領域的建模監測技術可以促進我國電子信息技術的不斷發展。
作者:楊虎單位:甘肅工業職業技術學院