本站小編為你精心準備了語義分析在水環境領域的應用參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
1緒論
潛在語義分析(LatentSemanticAnalysis,簡稱LSA)是一種基于潛概念的信息檢索技術。LSA不需要預設基礎知識、語義網絡、詞法、文法等信息,通過簡單的數學方法實現對大規模的“詞匯—文檔”矩陣進行降維,進而完成對大規模文檔的高效的在語義基礎上的信息檢索。根據上述優點以及水環境的特點,本文通過對環境領域內文檔數據的特點,提出一種改進的LSA算法,用以提高水環境領域文檔內容的查準率與查全率。
2LSA理論
LSA主要依賴于傳統的向量空間模型,但在傳統的向量空間模型基礎上,將高維的表示投影在潛在語義空間中,從而體現文檔和詞語之間的潛在語義關系。傳統的LSA實現過程如下:(1)通過將已有的文檔與詞語相關聯,生成一個“詞匯—文檔”高階稀疏矩陣,該矩陣包含了詞匯的詞頻信息。(2)對生成的權重矩陣進行奇異值分解(簡稱SVD)并確定潛在語義空間。對于權重矩陣A是一個m行n列的矩陣。有如下分解因式:上式中U、V表示矩陣A的左右奇異值向量,U表示m行n列的正交矩陣,V表示n行n列的正交矩陣。通過求矩陣A的近似矩陣將原始的高維稀疏矩陣映射在低維的空間中,方便后續的計算以及準確率的提高。(3)根據詞匯列表以及查詢文本生成查詢向量q,查詢向量在潛在語義空間中的坐標計算公式如下:。取出生成矩陣X中文檔i的列向量di并計算該向量在潛在語義空間中的坐標。因此,計算出所有文檔與偽文本的向量夾角,并設定閾值,篩選相似文檔。
3改進LSA算法
本文提出了一種改進的LSA算法,通過改進權重計算方法以及記錄詞語出現位置的信息,更加準確的表達了詞語所表現出的語義信息,其流程如圖1所示。
3.1文本預處理對于LSA算法在水環境領域的應用,通過創建水環境高頻詞典及停用詞表對水環境相關文檔實現文本預處理。(1)篩選水環境領域詞典中屬于水環境領域的專業詞語;(2)采用中文分詞工具實現對高頻水環境詞語的統計,將統計結果加入水環境高頻詞典中;(3)根據統計結果實現停用詞表的補充。
3.2權重計算根據上述文本預處理創建的高頻詞典以及停用詞表,構建“詞匯—文檔”中間矩陣。傳統的LSA過程中,生成的權重矩陣中記錄了用于對詞匯出現頻率的信息,也忽略了詞匯的位置信息,降低了特殊詞匯在文檔中的權重。不利于詞匯表達文檔的語義信息。因此,本文根據所研究對象的具體特征,針對詞匯出現的不同位置所代表的重要程度的不同進行賦值,以實現更準確的表達詞匯在辨別文檔類型過程中的作用。首先,本算法將標題中出現的詞匯權重定義為3,文檔中小標題中出現的詞匯權重為2,正文中出現的詞匯權重為1。其次,定義關鍵詞表,出現在關鍵詞表中的詞匯重要性等同于出現在標題中的權重。最后,確定權重,權重計算公式中的詞頻信息計算表達式改進如下:式中的tij表示詞語i在文檔j的標題中出現的次數,stij示詞語i在文檔j的小標題中出現的次數,ctij表示詞語i在文檔j的正文中出現的次數。
4仿真實驗
4.1實驗設計通過高頻詞典進行文本預處理,針對文檔中的具體文本內容進行停用詞的過濾,并最終根據權重計算形成中間矩陣,并加入詞匯位置信息所帶來的影響。分別采用傳統的LSA以及改進的LSA進行檢索,對比檢索結果。
4.2性能評價通過查準率、查全率以及截斷奇異值作為算法性能評價的標準。設定Ar為查詢到的文檔集中所有相關文檔組成的集合,A表示所查詢到的所有文檔組成的集合,Am表示在總的文檔集中所有相關文檔組成的集合。查準率是能準確的查詢到用戶所需要的具體內容,記為P=Ar/A;查全率是能將相關文檔查詢出來的概率,記為R=Ar/Am;截斷奇異值是對查準率查全率進行測評的一個評價標準,記為F=(2*P*R)/(R+P)。
4.3實驗結果及分析本文提出的改進LSA算法與傳統LSA算法對比,當截斷奇異值比例在65%-85%時檢索效果趨于穩定且查準率處于峰值。如圖2所示,可以看出改進LSA算法在權重計算的過程中更能體現出水環境領域中專業性較強的語義特點,并能針對這些語義特點提供更接近用戶需求的查詢結果。5結論本文根據水環境專業領域文檔數據的特圖2:算法效果對比圖點提出了改進的LSA算法,充分考慮了詞語出現在不同位置所代表的語義含義的不同以及權重的等級差別,同時考慮了在水環境領域中出現的高頻詞匯生成的關鍵詞表,用以表達更加清晰的語義信息,通過該部分的改進可以提高用戶在信息檢索的過程中的準確率,更加符合用戶對查詢結果的需求。
作者:段榮偉 付立冬 夏廣鋒 單位:沈陽理工大學 信息科學與工程學院 遼寧省環境科學研究院