本站小編為你精心準備了網絡搜查論文:興趣地區的網絡資源搜查評估參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
作者:付雯李響單位:重慶電子工程職業學院
興趣相似度的計算方法
興趣相似度反映出兩個節點存儲的文檔之間的相似關系。相似度越大就說明兩者的相似程度越高,就越有可能存儲所查詢的內容。本文中利用上述的基于向量空間的余弦法,具體的計算公式如下:本文中使用上述公式,既可以計算兩個文檔之間的相似度,或者兩個節點之間的相似度,又可以計算文檔與節點之間的相似度,由于在本文所設計的模型中,文檔與節點的特征詞向量中特征詞的個數是相同的,即都是由m決定的,因此以上公式有很好的通用性。
公式中Va,Vb可以分別表示節點A,B的興趣,也可以分別表示文檔A,B的向量,或者是節點與文檔的向量。m為特征詞的個數,Wak為特征詞tk在節點(或文檔)A中的權值,Wbk為特征詞tk在節點(或文檔)B中的權值。由此可以看出,該公式主要計算兩個節點(文檔)都含有的特征詞,當兩節點(文檔)沒有相同的特征詞時,則為0,即兩者完全不相似。本文還設置一個判斷兩節點(文檔)是否相似的閾值ΔL,用來決定后面進行的操作。
例如,當兩節點(文檔)的相似度大于閾值ΔL時,可以查詢節點的本地資源列表,或者進行路由表的更新,否則這些操作可能會被忽略。以更新路由表時,計算兩節點間的興趣相似度為例,來具體說明相似度的計算過程。假設兩節點(文檔)的興趣分別為:節點A的興趣特征向量為:(1,0.93225),(6,0.87779),(9,0.87779),(4,0.87779),(2,0.78640);兩個節點擁有的相同特征詞為1,6,9,4。通過得到的A、B兩節點間的興趣相似度,用這個結果與ΔL相比較,即可得出兩節點是否相似。
仿真實驗及結果分析
(1)數據對象搜索的查準率(precision)和查全率(re-call)。在匹配方法上,Kad是查找與nodeID(可以理解為文件名)相匹配的文檔;IBK雖然是按照特征詞向量進行查詢,但匹配時,都是查找與全部特征詞完全相同的文檔,因此搜索的匹配機制是相同的,查準率也就是相同的。在查全率方面如圖1所示,在進行的10組查詢中,改進后的IBK算法較原Kad算法,在查全率上有不同程度的提高,經過計算可知,平均查全率由原來的0.34提高到0.61,效果明顯且穩定。這主要是由于,IBK算法是從查詢語句中提取出多個特征詞來表示一個查詢語句,并與文檔內容所提取出的特征詞相匹配,更能夠查找出潛在意義與查詢相同的文檔,實現了模糊查詢的同時,提高了查全率。
(2)搜索效率。在搜索過程中,如果減少了訪問節點數,但又不影響搜索結果,則會減少網絡帶寬的占用,提高搜索效率,所以本文用訪問節點數量的多少來衡量網絡的搜索效率。由于兩種搜索算法是根據不同的原則轉發查詢,在查詢過程中節點的訪問數量以及獲得文件的數量都會有所不同,因此無法從這兩個方面直接比較。兩種算法搜索效率的對比中可以看出,改進后的IBK算法在獲得相同文件數量的情況下,比原Kad算法中節點的訪問數量明顯減少,經計算得知從原來的平均54.2個節點減少到目前的28.1個節點。這是因為IBK算法保留了原K桶查詢機制的同時,將查詢轉發到更有可能存儲所要查詢的相似度較高的節點上去,縮短了查詢路徑提高了搜索效率。
結束語
本文將IBK將興趣與結構化P2P有效地結合,一方面保留了結構化快速定位的優點,使得IBK中的查詢能夠快速的定位到興趣相似度較高的節點,搜索效率有所提高;另一方面挖掘出節點的興趣的同時,也實現了模糊查詢,使得查全率明顯提高。通過實驗以及對結果地分析,證明了改進后的IBK搜索機制的有效性。