本站小編為你精心準備了社會網絡鏈接預測算法探討參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
1相關研究
(1)基于節點相似度的鏈接預測。根據預先設定好的相似度評分函數對節點間的相似度進行打分,然后根據打分值將所有沒被發現的鏈接進行排序,相似度分數越高則該兩個節點存在鏈接的可能性越大。該方法的缺點是考慮網絡拓撲結構,而忽視了網絡的其它因素,例如時間因素,從而導致預測結果差強人意。
(2)基于概率模型的鏈接預測。首先利用社會網絡中的節點或者邊構造一個統計模型,然后利用該統計模型進行鏈接預測。統計模型構建是該方法的核心,將直接影響后續鏈接預測的結果。該方法主要有兩個缺點:一是獲取節點信息的難度很大,無法獲得足夠的先驗知識,因此統計模型構建非常困難;二是算法的復雜性比較高,因此在實際應用中具有一定難度。
(3)基于監督學習的鏈接預測。根據已知的網絡信息獲取鏈接關系,并在這些鏈接關系中提取相關的特征屬性構建分類器,然后根據該分類器對未知網絡進行二類劃分,即判斷鏈接關系存在或者不存在。該方法的主要缺點是社會網絡中的節點不是簡單的統計上的獨立采樣點,節點之間存在著聯系,并不滿足傳統的機器學習條件。近幾年,研究者對鏈接預測的研究越來越深入,并不斷加入影響算法的新因素。除實現基本的發現隱藏鏈接的任務外,還需要考慮新的細節。例如,可以考慮時間演化尺度下社會網絡中的鏈接預測。隨著時間的推移,社會網絡中節點之間的鏈接在不斷變化,可能會有新鏈接的產生,也可能有舊鏈接的消亡,因此鏈接預測需要考慮時間因素。
2算法提出
共有鄰居相似度算法是一種經典的基于節點相似度的鏈接預測方法,該算法利用兩個節點共有鄰居的多少來確定鏈接存在的概率,即共有鄰居越多鏈接存在的概率越高,反之則越低。例如,如果兩個人之間的學歷、愛好和收入都比較相近,就可以認為他們之間的相似度較高。然而該算法僅考慮共有鄰居的數目,沒有考慮其它因素(例如時間因素),顯然是不全面的。因此,本文嘗試將時間因素融入到共有鄰居相似度算法,提出了新的節點相似度評價標準。
2.1問題定義為簡化問題,只考慮無向社會網絡,首先給出無向社會網絡的定義。定義1:無向社會網絡可以定義為G=<V,E>,其中V是節點的集合,E是邊的集合。上述定義是基于傳統的靜態社會網絡,但社會網絡是動態變化的。考慮社會網絡的時間屬性,提出了基于不同時刻快照的社會網絡定義。定義2:無向社會網絡可以定義為由不同時刻的快照所組成的圖序列G=<GΔt1,GΔt2,…,GΔtn>,其中GΔti是時間Δti的網絡圖,同時滿足1≤i≤n。然后再給出基于定義2的鏈接預測定義。
2.2共有鄰居相似度共有鄰居相似度認為如果兩個節點擁有越多的共同節點,則這兩個節點越相似。定義4:對于節點u和節點v,其共有鄰居相似度定義如下。共有鄰居相似度算法簡單高效,但是僅僅依靠共有鄰居的多少來判斷兩個節點的相似度顯然是不夠的,需要考慮社會網絡的時間屬性。
2.3結合時間屬性的鏈接預測算法設計移動平均線是金融學中用來從短期的噪聲數據中提取金融長期發展趨勢的一種手段,它通過求取某指標值在某段時間內的平均值來預測未來發展趨勢。這里采用移動平均線的原理來提取平均共有鄰居相似度。定義5:假定有n個時間點的社會網絡快照,對于節點u和節點v,其平均共有鄰居相似度定義如下。輸出:節點u和節點v的相似度算法描述:(1)找出節點u和節點v在所有子圖上的共有鄰居;(2)根據定義5計算節點u和節點v的平均共有鄰居相似度。算法完畢。3結語社會網絡鏈接預測是數據挖掘的一個新的研究方向。鏈接預測側重于挖掘社會網絡中所隱藏的關系模式,具有重大的研究意義。考慮節點的時間屬性,采用平均共有鄰居相似度來平滑節點的動態變化,可以有效去除噪聲數據。本文將共有鄰居相似算法與時間屬性相結合,提出了結合時間屬性的鏈接預測算法。
作者:仇麗青陳卓艷單位:山東科技大學信息科學與工程學院