美章網(wǎng) 資料文庫 結(jié)合時間權(quán)重與信任關(guān)系的協(xié)同范文

結(jié)合時間權(quán)重與信任關(guān)系的協(xié)同范文

本站小編為你精心準(zhǔn)備了結(jié)合時間權(quán)重與信任關(guān)系的協(xié)同參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

結(jié)合時間權(quán)重與信任關(guān)系的協(xié)同

《計算機(jī)應(yīng)用研究雜志》2015年第五期

1本文算法

1.1問題建模社會化標(biāo)注和社會化網(wǎng)絡(luò)服務(wù)(SNS,如Facebook,Twitter等)體現(xiàn)了Web2.0的分享特點,這種開放、共享的模式為個性化搜索和推薦提供了一個高效的獲取用戶模型的原始數(shù)據(jù)來源。本文主要利用社會化標(biāo)注和社會化網(wǎng)絡(luò)服務(wù)中的好友信息來進(jìn)行個性化的推薦,所以,我們首先對這兩大類數(shù)據(jù)源進(jìn)行形式化的描述。對于m個用戶的集合可以表示為U={u1,u2,…,um},n個資源的集合可表示為R={r1,r2,…,rn}、p個標(biāo)簽的集合可表示為S={s1,s2,…,sp}。圖1給出了當(dāng)前已達(dá)成共識的對于社會化標(biāo)注的數(shù)據(jù)模型。由于用戶在不同時間對資源的標(biāo)注,體現(xiàn)出了用戶興趣的變化。因此,考慮到時間維度,則社會化標(biāo)注的數(shù)據(jù)模型可形式化為F=(U,S,R,T).定義在F上的關(guān)系F{u,r,s:uU,rR,sS,tT}為標(biāo)注關(guān)系集合,表示用戶u在t時刻使用標(biāo)簽s標(biāo)注資源r。對于好友信息,則可形式化描述為G=(U,U).定義在G上的關(guān)系{,:,}1212GuuuUuU為好友關(guān)系集合,表示用戶u1和u2是好友關(guān)系。由于用戶關(guān)注好友的時間的先后并不體現(xiàn)用戶對于好友的關(guān)注程度。所以,在此,我們不對用戶關(guān)注好友的時間信息進(jìn)行建模。利用這些數(shù)據(jù)源,我們通過一系列的挖掘算法,可得出用戶的興趣相似度和用戶的熟悉相似度,并利用這兩個相似度綜合為用戶產(chǎn)生推薦。其中,兩個相似度都可形式化描述為關(guān)系圖G(V,E),其中V為用戶節(jié)點構(gòu)成的集合,即V=U;E為用戶關(guān)系構(gòu)成的邊集合。

1.2基于時間權(quán)重的用戶興趣相似度由于用戶對資源的偏好可以通過標(biāo)簽刻畫,那么用戶ui對資源rj的偏好可以通過用戶ui對標(biāo)注在資源rj上的標(biāo)簽集T(ui,rj)的偏好表示。基于此,本節(jié)首先構(gòu)建用戶對資源的偏好矩陣,然后在此基礎(chǔ)上計算基于時間權(quán)重的用戶相似度。

1.2.1用戶對資源的興趣剖面一般來說,一個標(biāo)簽被某一用戶標(biāo)注的次數(shù)越多,越能說明該標(biāo)簽對于該用戶的重要程度越高。因此定義用戶ui對標(biāo)簽tk的偏好如下。

1.2.2基于時間權(quán)重的用戶興趣相似度計算傳統(tǒng)的協(xié)同過濾推薦算法忽略了時間對用戶興趣變化的影響,從而在一定程度上影響預(yù)測的準(zhǔn)確性。本節(jié)利用2.2節(jié)得到的用戶-資源矩陣,綜合考慮從用戶標(biāo)注資源的時間方面計算用戶之間的相似度。其基本思想是,用戶對最近標(biāo)注的資源應(yīng)該有較大的興趣權(quán)重,而對過去標(biāo)注的應(yīng)該有較小的時間權(quán)重。因此,定義用戶ui對用戶uj的相似度為:

1.3基于信任關(guān)系的用戶熟悉相似度在2.1節(jié)構(gòu)建用戶信任關(guān)系圖后,我們首先定義一級好友與二級好友:定義1.(一級好友)用戶信任關(guān)系網(wǎng)絡(luò)中直接相連的兩個用戶互稱為一級好友。定義2.(二級好友)用戶信任關(guān)系網(wǎng)絡(luò)中擁有共同的一級好友的用戶互稱為二級好友。那么用戶ui與一級好友uj的熟悉相似度定義為兩個用戶之間邊的權(quán)重,即:如圖2所有為用戶信任關(guān)系網(wǎng)絡(luò)的一個子圖,可以看出用戶A的一級好友為{B,D,E,F,G},二級好友為{C,H,I}。此外,由于用戶A的二級好友C同時與用戶A的一級好友B和D連接,因此用戶A與用戶C的熟悉相似度時需進(jìn)行兩次計算,首先通過用戶B計算的得到的用戶A與用戶C的相似度為simtrust(A,C)=0.65×0.35=0.2275,而通過用戶D計算得到的用戶A與C的相似度為simtrust(A,C)=0.6×0.8=0.48,取二者較大值作為用戶A與用戶C的相似度,即simtrust(A,C)=0.48。

1.4加權(quán)的用戶相似度在得到用戶基于時間權(quán)重的興趣相似度和基于信任關(guān)系的熟悉相似度后,我們通過設(shè)定權(quán)重α對兩種相似度進(jìn)行線性組合,得到最終的用戶相似度公式。

1.5產(chǎn)生推薦在為目標(biāo)用戶進(jìn)行預(yù)測時,我們?nèi)匀豢紤]時間信息對預(yù)測值的影響,因為一般來說,用戶現(xiàn)在的行為應(yīng)該和用戶最近的行為關(guān)系更大。

2實驗和分析

2.1數(shù)據(jù)集及預(yù)處理我們的實驗數(shù)據(jù)為Last.fm上的數(shù)據(jù)集。在初始實驗數(shù)據(jù)中,共計2690個用戶、4460個藝術(shù)家、8482個標(biāo)簽,其中每個用戶至少對20個藝術(shù)家進(jìn)行了標(biāo)注,每個藝術(shù)家至少被20個用戶標(biāo)注。在實驗中,藝術(shù)家被當(dāng)做資源建模。由于數(shù)據(jù)集中用戶使用標(biāo)簽標(biāo)注藝術(shù)家都有時間戳標(biāo)識,因此我們將數(shù)據(jù)集中每個用戶的記錄按時間由高到低排序,取前20%的記錄作為測試數(shù)據(jù),后80%的記錄作為訓(xùn)練數(shù)據(jù)。本文實驗的對比算法有:(1)傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法(rCF);(2)基于標(biāo)簽的協(xié)同過濾推薦算法(Tag-basedCF),該算法與本文算法的唯一不同之處在于不考慮用戶的信任關(guān)系,即在計算用戶相似度時,α=1的情況;(3)文獻(xiàn)[18]基于信任網(wǎng)絡(luò)的推薦算法ITRAS。試驗度量方法本文使用平均絕對誤差MAE作為評判度量,用來評估推薦算法預(yù)測的資源評分與用戶實際對資源的評分的偏差程度。其計算公式如下:Rec(u,i)為推薦系統(tǒng)為用戶u預(yù)測的資源i的偏好值。ru,i為用戶u對資源i的實際偏好值,這里我們將ru,i取為1。testsetu為測試集中為用戶u預(yù)測的資源數(shù)。MAE越低,表示推薦系統(tǒng)的預(yù)測精度越高。覆蓋率(Coverage)可以描述一個推薦系統(tǒng)對物品長尾的發(fā)掘能力。本文使用指標(biāo)基尼系數(shù)(GiniIndex)統(tǒng)計資源在推薦列表中出現(xiàn)次數(shù)的分布來描述推薦算法挖掘長尾的能力。如果這個分布比較平,那么說明推薦系統(tǒng)的覆蓋率較高,而如果這個分布較陡峭,說明推薦系統(tǒng)的覆蓋率較低。公式如下。由于用戶的興趣是廣泛的,推薦列表需要能夠覆蓋用戶不同的興趣領(lǐng)域,因此我們使用多樣性指標(biāo)(Diversity)描述推薦列表中資源的多樣性。其中,s(i,j)表示資源i與資源j的相似度,R(u)為用戶u的推薦列表,Diversity的值越高,說明推薦的資源具有更高的多樣性。

2.2實驗結(jié)果和分析

2.2.1時間衰減因子λ對MAE的影響λ作為時間衰減因子在公式(5)中起著非常重要的地位,如果λ取值不當(dāng),會造成時間權(quán)重ftime出現(xiàn)過大或者過小的值,影響推薦的精度。如圖3所示為不同取值的λ計算得到的MAE值,可以看出,λ在取值較小時,MAE下降速度很快,但當(dāng)λ取值較大后,MAE呈現(xiàn)緩慢增長的趨勢,因此λ取較小值可以使推薦精度更高,在本文中λ=0.3時MAE取到最優(yōu)值。

2.2.2α對MAE的影響由公式(9)可知,α=1為只結(jié)合時間得到的用戶相似度;而α=0為只結(jié)合社交信任關(guān)系得到的用戶相似度,而0,1則綜合考慮了結(jié)合時間和信任關(guān)系信息加權(quán)得到的用戶相似度,以α為變量,計算出相應(yīng)的MAE值,實驗結(jié)果如圖4所示。從圖中可以看出,當(dāng)α=0.6時,推薦效果最佳,MAE值最小,也說明綜合時間權(quán)重信任關(guān)系的推薦效果比只考慮時間權(quán)重和信任關(guān)系的推薦效果都要好。

2.2.3β對MAE的影響圖5顯示的是在為目標(biāo)用戶進(jìn)行預(yù)測時,時間衰減因子β對MAE的影響,可以看出,β=0時為不考慮時間對預(yù)測結(jié)果的影響的情況,此時MAE取值較大;β=0.2時,MAE達(dá)到最小。

2.2.4幾種算法的推薦效果本文以鄰居個數(shù)為變量,幾種算法的推薦效果如圖6所示,圖6(a)為四種推薦算法的MAE值對比,可以看出,在鄰居取值較小時,ITRAS算法具有最好的推薦效果,其MAE值為0.652;但隨著鄰居個數(shù)的增加,ITRAS算法的推薦效果越來越差,而其它三種推薦算法的MAE值均呈現(xiàn)先下降后上升的趨勢,其中本文算法TTCF在鄰居個數(shù)大于30后與其它算法相比,推薦效果一直處于較高的優(yōu)勢,且在鄰居個數(shù)為60時MAE值達(dá)到最優(yōu),為0.635。圖6(b)所示為四種推薦算法在覆蓋率指標(biāo)上的對比,而覆蓋率反應(yīng)的是推薦算法挖掘長尾的能力。可以看出,幾種推薦算法隨著鄰居個數(shù)的增加,其覆蓋率都呈現(xiàn)上升的趨勢,其中傳統(tǒng)協(xié)同過濾推薦算法CF的覆蓋率變化較大,而其它三種推薦算法變化較均勻,本文算法TTCF一直處于較高的覆蓋率,也說明本文算法具有較強(qiáng)的挖掘長尾的能力。圖6(c)所示為四種推薦算法在多樣性指標(biāo)上的對比,可以看出,隨著鄰居個數(shù)增加,傳統(tǒng)協(xié)同過濾推薦算法CF變化較為明顯,成逐漸上升的趨勢,而其它三種推薦算法基本趨于穩(wěn)定狀態(tài),只在很小的范圍內(nèi)變化,且可以看出,本文推薦算法具有較高的多樣性。

3結(jié)束語

時間作為一種動態(tài)信息,可以體現(xiàn)用戶的興趣變化;而社交行為可以反映用戶之間的信任和興趣信息,本文將二者結(jié)合起來,并融入到基于標(biāo)簽的推薦算法中,提出一種結(jié)合時間和信任關(guān)系的協(xié)同過濾推薦算法。考慮利用標(biāo)簽的流行度刻畫用戶對資源的偏好,在計算用戶相似度時,同時考慮用戶行為的時間因素與好友信任關(guān)系信息,且在信任關(guān)系中,同時考慮一級好友與二級好友,最后結(jié)合用戶相似度與時間衰減項實現(xiàn)推薦,并通過實驗驗證了本文算法的有效性,可以較好的提高推薦精度。

作者:趙海燕 侯景德 陳慶奎 單位:上海理工大學(xué) 光電信息與計算機(jī)工程學(xué)院 上海現(xiàn)代光學(xué)系統(tǒng)重點實驗室

主站蜘蛛池模板: 国产精品久久久久影院免费| aa在线免费观看| eeuss影院www在线观看免费| 中文字幕乱人伦视频在线| 99热精品在线免费观看| 黄网站色视频免费看无下截| 皇夫被迫含玉势女尊高h| 曰批免费视频播放30分钟直播| 日韩有码在线观看| 天堂久久久久久中文字幕| 国产午夜福利片| 亚洲欧美中文日韩v在线观看| 亚洲免费网站观看视频| 中文字幕yellow在线资源| 香蕉久久成人网| 鸡鸡插屁股视频| 波多野结衣被强女教师系列 | 制服丝袜怡红院| 久久综合视频网| 99久久99久久免费精品小说 | 男人资源在线观看| 要灬要灬再深点受不了看| 精品无码黑人又粗又大又长| 欧洲97色综合成人网| 天天干天天操天天操| 国产69精品久久久久777| 亚洲黄色免费在线观看| 久久99蜜桃精品久久久久小说| japanmilkhdxxxxxmature| xxxxx在线| 爽爽影院在线看| 成人深夜福利视频| 国产麻豆欧美亚洲综合久久| 午夜精品久久久久久久久| 久久精品亚洲日本波多野结衣| 一级毛片大全免费播放| 韩国免费高清一级毛片性色| 欧美伊人久久大香线蕉综合| 在线观看视频国产| 卡1卡2卡3卡4卡5免费视频| 亚洲国产高清视频在线观看|