本站小編為你精心準備了數據挖掘應用與圖書館門戶建設探析參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:基于web的數據挖掘技術能很好地滿足讀者個性化需求,通過對web日志文件的挖掘,利用路徑分析技術、關聯規則技術、序列模式技術、聚類分析技術、協同過濾技術等,了解讀者行為習慣、個性化需求以及潛在的信息需求,從而滿足圖書館網站人性化、個性化的設計需要,打造圖書館智慧門戶,彰顯圖書館以人為本的服務宗旨。
關鍵詞:圖書館網站;Web數據挖掘;網站設計
圖書館門戶網站是圖書館提供信息資源服務的重要途徑之一,隨著互聯網大數據、云計算等現代化技術的深入應用,智慧門戶的建設顯得尤為重要。圖書館管理者在面對日新月異的技術和有著個性化需求的讀者時,應本著人性化的宗旨,綜合資源類型、服務方式、讀者需求和用戶體驗等各方面收集而來的數據,運用數據挖掘技術,掌握讀者真實的需求和體驗感,科學、合理地設計圖書館門戶網站,提供友善的界面,便捷、智慧的服務,從而進一步提高讀者滿意度。
1圖書館門戶網站建設現狀
隨著技術的進步以及讀者閱讀習慣的改變,信息資源的數字化越來越普遍,圖書館利用門戶網站,將所收集的資源進行分類、編排、整理后呈現給讀者,并在網站上集成圖書館提供的服務,如館藏查詢、預約登記、圖書薦購、資源下載等,給讀者提供了極大的便利。目前,圖書館網站設計大多采用框架式,一級目錄按照資源或服務的類型進行分類,然后在一級目錄下增加二級及三級子目錄(如圖1所示)。無論是采用垂直分布還是水平分布,都能很好地體現圖書館提供的各式各樣服務和資源,條理清晰,一目了然。但其缺點也非常顯著,一是面對不同的讀者群體,看到的都是同樣的頁面,缺乏個性化,比較死板;二是對資源與服務的劃分與分布,讀者與網站設計者的理解不可能完全一致,有可能導致讀者在圖書館網站迷航。
2圖書館智慧門戶設計的原則
2.1人性化原則
人性化原則體現在幾個方面,首先是頁面的友好性。頁面設計的顏色、字體是否讓用戶感覺突兀,頁面顯示的流暢性,用戶訪問操作的便捷性,出錯窗口的應對原則,避免空鏈接等,這些方面都是衡量一個頁面是否友好的重要指標。其次是欄目編排的科學性。欄目的分類是否科學、準確,便于用戶理解并準確定位到要找的地址。最后是及時響應。網站的及時響應極大地影響用戶的體驗感,打開一個頁面,需要的時間是2s、1s還是0.1s都直接影響到用戶對網站的體驗,所以不僅要在網頁本身上下功夫,還需在網站架構、服務器配置、網絡設置等方面合理安排。
2.2個性化原則
圖書館網站的個性化,是對人性化的提升,根據不同讀者群體的需求,如教師、學生、職工等,有針對性地進行設計,減少特定群體里不需要的內容,將這個群體經常使用的內容顯著標注或靠前排序,提高用戶的使用效率。利用數據挖掘手段,不僅可根據群體來進行劃分,還可根據不同讀者的訪問記錄和行為習慣,增加“猜你喜歡的”欄目。
2.3覆蓋性原則
覆蓋性原則即網站的內容是否覆蓋了圖書館所提供的信息資源和全部服務。能通過互聯網實現的服務要在網站上全部體現,一應俱全,不能在互聯網實現的服務也應做相應的介紹和說明。在全部覆蓋的前提下,還應突出重點和特色服務,提高讀者訪問效率。
2.4安全性原則
安全性主要牽涉到網絡安全方面,既要保證網站的穩定運行,更要保障用戶的隱私數據,因不是本文重點,這里不一一贅述。
3Web數據挖掘技術在圖書館門戶建設中的應用
Web數據挖掘是數據挖掘技術的一種,但由于Web數據挖掘基于Web平臺,有其自身的特殊性,與傳統的數據挖掘不同,其對象是半結構化或者無結構化為中心的海量的、異構的、分布式的Web文檔和Web服務器日志[1-3]。利用web數據挖掘技術,分析讀者行為習慣,設計更為人性、個性化的網站,提高用戶的使用效率,提高讀者滿意度。Web數據挖掘中常用的技術有路徑分析技術、關聯規則、序列模式、聚類分析技術、協同過濾技術等。
3.1路徑分析技術
路徑分析技術是Web所特有的數據挖掘技術,它是一種基于網站結構分析的數據挖掘技術。由于圖書館網站內容豐富,幾乎囊括圖書館所有的信息資源和各項服務,讀者訪問網站后,想要直接獲取到某一特定資源,往往不太可能,總是要經過導航分類或相關鏈接,幾經跳轉后方能獲得所需資源,而這個過程中讀者的點擊行為事件和訪問路徑就記錄在日志文件中。路徑分析技術則是通過對這些訪問路徑的數據挖掘,分析最常訪問的路徑信息,決策者可以根據階段需求和長期規劃,要求網站設計者修改或縮短路徑距離,改進站點設計,方便讀者瀏覽,從而改善網站結構[4]。如在圖書館網站設計中,讀者需要訪問“CNKI學位論文資源數據庫”,通常登錄圖書館網站后,根據導航欄分布選擇“數據庫資源”,再根據數據庫下分“中文數據庫”和“外文數據庫”選擇“中文數據庫”后,在打開的頁面列表上選擇“CNKI學位論文資源數據庫”,在日志文件里則記錄了讀者的訪問路徑:“數據庫資源”→“中文數據庫”→“CNKI學位論文資源數據庫”。通過路徑分析技術,分析這個路徑是最常訪問路徑,為方便讀者瀏覽,提高讀者使用效率,則可以優化路徑,在“數據庫資源”下方直接增加常用數據庫,讀者在看到“數據庫資源”時就可以直接訪問“CNKI學位論文資源數據庫”,從之前的3步直接縮短為1步。
3.2關聯規則技術
圖書館網站上有各類數據庫或OPAC等應用系統,根據讀者的文獻需求,這些系統定期會產生海量的搜索數據或相關表單,使用關聯規則方法對這一系列的數據、表單進行研究、分析與挖掘,發現數據、表單之間的相互關聯,最常使用APRIOR算法,挖掘出最頻繁訪問項集,利用關聯規則設計用戶訪問模式,可進一步實現對讀者的個性化信息服務[5]。筆者將本單位圖書館網站2016年1月至12月份數據庫資源的訪問記錄采用關聯規則挖掘算法進行挖掘,發現訪問培訓視頻數據庫8959次記錄,訪問考試數據庫11008次記錄,其中有3385次既訪問了培訓視頻數據庫,又訪問了考試數據庫,分別占各自數據庫訪問的37.8%和30.8%。利用關聯規則,確定了這兩個數據庫之間的關聯,將原先網頁中分布在不同模塊的兩個數據庫調整在一起,就像“尿布與啤酒”的故事一樣,經過一年的運行,統計得出訪問培訓視頻數據庫10682次記錄(數據統計為2017年1月至11月),訪問考試數據庫12029次記錄,其中有8215次既訪問了培訓視頻數據庫,又訪問了考試數據庫,分別占各自數據庫訪問的76.9%和68.3%。(如圖2所示)不僅數據庫的使用率得到了提升,更利用數據挖掘發現了讀者潛在的需求。
3.3序列模式技術序列模式是指用戶訪問
Web時,根據自身的需求、興趣和習慣訪問Web而產生的一系列用戶事務數據,每條記錄包含了用戶的訪問時間、行為以及用戶的ID,將事務行為之間的關聯性和時間結合起來,分析用戶行為間的聯系,預測用戶的訪問模式和興趣需求,快速做出決策方案,更改頁面內容,有針對性地推廣信息,增強網站的服務性能[4]。讀者登錄圖書館主頁“我的圖書館”模塊進行書目查詢,獲取所需文獻資源無非有兩種方法,一是利用關鍵詞進行搜索,二是根據書目分類進行查看。結合這兩種方法產生的事務文件,分析“關鍵詞”與“關鍵詞”“分類”與“分類”“關鍵詞”與“分類”之間的聯系,以及分析讀者多次訪問時間之間的聯系,利用序列模式技術挖掘,得到某一特定讀者,在某一個時間段的文獻需求,從而調整網站功能,進行“定點推送”或“猜你喜歡”,提供優質的個性化服務,提高圖書館的服務質量。
3.4聚類分析技術
聚類分析法是一種探索性分析方法,能夠分析事物的內在特點和規律,并根據相似性原則對事物進行分組,是數據挖掘中常用的一種技術。聚類分析技術是指根據訪問用戶的個人信息或者用戶共同的訪問模式,將訪問數據進行分類整理,挖掘出用戶某些共同的興趣愛好、信息需求等特征。常用的聚類方法有:K-means聚類分析、分層聚類分析、基于模型的聚類方法、基于密度的聚類方法和基于網絡的聚類方法等[6]。在圖書館網站的應用中,通過Web數據挖掘技術分析用戶最近瀏覽過的網頁內容,利用聚類分析發現用戶的興趣模式(或者假定用戶的興趣愛好類別,經過訓練得到用戶偏好模式),來判斷用戶的后續行為模式,從而給用戶一個便捷的分類導向,便于用戶找到自己想要的內容。
3.5協同過濾技術
協同過濾技術簡單來說就是利用興趣相投、擁有共同經驗的群體喜好來推薦用戶感興趣的信息,個人通過合作的機制給予信息相當程度的回應(如評分)并記錄下來以達到過濾的目的,進而幫助別人篩選信息,回應不一定局限于特別感興趣的,特別不感興趣的信息記錄也相當重要。在日常生活中,我們打算購買某一商品時,經常會詢問周圍的朋友或同事,有沒有相關的推薦,得到相關評價后,決定自己是否購買,這就是一個最淺顯的協同過濾技術。在用戶訪問圖書館網站,想獲取相關的資源或服務時,也常常想了解與其有相同需求的讀者的訪問記錄以及評價,通過這些記錄和評價,便于對資源進行判斷與定位[7]。在圖書館網站建設中,設計者可以利用協同過濾技術建立“推薦系統”,利用集體智慧的典型方法,將具有相似的興趣愛好、擁有共同經驗群體的喜好,向系統使用者推薦可能感興趣的相關資源和服務,或者將用戶興趣模式和高搜索率的內容放在一起以吸引用戶的注意,從而提高圖書館的服務質量和資源利用率。Web數據挖掘技術種類頗多,在實際應用中,通常將幾種技術相互結合融通,對Web日志和訪問內容進行挖掘得出結論后,對網站進行內容和結構調整。
4結語
隨著數據挖掘算法的不斷發展和成熟,Web數據挖掘技術應用也越來越廣泛,通過Web數據挖掘技術從圖書館網站獲取讀者數據信息,構建不同維度的數據庫,分析讀者的行為和偏好,動態設計圖書館門戶,及時調整網站結構和內容,對提高圖書館網站的效用和讀者滿意度,具有實際應用價值。
參考文獻:
[2]BingLiu.Web數據挖掘(第一版)[M].俞勇,薛貴榮,韓定一,譯.北京:清華大學出版社,2009:1-10.
[3]胡秀.基于Web的數據挖掘技術研究[J].軟件導刊,2015(1):149-150.
[4]高玉娟.Web數據挖掘研究綜述[J].工業控制計算機,2016,29(1):113-115.
[5]楊洋.Web數據挖掘的分析與探討[J].裝備制造技術,2006(5):63-64.
[6]王媛.基于IGGN算法的SNS用戶群體特征分析[D].天津:天津財經大學,2011.
[7]李俊麗.一種改進的概率關系模型及其概率查詢問題的研究[D].山西:太原科技大學,2011.
作者:竇劍 單位:泰州職業技術學院