本站小編為你精心準(zhǔn)備了圖書信息化數(shù)據(jù)挖掘技術(shù)管理探究參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
摘要:高校圖書管理系統(tǒng)中的數(shù)據(jù)具有龐雜性、隱晦性和關(guān)聯(lián)性,傳統(tǒng)的圖書管理系統(tǒng)無(wú)法從這些數(shù)據(jù)中尋找到足夠的有用信息以實(shí)現(xiàn)優(yōu)化圖書配置的目的。為了解決該難題,文中以某高校圖書館為例對(duì)數(shù)據(jù)挖掘技術(shù)在高校圖書管理中的應(yīng)用進(jìn)行了研究,得到主要結(jié)論如下:第一,頻繁書籍的挖掘?qū)D書館內(nèi)書籍館藏?cái)?shù)目的優(yōu)化尤為重要;第二,不同類別書籍間存在可信度較高的關(guān)聯(lián)規(guī)則,同時(shí)館藏?cái)?shù)目有限和圖書外借政策導(dǎo)致不同書籍間的支持度較低;第三,某圖書館圖書外借記錄的數(shù)據(jù)挖掘所得結(jié)果與現(xiàn)實(shí)中讀者需求的吻合度非常高。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;高校圖書館;Apriori算法
引言
在信息技術(shù)飛速發(fā)展的當(dāng)下,圖書檢索等信息急速膨脹,而傳統(tǒng)的圖書管理措施無(wú)法深度挖掘圖書館訪客的需求,這對(duì)圖書資源的管理和相關(guān)決策帶來(lái)了諸多不便,也阻礙了高校圖書館的發(fā)展。吳菁[1]對(duì)數(shù)據(jù)挖掘在圖書管理中應(yīng)用進(jìn)行了研究;李會(huì)艷[2]針對(duì)高校圖書管理,就數(shù)據(jù)挖掘技術(shù)的應(yīng)用進(jìn)行了分析;張晴等[3]人深入研究了大數(shù)據(jù)背景下,基于數(shù)據(jù)挖掘技術(shù)的移動(dòng)圖書管理系統(tǒng)的實(shí)現(xiàn)方案;于文超[4]分析了大數(shù)據(jù)和物聯(lián)網(wǎng)技術(shù)在我國(guó)圖書情報(bào)領(lǐng)域的應(yīng)用方法及前景;趙雨薇等[5]人對(duì)基于數(shù)據(jù)挖掘技術(shù)的圖書推薦、高校圖書管理及圖書館個(gè)性化服務(wù)等進(jìn)行了研究。雖然諸多學(xué)者已經(jīng)著眼于數(shù)據(jù)挖掘技術(shù)在圖書管理方面的研究,但當(dāng)前我國(guó)高校圖書管理系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用仍然有很大的提升空間[6]。本文從數(shù)據(jù)挖掘技術(shù)的介紹入手,對(duì)高校圖書管理系統(tǒng)中數(shù)據(jù)的特征進(jìn)行了總結(jié),對(duì)圖書管理中數(shù)據(jù)挖掘的層次結(jié)構(gòu)和數(shù)據(jù)挖掘需求進(jìn)行了介紹[7],最后以我國(guó)東北某高校圖書館為例,對(duì)數(shù)據(jù)挖掘技術(shù)在我國(guó)高校圖書管理中的應(yīng)用進(jìn)行了研究。
1數(shù)據(jù)挖掘技術(shù)
1.1數(shù)據(jù)挖掘的實(shí)施方案
在物聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)迅猛發(fā)展的推動(dòng)下,大數(shù)據(jù)的應(yīng)用已經(jīng)延伸到許多行業(yè)中,它不僅顛覆了人們對(duì)傳統(tǒng)意義上數(shù)據(jù)的認(rèn)知,更誘發(fā)了數(shù)據(jù)獲取、存儲(chǔ)、分析、挖掘以及可視化等技術(shù)的變革[8]。同時(shí),當(dāng)前人類生產(chǎn)及生活方式也將因大數(shù)據(jù)及其相關(guān)技術(shù)而產(chǎn)生巨變。“數(shù)據(jù)量巨大”只是大數(shù)據(jù)的表面特征,其全新的數(shù)據(jù)處理模式以及其短時(shí)間內(nèi)傳統(tǒng)工具無(wú)法完成的決策力、洞察發(fā)現(xiàn)力才是大數(shù)據(jù)更核心的意義。然而,原始數(shù)據(jù)往往都是含有雜質(zhì)和大量干擾信息的,同時(shí)這些數(shù)據(jù)大多數(shù)時(shí)候都是模糊且無(wú)明顯規(guī)律的。只有應(yīng)用一定的技術(shù)手段,過(guò)濾掉既有數(shù)據(jù)信息中的雜質(zhì)和干擾信息,才能獲得真正有價(jià)值的數(shù)據(jù),從而基于大數(shù)據(jù)做出更加科學(xué)的決策,數(shù)據(jù)挖掘(DataMining)則正是完成這一過(guò)程的手段,其實(shí)現(xiàn)步驟如圖1所示[9]。當(dāng)前,數(shù)據(jù)挖掘主要手段有關(guān)聯(lián)規(guī)則分析、聚類分析、分類分析、預(yù)測(cè)、時(shí)序模式和偏差分析等,以下對(duì)本文主要涉及的關(guān)聯(lián)規(guī)則分析及其常用的Apriori算法進(jìn)行介紹。
1.2關(guān)聯(lián)規(guī)則分析
在大數(shù)據(jù)時(shí)代,大量看似雜亂無(wú)章、無(wú)律可循的數(shù)據(jù)背后往往存在著深層的潛在聯(lián)系,把從大量數(shù)據(jù)中尋找各數(shù)據(jù)之間的關(guān)聯(lián)或依賴關(guān)系的技術(shù)稱為關(guān)聯(lián)規(guī)則分析(AssociationAnalysis)。關(guān)聯(lián)規(guī)則分析的基本原理如下[10]:記D={t1,t2,…,tk,…,tn}為待挖掘的數(shù)據(jù)集合,記tk={i1,i2,…,im,…,ip},(k=1,2,…,n)為事務(wù),其中im(m=1,2,…,p)為項(xiàng),定義X為項(xiàng)集,其支持?jǐn)?shù)定義為數(shù)據(jù)集D中包含項(xiàng)集X的事務(wù)數(shù),記為σx,X的支持度記為support(X)。 式中,|D|為數(shù)據(jù)集D中的事務(wù)數(shù),定義最小支持度閾值為minsup,當(dāng)support(X)≥minsup時(shí),稱X為頻繁項(xiàng)集,反之稱X為不頻繁項(xiàng)集[11]。記X和Y是數(shù)據(jù)集D中的項(xiàng)集,若存在XY,則support(X)≥support(Y),如果X為不頻繁項(xiàng),則Y也為不頻繁項(xiàng),如果Y為頻繁項(xiàng),則X也為頻繁項(xiàng)。如果項(xiàng)集X∩Y=,則XY稱為關(guān)聯(lián)規(guī)則,X為關(guān)聯(lián)規(guī)則的前提,Y為關(guān)聯(lián)規(guī)則的結(jié)論,其支持度即為X∪Y的支持度,記為support(XY),令關(guān)聯(lián)規(guī)則XY的置信度為confidence(XY),則有關(guān)聯(lián)規(guī)則XY的置信度計(jì)算見式(2)所示[12]:定義最小置信度閾值為minconf,如果XY的關(guān)聯(lián)規(guī)則中滿足support(XY)≥minsup,且confidence(XY)≥minconf,則認(rèn)為關(guān)聯(lián)規(guī)則XY是強(qiáng)規(guī)則,否則為弱規(guī)則[13]。數(shù)據(jù)挖掘過(guò)程中,目標(biāo)是尋找出暗藏于數(shù)據(jù)集D中的全部強(qiáng)關(guān)聯(lián)規(guī)則,也就是尋找關(guān)聯(lián)規(guī)則XY相應(yīng)項(xiàng)集的頻繁項(xiàng)目集。由圖2可見,基于關(guān)聯(lián)規(guī)則分析的數(shù)據(jù)挖掘就是通過(guò)兩種算法交互挖掘出用戶設(shè)定的最小支持度和最小可信度的集合的過(guò)程。
1.3關(guān)聯(lián)規(guī)則
Apriori算法Apriori算法是首先限定待選項(xiàng)集的規(guī)模大小,然后對(duì)數(shù)據(jù)庫(kù)進(jìn)行掃描和計(jì)算并確定待選項(xiàng)集是否得以頻繁使用[14]。其實(shí)現(xiàn)過(guò)程如下:①掃描數(shù)據(jù)庫(kù),分析每個(gè)項(xiàng)目出現(xiàn)的次數(shù),生成1-候選集C1;②給出基于用戶預(yù)先設(shè)定的最低支持度1-頻繁集L1;③連接運(yùn)算生成2-候選集C2,其中C2=L1*L1;④給出基于用戶預(yù)先設(shè)定的最低支持度2-頻繁集L2;⑤統(tǒng)計(jì)計(jì)算過(guò)程時(shí)C2中每個(gè)元素出現(xiàn)的次數(shù);⑥將步驟①~⑤重復(fù)k次,用Lk-1連接得到Ck=Lk-1*Lk-1,且Ck=則停止計(jì)算;⑦利用Lk-1連接得到Ck,由于其子集是不頻繁項(xiàng)集,所以(k-1)-項(xiàng)集均非頻繁集,對(duì)其予以修剪或刪除。
2高校圖書管理系統(tǒng)中的數(shù)據(jù)特征
圖書管理員和讀者是高校圖書管理系統(tǒng)的兩大使用者,管理員只有與讀者建立起足夠多的聯(lián)系和互動(dòng),才能更好地獲知讀者對(duì)圖書的需求,了解了讀者的需求,才能進(jìn)一步優(yōu)化圖書館內(nèi)書籍的種類及數(shù)量,減少資源浪費(fèi),提高圖書館服務(wù)功能。一旦高校圖書館建立,館藏勢(shì)必將會(huì)不斷增加,圖書管理的規(guī)模也隨之增大,圖書管理的數(shù)據(jù)在逐步增大的同時(shí),還將呈現(xiàn)出如下特征:①數(shù)據(jù)信息的龐雜性:讀者檢索、閱讀和管理員對(duì)圖書進(jìn)行管理的過(guò)程中,都會(huì)生成大量的數(shù)據(jù),同時(shí),學(xué)生作為高校圖書館的主要使用者,在校時(shí)間也是非常有限的,每年圖書館都會(huì)有新用戶加入和老用戶退出,這也就意味著圖書管理的數(shù)據(jù)將會(huì)不斷增加;②信息關(guān)系的隱晦性:海量數(shù)據(jù)的堆積會(huì)遮蓋既有數(shù)據(jù)背后真正的規(guī)律性,只有借助于有效的算法對(duì)體量龐大的數(shù)據(jù)進(jìn)行合理的分析和處理,才能發(fā)掘出其內(nèi)部所蘊(yùn)藏的更有價(jià)值的信息;③信息之間的關(guān)聯(lián)性:用戶自身信息和其對(duì)圖書的檢索信息之間會(huì)有一定的關(guān)聯(lián)性,但這一關(guān)聯(lián)性是比較淺顯的,在理解海量數(shù)據(jù)潛在性的基礎(chǔ)上,發(fā)掘出數(shù)據(jù)背后真正有價(jià)值的信息,才能進(jìn)一步尋找到數(shù)據(jù)之間的關(guān)聯(lián)性,并在具有足夠深度的關(guān)聯(lián)性的支持下,更好地完成圖書管理工作。圖書管理數(shù)據(jù)信息的龐雜性、信息關(guān)系的隱晦性以及信息之間的關(guān)聯(lián)性對(duì)圖書管理員與用戶之間的聯(lián)系提出了更高的要求,而傳統(tǒng)的圖書管理辦法無(wú)法建立這種強(qiáng)烈、高效、精確的聯(lián)系,這為數(shù)據(jù)挖掘技術(shù)在圖書管理系統(tǒng)中的應(yīng)用提供了舞臺(tái)。
3圖書管理中數(shù)據(jù)挖掘的需求
本文所研究的高校圖書管理中數(shù)據(jù)挖掘主要有“數(shù)據(jù)預(yù)處理”、“關(guān)聯(lián)數(shù)據(jù)挖掘”和“模型可視化分析”三個(gè)層次,在數(shù)據(jù)挖掘過(guò)程中,我們主要關(guān)注“讀者借閱行為模式分析”、“管理員個(gè)性化服務(wù)工作”以及“文獻(xiàn)排架管理工作”[15]。
3.1數(shù)據(jù)挖掘的層次結(jié)構(gòu)
高校圖書管理中數(shù)據(jù)挖掘?qū)哟谓Y(jié)構(gòu)主要內(nèi)容如圖3所示。①數(shù)據(jù)預(yù)處理階段即為數(shù)據(jù)收集階段,首先從圖書管理系統(tǒng)的數(shù)據(jù)庫(kù)中對(duì)生成的數(shù)據(jù)進(jìn)行轉(zhuǎn)換和集成,其次將集成的數(shù)據(jù)導(dǎo)出為數(shù)據(jù)挖掘系統(tǒng)可使用的格式,再次將轉(zhuǎn)換過(guò)格式的數(shù)據(jù)保存至圖書管理數(shù)據(jù)挖掘庫(kù)中;②關(guān)聯(lián)規(guī)則挖掘階段,基于關(guān)聯(lián)規(guī)則和適當(dāng)?shù)乃惴?如Apriori算法),對(duì)第一階段準(zhǔn)備好的圖書管理數(shù)據(jù)進(jìn)行挖掘處理;③模型可視分析階段,首先確定數(shù)據(jù)挖掘目標(biāo)為圖書借閱行為、個(gè)性化服務(wù)以及文獻(xiàn)排架,然后選定圖書管理挖掘任務(wù)參數(shù),對(duì)圖書管理數(shù)據(jù)進(jìn)行挖掘處理,最后輸出可視模式規(guī)則。
3.2數(shù)據(jù)挖掘的需求
①借閱行為模式分析:首先,根據(jù)讀者的檢索記錄、借閱習(xí)慣和要求等,對(duì)讀者群進(jìn)行分析,獲得書籍在讀者群中受歡迎程度;其次,結(jié)合讀者身份信息以及檢索和借閱信息,對(duì)讀者群體的特征進(jìn)行分析,并借助于聚類數(shù)據(jù)獲取讀者的檢索和借閱行為規(guī)則;②個(gè)性化服務(wù)工作:首先,對(duì)讀者身份信息與其檢索和借閱記錄之間的關(guān)聯(lián)關(guān)系進(jìn)行分析,研究不同讀者的具體需求,為讀者提供個(gè)性化服務(wù)創(chuàng)建數(shù)據(jù)支持;然后分析不同讀者對(duì)不同類型書籍的借閱時(shí)間和借閱順序,分析讀者的閱讀習(xí)慣,為圖書館合理安排圖書布局和在不同時(shí)間段內(nèi)向讀者提供適當(dāng)?shù)膱D書提供數(shù)據(jù)支持。③圖書館文獻(xiàn)排架分析:在對(duì)借閱行為模式分析和個(gè)性化服務(wù)工作的基礎(chǔ)上,通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)不同圖書的受歡迎程度和不同圖書的被借閱記錄等進(jìn)行分析,為圖書館文獻(xiàn)排架的合理布設(shè)和圖書利用率的提高提供數(shù)據(jù)支持,
4數(shù)據(jù)挖掘技術(shù)在圖書管理中的應(yīng)用
本文以某高校圖書館為例,該高校建成于1952年,現(xiàn)有在校生2.3萬(wàn)余人,圖書館館舍面積共計(jì)41765m2,截止2017年年末,館藏圖書總量369.98萬(wàn)冊(cè),其中紙質(zhì)圖書243.26萬(wàn)冊(cè),電子圖書126.72萬(wàn)冊(cè),中外文數(shù)字資源122個(gè)。從該高校圖書管理系統(tǒng)中節(jié)選出部分讀者借閱信息作為示例,如表1所示,其中,“Y”表示該書借出,“N”表示該書未借出。由表1所示的圖書借閱記錄,我們可以得出如下結(jié)論:①讀者在圖書館借閱時(shí),不同的書籍之間也存在著較強(qiáng)的關(guān)聯(lián)性,如借閱《python基礎(chǔ)教程》的讀者同時(shí)會(huì)對(duì)《數(shù)據(jù)挖掘?qū)д摗泛汀稊?shù)據(jù)挖掘概念與技術(shù)》比較感興趣,而且《線性規(guī)劃》的讀者往往也會(huì)借閱《組合數(shù)學(xué)》和《MATLAB寶典》;②不同讀者對(duì)不同書籍的需求是不相同的,由于圖書館中任意一本書籍的館藏?cái)?shù)量有限,所以對(duì)頻繁書籍的挖掘?qū)D書館內(nèi)書籍館藏?cái)?shù)目的優(yōu)化是至關(guān)重要的。經(jīng)分析生成的頻繁書籍和數(shù)據(jù)挖掘結(jié)果如表2所示。由表2所示頻繁圖書及數(shù)據(jù)挖掘結(jié)果,可以得出如下結(jié)論:①不同書籍之間的信任度均高于75%,可見同一讀者確實(shí)會(huì)借閱某一類型的書籍以完善自身在這方面的知識(shí)體系,對(duì)這些知識(shí)體系有關(guān)聯(lián)的書籍的借閱數(shù)據(jù)進(jìn)行充分挖掘有助于圖書館館藏書籍種類和數(shù)目的完善;②由于圖書館對(duì)每一本書籍的免費(fèi)借閱時(shí)長(zhǎng)有所限制,導(dǎo)致了書籍間支持度較低的現(xiàn)象(樣本書籍的支持度均低于10%),因此,對(duì)高校圖書借閱數(shù)據(jù)挖掘過(guò)程中應(yīng)更加密切關(guān)注“信任度”指標(biāo)。
5結(jié)束語(yǔ)
本文從數(shù)據(jù)挖掘技術(shù)的介紹入手,對(duì)高校圖書管理系統(tǒng)中數(shù)據(jù)的特征進(jìn)行了總結(jié),對(duì)圖書管理中數(shù)據(jù)挖掘的層次結(jié)構(gòu)和數(shù)據(jù)挖掘需求進(jìn)行了介紹,最后以我國(guó)東北某高校圖書館為例,對(duì)數(shù)據(jù)挖掘技術(shù)在我國(guó)高校圖書信息化管理中的應(yīng)用進(jìn)行了驗(yàn)證,結(jié)果表明:經(jīng)過(guò)數(shù)據(jù)挖掘所得的結(jié)果與現(xiàn)實(shí)中讀者借閱所需書籍的結(jié)果較一致。因此,在圖書館現(xiàn)代化信息管理中,應(yīng)用數(shù)據(jù)挖掘技術(shù)可以更好地為圖書館信息化管理提供數(shù)據(jù)支持,優(yōu)化圖書館書籍種類和數(shù)目,提升圖書館的服務(wù)質(zhì)量,更好的為讀者服務(wù)。
作者:薛健 單位:北京師范大學(xué)珠海分校