本站小編為你精心準(zhǔn)備了數(shù)字閱覽室共詞與社會網(wǎng)絡(luò)研討參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
本文結(jié)合因子分析、聚類分析、社會網(wǎng)絡(luò)分析尋找數(shù)字圖書館領(lǐng)域的研究主題,并且確定研究主題內(nèi)的作者團(tuán)體。因子分析法是一種抽取較少的公共因子來描述大部分信息的降維方法,旨在初步確定提取高頻關(guān)鍵詞中公共因子的個數(shù);而聚類分析是一種歸類方法,旨在將高頻關(guān)鍵詞歸類,從而找到某個領(lǐng)域的研究熱點。從某種程度來講,因子分析為聚類分析提供了分類的參考,聚類分析進(jìn)一步驗證了因子分析的結(jié)果。首先,本文采用因子分析法對關(guān)鍵詞共詞矩陣進(jìn)行分析,初步確定提取的公共因子個數(shù)。其次,采用聚類分析法對關(guān)鍵詞共詞矩陣進(jìn)行數(shù)學(xué)運算分析,從而找到數(shù)字圖書館領(lǐng)域的主要研究主題。最后,運用社會網(wǎng)絡(luò)分析方法,對研究主題的相關(guān)作者進(jìn)行共現(xiàn)分析,并借助UCINET進(jìn)行可視化,以便了解國際數(shù)字圖書館領(lǐng)域的作者團(tuán)體。
研究熱點分析
1關(guān)鍵詞詞頻統(tǒng)計本文僅對搜集到的1173篇數(shù)字圖書館領(lǐng)域的文獻(xiàn)進(jìn)行統(tǒng)計,共得到3352個關(guān)鍵詞。統(tǒng)計的過程中,需要對關(guān)鍵詞進(jìn)行處理:合并library、libraries等類型的同義詞;“digitiallibrary”是一個高頻詞,涉及文獻(xiàn)510篇,但是本文是以數(shù)字圖書館為研究內(nèi)容,并且以“digitiallibrary”作為檢索詞,再選取這個詞做分析意義不是很大,故不對該關(guān)鍵詞進(jìn)行分析;另外,諸如印度、臺灣、中國等表示地域類型的關(guān)鍵詞也不做具體分析。經(jīng)過處理后,本文選擇詞頻不少于10次的48個關(guān)鍵詞作為因子分析和聚類分析的基礎(chǔ),統(tǒng)計情況如表1所示。由表1可知,對數(shù)字圖書館的研究主要集中在信息檢索、網(wǎng)絡(luò)、學(xué)術(shù)圖書館、虛擬圖書館、數(shù)據(jù)庫、用戶研究、元數(shù)據(jù)、檔案管理、語義等方面;同時注重數(shù)字存儲、信息技術(shù)、館藏管理、本體等方面的研究;有些研究涉及到了教育、組合化學(xué)、通信技術(shù)等領(lǐng)域。
2因子分析本文為了初步確定提取公共因子的個數(shù),采用了因子分析法進(jìn)行試驗。將48×48的關(guān)鍵詞共詞矩陣導(dǎo)入SPSS20.0中,并轉(zhuǎn)化為Spearman相關(guān)矩陣,在該相關(guān)矩陣的基礎(chǔ)上采用主成分、相關(guān)性矩陣、最大方差法進(jìn)行因子分析,結(jié)果如表2所示。
由表2可見,48個關(guān)鍵詞中有9個公共因子提取,他們能夠解釋總信息的91.269%,根據(jù)數(shù)據(jù)挖掘理論,所提取的因子應(yīng)包括總信息的60%以上,因此表2提取4個及4個以上的公共因子都是合理的。但是由于因子分析對數(shù)據(jù)的要求較高,檢驗結(jié)果顯示不是正定矩陣,KMO值無法計算出來,推測原因可能是由于樣本較小或個別高頻關(guān)鍵詞的相關(guān)性較小導(dǎo)致的,但是仍然會顯示表2的分析結(jié)果。所以本文僅借鑒因子分析提取的公共因子個數(shù),并不采用因子分析的具體降維結(jié)果,從而為聚類分析的分類結(jié)果提供參考。
3聚類分析本文采用聚類分析法對數(shù)字圖書館領(lǐng)域的研究主題進(jìn)行歸類。聚類分析是研究“物以類聚”的一種方法,基本思想是:首先,將n個樣品看成n類,即一類只包括一個樣品,然后將性質(zhì)接近的兩類合并為一個新類,這樣得到n-1類,再從n-1類中找到性質(zhì)最接近的兩類加以合并,變成n-2類,如此類推,直到所有的樣品聚為一類。最后把整個分類系統(tǒng)畫成一張譜系圖,用它來表示所有關(guān)鍵詞之間的親疏關(guān)系。
3.1關(guān)鍵詞預(yù)處理。關(guān)鍵詞是文獻(xiàn)核心內(nèi)容的集中概括,能夠較好地反映某一研究領(lǐng)域的主題分布與特點。對關(guān)鍵詞進(jìn)行聚類分析,為了便于統(tǒng)計,這里將原始關(guān)鍵詞共詞矩陣轉(zhuǎn)化為相異矩陣。用Ochiia系數(shù)將共詞矩陣轉(zhuǎn)換成相似矩陣,具體算法為A、B兩詞的Ochiia系數(shù)=(A、B兩詞共同出現(xiàn)的次數(shù))÷(A詞出現(xiàn)的頻次×B詞出現(xiàn)的頻次),從而得到相似矩陣。但是相似矩陣中的0值過多,統(tǒng)計時容易造成誤差,為了方便進(jìn)一步處理,用1與全部相關(guān)矩陣上的數(shù)據(jù)相減,得到關(guān)鍵詞相異矩陣,部分?jǐn)?shù)據(jù)如表3所示。
3.2聚類分析結(jié)果。在SPSS20.0軟件中,導(dǎo)入關(guān)鍵詞相異矩陣,采用系統(tǒng)聚類(HierarchicalClus-ter),選擇離差平方和法(WardsMethod)與離散數(shù)據(jù)類型(Count)中的斐方(Phi-squareMeasure)方法,進(jìn)行聚類分析。離差平方和采用方差分析的思想,使得類內(nèi)關(guān)鍵詞間離差平方和盡量小,類之間的離差平方和盡量大,從而達(dá)到分類的效果。離散數(shù)據(jù)類型可以設(shè)置分類數(shù)據(jù)之間的距離,Phi方度量消除了Chi方度量中維數(shù)的影響。結(jié)合因子分析的結(jié)果和實際情況,本文提取5個公共因子,描述了總信息的71.283%。最終分類結(jié)果如圖1所示。由圖1可見,本文將48個關(guān)鍵詞分為5大類別,即國際數(shù)字圖書館領(lǐng)域研究熱點主要集中在5大主題:數(shù)字圖書館虛擬技術(shù)研究、資源組織研究、資源建設(shè)研究、電子資源及版權(quán)研究和信息服務(wù)研究。
a.?dāng)?shù)字圖書館虛擬技術(shù)研究。主要包括虛擬圖書館、組合化學(xué)、虛擬篩選、對接、定量構(gòu)效關(guān)系、人機交互。虛擬化就是把物理資源轉(zhuǎn)變?yōu)檫壿嬌峡梢怨芾淼馁Y源,以打破物理結(jié)構(gòu)之間的壁壘,資源的管理都按邏輯方式進(jìn)行,完全實現(xiàn)資源的自動化分配,虛擬化技術(shù)在數(shù)字圖書館中的主要作用是進(jìn)行服務(wù)器整合,也即將操作系統(tǒng)及應(yīng)用從多個未得到充分利用的硬件平臺重新部署到單臺服務(wù)器上,進(jìn)而節(jié)約空間成本、管理成本以及電源和散熱成本。
b.?dāng)?shù)字圖書館資源組織研究。主要包括語義、本體、元數(shù)據(jù)、XML、研究、索引、多媒體。信息資源組織即信息資源的有序化的活動:利用一定科學(xué)規(guī)則和方法,通過對信息外在特征和內(nèi)容特征的描述和序化,實現(xiàn)無序信息流向有序信息流的轉(zhuǎn)換,從而保證用戶對信息的有效獲取和利用及信息的有效流通和組合。數(shù)字圖書館是下一代因特網(wǎng)上具有高度組織的超大規(guī)模資源庫群,它內(nèi)涵了信息資源的生命全過程,包括生產(chǎn)、加工、存儲、檢索、傳遞、保護(hù)、利用、歸檔、剔除等,數(shù)字圖書館資源組織的關(guān)鍵是將信息資源在知識單元而非文獻(xiàn)單元的層次上組織起來,從而提供有利于產(chǎn)生新知識的資源、工具及合作環(huán)境。
c.?dāng)?shù)字圖書館資源建設(shè)研究。主要包括檔案存儲、數(shù)據(jù)、信息系統(tǒng)、數(shù)據(jù)挖掘、推薦、開源系統(tǒng)等關(guān)鍵詞。數(shù)字圖書館資源建設(shè)是數(shù)字圖書館重要的基礎(chǔ)建設(shè),研究主要包括構(gòu)建數(shù)據(jù)庫、數(shù)字資源整合與開發(fā)、數(shù)字資源共享等內(nèi)容。建設(shè)數(shù)字圖書館要按照整體性、特色化、用戶至上、科學(xué)性、系統(tǒng)性的原則,采取科學(xué)有效的方法和手段對各種信息資源進(jìn)行篩選和整理、進(jìn)行深層次的開發(fā)和整合。數(shù)字圖書館要進(jìn)行合理科學(xué)的資源建設(shè),才能更好的為用戶提供服務(wù)。
d.?dāng)?shù)字圖書館電子資源及版權(quán)研究。主要包括電子期刊、電子圖書、電子出版、版權(quán)。電子資源是數(shù)字圖書館資源組成的重要部分,海量的電子資源的使用也涉及到了版權(quán)問題。互聯(lián)網(wǎng)時代版權(quán)問題的最大挑戰(zhàn),進(jìn)一步加強版權(quán)保護(hù)的技術(shù)性措施,采用防拷貝技術(shù)、訪問控制、內(nèi)容保護(hù)、流媒體格式、數(shù)字水印以及DRM技術(shù),保護(hù)數(shù)字化信息資源版權(quán)。
e.?dāng)?shù)字圖書館信息服務(wù)研究。主要包括網(wǎng)絡(luò)、信息服務(wù)、用戶研究、教育、信息檢索等關(guān)鍵詞。數(shù)字圖書館結(jié)合了先進(jìn)的信息技術(shù)、網(wǎng)絡(luò)技術(shù),使得服務(wù)內(nèi)容不斷擴展,主要包括信息檢索服務(wù)、參考咨詢服務(wù)、個性化推送服務(wù)、信息定制服務(wù)等等。在信息服務(wù)研究中,個性化信息服務(wù)成為研究的重點,個性化信息服務(wù)是指能夠滿足用戶個體需求的一種服務(wù),即根據(jù)用戶提出的明確要求提供服務(wù),或通過對用戶個性、使用習(xí)慣的分析而主動地向用戶提供其可能需要的服務(wù)。
作者團(tuán)體分析
根據(jù)統(tǒng)計,數(shù)字圖書館領(lǐng)域研究文獻(xiàn)涉及作者3398位(不考慮同名異人的情況)。根據(jù)普萊斯對洛特卡定律的一個重要推論:杰出科學(xué)家中最低產(chǎn)作者所發(fā)表的論文數(shù)量,等于最高產(chǎn)科學(xué)家數(shù)的平方根的0.749倍。在本次研究中最高產(chǎn)科學(xué)家數(shù)為10,則杰出科學(xué)家中最低產(chǎn)的那位科學(xué)家所發(fā)表的論文數(shù)應(yīng)為2.37篇,取整數(shù)為3篇。也即發(fā)文3篇及3篇以上的作者為數(shù)字圖書館領(lǐng)域的核心作者,經(jīng)過統(tǒng)計共得到114位核心作者。根據(jù)聚類分析的結(jié)果,將數(shù)字圖書館領(lǐng)域的核心作者與5大研究主題進(jìn)行共現(xiàn),刪除與5個主題都沒關(guān)系的作者,得到共現(xiàn)矩陣。用UCINET對該共現(xiàn)矩陣進(jìn)行可視化,如圖2所示。
由圖2可見,5大主題涉及的作者團(tuán)體非常清晰。數(shù)字圖書館信息服務(wù)研究這個研究主題的作者相對來說比較多,團(tuán)體比較大,聯(lián)系比較緊密,主要作者包括Adams,A、Jin,Y、Thomas,R、Ray,K等作者。數(shù)字圖書館資源建設(shè)研究主題的作者團(tuán)體僅次于信息服務(wù),主要包括Hey,J、Gow,J、Porcel,C、Chowdhury,GG等作者。數(shù)字圖書館虛擬技術(shù)研究和電子資源及版權(quán)研究這兩個主題的作者團(tuán)體相對來說較小,但是也還有一些核心作者在研究,證明了這兩個研究主題在數(shù)字圖書館領(lǐng)域的重要性。不難發(fā)現(xiàn),該網(wǎng)絡(luò)圖的連通性較好,有些作者同時研究兩個或兩個以上的主題,這些作者成為網(wǎng)絡(luò)圖中的關(guān)鍵節(jié)點,有利于各個研究主題之間的學(xué)術(shù)交流。比如Jamali,HR、Lee,JY等作者同時研究資源建設(shè)和信息服務(wù),Bainbridge,D、Witten,IH等同時在研究資源組織和信息服務(wù),Spink,S、Chwn,CC等作者同時研究三個領(lǐng)域。
根據(jù)社會網(wǎng)絡(luò)的基礎(chǔ)理論,中心性分析相關(guān)概念解釋如下:各個研究主題的度數(shù)中心度也即該主題包含的作者數(shù)除以總的作者數(shù);研究主題的接近中心度即該主題所包含的作者到其他作者和研究主題的最短距離的一個函數(shù);研究主題的中間中心度即當(dāng)主題的每對作者在研究主題中相遇時,該研究主題才獲得中間中心度。利用UCINET分析圖2中5大研究主題的度數(shù)中心度、接近中心度和中間中心度,結(jié)果如表4所示。由表4可見,數(shù)字圖書館信息服務(wù)研究的度數(shù)中心度、接近中心度和中間中心度都是最高的,資源建設(shè)研究僅次于信息服務(wù)研究。數(shù)字圖書館電子資源及版權(quán)研究度數(shù)中心度、接近中心度和中間中心度都是最低的,相對其他主題,該主題處于數(shù)字圖書館研究的邊緣位置。隨著計算機技術(shù)的發(fā)展,數(shù)字圖書館的研究已逐漸向技術(shù)和服務(wù)方面滲透。
結(jié)束語
本文對數(shù)字圖書館領(lǐng)域相關(guān)文獻(xiàn)的關(guān)鍵詞進(jìn)行了因子分析和聚類分析,其中因子分析的要求條件較高,一些弱相關(guān)的高頻關(guān)鍵詞會影響因子分析的檢驗結(jié)果,在對高頻關(guān)鍵詞分類的過程中會遇到有些關(guān)鍵詞同時屬于兩個或者更多的類,導(dǎo)致無法明確分類結(jié)果。因此本文僅用因子分析初步確定了提取的公共因子個數(shù),然后借助聚類分析進(jìn)行具體分類,聚類分析可以清晰地看到各個關(guān)鍵詞之間的親疏關(guān)系,其分類結(jié)果更明確。結(jié)合因子分析和聚類分析的結(jié)果,本文歸納出2000年以來國際數(shù)字圖書館領(lǐng)域的5大研究主題:數(shù)字圖書館虛擬技術(shù)研究、數(shù)字圖書館資源組織研究、數(shù)字圖書館資源建設(shè)研究、數(shù)字圖書館電子資源及版權(quán)研究和數(shù)字圖書館信息服務(wù)。
同時本文對研究主題和作者共現(xiàn)矩陣進(jìn)行可視化,指出了信息服務(wù)研究和資源建設(shè)研究涉及的文獻(xiàn)最多,它們成為近些年數(shù)字圖書館研究的熱點問題。數(shù)字圖書館資源建設(shè)是數(shù)字圖書館的重要任務(wù),它廣泛的應(yīng)用數(shù)據(jù)挖掘、推薦、數(shù)據(jù)庫等技術(shù),為用戶服務(wù)提供資源保障。數(shù)字圖書館信息服務(wù)研究是資源建設(shè)的目的,信息服務(wù)、信息檢索、信息技術(shù)、用戶研究等成為信息服務(wù)研究的重點,其中個性化信息服務(wù)也對資源建設(shè)提出了更高的要求。同時指出各個研究主題內(nèi)的作者團(tuán)體:a.以Wei,J、Langer,T、Frecer,V等為代表的虛擬技術(shù)研究相關(guān)的作者團(tuán)體;b.以Lim,EP、Bertino,E、Teng,YL等為代表的資源組織研究相關(guān)的作者團(tuán)體;c.以Hey,J、Gow,J、Porcel,C、Chowdhury,GG等為代表的資源建設(shè)研究相關(guān)的作者團(tuán)體;d.以Watkinson,A、Nicholas,D、Huntington,P等為代表的電子資源及版權(quán)研究相關(guān)的作者團(tuán)體;e.以Adams,A、Jin,Y、Thomas,R、Ray,K等為代表的信息服務(wù)研究相關(guān)的作者團(tuán)體。各個團(tuán)體之間相互合作,資源建設(shè)、資源組織、信息服務(wù)相關(guān)文獻(xiàn)較多,作者團(tuán)體較大,彼此之間的合作也多;電子資源與版權(quán)研究、虛擬技術(shù)相關(guān)文獻(xiàn)較少,作者團(tuán)體較小,與其它主題合作的也少。總之,數(shù)字圖書館作者研究團(tuán)體已經(jīng)形成,相對來說,熱點問題的作者研究團(tuán)體較大。各個作者團(tuán)體的科研產(chǎn)出和科研合作績效評價情況還有待進(jìn)一步研究。
作者:皇甫青紅華薇娜劉艷華殷之明單位:南京大學(xué)信息管理學(xué)院集美大學(xué)圖書館