本站小編為你精心準(zhǔn)備了優(yōu)化傳統(tǒng)作者共引分析的研究參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
《圖書情報(bào)知識(shí)雜志》2015年第六期
作者共引分析(authorcocitationanalysis,ACA)方法由WhiteHD和GriffithBC于1981年提出[1],其主要目的是通過作者之間的共引關(guān)系探究某學(xué)科(領(lǐng)域)的知識(shí)圖譜,進(jìn)而指導(dǎo)科學(xué)研究[1,2]。ACA的基本假設(shè)可以總結(jié)為以下六方面:①著者的被引用意味著被引用者所利用;②著者被引用反映了該著者研究的質(zhì)量、重要性和影響;③被引用的著者往往是經(jīng)過源文獻(xiàn)作者篩選的、相關(guān)資料中最適于作者所用的文獻(xiàn)[1];④兩位作者具有共引關(guān)系,意味著他們的研究具有相關(guān)性;⑤所有的被引文獻(xiàn)在共引分析中都具有同等的地位[2];⑥兩位作者的共引次數(shù)越多,其相關(guān)性越強(qiáng)。1990年,McCainKW對(duì)ACA的流程和細(xì)節(jié)給予了更詳細(xì)的探討和規(guī)范[3];次年趙丹群也在我國首次介紹了共引和共引分析方法[4]。此后,ACA被廣泛地應(yīng)用在許多領(lǐng)域,例如圖書情報(bào)學(xué)、醫(yī)學(xué)、計(jì)算機(jī)科學(xué)和管理科學(xué)等[5-12]。2010年后,ACA研究更多地轉(zhuǎn)向了全文本分析的領(lǐng)域(citationanalysisinfull-text或citationcontentanalysis)[13]。不過由于語料獲取的困難性,目前已有的全文本分析大多樣本量不大,或者只選用了窗口較小的引文語境。密歇根大學(xué)和新加坡國立大學(xué)的學(xué)者利用光學(xué)字符識(shí)別(opticalchar-acterrecognition,OCR)技術(shù)和人工處理構(gòu)建了一個(gè)大型引文語料庫[14],但語料噪聲較多,還有待改善。然而,參考文獻(xiàn)中除引文題名、引文作者姓名之外的其他信息卻甚少受到關(guān)注,通過對(duì)JASIS期刊內(nèi)1917篇文章的觀察發(fā)現(xiàn):兩篇引文發(fā)表時(shí)間的差距越小,其作者在這兩篇引文的發(fā)文期間更有可能研究相似的熱點(diǎn)或解決相似的問題,且兩作者在該領(lǐng)域的知識(shí)圖譜應(yīng)有較近的關(guān)系。也就是說,引文發(fā)表時(shí)間亦可顯示出被引作者間的研究相關(guān)性。因此,本文梳理傳統(tǒng)ACA方法的步驟,通過對(duì)典型算法的探討與問題的理解,綜合引文發(fā)表的時(shí)間信息與傳統(tǒng)作者共引信息,并通過實(shí)證研究將它與傳統(tǒng)ACA結(jié)果進(jìn)行比較分析。
1傳統(tǒng)作者共引分析方法概述
傳統(tǒng)ACA主要通過計(jì)算引文作者兩兩間的共引數(shù)量得到原始作者共引矩陣,并通過一系列轉(zhuǎn)化和分析,繪制出某領(lǐng)域的知識(shí)圖譜。通過ACA可以發(fā)現(xiàn)某研究領(lǐng)域中處于研究前沿且備受關(guān)注、多次被引的作者,找尋作者的研究路徑和研究偏好,進(jìn)而促進(jìn)學(xué)術(shù)合作和學(xué)術(shù)交流。ACA的方法也常被廣泛地應(yīng)用在許多領(lǐng)域,作為評(píng)估該領(lǐng)域發(fā)展現(xiàn)況和科學(xué)結(jié)構(gòu)分析的參考。通過對(duì)傳統(tǒng)ACA方法進(jìn)行梳理,筆者將其劃分成六大步驟(如圖1所示):①搜集領(lǐng)域關(guān)鍵數(shù)據(jù);②確認(rèn)分析對(duì)象;③建構(gòu)原始共引矩陣;④生成相關(guān)矩陣;⑤數(shù)據(jù)分析和可視化;⑥結(jié)果解釋與效度分析。圖1傳統(tǒng)ACA方法的典型步驟
1.1搜集領(lǐng)域關(guān)鍵數(shù)據(jù)ACA通過作者間的共引關(guān)系來挖掘某研究領(lǐng)域中的中心作者。它或是在宏觀層次揭示整體的學(xué)科結(jié)構(gòu),或是在微觀層次描述單個(gè)子學(xué)科或研究團(tuán)體及其相互依賴關(guān)系,因此確定擬研究的學(xué)科領(lǐng)域極為關(guān)鍵[15]。選擇的學(xué)科范圍既可以是完整的學(xué)科,也可以是學(xué)科中的研究專題。然后,研究者通過咨詢領(lǐng)域?qū)<摇⒁罁?jù)期刊的內(nèi)容和影響力[16]、滾雪球[17]或者直接通過個(gè)人儲(chǔ)備知識(shí)和學(xué)者的著作情況[3]確認(rèn)該領(lǐng)域關(guān)鍵的出版書籍、研究團(tuán)體、學(xué)術(shù)期刊或會(huì)議,并從中搜集和篩選有效和重要的研究著作。
1.2確認(rèn)分析對(duì)象數(shù)據(jù)集確定并進(jìn)行了規(guī)范的作者姓名消歧處理后,對(duì)于如何提取參考文獻(xiàn)中的作者數(shù)據(jù),研究人員亦有不同的爭論。由于傳統(tǒng)ACA往往使用只含有第一作者信息的ISI題錄數(shù)據(jù)[18],并利用SQL語句進(jìn)行作者遴選[3],因而傳統(tǒng)ACA只使用第一作者而非所有作者進(jìn)行計(jì)量。由于這種計(jì)數(shù)方式的精確度飽受質(zhì)疑,Persson[18]首先開始進(jìn)行全作者共引分析。此外趙黨志[19]、Schneider[20]、Rousseau[21]和Eom[22]等研究人員還比較了第一作者共引分析、狹義全作者共引分析和廣義全作者共引分析,展示了更為廣泛的作者共引分析計(jì)數(shù)手段。與第一作者共引分析相比,全作者共引分析能夠全面地遴選出領(lǐng)域內(nèi)的相關(guān)作者,且知識(shí)圖譜的描繪更為詳細(xì)[22]。1.3構(gòu)建原始共引矩陣傳統(tǒng)ACA中,即使兩位作者被同一篇論文引用多次,兩位作者的共引次數(shù)也僅僅加一。數(shù)據(jù)集中同時(shí)引用兩位作者的論文篇數(shù)即為兩作者最終的共引值,并將其填入原始共引矩陣中。顯然,原始共引矩陣是對(duì)稱的,由于矩陣主對(duì)角線元素的行列標(biāo)識(shí)均為同一作者,所以“共引”這個(gè)概念在主對(duì)角線元素上很難處理。這也引發(fā)了學(xué)界的爭論。Eom在其著作中詳盡敘述了傳統(tǒng)ACA主要使用的處理主對(duì)角線的方式及其比較[23]。原始共引矩陣中的非零元素往往不多,因而需要對(duì)矩陣進(jìn)行縮減。矩陣縮減一般需要研究人員自行設(shè)定閾值,并將低于閾值的行列刪除。然而,這一閾值的設(shè)定基本是研究者主觀設(shè)定,目前關(guān)于閾值設(shè)定的研究較少。
1.4生成相關(guān)矩陣為了進(jìn)一步核查分析對(duì)象間的相關(guān)程度[3],便于后續(xù)的分析,ACA需要將原始矩陣轉(zhuǎn)化為相關(guān)矩陣。傳統(tǒng)的轉(zhuǎn)化方式是使用Pearson相關(guān)系數(shù),然而2003年后學(xué)界開始了一場(chǎng)對(duì)于相關(guān)系數(shù)的大辯論[24]。爭論點(diǎn)主要有:①Pearson相關(guān)系數(shù)是否適合應(yīng)用在ACA中;②Pearson相關(guān)系數(shù)適合應(yīng)用在ACA的何種矩陣計(jì)數(shù)方式中;③Pearson相關(guān)系數(shù)是否優(yōu)于其他度量方式(如Cosine距離、Jaccard距離、Euclidean距離和Chi-square距離等);④如果Pearson相關(guān)系數(shù)不適于ACA,那么如何在現(xiàn)有基礎(chǔ)上改進(jìn)它;等等。這場(chǎng)關(guān)于相關(guān)系數(shù)的辯論仍在進(jìn)行中。
1.5數(shù)據(jù)分析和可視化傳統(tǒng)ACA主要使用了聚類分析(clusterAnaly-sis)、多維尺度分析(multi-dimensionalscaling,MDS)和因子分析(factorAnalysis)進(jìn)行數(shù)據(jù)分析和結(jié)果可視化。這三種分析方式往往互為補(bǔ)充,互為佐證。在聚類分析上,傳統(tǒng)ACA大多使用層次聚類(hier-archicalclustering)方法進(jìn)行聚類[3],并且通過樹狀圖來可視化聚類分析的結(jié)果。在多維尺度分析上,研究人員通過SPSS軟件的多維尺度分析(ALSCAL),以散點(diǎn)圖可視化其結(jié)果;而近期的很多ACA研究則使用網(wǎng)絡(luò)分析(networkanalysis)的方法并利用更適于繪圖的軟件進(jìn)行數(shù)據(jù)可視化。在因子分析上,傳統(tǒng)ACA使用主分量分析(principlecomponentanalysis,PCA)方式來尋找領(lǐng)域中具有重大貢獻(xiàn)的作者(群)作為主分量。1.6結(jié)果解釋與效度分析通過對(duì)引文數(shù)據(jù)的分析處理,能使分析對(duì)象的格局更加清晰直觀,并能提供分析對(duì)象之間由引文關(guān)系形成的相對(duì)位置關(guān)系和相互關(guān)系的親疏程度,再結(jié)合學(xué)科專業(yè)知識(shí),可做出進(jìn)一步的分析和判斷。
2基于引文發(fā)表時(shí)間信息的作者共引分析方法
根據(jù)傳統(tǒng)ACA的基本假設(shè),兩作者的共引次數(shù)越多,代表其研究內(nèi)容上的共通性越強(qiáng)。然而傳統(tǒng)ACA僅使用了參考文獻(xiàn)列表中的“作者”(referenceauthor)信息,傳統(tǒng)文獻(xiàn)共引分析(documentcocitationanaly-sis,DCA)僅使用了“題目”(referencetitle)信息,它們卻都忽略了參考文獻(xiàn)列表中其他信息對(duì)于知識(shí)圖譜的影響。筆者在應(yīng)用傳統(tǒng)ACA方法過程中發(fā)現(xiàn),兩篇同領(lǐng)域引文發(fā)表時(shí)間的差距越小,其作者越可能研究相似的熱點(diǎn)、解決相似的問題或同課題的不同子問題,因此認(rèn)定兩作者在該領(lǐng)域的知識(shí)圖譜應(yīng)有較近的關(guān)系。也就是說,若在傳統(tǒng)ACA基礎(chǔ)上引入引文發(fā)表時(shí)間信息將能凸顯共引作者之間的關(guān)系,即:①兩作者引文發(fā)表時(shí)間差小,則表示作者是在同一時(shí)期傾向于研究相似的問題,通過時(shí)間信息來改進(jìn)作者共引關(guān)系的分析結(jié)果,其知識(shí)圖譜所展示領(lǐng)域中的明星作者更有說服力,易于產(chǎn)生有意義的研究團(tuán)隊(duì)合作與交流;②兩作者引文發(fā)表時(shí)間差大,則表示作者雖然在不同時(shí)期可能研究相似的問題,但因在當(dāng)下的時(shí)空背景下可能引用的概念方法不同或解決的需求不同,故作者關(guān)系在知識(shí)圖譜的呈現(xiàn)上應(yīng)該會(huì)有所差異。因此,筆者提出了基于引文發(fā)表時(shí)間信息的ACA方法,其架構(gòu)如圖2所示。與傳統(tǒng)ACA方法相比,該方法新增了提取被引文章發(fā)文的時(shí)間信息以及基于發(fā)文時(shí)間計(jì)算被引文章間關(guān)系值,并修改了系數(shù)矩陣的計(jì)算方法,即圖2灰色的區(qū)塊,其余的皆與傳統(tǒng)ACA方法相同。筆者將在
2.1節(jié)說明如何計(jì)算基于發(fā)文時(shí)間共引作者間的關(guān)系量,并在2.2節(jié)詳述如何結(jié)合時(shí)間信息與共被引作者信息生成作者共引系數(shù)矩陣2.1引文間發(fā)表時(shí)間差異的計(jì)算模型———自然對(duì)數(shù)模型差值越大,函數(shù)值越接近于0,如圖3所示。此函數(shù)的設(shè)計(jì)有如下特點(diǎn):①兩作者的平均發(fā)表時(shí)間值越接近,函數(shù)值越大,這表明兩作者的被引關(guān)系較強(qiáng);②函數(shù)值域?yàn)閇0,1],可簡化后續(xù)運(yùn)算,不需要再將該值進(jìn)行標(biāo)準(zhǔn)化處理。
2.2綜合引文發(fā)表時(shí)間和共引作者信息的計(jì)算方法為了通過引文作者和引文發(fā)表時(shí)間這兩個(gè)因素來生成系數(shù)矩陣,首先需要對(duì)共引作者矩陣進(jìn)行標(biāo)準(zhǔn)化。
3實(shí)證結(jié)果與分析
3.1數(shù)據(jù)獲取與清理筆者選擇國際情報(bào)學(xué)領(lǐng)域期刊JournaloftheAs-sociationforInformationScienceandTechnology(原名JournaloftheAmericanSocietyforInformationScienceandTechnology,簡稱JASIST)2003年1月至2012年6月刊載的所有類型為Article的學(xué)術(shù)文獻(xiàn),并在WebofScience(WoS)數(shù)據(jù)庫中下載了它們的基本外部信息和參考文獻(xiàn)信息,包括題名、著者、發(fā)表時(shí)間(精確到月)、卷期號(hào)、引文第一作者、引文發(fā)文年度、引文所在期刊、引文起止頁碼等。經(jīng)過了初步過濾,筆者選取1,917篇源文獻(xiàn)和64,524條參考文獻(xiàn)。隨后,筆者通過兩次聚類[25]和人工過濾的方式對(duì)引文作者的姓名進(jìn)行了消歧和歸并,并將被引少于10次的作者進(jìn)行了剔除,得到了953位作者和27,445條參考文獻(xiàn)。為了避免稀疏結(jié)果,筆者再次遴選引用量最大的前100位作者,并采用了如前所述的自然對(duì)數(shù)模型對(duì)引文發(fā)表時(shí)間信息和作者共引信息進(jìn)行了標(biāo)準(zhǔn)化處理,經(jīng)過加權(quán)和轉(zhuǎn)化后并構(gòu)建出最終的共引矩陣。該矩陣主對(duì)角線元素均為0。限于WoS提供的題注格式,這里只計(jì)算了該作者作為第一作者發(fā)文的情況。筆者隨后進(jìn)行了多維尺度分析和因子分析,并對(duì)分析結(jié)果進(jìn)行闡釋和說明。在多維尺度分析中,筆者使用了SPSS20.0中的MDS(ALSCAL)程序,并要求輸出二維散點(diǎn)圖;在因子分析中,筆者使用了SPSS20.0中的“因子分析”功能,選擇分析“主分量”,使用“最大方差分析法”輸出“旋轉(zhuǎn)解”。
3.2算法實(shí)證結(jié)果與比對(duì)分析為了實(shí)證算法的可行性,筆者將綜合引文發(fā)表時(shí)間的ACA與傳統(tǒng)ACA的實(shí)驗(yàn)結(jié)果從多維尺度分析和因子分析兩個(gè)角度來進(jìn)行比對(duì)分析。為了便于敘述,本文將傳統(tǒng)ACA方法簡稱為“方法一”,而將筆者提出的綜合引文發(fā)表時(shí)間的ACA方法稱為“方法二”。限于篇幅,方法二中筆者只展示wA=0.6,wt=0.4的實(shí)驗(yàn)結(jié)果,這是多次實(shí)驗(yàn)過程中的最佳權(quán)重值。
3.2.1多維尺度分析兩種方法的多維尺度分析結(jié)果見圖4。該圖顯示,兩種方法分析結(jié)果均將所有作者分為3類。通過文章驗(yàn)證,左上角作者的研究多與信息計(jì)量學(xué)或科學(xué)計(jì)量學(xué)等[注1]相關(guān);左下角作者的研究多與信息檢索、信息行為研究或用戶研究等相關(guān);右半部分作者的研究多與語義挖掘、網(wǎng)絡(luò)科學(xué)或自然科學(xué)理論與技術(shù)研究等[注2]相關(guān)。右半類的作者雖然也有一些從事信息計(jì)量學(xué)研究,但其在信息計(jì)量學(xué)研究的同時(shí)更為偏重“語義”方面的研究。簡單觀察圖4結(jié)果可以發(fā)現(xiàn),方法一同類內(nèi)的作者分布較為分散,而方法二不同類間作者的距離較大,且同類內(nèi)的呈現(xiàn)更為緊密。這說明綜合引文發(fā)表時(shí)間的因素能將作者的相關(guān)性展示得更細(xì)膩、知識(shí)圖譜可視化更為清晰。為了展示兩方法的細(xì)微區(qū)別,我們?cè)谧髡呒羞x取三位作者(作者及其研究領(lǐng)域見表1),并且將這三位作者的研究進(jìn)行兩兩比較(見圖5)。以共引作者2和共引作者3為例:從方法一角度看,圖5最左邊的數(shù)軸顯示,同時(shí)引用這兩位作者的文章有36篇(“▲”位置所示),這恰好等于這兩位作者的共引值;從方法二的角度看,若引入每篇文章中共引作者的發(fā)表時(shí)間差(絕對(duì)值),圖5右側(cè)點(diǎn)為頂點(diǎn)為“▲”形的折線顯示兩作者有8篇文章是在同年發(fā)表且被共引,有12篇相差一年發(fā)表的文章被共引。圖5也同時(shí)展示了其余作者間的統(tǒng)計(jì)結(jié)果。在這三位作者的兩兩關(guān)系中,共引著作發(fā)表時(shí)間差均不超過6年;且通過文章驗(yàn)證,多數(shù)共引且發(fā)表時(shí)間差在3年內(nèi)的文章均屬于解決相似問題或使用相似方法的研究,而時(shí)間差超過5年(含)的文章數(shù)量較少,且被引文章要么帶有較為濃烈的綜述色彩,要么可被認(rèn)定為該領(lǐng)域經(jīng)典。通過2.1節(jié)所示方法的計(jì)算,這三位作者的共引文章平均發(fā)表時(shí)間差值低,筆者利用自然對(duì)數(shù)模型量化表現(xiàn)作者著作的關(guān)系,也符合上述三位作者實(shí)際文章的相關(guān)性。圖4上方的小窗口用不同序號(hào)標(biāo)識(shí)了三位作者在兩種方法下的MDS結(jié)果位置。表1顯示,該三位作者的所屬研究領(lǐng)域可視為網(wǎng)絡(luò)研究和語義挖掘相關(guān),雖然三位作者的研究方向各有千秋,但在網(wǎng)絡(luò)研究和語義挖掘這個(gè)維度上有著共通的研究相似性,因而三人能夠被較好地聚類。兩種方法的實(shí)驗(yàn)結(jié)果均將三位作者均聚類為同一類,說明兩方法有相似的聚類能力。而方法一展示的三位作者彼此距離較遠(yuǎn),尤其是Ahlgren,Per(標(biāo)號(hào)為1的作者);而方法二中三位作者則緊密地聚集在一起。可以看出,共引文章的發(fā)表時(shí)間與作者共引數(shù)量皆可以顯示作者間研究的相關(guān)性,綜合引文發(fā)表時(shí)間信息的作者共引分析更能細(xì)微地顯示作者間的關(guān)系。
3.2.2因子分析因子分析是統(tǒng)計(jì)方法中從變量群中提取共性因子作為分析數(shù)據(jù)的方法,所提取的主分量因子的貢獻(xiàn)值(占全部分量的比率)越大則可視為該數(shù)據(jù)中具有代表性或影響的因子。兩種方法因子分析的部分結(jié)果如表3所示,且其分析結(jié)果均含有5個(gè)主分量。方法一中,第一主分量的貢獻(xiàn)值為36.85%,5個(gè)主分量的累計(jì)貢獻(xiàn)值為97.79%;方法二中,第一主分量的貢獻(xiàn)值為52.00%,5個(gè)主分量的累計(jì)貢獻(xiàn)值為99.87%。這五個(gè)主分量分別代表的圖書情報(bào)學(xué)相關(guān)領(lǐng)域?yàn)?①信息檢索(informationretrievalandseeking);②傳統(tǒng)圖書情報(bào)學(xué)與情報(bào)分析研究(traditionallibraryandinformationscienceandinformationanalysis);③信息計(jì)量學(xué)、科學(xué)計(jì)量學(xué)與數(shù)據(jù)科學(xué)(informetrics,sci-entometrics,anddatascienceresearches);④信息行為研究(humaninformationbehavior);⑤網(wǎng)絡(luò)分析(net-worksanalysis)。這五個(gè)主分量并不是孤立的,而是有著不同強(qiáng)弱的關(guān)聯(lián)性[26]。同一作者可能有著多個(gè)主分量,代表該作者在不同領(lǐng)域都有所涉獵。從表3可以看出,表中所列出的部分作者在方法一中所對(duì)應(yīng)的主分量與方法二有所區(qū)別。這表明加入引文發(fā)表時(shí)間的因素能夠?qū)⒆髡咴诓煌攴菅芯款I(lǐng)域偏好的因素加以考慮,并展示出許多傳統(tǒng)方法不易察覺的細(xì)節(jié)。例如,情報(bào)學(xué)家Swanson的主要研究領(lǐng)域是信息檢索和信息檢索行為(對(duì)應(yīng)主分量1和4),但他早期發(fā)表了幾篇與網(wǎng)絡(luò)研究相關(guān)的論文[注3],雖然這并不能代表其總體的研究領(lǐng)域,但是融入引文發(fā)表時(shí)間因素后這一細(xì)節(jié)則被顯現(xiàn)出來。
4結(jié)論與展望
本文以JASIST期刊2003年1月至2012年6月間的學(xué)術(shù)論文作為數(shù)據(jù)集,在傳統(tǒng)ACA的基礎(chǔ)上,通過對(duì)相同數(shù)據(jù)集中引文發(fā)表時(shí)間信息進(jìn)行收集,綜合計(jì)算新的作者原始共引矩陣(系數(shù)矩陣),將實(shí)驗(yàn)結(jié)果與傳統(tǒng)分析結(jié)果進(jìn)行比較分析。結(jié)果顯示:綜合引文發(fā)表時(shí)間信息的ACA方法無論在多維尺度分析還是因子分析中均能保留傳統(tǒng)ACA的能力,同時(shí)該方法的多維尺度分析結(jié)果能將同類別間的信息微觀呈現(xiàn),提高知識(shí)圖譜的可視化的程度,并挖掘作者研究著作的偏移和所屬領(lǐng)域的細(xì)微變化。綜合引文發(fā)表時(shí)間信息的ACA方法使得知識(shí)圖譜中描繪作者間關(guān)系的“距離”更富有物理意義,這使得學(xué)科領(lǐng)域內(nèi)的作者分類將更細(xì)微地呈現(xiàn)領(lǐng)域內(nèi)的科學(xué)共同體。在對(duì)傳統(tǒng)ACA的擴(kuò)展方面,本文僅僅引入了引文發(fā)表時(shí)間這一信息。后續(xù)的研究將在原始作者共引矩陣中加入引文發(fā)文期刊甚至引文關(guān)鍵詞信息等其他復(fù)雜因素,進(jìn)而進(jìn)行比較分析。
作者:步一 劉天祎 黃文彬 單位:北京大學(xué)信息管理系