本站小編為你精心準備了統計視域下文獻資源的選擇參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
1背景及問題
高等學校中英文圖書數字化國際合作計劃項目———CADAL項目,是“十五”期間“211工程”公共服務體系建設的重要組成部分。該項目由國家投資,同時還得到了美國合作方投入的相當于1000萬美元的軟硬件系統支持,項目的英文名稱因而被確定為China-AmericaDigitalAcademicLibrary,簡稱CADAL。該項目與中國高等教育文獻保障系統(CALIS)一起,共同成為中國高等教育數字圖書館建設的重要組成部分。目前正在進行二期項目的建設準備工作,CADAL美術資源數字化項目是CADAL二期項目的分支,是以中國美術學院圖書館(以下簡稱我館)的美術資源為基礎,聯合國內其他美術院校圖書館,對涵蓋文字、圖像和影音信息的美術資源進行大規模、系統化的數字化建設,是CADAL二期擬建設的子項目之一。美術作品數據庫(群)的建設是其核心內容,即將館藏的美術作品原件、高仿畫、文物、畫冊等視覺資源數字化,建設成國畫、油畫、版畫、雕塑、書法、篆刻、建筑等數據庫(群),同時,實現數據庫(群)的統一檢索。CADAL美術資源數字化項目的建設目的是為美術專業教學、科研提供豐富的圖像資源[1]。
建設美術資源數據庫,需要對美術資源進行前期的調研。由于該數據庫是針對圖像作品而言,并不是書籍的整合,所以對畫冊中的美術作品進行選擇、甄別是數據庫建設中的重中之重。但是由于館藏畫冊數量龐大,每本畫冊所含美術作品數量不一,且不同的畫冊會出現交叉的美術作品,所以影響到美術作品的統計。
在這一背景下,筆者做了一系列的調研,發現同行對這一問題研究甚少,由于這一問題對CADAL的開展極為重要,故筆者試著從統計學的方法來分析、刪選美術作品。
2利用統計學方法選擇美術資源
2.1統計學方法及馬太效應
統計學是應用數學的一個分支,主要通過利用概率論建立數學模型,收集所觀察系統的數據,進行量化的分析、總結,并進而進行推斷和預測,為相關決策提供依據和參考。它被廣泛地應用在各門學科之上,從物理和社會學科到人文學科,甚至被用到工商業及政府的情報決策之上[2]。
我們這里應用到了統計學的分支———文獻統計分析,運用定性與定量相結合的方法來選擇美術畫冊中的美術作品。由于涉及的文獻樣本是美術文獻,這里做樣本分析的是外國油畫作品,所以需要對外國油畫作品的畫冊做個分析。
外國油畫作品也遵循了馬太效應。馬太效應(MatthewEffect),是指好的愈好,壞的愈壞,多的愈多,少的愈少的一種現象。1968年,美國科學史研究者羅伯特·莫頓(RobertK.Merton)提出這個術語用以概括一種社會心理現象,歸納“馬太效應”為:任何個體、群體或地區,一旦在某一個方面(如金錢、名譽、地位等)獲得成功和進步,就會產生一種積累優勢,就會有更多的機會取得更大的成功和進步。就外國油畫作品而言,也存在這一現象,即越是著名的畫家,其著名的美術作品被重復出版的機會就越多,越是不出名的畫家,其美術作品被重復出版的機會就越少,這樣就出現了同樣的美術作品被重復出版多次的問題。故對這些美術作品做一定的刪選,就需要結合統計學的方法得以解決。
2.2美術文獻資源的選擇
本文將以我館館藏的外國油畫家作品為例來進行美術文獻資源的選擇。
2.2.1取得外國油畫家的美術作品總數
第一步,求出外國油畫家畫冊(中圖分類號為J233)中所含的美術作品平均量。按照書籍厚薄、所含美術作品多少為原則,分別選取10本具有一定代表性的外國油畫家畫冊,統計其美術作品總數及每畫冊的平均美術作品數,其結果見表1。均每本畫冊所含美術作品約為98幅。
第二步,查詢館藏外國油畫家畫冊總數。通過圖書館公共檢索系統得出本館外國油畫家畫冊總數為3806冊。這里需要注明,本館已經把所有的紙質畫冊電子化,并且要求復本數據合并,即系統所查的每條數據就針對一種畫冊,多個重復的復本畫冊,都在一條數據中反映。
第三步,求出館藏外國油畫家的美術作品總數,即把步驟一與步驟二的數據相乘得出外國油畫家的美術作品總數為372988幅。
2.2.2建立模型
根據采購記錄、編目記錄及閱覽流通的實際經驗,我館館藏外國油畫家畫冊大致可分為3種,且不同類型分別有不同的比例。A類(藏書量大、作品重復次高的著名油畫家畫冊)約占本類別藏書量的60%;B類(藏書量居中、作品重復次中等的油畫家畫冊)約占本類別藏書量的35%;C類(藏書量小、作品重復量低或沒有重復的油畫家畫冊)約占本類別藏書量的5%。
2.2.3求出美術作品總數
按照外國油畫家的美術作品總數及其外國油畫家的畫冊在館藏中不同比例,可以大致推導出在不排除全部藏書種類中的圖片交叉重復采用的前提下,3種類型的油畫家畫冊中所含的美術作品總數如下:A類(藏書量大、作品重復次高的著名油畫家畫冊)的美術作品總數為:372988×60%=223792幅;B類(藏書量居中、作品重復次中等的油畫家畫冊)的美術作品總數為:372988×35%=130545幅;C類(藏書量小、作品重復量低或沒有重復的油畫家畫冊)的美術作品總數為:372988×5%=18649幅。
2.2.4統計不重復的圖片量
首先建立一個假設,即假設館藏的美術作品中都有一個外國油畫家作品全集,此全集作品囊括了該畫家的所有油畫作品。故凡是同一個外國油畫家,出現了N次,他的作品都可被認為是重復了N次他的作品全集。建立這個假設方便進行下面的推導。為排除美術作品的重復量,我們對3種不同類型的油畫家畫冊分別選取了3個樣本,每個樣本分別選取10位油畫家(見表2),然后在我館的電子資源中查詢油畫家的相關數據數。以此推導出3種類型美術作品的平均被重復次數。
A類的重復次數為26.9次。B類、C類以同樣的方式取得不同的重復次數,即B類的重復次數為4.4次,C類的重復次數為1次。在此基礎上,將3種類型油畫家美術作品總數分別除以3個平均重復次數,從而得出3種類型美術作品量(即沒有重復的美術作品)為:A類8320幅、B類29669幅、C類18649幅,總幅數為56638幅。
2.2.5補充其他因素以完備數據的真實性
由于以上推導模型是基于理想的模型而產生,故需要補充排除在外的作品圖片量,最終推導出全部藏書中的真實圖片數。如一些美術作品不是以個人形式出版,以合集等其他形式出版;還有就是上面的假設是完全重復,現實中有一些是沒有被完全重復的美術作品。基于這點,從館藏的實際情況出發,發現除了C類,由于選定的都是零重復的美術作品,故不存在遺漏的美術作品,其他A類和B類都有。這些被忽略的圖片數根據不同類型也有不同的比例。其中A類被忽略的大致占圖片總數(排除重復后)的15%(即1248幅),B類被忽略的大致占圖片總數的10%(即2967幅)。綜合以上所有數據,得出外國油畫作品為60853幅,即我館所藏美術資料中一共包含60853幅美術作品。
3結語
從以上推導中,我們可以發現,統計學在美術文獻資源的選擇中發揮了很大的作用,這里面應用了很多統計學的原理,同時也考慮到馬太效應。這一推導模型需要不斷地推導研究才能完善,筆者希望以此拋磚引玉,以求有更好的方法來解決這個問題。