本站小編為你精心準備了古籍數字化實踐與分析參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:古籍數字化是古籍保存、整理和利用的必然趨勢。文章結合《國家珍貴古籍名錄》數字化工作,從古籍數字化設備甄選、元數據著錄、圖像采集、圖像處理以及數據庫建設等方面對古籍數字化實踐進行探討,指出實踐中存在的問題與不足,并提出古籍數字化工作的合理化建議。
關鍵詞:古籍數字化;古籍保護;古籍
數據庫平臺;國家珍貴古籍2017年2月28日,國家圖書館(國家古籍保護中心)與上海圖書館、天津圖書館、浙江圖書館、云南省圖書館等4家單位在國家圖書館首次聯合在線古籍數字資源,本次的古籍資源均為各館所藏特色資源,加上此前已資源,總量達到2.4萬部,讀者實名注冊后便可免費查閱使用。本文在前人研究討論的基礎上,結合《國家珍貴古籍名錄》數字化實踐中的體會,對數字化過程中出現的問題作出分析、總結。
1云南省古籍入選《國家珍貴古籍名錄》概況
從2008年3月1日第一批《國家珍貴古籍名錄》開始公布,到2016年3月27日公布的第五批,我國已公布《國家珍貴古籍名錄》12,274部。國家珍貴古籍包括甲骨文、簡帛古籍、敦煌遺書、宋至清漢文古籍、少數民族文字古籍、碑帖拓本、輿圖和外國文字古籍等,是最珍貴、最具代表性的中華民族典籍文化遺產。云南省內共14家古籍存藏單位及個人共235部珍貴古籍入選《國家珍貴古籍名錄》,包括漢文珍貴古籍174部,少數民族珍貴古籍61部。在漢文珍貴古籍里,有現存云南最早的寫本———大理保安八年(1052)大理國寫經《護國司南抄》;有存世不多的、裝禎形式為旋風裝的大理保天八年(1136)寫本《諸佛菩薩金剛等啟請》;有云南大理國刻本《佛說長壽命經》,元延佑五年(1318)中慶路清涼山報國禪寺刻《大華嚴方廣普賢滅罪稱贊佛名寶懺》;約在元代至順三年到至元二年(1332-1336)前后,徽政院主持,在大都弘法寺刻《官刻大藏經》和明萬歷十七年至清康熙十五年刻的一萬二千六百余卷《嘉興藏》等大藏經典;有北宋哲宗二年紹圣二年(1095)刻本《春秋經傳集解》;有宋刻遞修本《南齊書》《北齊書》《周書》;有元至正二十三年(1363)朱元佑刻《鄂國金佗粹編》;有代表性的稿本《東塾著稿》;有顧炎武纂輯的鈔本《肇域志》。2012年8月國家古籍保護中心開始國家珍貴古籍數字化試點工作,啟動“中華珍貴典籍資源庫”項目的同時,編制了《古籍數字化工作手冊》(試用本)作為本次試點工作的標準規范。《古籍數字化工作手冊》(試用本)規定了珍貴古籍數字化的范圍、規范性引用文件、術語定義、工作流程、加工準備、元數據著錄、圖像數字化、數據命名、數據提交、數據驗收、數據利用等,作為古籍數字化依據。由于入選古籍的珍貴性,在數字化加工中,從設備的選擇、元數據的著錄、圖像的掃描采集、圖像處理到資源,每一個環節都必須做好充分的調查研究。
2《國家珍貴古籍名錄》數字化的實踐與討論
2.1古籍數字化加工準備古籍數字化工作大致分為七個步驟實施,依序為古籍數字化加工準備,元數據著錄,圖像數字化,數據命名,數據提交,數據驗收,數據利用。
2.1.1古籍數字化的工作流程古籍數字化的總原則是:嚴格管理,明確責任,落實安全保密管理機制、質量管理機制,確保古籍文獻原件和數字化信息的安全,確保各環節工作符合質量要求,建立完整、規范的工作記錄。具體包括以下幾個方面。(1)書目的確定。為最大限度地避免數字化的重復建設,在書目的選定上,一定要堅持珍貴性、地方性、系統性的選擇標準。如國家古籍保護中心開展的珍貴古籍數字化試點工作,從已入選《國家珍貴古籍名錄》的古籍中進行遴選,選定了云南省圖書館珍貴古籍44種,這其中包括國內罕有的大理國時期的寫本11部、存世不多的元官藏23部、稿本5部、刻本5部。(2)場地的選定。為確保古籍的安全,數字化過程中古籍不得被擅自帶離保管單位,因此加工場所應選定在古籍存藏機構的內部,便于古籍的監管。云南省圖書館古籍由歷史文獻部負責管理,部門有兩個閱覽室,面積都較大,因此將加工場地設在不接待讀者的善本閱覽室。(3)古籍的交接。核查書目中古籍的保存狀況,制作古籍文獻交接清單,由加工人員從古籍庫房管理人員處領取待加工古籍,需要根據加工工作進度安排按規定領取,領取時需要對古籍數量進行清點,并填寫交接登記表,當日出庫的古籍當日入庫。在掃描前,加工人員按照索書號、冊次及卷次進行整理登記,并統計每冊書的頁數及制作卷端目錄。對于蟲蛀、破損、殘缺、褶皺等書品比較差的書籍進行相應的記錄并及時通知古籍管理人員協調處理。
2.1.2古籍數字化掃描設備古籍數字化掃描設備的配置是進行古籍數字化的關鍵環節,是古籍數字化的主要硬件。珍貴古籍數字化,首先考慮的是古籍在無損害或最大限度減少損害的情況下進行。現在市場上有很多古籍數字化掃描的設備,經過考察比較,云南省圖書館選擇使用法國i2s公司生產的專業古籍數字化掃描設備,該公司提供了CopibookA2、SuprascanQuartzA1及SuprascanQuartzA0三種類型古籍數字化掃描儀,掃描的古籍書影均能達到或者超過《古籍數字化工作手冊》(試用本)的要求。這三種類型掃描設備,首先解決了不同尺寸、不同裝幀形式對設備的要求。在幅面上由A2到A0,且可以根據古籍尺寸大小做出調整,可以滿足不同幅面古籍的數字化掃描需求,避免了較大幅面古籍分段掃描后拼接效果不理想和費時費力的問題。其次解決了翻頁中不同厚度對設備的要求。掃描設備的操作平臺具備作業獨立升降功能,解決了古籍掃描過程中因古籍左右厚度不一而需要墊板的問題,也利于對古籍實體的保護。再次,解決了古籍掃描過程中對光源的特殊要求。掃描時的照明系統均使用冷光光源,無紫外線和紅外線。照明光線由上方漫射至整個操作臺,并通過軟件調整整個操作臺的亮度,保證了數字化過程中古籍受光的均勻,最大限度地降低對古籍的影響,保證了采集圖像的精度和色彩還原度,實現所見即所得的效果。選擇古籍數字化的軟件,首先,要能對各種古籍掃描參數設置進行保存,可根據不同大小、類型的古籍選擇最佳的掃描參數。其次,要根據古籍頁邊距的尺寸,設置精確尺寸,在掃描成像過程中自動裁切。再次,軟件要支持多幅面圖像的同時采集、多種格式輸出保存。云南省圖書館使用的古籍數字化軟件有i2sCopibook系列設備自帶軟件和i2sSuprascanQuartz系列的yooscan軟件,能夠滿足以上的要求。
2.2古籍元數據的著錄
古籍元數據的著錄是古籍數據庫建設的基礎,必須是統一的標準才能使數字化成果達到合作共建、資源共享的目標。2012年國家古籍保護中心編制《古籍數字化工作手冊》,2014年做了修訂。建議古籍數字化過程中的元數據著錄,以此做為標準。《古籍數字化工作手冊》元數據的著錄包括文獻整理登記、描述元數據、管理元數據三部分,需要制作6張庫表,包括文獻整理登記表(全書)、文獻整理登記表(各卷)、書目數據表、卷目數據表、外字表、管理信息表。[1]各表對數字化珍貴古籍整體、卷次、題名、卷名、責任者、版本、存卷、冊數、頁碼、批跋、板式、透字、夾字、皺折、館藏號、館藏單位、制作單位等信息進行客觀準確的著錄。對古籍題名、卷次、責任者、版本、頁碼、批校題跋等詳細記錄是建立數據庫的基礎,也是讀者快速查閱所需文獻的重要依據。對古籍的夾字、透字、蟲蛀、褶皺、破損、霉變、殘頁等進行著錄,反映珍貴古籍損壞狀況,便于及時發現破損情況,為下一步的修復提供依據。
2.3古籍數字化圖像的掃描采集
古籍書頁圖像掃描采集時參數的選擇與設置對采集圖像、后期圖像的處理速度、制作電子圖書的質量以及后續制作仿真本有直接的影響,[2]且在古籍書頁掃描操作過程中可能出現頁面修整、古籍放置、透字襯紙、拆卷裝訂等方面的問題,若處理不當,會對古籍造成二次損壞。(1)掃描參數設置。《古籍數字化工作手冊》中規定,數字掃描參數應設置為彩色掃描色深24、光學分辨率600dpi、半頁型頁面、輸出無壓縮的TIFF格式、冷光光源掃描,亮度、曝光度、白平衡等需根據環境的變化時時做出調整。(2)古籍放置。在古籍書頁掃描時,書籍放置在承書操作平臺上書頁應與掃描儀確實成為垂直角度,并固定好使之不可移動。由于古籍年代久遠,存在紙質脆化、老化、破損等狀況,掃描放置古籍時工作人員須輕拿輕放,同時須避免古籍因過分擠壓拖動、反復放置,造成人為的古籍實體損壞。(3)古籍頁面修整。館藏古籍存在紙張卷曲,頁面褶皺、折角的現象,在圖像掃描采集前如不對古籍頁面進行修整,玻璃壓板擠壓便會造成古籍損壞加重,也可能因書面文字受到遮擋進而影響古籍文字內容的識別閱讀,甚至還會影響古籍圖像的美觀,因而,云南省圖書館在古籍圖像掃描采集時對書頁卷曲、褶皺、折角進行輕微的撫平,確保頁面的平整。(4)古籍透字處理。古籍數字化中出現透字情況,是每一個負責掃描的工作人員最不愿意遇見的,不是怕麻煩,而是方法使用不當容易對古籍造成二次損壞。[3]云南省圖書館部分古籍紙質薄,頁面文字可透過紙張,古籍圖像掃描采集時形成重影,不便于閱讀使用。目前云南省圖書館處理古籍透字的情況主要采取襯紙的方法,在書頁間加入襯紙,并選擇柔軟的宣紙進行托襯。然而加入襯紙很容易劃破書口,因此在掃描時遇到透字古籍時需要工作人員謹慎細心對待。(5)古籍拆卷處理。原則上古籍一般不進行拆卷處理,若因特殊情況需要拆卷,必須經過專家核定,由專業人員進行操作。[4]云南省圖書館古籍數字化中拆卷主要是因為部分古籍書脊距文字太近,掃描時出現夾字現象,圖像頁面文字內容不完整。還有部分透字古籍,紙質老化、脆化、破損嚴重,襯紙的方法會對古籍造成二次損壞,這時,需要對古籍進行拆卷處理。這項工作必須慎之又慎,如遇到非拆不可的,必須由修復專業人員對古籍進行拆卷、修整。
2.4古籍數字化圖像處理完整清晰
再現古籍原貌,是整個數字化工作成功的關鍵。在古籍數字化過程中,大部分圖像需要后期進行處理,所有后期處理工作都僅在未改變原掃描或拍照圖像的色彩、分辨率、格式、壓縮的情況下進行,包括糾偏、拼接、去污、裁切及水印等。(1)糾偏處理。古籍掃描圖像需要糾偏處理,主要有兩個原因:一是掃描工作人員在掃描時未能將古籍左右放置平行整齊;二是部分線裝古籍在裝訂時裝訂線沒有與書口平行出現傾斜,古籍掃描時展開書籍頁面很難達到四邊垂直平整。以上情況導致古籍成像偏斜,需要后期進行糾偏處理,使版心居中、頁面端正清晰。(2)圖像拼接。圖像的拼接在字畫、碑帖及地圖等數字化時較為常見,古籍圖像是否需要拼接主要由古籍的裝幀形式而定,一般線裝古籍頁面圖像多在A2幅面內,較少需要拼接,而旋風裝、經折裝、卷軸等裝幀形式的古籍圖像均需拼接。古籍圖像的拼接是將分段掃描的圖像整合以還原古籍原貌和內容,便于閱讀和使用。(3)去污處理。古籍圖像采集后一般不做任何頁面內容修改,以保留古籍的原汁原味。去污處理是針對古籍原件邊緣背景頁面的潔凈處理。掃描時不論使用什么底色作為背景,古籍數字化圖像使用高分辨率、高精度的成像采集,空氣中較大顆粒的灰塵、古籍脫落的紙屑等掉落在操作平臺上都將會呈現在圖像里,當圖像需要放大時許多的臟點便會出現,嚴重影響了古籍的美觀和閱讀效果。因而在保存古籍原生性圖像條件下,需要做背景的潔面處理。(4)裁切與水印處理。古籍采集圖像所占內存較大,除了保證古籍原件的完整性需要留存少量的頁邊距外,不能保存太大無關幅面,因而在古籍頁面進行拼接、糾偏處理后將多余的頁面背景進行裁切。再者,古籍數字化的成果不斷地對讀者開放,讀者可通過網絡閱讀和下載數字化的珍貴古籍。為防止惡意下載或進行商業牟利,在古籍資源提交前將古籍圖像頁面添加館藏水印。古籍水印的添加必須能與古籍文字顏色進行融合,從而不影響古籍的閱讀。
2.5古籍數字化資源的
古籍數字化是古籍保存、整理和利用的必然趨勢,也是數字圖書館建設的重要組成部分。目標是使所有的古籍數字化成果可以在最大范圍內給讀者提供服務,真正實現古籍資源的共建共享。[5]古籍數字化的成果只有建立相應的數據庫平臺才能實現共享的目標。古籍數據庫平臺技術的運用,可以使文獻數據庫最大限度地發揮其檢索、存儲功能,從而使得文獻數據庫達到存儲信息量大,信息密度高,涉及信息范圍廣,數據連續性、積累性強的效果,使用戶能在短時間內查詢到最有效的信息。[6]古籍數據庫根據現在的技術處理情況,可以將其分為圖像版、文字版、圖文版。云南省圖書館根據館藏古籍現有條件的實際情況進行以數字圖像為主的數據庫建設,即通過掃描古籍全文,建立圖像數據庫,同時著錄相應的元數據,形成基于元數據的古籍全文數據庫。[7](1)采用形式。古籍數據庫采用的形式包括C/S模式、APP模式和B/S模式。[8]C/S(客戶機/服務器)模式的產品需要客戶下載一個數十MB的客戶端,然后進行安裝配置。APP模式,用戶也需下載客戶端。B/S(瀏覽器/服務器模式),用戶只需要在瀏覽器中打開該網站網頁進行檢索和瀏覽,不需要下載任何客戶端。我館與中國古籍保護網的數據庫均采用B/S模式。(2)開放方式。古籍數據庫可采用不同的開放方式。如中華古籍資源庫、哈佛大學哈佛燕京圖書館善本特藏資源、東京大學東洋文化研究所漢籍全文影像數據庫、天津圖書館古籍數字資源都需要注冊該館的賬戶才能閱覽;云南省圖書館古籍數字資源數據庫只需進行實名注冊即可查詢和閱覽,上海圖書館家譜全文數據庫、古籍善本刻本庫,浙江圖書館館藏珍貴古籍數據資源都是進入數據庫網頁便可查詢和閱覽。(3)檢索設置。查詢檢索是數據庫的基本功能,能使讀者在瀚如煙海的數據中快捷地查詢閱覽所需古籍資源。但在中國古籍保護網資源數據庫的檢索設置有著較大的差別。首先,檢索字段設置不同。如中華古籍資源庫通過題名、善本號、責任者進行檢索,哈佛大學哈佛燕京圖書館善本特藏資源通過題名、責任者、出版年代、出版地、出版者、附注項進行檢索;上海圖書館藏家譜數字資源通過題名、姓氏、居地、堂號、著者、名人、叢書、索取號進行檢索也可以通過全部索引進行合并檢索;其次,檢索方式有精確檢索、模糊檢索、高級檢索、二次檢索、分類檢索的差別;再次,檢索結果的瀏覽方式不盡相同。中華古籍資源庫、哈佛大學哈佛燕京圖書館善本特藏資源、東京大學東洋文化研究所漢籍全文影像數據庫可對檢索古籍進行題名、責任者的升序或降序排序,也可以選擇圖文結合或者列表方式閱覽古籍的著錄信息。(4)閱覽設置。古籍閱覽是古籍數字化的最終目的,目前在古籍資源數據庫時,在古籍閱覽界面及功能的設置上各具風格。共同的是每個數據庫閱覽古籍圖片時都可以對圖像進行縮放、上/下翻頁、目錄設置、古籍冊次選擇及當前頁顯示。不同的是部分數據庫的古籍圖像閱覽還可以進行指定頁面跳轉、附件查找、添加隨筆、全屏閱讀、縮略圖、首末頁跳轉等,并且數據的目錄僅限于冊次選擇,而不能達到卷次內容的點擊進入。古籍數據庫平臺除了上述異同外,還具有其他一些特色功能設計,如云南省圖書館數字資源庫設置了云南古籍分布的動態圖,并以中國朝代為時間軸線顯示各歷史時期的古籍上線狀況,使館藏古籍在空間和時間上更具直觀立體。哈佛大學哈佛燕京圖書館善本特藏資源可將閱讀古籍資源分享至QQ、微博、豆瓣網等。但是因為目前全國古籍平臺數據庫并沒有統一規劃和功能標準,所以還存在開放方式、檢索字段不統一,顯示古籍描述信息不一致、閱覽界面功能差異大等一些問題,讀者換一個數據庫必須重新學習才能更好的使用,千差萬別的數據庫模式容易讓人混淆,給讀者帶來了不便。
3未來古籍數字化的展望
隨著古籍數字化理論研究的深入與實踐的閱讀推動,我們應不斷加強對古籍數字化工作的創新與完善。
3.1促進全國古籍普查與古籍數字化的結合
我國古籍數量眾多,館藏分散,需要進行全面的普查。從2007年開始實施“中華古籍保護工程”,啟動了全國古籍普查工作。目前,中國古籍保護網已陸續將古籍普查的數據在“全國古籍普查登記基本數據庫”,便于讀者了解古籍、利用古籍。但是古籍數字化工作卻是各單位獨立進行,容易造成選目重復及人力、物力資源的浪費。在古籍數字化資源共建共享的原則下,應加強古籍數字化與古籍普查的緊密結合,避免資源重復建建設。
3.2實現古籍數字化的標準化
古籍數字化是一項系統的工作,必須在統一的基本原則的指導下才能有效健康地運行。國家古籍保護中心編制《古籍數字化工作手冊》作為全國古籍數字化參考原則,對古籍數字化基本流程、元數據的著錄、圖像的采集、圖像處理等做了規范,但不足的是《古籍數字化工作手冊》的指導原則還未能涉及到古籍數字化數據庫平臺的建設,導致了獨立研發的數據庫互不兼容、只能在各自的平臺上運行。因而,古籍數字化的工作指導原則還需進一步的完善,達到統一的標準,便于所有數字資源的整合與讀者的查詢利用。
3.3加強古籍數字化設備與技術的完善
先進的科學技術在文化產業發展中的比重逐步提升,因此,古籍數字化也應該在實踐的基礎上加強對設備與技術的創新。一方面要求圖書館及圖書館員要及時關注和了解國內外最新的古籍掃描設備發展的科技動態;另一方面,要實現對現有應用軟件程序及時的更新升級。加強硬件設備與軟件技術的完善,實現古籍數字化工作與國際頂尖科技的接軌。
[參考文獻]
[1]國家古籍保護中心.古籍數字化工作手冊(v.1修訂版),2014:18.
[2]盛玉玲.國家農業圖書館農業古籍數據化的探討與實現[J].農業圖書情報學刊,2005(12):11-13,16.
[3]潘星耀.淺談古籍數字化掃描工作需注意的問題[J].新世紀圖書館,2016(12):60-62.
[4]梁愛民,陳荔京.古籍數字化與共建共享[J].國家圖書館學刊,2012(5):108-112.
[5]張旭.古籍文獻數據化的趨勢與存在的問題[J].安徽文學,2010(2):295-296.
[6]劉聰明.古籍全文數據的建設[J].圖書館學刊,2011(7):78-80.
[7]鄧仲華,等.古籍數據庫的交互界面設計研究[J].2014(8):31-35.
[8]史麗香.當前幾種代表性中文古籍數字化產品評析———以用戶需要和反饋為依據[J].圖書館工作與研究,2011(1):101-103.
作者:計思誠 單位:云南省圖書館