本站小編為你精心準備了中文古籍數字化建設的實踐參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:域外漢籍數字化建設是將具有學術價值、研究價值和藝術價值的海外漢字文獻予以數字化,形成一定規模,方便國內外讀者使用的數字資料,由此可以通過數據庫出版物提供給國內外有需要的圖書館和科研院所,為歷史文化項目創造經濟價值起到探索與示范作用。
關鍵詞:域外漢籍;數字化;傳統文化
古籍數字化是當前頗受人們重視的一種古籍整理方式,它以存儲量大、使用方便等優點為人們所歡迎,隨著信息化時代的到來,古籍文獻的數字化作為新型的文獻保護舉措,將有極大的發展應用空間。
一、國內外關于古籍數字化建設的現狀
針對古籍文件的數字化整理雖起步較晚,但發展十分迅速,近幾年國內外多家圖書館、數字出版商推出了各類文獻數字化產品,各有優劣。在海外,影響力較大的有美國國會圖書館倡導的“世界圖書館(WDL)”工程,該項目于2005年6月提出,2009年4月向公眾開放。迄今為止已有168家世界各地的圖書館加入。其建設意義在于讓讀者可以從世界任意地方通過瀏覽網頁發現、學習、研究不同地區的文化珍寶,包括名人手稿、古代地圖、珍本文集等內容。但該系統的缺憾在于中文文獻的資料尚較缺乏,漢字古文獻不足200種。在港澳臺,有基于保護古籍避免重復借閱而造成損毀的目的而推出的臺灣“國家圖書館”古籍影像檢索系統,主要起典藏和利用的雙重目的。目前該系統總計著錄條目已達42069種,有數字影像的達10930種。但出于資源保護的目的,目前該系統的影像僅在館內開放使用,館外只能查詢書目數據及閱覽卷端書影。對于館外讀者而言,仍然非常不便。在中國大陸,影響力比較大的文獻數字化工程當屬“大學圖書館國際合作計劃”,也被稱作“中美百萬冊書數字圖書館”(China-AmericaDigitalAcademicLibrary,簡稱CADAL)項目。[1]該項目是由國家投資建設美國合作方投入軟硬件系統支持,浙江大學圖書館和中國科學院研究生院負責具體實施建設的平臺系統。該系統包括古籍190405冊、繪畫3427件、英文圖書95751冊,與“中國高等教育文獻保障系統(CALIS)”一起,共同構成中國高等教育數字圖書館的框架。此外,還有北京時代瀚堂科技有限公司推出的瀚堂典藏古籍數據庫,該數據庫是目前國內唯一采用國際通用的八萬二千漢字之超大字符集進行加工??钡墓偶當祿?,收錄了中國從夏商至民國的歷代文獻18000多種,漢字總量超50億,該數據庫在國內多家圖書館內可以使用??傮w可見,古籍數字化在海內外都被認為是一項方興未艾的文化事業,受到高度重視。但是,通過我們的調查和以上國內外古籍數字化產品的介紹,國內外的公立機構和出版商仍較少涉及域外所藏漢籍領域,而大陸系統絕大部分為中國境內典藏的文獻,僅包含少數已經被國內學者引介回歸并影印出版的域外文獻??梢娪蛲鉂h籍的整理和數字化工作仍是一個亟待開發的領域,由西南師范大學出版社主導建設的“域外漢籍數字服務平臺”的推出無疑是一項填補空白的舉措。
二、域外漢籍數字化建設的意義
全面整理域外書目文獻,完成域外漢籍數字化工程,這是一件很艱難的工作,也是一件很有意義的工作。
(一)見證中國文化對世界的影響黨的報告指出:“文化是一個國家、一個民族的靈魂。沒有高度的文化自信,沒有文化的繁榮興盛,就沒有中華民族偉大復興。”[2]中華文明在悠久的歷史進程中創造了無數的文化成果,如漢字、造紙術、印刷術等,漢字典籍則是將多種文化成果結合在一起的、最具中華文明特征的智慧結晶,也是將中華文明傳承下來的物質載體。時至今日,周邊國家、歐美國家乃至世界的其他角落,均保存了為數眾多的漢籍。僅以2002年由中國大陸、臺灣和越南學者共同編纂的《越南漢喃文獻目錄提要》為例,該文共著錄河內漢喃研究院和法國遠東學院所藏的越南漢籍5027種,[3]海外所藏漢籍數目之巨,由此可見一斑。
(二)有益于我國文化軟實力的提升域外漢籍中有大量中國佚失而留存海外的華夏舊籍。如1900年,敦煌藏經洞被人發掘之后,其中的數萬件經卷、文書、繪畫等文物被盜走,流失在世界各地,促使海內外眾多學者投身研究行列,敦煌學便由此而誕生。再拿音韻學來說,晚清時期,中土佚書《韻鏡》在日本重新被發現,黎庶昌將其刻入《古逸叢書》,國內學人才逐漸接觸到該書,這件事在音韻學的發展史上具有里程碑式的意義。從歷史上可以看到,在東亞地區,漢字就是東亞諸國的文化支柱,也是東亞未來合作成功的文化基礎。研究這些漢字文獻,我們可以了解古代東亞各國的文化往來,為未來的國際合作提供鏡鑒;整理這些漢字文獻,我們可以吸引各國的學者關注東亞各國的歷史姻緣、重視彼此的同質的文化根基,取長補短,共同促進,讓漢文化在未來得以再度復興。因此,通過對域外漢籍的數字化加工,利用新興的傳媒技術,構建和發展現代傳播體系,讓中華民族優秀文化得以更好地傳承、發揚,大力提升我國文化的軟實力。
(三)有助于域外漢籍的回歸、整理和保護域外漢籍雖然存量巨大,但隨著時光流逝,這些散布在全球各地的東方古文獻因為各個國家保存條件、保護力度的不一致而出現不同程度的損壞情況。比如,在梵蒂岡圖書館,由于歐洲人缺乏對東方古籍的保護意識,大量的漢籍古本被拆開黏貼在硬紙板上,由于兩種紙質酸堿性不同,而致使原書出現字跡模糊、墨色脫落的現象,令人十分心痛。另外,由于國外圖書館缺乏漢籍整理的專業人才和經費,大量的漢籍仍然被棄之一旁,任由自然侵蝕。比如俄羅斯科學院東方手稿所內,大批的中國清代至民國時期的俗文學唱本,未曾整理,放置在無人問津的角落里。[4]古籍整理是我們繼承中華民族優秀傳統、發揚中華文明璀璨文化的一項卓有成效的舉措,也是一項功在當代、利在千秋的偉業。從南北朝時期到清末、民國時期,不斷有有識之士通過各種渠道搜求海外中土佚書、漢籍珍本,多有斬獲,在知識界屢次掀起巨大反響,也為相關領域的研究提供了巨大便利。新中國成立之后,域外漢籍的收羅與整理工作更是碩果累累。北京大學、南京大學、復旦大學、上海師范大學等院校在此領域做出突出貢獻,獲得了大批中國所未見的新資料,極大地拓展了中國學者的研究視野,催生了一批新的學術成果。數字化與信息技術是資料整理、保存、傳播的有效手段,因此,建立一個長期、經濟高效、具有開放性、應用性強的數字化平臺對中文古籍的整理和保護將起到非常重要的作用。正因為如此,西南師范大學出版社與時俱進,積極倡導建設“域外漢籍數字服務平臺”項目。通過制定收集、整理標準,將具有版本價值、研究價值和藝術價值的海外漢字文獻予以數字化,形成一定規模,方便國內讀者的使用,弘揚中華優秀的傳統文化;同時,“域外漢籍數字服務平臺”的應用,能夠讓國內外研究學者便捷查詢、使用,以免除舟車勞頓,客觀上促進了中華文化的對外推廣和漢字文化的傳承復興,是一件非常有意義的事情。
三、“域外漢籍數字服務平臺”設計概述
該項目共著錄了近40個國家的近百家圖書館及個人所收藏的漢文文獻,約有71000余漢籍條目,如何將為數眾多的漢籍條目管理好、展示好,是我們需要著重考慮的地方。
(一)產品概述“域外漢籍數字服務平臺”是利用西南師范大學出版社已出版的《域外漢籍珍本文庫》系列叢書構建的一個適合國內外圖書館、歷史研究所等科研機構使用的數字服務平臺,涵蓋了近40個國家的近百家圖書館及個人所收藏的漢文文獻,約有71000余漢籍條目。通過數字服務平臺,讀者可以通過著錄內容、類別、書名、冊數、著述者、版本信息、行款形式(附裝幀)、藏印、紙質、存藏地、索書號、圖像、備注等十余項信息進行直接檢索,精確找到自己所需要的文檔。同時,主界面設置人性化,方便讀者的閱讀使用。例如:在主界面上設置有說明、檢索、瀏覽、凡例、聯系我們、數據導出、退出等多個功能按鈕。這些按鈕還會顯示在檢索、瀏覽、說明等分界面的頂端,隨時可以切換到用戶想要查看的其他界面。此外,數字服務平臺還提供簡體中文和繁體中文兩種版本,滿足海內外學者的需求。
(二)產品特色為將眾多的漢籍條目管理好、展示好,為用戶提供準確、迅速的檢索環境,并且滿足未來平臺資源不斷增長的需要,我們在設計過程中就著重從操作實用性、平臺開放性、資源檢索準確性等多個方面進行考慮。在操作實用性方面,為方便非計算機專業人員的使用,滿足個人用戶和機構用戶的日常使用,平臺操作以操作簡便、快捷實用為主,界面設計注重人性化,并且提供豐富多樣的幫助文檔和靈活的配置手段等。在平臺開放性方面,充分考慮了多種應用場景的使用,給用戶提供了多終端登錄、查詢的功能;還從規范項目內部程序設計、項目內部與外部接口和用戶操作界面做起,構建規范的數據流程,并將平臺按照資源傳遞分為標引、上傳、檢索以及服務器管理四大模塊,保證數據的合理傳遞,如圖1所示。其中,資源標引模塊主要功能是對已出版的文檔拆分出來的條目進行內容審核、格式轉換、屬性標引等操作。資源上傳模塊主要功能是按照事先制定的分類體系標準,將標引好的資源系進行分類并上傳。資源檢索模塊主要功能是對著錄內容、類別、書名、冊數、著述者、版本信息、行款形式(附裝幀)、藏印、紙質、存藏地、索書號、圖像、備注等十余項信息進行檢索,滿足用戶查詢方便。服務器管理模塊主要功能是對系統的后臺管理和維護工作。每個模塊對應不同的平臺使用群體,各負其責,方便后續資源便捷增加到平臺,不斷豐富其內容。在資源檢索準確性方面,一是通過構建標準化的分類體系,幫助用戶快速定位所需的資源。該項目按四部分類法,分為經、史、子、集四部,并增加叢部,同時根據文獻的性質,對類別做了適當的增刪,比如在集部別集類中增加韓國-朝鮮類、日本類、越南類,將以上國家歷史上的漢文文集按國別分類。其余文獻則按照內容性質和時間順序分別放入對應的類別中。碑帖、文書等散見的文件分別匯集成一類。在瀏覽界面的左側,有樹形目錄。點擊每個類別,均可在右側方框內顯示出該類別的所有書目數據,滿足用戶查詢方便。二是盡可能完善條目的標引屬性,在對資源進行條目化拆分的時候,就盡可能設置更全面的資源標引屬性,包括著錄內容、類別、書名、冊數、著述者、版本信息、行款形式(附裝幀)、藏印、紙質、存藏地、索書號、圖像、備注等十余項,以便讀者在使用過程中更快、更好地找到需要的資源。
(三)關鍵技術1.資源在線預覽技術系統支持用戶無須下載文件、直接在線預覽。通過提前預覽資源、直接判斷資源是否符合需要,無需浪費時間下載文件,大大提升了用戶的使用體驗。2.基于全文檢索的快速查詢技術全文檢索系統是指可以對資料源的全部文本內容進行檢索的系統,比起傳統的標音、主題詞檢索來,全文檢索技術提供了全新的、強大的檢索功能以達到迅速、準確、全面定位文檔資源信息??梢越鉀Q“域外漢籍數字服務平臺”海量數據定位不準、查詢效率低下問題,提高查詢系統工作效率和工作質量。[5]3.負載均衡技術隨著網絡核心業務發展和訪問量不斷提高,使得單一的服務器設備無法承擔。通過負載均衡技術有效解決網絡設備和服務器帶寬不足等問題,提升用戶的滿意度。4.大數據技術中文數據中操作對象的屬性標引復雜、種類繁多、古籍校本混亂,為獲取全面、準確的信息,需綜合多個數據源進行綜合分析,目前業界已有成熟且實踐中得到廣泛驗證的解決方案,因而可以借鑒大數據技術解決中文古籍的信息管理工作。
四、域外漢籍數字化建設的思考
隨著計算機與信息技術的迅猛發展,古籍數字化已成為對古籍文獻資源進行有效保護和廣泛利用的重要手段,但在實施過程中還面臨一些問題。
(一)內容風險由于域外內容年代久遠、來源類型多樣,內容上不可避免會出現政治性、科學性、權威性等方面的疏漏。因此,在項目建設過程中,我們首先從圖書出版的源頭上制訂相應的制度和流程,保障文章和標引正確性。例如,在文章的收集過程中,便組織一批知名專家通過索引、??薄⒆⑨尩确绞綄偶M行加工整理和標注,同時,調集社內業務精深的編輯團隊對專家的標注進行審核,層層把關。最終,將標引版本和原始版本進行統一。西師出版社近年來出版的《日藏宋元禪僧墨跡選編》《木氏宗譜》等書即采用這種辦法,將專家對古籍的整理、標注成果和古籍原典全部展現,方便國內外學者使用。同時,我們也利用數字化建設來反哺圖書出版工作,比如我們可以把《域外漢籍珍本文庫》第一輯和第二輯的書目,放入本數字服務平臺檢索核查,再比照國內圖書目錄,能很方便剔除國內有存藏或已出版的書目,從而保證《域外漢籍珍本文庫》所收文獻的珍稀性、唯一性和權威性。
(二)古籍處理智能化程度不高域外漢籍數字化處理實質是對古籍的整理,而古籍整理又對整理者的知識水平提出了很高的要求,因此,現時的計算機軟件、手寫識別OCR技術等還無法對古籍進行全文自適應分類整理,大部分工作還依賴于傳統圖書的專家和編輯,使得整個項目在對古籍全文字符編碼化方面還有所欠缺。為此,我們將積極探索建立一套域外漢籍資源自評價體系,實現系統自動對學者上傳的古籍圖片進行文字識別,建立全文檢索索引,并提取關鍵字段作為標引屬性,為項目的二期工程———域外古籍數字化資源的共建、共享打好基礎。
(三)專業人才隊伍的建立域外漢籍數字化是傳統文化與現代技術的結合,在整個加工過程中,需要有高水平的專家對文檔內容進行審定、把關。同時,在數字化處理、數據庫設計、平臺開發等方面也需要具有計算機網絡知識和多媒體技術的專業人員進行通力協作。因此,加強人才隊伍的建立,打造高素質的復合型人才,將是推進中文古籍數字化建設的有力保障。
參考文獻
[1]萬軍.整合科學與人文精神建設圖書館特色館藏[J].圖書館理論與實踐,2012(5).
[2]黃小華.黨的報告的四大亮點及其理論貢獻[J].探索,2017(6).
[3]劉玉珺.《越南漢喃文獻目錄提要》商榷[J].新國學,2006(00).
[4]徐林平.以書為徑,尋找中華文化之魂魄[N/OL].文藝報,2014-05-21.
[5]楊麗.科研院所知識管理系統構建研究[D].北京交通大學,2011.
作者:羅渝;黃璜