本站小編為你精心準備了圖書情報本體思考參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
1引言
圖書情報界組織文獻資源的歷史已有兩千多年,對信息資源的組織也有20多載,面對知識資源的數(shù)字化,我們所面臨的前所未有的挑戰(zhàn)是對知識的組織。什么是知識組織?對知識組織的詮釋需與信息組織加以比較才能準確界定。簡單地說,信息組織是對無序的信息進行系統(tǒng)化和有序化的過程,對信息的描述、揭示以及序化是信息組織的中心內(nèi)容。知識組織則是對知識的本質(zhì)以及知識間的關(guān)聯(lián)進行揭示和控制的過程及方法,對信息的優(yōu)化和重組,對知識的結(jié)構(gòu)、關(guān)系和語義的描述與揭示,對知識的提取、挖掘和智能化表示是知識組織的中心內(nèi)容。
當前,數(shù)字圖書館的資源組織正由信息組織向知識組織邁進,在對數(shù)字資源的知識組織中,知識本體無疑是最本質(zhì)、最重要的技術(shù)和方法。知識本體可以看作是對知識規(guī)范的抽象和描述,是共享、重用知識的方法,目前已經(jīng)成為一種提取、理解和處理領(lǐng)域知識的工具。如果把某一學科領(lǐng)域知識抽象成一套概念體系并使其“明確”、“形式化”和“共享”,就構(gòu)成了這一學科的領(lǐng)域本體。領(lǐng)域本體的特征是針對特定的學科領(lǐng)域,描述了某一學科中的概念、概念的屬性、概念間的關(guān)系以及屬性和關(guān)系的約束。通過某領(lǐng)域的知識本體可將該領(lǐng)域的知識組織起來,使數(shù)字圖書館對知識的表示從信息的集合到知識網(wǎng)絡(luò)和知識地圖。
構(gòu)建領(lǐng)域本體的方法已經(jīng)成為一個新的研究熱點,在實踐中也產(chǎn)生了一些面向不同應用需求的本體方法,如IDEF-5法、骨架法、企業(yè)建模法、METHONTOLOGY法、循環(huán)獲取法、七步法等。雖然領(lǐng)域本體的開發(fā)與建設(shè)面向不同的、特定的學科領(lǐng)域,但其過程則具有一定的規(guī)律性,需要以一定的科學方法為指導,需要遵循一些通用的技術(shù)路線。作者曾在另文中提出本體構(gòu)建的原型進化方法,本文以此為基礎(chǔ),聚焦于一個本體進化的周期過程,對其中的基本流程和方法作一概要的梳理和分析。
一個學科領(lǐng)域知識本體原型的建設(shè),一般包括本體需求分析、本體構(gòu)建規(guī)劃、獲取本體信息、確定本體概念及關(guān)系、本體形式化編碼、本體的評價、本體的進化、本體的表示等過程。
2本體需求分析
領(lǐng)域知識本體建設(shè)一定要根據(jù)具體的應用需求進行建設(shè)。如同軟件工程注重需求分析一樣,知識本體的開發(fā)與建設(shè)必須將本體需求分析置于首要位置。
需求分析階段是本體開發(fā)的開端,也是本體建設(shè)的基石。它是從實際應用的規(guī)劃、目標及特點出發(fā),對本體系統(tǒng)進行的一種規(guī)范化描述。一般來講,本體需求可分為功能需求和非功能需求。功能需求主要描述本體的目標實現(xiàn);非功能需求主要描述本體要達到的性能指標。
作為數(shù)字圖書館領(lǐng)域的本體建設(shè)的需求分析,其要旨是確定領(lǐng)域本體建設(shè)的目的、范圍、用途和使用者。基本內(nèi)容應包括:
所構(gòu)建的知識本體覆蓋的學科領(lǐng)域,該學科領(lǐng)域資源的基本狀況。
知識本體的建設(shè)目的、任務要求,實現(xiàn)的社會效益與經(jīng)濟效益。
利用知識本體的基本用戶與核心用戶,用戶需求的基本特點。
較之其他資源系統(tǒng),知識本體將提供什么樣的服務。
知識本體和其他資源系統(tǒng)的關(guān)系,包括資源的進一步映射和整合。
知識本體在建設(shè)時間、進度上的要求。
對本體需求分析時要注意以下問題:
需求分析的過程性。本體需求分析應包括需求調(diào)研、分析需求、需求描述、需求認可、需求演進等逐次遞進的過程。需求分析不僅應是本體實施的前提,而且應貫穿于本體開發(fā)的整個生命周期。故此,要進行科學的安排。
需求分析的動態(tài)性。因為本體需求貫穿于整個本體建設(shè)過程,用戶需求在很多情況下是隱性的。不明確的,所以本體需求分析只能建立在不完全的需求基礎(chǔ)上。為此,本體需求分析既要維持需求的穩(wěn)定性和精確性,也要在實施過程中不斷地進行動態(tài)調(diào)整。
需求分析的文檔化。為了指導領(lǐng)域本體建設(shè)的后續(xù)工作,應該編寫一份基本需求描述完整、具有可操作性的“需求分析報告”,以文檔的形式明確需求分析的結(jié)果,作為該階段的成果。
3本體構(gòu)建規(guī)劃
“凡事預則立,不預則廢”。本體建設(shè)應有明確的計劃,其目的是用一套程序和標準來規(guī)范開發(fā)過程,讓研究者和建設(shè)者了解其目標和所要做的工作,將偏離目標的損失減至最小;同時合理有效地開發(fā)計劃便于對建設(shè)過程進行檢查和控制,預防可能出現(xiàn)的問題,及時采取有效的應對措施,使本體建設(shè)置于一種規(guī)范化、可視化、可控制的管理之中,提高本體研究與建設(shè)的效率。
本體建設(shè)計劃應以“需求分析報告”為依據(jù),主要解決三個基本問題:確定目標,確定完成目標的程序,確定工作所需要的資源配置。內(nèi)容大致包括:
明確計劃中要達到的工作目標,論證工作的重要性和必要性。
明確工作的具體任務和要求以及每一階段的中心任務和工作重點;對任務進行層層分解,列出工作責任矩陣,確定完成工作的優(yōu)先次序。
明確計劃中各項工作開始和完成的時間,在任務分解的基礎(chǔ)上進行統(tǒng)籌規(guī)劃,以便有效地控制和協(xié)調(diào)。
說明完成計劃的方式方法、具體措施,對資源進行合理分配和集中使用,并進行綜合平衡。
規(guī)定控制標準和工作指標,也就是說必須做到什么程度,達到什么標準才算完成了計劃。
制定計劃是本體建設(shè)過程中必不可少的重要步驟,但在研究項目中往往被忽略,致使其開發(fā)過程難以受控,從而導致實施過程中的重新計劃。本體建設(shè)計劃的關(guān)鍵是計劃的合理編制和有效執(zhí)行。
4本體信息獲取
獲取領(lǐng)域信息是領(lǐng)域知識本體建設(shè)的關(guān)鍵。這一階段的主要目標是確定領(lǐng)域知識本體的信息源,獲取領(lǐng)域本體信息,通過收集領(lǐng)域信息,充分了解領(lǐng)域知識的現(xiàn)狀,為本體建設(shè)奠定基礎(chǔ)。獲取領(lǐng)域信息大體有兩條路徑:
復用現(xiàn)有本體。獲得領(lǐng)域信息的最根本的方法應該是考慮復用已有本體的可能性,通常的方法也是最行之有效的方法是復用已經(jīng)廣泛使用于各個學科領(lǐng)域的主題詞表(也稱敘詞表)和分類表。
主題詞表中的主題是表達文獻主題的詞和詞組,是經(jīng)過規(guī)范化處理的,具有專指性、準確性、明確性和唯一性。其具有完備的參照系統(tǒng),通過主題詞下設(shè)置用、代、屬、分、參等多種參照項,以表示概念之間的等同關(guān)系、等級關(guān)系和相關(guān)關(guān)系,在主題語言系統(tǒng)之間建立起語義聯(lián)系。
與主題法不同,分類法中的類目(概念)是表達文獻內(nèi)容學科知識領(lǐng)域的概念,是遵循邏輯分類規(guī)則建立的科學語言,具有知識的系統(tǒng)性和整體性。分類法具有完備的類目組織系統(tǒng),通過等級結(jié)構(gòu)、邏輯關(guān)系顯示文獻主題概念(類目)之間的從屬、并列、交替、相關(guān)等各種關(guān)系,在分類語言系統(tǒng)之間建立起語義聯(lián)系。
本體是概念和概念關(guān)系的集合,而主題詞表/分類法也是主題詞(概念)和關(guān)系的集合,其基本功能和本體具有一致性。目前,作為主要檢索語言,各種主題詞表和分類法已經(jīng)覆蓋各學科領(lǐng)域。復用現(xiàn)有領(lǐng)域本體可以使本體的建立事半功倍。但是,由于傳統(tǒng)的主題詞表與分類法中的術(shù)語是規(guī)范的(不能用自然語言來表達)、知識點是線性的(不能反映概念網(wǎng)絡(luò))、內(nèi)容結(jié)構(gòu)滯后(難以經(jīng)常修訂)、語義簡單、缺乏對所應用資源的針對性等等,因此將其應用于數(shù)字圖書館的領(lǐng)域本體建設(shè),需要對其進一步修改、完善。
利用相關(guān)方法與途徑獲取。如果所建本體領(lǐng)域沒有可用的主題詞表和分類表,可以采用以下兩種方式獲取本體信息:一種是組織領(lǐng)域?qū)<页薪ǎI(lǐng)域?qū)<彝〞员绢I(lǐng)域?qū)W科體系和知識,能夠較為準確地描述與提供領(lǐng)域本體的基本信息;一種是利用知識獲取工具從數(shù)據(jù)庫中提取,學科領(lǐng)域現(xiàn)有的不同類型的數(shù)據(jù)庫可以看作是領(lǐng)域的知識源,通過一些知識獲取技術(shù)(如關(guān)系數(shù)據(jù)庫中數(shù)據(jù)字典、E-R圖手段以及人機交互技術(shù)、機器學習技術(shù)等),從現(xiàn)有的數(shù)據(jù)庫中提取專業(yè)術(shù)語,挖掘、發(fā)現(xiàn)學科的基本知識。
如果將上述兩種方式結(jié)合起來使用,可以獲得更為完整和精確的領(lǐng)域本體信息。
5確定本體概念及關(guān)系
這一階段的主要目標是確定領(lǐng)域知識本體的主要概念,揭示概念間的各種關(guān)系,構(gòu)筑起領(lǐng)域本體的概念模型。
確定領(lǐng)域知識本體的核心概念集。如果是復用現(xiàn)有的本體,即可直接應用領(lǐng)域主題詞表和分類表中的主題詞與分類名稱作為領(lǐng)域本體的核心概念。它們都是經(jīng)過受控處理的,語義及等級關(guān)系清晰、嚴格,可以根據(jù)應用的需要直接復用。
如果是通過其他渠道獲得領(lǐng)域知識,那么確定重點概念及關(guān)系的過程,可以參考骨架法中提出的middle-out方法。這種方法不要求概念的選擇是自底向上或自頂向下。因為在領(lǐng)域知識中要確定哪些是頂部概念、哪些是底部概念是非常困難的。可盡量選取最基本、最常見的概念及關(guān)系,并用精確無二義性的術(shù)語加以表達。同時對應編制一份“術(shù)語集”,把選擇術(shù)語的過程加以描述,羅列出最終選定的術(shù)語,并對每個術(shù)語賦予相應的自然語言描述。
構(gòu)建領(lǐng)域知識本體概念關(guān)系。即將所獲得的領(lǐng)域概念組織成概念網(wǎng)絡(luò)。
如果是復用現(xiàn)有的本體,首先應考慮主題詞表和分類表的對應關(guān)系,即主題詞表概念間的等級關(guān)系與分類法概念間的學科相屬關(guān)系。分類表可以看作是領(lǐng)域本體概念網(wǎng)絡(luò)的主體結(jié)構(gòu),主題詞表可以看作是概念網(wǎng)絡(luò)的各級概念節(jié)點。
目前各學科領(lǐng)域現(xiàn)有的主題詞表和分類法都有其相應的電子版,也出版了一些類表和詞表完全結(jié)合在一起的分類主題一體化詞表,這種一體化詞表中每一類目都對應著一個概念,類目間的學科等級就是概念間的等級關(guān)系。如果領(lǐng)域的主題詞表和分類法是分別的或是分類主題對照詞表,分類表與主題詞之間沒有完全的等值對應關(guān)系,則需要另外創(chuàng)建類目概念節(jié)點。可先利用主題詞表中的各參照項關(guān)系形成概念網(wǎng)絡(luò)(具有等同關(guān)系的所有主題詞可形成一個概念),然后將分類法的學科體系結(jié)構(gòu)嵌入其中,作為概念網(wǎng)絡(luò)的主干結(jié)構(gòu),再建立具有等級關(guān)系的類目節(jié)點和概念間的對應關(guān)系。
如果是自己創(chuàng)建的本體,其概念關(guān)系的建立也應該遵循上述方法。所建立的本體概念間的基本關(guān)系應該包括等同關(guān)系、等級關(guān)系和相關(guān)關(guān)系。
將本體概念及關(guān)系模型化。明確了本體的概念以及概念間的關(guān)系,接下來就可以采用一定的方法(如圖示法)來揭示概念間的各種關(guān)系。6本體形式化編碼
本體的形式化編碼階段就是用選定的本體語言來描述知識本體。
對于知識本體的描述,可以采用自然語言或邏輯語言描述,若要實現(xiàn)較強的推理能力,一般要用形式化描述語言進行表述。描述本體的語言應該具備4個基本條件:①基于某種形式的邏輯;②機器可讀的;③具備編碼語言的表達性\編碼的精確性和語言的語義性;④支持語法和語義的互操作。
本體的描述一般都是基于某種邏輯語言的,
>目前RDF(S)已成為一個能對本體進行初步描述的標準語言。而描述邏輯(DL)是一個相當重要的知識表示語言,目前正被積極應用于本體描述,或者作為其他本體描述語言的基礎(chǔ)。描述邏輯吸取了KL-ONE的主要思想,是一階謂詞邏輯的一個可判定子集。與一階謂詞邏輯不同的是,描述邏輯具有強大的推理能力,能夠提供完備高效的知識推理機制,滿足本體知識表達的需要。而且,描述邏輯的語法容易轉(zhuǎn)換成XML/RDF形式,因此基于描述邏輯的本體模型更適合Web環(huán)境下概念建模與知識共享。
目前幾個主要的知識本體語言——CKML、OIL、DAML+OIL和OWL就是建立在描述邏輯的基礎(chǔ)之上的。其中DAML+OIL是結(jié)合了OIL和DAML優(yōu)點的一種本體描述語言,采用面向?qū)ο蟮姆椒ㄓ妙惡蛯傩詠砻枋鲱I(lǐng)域概念的結(jié)構(gòu),具有清晰的語義,但不能表示規(guī)則。以DAML+OIL為基礎(chǔ)的OWL是一種網(wǎng)絡(luò)本體描述語言,通過類和屬性來描述對象,并通過公理來描述類和屬性的特征和關(guān)系,可以構(gòu)造很豐富的關(guān)系類并支持自動推理。
上述本體語言的表述能力不斷增強,其技術(shù)也日臻成熟,已成為W3C國際標準的OWL是一種發(fā)展勢頭很強的本體語言,應作為本體編碼的首選語言。為了提高本體編碼效率,可以使用一些輔助工具來完成。編碼過程結(jié)束之后,應該把編碼過程和編碼結(jié)果以文檔的形式保存下來,為本體共享提供規(guī)范的文檔。
7本體的評價
經(jīng)過上述階段,已經(jīng)形成了一個初步的領(lǐng)域知識本體。本體能否實際應用,需要對其進行評估與測試。由于領(lǐng)域本體建設(shè)得不成熟,目前尚無通用的本體確認和評價的標準方法,更談不上標準測試集。格汝伯(Gruber)[9]于1995年提出了本體構(gòu)建的5條標準,即清楚(Clarity)、一致(Coherence)、可擴展性(Extensibility)、最小本體的承諾(Minimalontologicalcommitment)、最小的編碼偏差(Minimalencodingbias)。不過在其設(shè)計標準中并沒有給出具體的評價內(nèi)容。筆者類比于軟件工程的軟件測試,提出本體評價的標準。
對應于軟件開發(fā)過程的測試階段,一般需要對領(lǐng)域本體的正確性和有效性進行評價,評價指標應包括:
本體的完整性。即本體是否包括了該領(lǐng)域重要概念,概念及關(guān)系是否完整,概念的等級、層次是否多樣化。
本體的清晰性。即本體中的術(shù)語是否被清晰無歧義地定義。除了規(guī)范的主題、分類術(shù)語外,對本體進化產(chǎn)生的概念是否給出明確、嚴格的語義定義。
本體的一致性。即概念間的關(guān)系在邏輯上是否嚴密、一致,能否支持本體在語義邏輯上的推理。
本體的可擴展性。即本體可否順利實施進化,本體能否在層次結(jié)構(gòu)上可擴充,在語義上可豐富與完善,能否加入新的術(shù)語概念。
本體的兼容性。即本體的開放性和互操作性,本體能否和其他領(lǐng)域本體及相關(guān)資源系統(tǒng)進行映射,包括系統(tǒng)層、邏輯層、語義層、表現(xiàn)層等的兼容和互操作。
此外,對本體的評價還應包括本體建設(shè)過程中其文檔的完備性、準確性、可操作性等的評價。
8本體的進化
任何系統(tǒng)都會經(jīng)過從簡單到復雜,由低級到高級的進化發(fā)展過程,領(lǐng)域知識本體建設(shè)也不例外。隨著領(lǐng)域知識的增加和應用需求的發(fā)展,本體需要不斷進化。特別是對于一個應用性很強的領(lǐng)域本體來說,本體的進化可以看作是本體生命的延續(xù)。所謂本體進化,即是在現(xiàn)有領(lǐng)域本體的基礎(chǔ)上,根據(jù)應用的需要,在本體結(jié)構(gòu)、概念和關(guān)系上不斷進行豐富、完善、改進的過程和方法。
領(lǐng)域知識本體進化主要包括兩方面內(nèi)容:一是本體的自身進化,即是對已建本體進行更新,增加新的本體概念,擴展本體語義結(jié)構(gòu),完善本體概念間的語義關(guān)系。如何建立本體的自豐富機制,是本體自身進化需要重點研究的。二是本體的對外進化,即不同領(lǐng)域本體之間的互操作。因為不僅本體自身存在關(guān)聯(lián),不同的領(lǐng)域本體之間也存在多種關(guān)聯(lián),人類知識本是一個大的宏觀的知識網(wǎng)絡(luò)。目前每個領(lǐng)域都在建設(shè)本體,如果各個本體獨立發(fā)展便將成為一個個本體“孤島”。本體的對外進化主要通過映射機制,與相關(guān)領(lǐng)域本體的概念、關(guān)系及資源實體建立對應和關(guān)聯(lián),實現(xiàn)不同領(lǐng)域本體資源的共知和共享。
領(lǐng)域知識本體進化的方式:
本體的自動進化。即由研究專家采取一定的方法與技術(shù),實現(xiàn)本體的自豐富。如通過機器學習、抽詞算法、知識發(fā)現(xiàn)等方法發(fā)現(xiàn)新的概念和關(guān)系,然后定位到本體中去。
本體的手工進化。即由通過了解領(lǐng)域本體建設(shè)情況的專業(yè)人員,以手工或半自動的方式獲取新的概念和關(guān)系,將其補充到本體中去。這種進化過程比專家定義容易操作,比機器學習準確規(guī)范。但是它需要有合適的工具支持。
上述兩種方法的結(jié)合。本體的自動進化難以達到較高的準確度,而本體的手工進化存在成本高、速度慢等不足,同時對專業(yè)人員的知識性要求也高。怎樣將兩者在本體建設(shè)過程中有機結(jié)合起來,是領(lǐng)域本體建設(shè)所面臨的挑戰(zhàn),也是一個具有理論和實踐意義的重要課題。
從理論上說,本體進化是必須的,也是可行性的。但在本體的實際建設(shè)過程中,本體的進化是一個比較復雜、難度較大的問題,是包含了眾多方面相互作用和相互影響的復雜過程。需要對領(lǐng)域本體進化的模式、機理、過程、路徑和技術(shù)進行深入的研究。
9本體的表示
建設(shè)好的領(lǐng)域知識本體必須面向用戶提供服務。以知識本體為基礎(chǔ)的資源系統(tǒng)與其他資源系統(tǒng)究竟有什么不同?它給用戶在知識獲取與利用上究竟帶來何種便利?這便涉及到本體如何表示問題。所謂本體的表示,即通過一定的知識表示技術(shù),將建設(shè)好的領(lǐng)域知識本體按照一定的方式,清晰有序地在一個統(tǒng)一的界面上層示出來。對本體的表示實際是本體功能的最終實現(xiàn)。
領(lǐng)域知識本體的功能是否能夠得到有效的實現(xiàn),與內(nèi)部復雜的知識體系結(jié)構(gòu)如何更好地展示有直接關(guān)系。一個完整的、有效的領(lǐng)域知識本體的外在表示至少應該滿足以下兩個基本要求:其一,體現(xiàn)知識導航。即用樹型結(jié)構(gòu)將本體的概念網(wǎng)絡(luò)動態(tài)地加以顯示,可循著學科等級和概念間的語義關(guān)系進行瀏覽。其二,體現(xiàn)知識檢索,即能夠?qū)崿F(xiàn)基于概念的語義檢索。給定一個概念,即提示此概念和其他概念間的關(guān)系,并顯示其在知識體系中的位置;檢索過程不再是數(shù)據(jù)集合中的關(guān)鍵詞匹配,而是基于概念網(wǎng)絡(luò)的概念檢索。
本體表示實際上應看作是本體建設(shè)的自然而必然的延續(xù)。因為,知識本體不僅僅是知識組織的工具,也是知識導航、知識檢索的工具;知識導航、知識檢索是知識本體建設(shè)的逆過程,是本體建設(shè)的最終目的。本體表示涉及了最新的Web技術(shù)、人機交互、可視化等技術(shù)。
10結(jié)語
知識本體是數(shù)字圖書館資源組織最本質(zhì)的技術(shù)和方法。筆者面向?qū)W科領(lǐng)域,提出并分析了領(lǐng)域知識本體構(gòu)建的基本流程和方法,其目的是使本體建設(shè)過程規(guī)范和可控。與現(xiàn)有本體建設(shè)方法相比,本文強調(diào)了本體的進化、本體的構(gòu)建是一個不斷完善的、螺旋上升的、有序而系統(tǒng)的發(fā)展過程,進化是本體的生命所在;鑒于知識組織和知識表示不可分離,故將本體的表示置于本體構(gòu)建方法的一個環(huán)節(jié)和過程,認為本體的表示是本體建設(shè)的一個重要階段,它既具有相對的獨立性,又和本體建設(shè)密不可分。