本站小編為你精心準(zhǔn)備了中國(guó)醫(yī)學(xué)語(yǔ)言體系整體進(jìn)度參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫(xiě)作靈感。歡迎深入閱讀并收藏。
1目標(biāo)和意義
該研究第一階段的目標(biāo)是建立一個(gè)基于計(jì)算機(jī)管理的“統(tǒng)一的中國(guó)醫(yī)學(xué)語(yǔ)言系統(tǒng)”,該系統(tǒng)由中國(guó)醫(yī)學(xué)用語(yǔ)數(shù)據(jù)庫(kù)、中國(guó)醫(yī)學(xué)用語(yǔ)語(yǔ)義網(wǎng)絡(luò)系統(tǒng)、中國(guó)醫(yī)學(xué)用語(yǔ)與標(biāo)引檢索語(yǔ)言對(duì)應(yīng)轉(zhuǎn)換系統(tǒng)3個(gè)部分組成。該系統(tǒng)將為實(shí)現(xiàn)中文生物醫(yī)學(xué)文獻(xiàn)計(jì)算機(jī)標(biāo)引和分類(lèi),加快文獻(xiàn)處理速度,提高文獻(xiàn)處理的準(zhǔn)確性和一致性提供良好的支撐環(huán)境;同時(shí)將最大限度地跨越語(yǔ)言表達(dá)的差異性和相關(guān)信息的分散性,為生物醫(yī)學(xué)信息一體化檢索提供有效的幫助。該系統(tǒng)的實(shí)現(xiàn)將使傳統(tǒng)的中文醫(yī)學(xué)文獻(xiàn)處理和檢索發(fā)生根本性的變革。
2國(guó)內(nèi)外研究現(xiàn)狀
美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館自1986年開(kāi)始研制統(tǒng)一的醫(yī)學(xué)語(yǔ)言系統(tǒng)(UnifiedMedicalLanguageSystem,UMLS),其目的在于克服計(jì)算機(jī)生物醫(yī)學(xué)信息檢索中相同的概念具有不同的表達(dá)方式,有用的信息分散在不同的數(shù)據(jù)庫(kù)系統(tǒng)中。該系統(tǒng)由超級(jí)敘詞表、語(yǔ)義網(wǎng)絡(luò)、信息資源及專(zhuān)用詞典組成。其中超級(jí)敘詞表囊括了“MedicalSubjectHeadings”(醫(yī)學(xué)主題詞表)在內(nèi)的詞表、分類(lèi)表70余種,涵蓋了生物醫(yī)學(xué)概念73萬(wàn)項(xiàng),相關(guān)名稱(chēng)15萬(wàn)條。該系統(tǒng)在計(jì)算機(jī)輔助文獻(xiàn)標(biāo)引、研制開(kāi)發(fā)相關(guān)文獻(xiàn)的數(shù)據(jù)庫(kù)及具有輔助檢索功能的IGM和PubMed信息檢索系統(tǒng)方面發(fā)揮了巨大作用,提高了計(jì)算機(jī)自動(dòng)處理的程度,極大地方便了用戶(hù)的查詢(xún)。國(guó)內(nèi)科技信息界自20世紀(jì)90年代后相繼進(jìn)行了分類(lèi)—主題詞一體化詞表的研制工作,如國(guó)家圖書(shū)館編制的《中圖法—漢語(yǔ)主題詞對(duì)照表》,中國(guó)醫(yī)學(xué)科學(xué)院信息所與圖書(shū)館編制的《中圖法與MeSH、中醫(yī)藥學(xué)主題詞對(duì)照表》等。它們的最大特點(diǎn)是標(biāo)引數(shù)據(jù)時(shí),可同時(shí)完成文獻(xiàn)的主題標(biāo)引和分類(lèi)標(biāo)引,并提高了標(biāo)引的速度和一致性。
3系統(tǒng)的構(gòu)成與功能
3.1中國(guó)醫(yī)學(xué)用語(yǔ)數(shù)據(jù)庫(kù)該數(shù)據(jù)庫(kù)來(lái)源于10余種生物醫(yī)學(xué)詞表、詞典及分類(lèi)表,可分為以下幾種類(lèi)型。
3.1.1敘詞表。如《醫(yī)學(xué)主題詞表》,《中醫(yī)藥學(xué)主題詞表》,《統(tǒng)一的醫(yī)學(xué)語(yǔ)言系統(tǒng)—超級(jí)敘詞表》(UMLSMetathesaurus等。
3.1.2分類(lèi)表。如《中國(guó)圖書(shū)資料分類(lèi)法》,《國(guó)際疾病分類(lèi)法》等。
3.1.3辭典。如《中藥大詞典》,《漢英中醫(yī)藥分類(lèi)辭典》,《英中醫(yī)學(xué)辭海》,《英漢醫(yī)學(xué)詞匯》、《英漢醫(yī)學(xué)縮略語(yǔ)詞典》等。該詞庫(kù)的特點(diǎn)是:收詞量大,覆蓋范圍廣,包括醫(yī)學(xué)、藥學(xué)、牙科學(xué)、中醫(yī)藥學(xué)及其他相關(guān)學(xué)科的詞匯約160余萬(wàn)條;收詞類(lèi)型豐富,包括主題詞、關(guān)鍵詞、化學(xué)物質(zhì)登記號(hào)、酶代碼、分類(lèi)號(hào)、縮略語(yǔ)等;兼容英文詞匯,譯名規(guī)范;實(shí)時(shí)對(duì)詞庫(kù)進(jìn)行添加、更新和維護(hù)的動(dòng)態(tài)性。
3.2中國(guó)醫(yī)學(xué)用語(yǔ)語(yǔ)義網(wǎng)絡(luò)系統(tǒng)運(yùn)用對(duì)比、分析和綜合研究方法,對(duì)醫(yī)學(xué)用語(yǔ)數(shù)據(jù)庫(kù)的160多萬(wàn)詞條進(jìn)行概念規(guī)范、表達(dá)方式規(guī)范和語(yǔ)義規(guī)范,并建立反映相應(yīng)關(guān)系的標(biāo)準(zhǔn)代碼,以便于自動(dòng)化處理。
3.2.1概念規(guī)范。概念或涵義作為該數(shù)據(jù)庫(kù)的基礎(chǔ)和核心,在兩個(gè)方面進(jìn)行規(guī)范:確認(rèn)中文醫(yī)學(xué)領(lǐng)域內(nèi)業(yè)已存在的確切概念和概念的規(guī)范化表達(dá)形式(規(guī)范化用語(yǔ))。
3.2.2表達(dá)方式規(guī)范。對(duì)概念的不同表達(dá)方式進(jìn)行同義規(guī)范。例如對(duì)某一疾病的縮略語(yǔ)、單復(fù)數(shù)、不同名稱(chēng)、疾病代碼等表達(dá)方式的規(guī)范。
3.2.3語(yǔ)義規(guī)范。通過(guò)分析概念的內(nèi)涵和外延,建立概念間的上位—下位(分—屬)及相關(guān)關(guān)系,為智能化的信息檢索和知識(shí)分析提供強(qiáng)大的基礎(chǔ)保證。
3.3中國(guó)醫(yī)學(xué)用語(yǔ)數(shù)據(jù)庫(kù)與標(biāo)引檢索語(yǔ)言數(shù)據(jù)庫(kù)
轉(zhuǎn)換系統(tǒng)通過(guò)建立“中國(guó)醫(yī)學(xué)用語(yǔ)—醫(yī)學(xué)主題詞對(duì)應(yīng)數(shù)據(jù)庫(kù)”及“醫(yī)學(xué)主題詞—分類(lèi)號(hào)對(duì)應(yīng)數(shù)據(jù)庫(kù)”,完成自然語(yǔ)言與規(guī)范化詞表語(yǔ)言間的轉(zhuǎn)換,實(shí)現(xiàn)自然語(yǔ)言與主題、分類(lèi)檢索語(yǔ)言的一體化。
3.3.1中國(guó)醫(yī)學(xué)用語(yǔ)—醫(yī)學(xué)主題詞對(duì)應(yīng)數(shù)據(jù)庫(kù)。依據(jù)美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館2000年《醫(yī)學(xué)主題詞表》MeSH中文版及《中醫(yī)藥學(xué)主題詞表》(第二版),對(duì)醫(yī)學(xué)用語(yǔ)進(jìn)行概念、詞匯與主題詞間對(duì)應(yīng)關(guān)系的標(biāo)示,建立醫(yī)學(xué)用語(yǔ)—醫(yī)學(xué)主題詞對(duì)應(yīng)數(shù)據(jù)庫(kù)、關(guān)鍵詞—副主題詞對(duì)應(yīng)庫(kù)、關(guān)鍵詞—特征詞對(duì)應(yīng)庫(kù)、禁用詞庫(kù)等多個(gè)數(shù)據(jù)庫(kù)。
3.3.2醫(yī)學(xué)主題詞—分類(lèi)號(hào)對(duì)應(yīng)數(shù)據(jù)庫(kù)。以“中國(guó)醫(yī)學(xué)用語(yǔ)與醫(yī)學(xué)主題詞對(duì)應(yīng)數(shù)據(jù)庫(kù)”和《中國(guó)圖書(shū)館分類(lèi)法》(第4版)為基礎(chǔ),對(duì)主題詞進(jìn)行與分類(lèi)號(hào)間對(duì)應(yīng)關(guān)系的處理。
4系統(tǒng)研究進(jìn)展情況
4.1建立“中國(guó)醫(yī)學(xué)用語(yǔ)—醫(yī)學(xué)主題詞對(duì)應(yīng)數(shù)據(jù)庫(kù)”及“醫(yī)學(xué)主題詞—分類(lèi)號(hào)對(duì)應(yīng)數(shù)據(jù)庫(kù)”為適應(yīng)數(shù)據(jù)庫(kù)建設(shè)的需要,解決文獻(xiàn)標(biāo)引量大、成本高、人員少的矛盾,1994年在研制CBMdisc的同時(shí)開(kāi)始嘗試建立“中國(guó)生物醫(yī)學(xué)文獻(xiàn)計(jì)算機(jī)輔助標(biāo)引系統(tǒng)”,而基礎(chǔ)詞表的建立是實(shí)現(xiàn)該系統(tǒng)的先決條件。首先利用人工方法從中國(guó)生物醫(yī)學(xué)期刊的文獻(xiàn)中抽取了近20萬(wàn)個(gè)關(guān)鍵詞,借此建立了關(guān)鍵詞—主題詞對(duì)照表(現(xiàn)稱(chēng)中國(guó)醫(yī)學(xué)用語(yǔ)—醫(yī)學(xué)主題詞對(duì)應(yīng)數(shù)據(jù)庫(kù)),并以《中國(guó)圖書(shū)館分類(lèi)法》(R類(lèi))、MeSH、《中醫(yī)藥學(xué)主題詞表》為藍(lán)本,擴(kuò)充了相應(yīng)的類(lèi)目,建立了含4萬(wàn)余條記錄的主題詞—分類(lèi)號(hào)對(duì)照表(現(xiàn)稱(chēng)醫(yī)學(xué)主題詞—分類(lèi)號(hào)對(duì)應(yīng)數(shù)據(jù)庫(kù)),由此形成了一套關(guān)鍵詞到主題詞、主題詞到分類(lèi)號(hào)的自然語(yǔ)言與受控語(yǔ)言的對(duì)應(yīng)轉(zhuǎn)換系統(tǒng)。
4.1.1抽取關(guān)鍵詞的原則。關(guān)鍵詞應(yīng)詞義明確、專(zhuān)指,能反映文獻(xiàn)中論述的某一事物、對(duì)象、問(wèn)題的主要概念;關(guān)鍵詞應(yīng)符合概念邏輯、通用、實(shí)用,可以用單字、單詞或復(fù)合詞,一般采用名詞,不用動(dòng)詞、形容詞等詞類(lèi);關(guān)鍵詞應(yīng)考慮副主題詞概念的組配。
4.1.2關(guān)鍵詞—主題詞對(duì)應(yīng)原則。第一,一個(gè)關(guān)鍵詞至少對(duì)應(yīng)一個(gè)主題詞,應(yīng)選用最專(zhuān)指的主題詞,如關(guān)鍵詞“肝內(nèi)膽管”對(duì)應(yīng)成主題詞“膽管,肝內(nèi)”。第二,一個(gè)關(guān)鍵詞如無(wú)相應(yīng)專(zhuān)指主題詞對(duì)應(yīng),應(yīng)選用概念最接近的主題詞,或主題詞/副主題詞組配表達(dá),如關(guān)鍵詞“肝囊腫”對(duì)應(yīng)成主題詞“肝疾病;囊腫”,關(guān)鍵詞“肝損傷”對(duì)應(yīng)成主題詞/副主題詞“肝/損傷”。第三,一個(gè)關(guān)鍵詞對(duì)應(yīng)兩個(gè)以上意義不同的主題詞時(shí),應(yīng)在每個(gè)主題詞前做出材料識(shí)“$”,如關(guān)鍵詞“HP”可以對(duì)應(yīng)成主題詞“螺旋菌,幽門(mén)”,也可對(duì)應(yīng)成主題詞“觸珠蛋白類(lèi)”。第四,遇到概念模糊不清的關(guān)鍵詞,不予轉(zhuǎn)換成主題詞。
4.1.3主題詞—分類(lèi)號(hào)對(duì)應(yīng)原則。第一,一個(gè)主題詞至少有一個(gè)R類(lèi)(醫(yī)藥衛(wèi)生)相應(yīng)類(lèi)號(hào)對(duì)應(yīng),如主題詞“肝疾病”的對(duì)應(yīng)分類(lèi)號(hào)為“R575”。第二,必要時(shí),一個(gè)主題詞可以對(duì)應(yīng)幾個(gè)類(lèi)號(hào),如藥物主題詞可根據(jù)不同的用途和藥理作用對(duì)應(yīng)幾個(gè)相應(yīng)的類(lèi)號(hào)。第三,社會(huì)科學(xué)、生物學(xué)等學(xué)科主題詞與《中國(guó)圖書(shū)分類(lèi)法》R類(lèi)的相應(yīng)類(lèi)目進(jìn)行擴(kuò)充或仿分對(duì)應(yīng)。第四,采用直接、上位類(lèi)、靠類(lèi)、多號(hào)及組配等技術(shù)方法對(duì)主題語(yǔ)言與分類(lèi)語(yǔ)言進(jìn)行概念的對(duì)應(yīng)處理。第五,副主題詞與臨床醫(yī)學(xué)專(zhuān)用復(fù)分號(hào)對(duì)應(yīng),地理主題詞與地理復(fù)分號(hào)對(duì)應(yīng)。
4.2中國(guó)生物醫(yī)學(xué)文獻(xiàn)計(jì)算機(jī)輔助標(biāo)引系統(tǒng)
1996年在上述兩個(gè)數(shù)據(jù)庫(kù)初具規(guī)模的基礎(chǔ)上,采用C++語(yǔ)言和VisualFoxPro開(kāi)發(fā)成功了“中國(guó)生物醫(yī)學(xué)文獻(xiàn)計(jì)算機(jī)輔助標(biāo)引系統(tǒng)”,該系統(tǒng)已成為我國(guó)第一個(gè)進(jìn)入實(shí)用階段的計(jì)算機(jī)輔助標(biāo)引系統(tǒng)。它使醫(yī)學(xué)文獻(xiàn)的標(biāo)引深度由原來(lái)的每篇文獻(xiàn)3個(gè)主題詞增至8-10個(gè),分類(lèi)號(hào)由1個(gè)增至3-5個(gè),文獻(xiàn)的處理速度由每年處理4萬(wàn)條數(shù)據(jù)增至20萬(wàn)條左右,數(shù)據(jù)的更新速度大大加快,文獻(xiàn)的加工處理費(fèi)用大大降低。該系統(tǒng)包括主題標(biāo)引系統(tǒng)和分類(lèi)標(biāo)引系統(tǒng)。
4.2.1主題標(biāo)引規(guī)程。醫(yī)學(xué)文獻(xiàn)主題標(biāo)引包括主題詞、副主題詞、主要概念主題詞(加權(quán)主題詞)及特征詞的標(biāo)識(shí)。
4.2.1.1確定標(biāo)引源:以科技文獻(xiàn)中的標(biāo)題、文摘、作者、關(guān)鍵詞作為標(biāo)引源。
4.2.1.2確定切分規(guī)則:采用最大字串匹配法對(duì)文獻(xiàn)的標(biāo)題、文摘、作者、關(guān)鍵詞逐字進(jìn)行掃描。
4.2.1.3確定轉(zhuǎn)換規(guī)則:對(duì)主題詞、副主題詞、特征詞分別進(jìn)行轉(zhuǎn)換。
4.2.1.4確定主題詞數(shù)目:根據(jù)主題詞的出現(xiàn)頻率和出現(xiàn)位置計(jì)算每個(gè)主題詞、副主題詞、特征詞的得分,選擇得分高的主題詞、副主題詞和特征詞作為標(biāo)引詞。
4.2.1.5確定主要概念主題詞:根據(jù)主題詞分值的高低,劃分主要概念主題詞(加星號(hào)主題詞)和非主要概念主題詞。
4.2.1.6確定高頻主題詞轉(zhuǎn)換規(guī)則:對(duì)主題詞表中的高頻詞不予轉(zhuǎn)換,如“研究”。
4.2.1.7標(biāo)引人員的干預(yù):標(biāo)引人員對(duì)機(jī)標(biāo)后的主題詞進(jìn)行審核。
4.2.1.8標(biāo)引結(jié)果的合法性檢查:計(jì)算機(jī)對(duì)標(biāo)引結(jié)果進(jìn)行檢查,包括主題詞、副主題詞、特征詞的規(guī)范程度,主題詞/副主題詞組配是否正確,等。
4.2.2分類(lèi)標(biāo)引規(guī)程。根據(jù)每篇文獻(xiàn)標(biāo)引的主題詞,依據(jù)“主題詞—分類(lèi)號(hào)對(duì)應(yīng)數(shù)據(jù)庫(kù)”及其一些特定規(guī)則進(jìn)行分類(lèi)號(hào)的轉(zhuǎn)換。
4.2.2.1主題詞—分類(lèi)號(hào)轉(zhuǎn)換規(guī)則:依據(jù)“主題詞—分類(lèi)號(hào)對(duì)應(yīng)數(shù)據(jù)庫(kù)”進(jìn)行主題詞到分類(lèi)號(hào)轉(zhuǎn)換。如:主題詞“肝腫瘤”,轉(zhuǎn)為分類(lèi)號(hào)“R735.7”。
4.2.2.2副主題詞—專(zhuān)用復(fù)分號(hào)轉(zhuǎn)換規(guī)則:依據(jù)“副主題詞—復(fù)分號(hào)對(duì)應(yīng)表”進(jìn)行副主題詞到復(fù)分號(hào)的轉(zhuǎn)換,并將復(fù)分號(hào)加到主類(lèi)號(hào)后。如:副主題詞“/診斷”轉(zhuǎn)為復(fù)分號(hào)“04”,故主題詞“肝腫瘤/診斷”,轉(zhuǎn)為分類(lèi)號(hào)“R735.704”。
4.2.2.3兒科學(xué)類(lèi)號(hào)轉(zhuǎn)換規(guī)則:依據(jù)“主題詞—分類(lèi)號(hào)對(duì)應(yīng)數(shù)據(jù)庫(kù)”及“特征詞”進(jìn)行主題詞到分類(lèi)號(hào)的轉(zhuǎn)換。如一篇“兒童高血壓診斷標(biāo)準(zhǔn)探討”的文獻(xiàn),標(biāo)引的主題詞為“高血壓/*診斷;參考值”,特征詞為“兒童;人類(lèi)”,如僅依據(jù)主題詞則分類(lèi)號(hào)轉(zhuǎn)換為“R544.104;R-05”,而依據(jù)主題詞和特征詞則分類(lèi)號(hào)轉(zhuǎn)換為“R725.441.04;R-05”。
4.2.2.4外源性和內(nèi)源性物質(zhì)類(lèi)號(hào)轉(zhuǎn)換規(guī)則:一個(gè)主題詞既為外源性物質(zhì)又為內(nèi)源性物質(zhì)時(shí),依據(jù)標(biāo)引的副主題詞確定類(lèi)號(hào)的轉(zhuǎn)換。如主題詞“C肽”既可轉(zhuǎn)為外源性物質(zhì)類(lèi)號(hào)“R977.6”又可轉(zhuǎn)為內(nèi)源性物質(zhì)類(lèi)號(hào)“R341.43”,如同時(shí)有副主題詞“/治療應(yīng)用”存在時(shí),則主題詞“C肽”僅轉(zhuǎn)為分類(lèi)號(hào)“R977.6”。
4.2.2.5地理主題詞—地理復(fù)分號(hào)轉(zhuǎn)換規(guī)則:依據(jù)“地理主題詞—復(fù)分號(hào)對(duì)應(yīng)表”進(jìn)行地理主題詞到地理復(fù)分號(hào)的轉(zhuǎn)換。為了適應(yīng)計(jì)算機(jī)檢索的需求,不將地理復(fù)分號(hào)一一加到每個(gè)主類(lèi)號(hào)后,而是將其設(shè)為單獨(dú)的類(lèi)號(hào),并以“RZ”作為地理復(fù)分類(lèi)號(hào)的標(biāo)識(shí),如地理主題詞“北京”轉(zhuǎn)為分類(lèi)號(hào)“RZ21”。
4.2.2.6實(shí)驗(yàn)動(dòng)物類(lèi)號(hào)轉(zhuǎn)換規(guī)則:原則與地理主題詞—地理復(fù)分號(hào)轉(zhuǎn)換規(guī)則類(lèi)似,即不一一將“-332”加到每個(gè)主類(lèi)號(hào)后,而是將其設(shè)為單獨(dú)的類(lèi)號(hào)“R-332”。
5展望
建成后的“統(tǒng)一的中國(guó)醫(yī)學(xué)語(yǔ)言系統(tǒng)”對(duì)醫(yī)學(xué)詞匯的規(guī)范、統(tǒng)一、標(biāo)準(zhǔn)化及科技信息的交流具有重要價(jià)值,可用于英漢醫(yī)學(xué)用語(yǔ)對(duì)譯式輔助翻譯系統(tǒng)和基于自然語(yǔ)言、中英文雙語(yǔ)功能的檢索軟件的開(kāi)發(fā)、研制。該系統(tǒng)在提高文獻(xiàn)標(biāo)引質(zhì)量、處理速度、方便檢索和提高檢索效率,開(kāi)發(fā)高水平數(shù)據(jù)庫(kù)及信息檢索系統(tǒng)等方面都具有重要意義。