美章網 資料文庫 中國醫學語言體系整體進度范文

中國醫學語言體系整體進度范文

本站小編為你精心準備了中國醫學語言體系整體進度參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

中國醫學語言體系整體進度

1目標和意義

該研究第一階段的目標是建立一個基于計算機管理的“統一的中國醫學語言系統”,該系統由中國醫學用語數據庫、中國醫學用語語義網絡系統、中國醫學用語與標引檢索語言對應轉換系統3個部分組成。該系統將為實現中文生物醫學文獻計算機標引和分類,加快文獻處理速度,提高文獻處理的準確性和一致性提供良好的支撐環境;同時將最大限度地跨越語言表達的差異性和相關信息的分散性,為生物醫學信息一體化檢索提供有效的幫助。該系統的實現將使傳統的中文醫學文獻處理和檢索發生根本性的變革。

2國內外研究現狀

美國國立醫學圖書館自1986年開始研制統一的醫學語言系統(UnifiedMedicalLanguageSystem,UMLS),其目的在于克服計算機生物醫學信息檢索中相同的概念具有不同的表達方式,有用的信息分散在不同的數據庫系統中。該系統由超級敘詞表、語義網絡、信息資源及專用詞典組成。其中超級敘詞表囊括了“MedicalSubjectHeadings”(醫學主題詞表)在內的詞表、分類表70余種,涵蓋了生物醫學概念73萬項,相關名稱15萬條。該系統在計算機輔助文獻標引、研制開發相關文獻的數據庫及具有輔助檢索功能的IGM和PubMed信息檢索系統方面發揮了巨大作用,提高了計算機自動處理的程度,極大地方便了用戶的查詢。國內科技信息界自20世紀90年代后相繼進行了分類—主題詞一體化詞表的研制工作,如國家圖書館編制的《中圖法—漢語主題詞對照表》,中國醫學科學院信息所與圖書館編制的《中圖法與MeSH、中醫藥學主題詞對照表》等。它們的最大特點是標引數據時,可同時完成文獻的主題標引和分類標引,并提高了標引的速度和一致性。

3系統的構成與功能

3.1中國醫學用語數據庫該數據庫來源于10余種生物醫學詞表、詞典及分類表,可分為以下幾種類型。

3.1.1敘詞表。如《醫學主題詞表》,《中醫藥學主題詞表》,《統一的醫學語言系統—超級敘詞表》(UMLSMetathesaurus等。

3.1.2分類表。如《中國圖書資料分類法》,《國際疾病分類法》等。

3.1.3辭典。如《中藥大詞典》,《漢英中醫藥分類辭典》,《英中醫學辭海》,《英漢醫學詞匯》、《英漢醫學縮略語詞典》等。該詞庫的特點是:收詞量大,覆蓋范圍廣,包括醫學、藥學、牙科學、中醫藥學及其他相關學科的詞匯約160余萬條;收詞類型豐富,包括主題詞、關鍵詞、化學物質登記號、酶代碼、分類號、縮略語等;兼容英文詞匯,譯名規范;實時對詞庫進行添加、更新和維護的動態性。

3.2中國醫學用語語義網絡系統運用對比、分析和綜合研究方法,對醫學用語數據庫的160多萬詞條進行概念規范、表達方式規范和語義規范,并建立反映相應關系的標準代碼,以便于自動化處理。

3.2.1概念規范。概念或涵義作為該數據庫的基礎和核心,在兩個方面進行規范:確認中文醫學領域內業已存在的確切概念和概念的規范化表達形式(規范化用語)。

3.2.2表達方式規范。對概念的不同表達方式進行同義規范。例如對某一疾病的縮略語、單復數、不同名稱、疾病代碼等表達方式的規范。

3.2.3語義規范。通過分析概念的內涵和外延,建立概念間的上位—下位(分—屬)及相關關系,為智能化的信息檢索和知識分析提供強大的基礎保證。

3.3中國醫學用語數據庫與標引檢索語言數據庫

轉換系統通過建立“中國醫學用語—醫學主題詞對應數據庫”及“醫學主題詞—分類號對應數據庫”,完成自然語言與規范化詞表語言間的轉換,實現自然語言與主題、分類檢索語言的一體化。

3.3.1中國醫學用語—醫學主題詞對應數據庫。依據美國國立醫學圖書館2000年《醫學主題詞表》MeSH中文版及《中醫藥學主題詞表》(第二版),對醫學用語進行概念、詞匯與主題詞間對應關系的標示,建立醫學用語—醫學主題詞對應數據庫、關鍵詞—副主題詞對應庫、關鍵詞—特征詞對應庫、禁用詞庫等多個數據庫。

3.3.2醫學主題詞—分類號對應數據庫。以“中國醫學用語與醫學主題詞對應數據庫”和《中國圖書館分類法》(第4版)為基礎,對主題詞進行與分類號間對應關系的處理。

4系統研究進展情況

4.1建立“中國醫學用語—醫學主題詞對應數據庫”及“醫學主題詞—分類號對應數據庫”為適應數據庫建設的需要,解決文獻標引量大、成本高、人員少的矛盾,1994年在研制CBMdisc的同時開始嘗試建立“中國生物醫學文獻計算機輔助標引系統”,而基礎詞表的建立是實現該系統的先決條件。首先利用人工方法從中國生物醫學期刊的文獻中抽取了近20萬個關鍵詞,借此建立了關鍵詞—主題詞對照表(現稱中國醫學用語—醫學主題詞對應數據庫),并以《中國圖書館分類法》(R類)、MeSH、《中醫藥學主題詞表》為藍本,擴充了相應的類目,建立了含4萬余條記錄的主題詞—分類號對照表(現稱醫學主題詞—分類號對應數據庫),由此形成了一套關鍵詞到主題詞、主題詞到分類號的自然語言與受控語言的對應轉換系統。

4.1.1抽取關鍵詞的原則。關鍵詞應詞義明確、專指,能反映文獻中論述的某一事物、對象、問題的主要概念;關鍵詞應符合概念邏輯、通用、實用,可以用單字、單詞或復合詞,一般采用名詞,不用動詞、形容詞等詞類;關鍵詞應考慮副主題詞概念的組配。

4.1.2關鍵詞—主題詞對應原則。第一,一個關鍵詞至少對應一個主題詞,應選用最專指的主題詞,如關鍵詞“肝內膽管”對應成主題詞“膽管,肝內”。第二,一個關鍵詞如無相應專指主題詞對應,應選用概念最接近的主題詞,或主題詞/副主題詞組配表達,如關鍵詞“肝囊腫”對應成主題詞“肝疾病;囊腫”,關鍵詞“肝損傷”對應成主題詞/副主題詞“肝/損傷”。第三,一個關鍵詞對應兩個以上意義不同的主題詞時,應在每個主題詞前做出材料識“$”,如關鍵詞“HP”可以對應成主題詞“螺旋菌,幽門”,也可對應成主題詞“觸珠蛋白類”。第四,遇到概念模糊不清的關鍵詞,不予轉換成主題詞。

4.1.3主題詞—分類號對應原則。第一,一個主題詞至少有一個R類(醫藥衛生)相應類號對應,如主題詞“肝疾病”的對應分類號為“R575”。第二,必要時,一個主題詞可以對應幾個類號,如藥物主題詞可根據不同的用途和藥理作用對應幾個相應的類號。第三,社會科學、生物學等學科主題詞與《中國圖書分類法》R類的相應類目進行擴充或仿分對應。第四,采用直接、上位類、靠類、多號及組配等技術方法對主題語言與分類語言進行概念的對應處理。第五,副主題詞與臨床醫學專用復分號對應,地理主題詞與地理復分號對應。

4.2中國生物醫學文獻計算機輔助標引系統

1996年在上述兩個數據庫初具規模的基礎上,采用C++語言和VisualFoxPro開發成功了“中國生物醫學文獻計算機輔助標引系統”,該系統已成為我國第一個進入實用階段的計算機輔助標引系統。它使醫學文獻的標引深度由原來的每篇文獻3個主題詞增至8-10個,分類號由1個增至3-5個,文獻的處理速度由每年處理4萬條數據增至20萬條左右,數據的更新速度大大加快,文獻的加工處理費用大大降低。該系統包括主題標引系統和分類標引系統。

4.2.1主題標引規程。醫學文獻主題標引包括主題詞、副主題詞、主要概念主題詞(加權主題詞)及特征詞的標識。

4.2.1.1確定標引源:以科技文獻中的標題、文摘、作者、關鍵詞作為標引源。

4.2.1.2確定切分規則:采用最大字串匹配法對文獻的標題、文摘、作者、關鍵詞逐字進行掃描。

4.2.1.3確定轉換規則:對主題詞、副主題詞、特征詞分別進行轉換。

4.2.1.4確定主題詞數目:根據主題詞的出現頻率和出現位置計算每個主題詞、副主題詞、特征詞的得分,選擇得分高的主題詞、副主題詞和特征詞作為標引詞。

4.2.1.5確定主要概念主題詞:根據主題詞分值的高低,劃分主要概念主題詞(加星號主題詞)和非主要概念主題詞。

4.2.1.6確定高頻主題詞轉換規則:對主題詞表中的高頻詞不予轉換,如“研究”。

4.2.1.7標引人員的干預:標引人員對機標后的主題詞進行審核。

4.2.1.8標引結果的合法性檢查:計算機對標引結果進行檢查,包括主題詞、副主題詞、特征詞的規范程度,主題詞/副主題詞組配是否正確,等。

4.2.2分類標引規程。根據每篇文獻標引的主題詞,依據“主題詞—分類號對應數據庫”及其一些特定規則進行分類號的轉換。

4.2.2.1主題詞—分類號轉換規則:依據“主題詞—分類號對應數據庫”進行主題詞到分類號轉換。如:主題詞“肝腫瘤”,轉為分類號“R735.7”。

4.2.2.2副主題詞—專用復分號轉換規則:依據“副主題詞—復分號對應表”進行副主題詞到復分號的轉換,并將復分號加到主類號后。如:副主題詞“/診斷”轉為復分號“04”,故主題詞“肝腫瘤/診斷”,轉為分類號“R735.704”。

4.2.2.3兒科學類號轉換規則:依據“主題詞—分類號對應數據庫”及“特征詞”進行主題詞到分類號的轉換。如一篇“兒童高血壓診斷標準探討”的文獻,標引的主題詞為“高血壓/*診斷;參考值”,特征詞為“兒童;人類”,如僅依據主題詞則分類號轉換為“R544.104;R-05”,而依據主題詞和特征詞則分類號轉換為“R725.441.04;R-05”。

4.2.2.4外源性和內源性物質類號轉換規則:一個主題詞既為外源性物質又為內源性物質時,依據標引的副主題詞確定類號的轉換。如主題詞“C肽”既可轉為外源性物質類號“R977.6”又可轉為內源性物質類號“R341.43”,如同時有副主題詞“/治療應用”存在時,則主題詞“C肽”僅轉為分類號“R977.6”。

4.2.2.5地理主題詞—地理復分號轉換規則:依據“地理主題詞—復分號對應表”進行地理主題詞到地理復分號的轉換。為了適應計算機檢索的需求,不將地理復分號一一加到每個主類號后,而是將其設為單獨的類號,并以“RZ”作為地理復分類號的標識,如地理主題詞“北京”轉為分類號“RZ21”。

4.2.2.6實驗動物類號轉換規則:原則與地理主題詞—地理復分號轉換規則類似,即不一一將“-332”加到每個主類號后,而是將其設為單獨的類號“R-332”。

5展望

建成后的“統一的中國醫學語言系統”對醫學詞匯的規范、統一、標準化及科技信息的交流具有重要價值,可用于英漢醫學用語對譯式輔助翻譯系統和基于自然語言、中英文雙語功能的檢索軟件的開發、研制。該系統在提高文獻標引質量、處理速度、方便檢索和提高檢索效率,開發高水平數據庫及信息檢索系統等方面都具有重要意義。

主站蜘蛛池模板: 深夜a级毛片免费无码| 久草视频在线网| 成人国产永久福利看片| 久青草影院在线观看国产| 欧美色欧美亚洲高清在线观看| 制服丝袜第六页| 萝li交小说合集| 国产成人精品免费直播| 800av在线播放| 夫妇交换4中文字幕| 中国精品白嫩bbwbbw| 日本熟妇色熟妇在线视频播放| 亚洲乱码一区二区三区在线观看| 波多野结衣在线影院| 免费观看一级毛片| 色www永久免费视频| 国产小视频在线观看网站| 第一福利在线观看| 国产高潮国产高潮久久久| swag台湾在线| 思思99re热| 中文字幕精品无码亚洲字| 日韩一区二区三| 久草视频在线免费| 欧美一级在线观看视频| 亚洲欧洲日韩综合| 激情综合婷婷色五月蜜桃| 免费在线黄网站| 精品国产免费观看一区| 噼里啪啦免费观看高清动漫| 蜜桃视频在线观看免费网址入口 | 立即播放免费毛片一级| 又黄又爽又色的视频| 色噜噜亚洲精品中文字幕| 国产人va在线| 麻豆aⅴ精品无码一区二区| 国产成人精选免费视频| 性欧美激情videos| 国产精品亚洲四区在线观看| 67194熟妇在线观看线路| 国产青草视频在线观看免费影院|