好男人好资源在线视频观看影院,久久黄色影片,98精品国产高清在线xxxx

本站小編為你精心準(zhǔn)備了深度學(xué)習(xí)下電子病歷實(shí)體標(biāo)準(zhǔn)化分析參考范文，愿這些范文能點(diǎn)燃您思維的火花，激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

深度學(xué)習(xí)下電子病歷實(shí)體標(biāo)準(zhǔn)化分析

摘要：電子病歷中同一醫(yī)療概念的提及形式具有多樣性，阻礙了醫(yī)療數(shù)據(jù)的分析和利用，研究電子病歷實(shí)體標(biāo)準(zhǔn)化具有現(xiàn)實(shí)意義。設(shè)計(jì)并實(shí)現(xiàn)了基于深度學(xué)習(xí)的電子病歷實(shí)體標(biāo)準(zhǔn)化算法，使用Siamese網(wǎng)絡(luò)架構(gòu)和LSTM網(wǎng)絡(luò)搭建模型，采用Pairwise方法訓(xùn)練模型，在測(cè)試集上與傳統(tǒng)的基于編輯距離的方法進(jìn)行比較。對(duì)手術(shù)實(shí)體標(biāo)準(zhǔn)化的實(shí)驗(yàn)結(jié)果顯示，深度學(xué)習(xí)算法正確率達(dá)到79.71%，比傳統(tǒng)方法提高了17.4個(gè)百分點(diǎn)，表明了深度學(xué)習(xí)算法在電子病歷實(shí)體標(biāo)準(zhǔn)化方面的有效性。

關(guān)鍵詞：電子病歷；實(shí)體標(biāo)準(zhǔn)化；長短期記憶網(wǎng)絡(luò)；孿生網(wǎng)絡(luò)

引言

隨著醫(yī)療信息化的快速發(fā)展，各醫(yī)院積累了海量的電子病歷數(shù)據(jù)，如何有效利用這些數(shù)據(jù)提高醫(yī)療健康服務(wù)水平是研究熱點(diǎn)。電子病歷中同一醫(yī)療概念會(huì)有多種不同的表述形式，阻礙了醫(yī)療數(shù)據(jù)的檢索、分析和利用。把形式多樣的實(shí)體提及（EntityMention）映射到標(biāo)準(zhǔn)的醫(yī)療術(shù)語，即實(shí)體標(biāo)準(zhǔn)化（EntityNormalization），是有效利用醫(yī)療健康數(shù)據(jù)的前提。電子病歷實(shí)體標(biāo)準(zhǔn)化研究由國際公開評(píng)測(cè)任務(wù)推動(dòng)，最具代表性的兩個(gè)評(píng)測(cè)任務(wù)是2013年的ShARe/CLEFeHealthSharedTask1b［1］和2014年的SemEvalTask7［2］，這兩個(gè)任務(wù)都是要找到電子病歷中的實(shí)體（如疾病和癥狀）在“醫(yī)學(xué)術(shù)語系統(tǒng)命名法—臨床術(shù)語［3］”（SystematizedNo⁃menclatureofMedicine-ClinicalTerms，簡稱SNOMED-CT）中的編碼。現(xiàn)有的實(shí)體標(biāo)準(zhǔn)化方法大多基于實(shí)體提及與標(biāo)準(zhǔn)術(shù)語的相似度得分。RohitJKate［4］通過改進(jìn)的編輯距離計(jì)算相似度，RobertLeaman等［5］采用成對(duì)排序?qū)W習(xí)方法，用向量空間模型表示實(shí)體提及并引入權(quán)重矩陣計(jì)算相似度得分。LiHaodi等［6］使用深度學(xué)習(xí)方法取得在ShARe/CLEF數(shù)據(jù)集和NCBI疾病數(shù)據(jù)集［7］上的最高正確率，該方法先使用人工編寫的規(guī)則從標(biāo)準(zhǔn)術(shù)語集中挑出候選，再基于卷積神經(jīng)網(wǎng)絡(luò)輸出語義向量對(duì)候選排序。上述研究都面向英文電子病歷，針對(duì)中文電子病歷的實(shí)體標(biāo)準(zhǔn)化研究相對(duì)較少，且缺乏公開可用的標(biāo)注數(shù)據(jù)集。趙亞輝［8］選取了國內(nèi)某醫(yī)院的門診和住院病歷作為實(shí)驗(yàn)數(shù)據(jù)，以國際疾病分類第10版（ICD-10）為目標(biāo)術(shù)語集，研究了疾病名的標(biāo)準(zhǔn)化。在門診病歷上改進(jìn)的編輯距離效果最好，正確率為76.6%，在住院病歷上RankSVM的正確率最高，達(dá)到74.7%。

1實(shí)體標(biāo)準(zhǔn)化算法

1.1算法總體結(jié)構(gòu)

基于深度學(xué)習(xí)的實(shí)體標(biāo)準(zhǔn)化算法總體結(jié)構(gòu)見圖1。本算法主要思想是計(jì)算手術(shù)名與各個(gè)標(biāo)準(zhǔn)術(shù)語的匹配度，選擇最匹配的術(shù)語。匹配度計(jì)算采用Siamese網(wǎng)絡(luò)。Siamese網(wǎng)絡(luò)是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)而不是具體的某種網(wǎng)絡(luò)，在自然語言處理和計(jì)算機(jī)視覺中應(yīng)用廣泛［9-13］，它有兩個(gè)結(jié)構(gòu)相同共享權(quán)值的子網(wǎng)絡(luò)。圖1中的兩個(gè)字嵌入完全相同，兩個(gè)編碼器也完全一樣。輸入的短語中每個(gè)字都會(huì)映射到一個(gè)多維稠密向量，稱為字嵌入，也常稱為字向量。本文使用LiS等［14］在百度百科的文本上訓(xùn)練出的字向量，并且在訓(xùn)練階段使字向量保持不變，不再微調(diào)。然后使用編碼器分別將兩個(gè)字向量序列映射到目標(biāo)向量空間（可以看成是特征提取），最后在目標(biāo)向量空間使用歐氏距離表示兩個(gè)輸入的匹配度，歐氏距離越小則匹配度越高。本文未采用分類模型。因?yàn)槭中g(shù)的標(biāo)準(zhǔn)術(shù)語有上萬條，如果把每個(gè)術(shù)語看作一個(gè)類別則類別數(shù)量龐大，而每個(gè)類別的樣本數(shù)量較少甚至沒有，用分類算法顯然效果不佳。而Siamese網(wǎng)絡(luò)能從訓(xùn)練樣本中學(xué)習(xí)到匹配度模型，即使類別數(shù)量龐大也能獲得不錯(cuò)的效果。

1.2BiLSTM網(wǎng)絡(luò)

本文采用BiLSTM網(wǎng)絡(luò)作為Siamese網(wǎng)絡(luò)結(jié)構(gòu)中用于提取特征的編碼器。長短期記憶網(wǎng)絡(luò)（LongShort-TermMemory，簡稱LSTM）是循環(huán)神經(jīng)網(wǎng)絡(luò)（RecurrentNeuralNetwork，簡稱RNN）的一種。普通的循環(huán)神經(jīng)網(wǎng)絡(luò)用于序列數(shù)據(jù)建模時(shí)容易產(chǎn)生梯度爆炸和梯度消失，難以訓(xùn)練。LSTM通過引入遺忘門、記憶門、輸出門的三態(tài)門結(jié)構(gòu)，使網(wǎng)絡(luò)能夠選擇性地保留狀態(tài)信息，解決了梯度爆炸和梯度消失問題。因此，LSTM適用于對(duì)序列數(shù)據(jù)建模，如文本數(shù)據(jù)。普通的LSTM只能捕捉到從前向后的信息，但在實(shí)體標(biāo)準(zhǔn)化任務(wù)中僅有單向信息是不夠的。雙向長短期記憶網(wǎng)絡(luò)（Bi-directionalLongShort-TermMemory，簡稱BiLSTM）由前向LSTM與后向LSTM組合而成，也就是在單向LSTM基礎(chǔ)上增加了一個(gè)逆向的LSTM，前向和后向的輸出連接在一起作為整個(gè)網(wǎng)絡(luò)輸出，這樣能更好地捕捉到雙向序列信息［15］。

1.3訓(xùn)練方法

模型訓(xùn)練采用Pairwise方法，樣本是一對(duì)短語，即手術(shù)名和標(biāo)準(zhǔn)術(shù)語。正例是病歷手術(shù)名和對(duì)應(yīng)的標(biāo)準(zhǔn)術(shù)語，反例是手術(shù)名和不對(duì)應(yīng)的標(biāo)準(zhǔn)術(shù)語。兩個(gè)短語的向量表示為F1和F2，它們的歐氏距離記作d(F1F2)。訓(xùn)練目標(biāo)是使匹配兩個(gè)短語的d(F1F2)盡可能小，而不匹配兩個(gè)短語的d(F1F2)盡可能大。所以，損失函數(shù)需要滿足兩個(gè)性質(zhì)：①對(duì)于兩個(gè)匹配短語，d(F1F2)越小，損失函數(shù)越小；②對(duì)于兩個(gè)不匹配短語，d(F1F2)越小，損失函數(shù)越大。本文使用對(duì)比損失［16］作為損失函數(shù)，定義如下：其中di和yi分別表示第i項(xiàng)樣本的編輯距離和標(biāo)簽。yi=1表示兩個(gè)短語匹配，yi=0表示兩個(gè)短語不匹配。當(dāng)yi=1時(shí)，該樣本的損失是yidi2，顯然滿足第一條性質(zhì)。當(dāng)yi=0時(shí)，該樣本的損失是max{0m-di}2，距離小于m時(shí)獲得(m-di)2的懲罰，距離大于m時(shí)沒有懲罰，距離越小損失越大，距離足夠大時(shí)損失為0，滿足第二條性質(zhì)。本文使用隨機(jī)梯度下降的改進(jìn)算法Adam［17］使損失函數(shù)最小，訓(xùn)練時(shí)采用mini-batch模式。

2實(shí)驗(yàn)

2.1實(shí)驗(yàn)數(shù)據(jù)

手術(shù)是電子病歷實(shí)體中的重要類別，本文選擇中文電子病歷中手術(shù)實(shí)體標(biāo)準(zhǔn)化問題進(jìn)行實(shí)驗(yàn)。我國一直采用國際疾病分類第9版臨床修訂本（InternationalClassifica⁃tionofDiseases，NinthRevision，ClinicalModification，簡稱ICD-9-CM）作為手術(shù)與操作分類代碼的填寫標(biāo)準(zhǔn)，并于2015年對(duì)其擴(kuò)碼修訂，收錄了醫(yī)院各個(gè)科室的各種手術(shù)與操作共計(jì)1萬余條，內(nèi)容準(zhǔn)確完備［18］。因此，本文使用擴(kuò)碼后的ICD-9-CM中的標(biāo)準(zhǔn)術(shù)語作為手術(shù)實(shí)體標(biāo)準(zhǔn)化術(shù)語集。本文選取某三甲醫(yī)院的300份電子病歷中出現(xiàn)的345個(gè)不同手術(shù)名作為實(shí)驗(yàn)數(shù)據(jù)，并標(biāo)注這些手術(shù)名對(duì)應(yīng)的ICD-9-CM標(biāo)準(zhǔn)術(shù)語。隨機(jī)選取20%作為測(cè)試集，剩下的80%用于訓(xùn)練。訓(xùn)練需要成對(duì)的短語，訓(xùn)練集中的手術(shù)名與對(duì)應(yīng)的標(biāo)準(zhǔn)術(shù)語作為正例，反例是手術(shù)名與隨機(jī)選取的不對(duì)應(yīng)ICD術(shù)語。通過上述方式構(gòu)建的數(shù)據(jù)對(duì)總計(jì)5429條，正負(fù)例比例為19∶1。

2.2實(shí)驗(yàn)環(huán)境、超參數(shù)與評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)代碼使用Python3.6，Tensorflow1.8編寫。硬件環(huán)境：IntelE5-1620v4，NVIDIAGeForceGTX1080。操作系統(tǒng)：Windows10。經(jīng)過多次實(shí)驗(yàn)，選定的超參數(shù)見表1。大部分實(shí)體標(biāo)準(zhǔn)化研究都采用正確率作為算法的評(píng)價(jià)指標(biāo)。標(biāo)準(zhǔn)術(shù)語數(shù)量多，實(shí)體標(biāo)準(zhǔn)化難度較大，因此本文除了top-1正確率以外，還加入top-5正確率作為額外的評(píng)價(jià)參考［19］。top-5正確率指算法給出的前5個(gè)候選中的正確答案比率。

2.3實(shí)驗(yàn)結(jié)果與分析

本文選擇基于編輯距離的相似度算法［20］作為比較基準(zhǔn)，計(jì)算公式為：式（2）中，A，B為待計(jì)算的兩個(gè)字符串，len(A)和len(B)分別是字符串A和B的字符個(gè)數(shù)，d(AB)是A和B的編輯距離，即將A變成B的最小操作次數(shù)，允許的編輯操作為替換一個(gè)字符、插入一個(gè)字符、刪除一個(gè)字符3種。表2中，Siamese-LSTM表示編碼器部分使用單向的LSTM網(wǎng)絡(luò)，LSTM單元數(shù)量為20。Siamese-BiLSTM表示編碼器使用雙向LSTM，每個(gè)方向有10個(gè)LSTM單元，總共20個(gè)。編輯距離算法的top-5正確率比top-1正確率高了約14.5個(gè)百分點(diǎn)，差距較大。通過分析編輯距離算法出錯(cuò)的樣本，發(fā)現(xiàn)與手術(shù)名在字面上相似的標(biāo)準(zhǔn)術(shù)語有多個(gè)，匹配時(shí)易造成干擾，比如“左肺上葉切除術(shù)”對(duì)應(yīng)標(biāo)準(zhǔn)術(shù)語是“肺葉切除術(shù)”，但對(duì)“余肺肺葉切除術(shù)”造成了干擾，使得編輯距離算法無法作出正確匹配。兩種Siamese網(wǎng)絡(luò)在top-1、top-5正確率上都明顯好于編輯距離，可見對(duì)于手術(shù)實(shí)體標(biāo)準(zhǔn)化，僅依靠字面形式上的相似度，融合語義信息和序列信息的向量空間模型能有效消除干擾項(xiàng)影響，提升標(biāo)準(zhǔn)化正確率。對(duì)于Siamese網(wǎng)絡(luò)編碼器部分，雙向LSTM在top-1、top-5正確率上均明顯好于單向LSTM，尤其是在最重要的top-1正確率上提升了約11.6個(gè)百分點(diǎn)，說明手術(shù)實(shí)體標(biāo)準(zhǔn)化任務(wù)僅有單向序列信息是不夠的，增加逆向序列信息能有效改善手術(shù)實(shí)體標(biāo)準(zhǔn)化效果。

3結(jié)語

電子病歷實(shí)體形式多樣，嚴(yán)重阻礙了醫(yī)療數(shù)據(jù)的分析和利用。本文針對(duì)中文電子病歷實(shí)體標(biāo)準(zhǔn)化進(jìn)行了研究。基于Siamese神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和Pairwise訓(xùn)練方法實(shí)現(xiàn)了手術(shù)實(shí)體標(biāo)準(zhǔn)化算法。實(shí)驗(yàn)結(jié)果顯示，基于深度學(xué)習(xí)的方法比基于編輯距離的相似度算法準(zhǔn)確率明顯提高，表明深度學(xué)習(xí)算法可有效應(yīng)用到實(shí)體標(biāo)準(zhǔn)化問題上。但目前算法的正確率尚未達(dá)到實(shí)際應(yīng)用程度，還需對(duì)現(xiàn)有算法進(jìn)一步優(yōu)化，或者使用更優(yōu)的模型和訓(xùn)練方法。

作者：趙逸凡鄭建立徐霄玲單位：上海理工大學(xué)

深度學(xué)習(xí)下電子病歷實(shí)體標(biāo)準(zhǔn)化分析范文

擴(kuò)展閱讀

精品推薦