本站小編為你精心準(zhǔn)備了深度學(xué)習(xí)下電子病歷實(shí)體標(biāo)準(zhǔn)化分析參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
摘要:電子病歷中同一醫(yī)療概念的提及形式具有多樣性,阻礙了醫(yī)療數(shù)據(jù)的分析和利用,研究電子病歷實(shí)體標(biāo)準(zhǔn)化具有現(xiàn)實(shí)意義。設(shè)計(jì)并實(shí)現(xiàn)了基于深度學(xué)習(xí)的電子病歷實(shí)體標(biāo)準(zhǔn)化算法,使用Siamese網(wǎng)絡(luò)架構(gòu)和LSTM網(wǎng)絡(luò)搭建模型,采用Pairwise方法訓(xùn)練模型,在測(cè)試集上與傳統(tǒng)的基于編輯距離的方法進(jìn)行比較。對(duì)手術(shù)實(shí)體標(biāo)準(zhǔn)化的實(shí)驗(yàn)結(jié)果顯示,深度學(xué)習(xí)算法正確率達(dá)到79.71%,比傳統(tǒng)方法提高了17.4個(gè)百分點(diǎn),表明了深度學(xué)習(xí)算法在電子病歷實(shí)體標(biāo)準(zhǔn)化方面的有效性。
關(guān)鍵詞:電子病歷;實(shí)體標(biāo)準(zhǔn)化;長短期記憶網(wǎng)絡(luò);孿生網(wǎng)絡(luò)
引言
隨著醫(yī)療信息化的快速發(fā)展,各醫(yī)院積累了海量的電子病歷數(shù)據(jù),如何有效利用這些數(shù)據(jù)提高醫(yī)療健康服務(wù)水平是研究熱點(diǎn)。電子病歷中同一醫(yī)療概念會(huì)有多種不同的表述形式,阻礙了醫(yī)療數(shù)據(jù)的檢索、分析和利用。把形式多樣的實(shí)體提及(EntityMention)映射到標(biāo)準(zhǔn)的醫(yī)療術(shù)語,即實(shí)體標(biāo)準(zhǔn)化(EntityNormalization),是有效利用醫(yī)療健康數(shù)據(jù)的前提。電子病歷實(shí)體標(biāo)準(zhǔn)化研究由國際公開評(píng)測(cè)任務(wù)推動(dòng),最具代表性的兩個(gè)評(píng)測(cè)任務(wù)是2013年的ShARe/CLEFeHealthSharedTask1b[1]和2014年的SemEvalTask7[2],這兩個(gè)任務(wù)都是要找到電子病歷中的實(shí)體(如疾病和癥狀)在“醫(yī)學(xué)術(shù)語系統(tǒng)命名法—臨床術(shù)語[3]”(SystematizedNo⁃menclatureofMedicine-ClinicalTerms,簡稱SNOMED-CT)中的編碼。現(xiàn)有的實(shí)體標(biāo)準(zhǔn)化方法大多基于實(shí)體提及與標(biāo)準(zhǔn)術(shù)語的相似度得分。RohitJKate[4]通過改進(jìn)的編輯距離計(jì)算相似度,RobertLeaman等[5]采用成對(duì)排序?qū)W習(xí)方法,用向量空間模型表示實(shí)體提及并引入權(quán)重矩陣計(jì)算相似度得分。LiHaodi等[6]使用深度學(xué)習(xí)方法取得在ShARe/CLEF數(shù)據(jù)集和NCBI疾病數(shù)據(jù)集[7]上的最高正確率,該方法先使用人工編寫的規(guī)則從標(biāo)準(zhǔn)術(shù)語集中挑出候選,再基于卷積神經(jīng)網(wǎng)絡(luò)輸出語義向量對(duì)候選排序。上述研究都面向英文電子病歷,針對(duì)中文電子病歷的實(shí)體標(biāo)準(zhǔn)化研究相對(duì)較少,且缺乏公開可用的標(biāo)注數(shù)據(jù)集。趙亞輝[8]選取了國內(nèi)某醫(yī)院的門診和住院病歷作為實(shí)驗(yàn)數(shù)據(jù),以國際疾病分類第10版(ICD-10)為目標(biāo)術(shù)語集,研究了疾病名的標(biāo)準(zhǔn)化。在門診病歷上改進(jìn)的編輯距離效果最好,正確率為76.6%,在住院病歷上RankSVM的正確率最高,達(dá)到74.7%。
1實(shí)體標(biāo)準(zhǔn)化算法
1.1算法總體結(jié)構(gòu)
基于深度學(xué)習(xí)的實(shí)體標(biāo)準(zhǔn)化算法總體結(jié)構(gòu)見圖1。本算法主要思想是計(jì)算手術(shù)名與各個(gè)標(biāo)準(zhǔn)術(shù)語的匹配度,選擇最匹配的術(shù)語。匹配度計(jì)算采用Siamese網(wǎng)絡(luò)。Siamese網(wǎng)絡(luò)是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)而不是具體的某種網(wǎng)絡(luò),在自然語言處理和計(jì)算機(jī)視覺中應(yīng)用廣泛[9-13],它有兩個(gè)結(jié)構(gòu)相同共享權(quán)值的子網(wǎng)絡(luò)。圖1中的兩個(gè)字嵌入完全相同,兩個(gè)編碼器也完全一樣。輸入的短語中每個(gè)字都會(huì)映射到一個(gè)多維稠密向量,稱為字嵌入,也常稱為字向量。本文使用LiS等[14]在百度百科的文本上訓(xùn)練出的字向量,并且在訓(xùn)練階段使字向量保持不變,不再微調(diào)。然后使用編碼器分別將兩個(gè)字向量序列映射到目標(biāo)向量空間(可以看成是特征提取),最后在目標(biāo)向量空間使用歐氏距離表示兩個(gè)輸入的匹配度,歐氏距離越小則匹配度越高。本文未采用分類模型。因?yàn)槭中g(shù)的標(biāo)準(zhǔn)術(shù)語有上萬條,如果把每個(gè)術(shù)語看作一個(gè)類別則類別數(shù)量龐大,而每個(gè)類別的樣本數(shù)量較少甚至沒有,用分類算法顯然效果不佳。而Siamese網(wǎng)絡(luò)能從訓(xùn)練樣本中學(xué)習(xí)到匹配度模型,即使類別數(shù)量龐大也能獲得不錯(cuò)的效果。
1.2BiLSTM網(wǎng)絡(luò)
本文采用BiLSTM網(wǎng)絡(luò)作為Siamese網(wǎng)絡(luò)結(jié)構(gòu)中用于提取特征的編碼器。長短期記憶網(wǎng)絡(luò)(LongShort-TermMemory,簡稱LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,簡稱RNN)的一種。普通的循環(huán)神經(jīng)網(wǎng)絡(luò)用于序列數(shù)據(jù)建模時(shí)容易產(chǎn)生梯度爆炸和梯度消失,難以訓(xùn)練。LSTM通過引入遺忘門、記憶門、輸出門的三態(tài)門結(jié)構(gòu),使網(wǎng)絡(luò)能夠選擇性地保留狀態(tài)信息,解決了梯度爆炸和梯度消失問題。因此,LSTM適用于對(duì)序列數(shù)據(jù)建模,如文本數(shù)據(jù)。普通的LSTM只能捕捉到從前向后的信息,但在實(shí)體標(biāo)準(zhǔn)化任務(wù)中僅有單向信息是不夠的。雙向長短期記憶網(wǎng)絡(luò)(Bi-directionalLongShort-TermMemory,簡稱BiLSTM)由前向LSTM與后向LSTM組合而成,也就是在單向LSTM基礎(chǔ)上增加了一個(gè)逆向的LSTM,前向和后向的輸出連接在一起作為整個(gè)網(wǎng)絡(luò)輸出,這樣能更好地捕捉到雙向序列信息[15]。
1.3訓(xùn)練方法
模型訓(xùn)練采用Pairwise方法,樣本是一對(duì)短語,即手術(shù)名和標(biāo)準(zhǔn)術(shù)語。正例是病歷手術(shù)名和對(duì)應(yīng)的標(biāo)準(zhǔn)術(shù)語,反例是手術(shù)名和不對(duì)應(yīng)的標(biāo)準(zhǔn)術(shù)語。兩個(gè)短語的向量表示為F1和F2,它們的歐氏距離記作d(F1F2)。訓(xùn)練目標(biāo)是使匹配兩個(gè)短語的d(F1F2)盡可能小,而不匹配兩個(gè)短語的d(F1F2)盡可能大。所以,損失函數(shù)需要滿足兩個(gè)性質(zhì):①對(duì)于兩個(gè)匹配短語,d(F1F2)越小,損失函數(shù)越小;②對(duì)于兩個(gè)不匹配短語,d(F1F2)越小,損失函數(shù)越大。本文使用對(duì)比損失[16]作為損失函數(shù),定義如下:其中di和yi分別表示第i項(xiàng)樣本的編輯距離和標(biāo)簽。yi=1表示兩個(gè)短語匹配,yi=0表示兩個(gè)短語不匹配。當(dāng)yi=1時(shí),該樣本的損失是yidi2,顯然滿足第一條性質(zhì)。當(dāng)yi=0時(shí),該樣本的損失是max{0m-di}2,距離小于m時(shí)獲得(m-di)2的懲罰,距離大于m時(shí)沒有懲罰,距離越小損失越大,距離足夠大時(shí)損失為0,滿足第二條性質(zhì)。本文使用隨機(jī)梯度下降的改進(jìn)算法Adam[17]使損失函數(shù)最小,訓(xùn)練時(shí)采用mini-batch模式。
2實(shí)驗(yàn)
2.1實(shí)驗(yàn)數(shù)據(jù)
手術(shù)是電子病歷實(shí)體中的重要類別,本文選擇中文電子病歷中手術(shù)實(shí)體標(biāo)準(zhǔn)化問題進(jìn)行實(shí)驗(yàn)。我國一直采用國際疾病分類第9版臨床修訂本(InternationalClassifica⁃tionofDiseases,NinthRevision,ClinicalModification,簡稱ICD-9-CM)作為手術(shù)與操作分類代碼的填寫標(biāo)準(zhǔn),并于2015年對(duì)其擴(kuò)碼修訂,收錄了醫(yī)院各個(gè)科室的各種手術(shù)與操作共計(jì)1萬余條,內(nèi)容準(zhǔn)確完備[18]。因此,本文使用擴(kuò)碼后的ICD-9-CM中的標(biāo)準(zhǔn)術(shù)語作為手術(shù)實(shí)體標(biāo)準(zhǔn)化術(shù)語集。本文選取某三甲醫(yī)院的300份電子病歷中出現(xiàn)的345個(gè)不同手術(shù)名作為實(shí)驗(yàn)數(shù)據(jù),并標(biāo)注這些手術(shù)名對(duì)應(yīng)的ICD-9-CM標(biāo)準(zhǔn)術(shù)語。隨機(jī)選取20%作為測(cè)試集,剩下的80%用于訓(xùn)練。訓(xùn)練需要成對(duì)的短語,訓(xùn)練集中的手術(shù)名與對(duì)應(yīng)的標(biāo)準(zhǔn)術(shù)語作為正例,反例是手術(shù)名與隨機(jī)選取的不對(duì)應(yīng)ICD術(shù)語。通過上述方式構(gòu)建的數(shù)據(jù)對(duì)總計(jì)5429條,正負(fù)例比例為19∶1。
2.2實(shí)驗(yàn)環(huán)境、超參數(shù)與評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)代碼使用Python3.6,Tensorflow1.8編寫。硬件環(huán)境:IntelE5-1620v4,NVIDIAGeForceGTX1080。操作系統(tǒng):Windows10。經(jīng)過多次實(shí)驗(yàn),選定的超參數(shù)見表1。大部分實(shí)體標(biāo)準(zhǔn)化研究都采用正確率作為算法的評(píng)價(jià)指標(biāo)。標(biāo)準(zhǔn)術(shù)語數(shù)量多,實(shí)體標(biāo)準(zhǔn)化難度較大,因此本文除了top-1正確率以外,還加入top-5正確率作為額外的評(píng)價(jià)參考[19]。top-5正確率指算法給出的前5個(gè)候選中的正確答案比率。
2.3實(shí)驗(yàn)結(jié)果與分析
本文選擇基于編輯距離的相似度算法[20]作為比較基準(zhǔn),計(jì)算公式為:式(2)中,A,B為待計(jì)算的兩個(gè)字符串,len(A)和len(B)分別是字符串A和B的字符個(gè)數(shù),d(AB)是A和B的編輯距離,即將A變成B的最小操作次數(shù),允許的編輯操作為替換一個(gè)字符、插入一個(gè)字符、刪除一個(gè)字符3種。表2中,Siamese-LSTM表示編碼器部分使用單向的LSTM網(wǎng)絡(luò),LSTM單元數(shù)量為20。Siamese-BiLSTM表示編碼器使用雙向LSTM,每個(gè)方向有10個(gè)LSTM單元,總共20個(gè)。編輯距離算法的top-5正確率比top-1正確率高了約14.5個(gè)百分點(diǎn),差距較大。通過分析編輯距離算法出錯(cuò)的樣本,發(fā)現(xiàn)與手術(shù)名在字面上相似的標(biāo)準(zhǔn)術(shù)語有多個(gè),匹配時(shí)易造成干擾,比如“左肺上葉切除術(shù)”對(duì)應(yīng)標(biāo)準(zhǔn)術(shù)語是“肺葉切除術(shù)”,但對(duì)“余肺肺葉切除術(shù)”造成了干擾,使得編輯距離算法無法作出正確匹配。兩種Siamese網(wǎng)絡(luò)在top-1、top-5正確率上都明顯好于編輯距離,可見對(duì)于手術(shù)實(shí)體標(biāo)準(zhǔn)化,僅依靠字面形式上的相似度,融合語義信息和序列信息的向量空間模型能有效消除干擾項(xiàng)影響,提升標(biāo)準(zhǔn)化正確率。對(duì)于Siamese網(wǎng)絡(luò)編碼器部分,雙向LSTM在top-1、top-5正確率上均明顯好于單向LSTM,尤其是在最重要的top-1正確率上提升了約11.6個(gè)百分點(diǎn),說明手術(shù)實(shí)體標(biāo)準(zhǔn)化任務(wù)僅有單向序列信息是不夠的,增加逆向序列信息能有效改善手術(shù)實(shí)體標(biāo)準(zhǔn)化效果。
3結(jié)語
電子病歷實(shí)體形式多樣,嚴(yán)重阻礙了醫(yī)療數(shù)據(jù)的分析和利用。本文針對(duì)中文電子病歷實(shí)體標(biāo)準(zhǔn)化進(jìn)行了研究。基于Siamese神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和Pairwise訓(xùn)練方法實(shí)現(xiàn)了手術(shù)實(shí)體標(biāo)準(zhǔn)化算法。實(shí)驗(yàn)結(jié)果顯示,基于深度學(xué)習(xí)的方法比基于編輯距離的相似度算法準(zhǔn)確率明顯提高,表明深度學(xué)習(xí)算法可有效應(yīng)用到實(shí)體標(biāo)準(zhǔn)化問題上。但目前算法的正確率尚未達(dá)到實(shí)際應(yīng)用程度,還需對(duì)現(xiàn)有算法進(jìn)一步優(yōu)化,或者使用更優(yōu)的模型和訓(xùn)練方法。
作者:趙逸凡 鄭建立 徐霄玲 單位:上海理工大學(xué)