本站小編為你精心準備了白血病數(shù)據(jù)預處理過程中的關鍵問題參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
摘要:為研究得出吸煙是否成人白血病發(fā)病危險因素的明確結論,在某大型三甲醫(yī)院的電子病歷系統(tǒng)中,收集成人白血病病人的病歷資料,從海量數(shù)據(jù)中嚴格篩選符合科研要求的數(shù)據(jù)以解決樣本小的問題,并對相關數(shù)據(jù)進行預處理以進行數(shù)據(jù)挖掘。著重介紹了在數(shù)據(jù)預處理過程中存在的病人隱私保護、病例重復、數(shù)據(jù)不規(guī)范等關鍵問題,并對其解決思路進行了探討。
關鍵詞:白血病;吸煙;數(shù)據(jù)挖掘;數(shù)據(jù)預處理
1概述
白血病是造血系統(tǒng)的惡性腫瘤,是國內(nèi)十大高發(fā)惡性腫瘤之一,占腫瘤發(fā)病率的第六位,已成為臨床研究和治療的重點對象[1]。目前醫(yī)學界普遍認為白血病的發(fā)病機制與感染、放射、化學和遺傳等因素有關,但其確切病因至今尚未明確[2]。吸煙被廣泛認為是多種疾病的危險因素,卷煙煙氣中含有多種致癌性物質(zhì),主動吸煙和被動吸煙均對健康有害。早在20世紀中后期,在美國退伍軍人進行的一項前瞻性死亡率研究表明,吸煙者中白血病的死亡率有明顯增加,并且與吸煙總數(shù)有劑量反應關系[3]。英國研究人員認為煙草中的苯、鉛等有害物質(zhì)可引起人體免疫系統(tǒng)的細胞受損和血細胞的基因變異,從而導致白血病,但在國內(nèi),近年來關于吸煙和白血病兩者關系的研究結論仍存在較大的爭議,蘭州大學進行的一項關于白血病危險因素的研究,并未發(fā)現(xiàn)主動、被動吸煙與白血病的發(fā)生有明顯的相關[4]。復旦大學的另一項關于成人急性髓細胞白血病發(fā)病危險因素的研究,也未發(fā)現(xiàn)危險性增加,可能研究的樣本小有關[5]。計算機技術日新月異,數(shù)據(jù)庫管理系統(tǒng)在各個行業(yè)的應用也在不斷地發(fā)展和深入,人們逐漸被大量數(shù)據(jù)包圍,卻難以找到自己所需要的信息,于是近年來出現(xiàn)了數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中挖掘有趣模式以及知識的過程[6]。隨著醫(yī)院信息系統(tǒng)(HospitalInformationSystem,HIS)[7-8]、醫(yī)學影像系統(tǒng)(PictureArchivingandCommu-nicationSystems,PACS)[9]、電子病歷(ElectronicMedi-calRecord,EMR)[10]等信息系統(tǒng)在各級醫(yī)療機構的應用,產(chǎn)生了大量的醫(yī)療數(shù)據(jù),包括病人的個體信息、癥狀、檢查結果、疾病診斷、醫(yī)囑、病程及治療方案等,為醫(yī)學數(shù)據(jù)挖掘提供了基礎。把數(shù)據(jù)挖掘相關技術和方法應用到醫(yī)學領域,挖掘出隱含在其中的、有價值的規(guī)則、信息或者知識,運用于醫(yī)生診斷、治療疾病、促進健康等方面,具有極大的輔助作用,如何更好地進行醫(yī)學數(shù)據(jù)挖掘是研究的熱點。探討了使用Weka挖掘白血病與基因的關系,也有文獻[12]根據(jù)血常規(guī)檢驗的結果并結合臨床信息進行數(shù)據(jù)挖掘,預測各型白血病發(fā)生率,提高血常規(guī)數(shù)據(jù)對白血病初篩作用的價值。綜上所述,國內(nèi)已有探討吸煙與白血病的關系研究的文獻報道[4-5],也有探討數(shù)據(jù)挖掘在白血病研究的文獻報道[11-12],但尚未見有基于數(shù)據(jù)挖掘研究吸煙與成人白血病的關系研究的中文文獻報道,且國內(nèi)對于吸煙是否成人白血病的危險因素仍然存在分歧,值得進一步進行研究和探討。
2數(shù)據(jù)挖掘過程
為研究得出吸煙是否成人白血病發(fā)病危險因素的明確結論,課題組從某大型三級甲等醫(yī)院于2012年上線的電子病歷系統(tǒng)中,收集了成人白血病病人的資料,對相關數(shù)據(jù)進行整理,從海量數(shù)據(jù)中嚴格篩選符合科研要求的數(shù)據(jù)以解決樣本小的問題,并使用數(shù)據(jù)挖掘方法挖掘出吸煙與成人白血病發(fā)病之間的關系,為吸煙人群預防白血病提供明確的參考,用于健康宣教及白血病預防等,降低白血病的發(fā)病率,減輕社會的負擔。
3存在的關鍵問題
在進行數(shù)據(jù)挖掘前,需要進行大量的準備工作,一個重要步驟就是對收集到的數(shù)據(jù)進行預處理,數(shù)據(jù)預處理通常要大量的時間。在整個數(shù)據(jù)準備過程中,存在以下關鍵問題:
3.1病人隱私保護
隱私權是公民的一項不可剝奪的權利,尊重和保護病人的隱私是醫(yī)護人員應盡的職責和義務,同時也是構建和諧醫(yī)患關系的必要條件[13]。在進行科研活動的過程中,如何嚴格做好病人的隱私保密工作是擺在我們面前的一個重要問題。
3.2病例重復
課題組在電子病歷系統(tǒng)中提取白血病病人信息時,是通過診斷和時間范圍來查詢數(shù)據(jù)的,由于白血病病人需要定期進行化療,一年內(nèi)要多次重復住院,重復住院病人的多次住院記錄都會提取出來,就造成了病例重復的問題。
3.3數(shù)據(jù)不規(guī)范
課題組已經(jīng)從醫(yī)院的電子病歷系統(tǒng)中收集了部分成人白血病病人的數(shù)據(jù),但由于醫(yī)生的習慣、病人較多而問診時間短等原因,導致醫(yī)生對同一個病的名稱或同一字段的錄入格式不統(tǒng)一,對同一情況的描述存在差別等情況出現(xiàn)。例如,對于診斷同為“急性髓細胞白血病”的病歷,由于有的病人有多個診斷,需要錄入序號,并且由于臨床治療需要進行分型,導致有些錄入的是“1、急性髓細胞白血病M4a”,有的則是“1.急性髓細胞白血病M5b型”,但計算機則認為這是不同的疾病,因為計算機識別的是二進制的字符,顯然這些名稱的二進制格式是有區(qū)別的,這樣就無法進行數(shù)據(jù)挖掘工作。
4解決思路探討
針對上述問題,課題組經(jīng)過研究討論,得出了以下解決思路:
4.1病人隱私保護
獲取病人信息需嚴格按照有關規(guī)定,遵循嚴格的信息提取流程,科研數(shù)據(jù)提取必須經(jīng)科研人員申請、主管部門審核同意并授權后提取,只提取科研需要的信息,對于姓名、身份證號碼、住址、聯(lián)系方式等敏感信息,如不影響科研結果則不進行收取,如果在需要對病人進行隨訪等情況必須要提取相關信息,必須嚴格做好保密工作,不得隨意公開。
4.2病例重復
提取了病人信息后,導入數(shù)據(jù)庫中后通過結構化查詢語句(StructuredQueryLanguage,簡稱SQL)進行二次篩選,以病人住院號(病人唯一標識)及其首次住院時間為條件獲取病人首次住院的信息,以去掉重復的病例,詳細語句如下:selectdistinct*fromdbo.Cases_All,(select登記號,min(就診日期)as就診日期fromdbo.Cases_Allwhere年齡>=18groupby登記號)bwheredbo.Cases_All.登記號=b.登記號anddbo.Cases_All.就診日期=b.就診日期orderbydbo.Cases_All.登記號
4.3數(shù)據(jù)不規(guī)范
必須通過數(shù)據(jù)預處理的方式,在數(shù)據(jù)倉庫中通過SQL語句將這些診斷統(tǒng)一修改成同一個名稱并去掉多余的序號等信息。
5結語
下一步課題組將對數(shù)據(jù)處理后的結果進行數(shù)據(jù)挖掘,得出結論后進行臨床驗證,明確吸煙與成人白血病發(fā)病之間的關系。上述的解決方法只是為了達到科研目的而采取的措施,對以后的數(shù)據(jù)挖掘研究項目起到一定的參考作用,具體問題還需結合科研項目的實際情況進行分析,期望能起到拋磚引玉的作用,引來更多同行介紹更好的解決方案。另外,如果要從根本上解決這些問題,需要多部門的共同努力,例如對于數(shù)據(jù)不規(guī)范問題,需要衛(wèi)生主管部門牽頭制定統(tǒng)一標準和錄入規(guī)范,各級醫(yī)療機構高度重視,嚴格執(zhí)行,以確保數(shù)據(jù)的統(tǒng)一性。
參考文獻
[1]周及紅,劉東,李彤.改善骨髓微環(huán)境與脂質(zhì)體藥物相結合干預白血病的實驗研究[J].中國實驗診斷學,2014,18(08):1233-1234.
[2]黃銳,閆雷.利用Weka挖掘白血病與基因的關系[J].中華醫(yī)學圖書情報雜志,2015:24(1):50-54,60.
[3]林密.美國退伍軍人中的白血病與吸煙嗜好[J].國外醫(yī)學情報,1988:400.
[4]陳文材.白血病危險因素及住院費用變化趨勢研究[D].蘭州:蘭州大學,2015.
[5]王星.成人急性髓細胞白血病發(fā)病危險因素的病例對照研究與Meta分析[D].上海:復旦大學,2011.
[6]呂國義.醫(yī)院PACS系統(tǒng)發(fā)展趨勢研究[J].中國衛(wèi)生質(zhì)量管理,2015,22(06):92-94.
[7]黃銳,閆雷.利用Weka挖掘白血病與基因的關系[J].中華醫(yī)學圖書情報雜志,2015,24(1):50-54,60.
[8]趙華,李代渝,蔣大勇.血常規(guī)數(shù)據(jù)挖掘對白血病的初篩作用[J].瀘州醫(yī)學院學報,2013,36(3):251-254.
[9]俞萍,任國琴,吳靜,華敏峰.急診病人隱私保護策略的實施及效果評價[J].護理研究,2015,29(07):881-883.
作者:劉存德;蒙華;劉德健 單位:廣西醫(yī)科大學第一附屬醫(yī)院計算機管理中心