本站小編為你精心準備了白血病數據預處理過程中的關鍵問題參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:為研究得出吸煙是否成人白血病發病危險因素的明確結論,在某大型三甲醫院的電子病歷系統中,收集成人白血病病人的病歷資料,從海量數據中嚴格篩選符合科研要求的數據以解決樣本小的問題,并對相關數據進行預處理以進行數據挖掘。著重介紹了在數據預處理過程中存在的病人隱私保護、病例重復、數據不規范等關鍵問題,并對其解決思路進行了探討。
關鍵詞:白血病;吸煙;數據挖掘;數據預處理
1概述
白血病是造血系統的惡性腫瘤,是國內十大高發惡性腫瘤之一,占腫瘤發病率的第六位,已成為臨床研究和治療的重點對象[1]。目前醫學界普遍認為白血病的發病機制與感染、放射、化學和遺傳等因素有關,但其確切病因至今尚未明確[2]。吸煙被廣泛認為是多種疾病的危險因素,卷煙煙氣中含有多種致癌性物質,主動吸煙和被動吸煙均對健康有害。早在20世紀中后期,在美國退伍軍人進行的一項前瞻性死亡率研究表明,吸煙者中白血病的死亡率有明顯增加,并且與吸煙總數有劑量反應關系[3]。英國研究人員認為煙草中的苯、鉛等有害物質可引起人體免疫系統的細胞受損和血細胞的基因變異,從而導致白血病,但在國內,近年來關于吸煙和白血病兩者關系的研究結論仍存在較大的爭議,蘭州大學進行的一項關于白血病危險因素的研究,并未發現主動、被動吸煙與白血病的發生有明顯的相關[4]。復旦大學的另一項關于成人急性髓細胞白血病發病危險因素的研究,也未發現危險性增加,可能研究的樣本小有關[5]。計算機技術日新月異,數據庫管理系統在各個行業的應用也在不斷地發展和深入,人們逐漸被大量數據包圍,卻難以找到自己所需要的信息,于是近年來出現了數據挖掘技術。數據挖掘是指從大量數據中挖掘有趣模式以及知識的過程[6]。隨著醫院信息系統(HospitalInformationSystem,HIS)[7-8]、醫學影像系統(PictureArchivingandCommu-nicationSystems,PACS)[9]、電子病歷(ElectronicMedi-calRecord,EMR)[10]等信息系統在各級醫療機構的應用,產生了大量的醫療數據,包括病人的個體信息、癥狀、檢查結果、疾病診斷、醫囑、病程及治療方案等,為醫學數據挖掘提供了基礎。把數據挖掘相關技術和方法應用到醫學領域,挖掘出隱含在其中的、有價值的規則、信息或者知識,運用于醫生診斷、治療疾病、促進健康等方面,具有極大的輔助作用,如何更好地進行醫學數據挖掘是研究的熱點。探討了使用Weka挖掘白血病與基因的關系,也有文獻[12]根據血常規檢驗的結果并結合臨床信息進行數據挖掘,預測各型白血病發生率,提高血常規數據對白血病初篩作用的價值。綜上所述,國內已有探討吸煙與白血病的關系研究的文獻報道[4-5],也有探討數據挖掘在白血病研究的文獻報道[11-12],但尚未見有基于數據挖掘研究吸煙與成人白血病的關系研究的中文文獻報道,且國內對于吸煙是否成人白血病的危險因素仍然存在分歧,值得進一步進行研究和探討。
2數據挖掘過程
為研究得出吸煙是否成人白血病發病危險因素的明確結論,課題組從某大型三級甲等醫院于2012年上線的電子病歷系統中,收集了成人白血病病人的資料,對相關數據進行整理,從海量數據中嚴格篩選符合科研要求的數據以解決樣本小的問題,并使用數據挖掘方法挖掘出吸煙與成人白血病發病之間的關系,為吸煙人群預防白血病提供明確的參考,用于健康宣教及白血病預防等,降低白血病的發病率,減輕社會的負擔。
3存在的關鍵問題
在進行數據挖掘前,需要進行大量的準備工作,一個重要步驟就是對收集到的數據進行預處理,數據預處理通常要大量的時間。在整個數據準備過程中,存在以下關鍵問題:
3.1病人隱私保護
隱私權是公民的一項不可剝奪的權利,尊重和保護病人的隱私是醫護人員應盡的職責和義務,同時也是構建和諧醫患關系的必要條件[13]。在進行科研活動的過程中,如何嚴格做好病人的隱私保密工作是擺在我們面前的一個重要問題。
3.2病例重復
課題組在電子病歷系統中提取白血病病人信息時,是通過診斷和時間范圍來查詢數據的,由于白血病病人需要定期進行化療,一年內要多次重復住院,重復住院病人的多次住院記錄都會提取出來,就造成了病例重復的問題。
3.3數據不規范
課題組已經從醫院的電子病歷系統中收集了部分成人白血病病人的數據,但由于醫生的習慣、病人較多而問診時間短等原因,導致醫生對同一個病的名稱或同一字段的錄入格式不統一,對同一情況的描述存在差別等情況出現。例如,對于診斷同為“急性髓細胞白血病”的病歷,由于有的病人有多個診斷,需要錄入序號,并且由于臨床治療需要進行分型,導致有些錄入的是“1、急性髓細胞白血病M4a”,有的則是“1.急性髓細胞白血病M5b型”,但計算機則認為這是不同的疾病,因為計算機識別的是二進制的字符,顯然這些名稱的二進制格式是有區別的,這樣就無法進行數據挖掘工作。
4解決思路探討
針對上述問題,課題組經過研究討論,得出了以下解決思路:
4.1病人隱私保護
獲取病人信息需嚴格按照有關規定,遵循嚴格的信息提取流程,科研數據提取必須經科研人員申請、主管部門審核同意并授權后提取,只提取科研需要的信息,對于姓名、身份證號碼、住址、聯系方式等敏感信息,如不影響科研結果則不進行收取,如果在需要對病人進行隨訪等情況必須要提取相關信息,必須嚴格做好保密工作,不得隨意公開。
4.2病例重復
提取了病人信息后,導入數據庫中后通過結構化查詢語句(StructuredQueryLanguage,簡稱SQL)進行二次篩選,以病人住院號(病人唯一標識)及其首次住院時間為條件獲取病人首次住院的信息,以去掉重復的病例,詳細語句如下:selectdistinct*fromdbo.Cases_All,(select登記號,min(就診日期)as就診日期fromdbo.Cases_Allwhere年齡>=18groupby登記號)bwheredbo.Cases_All.登記號=b.登記號anddbo.Cases_All.就診日期=b.就診日期orderbydbo.Cases_All.登記號
4.3數據不規范
必須通過數據預處理的方式,在數據倉庫中通過SQL語句將這些診斷統一修改成同一個名稱并去掉多余的序號等信息。
5結語
下一步課題組將對數據處理后的結果進行數據挖掘,得出結論后進行臨床驗證,明確吸煙與成人白血病發病之間的關系。上述的解決方法只是為了達到科研目的而采取的措施,對以后的數據挖掘研究項目起到一定的參考作用,具體問題還需結合科研項目的實際情況進行分析,期望能起到拋磚引玉的作用,引來更多同行介紹更好的解決方案。另外,如果要從根本上解決這些問題,需要多部門的共同努力,例如對于數據不規范問題,需要衛生主管部門牽頭制定統一標準和錄入規范,各級醫療機構高度重視,嚴格執行,以確保數據的統一性。
參考文獻
[1]周及紅,劉東,李彤.改善骨髓微環境與脂質體藥物相結合干預白血病的實驗研究[J].中國實驗診斷學,2014,18(08):1233-1234.
[2]黃銳,閆雷.利用Weka挖掘白血病與基因的關系[J].中華醫學圖書情報雜志,2015:24(1):50-54,60.
[3]林密.美國退伍軍人中的白血病與吸煙嗜好[J].國外醫學情報,1988:400.
[4]陳文材.白血病危險因素及住院費用變化趨勢研究[D].蘭州:蘭州大學,2015.
[5]王星.成人急性髓細胞白血病發病危險因素的病例對照研究與Meta分析[D].上海:復旦大學,2011.
[6]呂國義.醫院PACS系統發展趨勢研究[J].中國衛生質量管理,2015,22(06):92-94.
[7]黃銳,閆雷.利用Weka挖掘白血病與基因的關系[J].中華醫學圖書情報雜志,2015,24(1):50-54,60.
[8]趙華,李代渝,蔣大勇.血常規數據挖掘對白血病的初篩作用[J].瀘州醫學院學報,2013,36(3):251-254.
[9]俞萍,任國琴,吳靜,華敏峰.急診病人隱私保護策略的實施及效果評價[J].護理研究,2015,29(07):881-883.
作者:劉存德;蒙華;劉德健 單位:廣西醫科大學第一附屬醫院計算機管理中心