前言:我們精心挑選了數(shù)篇優(yōu)質(zhì)醫(yī)學(xué)統(tǒng)計論文文章,供您閱讀參考。期待這些文章能為您帶來啟發(fā),助您在寫作的道路上更上一層樓。
在各種醫(yī)學(xué)期刊中,半數(shù)以上是療效觀察方面的論著。現(xiàn)擇其較普遍存在的統(tǒng)計學(xué)問題,結(jié)合實驗設(shè)計基本原則加以討論。
(一)對照與均衡性測定
國內(nèi)醫(yī)學(xué)期刊有關(guān)臨床療效觀察的文章甚多,不少雜志刊登了一些事先未設(shè)計對照的文章,其結(jié)論難以令人信服。如《用柴葛解肌湯治療上呼吸感染》一文,報道治愈好轉(zhuǎn)率為97.7%,因無對照,無法斷定其效果如何,因此,治愈好轉(zhuǎn)率中含有假像。
對照的方法雖有多種,但對照的基本原則是與實驗組齊同可比,最好作均衡性測定。
(二)安慰劑與盲法試驗
安慰劑與盲法試驗是醫(yī)研(主要是比較性研究)中常用的科研方法,結(jié)果準(zhǔn)確、誤差性小。安慰劑在形、量、色、味等要與實驗藥物一樣,不能給受試者和執(zhí)行者任何暗示。這種試驗就是雙盲法試驗。但近年來,尚有人用改良的雙盲法,此法分兩期:第一期(公開期)試驗有效者留,無效者棄。有效者進入第二期(雙盲試驗),以確定療效是否系安慰劑的作用。在預(yù)防效果觀察時可采用該法,臨床上應(yīng)用諸多困難,應(yīng)視具體情況而定。
(三)樣本含量與重復(fù)原則
沒有足夠樣本的研究結(jié)果,是經(jīng)不起重復(fù)試驗的,有的論文憑少數(shù)病例觀實的結(jié)果下結(jié)論,是不慎重的。如《重癥肺炎并發(fā)DIC29例》一文,作者觀察腦型患者3例,其中死亡一例,就得出“一般腦型病死率高達57%,本組腦型病死率較低,看來及早用肝素阻斷DIC過程,對降低腦型病死率可能具有重要意義”的結(jié)論。因無對照,結(jié)論不可靠。
(四)隨機分組與實驗設(shè)計類型
隨機化分組即每個實驗對象有同等機會被抽樣(分配)到各組去,而不受任何系統(tǒng)因素的影響。常用的實驗設(shè)計類型有完全隨機設(shè)計、自身對照設(shè)計、交義設(shè)計、配偶設(shè)計、隨機區(qū)組設(shè)計、拉丁方設(shè)計、正文(析因)設(shè)計、序貫設(shè)計、半數(shù)效量實驗設(shè)計(動物試驗),回顧性與前贍性調(diào)查研究設(shè)計等。科研設(shè)計時應(yīng)根據(jù)研究目的要求選擇不同類型的實驗設(shè)計方法,進行相應(yīng)的統(tǒng)計處理。
合理的試驗設(shè)計與統(tǒng)計處理的可信度存在直接聯(lián)系,研究者在編寫醫(yī)學(xué)論文時應(yīng)對醫(yī)學(xué)研究設(shè)計方法進行說明。在進行試驗設(shè)計時應(yīng)遵循隨機、對照、均衡和重復(fù)四大原則。在進行試驗設(shè)計的時候通常會涉及到研究對象的選擇,研究對象的分組及選擇合理的檢測指標(biāo)三個方面的內(nèi)容。醫(yī)學(xué)論文就是通過對樣本的研究來進行推斷總體,找出其共性,得出結(jié)論。因此研究者在選擇研究對象時應(yīng)注意選擇樣本應(yīng)具有一定數(shù)量,能反映出該事物的規(guī)律性特征,但又應(yīng)注意例數(shù)不能太多,以免造成不必要的浪費。其選擇的原則就是在保證試驗結(jié)果可靠性的前提下選擇最少的樣本例數(shù)。研究者在選擇樣本對象后應(yīng)對其基本特征進行詳細(xì)的描述,比如患者的年齡、性別、病理分期、疾病診斷的標(biāo)準(zhǔn)等。此外在試驗中所用到的試劑、儀器的型號、規(guī)格等都應(yīng)作出說明,以供讀者借鑒和做出判斷。選定好研究對象后就要對其進行分組。在進行分組時研究者一般遵循統(tǒng)計學(xué)中的“隨機分配”、“設(shè)立對照”以及“均衡”、“重復(fù)”的原則。隨機化原則是提高組間均衡性的一個重要手段,也是資料分析時進行統(tǒng)計推斷的前提。有對照才有比較,在進行組間比較時,應(yīng)確定好處理因素與實驗效應(yīng)的關(guān)系。均衡性則是要使得對結(jié)果產(chǎn)生影響的非處理因素盡可能保持一致,這樣才能保證對照的結(jié)果讓人信服。觀察實驗效應(yīng)的指標(biāo)主要有主觀指標(biāo)與客觀指標(biāo)。正所謂主觀指標(biāo)就是通過問答的方式調(diào)查受試者自己判斷的主觀感受;而客觀指標(biāo)則是通過儀器來檢驗和測量所得出的結(jié)果。在進行試驗設(shè)計時應(yīng)選擇客觀性較強、高靈敏性和精確性的指標(biāo)。
二、統(tǒng)計學(xué)方法的選擇
統(tǒng)計學(xué)方法的正確選擇是直接影響到論文結(jié)論可信度的重要依據(jù),因此研究者在編寫論文時應(yīng)注意選擇合適的統(tǒng)計學(xué)方法。不同的統(tǒng)計學(xué)方法應(yīng)用的范圍不同。研究者在編寫醫(yī)學(xué)論文時常根據(jù)論文研究的目的、資料類型、試驗設(shè)計的方案、樣品大小、水平數(shù)、特定條件、數(shù)據(jù)分布特征以及綜合分析等來選擇對應(yīng)的統(tǒng)計方法,同時還要根據(jù)專業(yè)知識與資料的實際情況,結(jié)合統(tǒng)計學(xué)原則,靈活地選擇。當(dāng)定性資料正態(tài)分布時,研究者一般用均數(shù)和標(biāo)準(zhǔn)差來表示統(tǒng)計描述指標(biāo);當(dāng)定性資料不符合正態(tài)分布時,則可選用中位數(shù)及級差來表示;當(dāng)定量資料正態(tài)分布且組間方差齊時一般選用參數(shù)法,反之則選用非參數(shù)法。t檢驗一般適用于小樣本(n<50)的定量資料且方差齊的兩組數(shù)據(jù)之間的比較。其特點是在均方差不知道的情況下,可以檢驗樣本平均數(shù)的顯著性,大樣本(n≥50)采用u檢驗;多個樣本均數(shù)兩兩比較則用方差分析,如差異有統(tǒng)計學(xué)意義,可采用q檢驗;Dunnett檢驗則適用于多個實驗組與一個對照組均數(shù)的比較。定性資料中,表現(xiàn)為互不相容的類別或?qū)傩裕譃槎诸惡投囝惙磻?yīng),如治療結(jié)果為顯著和好轉(zhuǎn)的人數(shù)等,該種資料可選用字檢驗,大樣本(n≥50)時采用u檢驗。如:患者的治療結(jié)果評定為痊愈、顯著有效、好轉(zhuǎn)、無效或死亡。該種資料可選用秩和檢驗或u檢驗。總之,不論論文中選用的是哪種統(tǒng)計學(xué)方法,都要計算出檢驗值,然后再根據(jù)統(tǒng)計量值來判定P值的大小,結(jié)論一般描述為“差異有(無)統(tǒng)計學(xué)意義”。
三、常見統(tǒng)計學(xué)方法的誤用分析及對策
1.統(tǒng)計方法誤用。
最常見統(tǒng)計方法誤用是對等級資料進行比較時應(yīng)用秩和檢驗而誤用卡方檢驗。例如:在評價采取不同治療方法的兩組急性腦血管病患者療效中,治療組顯著有效、有效、無效三種分型分別為15例、10例、8例,對照組分別為14例、11例、9例。本資料例數(shù)較少,應(yīng)選用等級比較的秩和檢驗,而有些作者卻認(rèn)為只要是率的比較就可以采用字檢驗。研究者在選擇統(tǒng)計學(xué)方法時應(yīng)根據(jù)相應(yīng)的原則,對文章研究目的、資料類型、樣品大小、水平數(shù)、數(shù)據(jù)分布特征等進行綜合分析后,再來選擇對應(yīng)的統(tǒng)計方法。
2.選用檢驗方法錯誤。
在有些論文中,作者常將本應(yīng)用方差分析和q檢驗的誤用t檢驗。t檢驗一般適用于小樣本(n<50)定量資料且方差齊的兩組數(shù)據(jù)之間的比較,而方差分析及q檢驗主要用于對多個樣本均數(shù)進行比較,幾種不同治療或處理方法等的同時比較。例如:在討論中、西以及中西醫(yī)結(jié)合治療急性腦血管病時,兩組患者的年齡、病程、病情嚴(yán)重程度等差別均無統(tǒng)計學(xué)意義,比較三組患者的一些指標(biāo)變化。組間多重比較應(yīng)用q檢驗,但文中作者采用的是t檢驗,對三組均數(shù)進行兩兩比較。這不僅造成了資料的利用率低,也增加了假陽性的概率,降低了試驗結(jié)果的可信度。
四、結(jié)論表述中的統(tǒng)計學(xué)應(yīng)用
概率分布(probabilitydistribution)是醫(yī)學(xué)統(tǒng)計學(xué)中多種統(tǒng)計分析方法的理論基礎(chǔ)。授課內(nèi)容一般包括:二項分布、Possion分布、正態(tài)分布、t分布、F分布等。
借助概率分布常常可以幫助我們了解生命指標(biāo)的特征、醫(yī)學(xué)現(xiàn)象的發(fā)生規(guī)律等等。例如,臨床檢驗中計量實驗室指標(biāo)的參考值范圍就是依據(jù)正態(tài)分布和t分布的原理計算得到;許多醫(yī)學(xué)試驗的“陽性”結(jié)果服從二項分布,因此它被廣泛用于化學(xué)毒性的生物鑒定、樣本中某疾病陽性率的區(qū)間估計等;而一定人群中諸如遺傳缺陷、癌癥等發(fā)病率很低的非傳染性疾病患病數(shù)或死亡數(shù)的分布,單位面積(或容積)內(nèi)細(xì)菌數(shù)的分布等都服從Poisson分布,我們就可以借助Poisson分布的原理定量地對上述現(xiàn)象進行研究。
在生物信息學(xué)中概率分布也有一定應(yīng)用。例如,Poisson分布可以用于基因(蛋白質(zhì))序列的相似性分析。被研究者廣泛使用的分析工具BLAST(BasicLocalAlignmentSearchTool)能迅速將研究者提交的蛋白質(zhì)(或DNA)數(shù)據(jù)與公開數(shù)據(jù)庫進行相似性序列比對。對于序列a和b,BLAST發(fā)現(xiàn)的高得分匹配區(qū)稱為HSPs。而HSP得分超過閾值t的概率P(H(a,b)>t)可以依據(jù)Poisson分布的性質(zhì)計算得到。
二、假設(shè)檢驗
假設(shè)檢驗(hypothesis)是醫(yī)學(xué)統(tǒng)計學(xué)中統(tǒng)計推斷部分的重要內(nèi)容。假設(shè)檢驗根據(jù)反證法和小概率原理,首先依據(jù)資料性質(zhì)和所需解決的問題,建立檢驗假設(shè);在假設(shè)該檢驗假設(shè)成立的前提下,采用適當(dāng)?shù)臋z驗方法,根據(jù)樣本算得相應(yīng)的檢驗統(tǒng)計量;最后,依據(jù)概率分布的特點和算得的檢驗統(tǒng)計量的大小來判斷是否支持所建立的檢驗假設(shè),進而推斷總體上該假設(shè)是否成立。其基本方法包括:u檢驗、t檢驗、方差分析(ANOVA)和非參數(shù)檢驗方法。
假設(shè)檢驗為醫(yī)學(xué)研究提供了一種很好的由樣本推斷總體的方法。例如,隨機抽取某市一定年齡段中100名兒童,將其平均身高(樣本均數(shù))與該年齡段兒童應(yīng)有的標(biāo)準(zhǔn)平均身高(總體均數(shù))做u檢驗,其檢驗結(jié)果可以幫助我們推斷出該市該年齡段兒童身高是否與標(biāo)準(zhǔn)身高一致,為了解該市該年齡段兒童的生長發(fā)育水平提供參考。又如,醫(yī)學(xué)中常常可以采用t檢驗、秩和檢驗比較兩種藥物的療效有無差別;用2檢驗比較不同治療方法的有效率是否相同等等。
這些假設(shè)檢驗的方法在生物實驗資料的分析前期應(yīng)用較多,但由于研究目的和資料性質(zhì)不同,一般會對某些方法進行適當(dāng)調(diào)整和結(jié)合。
例如,基于基因芯片實驗數(shù)據(jù)尋找差異表達基因的問題。基因芯片(genechip)是近年來實驗分子生物學(xué)的技術(shù)突破之一,它允許研究者在一次實驗中獲得成千上萬條基因在設(shè)定實驗條件下的表達數(shù)據(jù)。為了從這海量的數(shù)據(jù)中尋找有意義的信息,在對基因表達數(shù)據(jù)進行分析的過程中,找到那些在若干實驗組中表達水平有明顯差異的基因是比較基礎(chǔ)和前期的方法。這些基因常常被稱為“差異表達基因”,或者“顯著性基因”。如果將不同實驗條件下某條基因表達水平的重復(fù)測量數(shù)據(jù)看作一個樣本,尋找差異表達基因的問題其實就可以采用假設(shè)檢驗方法加以解決。
如果表達數(shù)據(jù)服從正態(tài)分布,可以采用t-檢驗(或者方差分析)比較兩樣本(或多樣本)平均表達水平的差異。
但是,由于表達數(shù)據(jù)很難滿足正態(tài)性假定,目前常用的方法基于非參數(shù)檢驗的思想,并對其進行了改進。該方法分為兩步:首先,選擇一個統(tǒng)計量對基因排秩,用秩代替表達值本身;其次,為排秩統(tǒng)計量選擇一個判別值,在其之上的值判定為差異顯著。常用的排秩統(tǒng)計量有:任一特定基因在重復(fù)序列中表達水平M值的均值;考慮到基因在不同序列上變異程度的統(tǒng)計量,其中,s是M的標(biāo)準(zhǔn)差;以及用經(jīng)驗Bayes方法修正后的t-統(tǒng)計量:,修正值a由M的方差s2的均數(shù)和標(biāo)準(zhǔn)差估計得到。三、一些高級統(tǒng)計方法在基因研究中的應(yīng)用
(一)聚類分析
聚類分析(clusteringanalysis)是按照“物以類聚”的原則,根據(jù)聚類對象的某些性質(zhì)與特征,運用統(tǒng)計分析的方法,將聚類對象比較相似或相近的歸并為同一類。使得各類內(nèi)的差異相對較小,類與類間的差異相對較大1。聚類分析作為一種探索性的統(tǒng)計分析方法,其基本內(nèi)容包括:相似性度量方法、系統(tǒng)聚類法(HierarchicalClustering)、K-means聚類法、SOM方法等。
聚類分析可以幫助我們解決醫(yī)學(xué)中諸如:人的體型分類,某種疾病從發(fā)生、發(fā)展到治愈不同階段的劃分,青少年生長發(fā)育分期的確定等問題。
近年來隨著基因表達譜數(shù)據(jù)的不斷積累,聚類分析已成為發(fā)掘基因信息的有效工具。在基因表達研究中,一項主要的任務(wù)是從基因表達數(shù)據(jù)中識別出基因的共同表達模式,由此將基因分成不同的種類,以便更為深入地了解其生物功能及關(guān)聯(lián)性。這種探索完全未知的數(shù)據(jù)特征的方法就是聚類分析,生物信息學(xué)中又稱為無監(jiān)督的分析(UnsupervisedAnalysis)。常用方法是利用基因表達數(shù)據(jù)對基因(樣本)進行聚類,將具有相同表達模式的基因(樣本)聚為一類,根據(jù)聚類結(jié)果通過已知基因(樣本)的功能去認(rèn)識那些未知功能的基因。對于基因表達數(shù)據(jù)而言,系統(tǒng)聚類法易于使用、應(yīng)用廣泛,其結(jié)果——系統(tǒng)樹圖能提供一個可視化的數(shù)據(jù)結(jié)構(gòu),直觀具體,便于理解。而在幾種相似性的計算方法中,平均聯(lián)接法(AverageLinkageClustering)一般能給出較為合理的聚類結(jié)果2。
(二)判別分析
判別分析(discriminantanalysis)是根據(jù)觀測到的某些指標(biāo)的數(shù)據(jù)對所研究的對象建立判別函數(shù),并進行分類的一種多元統(tǒng)計分析方法。它與聚類分析都是研究分類問題,所不同的是判別分析是在已知分類的前提下,判定觀察對象的歸屬3。其基本方法包括:Fisher線性判別(FLD)、最鄰近分類法(k-NearestNeighborClassifiers)、分類樹算法(ClassificationTreeAlgorithm),人工神經(jīng)網(wǎng)絡(luò)(ANNs)和支持向量機(SVMs)。
判別分析常用于臨床輔助鑒別診斷,計量診斷學(xué)就是以判別分析為主要基礎(chǔ)迅速發(fā)展起來的一門科學(xué)。如臨床醫(yī)生根據(jù)患者的主訴、體征及檢查結(jié)果作出診斷;根據(jù)各種癥狀的嚴(yán)重程度預(yù)測病人的預(yù)后或進行某些治療方法的療效評估;以及流行病學(xué)中某些疾病的早期預(yù)報,環(huán)境污染程度的堅定及環(huán)保措施、勞保措施的效果評估等。
在生物信息學(xué)針對基因的研究工作中,由于借助了精確的生物實驗,研究者通常能得到基因(樣本)的準(zhǔn)確分類,如,基因的功能類、樣本歸結(jié)于疾病(正常)狀態(tài)等等。當(dāng)利用了這些分類信息時,就可以采用判別分析的方法對基因進行分類,生物信息學(xué)中又稱為有監(jiān)督的分析(SupervisedAnalysis)。例如,基因表達數(shù)據(jù)分析中,對于已經(jīng)過濾的基因,前三種方法的應(yīng)用較為簡單。而支持向量機(SVMs)和人工神經(jīng)網(wǎng)絡(luò)(ANNs)是兩種較新,但很有應(yīng)用前景的方法。
(三)相關(guān)分析
相關(guān)分析(correlationanalysis)是醫(yī)學(xué)統(tǒng)計學(xué)中研究兩變量間關(guān)系的重要方法。它借助相關(guān)系數(shù)來衡量兩變量之間的關(guān)系是否存在、關(guān)系的強弱,以及相互影響的方向。其基本內(nèi)容包括:線性相關(guān)系數(shù)、秩相關(guān)系數(shù)、相關(guān)系數(shù)的檢驗、典型相關(guān)分析等。
我們常常可以借助相關(guān)分析判斷研究者所感興趣的兩個醫(yī)學(xué)現(xiàn)象之間是否存在聯(lián)系。例如,采用秩相關(guān)分析我們發(fā)現(xiàn)某種食物中黃曲霉毒素相對含量與肝癌死亡率間存在正相關(guān)關(guān)系;采用線性相關(guān)方法發(fā)現(xiàn)中年女性體重與血壓之間具有非常密切的正相關(guān)關(guān)系等等。
生物信息學(xué)中可以利用相關(guān)分析建立基因調(diào)控網(wǎng)絡(luò)。如果將兩個不同的基因在不同實驗條件下的表達看作是兩個變量,相關(guān)分析所研究的正是兩者之間的調(diào)控關(guān)系。如采用線性相關(guān)系數(shù)進行兩基因關(guān)系的分析時,其大小反應(yīng)了基因調(diào)控關(guān)系的強弱,符號則反應(yīng)了兩基因是協(xié)同關(guān)系(相關(guān)系數(shù)為正),還是抑制關(guān)系(相關(guān)系數(shù)為負(fù))。
四、意義
生物信息學(xué)不僅是醫(yī)學(xué)統(tǒng)計學(xué)的研究前沿,更是醫(yī)學(xué)研究由宏觀向微觀拓展的重要領(lǐng)域,其研究內(nèi)容已逐漸為多數(shù)醫(yī)學(xué)院校的學(xué)員了解和熟悉。而如何對新技術(shù)產(chǎn)生的生物實驗數(shù)據(jù)進行準(zhǔn)確合理的分析,卻成為生物信息學(xué)研究的主要瓶頸之一。
在醫(yī)學(xué)統(tǒng)計學(xué)課堂教學(xué)中引入生物信息學(xué)實例,而不僅僅局限于常見的醫(yī)學(xué)、衛(wèi)生領(lǐng)域的例子,將難以理解的統(tǒng)計理論和方法與前沿的生物實例相結(jié)合,拓寬了學(xué)員的視野,提高了學(xué)員的學(xué)習(xí)興趣,更可以加深對所學(xué)知識的理解;與此同時,使學(xué)員掌握了生物實驗數(shù)據(jù)的先進分析方法,擴大了學(xué)員的知識面,提高了他們今后開展醫(yī)學(xué)科研工作的能力。