本站小編為你精心準備了檢驗醫(yī)學臨床研究分析參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
1統(tǒng)計學上存在的一般問題
1.1分類資料統(tǒng)計中的常見錯誤
對于分類資料的比較,首先需要明確的兩個問題是:(1)目標變量的分類描述之間是否具有等級關(guān)系;(2)統(tǒng)計目的是為了明確構(gòu)成比(率)的差異、目標變量的強度差異、目標變量與分類變量之間的變化趨勢、還是目標變量在組間的一致性問題。對于無等級關(guān)系的分類資料構(gòu)成比(率)的比較,一般采用獨立樣本卡方檢驗分析構(gòu)成比(率)的差異是否具有統(tǒng)計學意義,采用配對卡方檢驗回答兩種分類方法是否具有一致性的問題。需要注意的是,對于總體樣本量小于40或有理論頻數(shù)小于1的方格時,應(yīng)采用Fisher確切概率法分析構(gòu)成比(率)的差異[1]。對于目標變量為有序等級資料的研究,一般應(yīng)采用Ridit分析比較多組數(shù)據(jù)之間目標變量的等級的強弱[2];對于雙向有序等級資料的分析,則通常采用趨勢性檢驗分析分組因素與目標變量之間是否存在相同的變化趨勢。國內(nèi)的部分檢驗專業(yè)論文,忽視試驗設(shè)計的特點,忽視目標變量與分類變量之間是否存在等級關(guān)系,忽視專業(yè)需求,將卡方檢驗視為萬能檢驗對分類資料進行分析處理,造成了統(tǒng)計學結(jié)論和專業(yè)結(jié)論的脫節(jié),極大地削弱了研究結(jié)論的可靠性。
1.2未給出可信區(qū)間
任何統(tǒng)計學結(jié)論必然最終要回歸專業(yè)結(jié)論。在某些情況下,有統(tǒng)計學意義不一定有專業(yè)意義,反之亦然。統(tǒng)計學處理結(jié)果的P值,只能反映這一結(jié)論犯Ⅰ類誤差的概率,并不能體現(xiàn)實驗因素引起效應(yīng)量的變化幅度。因此,如果僅僅在研究論文中報道P值,可能會誤導讀者,夸大研究的價值。比如,某研究發(fā)現(xiàn)了冠心病患者(n=118)血漿載脂蛋白M的濃度為(1.3757±0.1493)ODu/mm2,而健康對照人群(n=255)只有(1.3502±0.1288)ODu/mm2,二者的差異具有統(tǒng)計學意義(P<0.05)[3-4]。但眾所周知,載脂蛋白M的檢測誤差和生物學變異都遠大于0.02ODu/mm2,如此微小的差異雖然有統(tǒng)計學差異,但是并無多大臨床價值。如果能列出兩組患者載脂蛋白M差異的95%CI,則讀者便可以一目了然地判斷研究實驗因素效應(yīng)的大小,并根據(jù)專業(yè)判斷該研究是否具有臨床價值。
2診斷性試驗常見的設(shè)計缺陷和統(tǒng)計學錯誤
對目標疾病進行快速且準確的診斷,是制定個體化治療方案的前提。因為具有客觀、微創(chuàng)的優(yōu)勢,實驗室檢查在疾病的診療中占據(jù)著十分重要的地位。開展診斷性試驗,評價實驗室檢查手段對目標疾病的診斷能力,是實驗室醫(yī)學家的重要使命之一。國內(nèi)檢驗專業(yè)雜志上刊登的論文中,有很大一部分屬于診斷性試驗論文,這些論文都或多或少存在設(shè)計缺陷和統(tǒng)計學錯誤。筆者僅列出以下幾點常見設(shè)計和統(tǒng)計學錯誤。
2.1以健康個體作為對照組
國內(nèi)開展的部分診斷性試驗研究,以健康個體作為對照人群,這其實是一種很不科學的行為。健康個體和疾病患者在癥狀和體征上已經(jīng)有了很大的區(qū)別,通常無需借助實驗室標志物就能進行鑒別診斷。因此采用健康個體作為對照并不足以體現(xiàn)實驗室標志物的鑒別診斷效率[5]。正確的對照組應(yīng)該是在癥狀和體征上與疾病組高度相似,在臨床工作中極易于目標疾病混淆的一類人群。比如,欲評價甲胎蛋白對肝癌的診斷能力,對照組就應(yīng)該設(shè)立為肝硬化、肝囊腫、肝炎等一類與肝癌難以鑒別診斷的疾病。此外,診斷性試驗研究要求研究對象具有較好的臨床代表性[5]。因此,最好采用連續(xù)招募的方式確定研究對象,以確保診斷性試驗的疾病組與對照組的病例分布情況與臨床工作一致。而國內(nèi)的很多診斷性試驗研究,未就研究的數(shù)據(jù)采集方式(前瞻還是回顧)、病例招募方式、納入和排除標準等進行詳細的說明,使得讀者無法判斷研究結(jié)論的可靠性和的臨床適用范圍。
2.2采用參考范圍上線作為實驗室標志物的診斷界值
對于定量分析的實驗室標志物,其診斷閾值的確定應(yīng)該是充分考慮該標志物在疾病人群以及與疾病人群相似的人群中的分布狀況,充分權(quán)衡漏診和誤診所帶來危害。國內(nèi)開展的部分診斷性試驗,忽視上述原則,錯誤地以參考范圍上限作為診斷界值。眾所周知,參考范圍上限只是反映實驗室標志物在健康個體中的分布狀況,并未充分考慮其在疾病患者以及疑似疾病患者中的分布狀況,因此不宜作為診斷界值[6]。對于定性的診斷標志物,可以直接繪制四格表而計算出診斷敏感性、特異性、陰/陽性似然比、陰/陽性預測值等指標。對于連續(xù)變量,通常需要采用受試者工作特征曲線(ROC)分析法確定其總體診斷效率。受試者工作特征曲線分將不同診斷界點所對應(yīng)的敏感性和特異性匯總與同一條曲線上,通過曲線下面積反映目標試驗的總體診斷性能[7]。研究人員可以根據(jù)專業(yè)需要從曲線上選擇不同的界點作為推薦的診斷界點。
3病例對照研究中的常見設(shè)計缺陷和統(tǒng)計學錯誤
開展病例對照研究,旨在分析某種特征與疾病發(fā)生的關(guān)系,探索疾病發(fā)生與發(fā)展的原因,為開展隊列研究和開發(fā)新的治療手段提供思路[8]。國內(nèi)檢驗專業(yè)雜志刊登的論文中,有很大一部分屬于病例對照研究,然而,這些研究大多不同程度地存在設(shè)計缺陷和統(tǒng)計學錯誤,主要表現(xiàn)在:
3.1未采用多參數(shù)的分析方法同時分析患者特征與疾病的關(guān)聯(lián)
病例對照研究從本質(zhì)上講屬于觀察性研究,疾病組與健康對照組的差異可能會同時與多種患者特征有關(guān)。因此,如果需要確定待研究的指標與疾病的關(guān)聯(lián),則需要充分考慮潛在的“混雜因素”的干擾。對于“混雜因素”的排除,一是可以設(shè)定嚴格限制納入/排除標準或者采用配對的方式進行研究,但這種方法往往增大了研究難度,因此并不常用。目前多采用第二種方法,即將“混雜因素”因素作為一個協(xié)變量進行分析,以明確在校正了“混雜因素”的前提下,待研究的患者特征與疾病之間是否還存在關(guān)聯(lián)。因此,在開展病例對照研究時,應(yīng)盡可能地詳細列舉疾病潛在的關(guān)聯(lián)因素,以便在進行在統(tǒng)計學分析時能確定各種因素與疾病的關(guān)聯(lián)關(guān)系的強弱。國內(nèi)檢驗專業(yè)雜志上刊登的部分病例對照研究,對受試對象特征的描述十分簡單,有的甚至僅僅提供了性別和年齡等最基本的特征,不僅讓讀者無從判斷研究結(jié)論的適用范圍,同時也因為未能排除“混雜因素”的干擾,造成研究結(jié)論不可靠。正確的處理方式應(yīng)該是將所有潛在的“混雜因素”作為因變量,采用多參數(shù)的數(shù)學模型(比如Logistic回歸模型),分析在多因素校正的情況下,各個關(guān)聯(lián)因素與疾病的獨立關(guān)聯(lián)關(guān)系[9]。
3.2結(jié)果的解釋與結(jié)論脫節(jié)
病例對照研究又稱“橫斷面”研究,因為其研究的兩個因素:患者“特征”(比如膽固醇增高)與“結(jié)局”(發(fā)生冠心病)是同時發(fā)生的,因此在時序上無法明確因果關(guān)系問題。特征的改變與結(jié)局的發(fā)生之間可能存在三種關(guān)聯(lián)關(guān)系:(1)某種特征的改變引發(fā)了結(jié)局(疾病);(2)結(jié)局(疾病)引起了某種特征的改變;(3)是第3個(組)因素同時引起了結(jié)局的發(fā)生與某種特征的改變,即疾病的發(fā)生與特征的改變之間并無直接的因果關(guān)系。國內(nèi)的部分病例對照研究,受傳統(tǒng)觀念的影響,忽視研究的“時序性”問題,將“特征的改變”與“疾病”之間的關(guān)聯(lián)解釋為某種特征的改變是引起疾病的原因之一,實為不科學和嚴謹?shù)谋憩F(xiàn)。
4隊列研究中常見的設(shè)計缺陷和統(tǒng)計學錯誤
與病例對照研究不同,隊列研究(又稱前瞻性研究)是先確定研究人群(隊列),然后對研究人群進行隨訪,記錄結(jié)局,即研究的觀察終點(通常為疾病的發(fā)生或者患者死亡)。然后分析患者進入隊列時候的特征(即基線特征)與觀察終點的關(guān)系[8]。隊列研究可以在時序上明確“特征的改變”與“結(jié)局”的關(guān)系,因此較病例對照研究具有更高的論證強度。有部分國內(nèi)檢驗專業(yè)雜志上刊登的論文屬于隊列研究(多以疾病預后研究為主)。但是這些研究都不同程度地存在設(shè)計缺陷,主要表現(xiàn)在:
4.1隊列的基線特征、隨訪方式以及失訪人群的介紹不清晰
隊列研究的重點在于隨訪,隨訪時間的長短、隨訪頻率的高低以及失訪率的大小直接決定了研究的質(zhì)量。因此在進行研究的過程中,有必要濃墨重彩地介紹隨訪的方式、頻率、失訪率以及隨訪時間的長短,以便讀者以及循證醫(yī)學研究者對研究的質(zhì)量進行評價。高質(zhì)量的隊列研究具在系統(tǒng)綜述(systemre-view)中占有更高的權(quán)重,是重要的循證醫(yī)學證據(jù),因此也更容易在疾病指南的制定過程中占有一席之地。國內(nèi)檢驗專業(yè)同行開展的部分隊列研究,在材料與方法中并未詳細交代隨訪的方式與頻率,也未交代失訪率以及釋放數(shù)據(jù)的處理方式。有的研究為了降低失訪率甚至從隊列中刪除了失訪病人數(shù)據(jù),是一種極不嚴謹?shù)目蒲行袨椤?/p>
4.2沒有采用多參數(shù)的數(shù)學模型分析各個基線特征與研究對象結(jié)局的關(guān)系
與病例對照研究一樣,隊列研究也不可避免地受到一些“混雜因素”的干擾。因此,在納入研究對象時候,應(yīng)盡可能地明確患者的“基線特征”,以便再進行統(tǒng)計學分析時能夠考慮更多的變量。對于隊列研究數(shù)據(jù)的分析,需要考慮到時間對結(jié)局的影響,因此一般以Kaplan-Meier生存曲線反映基線特征與受試對象結(jié)局的關(guān)系,以Logrank檢驗分析某以特征與結(jié)局發(fā)生的關(guān)系,最后以多參數(shù)的Cox風險比例模型分析基線特征與觀察終點的獨立關(guān)系[10]。國內(nèi)檢驗專業(yè)雜志上刊登的部分隊列研究論文,對于隊列的基線特征介紹不夠詳細,讓讀者無法判斷可能存在的混雜因素。在描述觀察終點的發(fā)生狀況時,僅僅簡單地以“一年生存率”、“一年發(fā)生率”等文字進行簡單的描述,而未采用Kaplan-Meier生存曲線來展示結(jié)果,更沒有以多參數(shù)的Cox風險比例模型校正潛在的混雜因素,導致研究結(jié)果可靠性大打折扣。
5方法學對比研究中常見的設(shè)計缺陷和統(tǒng)計學錯誤
受經(jīng)濟、地域、觀念等因素的限制,對于同一個檢驗項目,往往會有不同的檢測方法。因此,有必要開展檢驗方法學之間的對比實驗,評價針對同一檢驗項目多種檢測方法的可比性,為這些檢驗方法的臨床解釋提供參考,為不同醫(yī)療單位檢驗結(jié)果的“共享”提供依據(jù),最終達到節(jié)約醫(yī)療資源的目的。目前在國內(nèi)檢驗專業(yè)雜志上刊登的論文中,有一部分內(nèi)容屬于檢驗方法學比對的研究。我們以定量資料的方法學比對為例,淺析國內(nèi)檢驗方法學對比研究存在的設(shè)計缺陷和統(tǒng)計學錯誤,探討正確的統(tǒng)計學處理方法。
5.1對兩種準確性均欠佳的方法進行比對
一種新的檢驗方法之所以能應(yīng)用于臨床實踐,檢測結(jié)果的準確性(與真實值的差異)是基礎(chǔ)。換而言之,這種新的檢測方法應(yīng)該具有“溯源性”。如果待評價的兩種方法本身“無源可溯”,那么即使兩種方法有良好的相關(guān)性和一致性,也不能說明兩種方法具有臨床應(yīng)用價值。比如,有A~E五個濃度不等樣本,但已知其中某種物質(zhì)的真實的濃度分別為2、3、1、5、4(單位略),分別用甲乙兩方法進行對該物質(zhì)的濃度進行檢測,兩種方法的檢測結(jié)果均為1、2、3、4、5(單位略),雖然兩種方法具有較好的一致性,但是這種一致性并無多大臨床價值,因為兩種檢測方法的檢測結(jié)果均準確性欠佳。
5.2以t檢驗進行比對
有部分檢驗方法學對比研究,以獨立樣本t檢驗或者配對樣本t檢驗比較兩種方法的檢測結(jié)果,試圖以“兩種檢測方法的結(jié)果均數(shù)之間無差異”這一統(tǒng)計學結(jié)論來說明兩種方法具有良好的一致性。這種統(tǒng)計學處理方式是完全錯誤的。t檢驗回答的是兩種檢測方法所得出的檢驗結(jié)果均數(shù)之間無差異,并未回答兩種檢測方法的一致性問題。比如,有A~E5個濃度不等樣本,分別與甲乙兩法進行檢測,甲法的檢測結(jié)果為1、2、3、4、5(單位略),而乙法的檢測結(jié)果為5、2、3、1、4。若采用t檢驗對數(shù)據(jù)進行分析,雖然兩組檢測結(jié)果均數(shù)之間無差異(P=1.00),但兩種方法并無一致性可言。
5.3只評價了兩種方法的相關(guān)性,而未評價一致性
有部分檢驗方法學對比研究,采用Pearson法對兩種檢驗方法進行比對,試圖通過相關(guān)系數(shù)來反映兩種方法的可比性。這種統(tǒng)計學處理方式也是不嚴謹?shù)模驗橄嚓P(guān)性分析回答的是“相關(guān)性”問題,而非“一致性”問題。當存在系統(tǒng)誤差時,兩種檢測方法完全可以具有良好的相關(guān)性,而無一致性。比如,有A~E五個濃度不等樣本,分別與甲乙兩法進行檢測,甲法的檢測結(jié)果為1、2、3、4、5(單位略),而乙法的檢測結(jié)果為1.5、2.5、3.5、4.5、5.5。若采用Pearson法對數(shù)據(jù)進行分析,兩組檢測具有良好的相關(guān)性(r2=1,P<0.01)。但是乙法的檢測結(jié)果較甲法高出了0.5個單位,因此,兩種方法也并無一致性可言。
5.4推薦的統(tǒng)計學方法
對于檢驗方法比對實驗,應(yīng)該分別從統(tǒng)計學上和專業(yè)解釋上證實兩種方法是否具有可比性。正確的統(tǒng)計學方法為:首先以配對t檢驗分析兩種方法檢驗結(jié)果之間的差異是否具有統(tǒng)計學意義和專業(yè)意義。同時,進一步采用Bland-Altman法繪制Bland-Altman圖,計算兩種檢測方法的一致性限度,并且分析兩種方法的一致性限度是否符合專業(yè)要求[11]。若兩種方法的一致性限度符合行業(yè)標準(比如CLIA′88)或者一些行業(yè)共識。若兩種方法的一致性限度已經(jīng)符合了專業(yè)要求,則進一步采用Pearson法或者Spearman法分析兩種方法的相關(guān)性,并對相關(guān)方程的截距和斜率進行假設(shè)檢驗,分析截距與0之間的差異,斜率與1之間的差異是否具有統(tǒng)計學意義。這樣就可以從統(tǒng)計學上和專業(yè)上同時回答“兩種檢驗方法是否具有可比性”的問題。
6結(jié)語
嚴謹?shù)目蒲性O(shè)計與科學的統(tǒng)計學處理是開展高質(zhì)量檢驗醫(yī)學臨床研究的基礎(chǔ)。只有注重試驗設(shè)計的每一個細節(jié),根據(jù)分析目的正確地運用統(tǒng)計學方法對數(shù)據(jù)進行分析,并合理解釋統(tǒng)計學結(jié)論,研究結(jié)果才具有較高的論證強度,才會引起同行特別是循證醫(yī)學工作者的注意,并最終實現(xiàn)科學研究成果向臨床應(yīng)用的轉(zhuǎn)化。
作者:胡志德胡成進鄧安梅單位:濟南軍區(qū)總醫(yī)院實驗診斷科第二軍醫(yī)大學長海醫(yī)院實驗診斷科