本站小編為你精心準備了教育統計強相關系數運用參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
一、前言
我們知道,對于存在線形關系的變量X和變量Y,它們之間的相關關系需要用線形回歸模型來研究。因為對于隨機變量X、Y來說,如果X、Y存在線性關系Y=aX+b(a≠0),那么當X取遍其取值范圍內的一切值時,X、Y所對應的點就是一些隨機點(X,Y),而這些隨機點落在平面XOY上的圖形應當是一個散點區域D,這些隨機點(X,Y)會以一定的概率落在直線Y=aX+b上。當這些散點的分布趨勢與直線Y=aX+b的形狀相像時,則表明變量X、Y之間存在線性關系Y=aX+b(a≠0)。由于受到回歸的影響,如果樣本中存在極端值或有異常值出現,就會降低這些隨機點(X,Y)落在這條直線Y=aX+b(a≠0)上的概率,那么隨機變量X,Y的相關系數r就會受到影響。而強相關系數可以解決這一問題。下面借助一個實例來介紹和分析強相關系數在教育統計中應用的可行性。區別于相關系數r,強相關系數r*的表達式為:r*=M++M-M+-M-[2]。它是利用中位數而非平均數和標準差來計算兩個變量X,Y的相關系數,這是因為,相較之樣本數據的平均數和標準差來說,樣本數據的中位數更不受極端值和異常值的影響。式中M+、M-分別為向量u1、u2的強性方差。u1=~X+~Y、u2=~X-~Y分別為和與差向量,其計算公式如下:~X=X-XX*X,~Y=Y=YX*Y式中的~X、~Y是位置強度估計值,S*X、S*Y是標度強性估計值。
二、統計分析
在這里我們利用中英西南教育項目中的數據做為例子來分析。在這個例子中,研究者針對每組研究的被試人數的總樣本大小進行了抽樣研究,即包含被試人數越多的組別其抽樣樣本的人數越多。因此,如果將每組抽樣樣本的人數(F)和該組實際樣本的總人數(Total)作為研究的兩個變量,那么變量F和變量Total之間應該呈明顯的線性正相關關系。利用Pearson雙尾檢驗,我們可以得到這500組數據(部分數據見表1)的相關系數r=0.984**(**p<0.01)。表1抽樣人數F和實際人數Total的部分數據組1組2…組250組251…組499組500抽樣樣本人數F1.02.0…4646…170171總樣本人數Total5.05.0…9598…394353現在我們在這500組數據的基礎上插入一個異常值(172,0),變量F和變量Total之間的積矩相關系數r就由原先的0.986降低到0.970;如果在這500組數據中插入十個同樣的異常點(172,0)則積矩相關系數r就變成了0.860。從而大大降低了積矩相關系數的有效性。因此,對于樣本較大且包含較多異常值的數據,為了避免剔除數據的麻煩并且保證相關系數的可靠性,我們可以采用強相關系數來進行統計分析。要計算插入一個異常點之后得到501組數據的強相關系數,就要先算出F和Total的中位數和絕對離差中位數(MAD)。通過spss16.0將數據排序,我們得到第251個數據即是F變量的中位數,大小為46。再通過計算我們得到:SF*=MAD(F)=33。同理我們可以得到Total的中位數是96,ST*=MAD(Total)=70。利用公式可以分別求出F和Total兩組數據的位置強性估計值(見表2)。
三、結論
(1)和李軍等的研究不同,本研究在計算強性相關系數時,樣本包含的數據個數為奇數,結果發現,利用強性相關系數對數據個數為奇數的樣本進行相關分析是同樣可行的。
(2)除此之外,該樣本的數量較大,當極端數據較少時,極端數據對積矩相關系數的影響并不大。當我們加入一個極端數據(172,0)之后,樣本的積矩相關系數從原先的0.984降低到0.970。而當我們在這500組數據中插入十個同樣的異常點(172,0)之后,樣本的相關系數r由開始的0.984變成了0.860。
(3)顯然,經典統計中的相關系數較易受極端值的影響,不足以對含有極端值或異常值的樣本進行合理的解釋說明。而強相關系數r*跟未插入極端值的樣本的相關系數更為接近,足以證明利用強相關系數分析樣本的相關關系這一統計方法在含有極端值樣本中的可行性。所以,對于含有大量異常值的數據樣本來說,強性相關系數比經典統計中的積矩相關系數更能說明兩個變量之間的線性相關關系。