本站小編為你精心準備了穩(wěn)健統(tǒng)計對經(jīng)濟的作用參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
作者:李伯東李一微單位:浙江申嘉湖杭高速公路有限公司浙江省交通工程建設(shè)集團
一、以人均收入水平指標為例對統(tǒng)計穩(wěn)健性的思考
在現(xiàn)實生活中,公眾很有可能對官方公布的人均可支配收入或人均工資之類的指標數(shù)據(jù)不以為然,認為這些指標具有偏高的傾向。拋開統(tǒng)計誤差和統(tǒng)計口徑的影響,對人均指標產(chǎn)生歧義的主要原因在于收入分配是一種偏態(tài)的分布,隨著影響貧富差異的因素增多,偏態(tài)呈日益嚴重的態(tài)勢。同時收入分布中存在著異常極端的離群值,也會導致收入平均值的不正常上升。
平均數(shù),特別是算術(shù)平均數(shù)是我們在各種媒體上經(jīng)??吹胶吐牭降慕?jīng)濟條件指標,對其觀察值的代表性研究一般是用以方差為主的若干類指標。然而均值和方差應用的條件則往往被人們所忽視,典型的表現(xiàn)就是不考慮觀察值本身具有何種分布形態(tài)分布的偏斜程度以及觀察值中是否存在一定量的離群值。
就數(shù)據(jù)的純度量特征而言,若收入數(shù)據(jù)中存在著百萬甚至億萬收入的富翁時,會極大地拉動人均收入的上升。這表明用算術(shù)平均方法計算的人均收入指標受到離群值的較大干擾,這種影響有時甚至會抵銷掉其他絕大多數(shù)數(shù)據(jù)對均值的影響。在這種情況下,算術(shù)平均值并不是一個好的統(tǒng)計指標。相反,對于人均收入之類位置特征值而言,若以中位收入代替算術(shù)人均收入,則會對極值的干擾有較大的抗御性。就收入分布而言,中位收入較之算術(shù)平均收入是一個具有抗離群值干擾能力的穩(wěn)健統(tǒng)計量。
人均收入水平的統(tǒng)計指標,除了可以用可支配總收入除以平均人數(shù)的方法得到以外,更多的情況下,是通過官方統(tǒng)計系統(tǒng)城調(diào)隊的1000戶問卷調(diào)查產(chǎn)生的,并據(jù)此來推斷總體的人均指標。相應的統(tǒng)計量和檢驗值的解釋都是建立在正態(tài)分布的假定之下的。因此人們往往認為只要正態(tài)分布的假定得到滿足或基本滿足就可以大膽使用人均收入指標,而不必再擔心它的穩(wěn)健性,因而可使用很多方法來檢驗收入分布是否為正態(tài)。
若沒有關(guān)于總體分布精確的先驗信息時,則只要樣本容量n足夠大,就可以認為樣本分布是總體分布的自然逼近,但是當n很小時,是無法判斷分布的正態(tài)性的。對于收入分布這樣一種人的經(jīng)濟標志的分布而言,1000個樣本單位并不能從實際上表明它具有一個足夠大的樣本容量。相反,對于人類身體、體重之類的自然特征指標,一般均可以直接假定它的分布正態(tài)性。這也表明人的經(jīng)濟特性分布較之人的自然特征分布更加復雜,而收入分布就是其中的一個典型。收入分布中存在的一定數(shù)量的離群值,雖然占數(shù)據(jù)個數(shù)總量的比例并不高,但是對算術(shù)人均收入的影響非常大,如通常所說的20%的高收入人群擁有80%的收入總量。人們試圖通過正態(tài)分布擬合檢驗的辦法來考察離群值對正態(tài)性的影響,問題在于有些正態(tài)性的檢驗結(jié)果對少量離群值對正態(tài)性造成的偏差,無法得到恰當?shù)慕Y(jié)論(例如利福斯正態(tài)性檢驗方法)。因而收入數(shù)據(jù)中的離群值對于基于正態(tài)假定下才有用的統(tǒng)計量會產(chǎn)生破壞性的影響。
收入分布的復雜性及很難確認的狀況,使得傳統(tǒng)的人均收入指標局限性凸現(xiàn),用它來描述和推斷收入水平,以及制定相應收入政策、就業(yè)政策和稅收政策就顯得不是很全面,有時甚至會得出錯誤的結(jié)論。因此尋求穩(wěn)健統(tǒng)計方法和計算穩(wěn)健統(tǒng)計量,對于收入分布來講是非常重要的。
穩(wěn)健統(tǒng)計量是相對于傳統(tǒng)統(tǒng)計量而言的,兩者是在比較中發(fā)展起來的。傳統(tǒng)統(tǒng)計量往往側(cè)重的是統(tǒng)計量的一系列計算程序。而穩(wěn)健統(tǒng)計則將對統(tǒng)計量代表性的討論,放在對數(shù)據(jù)分析特征的認識基礎(chǔ)之上。穩(wěn)健統(tǒng)計量首先強調(diào)對分布特征的探索,然后才是統(tǒng)計量的計算過程問題。就人均收入指標而言,若不明了收入分布的特征,則人均收入指標的解釋力就會大大降低甚至起到負作用。
二、穩(wěn)健統(tǒng)計的基本思想
在高斯發(fā)現(xiàn)/正態(tài)分布0以及最小二乘法提出之時,就有了/統(tǒng)計穩(wěn)健性0的思想萌芽。正態(tài)分布下的各種統(tǒng)計量,包括均值、眾數(shù)等均有較好的估計量特征,尤其是在對稱分布下這些特征表現(xiàn)得更加充分,即使在稍有偏態(tài)的對稱分布中,這些統(tǒng)計量也具有一定的抗御離群值的能力。應用得非常廣泛的最小二乘估計量在和正態(tài)分布的前提結(jié)合的時候,也具有很多眾所周知的優(yōu)良性質(zhì)。
正態(tài)分布假定下各種參數(shù)估計和假設(shè)檢驗的方法,諸如以樣本均值估計總體期望值,以樣本方差估計總體方差,檢驗統(tǒng)計量在原假設(shè)成立時服從正態(tài)分布的檢驗規(guī)則建立等等,都是優(yōu)良的估計量和估計方法,無偏性、有效性和一致性等高效率性無論怎樣論證都會得到理想的結(jié)論。正態(tài)分布下各種統(tǒng)計方法得以快速發(fā)展。
但是從對經(jīng)濟、社會、管理以及自然科學中各種現(xiàn)象的實際問題和數(shù)據(jù)分析中發(fā)現(xiàn),正態(tài)分布的基本假定有時不能滿足,或者即使是一個正態(tài)分布,但是否是理想化的正態(tài)分布也是值得懷疑的,人們往往發(fā)現(xiàn)很多數(shù)據(jù)分布是非正態(tài)和非對稱的。有些統(tǒng)計專家甚至建議,正態(tài)分布可能不會代表大多數(shù)的分布形態(tài),最好以其發(fā)明者的姓氏命名為高斯分布,與其他分布在名稱上同等待遇。對很多數(shù)據(jù)分布形態(tài)的研究也發(fā)現(xiàn),正態(tài)分布是一種理論上的分布,實際上數(shù)據(jù)至多是近似的正態(tài)分布,具體表現(xiàn)為適度偏斜的正態(tài)分布,而這種偏斜的程度可能會對估計量的穩(wěn)健性產(chǎn)生致命的影響。如果某種統(tǒng)計方法對偏高正態(tài)假定的分布十分敏感,則就不是穩(wěn)健的統(tǒng)計方法。
對穩(wěn)健統(tǒng)計問題較早進行理論探討的是t分布的發(fā)明者戈賽特等人。研究發(fā)現(xiàn),若正態(tài)分布假定在實踐中不能被滿足,那么在正態(tài)分布基礎(chǔ)上建立起來的估計和推斷方法的價值就值得懷疑并能導致錯誤結(jié)論的發(fā)生。如果放寬對總體分布的正態(tài)性假定,則可用中位數(shù)等統(tǒng)計量來對總體的分布進行描述或者推斷。這也使得不規(guī)定總體分布函數(shù)確切形式的非參數(shù)方法有了一定的應用空間。對非參數(shù)方法的應用招致批評,主要是基于當總體近似正態(tài)分布時,非參數(shù)方法沒有有效利用有關(guān)分布的先驗信息,因而方法的效率不高。但是當總體分布為近似正態(tài)時,常規(guī)的正態(tài)方法仍然有可能導致估計量不能達到最優(yōu),甚至不會達到近似最優(yōu)。
在加拿大官方統(tǒng)計中,有三項商務方面的調(diào)查運用統(tǒng)計穩(wěn)健的方法整理有關(guān)經(jīng)濟指標的多元數(shù)據(jù),以發(fā)現(xiàn)和處理離群值數(shù)據(jù)。這三項調(diào)查分別是制造業(yè)月度調(diào)查(MSM)、批發(fā)和零售貿(mào)易五年度調(diào)查(P13)、工作場所和職業(yè)工作調(diào)查(WES)。多元統(tǒng)計分析中穩(wěn)健統(tǒng)計方法的應用,主要是位置向量和協(xié)方差矩陣的穩(wěn)健估計。對于具有離群值數(shù)據(jù)的統(tǒng)計資料,使用穩(wěn)健統(tǒng)計方法估計相應的位置參數(shù)向量和離散參數(shù)矩陣,以緩輕和限制多元變量下離群值的不利影響。
緩解現(xiàn)有估計量的缺陷和改善傳統(tǒng)估計方法的目的在于,使統(tǒng)計量具有更強的抗御離群值干擾的能力。
通過采用模擬研究方法能夠達到改進估計量穩(wěn)定性的目的。一個包含有4100個單位、涉及到四種社會類型的總體,被用來產(chǎn)生模擬的制造業(yè)月度調(diào)查的隨機樣本。被研究總體源于兩個不同的數(shù)據(jù)分布形式,第一個分布是含有兩個變量(產(chǎn)出量和原材料消耗量)的多無正態(tài)分布;第二個分布是一個被污染的分布產(chǎn)生這個分布中具有和第一個分布相同的算術(shù)平均數(shù),但是變異指標方差是第一個分布的九倍(由Hulliget提出的一種污染分布的類型)。從這個含兩種不同分布組成的總體中模擬產(chǎn)生了10000個樣本容量為100的隨機樣本,并應用加權(quán)的方法和以前采用傳統(tǒng)方法識別離群值的結(jié)果進行全面比較。
作為實際應用的理論準備,在穩(wěn)健統(tǒng)計方法形成的開發(fā)和研究中,除了切尾均值、中位數(shù)等較好的穩(wěn)健統(tǒng)計估計量以外,還相繼提出了一類位置參數(shù)的穩(wěn)健估計量方法(例如位置M估計量),在多參數(shù)回歸模型的估計方面也拓展了穩(wěn)健性回歸方法,在離散特征的估計方法中提出了穩(wěn)健的離散特征值估計量等等。除了穩(wěn)健估計量之外,穩(wěn)健平滑線、穩(wěn)健擬合線的思想和統(tǒng)計方法也受到統(tǒng)計專家的重視。除了穩(wěn)健統(tǒng)計量主要受極端離群大值和極端離群小值的影響之外,數(shù)據(jù)分布的中間段部分或其中的任意部分存在跳躍性較大的局部離群值,都會對平均平滑線和方程擬和線產(chǎn)生影響。例如當遇上離群值數(shù)據(jù)時,傳統(tǒng)的一般平滑技術(shù)實際上得到的是/非平滑0效果,因此也開發(fā)出一些穩(wěn)健平滑和穩(wěn)健擬合的技術(shù)。良好的統(tǒng)計穩(wěn)健性應能允許模型的假設(shè)和實際情況有一定的偏差,對數(shù)據(jù)中的離群值有較高的抗干擾性,以及當總體是由多種類型分布組合成復合分布時,都有較好的性能。
三、穩(wěn)健統(tǒng)計的幾點啟示
1.重視統(tǒng)計量的系統(tǒng)化公布和有效解釋。官方統(tǒng)計應該更加重視統(tǒng)計量的系統(tǒng)化分布,同時對相應數(shù)據(jù)分布特征的信息描述應予以有效的解釋。例如收入分布的位置特征值可以考慮給出算術(shù)平均收入、中位收入等多種信息,同時輔以勞倫茨曲線、基尼系數(shù)、分段均值等統(tǒng)計量,詳細闡述收入的分布特征。在可能的條件下,對收入全部觀察值中劃定一定的比例,作為離群值予以專門的處理和分析。人均收入指標的統(tǒng)計穩(wěn)健性應將著眼點主要放在數(shù)據(jù)的主體部分。
2.加強對統(tǒng)計指標中各種統(tǒng)計量的比較研究。近年來國際統(tǒng)計學界提出了比較統(tǒng)計學的概念,它不僅是對各種統(tǒng)計思想和統(tǒng)計流派及統(tǒng)計制度進行比較,還著重對各種數(shù)據(jù)體系、統(tǒng)計分布、統(tǒng)計估計方法和統(tǒng)計量進行比較。其中較有實用價值和直觀效果的比較研究,當屬對傳統(tǒng)統(tǒng)計量和穩(wěn)健性統(tǒng)計量異同的比較。在收入分布的研究中,可以先按全部觀察值給出統(tǒng)計量,然后刪除離群值后給出切尾統(tǒng)計量。據(jù)此我們可以分析統(tǒng)計量在多大的程度上分別反映了數(shù)據(jù)的主體部分和個別極端部分,以及兩部分數(shù)據(jù)的相互關(guān)系,同時可以觀察分析的偏態(tài)。對統(tǒng)計量比較分析的意義還在于能使統(tǒng)計指標的使用者和分析者都能更好地理解數(shù)據(jù)的分布特征,以及為什么要使用穩(wěn)健的統(tǒng)計量。
3.對經(jīng)濟指標的統(tǒng)計穩(wěn)健性和統(tǒng)計敏感性的權(quán)衡。統(tǒng)計的穩(wěn)健性實際上是要求統(tǒng)計量對離群值之類的數(shù)據(jù)具有不強的敏感性,因此它采取剔除離群值的方法,來達到統(tǒng)計穩(wěn)健性的目的,或者是以離群值的位置,而不是以其具體數(shù)據(jù)來達到此目的。但是統(tǒng)計穩(wěn)健的獲得較之傳統(tǒng)的經(jīng)典統(tǒng)計量而言,要忍受觀察值的一定信息量的損失,這也使得穩(wěn)健統(tǒng)計量帶來了一些缺憾。實際上這關(guān)系到對統(tǒng)計量穩(wěn)健性和敏感性之間的權(quán)衡,因為統(tǒng)計量除了要謀求穩(wěn)健之外,對一定程度敏感性的謀求也應是統(tǒng)計量優(yōu)良性的標準之一。例如數(shù)據(jù)中的離群值出現(xiàn),可以反映經(jīng)濟指標中的一些動向和新的經(jīng)濟亮點,可能昭示著某種趨勢的到來。若統(tǒng)計量對此全然不顧,不能敏感地反映這種變化,則會使統(tǒng)計量走向另一個極端。觀察值位置上分布的不均勻,使得中位數(shù)之類的穩(wěn)健統(tǒng)計量也發(fā)生了波動,為了謀求進一步的改進,產(chǎn)生了復合統(tǒng)計量的方法。例如可由對第一、第二和第三分位數(shù)簡單平均后得出穩(wěn)健統(tǒng)計量,其特征在于穩(wěn)健統(tǒng)計量不是一步求出來的,而是在不斷改善和逼近的多次迭代過程中產(chǎn)生的。因此不僅增強了統(tǒng)計量的穩(wěn)健性,也使統(tǒng)計量對觀察值的抽象性加強。
4.重視對離群值數(shù)據(jù)確認和處理技術(shù)的開發(fā)與應用。從某種意義上講,統(tǒng)計量的穩(wěn)健性在很大程度上表現(xiàn)為離群值干擾性的嚴重存在,所以對經(jīng)濟指標數(shù)據(jù)中離群值的分析應用就顯得十分必要。離群值是那些離主體數(shù)據(jù)部分的極端大(或小)的數(shù)值,從其產(chǎn)生的來源和過程來看,會有因測量條件(測量環(huán)境和計量單位)、登錄錯誤、定義概念不一等各種導致測量誤差的原因,也有其他總體的分布數(shù)據(jù)混入以及反映了真實情況的離群值異常情況。同時某個數(shù)據(jù)是否屬于離群值,一般是用殘差的大小來判斷的,若殘差值較大,則可以被視為離群值,并可以進一步分析其產(chǎn)生的原因和可能的解決方法。需要注意的是,殘差的衡量最好應以穩(wěn)健的統(tǒng)計量作為標準,同時殘差的大小與計算單位有關(guān),變換計算單位或改變殘差大小的標準,會使得分布的對稱性受到影響。因此,應重視計算單位和殘差標準理論的研究。如城市人口以萬計還是以百萬計,所表明的分布偏態(tài)程度具有較大的差異,因此在規(guī)模大小不同的城市間進行差異比較時,應考慮使用不同的人口計量單位進行反復的比較研究。當離群值數(shù)據(jù)較多時,可以視其為一種由異質(zhì)總體合并而成的復雜總體。此時可能的解決方法是以多個統(tǒng)計量進行分段式的統(tǒng)計量化,或者用某些穩(wěn)健統(tǒng)計量描述主要的總體部分,而忽略次要總體的存在。
5.利用計算機軟件來支持和分析。雖然當變量和數(shù)據(jù)的個數(shù)較少時,手工的計算可以滿足穩(wěn)健統(tǒng)計量的計算要求,但是對于大量數(shù)據(jù)的統(tǒng)計穩(wěn)健性分析,以及需要通過多次迭代過程才能產(chǎn)生的穩(wěn)健統(tǒng)計量而言,計算機技術(shù)的應用是不可避免的。早在20世紀80年代初期,Minitab統(tǒng)計軟件包中就已經(jīng)有用于考察殘差的穩(wěn)健統(tǒng)計方法。時值今日,普及程度相當高的Excel問世以后,為穩(wěn)健統(tǒng)計量的計算和分析開辟了全新的、更簡單快捷和更普遍使用的手段。使用Excel宏命令中的加載宏和復制宏功能可以很方便地打開各種穩(wěn)健統(tǒng)計量的計算方法,并可以對其進行假設(shè)檢驗。