前言:我們精心挑選了數篇優質統計學抽樣方法文章,供您閱讀參考。期待這些文章能為您帶來啟發,助您在寫作的道路上更上一層樓。
關鍵詞:高中數學;數學統計學;現代經濟
統計學是發現社會數量關系的一項重要數學工具,不管是對現代經濟的發展還是對高中數學的學習都要依靠通過統計學計算出科學的信息數據。統計學在現代經濟發展中涉及到許多方面:預測、評估、分類等相關領域。同時,在現代經濟的發展中,也對統計方法、統計分析提出了相關要求。不管是為了自身提高學習成績,還是為了促進現代經濟的發展,高中階段的統計學學習尤為重要[1]。
一、統計學對現代經濟發展的益處
高中統計學對現代經濟的益處主要體現在以下幾個點:第一,解決經濟學問題,高中數學統計學對現代經濟發展其至關重要的作用,對于一些實際經濟問題通過建立數學模型、運用高中數學統計方法、分析計算、最后得出結論。這些結論不僅可以預測現代經濟的未來走向,還可以為相應的經濟類工程項目提供參考。在現代經濟發展中統計學的應用及其廣泛,人們對于經濟活動的評估方式也由定性向定量轉變。高中數學統計學的應用,可以使現代經濟科學化、合理化。應用高中數學統計學可以讓經濟的風險控制在一個合理范圍內。
二、高中數學統計學的應用
統計學是高中數學必修課。通過對高中數學統計學的學習,可以讓高中生的數學邏輯思維更加敏捷,思考問題的方式更加嚴謹,讓學生達到全面發展。一方面,通過統計學的學習,為高中生未來的工作、生活提供了諸多便利;另一方面,可為日后的現代經濟發展做出貢獻。高中數學統計學的應用,可以通過以下兩個方法來進行。
(一)抽樣法
抽樣法由系統抽樣、分層抽樣等方面構成。系統抽樣,在抽樣的過程中,需要將總體分成若干部分,從每一小部分中進行抽取。例如,某學校要了解高中生的身高狀況,依據1∶20的比例抽取樣本,把高中生看作一個整體,依據1∶20的比例抽取樣本,則要將所有高中生按整體分為20個部分,這樣的分法符合系統抽樣的應用條件,進而使用系統抽樣法來解決生活中在校調查學生身高的問題。分層抽樣,例如,某學校高一學生總數500人,高二學生人數總計400人,高三學生人數總350人,要調查3個年級學生對學校規章制度的看法,依據1∶9的比例抽取樣本,這些學生是3個不同的年級,可劃分為3個部分,依據既定比例抽取,各年級學生對應抽取的人數也會不同,這問題要求與分層抽樣法的理念基本一致,因而對于這類問題要用分層抽樣的方法來解決。
(二)樣本估計
樣本估計是統計學中最常見的,對樣本估計的學習最主要的是提高對樣本數量的認識,樣本數量與估計值準確率相互關聯,即樣本數量越多,則估計值越準確。例如:某一整體可劃分為60個個體,將各個個體進行1~60的編號,同時將它們劃分為6個小組,組號分別為1~6,如果運用系統抽樣抽取容量為6的樣本,首次抽取個體號碼為A,在第B次抽取時,個體號碼個位數與A+B個位相一致,請問若A=3時,第5組號碼為多少?經分析可得出,在A=3時,第B次抽取的個體號碼個位數為A+B,由此表明第5組號碼的個位數為3,再結合樣本估計知識,便可得出具體的號碼數字。由此可見,利用統計學解決生活中的實際問題無處不在,只有牢記相關的概念、方法,才能準確無誤地解決問題。
關鍵詞:大數據;統計學;數據分析;抽樣理論;理論
重構隨著信息科學技術的高速度發展,當代獲取和儲存數據信息的能力不斷增強而成本不斷下降,這為大數據的應用提供了必要的技術環境和可能.應用大數據技術的優勢愈來愈明顯,它的應用能夠幫助人類獲取真正有價值的數據信息.近年來,專家學者有關大數據技術問題進行了大量的研究工作[1],很多領域也都受到了大數據分析的影響.這個時代將大數據稱為未來的石油,它必將對這個時代和未來的社會經濟以及科學技術的發展產生深遠的意義和影響.目前對于大數據概念,主要是從數據來源和數據的處理工具與處理難度方面考慮,但國內外專家學者各有各的觀點,并沒有給出一致的精確定義.麥肯錫全球數據分析研究所指出大數據是數據集的大小超越了典型數據庫工具集合、存儲、管理和分析能力的數據集,大數據被Gartner定義為極端信息管理和處理一個或多個維度的傳統信息技術問題[23].目前得到專家們認可的一種觀點,即:“超大規模”是GB級數據,“海量”是TB級數據,而“大數據”是PB及其以上級別數據[2].
一些研究學者把大數據特征進行概括,稱其具有數據規模巨大、類型多樣、可利用價值密度低和處理速度快等特征,同時特別強調大數據區別于其他概念的最重要特征是快速動態變化的數據和形成流式數據.大數據技術發展所面臨的問題是數據存儲、數據處理和數據分析、數據顯示和數據安全等.大數據的數據量大、多樣性、復雜性及實時性等特點,使得數據存儲環境有了很大變化[45],而大部分傳統的統計方法只適合分析單個計算機存儲的數據,這些問題無疑增加了數據處理和整合的困難.數據分析是大數據處理的核心過程,同時它也給傳統統計學帶來了巨大的挑戰[6].產生大數據的數據源通常情況下具有高速度性和實時性,所以要求數據處理和分析系統也要有快速度和實時性特點,而傳統統計分析方法通常不具備快速和實時等特點.基于大數據的特點,傳統的數據統計理論已經不能適應大數據分析與研究的范疇,傳統統計學面臨著巨大的機遇與挑戰,然而為了適應大數據這一新的研究對象,傳統統計學必須進行改進,以繼續和更好的服務于人類.目前國內外將大數據和統計學相結合的研究文獻并不多.本文對大數據時代這一特定環境背景,統計學的抽樣理論和總體理論的存在價值、統計方法的重構及統計結果的評價標準的重建等問題進行分析與研究.
1傳統意義下的統計學
廣泛的統計學包括三個類型的統計方法:①處理大量隨機現象的統計方法,比如概率論與數理統計方法.②處理非隨機非概率的描述統計方法,如指數編制、社會調查等方法.③處理和特定學科相關聯的特殊方法,如經濟統計方法、環境科學統計方法等[7].受收集、處理數據的工具和能力的限制,人們幾乎不可能收集到全部的數據信息,因此傳統的統計學理論和方法基本上都是在樣本上進行的.或者即使能夠得到所有數據,但從實際角度出發,因所需成本過大,也會放棄搜集全部數據.然而,選擇最佳的抽樣方法和統計分析方法,也只能最大程度還原總體一個特定方面或某些方面的特征.事實上我們所察覺到的數據特征也只是總體大量特征中的一小部分,更多的其他特征尚待發掘.總之,傳統統計學是建立在抽樣理論基礎上,以點帶面的統計分析方法,強調因果關系的統計分析結果,推斷所測對象的總體本質的一門科學,是通過搜集、整理和分析研究數據從而探索數據內部存在規律的一門科學.
2統計學是大數據分析的核心
數的產生基于三個要素,分別是數、量和計量單位.在用數來表示事物的特征并采用了科學的計量單位后,就產生了真正意義上的數據,即有根據的數.科學數據是基于科學設計,通過使用觀察和測量獲得的數據,認知自然現象和社會現象的變化規律,或者用來檢驗已經存在的理論假設,由此得到了具有實際意義和理論意義的數據.從數據中獲得科學數據的理論,即統計學理論.科學數據是通過統計學理論獲得的,而統計學理論是為獲得科學數據而產生的一門科學.若說數據是傳達事物特征的精確語言,進行科學研究的必備條件,認知世界的重要工具,那么大數據分析就是讓數據最大限度地發揮功能,充分表達并有效滿足不同需求的基本要求.基于統計學的發展史及在數據分析中的作用,完成將數據轉化為知識、挖掘數據內在規律、通過數據發現并解決實際問題、預測可能發生的結果等是研究大數據的任務,而這必然離不開統計學.以大數據為研究對象,通過數據挖掘、提取、分析等手段探索現象內在本質的數據科學必須在繼承或改進統計學理論的基礎上產生.
統計數據的發展變化經歷了一系列過程,從只能收集到少量的數據到盡量多地收集數據,到科學利用樣本數據,再到綜合利用各類數據,以至于發展到今天的選擇使用大數據的過程.而統計分析為了適應數據可觀察集的不斷增大,也經歷了相應的各個不同階段,產生了統計分組法、大量觀察法、歸納推斷法、綜合指標法、模型方程法和數據挖掘法等分析方法,并且借助計算機以及其他軟件的程度也越來越深.300多年來,隨著數據量以指數速度的不斷增長,統計學圍繞如何搜集、整理和分析數據而展開,合理構建了應用方法體系,幫助各個學科解決了許多復雜問題.現在進入了大數據時代,統計學依舊是數據分析的靈魂,大數據分析是數據科學賦予統計學的新任務.對于統計學而言,來自新時代的數據科學挑戰有可能促使新思想、新方法和新技術產生,這一挑戰也意味著對于統計學理論將面臨巨大的機遇.
3統計學在大數據時代下必須改革
傳統統計學是通過對總體進行抽樣來搜索數據,對樣本數據進行整理、分析、描述等,從而推斷所測對象的總體本質,甚至預測總體未來的一門綜合性學科.從研究對象到統計結果的評判標準都是離不開樣本的抽取,完全不能適應大數據的4V特點,所以統計學為適應大數據技術的發展,必須進行改革.從學科發展角度出發,大數據對海量數據進行存儲、整合、處理和分析,可以看成是一種新的數據分析方法.數據關系的內在本質決定了大數據和統計學之間必然存在聯系,大數據對統計學的發展提出了挑戰,體現在大樣本標準的調整、樣本選取標準和形式的重新確定、統計軟件有待升級和開發及實質性統計方法的大數據化.但是也提供了一個機遇,體現在統計質量的提高、統計成本的下降、統計學作用領域的擴大、統計學科體系的延伸以及統計學家地位的提升[7].
3.1大數據時代抽樣和總體理論存在價值
傳統統計學中的樣本數據來自總體,而總體是客觀存在的全體,可以通過觀測到的或經過抽樣而得到的數據來認知總體.但是在大數據時代,不再是隨機樣本,而是全部的數據,還需要假定一個看不見摸不著的總體嗎?如果將大數據看成一個高維度的大樣本集合,針對樣本大的問題,按照傳統統計學的方法,可以采用抽樣的方法來減少樣本容量,并且可以達到需要的精度;對于維度高的問題,可以采取對變量進行選擇、降維、壓縮、分解等方法來降低數據的復雜程度.但實際上很難做得到,大數據涵蓋多學科領域、多源、混合的數據,各學科之間的數據融合,學科邊界模糊,各范疇的數據集互相重疊,合成一體,而且大數據涉及到各種數據類型.因此想要通過抽樣而使數據量達到傳統統計學的統計分析能力范圍是一件相當困難或是一件不可能的事.大量的結構數據和非結構數據交織在一起,系統首先要認清哪個是有價值的信息,哪個是噪聲,以及哪些不同類型的數據信息來自于同一個地址的數據源,等等,傳統的統計學是無法做到的.在大數據時代下,是否需要打破傳統意義的抽樣理論、總體及樣本等概念和關系,是假設“樣本=總體”,還是“樣本趨近于總體”,還是不再使用總體和樣本這兩個概念,而重新定義一個更合適的概念,等等.人們該怎樣“安排”抽樣、總體及樣本等理論,或人們該怎樣修正抽樣、總體、樣本的“公理化”定義,這個問題是大數據時代下,傳統統計學面臨改進的首要問題.
3.2統計方法在大數據時代下的重構問題
在大數據時代下,傳統的高維度表達、結構描述和群體行為分析方法已經不能精確表達大數據在異構性、交互性、時效性、突發性等方面的特點,傳統的“假設-模型-檢驗”的統計方法受到了質疑,而且從“數據”到“數據”的統計模式還沒有真正建立,急切需要一個新的理論體系來指引,從而建立新的分析模型.去除數據噪聲、篩選有價值的數據、整合不同類型的數據、快速對數據做出分析并得出分析結果等一系列問題都有待于研究.大數據分析涉及到三個維度,即時間維度、空間維度和數據本身的維度,怎樣才能全面、深入地分析大數據的復雜性與特性,掌握大數據的不確定性,構建高效的大數據計算模型,變成了大數據分析的突破口.科學數據的演變是一個從簡單到復雜的各種形式不斷豐富、相互包容的過程,是一個循序漸進的過程,而不是簡單的由一種形式取代另一種形式.研究科學數據的統計學理論也是一樣,也是由簡單到復雜的各種形式相互包容、不斷豐富的發展過程,而絕不是完全否定一種理論、由另一種理論形式所代替.大數據時代的到來統計學理論必須要進行不斷的完善和發展,以適應呈指數增長的數據量的大數據分析的需要.
3.3如何構建大數據時代下統計結果的評價標準框架
大數據時代下,統計分析評價的標準又該如何變化?傳統統計分析的評價標準有兩個方面,一是可靠性評價,二是有效性評價,然而這兩種評價標準都因抽樣而生.可靠性評價是指用樣本去推斷總體有多大的把握程度,一般用概率來衡量.可靠性評價有時表現為置信水平,有時表現為顯著性水平[8].怎么確定顯著性水平一直是個存在爭議的問題,特別是在模型擬合度評價和假設檢驗中,因為各自參照的分布類型不一樣,其統計量就不一樣,顯著性評價的臨界值也就不一樣,可是臨界值又與顯著性水平的高低直接相關.而大數據在一定程度上是全體數據,因此不存在以樣本推斷總體的問題,那么在這種情況下,置信水平、可靠性問題怎么確定?依據是什么?有效性評價指的是真實性,即為誤差的大小,它與準確性、精確性有關.通常準確性是指觀察值與真實值的吻合程度,一般是無法衡量的,而精確性用抽樣分布的標準差來衡量.顯然,精確性是針對樣本數據而言的,也就是說樣本數據有精確性問題,同時也有準確性問題.抽樣誤差和非抽樣誤差都可能存在于樣本數據中,抽樣誤差可以計算和控制,但是非抽樣誤差只能通過各種方式加以識別或判斷[910].大多數情況下,對于樣本量不是太大的樣本,非抽樣誤差可以得到較好的防范,然而對于大數據的全體數據而言,沒有抽樣誤差問題,只有非抽樣誤差問題,也就是說大數據的真實性只表現為準確性.但是由于大數據特有的種種特性,使得大數據的非抽樣誤差很難進行防范、控制,也很難對其進行準確性評價.總之,對于大數據分析來說,有些統計分析理論是否還有意義,確切說有哪些統計學中的理論可以適用于大數據分析,而哪些統計學中的理論需要改進,哪些統計學中的理論已不再適用于大數據統計研究,等等,都有待于研究.所以大數據時代的統計學必是在繼承中求改進,改進中求發展,重構適應大數據時代的新統計學理論.
4結論
來自于社會各種數據源的數據量呈指數增長,大數據對社會發展的推動力呈指數效應,大數據已是生命活動的主要承載者.一個新事物的出現,必然導致傳統觀念和傳統技術的變革.對傳統統計學來說,大數據時代的到來無疑是一個挑戰,雖然傳統統計學必須做出改變,但是占據主導地位的依然會是統計學,它會引領人類合理分析利用大數據資源.大數據給統計學帶來了機遇和挑戰,統計學家們應該積極學習新事物,適應新環境,努力為大數據時代創造出新的統計方法,擴大統計學的應用范圍.
參考文獻:
[1]陳冬玲,曾文.頻繁模式挖掘中基于CFP的應用模型[J]沈陽大學學報(自然科學版),2015,27(4):296300.
[3]卞友江.“大數據”概念考辨[J].新聞研究導刊,2013,35(5):2528.
[5]靳小龍,王元卓,程學旗.大數據的研究體系與現狀[J].信息通信技術,2013(6):3543.
[6]覃雄派,王會舉,杜小勇,等.大數據分析:Rdbms與Mapreduce的競爭與共生[J].軟件學報,2012,23(1):32-45.
[7]游士兵,張佩,姚雪梅.大數據對統計學的挑戰和機遇[J].珞珈管理評論,2013(2):165171.
[8]李金昌.大數據與統計新思維[J].統計研究,2014,31(1):1017.
一、國內文獻綜述
筆者通過對一些高校統計學課程調查及知網搜集資料,發現很多講授統計學的教師認為傳統統計學教學內容、方法很難適應現代社會的需求。通過資料搜集和文獻查找,如何更好的編排統計的教學內容和運用更好的教學方法主要體現在以下幾方面:石秀麗(2011)學者認為根據經管類學生的特點應把統計方法、數量分析作為教學內容的重點,李慧敏(2016)等學者認為對經管類統計學的教學應激發學生的學習興趣,大量的引入現實生活中的典型案例進行教學;宋繼華(2013)等學者認為采用項目驅動方法教學能引導學生的思維,從而提高學生的積極性和應用能力。這些專家學者對統計學的教學內容都提出了創新性的研究,尤其是高職高專對經管類學生的統計學教學很多高校都采用了項目驅動的模式。
二、教學內容和教學方法創新
我國經濟快速發展,很多決策都需要數據來支撐,統計方法及數據分析應用越來越廣泛,并應用于管理、金融等領域,而今天又處于大數據時代,因此,掌握統計方法和數量分析的專業人才成為時下的新寵。所以,在經管類統計學教學中,我們必須大刀闊斧地改革傳統統計學的教學內容、教學方法成為高校經管類統計學改革的重要課題。
1.教學內容編排上增加統計實務部分。統計學原理的內容主要包括總論、統計調查、統計整理、綜合指標、動態數列分析、指數分析、抽樣推斷、相關分析等內容,這些內容主要是基本理論知識,針對當前社會需求和統計變化的特點,應該加大統計實務部分的內容,可以適當增加企業統計標準(常用統計標準)、主要統計指標(采購經理指數、消費信心指數等)、企業主要統計報表(生產活動統計)、國民經濟核算體系、統計報告撰寫(統計報告寫作要求、原則、流程)等內容。
2.教學過程中引入實驗教學。統計學教學過程中運用到大量的公式,主要是定量的分析,在傳統教學中比較側重這些公式的推導、計算。但在信息技術高速發達的今天,計算機統計軟件的廣泛應用,使計算變得更加簡單、準確。因此,在統計教學過程中,統計計算技術已經不是教學的重點。由于大量復雜的計算可以交給計算機去完成,統計學教學應從數據技巧教學轉向數據整理分析的訓練,統計教學中適當增加實驗教學,把統計方法與計算機的應用緊密結合,實現統計學教材的內容與EXCEL的應用全面結合。在一些章節可以專門增加一節內容,介紹如何用EXCEL實現本章數據處理問題,例如:在講解統計整理、總量指標與相對指標、動態數列、統計指數、抽樣調查、相關和回歸分析時都可以借助于EXCEL來進行數據處理、分析。還可以利用計算機SPSS軟件對回歸分析和相關分析進行分析,利用計算機對平均數和標準差中等內容進行處理。通過實驗教學可以在一定程度上改變學生統計思想,同時幫助其掌握一定的軟件應用技能,如EXCEL、SPSS、SAS等。
3.引入綜合案例教學法。案例教學在國外課程教學中運用較多,因為案例來源于生活,更能引起學生的學習興趣,在傳統統計學教學中也引入了一些案例,但這些案例大都是孤立的只是為了學習某個知識點而設定,這些案例并不是真實的案例,而且缺乏前后因果,與實際生活脫鉤,學生學起來就沒有深刻的記憶和興趣。針對這種情況,在統計學課程教學中可以引入現實生活中實際發生的案例,將統計計算方法與數據分析方法用到解決實際管理問題中去,這樣可以使教學效果事半功倍。例如:在綜合指標這部分內容就可以設定某個企業的實際案例,通過這個案例可以解決總量指標、相對指標和平均指標的計算應用。
4.圖表歸納教學法。統計學第一章內容是學習整個統計學的基礎,只有把統計學的一些基本概念學懂了,才能更好的學習以后的內容,可是很多學生學了第一章以后對這些概念之間的關系還是模糊,為了解決這些問題設疑解惑,不斷啟疑思導,經過苦心孤詣,可以把這些基本概念編成如圖1。
通過框圖,可以把這些抽象的名稱聯系在一起,然后層次加以剖析,提綱挈領地板書這些名詞的特點與作用,用形象生動的比喻語言說明各概念之間的聯系和異同。采用這樣直觀清晰的框圖教學,讓學生一目了然,分析清楚這些概念之間的區別與聯系,便于學生的理解與記憶。在講完第四、五、六章后也總結歸納如圖2。