本站小編為你精心準(zhǔn)備了統(tǒng)計(jì)數(shù)據(jù)處理中Python的應(yīng)用參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
摘要:大數(shù)據(jù)為政府統(tǒng)計(jì)工作帶來了機(jī)遇和挑戰(zhàn),統(tǒng)計(jì)大數(shù)據(jù)應(yīng)用目前已進(jìn)入推進(jìn)實(shí)施階段,但現(xiàn)有統(tǒng)計(jì)數(shù)據(jù)處理平臺(tái)不能較好地滿足大數(shù)據(jù)應(yīng)用的需要。本文通過使用python對(duì)農(nóng)業(yè)普查大數(shù)據(jù)進(jìn)行挖掘分析和數(shù)據(jù)可視化,探索Python在統(tǒng)計(jì)數(shù)據(jù)處理中的應(yīng)用。
關(guān)鍵詞:統(tǒng)計(jì);數(shù)據(jù)處理;Python
一、引言
為深入貫徹落實(shí)黨的關(guān)于“完善統(tǒng)計(jì)體制”重要部署和中央《關(guān)于深化統(tǒng)計(jì)管理體制改革提高統(tǒng)計(jì)數(shù)據(jù)真實(shí)性的意見》,積極落實(shí)《國務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》,努力適應(yīng)大數(shù)據(jù)的蓬勃發(fā)展給統(tǒng)計(jì)工作帶來的機(jī)遇和挑戰(zhàn),創(chuàng)新統(tǒng)計(jì)工作方式,提高統(tǒng)計(jì)工作效率,強(qiáng)化大數(shù)據(jù)在統(tǒng)計(jì)工作中的運(yùn)用,加快構(gòu)建新時(shí)代現(xiàn)代化統(tǒng)計(jì)調(diào)查體系,近期國家統(tǒng)計(jì)局制定了大數(shù)據(jù)應(yīng)用工作方案并進(jìn)行了安排部署。方案總體目標(biāo)之一,是要運(yùn)用云計(jì)算、大數(shù)據(jù)等信息技術(shù)和資源,在“四大工程”建設(shè)成果的基礎(chǔ)上,改革完善統(tǒng)計(jì)業(yè)務(wù)流程,全力完善統(tǒng)計(jì)數(shù)據(jù)來源傳統(tǒng)之軌。具體來講,就是完善結(jié)構(gòu)化數(shù)據(jù)的傳統(tǒng)之軌,在不改變現(xiàn)有機(jī)構(gòu)、人員和職責(zé)分工的前提下,整合普查、常規(guī)調(diào)查和專項(xiàng)調(diào)查等數(shù)據(jù),打破專業(yè)壁壘和信息孤島,實(shí)現(xiàn)數(shù)據(jù)共享和深度開發(fā)。其中重點(diǎn)項(xiàng)目包括:進(jìn)一步挖掘普查數(shù)據(jù)應(yīng)用的潛力,通過大數(shù)據(jù)處理技術(shù)整理普查原始數(shù)據(jù),提高開發(fā)應(yīng)用普查數(shù)據(jù)的能力。本文嘗試?yán)肞ython的特點(diǎn)和優(yōu)勢,對(duì)某地區(qū)農(nóng)業(yè)普查數(shù)據(jù)進(jìn)行挖掘分析和可視化場景實(shí)現(xiàn),以此來展示Python在統(tǒng)計(jì)數(shù)據(jù)處理中的應(yīng)用效果。
二、傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)處理系統(tǒng)的功能特點(diǎn)和不足
目前,企業(yè)一套表系統(tǒng)和大型普查數(shù)據(jù)處理系統(tǒng)是政府統(tǒng)計(jì)進(jìn)行數(shù)據(jù)生產(chǎn)的兩個(gè)主要平臺(tái),由國家或省級(jí)確定企業(yè)填報(bào)目錄和填報(bào)報(bào)表制度,定期(月度、季度、年度)由企業(yè)聯(lián)網(wǎng)直報(bào)數(shù)據(jù),統(tǒng)計(jì)系統(tǒng)內(nèi)人員進(jìn)行審核、計(jì)算、匯總,生成綜合數(shù)據(jù)。這兩個(gè)統(tǒng)計(jì)數(shù)據(jù)處理系統(tǒng)的主要功能是數(shù)據(jù)采集、數(shù)據(jù)審核、數(shù)據(jù)匯總,為采集、處理、傳輸、公布傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)發(fā)揮了不可替代的作用,但隨著大數(shù)據(jù)處理技術(shù)的發(fā)展和傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)資源深度開發(fā)的需要,發(fā)現(xiàn)其在整理計(jì)算加工、數(shù)據(jù)挖掘分析、可視化展示等方面存在先天薄弱和不足,迫切需要尋找能夠彌補(bǔ)其功能短板的軟件和工具。
三、Python的特點(diǎn)和優(yōu)勢
統(tǒng)計(jì)界廣泛使用的傳統(tǒng)工具有SAS、SPSS、R等,隨著大數(shù)據(jù)時(shí)代的到來,Python在大數(shù)據(jù)處理工作中脫穎而出。相比傳統(tǒng)的統(tǒng)計(jì)工具,Python的特點(diǎn)和優(yōu)勢更為突出:一是簡單易學(xué)、普及程度高,國外出現(xiàn)了在義務(wù)教育階段就開始教授Python的情況。全國普通高中2017版“新課標(biāo)”改革中,正式將人工智能、物聯(lián)網(wǎng)、大數(shù)據(jù)處理劃入新課標(biāo),意味著Python在我國進(jìn)入了高中教育。二是Python在大數(shù)據(jù)處理性能方面與傳統(tǒng)工具相比速度要快,可以直接加載處理上GB大小的數(shù)據(jù),而傳統(tǒng)工具受限于性能原因則通常需要將大數(shù)據(jù)分割為數(shù)個(gè)小數(shù)據(jù)再進(jìn)行處理。三是開源生態(tài)活躍、功能豐富。隨著Python擴(kuò)展庫不斷發(fā)展壯大,Python在科研、電子、政府、數(shù)據(jù)分析、web、金融、圖像處理、AI技術(shù)等各方面都有強(qiáng)大的類庫、框架和解決方案。Python擁有Matplotlib及numPy這樣強(qiáng)大的繪圖庫和數(shù)值擴(kuò)展,能幫助科研學(xué)術(shù)人員快速地進(jìn)行可視化和數(shù)值分析。Python提供的pandas擴(kuò)展庫,包含了全套的統(tǒng)計(jì)函數(shù)和數(shù)據(jù)處理方法,可以高效處理海量數(shù)據(jù)矩陣,輕松地進(jìn)行切片/切塊、聚合、重采樣等,其豐富的功能和強(qiáng)大的算法已經(jīng)成為數(shù)據(jù)處理任務(wù)的首選解決方案。因此本文使用Python及擴(kuò)展庫,對(duì)統(tǒng)計(jì)數(shù)據(jù)處理中的幾個(gè)典型應(yīng)用場景進(jìn)行實(shí)現(xiàn)。
四、Python在統(tǒng)計(jì)數(shù)據(jù)處理中的應(yīng)用場景實(shí)現(xiàn)
(一)環(huán)境準(zhǔn)備操作系統(tǒng):Ubuntu18.04.1LTS應(yīng)用程序:Python-3.6.5Pandas-0.24.2Matplotlib-3.1.0
(二)數(shù)據(jù)源準(zhǔn)備登錄農(nóng)業(yè)普查數(shù)據(jù)處理平臺(tái),對(duì)某地區(qū)主要農(nóng)作物(小麥、玉米)種植數(shù)據(jù)按照農(nóng)戶(播種面積<50畝)、規(guī)模戶(播種面積≥50畝)區(qū)分進(jìn)行自定義指標(biāo)查詢,指標(biāo)包括:農(nóng)作物代碼、播種面積(畝)、平均每畝產(chǎn)量(公斤)、每畝化肥平均施用量(公斤)、農(nóng)藥噴灑次數(shù)、實(shí)際耕地面積(畝)、灌溉耕地面積(畝)、是否機(jī)耕。并將平臺(tái)中的查詢結(jié)果以csv格式導(dǎo)出成數(shù)據(jù)文件guimo.csv和danwei.csv。
(三)應(yīng)用場景場景一:數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。數(shù)據(jù)清洗主要完成缺失值處理、異常值處理,數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)源整合成一個(gè),數(shù)據(jù)變換主要完成對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,比如函數(shù)計(jì)算、屬性構(gòu)造、規(guī)范量綱等,數(shù)據(jù)規(guī)約就是消除無效、錯(cuò)誤數(shù)據(jù)的影響。本文使用Pandas庫加載平臺(tái)導(dǎo)出的數(shù)據(jù)為DataFrame類型對(duì)象進(jìn)行數(shù)據(jù)切片、空值填充、無效值移除、灌溉率列計(jì)算、切片拼接整理,生成標(biāo)準(zhǔn)數(shù)據(jù)文件all.csv,結(jié)果見表1。場景二:數(shù)據(jù)特征描述數(shù)據(jù)特征描述是對(duì)總體變量的有關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)性描述,主要包括頻數(shù)分析、集中趨勢分析、離散程度分析、分布以及圖形可視化。利用頻數(shù)分析可以檢驗(yàn)異常值;通過數(shù)據(jù)集中趨勢分析來反映數(shù)據(jù)的一般水平,常用的指標(biāo)有平均值、中位數(shù)和眾數(shù)等;利用數(shù)據(jù)的離散程度分析來反映數(shù)據(jù)之間的差異程度,常用的指標(biāo)有方差和標(biāo)準(zhǔn)差。本文用箱體圖的形式來表達(dá)數(shù)據(jù),可以更清晰、直觀地呈現(xiàn)總體數(shù)據(jù)特征。1.數(shù)據(jù)準(zhǔn)備。使用Pandas庫加載標(biāo)準(zhǔn)數(shù)據(jù)文件all.csv,按照小麥和玉米、農(nóng)戶和規(guī)模戶兩類分組,使用describe函數(shù)計(jì)算每畝產(chǎn)量的均值(mean)、標(biāo)準(zhǔn)差(std)、最大值(max)、最小值(min)、四分位值等數(shù)據(jù),其中“低奇異值占比”是指低于中位數(shù)的奇異值個(gè)數(shù)占總數(shù)的百分比,計(jì)算結(jié)果見表2。3.結(jié)果分析。從表2看,規(guī)模種植小麥畝產(chǎn)均值502.68公斤,高于農(nóng)戶467.88公斤,高出7.4%;規(guī)模種植玉米畝產(chǎn)均值541.28公斤,高于農(nóng)戶518.51公斤,高出4.4%;規(guī)模種植小麥畝產(chǎn)標(biāo)準(zhǔn)差73.46公斤,低于農(nóng)戶93.92公斤;規(guī)模種植玉米畝產(chǎn)標(biāo)準(zhǔn)差90.85公斤,低于農(nóng)戶99.71公斤。從圖1看,規(guī)模種植小麥畝產(chǎn)低奇異值占比1.94%,低于農(nóng)戶3.29%,規(guī)模種植玉米畝產(chǎn)低奇異值占比3.97%,低于農(nóng)戶4.70%。從以上分析可以得出結(jié)論:規(guī)模化種植是實(shí)現(xiàn)主要農(nóng)作物高產(chǎn)、穩(wěn)產(chǎn)的關(guān)鍵。這與目前該地區(qū)農(nóng)業(yè)生產(chǎn)實(shí)際情況相契合。場景三:相關(guān)分析相關(guān)分析是研究變量之間是否存在某種依存關(guān)系,用計(jì)算相關(guān)系數(shù)來表達(dá)變量之間相關(guān)方向以及相關(guān)程度。常用的三種相關(guān)系數(shù)(pearson,spearman,kendall)反映的都是變量之間相關(guān)方向以及程度,其值范圍為-1到+1,0表示兩個(gè)變量不相關(guān),正值表示正相關(guān),負(fù)值表示負(fù)相關(guān),值越大表示相關(guān)性越強(qiáng)。由于spearman相關(guān)系數(shù)沒有某些數(shù)據(jù)條件的特別要求和限制,適用范圍廣,所以本文采用它來研究某地區(qū)主要農(nóng)作物每畝產(chǎn)量與播種面積、每畝化肥用量、農(nóng)藥噴灑次數(shù)、是否機(jī)耕、灌溉率等變量的相關(guān)關(guān)系,并用雷達(dá)圖直觀地顯示出來。1.數(shù)據(jù)準(zhǔn)備。使用Pandas庫加載標(biāo)準(zhǔn)數(shù)據(jù)文件all.csv,按照小麥和玉米、農(nóng)戶和規(guī)模戶兩類分組,利用corrwith函數(shù)計(jì)算每畝產(chǎn)量與播種面積以及其他幾個(gè)變量的spearman相關(guān)系數(shù),計(jì)算結(jié)果見表3。2.可視化呈現(xiàn)。使用matplotlib.pyplot中subplot(polar=True)方法來繪制雷達(dá)圖如圖2:3.結(jié)果分析。從圖表來看,在規(guī)模種植的情況下,無論是小麥還是玉米,畝產(chǎn)與播種面積以及其他幾個(gè)因素呈現(xiàn)微弱相關(guān)或者不相關(guān)(相關(guān)系數(shù)絕對(duì)值小于0.3甚至接近0);在農(nóng)戶種植情況下,小麥畝產(chǎn)與播種面積以及其他幾個(gè)因素的相關(guān)程度要高于玉米畝產(chǎn);無論是小麥還是玉米、農(nóng)戶還是規(guī)模種植,畝產(chǎn)與是否機(jī)耕均不相關(guān)(相關(guān)系數(shù)絕對(duì)值接近0);在農(nóng)戶種植情況下,小麥畝產(chǎn)與灌溉率呈現(xiàn)顯著相關(guān)關(guān)系(0.49),玉米畝產(chǎn)與灌溉率呈現(xiàn)低度相關(guān)關(guān)系(0.39),小麥畝產(chǎn)與農(nóng)藥噴灑次數(shù)呈現(xiàn)低度相關(guān)關(guān)系(0.34)。從以上分析可以得出結(jié)論:農(nóng)戶種植相對(duì)于規(guī)模種植,對(duì)種植資源(耕地、農(nóng)藥、化肥、農(nóng)機(jī)、水利等)的關(guān)聯(lián)程度較為明顯,因此規(guī)模化種植是實(shí)現(xiàn)主要農(nóng)作物高產(chǎn)與種植資源集約高效利用的關(guān)鍵。這與目前該地區(qū)農(nóng)業(yè)生產(chǎn)實(shí)際情況相契合。更多場景:對(duì)主要農(nóng)作物畝產(chǎn)、化肥使用、農(nóng)藥噴灑進(jìn)行強(qiáng)度分析,利用熱力地圖,按照對(duì)象代碼的行政區(qū)劃呈現(xiàn)區(qū)域分布;對(duì)所有種植戶進(jìn)行每畝產(chǎn)量、播種面積等多維度聚類分析,利用樹狀分類圖,呈現(xiàn)某區(qū)域主要農(nóng)作物種植情況等。
五、應(yīng)用建議
Python以簡單易學(xué)、語言簡潔、開發(fā)快速、可擴(kuò)展性豐富等特點(diǎn),使得進(jìn)行大數(shù)據(jù)分析更加得心應(yīng)手。另外,Python具有膠水語言的特性,能夠兼容絕大部分的編程語言環(huán)境,對(duì)于傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)處理平臺(tái)可以進(jìn)行嵌入和對(duì)接。因此建議加大Python在統(tǒng)計(jì)數(shù)據(jù)處理中的推廣應(yīng)用:一是將大數(shù)據(jù)處理思想體現(xiàn)在傳統(tǒng)統(tǒng)計(jì)的制度設(shè)計(jì)階段,改進(jìn)制度指標(biāo)設(shè)置,有利于后期大數(shù)據(jù)分析挖掘應(yīng)用;二是將大數(shù)據(jù)處理技術(shù)運(yùn)用到傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)采集過程,實(shí)時(shí)掌握數(shù)據(jù)的分布形態(tài)、數(shù)值大小及離散程度,及時(shí)發(fā)現(xiàn)問題并糾正錯(cuò)誤,提高數(shù)據(jù)質(zhì)量;三是加強(qiáng)大數(shù)據(jù)處理技術(shù)在統(tǒng)計(jì)數(shù)據(jù)挖掘分析和可視化展示方面的應(yīng)用,構(gòu)建面向政府統(tǒng)計(jì)系統(tǒng)開放的統(tǒng)計(jì)大數(shù)據(jù)源應(yīng)用開發(fā)生態(tài)圈,營造應(yīng)用示范效應(yīng)。
作者:胡前防 連鵬偉 陳乾坤 單位:安陽市統(tǒng)計(jì)局?jǐn)?shù)據(jù)管理中心