美章網(wǎng) 資料文庫(kù) 傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)和大數(shù)據(jù)探究范文

傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)和大數(shù)據(jù)探究范文

本站小編為你精心準(zhǔn)備了傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)和大數(shù)據(jù)探究參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)和大數(shù)據(jù)探究

《電信快報(bào)雜志》2016年第9期

摘要:

傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)與大數(shù)據(jù)之間的演變歷史、數(shù)據(jù)特征等方面展開(kāi)討論,厘清兩者之間存在的千絲萬(wàn)縷但又千差萬(wàn)別的聯(lián)系,提出傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)是大數(shù)據(jù)的簡(jiǎn)單形式和初期階段,大數(shù)據(jù)是傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的復(fù)雜演化形態(tài)的論斷,指出兩者在數(shù)據(jù)分析思維方式上存在巨大差異,并對(duì)數(shù)據(jù)質(zhì)量管理內(nèi)涵、全周期數(shù)據(jù)質(zhì)量保證等問(wèn)題提出不同的解決思路和方案。

關(guān)鍵詞:

傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù);大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)質(zhì)量

0引言

傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的內(nèi)涵在于揭示數(shù)字背后信息與現(xiàn)實(shí)世界的關(guān)系。大數(shù)據(jù)是指巨量數(shù)據(jù),是無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。從傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)到大數(shù)據(jù)的持續(xù)演變導(dǎo)致在理論層面大數(shù)據(jù)內(nèi)涵復(fù)雜,并與傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)在信息界限上概念模糊。從傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)到大數(shù)據(jù)不僅是量的積累,更是質(zhì)的飛躍。厘清傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)與大數(shù)據(jù)之間的內(nèi)涵辯證關(guān)系,是有效利用數(shù)據(jù)的基礎(chǔ)和關(guān)鍵。

1傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)向大數(shù)據(jù)演變的動(dòng)力

信息技術(shù)的進(jìn)步為傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)向大數(shù)據(jù)演變提供了物質(zhì)和技術(shù)基礎(chǔ)。隨著互聯(lián)網(wǎng)的日益發(fā)展,每一次網(wǎng)絡(luò)存儲(chǔ)技術(shù)的進(jìn)步都使信息的生產(chǎn)、存儲(chǔ)、傳輸成本大幅度降低,而流通的范圍、深度、速度則顯著提升。JimGray的新摩爾定理認(rèn)為,每18個(gè)月全球新增信息量是計(jì)算機(jī)有史以來(lái)全部信息量的總和,新摩爾定律以信息量的維度確定了數(shù)據(jù)化演變信息的節(jié)奏。這種趨勢(shì)導(dǎo)致的基本形態(tài)就是數(shù)據(jù)信息空前豐富,大數(shù)據(jù)成為了研究和利用熱點(diǎn)。信息需求多樣化與個(gè)性化是傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)向大數(shù)據(jù)演變的基本動(dòng)力。數(shù)據(jù)最終是為信息需求服務(wù)的,用戶信息價(jià)值最大化才是數(shù)據(jù)應(yīng)用的關(guān)鍵所在。在數(shù)據(jù)化趨勢(shì)下,隨著人們認(rèn)知實(shí)踐與需求狀態(tài)的變化,數(shù)據(jù)一方面從滿足基本特定信息需求到利用復(fù)雜的數(shù)據(jù)屬性解析出多樣化信息需求轉(zhuǎn)變,另一方面從被動(dòng)滿足簡(jiǎn)單需求到主動(dòng)發(fā)掘復(fù)雜有效需求,并探知用戶個(gè)性化信息需求轉(zhuǎn)變。這兩方面成為傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)項(xiàng)大數(shù)據(jù)內(nèi)涵演變的基本動(dòng)力。相應(yīng)地,數(shù)據(jù)內(nèi)涵也從樸素的信息真實(shí)業(yè)務(wù)邏輯向滿足復(fù)雜需求的數(shù)據(jù)化邏輯遷移。隨著信息技術(shù)的發(fā)展和用戶需求的變化,信息效率價(jià)值的實(shí)時(shí)化及數(shù)據(jù)泛濫造成數(shù)據(jù)噪聲增強(qiáng)和有效信息稀缺現(xiàn)象,大數(shù)據(jù)應(yīng)運(yùn)而生。傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)是大數(shù)據(jù)的簡(jiǎn)單形式和初期階段,大數(shù)據(jù)是傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的復(fù)雜演化形態(tài)。

2傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)與大數(shù)據(jù)的數(shù)據(jù)特征差異

數(shù)據(jù)量增多是人們區(qū)別傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)與大數(shù)據(jù)的第一個(gè)認(rèn)識(shí)。傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)數(shù)據(jù)量小,以MB、GB、TB等為存儲(chǔ)單位。大數(shù)據(jù)數(shù)據(jù)量大,一般以PB、EB、ZB等為存儲(chǔ)單位。但這兩者之間特征區(qū)別并不僅僅是體量,還包括數(shù)據(jù)類型、研究對(duì)象的范圍、信息視角等方面。

2.1傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)與大數(shù)據(jù)的數(shù)據(jù)類型對(duì)比

傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)是一種結(jié)構(gòu)化的標(biāo)準(zhǔn)數(shù)據(jù)。其數(shù)據(jù)類型單一,主要以結(jié)構(gòu)化、體量小、標(biāo)準(zhǔn)化、價(jià)值密度高及周期化數(shù)值為特征,數(shù)據(jù)產(chǎn)生和變化的速度慢。其數(shù)據(jù)特點(diǎn)是樸素真實(shí)、簡(jiǎn)單有限、準(zhǔn)確性高及被動(dòng)有用性。大數(shù)據(jù)統(tǒng)計(jì)范疇擴(kuò)大、數(shù)據(jù)類型復(fù)雜,其中包括:a)非結(jié)構(gòu)化非標(biāo)準(zhǔn)數(shù)據(jù),如動(dòng)態(tài)實(shí)時(shí)時(shí)序數(shù)據(jù)。b)半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),如文本、圖像、視頻等。c)現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù),如傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)。其數(shù)據(jù)模型具有復(fù)雜多維的特征,統(tǒng)計(jì)結(jié)果多是非精確多種相關(guān)性趨勢(shì)數(shù)據(jù)。大數(shù)據(jù)具有4個(gè)V基本特征,即Volume(體量浩大)、Variety(模態(tài)繁多)、Velocity(生成快速)和Value(價(jià)值巨大但密度很低),且具有來(lái)源多樣、實(shí)時(shí)、多元的信息化特點(diǎn)。這些特點(diǎn)導(dǎo)致數(shù)據(jù)在產(chǎn)生、獲取、存儲(chǔ)、傳輸和計(jì)算過(guò)程中,因體量大、快速多變易產(chǎn)生沖突和不一致,人工很難檢測(cè)和修復(fù)。

2.2傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)與大數(shù)據(jù)的研究對(duì)象范圍不同

傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的研究對(duì)象是宏觀視角下有限的隨機(jī)樣本數(shù)據(jù)。隨著信息化的發(fā)展,實(shí)踐中產(chǎn)生大量冗余沉淀數(shù)據(jù),這一時(shí)期經(jīng)過(guò)清洗的全樣本數(shù)據(jù)是數(shù)據(jù)挖掘的研究對(duì)象。而大數(shù)據(jù)面對(duì)的則是原生態(tài)全樣本數(shù)據(jù),也就是所謂的總體數(shù)據(jù)。從隨機(jī)樣本數(shù)據(jù)到經(jīng)過(guò)清洗的全樣本數(shù)據(jù)再到原生態(tài)總體數(shù)據(jù),數(shù)據(jù)內(nèi)涵總體信息視角從宏觀向中觀和微觀擴(kuò)散。研究對(duì)象范圍向?qū)挾群蜕疃葍蓚€(gè)方向不斷擴(kuò)展,不斷深入系統(tǒng)微觀的多維度個(gè)體感知,信息能力和價(jià)值也不斷提升。這種轉(zhuǎn)變來(lái)自技術(shù)和需求的驅(qū)動(dòng),新型數(shù)據(jù)處理技術(shù)及需求獲取能力成為演變的關(guān)鍵因素。

3大數(shù)據(jù)相對(duì)傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)分析方式的變革

數(shù)據(jù)中蘊(yùn)含的寶貴價(jià)值成為人們存儲(chǔ)和處理數(shù)據(jù)的驅(qū)動(dòng)力,數(shù)據(jù)分析是實(shí)現(xiàn)數(shù)據(jù)價(jià)值的必要途徑。由于傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)與大數(shù)據(jù)在體量、結(jié)構(gòu)、內(nèi)涵等方面有著本質(zhì)的區(qū)別,所遵循的數(shù)據(jù)分析理論基礎(chǔ)、分析思路、相關(guān)技術(shù)也不同。

3.1傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)與大數(shù)據(jù)數(shù)據(jù)分析的理論基礎(chǔ)

對(duì)傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析的理論基礎(chǔ)是分布理論,以概率為保證,即根據(jù)樣本去推斷總體特征,其邏輯關(guān)系是“分布理論—概率保證—總體推斷”,分析過(guò)程是“假設(shè)—驗(yàn)證”基礎(chǔ)上的“定性—定量—再定性”。對(duì)大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析是以全體數(shù)據(jù)為基礎(chǔ),以數(shù)據(jù)信息相關(guān)為保證,其邏輯關(guān)系是“實(shí)際分布—總體特征—概率判斷”,可以不受任何假設(shè)的限制去尋找關(guān)系、發(fā)現(xiàn)規(guī)律,分析過(guò)程是“定量—定性”及“發(fā)現(xiàn)—總結(jié)”重要數(shù)量特征和關(guān)系基礎(chǔ)上的定量回應(yīng)。

3.2傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)與大數(shù)據(jù)數(shù)據(jù)的分析思路

傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)價(jià)值的實(shí)現(xiàn)路徑為“數(shù)據(jù)到信息再到知識(shí)和智慧”。傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)分析著力于經(jīng)典嚴(yán)密封閉系統(tǒng)的精確性和因果關(guān)系的探索,找到事物屬性之間的因果關(guān)系,比較容易實(shí)現(xiàn)。對(duì)于開(kāi)放復(fù)雜的巨系統(tǒng),傳統(tǒng)的因果分析難以奏效,因?yàn)橄到y(tǒng)中各個(gè)組成部分之間相互有影響,可能互為因果,因果關(guān)系隱藏在整個(gè)系統(tǒng)中。因果關(guān)系本質(zhì)上是一種相互糾纏的相關(guān)性。大數(shù)據(jù)數(shù)據(jù)分析無(wú)法檢驗(yàn)邏輯上的因果關(guān)系,不能致力于尋找真正的原因。Mayer-Sch觟nberger在《大數(shù)據(jù)時(shí)代》一書中指出了大數(shù)據(jù)時(shí)代處理數(shù)據(jù)理念的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對(duì)精確,要相關(guān)不要因果。因此,大數(shù)據(jù)分析邏輯體現(xiàn)為走“數(shù)據(jù)直接到價(jià)值”的捷徑。大數(shù)據(jù)數(shù)據(jù)分析關(guān)注事物相關(guān)性認(rèn)知分析,所謂相關(guān)性是指兩個(gè)或兩個(gè)以上變量的取值之間存在某種規(guī)律性,即對(duì)數(shù)量巨大的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)性的搜索、比較、聚類、分類等分析歸納。相關(guān)分析的目的是找出數(shù)據(jù)集里隱藏的相互關(guān)系網(wǎng)(關(guān)聯(lián)網(wǎng)),一般用支持度、可信度、興趣度等參數(shù)反映相關(guān)性。

3.3傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)與大數(shù)據(jù)的數(shù)據(jù)分析處理技術(shù)

進(jìn)行數(shù)據(jù)分析需要相應(yīng)的數(shù)據(jù)分析處理技術(shù)以及技術(shù)人員的全力參與。數(shù)據(jù)分析領(lǐng)域面臨的主要矛盾是快速增長(zhǎng)的數(shù)據(jù)信息需求與有限統(tǒng)計(jì)資源和滯后數(shù)據(jù)處理能力的矛盾。信息技術(shù)應(yīng)用成本的低廉化和性能效率的聚變成為數(shù)據(jù)需求和質(zhì)量要求快速增長(zhǎng)的基本動(dòng)力。傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的分析和處理遵循一般的關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)分析和處理技術(shù),技術(shù)人員經(jīng)過(guò)一定的訓(xùn)練即可勝任。對(duì)大數(shù)據(jù)進(jìn)行分析和處理需考慮以下技術(shù)因素:a)數(shù)據(jù)清洗。大數(shù)據(jù)價(jià)值密度低、冗余數(shù)據(jù)增多、垃圾數(shù)據(jù)泛濫,大數(shù)據(jù)清洗需要專業(yè)和細(xì)致。數(shù)據(jù)不能清洗過(guò)細(xì),否則會(huì)增加數(shù)據(jù)清洗復(fù)雜度,甚至有可能過(guò)濾掉有用信息。數(shù)據(jù)也不能清洗過(guò)粗,要保證數(shù)據(jù)篩選的效果。b)以MapReduce(一種編程模型)和Hadoop(Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu))為代表的非關(guān)系型數(shù)據(jù)庫(kù)的非關(guān)系型數(shù)據(jù)分析技術(shù),因其具有良好的橫向擴(kuò)展性,在大數(shù)據(jù)分析處理中得到廣泛應(yīng)用。c)要深入分析數(shù)據(jù),數(shù)據(jù)分析人員既要熟悉數(shù)據(jù)分析技術(shù)和工具,又要具備相關(guān)領(lǐng)域的專業(yè)知識(shí)。

4傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)與大數(shù)據(jù)的數(shù)據(jù)質(zhì)量?jī)?nèi)涵

高質(zhì)量數(shù)據(jù)是進(jìn)行數(shù)據(jù)分析的前提和基礎(chǔ),是數(shù)據(jù)發(fā)揮效能的保證。傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)數(shù)據(jù)質(zhì)量以有限信息邏輯的因果性、確定性、清晰且高度的結(jié)構(gòu)化為主要特征,主要關(guān)注數(shù)據(jù)自身本源的質(zhì)量問(wèn)題,例如準(zhǔn)確性、完整性和客觀性。質(zhì)量標(biāo)準(zhǔn)至少應(yīng)該包括指標(biāo)解釋(含義、范圍、口徑)、數(shù)據(jù)特征、調(diào)查方法、統(tǒng)計(jì)誤差、獲取時(shí)間、頻率及渠道等方面的內(nèi)容。大數(shù)據(jù)以既定邊界內(nèi)總體數(shù)據(jù)系統(tǒng)相關(guān)性的隨機(jī)、自身的不確定性以及總體的非結(jié)構(gòu)化為特征。由于數(shù)據(jù)質(zhì)量問(wèn)題在大數(shù)據(jù)環(huán)境下會(huì)被不斷放大,因此,大數(shù)據(jù)主要關(guān)注數(shù)據(jù)可信與溯源等非數(shù)據(jù)本源性質(zhì)量問(wèn)題,即數(shù)據(jù)資源產(chǎn)生后在傳輸、存儲(chǔ)和應(yīng)用過(guò)程中產(chǎn)生的突顯問(wèn)題。下面重點(diǎn)從流程和管理兩方面分析傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)和大數(shù)據(jù)所面臨的數(shù)據(jù)質(zhì)量的挑戰(zhàn)及應(yīng)對(duì)措施。

4.1從流程視角看數(shù)據(jù)質(zhì)量保證

從流程的角度(即從數(shù)據(jù)生命周期角度)來(lái)看,可以將數(shù)據(jù)生產(chǎn)過(guò)程分為數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)使用三個(gè)階段,三個(gè)階段對(duì)傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)和大數(shù)據(jù)的質(zhì)量保證提出了不同的要求。

1)數(shù)據(jù)采集過(guò)程中數(shù)據(jù)質(zhì)量保證問(wèn)題

數(shù)據(jù)采集階段是整個(gè)數(shù)據(jù)生命周期的開(kāi)始,這個(gè)階段的數(shù)據(jù)質(zhì)量對(duì)后續(xù)階段的數(shù)據(jù)質(zhì)量有著直接的、決定性的影響。傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)數(shù)據(jù)量小,通過(guò)編寫簡(jiǎn)單的匹配程序,甚至是人工查找即可實(shí)現(xiàn)多數(shù)據(jù)源中不一致數(shù)據(jù)的檢測(cè)和定位。大數(shù)據(jù)由于數(shù)據(jù)來(lái)源復(fù)雜,數(shù)據(jù)之間存在著沖突、不一致或相互矛盾的現(xiàn)象。因此,需要在數(shù)據(jù)獲取階段保證數(shù)據(jù)定義的一致性及元數(shù)據(jù)定義的統(tǒng)一性,以保證數(shù)據(jù)質(zhì)量。

2)數(shù)據(jù)存儲(chǔ)過(guò)程中數(shù)據(jù)質(zhì)量保證問(wèn)題

數(shù)據(jù)存儲(chǔ)是實(shí)現(xiàn)高水平數(shù)據(jù)質(zhì)量的基本保障,如果數(shù)據(jù)不能被一致、完整、有效的存儲(chǔ),數(shù)據(jù)質(zhì)量將無(wú)從談起。傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主,主要采用傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)架構(gòu)(如關(guān)系型數(shù)據(jù)庫(kù))進(jìn)行數(shù)據(jù)的存儲(chǔ)。大數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)多樣、數(shù)量龐大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、變化速度快,需要使用專門的數(shù)據(jù)庫(kù)技術(shù)和專用的數(shù)據(jù)存儲(chǔ)設(shè)備進(jìn)行大數(shù)據(jù)存儲(chǔ),以保證數(shù)據(jù)存儲(chǔ)的有效性,方便對(duì)數(shù)據(jù)進(jìn)行快速讀取。數(shù)據(jù)庫(kù)一般采用分布式文件系統(tǒng)和分布式并行數(shù)據(jù)庫(kù)(如HDFS〔分布式文件系統(tǒng)〕、BigTable〔Google設(shè)計(jì)的分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)〕等),在數(shù)據(jù)存儲(chǔ)過(guò)程中,數(shù)據(jù)格式的轉(zhuǎn)換非常關(guān)鍵和復(fù)雜,要根據(jù)大數(shù)據(jù)結(jié)構(gòu)的要求和特點(diǎn)合理設(shè)計(jì)數(shù)據(jù)存儲(chǔ)和使用規(guī)則。

3)數(shù)據(jù)使用過(guò)程中數(shù)據(jù)質(zhì)量保證問(wèn)題

數(shù)據(jù)價(jià)值的發(fā)揮在于對(duì)數(shù)據(jù)的有效分析和應(yīng)用。傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的使用需要遵從關(guān)系型數(shù)據(jù)的完整性約束和數(shù)據(jù)一致性保證技術(shù)要求。由于大數(shù)據(jù)使用人員眾多,數(shù)據(jù)規(guī)模龐大、變化速度快,對(duì)數(shù)據(jù)的處理速度要求較高,很多時(shí)候需要同步、不斷地對(duì)數(shù)據(jù)進(jìn)行提取、分析、更新和使用,因此需要保證數(shù)據(jù)使用的一致性。

4.2從管理視角看數(shù)據(jù)質(zhì)量保證

傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)一般由業(yè)務(wù)部門負(fù)責(zé)掌管數(shù)據(jù),IT部門負(fù)責(zé)信息技術(shù)的應(yīng)用,這種分離式的運(yùn)營(yíng)管理方式容易造成業(yè)務(wù)人員不了解分析不同數(shù)據(jù)所需的不同IT工具,而IT人員在運(yùn)用IT技術(shù)分析數(shù)據(jù)時(shí)不了解數(shù)據(jù)本身的內(nèi)涵,甚至?xí)龀鲥e(cuò)誤的數(shù)據(jù)解釋,影響了企業(yè)決策的準(zhǔn)確性和有效性。為了更好地利用大數(shù)據(jù),保證大數(shù)據(jù)的質(zhì)量,企業(yè)高層管理者應(yīng)給與重視和支持,需在高層配備專業(yè)數(shù)據(jù)管理人員。在大數(shù)據(jù)生產(chǎn)過(guò)程的任何一個(gè)環(huán)節(jié),企業(yè)都應(yīng)該配備相應(yīng)的專業(yè)數(shù)據(jù)管理人員,如由專門人員負(fù)責(zé)記錄定義并記錄元數(shù)據(jù),收集原始數(shù)據(jù),建模、提取并利用隱藏在大數(shù)據(jù)中的信息。

5結(jié)束語(yǔ)

傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)和大數(shù)據(jù)是數(shù)據(jù)科學(xué)發(fā)展過(guò)程中由于技術(shù)的發(fā)展和客戶需求的多樣化、個(gè)性化而必然出現(xiàn)的數(shù)據(jù)階段。由于兩者之間關(guān)系不清,界限模糊,采集、分析、處理等技術(shù)多樣,難度大,因此,從業(yè)者難免存在模糊認(rèn)識(shí)和畏難情緒。本文從兩者的演變歷史、數(shù)據(jù)特征、數(shù)據(jù)分析和質(zhì)量管理等方面對(duì)兩者的異同進(jìn)行辨析,指出傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)是大數(shù)據(jù)的簡(jiǎn)單形式和初期階段,大數(shù)據(jù)是傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的復(fù)雜演化形態(tài),大數(shù)據(jù)從廣義上來(lái)講包含了傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)。試圖通過(guò)對(duì)兩者的辨析為從業(yè)者提供一個(gè)辯證和清晰的思路。數(shù)據(jù)的分析應(yīng)用無(wú)止境,任重而道遠(yuǎn)。

參考文獻(xiàn):

1劉軍華.大數(shù)據(jù)視野下統(tǒng)計(jì)數(shù)據(jù)質(zhì)量演變的信息回歸、分布與趨勢(shì)[J].統(tǒng)計(jì)與信息論壇,2015(9):7-11.

2祝君儀.大數(shù)據(jù)時(shí)代背景下統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的評(píng)估方法及適用性分析[J].中國(guó)市場(chǎng),2015(29):41-42.

3李國(guó)杰.對(duì)大數(shù)據(jù)的再認(rèn)識(shí)[J].大數(shù)據(jù),2015(1):1-9.

4程學(xué)旗,靳小龍,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014(9):1889-1908.

5宗威,吳鋒.大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J].西安交通大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2013(5):38-43.

作者:李敬華 賈蓓 李倩茹 單位:西安通信學(xué)院

主站蜘蛛池模板: 亚洲AV无码潮喷在线观看| 四虎在线成人免费网站| 99re5精品视频在线观看| 成人国产一区二区三区| 五月激情丁香网| 欧美高清性色生活片免费观看 | 撕开老师的丝袜白丝扒开粉嫩的小| 亚洲av永久无码嘿嘿嘿| 波多野吉衣视频| 免费黄色在线网站| 色噜噜狠狠色综合欧洲| 国产影片中文字幕| 女人18毛片水真多国产| 在线观看亚洲电影| √天堂资源在线| 成在人线av无码免费高潮水| 久久精品人人做人人爽电影蜜月| 欧美人与物VIDEOS另类| 亚洲第一成年免费网站| 男女做污污无遮挡激烈免费| 午夜精品久久久久久毛片| 色综合天天综合网国产成人网 | 国产午夜福利精品一区二区三区 | 奶特别大的三级日本电影| 国产真实乱freesex| 国产中文字幕在线视频| 成年大片免费视频| 太粗太深了用力点视频| 在线观看噜噜噜私人影院| 亚洲一级毛片免观看| 欧美视频在线观看免费| 人妻老妇乱子伦精品无码专区| 美女扒开内裤羞羞网站| 国产做床爱无遮挡免费视频| 黑人巨大精品播放| 国产激情久久久久影院小草| 窝窝午夜看片成人精品| 国产精品自在线拍国产手机版| 97久久精品亚洲中文字幕无码| 大伊香蕉在线精品不卡视频 | 欧美最猛性xxxxx69交|