美章網(wǎng) 精品范文 大數(shù)據(jù)時代的數(shù)據(jù)分析范文

大數(shù)據(jù)時代的數(shù)據(jù)分析范文

前言:我們精心挑選了數(shù)篇優(yōu)質(zhì)大數(shù)據(jù)時代的數(shù)據(jù)分析文章,供您閱讀參考。期待這些文章能為您帶來啟發(fā),助您在寫作的道路上更上一層樓。

大數(shù)據(jù)時代的數(shù)據(jù)分析

第1篇

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)挖掘;體系建設(shè)

引言

進入21世紀以來,隨著高新科技的迅猛發(fā)展和經(jīng)濟全球化發(fā)展的趨勢,我國國民經(jīng)濟迅速增長,各行業(yè)、領(lǐng)域的發(fā)展也頗為迅猛,人們生活水平與日俱增,在物質(zhì)生活得到極大滿足的前提下,更加追求精神層面以及視覺上的享受,這就涉及到數(shù)據(jù)信息方面的內(nèi)容。在經(jīng)濟全球化、科技一體化、文化多元化的時代,數(shù)據(jù)信息的作用和地位是不可小覷的,處理和歸類數(shù)據(jù)信息是達到信息傳遞的基礎(chǔ)條件,是發(fā)展各學(xué)科科技交融的前提。

然而,世界上的一切事物都包含著兩個方面,這兩個方面既相互對立,又相互統(tǒng)一。矛盾即對立統(tǒng)一。矛盾具有斗爭性和同一性兩種基本屬性,我們必須用一分為二的觀點、全面的觀點看問題。同時要積極創(chuàng)造條件,促進矛盾雙方的相互轉(zhuǎn)變。數(shù)據(jù)信息在帶給人們生產(chǎn)生活極大便利的同時,還會被諸多社會數(shù)據(jù)信息所困擾。為了使廣大人民群眾的日常生活更加便捷,需要其客觀、正確地使用、處理數(shù)據(jù)信息,完善和健全數(shù)據(jù)分析技術(shù)和數(shù)據(jù)挖掘手段,通過各種切實可行的數(shù)據(jù)分析方法科學(xué)合理地分析大數(shù)據(jù)時代下的數(shù)據(jù),做好數(shù)據(jù)挖掘技術(shù)工作。

1 實施數(shù)據(jù)分析的方法

在經(jīng)濟社會快速發(fā)展的背景下,我國在科學(xué)信息技術(shù)領(lǐng)域取得長足進步??萍夹畔⒌陌l(fā)展在極大程度上促進了各行各業(yè)的繁榮發(fā)展和長久進步,使其發(fā)展更加全面化、科學(xué)化、專業(yè)化,切實提升了我國經(jīng)濟的迅猛發(fā)展,從而形成了一個最佳的良性循環(huán),我國也由此進入了大數(shù)據(jù)時代。對于大數(shù)據(jù)時代而言,數(shù)據(jù)分析環(huán)節(jié)是必不可少的組成部分,只有科學(xué)準確地對信息量極大的數(shù)據(jù)進行處理、篩選,才能使其更好地服務(wù)于社會,服務(wù)于廣大人民群眾。正確處理數(shù)據(jù)進行分析過程是大數(shù)據(jù)時代下數(shù)據(jù)分析的至關(guān)重要的環(huán)節(jié)。眾所周知,大數(shù)據(jù)具有明顯的優(yōu)勢,在信息處理的過程中,需要對大容量數(shù)據(jù)、分析速率,以及多格式的數(shù)據(jù)三大問題進行詳細的分析和掌握。

1.1 Hadoop HDFS

HDFS,即分布式文件系統(tǒng),主要由客戶端模塊、元數(shù)據(jù)管理模塊、數(shù)據(jù)存儲服務(wù)模塊等模塊組成,其優(yōu)勢是儲存容量較大的文件,通常情況下被用于商業(yè)化硬件的群體中。相比于低端的硬件群體,商業(yè)化的硬件群體發(fā)生問題的幾率較低,在儲存大容量數(shù)據(jù)方面?zhèn)涫軞g迎和推崇。Hadoop,即是分布式計算,是一個用于運行應(yīng)用程序在大型集群的廉價硬件設(shè)備上的框架,為應(yīng)用程序的透明化的提供了一組具有穩(wěn)定性以及可靠性的接口和數(shù)據(jù)運動,可以不用在價格較高、可信度較高的硬件上應(yīng)用。一般情況下,面對出現(xiàn)問題概率較高的群體,分布式文件系統(tǒng)是處理問題的首選,它采用繼續(xù)運用的手法進行處理,而且還不會使用戶產(chǎn)生明顯的運用間斷問題,這是分布式計算的優(yōu)勢所在,而且還在一定程度上減少了機器設(shè)備的維修和維護費用,特別是針對于機器設(shè)備量龐大的用戶來說,不僅降低了運行成本,而且還有效提高了經(jīng)濟效益。

1.2 Hadoop的優(yōu)點與不足

隨著移動通信系統(tǒng)發(fā)展速度的不斷加快,信息安全是人們關(guān)注的重點問題。因此,為了切實有效地解決信息數(shù)據(jù)安全問題,就需要對大量的數(shù)據(jù)進行數(shù)據(jù)分析,不斷優(yōu)化數(shù)據(jù)信息,使數(shù)據(jù)信息更加準確,安全。在進行數(shù)據(jù)信息的過程中,Hadoop是最常用的解決問題的軟件構(gòu)架之一,它可以對眾多數(shù)據(jù)實行分布型模式解決,在處理的過程中,主要依據(jù)一條具有可信性、有效性、可伸縮性的途徑進行數(shù)據(jù)信息處理,這是Hadoop特有的優(yōu)勢。但是世界上一切事物都處在永不停息地變化發(fā)展之中,都有其產(chǎn)生、發(fā)展和滅亡的歷史,發(fā)展的實質(zhì)是事物的前進和上升,是新事物的產(chǎn)生和舊事物的滅亡,因此,要用科學(xué)發(fā)展的眼光看待問題。Hadoop同其他數(shù)據(jù)信息處理軟件一樣,也具有一定的缺點和不足。主要表現(xiàn)在以下幾個方面。

首先,就現(xiàn)階段而言,在企業(yè)內(nèi)部和外部的信息維護以及保護效用方面還存在一定的不足和匱乏,在處理這種數(shù)據(jù)信息的過程中,需要相關(guān)工作人員以手動的方式設(shè)置數(shù)據(jù),這是Hadoop所具有的明顯缺陷。因為在數(shù)據(jù)設(shè)置的過程中,相關(guān)數(shù)據(jù)信息的準確性完全是依靠工作人員而實現(xiàn)的,而這種方式的在無形中會浪費大量的時間,并且在設(shè)置的過程中出現(xiàn)失誤的幾率也會大大增加。一旦在數(shù)據(jù)信息處理過程中的某一環(huán)節(jié)出現(xiàn)失誤,就會導(dǎo)致整個數(shù)據(jù)信息處理過程失效,浪費了大量的人力、物力,以及財力。

其次,Hadoop需求社會具備投資構(gòu)建的且專用的計算集群,在構(gòu)建的過程中,會出現(xiàn)很多難題,比如形成單個儲存、計算數(shù)據(jù)信息和儲存,或者中央處理器應(yīng)用的難題。不僅如此,即使將這種儲存形式應(yīng)用于其他項目的上,也會出現(xiàn)兼容性難的問題。

2 實施數(shù)據(jù)挖掘的方法

隨著科學(xué)技術(shù)的不斷發(fā)展以及我國社會經(jīng)濟體系的不斷完善,數(shù)據(jù)信息處理逐漸成為相關(guān)部門和人們重視的內(nèi)容,并且越來越受到社會各界的廣泛關(guān)注和重視,并使數(shù)據(jù)信息分析和挖掘成為熱點話題。在現(xiàn)階段的大數(shù)據(jù)時代下,實施數(shù)據(jù)挖掘項目的方法有很多,且不同的方法適用的挖掘方向不同?;诖?,在實際進行數(shù)據(jù)挖掘的過程中,需要根據(jù)數(shù)據(jù)挖掘項目的具體情況選擇相應(yīng)的數(shù)據(jù)挖掘方法。數(shù)據(jù)挖掘方法有分類法、回歸分析法、Web數(shù)據(jù)挖掘法,以及關(guān)系規(guī)則法等等。文章主要介紹了分類法、回歸分析法、Web數(shù)據(jù)挖掘法對數(shù)據(jù)挖掘過程進行分析。

2.1 分類法

隨著通信行業(yè)快速發(fā)展,基站建設(shè)加快,網(wǎng)絡(luò)覆蓋多元化,數(shù)據(jù)信息對人們的生產(chǎn)生活影響越來越顯著。計算機技術(shù)等應(yīng)用與發(fā)展在很大程度上促進了經(jīng)濟的進步,提高了人們的生活水平,推動了人類文明的歷史進程。在此背景下,數(shù)據(jù)分析與挖掘成為保障信息安全的基礎(chǔ)和前提。為了使得數(shù)據(jù)挖掘過程更好地進行,需要不斷探索科學(xué)合理的方法進行分析,以此確保大數(shù)據(jù)時代的數(shù)據(jù)挖掘進程更具準確性和可靠性。分類法是數(shù)據(jù)挖掘中常使用的方法之一,主要用于在數(shù)據(jù)規(guī)模較大的數(shù)據(jù)庫中尋找特質(zhì)相同的數(shù)據(jù),并將大量的數(shù)據(jù)依照不同的劃分形式區(qū)分種類。對數(shù)據(jù)庫中的數(shù)據(jù)進行分類的主要目的是將數(shù)據(jù)項目放置在特定的、規(guī)定的類型中,這樣做可以在極大程度上為用戶減輕工作量,使其工作內(nèi)容更加清晰,便于后續(xù)時間的內(nèi)容查找。另外,數(shù)據(jù)挖掘的分類還可以為用戶提高經(jīng)濟效益。

2.2 回歸分析法

除了分類法之外,回顧分析法也是數(shù)據(jù)挖掘經(jīng)常采用的方法。不同于分類法中對相同特質(zhì)的數(shù)據(jù)進行分類,回歸分析法主要是對數(shù)據(jù)庫中具有獨特性質(zhì)的數(shù)據(jù)進行展現(xiàn),并通過利用函數(shù)關(guān)系來展現(xiàn)數(shù)據(jù)之間的聯(lián)系和區(qū)別,進而分析相關(guān)數(shù)據(jù)信息特質(zhì)的依賴程度。就目前而言,回歸分析法通常被用于數(shù)據(jù)序列的預(yù)計和測量,以及探索數(shù)據(jù)之間存在的聯(lián)系。特別是在市場營銷方面,實施回歸分析法可以在營銷的每一個環(huán)節(jié)中都有所體現(xiàn),能夠很好地進行數(shù)據(jù)信息的挖掘,進而為市場營銷的可行性奠定數(shù)據(jù)基礎(chǔ)。

2.3 Web數(shù)據(jù)挖掘法

通訊網(wǎng)絡(luò)極度發(fā)達的現(xiàn)今時代,大大地豐富了人們的日常生活,使人們的生活更具科技性和便捷性,這是通過大規(guī)模的數(shù)據(jù)信息傳輸和處理而實現(xiàn)的。為了將龐大的數(shù)據(jù)信息有目的性地進行分析和挖掘,就需要通過合適的數(shù)據(jù)挖掘方法進行處理。Web數(shù)據(jù)挖掘法主要是針對網(wǎng)絡(luò)式數(shù)據(jù)的綜合性科技,到目前為止,在全球范圍內(nèi)較為常用的Web數(shù)據(jù)挖掘算法的種類主要有三種,且這三種算法涉及的用戶都較為籠統(tǒng),并沒有明顯的界限可以對用戶進行明確、嚴謹?shù)膭澐?。隨著高新科技的迅猛發(fā)展,也給Web數(shù)據(jù)挖掘法帶來了一定的挑戰(zhàn)和困難,尤其是在用戶分類層面、網(wǎng)站公布內(nèi)容的有效層面,以及用戶停留頁面時間長短的層面。因此,在大力推廣和宣傳Web技術(shù)的大數(shù)據(jù)時代,數(shù)據(jù)分析技術(shù)人員要不斷完善Web數(shù)據(jù)挖掘法的內(nèi)容,不斷創(chuàng)新數(shù)據(jù)挖掘方法,以期更好地利用Web數(shù)據(jù)挖掘法服務(wù)于社會,服務(wù)于人們。

3 大數(shù)據(jù)分析挖掘體系建設(shè)的原則

隨著改革開放進程的加快,我國社會經(jīng)濟得到明顯提升,人們物質(zhì)生活和精神文化生活大大滿足,特別是二十一世紀以來,科學(xué)信息技術(shù)的發(fā)展,更是提升了人們的生活水平,改善了生活質(zhì)量,計算機、手機等先進的通訊設(shè)備比比皆是,傳統(tǒng)的生產(chǎn)關(guān)系式和生活方式已經(jīng)落伍,并逐漸被淘汰,新的產(chǎn)業(yè)生態(tài)和生產(chǎn)方式噴薄而出,人們開始進入了大數(shù)據(jù)時代。因此,為了更好地收集、分析、利用數(shù)據(jù)信息,并從龐大的數(shù)據(jù)信息中精準、合理地選擇正確的數(shù)據(jù)信息,進而更加迅速地為有需要的人們傳遞信息,就需要建設(shè)大數(shù)據(jù)分析與挖掘體系,并在建設(shè)過程中始終遵循以下幾個原則。

3.1 平臺建設(shè)與探索實踐相互促進

經(jīng)濟全球化在對全球經(jīng)濟發(fā)展產(chǎn)生巨大推力的同時,還使得全球技術(shù)競爭更加激烈。為了實現(xiàn)大數(shù)據(jù)分析挖掘體系良好建設(shè)的目的,需要滿足平臺建設(shè)與探索實踐相互促進,根據(jù)體系建設(shè)實際逐漸摸索分析數(shù)據(jù)挖掘的完整流程,不斷積累經(jīng)驗,積極引進人才,打造一支具有專業(yè)數(shù)據(jù)分析與挖掘水準的隊伍,在實際的體系建設(shè)過程中吸取失敗經(jīng)驗,并適當(dāng)借鑒發(fā)達國家的先進數(shù)據(jù)平臺建設(shè)經(jīng)驗,取其精華,促進平臺建設(shè),以此構(gòu)建并不斷完善數(shù)據(jù)分析挖掘體系。

3.2 技術(shù)創(chuàng)新與價值創(chuàng)造深度結(jié)合

從宏觀意義上講,創(chuàng)新是民族進步的靈魂,是國家興旺發(fā)達的不竭動力。而對于數(shù)據(jù)分析挖掘體系建設(shè)而言,創(chuàng)新同樣具有重要意義和作用。創(chuàng)新是大數(shù)據(jù)的靈魂,在建設(shè)大數(shù)據(jù)分析挖掘體系過程中,要將技術(shù)創(chuàng)新與價值創(chuàng)造深度結(jié)合,并將價值創(chuàng)造作為目標,輔以技術(shù)創(chuàng)新手段,只有這樣,才能達到大數(shù)據(jù)分析挖掘體系建設(shè)社會效益與經(jīng)濟效益的雙重目的。

3.3 人才培養(yǎng)與能力提升良性循環(huán)

意識對物質(zhì)具有反作用,正確反映客觀事物及其發(fā)展規(guī)律的意識,能夠指導(dǎo)人們有效地開展實踐活動,促進客觀事物的發(fā)展。歪曲反映客觀事物及其發(fā)展規(guī)律的意識,則會把人的活動引向歧途,阻礙客觀事物的發(fā)展。由此可以看出意識正確與否對于大數(shù)據(jù)分析挖掘體系平臺建設(shè)的重要意義?;诖耍囵B(yǎng)具有大數(shù)據(jù)技術(shù)能力和創(chuàng)新能力的數(shù)據(jù)分析人才,并定期組織教育學(xué)習(xí)培訓(xùn),不斷提高他們的數(shù)據(jù)分析能力,不斷進行交流和溝通,培養(yǎng)數(shù)據(jù)分析意識,提高數(shù)據(jù)挖掘能力,實現(xiàn)科學(xué)的數(shù)據(jù)挖掘流程與高效的數(shù)據(jù)挖掘執(zhí)行,從而提升數(shù)據(jù)分析挖掘體系平臺建設(shè)的良性循環(huán)。

4 結(jié)束語

通過文章的綜合論述可知,在經(jīng)濟全球化趨勢迅速普及的同時,科學(xué)技術(shù)不斷創(chuàng)新與完善,人們的生活水平和品質(zhì)都有了質(zhì)的提升,先進的計算機軟件等設(shè)備迅速得到應(yīng)用和推廣。人們實現(xiàn)信息傳遞的過程是通過對大規(guī)模的數(shù)據(jù)信息進行處理和計算形成的,而信息傳輸和處理等過程均離不開數(shù)據(jù)信息的分析與挖掘??梢哉f,我國由此進入了大數(shù)據(jù)時代。然而,就我國目前數(shù)據(jù)信息處理技術(shù)來看,相關(guān)數(shù)據(jù)技術(shù)還處于發(fā)展階段,與發(fā)達國家的先進數(shù)據(jù)分析技術(shù)還存在一定的差距和不足。所以,相關(guān)數(shù)據(jù)分析人員要根據(jù)我國的基本國情和標準需求對數(shù)據(jù)分析技術(shù)進行完善,提高思想意識,不斷提出切實可行的方案進行數(shù)據(jù)分析技術(shù)的創(chuàng)新,加大建設(shè)大數(shù)據(jù)分析挖掘體系的建設(shè),搭建可供進行數(shù)據(jù)信息處理、劃分的平臺,為大數(shù)據(jù)時代的數(shù)據(jù)分析和挖掘提供更加科學(xué)、專業(yè)的技術(shù),從而為提高我國的科技信息能力提供基本的保障和前提。

參考文獻

[1]唐東波.基于神經(jīng)網(wǎng)絡(luò)集成的電信客戶流失預(yù)測建模及應(yīng)用[J].大眾商務(wù),2010(06).

[2]劉蓉,陳曉紅.基于數(shù)據(jù)挖掘的移動通信客戶消費行為分析[J].計算機應(yīng)用與軟件,2006(02).

[3]魏娟,梁靜國.基于數(shù)據(jù)挖掘技術(shù)的企業(yè)客戶關(guān)系管理(CRM)[J].商業(yè)研究,2005(07).

[4]田苗苗.數(shù)據(jù)挖掘之決策樹方法概述[J].長春大學(xué)學(xué)報,2004(06).

[5]王曉佳,楊善林,陳志強.大數(shù)據(jù)時代下的情報分析與挖掘技術(shù)研究――電信客戶流失情況分析[J].情報學(xué)報,2013.

[6]劉京臣.大數(shù)據(jù)時代的古典文學(xué)研究――以數(shù)據(jù)分析、數(shù)據(jù)挖掘與圖像檢索為中心[J].文學(xué)遺產(chǎn),2015.

第2篇

關(guān)鍵詞:大數(shù)據(jù)時代 數(shù)據(jù)分析 理念 辨析

中圖分類號:C8 文獻標識碼:A 文章編號:1674-098X(2017)01(c)-0136-02

近年來,對大數(shù)據(jù)的研究和應(yīng)用已經(jīng)受到我國各界人士的廣泛關(guān)注,國家統(tǒng)計局已經(jīng)把信息處理技術(shù)列為關(guān)鍵性的創(chuàng)新技術(shù)工程之一。隨著我國大型計算機的迅速發(fā)展,處理大規(guī)模的復(fù)雜數(shù)據(jù)的能力逐漸提升,從這些大數(shù)據(jù)中提取有效信息的能力也逐步加強,毫無疑問,我國進入大數(shù)據(jù)時代的腳步將會進一步加快,人們將會感受到大數(shù)據(jù)時代下給其帶來的生活、工作上的便利。

1 大數(shù)據(jù)和大數(shù)據(jù)時代簡介

1.1 大數(shù)據(jù)

大數(shù)據(jù)是指遠大于一般數(shù)據(jù)的巨量資料,需要人們通過全新的處理模式才能獲取其中有價值的數(shù)據(jù)信息。“大數(shù)據(jù)”這一概念最早由維克托在《大數(shù)據(jù)時代》一書中引用得來,最開始對其定義為:不通過傳統(tǒng)的隨機分析方法直接對所有數(shù)據(jù)進行分析處理,主要有大量、高速、多樣和價值4個特征。

大數(shù)據(jù)可以分為大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前受到最多應(yīng)用的是大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。人們通過收集數(shù)據(jù),提取有效信息就可以為企業(yè)發(fā)展或者社會活動提供最有效的實施途徑。因此,可以這樣說,在大數(shù)據(jù)的王國里,最成功的企業(yè)就是那些善于運用機遇的公司。

1.2 大數(shù)據(jù)時代

大數(shù)據(jù)時代是建立在信息時代的基礎(chǔ)上,通過互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等渠道廣泛搜集海量數(shù)據(jù)資源并對其進行存儲、提取和展示。在大數(shù)據(jù)時代,幾乎所有人都能夠享受從任一數(shù)據(jù)中獲得所需要的信息,大數(shù)據(jù)時代也具有社會性、廣泛性、公開性和動態(tài)性4個特征。大數(shù)據(jù)時代的發(fā)展將會引領(lǐng)社會眾多領(lǐng)域和行業(yè)的變革,對人類的生產(chǎn)、生活方式產(chǎn)生深遠影響。

在大數(shù)據(jù)時代下,傳統(tǒng)的數(shù)據(jù)分析思想已經(jīng)不再適用,應(yīng)該做出改變。首先,應(yīng)該轉(zhuǎn)變抽樣思想,大數(shù)據(jù)時代下的樣本即總體,已經(jīng)不再依靠少量樣本分析事物的相關(guān)規(guī)律;其次,要轉(zhuǎn)變數(shù)據(jù)精確測量的思想,大數(shù)據(jù)時代要學(xué)會接受繁冗復(fù)雜的多樣性數(shù)據(jù);最后要轉(zhuǎn)變探究事物的因果關(guān)系思想,轉(zhuǎn)為研究事物的相關(guān)規(guī)律。以上思想的轉(zhuǎn)變,均與統(tǒng)計學(xué)有關(guān),因此,下面將分析大數(shù)據(jù)對統(tǒng)計學(xué)帶來的具體影響。

2 大數(shù)據(jù)對統(tǒng)計學(xué)研究工作的影響

2.1 大稻莘岣渙送臣蒲У難芯慷韻

大數(shù)據(jù)影響的領(lǐng)域范圍非常廣泛,在大數(shù)據(jù)時代,不僅能夠?qū)σ越Y(jié)構(gòu)數(shù)據(jù)為度量單位的客觀主體,還可以對不能用數(shù)據(jù)衡量關(guān)系的文本、圖片、音像等非結(jié)構(gòu)數(shù)據(jù)進行分析,大大擴展了傳統(tǒng)統(tǒng)計學(xué)的研究范疇。

2.2 大數(shù)據(jù)影響統(tǒng)計學(xué)的工作進程

統(tǒng)計學(xué)是對所搜集的數(shù)據(jù)進行整理和歸納的方法論學(xué)科。大數(shù)據(jù)時代的資料十分豐富,分析數(shù)據(jù)已經(jīng)不再需要抽取樣本了,因為數(shù)據(jù)總體即是樣本。此時,傳統(tǒng)的統(tǒng)計學(xué)抽取樣本分析的工作方法已經(jīng)不再適用,而是被現(xiàn)代化通過傳感器自動采集數(shù)據(jù)的方法所取代。

3 大數(shù)據(jù)時代下數(shù)據(jù)分析理念辨析

3.1 數(shù)據(jù)分析理念

傳統(tǒng)的數(shù)據(jù)分析是指用統(tǒng)計學(xué)方法將收集的數(shù)據(jù)資料進行系列分析,以便最大化地開發(fā)數(shù)據(jù)中的功能,從中提取有價值的數(shù)據(jù),再和未經(jīng)處理的數(shù)據(jù)進行對比,發(fā)揮數(shù)據(jù)的作用。大數(shù)據(jù)時代下的數(shù)據(jù)分析,由于數(shù)據(jù)量非常大,數(shù)據(jù)本身的動態(tài)特性使人們要研究的數(shù)據(jù)難度加大,因此,大數(shù)據(jù)時代的數(shù)據(jù)分析一般利用統(tǒng)計學(xué)的理念,采用更廣泛的方法統(tǒng)計和分析數(shù)據(jù),以此擺脫對數(shù)據(jù)樣本的依賴,也可以避免數(shù)據(jù)的流動性給分析結(jié)果帶來的不確定性。大數(shù)據(jù)時代更加注重數(shù)據(jù)的增值分析工作,研究數(shù)據(jù)的未來走向,使其中有價值的數(shù)據(jù)可以增值,將有效數(shù)據(jù)有機整合,能夠及時發(fā)現(xiàn)問題和解決問題。

3.2 數(shù)據(jù)分析的主要程序

3.2.1 數(shù)據(jù)整理

統(tǒng)計數(shù)據(jù)的整理主要分為4個步驟:審核統(tǒng)計資料、對資料進行分組、匯總和編制統(tǒng)計表格或圖表、保管和公布。當(dāng)統(tǒng)計對象為數(shù)據(jù)資料龐大、類型復(fù)雜、要求處理速度快的大數(shù)據(jù)時,這些步驟就顯得繁冗了,尤其是圖表的繪制是沒辦法實現(xiàn)的,因此,只需要對資料進行審核和存儲。大數(shù)據(jù)的審核和存儲不同于傳統(tǒng)意義上的數(shù)據(jù)審核和保存,大數(shù)據(jù)時代利用先進的現(xiàn)代化工具進行數(shù)據(jù)的審核和保存。

3.2.2 數(shù)據(jù)的開發(fā)

傳統(tǒng)數(shù)據(jù)的樣本量較小,目的主要著眼于解決問題,數(shù)據(jù)的時效性較強,數(shù)據(jù)的使用價值會隨時間流逝而降低。而大數(shù)據(jù)的流動性很強,隨著時間的推移會越來越壯大,而且具有推陳出新、價值重塑的可能,因此,在大數(shù)據(jù)時代,數(shù)據(jù)是會不斷增值的,開發(fā)大數(shù)據(jù),是一項有重要意義的工作。

3.2.3 數(shù)據(jù)的應(yīng)用

其中分別對教育、運輸、消費品、電力、石油與天然氣、醫(yī)療護理、消費金融等進行分析和預(yù)測。根據(jù)這些行業(yè)的特點,可以總結(jié)出大數(shù)據(jù)挖掘商業(yè)價值的基本方法為:客戶群體細分,為每個群體量定特別的服務(wù);模擬現(xiàn)實環(huán)境,發(fā)掘新的需求的同時提高投資的回報率;降低部門聯(lián)系,提高整條管理鏈條和產(chǎn)業(yè)鏈條的效率;降低服務(wù)成本,發(fā)現(xiàn)隱藏線索產(chǎn)品和服務(wù)的創(chuàng)新。從圖1中可以看出,大數(shù)據(jù)的應(yīng)用群體十分廣泛,能否對獲取的數(shù)據(jù)及時、迅速處理,對該行業(yè)的發(fā)展具有重要意義。

4 結(jié)語

該文主要對大數(shù)據(jù)時代下數(shù)據(jù)分析理念進行了相關(guān)的分析和研究。首先對大數(shù)據(jù)及大數(shù)據(jù)時代的概念做了簡要闡述,接著分析了大數(shù)據(jù)對統(tǒng)計學(xué)的兩點影響,最后分析了大數(shù)據(jù)時代下的數(shù)據(jù)分析理念??偠灾?,在現(xiàn)代社會,大數(shù)據(jù)的應(yīng)用已經(jīng)成為時代新的特征,能否從海量數(shù)據(jù)中提取有價值的信息做出相應(yīng)的預(yù)測,對于企業(yè)或者個人的發(fā)展具有重要意義。

參考文獻

第3篇

關(guān)鍵詞:大數(shù)據(jù)時代;大數(shù)據(jù);統(tǒng)計學(xué);數(shù)據(jù)分析

引言:

目前階段,在計算機處理技術(shù)不斷發(fā)展的背景下,在對規(guī)模較大并且較為復(fù)雜的數(shù)據(jù)進行處理過程中,人們已經(jīng)逐漸掌握了方法與技能,并且能夠在大規(guī)模的數(shù)據(jù)中找出具有一定價值的信息,所以,大數(shù)據(jù)時代已經(jīng)來臨。在數(shù)據(jù)時代中,在人文社科與人類自然科學(xué)技術(shù)等方面都會有較大的發(fā)展,同時也會一定程度上改變?nèi)藗兊纳钆c工作方式。除此之外,大數(shù)據(jù)時代也同樣為統(tǒng)計學(xué)提供了良好的發(fā)展機會,但也存在一定的挑戰(zhàn)。

一、大數(shù)據(jù)時代的概念

大數(shù)據(jù)時代的提出者是麥肯錫,他認為數(shù)據(jù)已經(jīng)逐漸進入到各個行業(yè)與各業(yè)務(wù)職能的領(lǐng)域中,并且逐漸成為了主要的生產(chǎn)因素[1]。因此,人們在對大規(guī)模數(shù)據(jù)進行挖掘與應(yīng)用的過程,也就意味著新的生產(chǎn)率增長的來臨。雖然“大數(shù)據(jù)”在眾多行業(yè)被廣泛應(yīng)用,但是,特別是在信息與互聯(lián)網(wǎng)的領(lǐng)域中應(yīng)用突出。

二、怎樣理解大數(shù)據(jù)

(一)大數(shù)據(jù)概念界定與構(gòu)成

大數(shù)據(jù),即由于日常產(chǎn)生的數(shù)據(jù)量快速增長,使得數(shù)據(jù)庫無法利用相應(yīng)的管理工具對其進行管理與收集,最終導(dǎo)致在進行搜索、分析、存取、共享數(shù)據(jù)時具有較大的困難。

大數(shù)據(jù)的構(gòu)成包括四部分,并將其總結(jié)為4V,即Volume,Variety,Value,Velocity[2]。第一部分是價值密度低,將視頻作為具體實例來說,實現(xiàn)連續(xù)并且不間斷的監(jiān)控,其中有價值的數(shù)據(jù)信息只有一兩秒。第二部分是數(shù)據(jù)體量極大,已經(jīng)從TB實現(xiàn)了PB的躍升。第三部分是數(shù)據(jù)類型眾多,主要包括視頻、圖片、網(wǎng)絡(luò)日志以及地理信息等。第四部分是處理的速度超快,可以用一秒定律來解釋。

(二)海量數(shù)據(jù)帶來哪些挑戰(zhàn)

第一,數(shù)據(jù)存儲。由于大數(shù)據(jù)的數(shù)據(jù)規(guī)模是PB級別,所以,存儲的系統(tǒng)也需要進行等級的拓展,并且可以通過磁盤柜或者是增加模塊實現(xiàn)容量的增加。然而,目前階段,數(shù)據(jù)的增長速度驚人,所以系統(tǒng)資源的消耗也不斷增加,導(dǎo)致系統(tǒng)的運行效率有所下降[3]。因為對海量數(shù)據(jù)始終停留在分布式的存儲階段,所以,對于爆炸式的數(shù)據(jù)增長,原有的存儲方案已經(jīng)無法滿足現(xiàn)有的數(shù)據(jù)變化需求。

第二,處理技術(shù)。由于海量數(shù)據(jù)的分布性與數(shù)據(jù)量與以往存在較大的差異,所以,原有的數(shù)據(jù)管理技術(shù)已經(jīng)處于落后狀態(tài)。

第三,數(shù)據(jù)安全。在互聯(lián)網(wǎng)規(guī)模逐漸擴大的情況下,數(shù)據(jù)的應(yīng)用已經(jīng)出現(xiàn)指數(shù)級別的增長,所以,對于數(shù)據(jù)安全的保護與監(jiān)控來說具有一定的難度。

(三)大數(shù)據(jù)相關(guān)應(yīng)用與實踐

第一,體育賽事應(yīng)用。以2014年的世界杯為例,在充分發(fā)揮記者與編輯敏銳度的基礎(chǔ)上,騰訊也利用對大數(shù)據(jù)的分析以及云計算等方式來為為其提供移動與社交的數(shù)據(jù)。與此同時,騰訊與IBM進行合作,并通過文化、賽事與球迷三方面來對世界杯球迷的關(guān)注重點進行信息的挖掘,進而實現(xiàn)新欄目的創(chuàng)作,并且在短時間內(nèi)贏得了廣大球迷的認可與關(guān)注。

第二,產(chǎn)品推薦應(yīng)用。產(chǎn)品推薦的應(yīng)用比較廣泛,可以對客戶信息、交易歷史、購買過程等數(shù)據(jù)進行全面的分析,并進行有價值信息的挖掘。同時,針對同一產(chǎn)品的不同客戶訪問信息也可以進行挖掘。最終,通過對客戶行為的分析,來確定消費者的共,這樣就可以更好的為客戶推薦產(chǎn)品。

除此之外,在產(chǎn)品推薦中,可以在對客戶社交行為進行信息挖掘與分析的基礎(chǔ)上來進行社區(qū)的營銷。對客戶微信微博以及社區(qū)活動中的偏好數(shù)據(jù)進行分析,并為其提供符合客戶興趣愛好的產(chǎn)品。

圖一

三、如何分析大數(shù)據(jù)

(一)如何挖掘數(shù)據(jù)中價值

以匹配廣告為具體事例進行分析,主要有兩種數(shù)據(jù)。第一種是廣告庫,其中包括廣告庫以及廣告的客戶信息[4]。但是這種數(shù)據(jù)信息比較適合在傳統(tǒng)數(shù)據(jù)庫中應(yīng)用。第二種是用戶在觀看廣告后的行為??梢园岩陨蟽煞N數(shù)據(jù)進行有效的結(jié)合,并通過相應(yīng)的算法來體現(xiàn)價值。在實踐應(yīng)用過程中,可以充分體會到第二種信息的重要作用??梢詾橛脩籼峁┢渌璧男畔?,并通過群體智能以及群體行為對之前用戶使用的效果進行分析,最終通過具體的反饋機制,將最優(yōu)質(zhì)的信息提供給用戶,還可以進行搜索或者是查詢信息。

(二)如何做處理與分析

第一,更新抽樣調(diào)查的工作理念。由于大數(shù)據(jù)時代的數(shù)據(jù)樣本是以往資料綜合,所以,可以對相關(guān)事務(wù)的數(shù)據(jù)信息進行分析,進一步對總體進行了解,還可以更好的了解局部。同時需要解決以下問題:抽樣框架不穩(wěn)定,調(diào)查目的設(shè)定不合理、樣本量受限[5]。第二,積極改變對于數(shù)據(jù)精確度的標準。在大數(shù)據(jù)時代的背景下,數(shù)據(jù)的來源比較廣泛,并且對數(shù)據(jù)進行處理的技術(shù)也有所提高,所以,可以允許數(shù)據(jù)存在不準確的情況。大數(shù)據(jù)時代需要吸收多種數(shù)據(jù),但并需要一味的要求數(shù)據(jù)精準。第三,合理轉(zhuǎn)變數(shù)據(jù)關(guān)系的分析重點。由于大數(shù)據(jù)時代的數(shù)據(jù)規(guī)模比較大,而且結(jié)構(gòu)也十分復(fù)雜,變量的關(guān)系也比較繁雜。所以,在對數(shù)據(jù)進行分析的過程中,不應(yīng)該對因果關(guān)系進行仔細的分析,而重要的是對事物相關(guān)的關(guān)系進行分析。需要轉(zhuǎn)換思路,對事物關(guān)系的形式與目的進行詳細的分析。

四、 大數(shù)據(jù)對統(tǒng)計學(xué)科和統(tǒng)計研究工作的影響

(一) 拓展統(tǒng)計學(xué)研究領(lǐng)域

因為大數(shù)據(jù)時代的到來,所以會對各個領(lǐng)域產(chǎn)生一定的影響,同樣給統(tǒng)計學(xué)帶來影響。在統(tǒng)計學(xué)中,其主要的研究對象就是其所要認識的客體,是客觀存在事物自身的數(shù)量特征與關(guān)系。其中,統(tǒng)計學(xué)研究對象最主要的特點就是數(shù)量性。然而,在傳統(tǒng)的統(tǒng)計學(xué)當(dāng)中,數(shù)據(jù)主要是試驗與調(diào)查的數(shù)值。在大數(shù)據(jù)時代中,統(tǒng)計研究的對象不僅包括以結(jié)構(gòu)數(shù)據(jù)度量的數(shù)量,此外,還可以包括一些無法用數(shù)量關(guān)系進行衡量的半結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù),其中可以包括動畫、圖片、聲音、文本等等[6]。所以,可以說,在大數(shù)據(jù)時代背景下,統(tǒng)計學(xué)的研究對象領(lǐng)域有所擴大。

(二) 對統(tǒng)計計算規(guī)范產(chǎn)生影響

在傳統(tǒng)的統(tǒng)計學(xué)當(dāng)中,一般是使用方差、平均數(shù)以及相對數(shù)等數(shù)據(jù)計算規(guī)范來真實反映事物量特征的,同時還可以反映事物量的關(guān)系與界限,能夠通過數(shù)據(jù)計算規(guī)范來計算出具體的數(shù)值。但是,半結(jié)構(gòu)與非結(jié)構(gòu)的數(shù)據(jù)是無法通過傳統(tǒng)數(shù)據(jù)計算規(guī)范進行計算的[7]。所以,在大數(shù)據(jù)時代的背景下,傳統(tǒng)的數(shù)據(jù)計算規(guī)范也同樣遇到了難題。

(三) 對統(tǒng)計研究工作的過程產(chǎn)生影響

1. 數(shù)據(jù)整理和分析

第一,數(shù)據(jù)審核。原有的數(shù)據(jù)審核主要的目的就是對數(shù)據(jù)準確性和完整性進行嚴格的檢查。但是,在大數(shù)據(jù)的時代中,對數(shù)據(jù)的審核就必須要確保數(shù)據(jù)處理的速度以及預(yù)測的準確程度,同時還需要對數(shù)處理的規(guī)模進行準確的確定,也就是數(shù)據(jù)量級別的確定。除此之外,因為大數(shù)據(jù)自身具有不穩(wěn)定性,并且十分混亂。但是,即使是這樣,大數(shù)據(jù)也能夠挖掘出信息內(nèi)部存在的隱蔽關(guān)系以及有價值的知識。所以,大數(shù)據(jù)所反映的研究對象存在準確與不準確兩種,但是,任何一種的數(shù)據(jù)都具有一定的價值,通常情況下是不需要進行替換或者是刪除的[8]。

第二,數(shù)據(jù)存儲。在以往的數(shù)據(jù)存儲中,審核、匯總以及編制的圖表等資料是重點資料,并且需要進行保存起來的。然而,大數(shù)據(jù)保存最主要的目的就是對存儲的成本進行有效的控制,同時需要根據(jù)相應(yīng)的法規(guī)計劃來確定數(shù)據(jù)存儲的規(guī)模。

2. 數(shù)據(jù)積累、開發(fā)與應(yīng)用

第一,數(shù)據(jù)積累。傳統(tǒng)統(tǒng)計工作主要是根據(jù)所制定的研究目的來對數(shù)據(jù)進行匯總與分類,并進行保存,這樣可以更好的為后期數(shù)據(jù)的分析與查詢提供有利的條件。但是,在大數(shù)據(jù)的積累中,具有價值的信息需要對大數(shù)據(jù)進行處理后才可以發(fā)現(xiàn)。不容置疑,大數(shù)據(jù)具有一定的復(fù)雜性,所以,在積累的過程中,不可以進行簡單的處理。因為大數(shù)據(jù)的規(guī)模大,結(jié)構(gòu)也比較復(fù)雜,無法實現(xiàn)簡單的分類,而且,在對大數(shù)據(jù)進行簡單整理時非常容易使其混亂,對其真實性產(chǎn)生影響,可能會丟失具有價值的信息。

第二,數(shù)據(jù)開發(fā)。大數(shù)據(jù)時代下的數(shù)據(jù)流動性極強,所以,其自身的價值有再生性。因此,大數(shù)據(jù)時代的數(shù)據(jù)不會貶值,反而會增值。為了能夠?qū)λ芯康膶ο筮M行更深入的了解,就需要對其整合。

第三,數(shù)據(jù)應(yīng)用。對數(shù)據(jù)的傳統(tǒng)應(yīng)用主要是為了對現(xiàn)象進行解釋與預(yù)測。但是,在大數(shù)據(jù)時代,數(shù)據(jù)應(yīng)用的核心就是在相關(guān)關(guān)系前提下的預(yù)測。

結(jié)語

綜上所述,現(xiàn)階段我國社會正處于大數(shù)據(jù)時代,并且對于社會未來的發(fā)展具有重要的意義。文章對大數(shù)據(jù)時代的概念與定義以及構(gòu)成進行了闡述與分析,同時,對大數(shù)據(jù)的實際應(yīng)用與實踐進行了探討。針對大數(shù)據(jù)價值的挖掘與分析處理進行了研究,最后列舉了大數(shù)據(jù)對統(tǒng)計學(xué)科以及統(tǒng)計研究工作的影響,進而對今后大數(shù)據(jù)的數(shù)據(jù)分析工作提供了有價值的理論依據(jù),并積極的推動了大數(shù)據(jù)時代的發(fā)展,進一步促進了社會的進步。(作者單位:中國人民大學(xué))

參考文獻:

[1]朱建平,章貴軍,劉曉葳等.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014,31(2):10-19.

[2]張學(xué)敏.大數(shù)據(jù)時代的數(shù)據(jù)分析[J].電子世界,2014(16):5-5,6.

[3]李祥歌,王奇奇,郭軼博等.基于大數(shù)據(jù)時代的數(shù)據(jù)挖掘及分析[J].電子制作,2015(3):81-81.

[4]劉江娜.大數(shù)據(jù)時代:為什么數(shù)據(jù)分析能讓你的企業(yè)脫穎而出[J].環(huán)球市場信息導(dǎo)報,2014(36):92-93.

[5]郭華庚,向禮花.大數(shù)據(jù)時代網(wǎng)絡(luò)信息歸檔的元數(shù)據(jù)分析[J].貴州師范學(xué)院學(xué)報,2015,31(3):24-28.

[6]高書國.大數(shù)據(jù)時代的數(shù)據(jù)困惑――教育研究的數(shù)據(jù)困境[J].教育科學(xué)研究,2015(1):24-30.

主站蜘蛛池模板: 538在线视频观看| 久久久久国色av免费看| 狠狠色婷婷久久综合频道日韩| 国产国语在线播放视频| 91短视频在线免费观看| 富二代琪琪在线观看| 久久一区二区明星换脸| 最好看的免费观看视频| 亚洲欧美另类一区| 瑟瑟网站在线观看| 午夜高清在线观看| 菠萝蜜视频入口| 国产性生交xxxxx免费| 2018天天操| 在线中文字幕网站| x8x8在线观看| 成年女人免费碰碰视频| 久久大香伊焦在人线免费| 桃子视频在线观看高清免费视频| 亚洲精品亚洲人成在线观看麻豆| 精品一区二区三区免费毛片| 国产MD视频一区二区三区| 黄a大片av永久免费| 国产熟睡乱子伦视频| 2022麻豆福利午夜久久| 在线免费你懂的| chinese中国农村夫tube| 官场猎艳警花美乳美妇| 中文字幕亚洲专区| 日本免费人成黄页网观看视频| 久草免费福利资源站| 欧美11一12周岁a在线观看| 亚洲国产精品久久久天堂| 欧美蜜桃臀在线观看一区| 亚洲色大成网站www永久男同| 精品一区二区三区中文字幕| 哒哒哒免费视频观看在线www | 亚洲综合区小说区激情区| 秋霞鲁丝片一区二区三区| 午夜影视在线免费观看| 美女扒开尿口让男生捅|