本站小編為你精心準(zhǔn)備了數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
摘要:
隨著科技的進(jìn)一步發(fā)展,已經(jīng)帶動著各大領(lǐng)域的創(chuàng)新和發(fā)展。而我國在近年來,城市信息化的普及也在不斷推進(jìn),網(wǎng)絡(luò)技術(shù)的改革和發(fā)展也顯得格外重要。而特別很多企業(yè)對于自身的信息和數(shù)據(jù)儲存、共享以及處理都格外注重,要求技術(shù)本身要包含安全性、便捷性以及可靠性。,而是在大數(shù)據(jù)提出后,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了一種新的主流技術(shù),而研究數(shù)據(jù)挖掘技術(shù)的理念、方法以及應(yīng)用領(lǐng)域,將對我國工程施工領(lǐng)域的未來帶來更多的機(jī)遇和挑戰(zhàn)。
關(guān)鍵詞:
大數(shù)據(jù)時代數(shù)據(jù)挖掘技術(shù)分析和研究運用數(shù)據(jù)挖掘技術(shù),也被稱為數(shù)字處理技術(shù),顧名思義,就是對于目前各大企業(yè)的內(nèi)部數(shù)據(jù),進(jìn)行整理、調(diào)整、挖掘?qū)嵤┮约霸u估等一系列處理操作,其主要的目標(biāo)是保證全局?jǐn)?shù)據(jù)都能夠得到充分的優(yōu)化。而大數(shù)據(jù)則是區(qū)分于以往抽樣調(diào)查的方法,而是對于全局?jǐn)?shù)據(jù)進(jìn)行分析,從而保證分析的全面以及完成。而大數(shù)據(jù)技術(shù)也包含4個優(yōu)點,即高數(shù)量、高速度、多元化以及高價值。而筆者將通過本文,就大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用進(jìn)行分析和探討。
1相關(guān)概念的簡介
1.1大數(shù)據(jù)的概念關(guān)于大數(shù)據(jù)的理念提出,可以追溯到麥肯錫研究院于2011年的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》,其中闡述的觀念就涵蓋數(shù)據(jù)方面,即數(shù)據(jù)已經(jīng)融入到了人們的日常生活中,也是生產(chǎn)運作的一個重要因素。而大數(shù)據(jù)的運用,對于消費以及生產(chǎn)水平都是一種有效的提升提升,根據(jù)美國曾經(jīng)的《大數(shù)據(jù)研究和發(fā)展倡議》資料,截至2011年一年,全球總的數(shù)據(jù)就增加了1.8ZB,而進(jìn)行人均計算,相當(dāng)于每個人都具有至少200GB的數(shù)據(jù)資源,而且這一數(shù)據(jù)還在呈現(xiàn)出日益增長的趨勢,根據(jù)統(tǒng)計計算,這一數(shù)值將會按照約為50%/年的速度增長。
1.2數(shù)據(jù)挖掘作為一個新型學(xué)科,數(shù)據(jù)挖掘技術(shù)源于20世紀(jì)的80年代,那時其效用與目前存在本質(zhì)差異,科學(xué)家最初研究大數(shù)據(jù),主要是用于一些人工智能技術(shù)的開發(fā)。簡而言之,技術(shù)層面上,數(shù)據(jù)挖掘就是一個對數(shù)據(jù)進(jìn)行發(fā)掘創(chuàng)新的過程,即要求目標(biāo)數(shù)據(jù)具有隱蔽性、挖掘價值以及挖掘潛力,而且需要操作者在一堆冗雜的、隨機(jī)的、模糊的數(shù)據(jù)庫中進(jìn)行挖掘;而對于商業(yè)層面上來說,數(shù)據(jù)挖掘就是在一些大量的數(shù)據(jù)信息中獲得規(guī)律以及價值信息,從而為決策提供重要的知識憑據(jù)。
2數(shù)據(jù)挖掘的研究手段
對于數(shù)據(jù)挖掘而言,不同的研究手段將是其開展的重要基礎(chǔ),而研究手段的決定,主要需要依靠科學(xué)的計算為依據(jù),分析和對比數(shù)據(jù)中存在的一些不為人知的規(guī)則,然后通過研究手段的改變?nèi)?yīng)付不同的問題,對于實際操作來說,就是針對不同的數(shù)據(jù)找出不同的解決方法,而常見數(shù)據(jù)挖掘的研究手段主要可以分為四類,即聚類研究、分類和預(yù)測以及關(guān)聯(lián)研究。
2.1聚類研究將抽選的數(shù)據(jù)或者對象的庫進(jìn)行類似“分類”的聚類劃分,然后再將其中的相同或者相近的數(shù)據(jù)劃分為一個組類,由此建立起多個組類開展研究的過程。整個過程突出的是一種無知識基礎(chǔ)、無監(jiān)督管控的學(xué)習(xí)過程。而整個過程由于分類研究有本質(zhì)的差異,因為聚類研究在事先根本無法得到目標(biāo)的重要屬性數(shù)據(jù),而這種分析方法主要可以用于多個區(qū)域,例如心理、統(tǒng)計、醫(yī)藥、銷售以及數(shù)據(jù)識別等,而根據(jù)其隸屬度的取值,有能將其分為兩種研究方法,即硬聚類與模糊聚類,對于前者來說,就是將目標(biāo)按照影響標(biāo)準(zhǔn)進(jìn)行劃分,即目標(biāo)如果屬于某類,必定不屬于其他類;而對于后者來說,主要取決與隸屬度的取值不同。而劃分過程可能會將目標(biāo)劃分入多個聚類中。此外聚類的計算方法也能分為多種,即包含密度算法、層次算法、劃分算法、網(wǎng)格算法以及模型算法等等。
2.2分類與估測對于分類與數(shù)值估測來說,都是屬于是問題預(yù)測方式,其中前者要求估測各個類中的標(biāo)號,這些標(biāo)號都是分散且無規(guī)律的,而估測方法可以采用函數(shù)模型,要求模型類型為連續(xù)值函數(shù)。分類估測作為數(shù)據(jù)挖掘的起始工作,主要需要反應(yīng)已經(jīng)獲知的訓(xùn)練數(shù)據(jù)庫的特點,從而根據(jù)以上基礎(chǔ)完成其中對每一類的情況以及特點完成相應(yīng)的分類操作,而整個操作也是受到督促的,對于一般的分類算法可以有決策樹、粗糙集、貝葉斯、遺傳等算法,而估測主要是基于分類以及回歸基礎(chǔ),估測數(shù)據(jù)將來的動向,即包含局勢外推、時間序列以及回歸分析幾類。
2.3關(guān)聯(lián)研究關(guān)聯(lián)研究是源于自然生物間微妙的關(guān)系,而某事情的發(fā)生和發(fā)展也會引發(fā)連鎖的事情發(fā)展,也就類似所謂“蝴蝶效應(yīng)”的定義。而關(guān)聯(lián)研究的研究目標(biāo)即是研究物與物之間的微妙關(guān)系,包含一些依賴關(guān)系等等,從而找出其中的規(guī)則,基于規(guī)則,分析將來的動向。以購物為例,分析購物者的心理規(guī)律以及習(xí)慣,可以從他們對于購物的一系列表現(xiàn),例如購物籃的物品類型、放置規(guī)律、購物消費理念、購物環(huán)境需求等等,而掌握這些規(guī)律,足以讓一個銷售企業(yè)獲得巨大的消費市場以及商機(jī)。
3大數(shù)據(jù)時代的數(shù)據(jù)挖掘的運用
3.1數(shù)據(jù)準(zhǔn)備準(zhǔn)備流程需要依附于研究者已經(jīng)建立起長期且豐富數(shù)據(jù)資源的數(shù)據(jù)庫,而根據(jù)這些無規(guī)則的原始數(shù)據(jù)進(jìn)行相應(yīng)的挖掘前的準(zhǔn)備的工作,例如數(shù)據(jù)的處理、擇取、清除、推敲以及轉(zhuǎn)變,作為基礎(chǔ)的流程,數(shù)據(jù)準(zhǔn)備操作在整個流程中起到重要的基礎(chǔ)作用。
3.2數(shù)據(jù)挖掘開展數(shù)據(jù)挖掘操作,需要根據(jù)挖掘?qū)ο蟮那闆r擇選最優(yōu)的計算方法,從而獲取其中的規(guī)律性,例如對應(yīng)采用決策樹算法、分類算法、神經(jīng)網(wǎng)絡(luò)算法以及Apriori算法等。
3.3數(shù)據(jù)挖掘的模式評估研究模式評估的對象主要是通過數(shù)據(jù)挖掘處理過程數(shù)據(jù),而評估流程是了解、研究且取得其中數(shù)據(jù)的規(guī)則,然后對數(shù)據(jù)進(jìn)行轉(zhuǎn)變“翻譯”成通俗易懂的語言,供人們?nèi)パ芯亢退伎肌?/p>
3.4數(shù)據(jù)挖掘的知識應(yīng)用知識應(yīng)用是數(shù)據(jù)挖掘的最后一步,通常知識運用就是一種現(xiàn)實運用的過程,通過數(shù)據(jù)準(zhǔn)備、挖掘、研究評估,最后將結(jié)果數(shù)據(jù)或者規(guī)律用于現(xiàn)實中,從而體現(xiàn)數(shù)據(jù)的本身的價值,這就是知識應(yīng)用的內(nèi)涵。
4大數(shù)據(jù)時代的數(shù)據(jù)挖掘的運用
4.1市場營銷方面市場營銷行業(yè)已經(jīng)是目前數(shù)據(jù)挖掘采用最多的行業(yè),數(shù)據(jù)挖掘的作用主要體現(xiàn)在的對于消費者群體的消費習(xí)慣以及行為進(jìn)行解析,從而改變銷售方法,提升產(chǎn)品的銷售量,此外,除了一些購物消費以外,數(shù)據(jù)挖掘技術(shù)以及拓展到了各大金融行業(yè),例如保險行業(yè)、銀行行業(yè)以及電子商務(wù)行業(yè)等等。例如:在市場營銷方面,采用數(shù)據(jù)挖掘中的聚類研究,即客戶一系列無規(guī)則、無意識的行為數(shù)據(jù),對他們進(jìn)行識別,即根據(jù)客戶的忠誠度、消費意識進(jìn)行分類,幫助企業(yè)尋找其中的潛在客戶以及固定客戶群。
4.2數(shù)據(jù)挖掘的科學(xué)分析科學(xué)本身就是一個尋找規(guī)律、發(fā)現(xiàn)規(guī)律以及利用規(guī)律的過程,而且任何科學(xué)研究都是需要基于數(shù)據(jù)作為基礎(chǔ),所以數(shù)據(jù)挖掘?qū)τ诳茖W(xué)領(lǐng)域也具有重要的意義和價值,特別是針對一些未知的事物、領(lǐng)域或者知識,通過數(shù)據(jù)挖掘可以有效展示數(shù)據(jù)規(guī)則。例如對于太空行星的分析,遺傳基因DNA的數(shù)據(jù)以及遺傳規(guī)律等。
4.3制造業(yè)與其他行業(yè)不同,制造業(yè)運用數(shù)據(jù)挖掘的目的主要是產(chǎn)品質(zhì)量檢查方面,例如研究產(chǎn)品的數(shù)據(jù),找出其中規(guī)則。分析整體生產(chǎn)流程,解析其中過程,找出影響生產(chǎn)質(zhì)量以及效率的問題,然后通過對這些問題進(jìn)行解決,提升企業(yè)經(jīng)濟(jì)效益。對于制造業(yè)而言,數(shù)據(jù)挖掘運用主要體現(xiàn)在決策方面,即首先通過數(shù)據(jù)篩選,獲取有用的知識和數(shù)據(jù),然后采用決策樹算法,統(tǒng)計決策,然后選擇其中正確的決策,即像根據(jù)目前產(chǎn)品的流行情況,預(yù)測目前生產(chǎn)產(chǎn)品的受歡迎度,然后決策生產(chǎn)的時間以及周期。
4.4教育方面對于教育行業(yè)來說,最重要的除了教師的教學(xué)方法以外,學(xué)生的學(xué)習(xí)情況、心理動向以及教學(xué)評估都是十分重要的,采用數(shù)據(jù)挖掘技術(shù),則可以有效將這些數(shù)據(jù)通過分類、篩選以及處理,得出有效的數(shù)據(jù)規(guī)則,供學(xué)校教學(xué)改革時進(jìn)行參考。例如:教學(xué)質(zhì)量評估數(shù)據(jù)挖掘模塊的開發(fā),即將教學(xué)質(zhì)量相關(guān)的項目通過QSLSevrer進(jìn)行整合和存儲,例如教學(xué)準(zhǔn)備、教學(xué)內(nèi)容、教學(xué)方式以及教學(xué)態(tài)度等,最后學(xué)生可以進(jìn)行自行瀏覽并且完成評估,而評估結(jié)果則會上傳系統(tǒng)進(jìn)行最后通過數(shù)據(jù)挖掘,篩選其中有用的信息,再通過Apr1ori算法挖掘其中關(guān)聯(lián)規(guī)律。
5結(jié)語
雖然數(shù)據(jù)挖掘技術(shù)不是一項新興的技術(shù),但是其還具有較大的研究價值與運用前景,特別是在特殊領(lǐng)域的運用,對于一系列數(shù)據(jù)進(jìn)行科學(xué)冗雜的處理,然后分析其中規(guī)則價值,可以有效提升各大行業(yè)的經(jīng)濟(jì)效益。
參考文獻(xiàn)
[1]趙倩倩,程國建,冀乾宇,戎騰學(xué).大數(shù)據(jù)崛起與數(shù)據(jù)挖掘芻議[J].電腦知識與技術(shù),2014,11(33):7831-7833.
[2]韓英.淺析大數(shù)據(jù)時代的數(shù)據(jù)挖掘與精細(xì)管理[J].成都航空職業(yè)技術(shù)學(xué)院學(xué)報,2013,12(04):63-71.
[3]李平榮.大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].重慶三峽學(xué)院學(xué)報,2014,05(05):45-47.
作者:何波 單位:重慶燃?xì)饧瘓F(tuán)股份有限公司