本站小編為你精心準(zhǔn)備了經(jīng)濟統(tǒng)計數(shù)據(jù)挖掘論文參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
1數(shù)據(jù)挖掘技術(shù)在統(tǒng)計工作中的適用性分析
1.1較高的有效性數(shù)據(jù)挖掘技術(shù)作為一種數(shù)據(jù)的深加工技術(shù),其本身是帶有鮮明的目的性的,在實際應(yīng)用活動中能夠?qū)﹂L時間積累下來的經(jīng)濟統(tǒng)計數(shù)據(jù)進行基于數(shù)據(jù)使用者要求的深入加工。在實踐應(yīng)用活動中主要有兩種重要的應(yīng)用形式,一種是對積累經(jīng)濟統(tǒng)計數(shù)據(jù)的管理高效化處理,一種是對現(xiàn)有經(jīng)濟數(shù)據(jù)的目的性分析。其中第一種分析方式是從經(jīng)濟數(shù)據(jù)管理的角度出發(fā)的,在應(yīng)用中主要是以固有數(shù)據(jù)信息的統(tǒng)計、分類為基礎(chǔ),將原本混亂的數(shù)據(jù)庫信息進行科學(xué)、系統(tǒng)的歸類,保證統(tǒng)計數(shù)據(jù)管理的高效性和使用的便利性。另一種工作方式是一種經(jīng)濟數(shù)據(jù)的再加工過程,以鮮明的數(shù)據(jù)統(tǒng)計、分析目標(biāo)為指引對原有數(shù)據(jù)的呈現(xiàn)形式、組成內(nèi)容和關(guān)聯(lián)形式進行重新加工,以保證經(jīng)濟統(tǒng)計數(shù)據(jù)能夠最大限度地服務(wù)于管理者的需求。
1.2綜合應(yīng)用性強如前文所述,數(shù)據(jù)挖掘技術(shù)是一個工具系統(tǒng)而不是單一的工具,能夠?qū)崿F(xiàn)使用主體的各種信息需求,隨著現(xiàn)代社會經(jīng)濟的快速發(fā)展,當(dāng)前我國經(jīng)濟管理的各個部門都需要大量的經(jīng)濟統(tǒng)計信息來作為經(jīng)濟管理決策的基礎(chǔ)。但是因為各個管理部門經(jīng)濟管理的領(lǐng)域不同、經(jīng)濟管理的方式不同、經(jīng)濟的管理權(quán)限不同,所以相應(yīng)的經(jīng)濟統(tǒng)計數(shù)據(jù)呈現(xiàn)形式的需求就不同。這就為經(jīng)濟數(shù)據(jù)統(tǒng)計系統(tǒng)提出了更高的要求,其不僅要對符合各個經(jīng)濟管理部門需求的數(shù)據(jù)內(nèi)容進行統(tǒng)計,同時要將統(tǒng)計完成的數(shù)據(jù)換算成各種不同的呈現(xiàn)形式,并根據(jù)統(tǒng)計信息的來源和統(tǒng)計信息的計算方式對其可靠性進行評估[2]。最終這些數(shù)據(jù)信息的輸出格式還應(yīng)該符合所服務(wù)的經(jīng)濟管理部門管理系統(tǒng)的格式要求,保證統(tǒng)計數(shù)據(jù)能夠在管理部門的管理系統(tǒng)中正常錄入、應(yīng)用,數(shù)據(jù)挖掘技術(shù)很好地滿足了上述的復(fù)雜經(jīng)濟數(shù)據(jù)管理要求,其功能的綜合性促進了其應(yīng)用深度的提高和范圍的擴大。
1.3宏觀數(shù)據(jù)庫有利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用當(dāng)前因為經(jīng)濟管理部門的職權(quán)較為分散,各個經(jīng)濟管理部門的經(jīng)濟統(tǒng)計數(shù)據(jù)需求不盡相同。所以我國的經(jīng)濟統(tǒng)計活動絕大多數(shù)還采用傳統(tǒng)的經(jīng)濟統(tǒng)計方法,統(tǒng)計收集的經(jīng)濟信息存在一定的局限性,不能夠服務(wù)于經(jīng)濟管理活動的整體,或者造成一些數(shù)據(jù)統(tǒng)計工作的重復(fù),對經(jīng)濟數(shù)據(jù)統(tǒng)計工作造成了一系列的質(zhì)量和效率上的影響。經(jīng)濟數(shù)據(jù)統(tǒng)計活動急需一個能夠整合各個統(tǒng)計系統(tǒng),實現(xiàn)統(tǒng)計數(shù)據(jù)信息融合的新技術(shù)。宏觀經(jīng)濟統(tǒng)計數(shù)據(jù)庫為數(shù)據(jù)挖掘技術(shù)的開展提供了平臺,數(shù)據(jù)管理系統(tǒng)的經(jīng)濟統(tǒng)計信息要正確無誤,然后經(jīng)過數(shù)據(jù)挖掘技術(shù)的整合,就能得到更加豐富的數(shù)據(jù)資源[3]。
2數(shù)據(jù)挖掘技術(shù)的應(yīng)用
在社會經(jīng)濟管理活動中,管理主體對經(jīng)濟統(tǒng)計數(shù)據(jù)的要求主要有兩個。一個是統(tǒng)計數(shù)據(jù)的真實性、一個是數(shù)據(jù)統(tǒng)計信息的實用性。單就這兩個經(jīng)濟統(tǒng)計數(shù)據(jù)要求而言,數(shù)據(jù)挖掘技術(shù)能夠很好地滿足經(jīng)濟統(tǒng)計工作的需求,是適用性極強的一種經(jīng)濟數(shù)據(jù)統(tǒng)計技術(shù),其在具體的經(jīng)濟數(shù)據(jù)統(tǒng)計活動中主要有以下三種應(yīng)用方法。
2.1預(yù)處理方法在經(jīng)濟數(shù)據(jù)統(tǒng)計活動中,最為基礎(chǔ)的一種處理方式就是經(jīng)濟數(shù)據(jù)的預(yù)處理方法,因為數(shù)據(jù)挖掘本身是一種基于提供基礎(chǔ)信息的智能分析技術(shù)。其本身是受基礎(chǔ)經(jīng)濟信息限制的,不可能無中生有代替經(jīng)濟數(shù)據(jù)收集系統(tǒng)的功能。所以所有作為數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)基礎(chǔ)的經(jīng)濟統(tǒng)計數(shù)據(jù)信息都應(yīng)該進行預(yù)處理,處理的內(nèi)容主要包括對這些數(shù)據(jù)中不正確、不真實、不準(zhǔn)確,以及不同經(jīng)濟統(tǒng)計數(shù)據(jù)信息之間差距較大的現(xiàn)象。對這些基礎(chǔ)數(shù)據(jù)存在的問題進行處理的過程被稱為數(shù)據(jù)清理,當(dāng)前數(shù)據(jù)清理主要采用的方法有均值法、平滑法和預(yù)測法。其中均值法是現(xiàn)代分析技術(shù)中模糊理念的一種應(yīng)用形式,當(dāng)基礎(chǔ)數(shù)據(jù)中的一個數(shù)據(jù)點是空值或者噪聲數(shù)據(jù)的時候,可以采用均值法進行處理,即用數(shù)據(jù)庫中所有該屬性已知的屬性均值來填補空缺。保證數(shù)據(jù)挖掘系統(tǒng)對基礎(chǔ)數(shù)據(jù)的分析和整理能夠正常進行,得出相對而言準(zhǔn)確度較高的統(tǒng)計分析數(shù)據(jù)。其中Ci表示當(dāng)前數(shù)據(jù)點的取值,Cj表示當(dāng)前數(shù)據(jù)點前后不為空的數(shù)據(jù)點,K表示當(dāng)前數(shù)據(jù)點進行計算所取的參考數(shù)據(jù)點數(shù)量[4]。平滑法依然是對基礎(chǔ)數(shù)據(jù)中空值和噪聲數(shù)據(jù)的計算方法,其與均值法的區(qū)別是用加權(quán)平均數(shù)代替了平均數(shù),考慮了計算過程中提取的每一個數(shù)據(jù)對數(shù)據(jù)結(jié)果的影響權(quán)重,所以計算出的結(jié)果往往更加接近真實的數(shù)值。其中Ci表示當(dāng)前數(shù)據(jù)點的取值,Cj表示當(dāng)前數(shù)據(jù)點前后不為空的數(shù)據(jù)點,K表示為對當(dāng)前數(shù)據(jù)點進行計算所取的數(shù)據(jù)點數(shù)量。WJ表示Cj數(shù)據(jù)點的權(quán)值。
2.2集成化處理方法在數(shù)據(jù)挖掘技術(shù)的應(yīng)用活動中,因為相同地區(qū)的數(shù)據(jù)統(tǒng)計主體不同,或者在不同地區(qū)對相同經(jīng)濟數(shù)據(jù)的統(tǒng)計標(biāo)準(zhǔn)不統(tǒng)一,會產(chǎn)生一系列的數(shù)據(jù)集成問題,如何對這些調(diào)查方向不同或者是呈現(xiàn)方式不同的數(shù)據(jù)進行有效集成而不影響經(jīng)濟數(shù)據(jù)統(tǒng)計的準(zhǔn)確性,是數(shù)據(jù)挖掘技術(shù)的重要任務(wù)。在具體的數(shù)據(jù)集成過程中主要考慮以下幾個方面的問題[5]。
2.2.1模式集成當(dāng)前因為社會經(jīng)濟活動中經(jīng)濟數(shù)據(jù)的統(tǒng)計內(nèi)容過于廣泛,很多經(jīng)濟數(shù)據(jù)統(tǒng)計并不是來自于官方的統(tǒng)計局而是來自一些民間統(tǒng)計組織,或者是由一線社會經(jīng)濟主體直接提供的經(jīng)濟數(shù)據(jù),在數(shù)據(jù)挖掘過程中將這些來自多個數(shù)據(jù)源存在多種數(shù)據(jù)呈現(xiàn)模式的經(jīng)濟數(shù)據(jù)信息進行集成就涉及實體識別的問題。例如在數(shù)據(jù)挖掘過程中如何確定一個數(shù)據(jù)庫中“std-id”與另一個數(shù)據(jù)庫中的“std-no”是否表示同一實體,當(dāng)前一般使用數(shù)據(jù)庫與數(shù)據(jù)庫之間的含元數(shù)據(jù)對比來保證實體識別高效率和高質(zhì)量[6]。
2.2.2冗余問題數(shù)據(jù)挖掘本身是對經(jīng)濟統(tǒng)計數(shù)據(jù)的一種深加工技術(shù),經(jīng)過其加工的經(jīng)濟統(tǒng)計技術(shù)應(yīng)該在本質(zhì)上達到最簡狀態(tài)。在數(shù)據(jù)挖掘過程中要將與其他數(shù)據(jù)呈現(xiàn)某種正相關(guān)關(guān)系的數(shù)據(jù)項目進行精簡,以保證數(shù)據(jù)庫中數(shù)據(jù)量維持在一個較低的水平,為數(shù)據(jù)管理和應(yīng)用提供便利。在經(jīng)濟數(shù)據(jù)挖掘活動中人均國民生產(chǎn)總值就是典型的冗余屬性,因為其數(shù)值是可以通過國內(nèi)生產(chǎn)總值和總?cè)丝趯傩杂嬎愠鰜淼模灶愃迫司鶉裆a(chǎn)總值這種冗余屬性在數(shù)據(jù)挖掘過程中就應(yīng)該精簡,應(yīng)用的時候在利用國民生產(chǎn)總值和人口屬性計算得出[7]。對冗余屬性的判斷主要通過相關(guān)度對比來實現(xiàn)。其中n表示元組的個數(shù),分別是屬性A和屬性B的平均值,分別是屬性A和屬性B的標(biāo)準(zhǔn)方差,在這一公式中如果則表示A、B兩個屬性是正相關(guān),也就是說A越大B就越大,值越高二者的正相關(guān)關(guān)系就越密切;如果則表示屬性A、B之間沒有直接關(guān)系,是相互獨立的;如果則表示A、B兩個屬性呈負(fù)相關(guān),屬性B會隨著屬性A的減小而增大,的絕對值越大,二者的負(fù)相關(guān)關(guān)聯(lián)關(guān)系就越密切。
2.3決策樹方法在數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中,經(jīng)過系統(tǒng)的分析和總結(jié)以后,分析數(shù)據(jù)的輸出是一個關(guān)鍵的環(huán)節(jié),其輸出的數(shù)據(jù)形式會對使用者的經(jīng)濟管理決策產(chǎn)生直接的影響。決策樹是一種較為常見的、直觀的快速分類方法。其應(yīng)用的關(guān)鍵是決策樹的構(gòu)建,具體而言主要分為兩步:第一步是利用訓(xùn)練集建立并精簡一棵決策樹,建立輸出分析的模型;第二步是利用構(gòu)建完畢的決策樹進行輸入數(shù)據(jù)的分類,這一分類是一個遞歸的過程,從決策樹的根部開始進入到樹干、枝丫,直到輸入數(shù)據(jù)的分類滿足了某種條件而停止。在具體的應(yīng)用中停止分割的條件有兩個:一個是當(dāng)一個節(jié)點上的所有數(shù)據(jù)都屬于同一個類別的時候;另一個是沒有分類屬性可以對輸入數(shù)據(jù)進行再分割[8]。在決策樹構(gòu)建完成后,還要根據(jù)使用者的具體要求對決策樹進行“剪枝”,剪枝的主要目的是要降低因為使用訓(xùn)練集而對決策樹本身數(shù)據(jù)輸出產(chǎn)生的起伏影響。
3結(jié)語
經(jīng)濟統(tǒng)計活動是現(xiàn)代社會經(jīng)濟管理的重要基礎(chǔ)數(shù)據(jù)提供主體,其本身對社會主義現(xiàn)代化市場經(jīng)濟建設(shè)的影響是廣泛而深遠的,所以其運行過程中的質(zhì)量和效率至關(guān)重要。數(shù)據(jù)挖掘技術(shù)是針對現(xiàn)代數(shù)據(jù)管理活動中存在的數(shù)量基數(shù)大、構(gòu)成復(fù)雜和數(shù)據(jù)缺失現(xiàn)象嚴(yán)重等客觀問題而研發(fā)的一種高效的數(shù)據(jù)深度加工技術(shù),其在經(jīng)濟統(tǒng)計中的應(yīng)用能夠更好地滿足經(jīng)濟統(tǒng)計的需求。本文從數(shù)據(jù)挖掘技術(shù)概述、數(shù)據(jù)挖掘技術(shù)在統(tǒng)計工作中的適用性分析、數(shù)據(jù)挖掘技術(shù)的應(yīng)用三個方面對這一問題進行了簡要的分析,以期為數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中應(yīng)用水平的提升提供支持和借鑒。
作者:李榮單位:懷化學(xué)院經(jīng)濟系