本站小編為你精心準備了基于Web的數據挖掘技術分析參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
如今,為了適應網絡社會的要求,涉及商務、政務、學習等各個方面的各式各樣的網站也像雨后春筍一樣紛紛涌現。網上的數據資源空前豐富,網絡,以其獨有的魅力吸引著越來越多的領域。豐富的信息量是網絡的一個顯著特點,給用戶帶來眼界的開闊的同時,網絡上廣泛分布的信息資源又給用戶增加了困難:在浩如煙海的網絡世界,網絡用戶想尋找自己的感興趣的信息,如果盲目地去找,無異于大海撈針。對于自己所需的信息資源,用戶不知道如何做到更有效地發現。關于網站可用性問題,據發達國家所開展的調查結果不難發現,企業網站中超過90%的都存在著比較差的可用性,其中70%的企業不滿意于本企業的網站。而專門針對用戶的調查顯示:用戶在商業網站上找到自己所需要的信息的幾率居然只有42%。這個數據顯示用戶在找自己所需的信息時不夠方便、快捷,這種不便所造成的潛在的損失銷售額比例高達50%。此外,雖然事先鐘情于某件商品,但最終因網站比較差的可用性而放棄尋找欲購商品的幾率也高達62%。為什么網站可用性如此之差呢?究其原因,還是因為網站設計者缺少對用戶需求的了解,企業在設計網站時,其結構組織不完全符合用戶的任務以及他們所看到的信息空間的方式。為了改變這種現狀,更好地發揮網站的作用,以更好的滿足訪問者的需求。網絡用戶的訪問興趣、訪問頻度以及訪問時間是網站經營者最應該關注到的內容,結合這些方面,可以對網站的頁面結構進行動態的調整以及對其積極地改進服務,進而開展有針對性的電子商務。而通過挖掘web數據資源,我們就可以從中提取到我們所需的知識,上文提到的網絡用戶的訪問行為、頻度以及內容等信息,都可以通過群體用戶訪問行為以及方式得到,進而改進web服務的設計。
2關于數據挖掘技術及基于Web的數據挖掘技術
數據挖掘產生于上個世紀六十年代,當時的數據挖掘技術已經實現許多功能,如應用數據庫和信息技術,就不限于只是處理原始文件,而是可以系統地演化到復雜的、功能強大的數據庫系統的功能。隨后幾年,數據處理技術仍在不斷發展中,尤其是近幾年來,不少數據庫可以提供查詢和事務處理,這么大量的數據庫系統的付諸實踐,下一個目標開始顯現,即數據分析和理解。為了提高信息的利用率,把這些數據轉化成有用的信息和知識,就可以通過數據挖掘,獲取到有用的信息,這將非常有利于企業的決策和業務。正是為了適應這種要求,數據挖掘技術誕生了,如今,并且越來越顯示出強大的生命力。
3數據挖掘的基本含義
數據挖掘有一些同義詞,這些同義詞與其意義相近,如數據融合、數據分析以及決策支持等。數據挖掘技術的定義包含如下幾層含義:(1)真實的、大量的數據源,還必須是含噪聲的;(2)發現用戶感興趣的知識是數據挖掘技術的目標。在進行數據挖掘中,會發現一些知識可接受、可理解、可運用,但卻不要求這些知識放之四海而皆準。如果做廣義的理解,數據、信息,這些也是知識的表現形式。當然,在通常情況下,概念、規則、模式以及規律和約束更容易被人們視作知識。數據,則被人們看作是形成知識的源泉。
4數據挖掘的基本過程
數據挖掘,說到底其實就是從大量數據中不斷抽取出將有價值的信息或知識,這是一個循環往復的過程。每一種數據挖掘技術方法有它自身的特點以及實現步驟,各種不同形式的算法應用適用領域的含義以及能力都存在差異。因此,應用數據挖掘所要達到的目標、算法選擇、問題領域專家支持程度以及數據收集完整程度等,成功應用數據挖掘技術以達到目標的過程本身就是一件非常復雜的事情。一般來說,數據挖掘的基本過程包括五項任務,這五項任務即:理解問題、理解、收集和準備數據、建立數據挖掘模型、評價并應用所建模型等。
5數據挖掘的基本模式和功能
對于用戶來說,他們并不知道什么類型的模式才是有趣的,為了適應不同的用戶需求或不同的應用,數據挖掘系統自身要能夠挖掘出多種類型的模式。根據數據挖掘的不同功能,數據挖掘可以分為預測型和描述型兩種基本模式。數據挖掘的功能分類包括幾項內容,分別如下:(1)概念描述。通過多種方法對數據間相互關聯的類或者概念加以描述就是概念描述。方法包括數據區分、數據特征化、概念特征化以及比較等。通過這些方法對數據進行匯總的、簡潔的、精確的分類等。概念描述自然應該屬于描述型數據挖掘類型。(2)關聯分析。通過關聯分析滿足一定條件的依賴性關系可以被挖掘出,這也就是關聯規則。關聯規則形如A卜>A2,支持度=s%,置信度=c%”,這里的S和c分別指用戶指定的支持度以及置信度的閩值。關聯規則可以分為單層和多層、單維和多維。(3)分類和預測。為了使用模型預測未知類型的數據,分析訓練數據集(即己知的數據對象),找出并區分數據類的描述。對數據對象的類標記作出預測是進行合適的分類后可以實現的,即便某些空的或者不知道的數據值,也可以被預測出來。(4)聚類分析。所謂聚類分析,顧名思義,即按照最小化類間的相似性以及最大化類內的相似性對對象進行分組。分組后,一個簇中的對象可以與其它簇中的對象很不相似,它們自身具有很高的相似性。和分類相比,聚類的特點直接對數據進行處理,而分類是基于訓練數據的。
作者:張嘉豐 單位:無錫機電高等職業技術學校