本站小編為你精心準(zhǔn)備了小型電子商務(wù)挖掘模型參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
[摘要]已有的數(shù)據(jù)挖掘模型大多是針對大型商務(wù)網(wǎng)站設(shè)計的,成本高,技術(shù)復(fù)雜,難于實現(xiàn)。本文針對為數(shù)眾多的小型電子商務(wù)網(wǎng)站,將粗糙集與數(shù)據(jù)挖掘結(jié)合起來,建立了一個切實可行的參考模型,該模型能夠有效地、自主地挖掘電子商務(wù)網(wǎng)站的運營狀況和潛在的經(jīng)濟規(guī)律,從而為小型電子商務(wù)運營者提供決策參考。
[關(guān)鍵詞]數(shù)據(jù)挖掘;粗糙集;小型電子商務(wù)
一、引言
數(shù)據(jù)挖掘應(yīng)用于小型電子商務(wù),可發(fā)現(xiàn)客戶新的購買傾向,設(shè)計投資戰(zhàn)略,在會計系統(tǒng)中探測未經(jīng)認(rèn)可的開支,增加銷售業(yè)務(wù)等,其目標(biāo)為揭示小型電子商務(wù)網(wǎng)站的運營狀況以及潛在的經(jīng)濟活動。然而,為數(shù)眾多的中小電子商務(wù)網(wǎng)站由于自身規(guī)模小、商業(yè)伙伴多、客戶雜而多、產(chǎn)品周期短、可利用資金少等特點,很難實現(xiàn)針對大型商務(wù)網(wǎng)站設(shè)計的數(shù)據(jù)挖掘模型。故建立一個適合于小型電子商務(wù)網(wǎng)站的切實可行的數(shù)據(jù)挖掘模型非常必要。
通常,一個簡單的小型電子商務(wù)系統(tǒng)包括以下幾個基本功能:
1.客戶注冊。客戶通過該功能提交相應(yīng)的客戶信息。客戶一般可分為兩類:普通客戶和會員客戶。他們享有不同的權(quán)限,通常會員客戶將享受一些優(yōu)惠的價格、被邀請參加一些網(wǎng)站舉辦的活動等。
2.客戶登錄。主要進行客戶身份認(rèn)證,以確保是合法的客戶。
3.在線商品瀏覽。客戶可了解商品的詳細(xì)情況。商品陳列如現(xiàn)實中超市的貨架一樣。好的分類以及好的擺放次序都將影響銷售業(yè)務(wù)。
4.購物車。實現(xiàn)超市購物車的功能。客戶一邊瀏覽網(wǎng)站一邊將欲購買的商品放入購物車。
5.生成訂單(購物單)。當(dāng)客戶選好商品后,系統(tǒng)按照客戶購物車中的商品生成購物單。
6.訂單確認(rèn)。網(wǎng)站按照訂單,計算出本次購買的購買清單和總金額后,讓客戶確認(rèn)是否真的購買。
7.在線支付。當(dāng)客戶確認(rèn)訂單后,可通過信用卡在線支付,支付成功后系統(tǒng)生成一份永久訂單,并提交給訂單處理系統(tǒng)。
8.成交確認(rèn)。當(dāng)客戶成功實現(xiàn)支付后,站點向客戶發(fā)送E-mail以確認(rèn)交易成功。
以上是電子商務(wù)的基本功能,除此之外,更需要一個高效、安全的數(shù)據(jù)挖掘工具,挖掘潛在的、深層次的經(jīng)濟活動,為網(wǎng)站決策者提供各種分析數(shù)據(jù)和參考決策,如自動生成日報表、月報表等統(tǒng)計報表,以及客戶行為變化、商品銷售預(yù)測等。
電子商務(wù)環(huán)境下,供應(yīng)商、倉儲物流伙伴、客戶之間要進行物流、信息流和資金流等經(jīng)濟活動,數(shù)據(jù)挖掘可對物流數(shù)據(jù)、信息流數(shù)據(jù)、資金流數(shù)據(jù)進行綜合挖掘。
二、基于粗糙集的小型電子商務(wù)挖掘模型
數(shù)據(jù)挖掘的一般過程包括:數(shù)據(jù)采集、數(shù)據(jù)清洗、挖掘算法確定、數(shù)據(jù)挖掘、模式解釋及知識評價。從理論研究到應(yīng)用實現(xiàn),涉及的技術(shù)主要有分類技術(shù)、聚類技術(shù)、粗糙集技術(shù)、統(tǒng)計技術(shù)和關(guān)聯(lián)規(guī)則技術(shù)等。
粗糙集技術(shù)是處理知識的有效方法,已在眾多領(lǐng)域得到廣泛的應(yīng)用。這里,結(jié)合粗糙集,建立如圖1所示的挖掘模型。從圖1中看到,采用的主要技術(shù)是粗糙集技術(shù)。以下對其中的關(guān)鍵步驟作進一步的分析。
三、小型電子商務(wù)網(wǎng)站的數(shù)據(jù)采集
數(shù)據(jù)采集是數(shù)據(jù)挖掘的基礎(chǔ)。電子商務(wù)網(wǎng)站的數(shù)據(jù)分布在服務(wù)器端、端和客戶端。理論上講,應(yīng)采集到所有三處的數(shù)據(jù),才能得到最完整的數(shù)據(jù)。但在實際中,由于實際情況的限制,幾乎是不可能實現(xiàn)的。具體分析如下:
1.服務(wù)器端數(shù)據(jù)采集。在服務(wù)器端客戶的行為可以被TCP/IP包監(jiān)測器跟蹤,以提取客戶的請求信息。服務(wù)器主要以Web日志的形式記錄客戶每一次的網(wǎng)頁請求信息。主要包括:客戶標(biāo)識、遠(yuǎn)程IP、請求日期和時間等,并且可以記錄COOKIES和查詢參數(shù)來描述各個不同客戶的行為。其優(yōu)點是:能夠?qū)崟r采集數(shù)據(jù);來自不同服務(wù)器的數(shù)據(jù)能被整合到唯一的日志中。
服務(wù)器端數(shù)據(jù)采集的缺點是:如果客戶使用本地CACHE和(Proxy),則Web服務(wù)器僅能獲取信息,而得不到客戶的真正信息;同樣,Web環(huán)境中有各種CACHE,Web日志記錄可能不準(zhǔn)確。這些都將導(dǎo)致信息的不完整以及信息量的不足。
2.端數(shù)據(jù)采集。許多網(wǎng)絡(luò)服務(wù)商通過CACHE為客戶提高導(dǎo)航速度,它通過海量的WebServers來采集客戶數(shù)據(jù)。不僅可以采集多個客戶的行為,還可以采集多個網(wǎng)站的行為。端數(shù)據(jù)采集適合有大量靜態(tài)頁面的網(wǎng)站。
端數(shù)據(jù)采集的缺點是:多個客戶使用同一個服務(wù)器的環(huán)境下,如何標(biāo)識某個客戶,如何識別屬于該客戶的會話和使用記錄,此問題在很大程度上影響挖掘質(zhì)量。
3.客戶端數(shù)據(jù)采集。客戶端通過JavaScript、JavaApplets或修改過的瀏覽器記錄數(shù)據(jù)。但JavaScript不能記錄客戶所有的行為,而JavaApplets可以記錄客戶的所有行為,但效率低。
客戶端數(shù)據(jù)采集的缺點是:客戶可能會在瀏覽器設(shè)置中關(guān)閉JavaScript、JavaApplets功能;涉及客戶的個人隱私信息,需要客戶配合。
綜上所述,對于電子商務(wù)網(wǎng)站而言,盡管有多種數(shù)據(jù)采集源,但實現(xiàn)起來比較困難,而且所得數(shù)據(jù)是很不完整的。
基于以上分析,在建立電子商務(wù)網(wǎng)站時,除客戶注冊表、商品表等表外,應(yīng)在服務(wù)器端維持兩個基本表:客戶行為表和商業(yè)行為表。客戶行為表記錄客戶的行為,如:登錄、查詢、添加商品到購物車、瀏覽等行為。商業(yè)行為表記錄客戶的實際購物情況,如所購商品、數(shù)量、日期等。
表的基本結(jié)構(gòu)包含如下一些基本字段:
客戶行為表:CustomerNo,CustomerType,Date,LoginTime,ExitTime,Home,Browse,Search,Login,Pay,Register,AddtoCart,Select
其中,CustomerType為客戶類別:0-普通客戶,1-會員客戶。
商業(yè)行為表:CustomerNo,Merchandises,Number,Date,Time
可見,上述兩個表格記錄了挖掘所需的基本數(shù)據(jù),使得數(shù)據(jù)采集更易于完成。
四、粗糙集數(shù)據(jù)清洗
利用粗糙集的約簡算法對數(shù)據(jù)進行清洗。主要是計算知識的約簡、核、上近似及下近似(正域)。以決策規(guī)則為例。表1是某電子商店的購物記錄,P,Q,R,S代表4種商品;CustomerNo.為客戶號。是:表示購買了某商品;否:表示沒有購買某商品。
以下對表1進行粗糙集數(shù)據(jù)清洗。
根據(jù)粗糙集理論,論域U={t1,t2,t3,t4,t5,t6,t7,t8},條件屬性集C={P,Q,R},決策屬性集D={S}。容易計算:
U關(guān)于等價關(guān)系C的劃分U/C={X1,X2,X3,X4,X5},其中,X1={t1},X2={t2,t3},X3={t4},X4={t5,t7},X5={t6,t8}。
U關(guān)于等價關(guān)系D的劃分U/D={Y1,Y2},其中,Y1={t2,t3,t6,t7,t8},Y2={t1,t4,t5}。
類似地,U/{P}={{t1,t2,t3},{t4,t5,t6,t7,t8}},U/{Q}={{t1,t2,t3,t4,t6,t8},{t5,t7}},U/{R}={{t2,t3,t5,t6,t7,t8},{t1,t4}},U/{P,Q}={{t1,t2,t3},{t4,t6,t8},{t5,t7}},U/{P,R}={{t1},{t2,t3},{t4},{t5,t6,t7,t8}},U/{Q,R}={{t1,t4},{t2,t3,t6,t8},{t5,t7}}
以下計算正域:
posC(D)={t1,t2,t3,t4,t6,t8}
pos(C-{P})(D)={t1,t4,t2,t3,t6,t8}=posC(D)
pos(C-{Q})(D)={t1,t2,t3,t4}≠posC(D)
pos(C-{R})(D)=φ≠posC(D)
pos(C-{P,Q})(D)={t1,t4}≠posC(D)
pos(C-{P,R})(D)=φ≠posC(D)
pos(C-{Q,R})(D)=φ≠posC(D)
因此,C的D約簡為{Q,R}。故表1經(jīng)過粗糙集數(shù)據(jù)清洗后得到表2。
五、決策規(guī)則的提取
定義決策規(guī)則為:
rij:des(Xi)→des(Yj),Xi∩Yj≠?準(zhǔn)。
其中,des()為對等價類的描述。
定義規(guī)則rij的確定性因子μ(Xi,Yj)=|Xi∩Yj|/|Xi|。顯然,0<μ(Xi,Yj)≤1。
當(dāng)μ(Xi,Yj)=1時,rij是確定的;當(dāng)0<μ(Xi,Yj)<1時,rij是不確定的。
這樣,可得以下確定性規(guī)則:
r12:(購買Q)且(不購買R)→(不購買S)
r21:(購買Q)且(購買R)→(購買S)
r32:(購買Q)且(不購買R)→(不購買S)
r51:(購買Q)且(購買R)→(購買S)
不確定性規(guī)則為:
r41:(不購買Q)且(購買R)→(購買S),μ(X4,Y1)=0.5
r42:(不購買Q)且(購買R)→(不購買S),μ(X4,Y2)=0.5
六、模式解釋及知識評價
經(jīng)過挖掘可得到大量的模式和規(guī)則,需對規(guī)則作進一步的篩選、合并。上述例子經(jīng)合并后最終得到兩條確定性規(guī)則:
1.(購買Q)且(購買R)→(購買S)
2.(購買Q)且(不購買R)→(不購買S)
基于上述規(guī)則,可作決策:在電子商店中,可將商品P,Q,R按順序相鄰擺放在一起。可提高銷售。
對于不確定規(guī)則,可作參考或直接刪除均可。
七、結(jié)束語
通過以上分析,所建立的基于粗糙集的小型電子商務(wù)挖掘模型是有效、可行的。已經(jīng)提出很多可行的粗糙集算法,在實現(xiàn)挖掘時可參考。上述只舉出決策規(guī)則的例子,根據(jù)電子商務(wù)的實際,開發(fā)挖掘系統(tǒng)時可確定更多的挖掘目標(biāo),從而揭示小型電子商務(wù)網(wǎng)站的運營狀況以及潛在的經(jīng)濟活動及規(guī)律。
主要參考文獻(xiàn)
[1]MehmedKantardzic.DATAMININGConcept,Models,Methods,andAlgorithms[M].北京:清華大學(xué)出版社,2003.
[2]張文修等.粗糙集理論與方法[M].北京:科學(xué)出版社,2001.