美章網(wǎng) 資料文庫 數(shù)據(jù)挖掘在電子閱讀營銷中的應(yīng)用范文

數(shù)據(jù)挖掘在電子閱讀營銷中的應(yīng)用范文

本站小編為你精心準備了數(shù)據(jù)挖掘在電子閱讀營銷中的應(yīng)用參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

數(shù)據(jù)挖掘在電子閱讀營銷中的應(yīng)用

閱讀是人類獲取知識的一種方式。人們可以根據(jù)自己的興趣愛好來選擇相關(guān)的內(nèi)容進行閱讀。在過去的時候我們主要是以閱讀紙質(zhì)的圖書為主,比如圖書、報紙、雜志等紙質(zhì)讀物。但是隨著信息技術(shù)的發(fā)展,尤其網(wǎng)絡(luò)通信技術(shù)和智能移動終端技術(shù)的不斷創(chuàng)新和發(fā)展使得人們的閱讀方式在原有的基礎(chǔ)上發(fā)生了重大的改變即誕生了電子書。電子書以其容量大、體積小、攜帶方便等優(yōu)點受到了廣大消費者的歡迎。隨著人們的對電子書的閱讀體驗要求越來越高。而且從互聯(lián)網(wǎng)中搜索讀者感興趣的資料,如大海撈針既盲目又浪費了好多寶貴時間。因此需要付費的電子書或相關(guān)的網(wǎng)站便應(yīng)運而生。付費閱讀也因其質(zhì)優(yōu)價廉的服務(wù)深受廣大讀者的喜愛。隨著閱讀電子書的群體不斷壯大,所以付費閱讀的市場也在隨著不斷變大。因此存在著大量的潛在客戶。如何從這些潛在的客戶中挖掘出自己真正的客戶從而來增加收入成為了擺在提供付費閱讀公司的面前的一個難題。本文則根據(jù)讀者的行為數(shù)據(jù)借助數(shù)據(jù)挖掘的方法,從大量的未付費的讀者中找出極有可能付費的讀者,從而根據(jù)他們的興趣愛好采取相關(guān)的營銷策略,使他們轉(zhuǎn)化為付費讀者。從而達到精準營銷[3]的目的。

1.數(shù)據(jù)挖掘

數(shù)據(jù)挖掘[2]作為一種多學科綜合的產(chǎn)物,綜合利用人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術(shù)等,自動分析數(shù)據(jù)并從中得到潛在隱含的知識,從而幫助決策者做出合理并正確的決策。

1.1數(shù)據(jù)挖掘的功能目前數(shù)據(jù)挖掘的主要功能包括概念描述、關(guān)聯(lián)分析、分類、聚類和偏差檢測等。概念描述主要用于描述對象內(nèi)涵并且概括對象相關(guān)特征,概念描述分為特征性描述和區(qū)別性描述,特征性描述描述對象的相同特征,區(qū)別性描述描述對象的不同特征;關(guān)聯(lián)分析主要用來發(fā)現(xiàn)數(shù)據(jù)庫中相關(guān)的知識以及數(shù)據(jù)之間的規(guī)律,關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián);分類和聚類就是根據(jù)需要訓(xùn)練相應(yīng)的樣本來對數(shù)據(jù)分類和合并;偏差分析用于對對象中異常數(shù)據(jù)的檢測。

1.2數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘主要分3個階段:數(shù)據(jù)準備、數(shù)據(jù)挖掘、結(jié)果的評價和表達。數(shù)據(jù)準備主要是完成對大量數(shù)據(jù)的選擇、凈化、推測、轉(zhuǎn)換、數(shù)據(jù)的縮減,數(shù)據(jù)準備階段的工作好壞將影響到數(shù)據(jù)挖掘的效率和準確度以及最終模式的有效性,在數(shù)據(jù)準備階段可以消除在挖掘過程中無用的數(shù)據(jù),從而提高數(shù)據(jù)挖掘的效率和準確度;數(shù)據(jù)挖掘的工作首先需要選擇相應(yīng)的挖掘?qū)嵤┧惴ǎ鐩Q策樹、分類、聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等,然后對數(shù)據(jù)進行分析,從而得到知識的模型;結(jié)果評價和表達主要是確定知識的模式模型是否有效以便發(fā)現(xiàn)有意義的模型

數(shù)據(jù)挖掘分類算法分類[1]是一種重要的數(shù)據(jù)挖掘技術(shù)。分類的目的是根據(jù)數(shù)據(jù)集的特點構(gòu)造一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把未知類別的樣本映射到給定類別中的某一個。分類和回歸都可以用于預(yù)測。和回歸方法不同的是,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)或有序值。構(gòu)造模型的過程一般分為訓(xùn)練和測試兩個階段。在構(gòu)造模型之前,要求將數(shù)據(jù)集隨機地分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。在訓(xùn)練階段,使用訓(xùn)練數(shù)據(jù)集,通過分析由屬性描述的數(shù)據(jù)庫元組來構(gòu)造模型,假定每個元組屬于一個預(yù)定義的類,由一個稱作類標號屬性的屬性來確定。在測試階段,使用測試數(shù)據(jù)集來評估模型的分類準確率,如果認為模型的準確率可以接受,就可以用該模型對其它數(shù)據(jù)元組進行分類。常用的分類算法有決策樹、K-NN[5]、樸素貝葉斯[6]等算法。

2.相關(guān)工作

2.1數(shù)據(jù)理解拿到讀者閱讀的行為數(shù)據(jù)后,首先要看一下數(shù)據(jù)具有哪些屬性,各個屬性都代表什么含義。有些屬性的信息我們可以從數(shù)據(jù)的屬性名稱中獲得,有的則需要我們進一部分析其含義。除此之外在看到數(shù)據(jù)后我們要明確我們要拿這些數(shù)據(jù)干什么。在明確了以上幾點后我們要看看數(shù)據(jù)的完整性和合理性。是否存在異常值和缺失值。如果存在以上問題的話我們要采用相應(yīng)的方法進行處理。以下閱讀數(shù)據(jù)各個字段的名稱由于涉及讀者隱私我們將屬性中的電話一列刪除。

2.2.K-NN算法

2.2.1K-NN算法原理k-NN算法的核心思想:如果一個樣本在特征空間中的k個最鄰近的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。k-NN方法在類別決策時,只與極少量的相鄰樣本有關(guān)。圖中正方形要被決定賦予哪個類,是三角形還是圓形?如果k=3,我們從圖中找出與正方形距離最近的三個圖形。由于三角形所占比例為2/3,那么我們則認為正方形和三角形屬于一類,如果k=7,由于圓形的比例為4/7,因此我們認為正方形和圓形屬于一類。

2.2.2K-NN算法步驟算法步驟:(1)初始化距離為最大距離(2)計算未知樣本和每個訓(xùn)練樣本的距離dist(3)得到目前k個最臨近樣本中的最大距離maxdist(4)如果dist小于maxdist,則將該訓(xùn)練樣本作為K-最近鄰樣本(5)重復(fù)步驟2、3、4,直到未知樣本和所有訓(xùn)練樣本的距離都算完(6)統(tǒng)計K-最近鄰樣本中每個類標號出現(xiàn)的次數(shù)(7)選擇出現(xiàn)頻率最大的類標號作為未知樣本的類標號

2.2.3距離計算計算各數(shù)據(jù)集各數(shù)據(jù)對象之間的距離即“親疏程度”時可以根據(jù)實際的需要選擇歐氏距離(EuclideanDistance)、切比雪夫距離(ChebyshevDistance)、Block距離等。由于k-NN算法所處理的變量為數(shù)值類型的,因此本文采用歐氏距離進行計算,即數(shù)據(jù)點x和y之間的歐氏距離是兩點的P個變量值之差的平方和的平方根,數(shù)學定義為:

3實驗和分析

3.1實驗(1)數(shù)據(jù)來源:本文來源于某個提供電子閱讀服務(wù)的網(wǎng)站,從中隨機的抽取400百條作為實驗數(shù)據(jù),其中300條做作為模型訓(xùn)練數(shù)據(jù),剩下的100條作為模型的測試數(shù)據(jù)。(2)實驗工具:SDABASDM[4](3)實驗設(shè)計:數(shù)據(jù)信息如上表表1所示。我們將數(shù)據(jù)中的付費屬性作為每條數(shù)據(jù)的標簽屬性。由于表中的付費屬性波動比較大,這里我們?nèi)藶榈膶⒃搶傩栽O(shè)置為yes/no(付費用戶為yes未付費用戶為no)處理后數(shù)據(jù)如下表所示。利用訓(xùn)練數(shù)據(jù)創(chuàng)建模型,并用測試數(shù)據(jù)進行驗證,同時采用準確率和召回率兩個指標來判斷模型的好壞。

3.2分析當k=3得到如下結(jié)果觀察當k取3和5兩個不同值時的結(jié)果,我們可以發(fā)現(xiàn)當k=3是的準確率為76%當k=5準確率為78%;當k=3時,兩個類別的召回率分別為81.25%和55.00%,當k=5時兩個類別的召回率分別為83.25%和55.00%。從上面的兩個指標比較發(fā)現(xiàn)將k值設(shè)置為5的時,模型的準確率較高,故模型效果較好。上面的兩個實驗我們把所有的數(shù)據(jù)屬性都用于建模,但是實際情況中并不是所有的屬性對建模有用,里面可能存在一些和建模無關(guān)的屬性,所以我們需要適當?shù)膭h除一些對建模沒用的屬性。通過分析數(shù)據(jù)我們認為下載次數(shù)、城市ID、是否為新用戶、訂閱次數(shù)、記錄日期、閱讀章節(jié)數(shù)這幾個屬性對創(chuàng)建模型影響不大,不將這些屬性用于建模。那么剩下的用于建模的屬性為總登陸數(shù)、點擊次數(shù)、移動設(shè)備登陸次數(shù)。由于這三個屬性都是數(shù)值型的數(shù)據(jù),離散程度比較大,所以我們將這三個屬性的數(shù)據(jù)離散為幾個等級然后用于建模。等級的個數(shù)我們用n表示。觀察上面的結(jié)果當k=3,n=3時accuracy:82.00%,classre-call分別為82.50%和80.00%;當k=5,n=3時accuracy:74.00%,classrecall分別為82.50%和80.00%;同過比較準確率和召回率我們可以發(fā)現(xiàn)將參數(shù)k和n的值都設(shè)定為3時,模型的效果比較好。當k=5,n=3時有一個召回率的值為0,不符合實際。故將模型參數(shù)設(shè)置為k=3,n=5。

4結(jié)束語

通過利用訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),我們采用數(shù)據(jù)挖掘分類算法中的K-NN算法,應(yīng)用SDABAS-DM軟件構(gòu)建了讀者的分類模型,我們可以從大量的未付費讀者的數(shù)據(jù)中,利用該分類模型從中找出可能付費的潛在讀者。從而有目的的采取相應(yīng)的營銷手段來增加付費用戶的數(shù)量。另外隨著數(shù)據(jù)量的積累越來越多,我們將會采用更多具有代表性的數(shù)據(jù)集來作為訓(xùn)練數(shù)據(jù),這樣分類模型將更加合理和完善從而達到精準營銷的目的。

作者:藺曉棟 劉博 殷旭 單位:北京信息科技大學

主站蜘蛛池模板: 中文字幕丰满乱孑伦无码专区| 亚洲色无码国产精品网站可下载| 日本按摩xxxxx高清| 天天摸天天碰成人免费视频| 丰满的寡妇3在线观看| 最近最好的中文字幕2019免费| 亚洲综合视频在线| 精品午夜福利1000在线观看| 国产午夜影视大全免费观看| 波多野结衣资源在线| 永久免费av无码网站大全| 又污又爽又黄的网站| 青青草成人在线| 国产真实乱freesex| 91制片厂天美传媒鲸鱼传媒| 奇米影视7777狠狠狠狠影视| 两性色午夜视频免费网| 日本中文字幕在线观看视频| 亚洲AV无码乱码在线观看富二代| 欧美成人午夜做受视频| 亚洲精品综合久久| 男女抽搐一进一出无遮挡| 又爽又黄又无遮挡网站| 色欲久久久天天天综合网精品 | 男人肌肌插女人肌肌| 午夜影皖普通区| 色天天天综合色天天碰| 国产免费一区二区三区免费视频| 免费观看国产网址你懂的| 国产精品国产三级国产普通话 | 日韩高清欧美精品亚洲| 亚洲中文精品久久久久久不卡| 欧美精品亚洲精品日韩专区va| 人人澡人人妻人人爽人人蜜桃麻豆 | 麻豆久久婷婷综合五月国产| 国产精品91av| 老司机久久影院| 国产精品大bbwbbwbbw| 67194熟妇在线观看线路| 国内精品久久久久影院一蜜桃| JIZZYOU中国少妇|