本站小編為你精心準備了大數據的競爭情報系統的研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《廣東工業大學學報》2014年第二期
1系統總體設計
1.1系統目標利用Hadoop平臺對大數據的處理能力,對系統采集的信息用基于Hadoop的KNN算法進行處理分析,使得處理后的競爭情報信息可以快速、準確地顯示在用戶操作界面,讓用戶可以及時了解到自己所關注的信息.管理員通過系統,可以及時進行信息的采集,并對信息進行處理,普通用戶通過系統可以個性化的訂制競爭對手的信息情報,并進行檢索.
1.2系統總體架構系統總體架構如圖1所示.1)應用層.在頂層提供統一信息門戶,為客戶提供各種信息和知識服務的窗口,同時也是平臺管理的入口.2)支撐層.提供文本挖掘和智能分析,以及基于MapReduce并行計算等功能模塊,支持對海量數據的檢索、挖掘、分析和服務等功能.3)數據層.數據層匯聚行業資源信息,形成統一規劃的數據庫,便于應用服務.4)采集層.建立各種數據源相應的數據適配器,實現對各種數據源的數據在線檢測和自動采集.5)數據源.數據源是平臺建設的重要外部資源,是平臺體系架構的一個虛擬層次,包括大量的行業信息源、用戶錄入企業信息等數據來源.6)身份認證和安全體系。平臺安全系統設計除了包含計算機網絡、主機、應用系統等進行安全規劃之外,系統運行的安全設計也是安全規劃的重要內容之一.7)運行維護保障體系.運行維護保障機制包含統一性和標準性、公眾服務性、專業性、權威性.因此,運行維護機制要把握3個要素:(1)要保持“庫”的內容最新的現勢程度;(2)要適應社會對“庫”多樣化的服務要求;(3)要提供簡便、規范、暢通的基礎數據輸入/輸出手段.
2系統功能設計
主要運用文本挖掘技術,將文本挖掘算法在MapReduce上實現并行化,提高信息的分析處理效率,以期可以迅速地提供市場行情信息的綜合分析結果.系統主要功能模塊如圖2所示.
3系統實現關鍵技術
3.1信息采集爬蟲技術本系統采用的是聚焦爬蟲,與通用爬蟲區別為不追求大范圍的覆蓋,而是將目標設定為抓取與某一特定主題內容相關的網頁,進而為面向主題的用戶準備數據來源[5].通用的爬蟲是從一個或者多個初始的URL開始進行爬取,在獲得初始URL抓取網頁內容的過程中,不斷從當前的網頁中抽取新的URL并放入隊列,直到滿足系統設定的爬取深度條件后停止.聚焦爬蟲的工作相比較為復雜,需要根據一定的網頁分析算法過濾去除與主題無關的URL,存儲有用的并將之放入等待隊列中,然后根據搜索條件從中選取下一步要爬取得URL,重復直到滿足停止條件為止[6].同時,所有被爬蟲爬取過的網頁將會被存儲起來,然后通過分析、過濾并建立索引,以便后續的查詢和檢索.這個過程所得到的分析結果還可以對之后的抓取過程給出指導反饋.聚焦爬蟲工作流程如圖3所示.
3.2KNN分類算法最近鄰算法是模式識別中廣泛使用的分類方法,是模式識別非參數法中最重要的方法之一.K近鄰算法是最近鄰算法的一個推廣,當k=1時,就是最近鄰算法.NN強調最近點的重要性,而KNN是從總體考慮,是一種更普遍的方法.KNN的分類思想是給定一個未知文本,在訓練數據中找出與其最相似的K個訓練文本,即是這個未知樣本的K個近鄰.然后根據這K個近鄰來確定未知樣本所屬的類別,可以把未知樣本分到K個近鄰最公共的類中,也可以分到K個近鄰中權重最大的類中.K近鄰算法的簡單示意圖如圖2所示。
3.3KNN分類算法的MapReduce并行化方法KNN算法盡管原理比較簡單,但是其計算量很大,對其空間和時間要求都比較高[9],所以提出將KNN算法運用到MapReduce上進行并行化計算,以提高運行效率。MapReduce技術最開始是被Google用于大數據并行處理[10],基本思想是將大數據集分割成無數的小數據集,然后每個數據集分別有集群中的一個Map函數執行計算任務,生成中間結果,從而作為Reduce函數的輸入執行計算任務,得到結果.MapReduce的編程模型[11]如圖5所示.
3.3.1文檔特征空間和相似度計算本系統采用向量空間模型[12]來描述所收集的情報信息文檔,每個輿情文檔都可以表示成一個特征向量其中tN為特征項,即為特征詞,wN為在D中的權值,特征權值計算公式采用TFIDF算法,如式(1)所示:中TF表示一個特征詞與某個文檔的相關性,IDF表示一個特征詞表示文檔主題的權重大小.DK為特征詞在文檔出現的次數,Aik為文檔所有特征詞數.N為訓練集的文檔總數,Nk為出現特征詞的文檔數.計算出TFIDF后,對于海量數據,其包含的特征詞數目比較多,所以必須進行降維,通過對計算出的TFIDF值排序然后設定閥值,選取若干個特征詞,同時,利用Hadoop平臺的MapReduce進行架構從而實現對TFIDF的并行計算,進而有效地提高運行效率,但是在Hadoop平臺中,數據經過Map函數處理后默認是按照key值升序排序的,因此可以按照1/TFIDF值得方法取得升序排列的前若干位數值即TFIDF按照降序排序的相應若干較大值[16].當計算兩個網頁的相似度時,需要計算兩個文檔間的相似度.本文采用的是余弦相似度,如式(2)所示:通過對di和dj兩篇文檔的特征向量進行計算,可以得到文檔間的相似度.相似度越大,說明兩篇文本相關程度越高,反之,相關程度越低.相似度在[0,1]之間取值,當兩篇文本無關時,相似度為0,相似性越高,則相似度趨向于1.
3.3.2KNN分布式計算KNN算法根據不同文檔之間計算的余弦相似度進而通過選取適當的K值,可以求出最近鄰的K個文檔.由于任意兩篇文檔間的相似度計算和排序都互不相關,所以可以并行進行.求任一類中的文本在不是自己本身類別中的n個最近鄰的文檔.所有的Map節點讀取余弦相似度結果,并根據每個文本的類別,選出與自身類別不同的文本相似度并進行格式轉換,結果輸出為((filenamei,Simij),filenamej:typej).其中Simij表示文本間的相似度,typej表示測試文本分到的類別.Map輸出結果中的key值是一個自定義的數組形式Key(String,float),MapReduce框架中Map過程和Reduce過程之間根據Key值進行排序,即按照filename排序,但因為需將同一個filename相關的Sim分配到同一個Reduce節點,所以要將相同filename的Sim值進行降序排列.經過兩次排序后,Map的輸出作為Reduce的輸入,即((filenamei,Simij),filenamej:typej),根據排序的結果,選擇每個文檔的前K個最近鄰文檔,從而將測試文檔歸入到type類中.
4運行結果
本系統沒有針對某一特定行業,實驗主要通過網上爬蟲采集網頁內容來進行,如計算機類、體育類等.對于某一具體行業只要將相關的分類信息做修改配置即可.
4.1用戶界面用戶界面分為管理員界面和企業用戶界面,管理員界面比普通企業用戶界面多一個后臺管理模塊.企業用戶主要的操作功能是查詢結果、對競爭情報的信息錄入以及用戶信息的相關操作等,而管理員則除了具備企業用戶的功能外,還可以對信息處理,如定期爬取用戶訂制的情報內容,對爬去內容進行預處理并做分類處理,同時將結果保存起來以備用戶查詢.
4.2查看初步結果通過用戶操作模塊可以查看用戶所關注的競爭對手的情況,也可以查看系統自整理的信息.當用戶選擇自己關注的選項時,可以查看整理歸納后的信息,了解自定義的信息.當選擇查看系統自整理信息時,企業用戶可以看到除了自定義的領域外,系統其他用戶所共同關注的信息,了解多點信息,拓寬自己的領域.
4.3查看詳細的內容企業用戶點擊經過分類后的信息,可以查看信息的具體內容,內容顯示在彈出框中.如需查看信息的網頁的初始內容,點擊信息的URL可以跳轉到信息的原頁面.同時也可以看到該信息被歸納后的類別.
4.4分析可視化界面通過對情報信息的一系列操作后,根據結果生成關于某一具體類別的技術網絡圖,通過技術網絡圖可以幫助企業了解信息間的關聯,從而更好地作出決策,網絡圖如圖6所示。5結束語對大數據的處理不僅僅對企業競爭決策起到重要作用,也可以提高企業的競爭力.而競爭情報系統更能為企業在大數據環境下提供有效的決策和有價值的信息.本文提出將基于Hadoop的KNN算法用于企業競爭情報系統中,從而可以緩解對于競爭情報的傳統處理方式帶來的弊端,降低系統運行的時間和空間復雜度,進而使本系統更加有效地適應當今大數據環境.
作者:王勇許鐘濤王瑛單位:廣東工業大學計算機學院