美章網 資料文庫 新浪微博的數據挖掘研究范文

新浪微博的數據挖掘研究范文

本站小編為你精心準備了新浪微博的數據挖掘研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

新浪微博的數據挖掘研究

1概述

隨著Internet的迅猛發展,Web已經成為全球傳播與共享科研、信息社會的發展,人們的生活已經離不開網絡,無論此時此刻你正在通過電腦終端還是移動終端來進行網絡之旅,新浪微博的順勢而生、龐大的用戶體系及簡單方便的微博書寫及轉發評論已經成為人們分享信息獲取社會動態、了解名人偶像和朋友的重要工具。社會的發展使人們對信息獲取的方式變得越來越挑剔,單純的文本信息已經滿足不了人們的視覺體驗。于是各種信息可視化工具和JavaScript框架越來越得受到人們的喜愛,尤其以D3.js這種js框架慢慢成為了網頁可視化的主流,同時百度開發的Echarts以其高度整合性和強大的報表制作能力也得到了大家的青睞。為了解決人們追求通過簡單、高效的信息獲取信息,本文采用新浪微博作為數據源入口,通過網絡挖掘技術實現新浪微博信息挖掘和本地儲存,利用可視化框架對分析后的用戶實現信息展示。具有實際應用意義的小型數據挖掘可視化系統,滿足了人們對數據信息獲得的直觀性需求。

2設計理念和架構

每天都會有大量的用戶訪問著新浪微博的頁面,期間包含著各式各樣的網絡爬蟲,人們不斷地從這一社交網絡資源庫中爬取著信息,信息化社會下使得信息成為公司無形的財產,而我們平時的研究獲取只停留在信息處理的某一部分:或者是數據挖掘,或者是信息可視化。而沒有很好的實現一個信息挖掘及可視化展示的系統項目。于是設計了本套系統,旨在實現具有實際應用意義的小型數據挖掘可視化系統。我們可以通過模擬用戶登錄的方式用機器代替人的行為來把瀏覽過的網頁信息抓取下來。用戶啟動系統時首先會通過數據庫加載博主信息,用戶可以點擊查看已有博主信息,這時通過通過數據庫查詢出博主信息檔案庫錯在位置,通過讀取CSV文件進行信息加載。當用戶通過博主Uid進行分析時同樣會先查詢是否存在此博主的個人信息,如果存在,則返回,如果不存在則進行網絡抓取分析和儲存。本系統結構如圖2.1所示。項目體系采用MVC架構實現整個JavaWeb項目布局,通過Hibernate作為數據持久層框架,使用HttpClient進行模擬登錄和數據獲取,采用本地數據庫和文本儲存兩種形式對數據進行保存,通過D3.js等可視化工具進行視圖展示。

3基于模擬瀏覽器技術的微博數據采集

模擬瀏覽器行為,即指通過程序設計的方式,將正常的人為操作瀏覽器訪問web站點的行業進行程序化,從而獲得和人為去瀏覽web站點相同的數據。而通過模擬登錄技術的優點主要包括兩點:(1)由于是模擬人為的操作流程,故人們通過瀏覽器看到的內容,都可以通過這種式獲取,而我們分析挖掘的內容恰恰是人們所能看到的數據,看不到的也沒有分析的價值,故它可以滿足不同用戶對數據的多樣經需求,增加了數據獲取的靈活性。(2)它不受限于API方式的請求頻率,只要設計合理、帶寬充分就可以分布式、多線程并行抓取所需數據,從而達到我們對微據分析的數據量的要求。于是有了以下設計定位和思路:數據分析的前提是獲得數據源,傳統的網頁信息抓取只是簡單的爬取,而新浪微博數據的獲取需要使用網頁的登錄Cookie,這樣我們首先需要解決模擬登錄,通過模擬登錄來拿到我們需要進行站內訪問的Cookie值,這樣我們再使用我們的網頁爬取工具就能夠實現新浪微博的數據挖掘。

4微博信息提取和處理

數據分析是通過對大量的原始數據采用各種數段來提取對我們有價值的數據字段,從而進一步的對這些有價值的數據字段進行加工和傳播來發揮數據信息的最大價值性。自然語言處理是數據處理的一個重要環節,而分詞又被稱為是自然語言處理的入口。我們可以通過對博文的分詞統計獲得用戶的話題偏好。

5數據可視化展示

數據可視化是通過圖像來顯示數據的方式,把數據通過合理的設計及結合,實現動態加載,相互關聯和顯示,使得圖像更直觀的表現出數據的特點,讓人們更輕松和快捷的獲得原本在文本中比較冗余和乏味的數據。數據可視化技術的處理過程需要經過數據的獲得,數據信息的開發及分析和最終的數據可視化展示。

6新浪微博數據挖掘及可視化系統總體設計

本課題設計的基于MVC架構的微博數據挖掘和分析系統,采用BS架構模式,實現多元化信息處理和保存,提供本地數據接口和在線抓取分析功能,采用了數據可視化的形式對微博用戶進行數據分析展示,提供了一整套的數據挖掘及可視化平臺,系統設計合理,可以通過本系統對微博主的數據視圖對其進行初步了解。系統兼實用性和趣味性于一體。

7結論

本項目通過對新浪微博登錄過程的分析,使用HttpClient實現新浪微博網頁的抓取,使用正則匹配方式實現數據段的獲取并進行處理和數據儲存。再使用D3.js,Echart等對儲存的數據進行可視化的轉化及瀏覽,以JavaWeb的形式實現了數據挖掘、數據儲存、數據可視化顯示的整套B/S系統。經反復測試、分析和對比,證明了本系統的實用性和娛樂趣味性。大數據時代已經到來,人們不再拘泥于一句或者一段話,而是希望使用最高效的方式獲得最直觀的答案,數據可視化,勢不可擋。

作者:趙捷 譚國強 單位:國家保密科技測評中心分中心 北京百分點科技有限公司

主站蜘蛛池模板: 黄+色+性+人免费| 久久国产亚洲精品| 粗大猛烈进出高潮视频大全| 国产成人一区二区三区免费视频| 99精品视频免费观看| 抬头见喜全集免费版| 亚洲一区二区三区在线观看蜜桃| 羞羞的漫画sss| 国产欧美精品区一区二区三区| a级片免费电影| 我的好妈妈6中字在线观看韩国| 亚洲一区电影在线观看| 男人都懂的网址在线看片| 国产亚洲欧美日韩俺去了| 你懂的手机在线视频| 天天插天天操天天射| 久久不见久久见免费影院www日本| 欧美国产第一页| 日韩a无v码在线播放| 亚洲美女又黄又爽在线观看| 老头猛挺进小莹的体内小说全集| 国产欧美综合一区二区| 97sese电影| 小说区亚洲自拍另类| 久久久久久亚洲精品中文字幕| 欧洲精品一区二区三区| 亚洲精品免费在线| 精品免费AV一区二区三区| 国产三级在线视频播放线| 日本成本人视频| 国产麻豆精品原创| xxx毛茸茸的亚洲| 成人试看120秒体验区| 久久久久无码中| 日韩人妻无码一区二区三区99| 亚洲av无码片在线观看| 欧美亚洲视频在线观看| 亚洲日本视频在线观看| 母子俩肥水不流外人田| 亚洲视频456| 狠狠色丁香婷婷久久综合蜜芽|