美章網 資料文庫 網絡輿情參與者情感演化分析范文

網絡輿情參與者情感演化分析范文

本站小編為你精心準備了網絡輿情參與者情感演化分析參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

網絡輿情參與者情感演化分析

互聯網由于平臺的開放性,己經成為除政府、企業、媒體外,普通民眾獲取信息和信息的主要媒體,是民眾對政府管理以及各種社會現象、問題表達態度、意見和情緒的平臺。由于網絡的便利性和虛擬性,部分網民將互聯網當成情感發泄的地方,虛假新聞報道、灰色言論、偏激言論正滲透式污染者互聯網空間。特別是移動互聯網絡的迅猛發展,廣大民眾能夠更隨時隨地、迅速接收到各方面的信息,并任意轉發。因此,隨著時間的推移,網絡輿情的態勢不斷變化,如果不能夠對網絡輿論進行及時、適當的引導,就有可能形成不同規模的網下集合行為,甚至是一定范圍的暴力性行為,形成一定程度的恐慌,更進一步影響到其他民眾的正常社會生活。比如日本海嘯后,由于缺乏權威科學機構的及時引導,民眾聽信海鹽受核輻射影響的謠言,紛紛搶購食鹽,這不僅影響到民眾的日常生活,更是引發零售商、制造商和供應商的連鎖反應。因此政府如何準確把握網絡輿情參與者———普通民眾情緒的具體指向并進行及時有效的引導是我們一直以來不斷努力的方向。本文試圖通過對民眾情緒指向對象的準確定位,為政府機構輿論引導的方向和內容提供依據明確的參考。

1研究基礎

近年來,學者們嘗試對網絡輿情的文本進行情感傾向性分析,揭示網民對輿情事件的整體態度,方便政府機關和媒體機構應對突發事件能夠及時采取有效措施。情感傾向性分析的研究大體可被分為三個層次:詞語級情感傾向性研究、句子級情感傾向性研究、篇章級情感傾向性研究。詞語級情感傾向性分析是研究文本情感傾向性的前提和基礎,一是通過建立同義詞網絡(WordNet)、基于語義相關法與語義相似度的方法擴展已有的詞典生成系統的情感詞典;二是基于機器自學習方法,如PMI計算方法、多語言模型、樸素貝葉斯和最大熵模型構建給出特定詞語的情感極性與強度。句子級情感傾向性則是通過上下文關聯和機器學習方法、具有多重冗余標記CRF的分級模型、依存語法距離的影響因子模型等提取與情感傾向性判斷相關的論述的持有者、評價對象、論述本身的傾向極性、強度以及論述本身的重要性等。篇章級情感傾向性分析則綜合使用樸素貝葉斯、最大熵和支持向量機分類方法、情感密度函數、依存句法關系判斷文本的情感傾向。

篇章級情感傾向性分析默認文本是針對同一個對象進行評論,忽視不同評論對象觀點的差異性,在涉及牽涉多方利益的社會輿情時,無法全面、真實反映民眾的關注焦點及其態度,因此,基于話題的網絡輿情情感分析成為近期研究熱點。國外學者提出的ASUM、JST及TSM模型以獲取網絡文本的主題及對應的情感信息。國內學者提出無監督的主題情感混合模型(UTSU)、主題-對立情感挖掘模型(TOSM)、多粒度話題情感聯合模型(MG-TSJ),對話題及其子話題的情感進行正負向判斷,而本研究團隊曾于2014年提出基于概率潛在語義分析(PLSA)的網絡輿情話題情感分析方法,挖掘話題情感隨時間演變的過程。綜觀網絡輿情情感分析,普遍以整個事件情感的正向或負向程度作為研究目標,沒有明確其具體指向的是事件的當事人、監管部門或事件本身,也沒有展示情感指向的具體內容。比如對食品安全危機網民一般是憤怒,那么憤怒的是制造者造假、銷售者售假、監管部門監管不力不作為還是醫療機構搶救不力呢?前期曾出現了南京城管和擺攤瓜農之間的爭端,網民普遍表示憤怒,根據以往事件的經驗,網民的憤怒一般指向的是城管的野蠻執法,相關輿論的引導方向就應該是進一步規范城管執法程序。但此次糾紛網民的憤怒指向瓜農不配合執法、甚至用西瓜砸執法人員的行為,那么輿論引導的方向就轉變為民眾要遵守城市管理相關規定,并積極配合城管執法行為。所以,如果單純從網絡輿情事件整體分析,是沒有辦法準確把握網民的情緒指向,容易導致言論引導的不當。充分挖掘民眾對于話題所涉及人物、事件的情感內容及情感變化,為政府監管部門或涉事主體采取積極、主動、有效的言論引導提供科學參考是我們致力解決的問題。

2模型建立

2.1研究框架本文使用分詞軟件對純文本進行分詞、去停用詞和無用詞處理,構建文檔———詞共現矩陣來表達文本;利用PLSA模型建立網絡輿情話題空間,去除話題中代表情感傾向的特征詞,并通過TF-IDF對特征詞進行修正,形成不帶有情感傾向的子話題———特征詞空間;將每個子話題中特征詞對應的文本資料以句子為單位重新整理,形成以各特征詞為核心的具有一定交叉性的文本集合,使用分詞軟件處理文本,提取其中情感詞,利用TF-IDF函數構建出特征詞———情感詞空間;應用HowNet相似度算法計算每個情感詞對應的正負情感傾向值,并綜合考慮特征詞對應的所有情感詞,計算得出特征詞的情感值,對輿情參與者的情感指向及變化進行準確定位。

2.2話題提取話題一般由數組特征詞表達的子話題構成。ThomasHofmann在1999年提出了概率潛在語義分析(PLSA)模型在海量文本的潛在語義識別方面表現良好,且其概率統計模型能夠準確表達潛在語義并描述語義特征,因此,本文將PLSA應用到網絡輿情話題的識別中來,引入一個潛在話題,對應著PLSA中的一個潛在語義層,通過識別海量文本的潛在語義來確定網絡輿情中的話題,并利用其概率統計特性,從而為進一步研究網絡輿情話題特征詞,以及為輿情參與者情感演化的研究提供數據支撐。

2.3情感分析情父具有情感傾向性的任何名詞、動詞、形容詞等,話題文本的情感傾向主要通過情感詞來傳遞,同樣,話題特征詞的情感傾向值也是通過指向特征詞的情感詞來測算。在話題提取的基礎上,本文根據特征詞對應的文本資料進行篩選,以句子為單位重新整理;然后將整理后的句子根據句中不同的特征詞保存到不同的特征詞文檔中;利用TF-IDF函數在每個特征詞文檔整理出與特征詞關系密切的情感詞空間。詞的語義傾向性是指這個詞與它根本義項的偏離度,用偏離方向(direction)和偏離強度(strength)來衡量。偏離方向是指該詞的意義是正面的還是負面的,在情感分類中這個詞語是贊成的還是反對的,偏離強度指該詞所表達的正面或負面傾向的強度。對于情感詞傾向性分析,本文首先采用知網情感分析所用詞語集中的一個子集:“中文情感分析用詞語集”,利用正面的情感詞語和正面的評價詞語建成褒義詞詞典,將負面的情感詞語和負面的評價詞語建成貶義詞詞典,由于單個字或詞在上下文環境中會表現出不同的褒貶性,所以在操作過程中人工去除這些難以確定情感傾向值的詞,具體的詞典規模如表1所示。

3實證分析

由于網絡的復雜性和傳播的日趨碎片化,在保障基本的公眾表達與社會監督等積極功能之外,網絡輿論潛在的負面效應對輿情的監測和預警提出了更高的要求。微博上,由于“大V”效應、明星效應、公眾人物效應等所引起的熱點事件總能在一段時間內占據熱搜榜榜首,所以對微博熱點事件進行監測與跟蹤,研究分析突發事件的輿論導向,防止對社會產生不良的負面效應。本文利用火車頭腳本編輯器實現了海量輿情文本的提取技術;通過ICTCLAS漢語分詞系統對提取的文本信息進行分詞;然后結合TF-IDF和PLSA模型提取子話題特征詞,豐富實驗文本,提高研究準確性;基于HowNet的語義傾向性分析技術,通過相似度的計算對話題特征詞進行情感傾向性分析,間接得到輿情參與者的情感傾向性;最后得到一段時間內輿情參與者對于輿情事件情感的具體指向。由于微博文本短、信息量少、文本特征矩陣稀疏,本文利用PLSA模型得到的潛在語義結構保留了文本語義。在PLSA模型中,與話題密切關系的詞語會以較大的條件概率出現在該話題上,可以認為就是這些關鍵詞語定義了該話題,從而得到文本子話題。另一方面雖然PLSA模型使用EM算法避免過擬合現象,但PLSA模型的訓練參數的值會隨著文檔的數目線性遞增,只能生成其所在數據集的文檔模型,但無法生成新的文檔模型。所以本文實證主要是對已經產生的話題文本通過時間分割確定文本集進行話題提取和情感分析。

3.1話題空間本文采集2015年4月7日的熱點事件“劉翔退役”的新浪微博建立文本集,作為本文網絡輿情話題特征詞提取的研究對象,建立話題空間。根據百度指數和微指數的統計數據表明:“劉翔退役”事件的生命周期為4月6號到4月12號,數據量達到頂峰的時間段位于4月7日———劉翔發表退役聲明。此突發事件的生命周期如圖2~圖3所示。本文對2015年4月6日至4月12日關于劉翔退役時間的微博進行24小時的跟蹤提取,得到表2所示的數據圖表。表2中列出采到的原始數據以及實驗數據量。在使用全機器采集,缺少一定的準確性,且計算機硬件條件不足等情況下,采集到的文本有限,對于采集到的文本還需要人工處理。人工處理包括:刪去重復性文本;去除文本中不可識別的符號;采集到的文本按一定的比重作為實驗文本等。

3.2話題提取利用PLSA模型對采集到的劉翔退役事件進行話題提取,以“天”為節點,提取每個時間節點的微博話題。根據百度指數,4月7日是劉翔退役事件的最熱時期,所以本文以4月7日微博文本建立的話題空間,進行文本分詞,構建PLSA模型。

3.3基于特征詞的情感詞提取以4月7日劉翔宣布退役當天所產生的一個子話題為例(見表4),首先將與“劉翔退役”有關文本資料進行篩選,以句子為單位重新整理;然后將整理后的句子根據句中不同的特征詞保存到不同的特征詞文檔中;最后在每個特征詞文檔中整理與之相對應的情感詞。利用Google搜索引擎對這些詞匯進行搜索,按照返回的Hits數進行排序,選取出現頻率最高的詞匯作為基準詞。本文選取20對基準詞進行測試,基準詞如表5所示。以特征詞劉翔的情感關鍵詞為例,通過基于How-Net的詞匯傾向性計算方法得到部分詞匯的傾向值,如表6所示。最后計算可得到4月7號“劉翔退役”子話題中特征詞劉翔的情感傾向值。從計算結果可以看出,雖然兩次因傷病奧運退賽的表現讓大家頗為惋惜,但廣大網民與各路媒體對劉翔本人的評價是非常積極的,認為他是一個偉大的運動員、在世界田徑賽場上創造了中國奇跡,對于“劉翔退役”事件的主角更多的是對其所過往取得成績的肯定。

3.4基于特征詞的情感演化參考所有子話題文本中的話題特征詞,根據實驗模型和實驗數據,選取最具有代表性和研究意義的幾個特征詞:劉翔、孫海平、退役、退賽、冠軍、運動員、廣告、耐克,利用上文所示公式和方法得到4月6號到12號期間輿情參與者關于話題特征詞的情感演化趨勢。為了方便之后的分析與比較,我們將特征詞按照自己的屬性分為四組分別制圖(見圖4~圖7),第一組為:劉翔、孫海平;第二組為:退役、退賽;第三組為:冠軍、運動員;第四組為:廣告、耐克。通過研究輿情參與者對話題特征詞的情感演化,得到上述圖表。我們可以直觀得觀察到從4月6號到4月12號這一段時間內,網民對“劉翔退役”這一話題及其子話題中的特征詞的情緒演變趨勢。每一組圖表的含義相似,但表中的特征詞與突發事件的主體有著不同類型的聯系,便于我們從各個角度有效分析輿情參與者對公眾人物及其相關名詞的情感演化趨勢。第一組在人物情感上,對于劉翔基于其所取得的突破更多的是正向情緒,對于其教練孫海平則頗有微詞;第二組在退役和退賽表現上,廣大網民接受劉翔因為長期傷病離開賽場退役的決定,肯定其取得的成績,但對于兩次退賽的表現廣大網民的情緒指向較低,在理解的基礎上參雜著些許失望;第三組在身份定位上,廣大網民更多是對冠軍榮譽的追崇,對于運動員身份的情緒值則較低,這也體現了對運動員為國贏得榮譽的尊崇;第四組涉及商業行為的,明顯情緒值低的多,正向情緒沒有超過50的,而對廣告則負面情緒值接近-150,這也體現了廣大網民對于體育賽事更多的是對運動員表現的關注,而廣告的植入和代言還是比較受抵制的。

4結語

雖然本文在情感傾向分析的研究思路和實現過程中做了一些創新,但仍然存在著需要進一步深入研究的方面。第一,本文在詞語情感傾向分析中,假設所有情感詞語的情感極性都只有一種,但在實際中并非如此。例如“演員”這個詞,它本身是個專有名詞,表示一種職業,不帶有感情色彩,但是如果放在上下文語境中:“08年奧運會賽場上的劉翔就是一個活脫脫的演員!”,這時“演員”這個詞就帶有了評論者的負面情緒。因此,在今后的研究中,在判斷詞語情感傾向值時可以考慮上下文環境等因素。第二,在對話題特征詞作情感分析時,需要采用部分人工方式以句子為單位重新梳理文本資料,在大數據背景下,人工方式是沒有辦法在海量數據中進行快速準確梳理資料的工作,也會因為速度較慢延誤輿情引導的黃金時間,因此需要考慮進一步完善模型,能夠采用完全機器作業的方式對大數據進行快速準確的處理。

作者:黃衛東 林萍 董怡 李宏偉 單位:南京郵電大學管理學院

主站蜘蛛池模板: 美女AV一区二区三区| 99热这里只有精品免费播放| 暖暖免费高清日本中文| 亚洲精品乱码久久久久久| 精品视频vs精品视频| 国产国产人免费人成免费视频| 18禁免费无码无遮挡不卡网站| 天天操天天射天天插| 中文乱码字字幕在线第5页| 日韩中文无码有码免费视频| 亚洲国产成人在线视频| 激情五月综合网| 免费观看欧美一级特黄| 色伊人国产高清在线| 国产国语一级毛片在线放| 亚洲制服丝袜中文字幕| 国产精品麻豆高清在线观看| gogogo高清在线播放| 性美国xxxxx免费| 丰满少妇人妻无码| 日本黄大片在线观看| 亚洲av无码日韩av无码网站冲| 欧美日韩国产一区二区| 亚洲精品美女久久久久99| 第一次h圆房细致前戏| 可以免费观看的一级毛片| 草草影院ccyy国产日本欧美| 国产在线精品一区二区| 狠狠色综合久久婷婷| 国产福利拍拍拍| 色吧首页dvd| 国产精品女人呻吟在线观看| 97久久精品人人做人人爽| 天天干天天操天天摸| www视频在线观看免费| 幻女free性zozo交| 中文字幕人妻无码一夲道| 无遮挡亲胸捏胸激吻视频| 久久亚洲免费视频| 日韩乱码人妻无码中文字幕视频| 乳揉みま痴汉电车动漫中文字幕|