前言:我們精心挑選了數(shù)篇優(yōu)質(zhì)社交媒體的應(yīng)用文章,供您閱讀參考。期待這些文章能為您帶來(lái)啟發(fā),助您在寫(xiě)作的道路上更上一層樓。
近年來(lái),市場(chǎng)營(yíng)銷被賦予了新一層涵義:開(kāi)發(fā)并滋養(yǎng)利益相關(guān)者之間的關(guān)系。
從市場(chǎng)營(yíng)銷發(fā)展的歷程來(lái)看,我們是從工業(yè)經(jīng)濟(jì)中以生產(chǎn)為主導(dǎo)的年代,發(fā)展到服務(wù)經(jīng)濟(jì)以市場(chǎng)營(yíng)銷為引導(dǎo)的年代。在以生產(chǎn)為主導(dǎo)的年代,人們更強(qiáng)調(diào)市場(chǎng)營(yíng)銷中銷售的角色。但現(xiàn)如今,市場(chǎng)營(yíng)銷決不單單是銷售或是做廣告那么片面。
很多中國(guó)公司保留著一些老觀念,比如,由于勞動(dòng)力低廉,中國(guó)制造就意味著便宜。其實(shí),在全球市場(chǎng)中有個(gè)來(lái)源國(guó)效應(yīng),而中國(guó)產(chǎn)品所產(chǎn)生的來(lái)源國(guó)效應(yīng),就是“低質(zhì)量”和“低價(jià)格”。所以,中國(guó)公司的管理層需要認(rèn)識(shí)如何去建立一個(gè)品牌,一個(gè)人們信任的品牌。
在一些特殊領(lǐng)域中,有些中國(guó)品牌還是做得很不錯(cuò)的。像“上海灘”,它利用了文化審美上的一些優(yōu)勢(shì),在奢侈品市場(chǎng)上詮釋出什么是美,什么是時(shí)尚,成功地占據(jù)一席之地。確實(shí),有一些中國(guó)公司已經(jīng)通過(guò)努力發(fā)展出全球品牌,當(dāng)然,這需要很大的努力——建立一個(gè)品牌需要很長(zhǎng)時(shí)間,需要投入很多資源,然而毀掉一個(gè)品牌只需要一個(gè)晚上。這是所有中國(guó)公司需要牢記的。
近年興起的社交媒體給更多夢(mèng)想打入全球市場(chǎng)的企業(yè)家以更多機(jī)會(huì)。例如:一些中國(guó)公司就利用linkedin、facebook 和twitter,把生意逐漸滲透到美國(guó)、英國(guó)和歐洲大陸。這證明,從整體上看,各類公司對(duì)于社交媒體的應(yīng)用正在大幅度進(jìn)步。
從消費(fèi)者角度觀察,消費(fèi)者實(shí)際花費(fèi)在新媒體上和傳統(tǒng)媒體上的時(shí)間,之間的平衡點(diǎn)已經(jīng)發(fā)生巨大的變化。但從公司層面觀察,公司劃撥到新媒體上的預(yù)算相較于投放在傳統(tǒng)媒體,如電視、報(bào)紙和雜志上的預(yù)算仍有很大差距。再仔細(xì)分析,我們會(huì)發(fā)現(xiàn):公司花在新媒體上的錢主要是用來(lái)直接帶動(dòng)銷售的。很多公司并沒(méi)有用足夠多的錢到社交媒體上去建立產(chǎn)品品牌和公司聲譽(yù)。
在如何評(píng)估社交媒體的效果上,目前也還有很多問(wèn)題亟待解決。一個(gè)最大的問(wèn)題是:傳統(tǒng)媒體的評(píng)估側(cè)重于到達(dá)率和頻率,而新媒體的評(píng)估側(cè)重于效率,兩者評(píng)估分屬于兩套不同的語(yǔ)言體系。如何把傳統(tǒng)媒體和新媒體放到同一個(gè)體系中衡量和評(píng)估,是媒體行業(yè)亟解決的問(wèn)題。我們必須要認(rèn)識(shí)到,相較于顧客通過(guò)不同的媒體渠道獲得不同的信息的發(fā)展速度來(lái)看,新媒體的研發(fā)仍然太慢,媒體評(píng)估的研究目前大大落后于實(shí)踐。
另一個(gè)重要的問(wèn)題是:無(wú)論是大公司的管理層還是小公司的創(chuàng)業(yè)者,在使用新媒體時(shí)通常遵循特事特辦的原則。而新媒體投放都沒(méi)有經(jīng)過(guò)大型廣告公司的整體戰(zhàn)略部署、整合策劃和循序推進(jìn)。
值得慶幸的是,目前一批大型4A級(jí)廣告公司已經(jīng)建立起自己的整合營(yíng)銷策劃部門(mén),他們?cè)趦?nèi)部調(diào)動(dòng)各個(gè)部門(mén)相互協(xié)調(diào),以避免以前新媒體的各個(gè)環(huán)節(jié)各自為政,給客戶品牌的一致性所帶來(lái)的傷害。要知道,僅僅在facebook上開(kāi)一個(gè)企業(yè)站點(diǎn)和掌握好社交媒體的運(yùn)用,其中的能力要求是完全不同的。
以前,我們把傳統(tǒng)媒體定義為付費(fèi)媒體,你付費(fèi)了,你就能得到你所想要的。但是,目前的社交媒體是自有媒體,只有當(dāng)你的信息被人們認(rèn)為有用時(shí),人們才會(huì)對(duì)它產(chǎn)生興趣——受眾必須喜歡,無(wú)論是信息、娛樂(lè)還是社區(qū),人們必須看到價(jià)值。公司不能強(qiáng)迫觀眾喜歡。所以,社交媒體是不能被控制的!以前的那種靠廣告俘虜觀眾的時(shí)代,已經(jīng)不復(fù)存在了。
所以,市場(chǎng)營(yíng)銷人員在應(yīng)用社交媒體時(shí),需要特別注意營(yíng)造一個(gè)透明的環(huán)境,并建立與顧客之間的相互信任。千萬(wàn)不能讓顧客覺(jué)得他們的個(gè)人信息會(huì)被用于其他地方。不同的顧客也許來(lái)自不同的背景,有些顧客在乎經(jīng)濟(jì),有些顧客在乎信息,對(duì)另外一些顧客,價(jià)值就意味著遇到“臭味相投”的人等等。所以廣告主需要知道提供什么樣的價(jià)值給什么類型的客戶。
摘要:隨著經(jīng)濟(jì)的高速發(fā)展,企業(yè)的競(jìng)爭(zhēng)已經(jīng)漸漸地轉(zhuǎn)化為人才的競(jìng)爭(zhēng)。招聘工作作為企業(yè)補(bǔ)充優(yōu)質(zhì)人才的主要渠道,不但是組織實(shí)現(xiàn)人力資源整合的手段,更是組織為實(shí)現(xiàn)可持續(xù)發(fā)展的重要法寶。目前,企業(yè)招聘人員面對(duì)的最大挑戰(zhàn)就是如何在招聘量大和預(yù)算有限的情況下,用最快的時(shí)間、通過(guò)最有效的渠道找到合適的候選人。隨著互聯(lián)網(wǎng)時(shí)代的興起和蓬勃發(fā)展及與之帶來(lái)的社交媒體應(yīng)用正在潛移默化地影響著人們的生活方式;而這種快速建立人脈關(guān)系的理念和行為為招聘工作帶來(lái)了新的曙光。本文首先通過(guò)社交媒體的舉例,對(duì)其范圍進(jìn)行了界定,并且介紹了社交媒體作為招聘渠道與傳統(tǒng)招聘渠道存在的差異。然后,通過(guò)列舉招聘工作通過(guò)社交媒體LinkedIn及微信的實(shí)現(xiàn),說(shuō)明社交媒體除了職位之外對(duì)企業(yè)雇主品牌的推廣做出的巨大作用和影響。此外,由于社交媒體的應(yīng)用與傳統(tǒng)招聘渠道的方法不同,企業(yè)對(duì)于招聘人員的素質(zhì)和技能要求也發(fā)生了相應(yīng)的變化。隨著社交媒體成為高效招聘渠道的趨勢(shì)越來(lái)越明顯,其帶來(lái)的風(fēng)險(xiǎn)和潛在問(wèn)題也不容忽視,需要人力資源結(jié)合企業(yè)的業(yè)務(wù)特點(diǎn)和專業(yè)知識(shí)提供相應(yīng)的解決方案。
關(guān)鍵詞 :社交媒體 招聘渠道 招聘渠道趨勢(shì)
上世紀(jì)90年代,企業(yè)招聘的主要方式是在報(bào)紙上刊登廣告,然后通過(guò)信件的方式收集候選人投遞的紙質(zhì)簡(jiǎn)歷。隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),前程無(wú)憂和智聯(lián)招聘等招聘網(wǎng)站成為各家雇主競(jìng)爭(zhēng)候選人的主要招聘渠道,我們稱之為招聘的Web 1.0時(shí)代;近年來(lái)社交媒體的快速發(fā)展,越來(lái)越多的雇主開(kāi)始在微信、微博上建立專屬的招聘賬號(hào)來(lái)吸引更多的主動(dòng)和被動(dòng)求職者。2014年初,隨著國(guó)際職業(yè)社交媒體LinkedIn正式進(jìn)軍中國(guó)市場(chǎng),社交媒體作為招聘的重要渠道引起了所有招聘人員的重視,從而開(kāi)啟了招聘的Web 2.0時(shí)代。
社交媒體是人們彼此之間用來(lái)分享意見(jiàn)、見(jiàn)解、經(jīng)驗(yàn)和觀點(diǎn)的工具和平臺(tái),現(xiàn)階段主要包括社交網(wǎng)站、微博、微信、論壇等等,它具備人數(shù)眾多、自發(fā)傳播的兩大重要特點(diǎn)。與傳統(tǒng)的招聘渠道(例如各類招聘網(wǎng)站、招聘會(huì)、獵頭等)相比,基于社交媒體平臺(tái)的招聘具有輻射范圍廣、調(diào)動(dòng)被動(dòng)候選人、增加雇主和雇員的直接溝通機(jī)會(huì)的明顯優(yōu)勢(shì),正是因?yàn)檫@些優(yōu)勢(shì),使得困擾招聘人員的招聘信息傳播有限、求職者數(shù)量不足、招聘渠道費(fèi)用高等問(wèn)題得到了有效解決,幫助招聘人員能夠主動(dòng)地接觸到目標(biāo)候選人群,并最終將他們吸引和融入到公司之中。
與傳統(tǒng)招聘渠道一致,社交媒體的招聘也是以空缺職位并且完成招聘任務(wù)為最終目標(biāo)。然而社交媒體對(duì)于企業(yè)的貢獻(xiàn)和附加值在于,越來(lái)越多的企業(yè)已經(jīng)意識(shí)到社交媒體可以向目標(biāo)人群有效地宣傳企業(yè)的雇主價(jià)值主張。相比傳統(tǒng)招聘渠道呈現(xiàn)方式的死板和定式,社交媒體的宣傳方法則更加活潑、個(gè)性化和具有生命力。通過(guò)定制化并且結(jié)合企業(yè)文化的精心設(shè)計(jì),同行業(yè)競(jìng)爭(zhēng)對(duì)手之間的區(qū)別才能得以展現(xiàn)。企業(yè)雇主品牌的展示和推廣同時(shí)潛移默化的影響著被動(dòng)求職者的求職行為,通過(guò)企業(yè)歷史、文化、活動(dòng)、薪酬福利的介紹,可以調(diào)動(dòng)被動(dòng)求職者的求職興趣和熱情,最終增加職位的有效投遞數(shù)量。
2014年,國(guó)際職業(yè)社交媒體LinkedIn進(jìn)駐中國(guó)市場(chǎng),取名“領(lǐng)英”。充分利用“六度空間理論”,領(lǐng)英的個(gè)人會(huì)員可以免費(fèi)建立自己的職業(yè)檔案,并且聯(lián)系認(rèn)識(shí)或者不認(rèn)識(shí)的會(huì)員,以充實(shí)自己的職業(yè)人脈。據(jù)統(tǒng)計(jì),領(lǐng)英的會(huì)員數(shù)量每秒鐘都在增加,這使得這個(gè)職業(yè)社交媒體已成為巨大的招聘人才庫(kù)。所以,領(lǐng)英為企業(yè)賬戶的招聘和雇主品牌推廣定制了不同的方案。企業(yè)可以在平臺(tái)上建立免費(fèi)的公司賬戶,定期推送公司的新聞和活動(dòng)用于積累關(guān)注者。還可以建立職業(yè)界面,用于推廣企業(yè)方的雇主價(jià)值主張,介紹目標(biāo)候選人的標(biāo)準(zhǔn),空缺職位。同時(shí)企業(yè)可以購(gòu)買招聘人員賬號(hào),以直接搜尋被動(dòng)候選人的方式進(jìn)行招聘。
鑒于巨大的微信使用群體,招聘在微信平臺(tái)上的應(yīng)用比領(lǐng)英顯得更加高效。企業(yè)方可以用較低的價(jià)格申請(qǐng)公共號(hào),無(wú)論是第三方或者公司本身都可以進(jìn)行對(duì)官方賬號(hào)的設(shè)計(jì)和運(yùn)維。微信招聘的最大優(yōu)勢(shì)在于使用簡(jiǎn)單方便,無(wú)論文章、活動(dòng)、職位都可以非常快速的發(fā)至朋友圈進(jìn)行傳播,從而達(dá)到最廣泛的傳播范圍。然而,搭載在手機(jī)平臺(tái)上,受屏幕大小的制約,微信推廣的內(nèi)容則以精簡(jiǎn)和優(yōu)質(zhì)為快速獲得關(guān)注者和求職者的關(guān)鍵因素。通過(guò)從系統(tǒng)后臺(tái)抓取的關(guān)注者和求職者信息,通過(guò)數(shù)據(jù)分析,企業(yè)方很容易得到目標(biāo)人群的聯(lián)系方式,從而進(jìn)一步增加招聘的成功率。
與被動(dòng)的等待求職者投遞相比,社交媒體下的招聘環(huán)境要求企業(yè)的招聘人員具備主動(dòng)尋找和接觸候選人(特別是被動(dòng)候選人)的能力,與之產(chǎn)生互動(dòng),激發(fā)他們的求職熱情,最終達(dá)成聘用上崗的目標(biāo)。面對(duì)競(jìng)爭(zhēng)對(duì)手之間激烈的人才爭(zhēng)奪,招聘人員需要具備優(yōu)異的溝通能力,這里的溝通是具有社交式的溝通特點(diǎn),它的方法根據(jù)溝通對(duì)象和溝通渠道的不同而產(chǎn)生巨大地差異。例如,目標(biāo)人群是大學(xué)生或者應(yīng)屆畢業(yè)生,與之溝通的語(yǔ)言和方式多數(shù)是年輕化的,并且主題多結(jié)合當(dāng)下的流行話題,以這種方式來(lái)吸引他們對(duì)雇主的關(guān)注和興趣;需要注意的是,如果這種溝通在網(wǎng)絡(luò)上(如微博和微信),使用時(shí)髦的網(wǎng)絡(luò)語(yǔ)言也就不足為奇了;如果是在官方的嚴(yán)肅渠道上(如官網(wǎng)和LinkedIn),語(yǔ)言的使用需要符合企業(yè)的文化和公關(guān)部溝通指南要求。新環(huán)境下的招聘可以比喻成產(chǎn)品的營(yíng)銷過(guò)程,所有的候選者即為顧客,運(yùn)用營(yíng)銷的理念和技能,將手中的職位即商品,以合理地方式銷售給目標(biāo)人群,使顧客在整個(gè)求職過(guò)程中有良好的購(gòu)物體驗(yàn),最終達(dá)成雙贏的局面。所以,除了已經(jīng)得到企業(yè)認(rèn)可的招聘人員勝任力模型之外,社交媒體下的招聘要求招聘人員同時(shí)具備營(yíng)銷人員的部門(mén)勝任力,充分理解并實(shí)踐,才能更好的應(yīng)用社交媒體為招聘帶來(lái)的便利。
關(guān)鍵詞:語(yǔ)義標(biāo)注 社交媒體 信息抽取
中圖分類號(hào): TP311 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1003-6938(2013)05-0095-05
1 引言
社交媒體的數(shù)據(jù)文本短、噪聲大,多為對(duì)話,數(shù)據(jù)實(shí)時(shí)發(fā)生,需要基于時(shí)間和上下文的即時(shí)分析處理。如何實(shí)時(shí)、有效和經(jīng)濟(jì)地去訪問(wèn)和集成這些多語(yǔ)言的數(shù)據(jù),是一個(gè)嚴(yán)峻挑戰(zhàn),目前的各種技術(shù)在準(zhǔn)確性、可伸縮性和便攜性方面都有所欠缺。
語(yǔ)義標(biāo)注把語(yǔ)義模型和自然語(yǔ)言結(jié)合在了一起,可以看作是本體和非結(jié)構(gòu)化或半結(jié)構(gòu)化文檔之間的關(guān)聯(lián)進(jìn)行雙向動(dòng)態(tài)的生成過(guò)程,從技術(shù)的角度來(lái)講,語(yǔ)義標(biāo)注是通過(guò)參照在本體里的URI的元數(shù)據(jù), 從本體(類、實(shí)例、屬性或者關(guān)系等)里標(biāo)注在文本里出現(xiàn)的概念。使用文本里出現(xiàn)的新的實(shí)例去增強(qiáng)本體的方法也稱為本體填充。
社交媒體的自動(dòng)語(yǔ)義標(biāo)引可以用于基于語(yǔ)義的搜索、瀏覽、過(guò)濾、推薦、可視化分析用戶以及用戶之間的社交網(wǎng)絡(luò)和在線行為的語(yǔ)義模型建立,還有其他的應(yīng)用場(chǎng)合例如知識(shí)管理、競(jìng)爭(zhēng)情報(bào)、客戶關(guān)系管理、電子政務(wù)、電子商務(wù)等。
目前的語(yǔ)義標(biāo)注技術(shù)主要是針對(duì)新聞文章或者其他較為正式、篇幅較長(zhǎng)的Web內(nèi)容,由于社交媒體自身具有內(nèi)容較短、噪聲大、跟時(shí)間相關(guān)、用戶產(chǎn)生內(nèi)容等這些鮮明的特點(diǎn),給語(yǔ)義標(biāo)注技術(shù)的發(fā)展帶來(lái)新的挑戰(zhàn)。
2 社交媒體語(yǔ)義標(biāo)注的方式
語(yǔ)義標(biāo)注可以采用手工、自動(dòng)化或半自動(dòng)化等多種方式進(jìn)行。
Passant等[1]提出了語(yǔ)義微博框架模型,以便用戶給博文手動(dòng)的添加機(jī)器可讀的語(yǔ)義,該框架也支持通過(guò)主題標(biāo)簽與關(guān)聯(lián)開(kāi)放數(shù)據(jù)進(jìn)行連接。Hepp等[2]提出了一個(gè)新的對(duì)微博進(jìn)行手工語(yǔ)義標(biāo)注句法,能映射成RDF語(yǔ)句,該句法支持標(biāo)簽、本體屬性,例如FOAF和在同一個(gè)微博里多個(gè)RDF語(yǔ)句之間關(guān)系。盡管手工語(yǔ)義標(biāo)注具有一定的價(jià)值,但是每天騰訊、新浪等百萬(wàn)條微博的涌現(xiàn),亟需自動(dòng)的語(yǔ)義標(biāo)引方法。
信息抽取,作為一個(gè)自然語(yǔ)言分析的方式,日益成為在非結(jié)構(gòu)化文本和在本體中的規(guī)范化知識(shí)之間建起溝通橋梁的關(guān)鍵技術(shù)。基于本體的信息抽取就是適用于語(yǔ)義標(biāo)注的任務(wù),傳統(tǒng)的信息抽取和基于本體的信息抽取的一個(gè)顯著區(qū)別就是規(guī)范化的本體作為系統(tǒng)的輸入和輸出,有些信息抽取系統(tǒng)只是把系統(tǒng)輸出和本體做一個(gè)映射,這些系統(tǒng)嚴(yán)格來(lái)講,應(yīng)該稱為面向本體的系統(tǒng)。基于本體的信息抽取另一個(gè)顯著的特點(diǎn)是它不僅僅發(fā)現(xiàn)被抽取的實(shí)體的類型,而且還要把它跟目標(biāo)知識(shí)庫(kù)里的關(guān)于它的語(yǔ)義描述關(guān)聯(lián)起來(lái),通常用一個(gè)URI方式識(shí)別它,在抽取過(guò)程中需要在文檔內(nèi)和文檔間進(jìn)行命名實(shí)體、術(shù)語(yǔ)、關(guān)系等自動(dòng)識(shí)別和共指消解。
關(guān)聯(lián)開(kāi)放數(shù)據(jù)資源,例如DBpedia,YAGO和Freebase等已經(jīng)成為語(yǔ)義標(biāo)注本體知識(shí)的關(guān)鍵來(lái)源,也作為用來(lái)消歧的目標(biāo)本體知識(shí)庫(kù),他們提供了交叉引用、領(lǐng)域無(wú)關(guān)的數(shù)萬(wàn)條類和關(guān)系以及數(shù)百萬(wàn)條的實(shí)例,一個(gè)關(guān)聯(lián)、互補(bǔ)的代名詞的資源集合,對(duì)應(yīng)于維基百科的條目和其他外部數(shù)據(jù)的概念和實(shí)例,豐富的類層次用于細(xì)粒度分類命名實(shí)體,而關(guān)于數(shù)百萬(wàn)實(shí)例和對(duì)應(yīng)維基百科條目的鏈接的知識(shí)也是基于本體抽取系統(tǒng)的一個(gè)特點(diǎn)。
3 社交媒體語(yǔ)義標(biāo)注的主要方法
3.1 關(guān)鍵短語(yǔ)抽取
自動(dòng)抽取出的關(guān)鍵句可以表示出一個(gè)文檔或文檔集的主題,但不能有效的表達(dá)論點(diǎn)或者所有的觀點(diǎn),關(guān)鍵短語(yǔ)抽取因此被認(rèn)為是一種淺表知識(shí)抽取,它也作為降維手段,允許系統(tǒng)處理較小集合的重要的術(shù)語(yǔ)而不是全文,用于上下文的語(yǔ)義標(biāo)注和索引。
一些關(guān)鍵詞語(yǔ)方法利用了術(shù)語(yǔ)共現(xiàn)形成術(shù)語(yǔ)的圖,邊為一對(duì)術(shù)語(yǔ)共現(xiàn)的距離,給頂點(diǎn)分配一定的權(quán)重,W Wu等研究表明這一類的術(shù)語(yǔ)抽取方法相對(duì)依賴于文本模型的方法,在Twitter數(shù)據(jù)上表現(xiàn)更優(yōu)。這些基于圖的方法在從Twitter中抽取關(guān)鍵短語(yǔ)之所以取得了良好的效果,原因在于這個(gè)領(lǐng)域包括了大量的冗余,有利于形成關(guān)鍵詞摘要。但主題的多樣性增加了抽取一系列相關(guān)和準(zhǔn)確的關(guān)鍵詞的難度,Xin等[3]在關(guān)鍵詞組抽取中結(jié)合了主題建模來(lái)解決該問(wèn)題。
當(dāng)前的相關(guān)研究主要是使用該方法來(lái)產(chǎn)生新的標(biāo)簽,Qu等[4]在基于詞性標(biāo)簽的基礎(chǔ)上,從n-gram產(chǎn)生候選的關(guān)鍵短語(yǔ),然后使用一個(gè)監(jiān)督邏輯回歸分類器進(jìn)行過(guò)濾。該方法還可以和分眾分類法進(jìn)一步結(jié)合,產(chǎn)生標(biāo)簽簽名,例如把分眾分類法中的每一個(gè)標(biāo)簽和加權(quán)的、語(yǔ)義相關(guān)的術(shù)語(yǔ)聯(lián)系起來(lái),針對(duì)新的博文和帖子,進(jìn)行比較和排序這些標(biāo)簽,從而推薦一些最相關(guān)的標(biāo)簽。
3.2 社交媒體中的基于本體的實(shí)體識(shí)別
基于本體的實(shí)體識(shí)別一般分為兩個(gè)步驟:實(shí)體識(shí)別和實(shí)體聯(lián)接,實(shí)體識(shí)別階段主要根據(jù)一個(gè)本體識(shí)別出文本中出現(xiàn)的所有的類和實(shí)例,而實(shí)體聯(lián)接階段則是使用文本中的概念信息,結(jié)合從本體中的知識(shí),來(lái)選擇一個(gè)正確的URI。
3.2.1 基于維基百科的方法
目前實(shí)體識(shí)別和聯(lián)接的主要研究都是使用維基百科作為龐大的、免費(fèi)的、人工標(biāo)引的訓(xùn)練語(yǔ)料庫(kù)。典型的目標(biāo)知識(shí)庫(kù)例如DBpedia和YAGO等都是來(lái)源于維基百科,提供了一個(gè)實(shí)體URI和相應(yīng)的維基百科頁(yè)面的直接映射。
基于實(shí)體消歧的方法主要是使用一個(gè)字典,里面有每個(gè)實(shí)體URI的標(biāo)簽,包括維基百科的實(shí)體頁(yè)面,重定向(用于同義詞和縮寫(xiě)),消歧頁(yè)(對(duì)具有相同名稱的多個(gè)實(shí)體)和鏈接到維基百科頁(yè)面時(shí)使用的錨定文本。這本詞典用于識(shí)別所有候選實(shí)體的URI,然后把這些候選的URI進(jìn)行排序,給出一個(gè)置信分?jǐn)?shù)。如果在目標(biāo)知識(shí)庫(kù)里面,沒(méi)有匹配的實(shí)體,就返回空值。
一個(gè)廣泛使用的基于維基百科的語(yǔ)義標(biāo)注系統(tǒng)是DBpedia Spotlight[5],這是一個(gè)免費(fèi)的可定制的Web系統(tǒng),它通過(guò)DBpedia的URIs標(biāo)注文本,它的目標(biāo)是DBpedia本體,包含了三十多個(gè)頂級(jí)類和272個(gè)類,通過(guò)顯式地列出他們或一個(gè)SPARQL查詢,來(lái)限制哪些類(或者它的子類)用于命名實(shí)體識(shí)別,這個(gè)算法首先通過(guò)查找一個(gè)來(lái)源于維基百科的URI詞匯字典挑選候選的實(shí)體,然后使用向量空間模型對(duì)URI進(jìn)行排序,每一個(gè)DBpedia資源都和一個(gè)文檔相關(guān)聯(lián),構(gòu)建的每一段文字里都使用到在維基百科里的概念。
LINDEN框架[6]在基于維基百科的信息外,還充分利用了YAGO里更豐富的語(yǔ)義信息,這種方法很大程度上依賴于Wikipedia-Miner工具,該工具用來(lái)分析有歧義的實(shí)體的上下文和發(fā)現(xiàn)出現(xiàn)在維基百科里的概念。在TACKBP2009數(shù)據(jù)集上的評(píng)測(cè)表明LINDEN超過(guò)了所有的只基于維基百科的系統(tǒng),但目前LINDEN還沒(méi)有和DBpedia Spotlight在同一數(shù)據(jù)集進(jìn)行測(cè)試比較。
3.2.2 面向社交化媒體的方法
命名實(shí)體識(shí)別方法一般都是在較長(zhǎng)、較常規(guī)的文本上進(jìn)行訓(xùn)練,當(dāng)作用在較短和更多噪聲的社交媒體內(nèi)容上的時(shí)候,效果較差。面向社交媒體的方法融合了語(yǔ)言和社交媒體專門(mén)的特性,盡管每個(gè)博文提供了很少的內(nèi)容,但可以從用戶資料、社交網(wǎng)絡(luò)和回復(fù)中發(fā)現(xiàn)更多的附加信息。
Ritter 等[7]通過(guò)使用Freebase作為一個(gè)大規(guī)模已知實(shí)體來(lái)源,提出了命名實(shí)體分類的問(wèn)題,如果沒(méi)有考慮到上下文,直接進(jìn)行實(shí)體查找和類型分配,只能得到38%的F值,其中35%的實(shí)體是歧義的,具有多個(gè)類型,而30%的實(shí)體沒(méi)有在Freebase中出現(xiàn)過(guò)。如果使用被標(biāo)記的主題模型,考慮到每個(gè)實(shí)體字符串出現(xiàn)的上下文和在Freebase類型上的分布,命名實(shí)體分類的F值提高到了66%。
Ireson 等[8]研究了在Flickr網(wǎng)站上命名標(biāo)簽的地名消歧問(wèn)題。這個(gè)方法是在Yahoo! GeoPlanet語(yǔ)義數(shù)據(jù)庫(kù)的基礎(chǔ)上,為每一個(gè)地點(diǎn)實(shí)例都提供一個(gè)URI,與一個(gè)相關(guān)地點(diǎn)的分類,這個(gè)標(biāo)簽消歧的方法利用了其他分配給照片的標(biāo)簽,用戶上下文(一個(gè)用戶分配給他所有照片的標(biāo)簽)和擴(kuò)展用戶上下文(考慮到用戶聯(lián)系人的標(biāo)簽),這種基于社會(huì)化網(wǎng)絡(luò)上下文的使用顯著地提高了整體消歧的準(zhǔn)確性。
另一個(gè)附加和隱藏的語(yǔ)義是微博里的主題標(biāo)簽,Laniado 等[9]詳細(xì)調(diào)查了三千六百多萬(wàn)條微博里的主題標(biāo)簽語(yǔ)義,使用了四種度量指標(biāo):使用頻率、使用的一致性、穩(wěn)定性和專門(mén)性。這些度量用來(lái)決定哪些主題標(biāo)簽可以被用作標(biāo)示符,連接到Freebase URIs上,通過(guò)從分眾完成的在線詞匯表,添加主題標(biāo)簽的定義,主題標(biāo)簽也可以作為語(yǔ)義信息的附加來(lái)源。Mendes等[10]通過(guò)簡(jiǎn)單地在DBpedia里查找,而沒(méi)有進(jìn)一步的消歧就完成了語(yǔ)義標(biāo)注。用戶相關(guān)的屬性和社會(huì)關(guān)系都在FOAF里了,而語(yǔ)義標(biāo)注通過(guò)MOAT本體來(lái)實(shí)現(xiàn)。
Gruhl等[11]關(guān)注了語(yǔ)義標(biāo)注的消歧元素,審視了處理高度歧義的情況,例如歌曲音樂(lè)專輯的名稱。他們提出的方法首先限制用于產(chǎn)生候選的MusicBrainZ本體的部分,通過(guò)過(guò)濾掉所有在給定文本里沒(méi)有提到的音樂(lè)家的信息,然后運(yùn)用詞性標(biāo)注和名詞詞組組塊,把這些信息作為支持向量機(jī)分類器的輸入,在此基礎(chǔ)上進(jìn)行消歧。這個(gè)方法對(duì)關(guān)于三位音樂(lè)家的MySpace帖子的語(yǔ)料集做了測(cè)試,盡管本體很大,但有關(guān)文本很快被找到,具有較高的效能。
3.2.3 商業(yè)化實(shí)體識(shí)別服務(wù)
現(xiàn)有大量的商業(yè)在線實(shí)體識(shí)別服務(wù)用實(shí)體標(biāo)注文檔,給文檔指派關(guān)聯(lián)數(shù)據(jù)URIs,NERD在線工具可以輕松地在用戶上傳的數(shù)據(jù)集上進(jìn)行比較,還可以整合他們的結(jié)果,把結(jié)果映射到關(guān)聯(lián)開(kāi)放數(shù)據(jù)云上。
Zemanta[12] 是一個(gè)在線標(biāo)注工具,最初專門(mén)用于博客和郵件內(nèi)容,幫助用戶通過(guò)推薦來(lái)插入標(biāo)簽和鏈接。Open Calais[13]是另外一個(gè)語(yǔ)義標(biāo)注的商業(yè)化Web服務(wù),Abel等利用它在新聞相關(guān)的微博里識(shí)別命名實(shí)體,目標(biāo)實(shí)體一般是地理位置、公司、人員、地址或聯(lián)系電話等,而被抽取出來(lái)的事件和事實(shí)一般涉及以上的實(shí)體,例如公司競(jìng)爭(zhēng)者、聯(lián)盟等。實(shí)體標(biāo)注包括URL,允許通過(guò)http訪問(wèn)在關(guān)聯(lián)數(shù)據(jù)中的這個(gè)實(shí)體的更多信息。目前OpenCalais連接到8個(gè)關(guān)聯(lián)數(shù)據(jù)集上,包括它自帶的數(shù)據(jù)庫(kù),如DBpedia,Wikipedia,IMDB等,廣泛涉及到了本體中的實(shí)體類別。Calais的主要局限性是專有的性質(zhì)問(wèn)題,例如用戶通過(guò)Web服務(wù)發(fā)送文檔來(lái)進(jìn)行標(biāo)注,接受標(biāo)注的結(jié)果,但是他們不能給Calais一個(gè)不同的本體來(lái)進(jìn)行標(biāo)注,或者定制實(shí)體抽取的方式。
3.3 情感監(jiān)測(cè)和觀點(diǎn)分析
自動(dòng)情感監(jiān)測(cè)技術(shù)主要分為基于詞匯的方法和機(jī)器學(xué)習(xí)的方法,基于詞匯的方法主要依賴于一個(gè)情感詞匯庫(kù),包含了已知和預(yù)先收錄的情感術(shù)語(yǔ),而機(jī)器學(xué)習(xí)的方法利用淺表語(yǔ)法或語(yǔ)言的特性。大多數(shù)情感和觀點(diǎn)分析方法沒(méi)有或者很少利用到語(yǔ)義,例如把博文分為積極、消極或中性情感,是建立在n-grams和詞性信息的技術(shù)上。這些方法會(huì)導(dǎo)致數(shù)據(jù)量少的問(wèn)題。Saif等[14]證明了使用語(yǔ)義概念代替單詞能顯著提高極性分類的準(zhǔn)確性,這個(gè)方法使用了AlchemyAPI來(lái)進(jìn)行語(yǔ)義標(biāo)注,它包括了30個(gè)實(shí)體類,絕大部分是人物、公司、城市和組織等。這個(gè)方法在斯坦福Twitter情感數(shù)據(jù)集上作了評(píng)估測(cè)試,性能超過(guò)了其他沒(méi)有使用語(yǔ)義的現(xiàn)有方法。語(yǔ)義標(biāo)注還可以用來(lái)完成挑戰(zhàn)性的觀點(diǎn)挖掘任務(wù),結(jié)合來(lái)源于WordNet等上的情感詞匯,使用基于規(guī)則的實(shí)體識(shí)別器來(lái)識(shí)別出微博里的人物、政治團(tuán)體和所持觀點(diǎn),然后進(jìn)行語(yǔ)義分析,使用模式來(lái)產(chǎn)生三語(yǔ)組,表示出觀點(diǎn)持有者和投票意愿。
3.4 跨媒體聯(lián)接
由于微博內(nèi)容比較短,如果不參考外部資源的上下文內(nèi)容,很難被理解,所以需要跨媒體的自動(dòng)聯(lián)接。Abel等把微博和當(dāng)前的新聞故事連接在一起改善微博的語(yǔ)義標(biāo)注的準(zhǔn)確性,探索了一些聯(lián)接策略:利用出現(xiàn)在微博里的URL,微博和新聞文章的TF-IDF相似性,主題標(biāo)簽和基于實(shí)體的相似性(例如OpenCalais識(shí)別出來(lái)的語(yǔ)義實(shí)體和主題)等。Hubmann-Haidvogel等[15]使用在線新聞從Twitter,YouTube和Facebook上匯總關(guān)于社交媒體關(guān)于氣候變化的內(nèi)容。
4 社會(huì)媒體的語(yǔ)義標(biāo)注改進(jìn)途徑
目前的社交媒體語(yǔ)義標(biāo)注方法有很多的局限性,很多方法就像關(guān)鍵詞和主題抽取一樣,只能解決淺表問(wèn)題,而基于本體的實(shí)體和事件識(shí)別并沒(méi)有取得在較長(zhǎng)的文檔上那樣高的準(zhǔn)確度和召回率。語(yǔ)義標(biāo)注方法只適用于它們訓(xùn)練和評(píng)估的數(shù)據(jù),在社交媒體標(biāo)準(zhǔn)數(shù)據(jù)集的訓(xùn)練算法也是有限的,使用命名實(shí)體類型和事件標(biāo)注的微博條數(shù)一般都小于1000條,需要來(lái)自不同社交媒體類型更大的共享評(píng)測(cè)語(yǔ)料集,如果通過(guò)傳統(tǒng)人工的方法進(jìn)行,則不可能完成。
4.1 眾包
一種改善自動(dòng)標(biāo)注的途徑是進(jìn)行眾包,ZenCrowd[16]系統(tǒng)把大規(guī)模的實(shí)體和在Amazon Mechanical Turk上的微任務(wù),能夠自動(dòng)連接到LOD云上的文字部分不交給標(biāo)引員,只是在難以解決的情況下才咨詢標(biāo)引員,這樣顯著提高了標(biāo)注結(jié)果。歐盟FP7資助的Xlike項(xiàng)目[17]也嘗試眾包去解決社交媒體廣泛使用的非正式語(yǔ)言的非規(guī)則性,提高標(biāo)注的準(zhǔn)確性。Gate Teamware[18]是一個(gè)基于網(wǎng)絡(luò)的協(xié)同標(biāo)注工具,支持分布式團(tuán)體工作,可以為非專業(yè)的標(biāo)引員進(jìn)行個(gè)性化定制使用。
4.2 利用Web of Data上的海量知識(shí)
另一種改善社交媒體語(yǔ)義標(biāo)注的途徑是更好的利用Web of Data上的海量知識(shí),目前大部分局限在維基百科、DBpedia和YAGO上,使用網(wǎng)絡(luò)數(shù)據(jù)的一大問(wèn)題是,由于常用詞和停用詞的大量使用等造成的歧義,需要自動(dòng)化的領(lǐng)域分類的步驟,確保特定領(lǐng)域的LOD(關(guān)聯(lián)開(kāi)放數(shù)據(jù))資源被用于標(biāo)引相關(guān)領(lǐng)域內(nèi)的社交媒體。使用網(wǎng)絡(luò)數(shù)據(jù)面臨的第二大問(wèn)題是健壯性和可伸縮性,在面臨LOD資源的噪聲知識(shí)時(shí),在處理有噪音的、語(yǔ)法不規(guī)則的語(yǔ)言的時(shí)候,能保持一定的健壯性,考慮到Web of Data的規(guī)模,設(shè)計(jì)基于本體的算法時(shí),算法要在維持較高的計(jì)算水平的同時(shí),又能有效的加載和查詢這些大規(guī)模的知識(shí)庫(kù)。最后一個(gè)有效利用網(wǎng)絡(luò)數(shù)據(jù)資源的障礙是相當(dāng)有限的可用詞匯信息。除了維基百科上的資源,其他的詞匯信息大多數(shù)局限在RDF標(biāo)簽。這就限制了他們?cè)诨诒倔w的信息抽取和語(yǔ)義標(biāo)注上的使用。近期很多學(xué)者都專注于利用協(xié)作完成的維基學(xué)科去建設(shè)跨語(yǔ)言詞匯資源。它包含了很多外來(lái)詞和新詞,并且不斷被貢獻(xiàn)者社區(qū)進(jìn)行更新,可以在分析用戶內(nèi)容時(shí)作參考使用。針對(duì)英語(yǔ)和德語(yǔ),目前正在進(jìn)行的工作有建立UBY[19],這是一個(gè)綜合的、大規(guī)模、語(yǔ)義-詞匯資源,它基于維基百科、WordNet和其他的LOD資源。有些研究還關(guān)注基于語(yǔ)言的本體建設(shè),提出把語(yǔ)言信息和本體元素進(jìn)行關(guān)聯(lián)的模型,這些都為跨語(yǔ)言語(yǔ)義標(biāo)注系統(tǒng)的建設(shè)進(jìn)行了有益的嘗試。
5 結(jié)語(yǔ)
盡管社交媒體的語(yǔ)義標(biāo)注技術(shù)還有很多的改進(jìn)空間,但語(yǔ)義標(biāo)注的結(jié)果已經(jīng)被應(yīng)用在從社交媒體流的隱形信息中自動(dòng)獲得用戶和社交網(wǎng)絡(luò)的模型的方法上。為了更好的挖掘出隱含語(yǔ)義信息,處理多噪聲的動(dòng)態(tài)社交媒體流,我們需要探索更加穩(wěn)定、準(zhǔn)確的大規(guī)模實(shí)體和事件識(shí)別方法,需要進(jìn)一步細(xì)化意見(jiàn)挖掘算法用于目標(biāo)識(shí)別,解決時(shí)間波動(dòng)性問(wèn)題,對(duì)沖突意見(jiàn)的探測(cè)和建模以及意見(jiàn)匯總。
參考文獻(xiàn):
[1]A. Passant, J. G. Breslin, and S. Decker. Rethinking microblogging:open, distributed, semantic[C]. Proceedings of the 10th International Conference on Web Engineering,2010:263-277.
[2]M. Hepp. HyperTwitter: Collaborative knowledge engineering via Twitter messages[C].Knowledge Engineering and Management by the Masses-17th International Confe
rence EKAW 2010,2010:451-461.
[3]W. Xin, Z. Jing, J. Jing, H. Yang, S. Palakorn, W. X. Zhao,J. Jiang, J. He, Y. Song, P. Achananuparp, E. P. Lim, andX. Li. Topical keyphrase extraction from Twitter[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, HLT ’11,2011:379-388.
[4]L. Qu, C. Müller, and I. Gurevych. Using tag semantic network for keyphrase extraction in blogs. In Proceedings of the 17th Conference on Information and Knowledge Management,2008:1381-1382.
[5]Dbpedia Spotlight[EB/OL].[2013-06-02].http:///projects/dbp-spotlight/.
[6]W. Shen, J. Wang, P. Luo, and M. Wang. LINDEN: Linking named entities with knowledge base via semantic knowledge[C].Proceedings of the 21st Conference on World Wide Web,2012:449-458.
[7]A. Ritter, S. Clark, Mausam, and O. Etzioni. Named entity recognition in tweets: An experimental study[C]. Proc. of Empirical Methods for Natural Language Processing (EMNLP), Edinburgh, UK, 2011.
[8]N. Ireson and F. Ciravegna. Toponym resolution in social media[C]. Proceedings of the 9th International Semantic Web Conference (ISWC),2010:370-385.
[9]David Laniado and Peter Mika. Making sense of Twitter[C].International Semantic Web Conference(1),2010:470-485.
[10]P. N. Mendes, A. Passant, P. Kapanipathi, and A. P. Sheth. Linked open social signals[C]. Proceedings of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 2010:224-231.
[11]D. Gruhl, M. Nagarajan, J. Pieper, C. Robson, and A. Sheth. Context and Domain Knowledge Enhanced Entity Spotting in Informal Text[C]. Proceedings of the 8th International Semantic Web Conference (ISWC’2009), 2009.
[12]Zemanta[EB/OL]. [2013-06-03]. http://.
[13]Opencalais[EB/OL].[2013-06-03]. http:///.
[14]H. Saif, Y. He, and H. Alani. Alleviating data sparsity for Twitter sentiment analysis[C]. Proceedings of the #
MSM2012 Workshop, CEUR,2012.
[15]A.Hubmann-Haidvogel,A. M. P. Brasoveanu, A. Scharl, M. Sabou, and S. Gindl. Visualizing contextual and dynamic features of micropost streams[C].Proceedings of the #MSM2012 Workshop, CEUR, 2012.
[16]G. Demartini, D. E. Difallah, and P. Cudré-Mauroux. Zen-Crowd: Leveraging probabilistic reasoning and crowdsourcing techniques for large-scale entity linking[C].Proceedings of the 21st Conference on World Wide Web, 2012:469-478.
[17]Xlike[EB/OL].[2012-06-05]. http:///.
[18]Kaling Bontcheva, Hamish Cunningham, Ian Roberts, Angus Roberts, Valentin Tablan, Niraj Aswani, and Genevieve Gorrell. GATE Teamware: A Web-based, Collaborative Text Annotation Framework[J/OL]. [2013
-06-03].http://eprints.whiterose.ac.uk/75937/.