本站小編為你精心準(zhǔn)備了企業(yè)競(jìng)爭(zhēng)情報(bào)的語(yǔ)義挖掘參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
1引言
競(jìng)爭(zhēng)情報(bào)是知識(shí)經(jīng)濟(jì)時(shí)代企業(yè)保持競(jìng)爭(zhēng)優(yōu)勢(shì)的戰(zhàn)略資源和分析與預(yù)測(cè)行業(yè)發(fā)展態(tài)勢(shì)、制定科學(xué)戰(zhàn)略決策的依據(jù)。目前,已被公認(rèn)為除資本、技術(shù)、人才之外的企業(yè)“第四核心競(jìng)爭(zhēng)力”[1]。隨著Web2.0和語(yǔ)義Web的快速發(fā)展和普及,網(wǎng)絡(luò)信息資源日益豐富并逐漸成為企業(yè)競(jìng)爭(zhēng)情報(bào)分析和獲取的最重要的信息來(lái)源,Google、微軟、百度等企業(yè)紛紛提出“Internetisdatabase”的觀點(diǎn),即未來(lái)企業(yè)所需的信息、知識(shí)和情報(bào)都可以通過(guò)網(wǎng)絡(luò)獲取,企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)的保持和核心競(jìng)爭(zhēng)力的培育很大程度上取決于網(wǎng)絡(luò)信息資源分析與獲取的能力[2]。然而,由于網(wǎng)絡(luò)信息資源通常具有高維、海量、異質(zhì)異構(gòu)和動(dòng)態(tài)等特征,傳統(tǒng)的競(jìng)爭(zhēng)情報(bào)分析和獲取方法,如SWOT分析法、定標(biāo)比超分析法、關(guān)鍵成功因素分析法等定性和定量分析法,雖然可以對(duì)結(jié)構(gòu)化數(shù)據(jù)信息實(shí)現(xiàn)自動(dòng)排序、篩選和去重,但對(duì)于海量的半結(jié)構(gòu)化與非結(jié)構(gòu)化、異構(gòu)分布式數(shù)據(jù)還不能進(jìn)行有效的加工處理。此外,當(dāng)前的情報(bào)分析與獲取主要依靠人工方法,速度慢、效率低,無(wú)法適應(yīng)網(wǎng)絡(luò)信息資源的快速增長(zhǎng)和動(dòng)態(tài)變化,而且人工定性分析和經(jīng)驗(yàn)判斷存在較多的不確定性,導(dǎo)致分析結(jié)果隨機(jī)性較大。主流的競(jìng)爭(zhēng)情報(bào)系統(tǒng),如TRS競(jìng)爭(zhēng)情報(bào)系統(tǒng)、天下互聯(lián)競(jìng)爭(zhēng)情報(bào)系統(tǒng)以及賽迪數(shù)據(jù)競(jìng)爭(zhēng)情報(bào)系統(tǒng)等[3],雖然借助智能、數(shù)據(jù)挖掘、知識(shí)管理等智能信息處理技術(shù)進(jìn)行競(jìng)爭(zhēng)情報(bào)挖掘和自動(dòng)分析,但由于這些統(tǒng)采用類似搜索引擎的網(wǎng)頁(yè)搜索與分析技術(shù),其自動(dòng)分析與挖掘功能局限在信息采集和有限的數(shù)據(jù)挖掘上,僅僅實(shí)現(xiàn)了淺層信息的統(tǒng)計(jì)分析,無(wú)法獲取深層情報(bào)內(nèi)容和挖掘情報(bào)的潛在價(jià)值,嚴(yán)重影響了競(jìng)爭(zhēng)情報(bào)的質(zhì)量和情報(bào)獲取的效率,并且最終分析結(jié)果是以網(wǎng)頁(yè)或文本塊的粒度來(lái)描述競(jìng)爭(zhēng)情報(bào)信息,而企業(yè)競(jìng)爭(zhēng)情報(bào)需要的是關(guān)于競(jìng)爭(zhēng)對(duì)手、競(jìng)爭(zhēng)環(huán)境和競(jìng)爭(zhēng)策略的完整描述,兩者之間存在認(rèn)知上的極大不匹配[4],從而制約了競(jìng)爭(zhēng)情報(bào)的實(shí)用性和應(yīng)用效果。面對(duì)網(wǎng)絡(luò)環(huán)境下持續(xù)增長(zhǎng)的海量信息以及知識(shí)經(jīng)濟(jì)時(shí)代企業(yè)競(jìng)爭(zhēng)壓力的不斷增大,傳統(tǒng)的競(jìng)爭(zhēng)情報(bào)分析與獲取方法逐漸難以適應(yīng)復(fù)雜競(jìng)爭(zhēng)環(huán)境的動(dòng)態(tài)變化和企業(yè)對(duì)大規(guī)模、高質(zhì)量、深層次的情報(bào)知識(shí)需求。面對(duì)紛繁蕪雜、結(jié)構(gòu)類型多樣的海量網(wǎng)絡(luò)動(dòng)態(tài)信息,如何利用多學(xué)科領(lǐng)域的先進(jìn)理論與最新成果,實(shí)現(xiàn)競(jìng)爭(zhēng)情報(bào)集成化、自動(dòng)化、智能化以及高效化地分析挖掘,獲取高質(zhì)量、深層次的競(jìng)爭(zhēng)情報(bào),已成為當(dāng)前學(xué)術(shù)界和企業(yè)界亟待解決的難題。本文在分析、比較和綜合國(guó)內(nèi)外競(jìng)爭(zhēng)情報(bào)分析與獲取方法的基礎(chǔ)上,利用本體和上下文知識(shí)從情報(bào)語(yǔ)義和應(yīng)用環(huán)境兩個(gè)方面進(jìn)行語(yǔ)義層面的深層競(jìng)爭(zhēng)情報(bào)挖掘和情報(bào)分析,研究了本體與上下文知識(shí)的融合實(shí)現(xiàn),設(shè)計(jì)了一種基于語(yǔ)義決策樹的競(jìng)爭(zhēng)情報(bào)歸納學(xué)習(xí)算法進(jìn)行競(jìng)爭(zhēng)情報(bào)語(yǔ)義挖掘和情報(bào)知識(shí)發(fā)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,該算法顯著提高了情報(bào)挖掘的智能性和情報(bào)分析的準(zhǔn)確性,在一定程度上實(shí)現(xiàn)了競(jìng)爭(zhēng)情報(bào)語(yǔ)義挖掘和情報(bào)知識(shí)自動(dòng)分析與獲取。
2本體和上下文知識(shí)的融合實(shí)現(xiàn)
本體對(duì)共享概念形式化的明確表示,通過(guò)提供對(duì)數(shù)據(jù)信息的一致性理解使得計(jì)算機(jī)能夠正確分析和處理信息的語(yǔ)義,解決相同信息不同含義和不同信息相同含義之間存在的差異[5]。上下文知識(shí)是在對(duì)數(shù)據(jù)信息一致性理解的基礎(chǔ)上解決由于應(yīng)用環(huán)境和對(duì)象的不同所導(dǎo)致的對(duì)數(shù)據(jù)信息及其分析挖掘結(jié)果上的理解差異,提供針對(duì)具體應(yīng)用環(huán)境和特定對(duì)象的特例化知識(shí)。融合本體和上下文知識(shí)進(jìn)行情報(bào)分析可以實(shí)現(xiàn)面向特定應(yīng)用環(huán)境的、更準(zhǔn)確的深層次分析,如在情報(bào)分析的過(guò)程中可以使用本體知識(shí)來(lái)精確情報(bào)語(yǔ)義,使用上下文知識(shí)來(lái)約束情報(bào)分析的應(yīng)用環(huán)境空間,實(shí)現(xiàn)面向具體應(yīng)用環(huán)境的高效分析。融合本體和上下文知識(shí)進(jìn)行情報(bào)分析的首要問(wèn)題在于如何實(shí)現(xiàn)本體和上下文知識(shí)的有效融合。通過(guò)分析相關(guān)研究成果發(fā)現(xiàn):在情報(bào)分析中,本體提供的主要是領(lǐng)域內(nèi)通用的知識(shí),而上下文提供的是關(guān)于特定環(huán)境的特例化知識(shí),可以認(rèn)為上下文知識(shí)是本體知識(shí)在特定環(huán)境下的擴(kuò)展。目前,關(guān)于本體知識(shí)的表示方法與技術(shù),如:RDF(ResourceDescriptionFramework)、DAML(DARPAAgentMark-upLanguage)、DAML-S(DAML-Service)、DAML+OIL(DAML+OntologyInfer-enceLayer)、OWL(WebOntologyLanguage)等非常成熟,通過(guò)在本體知識(shí)表示方法的基礎(chǔ)上擴(kuò)充上下文知識(shí)是進(jìn)行本體與上下文知識(shí)融合的有效途徑。根據(jù)文獻(xiàn)[6]的方法,本文采用一個(gè)三元組來(lái)表示本體與上下文知識(shí)的融合模型:M={O,C,R}其中O表示本體集合,C表示上下文知識(shí)集合,R表示本體間、本體與上下文間、上下文間的關(guān)系。本體集合O={o1,o2…on},其中o1,o2…on表示本體知識(shí);上下文集合C={c1,c2,c3…cn;kc1,kc2,kc3…kcn},其中c1,c2,c3…cn表示上下文標(biāo)識(shí),kci表示屬于上下文標(biāo)識(shí)ci的上下文知識(shí)集合;關(guān)系R={roo,roc,rck,rkk},其中roo=(oi,oj)表示本體知識(shí)間的關(guān)系,roc=(oi,cj)表示本體知識(shí)與上下文標(biāo)識(shí)間的關(guān)系,rck=(ci,kj)表示上下文標(biāo)識(shí)與形成該標(biāo)識(shí)的上下文知識(shí)間的關(guān)系,rkk=(ki,kj)表示上下文知識(shí)間的關(guān)系。在該融合模型中,通過(guò)在本體知識(shí)表示的基礎(chǔ)上增加一個(gè)上下文標(biāo)識(shí)來(lái)表征一個(gè)由附加的多個(gè)上下文知識(shí)構(gòu)成的具體應(yīng)用環(huán)境,如圖1所示。在情報(bào)分析過(guò)程中,通過(guò)上下文標(biāo)識(shí)來(lái)識(shí)別和調(diào)用相應(yīng)的上下文知識(shí)進(jìn)行面向具體應(yīng)用環(huán)境的情報(bào)分析,提高情報(bào)分析的針對(duì)性和分析結(jié)果的實(shí)用性。
3基于本體和上下文知識(shí)相融合的競(jìng)爭(zhēng)情報(bào)分析算法
決策樹歸納學(xué)習(xí)是數(shù)據(jù)挖掘中常用的一種數(shù)據(jù)驅(qū)動(dòng)的、無(wú)優(yōu)先級(jí)別的歸納學(xué)習(xí)算法,采用自頂向下的遞歸方式,挖掘出以決策樹為表示形式的隱含規(guī)則指導(dǎo)情報(bào)分析,具備很高的運(yùn)算速率和準(zhǔn)確率。其中最具影響的決策樹歸納學(xué)習(xí)算法是R.Quilan設(shè)計(jì)的ID3算法及其改進(jìn)版C4.5算法,具有簡(jiǎn)單易懂、易于實(shí)現(xiàn)等優(yōu)點(diǎn)。常見的決策樹歸納學(xué)習(xí)算法還有CHAID算法、CART算法以及為了適應(yīng)處理大規(guī)模數(shù)據(jù)集的要求和提高海量信息中知識(shí)獲取的效率而設(shè)計(jì)的SLIQ算法和SPRINT算法。這些算法在進(jìn)行情報(bào)分析的過(guò)程中主要通過(guò)計(jì)算特征的信息熵來(lái)選擇特征,信息熵大的特征被優(yōu)先選取構(gòu)造決策樹。但是,在計(jì)算信息熵時(shí)僅僅考慮語(yǔ)法層面關(guān)鍵詞的簡(jiǎn)單匹配,沒(méi)有涉及數(shù)據(jù)的語(yǔ)義信息和上下文環(huán)境對(duì)數(shù)據(jù)的影響,缺乏對(duì)其所包含的語(yǔ)義信息和具體環(huán)境的理解,導(dǎo)致算法缺乏一定的智能性和語(yǔ)義處理能力,使得情報(bào)挖掘和分析結(jié)果的實(shí)用性和針對(duì)性不強(qiáng)[7]。針對(duì)傳統(tǒng)決策樹歸納學(xué)習(xí)算法的不足,借鑒當(dāng)前本體和上下文知識(shí)研究領(lǐng)域的科研成果[8-11],設(shè)計(jì)了一種融合本體和上下文知識(shí)的歸納學(xué)習(xí)算法(InductiveLearningAlgorithmbasedonSemanticDecisionTree,ILASDT)進(jìn)行語(yǔ)義層面的情報(bào)挖掘和知識(shí)發(fā)現(xiàn)。利用企業(yè)競(jìng)爭(zhēng)情報(bào)本體提供背景知識(shí),上下文知識(shí)提供約束機(jī)制進(jìn)行自頂向下多層的知識(shí)引導(dǎo)和搜索過(guò)程,實(shí)現(xiàn)智能化、自動(dòng)化、高效的語(yǔ)義知識(shí)挖掘。具體來(lái)說(shuō),該算法主要由四部分組成:
(1)構(gòu)建語(yǔ)義概念樹。利用本體知識(shí)對(duì)語(yǔ)義元數(shù)據(jù)庫(kù)進(jìn)行概念規(guī)范化和泛化處理,借助本體豐富的層次結(jié)構(gòu)和抽取的概念及其關(guān)系或?qū)嶓w及其關(guān)系進(jìn)行語(yǔ)義概念樹的構(gòu)建。
(2)獲取基于本體的決策規(guī)則。利用構(gòu)建的語(yǔ)義概念樹,對(duì)語(yǔ)義元數(shù)據(jù)庫(kù)中的概念或?qū)嶓w結(jié)點(diǎn)進(jìn)行初步劃分,并利用本體知識(shí)進(jìn)行語(yǔ)義推理,得到基于本體的決策規(guī)則。
(3)獲取基于上下文知識(shí)的決策規(guī)則。在上述獲取的決策規(guī)則中,利用上下文知識(shí)進(jìn)行特化,以本體知識(shí)結(jié)點(diǎn)為根結(jié)點(diǎn),上下文知識(shí)為子結(jié)點(diǎn),進(jìn)行概念或?qū)嶓w結(jié)點(diǎn)的二次劃分,得到基于上下文知識(shí)的決策規(guī)則。
(4)語(yǔ)義決策樹的構(gòu)建與優(yōu)化。將上述兩步獲取的決策規(guī)則進(jìn)行語(yǔ)義整合,選擇其中沒(méi)有語(yǔ)義重復(fù)的結(jié)點(diǎn)及其關(guān)系和獲取的語(yǔ)義規(guī)則進(jìn)行語(yǔ)義決策樹的構(gòu)建,并利用本體和上下文知識(shí)提供的層次結(jié)構(gòu)和背景知識(shí)進(jìn)行決策樹的優(yōu)化和完善。
4實(shí)驗(yàn)結(jié)果及分析
本文采用實(shí)驗(yàn)分析法來(lái)驗(yàn)證算法的優(yōu)越性。
(1)實(shí)驗(yàn)數(shù)據(jù)。選自UCI[12]網(wǎng)站提供的Monk、Bal-anceScale和BreastCancer三種數(shù)據(jù)集作為實(shí)驗(yàn)分析的原始數(shù)據(jù)。
(2)實(shí)驗(yàn)環(huán)境。處理器為Inter(R)Core(TM)2CPU44002.0GHz,內(nèi)存2G,硬盤120G,操作系統(tǒng)為WindowsXP,編程語(yǔ)言為Java(JDK1.6.2)。
(3)實(shí)驗(yàn)過(guò)程與結(jié)果。在上述相同的實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)環(huán)境中利用數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)領(lǐng)域兩種經(jīng)典的決策樹歸納學(xué)習(xí)算法C4.5和SPRINT作為參考算法進(jìn)行對(duì)比實(shí)驗(yàn)。選擇決策樹歸納學(xué)習(xí)算法評(píng)估中常用的四個(gè)重要標(biāo)準(zhǔn)———復(fù)雜度、可理解性、效率和準(zhǔn)確率來(lái)檢驗(yàn)本文模型和算法的性能。其中,復(fù)雜度利用算法生成的節(jié)點(diǎn)數(shù)來(lái)衡量,可理解性利用算法生成的規(guī)則數(shù)來(lái)衡量,效率利用算法的執(zhí)行時(shí)間來(lái)衡量,準(zhǔn)確率利用算法的分類精度來(lái)衡量。
(4)實(shí)驗(yàn)結(jié)果分析。從表1~表4可以看出,本文設(shè)計(jì)的算法在復(fù)雜度、可理解性、效率和準(zhǔn)確率等方法均優(yōu)于現(xiàn)有的算法。主要因?yàn)槿诤媳倔w和上下文知識(shí)的語(yǔ)義分析算法利用本體提供的普遍知識(shí)和上下文提供的特定知識(shí)來(lái)選擇分析的特征及特征間關(guān)系,約束分析算法的執(zhí)行層次和遍歷空間,所生成的決策樹由本體和上下文知識(shí)共同決定,整個(gè)過(guò)程只產(chǎn)生企業(yè)所需要的、針對(duì)性強(qiáng)的、具有綜合性的深層關(guān)聯(lián)規(guī)則,消除決策樹中語(yǔ)義重復(fù)節(jié)點(diǎn)和“空枝”現(xiàn)象,提高了算法的準(zhǔn)確率和可理解性,同時(shí)也降低了算法的執(zhí)行時(shí)間和復(fù)雜度。
5結(jié)語(yǔ)
融合本體和上下文知識(shí)進(jìn)行語(yǔ)義層面的企業(yè)競(jìng)爭(zhēng)情報(bào)分析是提高情報(bào)挖掘與獲取效率和準(zhǔn)確率以及面向具體應(yīng)用環(huán)境和對(duì)象的有效方法。本文研究并設(shè)計(jì)的分析算法能夠有效地結(jié)合本體和上下文知識(shí)進(jìn)行語(yǔ)義層面的情報(bào)挖掘和知識(shí)發(fā)現(xiàn),促使更具潛在價(jià)值和實(shí)用性的深層情報(bào)內(nèi)容的產(chǎn)生。