本站小編為你精心準(zhǔn)備了元數(shù)據(jù)倉儲知識庫的幾點(diǎn)認(rèn)識參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
1元數(shù)據(jù)倉儲知識庫的構(gòu)建
開發(fā)科技創(chuàng)新決策分析服務(wù)系統(tǒng),其基礎(chǔ)性的工作是構(gòu)建元數(shù)據(jù)倉儲知識庫。從科技文獻(xiàn)數(shù)據(jù)庫種類來看,包括:科技期刊、學(xué)位論文、會議論文、標(biāo)準(zhǔn)、專利文獻(xiàn)數(shù)據(jù)庫及科技成果、企業(yè)產(chǎn)品、科研機(jī)構(gòu)、科技名人等事實(shí)型數(shù)據(jù)庫,從這些科技文獻(xiàn)中,挖掘其相互邏輯關(guān)系、交叉融合間的溝通脈絡(luò)是知識獲取、知識組織的關(guān)鍵。結(jié)合科技文獻(xiàn)資源的特性和文獻(xiàn)檢索導(dǎo)航需求分析,萬方軟件公司提出了基于“知識獲取五要素”的知識組織方法【4】,將學(xué)科、主題、人物、機(jī)構(gòu)、基金五要素作為知識獲取的分析主題,構(gòu)成二維空間,組成各個要素之間的相互關(guān)聯(lián)關(guān)系。五要素之間的相互關(guān)聯(lián)包含了多種科研信息,從各個角度,各個側(cè)面都有無窮的知識可以去挖掘分析。比如:機(jī)構(gòu)和學(xué)科關(guān)聯(lián),可以獲得各個機(jī)構(gòu)的研究學(xué)科,以及有哪些機(jī)構(gòu)在研究該學(xué)科的分析結(jié)果;機(jī)構(gòu)、學(xué)科和作者關(guān)聯(lián),可以獲得某個學(xué)科在某個機(jī)構(gòu)中有哪些人在做相關(guān)研究的分析結(jié)果等等。因此從知識的組織角度,在構(gòu)建元數(shù)據(jù)倉儲知識庫時,以五要素知識元為基礎(chǔ),通過對海量科技文獻(xiàn)的處理(采集、轉(zhuǎn)換、清洗、質(zhì)量檢測)和對五要素的深度標(biāo)引,最終構(gòu)建基于五要素的元數(shù)據(jù)知識倉儲,作為開發(fā)科技創(chuàng)新決策分析服務(wù)系統(tǒng)的基礎(chǔ)。
2科技創(chuàng)新決策分析服務(wù)體系架構(gòu)和功能設(shè)計(jì)
元數(shù)據(jù)倉儲知識庫的構(gòu)建為科技創(chuàng)新決策分析服務(wù)提供了基礎(chǔ)保障,在此基礎(chǔ)上,運(yùn)用數(shù)據(jù)挖掘技術(shù)、自動分類∕聚類技術(shù)、信息可視化等技術(shù),開發(fā)基于WEB的科技創(chuàng)新決策分析服務(wù)系統(tǒng)。基于元數(shù)據(jù)倉儲知識庫的科技創(chuàng)新決策分析服務(wù)主要體現(xiàn)在對科技創(chuàng)新能力的定量評價。主要功能設(shè)計(jì)如下:⑴主題知識脈絡(luò)分析。主要對主題關(guān)鍵詞所代表的知識點(diǎn)或概念在各年度的研究發(fā)展趨勢和研究熱點(diǎn)進(jìn)行分析。包括:該主題各年度發(fā)文總量趨勢;該主題的相關(guān)關(guān)鍵詞;關(guān)注該主題的相關(guān)人物、機(jī)構(gòu)以及涉及該主題的重要發(fā)文期刊。系統(tǒng)可通過用戶輸入的主題關(guān)鍵詞,在主題知識庫中挖掘揭示主題相關(guān)的各類科研產(chǎn)出情況,并通過主題相關(guān)的創(chuàng)新實(shí)體分析,為用戶推薦權(quán)威的研究機(jī)構(gòu)和行業(yè)領(lǐng)域?qū)<摇"?/p>
科研人員科研能力評估分析。主要對科研人員(作者)科研產(chǎn)出情況進(jìn)行統(tǒng)計(jì)分析。包括:科研人員的簡介;與作者合作過的相關(guān)科技人員信息;作者的研究主題、研究方向、主要發(fā)文期刊及參與基金項(xiàng)目情況。系統(tǒng)可通過用戶輸入的科研人員姓名,在人物庫中進(jìn)行機(jī)構(gòu)匯總,并經(jīng)過用戶篩選科研人員現(xiàn)在或歷史所在機(jī)構(gòu),對作者的科研產(chǎn)出能力和科研績效水平得出最全面和客觀的評估和總結(jié)。⑶
論文引用情況分析。主要對被引用情況進(jìn)行統(tǒng)計(jì)分析。包括:該論文被引論文具體信息(期刊、學(xué)位、會議、技術(shù)報(bào)告等)和比例、被引數(shù)量、被引用頻次等。系統(tǒng)按用戶輸入的論文標(biāo)題、作者、關(guān)鍵詞進(jìn)行檢索,按發(fā)文時間、相關(guān)度、題名進(jìn)行排序,從而可以對該論文進(jìn)行學(xué)術(shù)質(zhì)量的綜合、定量的評價。該功能即可獨(dú)立使用,也可嵌入在科研人員科研能力評估分析系統(tǒng)中使用。⑷機(jī)構(gòu)創(chuàng)新能力評估。主要對機(jī)構(gòu)的期刊論文、學(xué)位論文、會議論文、專利、成果及機(jī)構(gòu)承擔(dān)的國家基金項(xiàng)目進(jìn)行統(tǒng)計(jì)分析,從而反映出機(jī)構(gòu)的總體科學(xué)實(shí)力和科研績效水平。系統(tǒng)可通過用戶輸入的機(jī)構(gòu)名稱,通過簡稱俗稱的規(guī)范對應(yīng),按論文類別、基金類別等方式進(jìn)行機(jī)構(gòu)科研產(chǎn)出的揭示,得出機(jī)構(gòu)的科研能力和學(xué)術(shù)定位。
3科技創(chuàng)新決策分析服務(wù)系統(tǒng)的應(yīng)用
科技創(chuàng)新決策分析服務(wù)系統(tǒng)目前在科技文獻(xiàn)共享服務(wù)平臺中已開始應(yīng)用,平臺主要為用戶提供了作者科研協(xié)作關(guān)系、主題知識脈絡(luò)分析、機(jī)構(gòu)科研能力評估三種服務(wù)。⑴作者科研協(xié)作關(guān)系。在作者科研協(xié)作關(guān)系服務(wù)中,可以分析出用戶所關(guān)心作者的如下信息:①作者合作關(guān)系:通過可視化的與合作者的關(guān)系呈現(xiàn),可以分析出作者在科研工作中與合作者的合作關(guān)系,節(jié)點(diǎn)間的距離越近,表明與合作者合作發(fā)表的論文次數(shù)越多,合作關(guān)系越緊密。②作者科研產(chǎn)出統(tǒng)計(jì):可以統(tǒng)計(jì)出作者總體的數(shù)量。③作者研究主題和研究方向:可以分析出作者的研究主題和按學(xué)科分析的研究方向。④主要發(fā)文期刊:可以統(tǒng)計(jì)出作者在不同期刊的數(shù)量,獲得作者關(guān)注的期刊情況。⑤作者簡介:獲得作者單位、職稱、職務(wù)等基本信息。在知識脈絡(luò)分析服務(wù)中,以用戶輸入的主題詞為分析依據(jù),通過可視化信息展示,分析出主題詞所代表的知識點(diǎn)或概念在各年度的研究發(fā)展趨勢和研究熱點(diǎn)。并提供主題詞所關(guān)聯(lián)的相關(guān)詞、相關(guān)人物、相關(guān)期刊和機(jī)構(gòu)的知識脈絡(luò)。
4結(jié)語
提供面向政府、企業(yè)、科研管理部門科技創(chuàng)新決策分析服務(wù)的作者科研協(xié)作關(guān)系分析、機(jī)構(gòu)科研能力分析、主題知識脈絡(luò)分析服務(wù)在一定程度上還需待進(jìn)一步改進(jìn),其中主要是解決元數(shù)據(jù)倉儲知識庫的質(zhì)量的問題。包括知識庫中所整合的資源是否涵蓋全面、資源的更新是否快捷、簡稱俗稱的規(guī)范對應(yīng)問題、不同分類法的對接等等問題,其二是提高用戶分析的響應(yīng)速度問題。影響響應(yīng)速度的因素包括用戶的網(wǎng)絡(luò)環(huán)境、應(yīng)用程序處理數(shù)據(jù)的效率、服務(wù)器與客戶端的交互方式、元數(shù)據(jù)倉儲庫的部署等多方面,其中重點(diǎn)是解決海量元數(shù)據(jù)倉儲庫的部署問題。當(dāng)前科技創(chuàng)新決策分析服務(wù)已在山西省科技文獻(xiàn)共享服務(wù)平臺對外試用【5】,并在征求廣大用戶的意見。隨著決策分析服務(wù)系統(tǒng)的逐步完善,文獻(xiàn)共享和服務(wù)平臺不僅成為為科技創(chuàng)新提供文獻(xiàn)保障的平臺,也成為為科技創(chuàng)新提供輔助決策分析的知識服務(wù)平臺。
作者:劉軍,牛爭艷 單位:山西省科學(xué)技術(shù)情報(bào)研究所