美章網(wǎng) 資料文庫 科學數(shù)據(jù)資源聚合機制探究范文

科學數(shù)據(jù)資源聚合機制探究范文

本站小編為你精心準備了科學數(shù)據(jù)資源聚合機制探究參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

科學數(shù)據(jù)資源聚合機制探究

《前沿科學》2018年第1期

【摘要】根據(jù)科學數(shù)據(jù)資源的內(nèi)在結(jié)構(gòu)和聚合程度,科學數(shù)據(jù)資源聚合可分為基于數(shù)據(jù)的聚合、基于信息的聚合、基于知識的聚合。三個層次的科學數(shù)據(jù)資源聚合機制分別以分布式構(gòu)建技術(shù)、元數(shù)據(jù)互操作技術(shù)、本體技術(shù)為基礎,文章介紹不同聚合機制的內(nèi)涵與特征,并輔以典型應用予以具體分析。

【關鍵詞】科學數(shù)據(jù);數(shù)據(jù)聚合;數(shù)據(jù)共享

0引言

科學數(shù)據(jù)資源是以公益性和基礎性為主體的、具有科學研究應用價值的數(shù)據(jù)資源,包括在觀測、監(jiān)測、調(diào)查、試驗、實驗以及研究等科技活動中產(chǎn)生的原始性數(shù)據(jù),以及根據(jù)不同科技活動需求系統(tǒng)加工整理的各類數(shù)據(jù)[1]。科學數(shù)據(jù)資源是國家科技創(chuàng)新和發(fā)展的基礎性和戰(zhàn)略性資源。由于科學數(shù)據(jù)資源使用不同的數(shù)據(jù)模型、專業(yè)術(shù)語、數(shù)據(jù)格式表達,并分別存儲于不同的數(shù)據(jù)源,這給科學數(shù)據(jù)資源共享造成了很大的困難。科學數(shù)據(jù)資源聚合通過對多源異構(gòu)的科學數(shù)據(jù)資源進行揭示,構(gòu)建資源內(nèi)容相互關聯(lián)、多維度、多層次的資源體系,為用戶提供一站式資源共享服務。本文系統(tǒng)梳理了科學數(shù)據(jù)資源的聚合機制,并對每一種聚合機制輔以典型案例予以分析,旨在為科學數(shù)據(jù)資源共享提供路徑選擇和方法支持。

1基于數(shù)據(jù)的科學數(shù)據(jù)資源聚合機制

基于數(shù)據(jù)的科學數(shù)據(jù)資源聚合是對多源異構(gòu)的科學數(shù)據(jù)進行邏輯上或物理上的集成,屏蔽各種數(shù)據(jù)源的差異,并通過統(tǒng)一的檢索界面實現(xiàn)科學數(shù)據(jù)資源的互聯(lián)和共享。基于數(shù)據(jù)的科學數(shù)據(jù)資源聚合機制主要包括數(shù)據(jù)倉庫聚合模式、中間件聚合模式、聚合模式。

1.1數(shù)據(jù)倉庫聚合模式

數(shù)據(jù)倉庫聚合模式通過將不同來源和結(jié)構(gòu)的科學數(shù)據(jù)按照學科、主題等方式建模,并集中存儲于本地數(shù)據(jù)庫,用戶通過對本地數(shù)據(jù)庫的訪問實現(xiàn)對多個異構(gòu)數(shù)據(jù)源的一次性檢索。徐志勇設計的面向快速服務的大數(shù)據(jù)聚合系統(tǒng)即采取數(shù)據(jù)倉庫模式聚合網(wǎng)絡數(shù)據(jù)資源,系統(tǒng)通過在線運行的方式采集網(wǎng)絡數(shù)據(jù)。對于采集到的數(shù)據(jù),首先根據(jù)行業(yè)或領域歸類,然后按照逐級劃分的方式進一步細化分類,并分別存儲在不同的數(shù)據(jù)庫中。對于用戶的檢索請求,系統(tǒng)通過信息檢索單元依次檢索各個數(shù)據(jù)庫,然后將檢索結(jié)果傳送給結(jié)果分析單元。結(jié)果分析單元對檢索結(jié)果進行去重判定,然后將經(jīng)過篩選的結(jié)果傳送給結(jié)果總結(jié)單元。結(jié)果總結(jié)單元對上述結(jié)果進行歸納,并按照特定的序列排序,形成最終結(jié)果。最終結(jié)果通過結(jié)果顯示單元反饋給用戶。該系統(tǒng)的特點是,海量網(wǎng)絡數(shù)據(jù)經(jīng)過系統(tǒng)的逐級劃分實現(xiàn)細化,為后續(xù)的快速檢索服務奠定基礎;將數(shù)據(jù)分別存儲在不同的數(shù)據(jù)庫中,既可以增加信息的存儲量,又有利于后期的多庫檢索,提高檢索效率;去重判定則保證了檢索結(jié)果的準確性[2]。數(shù)據(jù)倉庫聚合模式通過對異源、異質(zhì)、異構(gòu)的科學數(shù)據(jù)進行抽取、轉(zhuǎn)換、整合,將其集成到數(shù)據(jù)倉庫中,用戶通過訪問本地數(shù)據(jù)庫,實現(xiàn)對分布式科學數(shù)據(jù)的一次性檢索。數(shù)據(jù)倉庫聚合模式是對科學數(shù)據(jù)進行集中存儲、管理、檢索的方法。其優(yōu)點是數(shù)據(jù)質(zhì)量高、查詢速度快,缺點是建設數(shù)據(jù)倉儲需要大量的存儲空間,所獲數(shù)據(jù)具有時滯性。

1.2中間件聚合模式

這是一種對異構(gòu)科學數(shù)據(jù)進行集中式管理和分布式存儲的虛擬聚合模式[3]。它通過在用戶與數(shù)據(jù)源之間設置中間件層,實現(xiàn)不同數(shù)據(jù)源之間的信息轉(zhuǎn)換和數(shù)據(jù)映射,完成科學數(shù)據(jù)的多源檢索和統(tǒng)一輸出。賴會霞和張仕設計的基于最小依賴的細粒度科學數(shù)據(jù)融合系統(tǒng),采用中間件聚合模式聚合互聯(lián)網(wǎng)上的多源異構(gòu)科學數(shù)據(jù)。系統(tǒng)框架如圖1所示,包括:(1)數(shù)據(jù)采集服務器:訪問網(wǎng)絡上的數(shù)據(jù)庫、HTML數(shù)據(jù)、XML數(shù)據(jù),并獲取相應信息。(2)映射及依賴管理服務器:存儲和管理數(shù)據(jù)源、系統(tǒng)最小依賴集、數(shù)據(jù)源模式與系統(tǒng)基礎數(shù)據(jù)模式的映射關系。(3)信息融合服務器:通過映射及依賴管理服務器獲取數(shù)據(jù)源和數(shù)據(jù)模式映射關系等信息,通過調(diào)度數(shù)據(jù)采集服務器訪問和獲得數(shù)據(jù)源數(shù)據(jù),并進行數(shù)據(jù)融合處理。(4)數(shù)據(jù)服務器:解析用戶的數(shù)據(jù)請求并生成查詢策略,通過信息融合服務器的查詢處理模塊訪問融合信息數(shù)據(jù)庫,然后將查詢結(jié)果返回給數(shù)據(jù)格式化模塊,按照用戶要求格式化后反饋給用戶。(5)系統(tǒng)交互管理服務器:為數(shù)據(jù)源用戶和管理用戶提供可視化操作界面。數(shù)據(jù)源用戶借此登記數(shù)據(jù)源的訪問方法、訪問路徑、數(shù)據(jù)源數(shù)據(jù)模式和基礎數(shù)據(jù)模式之間的映射規(guī)則,并由映射及依賴管理服務器存儲。管理用戶借此對數(shù)據(jù)融合系統(tǒng)進行管理操作。基于最小依賴的細粒度科學數(shù)據(jù)融合系統(tǒng)采用模塊化構(gòu)造,能夠根據(jù)需要增加和擴展服務器,有效解決了數(shù)據(jù)聚合系統(tǒng)重復開發(fā),共享性差等問題;系統(tǒng)采用開放式結(jié)構(gòu),各個服務器遵循既定的通信接口,各功能模塊既可以設置于同一臺服務器,也可以設置于分布式環(huán)境下的多臺服務器,能夠適應不同規(guī)模的應用[4]。中間件聚合模式通過在數(shù)據(jù)與用戶之間搭建中介媒介完成異構(gòu)數(shù)據(jù)聚合,用戶無需了解各個數(shù)據(jù)源的檢索要求,就可以一次性集成檢索多個數(shù)據(jù)源。中間件聚合模式的優(yōu)勢在于,所獲數(shù)據(jù)是異構(gòu)物理數(shù)據(jù)源的實時數(shù)據(jù),保證了數(shù)據(jù)的新穎性和時效性。不足之處在于,對于每一個查詢請求,中間件都需要遍歷所有分布式數(shù)據(jù)源,檢索速度慢、效率低[5]。

1.3聚合模式

聚合模式主要通過三類Agent實現(xiàn)科學數(shù)據(jù)資源的聚合:用戶Agent、資源Agent和方Agent。用戶Agent提供用戶與聚合系統(tǒng)的交互接口;資源Agent將多源異構(gòu)資源按照聚合系統(tǒng)的表示形式進行描述和轉(zhuǎn)換;方Agent將用戶Agent發(fā)出的查詢請求與所要查詢的資源Agent進行匹配[6]。葛敬軍等人基于聚合模式構(gòu)建領域科學數(shù)據(jù)云,將異構(gòu)數(shù)據(jù)中心連接成虛擬的數(shù)據(jù)網(wǎng)絡,為領域科學數(shù)據(jù)的聚合、訪問、管理提供環(huán)境和服務支持。領域科學數(shù)據(jù)云的總體框架如圖2所示,包括:(1)虛擬化資源層:通過虛擬化技術(shù)把硬件IT資源轉(zhuǎn)變?yōu)閯討B(tài)虛擬計算資源池、存儲資源池和網(wǎng)絡資源池;通過虛擬化引擎把軟件IT資源轉(zhuǎn)變?yōu)樘摂M主機、虛擬數(shù)據(jù)庫和虛擬應用。(2)數(shù)據(jù)云模型層:在虛擬化資源的基礎上,通過數(shù)據(jù)云模型、數(shù)據(jù)橋接入模型、異構(gòu)源集成模型、資源消息模型,為分散在多個數(shù)據(jù)中心的科學數(shù)據(jù)資源的聚合提供模型支持。(3)資源聚合層:通過連接系統(tǒng)連接各個虛擬數(shù)據(jù)中心,將數(shù)據(jù)中心的科學數(shù)據(jù)資源聚合成為虛擬的數(shù)據(jù)云,構(gòu)建支持科學數(shù)據(jù)一體化管理和服務應用的云環(huán)境。(4)服務管理層:提供科學數(shù)據(jù)服務的門戶界面和服務接口,以松耦合的方式為用戶提供數(shù)據(jù)存儲、目錄檢索、數(shù)據(jù)檢索、數(shù)據(jù)處理等數(shù)據(jù)服務以及可視化管理工具[7]。Agent具有自治性、交互性和自適應性等特點,聚合模式通過Agent的上述特點實現(xiàn)科學數(shù)據(jù)的自動收集、分類、標引、聚合,更加適應科學數(shù)據(jù)分布性和異構(gòu)性的特點,彌補了數(shù)據(jù)倉庫聚合模式和中間件聚合模式需要指定數(shù)據(jù)源的不足,擴大了資源獲取的范圍和資源應用的效率[8]。另外,聚合模式能夠?qū)①Y源聚合過程中繁重的計算任務細分到多個Agent,這種并行運算方案極大地提高了資源聚合的效率和資源聚合的靈活性。

2基于信息的科學數(shù)據(jù)資源聚合機制

基于信息的科學數(shù)據(jù)資源聚合通過對科學數(shù)據(jù)對象之間的關系進行揭示和組織,使用戶能夠一站式獲取科學數(shù)據(jù)及其關聯(lián)資源。基于信息的科學數(shù)據(jù)資源聚合主要通過元數(shù)據(jù)實現(xiàn)。元數(shù)據(jù)是一種相對成熟的科學數(shù)據(jù)組織技術(shù),當前主流的科學數(shù)據(jù)共享平臺主要以元數(shù)據(jù)為核心實現(xiàn)科學數(shù)據(jù)的檢索和共享[9]。基于信息的科學數(shù)據(jù)資源聚合機制,就是通過科學數(shù)據(jù)的元數(shù)據(jù)描述、組織、搜索、關聯(lián),將存儲于不同物理位置的科學數(shù)據(jù)進行邏輯集成。黎建輝等人針對全球變化研究領域難以高效定位與匯聚分布、異構(gòu)的遙感空間科學數(shù)據(jù)的情況,設計了一種基于元數(shù)據(jù)的空間科學數(shù)據(jù)自動聚合方法。首先,選定空間科學數(shù)據(jù)源,由服務器對其進行定期訪問,并生成下載任務。服務器根據(jù)下載任務下載元數(shù)據(jù)文件并保存,然后對下載的文件進行質(zhì)量檢查、元數(shù)據(jù)項提取、元數(shù)據(jù)轉(zhuǎn)換、元數(shù)據(jù)入庫和建立數(shù)字索引。服務器將元數(shù)據(jù)文件路徑、元數(shù)據(jù)項保存到元數(shù)據(jù)項數(shù)據(jù)庫并建立索引。服務器建立元數(shù)據(jù)文件、元數(shù)據(jù)項數(shù)據(jù)庫數(shù)據(jù)、索引數(shù)據(jù)之間的映射關系,并提供統(tǒng)一的數(shù)據(jù)檢索接口。服務器根據(jù)查詢條件,查詢并返回實體數(shù)據(jù);如果沒有檢索結(jié)果則提交數(shù)據(jù)預訂申請,生成實體數(shù)據(jù)下載任務進行下載,并對下載數(shù)據(jù)進行質(zhì)量檢查和元數(shù)據(jù)項更新。該科學數(shù)據(jù)自動聚合方法可以一站式查詢、獲取分布在全球各地的海量、異構(gòu)空間科學數(shù)據(jù)資源,很好地解決全球變化研究領域的數(shù)據(jù)自動匯聚問題[10]。為了最大限度地幫助網(wǎng)絡文學工作者利用網(wǎng)絡文學數(shù)據(jù),推動網(wǎng)絡文學的發(fā)展,孟念珩發(fā)明了一種基于元數(shù)據(jù)的網(wǎng)絡文學科學數(shù)據(jù)匯交系統(tǒng)。系統(tǒng)框架如圖3所示,包括:(1)收集模塊:根據(jù)不同學科不同類型數(shù)據(jù)的共有屬性,如學科屬性、采集時間、采集地點、類型、采集單位、保管存放地點等,組建數(shù)據(jù)的元數(shù)據(jù)內(nèi)容,設計元數(shù)據(jù)標準格式。(2)鏈接模塊:利用網(wǎng)絡文學科學數(shù)據(jù)的元數(shù)據(jù)組織管理數(shù)據(jù),建立各個信息對象之間的關系,為用戶提供多層次、多途徑的檢索體系,方便用戶發(fā)現(xiàn)、檢索和使用數(shù)據(jù)。(3)獲取模塊:獲取用戶提交的資料數(shù)據(jù)、查詢條件、網(wǎng)站信息。(4)輸入模塊:將查詢結(jié)果信息提交到用戶指定的網(wǎng)站,并將返回結(jié)果編碼。(5)拆分、匯總模塊:根據(jù)HTML標簽截取返回結(jié)果中的數(shù)據(jù)內(nèi)容,然后按照設定的模式拆分數(shù)據(jù)內(nèi)容,并將其放入對應的字符串數(shù)據(jù)集進行匯總。(6)輸出模塊:將檢索到的所有結(jié)果保存到數(shù)據(jù)集并輸出。網(wǎng)絡文學科學數(shù)據(jù)匯交系統(tǒng)利用元數(shù)據(jù)聚合數(shù)據(jù)資源,從而形成立體化的資源服務體系,便于用戶通過多種方式獲取和使用數(shù)據(jù)[11]。基于信息的科學數(shù)據(jù)資源聚合的核心是通過元數(shù)據(jù)互操作,在不同數(shù)據(jù)源之間建立關聯(lián),揭示客觀存在于其中的數(shù)據(jù)實體的關系,從而使分散的、異構(gòu)的科學數(shù)據(jù)及其關系形成一個有機關聯(lián)的整體。基于信息的科學數(shù)據(jù)資源聚合的優(yōu)勢表現(xiàn)為資源聚合的全面性和系統(tǒng)性,聚合范圍涵蓋不同來源、不同載體、不同類型的科學數(shù)據(jù),并且可以在“一站式”檢索的基礎上,獲得具有不同關聯(lián)關系的科學數(shù)據(jù)。

3基于知識的科學數(shù)據(jù)資源聚合機制

基于知識的科學數(shù)據(jù)資源聚合是對數(shù)據(jù)實體中包含的概念及概念之間的關系進行表征,并構(gòu)建不同科學數(shù)據(jù)實體中概念之間的關聯(lián),便于用戶對科學數(shù)據(jù)的理解和重用。本體是人工智能領域中一種先進的知識表示方法,其概念顆粒度比分類詞、主題詞、主題圖等的概念顆粒度更小,也更適用于揭示精確語義關系和語義推理。基于知識的科學數(shù)據(jù)資源聚合機制就是通過構(gòu)建本體庫,實現(xiàn)語義層面上的科學數(shù)據(jù)資源聚合[12]。耿玉水和寇紀淞針對大規(guī)模的數(shù)據(jù)密集應用,構(gòu)建了云計算環(huán)境下基于本體的異構(gòu)數(shù)據(jù)聚合系統(tǒng)。系統(tǒng)利用部署在云端的異構(gòu)數(shù)據(jù)集成接口,對云端的異構(gòu)數(shù)據(jù)進行數(shù)據(jù)格式和數(shù)據(jù)語義的集成。具體而言,采用基于XML的數(shù)據(jù)格式解析中間件進行數(shù)據(jù)格式的重新整理,解決數(shù)據(jù)結(jié)構(gòu)沖突;利用語義沖突檢測機制主動發(fā)現(xiàn)并解除語義沖突,實現(xiàn)異構(gòu)數(shù)據(jù)語義集成。部署在云端的聯(lián)邦虛擬數(shù)據(jù)庫,利用異構(gòu)數(shù)據(jù)結(jié)果集成接口連接云端的各個異構(gòu)數(shù)據(jù)集成接口,并對這些接口提供的已完成數(shù)據(jù)格式和數(shù)據(jù)語義集成的數(shù)據(jù)進行再集成。基于本體的異構(gòu)數(shù)據(jù)集成模型為異構(gòu)數(shù)據(jù)的統(tǒng)一檢索和查詢,以及異構(gòu)數(shù)據(jù)的關聯(lián)與映射提供了一種便捷的實施框架[13]。顧茜等人針對SaaS(軟件即服務)等網(wǎng)絡應用所積累的大量托管異構(gòu)數(shù)據(jù),設計了一種基于云計算平臺的網(wǎng)絡應用數(shù)據(jù)聚合系統(tǒng),以實現(xiàn)基于語義的網(wǎng)絡應用數(shù)據(jù)的聚合。該系統(tǒng)采取的即是基于知識的科學數(shù)據(jù)資源聚合機制。系統(tǒng)框架如圖4所示,包括:(1)本體庫生成模塊:根據(jù)現(xiàn)有知識建立本體庫。(2)關鍵詞提取模塊:從海量網(wǎng)絡應用數(shù)據(jù)中提取網(wǎng)絡應用的關鍵詞。(3)相似本體確定模塊:計算網(wǎng)絡應用的關鍵詞與本體庫中本體的語義相似度,確定網(wǎng)絡應用在本體庫的相似本體。(4)描述生成模塊:使用RDF描述與本體庫中的本體相似的網(wǎng)絡應用數(shù)據(jù)。(5)數(shù)據(jù)存儲模塊:將網(wǎng)絡應用的數(shù)據(jù)存儲在本體庫中相似本體下的網(wǎng)絡資源存儲節(jié)點。(6)關鍵詞查詢模塊:接收用戶通過查詢系統(tǒng)輸入的查詢關鍵詞,通過語義計算查詢與關鍵詞語義相似的本體,并將該本體下存儲的應用信息庫反饋給用戶[14]。本體作為一種具有結(jié)構(gòu)化特點的術(shù)語集,通過對領域知識的規(guī)范描述,使領域知識可以被復用和共享。基于知識的科學數(shù)據(jù)資源聚合,通過本體的語義映射實現(xiàn)異質(zhì)異構(gòu)科學數(shù)據(jù)之間的語義聯(lián)系,將相對獨立的科學數(shù)據(jù)連接為立體的知識網(wǎng)絡,為用戶呈現(xiàn)出具有完整結(jié)構(gòu)、規(guī)范有序的知識地圖,從而真正實現(xiàn)領域知識的共知和共享。

4結(jié)語

科學數(shù)據(jù)資源聚合需要依賴一定的技術(shù)手段,三個層次的科學數(shù)據(jù)資源聚合分別建立在分布式構(gòu)建技術(shù)(數(shù)據(jù)倉庫、中間件、Agent)、元數(shù)據(jù)互操作技術(shù)、本體技術(shù)之上。基于數(shù)據(jù)的科學數(shù)據(jù)資源聚合通過先進的信息技術(shù)對異構(gòu)異質(zhì)的科學數(shù)據(jù)資源進行物理集中或邏輯集成,實現(xiàn)多種資源的“一站式”檢索,但是未對數(shù)據(jù)對象之間的關系進行有效揭示和組織。基于信息的科學數(shù)據(jù)資源聚合機制借助元數(shù)據(jù)實現(xiàn),由于元數(shù)據(jù)存在資源描述粒度較大、缺少全領域共享概念模型等問題,導致以元數(shù)據(jù)為核心的科學數(shù)據(jù)資源聚合機制難以解決科學數(shù)據(jù)之間的語義異構(gòu)問題,無法實現(xiàn)語義檢索和知識推理。基于知識的科學數(shù)據(jù)資源聚合機制,通過本體技術(shù)對數(shù)據(jù)實體的內(nèi)部概念和語義進行揭示,對數(shù)據(jù)的描述粒度也更加細化,并且易于為關聯(lián)數(shù)據(jù)[15],形成開放互聯(lián)的科學數(shù)據(jù)網(wǎng)絡。基于知識的科學數(shù)據(jù)資源聚合使科學數(shù)據(jù)從孤立走向互聯(lián),從封閉走向開放,必將成為今后科學數(shù)據(jù)資源共享的發(fā)展方向。

作者:吳衛(wèi)娟

主站蜘蛛池模板: 中国武警gaysexchina武警gay| 福利视频一区二区牛牛| 欧美激情blackedraw红衣在线播放| 国产激情视频一区二区三区| 亚洲日韩一区二区三区| 青青国产成人久久激情91麻豆| 女人全身裸无遮挡图片| 亚洲av无码一区二区二三区| 精品无码无人网站免费视频| 国产精品免费久久久久影院| 中文天堂在线最新版在线www| 日韩视频第一页| 伊人色在线视频| 高清日本无a区| 在线观看免费视频一区| 久久久精品人妻一区二区三区| 残忍女王虐茎chinese| 国产产无码乱码精品久久鸭| 999精品视频在线观看热6| 日本中文字幕乱理伦片| 亚洲精品乱码久久久久久| 亚洲手机中文字幕| 1024手机在线播放视频| 成年午夜视频免费观看视频| 亚洲日韩乱码中文无码蜜桃| 精品一二三区久久AAA片| 国产成人精品一区二三区在线观看| tube美国xxxx69| 日韩内射美女片在线观看网站| 人妻av无码一区二区三区| 高潮毛片无遮挡高清免费视频| 国产精品国语对白露脸在线播放| 99久久国产宗和精品1上映| 护士又湿又紧我要进去了| 亚洲午夜一区二区电影院| 精品一区二区三区电影| 国产乱人伦偷精品视频下| 一本久到久久亚洲综合| 日韩精品无码一区二区三区不卡| 亲密爱人之无限诱惑| 精品伊人久久久久网站|