美章網(wǎng) 精品范文 數(shù)據(jù)分析分析技術(shù)范文

數(shù)據(jù)分析分析技術(shù)范文

前言:我們精心挑選了數(shù)篇優(yōu)質(zhì)數(shù)據(jù)分析分析技術(shù)文章,供您閱讀參考。期待這些文章能為您帶來啟發(fā),助您在寫作的道路上更上一層樓。

數(shù)據(jù)分析分析技術(shù)

第1篇

[關(guān)鍵詞]數(shù)據(jù)倉庫聯(lián)機(jī)分析處理多維數(shù)據(jù)分析

中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)1110077-01

一、引言

聯(lián)機(jī)分析處理(Online Analytical Processing,OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的,OLAP是針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。通過對信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進(jìn)行深入地觀察。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。

二、OLAP的多維數(shù)據(jù)結(jié)構(gòu)

數(shù)據(jù)在多維空間中的分布總是稀疏的、不均勻的。在事件發(fā)生的位置,數(shù)據(jù)聚合在一起,其密度很大。因此,OLAP系統(tǒng)的開發(fā)者要設(shè)法解決多維數(shù)據(jù)空間的數(shù)據(jù)稀疏和數(shù)據(jù)聚合問題。事實(shí)上,有許多方法可以構(gòu)造多維數(shù)據(jù)。

(一)超立方結(jié)構(gòu)。超立方結(jié)構(gòu)指用三維或更多的維數(shù)來描述一個(gè)對象,每個(gè)維彼此垂直。數(shù)據(jù)的測量值發(fā)生在維的交叉點(diǎn)上,數(shù)據(jù)空間的各個(gè)部分都有相同的維屬性。

這種結(jié)構(gòu)可應(yīng)用在多維數(shù)據(jù)庫和面向關(guān)系數(shù)據(jù)庫的OLAP系統(tǒng)中,其主要特點(diǎn)是簡化終端用戶的操作。超立方結(jié)構(gòu)有一種變形,即收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維。

(二)多立方結(jié)構(gòu)。在多立方結(jié)構(gòu)中,將大的數(shù)據(jù)結(jié)構(gòu)分成多個(gè)多維結(jié)構(gòu)。這些多維結(jié)構(gòu)是大數(shù)據(jù)維數(shù)的子集,面向某一特定應(yīng)用對維進(jìn)行分割,即將超立方結(jié)構(gòu)變?yōu)樽恿⒎浇Y(jié)構(gòu)。它具有很強(qiáng)的靈活性,提高了數(shù)據(jù)的分析效率。

一般來說,多立方結(jié)構(gòu)靈活性較大,但超立方結(jié)構(gòu)更易于理解。超立方結(jié)構(gòu)可以提供高水平的報(bào)告和多維視圖。多立方結(jié)構(gòu)具有良好的視圖翻轉(zhuǎn)性和靈活性。多立方結(jié)構(gòu)是存儲(chǔ)稀疏矩陣的一個(gè)更有效方法,并能減少計(jì)算量。因此,復(fù)雜的系統(tǒng)及預(yù)先建立的通用應(yīng)用傾向于使用多立方結(jié)構(gòu),以使數(shù)據(jù)結(jié)構(gòu)能更好地得到調(diào)整,滿足常用的應(yīng)用需求。

許多產(chǎn)品結(jié)合了上述兩種結(jié)構(gòu),它們的數(shù)據(jù)物理結(jié)構(gòu)是多立方結(jié)構(gòu),但卻利用超立方結(jié)構(gòu)來進(jìn)行計(jì)算,結(jié)合了超立方結(jié)構(gòu)的簡化性和多立方結(jié)構(gòu)的旋轉(zhuǎn)存儲(chǔ)特性。

三、OLAP的多維數(shù)據(jù)分析

多維數(shù)據(jù)分析是指對以多維形式組織起來的數(shù)據(jù)采取切片、切塊、旋轉(zhuǎn)和鉆取等各種分析動(dòng)作,以求剖析數(shù)據(jù),使最終用戶能從多個(gè)角度、多側(cè)面地觀察數(shù)據(jù)倉庫中的數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。多維分析方式迎合了人們的思維模式,因:

(一)切片。定義1:在多維數(shù)組的某一維上選定一維成員的動(dòng)作成為切片,即在多維數(shù)組(維1、維2、....維n,變量)中選一維:維i,并取其一維成員(設(shè)為“維成員vi”),所得的多維數(shù)組的子集(維1,...維成員vi,...,維n,變量)稱為在維i上的一個(gè)切片。

按照定義1,一次切片一定是原來的維數(shù)減1。所以,所得的切片并不一定是二維的“平面”,其維數(shù)取決于原來的多維數(shù)據(jù)的維數(shù),這樣的切片定義不通俗易懂。下面給出另一個(gè)比較直觀的定義。

定義2:選定多維數(shù)組的一個(gè)二維子集的動(dòng)作叫做切片,既選定多維數(shù)組(維1、維2、....維n,變量)中的兩個(gè)維:維i和維j,在這兩個(gè)維上取某一區(qū)間或者任意維成員,而將其余的維都取定一個(gè)維成員,則得到的就是多維數(shù)組在維i和維j上的一個(gè)二維子集,稱這個(gè)二維子集為多維數(shù)組在維i和維j上的一個(gè)切片,表示為(維i和維j,變量)。

按照定義2,不管原來的維數(shù)有多少,數(shù)據(jù)切片的結(jié)果一定是一個(gè)二維的“平面”。從另一個(gè)角度來講,切片就是在某個(gè)或某些維上選定一個(gè)維成員,而在某兩個(gè)維上取一定區(qū)間的維成員或全部維成員。從定義2可知:

1.一個(gè)多維數(shù)組的切片最終是由該數(shù)組中除切片所在平面的兩個(gè)維之外的其它維的成員值確定的。

2.維是觀察數(shù)據(jù)的角度,那么切片的作用或結(jié)果就是舍棄一些觀察角度,使人們能在兩個(gè)維上來集中觀察數(shù)據(jù),因?yàn)槿说目臻g想象力有限,所以,對于維數(shù)較多的多維數(shù)據(jù)空間,進(jìn)行數(shù)據(jù)切片是十分有意義的。比照定義1,我們可以將切片的這兩個(gè)定義聯(lián)系起來,對于一個(gè)n維數(shù)組,按定義1進(jìn)行的n-2切片的結(jié)果,就必定對應(yīng)于按定義2進(jìn)行的某一次切片的結(jié)果。

(二)切塊。定義1:在多維數(shù)組的某一維上選定某一區(qū)間的維成員的動(dòng)作稱為切塊,即限制多維數(shù)組在某一維的取值區(qū)間。顯然,當(dāng)這一區(qū)間只取一個(gè)維成員時(shí),即得到一個(gè)切片。

定義2:選定多維數(shù)組的一個(gè)三維子集的動(dòng)作稱為切塊,即選定多維數(shù)組(維1、維2、....維n,變量)中的三個(gè)維:維i、維j、維r,在這三個(gè)維上取某一區(qū)間或任意的維成員,而將其余的維都取定一個(gè)維成員,則得到的就是多維數(shù)組在維i、維j、維r上的三維子集,我們稱這個(gè)三維子集為多維數(shù)組在維i、維j、維r上的一個(gè)切塊,表示為(維i、維j、維r,變量)。切塊與切片的作用與目的是相似的。

(三)旋轉(zhuǎn)。旋轉(zhuǎn)既是改變一個(gè)報(bào)告或者頁面的維方向。例如:旋轉(zhuǎn)可能包含了交換行與列;或是把某一個(gè)行維移到列維,或是把頁面顯示中的一個(gè)維和頁面外的維進(jìn)行交換(令其成為新的行或者列的一個(gè))。

(四)鉆取。

鉆取處理是使用戶在數(shù)據(jù)倉庫的多層數(shù)據(jù)中,能夠通過導(dǎo)航信息而獲得更多的細(xì)節(jié)性數(shù)據(jù),鉆取一般是指向下鉆取。大多數(shù)的OLAP工具可以讓用戶鉆取至一個(gè)數(shù)據(jù)集中有更好細(xì)節(jié)描述的數(shù)據(jù)層,而更完整的工具可讓用戶隨處鉆取,即除一般往下鉆取外,隨處鉆取還包括向上鉆取和交叉鉆取。

(五)多視圖模式。人們發(fā)現(xiàn),獲取相同的信息,圖形顯示所帶來的直觀性有時(shí)是簡單的數(shù)據(jù)表所無法提供的。一個(gè)OLAP系統(tǒng),應(yīng)當(dāng)采取多種不同的格式顯示數(shù)據(jù),使用戶能夠獲得最佳的觀察數(shù)據(jù)的視角。

四、結(jié)語

隨著數(shù)據(jù)倉庫的發(fā)展,OLAP也得到了迅猛的發(fā)展。數(shù)據(jù)倉庫側(cè)重于存儲(chǔ)和管理面向決策主題的數(shù)據(jù),而OLAP則側(cè)重于數(shù)據(jù)倉庫中的數(shù)據(jù)分析,并將其轉(zhuǎn)換成輔助決策信息。OLAP的一個(gè)重要特點(diǎn)是多維數(shù)據(jù)分析,這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補(bǔ)充的關(guān)系。將有助于我們解決數(shù)據(jù)處理中的復(fù)雜問題。

參考文獻(xiàn):

[1]彭木根,數(shù)據(jù)倉庫技術(shù)與實(shí)現(xiàn),電子工業(yè)出版社,2002.9.

第2篇

1計(jì)算機(jī)大數(shù)據(jù)分析中云計(jì)算技術(shù)作用分析

云計(jì)算技術(shù)可以給提供計(jì)算機(jī)數(shù)據(jù)傳遞與共享的條件,融合軟硬件數(shù)據(jù)保存,促進(jìn)計(jì)算機(jī)處理工作更好的開展。云計(jì)算技術(shù)可以給用戶提供良好的網(wǎng)絡(luò)環(huán)境與保存空間,處理數(shù)據(jù)傳遞環(huán)節(jié)的各項(xiàng)問題。與傳統(tǒng)大數(shù)據(jù)分析技術(shù)相比,云計(jì)算計(jì)算可以提高大數(shù)據(jù)分析質(zhì)量。人們借助云計(jì)算技術(shù)獲得云終端的數(shù)據(jù),切實(shí)滿足人們對于數(shù)據(jù)的需求。現(xiàn)階段計(jì)算機(jī)市場形成完善的結(jié)構(gòu)體系,圍繞云計(jì)算技術(shù)推動(dòng)計(jì)算機(jī)大數(shù)據(jù)分析工作的開展,奠定后期云計(jì)算技術(shù)發(fā)展的基礎(chǔ)。目前,人們生活中全面運(yùn)用云計(jì)算技術(shù),基于云計(jì)算技術(shù)研發(fā)的服務(wù)器及操作系統(tǒng)方便人們處理各類信息技術(shù)。同時(shí),云計(jì)算技術(shù)數(shù)據(jù)保存有著較強(qiáng)的安全性,極小可能出現(xiàn)數(shù)據(jù)丟失情況,滿足人們的實(shí)際需求,直接體現(xiàn)出云計(jì)算技術(shù)的優(yōu)勢。優(yōu)化云計(jì)算環(huán)境下計(jì)算機(jī)的數(shù)據(jù)處理中心,就可以不斷提升計(jì)算機(jī)的云計(jì)算能力,讓云計(jì)算不僅為網(wǎng)絡(luò)信息所用,還在計(jì)算機(jī)網(wǎng)絡(luò)安全中發(fā)揮極為重要的作用。目前,計(jì)算機(jī)的使用人群更為注重的是在高速發(fā)達(dá)的信息社會(huì),自己的信息,也就是使用計(jì)算機(jī)網(wǎng)絡(luò)的安全性能是否能得到保障,這時(shí)候考驗(yàn)的就是云計(jì)系統(tǒng)的完善性。目前存在的最主要計(jì)算機(jī)安全問題就是黑客問題和系統(tǒng)漏洞問題。系統(tǒng)漏洞這一人為因素可以通過不斷檢索進(jìn)行漏洞的發(fā)現(xiàn)和修補(bǔ),面對黑客的攻擊,能夠做的就是防患于未然,不斷地升級和優(yōu)化系統(tǒng),最終達(dá)到完善的數(shù)據(jù)處理效果。

2云計(jì)算技術(shù)下計(jì)算機(jī)大數(shù)據(jù)分析面臨的問題

2.1網(wǎng)絡(luò)技術(shù)安全

由于相關(guān)技術(shù)的不斷發(fā)展,云計(jì)算環(huán)境下的網(wǎng)絡(luò)安全技術(shù)正在朝著穩(wěn)定和成熟的方向發(fā)展,但在具體的應(yīng)用過程中依然表現(xiàn)出一定的網(wǎng)絡(luò)安全問題,因此用戶在使用過程中應(yīng)該做好相關(guān)的應(yīng)對工作。網(wǎng)絡(luò)安全問題具體表現(xiàn)在用戶在使用信息傳輸?shù)倪^程中,一旦出現(xiàn)服務(wù)性中斷問題,難以保證數(shù)據(jù)的安全性,啟動(dòng)被動(dòng)保護(hù)模式的情況使信息的安全性更加難以保障,這也成為云計(jì)算模式下的網(wǎng)絡(luò)技術(shù)安全中的重點(diǎn)問題,一旦得不到及時(shí)有效的解決,用戶在使用過程中就會(huì)受到不同程度的威脅。

2.2網(wǎng)絡(luò)環(huán)境安全

網(wǎng)絡(luò)環(huán)境安全是保證網(wǎng)絡(luò)正常使用,信息傳輸質(zhì)量有保證的重要前提,一旦網(wǎng)絡(luò)環(huán)境存在不安全因素,將會(huì)引發(fā)病毒的入侵和黑客的攻擊。因此網(wǎng)絡(luò)環(huán)境安全也是云計(jì)算技術(shù)價(jià)值得以發(fā)揮的重要前提。計(jì)算機(jī)在使用過程中如果長期受到病毒的困擾和黑客的威脅,將會(huì)降低人們對計(jì)算機(jī)的信賴性,甚至在工作和生活中將會(huì)在網(wǎng)絡(luò)環(huán)境安全方面投入更多的成本。

3計(jì)算機(jī)大數(shù)據(jù)分析中云計(jì)算技術(shù)的具體應(yīng)用

3.1數(shù)據(jù)傳輸安全分析

在云計(jì)算的作用下,云安全含義逐漸形成,具體來說,云安全主要指在用戶借助云計(jì)算技術(shù)來實(shí)現(xiàn)計(jì)算機(jī)大數(shù)據(jù)分析時(shí),讓數(shù)據(jù)安全性得到了保證。用戶端數(shù)據(jù)和數(shù)據(jù)安全往往呈現(xiàn)出正比關(guān)系,隨著應(yīng)用群體數(shù)量的增多,涉及的計(jì)算機(jī)數(shù)據(jù)范疇將不斷擴(kuò)充,假設(shè)計(jì)算機(jī)遭受病毒的攻擊,可以在云計(jì)算技術(shù)的作用下實(shí)現(xiàn)病毒的攔截,以此讓計(jì)算機(jī)數(shù)據(jù)安全性得到保證。從云計(jì)算技術(shù)自身角度來說,其提供的各個(gè)服務(wù)均是由IaaS基礎(chǔ)設(shè)施級服務(wù)以及PaaS平臺(tái)級服務(wù)兩項(xiàng)內(nèi)容構(gòu)建而成。首先,IaaS基礎(chǔ)設(shè)施級服務(wù)其作用在于,可以給用戶提供對應(yīng)的服務(wù),也就是對各個(gè)計(jì)算機(jī)基礎(chǔ)設(shè)備進(jìn)行操作和應(yīng)用,其中包含了CPU處理、數(shù)據(jù)保存、數(shù)據(jù)傳遞等。其次,PaaS平臺(tái)級服務(wù)則是指,把云計(jì)算中各個(gè)服務(wù)器及開發(fā)環(huán)境當(dāng)作服務(wù),通過PaaS平臺(tái)用戶能夠結(jié)合自身需求實(shí)現(xiàn)對應(yīng)操作流程的部署和應(yīng)用。

3.2監(jiān)督數(shù)據(jù)資源共享

網(wǎng)絡(luò)資源在傳輸過程中遭遇到的安全威脅是用戶時(shí)時(shí)刻刻關(guān)注的問題,因此在具體的工作和管理中,需要提高云計(jì)算網(wǎng)絡(luò)安全技術(shù)的應(yīng)用程度,通過不斷創(chuàng)新安全模式,完善相應(yīng)的防護(hù)體系,從而有效消除安全性問題,提升數(shù)據(jù)傳輸?shù)陌踩院头€(wěn)定性。具體在應(yīng)用過程中,可以借助云計(jì)算技術(shù)的優(yōu)勢,對數(shù)據(jù)傳輸?shù)恼麄€(gè)路徑進(jìn)行監(jiān)控,保證傳輸通道環(huán)境的安全性,一旦出現(xiàn)問題及時(shí)進(jìn)行預(yù)警,有效預(yù)防黑客的攻擊,降低網(wǎng)絡(luò)安全事故發(fā)生的概率。對此,有關(guān)部門應(yīng)該提高重視程度,同時(shí)完善相應(yīng)的監(jiān)督管理制度,采用科學(xué)的管理方式,實(shí)現(xiàn)預(yù)期的監(jiān)測目標(biāo)。

3.3提高數(shù)據(jù)使用安全

計(jì)算機(jī)用戶本身的安全意識(shí)也是當(dāng)前需要關(guān)注的重要方面,為了進(jìn)一步提升用戶數(shù)據(jù)信息和計(jì)算機(jī)系統(tǒng)的安全系數(shù),需要重視身份認(rèn)證工作的提升,具體可以使用實(shí)名制的方式進(jìn)行認(rèn)證處理,從而不斷提升整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的安全性。對于網(wǎng)絡(luò)應(yīng)用過程中涉及到的安全問題,可以通過實(shí)名追蹤的方式進(jìn)行可疑目標(biāo)鎖定,從而有效控制惡意攻擊情況的發(fā)生。但在應(yīng)用過程中也需要重視假人名情況的出現(xiàn),提高網(wǎng)絡(luò)數(shù)據(jù)信息竊取的預(yù)防水平。計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境算是一種相對開放的環(huán)境,在使用過程中會(huì)面向大量的用戶,通過重視用戶的身份認(rèn)證,可以有效避免用戶對數(shù)據(jù)的非法訪問。同時(shí)在使用者進(jìn)行計(jì)算機(jī)登錄和使用的時(shí)候,需要對用戶名和密碼進(jìn)行核實(shí)。按照權(quán)限的不同,確保數(shù)據(jù)庫信息的安全有效性。通過對數(shù)據(jù)庫信息加密處理,可以確保數(shù)據(jù)庫信息的安全性。這種加密處理可以在原有數(shù)據(jù)信息的基礎(chǔ)上進(jìn)行算法的處理改進(jìn),使用者可以通過自身的權(quán)限獲取想要了解的信息,如果沒有解密方式,不法分子將會(huì)難以獲取數(shù)據(jù)的原始信息。

3.4網(wǎng)絡(luò)安全等級防護(hù)

在云計(jì)算環(huán)境下的安全管理中心具備系統(tǒng)管理、安全管理和安全審計(jì)等功能,能夠滿足不同云計(jì)算環(huán)境下不同安全等級的保護(hù)要求,并且通過服務(wù)層的安全保護(hù)框架,實(shí)現(xiàn)對不同等級云服務(wù)客戶端的安全保護(hù),為使用者提供安全可靠的資源訪問服務(wù)。在訪問云服務(wù)商時(shí),用戶可通過通信網(wǎng)絡(luò)、API接口和Web服務(wù)方式訪問云服務(wù)器,但是用戶終端系統(tǒng)的安全防護(hù)不在網(wǎng)絡(luò)安全等級保護(hù)框架體系內(nèi)。在保護(hù)框架體系內(nèi),資源層和服務(wù)層安全是云計(jì)算環(huán)境安全保護(hù)的重點(diǎn),資源層包括物理資源安全和虛擬資源安全,應(yīng)按照安全設(shè)計(jì)要求構(gòu)建資源層安全保護(hù)框架。云計(jì)算環(huán)境下的網(wǎng)絡(luò)安全等級保護(hù)要針對不同等級云計(jì)算平臺(tái)確定不同的安全目標(biāo),一般情況下安全保護(hù)等級最低為二級,并根據(jù)安全目標(biāo)和等級要求實(shí)施安全設(shè)計(jì)步驟,具體包括:第一步,根據(jù)云平臺(tái)的租戶數(shù)量和業(yè)務(wù)系統(tǒng)情況確定云計(jì)算安全保護(hù)標(biāo)準(zhǔn),制定云計(jì)算平臺(tái)的安全保護(hù)策略,以避免在云計(jì)算平臺(tái)上發(fā)生安全事件;第二步,細(xì)化安全技術(shù)要求,針對安全計(jì)算環(huán)境、安全區(qū)域邊界、安全通信網(wǎng)絡(luò)以及安全管理中心制定出相應(yīng)的安全保護(hù)策略;第三步,根據(jù)云計(jì)算功能框架中的各層功能和保護(hù)要求,制定安全技術(shù)機(jī)制,使其滿足云計(jì)算功能框架的安全保護(hù)要求。在完成云計(jì)算環(huán)境下的網(wǎng)絡(luò)安全等級保護(hù)設(shè)計(jì)之后,還應(yīng)增加虛擬化安全、鏡像安全、接口安全等安全控制點(diǎn),并采用訪問控制技術(shù)、身份識(shí)別技術(shù)等安全防護(hù)技術(shù),實(shí)現(xiàn)與云計(jì)算平臺(tái)上各功能層次的對接,提出各層的安全保護(hù)措施。

3.5重視相應(yīng)程序開發(fā)

網(wǎng)絡(luò)安全應(yīng)用程序需要隨著技術(shù)的進(jìn)步和人們生活和工作的需要進(jìn)行逐步提升,從而及時(shí)對病毒程序進(jìn)行開發(fā)和處理,確保計(jì)算機(jī)系統(tǒng)可以敏銳捕捉到病毒的活動(dòng)跡象,提升自身的防御能力。通常情況下,對于計(jì)算機(jī)的服務(wù),內(nèi)網(wǎng)隱蔽處理,可以提升網(wǎng)站平臺(tái)的訪問速度,可以避免不安全網(wǎng)址帶來的不良效應(yīng),從而為計(jì)算機(jī)的安全防御提供一定的屏障。在計(jì)算機(jī)數(shù)據(jù)的使用中,由于安全性威脅導(dǎo)致的數(shù)據(jù)丟失問題,可以通過備份和恢復(fù)改善。這種恢復(fù)性功能也可以保證數(shù)據(jù)的一致性和完整性。通常由邏輯備份、動(dòng)態(tài)備份以及靜態(tài)備份等幾種情況。計(jì)算機(jī)黑客數(shù)量增多,凈化網(wǎng)絡(luò)環(huán)境顯然存在較大難度,但通過必要的防范措施依然可以在數(shù)據(jù)庫信息的保護(hù)中起到關(guān)鍵作用。而使用防火墻保護(hù)工具就能很好的為計(jì)算機(jī)網(wǎng)絡(luò)提供一種安全保障。通過防火墻,可以在一定程度上防止黑客的侵害。

第3篇

關(guān)鍵詞 數(shù)據(jù)挖掘 基因序列 生物信息學(xué) 遺傳疾病 患病家族連鎖分析

在生物信息學(xué)的成果的理論基礎(chǔ)之上,通過統(tǒng)計(jì)的方法查找未知的生物化學(xué)功能的疾病基因的位置。這個(gè)方法預(yù)先通過患病家族連鎖分析,再推斷包含這些基因的染色體區(qū)域片段,然后檢查該區(qū)域來尋找基因[1]。

數(shù)據(jù)挖掘在DNA數(shù)據(jù)分析的發(fā)展?fàn)顩r

現(xiàn)今所采用的是分子生物學(xué)與微電子技術(shù)相結(jié)合的核酸分析檢測技術(shù)[2]。DNA芯片技術(shù)的基本原理是將cDNA或寡核昔酸探針以105~106位點(diǎn)/cm2>/sup>的密度結(jié)合在固相支持物(即芯片)上,每個(gè)位點(diǎn)上的cDNA或寡核昔酸探針的順序是已知的,將該探針與熒光標(biāo)記的待測樣品DNA,RNA或cDNA在芯片上進(jìn)行雜交,然后用激光共聚焦顯微鏡對芯片進(jìn)行掃描,并配合計(jì)算機(jī)系統(tǒng)對雜交信號(hào)做出比較和檢測,從而迅速得出所需的信息。

基因數(shù)據(jù)挖掘常用的方法:①核酸與蛋白質(zhì)比較的預(yù)測分析:蛋白質(zhì)序列之間或核酸序列之間的兩兩比對,通過比較兩個(gè)序列之間的相似區(qū)域和保守性位點(diǎn),尋找二者可能的分子進(jìn)化關(guān)系。進(jìn)一步的比對是將多個(gè)蛋白質(zhì)或核酸同時(shí)進(jìn)行比較,尋找這些有進(jìn)化關(guān)系的序列之間共同的保守區(qū)域、位點(diǎn)和profile,從而探索導(dǎo)致它們產(chǎn)生共同功能的序列模式。此外,還可以把蛋白質(zhì)序列與核酸序列相比來探索核酸序列可能的表達(dá)框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)折疊類型的信息。②針對核酸序列的預(yù)測方法:針對核酸序列的預(yù)測就是在核酸序列中尋找基因,找出基因的位置和功能位點(diǎn)的位置,以及標(biāo)記已知的序列模式等過程。在此過程中,確認(rèn)一段DNA序列是一個(gè)基因需要有多個(gè)證據(jù)的支持。一般而言,在重復(fù)片段頻繁出現(xiàn)的區(qū)域里,基因編碼區(qū)和調(diào)控區(qū)不太可能出現(xiàn);如果某段DN段的假想產(chǎn)物與某個(gè)已知的蛋白質(zhì)或其他基因的產(chǎn)物具有較高序列相似性的話,那么這個(gè)DN段就非??赡軐儆谕怙@子片段;在一段DNA序列上出現(xiàn)統(tǒng)計(jì)上的規(guī)律性,即所謂的“密碼子偏好性”,也是說明這段DNA是蛋白質(zhì)編碼區(qū)的有力證據(jù);其他的證據(jù)包括與“模板”序列的模式相匹配、簡單序列模式如TATA Box等相匹配等。

案例分析

疾病是由于基因的片段內(nèi)的某個(gè)位置存在或發(fā)生改變而引起的,也就是發(fā)生突變。能否找出其中不同的地方,進(jìn)而對其不同之處加以改變,使之成為正?;??這都需要數(shù)據(jù)挖掘技術(shù)的支持。對基因的數(shù)據(jù)挖掘,就是對這些突變位置的尋找,并且找出該位置與所有者身患的疾病之間的關(guān)系。

方法的選擇:筆者在設(shè)計(jì)中選用單純的DNA序列進(jìn)行比較,基因在計(jì)算機(jī)的表示和存儲(chǔ)時(shí),可以使用一條很長的字符串來表示基因的某一條序列,使用文件的形式進(jìn)行對基因工作者的提取成果創(chuàng)建一級數(shù)據(jù)庫,使用文件修整的方法進(jìn)行數(shù)據(jù)的清洗,以滿足數(shù)據(jù)在二級數(shù)據(jù)庫中的一致性。同時(shí)在文件比較過程中,生成某兩個(gè)數(shù)據(jù)文件的差異狀況,保存在二級數(shù)據(jù)庫庫中,進(jìn)一步的操作是對差異的位置的某個(gè)類型所占的比例。最后通過事先的對患者患病信息的統(tǒng)計(jì)得到的某種疾病在群中所占的比例,與其相比較,如果這兩個(gè)比例相等,則可以認(rèn)為這個(gè)位置的某個(gè)類型引起疾病的發(fā)生。從醫(yī)學(xué)院得到一些基因片段文件信息和患者(所有者)患病情況。

系統(tǒng)的實(shí)現(xiàn):基因片段在計(jì)算機(jī)中以文件形式存儲(chǔ),用文件名標(biāo)識(shí)其所有者(源體)。片段起始地址和長度信息和所有患者患病情況保存在本機(jī)數(shù)據(jù)庫中。在程序測試過程中,將片段復(fù)制成40份,對其中部分文件的序列進(jìn)行稍作修改,對所有患者的患病狀況進(jìn)行稍作修改,以創(chuàng)造測試環(huán)境。顯示在與基因數(shù)據(jù)挖掘軟件同在一根目錄下的序列文件的集合。

其中一個(gè)文件所存儲(chǔ)的基因信息,見圖1。

啟動(dòng)統(tǒng)計(jì)程序界面,單擊清空數(shù)據(jù)庫中的臨時(shí)用表數(shù)據(jù),將數(shù)據(jù)庫中有可能的雜音信息去掉。并對其中的所有文件進(jìn)行統(tǒng)計(jì)前片段剪切,使所有片段的起始地址和長度都相同,避免發(fā)生序列移位。

沒有進(jìn)行片段剪切之前,瀏覽文件所存的片段信息,片段剪切完成之后,設(shè)置進(jìn)行比較操作的甲、乙組的文件添加,因?yàn)楸敬螠y試只檢驗(yàn)片段中的一塊區(qū)域(文件中片段的所有信息),所以在起始序號(hào)那里添加為0,終止序號(hào)那里添加為175。這樣則可以保證統(tǒng)計(jì)文件的所有信息都被統(tǒng)計(jì)。

單擊結(jié)果顯示按鈕,可以見到程序以表格和條形圖標(biāo)方式??梢钥吹?、3、5、12、14、16、18、13、31、34、87、94、139、166位置的條形段較高。說明在這些接受統(tǒng)計(jì)的片段中,在上面提到的位置處存在的差異較大,與某遺傳疾病的關(guān)聯(lián)的可能性就越大。

如果用戶想要在初步統(tǒng)計(jì)結(jié)果的基礎(chǔ)上,按照數(shù)據(jù)庫中所有者的疾病狀況進(jìn)行詳細(xì)統(tǒng)計(jì)的話,單擊菜單欄的詳細(xì)統(tǒng)計(jì)按鈕,選擇按疾病詳細(xì)統(tǒng)計(jì),則將彈出窗口。

選擇弱視,輸入,則在文本框中顯示與其關(guān)聯(lián)的位置為1、3、5、12、14、16、18、13、31、34、87、94、139、166。

由此,用戶可以根據(jù)本系統(tǒng)所給出的預(yù)測對弱視遺傳疾病與序列中的特定位置,選擇適當(dāng)算法進(jìn)行進(jìn)一步的計(jì)算及檢驗(yàn),證明預(yù)測結(jié)果是否符合關(guān)聯(lián)理論。數(shù)據(jù)挖掘方法體系中的智能聚類的相關(guān)技術(shù)則可較好的解決類別數(shù)判定、結(jié)果驗(yàn)證等問題。

結(jié) 論

對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,需要一些新的和好的算法;但技術(shù)和軟件還遠(yuǎn)沒有達(dá)到成熟的地步,因此需要不斷探索及研究。

參考文獻(xiàn)

1 黃詒森.生物化學(xué)[M].北京:人民衛(wèi)生出版社,2002:29-37.

主站蜘蛛池模板: 免费国产黄网站在线观看视频| 国产精品99无码一区二区| 久久久久亚洲av无码去区首| 欧美性猛交xxxx乱大交| 免费观看欧美一级特黄| 青娱乐国产精品| 国产特级毛片aaaaaaa高清| 97久人人做人人妻人人玩精品| 小蝌蚪app在线观看| 久久99精品国产麻豆婷婷| 最近中文国语字幕在线播放| 亚洲最大在线视频| 狂野欧美性猛xxxx乱大交| 厨房掀起馊子裙子挺进去 | 亚洲熟妇av一区二区三区下载| 精品久久久久久无码专区不卡 | xxxxx.av| 成年人免费黄色| 久久国产亚洲电影天堂| 欧洲精品在线观看| 亚洲国产精品ⅴa在线观看| 毛片a级毛片免费观看免下载| 免费一级欧美大片在线观看 | 精品久久久久久久免费人妻| 四虎精品成人免费影视| 韩国无码AV片在线观看网站| 国产手机精品一区二区| 182tv午夜精品视频在线播放| 国语自产拍天天在线| a级毛片免费看| 女欢女爱第一季| 一本加勒比HEZYO无码专区| 抱着娇妻让粗黑人人玩3p| 久久久久国产精品免费网站| 日韩av片无码一区二区三区不卡| 五月婷婷在线免费观看| 欧美亚洲综合另类在线观看| 亚洲无成人网77777| 欧美黑人巨大videos极品| 亚洲精品视频在线播放| 狠狠躁天天躁无码中文字幕|