美章網(wǎng) 資料文庫(kù) 匹配技術(shù)在多序列比對(duì)中的運(yùn)用范文

匹配技術(shù)在多序列比對(duì)中的運(yùn)用范文

本站小編為你精心準(zhǔn)備了匹配技術(shù)在多序列比對(duì)中的運(yùn)用參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫(xiě)作靈感。歡迎深入閱讀并收藏。

匹配技術(shù)在多序列比對(duì)中的運(yùn)用

《信息系統(tǒng)工程雜志》2014年第十期

一、問(wèn)題提出

由于星比對(duì)算法平方級(jí)的時(shí)間復(fù)雜度無(wú)法滿足實(shí)際需要,文獻(xiàn)[6]對(duì)其進(jìn)行改進(jìn),提出了基于關(guān)鍵字樹(shù)的DNA多序列星比對(duì)算法。其主要思想是依次將每個(gè)序列都分割成等長(zhǎng)的子串集合,為這個(gè)集合構(gòu)建一棵模式樹(shù)。除該序列的其他序列使用Aho-Corasick算法對(duì)該模式樹(shù)進(jìn)行模式匹配,并記錄所有模式串出現(xiàn)次數(shù)的總和。將出現(xiàn)次數(shù)總和值最大的序列定為中心序列,然后根據(jù)星比對(duì)算法中“一旦為空格,始終為空格”的思想,將其他序列與中心序列的未匹配部分進(jìn)行多序列比對(duì)。文獻(xiàn)[6]雖然將星比對(duì)算法的平方級(jí)時(shí)間復(fù)雜度降到了線級(jí),但在選取中心序列時(shí),模式串的出現(xiàn)次數(shù)沒(méi)有考慮是否為公共的模式串,使得選取的中心序列并非為最優(yōu)解。本文在文獻(xiàn)[6]的基礎(chǔ)上進(jìn)行改進(jìn),建立一棵公共的模式樹(shù),所有序列都使用Aho-Corasick算法對(duì)這棵公共的模式樹(shù)進(jìn)行模式匹配,并使用數(shù)組記錄搜索得到的模式號(hào),通過(guò)對(duì)數(shù)組中的模式號(hào)的逐級(jí)篩選,最后剩下的序列所包含的公共的模式串為最多,增強(qiáng)了算法尋求最優(yōu)解的能力。實(shí)驗(yàn)表明改進(jìn)后的算法更能獲得最優(yōu)解。

二、模式樹(shù)模型

模式樹(shù)模型[7]描述如下:定義1:由模式串集合構(gòu)成的模式樹(shù)K是一棵有根樹(shù),滿足:(1)K的每一條邊由1個(gè)字符標(biāo)記;(2)與同一節(jié)點(diǎn)相連的任意多條邊標(biāo)記的字符均不相同;(3)每個(gè)模式串都對(duì)應(yīng)著一個(gè)節(jié)點(diǎn)v,使得,其中是從根節(jié)點(diǎn)到節(jié)點(diǎn)v所經(jīng)過(guò)的邊的對(duì)應(yīng)字符的拼接;(4)K的每個(gè)葉節(jié)點(diǎn)v'''',存在模式串,使得。

三、算法描述

基于模式匹配的多序列比對(duì)算法仍然是以星比對(duì)為基礎(chǔ)的,分為尋找中心序列和兩兩比對(duì)兩個(gè)主要步驟。要尋找中心序列,設(shè)需要進(jìn)行比對(duì)的多個(gè)序列分別是。具體操作如下。步驟1:將每個(gè)序列等分成長(zhǎng)度為r的子序列構(gòu)成子序列集合L,(l取值,k取值)。將集合L中的所有子序列構(gòu)成一棵公共的模式樹(shù)T。步驟2:對(duì)于公共的模式樹(shù)T,每個(gè)序列利用Aho-Corasick算法搜索T,并記錄每個(gè)序列匹配的模式號(hào)和該模式在當(dāng)前序列中出現(xiàn)的位置,其中模式號(hào)表示模式樹(shù)中該模式的編號(hào)。這里使用一個(gè)多維數(shù)組進(jìn)行記錄,表示序列Pi搜索T時(shí),匹配編號(hào)為Pos[j]的模式串在Pi中的位置為Pos[j,j]。步驟3:統(tǒng)計(jì)每個(gè)序列匹配的模式號(hào),這里只考慮搜索T時(shí)通過(guò)非失效鏈接得到的模式號(hào),并使用一個(gè)二維數(shù)組進(jìn)行統(tǒng)計(jì)。表示匹配成功的模式號(hào),表示序列Pi匹配編號(hào)為的模式串的次數(shù)。步驟4:依次找出匹配次數(shù)最多的那個(gè)模式號(hào),將沒(méi)有匹配該模式號(hào)的序列從查找中心序列的隊(duì)列中去除,最后剩下的序列將是中心序列Pc。步驟5:得到中心序列后,將Pc與依次進(jìn)行比對(duì)。由于在步驟(4)中已經(jīng)記錄了Pc和Pi匹配的子串位置,然后使用動(dòng)態(tài)規(guī)劃算法將Pc和Pi未匹配的子串進(jìn)行比對(duì)。并且記錄需要在Pc和Pi中插入空格的位置Sci和Si。步驟6:依次比對(duì)完P(guān)c和后,對(duì)所有需要插入空格的位置匯總,匯總后的位置記為Sc,分別比較Sc和Sci,在Si中加入新匯入的空格位置。分別根據(jù)Si中記錄的空格位置將空格插入到Pi中并輸出多序列比對(duì)的結(jié)果。

四、實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)將基于模式匹配的多序列比對(duì)算法和星比對(duì)算法、基于關(guān)鍵字樹(shù)的DNA多序列星比對(duì)算法進(jìn)行比較。實(shí)驗(yàn)PC的CPU為Pentium(R)Dual-CoreT42002.00GHz,內(nèi)存為2.00GB,操作系統(tǒng)為Windows7,運(yùn)行環(huán)境為VistualStudio2008。選取了兩組數(shù)據(jù)進(jìn)行測(cè)試,對(duì)每組測(cè)試數(shù)據(jù)都連續(xù)運(yùn)行程序20次,并從程序運(yùn)行時(shí)間和堿基對(duì)匹配情況兩個(gè)方面比較三種算法的期望時(shí)間復(fù)雜度和比對(duì)的效率。第一組實(shí)驗(yàn)通過(guò)對(duì)6種西藏部分地區(qū)豆科植物的根瘤菌多序列比對(duì),完成DNA同源性分析。實(shí)驗(yàn)數(shù)據(jù)來(lái)自于NCBI上的核酸庫(kù)以及文獻(xiàn)[8]。序列的條數(shù)為6,序列的平均長(zhǎng)度為1428。該實(shí)驗(yàn)數(shù)據(jù)程序運(yùn)行時(shí)間如圖1所示。第二組實(shí)驗(yàn)通過(guò)對(duì)11個(gè)物種的β-球蛋白基因的第一個(gè)外顯子進(jìn)行多序列比對(duì)。實(shí)驗(yàn)數(shù)據(jù)來(lái)自于NCBI上的核酸庫(kù)以及文獻(xiàn)[9],序列的條數(shù)為11,序列的平均長(zhǎng)度為92。該實(shí)驗(yàn)數(shù)據(jù)程序運(yùn)行時(shí)間如圖3所示。統(tǒng)計(jì)11個(gè)物種的β-球蛋白基因第一個(gè)外顯子的堿基對(duì)匹配情況如圖4所示。通過(guò)第一組實(shí)驗(yàn)結(jié)果可知,在運(yùn)行時(shí)間上本算法雖然略高于基于關(guān)鍵字樹(shù)的星比對(duì)算法,但其堿基對(duì)匹配數(shù)卻遠(yuǎn)高于基于關(guān)鍵字樹(shù)的星比對(duì)算法。因?yàn)楸舅惴ㄔ趯ふ抑行男蛄袝r(shí)采用的是逐級(jí)去掉希望最小的序列,最后剩下的序列所包含的公共的子串為最多,相對(duì)于基于關(guān)鍵字樹(shù)的星比對(duì)算法中直接將模式串出現(xiàn)次數(shù)最多的序列定為中心序列的方法,得到的結(jié)果則更接近最優(yōu)解。在第二組實(shí)驗(yàn)中,本算法的堿基對(duì)匹配數(shù)也高于基于關(guān)鍵字樹(shù)的星比對(duì)算法,與星比對(duì)算法更為接近。在運(yùn)行時(shí)間方面,由于本實(shí)驗(yàn)所選取的序列相似性很高,尋找中心序列時(shí)統(tǒng)計(jì)每個(gè)序列共有的模式號(hào)的個(gè)數(shù)接近k值,所以可以認(rèn)為尋找中心序列的運(yùn)行時(shí)間為O(n2k)。而基于關(guān)鍵字樹(shù)的星比對(duì)算法的尋找中心序列運(yùn)行時(shí)間為O(n2l),k是待比較的序列所分割的段數(shù),取值O(l/logl),遠(yuǎn)小于l,所以O(shè)(n2k)也遠(yuǎn)小于O(n2l)。在建立好模式樹(shù)后,本算法和基于關(guān)鍵字樹(shù)的星比對(duì)算法一樣,將完全匹配的子串位置存儲(chǔ)下來(lái)。所以在其他序列與中心序列逐個(gè)進(jìn)行比對(duì)的過(guò)程中,對(duì)于完全匹配的子串就不需要再進(jìn)行比對(duì)。另外,其他序列與中心序列采用動(dòng)態(tài)規(guī)劃算法進(jìn)行比對(duì),其運(yùn)行時(shí)間與比對(duì)的長(zhǎng)度呈平方關(guān)系。如果相似程度非常高的序列進(jìn)行比對(duì),匹配的子串個(gè)數(shù)與k越接近,那么在每個(gè)序列與中心序列進(jìn)行比對(duì)的長(zhǎng)度就越短,花費(fèi)的時(shí)間也就越少。

五、結(jié)論

本文提出了一種新的生物序列比對(duì)算法——基于模式匹配的DNA多序列比對(duì)算法。此算法是在星比對(duì)算法和Aho-Corasick算法的基礎(chǔ)上,針對(duì)基于關(guān)鍵字樹(shù)的DNA多序列比對(duì)方法提出來(lái)的。由于此算法是對(duì)原始星比對(duì)算法的一種改進(jìn),所以算法的實(shí)現(xiàn)仍然包括兩個(gè)步驟:尋找中心序列和序列兩兩比對(duì)。通過(guò)實(shí)驗(yàn)結(jié)果表明,新算法相對(duì)于基于關(guān)鍵字樹(shù)的DNA多序列比對(duì)算法的準(zhǔn)確率更高,相對(duì)于原始星比對(duì)算法的運(yùn)算速度更快。

作者:王櫻楊麗李錫輝單位:湖南信息職業(yè)技術(shù)學(xué)院計(jì)算機(jī)工程系

精品推薦
主站蜘蛛池模板: 亚洲女初尝黑人巨高清| 日本免费色视频| 一二三区在线视频| videos欧美成人| 99久久综合狠狠综合久久aⅴ| 99精品在线免费| AAA日本高清在线播放免费观看| 99久久免费国产精精品| 天堂资源在线中文| 全黄大全大色全免费大片| 欧美亚洲国产激情一区二区| 顶部自由性别xx视频| 色综合一区二区三区| 色婷五月综激情亚洲综合| 美女黄18以下禁止观看| 精品亚洲国产成人| 波多野结衣在公众被强| 校园放荡三个女同学| 日本波多野结衣电影| 宅男噜噜噜66在线观看网站| 在线毛片免费观看| 国产男女猛烈无遮挡免费视频 | 用电动玩具玩自己小视频| 狠狠躁夜夜躁av网站中文字幕 | 成人免费淫片免费观看| 天天射天天干天天色| 毛片免费观看视频| 欧美成人免费高清网站| 两个小姨子韩国电影| loveme动漫在线观看免费| 69堂在线观看| 高潮毛片无遮挡高清免费视频| 色伊人国产高清在线| 污污视频网站免费| 最近中文字幕免费mv视频7| 成年美女黄网站色大片免费看| 性色av一区二区三区| 国产老女人精品免费视频| 国产大片内射1区2区| 国产xxxxx在线观看| 作者不详不要…用力呢|