本站小編為你精心準備了基因組單核苷酸多態性運用參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
1人類基因組
人類基因組計劃已經取得了顯著的進展,約占整個基因組6.3%的DNA序列已被測定,已鑒定的基因7484個,約1萬條人類基因的序列已被克隆。人類基因組全序列測定預計可以提前在2003年完成[1]。人類基因組是一個十分穩定的體系,不同的民族、群體和個體都有46條染色體,有相同數目的基因和基因分布,也有基本相同的核苷酸序列。正是基因組結構的這種穩定性保證了人類作為一個物種的共同性和穩定性,也決定了目前基因組測定是有意義的,即有代表性的。
然而人類基因組又是一個變異的體系。在長期進化的過程中,基因組的DNA序列不斷地發生變異。這些變異可能是有害的、有益的或中性的,它們其中的一些被保存下來,導致了不同種族、群體和個體間基因組的差異或多態性。除了同卵雙生子外,沒有兩個個體的基因組是完全相同的。隨著基因組測序的進展,全面深入地了解個體和群體間基因組的變異或多態性已成為可能,并日益顯示其重要性。這不僅因為更多的多態性標記有助于基因的鑒定和定位,同時通過建立序列變異與表型、序列變異與疾病風險之間的關系,將把對疾病,特別是對復雜疾病的預防、診斷和治療置于堅實的遺傳學基礎上,從而使人類基因組計劃給人類健康帶來實際的利益。
人類基因組中的遺傳多態性較多地表現在重復序列,特別是短串聯重復序列,如小衛星DNA和微衛星DNA,它們的多態性主要是基于重復序列拷貝數的變異。微衛星DNA位點在人類基因組中數以千計,它們分布廣泛,是很好的遺傳標記。另一類更加普遍的多態性是基因組中散在的單個堿基的不同。這種不同雖然也包括單個堿基的缺失和插入,但更多的是單個堿基的置換,即單核苷酸的多態性(singlenucleotidepolymorphism,SNP)。SNP為數眾多,分布廣泛。如果比較任意兩條同源染色體的堿基序列,那么平均約1000堿基對(bp)就有一個堿基不同。單個堿基變異能導致基因功能異常者習慣上被稱為突變。
隨著人類基因組計劃的進展,人們愈來愈相信基因組中的這類多態性有助于解釋個體的表型差異、不同群體和個體對疾病,特別是對復雜疾病的易感性、以及對各種藥物的耐受性和對環境因子的反應。因此,尋找研究SNP已成為人類基因組計劃的內容和目標之一[1,2]。例如美國國立衛生研究院(NIH)在1998年準備斥資4000萬美元就SNP的檢測技術及應用進行招標,并強調SNP計劃的迫切性[3,4]。本文擬在對人類基因組SNP作一簡要說明的基礎上,著重介紹SNP的醫學意義及其應用,并兼及一些發展中的批量鑒定和檢出SNP的方法。
2單核苷酸多態性
單核苷酸多態性(SNP)是指基因組內特定核苷酸位置上存在兩種不同的堿基,其中最少一種在群體中的頻率不小于1%。盡管遺傳密碼由4種堿基組成,但SNP通常只是1種二等位基因的(biallelic),或二態的遺傳變異。SNP作為一種堿基的替換,大多數為轉換,即一種嘧啶堿基換為另一種嘧啶堿基或一種嘌呤堿基換為另一種嘌呤堿基,轉換與顛換之比2∶1。SNP在CG序列上出現最為頻繁,而且多是C→T,原因是CG中C即胞嘧啶常為甲基化的、自發地脫氨后即成為胸嘧啶。人類基因組中共有多少SNP位點,目前尚難以確定,這主要是因為還不確知單堿基變異的程度,而各作者對此估計不完全相同,有作者估計每400bp就有1個堿基不同,另一些作者估計堿基的變異頻率在0.5‰~10‰之間。
如果假定1/1000的堿基是多態的話,那么人類30億堿基中當有約三百萬SNP位點。由此可見,SNP數比微衛星標記數要高出幾個數量級。盡管就單個SNP而言只有兩種變異體,變異程度不如微衛星或小衛星DNA。但SNP在基因組中數量巨大,分布頻密,因此就整體而論,它們的多態性要高得多。而且由于SNP是二態的,易于自動化批量檢測,因而被認為是新一代的遺傳標記(第1代的遺傳標記是RFLP,第2代是各種短串聯重復序列STR標記)。目前的SNP計劃希望首先鑒別出已知基因的cSNP,然后在5年內制作出擁有100000個SNPs的基因組,以滿足比較均質群體中的關聯分析和其它研究的需要[1,3]。SNP在單個基因或整個基因組中的分布不是均勻的。有根據認為,由于選擇壓力等原因,SNP在非轉錄序列中要多于轉錄序列。
由于基因組中為蛋白質編碼的序列僅約為3%,絕大多數SNP當位于非編碼區。在蛋白質編碼區的SNP被稱為cSNP,它們和位于表達調控序列中的SNP在功能或致病方面具有更重要的意義[4]。這樣的多態性常被稱為功能多態性(functionalpolymorphism)。此外,在一些基因中有SNP的密集區,但由于已知SNP尚少,有關SNP的分布規律還有待進一步研究。
3SNP的醫學意義和應用
基因在決定個體的正常表型,即形態、代謝和免疫狀態等方面起著決定性的作用。通過賦予個體對疾病的易感性或抵抗力,以及影響機體與環境因素的相互作用,基因也對任何一種疾病的發生發展起著重要作用。因此,人們希望能識別這些基因,以加深對疾病的認識,從而改進疾病的診斷預防。限于技術條件和其它一些原因,迄今疾病的遺傳研究大多從單個基因入手,或按照單基因的模式進行,很少能夠考慮包括成千上萬基因的整個基因組及其功能狀態。但隨著SNP的不斷發現和人類第3代遺傳標記圖的繪制,現在已有可能描繪在某一疾病時或發育階段中多個基因位點甚至整個基因組的狀態。
3.1連鎖分析與基因定位SNP可以用于疾病的連鎖分析和未知致病基因的定位。SNP數量大和分布廣,在任何已知或未知致病基因附近都可能找到眾多的SNP,并用于遺傳病的單倍型診斷。在有適當的家系資料時,SNP又可用作遺傳標記來定位未知基因。與目前廣泛使用的微衛星小衛星基因圖比較,未來SNP圖的標記更多,分辨率更高,定位基因也更加準確。有作者計算,有700~900個SNP的基因圖與目前用于基因組掃描的300~400個微衛星位點的基因圖的分析能力相當,但制作前者要容易得多。而如果采用1500~3000個SNP作掃描,結果明顯優于目前使用的微衛星掃描[5]。
3.2疾病的關聯分析如果說連鎖分析是基于家系中一種疾病或表型與某個等位基因的同時存在(coexistence)或相聯系的話,那么關聯分析則是基于群體中某種疾病與某個特定等位基因的頻率相關。經典的連鎖分析常苦于家系中患病成員的不足和DNA標本的不易取得,而關聯分析無需家系資料,只需研究一個群體中的患者與非患者。當一個遺傳標記的頻率在患者明顯超過非患者時,即表明該標記與疾病關聯。通過比較分析兩者的單倍型和發現連鎖不平衡,關聯分析也可將基因組中任何未知的致病基因定位。但要做到這一點,估計需要有3萬~30萬個SNP[4]。
3.3復雜疾病或過程的基因定位迄今為止,在復雜疾病和復雜生理過程相關基因的識別和定位方面取得的成績仍十分有限。這是因為它們涉及的基因眾多,而一個基因怎樣影響另一個基因的表達,即基因間的相互作用還不清楚,眾多環境因素所起的作用也難以確定。結果是多數致病等位基因的外顯率低,只有少數等位基因的攜帶者才有明顯的表型或癥狀。這就使傳統的家系連鎖分析方法無能為力。近些年在復雜疾病基因定位方面比較成功的例子,如乳腺癌、遺傳性非息肉性結腸癌和Ⅱ型糖尿病的某些亞型,都屬涉及的基因相對不多和致病基因外顯率高的腫瘤或疾病。然而,如果有基于SNPs的高分辨率的基因圖作為全基因組連鎖分析或關聯分析的基礎,則可能同時篩查到復雜疾病或性狀的眾多相關基因。許多作者都希望SNP的大量發現和第3代的基因圖的制成與應用能給復雜疾病的基因定位帶來重大突破。最近有作者聲稱已通過SNP關聯分析發現了兩個前列腺癌相關基因[6]。又有作者以SNP為標記,用半參數法作連鎖/連鎖不平衡綜合分析和模擬基因組掃描試驗以定位復雜性狀的基因,并表明綜合分析可以獲得比單純連鎖分析或單純連鎖不平衡分析更好的結果[7]。
3.4法醫學應用SNP作為最多的一類遺傳標記可以用于基因分型,從而在個人識別、親權鑒定中發揮作用。已有作者采用寡核苷酸連接分析(PCR-OLA)測定含有20個常見SNP的PCR擴增片段作基因分型。這種分型可以采用比色分光光度方法,并自動化地完成,因而能在較大群體中進行[8]。
3.5疾病發病的分子遺傳機理的闡明遺傳病研究中已經積累了大量堿基置換引起基因功能或表型異常的病例。近年來還建立了p53、HPRT、PAH等基因的突變數據庫[9,10]。如果能系統地鑒定和記錄基因的cSNP和基因調控區的SNP,那么通過病例-對照的突變分析,就有可能闡明這類SNP與異常表型之間的關系,從而對疾病遺傳機理的闡明作出重要貢獻。另一個誘人的前景是,由于DNA芯片及其它技術的發展,已存在大規模自動化檢測SNP的可能。未來有可能檢測許多個體的所有的多態位點,包括一切有功能意義的多態位點,這種全基因組多態性掃描或基因型分析如果能在大群體、或至少在許多個體中進行,那么通過表型與全基因組SNP圖譜的相關研究,理論上可將人類的任何表型、功能、對任何疾病的易感性加以定位。
除此以外,利用微陣列技術將來還可以同時檢測某一疾病時所有相關基因的表達。在未來,一張個體的基因組結構圖譜(SNP圖譜)和一張個體的基因組表達圖譜將能全面地描繪出個體的遺傳物質及其功能狀態,而歸納眾多個體的這種結構和功能圖譜將把疾病的發病機理研究推向一個嶄新的水平。大群體中的全基因組多態位點檢查由于工作量巨大,目前還難以想象,但在特定患病人群或對照人群中測定某些相關基因或候選基因的SNP,以闡明疾病發生的遺傳基礎則已有可能。
3.6環境因子易感基因的檢出[11]在疾病發生的過程中,個體或群體對環境致病因子的易感性起著重要作用。這種易感性的遺傳基礎是基因組的結構差異或/和表達差異。SNPs有助于闡明這些差異。絕大多數SNPs本身雖不是易感性的原因,但在全基因組范圍內比較易感和非易感人群之間的SNP圖譜,則可顯示易感人群基因組的結構特點,并通過關聯分析或連鎖不平衡分析指導尋找易感基因。當然,個體或群體的易感性并不完全由其基因型決定。在環境致病因子作用下的基因表達往往起著更重要的作用。因為即使基因型一致,基因表達還會受到甲基化、體細胞突變、X染色體的隨機失活等影響。隨著DNA微陣列芯片在基因表達研究中的應用,如果能夠確定易感基因的關鍵組織或細胞,那么理論上只需有限的個體或標本就可確定環境因子對基因組表達的影響并找出易感基因。
3.7指導用藥和藥物設計同一藥物在不同個體產生的效果不是完全相同的。這種不同是由于藥物本身在不同個體體內活化、代謝、清除方面的差異所決定的,而這種差異首先是遺傳差異。基因組的多態性,尤其是SNP多態性能充分地反映個體間的遺傳差異。通過研究遺傳多態性與個體對藥物敏感性或耐受性的相關性,可以闡明遺傳因素對藥物效用的影響,從而對醫生針對性的用藥和藥物的開發提供指導和依據。單個基因對藥物作用的影響已有不少研究。例如,已知一些參與藥物代謝的酶的基因和受體基因可以改變藥物在體內的代謝和個體對藥物的敏感性。
但對于常見的復雜疾病來說,了解單個基因對藥物作用的影響是遠遠不夠的,因為這些疾病的發病有眾多基因和環境因素的參與,而單個基因或因素的貢獻甚微,并認為一般不會超過5%。因此,有必要在整體水平上全面認識多個基因的作用,而這只有基因組水平上才有可能做到。SNP以其數量眾多和易于批量檢測,正好為此提供了條件。目前,正在興起的藥物基因組學(pharmacogenomics)研究遺傳因素對藥物作用的影響和不同基因型個體對藥物反應的差異[12],從而為臨床有針對性地合理用藥和根據不同基因型群體對藥物的反應來改進藥物設計提供了理論依據。這是當前制藥行業對SNPs制圖和發展大量檢出SNPs方法表現出空前興趣的原因。可以理解,藥物基因組學首先選擇研究的對象將是與藥物活化、代謝或靶分子有關的基因及其多態性,以便用最少的投入發展對不同人群或個體更加安全有效的藥物和診斷試劑。
4SNP的識別和檢出
作為DNA序列中單個堿基的置換,理論上任何用于檢測單堿基突變或多態的技術都可用于SNPs的識別或檢出,例如,RFLP、等位基因特異的寡苷酸雜交、寡核苷酸連接分析(OLA)、等位基因特異的PCR(ARMS)、DNA測序等都可分別用于已知或未知的SNPs的檢測。這些方法大多需要電泳和熒光標記。當前在人類基因組中搜尋SNPs最普遍采用的策略是將已定位的序列標記點(sequencetaggedsites,STS)和表達序列標記(expressedsequencetags,ESTs)進行再測序。從事SNPs識別和制圖的有美國麻省理工學院(MIT)的Whitehead基因組研究所、華盛頓大學、芝加哥大學、斯坦福大學以及Genset、Diadexus等一些大學和公司的實驗室。
但無論為了大量發現新的SNPs,還是用已知SNPs作群體基因型分析,都需要同時檢測大量的位點,而上述基于電泳和需標記DNA的方法則因其樣本處理費時費力而效率有待提高。為此,近年來已發展了一些批量地、自動化地識別或檢出SNPs的方法。如DNA微陣列分析法[13,14],即在一塊小硅片上進行微陣列分析,讓目標DNA與密集的多重寡核苷酸陣列進行雜交以檢出SNPs的有效方法。實現這種分析的關鍵是能在芯片上高密度地原位合成大量不同的寡核苷酸探針,以及實現雜交后的熒光檢測和計算機分析。而采用綜合探針矩陣(probematrix)合成技術通過多輪的合成反應可以生成大量隨機的多態DNA分子,即寡核苷酸探針,后者的數目隨合成反應的次數呈指數增加。
微陣列DNA芯片在理論上可以提供足以檢出任何SNP的探針,并通過雜交檢出基因組中的cSNP或SNPs。目前采用DNA芯片法已從1139個STSs(其總長為279kb)中發現了279個SNPs,平均每1001bp中有1個SNP[15]。在1998年的冷泉港會議上,一些公司已聲稱發展了同時可檢查10000個位點的芯片,并希望開發出一次評價全基因組的芯片[16]。此外,采用特殊的質譜法[17-19]和高效液相層析法也可以大規模和快速檢出SNP或進行SNP的初篩。一些公司和實驗室正努力發展一些大規模SNPs檢測技術,以期研制成檢測全基因組SNPs的芯片。已經推出一些檢測諸如p53抑癌基因、艾滋病毒、乳腺癌、囊性纖維病基因已知SNPs的芯片或診斷試劑盒。但批量地、廉價地識別和檢出SNPs的技術還不能認為已經成熟和處于臨床普遍推廣的階段。
就整體而言,當前SNPs的研究還處于發展階段,用芯片微陣列雜交鑒定的SNPs也僅2000個[15]。傳統的基于電泳檢出SNPs的方法費時費力,且不都適用于識別未知的SNPs,而芯片微列陣技術還有待進一步改進并使價格能為一般實驗室或醫院所承受。在應用SNPs作尋找致病等位基因的一些實驗中還發現了一些問題[20],如減數分裂時的基因重組給SNPs的定位增加了困難,并影響到關聯分析。另一些作者認為只憑SNPs恐難以確定致病的突變等。盡管如此,由于SNPs對于基因組學的意義及其在醫學生物學各領域中的應用前景,它已成為實驗室和公司爭奪的對象(所謂SNPs大戰)和人類基因組計劃與癌瘤基因組解剖計劃(CGAP)中的一個重要補充和研究熱點。SNPs的研究已受到廣泛的重視和強有力的支持[21],在美國國立生物技術信息中心(NCBI)也已建立了SNPs的公用數據庫及SNPs的報告登記制度。我國的基因組計劃已注意到這一點,并根據我國的實際情況,考慮加速發展SNPs研究及其應用的策略和重點。