干貨分享 | SNP研究中,你一定遇到過(guò)這些問(wèn)題,附解答!
SNP作為第三代分子標(biāo)記,其應(yīng)用非常廣泛,在農(nóng)業(yè)領(lǐng)域中,可以進(jìn)行性狀基因的精細(xì)定位、分子輔助育種、種子資源鑒定等;在醫(yī)學(xué)領(lǐng)域中,可用于疾病的分子遺傳機(jī)制研究、疾病基因定位、藥物敏感或疾病易感性位點(diǎn)篩選等,生命科學(xué)研究的方方面面,都與之相關(guān)。
SNP的研究主要分為SNP的發(fā)現(xiàn)及SNP的基因分型。SNP的發(fā)現(xiàn)是應(yīng)用的基礎(chǔ),而SNP的基因分型是應(yīng)用的技術(shù)手段。新SNP通常是基于測(cè)序技術(shù),利用已有數(shù)據(jù)庫(kù),對(duì)多個(gè)樣本進(jìn)行重測(cè)序發(fā)現(xiàn)的,但需要進(jìn)行其他方法的驗(yàn)證;而已知SNP的基因分型可以通過(guò)芯片技術(shù)來(lái)篩選與表型相關(guān)的SNP,從中優(yōu)選出多態(tài)性高,均勻分布的少量SNP,這些少量的SNP可以在大量樣本中進(jìn)行檢測(cè),根據(jù)樣本情況、SNP數(shù)量、試驗(yàn)設(shè)計(jì)等選擇合適的方法學(xué)。前段時(shí)間,小編和大家一起了解了SNP分型檢測(cè)的幾種常用方法、原理以及在不同領(lǐng)域的應(yīng)用情況等,近期小編也收集到部分小伙伴關(guān)于SNP的問(wèn)題,整理如下,方便大家進(jìn)一步對(duì)一些細(xì)節(jié)性問(wèn)題進(jìn)行了解哦。
想了解SNP就得先了解什么是DNA的多態(tài)性。人與人之間絕大部分的DNA序列是一樣的,DNA的多態(tài)性是指正常人群中,DNA分子或基因的某些位點(diǎn)可以發(fā)生改變,使DNA的一級(jí)結(jié)構(gòu)各不相同,但并不影響基因的表達(dá),形成多態(tài);DNA的多態(tài)性可以看作是在分子水平上的個(gè)體區(qū)別的遺傳標(biāo)志。DNA多態(tài)性主要表現(xiàn)為反應(yīng)限制性酶切位點(diǎn)變化的限制性片段長(zhǎng)度多態(tài)性(RFLP)、反應(yīng)重復(fù)單位拷貝數(shù)差異的串聯(lián)重復(fù)序列多態(tài)性,以及反應(yīng)點(diǎn)突變的單核苷酸多態(tài)性(SNP)等。
為什么說(shuō)SNP是二等位基因系統(tǒng),而不像RFLP和SSR是多等位基因系統(tǒng)?單核苷酸多態(tài)性(Single Nucleotide Polymorphisms,SNP)主要是指在基因組水平上由單個(gè)核苷酸的變異所引起的DNA序列多態(tài)性,即在群體中,基因組內(nèi)特定核苷酸位置上存在兩種不同的核苷酸,并且其出現(xiàn)的頻率大于1%。SNP所表現(xiàn)的多態(tài)性只涉及到單個(gè)堿基的變異,這種變異可由單個(gè)堿基的轉(zhuǎn)換(transition嘧啶和嘧啶之間或者嘌呤和嘌呤之間的交換)或顛換(transversion嘧啶和嘌呤之間的交換)所引起,也可由堿基的插入或缺失所致。SNP 在CG 序列上出現(xiàn)較為頻繁,由于CG 中C 即胞嘧啶常被甲基化,自發(fā)脫氨后即變?yōu)樾叵汆奏,因此大多數(shù)情況下,都是發(fā)生的C→T的轉(zhuǎn)換,而變成A和G的概率很小,所以一般認(rèn)為SNP是二等位的,或者是二態(tài)性,即一個(gè)堿基只會(huì)突變?yōu)榱硪环N堿基,而不會(huì)同時(shí)突變?yōu)榱硗舛喾N堿基。由于SNP的二態(tài)性,非此即彼,在基因組篩選中SNPs只需要+/-的分析,而不用分析片段的長(zhǎng)度,也讓其應(yīng)用更為廣泛。
SNP是單堿基多態(tài)性,是一個(gè)群體概念,這個(gè)差異占群體的1%以上。若germline mutation頻率<1%,則認(rèn)為是一個(gè)點(diǎn)突變。SNP是各種生物都有的,通過(guò)同源基因比對(duì)獲得的,一般不會(huì)發(fā)生變化,而點(diǎn)突變只對(duì)單一基因而言,所以從數(shù)量上SNP比點(diǎn)突變多得多。如果突變發(fā)生在生殖細(xì)胞,則可以遺傳,但是只要這個(gè)突變?nèi)簺](méi)有達(dá)到總?cè)后w的1%,它就只有一個(gè)突變株/系,達(dá)到了1%就是多態(tài)性了。
SNV,即單核苷酸位點(diǎn)變異(single nucleotide variants),SNP,即單核苷酸多態(tài)性(single nucleotide polymorphism),這兩個(gè)概念都是指單核苷酸的改變,只不過(guò)SNP一般是二態(tài)的,而SNV沒(méi)有這樣的限制。另外,如果只是在病人體內(nèi)檢測(cè)到單個(gè)核苷酸的變異,而其在人群中出現(xiàn)的頻率未知,則可看作SNV。
分子標(biāo)記(Molecular Markers)是以個(gè)體間遺傳物質(zhì)即核苷酸序列變異為基礎(chǔ)的遺傳標(biāo)記,是DNA水平遺傳多態(tài)性的直接反映。根據(jù)分子標(biāo)記檢測(cè)的原理、技術(shù)手段以及通量效率,一般將分子標(biāo)記分為三大類,分別是基于分子雜交技術(shù)的第一代分子標(biāo)記、基于PCR技術(shù)的第二代分子標(biāo)記以及基于測(cè)序技術(shù)的第三代分子標(biāo)記。不同的分子標(biāo)記技術(shù)如圖1 所示。
最典型的代表類型如限制性片段長(zhǎng)度多態(tài)性(RFLP),是以Southern雜交為核心設(shè)計(jì)。限制性片段長(zhǎng)度多態(tài)性是指同種生物不同個(gè)體間DNA 序列產(chǎn)生差異,形成可被限制性內(nèi)切酶識(shí)別的序列進(jìn)而可被消化,被消化后的產(chǎn)物由于長(zhǎng)度不同可通過(guò)電泳進(jìn)行分型,RFLP操作簡(jiǎn)單、成本低廉,從而使RFLP被選為人類基因組計(jì)劃的第一代遺傳標(biāo)記,用于基因圖譜繪制、DNA指紋分析、疾病易感性分析、基因診斷、親權(quán)鑒定等。以PCR 為核心的分子標(biāo)記技術(shù)包括隨機(jī)擴(kuò)增多態(tài)性DNA(random amplified polymorphic DNAs,RAPD),擴(kuò)增片段長(zhǎng)度多態(tài)性(Amplified Fragment Length Polymorphism,AFLP)、簡(jiǎn)單序列重復(fù)標(biāo)記(SSR)等,也有學(xué)者僅將微衛(wèi)星作為第二代分子標(biāo)記代表,即短串聯(lián)重復(fù)序列(STR)或簡(jiǎn)單重復(fù)序列(SSR),一般由2-6個(gè)核苷酸組成,是廣泛分布在真核生物基因組中的簡(jiǎn)單重復(fù)序列。它具有多態(tài)性高、穩(wěn)定可靠等特點(diǎn),因此是一種十分理想的分子標(biāo)記,在遺傳圖譜構(gòu)建、數(shù)量性狀位點(diǎn)(QTL)定位、標(biāo)記輔助選擇、遺傳檢測(cè)等領(lǐng)域都有著重要的應(yīng)用價(jià)值。第三代分子標(biāo)記是基于核酸序列開(kāi)發(fā)隨著DNA測(cè)序技術(shù)的發(fā)展,以單核苷酸多態(tài)性(SNP)為代表的第三代分子標(biāo)記迅速發(fā)展成為主流,SNP在所有生物的基因組中含量豐富,突變率較低,且獲取的成本低,因此被廣泛用于遺傳多樣性、系統(tǒng)發(fā)育分析和遺傳和疾病相關(guān)基因的研究中。第1-3代分子標(biāo)記中幾種代表性的標(biāo)記類型的特點(diǎn)如表1所示。
表1.第1-3代標(biāo)記中幾種代表性的DNA分子標(biāo)記的特點(diǎn)
優(yōu)良的分子標(biāo)記需要具備哪些特點(diǎn)?理想的分子標(biāo)記必須滿足以下幾個(gè)要求:具有高的多態(tài)性,較高的多態(tài)水平和樣本量,有利于在試驗(yàn)中檢測(cè)出個(gè)體間的差異,差異性越大,越能體現(xiàn)出優(yōu)勢(shì)基因和優(yōu)勢(shì)基因型;
共顯性遺傳,即利用分子標(biāo)記可鑒別二倍體中雜合和純合基因型;
除特殊位點(diǎn)的標(biāo)記外,要求分子標(biāo)記均勻分布于整個(gè)基因組;
容易獲得且可快速分析,檢測(cè)手段便于實(shí)現(xiàn)自動(dòng)化;
開(kāi)發(fā)成本和使用成本盡量低廉;
在實(shí)驗(yàn)室內(nèi)和實(shí)驗(yàn)室間重復(fù)性好(便于數(shù)據(jù)交換)。
SNP在基因組內(nèi)的形式有哪些,都會(huì)對(duì)生物表型有影響嗎?在基因組DNA中,任何堿基均有可能發(fā)生變異,因此SNP既有可能在基因序列內(nèi),也有可能在基因以外的非編碼序列上??偟膩?lái)說(shuō),有三類:位于基因周邊的SNPs(pSNPs),位于基因間的SNPs(iSNPs),以及位于編碼區(qū)內(nèi)的SNP(codingSNP,cSNP)。
位于編碼區(qū)內(nèi)的SNP(cSNP)比較少,但由于它發(fā)生在編碼區(qū)內(nèi),在遺傳性疾病研究中具有重要意義,因此cSNP的研究更受關(guān)注。從對(duì)生物的遺傳性狀的影響上來(lái)看,cSNP又可分為2種:一種是同義cSNP(synonymous cSNP),即SNP所致的編碼序列的改變并不影響其所翻譯的蛋白質(zhì)的氨基酸序列,突變堿基與未突變堿基的含義相同;另一種是非同義cSNP(non-synonymous cSNP),指堿基序列的改變可使以其為藍(lán)本翻譯的蛋白質(zhì)序列發(fā)生改變,從而影響了蛋白質(zhì)的功能。這種改變常是導(dǎo)致生物性狀改變的直接原因。cSNP中約有一半為非同義cSNP。
位于非編碼區(qū)域的SNP又可細(xì)分為兩類,內(nèi)含子中SNP對(duì)個(gè)基因功能的影響相對(duì)較小,主要依靠影響剪切位點(diǎn)活性來(lái)影響翻譯,從而基因功能。而基因調(diào)控區(qū)域包含啟動(dòng)子區(qū)域、增強(qiáng)子區(qū)域等等,這些區(qū)域含有很多基因表達(dá)調(diào)控元件,這些位點(diǎn)的SNP發(fā)生變化,就會(huì)導(dǎo)致與調(diào)控因子的結(jié)合能力發(fā)生改變,從而影響正常的基因表達(dá)。
由美國(guó)國(guó)立生物技術(shù)信息中心(national center for biotechnology information,NCBI)建立、dbSNP 數(shù)據(jù)庫(kù)制定的 SNP 命名體系,rs 體系的 SNP 代表已獲得認(rèn)可和推薦的參考 SNP(reference SNP),ss 體系的 SNP 代表用戶新遞交但尚未得到認(rèn)可的 SNP(submitted SNP)。對(duì)于新發(fā)現(xiàn)的SNP位點(diǎn),需要判斷這些SNP位點(diǎn)是否已知。如果該SNP位點(diǎn)是前人報(bào)道,需要查找rs號(hào)和引用參考文獻(xiàn),如果為新發(fā)現(xiàn)的位點(diǎn)則需要將該位點(diǎn)遞交到NCBI上,獲得ss號(hào)。
SNPedia是一個(gè)SNP百科全書(shū)類網(wǎng)站,它引用已經(jīng)發(fā)布的文章或者數(shù)據(jù)庫(kù)信息,對(duì)SNP位點(diǎn)進(jìn)行描述,共享著人類基因組變異的信息。我們可以搜索某個(gè)SNP位點(diǎn)來(lái)尋找與之相關(guān)的信息,也可以根據(jù)相關(guān)疾病和癥狀來(lái)尋找相關(guān)的SNP(圖2)。圖2.SNPedia首頁(yè)
首先尋找研究相關(guān)的 SNP 位點(diǎn)- 如果是單基因遺傳,特別是罕見(jiàn)遺傳的疾病,可以通過(guò)外顯子測(cè)序?qū)σ粋€(gè)家系的幾個(gè)個(gè)體進(jìn)行測(cè)序,篩選低頻突變,隨后找到能改變蛋白功能的突變,最后做共分離分析。
- 如果是多基因病或者質(zhì)量性狀定位,那么2個(gè)方法,一是全基因組關(guān)聯(lián)分析GWAS,用散發(fā)型個(gè)體,進(jìn)行關(guān)聯(lián)分析,不過(guò)這種方法要的樣本量比較大,一般都要好幾百至好幾千個(gè)樣本。二是基因家系的連鎖分析,這個(gè)主要是定位,然后在后續(xù)做一些東西,一般用芯片或者全基因組重測(cè)序或者簡(jiǎn)化基因組測(cè)序。
- 通過(guò)參考資料鎖定研究相關(guān)的基因,通過(guò)數(shù)據(jù)庫(kù)查到基因內(nèi)部的 SNP 位點(diǎn)。
- 查找相關(guān)的參考文獻(xiàn),找到研究相關(guān)的 SNP 位點(diǎn)。
進(jìn)行SNP位點(diǎn)驗(yàn)證,采用對(duì)照組和實(shí)驗(yàn)組的大量樣本,驗(yàn)證目標(biāo)SNP位點(diǎn)SNaPshot 法:基于多重PCR和ABI 3730xl 測(cè)序平臺(tái)的 SNP 分型檢測(cè);
直接測(cè)序法:基于一代測(cè)序平臺(tái)的SNP分型檢測(cè);
質(zhì)譜法:基于Sequenom平臺(tái)的SNP分型檢測(cè);
Taqman探針?lè)ǎ?/span>基于熒光定量PCR儀平臺(tái)的SNP分型檢測(cè),等等。
根據(jù)已有的對(duì)照組和實(shí)驗(yàn)組的SNP分型結(jié)果與實(shí)驗(yàn)?zāi)康倪M(jìn)行關(guān)聯(lián)分析,如與疾病的關(guān)聯(lián)分析、遺傳連鎖分析、品種鑒定等ARMS PCR是基于Taq DNA聚合酶無(wú)法修復(fù)引物3’末端的單個(gè)堿基錯(cuò)配,從而使得擴(kuò)增受阻的檢測(cè)方法。該方法理論上單個(gè)堿基的錯(cuò)配即可阻礙PCR的擴(kuò)增,但在實(shí)際檢測(cè)時(shí),單個(gè)堿基的錯(cuò)配依然可以延伸擴(kuò)增,只是效率較低。為了提高其特異性,有時(shí)需在3’末端倒數(shù)第2位或第3位堿基處引入一個(gè)錯(cuò)配堿基,該錯(cuò)配堿基與3’末端的錯(cuò)配堿基共同作用,以降低非靶標(biāo)序列的擴(kuò)增效率。而如何設(shè)計(jì)錯(cuò)配堿基可參考如下標(biāo)準(zhǔn)(圖3):1)當(dāng)3’末端是“強(qiáng)”錯(cuò)配時(shí)(A/G或G/T)時(shí),可以在引物中引入一個(gè)“弱”錯(cuò)配(C/A或C/T);2)當(dāng)末端是“弱”錯(cuò)配時(shí),則需要在引物中引入一個(gè)“強(qiáng)”錯(cuò)配;3)當(dāng)末端是“中”錯(cuò)配時(shí)(A/A,C/C,G/G,T/T)時(shí),可以在引物中再引入一個(gè)“中”錯(cuò)配。一般在3’末端倒數(shù)第三個(gè)堿基引入突變,可顯著提高特異性。
雖然有以上強(qiáng)弱錯(cuò)配進(jìn)行搭配的參考原則,但在實(shí)際產(chǎn)品開(kāi)發(fā)過(guò)程中,小編還是建議把所有堿基錯(cuò)配類型全部嘗試一遍,如引入錯(cuò)配位置模板為C堿基,則可考慮設(shè)計(jì)A/C、T/C、C/C三種錯(cuò)配進(jìn)行篩選。此外理論上,3′端倒數(shù)第2或第3位錯(cuò)配篩選到合適引物的概率最高,但假如這兩個(gè)位置效果都不理想,可嘗試3′端倒數(shù)第4、5位,甚至是倒數(shù)第7位。如果從3′端倒數(shù)第2位至倒數(shù)第7位全部篩選,總共要篩選18條引物,引物的條數(shù)是比較多的,但是確實(shí)位置不同可能效果也不同,具體什么位置無(wú)法保證,只能靠驗(yàn)證結(jié)果來(lái)決定啦。
翌圣生物作為上游原料企業(yè),在分子酶領(lǐng)域深耕多年,目前已開(kāi)發(fā)了ARMS-PCR法及TaqMan探針?lè)ǖ腟NP分型檢測(cè)通用原料,已被下游廠家應(yīng)用于腫瘤伴隨診斷、藥物基因組學(xué)、遺傳病檢測(cè)、疾病易感性研究等多個(gè)領(lǐng)域。