新聞資訊

SOLiD測(cè)序儀的關(guān)鍵技術(shù)及應(yīng)用

目前市場(chǎng)上有四種高通量測(cè)序儀,分別是Solexa,454 (GS-FLX),SOLiD和Polonator。根據(jù)測(cè)序原理,它們可以被分為兩大類:使用合成法測(cè)序(Sequencing by Synthesis)的Solexa和454,及使用連接法測(cè)序(Sequencing by Ligation)的Polonator和SOLiD。這些高通量測(cè)序儀的共同點(diǎn)是不需要大腸桿菌系統(tǒng)進(jìn)行DNA模板擴(kuò)增,且測(cè)序所得序列較短:其中的454序列長(zhǎng),為200~300個(gè)堿基,其余三種序列都只有幾十個(gè)堿基。測(cè)序原理及序列長(zhǎng)度的差異決定了各種高通量測(cè)序儀具有不同的應(yīng)用領(lǐng)域。這就要求我們?cè)谑煜じ鞣N高通量測(cè)序儀內(nèi)在技術(shù)特點(diǎn)的基礎(chǔ)上進(jìn)行選擇。

基因組所引進(jìn)的SOLiD (Sequencing by oligonucleotide Ligation and Detection)是ABI(Applied Biosystems)公司生產(chǎn)的高通量測(cè)序儀。目前這臺(tái)SOLiD運(yùn)行穩(wěn)定,SOLiD實(shí)驗(yàn)及數(shù)據(jù)分析小組也可以為大家提供專業(yè)的技術(shù)服務(wù)。所以接下來(lái)的關(guān)鍵是如何把SOLiD測(cè)序儀應(yīng)用到符合其技術(shù)特點(diǎn)的科研項(xiàng)目中。本短文將簡(jiǎn)單介紹SOLiD測(cè)序流程,雙堿基編碼原理及數(shù)據(jù)分析原理,以幫助大家了解SOLiD測(cè)序儀的技術(shù)特點(diǎn)和應(yīng)用范圍。

1.SOLiD關(guān)鍵技術(shù)及其原理

SOLiD使用連接法測(cè)序獲得基于“雙堿基編碼原理”的SOLiD顏色編碼序列,隨后的數(shù)據(jù)分析比較原始顏色序列與轉(zhuǎn)換成顏色編碼的reference序列,把SOLiD顏色序列定位到reference上,同時(shí)校正測(cè)序錯(cuò)誤,并可結(jié)合原始顏色序列的質(zhì)量信息發(fā)現(xiàn)潛在snp位點(diǎn)。

1.1. SOLiD文庫(kù)構(gòu)建

使用SOLiD測(cè)序時(shí),可根據(jù)實(shí)際需要,制備片段文庫(kù)(fragment library)或末端配對(duì)文庫(kù)(mate-paired library)。簡(jiǎn)單地說(shuō),制備片段文庫(kù)就是在短dn**段(60~110 bp)兩端加上SOLiD接頭(P1、P2 adapter)。而制備末端配對(duì)文庫(kù),先通過(guò)DNA環(huán)化、Ecop15I酶切等步驟截取長(zhǎng)DNA片段(600bp到10kb)兩末端各25 bp進(jìn)行連接,然后在該連接產(chǎn)物兩端加上SOLiD接頭。兩種文庫(kù)的終產(chǎn)物都是兩端分別帶有P1、P2 adapter的DNA雙鏈,插入片段及測(cè)序接頭總長(zhǎng)為120~180 bp。

1.2:油包水PCR

我們知道,文庫(kù)制備得到大量末端帶P1、P2 adapter但內(nèi)部插入序列不同的DNA雙鏈模板。和普通PCR一樣,油包水PCR也是在水溶液進(jìn)行反應(yīng),該水相含PCR所需試劑,DNA模板及可分別與P1、P2 adapter結(jié)合的P1、P2 PCR引物。但與普通PCR不同的是,P1引物固定在P1磁珠球形表面 (SOLiD將這種表面固定著大量P1引物的磁珠稱為P1磁珠)。PCR反應(yīng)過(guò)程中磁珠表面的P1引物可以和變性模板的P1 adapter負(fù)鏈結(jié)合,引導(dǎo)模板合成,這樣一來(lái),P1引物引導(dǎo)合成的DNA鏈也就被固定到P1磁珠表面了。

油包水PCR大的特點(diǎn)是可以形成數(shù)目龐大的獨(dú)立反應(yīng)空間以進(jìn)行DNA擴(kuò)增。其關(guān)鍵技術(shù)是“注水到油”,基本過(guò)程是在pcr反應(yīng)前,將包含PCR所有反應(yīng)成分的水溶液注入到高速旋轉(zhuǎn)的礦物油表面,水溶液瞬間形成無(wú)數(shù)個(gè)被礦物油包裹的小水滴。這些小水滴就構(gòu)成了獨(dú)立的PCR反應(yīng)空間。理想狀態(tài)下,每個(gè)小水滴只含一個(gè)DNA模板和一個(gè)P1磁珠,由于水相中的P2引物和磁珠表面的P1引物所介導(dǎo)的PCR反應(yīng),這個(gè)DNA模板的拷貝數(shù)量呈指數(shù)級(jí)增加,PCR反應(yīng)結(jié)束后,P1磁珠表面就固定有拷貝數(shù)目巨大的同來(lái)源DNA模板擴(kuò)增產(chǎn)物。ABI公司提供的SOLiD實(shí)驗(yàn)手冊(cè)已經(jīng)把小水滴體積及水相中DNA模板和磁珠的個(gè)數(shù)比等重要參數(shù)進(jìn)行了技術(shù)優(yōu)化和流程固定,盡可能提高“上等小水滴”(水滴中只含一個(gè)DNA模板一個(gè)P1磁珠)的數(shù)量,為后續(xù)SOLiD測(cè)序提供只含有一種DNA模板擴(kuò)增產(chǎn)物的高質(zhì)量P1磁珠。

1.3.含DNA模板P1磁珠的固定

SOLiD測(cè)序反應(yīng)在SOLiD玻片表面進(jìn)行。含有DNA模板的P1磁珠共價(jià)結(jié)合在SOLiD玻片表面。磁珠是SOLiD測(cè)序的小單元。每個(gè)磁珠SOLiD測(cè)序后形成一條序列(具體SOLiD測(cè)序過(guò)程請(qǐng)見圖5)。

1.4. SOLiD雙堿基編碼原理及測(cè)序流程

SOLiD“雙堿基編碼原理”實(shí)質(zhì)上是闡明了熒光探針的顏色類型與探針編碼區(qū)堿基對(duì)的對(duì)應(yīng)關(guān)系。SOLiD連接反應(yīng)的底物是8堿基單鏈熒光探針混合物。連接反應(yīng)中,這些探針按照堿基互補(bǔ)規(guī)則與單鏈DNA模板鏈配對(duì)。如圖1“底物探針”所示,探針5’末端可分別標(biāo)記“CY5,Texas Red,CY3,6-FAMTM”4種顏色的熒光染料,并且這四種顏色用數(shù)字“3,2,1,0”示意;探針3’端1~5位為隨機(jī)堿基,可以是“A,T,C,G”四種堿基中的任何一種堿基,其中第1、2位構(gòu)成的堿基對(duì)是表征探針染料類型的編碼區(qū),“雙堿基編碼矩陣”規(guī)定了該編碼區(qū)16種堿基對(duì)和4種探針顏色的對(duì)應(yīng)關(guān)系,而3~5位的“n”表示隨機(jī)堿基,6~8位的“z”指的是可以和任何堿基配對(duì)的特殊堿基,由上可知,SOLiD連接反應(yīng)底物**有45 種底物探針。

單向SOLiD測(cè)序包括五輪測(cè)序反應(yīng)。每輪測(cè)序反應(yīng)含有多次連接反應(yīng)(一般情況下,片段文庫(kù)是7次,mate-paired文庫(kù)是5次,所以片段文庫(kù)共有35個(gè)連接反應(yīng),而末端配對(duì)文庫(kù)共有25次連接反應(yīng))。每輪測(cè)序反應(yīng)的**次連接反應(yīng)由與P1引物區(qū)域互補(bǔ)的“連接引物”介導(dǎo)。這五種連接引物長(zhǎng)度相同,但在P1引物區(qū)域的位置相差一個(gè)堿基(分別用n,n-1,n-2,n-3,n-4表示),都含有5’端磷酸,所以可以介導(dǎo)連接反應(yīng)的進(jìn)行。現(xiàn)以圖5所示一個(gè)磁珠上發(fā)生的SOLiD測(cè)序反應(yīng)為例進(jìn)行說(shuō)明。**輪測(cè)序的**次連接反應(yīng)由連接引物“n”介導(dǎo),由于每個(gè)磁珠只含有均質(zhì)單鏈DNA模板(也就是每個(gè)磁珠表面的單鏈DNA模板序列都是一樣的),所以這次連接反應(yīng)摻入一種8堿基熒光探針,SOLiD測(cè)序儀記錄反應(yīng)模板序列第1、2位堿基序列的探針第1、2位編碼區(qū)顏色信息,隨后的化學(xué)處理斷裂探針3’端第5、6位堿基間的化學(xué)鍵,并除去6~8位堿基及5’末端熒光基團(tuán),暴露探針第5位堿基5’磷酸,為下一次連接反應(yīng)作準(zhǔn)備。由此我們知道**次連接反應(yīng)使合成鏈多了5個(gè)堿基,所以**次連接反應(yīng)得到反應(yīng)模板序列第6、7位堿基序列的顏色信息,而第三次連接反應(yīng)得到的是第11、12位堿基序列的顏色信息… … 以此類推,**輪測(cè)序反應(yīng)獲取了模板鏈7個(gè)堿基對(duì)的顏色信息。如圖5所示,由于**輪連接引物n-1比**輪錯(cuò)開一位,所以**輪得到是以0,1位起始的7個(gè)堿基對(duì)的顏色信息。五輪測(cè)序反應(yīng)反應(yīng)后,按照第0、1位,第1、2位... …的順序把對(duì)應(yīng)于模板序列的顏色信息連起來(lái),就得到由“0,1,2,3”組成的SOLiD原始顏色序列。

1.5. 數(shù)據(jù)分析原理

SOLiD測(cè)序完成后,獲得了由顏色編碼組成的SOLiD原始序列(圖6.a)。理論上來(lái)說(shuō),按照“雙堿基編碼矩陣”(圖4),只要知道所測(cè)DNA序列中任何一個(gè)位置的堿基類型,就可以將SOLiD原始顏色序列“解碼”成堿基序列。但由于雙堿基編碼規(guī)則中雙堿基與顏色信息的兼并特性(一種顏色對(duì)應(yīng)4種堿基對(duì)),前面堿基的顏色編碼直接影響緊跟其后堿基的解碼,所以一個(gè)錯(cuò)誤顏色編碼就會(huì)引起“連鎖解碼錯(cuò)誤”,改變錯(cuò)誤顏色編碼之后的所有堿基(圖6.1)。

和所有其它測(cè)序儀一樣,測(cè)序錯(cuò)誤在所難免,關(guān)鍵是對(duì)測(cè)序錯(cuò)誤的評(píng)價(jià)和后續(xù)處理。為避免“連鎖解碼錯(cuò)誤”的發(fā)生,SOLiD數(shù)據(jù)分析軟件不直接將SOLiD原始顏色序列解碼成堿基序列,而是依靠reference序列進(jìn)行后續(xù)數(shù)據(jù)分析。SOLiD序列分析軟件首先根據(jù)“雙堿基編碼矩陣”把reference堿基序列轉(zhuǎn)換成顏色編碼序列,然后與SOLiD原始顏色序列進(jìn)行比較,來(lái)獲得SOLiD原始顏色序列在reference的位置,及兩者的匹配性信息。Reference轉(zhuǎn)換而成的顏色編碼序列和SOLiD原始序列的不完全匹配主要有兩種情況:“單顏色不匹配”和“兩連續(xù)顏色不匹配”(圖6)。由于每個(gè)堿基都被獨(dú)立地檢測(cè)兩次(圖5),且SNP位點(diǎn)將改變連續(xù)的兩個(gè)顏色編碼(圖6.2),所以一般情況下SOLiD將單顏色不匹配處理成測(cè)序錯(cuò)誤,這樣一來(lái),SOLiD分析軟件就完成了該測(cè)序錯(cuò)誤的自動(dòng)校正;而連續(xù)兩顏色不匹配也可能是連續(xù)的兩次測(cè)序錯(cuò)誤,SOLiD分析軟件將綜合考慮該位置顏色序列的一致性及質(zhì)量值來(lái)判斷該位點(diǎn)是否為SNP。

2.SOLiD測(cè)序技術(shù)的應(yīng)用

2.1. 基因組測(cè)序

全基因組重測(cè)序。研究者可以基因組DNA為初始樣本構(gòu)建SOLiD文庫(kù)(fragment文庫(kù)及mate-paired文庫(kù)),以恰當(dāng)?shù)娜蚪M序列為reference,可以快速鑒定SNP,indel及基因組結(jié)構(gòu)變化。

特定基因組區(qū)域測(cè)序。除應(yīng)用于傳統(tǒng)的ChIP-seq,SOLiD技術(shù)平臺(tái)還可以結(jié)合芯片技術(shù),富集特定基因組序列進(jìn)行深度測(cè)序,快速鑒定SNP。其關(guān)鍵技術(shù)流程如下:SOLiD fragment文庫(kù)經(jīng)適當(dāng)循環(huán)數(shù)PCR擴(kuò)增得到足量樣品DNA(約30ug), 文庫(kù)擴(kuò)增產(chǎn)物與Agilent芯片(或其它自訂制芯片)雜交,然后對(duì)芯片探針緊密結(jié)合的洗脫產(chǎn)物進(jìn)行常規(guī)Emulsion PCR及SOLiD測(cè)序。SOLiD結(jié)合芯片技術(shù)對(duì)基因組特定區(qū)域的進(jìn)行深度測(cè)序,可發(fā)現(xiàn)低頻率SNP(如腫瘤樣本中特定基因的體細(xì)胞突變)。

2.2. RNA-seq

高通量測(cè)序儀的問(wèn)世,使得測(cè)序成本大大降低,提供了不依賴現(xiàn)有基因模型的大規(guī)模基因表達(dá)譜研究手段,促進(jìn)了針對(duì)細(xì)胞全部轉(zhuǎn)錄產(chǎn)物(small RNA 等non-coding RNA,低拷貝protein-coding RNA及其可變剪接體)的深度挖掘及后續(xù)功能研究。

目前有兩種SOLiD試劑盒促進(jìn)SOLiD測(cè)序儀在轉(zhuǎn)錄組上的應(yīng)用。SOLiD small RNA 試劑盒以含5’段磷酸及3’段羥基的small RNA為初始樣本,2天就可完成與SOLiD RNA特異adapter連接,逆轉(zhuǎn)錄,PCR擴(kuò)增等步驟, 得到SOLiD fragment 文庫(kù)。SOLiD whole transcriptome expression試劑盒針對(duì)序列較長(zhǎng)的non-coding RNA或mRNA。該試劑盒使用RNA H將mRNA或去除rRNA的總RNA片段化并回收酶切產(chǎn)物,其后實(shí)驗(yàn)流程和SOLiD small RNA完全相同。這兩種試劑盒以RNA為初始樣本,并且所用的RNA 特異adapter方向確定,所以后測(cè)序所得序列的方向也就確定了。而傳統(tǒng)方法大多以雙鏈cDNA為初始樣本,難以確定測(cè)序所得序列來(lái)自轉(zhuǎn)錄本的正義鏈還是反義鏈而干擾后續(xù)數(shù)據(jù)分析。同時(shí),SOLiD強(qiáng)大的測(cè)序能力,使得高通量發(fā)掘低拷貝轉(zhuǎn)錄本成為可能。

3. 基因組所SOLiD測(cè)序儀運(yùn)行情況

目前,ABI公司針對(duì)我所SOLiD實(shí)驗(yàn)小組的技術(shù)培訓(xùn)基本結(jié)束。SOLiD實(shí)驗(yàn)小組已經(jīng)具備獨(dú)立構(gòu)建基因組片段文庫(kù)和末端配對(duì)文庫(kù)的能力,所構(gòu)建文庫(kù)各項(xiàng)質(zhì)量指標(biāo)基本符合要求。作為ABI**客戶,我們獲得了SOLiD small RNA 和SOLiD whole transcriptome expression試劑盒各一個(gè)。相關(guān)轉(zhuǎn)錄組學(xué)實(shí)驗(yàn)正在進(jìn)行中。

4.小結(jié)

現(xiàn)在看來(lái),SOLiD技術(shù)可對(duì)具有reference基因組序列的物種進(jìn)行重測(cè)序,鑒定SNP,indel及基因組結(jié)構(gòu)變化;對(duì)含有全基因組序列且轉(zhuǎn)錄本注釋較好的物種開展轉(zhuǎn)錄組學(xué)研究,解析細(xì)胞轉(zhuǎn)錄產(chǎn)物的數(shù)量變化及其結(jié)構(gòu)信息。但SOLiD測(cè)序所得序列的長(zhǎng)度只有幾十個(gè)堿基,數(shù)據(jù)分析過(guò)程依賴reference序列,目前尚沒有基于SOLiD原始顏色序列的從頭拼接(de novo assembly)軟件,這些不足之處大大限制了SOLiD技術(shù)在新物種測(cè)序領(lǐng)域的應(yīng)用。SOLiD測(cè)序儀內(nèi)在技術(shù)特點(diǎn)決定其并不適合每個(gè)測(cè)序項(xiàng)目。我們要根據(jù)課題實(shí)際情況(物種基因組研究現(xiàn)狀和測(cè)序通量要求等)理性判斷。

目前市場(chǎng)上有四種高通量測(cè)序儀,分別是Solexa,454 (GS-FLX),SOLiD和Polonator。根據(jù)測(cè)序原理,它們可以被分為兩大類:使用合成法測(cè)序(Sequencing by Synthesis)的Solexa和454,及使用連接法測(cè)序(Sequencing by Ligation)的Polonator和SOLiD。這些高通量測(cè)序儀的共同點(diǎn)是不需要大腸桿菌系統(tǒng)進(jìn)行DNA模板擴(kuò)增,且測(cè)序所得序列較短:其中的454序列長(zhǎng),為200~300個(gè)堿基,其余三種序列都只有幾十個(gè)堿基。測(cè)序原理及序列長(zhǎng)度的差異決定了各種高通量測(cè)序儀具有不同的應(yīng)用領(lǐng)域。這就要求我們?cè)谑煜じ鞣N高通量測(cè)序儀內(nèi)在技術(shù)特點(diǎn)的基礎(chǔ)上進(jìn)行選擇。

滬公網(wǎng)安備 31011002002624號(hào)