新聞資訊

國內外牛人評說新一代測序技術

論測序,華大基因算是國內至Top的研究院,裝備精良,人才濟濟。2008年底,頭個亞洲人基因組出爐。這一研究成果公布在權威期刊《Nature》雜志上,文章的通訊作者和**作者正是來自深圳華大基因研究院的王俊博士。在這篇文章中,研究人員利用新一代測序儀Illumina Genome Analyzer完成了人基因組的測序,測序量達到36倍覆蓋率,并且研究人員還比對了NCBI人類相關基因組,短讀取序列達到99.97%覆蓋率。

記者:**個黃種人基因組圖譜的公布是我們的驕傲,相比較于水稻、家蠶、家雞、家豬等動植物基因組圖譜,這個基因組圖譜的完成是否更困難一些?還是更容易一些,在這個基因組測定過程中是否遇到了一些技術困難?具體有哪些?

王俊博士:相較于水稻、家蠶、家雞、家豬等動植物基因組圖譜而言,**個黃種人基因組圖譜的總體工作相對更加困難一些。我們在測定**個黃種人的時候采用了新一代測序儀 Illumina Genome Analyzer,雖然測序價格更便宜,測序速度更快,卻給數(shù)據(jù)的存儲、處理、分析、展示帶來了巨大的挑戰(zhàn),尤其是面臨了現(xiàn)有的生物分析軟件無法解決的問題,例如測序數(shù)據(jù)量較大增長了序列比對的時間,測序序列平均讀長較短導致序列很難**定位,而針對這些困難我們獨立自主研發(fā)的軟件(SOAP、SOAPsnp)是我們完成這個項目時值得驕傲的地方之一。

記者:在基因組測定過程中主要采用的技術點有哪些?您認為關鍵的一項技術是什么?

王俊博士:在基因組測定過程中主要的技術點是基因組測序和生物信息分析。我認為關鍵的技術是生物信息分析,因為隨著新一代測序技術的廣泛使用,測序的成本大大降低,測序速度有所提高,而測序過程也變得相對簡單容易,但是測序產生的大量數(shù)據(jù)卻給后期的生物信息分析帶來了巨大的壓力,因此我認為生物信息分析是在基因組測定過程中關鍵的一項技術。

世界**研究院Wellcome Trust Sanger研究院至少擁有37臺Illumina的Genome Analyzer,5臺ABI SOLiD和2臺454 GS FLX。但是他們也沒有完全拋棄毛細管方法,目前仍有50臺ABI 3730,用于斑馬魚和豬的基因組計劃。光是看這個數(shù)據(jù),就已經讓人咂舌了。當然,從下面的訪談中你也可以看出,**的基因組中心和一般的實驗室還真是不一樣,他們資金雄厚,站得高,看得遠。因此他們的選購標準不適合普通實驗室,僅作了解。

Q:你們選擇新平臺的標準是什么?

A:我們一定要站在前沿,無論代價是什么,我們都會做。我們經常測試新儀器和現(xiàn)有儀器的新版本。我們要看到這項技術確實能產生合理量的準確序列,才會進行購買。但同時,我們還有開發(fā)資源的任務,因此我們對檢驗新技術很有興趣,并且我們還能驗證現(xiàn)有技術,它們對于其他實驗室或許還不夠成熟。因為我們希望站在測序的前沿,我們就要比小實驗室跑得更快,它們的經費可能只夠買一臺儀器。同時,我們有義務與他人分享我們的經驗。

Q:你們有著何種數(shù)據(jù)儲存與分析硬件來支持測序儀?

A:我們的計算機設備特地為支持新一代測序而剛剛更新過。我們有320 TB的文件服務器來短期存儲圖像和序列。整套設備能支持大約30臺Illumina的測序儀。當然,我們還會擴充的。

Q:你們會長久儲存測序儀所獲得的數(shù)據(jù)嗎?

A:就目前來說,是足夠的,因此你不必在每次開始新一輪測序之前刪除以前的。我們有足夠的容量來儲存。但一個月之后的情況呢,我不敢說。

Q:能談談Sanger研究院的新一代測序平臺所參與的計劃嗎?

A:我們正利用Illumina參加Mike Stratton的癌癥基因組計劃以及大猩猩測序計劃。Julian Parkhill正用它進行高通量的病原體研究。例如,在高度可變的**群體中,任一群體都有很多突變,你很難知道哪個是真正致病的,但是如果你通覽大量的群體,你就能得到其他方法無法獲得的大量信息。我們主要利用454的儀器進行病原體測序。

Q:在使用這些新平臺時,你們遇到的技術及數(shù)據(jù)處理上的大挑戰(zhàn)是什么?

A:我想對于用慣了ABI毛細管測序儀的人們來說,這些新儀器并不是開箱即用的。你不能只是插上插頭,然后就等著在電腦上分析數(shù)據(jù)。它還需要進行許多開發(fā)和支持,這是技術上的挑戰(zhàn)。就數(shù)據(jù)方面而言,近很多人在討論儲存及計算需求。每個人都想儲存圖像,讓問題更加惡化。但是我認為這個問題不難解決,你可以投更多的錢去買更多的硬件。當然這對小型實驗室來說比較困難。

大的挑戰(zhàn)是去了解如何以優(yōu)的方式提取和分析數(shù)據(jù),因為這些數(shù)據(jù)我們并不熟悉。例如顏**分、堿基檢出、校準、數(shù)據(jù)的標準化這些問題。如果你能解決這些問題中的一部分,我們就能獲得更好的分析技術,也就能從相同的數(shù)據(jù)中獲得更多更高質量的堿基。

另外一個問題是儀器廠商的品質衡量與用戶不一致。人們不知道該使用哪個判斷閾值(cutoffs threshold)。我們該把判斷閾值設在哪里,才能得到好的數(shù)據(jù),但又不拋棄過多的數(shù)據(jù)?這個問題非常棘手。

David Duggan負責TGen的兩個基因分型中心。他們利用Affymetrix、Illumina、Sequenom和ABI的技術進行著多項基因分型研究。后來,他購買了一臺Illumina的Genome Analyzer,將高通量測序融入了實驗設計中。Duggan博士很詳細地談論了當時選購GA時的考慮因素,值得國內的實驗室借鑒。不過,那已是兩年前的事了,目前的選擇又多了很多,還需要大家重新評估。

Q:你為何決定購買Illumina的測序儀?

A:你別忘了,我們是在(2007年)3月做決定的。當時只有454和Illumina兩種選擇。我們也和ABI聯(lián)系過。Helicos也聯(lián)系了我們,談到HeliScope。但我們不想為SOLiD再等9個月,而HeliScope還需要1年多的時間。

我們也不是光從便利性考慮。我們很滿意Illumina系統(tǒng)的一些特征。比如說,能夠進行1 GB的基因組DNA測序;儀器上的運行時間在3天。HeliScope的預計運行時間要長得多。同時,Illumina的樣品量為0.1-1 mg,與我們的實驗設計相符。后,一個很大的因素就是運行費用。Illumina GA的運行費用在3000-4000美元,比較合理。就這樣的費用而言,除了NIH的撥款,我們還能從其他地方獲得基金。所以,購買GA并是出于某種考慮,而是上述種種因素的綜合。

Q:你能不能給我們例舉一下如何將高通量測序整合到研究中?

A:舉個例子,我們正在進行一個合作項目,利用tag-SNP方法來篩選52個候選基因。理想上我希望對部分群體中全部52個基因進行重測序,不僅鑒定出SNP變異體,還有插入和缺失多態(tài)性,然后再根據(jù)數(shù)據(jù)設計出實驗方法來對7200個樣品進行基因分型。它比單獨的SNP研究更**。

我們設想的另一個實驗設計是,目前,我們是分階段進行基因組范圍的研究。在每一個階段,我們將基因組區(qū)域逐漸縮小。一開始,我們研究4000個樣品的50萬個SNP。然后根據(jù)預算,鑒定前1000個或幾百個SNP,并在一個確認的群體中進行基因分型。之后在第三階段,我們挑出少數(shù)有意義的SNP,并開始重測序。

而有了新一代測序技術的高通量,我們不再限制在少數(shù)候選區(qū)域。我們能將管道擴寬一些,對幾十個候選基因區(qū)域進行重測序。比如之前的一項研究,他們鑒定出人類基因組上II型糖尿病的十個致病區(qū)域。每次測序一個?不,我想一次全部測序。新一代測序技術也賦予我們這個能力。它比Sanger測序更便宜,也更高效。

Skolnick博士是Myriad Genetics公司的CSO、技術奠基人。該公司的發(fā)展戰(zhàn)略是開發(fā)急需的醫(yī)療保健產品,主要涉及腫瘤、老年癡呆癥和抗病毒等幾個領域。他的研究小組克隆了乳腺癌、卵巢癌、前列腺癌、肥胖等**的易感基因。另外,他們還利用Sanger測序和454的Genome Sequencer對葡萄藤和蘋果的基因組進行了測序。在,很多測序工作也是圍繞植物展開,那么Skolnick博士的經驗可能會有一定的借鑒意義。

Q:你為什么選擇454技術來進行蘋果和葡萄藤項目?

A:當時我們受意大利一所研究院的委托,剛完成了葡萄的項目,并開發(fā)出一種高度自動化的引物步移平臺來填補缺口。那時454剛上市,我們就想454的4倍覆蓋度能夠很好地填補剩余的缺口。實際上,它完成地非常好,我們也就不需要再進行任何引物步移。對于葡萄和蘋果而言,測序都是復雜的項目,因為它們都是非近交的天然生物。復雜度在于你實際上要同時測兩個基因組,母本染色體和父本染色體。如果你發(fā)現(xiàn)序列差異,你還必須解釋到底是錯誤還是多態(tài)性。

Q:對于蘋果基因組項目,你使用了與葡萄不同的策略。你能談一談這些嗎?

A:在葡萄項目中,我們基本完成了拼接,打算開始引物步移時,才決定使用454。我們利用了7倍Sanger覆蓋度和4倍454覆蓋度。在蘋果項目中,我們只利用BAC和fosmid完成了4倍Sanger覆蓋度,然后,就加入了10倍454覆蓋度,其中大部分是平均500個堿基的長讀取。現(xiàn)在,我們的總覆蓋度是14倍,而不是11倍,因為有兩個染色體,父本和母本,那么每個多態(tài)性的平均覆蓋度為7倍,在確定兩個染色體的特定差異上,可靠性是進一步增強了。

Q:誰開發(fā)了這些項目的拼接軟件?

A:拼接軟件是由我們小組的Andrey Zharkikh開發(fā)的。拼接程序很獨特,因為它在拼接兩個不同的單倍體。它將顯示出序列相似性的重疊群(contig)放在一起,同時,它又試圖將它們分成A、B兩個染色體。因此,當它看到序列差異或缺失時,它必須詢問“這是我必須修正的錯誤嗎?還是我要試圖去理解的真正序列差異?”

有了這種雜合體的拼接策略,你能得到數(shù)百萬個遺傳標記物,非常棒。接著,你能使用它們中的1000或2000或3000的亞群,來進行互相定位。于是,你得到了海量的生物學信息。

Q:你計劃將拼接軟件與他人共享嗎?

A:當然愿意。不過,我們只能克隆Andrey的。它不是一個真正的程序或產品,它是一系列腳本和代碼片段。我們所能做的是將所有信息告訴454,讓他們在拼接程序中加入這段。將它變成產品需要巨量的工作。那真的超出了我們的范圍。

滬公網(wǎng)安備 31011002002624號