據(jù)《細(xì)胞系統(tǒng)》雜志14日發(fā)表的一項研究,美國麻省理工學(xué)院(MIT)和法國巴斯德研究所的科學(xué)家開發(fā)出一種在個人計算機(jī)上重建包括人類基因組在內(nèi)的全基因組技術(shù)。這種技術(shù)比當(dāng)前最先進(jìn)的方法快大約一百倍,且僅使用目前五分之一的資源。這項研究以單詞而非字母為語言模型提供壓縮的構(gòu)建模塊,從而可以更緊湊地表示基因組數(shù)據(jù)。
“我們可以在一臺普通的筆記本電腦上快速組裝整個基因組和宏基因組,包括微生物基因組,”MIT計算機(jī)科學(xué)和人工智能實驗室教授波尼·博格說,“這種能力對于評估與疾病和細(xì)菌感染(例如敗血癥)相關(guān)的腸道微生物組變化至關(guān)重要,這讓我們能夠更快地治療并挽救生命。”
自人類基因組計劃開展以來,基因組組裝項目取得了長足的進(jìn)步,該計劃于2003年完成了首個完整的人類基因組組裝,耗資約27億美元,并進(jìn)行了十多年的國際合作。雖然目前完成人類基因組組裝已不再需要耗費數(shù)年時間,但仍然需要幾天時間和強(qiáng)大的計算機(jī)能力。第三代測序技術(shù)雖可提供具有數(shù)萬個堿基對的、太字節(jié)數(shù)量級的高質(zhì)量基因組序列,但事實上,將如此巨量數(shù)據(jù)的基因組進(jìn)行組裝,仍具有挑戰(zhàn)性。
為了超越當(dāng)前技術(shù)從而更有效地進(jìn)行基因組組裝,包括在所有可能的讀數(shù)對之間進(jìn)行成對比較,博格及其同事此次將研究目標(biāo)轉(zhuǎn)向了語言模型。他們基于“de Bruijn”圖(一種用于基因組組裝的簡單、高效的數(shù)據(jù)結(jié)構(gòu))概念,開發(fā)了一種極小空間“de Bruijn”圖,它使用被稱為“極小值”的短核苷酸序列,代替單個核苷酸。
博格表示:“極小空間‘de Bruijn’圖只存儲總核苷酸的一小部分,同時保留了整個基因組結(jié)構(gòu),使它們比經(jīng)典‘de Bruijn’圖更有效。”研究人員利用新方法為661406個細(xì)菌基因組的集合構(gòu)建了一個索引,這是迄今為止同類集合中最大的一個。他們發(fā)現(xiàn),這項新技術(shù)可在13分鐘內(nèi)搜索整個集合中的抗菌素抗性基因,而使用標(biāo)準(zhǔn)序列比對這一過程需要7小時。(記者 張夢然)
標(biāo)簽: 快速組裝全基因組 計算機(jī) 人類基因組 全基因組技術(shù)