一種基于簇圖結(jié)構(gòu)的并行基因拼接算法
【專利摘要】本發(fā)明提供一種基于簇圖結(jié)構(gòu)的并行基因拼接算法。本發(fā)明以多個(gè)其他基因拼接算法的拼接得到的長(zhǎng)序列(scaffold)和雙端測(cè)序儀生成的短讀長(zhǎng)基因序列(read-pair)為輸入,通過(guò)構(gòu)建索引、映射read-pair、scaffold聚簇、構(gòu)建簇圖、搜索路徑等步驟將具有互補(bǔ)的scaffold拼接成更長(zhǎng)的序列。構(gòu)建索引和讀長(zhǎng)映射兩個(gè)步驟旨在通過(guò)讀長(zhǎng)找到不同算法獲得的長(zhǎng)序列scaffold之間的相關(guān)性和匹配度,然后通過(guò)相關(guān)性和匹配度進(jìn)行聚簇,簇內(nèi)的所有scaffold具有互補(bǔ)性,是潛在的可拼接的序列。最后構(gòu)建簇圖,求解圖的全局最長(zhǎng)路徑,得到拼接的長(zhǎng)基因序列。
【專利說(shuō)明】一種基于簇圖結(jié)構(gòu)的并行基因拼接算法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于生物信息學(xué)【技術(shù)領(lǐng)域】,具體涉及一種新的基于簇圖結(jié)構(gòu)的并行基因拼接算法。
【背景技術(shù)】
[0002]自從2006年5月18日《自然》雜志報(bào)道稱,科學(xué)家已對(duì)含有2.23億個(gè)堿基對(duì)占人類基因組中堿基對(duì)總量的8%左右的人類第一號(hào)染色體完成測(cè)序宣告持續(xù)16年的人類基因組計(jì)劃全部完成。作為人類自然科學(xué)史上重要的里程碑,“人類基因組”的研究已從“結(jié)構(gòu)基因組”階段進(jìn)入“功能基因組”階段。在人類基因組計(jì)劃后相繼推出的水稻基因組計(jì)劃、馬鈴薯基因組計(jì)劃、草魚(yú)基因組計(jì)劃等和快速增長(zhǎng)的微生物基因測(cè)序“海量”的基因信息的積累催生了 “功能基因組”時(shí)代的來(lái)臨。針對(duì)充分利用“海量”基因組信息的生物信息學(xué)不僅應(yīng)運(yùn)而生而且為以注釋、闡明基因功和利用基因生物學(xué)功能的“后基因組時(shí)代”的研究發(fā)揮了重大作用。
[0003]基因組測(cè)序的目的就是要確定DNA分子的堿基序列,而DNA序列拼接則是基因組測(cè)序的關(guān)鍵技術(shù)之一。DNA序列拼接的定義可概括為:從DNA片段集合F中重構(gòu)該DNA序列S,其中F為該DNA序列S的子序列。無(wú)模版拼接算法,是指在沒(méi)有參考基因作為模板的情況下,根據(jù)F重構(gòu)S。這些重構(gòu)的DNA源序列可以被進(jìn)一步的評(píng)估和分析,可以成為解決生物問(wèn)題的線索,如尋找致病病毒、進(jìn)行藥物設(shè)計(jì)、研究如何將纖維物質(zhì)轉(zhuǎn)化為生物燃料、揭示生物遺傳和變異的。另外,對(duì)進(jìn)行基因診斷、基因治療、藥物設(shè)計(jì)都有巨大的作用。
[0004]基因組拼接的挑戰(zhàn)在于將碎片狀的讀長(zhǎng)進(jìn)行重建得到原始的基因組。基于化學(xué)的第一代測(cè)序技術(shù)一桑格測(cè)序方法得到的讀長(zhǎng)的長(zhǎng)度范圍從大約500至1000個(gè)堿基。像Illumina, Complete Genomics 公司、Helicos、454 Life Sciences、SOLID、1n Torrent 公司等這些新一代的技術(shù)是以犧 牲讀長(zhǎng)的長(zhǎng)度為代價(jià)獲得高產(chǎn)量。這種海量的、短小的、包含錯(cuò)誤的讀長(zhǎng)數(shù)據(jù)導(dǎo)致了拼接的高難度。
[0005]隨著新一代基因組測(cè)序技術(shù)的推廣使用,全基因組Shotgun拼接算法和軟件得到了廣泛的研究。當(dāng)前的基因測(cè)序技術(shù)獲得的DNA序列數(shù)據(jù)相對(duì)于第一代測(cè)序方法一Sanger測(cè)序表現(xiàn)為:高通量、高覆蓋率、低成本,與此同時(shí)還具有短讀長(zhǎng)、更多類型的錯(cuò)誤等特點(diǎn),而且普通高等生物的基因組堿基數(shù)目巨大,如人類基因組總長(zhǎng)約30億bp。另外,高等生物的基因還具有非常復(fù)雜的重復(fù)結(jié)構(gòu),因而基因組的無(wú)模板拼接具有很大難度。自從2005年以后,出現(xiàn)了多種基于下一代測(cè)序平臺(tái)基因序列的從頭拼接算法軟件包,包括:
【權(quán)利要求】
1.一種基于簇圖結(jié)構(gòu)的并行基因拼接算法,其特征在于所述基因拼接算法包含創(chuàng)建簇圖和搭建并行框架; 其中創(chuàng)建簇圖指的是:根據(jù)原始基因數(shù)據(jù)(read-pair)與其他算法生成結(jié)果長(zhǎng)序列(scaffold)之間的映射結(jié)果對(duì)scaffold進(jìn)行相似性和匹配度計(jì)算,然后進(jìn)行聚簇,簇中的兩個(gè)匹配的 scaffold 構(gòu)成 scaffold 對(duì)(scaffold-pair),所有 scaffold-pair 中具有多個(gè)匹配的區(qū)域,以這些區(qū)域作為節(jié)點(diǎn),他們之間的連接構(gòu)成邊,創(chuàng)建簇圖; 搭建并行框架指的是:貫穿在整個(gè)基因拼接算法的各個(gè)步驟中,包括讀寫(xiě)文件、構(gòu)建索弓1、短讀長(zhǎng)映射、scaffold聚簇、構(gòu)建簇圖、搜索路徑等步驟;采用的并行框架對(duì)每個(gè)步驟中的任務(wù)進(jìn)行分割、執(zhí)行、合并,執(zhí)行過(guò)程中節(jié)省了大量的時(shí)間; 包括以下步驟: (1)數(shù)據(jù)準(zhǔn)備:準(zhǔn)備本方法所有的輸入數(shù)據(jù),包括兩種數(shù)據(jù),一是原始的雙端讀長(zhǎng)(read-pair)數(shù)據(jù),這個(gè)可以在NCBI上獲得;二是來(lái)自其他拼接算法的結(jié)果數(shù)據(jù)scaffold ;這兩類數(shù)據(jù)分別要進(jìn)行預(yù)處理; (2)構(gòu)建索引:構(gòu)建索引就是要將來(lái)自其他拼接算法的結(jié)果數(shù)據(jù)scaffold所包含的序列建立一個(gè)索引結(jié)構(gòu),這個(gè)索引結(jié)構(gòu)為下一步讀長(zhǎng)映射提供基礎(chǔ); 索引構(gòu)建完畢,將得到每個(gè)算法的scaffold的索引文件; (3)讀長(zhǎng)映射:利用索引將read-pair映射到scaffold上; 首先將上一步中生成的索引文件讀入到內(nèi)存,接下來(lái)就是對(duì)讀長(zhǎng)進(jìn)行映射了,映射的方式并沒(méi)有采用讀長(zhǎng)序列中所有的堿基,而是只使用了讀長(zhǎng)對(duì)的內(nèi)側(cè)的一部分(L=3*k_mer),所謂內(nèi)側(cè)是指left read的右端和right read的左端; 規(guī)定只有這部分映射成功之后,整個(gè)讀長(zhǎng)對(duì)就可映射成功,映射結(jié)果表現(xiàn)為一個(gè)scaffold的不同的位置上有多個(gè)read與之映射; (4)Scaffold聚簇:為了下一步進(jìn)行拼接生成簇圖,首先對(duì)所有的scaffold進(jìn)行聚簇; 每個(gè)scaffold的特征由上一步映射結(jié)果得到的read的集合 -j.來(lái)體現(xiàn),根據(jù)計(jì)算不同scaffold對(duì)應(yīng)的read集合之間的相關(guān)性和scaffold之間的匹配程度,我們找到互補(bǔ)的、潛在的、可拼接的scaffold對(duì)(scaffold-pair),并將他們聚到同一個(gè)簇中,對(duì)于每一個(gè)簇將會(huì)通過(guò)構(gòu)建簇圖并尋找最長(zhǎng)路徑的方式得到的長(zhǎng)序列; (5)構(gòu)建簇圖:構(gòu)建簇圖的過(guò)程包括生成子圖和合并子圖兩個(gè)步驟,即對(duì)于簇f中第J個(gè)contig生成子圖,然后將簇中所有.SG^-合并成能表示一個(gè)簇的最終圖0?,最后求解簇圖的最長(zhǎng)路徑;最長(zhǎng)路徑所包含的堿基序列即為我們算法拼接之后的結(jié)果; (6)生成拼接結(jié)果:得到簇圖之后,通過(guò)計(jì)算簇圖的最長(zhǎng)路徑,根據(jù)路徑信息得到拼接成的基因序列。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于數(shù)據(jù)準(zhǔn)備步驟要下載的基因序列原始數(shù)據(jù)要求是來(lái)自Illumina測(cè)序平臺(tái)生成的雙端短序列,文件格式要是fasta或fastq格式,其他格式的文件需要先進(jìn)行轉(zhuǎn)換;對(duì)于從NCBI官方網(wǎng)站上下載的數(shù)據(jù)一般是SRA格式,需要使用SRA Toolkit工具包將下載得到的*.sra文件轉(zhuǎn)化成要求的fastq和fasta格式的數(shù)據(jù)文件; 運(yùn)行命令:
$ fastq-dump —split-files 轉(zhuǎn)換得到兩個(gè)文件,是讀長(zhǎng)對(duì)(read-pair)分別存儲(chǔ)的左讀長(zhǎng)(left reads)和右讀長(zhǎng)(right reads)的 fastq 文件; 數(shù)據(jù)準(zhǔn)備步驟要準(zhǔn)備的第二類數(shù)據(jù)是長(zhǎng)序列scaffold文件;該文件是其他基因拼接算法的結(jié)果文件,所以需要配置并運(yùn)行這些算法,并得到最終結(jié)果,這些拼接算法可以是Velvet、ABySS、SOAPdenovo、Ray; 數(shù)據(jù)預(yù)處理要求處理未知堿基,DNA序列中堿基只有四種,即A、C、G、T ;然而由于測(cè)序過(guò)程中的一些技術(shù)限制或錯(cuò)誤導(dǎo)致了未能準(zhǔn)確區(qū)別兩種堿基,從而生成了不確定的非A、C、G、T堿基,需要采用一定的方法將這些不確定的堿基進(jìn)行確定話。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述索引結(jié)構(gòu)是首先共享的索引可供多個(gè)線程訪問(wèn),其次索引結(jié)構(gòu)是采用的是預(yù)分配空間直接存取的方式,這種方式節(jié)省了映射過(guò)程中查找序列的時(shí)間。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述短讀長(zhǎng)(read)高通量基因測(cè)序平臺(tái)產(chǎn)生的序列,一次測(cè)序中儀器讀取的核苷酸序列,該序列是原始DNA序列經(jīng)過(guò)隨機(jī)打斷生成的碎片序列,基因序列的無(wú)模板拼接(de novo assembly)就是要將這些碎片序列拼接成更長(zhǎng)的序列;高通量測(cè)序中read —般會(huì)成對(duì)出現(xiàn),也就是以read-pair形式存在。
5.根據(jù)權(quán)利要求1所述的方法,其中所述Scaffold,是由其他拼接方法產(chǎn)生的更長(zhǎng)的序列,在實(shí)際情況中,scaffold和scaffold之間并不能直接連接起來(lái),很多情況下是它們之間只有通過(guò)它們內(nèi)部的一些小的read之間的某些距離信息或者mate信息進(jìn)行連接,它借助其他reads之間的關(guān)系信息,把contig直接的縫隙進(jìn)行填充。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于所述方法實(shí)現(xiàn)的算法軟件包可以運(yùn)行在64位或32位Linux/Mac/Windows等多類型的操作系統(tǒng)中,推薦使用64_bit,系統(tǒng)需要的軟件包依賴是Java、R、rjava包;其中Java支持32_bit版本,推薦使用64_bit;版本選用JDK1.6版以上(包括1.6);運(yùn)行軟件包時(shí)可以修改相關(guān)的配置文件,以軟件包分配合適的運(yùn)行時(shí)內(nèi)存; Linux系統(tǒng)下可安裝OpenJDKl.6版以上(包括1.6)。
7.根據(jù)權(quán)利要求1所述所述的方法,其特征在于其內(nèi)存要求IlOG以上,所需內(nèi)存大小主要是由基因數(shù)據(jù)集的測(cè)試深度和物種的基因組序列的長(zhǎng)度決定的,實(shí)驗(yàn)中用到的是測(cè)試深度約為500、物種的基因組序列的長(zhǎng)度大約為數(shù)據(jù)集(ERR022075)大約消耗內(nèi)存110Gb。
8.根據(jù)權(quán)利要求1所述所述的方法,其特征在于其處理器是多核的,核數(shù)的多少直接影響拼接執(zhí)行的時(shí)間。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于所述軟件包依賴,其中R包含2.5.X版本以及以上版本,下載網(wǎng)址。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于所述軟件包依賴,其中rjava包:在R中安裝rjava軟件包,命令:install, packages ("rjava") ;R和rjava包是用于繪圖,提供了用于繪制簇圖和相關(guān)性能分析和評(píng)價(jià)的可視化接口。
【文檔編號(hào)】G06F19/18GK103761453SQ201310666751
【公開(kāi)日】2014年4月30日 申請(qǐng)日期:2013年12月9日 優(yōu)先權(quán)日:2013年12月9日
【發(fā)明者】陳科, 徐魁 申請(qǐng)人:天津工業(yè)大學(xué)