国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于轉(zhuǎn)錄組雙端測序數(shù)據(jù)組裝基因組序列的方法和裝置的制造方法

      文檔序號:10687419閱讀:788來源:國知局
      基于轉(zhuǎn)錄組雙端測序數(shù)據(jù)組裝基因組序列的方法和裝置的制造方法
      【專利摘要】本發(fā)明提供一種基于轉(zhuǎn)錄組雙端測序數(shù)據(jù)組裝基因組序列的方法,所述方法包括將轉(zhuǎn)錄組雙端測序序列比對到基因組上,保留雙端測序序列分別僅能比對唯一的不同基因組序列以及基于最多轉(zhuǎn)錄組雙端測序序列連接證據(jù)的基因組序列拼接篩選、形成新的基因組序列等步驟。本發(fā)明還提供實現(xiàn)上述方法的裝置。利用本發(fā)明方法,通過將轉(zhuǎn)錄組雙端測序序列比對到基因組上,獲得基于最多雙端測序比對結(jié)果的連接證據(jù),從而進行基因組序列的拼接組裝,以提升基因組的完整性。轉(zhuǎn)錄組雙端測序數(shù)據(jù)既可以是公共數(shù)據(jù)庫中該物種的轉(zhuǎn)錄組雙端測序序列,也可以是實驗產(chǎn)生的轉(zhuǎn)錄組雙端測序數(shù)據(jù)。
      【專利說明】
      基于轉(zhuǎn)錄組雙端測序數(shù)據(jù)組裝基因組序列的方法和裝置
      技術(shù)領(lǐng)域
      [0001]本發(fā)明涉及基因組學(xué)、遺傳學(xué)和生物信息學(xué)領(lǐng)域,特別涉及一種基于轉(zhuǎn)錄組雙端測序數(shù)據(jù)組裝基因組序列的方法和裝置。
      【背景技術(shù)】
      [0002]目前物種的全基因組裝配主要依賴于鳥槍法策略。在構(gòu)建多個插入片段長度不一的文庫后,先利用插入片段短的文庫組裝基因組,逐步利用插入片段更長的文庫組裝基因組,使得基因組長度逐步增長。但是采用鳥槍法策略構(gòu)建的基因組無法完整覆蓋全部的基因。
      [0003]DNA轉(zhuǎn)錄過程以連續(xù)性基因組為模板進行轉(zhuǎn)錄,形成轉(zhuǎn)錄本。如果基因組不完整,可能導(dǎo)致轉(zhuǎn)錄本被分割到不同的基因組contig上。目前利用11 Iumina測序技術(shù)進行轉(zhuǎn)錄組測序是較為常見的測序方法,主要包括以下步驟:(1)提取樣品總RNA,利用oligo-dT逆轉(zhuǎn)錄富集有Po I yA尾巴的轉(zhuǎn)錄本;或者利用r i bo-Z erο法,去除rRNA后,利用隨機引物逆轉(zhuǎn)錄富集除r R N A之外的所有轉(zhuǎn)錄本;(2 )將逆轉(zhuǎn)錄后獲得的c D N A打斷成特定大小的片段,構(gòu)建Illumina pair-end文庫;(3)采用雙端測序策略,分別從一條轉(zhuǎn)錄本的兩端開始測序,獲得雙端測序序列。
      [0004]如果基因組不完整,那么來自同一條轉(zhuǎn)錄本的雙端序列將被分別比對到兩個不同的基因組序列上。利用這些區(qū)域及其在轉(zhuǎn)錄組雙端測序的位置,能夠重新將對應(yīng)的基因組序列串聯(lián)起來,形成更長的基因組序列。因此,開發(fā)利用轉(zhuǎn)錄組雙端測序數(shù)據(jù)組裝基因組序列的方法及裝置具有可行性,該方法及裝置的開發(fā)將能夠提高基因組的完整性。

      【發(fā)明內(nèi)容】

      [0005]本發(fā)明旨在解決目前全基因組序列組裝中存在的拼接不完整、基因區(qū)域不完整等問題,提供一種基于轉(zhuǎn)錄組雙端測序數(shù)據(jù)組裝基因組序列的方法和裝置。
      [0006]為對本發(fā)明做出清楚說明,對發(fā)明中涉及的技術(shù)術(shù)語進行如下定義:
      [0007]contig:預(yù)先拼接的基因組序列;
      [0008]轉(zhuǎn)錄組雙端測序序列包括左端序列和右端序列;
      [0009]基因組連接:由兩個contig按照前后序列排列在一起,排列在前的序列,稱為起點序列;排列在后的序列,稱為終止序列;
      [0010]比對區(qū)域:是指轉(zhuǎn)錄組雙端測序序列與基因組序列相似或一致的區(qū)域;由于基因組裝配尚不完整,因此一條轉(zhuǎn)錄本的兩端序列可能被分割到兩個不同的contig上;
      [0011 ]轉(zhuǎn)錄組雙端測序序列總長度:是指兩端測序序列所含的總堿基數(shù);
      [0012]比對區(qū)域的絕對位置:是指比對區(qū)域相對于基因組序列的位置;
      [0013]比對區(qū)域之間的間隔:是指前后兩個比對區(qū)域(i和j)在對應(yīng)的基因組序列(A和B)的距離差,即
      [0014]比對區(qū)域之間的間隔=基因組序列A的長度-比對區(qū)域i在A序列的位置+比對區(qū)域j在B序列的位置;
      [0015]序列覆蓋度:比對區(qū)域長度與轉(zhuǎn)錄組雙端測序序列總長度的比值。
      [0016]基因組序列拼接:兩個contig按照在轉(zhuǎn)錄組雙端測序序列中的位置,先后排序而成。
      [0017]為了實現(xiàn)本發(fā)明目的,本發(fā)明提供的一種基于轉(zhuǎn)錄組雙端測序數(shù)據(jù)組裝基因組序列的方法,所述方法包括將轉(zhuǎn)錄組雙端測序序列比對到基因組上,保留雙端測序序列分別僅能比對唯一的不同基因組序列以及基于最多轉(zhuǎn)錄組雙端測序序列連接證據(jù)的基因組序列拼接篩選、形成新的基因組序列等步驟。
      [0018]具體地,所述方法包括如下步驟:
      [0019](I)轉(zhuǎn)錄組雙端測序序列的清洗
      [0020]用SolexaQA軟件中的dynamictrim和Iengthsort模塊分別對轉(zhuǎn)錄組雙端測序結(jié)果fastq文件進行清洗,去除低質(zhì)量序列以及短片段序列;
      [0021 ] (2)第一輪轉(zhuǎn)錄組雙端測序序列的比對
      [0022]將轉(zhuǎn)錄組雙端測序序列與contig進行第一輪序列比對,獲得雙端測序序列在所有可比對上的contig上的位置信息,保留雙端測序序列的任一端都比對到唯一且不同的contig上的結(jié)果;
      [0023]對于雙端測序序列中任一端,如果(i)比對到多個contig上,或(ii)沒有比對到contig上,或(iii)左端、右端序列比對到相同的contig上,則去除該雙端測序序列,不做后續(xù)分析,本步驟僅保留雙端測序序列任一端僅比對到唯一 contig,且兩個contig不同的結(jié)果;
      [0024](3)第二輪轉(zhuǎn)錄組雙端測序序列的比對
      [0025]將步驟(2)獲得的轉(zhuǎn)錄組雙端測序序列與contig進行第二輪序列比對,過濾掉左端序列和右端序列比對到contig上的序列覆蓋度至少90%,且雙端序列比對到相同contig或者任一端比對到多個contig上的結(jié)果;
      [0026](4)最可靠基因組序列連接的篩選
      [0027]將經(jīng)過上述兩輪比對篩選后,獲得的轉(zhuǎn)錄組雙端測序序列及其比對位置作為contig拼接的連接證據(jù);
      [0028]在所有的基因組連接中,contig可以有三種角色:(i)僅作為起點序列;(ii)僅作為終止序列;(iii)既可以作為起點序列,也可以作為終止序列;有后續(xù)contig與之連接的序列為起點序列;之如有contig與之連接的序列為終止序列;
      [0029]對于所有作為起點序列的contig,為每個contig選擇有最多連接證據(jù)的contig;
      [0030]對于所有作為終止序列的contig,為每個contig選擇有最多連接證據(jù)的contig;
      [0031]對于上述保留的所有連接,判斷I個連接中的兩個contig是否為彼此最多連接證據(jù)的序列,如果是,則保留該連接;
      [0032]保留具有最多連接證據(jù)的所述起點序列和所述終止序列;將后續(xù)連接新contig,而之前沒有連接新contig的基因組序列作為起始點,將之前有連接新contig,而后續(xù)沒有連接新contig的基因組序列作為終結(jié)點,將之前既連接新contig,后續(xù)又連接新contig的基因組序列作為中間點;
      [0033](5)新基因組序列的組裝
      [0034]對于步驟(4)最終保留的contig只能被分配到如下三種數(shù)據(jù)集合之一:(i)僅作為起點序列的contig; (ii)僅作為終止序列的contig; (iii)既可以作為起點序列,也可以作為終止序列的contig;
      [0035]從(i)集合中依次挑選contig作為起始點,從(ii)和(iii)集合中選擇后續(xù)的連接contig,為該contig進一步選擇新的連接contig,直至最后在(ii)集合中找到連接contig為止,至此構(gòu)建一條完整的組裝通路,最后形成的組裝通路數(shù)量等于(i)集合中contig數(shù)目;
      [0036]S卩,根據(jù)步驟(4)最終保留的序列,將每個只能作為起始點的基因組片段,分別將其作為起始點,選擇后續(xù)的中間點,為這個中間點進一步選擇新的中間點,直至找到終結(jié)點為止,從而形成一條完整的組裝通路;根據(jù)上述組裝通路,將各contig串聯(lián)組裝成更長的基因組序列。
      [0037]前述的方法,步驟(I)用SolexaQA軟件中的dynamictrim模塊過濾低質(zhì)量轉(zhuǎn)錄組雙端測序序列,默認保留測序質(zhì)量P值<0.05的序列;用SolexaQA軟件中的Iengthsort模塊過濾掉長度小于25個堿基的reads。
      [0038]前述的方法,步驟(2)進行第一輪序列比對采用的軟件為hisat2。
      [0039]前述的方法,步驟(3)進行第二輪序列比對采用的軟件為blat。
      [0040]本發(fā)明中使用的轉(zhuǎn)錄組雙端測序序列來源于該物種已公開的轉(zhuǎn)錄組雙端測序序列,或通過實驗方法獲得的該物種轉(zhuǎn)錄組雙端測序序列。例如,所述轉(zhuǎn)錄組雙端測序序列為:①基于oligo-dT逆轉(zhuǎn)錄獲得的RNA-seq雙端測序序列,②基于ribo-zero方法構(gòu)建的RNA-seq雙端測序序列。
      [0041]具體來說,例如,將一對轉(zhuǎn)錄組雙端測序序列(假定為左端序列為a,右端序列為b)比對到基因組上。獲得雙端序列對應(yīng)的contig(假定為a對應(yīng)A,b對應(yīng)B)及其在contig上的絕對位置。按照本發(fā)明步驟(2)提供的篩選方法,過濾后的轉(zhuǎn)錄組雙端序列為唯一且不同的比對,其特征為,轉(zhuǎn)錄組雙端序列分別比對到唯一contig,且雙端序列比對到的contig不同。通過上述篩選后保留下來的轉(zhuǎn)錄組雙端測序序列,可作為后續(xù)contig拼接的連接證據(jù)。
      [0042]由于第一輪轉(zhuǎn)錄組雙端序列可能錯誤比對到contig上,或第一輪比對未窮盡所有可比對的contig,因此將保留下來的轉(zhuǎn)錄組雙端序列與contig再進行比對。如果比對區(qū)域的序列覆蓋度大于90%且雙端序列對應(yīng)同一 contig,或比對區(qū)域的序列覆蓋度大于90%且任一端轉(zhuǎn)錄組序列對應(yīng)contig,則之前的比對區(qū)域拼接認為是不可靠的,對應(yīng)的轉(zhuǎn)錄組雙端序列予以去除。對于上述比對區(qū)域,一對轉(zhuǎn)錄組雙端測序a、b將作為contig拼接六->8的連接證據(jù)。
      [0043]接下來,根據(jù)本發(fā)明,每個contig在序列拼接中有三種屬性:起點序列,終止序列,既可以作為起點序列,也可以作為終止序列。例如,兩個contig的拼接A->B中,A為起點序列,而B為終止序列。對于每個contig,作為起點序列,可能有多個contig與之拼接。根據(jù)本發(fā)明,僅保留有最多連接證據(jù)的基因組拼接。例如,對于contig序列A,作為起點序列,可能有多種拼接方式,例如A->B、A->K,和A->M。每種拼接的雙端測序序列連接證據(jù)為5、3和2,即A->B連接有5對雙端測序序列支持,A->K和A->M連接分別有3對和2對雙端測序序列支持。則應(yīng)該保留A->B。同理,對于每個contig,作為終止序列,也采取同上的操作步驟。例如,對于基因組序列B,作為終點序列,可能有多種拼接方式,例如A->B、F->B,和G->B。每種拼接方式的蛋白連接證據(jù)為5、3和2,應(yīng)保留A->B。
      [0044]最后,將保留后的基因組拼接串聯(lián)起,形成新的基因組序列。針對上一步中每個只能作為起始點的基因組片段,分別將其作為起始點,從保留的基因組拼接中,選擇后續(xù)的中間點;為這個中間點進一步選擇新的中間點,直至找到終結(jié)點為止。根據(jù)上述各基因組序列連接的前后順序?qū)⒏骰蚪M片段連接組裝成更長的基因組片段。例如,保留下的基因組拼接A- > B和B- > D,則串聯(lián)后形成的基因組順序為A- > B- > D。
      [0045]本發(fā)明還提供實現(xiàn)上述方法的裝置,所述裝置包括如下單元:
      [0046]I)轉(zhuǎn)錄組雙端測序序列清洗單元
      [0047]用SolexaQA軟件中的dynamictrim和Iengthsort模塊分別對轉(zhuǎn)錄組雙端測序結(jié)果fastq文件進行清洗和配對;
      [0048]其中,用SolexaQA軟件中的dynamictrim模塊過濾低質(zhì)量轉(zhuǎn)錄組雙端測序序列,默認保留測序質(zhì)量P值<0.05的序列;用SolexaQA軟件中的Iengthsort模塊過濾掉長度小于25個喊基的reads。
      [0049]2)第一輪轉(zhuǎn)錄組雙端測序序列比對結(jié)果的保留單元
      [0050]用hisat2軟件進行第一輪序列比對,獲得轉(zhuǎn)錄組雙端測序序列上的兩端序列能比對到cont i g的數(shù)量,及其在不同cont i g上的絕對位置。
      [0051 ]所述保留單元包括:(al)左端序列比對到唯一contig上的篩選模塊;(a2)右端序列比對到唯一contig上的篩選模塊;(a3)區(qū)分兩個不同contig的模塊。
      [0052]滿足上述保留單元的雙端序列,要保留。
      [0053]3)第二輪轉(zhuǎn)錄組雙端測序序列比對結(jié)果的篩選單元
      [0054]用blat軟件進行第二輪序列比對,獲得序列覆蓋度至少90%的,且轉(zhuǎn)錄組雙端測序序列上的兩端序列能比對到cont i g的數(shù)量,及其在不同cont i g上的絕對位置。
      [0055]所述篩選單元包括:(bl)左端序列和右端序列比對到contig的序列覆蓋度至少90%的篩選模塊;(b2)從(bl)篩選得到的序列中,判斷比對到相同contig上的篩選模塊;(b3)從(bl)篩選得到的序列中,判斷任一端序列比對到多個contig上的篩選模塊。
      [0056]滿足(b2)或者(b3)的雙端序列,要剔出。將通過第二輪轉(zhuǎn)錄組雙端測序序列比對結(jié)果的篩選單元保留的轉(zhuǎn)錄組雙端測序序列及其比對結(jié)果作為contig拼接的連接證據(jù)。
      [0057]4)最可靠基因組序列連接的篩選單元
      [0058]所述篩選單元包括以下三個模塊:
      [0059](Cl)起點序列最可靠連接contig的篩選模塊:對于每條作為起點序列的contig,從3)保留的比對結(jié)果中選擇與其有最多連接證據(jù)的終止序列,并保留對應(yīng)的連接;
      [0060](c2)終止序列最可靠連接contig的篩選模塊:對于每條作為終止序列的contig,從(c I)保留的連接中,選擇與其有最多連接證據(jù)的起點序列,并保留對應(yīng)的連接;
      [0061](c3)雙向最可靠連接contig的篩選模塊:在(c2)保留的連接中,對于每條起始序列最可靠連接的終止序列,如果該終止序列的最可靠連接恰好也是該起始序列,則保留該連接。
      [0062]5)新基因組序列的組裝單元
      [0063]根據(jù)4)保留的連接,將每個只能作為起始點的基因組片段,分別將其作為起始點,選擇后續(xù)的中間點,為這個中間點進一步選擇新的中間點,直至找到終結(jié)點為止,從而形成一條完整的組裝通路。
      [0064]根據(jù)上述組裝通路,將各contig串聯(lián)組裝成更長的基因組序列。
      [0065]利用本發(fā)明提供的基于轉(zhuǎn)錄組雙端測序數(shù)據(jù)組裝基因組序列的方法及裝置,通過將轉(zhuǎn)錄組雙端測序序列比對到基因組上,獲得基于最多雙端測序比對結(jié)果的連接證據(jù),從而進行基因組序列的拼接組裝,以提升基因組的完整性。轉(zhuǎn)錄組雙端測序數(shù)據(jù)既可以是公共數(shù)據(jù)庫中該物種的轉(zhuǎn)錄組雙端測序序列,也可以是實驗產(chǎn)生的轉(zhuǎn)錄組雙端測序數(shù)據(jù)。
      【具體實施方式】
      [0066]以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。若未特別指明,實施例中所用的技術(shù)手段為本領(lǐng)域技術(shù)人員所熟知的常規(guī)手段,所用原料均為市售商品。
      [0067]實施例1利用人的轉(zhuǎn)錄組雙端測序數(shù)據(jù)組裝人基因組序列
      [0068]從美國國立生物技術(shù)信息中心(NCBI ,http://www.ncb1.nlm.nih.gov/)網(wǎng)站SRA數(shù)據(jù)庫下載人轉(zhuǎn)錄組雙端測序序列(Access1n:ERR420387,共27318482對雙端測序)和36437條FASTA格式的人基因組contig序列(N50:148715bp)。
      [0069]1、清洗轉(zhuǎn)錄組雙端測序序列
      [0070]從http://so lexaqa.sour ceforge.net/網(wǎng)站下載So IexaQA 程序,用dynamic trim模塊對轉(zhuǎn)錄組雙端序列進行清洗,去除低質(zhì)量序列,默認保留測序質(zhì)量P值<0.05的序列。然后用Iengthsort模塊去除長度小于25個堿基的測序序列,最后保留26247926對高質(zhì)量的轉(zhuǎn)錄組雙端測序序列。
      [0071 ] 2、第一輪轉(zhuǎn)錄組雙端測序序列的比對
      [0072](I)從http://www.ccb.jhu.edu/下載hisat2程序,用hisat2_build給參考基因組建立索引。
      [0073](2)用hisat2將轉(zhuǎn)錄組雙端測序序列與基因組contig序列進行比對。獲得轉(zhuǎn)錄組雙端序列比對上的所有contig及其在所述contig上的絕對位置。
      [0074](3)篩選出雙端序列分別僅比對到一條基因組序列且雙端所對比上的基因組序列不同的轉(zhuǎn)錄組雙端測序序列,得到唯一不同比對的轉(zhuǎn)錄組雙端測序比對結(jié)果。經(jīng)過該步處理后,有150114對轉(zhuǎn)錄組雙端序列滿足篩選要求,并進行第二輪序列比對。
      [0075]3、第二輪轉(zhuǎn)錄組雙端測序序列的比對
      [0076](4)從http: //hgdownload.cse.ucsc.edu/admin/exe/下載 BLAT 程序,選擇單機版模式,以所述唯一不同比對的轉(zhuǎn)錄組雙端測序序列作為查詢序列,以基因組片段作為匹配序列,參數(shù)設(shè)置為-noHead。每一條序列的比對覆蓋度大于90%。
      [0077](5)去除任一端比對到多個contig,或兩端比對同一 contig的轉(zhuǎn)錄組序列。經(jīng)過該步處理后,有90992對轉(zhuǎn)錄組雙端序列滿足篩選要求,用于后續(xù)contig拼接。
      [0078]4、基因組contig拼接篩選
      [0079]對步驟3中保留下來的每個contig進行連接,按照本發(fā)明提供的方法,分別為其選擇連接證據(jù)最多的起點序列和終止序列。本步驟結(jié)束后產(chǎn)生了 4873個可靠的基因組序列拼接關(guān)系。
      [0080]將這些基因組序列分為(i)僅作為起點序列的contig;(ii)僅作為終止序列的contig; (iii)既可以作為起點序列,也可以作為終止序列的contig三類。
      [0081]5、形成新的基因組序列
      [0082]針對步驟4中屬于(i)類的每個contig,分別將其作為起始點,從(ii)類和(iii)類的contig中,尋找可拼接的contig,形成基因組序列連接;將找到的contig作為新的起始點,進一步如上所述操作,尋找可連接的contig,直至沒有可連接的contig為止。根據(jù)上述各基因組序列連接的前后順序拼接組裝成更長的基因組序列,從而完成基因組組裝過程。本步驟結(jié)束后產(chǎn)生3131個新的基因組序列。
      [0083]結(jié)果:組裝后的人基因組序列為31564條,較原來減少了13.37% ;N50長度為169805&。,增長了14.18%。
      [0084]雖然,上文中已經(jīng)用一般性說明及具體實施方案對本發(fā)明作了詳盡的描述,但在本發(fā)明基礎(chǔ)上,可以對之作一些修改或改進,這對本領(lǐng)域技術(shù)人員而言是顯而易見的。因此,在不偏離本發(fā)明精神的基礎(chǔ)上所做的這些修改或改進,均屬于本發(fā)明要求保護的范圍。
      【主權(quán)項】
      1.一種基于轉(zhuǎn)錄組雙端測序數(shù)據(jù)組裝基因組序列的方法,其特征在于,所述方法包括將轉(zhuǎn)錄組雙端測序序列比對到基因組上,保留雙端測序序列分別僅能比對唯一的不同基因組序列以及基于最多轉(zhuǎn)錄組雙端測序序列連接證據(jù)的基因組序列拼接篩選、形成新的基因組序列的步驟。2.如權(quán)利要求1所述的方法,其特征在于,包括如下步驟: (1)轉(zhuǎn)錄組雙端測序序列的清洗 用So IexaQA軟件中的dynamic trim和Iengthsort模塊分別對轉(zhuǎn)錄組雙端測序結(jié)果fastq文件進行清洗,去除低質(zhì)量序列以及短片段序列; (2)第一輪轉(zhuǎn)錄組雙端測序序列的比對 將轉(zhuǎn)錄組雙端測序序列與預(yù)先拼接的基因組序列contig進行第一輪序列比對,獲得雙端測序序列在所有可比對上的contig上的位置信息,保留雙端測序序列的任一端都比對到唯一且不同的contig上的結(jié)果; (3)第二輪轉(zhuǎn)錄組雙端測序序列的比對 將步驟(2)獲得的轉(zhuǎn)錄組雙端測序序列與預(yù)先拼接的基因組序列contig進行第二輪序列比對,過濾掉左端序列和右端序列比對到contig上的序列覆蓋度至少90%,且雙端序列比對到相同contig或者任一端比對到多個contig上的結(jié)果; (4)最可靠基因組序列連接的篩選 將經(jīng)過上述兩輪比對篩選后,獲得的轉(zhuǎn)錄組雙端測序序列及其比對位置作為contig拼接的連接證據(jù); 有后續(xù)contig與之連接的序列為起點序列;之前有contig與之連接的序列為終止序列; 對于所有作為起點序列的contig,為每個contig選擇有最多連接證據(jù)的contig,作為終止序列; 對于所有作為終止序列的contig,為每個contig選擇有最多連接證據(jù)的contig,作為起點序列; 保留具有最多連接證據(jù)的所述起點序列和所述終止序列;將后續(xù)連接新contig,而之前沒有連接新contig的基因組序列作為起始點,將之前有連接新contig,而后續(xù)沒有連接新contig的基因組序列作為終結(jié)點,將之前既連接新contig,后續(xù)又連接新contig的基因組序列作為中間點; (5)新基因組序列的組裝 根據(jù)步驟(4)最終保留的序列,將每個只能作為起始點的基因組片段,分別將其作為起始點,選擇后續(xù)的中間點,為這個中間點進一步選擇新的中間點,直至找到終結(jié)點為止,從而形成一條完整的組裝通路; 根據(jù)上述組裝通路,將各contig串聯(lián)組裝成更長的基因組序列。3.如權(quán)利要求1或2所述的方法,其特征在于,所述轉(zhuǎn)錄組雙端測序序列來源于該物種已公開的轉(zhuǎn)錄組雙端測序序列,或通過實驗方法獲得的該物種轉(zhuǎn)錄組雙端測序序列;所述轉(zhuǎn)錄組雙端測序序列為:①基于oligo-dT逆轉(zhuǎn)錄獲得的RNA-seq雙端測序序列,②基于ribo-zero方法構(gòu)建的RNA-seq雙端測序序列。4.如權(quán)利要求2或3所述的方法,其特征在于,步驟(I)用S ο I e X a Q A軟件中的dynamictrim模塊過濾低質(zhì)量轉(zhuǎn)錄組雙端測序序列,默認保留測序質(zhì)量p值<0.05的序列;用SolexaQA軟件中的Iengthsort模塊過濾掉長度小于25個堿基的reads。5.如權(quán)利要求2-4任一項所述的方法,其特征在于,步驟(2)進行第一輪序列比對采用的軟件為hisat2。6.如權(quán)利要求2-5任一項所述的方法,其特征在于,步驟(3)進行第二輪序列比對采用的軟件為b Iat。7.—種基于轉(zhuǎn)錄組雙端測序數(shù)據(jù)組裝基因組序列的裝置,其特征在于,所述裝置包括如下單元: 1)轉(zhuǎn)錄組雙端測序序列清洗單元 用So IexaQA軟件中的dynamic trim和Iengthsort模塊分別對轉(zhuǎn)錄組雙端測序結(jié)果fastq文件進行清洗和配對; 2)第一輪轉(zhuǎn)錄組雙端測序序列比對結(jié)果的保留單元 用hisat2軟件進行第一輪序列比對,獲得轉(zhuǎn)錄組雙端測序序列上的兩端序列能比對到contig的數(shù)量,及其在不同contig上的絕對位置; 所述保留單元包括:(a I)左端序列比對到唯一 cont i g上的篩選模塊;(a2)右端序列比對到唯一contig上的篩選模塊;(a3)區(qū)分兩個不同contig的模塊; 滿足上述保留單元的雙端序列,要保留; 3)第二輪轉(zhuǎn)錄組雙端測序序列比對結(jié)果的篩選單元 用blat軟件進行第二輪序列比對,獲得雙端序列的覆蓋度都超過90%的,且轉(zhuǎn)錄組雙端測序序列上的兩端序列能比對到contig的數(shù)量,及其在不同contig上的絕對位置; 所述篩選單元包括:(bl)左端序列和右端序列比對到contig的序列覆蓋度至少90%的篩選模塊;(b2)從(bl)篩選得到的序列中,判斷比對到相同contig上的篩選模塊;(b3)從(b I)篩選得到的序列中,判斷任一端序列比對到多個cont ig上的篩選模塊; 滿足(b2)或者(b3)的雙端序列,要剔出; 將通過第二輪轉(zhuǎn)錄組雙端測序序列比對結(jié)果的篩選單元保留的轉(zhuǎn)錄組雙端測序序列及其比對結(jié)果作為cont i g拼接的連接證據(jù); 4)最可靠基因組序列連接的篩選單元 所述篩選單元包括以下三個模塊: (cl)起點序列最可靠連接contig的篩選模塊:對于每條作為起點序列的contig,從3)保留的比對結(jié)果中選擇與其有最多連接證據(jù)的終止序列,并保留對應(yīng)的連接; (c2)終止序列最可靠連接contig的篩選模塊:對于每條作為終止序列的contig,從(c I)保留的連接中,選擇與其有最多連接證據(jù)的起點序列,并保留對應(yīng)的連接; (c3)雙向最可靠連接contig的篩選模塊:在(c2)保留的連接中,對于每條起始序列最可靠連接的終止序列,如果該終止序列的最可靠連接恰好也是該起始序列,則保留該連接; 5)新基因組序列的組裝單元 根據(jù)4)保留的連接,將每個只能作為起始點的基因組片段,分別將其作為起始點,選擇后續(xù)的中間點,為這個中間點進一步選擇新的中間點,直至找到終結(jié)點為止,從而形成一條完整的組裝通路; 根據(jù)上述組裝通路,將各contig串聯(lián)組裝成更長的基因組序列。8.如權(quán)利要求7所述的裝置,其特征在于,對于所述轉(zhuǎn)錄組雙端測序序列清洗單元,用SolexaQA軟件中的dynamictrim模塊過濾低質(zhì)量轉(zhuǎn)錄組雙端測序序列,默認保留測序質(zhì)量P值<0.05的序列;用SolexaQA軟件中的Iengthsort模塊過濾掉長度小于25個堿基的reads。
      【文檔編號】G06F19/20GK106055925SQ201610349039
      【公開日】2016年10月26日
      【申請日】2016年5月24日
      【發(fā)明人】李炯棠, 朱柏翰, 肖軍, 孫明媛, 徐桂彩
      【申請人】中國水產(chǎn)科學(xué)研究院
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1