国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于slaf簡(jiǎn)化基因組測(cè)序數(shù)據(jù)的二次數(shù)據(jù)識(shí)別方法

      文檔序號(hào):9564770閱讀:683來(lái)源:國(guó)知局
      一種基于slaf簡(jiǎn)化基因組測(cè)序數(shù)據(jù)的二次數(shù)據(jù)識(shí)別方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明屬于高通量測(cè)序技術(shù)領(lǐng)域,具體涉及一種基因組測(cè)序數(shù)據(jù)的重新識(shí)別方 法,特別是涉及一種基于全局比對(duì)算法的測(cè)序數(shù)據(jù)兩端index序列的二次數(shù)據(jù)識(shí)別方法。
      【背景技術(shù)】
      [0002] 憑借可靠的測(cè)序數(shù)據(jù)質(zhì)量和低廉的成本,高通量測(cè)序技術(shù)作為一種獲取生命核苷 酸編碼序列的工具,積累了海量的序列數(shù)據(jù),為生物信息學(xué)發(fā)展提供重要數(shù)據(jù)支持。采用高 通量測(cè)序技術(shù)開(kāi)發(fā)分子標(biāo)記正在成為性?xún)r(jià)比最高的分子標(biāo)記開(kāi)發(fā)方式。SLAF-seq是北京百 邁客生物科技有限公司研發(fā)的一套簡(jiǎn)化基因組測(cè)序技術(shù),旨在通過(guò)限制性?xún)?nèi)切酶結(jié)合電泳 切膠的方法篩選出具有特定長(zhǎng)度的基因組片段,并針對(duì)篩選出的基因組片段采用高通量測(cè) 序方式開(kāi)發(fā)分子標(biāo)記,其在中國(guó)專(zhuān)利CN103088120A中已公開(kāi)。最新版的SLAF2技術(shù)將有效 基因組讀長(zhǎng)擴(kuò)展到2 X 100bp,并能夠一次開(kāi)發(fā)10萬(wàn)個(gè)標(biāo)簽以上,獲取全基因組范圍內(nèi)最完 整的變異圖像(SNPs、InDels),以實(shí)現(xiàn)重要農(nóng)藝性狀功能基因定位的卓越能力。
      [0003] 由于SLAF技術(shù)的簡(jiǎn)化能力,使得單個(gè)樣品的測(cè)序成本低廉,十分適于大樣本群體 的測(cè)序分析。為了增加同lane可識(shí)別的樣品數(shù),SLAF采用了雙端index的識(shí)別策略,即不 同樣品測(cè)序片段兩端加組合特異的一對(duì)長(zhǎng)Sbp的index序列。下機(jī)的不同樣品的原始數(shù)據(jù) 混在一起,因此需要根據(jù)測(cè)序reads兩端的index序列識(shí)別和分配數(shù)據(jù)。一次識(shí)別采用的 是illumina公司研發(fā)的識(shí)別程序,該識(shí)別程序嚴(yán)格的過(guò)濾條件會(huì)導(dǎo)致部分?jǐn)?shù)據(jù)損失,由于 測(cè)序錯(cuò)誤,測(cè)序reads兩端的index序列可能與其已知序列不完全匹配。一次識(shí)別的程序在 處理時(shí),只能容許index上存在1個(gè)錯(cuò)配,而錯(cuò)配數(shù)多于1的數(shù)據(jù)則不被識(shí)別,這種判斷標(biāo) 準(zhǔn)由于過(guò)于嚴(yán)格,會(huì)造成可觀(guān)的數(shù)據(jù)損失,特別是測(cè)序數(shù)據(jù)出現(xiàn)黑tile,大部分測(cè)序reads 兩端會(huì)不可避免引入錯(cuò)配,一次識(shí)別將導(dǎo)致大部分可用數(shù)據(jù)的損失,特別是當(dāng)測(cè)序質(zhì)量存 在嚴(yán)重問(wèn)題時(shí)。為了提高數(shù)據(jù)的識(shí)別效率,避免損失有價(jià)值的數(shù)據(jù),需要對(duì)未識(shí)別的數(shù)據(jù)進(jìn) 行二次識(shí)別,以提高數(shù)據(jù)的總識(shí)別效率。

      【發(fā)明內(nèi)容】

      [0004] 本發(fā)明提供一種基于SLAF簡(jiǎn)化基因組測(cè)序數(shù)據(jù)的二次數(shù)據(jù)識(shí)別方法,該技術(shù)首 先采用優(yōu)化index組合的方式,確保上機(jī)測(cè)序的兩兩index序列之間有3個(gè)堿基以上的差 異,以此確保后期二次識(shí)別的準(zhǔn)確性。在此基礎(chǔ)上利用使用全局比對(duì)算法結(jié)合項(xiàng)目樣品安 排的index先驗(yàn)信息對(duì)一次識(shí)別后的未識(shí)別數(shù)據(jù)進(jìn)行重新識(shí)別。為了降低數(shù)據(jù)識(shí)別的時(shí)間 成本,本發(fā)明在具體實(shí)施中,采用構(gòu)建畸變index數(shù)據(jù)庫(kù)的方式對(duì)數(shù)據(jù)進(jìn)行二次識(shí)別,畸變 index數(shù)據(jù)庫(kù)包含所有以前SLAF測(cè)序項(xiàng)目產(chǎn)生的發(fā)生測(cè)序錯(cuò)誤而未識(shí)別出index序列和其 對(duì)應(yīng)的原始index編號(hào),由于illumina提供index序列有限,不同時(shí)期測(cè)序的數(shù)據(jù)都使用 同樣的index,因此根據(jù)以往積累的數(shù)據(jù)構(gòu)建的數(shù)據(jù)庫(kù)可用于識(shí)別當(dāng)次的測(cè)序數(shù)據(jù),這樣就 不用每次都逐條對(duì)未識(shí)別index進(jìn)行全局比對(duì),大大節(jié)約的時(shí)間,同時(shí)保證識(shí)別準(zhǔn)確性。
      [0005] 具體地,本發(fā)明提供的基于SLAF簡(jiǎn)化基因組測(cè)序數(shù)據(jù)的二次數(shù)據(jù)識(shí)別方法包括 以下步驟:
      [0006] (1)優(yōu)化上機(jī)index組合,確保index組合之間的錯(cuò)配數(shù)大于3 ;
      [0007] (2)構(gòu)建畸變index數(shù)據(jù)庫(kù);
      [0008] (3)針對(duì)雙端index的SLAF測(cè)序數(shù)據(jù),根據(jù)測(cè)序結(jié)果中index與預(yù)先加入的index 之間的相似性,對(duì)測(cè)序數(shù)據(jù)進(jìn)行一次識(shí)別;
      [0009] (4)判斷一次識(shí)別效率是否低于預(yù)期值,當(dāng)?shù)陀陬A(yù)期值時(shí),采用構(gòu)建的畸變index 數(shù)據(jù)庫(kù)對(duì)步驟(3)中未識(shí)別的數(shù)據(jù)進(jìn)行二次識(shí)別。
      [0010] 其中,步驟⑴所述的優(yōu)化上機(jī)index組合的方法為:統(tǒng)計(jì)兩兩上機(jī)index序列之 間的錯(cuò)配數(shù),根據(jù)兩兩index序列間的錯(cuò)配數(shù),進(jìn)行index聚類(lèi),聚到一個(gè)類(lèi)中的兩兩index 之間的錯(cuò)配數(shù)高于3。
      [0011] 進(jìn)一步地,本發(fā)明采用全局比對(duì)算法統(tǒng)計(jì)兩兩上機(jī)index序列之間的錯(cuò)配數(shù),計(jì) 算方法如下:
      [0015] 全局比對(duì)算法構(gòu)建了一個(gè)二維矩陣F,矩陣的橫軸和縱軸分別代表一條序列上每 個(gè)堿基的位置,F(xiàn)i j代表序列1上第i個(gè)位置和序列2上第j個(gè)位置的比對(duì)得分;在比對(duì) 開(kāi)始前要對(duì)矩陣的第一行&和第一列F Μ進(jìn)行初始化,通過(guò)初始化分配給第一行和第一 列的每個(gè)位置一個(gè)初始得分,分別記為d*i和d*j,d為一個(gè)比對(duì)空位的罰分;初始化后 矩陣中每個(gè)位置上的得分為對(duì)角線(xiàn)上前一格位置的得分F 1 u i加上錯(cuò)配罰分或匹配加分 S (AliB,),對(duì)角線(xiàn)所對(duì)應(yīng)的位置正上方一格的位置Fli, i加空位罰分,對(duì)角線(xiàn)所對(duì)應(yīng)的位置左 邊一格位置F1 u加空位罰分三者中得分最高的一個(gè),如此依次計(jì)算每個(gè)位置的得分,得到 兩條序列的最優(yōu)比對(duì)模式,根據(jù)最優(yōu)比對(duì)模式統(tǒng)計(jì)兩條序列之間的錯(cuò)配數(shù),即得到兩兩上 機(jī)index序列之間的錯(cuò)配數(shù)。
      [0016] 上述步驟(1)所述的index聚類(lèi),是指:以任一 index序列為一個(gè)類(lèi)的起點(diǎn),逐條 引入其它index序列,確保新引入的index序列與類(lèi)中的所有index序列之間有3個(gè)以上 錯(cuò)配,該過(guò)程一直繼續(xù)直到類(lèi)中滿(mǎn)足要求的index序列數(shù)目不再增加。
      [0017] 需要注意的是,這960個(gè)index是基于申請(qǐng)人現(xiàn)有的1022個(gè)由illumina測(cè)序公 司提供的index通過(guò)上述方法得到,因此當(dāng)原始index集合改變時(shí),符合3個(gè)以上錯(cuò)配要 求的index數(shù)也會(huì)發(fā)生變化,同樣的,如果改變序列之間錯(cuò)配數(shù)的篩選條件,比如要求兩兩 index序列間的錯(cuò)配數(shù)在4個(gè)以上時(shí),得到的符合篩選條件的index個(gè)數(shù)也會(huì)改變。本發(fā)明 實(shí)施例中,index聚類(lèi)經(jīng)過(guò)優(yōu)化組合后,兩兩index序列之間有3個(gè)以上錯(cuò)配的index -共 960個(gè)。兩兩index序列之間有4個(gè)以上錯(cuò)配的index -共476個(gè)。
      [0018] 步驟(2)所述的畸變index數(shù)據(jù)庫(kù)包含所有以前SLAF測(cè)序項(xiàng)目產(chǎn)生的發(fā)生測(cè)序 錯(cuò)誤而未識(shí)別出的index序列和其對(duì)應(yīng)的原始index編號(hào)。所述的"以前SLAF測(cè)序項(xiàng)目產(chǎn) 生的發(fā)生測(cè)序錯(cuò)誤而未識(shí)別出的index序列"是指以往采用SLAF測(cè)序積累的測(cè)序錯(cuò)誤而未 識(shí)別出的index序列。
      [0019] 本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,在本發(fā)明方法的步驟(4)中,所述的預(yù)期值通常指一 次識(shí)別率不低于70 %,優(yōu)選不低于80 %,更優(yōu)選不低于90 %。
      [0020] 本發(fā)明的方法中,步驟(4)在進(jìn)行二次識(shí)別時(shí),需要為未識(shí)別的index序列分配其 所屬的樣品編號(hào);然后根據(jù)index的分類(lèi),從未識(shí)別數(shù)據(jù)中分別將屬于每個(gè)樣品的數(shù)據(jù)提 取出來(lái)。
      [0021] 進(jìn)一步地,為未識(shí)別的index序列分配其所屬的樣品編號(hào)的方法為:遍歷當(dāng)次測(cè) 序數(shù)據(jù)產(chǎn)生的未識(shí)別index序列,當(dāng)某條未識(shí)別序列在畸變數(shù)據(jù)庫(kù)中有匹配且該index對(duì) 應(yīng)的原始index被當(dāng)次的測(cè)序樣品使用時(shí),根據(jù)與原始index序列的錯(cuò)配數(shù)確定來(lái)自未識(shí) 別index的樣品歸屬,就可以為這條未識(shí)別序列分配樣品編號(hào)。
      [0022] 更進(jìn)一步地,為了保證識(shí)別結(jié)果的可靠性,每條可以匹配到原始index的未識(shí)別 index要滿(mǎn)足兩個(gè)條件:1)未識(shí)別序列只與唯一一條原始index序列錯(cuò)配數(shù)不大于3,反 之,如果某條未識(shí)別數(shù)據(jù)與兩條及以上原始index的錯(cuò)配數(shù)都不大于3,則認(rèn)為仍無(wú)法確認(rèn) 該條index的歸屬;2)在滿(mǎn)足1)的基礎(chǔ)上,要求匹配到的原始index亦為當(dāng)次安排上
      當(dāng)前第1頁(yè)1 2 3 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1