用于多個分子信號的數(shù)據(jù)處理方法和裝置的制造方法

文檔序號：10618209閱讀：409來源：國知局

用于多個分子信號的數(shù)據(jù)處理方法和裝置的制造方法
【專利摘要】本發(fā)明提出了用于多個分子信號的數(shù)據(jù)處理方法。該方法計算任意不同的分子簇A與分子簇B的熒光信號之間的混雜系數(shù)C(A←B)和C(B←A)，用于衡量所述分子簇A和分子簇B的熒光信號相互混雜的嚴重程度，進而，可以干預、減少不同分子簇間相互混雜的干擾，以提高分子識別技術的辨識精度。
【專利說明】
用于多個分子信號的數(shù)據(jù)處理方法和裝置
技術領域
[0001] 本發(fā)明涉及分子測序的數(shù)據(jù)處理領域，具體來說，涉及一種數(shù)據(jù)處理方法和裝置。
【背景技術】
[0002] Illumina公司的基因序列合成的測序技術和基于該技術的測序平臺被廣泛使用的，已最成功的第二代基因測序技術之一。它首先將短的單鏈DNA分子隨機固定在芯片表面上，然后通過復制形成包含相同序列的單鏈分子簇。每一輪測序中，通過加入帶有不同英光標記的可逆終止子基團的四種單核巧酸，分子簇的互補鏈生長且僅每一輪生長一個堿基。之后分別在不同頻率的激光光譜上對芯片表面進行拍照。每個頻道主要對應一種英光。在拍照完成后，再將終止子基團洗去，W進行下一輪測序。送樣，通過對分子簇進行定位，然后提取同一個分子簇每輪測序的英光信號，并根據(jù)英光信號的不同類型確定每輪測序識別出的堿基，進而完成對送一分子簇包含序列的測序。送一技術被應用在GA，Hiseq和Miseq 等平臺上。關于送一技術的更詳細的內容及現(xiàn)有相關數(shù)據(jù)處理技術，可參見文獻Bentley etc, 2008 ;Li&Speed, 1999 ;Massin曲am&Gol血an, 2012 ;怖iteford etc, 2009 等。
[0003] 但是該技術還存在諸多不足。除光譜串色和相位失相W外，還包括下述問題；首先，由于測序儀精度限制，不同照片中的景物有從小于一個像素到數(shù)十甚至上百像素的位移和輕微的拉伸現(xiàn)象。同時，分子簇不發(fā)光的郝些位置也存在較小的非零、隨機的光強背景值。更為麻煩的是，由于序列片斷的分子是隨機落在芯片上的，因此形成的分子簇可能離得較近，送時每張照片中送些離得較近的分子簇的信號將混雜在一起相互影響（如圖1A、圖 1B、圖1C和圖2,圖1A是現(xiàn)有技術測得的一輪測序一個頻道的圖片的局部示意圖，顯示了離得較近的分子簇；圖1B是經(jīng)過光譜串色和相位失相的校正后兩個離得較近的分子簇信號部分測序輪的示意圖，此圖中第二個分子簇對第一個分子簇信號產(chǎn)生相鄰分子簇混雜，并導致第一個分子簇的第13個堿基被錯誤辨識；圖1C是相鄰分子簇信號混雜的示意圖；圖 2是兩個離得較近的分子簇的定位和產(chǎn)生信號混雜的示意圖，當兩個分子簇離得較近時，根據(jù)英光信號最大值確定的兩個分子簇的位置會相互靠近，同時產(chǎn)生信號混雜）。如圖2所示，離得較近的分子簇的坐標位置的確定也有可能存在偏差。
[0004] 針對上述相關技術中的難題，目前尚未提出有效的解決方案。
[0005] W下是對本領域的相關術語的解釋：
[0006] 分子簇：英文名稱為Cluster,指分子測序過程中特定分子的集合，該集合內包含具有相同序列的分子，并且送些分子之間的平均距離小于不同分子簇的分子之間的平均距離。
[0007] 巧IJ序：測序的目的為識別分子簇內分子的序列。所述分子的序列指所述分子中特定位置的分子基本元件的類型。W DNA分子測序為例，其序列為DNA分子中特定片斷的每個堿基的類型。
[0008] 英光信號；英文名稱為fluorescence intensity,指通過預定測量方式得到的，分子簇內分子英光標記受激發(fā)發(fā)出的光強，亦稱作英光強度。
[0009] 信號混雜；無英文名稱，指任一分子簇的英光信號中出現(xiàn)的來源于其它分子簇英光標記的英光信號。
[0010] 頻道；英文名稱為channel,對某一狀態(tài)下的分子簇英光標記進行測量時，每種測量方式稱為一個頻道。
[0011] 測序輪：英文名稱為cycle, W不同測量方式對分子英光標記進行測量時，對一種狀態(tài)的測量過程為一個測序輪。
[0012] 光譜串色，英文名稱為laser-crossta化或spectra-crossta化，指某種類型的基團對應的英光標記在超過一個頻道中引起英光信號不為零的現(xiàn)象。
[0013] 相位失相，英文名稱為地asing，指特定位置的基團對應的英光標記在超過一個測序輪中引起英光信號不為零的現(xiàn)象。
[0014] 分子簇定位，英文名稱為template generation,指確定圖像中的哪些坐標存在符合預定條件的分子簇。

【發(fā)明內容】

[0015] 針對相關技術中存在的難題，尤其是離得較近的分子簇的信號會混雜在一起相互影響，本發(fā)明提出一種用于多個分子的測序數(shù)據(jù)的處理方法。
[0016] 該方法的內容包括：
[0017] (1)計算任意分子簇A與符合預定條件的分子簇B的英光信號之間的混雜系數(shù) C (A ^ B)，用于衡量所述分子簇A的英光信號中所述分子簇B的混雜的嚴重程度。
[0018] (2)利用計算出的混雜系數(shù)，對分子簇英光信號進行處理。
[0019] 本發(fā)明的意義在于；本發(fā)明提出的數(shù)據(jù)處理方法通過計算不同分子簇英光信號之間的混雜系數(shù)，有效的衡量了所述不同分子簇英光信號之間的干擾或混雜的嚴重程度。進而，能夠在進行分子測序時通過對離得較近的分子簇信號進行處理，并將處理結果用于分子序列識別和輸出序列識別的相關信息，W極大提升分子識別技術的辨識精度。現(xiàn)有技術使用圖像去模糊化的方法減少分子簇英光信號混雜，但部分英光信號的混雜程度不符合模糊化方法使用的核函數(shù)模式，致使分子簇的英光信號中仍殘留一定程度的混雜，影響序列識別的精度。本發(fā)明有效彌補了現(xiàn)有技術中的送一不足。
[0020] 本發(fā)明提出的數(shù)據(jù)處理方法的技術路線包括：
[0021] (1)計算任意分子簇A與符合預定條件的分子簇B的英光信號之間的混雜系數(shù) C (A ^ B)，所述C (A ^ B)用于衡量分子簇A的英光信號中來源于分子簇B的混雜的嚴重程度，其值為E(A^B) 與E度^B) 的比，其中，所述E(A^B) 為所述分子簇A的英光信號中屬于分子簇B中分子英光標記的英光信號，所述E度^ B)為所述分子簇B的英光信號中屬于所述分子簇6中分子英光標記的英光信號。通過下述公式計算所述"4^8):
[0022] C(A ^ B) = ar卵inc(f (lA-clB)+hk));
[002引其中，h(c)是預先設定的單調非減函數(shù)，用于控制過大的混雜系數(shù)對序列識別精度的影響，Ια和I e為分子簇A和分子簇B在預先指定的測序輪和測序頻道的英光信號，
:用于衡量輸入英光信號中混雜的嚴重程度。其中η為測序輪的數(shù)量，對測序輪數(shù)j，r，為預先設定的函數(shù)，W ,為根據(jù)所有分子簇在第j輪測序中的英光信號計算出的標量或是預先設定的常數(shù)。輸入信號中的高的混雜使f(I)的值變大，因此計算出的混雜系數(shù)使分子簇A的英光信號進行信號混雜的校正后其混雜程度減小。
[0024] 計算a r g J?) + /;(c))時，通過使用分位數(shù)法求f(iA-cIe)+h(c)的導函數(shù)零點的方法完成。
[0025] (2)根據(jù)所述混雜系數(shù)對對所述分子簇英光信號進行處理，W完成分子簇中分子的序列的識別和序列識別相關信息的計算。
[0026] 其中，對所述分子簇英光信號進行處理包括，對分子簇英光信號中的信號混雜進行校正，校正方法包括：
[0027] 通過下述公式計算所述分子簇的沒有信號混雜的英光信號所組成的矩陣Ii:
[002引 C · Ii= I 0;
[0029] 其中在所述矩陣Ii中，每行的元素對應一個分子簇的英光信號，每列的元素對應一個測序輪中一個頻道的所有分子簇的英光信號；所述C為由各個分子簇之間的混雜系數(shù) 所組成的矩陣；所述I。為需要進行所述校正的分子簇英光信號所組成的矩陣，在矩陣I。中，每行的元素對應一個分子簇的英光信號，每列的元素對應一個測序輪中一個頻道的所有分子簇的英光信號。
[0030] 對所述分子簇英光信號進行處理還包括對校正過信號混雜的分子簇英光信號進行后續(xù)處理，W完成分子序列的識別。
[0031] (3)為了更容易計算分子簇間的混雜系數(shù)，本方法在計算不同分子簇的英光信號之間的混雜系數(shù)之前采用預定方式對輸入數(shù)據(jù)進行處理，所述預定方式包括W下至少之
[0032] 校正光譜串色、校正相位失相、對原始圖像數(shù)據(jù)進行預處理生成所述分子簇英光信號。
[0033] 對原始圖像數(shù)據(jù)進行預處理生成所述分子簇英光信號時，本方法包括下述步驟：
[0034] 移除背景光，正規(guī)化，生成對準模版，分子簇定位和提取分子簇英光信號。
[0035] 其中，所述生成對準模板步驟包括：
[0036] 對準存在光譜串色的頻道的圖像，并校正所述對準的圖像的光譜串色；
[0037] 將各個所述校正過光譜串色的圖像中相同位置的像素的亮度進行比較，保留所述相同位置中亮度最大的值，生成對準模板。
[0038] 所述生成對準模板步驟中，將不同圖像（或圖像同對準模板）對準的方法包括：
[0039] 選取需要對準的兩幅圖像中預定坐標范圍和預定數(shù)量的區(qū)域，將其中一幅圖像的所選區(qū)域進行位移操作；
[0040] 對兩幅圖像的預定坐標范圍的區(qū)域，搜索其中一幅圖像所述區(qū)域的整點坐標的位移，并將所述區(qū)域與另一幅圖像中所述區(qū)域的最大相關對應的位移坐標作為初始點，通過 BFGS或其他求解非約束最優(yōu)化問題的算法定位位移。
[0041] 所述分子簇定位步驟包括：
[0042] 對校正過光譜串色的圖像進行定位操作，所述定位操作包括：
[0043] 查找所述校正過光譜串色的圖像中的亮點，并通過目標亮點及所述目標亮點周圍的多個亮點的英光信號，分別在兩個方向上擬合拋物線，并計算所述拋物線的對稱軸W確定所述目標亮點的坐標；
[0044] 通過不存在鄰居的亮點的坐標均值計算各個亮點所對應的分子簇的坐標，其中所述不存在鄰居的亮點為一個包含亮點的單位像素內的亮點，且在所述包含亮點的單位像素的周圍兩個單位像素范圍內不存在除自身所包含的亮點外，其他同頻道同測序輪的亮點。
[0045] 根據(jù)本發(fā)明的另一方面，提供了一種數(shù)據(jù)處理裝置。
[0046] 該裝置包括：
[0047] 計算混雜系數(shù)模塊，用于計算不同分子簇的英光信號之間的混雜系數(shù)。其中，任意分子簇A與符合預定條件的分子簇B的英光信號之間的混雜系數(shù)C (A ^ B)用于衡量所述分子簇B對所述分子簇A的英光信號產(chǎn)生的混雜的嚴重程度。
[0048] 該裝置還可W包括，處理模塊，用于通過所述混雜系數(shù)對分子簇英光信號進行處理，W完成分子序列的識別。
[0049] 該裝置還可W包括，預處理模塊，用于在計算不同分子簇的英光信號之間的混雜系數(shù)之前采用預定方式對輸入數(shù)據(jù)進行處理。
[0050] 其中，計算混雜系數(shù)模塊進一步用于計算如下的混雜系數(shù)；對任意分子簇A和符合預定條件的分子簇8，所述混雜系數(shù)"4^8)為E(A^B) 與E度^B)的比，其中，所述E (A ^ B)為所述分子簇A的英光信號中來源于分子簇B的英光標記的英光信號，所述 E@ ^ B)為所述分子簇6的英光信號中來源于所述分子簇6中分子英光標記的英光信號。
[0051] 計算混雜系數(shù)模塊進一步用于通過下述公式計算所述C(A ^ B):
[0052] C(A ^ B) = ar卵inc(f (lA-clB)+hk));
[0053] 其中，h(c)是預先設定的單調非減函數(shù)，Ια和I e為分子簇A和分子簇B在預先指定的測序輪和測序頻道的英光信號，
其中η為測序輪的數(shù)量，對測序輪數(shù)j，r，為預先設定的函數(shù)，W ,為根據(jù)所有分子簇在第j輪測序中的英光信號計算出的標量或是預先設定的常數(shù)，其中j > 1。
[0054] 處理模塊可進一步包括校正單元，用于對分子簇英光信號中的信號混雜進行校正，校正方法包括：
[00巧]通過下述公式計算所述分子簇的沒有信號混雜的英光信號所組成的矩陣：
[005引 C · Ii= I 0;
[0057] 其中在所述矩陣Ii中，每行的元素對應一個分子簇的英光信號，每列的元素對應一個測序輪中一個頻道的所有分子簇的英光信號；所述C為由各個分子簇之間的混雜系數(shù) 所組成的矩陣；所述I。為需要進行所述校正的分子簇英光信號所組成的矩陣，在矩陣I。中，每行的元素對應一個分子簇的英光信號，每列的元素對應一個測序輪中一個頻道的所有分子簇的英光信號。
[0058] 處理模塊可進一步包括下游處理單元，用于對校正過信號混雜的分子簇英光信號進行后續(xù)處理，W完成分子序列的識別。
[0059] 其中，預處理模塊包括圖像處理單元和預處理單元，圖像處理單元用于當輸入數(shù) 據(jù)為測序得到的圖像時，對圖像進行處理W生成分子簇英光信號，預處理單元用于對分子簇英光信號進行處理W符合計算混雜系數(shù)所需的條件。
[0060] 其中，圖像處理單元進一步用于采用本發(fā)明的方法，對測序得到的圖像進行W下操作W生成分子簇英光信號：移除背景光，正規(guī)化，生成對準模版，分子簇定位和提取分子簇英光信號。
[0061] 其中，圖像處理單元包括校正子單元和定位子單元：
[0062] 所述校對單元用于校正存在光譜串色的頻道對應的圖像的光譜串色；
[0063] 所述定位子單元用于對所述校正過光譜串色的圖像進行分子簇定位操作。
【附圖說明】
[0064] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案，下面將對實施例中所需要使用的附圖進行簡單的介紹。顯而易見地，下面描述中的附圖僅僅符合本發(fā)明的一些實施例，對于本領域普通技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可W根據(jù)送些附圖獲得其他實施例對應的附圖。
[0065] 圖1A是現(xiàn)有技術測得的一輪測序一個頻道的圖片的局部示意圖；
[0066] 圖1B是經(jīng)過光譜串色和相位失相的校正后兩個離得較近的分子簇信號部分測序輪的示意圖，此圖中第二個分子簇對第一個分子簇信號產(chǎn)生相鄰分子簇混雜，并導致第一個分子簇的第13個堿基被錯誤辨識；
[0067] 圖1C是Η個分子簇之間發(fā)生信號混雜的示意圖；
[0068] 圖2是離得較近的分子簇對分子簇定位產(chǎn)生影響的示意圖；
[0069] 圖3是根據(jù)本發(fā)明實施例的數(shù)據(jù)處理方法的流程示意圖；
[0070] 圖4是根據(jù)本發(fā)明實施例的數(shù)據(jù)處理方法的步驟流程的示意圖；
[0071] 圖5是根據(jù)本發(fā)明實施例的數(shù)據(jù)處理結果示意圖；
[0072] 圖6是根據(jù)本發(fā)明實施例的數(shù)據(jù)處理裝置的結構示意圖。
【具體實施方式】
[0073] 下面將結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；?本發(fā)明中的實施例，本領域普通技術人員所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。
[0074] 在實現(xiàn)本發(fā)明的過程中發(fā)明人發(fā)現(xiàn)，在現(xiàn)有的分子測序的技術中方案中，部分基于測序儀器提供的分子簇的英光信號來進行（送一數(shù)據(jù)被存儲在擴展名為CIF的文件或未壓縮的TXT文檔中）。送一格式的文件主要包括每個分子簇每輪測序在每個頻道上的英光信號。由于測序儀器提供的數(shù)據(jù)已扔掉因距離過近而被混雜得較嚴重的分子簇，因此目前的方法對混雜的信號均沒有太好的辦法去處理，而是采用穩(wěn)健性的方法盡力減少小部分混雜帶來的影響。
[0075] 根據(jù)本發(fā)明的實施例，提供了一種數(shù)據(jù)處理方法，主要應用于分子測序中。該方法通過計算任一分子簇與符合預定條件的另一分子簇間的混雜系數(shù)，并將計算出的混雜系數(shù) 應用于分子序列的識別，從而克服信號混雜對序列識別準確度的影響。
[007引如圖3所示，根據(jù)本發(fā)明實施例的數(shù)據(jù)處理方法包括：
[0077] 步驟S2,計算任意分子簇A與符合預定條件的分子簇B的英光信號之間的混雜系數(shù)，任意分子簇A和符合預定條件的分子簇B的混雜系數(shù)C (A ^ B)用于衡量分子簇A中來源于分子簇B的混雜的嚴重程度。發(fā)明人發(fā)現(xiàn)，對任一分子簇A和在A的英光信號中具有混雜的分子簇B，在任意測序輪和頻道中，分子簇B在A中的混雜與分子簇B自身的英光信號的比值近似不變，因此，發(fā)明人在實施例中使用該比值作為混雜系數(shù)"4^8)的值。發(fā) 明人還發(fā)現(xiàn)，只有距離較近的分子簇會存在相互混雜的現(xiàn)象。因此只計算任意分子簇與和它距離不超過預定像素值的其它分子簇之間的混雜系數(shù)。同時，由于可W通過預處理，使沒有混雜的分子簇的英光信號僅在與其序列對應的頻道中存在較大數(shù)值，而在其余頻道中近似為〇，因此使用下述公式計算混雜系數(shù)"4^8):;
[0078] C(A ^ B) = ar卵inc(f (Ia-cIb)+1i(c));
[0079] 其中，h(c)是預先設定的單調非減函數(shù)，Ια和I e為分子簇A和分子簇B在預先指定的測序輪和測序頻道的英光信號，
其中η為測序輪的數(shù)量，對測序輪數(shù)j，r，為預先設定的函數(shù)，用于計算測序輪j中混雜的嚴重程度，W ,為根據(jù)所有分子簇在第j輪測序中的英光信號計算出的標量或是預先設定的常數(shù)，為計算混雜系數(shù)時測序輪j 的權重，C為預定區(qū)間內的實數(shù)。
[0080] 對通過實施例的預處理方式進行預處理的英光信號，r,可W為如下形式：
[0081]
[0082] 其中，r為頻道的數(shù)量，1化k)為輸入英光信號在第j個測序輪、第k個頻道中的數(shù)值。
[0083] 在通過上述公式計算混雜系數(shù)時，argmin。(f (Ia-cIb) +h (C))可通過使用分位數(shù)法求f(lA-cIe)+h(c)的導函數(shù)零點的方法得到。
[0084] 步驟S3,根據(jù)混雜系數(shù)對不同分子簇的英光信號進行處理。
[0085] 在實施例中，發(fā)明人通過該混雜系數(shù)校正分子簇英光信號中的信號混雜。使用的校正方式為，通過下述公式計算分子簇的沒有信號混雜的英光信號所組成的矩陣Ii:
[008引 C · Ii= I 0;
[0087] 其中在矩陣Ii中，每行的元素對應一個分子簇的英光信號，每列的元素對應一個測序輪中一個頻道的所有分子簇的英光信號；C為由各個分子簇之間的混雜系數(shù)所組成的矩陣；I。為需要進行校正的分子簇英光信號所組成的矩陣，在矩陣I。中，每行的元素對應一個分子簇的英光信號，每列的元素對應一個測序輪中一個頻道的所有分子簇的英光信號。
[0088] 在通過混雜系數(shù)校正分子簇英光信號中的信號混雜后，還可W采用預定方式對校正過信號混雜的分子簇英光信號進行后續(xù)的處理W完成序列的識別和相關信息的計算。
[0089] 另外，在計算不同分子簇的英光信號之間的混雜系數(shù)之前，根據(jù)使用的計算混雜系數(shù)的方法和輸入數(shù)據(jù)的特征，還需要對輸入數(shù)據(jù)進行相應的預處理操作，包括：
[0090] 步驟S1，在計算不同分子簇的英光信號之間的混雜系數(shù)之前，采用預定校正方式對分子簇英光信號進行校正，預定校正方式包括W下至少之一：
[0091] 步驟S121，校正光譜串色；
[009引步驟S122,校正相位失相；
[0093] 步驟S11，對原始圖像數(shù)據(jù)進行預處理生成分子簇英光信號。
[0094] 其中，對原始圖像數(shù)據(jù)進行預處理生成分子簇英光信號包括：
[0095] 步驟Sill,讀取原始圖像數(shù)據(jù)，進行正規(guī)化，具體作法為：
[0096] 根據(jù)前k輪的測序圖像數(shù)據(jù)計算不同頻道中的圖像的各個位置的英光強度尺度，其中k > 1，具體的，查找圖像中的亮點，其中亮點為在同一幅圖像中，根據(jù)預先設定的規(guī)則篩選出的像素，且篩選出的像素的英光強度超過其周圍像素的英光強度；
[0097] 將圖像的平面區(qū)域分割成多個不重疊的區(qū)域，并在每個頻道中計算前k輪測序中，圖像中每個區(qū)域所包含的亮點的英光強度的中位數(shù)；
[0098] 根據(jù)預定規(guī)則移除圖像中目標區(qū)域預定范圍內的不符合預定規(guī)則的區(qū)域中的亮占. ;、、、?
[0099] 通過最小二乘的方法使用圖像中剩余區(qū)域中計算出的亮點的中位數(shù)擬合出高次曲面，并根據(jù)高次曲面計算在圖像中剩余區(qū)域的英光強度尺度，其中，高次曲面的曲面次數(shù) 與圖像中的區(qū)域數(shù)量成正比。
[0100] 將圖像各像素的光強值除W當前測序頻道對應位置的英光強度尺度。
[0101] 此外，對原始圖像數(shù)據(jù)進行預處理生成分子簇英光信號進一步包括：
[0102] 步驟S112,計算原始圖像數(shù)據(jù)的背景光，并移除背景光；
[0103] 步驟S113,生成對準模版，具體步驟為：首先對準預定測序輪中存在光譜串色的頻道，然后校正存在光譜串色的頻道的圖像的光譜串色，將各個校正過光譜串色的圖像中相同位置的像素的英光信號進行比較，保留相同位置中英光信號最大的值，生成對準模板。對準任意兩幅圖像的步驟為，選取需要對準的兩幅校正過光譜串色的圖像中坐標相同的區(qū) 域，將其中一幅圖像的所選區(qū)域進行位移操作；搜索所選區(qū)域的整點坐標的位移，并將最大相關對應的位移坐標作為初始點，通過BFGS或其他求解非約束最優(yōu)化問題的算法定位位移。
[0104] 步驟S114,在對準的圖像上進行分子簇定位操作。
[0105] 具體的，在對準的圖像上校正光譜串色，然后查找校正過光譜串色的圖像中的亮點，并通過目標亮點及目標亮點周圍像素的英光信號，分別在兩個方向上擬合拋物線，并計算拋物線的對稱軸，將對稱軸作為目標亮點的坐標；
[0106] 通過不存在鄰居的亮點的坐標均值計算各個亮點所對應的分子簇的坐標，其中不存在鄰居的亮點為滿足如下條件亮點：在包含亮點的單位像素的周圍兩個單位像素范圍內不存在除自身所包含的亮點外，其他同頻道同測序輪的亮點。
[0107] 步驟S115,提取分子簇英光信號。具體方法為，通過將各幅圖像同對準模版對準，計算各個分子簇在各幅圖像中的位置，W獲取各個分子簇的英光信號。
[0108] 其中，預處理操作步驟S1還可包括：
[0109] 步驟S123,在對分子簇英光信號校正完光譜串色后再對分子簇英光信號進行相鄰基團干擾校正，其中相鄰基團干擾為分子簇在前一個位置的基團類別對它后繼基團的英光信號產(chǎn)生的不同干擾的現(xiàn)象。
[0110] 具體的，在校正完光譜串色后，對任意基團類別a和類別b，對第L測序輪的所有類別為a類型的分子簇，計算第L+1測序輪的所有類別為b類型的分子簇對應的頻道上的分子英光強度的平均數(shù)或中位數(shù)，得到第L測序輪中a類型的英光標記對第L+1測序輪中 b類型的英光信號產(chǎn)生干擾時，b類型的英光標記的平均尺度，其中L > 1 ;
[0111] 對任意測序輪M，其中Μ > 2,根據(jù)第M-1輪辨識出的序列類別，將第Μ輪的每個頻道上的分子簇的英光信號除W受第M-1輪辨識出的類別的干擾下當前頻道的英光標記的平均尺度。
[0112] 本發(fā)明的上述方法適用于任意兩個分子簇的英光信號之間具有任意特征的混雜系數(shù)，上述方法通過混雜系數(shù)降低信號混雜的干擾，提高了分子簇序列辨識的準確率。
[0113] 根據(jù)本發(fā)明的實施例本發(fā)明還提供了一種數(shù)據(jù)處理裝置，該裝置可W應用于分子識別領域，用于使用上述本發(fā)明的方法更準確的完成對分子序列的辨識。
[0114] 如圖6所示，該裝置包括：
[0115] 計算混雜系數(shù)模塊D2,用于計算不同分子簇的英光信號之間的混雜系數(shù)。其中，任意分子簇A與符合預定條件的分子簇B的英光信號之間的混雜系數(shù)C(A ^ B)用于衡量分子簇B對分子簇A的英光信號產(chǎn)生的混雜的嚴重程度。
[0116] 處理模塊D3,用于通過混雜系數(shù)對分子簇英光信號進行處理，W完成分子序列的識別。
[0117] 該裝置還可W包括，預處理模塊D1，用于在計算不同分子簇的英光信號之間的混雜系數(shù)之前采用預定方式對輸入數(shù)據(jù)進行處理。
[0118] 其中，計算混雜系數(shù)模塊D2進一步用于計算如下的混雜系數(shù)；對任意分子簇A和符合預定條件的分子簇B，混雜系數(shù)C (A ^ B)為E (A ^ B)與E度^ B)的比，其中，E (A ^ B) 為分子簇A的英光信號中來源于分子簇B的英光標記的英光信號，E度^ B)為分子簇B的英光信號中來源于分子簇B中分子英光標記的英光信號。
[0119] 計算混雜系數(shù)模塊02進一步用于通過下述公式計算"4^8):
[0120] C(A ^ B) = ar卵inc(f (lA-clB)+hk));
[0121] 其中，h(c)是預先設定的單調非減函數(shù)，Ια和I e為分子簇A和分子簇B在預先指定的測序輪和測序頻道的英光信號，
其中η為測序輪的數(shù)量，對測序輪數(shù)j，r，為預先設定的函數(shù)，W ,為根據(jù)所有分子簇在第j輪測序中的英光信號計算出的標量或是預先設定的常數(shù)，其中j > 1，C為預定區(qū)間內的實數(shù)。
[0122] 處理模塊D3可進一步包括校正單元D31，用于對分子簇英光信號中的信號混雜進行校正，校正方法包括：
[0123] 通過下述公式計算校正過信號混雜的不同分子簇的英光信號所組成的矩陣Ii:
[0124] C · Ii= I 0;
[01巧]其中在矩陣Ii中，每行的元素對應一個分子簇的英光信號，每列的元素對應一個測序輪中一個頻道的所有分子簇的英光信號；C為由各個分子簇之間的混雜系數(shù)所組成的矩陣；I。需要進行校正的分子簇英光信號所組成的矩陣，在矩陣I。中，每行的元素對應一個分子簇的英光信號，每列的元素對應一個測序輪中一個頻道的所有分子簇的英光信號。
[0126] 處理模塊D3可進一步包括下游處理單元D32,用于對校正過信號混雜的分子簇英光信號進行后續(xù)處理，進而可完成分子序列的識別。
[0127] 其中，預處理模塊D1包括圖像處理單元D11和預處理單元D12,圖像處理單元用于當輸入數(shù)據(jù)為測序得到的圖像時，對圖像進行處理W生成分子簇英光信號，預處理單元用于對分子簇英光信號進行處理W符合計算混雜系數(shù)所需的條件。
[012引其中，圖像處理單元D11進一步用于采用本發(fā)明的方法，對測序得到的圖像進行 w下操作w生成分子簇英光信號：移除背景光，正規(guī)化，生成對準模版，分子簇定位和提取分子簇英光信號。
[0129] 其中，圖像處理單元D11包括校正子單元DC和定位子單元D114 :
[0130] 校對單元DC用于校正存在光譜串色的頻道對應的圖像的光譜串色；
[0131] 定位子單元D114用于對校正過光譜串色的圖像進行分子簇定位操作。
[0132] 該裝置的不同模塊可通過不同的硬件或軟件及其組合實現(xiàn)。該裝置可配置多個相同功能的子單元，通過將任務分配給送些子單元同時處理W加快數(shù)據(jù)處理速度。例如，可通過0PENMP將模塊D2中計算各混雜系數(shù)的部分并行化，或將計算各混雜系數(shù)的部分在GPU、 FPGA或DSP上實現(xiàn)從而可同時處理多個計算混雜系數(shù)的請求，也可通過同時配置多個該裝置的實例W加快數(shù)據(jù)處理速度。
[0133] 為了更好的理解本發(fā)明的方案構成，下面將W-具體的實施例進行闡述，實施例將本發(fā)明應用于DNA分子的測序，通過對輸入數(shù)據(jù)進行處理，提高了測序精度。應當注意的是，下述實施例的大標題只是表達該標題所闡述的內容，但是對于本發(fā)明的技術方案的實現(xiàn)順序并不限定。同樣的，實施例中的步驟只代表本發(fā)明的技術方案的一種可行實現(xiàn)，通過調整步驟的順序而對測序結果無實質性的正面影響的實現(xiàn)并不超出本發(fā)明的技術方案的范圍。
[0134] 圖4示出了本發(fā)明實施例的數(shù)據(jù)處理方法的示意性流程圖。
[0135] 一、數(shù)據(jù)的預處理和確定每個分子簇的位置：
[0136] 不同頻道間平均信號峰值在不同區(qū)域上的變化存在差異，如果不對它進行處理，則不同區(qū)域的光譜串色矩陣將會不一致，因而用估計出的光譜串色矩陣對串色進行校正時，偏差將會出現(xiàn)，從而對結果產(chǎn)生影響。然而由于信號峰值受分子簇中分子數(shù)量等因素影響，估計出的子區(qū)域的平均信號強度方差較大，因此本發(fā)明采用前四輪的測序數(shù)據(jù)對其進行估計，并用多項式擬合的方法對估計值進行平滑化。
[0137] 本步驟的流程如下：
[013引步驟S111，首先讀入圖像數(shù)據(jù)，然后用前四輪的數(shù)據(jù)估計不同頻道中圖像各個位置的光強尺度。
[0139] 送一估計步驟如下：
[0140] S1111.找出每幅圖像中的亮點。一個像素被看作為一個亮點；如果它的光強值比周圍8個像素都大并且光強值超過送幅圖光強的均值加上標準差的四分之一。
[0141] S1112.將整個區(qū)域切割成小正方形，在每個頻道中，對每個小正方形，計算前四輪數(shù)據(jù)落在該正方形內亮點光強的中位數(shù)。將中位數(shù)看作該小正方形的尺度估計。
[0142] S1113.移除郝些與周圍正方形光強尺度估計值偏離過遠的估計值。一個估計值被認為偏離過遠：如果它的值與周圍至多8個鄰居的均值的差大于鄰居中最大值與最小值的差。
[0143] S1114.在每個頻道中，對剩余的估計值，用最小二乘擬合出高次曲面，并將曲面在每個像素處的值作為光強尺度的估計。曲面的次數(shù)取決于每幅圖中正方形的數(shù)量。
[0144] 然后估計讀入數(shù)據(jù)的背景光，并將送一背景光減去，然后將每個像素都除W對應頻道的光強尺度。
[0145] 步驟S112,估計背景光的方法如下：
[0146] S1121.將每幅圖分成小正方形。使用小正方形中所有光強值的第k小的點作為該小正方形背景光的估計。
[0147] S1122.移除郝些與周圍正方形背景光估計值偏離過遠的估計值。"偏離過遠"的定義同光強尺度估計中的定義。
[014引S1123.使用周圍鄰居的背景光估計的均值代替被移除的估計值。
[0149] S1124.使用雙線性插值計算每個像素的背景光。
[0150] 接下來生成對準模版并對準前五輪圖片：
[0151] 對準圖片的基礎是芯片不同照片中發(fā)光的地方均為分子簇所在位置。因此對準的照片存在相關性，從而可W通過使用求最大相關的辦法找到照片位移量。然而由于同一輪的A，C頻道照片發(fā)光的位置，G，T頻道不會發(fā)光，因此兩者無法直接對準。同時由于不同頻道間的照片同一分子簇的位置不一定同時發(fā)光，因此相關性較弱，為實現(xiàn)高精度的對準，需設法加強此相關性，因此本發(fā)明通過求最大值生成模版來提高對準精度。
[0152] 在對準過程中，涉及到非整數(shù)像素時，光強值通過先后在X軸和y軸方向作分段Η 次插值估計得到。步驟S113,生成對準模版并對準前五輪圖片的方法如下：
[0153] S1131.通過步驟S11R將每輪C頻道的圖片與A頻道對準。估計A，C頻道間的光譜串色。校正對準圖片的串色，然后通過對每兩幅A和C圖片按像素取最大值生成對應測序輪的AC頻道模版，即將每幅圖片相同位置的光強相比較，保留其中取值最大的，從而生成對準模板。
[0154] S1132.將第二輪的模版同第一輪的模版對準。將第四輪的模版同第Η輪對準。用對準的第一輪和第二輪模版每個像素的最大值生成模版一，用第Η和第四輪的模版生成模版二。將模版二同模版一對準。
[0155] S1133.將前兩輪的G和Τ頻道圖片同模版二對準，將其它剩余的圖片同模版一對準。
[0156] 步驟S11R，將兩幅圖片對準的算法如下：
[0157] S11R1.將兩幅圖片正中間的小塊兒對準。對準的標準是送時兩圖之間的相關值最大。首先搜索整格點的位移，然后將最大相關對應的位移作為初始點用BFGS方法搜索更精確的位移。
[015引 S11R2. W兩幅圖片正中間的小正方形的位移為初始點，分別通過最大化相關的方法搜索位于兩幅圖片四角附近的小正方形之間的位移。
[0159] S11R3.將兩幅圖間的坐標差異看作仿射變換，使用Robust回歸分別計算X軸方向和y軸方向變換從而計算出兩幅圖間的仿射變換。
[0160] 最后識別各個分子簇的位置，計算每個分子簇在各頻道對應的光強尺度。
[0161] 步驟S114,識別分子簇的步驟如下：
[0162] S1141.通過步驟SC估計光譜串色。并校正光譜串色。校正方法為，將每個像素四個頻道的光強值看作四維向量，然后左乘估計出串色矩陣的逆。
[0163] S1142.找到每幅圖中的亮點。使用亮點中必和它上下左右共5個光強值通過分別在兩個方向上擬合拋物線并計算拋物線對稱軸的方法確定更精確的亮點坐標。一個像素點被確定為亮點：如果它的光強值比周圍8個相鄰像素的光強值都大并且它的光強值超過根據(jù)整幅圖片確定的某一閥值。
[0164] S1143.將每個像素看作一個格子，把找到的亮點放到送些格子中去。如果兩個相鄰格子滿足：在每一輪中至多存在一個頻道有亮點，則將兩個格子合并。合并指的是將包含的亮點總光強值低的格子中的亮點移到另一格子中去。
[0165] S1144.刪除連同周圍格子中所有亮點光強值總和過低的格子。刪除在五輪測序中光強值過大且光強無明顯變化的格子。刪除與鄰近格子相比，包含亮點光強均值過低的格子。
[0166] S1145.將剩下的所有包含光點的格子看作分子簇。使用包含的與鄰近格子位于不同頻道的光點的坐標均值作為該分子簇的坐標。
[0167] 步驟SC，估計m個頻道間光譜串色的方法如下：
[0168] SCI.正規(guī)化每個頻道使不同頻道上的方差相同。將輸入看作m維向量構成的總體。
[0169] SC2. W四個頻道上的單位向量為初始點，對所有輸入向量做k = m的k-means聚類。聚類時用到的距離定義為d(x, y) = 1-COS < X, y >
[0170] SC3.計算每一類在每個頻道上的中位數(shù)，從而得到每一類向量的估計。用送些向量構成正規(guī)化后數(shù)據(jù)的串色矩陣。
[0171] SC4.根據(jù)正規(guī)化的信息計算正規(guī)化前的串色矩陣。
[0172] 二、步驟S115，提取分子簇英光信號
[0173] 本步驟的流程如下：
[0174] 對讀入的每幅圖像，首先通過S112,去除其背景光，然后通過S11R計算它與模版對準所需變換。之后根據(jù)仿射變換計算出每個分子簇在送幅圖上的坐標。使用插值算法計算出每個分子簇的光強，再將送一光強除W對應頻道對應分子簇的平均尺度。相關算法上述內容已經(jīng)介紹過或可根據(jù)敘述直接實現(xiàn)，在此不再賞述。
[0Π 5] H、步驟S12,分子簇英光信號的預處理
[0176] CIF文件中每個分子簇包含一系列離散數(shù)字，共η行4列，每個數(shù)字表示一個測序輪一個頻道上的光強。在處理光譜串色和相位失相時，對第i個分子簇進行描述的如下的概率模型被廣泛接受：
[0177] Ii= λ iPSiMT+N+ε 1
[0178] 送里Ii表示CIF文件中記錄的光強值，S 1表示該分子簇的堿基序列，它和11 一樣，是η行4列的矩陣，每行只有一個元素為1，其余Η個元素均為0,1所在的位置對應該行表示的測序輪中該分子簇的堿基類別。Ρ是ηΧη的相位矩陣，其中第j行第1列的元素表示第1個位置的堿基在第j輪測序中發(fā)光的概率。而Μ是4X4的光譜串色矩陣，第j行第1 列的元素表示第1種堿基在第j個頻道的英光強度。ε 1則是η行4列的白噪聲矩陣，代表測量誤差。
[0179] 本步驟的流程如下：
[0180] 步驟S121，估計并校正光譜串色，具體步驟為：
[0181] 步驟S1211，使用SC估計串色矩陣，步驟S1212,校正光譜串色。
[0182] 步驟S122,全計并校正相位失相。具體步驟為：
[0183] 步驟S1221，估計相位矩陣。使用此相位矩陣作為初值，然后通過迭代加權最小二乘算法估計更精確的包含相位和光譜串色現(xiàn)象的4mX4m矩陣。送里m指測序輪數(shù)。
[0184] 步驟S1222,使用新的矩陣校正英光信號。
[0185] 步驟S123,校正相鄰堿基干擾現(xiàn)象，校正送一現(xiàn)象的步驟如下：
[0186] 步驟S1231.根據(jù)每個分子簇每個測序輪最大的光強值確定其堿基類別。
[0187] 步驟S1232.使用前四輪的數(shù)據(jù)，計算當前一輪為某一種堿基時，本輪每種堿基在對應頻道上的光強的中位值。
[0188] 步驟S1233.對每個分子簇每一輪數(shù)據(jù)，根據(jù)上一輪辨識出的堿基類別，將本輪每個頻道數(shù)據(jù)分別除W對應的光強中位值。然后重新完成本輪的辨識。
[0189] 其中，步驟S12可替換為：
[0190] 步驟S12R，使用現(xiàn)有的其它方法完成對分子簇英光信號中除信號混雜W外的其它問題進行校正。
[0191] 四、步驟S2，校正分子簇間的信號混雜
[0192] 本步驟依賴于模型：
[0193]
[0194] 其中Μ是光譜串色矩陣，P是相位矩陣，兩者定義在步驟S12中給出；C是信號混雜矩陣，其兩個維度的長度均等于分子簇的數(shù)量；ξ是觀測誤差構成的Η維數(shù)組，S是由序列構成的非0即1的Η維狀態(tài)數(shù)組，代表所有分子簇的序列，0為提取的光強構成的Η維數(shù)組， W上Η個Η維數(shù)組Η個維度的長度分別為分子簇的數(shù)量、測序輪的數(shù)量和頻道的數(shù)量。Μ、Ρ 的具體意義不再賞述，C中第i行第1列的元素表示第1個分子簇的英光標記在第i個分子簇的CIF數(shù)據(jù)中的發(fā)光情況，記作混雜系數(shù)C α ^ 1)，或Cii。Η _4將Η中固定除第r維外另兩維下標，遍歷第r維得到的向量左乘矩陣A得到新數(shù)組中對應位置的向量。送一運算滿足的性質包括同維運算時的相合性（簽化4 )，:不同維運算時的可交換性（Η ?,. ^S 二 Η 及 J )，可逆性（對可逆的 A，Η ?,. = Η] )等。而通過使用送一運算的可交換性（即先算哪個維度再算哪個維度結果不變），可W得到：
[0195]
[019引其中務1，： I是校正了光譜串色和相位問題的數(shù) 據(jù)。因此可W先進行其它現(xiàn)象的校正再估計出分子簇相互混雜C，并通過求解巧@2: P@3 M)?i投二0或直接計算0句完成對混雜的校正。
[0197] 在估計信號混雜矩陣時，可W通過建立衡量分子簇信號質量的目標函數(shù)，然后優(yōu) 化送一函數(shù)的方法確定兩個分子簇間的混雜系數(shù)，從而估計出混雜矩陣、求解模型方程W 移除混雜。具體地，首先設定混雜矩陣對角線的元素均為1，而離得較遠的分子簇間不存在相互混雜（值為0)。而對近距離的分子簇之間，W分子簇1和分子簇2為例，使用如下兩分子簇模型：
[019 引
[0199] 通過變形得到：
[0200] Ii= C 1212+(1-。12。21) Si+( ξ i_Ci2 ξ 2)
[020。送里ξ 1-Ci2 ξ 2期望為0,而S 1在除對應第1個分子簇的堿基類別外的頻道中值為0。因此可W找到第1個分子簇各位置堿基類別，然后移除對應的頻道，在剩下的頻道中完成對Ci2的估計，送一估計可通過建立目標函數(shù)并求其極值實現(xiàn)。而在校正分子簇信號相互混雜時，較大的混雜系數(shù)會為四個頻道的光強數(shù)據(jù)帶來額外精度損失，因此，需要在目標函數(shù)中引入對大混雜系數(shù)的懲罰。而注意到在分子簇1各個堿基對應頻道W外的頻道上，
時它的期望值均為0,所W可選擇形如g(l，2) (t) =f(Ii-tl2)+h(t)的目標函數(shù)，其中h(t)是單調增的函數(shù)而函數(shù)f可寫作如下的形式：
i 是對第j輪測序精度的度量，而函數(shù)r，衡量第j輪信號的被混雜的嚴重程度。
[0202] 通過使用加權LAD方法完成對混雜比例的估計，假設Ii -中每輪測序最大的信號所在的頻道對應分子簇1該位置的堿基類別，同時令h(t)取線性函數(shù)，則可得到目標函數(shù)：
[020引 g(l，。（t) = f (Ii-tl2)+ut
[0204] 其中的u為根據(jù)權重或分子簇英光信號的觀測誤差計算得到的正常數(shù)，函數(shù)f定義如下：
[0205]
[0206] 它代表對輸入信號純凈程度的衡量。通過對目標函數(shù)的優(yōu)化，可W得到各混雜系數(shù)的估計算法。
[0207] 步驟S2的方法如下：
[020引在完成初步的除相互混雜之外問題的校正后，進行下述工作。假設每次需要處理的圖片中包含η個分子簇。
[0209] 步驟S21，進行預處理工作，計算出計算混雜系數(shù)時所需的參數(shù)，步驟如下：
[0210] S211.對每個分子簇，取出每一測序輪中并非為最大信號的其它Η個信號值，計算送些信號的中位值，然后通過中位值估計方差。 C ，
[0211] S212.對每一輪測序j，計算W二一。C為任意正常數(shù)，其值不影響計算結果；(67 σ '1 為前一步估計出的第j輪測序時的方差。
[0212] S213.對參數(shù)ink (事先給定，在0.5到0.8的范圍內，送一值越高則測序精度略微提高但序列重復率增加，越低則相反），計算
[0213] 步驟S214,建立空的稀疏矩陣S。將分子簇編號賦值給一個與圖片大小相同的數(shù) 組中與分子簇位置對應的元素。對每個分子簇，通過數(shù)組找到與之距離不超過一定像素的所有分子簇，然后估計送些分子簇對它的混雜。
[0214] 步驟S22,對任意分子簇i和與其距離小于預定常數(shù)的分子簇j，估計混雜系數(shù) C(i^如，即(3。。估計方法如下：
[0215] S211.如果i = j，則將Cii賦值為1 ;否則進行下面的步驟。
[0216] S212.定義
。送里 0 = 0.001，
Ii和I，分別為分子簇i和分子簇j校正過其它混雜后的光強。將變量1設為0, r設為1，然后進行下一步工作。
[0217] S213.計算g(0. 61+0. 4r)，若其值大于t虹，則將1的值改變?yōu)?. 61+0. 4r，否則將 r的值改變?yōu)?. 61+0. 4r，然后如果I l-r| > 0. 001，則重復本步驟，否則進行下面的步驟。
[0218] S214.將 1 賦值給 Ci j。
[0219] 其中，步驟S2對不同混雜系數(shù)的估計可并行完成。送一并行可通過GPU編程，多核CPU或FPGA實現(xiàn)。
[0220] 四、步驟S3,進行后續(xù)處理
[0221] 本步驟包括：
[0222] 步驟S31，在完成步驟S2得到C的估計后，對未做任何處理的輸入的分子簇英光信號，或通過步驟S115得到的分子簇英光信號0,求解CD = 0得到校正過相互混雜的光強D
[0223] 步驟S32,對校正過分子簇信號相互混雜的光強數(shù)據(jù)重復步驟S12, W進行光譜串色、相位失相等的校正操作。
[0224] 步驟S33,對每個分子簇的每一輪數(shù)據(jù)，根據(jù)最大光強值所在頻道確定對應位置的堿基類別。根據(jù)分子簇信號的純度確定其質量值。輸出堿基類別和質量值。
[0225] 其中，步驟S2和S31可通過如下方式完成：
[0226] 步驟S2P，將分子簇坐標所在的平面區(qū)域通過預定方式進行分割，對每一子區(qū)域，選取子區(qū)域包含的所有分子簇和與該子區(qū)域的距離不超過預定數(shù)值的所有分子簇，對選取的分子簇執(zhí)行步驟S2和步驟S31，然后將該子區(qū)域包含的分子簇的計算結果作為所述校正過信號混雜的光強。對每一子區(qū)域的操作可并行完成，步驟S211到S213可W對每一子區(qū) 域分別執(zhí)行也可先于步驟S2P執(zhí)行。
[0227] 其中，步驟S31和步驟S32可替換為：
[022引步驟S3R1，對步驟S123得到的分子簇英光信號I，求解CS= I得到可直接用于進行辨識堿基的信號。
[0229] 步驟S32和步驟S33可替換為：
[0230] 步驟S3R2,輸出D，使用第Η方工具，如AYB (Massin曲am&Goldman, 2012)等完成測序。
[0231] 發(fā)明人采用本發(fā)明的技術方案對分子簇測序的英光信號數(shù)據(jù)進行了仿真測試，女口圖5所示；圖5是根據(jù)本發(fā)明實施例的數(shù)據(jù)處理結果示意圖，其中橫軸表示離最近分子簇的距離，縱軸表示數(shù)量，黑色部分（CACC improved PF reads)為采用本發(fā)明實施例后對測序精度的提高。X軸坐標代表離最近分子簇中必的距離。左側長條為通過本發(fā)明處理數(shù)據(jù)后完美匹配序列比例，中間的是通過本發(fā)明的方案但不校正分子簇信號相互混雜的結果，右側為識別出的分子簇的總數(shù)量?？梢?，離最近分子簇距離在1到3個像素的送部分分子簇的映射正確率提高最顯著。
[0232] 同時，發(fā)明人制作了應用本發(fā)明技術方案的軟件。該軟件可W輸入測序圖像數(shù)據(jù) 或分子簇英光信號數(shù)據(jù)，通過計算混雜系數(shù)，完成對信號混雜的校正，并輸出校正了信號混雜的分子簇英光信號或序列識別結果及質量值。根據(jù)本發(fā)明的技術方案，軟件分為預處理模塊、計算混雜系數(shù)模塊和處理模塊，分別用于對輸入數(shù)據(jù)的預處理、計算混雜系數(shù)和根據(jù) 混雜數(shù)據(jù)對輸入數(shù)據(jù)進行后續(xù)處理。預處理模塊分為圖像處理單元和預處理單元，圖像處理單元用于處理輸入數(shù)據(jù)為測序圖像的情形，預處理單元用于完成對數(shù)據(jù)的預處理使之符合計算混雜系數(shù)的條件。軟件的具體內容如上述步驟所示，不再賞述。該軟件的一個版本通過C++代碼編譯實現(xiàn)，該軟件的另一個版本通過Matl油程序實現(xiàn)。軟件的各部分步驟通過0PENMP實現(xiàn)并行處理，加快了執(zhí)行速度。
[0233] 綜上所述，借助于本發(fā)明的上述技術方案，通過對鄰近分子簇間的信號混雜的自適應的校正，從而可W更準確地完成對分子序列的辨識。此外，本發(fā)明還可W讀入原始圖片數(shù)據(jù)或分子簇英光信號數(shù)據(jù)，并輸出校正過信號混雜的分子簇英光信號數(shù)據(jù)，或輸出最終的有質量評估的分子序列，本技術可直接應用于處理采用橋式擴增技術的DNA測序儀器產(chǎn) 生的數(shù)據(jù)，并可應用于處理其他辨識多個分子的結構或序列的裝置產(chǎn)生的數(shù)據(jù)。
[0234] W上所述僅為本發(fā)明的較佳實施例而已，并不用W限制本發(fā)明，凡在本發(fā)明的精神和原則之內，所作的任何修改、等同替換、改進等，均應包含在本發(fā)明的保護范圍之內，并且本工作得到了國家自然科學基金委員會重大研究計劃培育項目91130008的資助。
[0235] 參考文獻
[0236] Anastasi, C. (2008). Accurate whole human genome sequencing using reversible terminator chemistry. Nature, 456(7218), 53-59.
[0237] Bentley, D. R. , Balasubramanian, S. , Swerdlow, H. P. , Smith, G. P. , Milton, J. , Brown, C. G. ,. . . &
[0238] Li, L. , feSpeed, T. P. (1999). An estimate of the crosstalk matrix in four-dye fluorescence-based DNA sequencing. Electrophoresis, 20(7), 1433-1442.
[023引 Massin曲am, T. , &Goldman, N. (2012). All Your Base : a fast and accurate probabilistic approach to base calling. Genome Biol, 13, R13.
[0240] Whiteford, N. , Skelly, T. , Curtis, C. , Ritchie, M. E. , Liihi·, A. , Zaranek, A. W. , . . . &Brown, C. (2009). Swift:primary data analysis for the Illumina Solexa sequencing platform. Bioinformatics, 25(17), 2194-2199。
【主權項】
1. 一種用于多個分子信號的數(shù)據(jù)處理方法，其特征包括：計算任意分子簇A與符合預定條件的分子簇B的英光信號之間的混雜系數(shù)C(A ^ B); 根據(jù)所述混雜系數(shù)，對不同分子簇的英光信號進行處理；其中對任意所述分子簇A和符合預定條件的所述分子簇B，所述C (A ^ B)用于衡量所述分子簇A的英光信號中來源于所述分子簇B的混雜的嚴重程度，所述混雜是指所述分子簇A的英光信號中出現(xiàn)的所述分子簇B中英光標記的英光信號；分子簇為特定分子的集合，該集合內包含具有相同序列的分子，并且送些分子之間的平均距離小于不同分子簇的分子之間的平均距離；對任意所述分子簇A，其英光信號指通過預定方式得到的、可用于對所述分子簇A包含分子的序列或子序列進行識別的數(shù)據(jù)；分子的序列為分子中預定的一個或多個位置的分子基本元件的類型。2. 根據(jù)權利要求1的所述方法，其特征在于，所述根據(jù)所述混雜系數(shù)對不同分子簇的英光信號進行處理，包括：通過所述混雜系數(shù)校正所述不同分子簇的英光信號中的信號混雜；其中，所述信號混雜是指任意分子簇的英光信號中出現(xiàn)屬于其他分子簇中分子英光標記的英光信號。3. 根據(jù)權利要求1的所述方法，其特征在于，對任意所述分子簇A和所述分子簇B，所述混雜系數(shù)C(A ^ B)為E(A^B)與￡度^B)的比，其中，所述E(A^B)為所述分子簇A 的英光信號中來源于所述分子簇B的英光標記的英光信號，所述E度^ B)為所述分子簇B 的英光信號中來源于所述分子簇B中分子英光標記的英光信號。4. 根據(jù)權利要求1的所述方法，其特征在于，通過下述公式計算所述混雜系數(shù) C(A-B)： 0(八戶8)=日1'卵；[]1。江（14-。1[5)+11(。））；其中，h (C)為預先設定的單調非減函數(shù)，Ia和I e分別表示所述分子簇A和所述分子簇 B在預先指定的測序輪和測序頻道的英光信號其中n為測序輪的數(shù) 量，對測序輪數(shù)j，r，為預先設定的函數(shù)，W ,為根據(jù)所有分子簇在第j輪測序中的英光信號計算出的標量或是預先設定的常數(shù)，C為預定區(qū)間內的實數(shù)。5. 根據(jù)權利要求4的所述方法，其特征在于，argminc(f(lA-cIe)+h(c))通過使用分位數(shù)法求f (lA-cIe)+h(c)的導函數(shù)零點的方法得到。6. 根據(jù)權利要求2的所述方法，其特征在于，所述通過所述混雜系數(shù)校正所述不同分子簇的英光信號中的信號混雜包括：通過下述公式計算校正過信號混雜的所述不同分子簇的英光信號所組成的矩陣Ii: C- Ii= I 0; 其中在所述矩陣Ii中，每行的元素對應一個分子簇的英光信號，每列的元素對應一個測序輪中一個頻道的所有分子簇的英光信號；C為由各個分子簇之間的混雜系數(shù)所組成的矩陣；I。為需要進行所述校正的分子簇的英光信號所組成的矩陣，在所述矩陣I。中，每行的元素對應一個分子簇的英光信號，每列的元素對應一個測序輪中一個頻道的所有分子簇的英光信號。7. 根據(jù)權利要求1的所述方法，其特征在于，在計算所述不同分子簇的英光信號之間的混雜系數(shù)之前進一步包括：采用預定方式對輸入數(shù)據(jù)進行處理，所述預定方式包括W下至少之一：校正光譜串色、校正相位失相、對原始圖像數(shù)據(jù)進行預處理生成分子簇的英光信號。8. 根據(jù)權利要求7的所述方法，其特征在于，對所述原始圖像數(shù)據(jù)進行預處理生成分子簇的英光信號，包括：校正存在光譜串色的頻道對應的圖像的光譜串色；對所述校正過光譜串色的圖像進行分子簇定位操作，其中，所述分子簇定位操作是指確定圖像中符合預定條件的分子簇，W及確定所述符合預定條件的分子簇的坐標。9. 根據(jù)權利要求2的所述方法，其特征在于，所述根據(jù)所述混雜系數(shù)對不同分子簇的英光信號進行處理，進一步包括：通過校正過信號混雜的分子簇英光信號對分子簇中分子的序列進行識別。10. -種用于多個分子信號的數(shù)據(jù)處理裝置，其特征在于，包括：計算混雜系數(shù)模塊，用于計算任意分子簇A與符合預定條件的分子簇B的英光信號之間的混雜系數(shù)"4 ^B); 處理模塊，用于根據(jù)所述混雜系數(shù)對不同分子簇的英光信號進行處理；其中對任意所述分子簇A和符合預定條件的所述分子簇B，所述C (A ^ B)用于衡量所述分子簇A的英光信號中來源于所述分子簇B的混雜的嚴重程度，所述混雜是指所述分子簇A的英光信號中出現(xiàn)的所述分子簇B中英光標記的英光信號；分子簇為特定分子的集合，該集合內包含具有相同序列的分子，并且送些分子之間的平均距離小于不同分子簇的分子之間的平均距離；對任意所述分子簇A，其英光信號指通過預定方式得到的、可用于對所述分子簇A包含分子的序列或子序列進行識別的數(shù)據(jù)；分子的序列為分子中預定的一個或多個位置的分子基本元件的類型。11. 根據(jù)權利要求10的所述裝置，其特征在于，所述處理模塊包括：校正單元，用于通過所述混雜系數(shù)校正所述不同分子簇的英光信號中的信號混雜，其中，所述信號混雜為任意分子簇的英光信號中出現(xiàn)屬于其他分子簇中分子英光標記的英光信號。12. 根據(jù)權利要求10的所述裝置，其特征在于，所述混雜系數(shù)C (A ^ B)為E (A ^ B)與 E度^ B)的比，其中，所述E (A ^ B)為所述分子簇A的英光信號中屬于所述分子簇B中分子英光標記的英光信號，所述E度^ B)為所述分子簇B的英光信號中屬于所述分子簇B中分子英光標記的英光信號。13. 根據(jù)權利要求10的所述裝置，其特征在于，所述計算混雜系數(shù)模塊進一步用于，通過下述公式計算所述混雜系數(shù)C (A ^ B): 0(八戶8)=日1'卵；[]1。江（14-。1[5)+11(。））；其中，h (C)為預先設定的單調非減函數(shù)，Ia和I e為分子簇A和分子簇B在預先指定的測序輪和測序頻道的英光信號，其中n為測序輪的數(shù)量，對測序輪數(shù) j，r，為預先設定的函數(shù)，W ,為根據(jù)所有分子簇在第j輪測序中的英光信號計算出的標量或是預先設定的常數(shù)，C為預定區(qū)間內的實數(shù)。14. 根據(jù)權利要求13的所述裝置，其特征在于，argmine(f (Ia-CIb)+h(c))通過使用分位數(shù)法求f (lA-cIe)+h(c)的導函數(shù)零點的方法得到。15. 根據(jù)權利要求11的所述裝置，其特征在于，所述校正單元進一步用于，通過下述公式計算校正過信號混雜的所述不同分子簇的英光信號所組成的矩陣Ii: C* Ii= 1〇；其中在所述矩陣Ii中，每行的元素對應一個分子簇的英光信號，每列的元素對應一個測序輪中一個頻道的所有分子簇的英光信號；所述C為由各個分子簇之間的混雜系數(shù)所組成的矩陣；所述I。為需要進行所述校正的分子簇英光信號所組成的矩陣，在所述矩陣I。中，每行的元素對應一個分子簇的英光信號，每列的元素對應一個測序輪中一個頻道的所有分子簇的英光信號。16. 根據(jù)權利要求10的所述裝置，其特征在于，進一步包括：預處理模塊，用于在計算所述不同分子簇的英光信號之間的混雜系數(shù)之前，采用預定方式對輸入數(shù)據(jù)進行處理，所述預定方式包括W下至少之一：校正光譜串色、校正相位失相、對原始圖像數(shù)據(jù)進行預處理生成分子簇的英光信號。17. 根據(jù)權利要求16的所述裝置，其特征在于，所述預處理模塊進一步包括：圖像處理單元，用于對原始圖像數(shù)據(jù)進行預處理生成所述分子簇的英光信號；W及所述圖像處理單元進一步包括：校正子單元，用于校正存在光譜串色的頻道對應的圖像的光譜串色；定位子單元，用于對所述校正過光譜串色的圖像進行分子簇定位操作，其中，所述分子簇定位操作是指確定圖像中符合預定條件的分子簇，W及確定所述符合預定條件的分子簇的坐標。18. 根據(jù)權利要求11的所述裝置，其特征在于，所述處理模塊進一步包括：下游處理單元，用于根據(jù)所述校正單元校正過信號混雜的分子簇英光信號對分子簇中分子的序列進行識別。
【文檔編號】G01N21/64GK105989248SQ201510061908
【公開日】2016年10月5日
【申請日】2015年2月5日
【發(fā)明人】李雷, 王博, 萬林
【申請人】中國科學院數(shù)學與系統(tǒng)科學研究院

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：李雷;王博;萬林;
技術所有人：中國科學院數(shù)學與系統(tǒng)科學研究院;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

用于多個分子信號的數(shù)據(jù)處理方法和裝置的制造方法