專利名稱:通過無公式方法確定熔融溫度的制作方法
技術領域:
—般來說,本發(fā)明涉及處理表示寡核苷酸的熔融特性的數(shù)據(jù),更具體來說,涉及用
于根據(jù)熔融曲線數(shù)據(jù)來確定寡核苷酸樣本的一個或多個熔融溫度的系統(tǒng)和方法。
背景技術:
通常在PCR實驗之后直接執(zhí)行的DNA熔融溫度的確定是區(qū)分基因型的一個重要方 法。例如,文獻中近來論述的是將檢查KRAS基因用于確定哪些患者可能是非小細胞肺癌的 治療的候選者。其KRAS基因屬于野生型的患者會獲益于該治療,而如果患者具有這種基因 的突變型變異,則治療沒有有益效果。由于這些治療往往具有較大副作用,所以確定患者的 正確基因型是非常重要的。熔融KRAS化驗的使用可幫助區(qū)分患者的基因型。因此,希望提 供準確有效地確定DNA樣本的熔融溫度的系統(tǒng)和方法。
發(fā)明內容
本發(fā)明提供用于根據(jù)熔融曲線數(shù)據(jù)來確定寡核苷酸的熔融溫度Tm的系統(tǒng)和方 法。在各個實施例中,進行熔融曲線數(shù)據(jù)集的一階導數(shù)的數(shù)值確定。例如高斯混合模型 (G匪)函數(shù)等具有使用列文伯格-馬夸爾特(Levenberg-Marquardt) (LM)回歸過程所確定 的參數(shù)的模型函數(shù)用于查找一階導數(shù)曲線的近似。數(shù)值確定的一階導數(shù)值的最大值用作模 型函數(shù)的參數(shù)的初始條件。所確定參數(shù)提供分步熔融溫度值,它們可被返回,例如被顯示或 者以其它方式使用,供進一步處理。 根據(jù)本發(fā)明的一個方面,提供一種確定DNA的熔融溫度Tm的計算機實現(xiàn)方法。該 方法通常包括接收表示DNA樣本的熔融曲線的數(shù)據(jù)集,數(shù)據(jù)集包括各具有一對坐標值的多 個數(shù)據(jù)點。該方法通常還包括數(shù)值確定熔融曲線的數(shù)據(jù)點的一階導數(shù)值;確定一階導數(shù) 值的基線;從一階導數(shù)值減去基線以產生修正的一階導數(shù)值;以及確定修正的一階導數(shù)值 的第一最大值。該方法通常還包括輸出所述最大值,其中所述第一最大值表示DNA樣本的 熔融溫度Tm。該方法還包括以下步驟通過對高斯混合模型函數(shù)應用列文伯格_馬夸爾特 (LM)回歸過程以確定函數(shù)的一個或多個參數(shù)來計算擬合修正的一階導數(shù)值的曲線的近似, 其中所述參數(shù)包括初始條件,并且第一最大值用作第一參數(shù)的初始條件;以及輸出第一參 數(shù),其中所確定的第一參數(shù)表示DNA樣本的熔合溫度Tm。在某些方面,該方法還包括確定一 階導數(shù)值是否包括最接近第一最大值的臺肩值。在某些實施例中,高斯混合模型包括如下 形式的表達G嬉,=fic/ (- a,)'五;cp -
/ 、2、 、-A
、 其中,i!工是第一參數(shù),以及a工和o工是附加參數(shù)。在另一個方面,該方法進一步 包括顯示第一參數(shù)值。在又另一個方面,回歸過程包括列文伯格-馬夸爾特(LM)回歸過程。 在某些方面,該方法進一步包括以下步驟確定修正的一階導數(shù)值的第二、第三或第四最大值,其中第二、第三或第四最大值用作第二、第三或第四參數(shù)的初始條件;以及輸出第二、第 三或第四參數(shù),其中所確定的第二、第三或第四參數(shù)表示DNA樣本的第二、第三或第四熔融 溫度Tm2、 Tm3或Tm4。在該方法的另一個方面,高斯混合模型包括如下形式的表達GMW2 = fxp(- a,).五;c/j
<formula>formula see original document page 6</formula> 其中,i! !是第一參數(shù),P 2是第二參數(shù),以及a p o p a 2和o 2是附加參數(shù): 方法的又另一個方面,高斯混合模型包括如下形式的表達
在該
<formula>formula see original document page 6</formula>
(j3 其中,h是第一參數(shù),h是第二參數(shù),i^是第三參數(shù),以及Ql、 0l、 a2、 和03是附加參數(shù)。在該方法的又另一個方面,高斯混合模型包括如下形式的表達
<formula>formula see original document page 6</formula>
其中,P i是第一參數(shù),P 2是第二參數(shù),P 3是第三參數(shù),P 4是第四參數(shù),以及a p 0l、 a2、 o2、 a3、 o3、、和04是附加參數(shù)。在該方法的另一個方面,確定第一最大值包 括對修正的一階導數(shù)值應用加窗過程(windowing process),其中加窗過程還確定高斯混 合模型函數(shù)參數(shù)的一個或多個附加初始條件。 根據(jù)本發(fā)明的另一個方面,提供一種計算機可讀介質,它存儲用于控制處理器來 確定DNA的熔融溫度Tm的代碼。該所存儲代碼通常包括指令以用于接收表示DNA樣本的 熔融曲線的數(shù)據(jù)集,該數(shù)據(jù)集包括各具有一對坐標值的多個數(shù)據(jù)點;數(shù)值確定熔融曲線的 數(shù)據(jù)點的一階導數(shù)值;確定一階導數(shù)值的基線;從一階導數(shù)值減去基線以產生修正的一階 導數(shù)值;以及確定修正的一階導數(shù)值的第一最大值。該代碼通常還包括用于輸出第一最大 值的指令,其中所述第一最大值表示DNA樣本的熔融溫度Tm。該代碼通常還包括指令以用 于通過對高斯混合模型函數(shù)應用列文伯格-馬夸爾特(LM)回歸過程以確定函數(shù)的一個 或多個參數(shù)來計算擬合修正的一階導數(shù)值的曲線的近似,其中所述參數(shù)包括初始條件,并 且第一最大值用作第一參數(shù)的初始條件;以及輸出第一參數(shù),其中所確定的第一參數(shù)表示 DNA樣本的熔融溫度Tm。本文中,在某些方面,高斯混合模型包括如下形式的表達
<formula>formula see original document page 6</formula>
其中,i!工是第一參數(shù),a工和o工是附加參數(shù)。在某些方面,該代碼進一步包括用于確定一階導數(shù)值是否包括最接近第一最大值的臺肩值的指令。在另一個方面,該代碼進 一步包括用于顯示第一參數(shù)值的指令。在又另一個方面,該代碼進一步包括指令以用于確 定修正的一階導數(shù)值的第二最大值,其中第二最大值用作第二參數(shù)的初始條件;以及輸出 第二參數(shù),其中所確定的第二參數(shù)表示DNA樣本的第二熔融溫度Tm2。在某些方面,高斯混 合模型包括如下形式的表達
f<formula>formula see original document page 7</formula>V。 乂 其中,i!工是第一參數(shù),P 2是第二參數(shù),P 3是第三參數(shù),以及a p o p a 2、 o 2、 a 和03是附加參數(shù)。在又另一個方面,高斯混合模型包括如下形式的表達 根據(jù)本發(fā)明的又一個方面,提供一種動力聚合酶鏈反應(PCR)系統(tǒng),它通常包括 生成表示DNA熔融曲線的熔融曲線數(shù)據(jù)集的動力PCR分析模塊,該數(shù)據(jù)集包括各具有一對 坐標值的多個數(shù)據(jù)點;以及適合于處理熔融曲線數(shù)據(jù)集以確定Tm值的智能模塊。智能模塊 通常通過以下來確定Tm值數(shù)值確定熔融曲線的數(shù)據(jù)點的一階導數(shù)值;確定一階導數(shù)值的 基線;從一階導數(shù)值減去基線以產生修正的一階導數(shù)值;以及確定修正的一階導數(shù)值的第 一最大值。智能模塊通常還通過將修正的一階導數(shù)的所確定第一最大值用作Tm值并輸出 所述Tm值來確定Tm值。在某些方面,智能模塊通過以下來確定Tm值通過對高斯混合模 型函數(shù)應用列文伯格-馬夸爾特(LM)回歸過程以確定函數(shù)的一個或多個參數(shù)來計算擬合 修正的一階導數(shù)值的曲線的近似,其中所述參數(shù)包括初始條件,并且第一最大值用作第一 參數(shù)的初始條件;以及輸出第一參數(shù),其中所確定的第一參數(shù)表示DNA樣本的熔合溫度Tm。 在某些方面,高斯混合模型包括如下形式的表達
7<formula>formula see original document page 8</formula> 其中,工是第一參數(shù),以及a工和o工是附加參數(shù)。在另一個方面,智能模塊進一 步適合于確定一階導數(shù)值是否包括最接近第一最大值的臺肩值。在又另一個方面,智能模 塊進一步適合于確定修正的一階導數(shù)值的第二最大值,其中第二最大值用作第二參數(shù)的 初始條件;以及輸出第二參數(shù),其中所確定的第二參數(shù)表示DNA樣本的第二熔融溫度Tm2。 在某些方面,確定修正的一階導數(shù)值的第二最大值,其中第二最大值用作第二參數(shù)的初始 條件,以及高斯混合模型包括如下形式的表達
<formula>formula see original document page 8</formula>
其中,工是第一參數(shù),P 2是第二參數(shù),以及a p o p a 2和o 2是附加參數(shù)。在某 些方面,確定修正的一階導數(shù)值的第三最大值,其中第三最大值用作第三參數(shù)的初始條件, 以及高斯混合模型包括如下形式的表達 其中,工是第一參數(shù),P 2是第二參數(shù),P 3是第三參數(shù),以及a p o p a 2、 o 2、 a 3 和03是附加參數(shù)。在某些方面,確定修正的一階導數(shù)值的第四最大值,其中第四最大值用 作第四參數(shù)的初始條件,以及高斯混合模型包括如下形式的表達
<formula>formula see original document page 8</formula>
其中,i!工是第一參數(shù),P 2是第二參數(shù),P 3是第三參數(shù),P 4是第四參數(shù),以及a p 0l、 a2、 o2、 a3、 o3、、和04是附加參數(shù)。在該系統(tǒng)的另一個方面,智能模塊通過對修 正的一階導數(shù)值應用加窗過程來確定第一最大值,其中加窗過程還確定高斯混合模型函數(shù) 參數(shù)的一個或多個附加初始條件。 參照說明書的其余部分、包括附圖和權利要求將會了解本發(fā)明的其它特征和優(yōu) 點。下面針對附圖詳細描述本發(fā)明的其它特征和優(yōu)點以及本發(fā)明的各個實施例的結構和操 作。圖中,相似的參考標號表示相同或功能上相似的元件。
圖1圖示熔融曲線的一個示例(熒光強度對溫度)。
圖2圖示圖1的熔融曲線的一階導數(shù)曲線(熒光強度的一階導數(shù)對溫度)。
圖3示出基線減法之后的圖2的導數(shù)曲線(減去基線的熒光強度一階導數(shù)對溫 度)。 圖4圖示根據(jù)一個實施例、用于確定熔融溫度的過程(無公式熔融算法的主要處 理步驟)。 圖5圖示根據(jù)一個實施例的熔融溫度計算過程(無公式熔融算法的主要處理步 驟)。 圖6圖示根據(jù)一個實施例的臺肩檢測過程(無公式熔融算法的主要處理步驟)。
圖7a和圖7b分別示出單個熔融峰值的情況下的原始數(shù)據(jù)曲線和熔融曲線的示 例。 圖8a和圖8b分別示出兩個熔融峰值的情況下的原始數(shù)據(jù)曲線和熔融曲線的示 例。 圖9a和圖9b分別示出兩個熔融峰值的情況下的原始數(shù)據(jù)曲線和熔融曲線的示 例。 圖10a和圖10b分別示出單個熔融峰值加上臺肩的情況下的原始數(shù)據(jù)曲線和熔融 曲線的示例。 圖lla和圖llb分別示出單個熔融峰值加上臺肩的情況下的原始數(shù)據(jù)曲線和熔融 曲線的示例。 圖12示出說明可用于實現(xiàn)本發(fā)明的過程和系統(tǒng)的軟件與硬件資源之間的關系的 總體框圖。 圖13圖示熱循環(huán)裝置與計算機系統(tǒng)之間的交互。
具體實施例方式
本發(fā)明提供用于確定DNA的熔融溫度Tm的系統(tǒng)和方法。 本發(fā)明提供用于通過分析表示熔融曲線的數(shù)據(jù)來確定熔融溫度的系統(tǒng)和方法。在 某些方面,進行熔融曲線數(shù)據(jù)集的一階導數(shù)的數(shù)值確定。具有使用列文伯格-馬夸爾特 (LM)回歸過程所確定的參數(shù)的高斯混合模型(G匪)函數(shù)用于查找對一階導數(shù)曲線的近似。 數(shù)值確定的一階導數(shù)值的最大值用作GMM函數(shù)的參數(shù)的初始條件。所確定的參數(shù)提供分步 熔融(fractional melting)溫度Tm值。然后Tm值被返回,并且可顯示或者以其它方式使 用,供進一步處理。 PCR過程的上下文中的熔融曲線的一個示例如圖l所示。如圖l所示,典型熔融曲 線的數(shù)據(jù)可在二維坐標系中來表示,例如其中溫度定義x軸,而累積多核苷酸的指標定義y 軸。通常,累積多核苷酸的指標是熒光強度值(fluorescent intensity value),因為熒光 標記的使用也許是最廣泛使用的加標方案。但是應當理解,根據(jù)所使用的特定加標和/或 檢測方案,可使用其它指標。累積信號的其它有用指標的示例包括發(fā)光強度、化學發(fā)光強 度、生物發(fā)光強度、磷光強度、電荷轉移、電壓、電流、功率、能量、溫度、粘度、光散射、輻射強 度、反射率、透射率和吸收率。
—般過程概述 考慮圖1所示的典型熔融曲線。希望從圖1所示的數(shù)據(jù)獲得一個或多個熔融溫度。根據(jù)一個實施例,可參照圖4簡要地描述用于確定熔融溫度的過程100。在步驟IIO,接收 或者以其它方式獲取表示熔融曲線的實驗數(shù)據(jù)集。繪制的熔融曲線數(shù)據(jù)集的一個示例如圖
1所示,其中y軸和x軸分別表示熔融曲線的熒光強度和溫度。在某些方面,數(shù)據(jù)集應當包
括連續(xù)的并且沿軸等距間隔的數(shù)據(jù)。 在過程100在駐留在例如熱循環(huán)器等PCR裝置中的智能模塊(例如運行指令的處 理器)中來實現(xiàn)的情況下,數(shù)據(jù)集可在收集數(shù)據(jù)時實時地提供給智能模塊,或者可存儲在 存儲器單元或緩沖器中并且在完成實驗之后提供給智能模塊。類似地,數(shù)據(jù)集可經由網絡 連接(例如LAN、VPN、內聯(lián)網、因特網等)或者與獲取裝置的直接連接(例如USB或其它直 接有線或無線連接)提供給例如臺式計算機系統(tǒng)或其它計算機系統(tǒng)等獨立系統(tǒng),或者在例 如CD、 DVD、軟盤等便攜介質上提供。在某些方面,數(shù)據(jù)集包括具有一對坐標值(或2維向 量)的數(shù)據(jù)點。對于熔融數(shù)據(jù),坐標值對通常表示溫度和熒光強度值。在步驟110已經接 收或者獲取數(shù)據(jù)集之后,可分析數(shù)據(jù)集以確定熔融溫度。 在步驟120,數(shù)據(jù)經數(shù)值處理以確定導數(shù)值。這些曲線的熔融溫度通過查找與熒 光強度相對于溫度的一階導數(shù)(y軸)的最大值對應的(分步)溫度值(x軸)來獲得。使 用圖l所示的數(shù)據(jù),一階導數(shù)的對應曲線圖如圖2所示。在一個實施例中,對導數(shù)曲線數(shù)據(jù) 執(zhí)行基線減法,以便產生修正的導數(shù)數(shù)據(jù)。在一個實施例中,基線減法通過以下來執(zhí)行首 先將"MedianLeft"定義為圖2中的前五個點的熒光值的中值,然后將"MedianRight"定義 為圖2中的后五個點的熒光值的中值。然后定義連接圖2中的"MedianLeft"點(x, y)與 "MedianRight"點(x,y)的直線。然后從所有坐標對減去這個直線的斜率(slope)和截距。 圖3示出基線減法之后的導數(shù)曲線。 在一個實施例中,導數(shù)通過使用Savitzky-Golay (SG)方法來獲得。[參見 A. Savitzky禾口 Marcel J. E. Golay(1964), Smoothing andDifferentiation of Data by Simplified Least Squares Procedures (通過簡化最小平方過程的數(shù)據(jù)的平滑和差分), Analytical Chemistry, 36 :1627-1639,以及Press,W. H.等人,"Numerical Recipes in C, 2nd Ed. (C的數(shù)值方法,第2版)",Savitzky-Golay平滑濾波器,14. 8小節(jié),650-655。]。 在一個實施例中,SG-2-2-2配置(意思是左側兩個點、右側兩個點和二次多項式)用于計 算原始熔融數(shù)據(jù)曲線的一階導數(shù)。 一般來說,可使用SG方法的其它配置,例如SG-l-l-2至 SG-50-50-2。更一般來說,可使用SG-x-y-z,其中x和y是從1至50的數(shù),而z是從1至5 的數(shù)。 導數(shù)的標量不變形式 在某些實施例中,備選方法用于計算導數(shù),以便允許熔融溫度是標量不變的。標量 不變意味著,如果熒光值與常數(shù)相乘,則所得Tm值未改變。 根據(jù)一種方法,在計算導數(shù)熔融曲線之前將熒光值除以平均熒光值,例如,y替換 為y/y,n,其中J^柳lS乂 (1) 根據(jù)另一種方法,在計算導數(shù)熔融溫度之前將熒光值除以(最大熒光-最小熒 光)。 根據(jù)另一種方法,在計算熔融溫度之前將熒光值的導數(shù)除以熒光值。
10
根據(jù)又另一種方法,在計算熔融溫度之前將熒光值的導數(shù)除以熒光值的平均導 根據(jù)又另一種方法,在計算熔融溫度之前將熒光值的導數(shù)除以熒光值的(最大 值-最小值)導數(shù)。 回到圖4,在步驟130,確定一階導數(shù)數(shù)據(jù)中的多個峰值。在一個實施例中,局部最 大化過程用于確定一階導數(shù)中的零、一個、兩個、三個或四個峰值,下面更詳細地論述??墒?用原始導數(shù)數(shù)據(jù),或者可使用減去基線的導數(shù)數(shù)據(jù)。 在一個實施例中,在步驟140確定分步Tm值。為了查找曲線的最大值,例如圖2或 圖3所示,在一個實施例中,將高斯混合模型擬合到數(shù)據(jù)。高斯混合模型的平均值對應于最 大值,因此對應于Tm值。在一個實施例中,曲線擬合通過以下來進行計算擬合所確定一階 導數(shù)值或修改(減去基線的)導數(shù)值的曲線的近似,對高斯混合模型函數(shù)應用回歸過程以 確定函數(shù)的一個或多個參數(shù)。在某些方面,使用列文伯格-馬夸爾特回歸過程。在一個實 施例中,對于單峰值的情況,使用對于一個峰值的高斯混合模型,如公式(2)所示。如果存 在兩個峰值,則使用對于兩個峰值的高斯混合模型,如公式(3)所示。如果存在三個峰值, 則可使用對于三個峰值的高斯混合模型,如公式(4)所示。如果存在四個峰值,則可使用對 于四個峰值的高斯混合模型,如公式(5)所示。系數(shù)的i^或(i^, y2)的回歸值分別對應 于對于一個和兩個峰值的Tm值。在一個實施例中使用高斯混合模型,而不是取附加導數(shù)來 查找最大值,因為更高階導數(shù)(3階或4階)可變得不穩(wěn)定。
, / 、2 、
1 f:c —仏、
G顏,=鄉(xiāng)(- 。,)匈---^ (2)
乂 G磨2 = ~(一 。l)'腳
(7,
V、
/ 、2、 <T,
(3)( 層3 =鄉(xiāng)(一A) ~
en
V、
「12 、
、5L m J
+
(4) £xp(-a3).~
(T3GMM4 = fic; d). ~ ~(-"3)匈
1"—^、
人 f
乂
乂
(72
、2 A
+
(5)
「 - /Z4 Y
(74
乂 應當理解,其它模型/函數(shù)可用于代替高斯混合模型,這是本領域的技術人員顯 而易見的。其它模型的示例包括Bete、 Binomial、 C塞hy、 Chi、 ChiSqimre、 Exponential、 Extreme Value、 FRatio、 Gamma、 Gumbel、 Laplace、 Logistic、 Maxwell、 Pareto、 Rayleight、StudentT和Weibull模型。 大家要理解,對于包含兩個以上峰值的一階導數(shù)數(shù)據(jù),上述實施例適用。在這種情 況下,通過局部最大值的系數(shù)P i、i^、i^、i^的初始估計(回歸值)對應于最終熔融溫度。
在一個實施例中,列文伯格-馬夸爾特(LM)方法用于曲線擬合公式(2) (或者公式(3)、公式(4)、公式(5))。這種方法的細節(jié)可見于參考文獻[Mor6, JJ., "Levenberg-Marqimrdt Algorithm, Implementation andtheory (列文伯格_馬夸爾特算 法、實現(xiàn)禾口理論),,,Numerical Analysis, ed. Watson, G. A丄ecture Notes in Mathematics 630, Springer-Verlag, 1977]。應當理解,可使用其它眾所周知的回歸方法。 一般來說,LM 回歸方法包括需要各種輸入并且提供輸出的算法。在一個方面,該輸入包括待處理的數(shù)據(jù) 集、用于擬合數(shù)據(jù)的函數(shù)(例如高斯混合模型)以及函數(shù)的參數(shù)或變量的初始猜測。該輸 出包括使函數(shù)與數(shù)據(jù)集之間的距離的平方之和為最小的該函數(shù)的一組一個或多個參數(shù)。應 當理解,可使用其它回歸過程,這是本領域的技術人員顯而易見的。 列文伯格-馬夸爾特方法的一個特征在于,它在執(zhí)行回歸之前需要參數(shù)值的良好 估計。對于參數(shù)a工(或a p a 2, a 3, a 4)和。工(或。p 。 2, 。 3, o 4),初始條件在所有情 況下可設置成等于常數(shù)(例如1或2)。這些參數(shù)一般不是敏感的,并且一般將收斂而不管 所使用的初始條件。參數(shù)yj或Up P2, P3, P4)可需要應當對各曲線確定的更準確初 始條件。在一個實施例中,加窗方法用于計算參數(shù)i^(或i^, P2, P3, P4)的初始條件, 下面更詳細地描述。 在可選步驟150,執(zhí)行一個或多個專家系統(tǒng)校驗,以便評估結果是否有效,下面更
詳細地論述。例如,如果經過實現(xiàn),則專家系統(tǒng)校驗可確定所確定結果是無效的。 在步驟160,返回Tm值,例如供顯示或者進一步處理。圖形顯示可采用與執(zhí)行圖4
的分析的系統(tǒng)耦合的例如監(jiān)視器屏幕或打印機等顯示裝置來呈現(xiàn),或者數(shù)據(jù)可提供給獨立
系統(tǒng)以便在顯示裝置上呈現(xiàn)。 在一些實施例中,對于G匪p Gm2、 Gm3和Gm4參數(shù)計算R2統(tǒng)計和/或置信(例 如95%置信)區(qū)間。這些值評估曲線擬合的質量,并且可在專家系統(tǒng)(下面進行描述)中 用于幫助確定所計算Tm值是有效、無效還是零(不存在樣本)。這些值還可在步驟160顯 示。 曲線的最大值的確定 在一個實施例中,對數(shù)據(jù)集使用加窗過程以用于確定參數(shù)ii p ii 2、 ii 3、 ii 4的初始 條件。對于包含總共兩個峰值的一階導數(shù)描述以下加窗過程。然而,如上所述,大家要理解, 這個加窗過程可適用于提供總共四個峰值的一階導數(shù)。在一個實施例中,加窗過程通過使 用以下過程來搜索潛在局部最大值 1.在第一點開始,檢查數(shù)據(jù)集的前數(shù)個(五個)點(點1-5)。 2.如果中間y點不是這五個點中的最大值,則在這五個點中不存在潛在最大值。
如果中間y點是這五個點的最大值,并且具有大于O的值(以避免將較長序列的點中具有
準確值0的中點加入潛在最大值的集合),則存在潛在最大值。將這個點加入潛在最大值的
集合S。 3.使滑動窗口前進一個點(例如這時是點2-6),并且重復進行第2項所述的過 程,再次僅接受這五個點的索引3處的最大值。對整個數(shù)據(jù)集繼續(xù)進行這個過程。
4.檢查表示索引3處的潛在最大值的集合的潛在最大值的結果集合S,并且查找 這個潛在最大值的集合S中的最大數(shù)據(jù)點(Smax)。 5.如果Smax等于或小于最大噪聲輸入參(可由用戶輸入或者自動確定的噪聲參 數(shù)),則曲率數(shù)據(jù)中沒有峰值。 6.保持來自這個集合S的其余潛在最大數(shù)據(jù)點,只要它們大于SmaxX相對最小輸 入參數(shù)并且大于絕對最小輸入參數(shù)。 7.如果只留下一個數(shù)據(jù)點,則僅存在一個峰值,并且曲線僅具有一個最大值。將這
個單峰值定義為P、。如果留下兩個數(shù)據(jù)點,則這表示具有兩個最大值的曲線。如果存在兩
個以上峰值,則取具有數(shù)據(jù)集S的最高值的兩個峰值,并且將具有這兩個的較低循環(huán)數(shù)的
峰值作為P、返回,而將具有較高循環(huán)數(shù)的峰值作為pk2返回。 8. ii !的初始條件則為pkp而(ii p ii 2)的初始條件為(pkn pk2)。 熔融溫度計算 根據(jù)一個實施例的熔融溫度計算如圖5所示。在步驟210,確定關于一階導數(shù)數(shù)據(jù) 集是包括一個還是兩個(還是三個、四個)峰值。如果熔融數(shù)據(jù)集的一階導數(shù)識別為具有 單個峰值,則在步驟220,通過公式(2)所述的單分量高斯函數(shù)的非線性回歸(例如使用列 文伯格-馬夸爾特方法或者其它回歸方法)來找到熔融曲線的最大值。初始條件通過局部 最大值搜索給出。如果熔融數(shù)據(jù)集的一階導數(shù)識別為具有兩個(或者三個、四個)峰值,則 在步驟230,通過公式(3)所述的雙分量高斯函數(shù)的非線性回歸(例如使用列文伯格-馬 夸爾特方法)來找到熔融曲線的兩個局部最大值,并且返回參數(shù)i^、 yj或者i^和P4) (與Tml、Tm2或者Tm3和Tm4對應)。初始條件通過局部最大值搜索給出。應當理解,即使 圖5示出對于一個或兩個峰值的熔融溫度計算,但是用于兩個峰值的相同熔融溫度計算也 可用于三個和四個峰值。 在步驟240,臺肩檢測過程確定對于根據(jù)一個實施例的單導數(shù)峰值情形是否存在 臺肩。如果在MELT算法中找到兩個(或三個、四個)峰值,則不采取進一步行動。如果相 反找到一個峰值,則可能的是這個峰值存在臺肩。下面論述根據(jù)一個實施例的臺肩檢測的 細節(jié)。如果沒有檢測到臺肩,則返回h(對應于Tml)。在步驟250,對于各個參數(shù)確定置信 區(qū)間。在步驟260,對于所使用的高斯混合模型計算f值。在一個實施例中,如果G匪1(或 G匪2、G匪3、G匪4)擬合的1 2值> 0.9,或者參數(shù)(i^,?!坊?i^, 。 n y 2, 。 2, y 3, o 3, P4, 。4)的置信區(qū)間不包括零,則在步驟270接受Tml(或Tml,Tm2,Tm3,Tm4)的值。否貝U, 在步驟280, Tml、(或者Tml, Tm2, Tm3, Tm4)設置作為未檢測到目標(TND),以及在步驟290, 可選專家系統(tǒng)進行TND的最終調用或者使無效(Invalid)。
臺肩檢測 根據(jù)一個實施例的臺肩檢測過程如圖6所示。在步驟310,雙分量高斯模型擬合到 使用ai,2 = 2、 i! u = m±2、 o u = 2作為初始條件的相同一階導數(shù)數(shù)據(jù),其中m是單峰值 的熔融溫度。在步驟320,潛在主峰值和臺肩(較低)峰值按以上所述來確定。在步驟330, 確定關于較低峰值的高度是否至少為較高峰值的某個百分比(例如較高峰值的0. 05倍或 以上)。如果不是,則返回臺肩不存在的調用,并且Tm確定處理按照圖5的步驟250繼續(xù) 進行。如果是,則在步驟340,對于各個參數(shù)確定置信區(qū)間,以及在步驟350,對于G匪2公式 確定R2值。在步驟360,確定關于平均數(shù)的置信區(qū)間是否至少為相互分離的某個百分度數(shù)(例如3度或以上)。如果不是,則返回臺肩不存在調用,并且Tm確定處理按照圖5的步驟 250繼續(xù)進行。如果是,則在步驟370,確定置信區(qū)間是否不包含零,或者R2值是否大于閾 值(例如0.9)。如果不是,則返回臺肩不存在調用,并且Tm確定處理按照圖5的步驟250 繼續(xù)進行。如果是,則在步驟380,確定在i^和112所評估的雙分量高斯模型(GMM2)的二 階導數(shù)是否為負。如果是,則進行臺肩檢測調用。 因此,假定LM方法收斂,在一個實施例中,如果下列條件全部成立,則檢測到臺 肩- —階導數(shù)數(shù)據(jù)識別為具有正好一個局部最大值。-較低峰值的高度至少為較高峰值的0. 05倍(例如使用"e鄧(_a)")。-平均數(shù)的置信區(qū)間相互分離至少3百分度。 -iip y2、 o !禾P o2的置信區(qū)間不包含零或者R2 > 0.9。-在ii工和ii 2所評估的雙分量高斯模型(G匪2)的二階導數(shù)為負。 在滿足這些條件的情況下,建立臺肩檢測標志。結合圖6、對于包含一個或兩個峰
值的一階導數(shù)描述上述臺肩檢測過程。然而,如上所述,應當理解,這個臺肩檢測過程可適
用于提供總共四個峰值的一階導數(shù)。 專家系統(tǒng)校驗 在一個實施例中,在步驟290(圖5)實現(xiàn)一個或多個專家系統(tǒng)校驗。在一個校驗 中,確定全部整個熔融曲線數(shù)據(jù)的中值是否>0。如果這不成立,則結果報告為無效。在另 一個校驗中,確定熔融峰值熒光數(shù)據(jù)的最大值的絕對值是否大于熔融峰值熒光數(shù)據(jù)的最小 值的絕對值。如果這不成立,則結果報告為無效。在另一個校驗中,確定來自前數(shù)個(例如 五個)循環(huán)的原始熒光對溫度值的中值是否大于來自最后數(shù)個(例如五個)循環(huán)的原始熒 光對溫度值的中值。如果這不成立,則結果報告為無效。在又另一個校驗中,二階多項式擬 合于原始熒光對溫度數(shù)據(jù)集。如果這個擬合的R2大于閾值(例如0. 99),則不存在峰值,并 且結果報告為未檢測到目標(TND)。
示例 圖7a和圖7b分別示出單個熔融峰值的情況下的原始數(shù)據(jù)曲線和熔融曲線。所計 算的熔融溫度為Tm二67.8。 圖8a和圖8b分別示出兩個熔融峰值的情況下的原始數(shù)據(jù)曲線和熔融曲線。所計 算的熔融溫度為Tml = 58. 8和Tm2 = 67. 8。 圖9a和圖9b分別示出兩個熔融峰值的情況下的原始數(shù)據(jù)曲線和熔融曲線。所計 算的熔融溫度為Tml = 57. 9和Tm2 = 68. 6。 圖10a和圖10b分別示出單個熔融峰值加上臺肩的情況下的原始數(shù)據(jù)曲線和熔融 曲線。所計算的熔融溫度為Tml = 62. 4和Tm2 = 68. 8。 圖lla和圖llb分別示出單個熔融峰值加上臺肩的情況下的原始數(shù)據(jù)曲線和熔融 曲線。所計算的熔融溫度為Tml = 61. 3和Tm2 = 68. 1。 在某個實施例中,根據(jù)本發(fā)明的Tm確定過程可通過以下來實現(xiàn)使用常規(guī)個人計 算機系統(tǒng),其包括但不限于輸入數(shù)據(jù)集的輸入裝置,如鍵盤、鼠標等;表示曲線的區(qū)域中 的特定感興趣點的顯示裝置,如監(jiān)視器;實施方法中的每個步驟所需的處理裝置,如CPU ; 網絡接口 ,如調制解調器,存儲數(shù)據(jù)集的數(shù)據(jù)存儲裝置,運行于處理器的計算機代碼等。此外,過程還可在根據(jù)本發(fā)明的PCR過程中或者在根據(jù)本發(fā)明的PCR系統(tǒng)中來實現(xiàn)。 應當理解,Tm確定過程、包括導數(shù)和臺肩確定過程,可在運行于計算機系統(tǒng)的處理
器上的計算機代碼來實現(xiàn)。代碼包括用于控制處理器來實現(xiàn)Tm確定過程的各個方面和步
驟的指令。代碼通常存儲在硬盤、RAM或便攜介質、如CD、DVD等中。類似地,過程可在例如
熱循環(huán)器等PCR裝置或者包括運行與處理器耦合的存儲器單元中存儲的指令的處理器的
其它專用裝置中實現(xiàn)。包括這類指令的代碼可通過網絡連接或者到代碼源的直接連接或者
使用便攜介質下載到裝置存儲器單元,這是眾所周知的。 本領域的技術人員應當理解,本發(fā)明的Tm確定過程可使用例如C 、 C++ 、 C# 、 Fortran 、 Vi sualBas i c等各種編程語言以及例如Mathematica 等提供對數(shù)據(jù)可視 化和分析有用的預打包的例程、函數(shù)和過程的應用程序來編碼。后者的另一個示例是 MATLAB 。 根據(jù)本發(fā)明的系統(tǒng)的一個示例如圖12和圖13所示。圖12示出說明可用于實現(xiàn) 本發(fā)明的過程和系統(tǒng)的軟件與硬件資源之間的關系的總體框圖。圖13所示的系統(tǒng)包括可 位于熱循環(huán)裝置中的動力PCR分析模塊以及作為計算機系統(tǒng)的組成部分的智能模塊。數(shù)據(jù) 集(PCR數(shù)據(jù)集)經由網絡連接或者直接連接從分析模塊傳遞到智能模塊或者反之。數(shù)據(jù) 集例如可按照圖4、圖5和圖6所示的流程圖來處理。這些流程圖可方便地通過計算機系 統(tǒng)的硬件上存儲的軟件例如按照圖12所示的流程圖來實現(xiàn)。參照圖12,計算機系統(tǒng)(400) 可包括例如用于接收在PCR反應期間所得到的熒光數(shù)據(jù)的接收部件(410)、用于根據(jù)本發(fā) 明的過程來處理所述數(shù)據(jù)的計算部件(420)、用于應用計算部件所得到的結果的應用部件 (430)以及用于在計算機屏幕上顯示結果的顯示部件(440)。圖13示出熱循環(huán)裝置與計算 機系統(tǒng)之間的交互。該系統(tǒng)包括可位于熱循環(huán)器裝置中的動力PCR分析模塊以及作為計算 機系統(tǒng)的組成部分的智能模塊。數(shù)據(jù)集(PCR數(shù)據(jù)集)經由網絡連接或者直接連接從分析 模塊傳遞到智能模塊或者反之。數(shù)據(jù)集可通過運行于處理器并且存儲于智能模塊的存儲裝 置的計算機代碼按照圖12來處理,并且在處理之后回傳給分析模塊的存儲裝置,其中修正 的數(shù)據(jù)可在顯示裝置上顯示。 雖然作為示例并且根據(jù)具體實施例描述了本發(fā)明,但是大家要理解,本發(fā)明并不 局限于所公開的實施例。相反,意在涵蓋本領域的技術人員顯而易見的各種修改和類似布置。
權利要求
一種確定DNA的熔融溫度Tm的計算機實現(xiàn)方法,所述方法包括-接收表示DNA樣本的熔融曲線的數(shù)據(jù)集,所述數(shù)據(jù)集包括各具有一對坐標值的多個數(shù)據(jù)點;-數(shù)值確定所述熔融曲線的數(shù)據(jù)點的一階導數(shù)值;-確定所述一階導數(shù)值的基線;-從所述一階導數(shù)值減去所述基線,以產生修正的一階導數(shù)值;-確定所述修正的一階導數(shù)值的第一最大值;以及-輸出所述第一最大值,其中所述第一最大值表示DNA樣本的熔融溫度Tm。
2. 如權利要求l所述的方法,還包括以下步驟-通過對高斯混合模型函數(shù)應用列文伯格-馬夸爾特(LM)回歸過程以確定所述函數(shù)的 一個或多個參數(shù)來計算擬合所述修正的一階導數(shù)值的曲線的近似,其中所述參數(shù)包括初始 條件,并且其中所述第一最大值用作第一參數(shù)的初始條件;以及_輸出所述第一參數(shù),其中所確定的第一參數(shù)表示DNA樣本的熔融溫度Tm。
3. 如權利要求2所述的方法,其中,所述高斯混合模型包括如下形式的表達<formula>formula see original document page 2</formula>其中,P i是第一參數(shù),以及a i和o工是附加參數(shù)。
4. 如權利要求1所述的方法,進一步包括確定所述一階導數(shù)值是否包括最接近所述 第一最大值的臺肩值。
5. 如權利要求2所述的方法,進一步包括顯示所述第一參數(shù)值。
6. 如權利要求l所述的方法,進一步包括以下步驟-確定所述修正的一階導數(shù)值的第二、第三或第四最大值,其中所述第二、第三或第四 最大值用作第二、第三或第四參數(shù)的初始條件;以及-輸出所述第二、第三或第四參數(shù),其中所確定的第二、第三或第四參數(shù)表示0脆樣本 的第二、第三或第四熔融溫度Tm2、 Tm3或Tm4。
7. 如權利要求6所述的方法,其中,所述高斯混合模型包括如下形式的表達<formula>formula see original document page 2</formula>其中,P i是所述第一參數(shù),P 2是所述第二參數(shù),以及其中a p o p a 2和o 2是附加參
8.如權利要求6所述的方法,其中,所述高斯混合模型包括如下形式的表達<formula>formula see original document page 2</formula>其中,^是所述第一參數(shù),i^是所述第二參數(shù),i^是所述第三參數(shù),以及c^、 h、d2、 02、 Cl3禾P 03是附加參數(shù)。
9.如權利要求6所述的方法,其中,所述高斯混合模型包括如下形式的表達<7i< i,…,,、2、2、「1, 、2 A X —〃2 )、1+乂乂2CT4、2 A其中,i^是所述第一參數(shù),42是所述第二參數(shù),43是所述第三參數(shù),44是所述第四參數(shù),以及其中a p o p a 2、 o 2、 a 3、 o 3、 a 4禾P o 4是附加參數(shù)。
10. —種計算機可讀介質,包括用于控制處理器來確定DNA的熔融溫度Tm的代碼,所述 代碼包括指令以用于_接收表示DNA樣本的熔融曲線的數(shù)據(jù)集,所述數(shù)據(jù)集包括各具有一對坐標值的多個數(shù)據(jù)點;-數(shù)值確定所述熔融曲線的數(shù)據(jù)點的一階導數(shù)值; -確定所述一階導數(shù)值的基線;_從所述一階導數(shù)值減去所述基線,以產生修正的一階導數(shù)值; -確定所述修正的一階導數(shù)值的第一最大值;以及_輸出所述第一最大值,其中所述第一最大值表示DNA樣本的熔融溫度Tm。
11. 如權利要求10所述的計算機可讀介質,其中,所述代碼適合于執(zhí)行如權利要求2至 9中的任一項所述的步驟。
12. —種動力聚合酶鏈反應(PCR)系統(tǒng),包括-生成表示DNA熔融曲線的熔融曲線數(shù)據(jù)集的動力PCR分析模塊,所述數(shù)據(jù)集包括各具有一對坐標值的多個數(shù)據(jù)點;以及-智能模塊,適合于通過以下來處理熔融曲線數(shù)據(jù)集以確定Tm值-接收表示DNA樣本的熔融曲線的數(shù)據(jù)集,所述數(shù)據(jù)集包括各具有一對坐標值的多個數(shù)據(jù)點;-數(shù)值確定所述熔融曲線的數(shù)據(jù)點的一階導數(shù)值; -確定所述一階導數(shù)值的基線;_從所述一階導數(shù)值減去所述基線,以產生修正的一階導數(shù)值; -確定所述修正的一階導數(shù)值的第一最大值;以及_輸出所述第一最大值,其中所述第一最大值表示DNA樣本的熔融溫度Tm。
13. 如權利要求12所述的系統(tǒng),其中,所述動力PCR分析模塊駐留在動力熱循環(huán)裝置 中,以及所述智能模塊包括通信耦合到所述分析模塊的處理器或者其中所述智能模塊包括 駐留在計算機系統(tǒng)中的處理器,所述計算機系統(tǒng)通過網絡連接或直接連接其中之一耦合到 所述分析模塊。
14. 如權利要求12所述的系統(tǒng),還包括顯示模塊,其中輸出包括在所述顯示模塊上顯 示所述Tm值。
15.如權利要求12所述的系統(tǒng),其中,所述系統(tǒng)適合于執(zhí)行如權利要求2至9中的任一 項所述的步驟。
全文摘要
本發(fā)明是通過無公式方法確定熔融溫度。進行熔融曲線數(shù)據(jù)集的一階導數(shù)的數(shù)值確定。對于一階導數(shù)值確定基線,并且從一階導數(shù)值減去基線以產生修正的一階導數(shù)值。確定修正的一階導數(shù)值的第一最大值,并且所述第一最大值表示DNA樣本的熔融溫度Tm。例如高斯混合模型(GMM)函數(shù)等具有使用列文伯格-馬夸爾特(LM)回歸過程所確定的參數(shù)的模型函數(shù)也可用于查找對一階導數(shù)曲線的近似。數(shù)值確定的一階導數(shù)值的最大值用作模型函數(shù)的參數(shù)的初始條件。所確定參數(shù)提供一個或多個分步熔融溫度值,它們可被返回,例如被顯示或者以其它方式使用,供進一步處理。
文檔編號G06F19/00GK101782940SQ200910207618
公開日2010年7月21日 申請日期2009年10月16日 優(yōu)先權日2008年10月17日
發(fā)明者R·T·克尼克 申請人:霍夫曼-拉羅奇有限公司