国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于預(yù)測(cè)hiv病毒趨向性和分類(lèi)氨基酸序列的技術(shù)的制作方法

      文檔序號(hào):5865400閱讀:297來(lái)源:國(guó)知局
      專(zhuān)利名稱(chēng):用于預(yù)測(cè)hiv病毒趨向性和分類(lèi)氨基酸序列的技術(shù)的制作方法
      用于預(yù)測(cè)HIV病毒趨向性和分類(lèi)氨基酸序列的技術(shù)與相關(guān)專(zhuān)利申請(qǐng)交叉引用本專(zhuān)利申請(qǐng)要求于2008年10月17日提交的美國(guó)臨時(shí)專(zhuān)利申請(qǐng)No. 61/106,405 的優(yōu)先權(quán),所述美國(guó)臨時(shí)專(zhuān)利申請(qǐng)通過(guò)弓I用并入。
      背景技術(shù)
      本發(fā)明的實(shí)施方案一般涉及基于序列進(jìn)行測(cè)試的技術(shù)。更特別地,本發(fā)明涉及改進(jìn)用于預(yù)測(cè)HIV病毒趨向性(tropism)的計(jì)算技術(shù)。HIV是慢病毒(逆轉(zhuǎn)錄病毒科的一個(gè)成員),HIV感染可導(dǎo)致獲得性免疫缺陷綜合征(AIDS),這是人的病癥,其中免疫系統(tǒng)在病毒的影響下開(kāi)始失效。HIV主要影響人免疫系統(tǒng)中極其重要的細(xì)胞,如輔助T細(xì)胞(特定地CD4+ T細(xì)胞)、巨噬細(xì)胞和樹(shù)突細(xì)胞,這可導(dǎo)致降低的免疫應(yīng)答。當(dāng)CD4+ T細(xì)胞數(shù)量降至低于臨界水平時(shí),細(xì)胞介導(dǎo)的免疫缺失,機(jī)體逐漸變得對(duì)機(jī)會(huì)性感染更加易感。HIV病毒進(jìn)入人宿主細(xì)胞的一個(gè)途徑是識(shí)別并結(jié)合細(xì)胞膜上的⑶4,并募集兩種共受體(co-rec印tor)CCR5或CXCR4中至少一種。僅募集CCR5的被病毒感染的患者可以用基于CCR5-拮抗劑的藥物治療。因此,正確地鑒定病毒趨向性以幫助藥物的有效施用是有幫助的。不幸的是,目前用于HIV趨向性測(cè)定的技術(shù)具有許多限制。已經(jīng)進(jìn)行了許多嘗試,基于HIV病毒上GP120蛋白的V3環(huán)來(lái)構(gòu)建預(yù)測(cè)趨向性的分類(lèi)器(classifier),所述V3環(huán)目前被認(rèn)為是趨向性的支配性決定簇并由35左右個(gè)氨基酸組成。首先由de Jong, et al, J Virol 66(2) :757-765 (1992)和 Fouchier et al., J.Clin Microbiol. 33(4) :906-911(1995)提出了簡(jiǎn)單的電荷規(guī)則(charge rule)來(lái)預(yù)測(cè)HIV趨向性。在一個(gè)版本中,如果在第11或25位上存在帶正電荷的氨基酸,則所述規(guī)則將病毒分類(lèi)為“使用CXCR4”,否則分類(lèi)為“不使用CXCR4”。2001年,Resch, et al., Virology 288(1) =51-62(2001)提出了使用V3環(huán)中16個(gè)氨基酸預(yù)測(cè)趨向性的神經(jīng)網(wǎng)絡(luò)模型。Pillai,et al. ,AIDS Res Hum Retroviruses 19(2) :145-149(2003)提出了包括決策樹(shù)(decision trees)和支持向量機(jī)(Support Vector Machines, SVM)在內(nèi)的機(jī)器學(xué)習(xí)方法(machine learning method)。Jensen et al. (J. Virol 77(24) : 13376-13388 Q003))提出了一種用于預(yù)測(cè)趨向性的位置特異性得分矩陣(Position Specific Score Matrix, PSSM)。2004 年,Sing et al. (Learning mixtures of localized rules by maximizing the area under the ROC curve. Jose Hernandez—OralIo, editor,1st International Workshop on ROC Analysis in Artificial Intelligence, pages 89-96, Valencia, Spain, August 2004)提出為了趨向性預(yù)測(cè)的目的使用通過(guò)最大化ROC曲線下面積而學(xué)習(xí)的局部規(guī)則(localized rules)的混合物。2004年 Sing (Master' s thesis, Max Planck Institute for Informatics, 2004) 使用從Los Alamos National Lab (LANL)下載的公開(kāi)數(shù)據(jù)進(jìn)行了這些方法和其他方法的精確比較。這些方法中一些在99%、95%和90%特異性下靈敏度方面的表現(xiàn)概括于圖IA和 IB中。
      靈敏度和特異性是任何多種二元分類(lèi)測(cè)試表現(xiàn)的統(tǒng)計(jì)學(xué)度量。在統(tǒng)計(jì)學(xué)中,特異性被定義為被正確鑒定的陰性的比例,例如,被正確鑒定為不患有病癥的健康人的百分比。 特異性被定義為被正確鑒定的陰性的比例,例如,被正確鑒定為不患有病癥的健康人的百分比。這些概念也與I型和II型誤差的一般概念密切相關(guān)。從圖IA和IB中可以看出,通常特異性的提高伴隨著靈敏度的降低,反之亦然。例如,在99%的特異性下,靈敏度范圍是從22%到44%。例如在95%的特異性下,靈敏度范圍是從55%到74%。在90%的特異性下,靈敏度的范圍是從66%到79%。當(dāng)具有CXCR4趨向性或二重趨向性的病毒可以被有效地鑒定為一組而僅具有 CCR5趨向性的病毒被鑒定為不同和單獨(dú)的一組時(shí),在臨床環(huán)境中可以更有效地施用基于 CCR5-拮抗劑的藥物。發(fā)明概述發(fā)明人目前發(fā)明了滿足更迫切的臨床需要的一種改進(jìn)的計(jì)算預(yù)測(cè)方法。申請(qǐng)人在此公開(kāi)了改進(jìn)的HIV病毒趨向性預(yù)測(cè)的技術(shù)。根據(jù)本發(fā)明的一個(gè)實(shí)施方案,公開(kāi)了將測(cè)試序列歸類(lèi)為第一類(lèi)(例如CXCR4)或第二類(lèi)(例如⑶肪)的技術(shù)。示例性的技術(shù)包括提供包括數(shù)個(gè)數(shù)個(gè)第一類(lèi)序列的第一訓(xùn)練組, 和包括數(shù)個(gè)第二類(lèi)序列的第二訓(xùn)練組。所述技術(shù)包括確定與數(shù)個(gè)位置相關(guān)的數(shù)個(gè)概率,所述確定考慮相鄰位置中元件之間的依賴性。一個(gè)實(shí)施方案提供的技術(shù)包括確定與數(shù)個(gè)位置相關(guān)的數(shù)個(gè)概率,其中所述數(shù)個(gè)位置包括位置、在先位置(preceding position)禾口在后位置(succeeding position)??紤]到第一類(lèi)序列上的在先位置和測(cè)試序列上的在先位置被屬于第二特定類(lèi)別的元件占據(jù),并且考慮到第一類(lèi)序列上的在后位置和測(cè)試序列上的在后位置被屬于第三特定類(lèi)別的元件占據(jù),技術(shù)包括確定第一類(lèi)序列上的位置和測(cè)試序列上的位置被屬于第一特定類(lèi)別的元件占據(jù)的概率??紤]到第二類(lèi)序列上的在先位置和測(cè)試序列上的在先位置被屬于第五特定類(lèi)別的元件占據(jù),并且考慮到第二類(lèi)序列上的在后位置和測(cè)試序列上的在后位置被屬于第六特定類(lèi)別的元件占據(jù),技術(shù)包括確定第二類(lèi)序列上的位置和測(cè)試序列上的位置被屬于第四特定類(lèi)別的元件占據(jù)的概率。根據(jù)一個(gè)實(shí)施方案,如果每一對(duì)相應(yīng)的元件屬于特定的預(yù)定的氨基酸類(lèi)別,則兩群數(shù)個(gè)元件(一群在第一序列上,另一群在第二序列上)被認(rèn)為是同一類(lèi)型。根據(jù)多個(gè)實(shí)施方案,預(yù)定的氨基酸類(lèi)別可以被不同地定義。歸類(lèi)可以被用于降低比較序列相似性所需要的計(jì)算的復(fù)雜性。根據(jù)一個(gè)實(shí)施方案,20種已知的氨基酸被分成四個(gè)類(lèi)別。第一個(gè)類(lèi)別由H、K和 R(分別為組氨酸、賴氨酸和精氨酸)組成;第二個(gè)類(lèi)別由A、F、I、L、M、P、V和W(分別為丙氨酸、苯丙氨酸、異亮氨酸、亮氨酸、甲硫氨酸、脯氨酸、纈氨酸和色氨酸)組成;第三個(gè)類(lèi)別由C、G、N、Q、S、T和Y(半胱氨酸、甘氨酸、天冬酰胺、谷氨酰胺、絲氨酸、蘇氨酸和酪氨酸) 組成;第四個(gè)類(lèi)別由D和E(天冬氨酸和谷氨酸)組成。在另一個(gè)實(shí)施方案中,20種已知的氨基酸被分成十二個(gè)類(lèi)別。第一個(gè)類(lèi)別由A和 P組成;第二個(gè)類(lèi)別由F和W組成;第三個(gè)類(lèi)別由I、L和V組成;第四個(gè)類(lèi)別由M組成 ’第五個(gè)類(lèi)別由H組成;第六個(gè)類(lèi)別由K和R組成;第七個(gè)類(lèi)別由D組成;第八個(gè)類(lèi)別由E組成;第九個(gè)類(lèi)別由N、S和T組成;第十個(gè)類(lèi)別由Q組成;第十一個(gè)類(lèi)別由C和G組成;第十二個(gè)類(lèi)別由Y組成。根據(jù)一個(gè)實(shí)施方案,將測(cè)試序列歸類(lèi)為第一類(lèi)(例如CXCR4)或第二類(lèi)(例如 CCR5)的技術(shù)包括基于上述數(shù)個(gè)概率確定測(cè)試序列的得分,和基于所述得分將測(cè)試序列歸
      類(lèi)為第一類(lèi)或第二類(lèi)。本發(fā)明的另一實(shí)施方案提供了基于多種分類(lèi)器的表決對(duì)測(cè)試數(shù)據(jù)點(diǎn)分類(lèi)的技術(shù)。 技術(shù)包括提供包括數(shù)個(gè)數(shù)據(jù)點(diǎn)的訓(xùn)練組,并將數(shù)個(gè)數(shù)據(jù)點(diǎn)再分成數(shù)個(gè)數(shù)據(jù)亞組。在一個(gè)特定的實(shí)施方案中,從具體場(chǎng)所(例如城市)的患者采取的數(shù)據(jù)點(diǎn)可被替代地分類(lèi)進(jìn)一個(gè)特定的數(shù)據(jù)亞組中。所述技術(shù)包括形成數(shù)個(gè)訓(xùn)練組(每個(gè)形成的組具有來(lái)自每個(gè)數(shù)據(jù)亞組的一個(gè)數(shù)據(jù)點(diǎn))并訓(xùn)練數(shù)個(gè)分類(lèi)器(每個(gè)分類(lèi)器基于數(shù)個(gè)訓(xùn)練組之一)。在來(lái)自每個(gè)患者的多個(gè)數(shù)據(jù)點(diǎn)被歸類(lèi)在特定的數(shù)據(jù)亞組中的一個(gè)實(shí)施方案中,每個(gè)訓(xùn)練組由下述數(shù)據(jù)點(diǎn)組成,其中每個(gè)數(shù)據(jù)點(diǎn)得自單獨(dú)的患者,并且數(shù)據(jù)點(diǎn)的總數(shù)等于患者的數(shù)量。在來(lái)自每個(gè)場(chǎng)所的數(shù)據(jù)點(diǎn)被歸類(lèi)在特定數(shù)據(jù)亞組中的一個(gè)實(shí)施方案中,每個(gè)訓(xùn)練組由下述數(shù)據(jù)點(diǎn)組成,其中每個(gè)數(shù)據(jù)點(diǎn)得自單獨(dú)的場(chǎng)所,并且數(shù)據(jù)點(diǎn)的總數(shù)等于場(chǎng)所的數(shù)量。所述技術(shù)還包括使用在上文確定的訓(xùn)練組上訓(xùn)練過(guò)的數(shù)個(gè)分類(lèi)器,針對(duì)測(cè)試數(shù)據(jù)確定數(shù)個(gè)試驗(yàn)性歸類(lèi)。技術(shù)包括基于數(shù)個(gè)試驗(yàn)性歸類(lèi)的表決對(duì)測(cè)試數(shù)據(jù)點(diǎn)進(jìn)行歸類(lèi)??膳c該實(shí)施方案相關(guān)的數(shù)個(gè)數(shù)據(jù)點(diǎn)可包括生物標(biāo)記物、氨基酸序列、核苷酸序列等等。本發(fā)明的另一實(shí)施方案提供了訓(xùn)練分類(lèi)器的技術(shù),該技術(shù)的基礎(chǔ)是根據(jù)到一些參照性的數(shù)個(gè)數(shù)據(jù)點(diǎn)的距離對(duì)各個(gè)數(shù)據(jù)點(diǎn)加權(quán)。參照性的數(shù)個(gè)數(shù)據(jù)點(diǎn)可以被全局性地定義為全體數(shù)據(jù)點(diǎn),或者對(duì)每個(gè)個(gè)體數(shù)據(jù)點(diǎn)而言被個(gè)別地定義為除所考慮的每個(gè)個(gè)體數(shù)據(jù)點(diǎn)之外的全體數(shù)據(jù)點(diǎn)。根據(jù)實(shí)施方案,加權(quán)可基于線性距離、幾何距離或其他類(lèi)型的距離。通過(guò)對(duì)異常值少量取樣的數(shù)據(jù)點(diǎn)(即遠(yuǎn)離參照性的數(shù)個(gè)數(shù)據(jù)點(diǎn)的點(diǎn))進(jìn)行過(guò)量加權(quán),方法嘗試相對(duì)于過(guò)量取樣的數(shù)據(jù)點(diǎn)(即接近參照性的數(shù)個(gè)數(shù)據(jù)點(diǎn)的點(diǎn))對(duì)少量取樣的數(shù)據(jù)點(diǎn)進(jìn)行補(bǔ)償。在所述實(shí)施方案中,一些數(shù)據(jù)點(diǎn)來(lái)自于過(guò)量取樣的來(lái)源,而其他數(shù)據(jù)點(diǎn)來(lái)自于相對(duì)少量取樣的來(lái)源。技術(shù)包括根據(jù)到一些參照性的數(shù)個(gè)數(shù)據(jù)點(diǎn)均值的距離來(lái)對(duì)數(shù)個(gè)數(shù)據(jù)點(diǎn)的每一個(gè)加權(quán)??膳c所述實(shí)施方案相關(guān)的數(shù)個(gè)數(shù)據(jù)點(diǎn)包括生物標(biāo)記物、氨基酸序列、核苷酸序列等等。附圖
      概述圖IA是簡(jiǎn)化的ROC曲線,展示了預(yù)測(cè)HIV病毒趨向性的多種現(xiàn)存技術(shù)的表現(xiàn);圖IB是簡(jiǎn)化的圖片,著重于預(yù)測(cè)HIV病毒趨向性的感興趣的示例性區(qū)域;圖2是簡(jiǎn)化的圖表,一般性闡述了根據(jù)本發(fā)明的一個(gè)實(shí)施方案對(duì)測(cè)試數(shù)據(jù)點(diǎn)分類(lèi)的技術(shù);圖3是簡(jiǎn)化的圖表,闡述了根據(jù)本發(fā)明的一個(gè)實(shí)施方案使用位置特異性得分矩陣確定一個(gè)測(cè)試數(shù)據(jù)點(diǎn)屬于一個(gè)預(yù)定類(lèi)別的技術(shù);圖4A、4B和4C闡述了根據(jù)本發(fā)明的多個(gè)實(shí)施方案用于預(yù)測(cè)趨向性的與位置特異性得分矩陣相關(guān)的三種數(shù)學(xué)模型;圖5A和5B闡述了根據(jù)本發(fā)明的一個(gè)實(shí)施方案對(duì)氨基酸歸類(lèi)的兩個(gè)實(shí)施方案;
      圖6是簡(jiǎn)化的流程圖,闡述了基于數(shù)個(gè)分類(lèi)器的表決對(duì)數(shù)據(jù)點(diǎn)分類(lèi)的技術(shù);圖7是簡(jiǎn)化的流程圖,闡述了對(duì)本發(fā)明一個(gè)實(shí)施方案的訓(xùn)練組加權(quán)的技術(shù);和圖8是可用于實(shí)施本申請(qǐng)中所述本發(fā)明多種實(shí)施方案的計(jì)算機(jī)系統(tǒng)的簡(jiǎn)化模塊圖。發(fā)明詳述本發(fā)明的多個(gè)實(shí)施方式可應(yīng)用于基于基因進(jìn)行測(cè)試的技術(shù)。更特別地,本發(fā)明可用于改進(jìn)用于預(yù)測(cè)HIV病毒趨向性的計(jì)算技術(shù)。A.考虎了序列上相鄰位置中元件之間依賴件的,用于對(duì)測(cè)試序列歸類(lèi)的技術(shù)本發(fā)明的一個(gè)實(shí)施方案提供了以改進(jìn)的基于PSSM的模型為基礎(chǔ)的,對(duì)測(cè)試序列歸類(lèi)的技術(shù)。位置特異性得分矩陣提供了在訓(xùn)練組中表示概率方面信息的一種方式,其中一個(gè)元件會(huì)占據(jù)假定的序列上一個(gè)具體的位置。位置特異性得分矩陣可以被用于通過(guò)比較兩條假定序列上每個(gè)元件的特異性來(lái)評(píng)估兩條假定的序列屬于相同種類(lèi)的概率。在一個(gè)示例性的PSSM中,每一列(或行,根據(jù)情況,取決于實(shí)施方案)可表示一種類(lèi)型的元件(例如對(duì)DNA序列而言A、C、G或T ;對(duì)蛋白質(zhì)序列而言二十種已知氨基酸之一)。例如,如果A類(lèi)型的元件I在所有已知結(jié)合位點(diǎn)間強(qiáng)烈保守,則標(biāo)準(zhǔn)化版本的矩陣在 i = I、j =A時(shí)可以是1,在i = I、j乒A時(shí)可以是0。通常,獨(dú)立于相鄰位置中的元件,測(cè)定每個(gè)位置含有某一類(lèi)型元件的概率。然而,根據(jù)一個(gè)實(shí)施方案,相鄰位置被獨(dú)立元件占據(jù)的假設(shè)在實(shí)際中并非總是存在。申請(qǐng)人引入了一種概率模型,所述概率模型考慮了元件之間適量的依賴性。根據(jù)一個(gè)實(shí)施方案,申請(qǐng)人引入了具有依賴性概率的PSSM模型,以便更好地處理序列的聯(lián)合分布 (joint distribution),來(lái)評(píng)估 HIV 趨向性。在一個(gè)實(shí)施方案中假定了 Markov概率模型,其中每個(gè)位置依賴于該位置之前的位置。通過(guò)放松序列中單向依賴性的負(fù)擔(dān)也可以創(chuàng)建更專(zhuān)用的Markov模型,所述模型假定每個(gè)位置依賴于所述位置的緊鄰位置。圖IA是簡(jiǎn)化的ROC曲線,展示了預(yù)測(cè)HIV病毒趨向性的多種現(xiàn)存技術(shù)的表現(xiàn)。沿 X軸描述的是假陽(yáng)性率,其定義等于(1-特異性)。在y軸上描述的是真陽(yáng)性率,其定義等于靈敏度?;趶腖os Alamos National Lab (LANL)下載的公開(kāi)數(shù)據(jù)進(jìn)行了這些方法的精確比較。圖IB是簡(jiǎn)化的圖片,著重于根據(jù)本發(fā)明的多個(gè)實(shí)施方案的示例性區(qū)域。該圖展示了預(yù)測(cè)HIV病毒趨向性的先前已知技術(shù)的表現(xiàn)以及其他。根據(jù)所述實(shí)施方案的感興趣的范圍是從90%到99%的特異性。對(duì)應(yīng)的靈敏度范圍從少許延伸到20%到約80%。
      權(quán)利要求
      1.將測(cè)試序列歸類(lèi)為第一類(lèi)或第二類(lèi)的方法,所述方法包括提供第一訓(xùn)練組,所述第一訓(xùn)練組包括數(shù)個(gè)第一類(lèi)序列;提供第二訓(xùn)練組,所述第二訓(xùn)練組包括數(shù)個(gè)第二類(lèi)序列;確定與數(shù)個(gè)位置相關(guān)的數(shù)個(gè)概率,所述數(shù)個(gè)位置包括位置、在先位置和在后位置,所述多個(gè)概率包括所述第一類(lèi)序列上的位置和所述測(cè)試序列上的位置被屬于第一特定類(lèi)別的元件占據(jù)的概率,其中所述第一類(lèi)序列上的在先位置和所述測(cè)試序列上的在先位置被屬于第二特定類(lèi)別的元件占據(jù),并且其中所述第一類(lèi)序列上的在后位置和所述測(cè)試序列上的在后位置被屬于第三特定類(lèi)別的元件占據(jù);和所述第二類(lèi)序列上的位置和所述測(cè)試序列上的位置被屬于第四特定類(lèi)別的元件占據(jù)的概率,其中所述第二類(lèi)序列上的在先位置和所述測(cè)試序列上的在先位置被屬于第五特定類(lèi)別的元件占據(jù),并且其中所述第二類(lèi)序列上的在后位置和所述測(cè)試序列上的在后位置被屬于第六特定類(lèi)別的元件占據(jù);基于所述數(shù)個(gè)概率確定所述測(cè)試序列的得分;和基于所述得分將所述測(cè)試序列歸類(lèi)為第一類(lèi)或第二類(lèi)。
      2.如權(quán)利要求1所述的方法,還包含確定除序列上起始位置和最終位置之外所述序列上每個(gè)位置的數(shù)個(gè)概率。
      3.如權(quán)利要求1所述的方法,其中確定所述得分包括通過(guò)加權(quán)因數(shù)對(duì)所述數(shù)個(gè)概率中的每個(gè)加權(quán)。
      4.如權(quán)利要求1所述的方法,其中所述數(shù)個(gè)概率還包括所述第一類(lèi)序列上的起始位置和所述測(cè)試序列上的起始位置被屬于第七特定類(lèi)別的元件占據(jù)的概率;所述第一類(lèi)序列上的最終位置和所述測(cè)試序列上的最終位置被屬于第八特定類(lèi)別的元件占據(jù)的概率;所述第二類(lèi)序列上的起始位置和所述測(cè)試序列上的起始位置被屬于第九特定類(lèi)別的元件占據(jù)的概率;所述第二類(lèi)序列上的最終位置和所述測(cè)試序列上的最終位置被屬于第十特定類(lèi)別的元件占據(jù)的概率。
      5.如權(quán)利要求1所述的方法,其中所述測(cè)試序列、所述數(shù)個(gè)第一類(lèi)序列和所述數(shù)個(gè)第二類(lèi)序列是氨基酸序列。
      6.如權(quán)利要求5所述的方法,其中所述第一類(lèi)序列包括由CXCR4型人免疫缺陷病毒 (HIV)GP120蛋白的V3環(huán)組成的氨基酸序列,并且其中所述第二類(lèi)序列包括由CCR5型人免疫缺陷病毒(HIV)GP120蛋白的V3環(huán)組成的氨基酸序列。
      7.如權(quán)利要求5所述的方法,其中氨基酸被分入四個(gè)預(yù)定的類(lèi)別之一,所述四種預(yù)定的類(lèi)別包括包括H、K和R的第一類(lèi)別,包括A、F、I、L、M、P、V和W的第二類(lèi)別,包括C、G、 N、Q、S、T和Y的第三類(lèi)別,和包括D和E的第四類(lèi)別。
      8.如權(quán)利要求5所述的方法,其中氨基酸被分入十二種預(yù)定的類(lèi)別之一,所述十二種預(yù)定的類(lèi)別包括包括A和P的第一類(lèi)別,包括F和W的第二類(lèi)別,包括I、L和V的第三類(lèi)別,包括M的第四類(lèi)別,包括H的第五類(lèi)別,包括K和R的第六類(lèi)別,包括D的第七類(lèi)別,包括E的第八類(lèi)別,包括N、S和T的第九類(lèi)別,包括Q的第十類(lèi)別,包括C和G的第十一類(lèi)別, 和包括Y的第十二類(lèi)別。
      9.如權(quán)利要求5所述的方法,其中氨基酸被分入數(shù)個(gè)預(yù)定的類(lèi)別之一,所述預(yù)定的類(lèi)別以每種氨基酸的物理-化學(xué)特性為基礎(chǔ)。
      10.如權(quán)利要求5所述的方法,其中二十種氨基酸的每一種組成二十種預(yù)定類(lèi)別之一。
      11.如權(quán)利要求1所述的方法,其中所述測(cè)試序列、所述數(shù)個(gè)第一類(lèi)序列和所述數(shù)個(gè)第二類(lèi)序列是核酸序列。
      12.基于數(shù)個(gè)數(shù)據(jù)點(diǎn)對(duì)數(shù)據(jù)點(diǎn)進(jìn)行歸類(lèi)的方法,所述方法包括 提供數(shù)個(gè)數(shù)據(jù)點(diǎn);將數(shù)個(gè)數(shù)據(jù)點(diǎn)再分進(jìn)數(shù)個(gè)數(shù)據(jù)亞組中,所述數(shù)個(gè)數(shù)據(jù)亞組的每一個(gè)滿足一個(gè)標(biāo)準(zhǔn); 確定數(shù)個(gè)訓(xùn)練組,所述數(shù)個(gè)訓(xùn)練組的每一個(gè)是通過(guò)從所述數(shù)個(gè)數(shù)據(jù)亞組的每一個(gè)中選擇一個(gè)數(shù)據(jù)點(diǎn)而形成;訓(xùn)練數(shù)個(gè)分類(lèi)器,所述數(shù)個(gè)分類(lèi)器的每一個(gè)在所述數(shù)個(gè)訓(xùn)練組上被訓(xùn)練; 針對(duì)與所述數(shù)個(gè)分類(lèi)器相關(guān)的數(shù)據(jù)點(diǎn)確定數(shù)個(gè)試驗(yàn)性歸類(lèi);和基于所述數(shù)個(gè)試驗(yàn)性歸類(lèi)的表決,對(duì)所述數(shù)據(jù)點(diǎn)進(jìn)行歸類(lèi)。
      13.如權(quán)利要求12所述的方法,其中所述數(shù)據(jù)點(diǎn)表示與數(shù)個(gè)人免疫缺陷病毒(HIV) GP120蛋白的V3環(huán)相關(guān)的數(shù)個(gè)測(cè)量,所述方法被調(diào)整為將氨基酸序列分類(lèi)為CCR5類(lèi)序列或 CXCR4類(lèi)序列。
      14.如權(quán)利要求12所述的方法,其中所述歸類(lèi)基于多數(shù)表決。
      15.如權(quán)利要求12所述的方法,其中所述數(shù)個(gè)數(shù)據(jù)點(diǎn)與和數(shù)個(gè)生物標(biāo)記物相關(guān)的數(shù)個(gè)測(cè)量相關(guān)。
      16.如權(quán)利要求12所述的方法,其中所述數(shù)個(gè)數(shù)據(jù)點(diǎn)與和數(shù)個(gè)核酸序列相關(guān)的數(shù)個(gè)測(cè)量相關(guān)。
      17.如權(quán)利要求12所述的方法,其中所述數(shù)個(gè)數(shù)據(jù)點(diǎn)與和數(shù)個(gè)氨基酸序列相關(guān)的數(shù)個(gè)測(cè)量相關(guān)。
      18.如權(quán)利要求13所述的方法,其中所述數(shù)個(gè)數(shù)據(jù)點(diǎn)得自一種或更多種人。
      19.如權(quán)利要求13所述的方法,其中所述數(shù)個(gè)數(shù)據(jù)點(diǎn)得自一種或多種哺乳動(dòng)物。
      20.基于得自數(shù)個(gè)來(lái)源的數(shù)個(gè)數(shù)據(jù)點(diǎn)來(lái)訓(xùn)練分類(lèi)器的方法,所述方法包括根據(jù)特定數(shù)據(jù)點(diǎn)到參照性數(shù)個(gè)數(shù)據(jù)點(diǎn)均值的距離對(duì)特定的數(shù)據(jù)點(diǎn)加權(quán)。
      21.如權(quán)利要求20所述的方法,其中所述參照性數(shù)個(gè)數(shù)據(jù)點(diǎn)包括所有數(shù)個(gè)數(shù)據(jù)點(diǎn),包括特定的數(shù)據(jù)點(diǎn)。
      22.如權(quán)利要求20所述的方法,其中所述參照性數(shù)個(gè)數(shù)據(jù)點(diǎn)包括除特定數(shù)據(jù)點(diǎn)之外的所有數(shù)個(gè)數(shù)據(jù)點(diǎn)。
      23.如權(quán)利要求20所述的方法,其中所述均值是算術(shù)平均值。
      24.如權(quán)利要求20所述的方法,其中所述均值是幾何平均值。
      25.如權(quán)利要求20所述的方法,每個(gè)數(shù)據(jù)點(diǎn)是氨基酸序列的度量,兩個(gè)數(shù)據(jù)點(diǎn)之間的每個(gè)距離是兩條氨基酸序列之間不相似性的度量,其中更大的距離表示更大程度的不相似性,更小的距離表示更小程度的不相似性。
      26.如權(quán)利要求20所述的方法,其中所述加權(quán)以線性距離為基礎(chǔ)。
      27.如權(quán)利要求20所述的方法,其中所述數(shù)個(gè)數(shù)據(jù)點(diǎn)與和數(shù)個(gè)生物標(biāo)記物相關(guān)的數(shù)個(gè)測(cè)量相關(guān)。
      28.如權(quán)利要求20所述的方法,其中所述數(shù)個(gè)數(shù)據(jù)點(diǎn)與和數(shù)個(gè)氨基酸序列相關(guān)的數(shù)個(gè)測(cè)量相關(guān)。
      29.如權(quán)利要求20所述的方法,其中所述數(shù)個(gè)數(shù)據(jù)點(diǎn)與和數(shù)個(gè)核苷酸序列相關(guān)的數(shù)個(gè)測(cè)量相關(guān)。
      30.如權(quán)利要求20所述的方法,其中所述數(shù)個(gè)數(shù)據(jù)點(diǎn)與和數(shù)個(gè)人免疫缺陷病毒(HIV) GP120蛋白V3環(huán)相關(guān)的數(shù)個(gè)測(cè)量相關(guān),所述方法被調(diào)整為將氨基酸序列分類(lèi)為CCR5類(lèi)序列或CXCR4類(lèi)序列。
      全文摘要
      本發(fā)明公開(kāi)了對(duì)測(cè)試序列進(jìn)行歸類(lèi)的技術(shù)。示例性的技術(shù)包括定義和利用考慮了相鄰位置的依賴性的位置特異性得分矩陣。一個(gè)實(shí)施方案包括以改進(jìn)的特異性和靈敏度預(yù)測(cè)HIV病毒趨向性。另一實(shí)施方案包括將訓(xùn)練數(shù)據(jù)組再分為一組數(shù)據(jù)亞組,基于數(shù)據(jù)亞組訓(xùn)練數(shù)個(gè)分類(lèi)器,并進(jìn)行數(shù)個(gè)分類(lèi)器的表決。還有另一實(shí)施方案涉及在創(chuàng)建訓(xùn)練組時(shí)基于特定數(shù)據(jù)點(diǎn)到參照性的數(shù)個(gè)數(shù)據(jù)點(diǎn)均值的距離對(duì)特定數(shù)據(jù)點(diǎn)加權(quán)。
      文檔編號(hào)G01N33/48GK102203603SQ200980141385
      公開(kāi)日2011年9月28日 申請(qǐng)日期2009年10月15日 優(yōu)先權(quán)日2008年10月17日
      發(fā)明者廖國(guó)春, 鄭明 申請(qǐng)人:豪夫邁羅氏有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1