專利名稱:一種全局最優(yōu)化dna計(jì)算序列編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算編碼技術(shù),更具體地,本發(fā)明涉及一種全局最優(yōu)化DNA計(jì)算序列編碼方法。
背景技術(shù):
在DNA計(jì)算的過程中,單鏈DNA分子在溶液中任意擴(kuò)散,溶液中會(huì)同時(shí)存在單鏈DNA分子及其三種相關(guān)的DNA分子:DNA反鏈、DNA補(bǔ)鏈、DNA反補(bǔ)鏈。它們都可能參與DNA計(jì)算的雜交反應(yīng),其中,X表示單鏈DNA序列,Xg表示X的Watson-Crick補(bǔ)序列,Xk表示X的反向序列,XKe表示X的反補(bǔ)序列,如圖1所示。雜交反應(yīng)是DNA計(jì)算中最主要、最核心的反應(yīng),雜交反應(yīng)具有方向性。通常,5^—3'的單鏈DNA分子和3' —5'的單鏈DNA分子在氫鍵的作用下相互綁定形成雙螺旋結(jié)構(gòu)。雜交分為特異性雜交和非特異性雜交,特異性雜交為單鏈DNA分子X和其補(bǔ)鏈Xe的堿基對(duì)完全互補(bǔ)的雜交反應(yīng),除此之外的其它雜交反應(yīng)均為非特異性雜交。需要強(qiáng)調(diào)的是,不能認(rèn)為單鏈DNA分子X和其補(bǔ)鏈Xe必定發(fā)生特異性雜交,它們通常發(fā)生特異性雜交,但如果滑動(dòng)后有足夠多的堿基互補(bǔ)時(shí),它們之間也可能會(huì)發(fā)生非特異性雜交,如圖2所示。目前,DNA計(jì)算的基本問題是提高DNA計(jì)算的可靠性、有效性和可擴(kuò)充性。隨著DNA計(jì)算求解問題規(guī)模的不斷增大,需要使用的DNA序列數(shù)量急劇增多;為了保證DNA計(jì)算的有效性和可靠性,需要嚴(yán)格的編碼約束以提高編碼質(zhì)量。DNA序列越長,其合成的成本就越高,且在試驗(yàn)中控制DNA長鏈的難度會(huì)越大。這樣,DNA編碼問題的目標(biāo)為:DNA序列長度盡可能短;編碼約束盡可能強(qiáng);編碼數(shù)量盡可能多。
然而,這些目標(biāo)相互存在著沖突。對(duì)于給定長度的DNA編碼,編碼約束越強(qiáng)則編碼數(shù)量就越少;DNA鏈長越短,滿足條件的DNA數(shù)量也越少。這種多目標(biāo)性使得DNA編碼問題的復(fù)雜性和計(jì)算量急劇增加。DNA編碼受到堿基距離約束、化學(xué)熱力學(xué)約束、DNA 二級(jí)結(jié)構(gòu)約束、DNA分子組成約束等多種編碼規(guī)則的組合約束。在計(jì)算量上是NP完全問題,即隨著問題規(guī)模的增大,對(duì)于求解最優(yōu)DNA序列集合的計(jì)算量呈指數(shù)增長。如果設(shè)計(jì)鏈長為η的一組DNA序列,由于每位的堿基有{A,T,G,C}四種可能,其解空間為4n。如果要求DNA序列集合最大,僅考慮DNA序列之間非特異性雜交的限制,對(duì)于長度為η的DNA序列,就等價(jià)于求解4η個(gè)頂點(diǎn)的圖的最大獨(dú)立集問題。如果還考慮DNA 二級(jí)結(jié)構(gòu)等其它約束,問題就變得更加復(fù)雜。當(dāng)前各種DNA序列設(shè)計(jì)算法適用的編碼約束有限,例如Feldkamp提出的算法適用4種編碼約束,F(xiàn)rutos提出的模版映射算法僅適用7種編碼約束,Shin等提出的多目標(biāo)進(jìn)化算法最大也僅能適用于9種編碼約束。因此,這些算法對(duì)不同的DNA計(jì)算模型不具備通用性,此外這些非精確算法難以高效的設(shè)計(jì)出滿足約束的最大DNA序列集合,無法求解大規(guī)模的DNA計(jì)算問題實(shí)例。
發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)的上述缺陷,本發(fā)明提出一種全局最優(yōu)化DNA計(jì)算序列編碼方法。根據(jù)本發(fā)明的一個(gè)方面,提出了一種全局最優(yōu)化DNA計(jì)算序列編碼方法,包括:步驟1,利用剪枝策略搜索4n個(gè)DNA分子解空間;步驟2,將一個(gè)或者多個(gè)DNA計(jì)算的生物約束轉(zhuǎn)換為對(duì)應(yīng)的數(shù)學(xué)約束;步驟3,將該數(shù)學(xué)約束應(yīng)用到該DNA分子解空間,產(chǎn)生適用于DNA計(jì)算的單鏈DNA序列集合。其中,步驟2中,該數(shù)學(xué)約束為整數(shù)線性規(guī)劃的條件不等式。步驟2中,該一個(gè)或者多個(gè)生物約束包括:漢明距離約束、相似度約束、H-measure約束、反補(bǔ)漢明距離約束、自補(bǔ)漢明距離約束、發(fā)卡結(jié)構(gòu)約束、連續(xù)性約束、GC含量約束、解鏈溫度約束、化學(xué)自由能約束、限定子序列約束和/或DNA模板序列約束。其中,步驟3中,基于該數(shù)學(xué)約束評(píng)價(jià)DNA分子解空間中的DNA序列是否滿足編碼約束。本發(fā)明將DNA計(jì)算的生物約束轉(zhuǎn)換為數(shù)學(xué)約束,將12種DNA編碼約束轉(zhuǎn)換為整數(shù)線性規(guī)劃的條件不等式,產(chǎn)生并評(píng)價(jià)DNA序列是否滿足編碼約束。采用上述技術(shù)方案,可高效地搜索4n的DNA分子解空間,生成滿足約束且更大數(shù)量規(guī)模的DNA分子集合;在保證了DNA計(jì)算過程的有效性和可靠性的前提下,提高可求解問題的規(guī)模。
圖1示出單鏈DNA分子相關(guān)序列示意圖;圖2示出DNA特異性雜交和非特異性雜交的示意圖;圖3示出發(fā)卡結(jié)構(gòu)示意圖。如圖所示,為了能明確實(shí)現(xiàn)本發(fā)明的實(shí)施例的結(jié)構(gòu),在圖中標(biāo)注了特定的結(jié)構(gòu)和運(yùn)行方式,但這僅為示意需要,并非意圖將本發(fā)明限定在該特定方式、器件和環(huán)境中,根據(jù)具體需要,本領(lǐng)域的普通技術(shù)人員可以將這些器件和環(huán)境進(jìn)行調(diào)整或者修改,所進(jìn)行的調(diào)整或者修改仍然包括在后附的權(quán)利要求的范圍中。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明提供的一種全局最優(yōu)化DNA計(jì)算序列編碼方法進(jìn)行詳細(xì)描述。在以下的描述中,將描述本發(fā)明的多個(gè)不同的方面,然而,對(duì)于本領(lǐng)域內(nèi)的普通技術(shù)人員而言,可以僅僅利用本發(fā)明的一些或者全部結(jié)構(gòu)或者流程來實(shí)施本發(fā)明。為了解釋的明確性而言,闡述了特定的數(shù)目、配置和順序,但是很明顯,在沒有這些特定細(xì)節(jié)的情況下也可以實(shí)施本發(fā)明。在其他情況下,為了不混淆本發(fā)明,對(duì)于一些眾所周知的特征將不再進(jìn)行詳細(xì)闡述。本發(fā)明公開了一種全局最優(yōu)化DNA計(jì)算序列編碼方法,適用于DNA計(jì)算的單鏈DNA序列集合。該方法利用剪枝策略高效地搜索4n的DNA序列解空間,生成滿足給定約束條件的最大的DNA序列集合。該方法將12種DNA計(jì)算的生物約束,轉(zhuǎn)換為整數(shù)線性規(guī)劃的條件不等式,生成DNA序列集合。該方法設(shè)計(jì)的DNA分子在DNA計(jì)算的過程中不易發(fā)生錯(cuò)配,能提高DNA計(jì)算的有效性,可靠性。該方法基于全局最優(yōu)化,能比局部最優(yōu)化方法設(shè)計(jì)出更多的DNA序列,以求解更大規(guī)模DNA計(jì)算問題實(shí)例。具體地,該一種全局最優(yōu)化DNA計(jì)算序列編碼方法,包括:利用剪枝策略搜索4n個(gè)DNA分子解空間;將一個(gè)或者多個(gè)DNA計(jì)算的生物約束轉(zhuǎn)換為對(duì)應(yīng)的數(shù)學(xué)約束;將該數(shù)學(xué)約束應(yīng)用到該DNA分子解空間,產(chǎn)生適用于DNA計(jì)算的單鏈DNA序列集合;該數(shù)學(xué)約束為整數(shù)線性規(guī)劃的條件不等式。其中,12種DNA計(jì)算的生物約束包括漢明距離約束、相似度約束、H-measure約束、反補(bǔ)漢明距離約束、自補(bǔ)漢明距離約束、發(fā)卡結(jié)構(gòu)約束、連續(xù)性約束、GC含量約束、解鏈溫度約束、化學(xué)自由能約束、限定子序列約束和DNA模板序列約束。該12種生物約束對(duì)應(yīng)的數(shù)學(xué)約束表示式分別如下:漢明距離約束本實(shí)施例提供的每一條DNA分子序列,給定漢明距離目標(biāo)值Htmget,則要求DNA序列集合中任意兩條序列X和Y的漢明距離都大于該目標(biāo)值。
權(quán)利要求
1.一種全局最優(yōu)化DNA計(jì)算序列編碼方法,包括: 步驟1,利用剪枝策略搜索4n個(gè)DNA分子解空間; 步驟2,將一個(gè)或者多個(gè)DNA計(jì)算的生物約束轉(zhuǎn)換為對(duì)應(yīng)的數(shù)學(xué)約束; 步驟3,將該數(shù)學(xué)約束應(yīng)用到該DNA分子解空間,產(chǎn)生適用于DNA計(jì)算的單鏈DNA序列 口 O
2.根據(jù)權(quán)利要求1所述的全局最優(yōu)化DNA計(jì)算序列編碼方法,其中,步驟2中,該數(shù)學(xué)約束為整數(shù)線性規(guī)劃的條件不等式。
3.根據(jù)權(quán)利要求1所述的全局最優(yōu)化DNA計(jì)算序列編碼方法,其中,步驟2中,該一個(gè)或者多個(gè)生物約束包括:漢明距離約束、相似度約束、H-measure約束、反補(bǔ)漢明距離約束、自補(bǔ)漢明距離約束、發(fā)卡結(jié)構(gòu)約束、連續(xù)性約束、GC含量約束、解鏈溫度約束、化學(xué)自由能約束、限定子序列約束和/或DNA模板序列約束。
4.根據(jù)權(quán)利要求1所述的全局最優(yōu)化DNA計(jì)算序列編碼方法,其中,步驟3中,基于該數(shù)學(xué)約束評(píng)價(jià)DNA分子解空間中的DNA序列是否滿足編碼約束。
5.根據(jù)權(quán)利要求3所述的方法,其中,漢明距離約束表示為: 對(duì)于每一條DNA分子序列,給定漢明距離目標(biāo)值Htmgat要求DNA序列集合中任意兩條序列X和Y的漢明距離都大于該目標(biāo)值;
6.根據(jù)權(quán)利要求3所述的全局最優(yōu)化DNA計(jì)算序列編碼方法,其中,H-measure約束表示為:給定H-measure約束值Hieasuretmget,則DNA序列X和Y之間,對(duì)于距離為k的每次滑動(dòng),其H-measure必須大于等于該約束值,
7.根據(jù)權(quán)利要求3所述的全局最優(yōu)化DNA計(jì)算序列編碼方法,其中,自補(bǔ)漢明距離約束表示為:DNA序列X和Xk之間,對(duì)于距離為k的每次滑動(dòng),自補(bǔ)漢明距離目標(biāo)值SCHammingtarget必須大于等于該約束,令W = XK,W = 3' -XfX2X1-S',則X和W的自補(bǔ)漢明距離大于該目標(biāo)值
8.根據(jù)權(quán)利要求3所述的全局最優(yōu)化DNA計(jì)算序列編碼方法,其中,連續(xù)性約束表示為:給定連續(xù)性目標(biāo)值Conmax,則要求DNA序列集合中任意單鏈DNA序列X的連續(xù)性都小于該目標(biāo)值,
9.根據(jù)權(quán)利要求3所述的全局最優(yōu)化DNA計(jì)算序列編碼方法,其中,解鏈溫度約束表示候選序列X和其補(bǔ)鏈Xe的解鏈溫度是否在給定上下限范圍內(nèi),給定解鏈溫度Tm的目標(biāo)范圍
10.根據(jù)權(quán)利要求3所述的全局最優(yōu)化DNA計(jì)算序列編碼方法,其中,限定子序列約束表示為給定一組禁止出現(xiàn)的子序列,DNA序列可行解不包含這些核酸子序列片段,假設(shè)Y =5' Uny代表這些核酸子序列,Lengthsubljength為其長度,
全文摘要
本發(fā)明提供一種全局最優(yōu)化DNA計(jì)算序列編碼方法,包括步驟1,利用剪枝策略搜索4n個(gè)DNA分子解空間;步驟2,將一個(gè)或者多個(gè)DNA計(jì)算的生物約束轉(zhuǎn)換為對(duì)應(yīng)的數(shù)學(xué)約束;步驟3,將該數(shù)學(xué)約束應(yīng)用到該DNA分子解空間,產(chǎn)生適用于DNA計(jì)算的單鏈DNA序列集合。
文檔編號(hào)G06F19/20GK103106352SQ20131003467
公開日2013年5月15日 申請(qǐng)日期2013年1月22日 優(yōu)先權(quán)日2013年1月22日
發(fā)明者張凱, 許進(jìn), 胡威, 石曉龍, 潘林強(qiáng), 張曉龍, 符海東, 強(qiáng)小利, 石心竹, 賈嶠 申請(qǐng)人:武漢科技大學(xué)