本發(fā)明涉及計算機輔助化合物分子設(shè)計技術(shù)領(lǐng)域,具體涉及一種基于化學(xué)反應(yīng)數(shù)據(jù)的有機合成路線設(shè)計方法。
背景技術(shù):
在新材料、制藥、農(nóng)業(yè)科學(xué)、護膚品等精細(xì)化工領(lǐng)域,在產(chǎn)品研發(fā)過程中經(jīng)常需要去合成各種有機分子。為了能得到需要的目標(biāo)分子,或者為了達到優(yōu)化生產(chǎn)路線、降低成本等目的,需要針對目標(biāo)分子進行有機合成路線的設(shè)計。有機合成路線設(shè)計難度很大,以往有機合成路線的設(shè)計主要依靠研發(fā)技術(shù)人員自身的知識和經(jīng)驗。但隨著當(dāng)前信息技術(shù)的發(fā)展,隨著不斷增長的海量的有機合成知識的數(shù)據(jù)庫的建立,研發(fā)技術(shù)人員可通過對數(shù)據(jù)庫進行查詢來了解目標(biāo)分子或其相似分子的合成方法,然后結(jié)合自己的化學(xué)知識和經(jīng)驗進行合成路線設(shè)計,可大大減少相關(guān)技術(shù)人員的工作量和工作時間,有效提高合成工作的效率。目前市場上出現(xiàn)的計算機輔助合成路線設(shè)計的軟件,其基本原理是首先根據(jù)大量化學(xué)反應(yīng)數(shù)據(jù)提取反應(yīng)中發(fā)生變化的部分(稱為反應(yīng)中心),然后將要合成的目標(biāo)分子與反應(yīng)中心進行匹配,然后一步步逆推反應(yīng)物直到可購買到的化學(xué)品原料,從而獲得合成目標(biāo)分子的完整合成反應(yīng)路線。但上述計算機輔助設(shè)計軟件僅將反應(yīng)中心作為匹配基礎(chǔ),運算量大,每一步反應(yīng)都會有幾十乃至上百種不同的可能,整個過程的運算量成指數(shù)級別增長,會導(dǎo)致運算時間過長甚至難以進行查詢,未考慮化學(xué)反應(yīng)中除反應(yīng)中心外的化學(xué)鍵、原子、基團也可能會影響反應(yīng)的進程和結(jié)果,經(jīng)常得到大量的不合理路線,仍需技術(shù)人員利用經(jīng)驗和知識進行篩選,還可能會造成一些不必要的實驗工作量和經(jīng)濟損失。
專利CN201010106648.9公開了一種基于逆向合成的有機小分子化合物可合成性評價方法,所述方法包括:建立原料數(shù)據(jù)庫、轉(zhuǎn)換規(guī)則數(shù)據(jù)庫和固定路線數(shù)據(jù)庫,應(yīng)用這三個數(shù)據(jù)庫對目標(biāo)化合物進行逆向合成分析,自動生成有機小分子化合物的 合成路線,在拆分過程中,對逆向合成分析樹的生成進行優(yōu)化處理,預(yù)先刪減逆向合成分析樹中的節(jié)點,合成路線生成后,同時對化合物的拆分難度和合成路線的實現(xiàn)難度進行評價。該專利考慮到了反應(yīng)中心周圍化學(xué)環(huán)境的影響,在提取反應(yīng)中心時,識別反應(yīng)位點后將與反應(yīng)位點中的原子相連的官能團也提取出來,并進行了反應(yīng)中心的抽象,但未充分考慮周圍化學(xué)環(huán)境的具體影響并據(jù)此對周圍化學(xué)環(huán)境進行有效處理,同時,該專利只考慮了從目標(biāo)分子向原料分子方向的推導(dǎo),并未進行從原料分子一端向更復(fù)雜的可合成的分子的預(yù)推導(dǎo),也未將原料價格因素考慮在內(nèi),在利用其數(shù)據(jù)庫進行查詢和設(shè)計時仍可能會產(chǎn)生大量的不合理路線,甚至由于運算量過大而難以找到合理的路線。
技術(shù)實現(xiàn)要素:
為克服現(xiàn)有技術(shù)的不足,本發(fā)明提供一種化學(xué)反應(yīng)數(shù)據(jù)庫的建立方法,包括如下步驟:
(1)將化學(xué)反應(yīng)數(shù)據(jù)轉(zhuǎn)換為計算機存儲格式后,進行處理獲得反應(yīng)物和產(chǎn)物中原子的一一對應(yīng)信息;
(2)根據(jù)步驟(1)的對應(yīng)信息,識別反應(yīng)位點,并將反應(yīng)位點及與反應(yīng)位點直接相連、相共軛的原子、化學(xué)鍵、基團及與反應(yīng)位點間接相連且影響反應(yīng)的基團作為識別化學(xué)反應(yīng)的信息提取出來,作為反應(yīng)指紋保存在數(shù)據(jù)庫中;
(3)根據(jù)步驟(1)得到的對應(yīng)信息,判斷反應(yīng)中基團對反應(yīng)條件的兼容性并將判斷結(jié)果保存在數(shù)據(jù)庫中,化學(xué)反應(yīng)中,在反應(yīng)物和產(chǎn)物中都存在的基團對于所述反應(yīng)條件是兼容的,在反應(yīng)物中存在但在產(chǎn)物中不存在的基團對于所述反應(yīng)條件是不兼容的。
步驟(1)中所述的化學(xué)反應(yīng)包括常規(guī)化學(xué)反應(yīng)、經(jīng)典有機人名反應(yīng)、已公開的其他化學(xué)反應(yīng)、如在學(xué)術(shù)期刊或?qū)@袌蟮肋^的化學(xué)反應(yīng);所述的化學(xué)反應(yīng)的反應(yīng)條件、產(chǎn)物分離純化方法、反應(yīng)收率等與實現(xiàn)反應(yīng)有關(guān)信息及參考文獻也保存在數(shù)據(jù)庫中;
優(yōu)選的,步驟(1)中所述的處理包括將化學(xué)反應(yīng)中的反應(yīng)物和產(chǎn)物的化學(xué)結(jié)構(gòu)建立映射關(guān)系(mapping運算);
優(yōu)選的,步驟(1)中所述的處理還包括:去掉不影響化學(xué)反應(yīng)中反應(yīng)物和產(chǎn)物化學(xué)結(jié)構(gòu)表示的氫原子,將反應(yīng)物和產(chǎn)物中芳香環(huán)中以凱庫勒式表示的化學(xué)鍵轉(zhuǎn)換為相同的離域大π鍵,即將芳香環(huán)的單雙鍵轉(zhuǎn)換為統(tǒng)一的芳香鍵;
化合物分子結(jié)構(gòu)的計算機存儲格式較多,如MOL2、MOL、SDF、MOP、ALC、SMD、RDF等,本領(lǐng)域技術(shù)人員可根據(jù)實際情況進行上述格式的選擇,本發(fā)明對此不作限定;
步驟(2)中所述的反應(yīng)位點包括參與化學(xué)反應(yīng)的原子和/或化學(xué)鍵,包括從反應(yīng)物到產(chǎn)物的變化中被添加、改變、消失的原子、化學(xué)鍵及原子和化學(xué)鍵的組合;
優(yōu)選的,步驟(2)中所述的反應(yīng)指紋包括:參與化學(xué)反應(yīng)的化學(xué)鍵、參與化學(xué)反應(yīng)的原子、與參與化學(xué)反應(yīng)的原子直接相連的原子、與參與化學(xué)反應(yīng)的原子相共軛的化學(xué)鍵及原子、與參與化學(xué)反應(yīng)的原子或與之共軛的化學(xué)鍵直接相連的吸電子基團和給電子基團、與參與反應(yīng)的原子直接或間接相連的有空間位阻的基團;
步驟(3)中對基團的兼容性判斷結(jié)果有助于根據(jù)反應(yīng)條件來預(yù)測反應(yīng)物中是否含有不兼容的基團,并據(jù)此進行相關(guān)合成路線的剔除和優(yōu)化,避免造成合成反應(yīng)的失敗和損失;
優(yōu)選的,所述的建立方法還包括將已有的化合物產(chǎn)品作為化合物原料,建立化合物原料數(shù)據(jù)庫,儲存在上述化學(xué)反應(yīng)數(shù)據(jù)庫中;所述的已有的化合物產(chǎn)品為現(xiàn)有技術(shù)中可通過商業(yè)渠道直接購買到的化合物產(chǎn)品;進一步優(yōu)選的,上述化合物原料數(shù)據(jù)庫中還包括化合物原料的價格、CAS號等信息;
優(yōu)選的,可根據(jù)步驟(2)得到的反應(yīng)指紋建立反應(yīng)指紋數(shù)據(jù)庫,儲存在上述化學(xué)反應(yīng)數(shù)據(jù)庫中;
優(yōu)選的,可根據(jù)步驟(3)得到的基團兼容性判斷結(jié)果建立基團兼容性分析數(shù)據(jù)庫,儲存在上述化學(xué)反應(yīng)數(shù)據(jù)庫中;
優(yōu)選的,根據(jù)步驟(1)的化學(xué)反應(yīng),收集化學(xué)反應(yīng)的產(chǎn)物作為可合成的化合物,建立化合物中間體數(shù)據(jù)庫,儲存在上述化學(xué)反應(yīng)數(shù)據(jù)庫中;所述的化合物中間體是以已有的化合物產(chǎn)品作為化合物原料通過一步或兩步以上所述步驟(1)中的化學(xué)反應(yīng)合成的化合物。
本發(fā)明還提供一種上述方法建立的化學(xué)反應(yīng)數(shù)據(jù)庫。
優(yōu)選的,所述的化學(xué)反映數(shù)據(jù)庫包括:化合物原料數(shù)據(jù)庫、反應(yīng)指紋數(shù)據(jù)庫、基團兼容性分析數(shù)據(jù)庫;進一步優(yōu)選的,還包括化合物中間體數(shù)據(jù)庫。
本發(fā)明還提供一種基于上述化學(xué)反應(yīng)數(shù)據(jù)庫的有機合成路線設(shè)計方法,包括如下步驟:
(1)輸入目標(biāo)化合物;
(2)將目標(biāo)化合物匹配上述數(shù)據(jù)庫中的化學(xué)反應(yīng)產(chǎn)物,將匹配的化學(xué)反應(yīng)輸出為精確查找結(jié)果;
(3)將目標(biāo)化合物匹配上述數(shù)據(jù)庫中的反應(yīng)指紋,得到對應(yīng)的反應(yīng)指紋,逆向運算得到合成目標(biāo)化合物的反應(yīng)物,將匹配的相應(yīng)反應(yīng)指紋的化學(xué)反應(yīng)輸出為相似查找結(jié)果;
優(yōu)選的,(4)分別對步驟(2)所述的精確查找結(jié)果和步驟(3)所述的近似查找結(jié)果進行排序;
優(yōu)選的,上述的排序的依據(jù)包括反應(yīng)收率、基團的兼容性、合成目標(biāo)化合物所需的反應(yīng)步驟數(shù)及反應(yīng)物成本;優(yōu)選反應(yīng)收率高、無不兼容性基團、合成目標(biāo)化合物所需反應(yīng)步驟少、反應(yīng)物成本低的結(jié)果;上述排序依據(jù)還可包括反應(yīng)條件實現(xiàn)難易程度、產(chǎn)物分離和純化難度、反應(yīng)物毒害性等;
所述的目標(biāo)化合物匹配的基本原理如下:將目標(biāo)化合物的結(jié)構(gòu)式分解為多個結(jié)構(gòu)指紋,每個指紋由0和1表示,如包含三元環(huán)、有氧原子等指紋定義,每個化合物的化學(xué)結(jié)構(gòu)可根據(jù)指紋定義計算為一個二進制數(shù)字,定義了足夠多的指紋后,根據(jù)這個二進制數(shù)字的位操作,可以快速匹配一個化學(xué)結(jié)構(gòu)是否包含另一個化學(xué)結(jié)構(gòu)(superstructure)或被另一個化學(xué)結(jié)構(gòu)包含(substructure)、或完全相等(exact),針對包含關(guān)系,須對快速匹配到的兩個結(jié)構(gòu)再進行一對一的結(jié)構(gòu)匹配,去除少數(shù)不相符的結(jié)果。其他可實現(xiàn)化合物結(jié)構(gòu)式匹配的方法也適用于本發(fā)明的有機合成路線設(shè)計方法,本發(fā)明對此不作限定。
步驟(3)中所述的逆向運算為根據(jù)反應(yīng)指紋,將目標(biāo)化合物的相應(yīng)原子和化學(xué)鍵進行逆向變換,從化學(xué)反應(yīng)的逆反應(yīng)方向逐步推導(dǎo)出合成目標(biāo)化合物所需的反 應(yīng)物;所述的反應(yīng)物可為一種或兩種以上化合物;所述的逆向運算為一步或兩步以上;
優(yōu)選的,步驟(3)中所述的篩選包括:去除含不合理化學(xué)結(jié)構(gòu)的反應(yīng)、產(chǎn)生副產(chǎn)物的反應(yīng)的合成路線;所述的不合理化學(xué)結(jié)構(gòu)的反應(yīng)包括反應(yīng)物不穩(wěn)定或不可能存在等反應(yīng),所述的產(chǎn)生副產(chǎn)物的反應(yīng)可根據(jù)反應(yīng)位點是否唯一或者是否有選擇性來判斷;
優(yōu)選的,步驟(2)和(3)中,從目標(biāo)化合物開始,在每一次匹配后,提供排序后的匹配結(jié)果供選擇,進行選擇后進入下一步查詢和匹配,直到完成整個合成路線的設(shè)計;所述的選擇包括用戶選擇和默認(rèn)選擇,用戶可對排序的匹配結(jié)果進行任意選擇;如無用戶選擇,則進行默認(rèn)選擇,默認(rèn)選擇是根據(jù)排序先后進行選擇的,優(yōu)選第一個結(jié)果;用戶也可輸入一個其認(rèn)為合理的結(jié)果進行下一步查詢和匹配。
本發(fā)明提供的化學(xué)反應(yīng)數(shù)據(jù)庫在提取反應(yīng)指紋的算法中不僅考慮到了反應(yīng)位點,還充分考慮到反應(yīng)位點周圍化學(xué)環(huán)境的影響和反應(yīng)中基團的兼容性,有助于用戶基于上述數(shù)據(jù)庫進行目標(biāo)化合物分子的有機合成設(shè)計時避免了大量不合理的合成路線分支,得到數(shù)量有限且合理的合成路線結(jié)果;所述的化學(xué)反應(yīng)數(shù)據(jù)庫中包括市售的化合物產(chǎn)品及其價格、CAS號等信息,基于所述化學(xué)反應(yīng)數(shù)據(jù)庫進行有機合成路線設(shè)計時考慮到合成成本的因素,有助于得到實際可行的合成路線結(jié)果;上述有機合成設(shè)計方法在查詢匹配時分為精確查找和近似查找,有助于用戶區(qū)分已有合成路線和設(shè)計的合成路線;且用戶可參與選擇每一步的合成路線的設(shè)計,避免了不合理合成路線分支產(chǎn)生,可得到符合用戶需求的結(jié)果。
具體實施方式
本發(fā)明中所述的“目標(biāo)化合物”為用戶想要合成的化合物,其可為現(xiàn)有技術(shù)中已存在的化合物,如某種藥物中間體或者藥物設(shè)計中對已知化合物庫中篩選出的某個分子,也可為現(xiàn)有技術(shù)中不存在的虛擬化合物,如某種具有生物活性的分子的衍生物或者虛擬化合物庫中被認(rèn)為可能會有生物活性的分子。
下面將對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例, 本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
實施例1化學(xué)反應(yīng)數(shù)據(jù)處理
將如式(1)所示的化學(xué)反應(yīng)導(dǎo)出為RDF標(biāo)準(zhǔn)化學(xué)數(shù)據(jù)格式。其中,原子被表示為節(jié)點并編號,原子間的化學(xué)鍵表示為節(jié)點間的連接,對反應(yīng)物和產(chǎn)物的化學(xué)結(jié)構(gòu)建立映射關(guān)系,去掉不影響反應(yīng)物和產(chǎn)物化學(xué)結(jié)構(gòu)表示的氫原子,將芳香環(huán)的單雙建轉(zhuǎn)換為統(tǒng)一的芳香鍵,獲得反應(yīng)物和產(chǎn)物中原子的一一對應(yīng)信息,如式(2)所示。識別反應(yīng)位點,提取反應(yīng)位點及與反應(yīng)位點直接相連的原子和相共軛的化學(xué)鍵作為反應(yīng)指紋如式(3)所示。
實施例2合成BOC-L-脯氨酸
基于本發(fā)明的化學(xué)反應(yīng)數(shù)據(jù)庫查詢和設(shè)計BOC-L-脯氨酸的合成路線,精確查找返回13條結(jié)果并進行了排序,其中第一條結(jié)果為由BOC酸酐和L-脯氨酸反應(yīng)合成BOC-L-脯氨酸,兩種原料均可通過商業(yè)渠道直接購買到,如下所示:
實施例3合成藥物萬乃洛韋
基于本發(fā)明的化學(xué)反應(yīng)數(shù)據(jù)庫查詢和設(shè)計藥物萬乃洛韋的合成路線,精確查找沒有得到結(jié)果,但經(jīng)過相似查找,得到可以由兩個市售的原料經(jīng)過一步反應(yīng)合成目標(biāo)化合物的路線,如下所示:
實施例4合成3-喹啉-6-基-丙醛
基于本發(fā)明的化學(xué)反應(yīng)數(shù)據(jù)庫查詢和設(shè)計3-喹啉-6-基-丙醛 (3-quinolin-6-yl-propionaldehyde)的合成路線,精確查找沒有得到結(jié)果,但經(jīng)過相似查找,得到可以由兩個市售的原料經(jīng)過一步反應(yīng)合成目標(biāo)化合物的路線,如下所示:
實施例5合成7-芐基-3,7-二氮雜雙環(huán)[3.3.1]壬烷-3-羧酸叔丁酯
基于本發(fā)明的化學(xué)反應(yīng)數(shù)據(jù)庫查詢和設(shè)計7-芐基-3,7-二氮雜雙環(huán)[3.3.1]壬烷-3-羧酸叔丁酯的合成路線,經(jīng)過精確查找,得到可以由兩個市售的原料經(jīng)過兩步反應(yīng)進行合成目標(biāo)化合物的路線,如下所示:
實施例2-5中所述查詢和設(shè)計結(jié)果中,合成路線較短,產(chǎn)率較高,合成目標(biāo)化合物所需反應(yīng)物皆可通過商業(yè)渠道直接購買到,可極大地減少技術(shù)人員的工作量,縮短工作時間,有效提高工作效率。
實施例6合成化合物3-{3-[3-甲基-5-(丙-2-基)-4H-1,2,4-三唑-4-基]-8-氮雜雙環(huán)[3.2.1]辛-8-基}-1-苯基丙-1-醇
利用ChemPlanner(John Wiley&Sons公司)進行目標(biāo)化合物的合成路線設(shè)計,得到由市售化合物原料經(jīng)過三步反應(yīng)合成目標(biāo)化合物的路線如下:
基于本發(fā)明的化學(xué)反應(yīng)數(shù)據(jù)庫查詢和設(shè)計目標(biāo)化合物的合成路線,得到的查找結(jié)果排序后,第一條結(jié)果為由市售化合物原料經(jīng)過兩步反應(yīng)合成目標(biāo)化合物的路線如下:
上述兩種合成路線相比,后者反應(yīng)步驟較少,可較大幅度地降低目標(biāo)化合物的合成成本和時間。
實施例7合成2-[(喹啉-4-基)氨基]乙酰胺
利用ChemPlanner進行目標(biāo)化合物的合成路線設(shè)計,得到由4-鹵代喹啉和甘氨酰胺經(jīng)過一步反應(yīng)合成目標(biāo)化合物的路線如下:
基于本發(fā)明的化學(xué)反應(yīng)數(shù)據(jù)庫查詢和設(shè)計目標(biāo)化合物的合成路線,得到的查找 結(jié)果排序后,第一條結(jié)果為由4-羥基喹啉和甘氨酰胺經(jīng)過一步反應(yīng)合成目標(biāo)化合物的路線如下:
本發(fā)明的化學(xué)反應(yīng)數(shù)據(jù)庫中包含了化合物原料的價格價格、CAS號等信息,基于本發(fā)明的化學(xué)反應(yīng)數(shù)據(jù)庫查詢和設(shè)計目標(biāo)化合物的合成路線時,對查找結(jié)果進行排序的依據(jù)包括反應(yīng)收率、基團的兼容性、反應(yīng)物成本等,對于反應(yīng)收率、基團的兼容性相同或相近、反應(yīng)步驟相同的查找結(jié)果,將相對成本較低的合成路線排在前面。
根據(jù)本發(fā)明的化學(xué)反應(yīng)數(shù)據(jù)庫中保存的4-羥基喹啉和4-鹵代喹啉的價格,前者的價格大大低于后者的,分別采用4-羥基喹啉和4-鹵代喹啉合成目標(biāo)化合物的路線反應(yīng)收率、基團兼容性相似,反應(yīng)步驟都為一步,因此將采用4-羥基喹啉合成目標(biāo)化合物的路線排在第一條,其合成成本比利用ChemPlanner設(shè)計的合成路線的成本低得多,因而更實際可行。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。