專利名稱:用于預(yù)測化合物活性的兩級擬合qsar模型的構(gòu)建方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種OSAR模型的構(gòu)建方法,尤其是一種用于預(yù)測化合物活性的兩級擬合QSAR模型的構(gòu)建方法,屬于生物醫(yī)藥信息技術(shù)領(lǐng)域。
背景技術(shù):
定量構(gòu)效關(guān)系(QuantitativeStructure-Activity Relationship,簡稱QSAR)是一種借助數(shù)學(xué)模型定量預(yù)測化合物活性的技術(shù)。由于3D QSAR的研究結(jié)果具有明確的指導(dǎo)意義,目前已被許多研究廣泛采用。但由于3D QSAR的建模過程在商業(yè)軟件的黑箱中執(zhí)行, 而軟件黑箱中的過程又難以人為干預(yù),這無疑增大了其建模優(yōu)化的難度,至今尚未有一種公開發(fā)表、公認(rèn)方便快捷3D QSAR的建模方法。因此,建立一種方便快捷的3D QSAR建模方法具有重要意義。
目前,在刊物上記載的3DQSAR方法在建模過程中,不僅化合物疊合不整齊,而且運(yùn)用傳統(tǒng)的線性回歸方法(如偏最小二乘法等),在擬合模型的過程中僅考慮有機(jī)化學(xué)理論、不考慮生物受體的復(fù)雜性,導(dǎo)致不符合生物化學(xué)理論、影響最終的擬合優(yōu)度和預(yù)測能力。
基于最短距離的Topomer疊合技術(shù)具有整齊的疊合結(jié)果,是一種具有樂觀應(yīng)用前景的化合物疊合方法。如果能考慮生物受體的復(fù)雜性,使得基于Topomer疊合方法的QSAR 研究結(jié)果符合生物化學(xué)理論,則可提高QSAR模型的擬合優(yōu)度和預(yù)測能力。
神經(jīng)網(wǎng)絡(luò)(Neural Networks )是一種通過模擬哺乳動物大腦的生理功能進(jìn)行數(shù)據(jù)擬合的統(tǒng)計建模方法。神經(jīng)網(wǎng)絡(luò)模型已經(jīng)成功地應(yīng)用于生物大分子的功能預(yù)測、有機(jī)污染物的毒性預(yù)測、高分子聚合材料的性能預(yù)測等,在化學(xué)藥物分子設(shè)計中的應(yīng)用也將日益廣泛。由于神經(jīng)網(wǎng)絡(luò)逼近任意復(fù)雜的映射關(guān)系,因此當(dāng)化合物的作用靶標(biāo)為比小分子更加復(fù)雜的生物受體大分子時,基于神經(jīng)網(wǎng)絡(luò)的QSAR模型能比線性模型更準(zhǔn)確地預(yù)測化合物的生物活性。
基于神經(jīng)網(wǎng)絡(luò)的QSAR建模一般需要通過如下三個步驟1)整理化合物的活性數(shù)據(jù)作為因變量;2)挑選合適的描述符作為自變量并計算;3)選用合適的神經(jīng)網(wǎng)絡(luò)方法構(gòu)建 QSAR模型。
其中,挑選合適的描述符作為自變量是建立具有良好預(yù)測能力的神經(jīng)網(wǎng)絡(luò)QSAR 模型的必要條件。若自變量蘊(yùn)含的信息增益不足,則所建模型難以具有良好的預(yù)測能力,然而增加自變量的數(shù)目雖然有可能提高信息增益,但會出現(xiàn)過擬合、不收斂現(xiàn)象而導(dǎo)致模型性能下降、甚至建模失敗。因此,尋找一種包含足夠信息增益的低維向量作為自變量,對于構(gòu)建基于神經(jīng)網(wǎng)絡(luò)的QSAR模型非常關(guān)鍵。發(fā)明內(nèi)容
本發(fā)明的目的,是為了解決上述現(xiàn)有技術(shù)的缺陷,提供一種具有良好擬合優(yōu)度、準(zhǔn)確預(yù)測化合物生物活性的用于預(yù)測化合物活性的兩級擬合QSAR模型的構(gòu)建方法。
本發(fā)明的目的可以通過采取如下技術(shù)方案達(dá)到
用于預(yù)測化合物活性的兩級擬合QSAR模型的構(gòu)建方法,其特征在于包括以下步驟
I)取若干個具有相同骨架的化合物作為訓(xùn)練集,將訓(xùn)練集化合物劃分取代基,并疊合訓(xùn)練集化合物;
2)根據(jù)訓(xùn)練集化合物的結(jié)構(gòu)與活性,采用線性回歸法計算各取代基產(chǎn)生的局部生理作用,建立前級擬合模型;
3)根據(jù)訓(xùn)練集化合物的活性與步驟2)計算得到的局部生理作用,采用神經(jīng)網(wǎng)絡(luò)法計算出化合物的整體生物活性,建立后級擬合模型;
4)將前級擬合模型和后級擬合模型結(jié)合,構(gòu)建成前后兩級QSAR模型。
作為一種優(yōu)選方案,步驟2)所述訓(xùn)練集化合物的活性為抑制濃度或抑制率。
作為一種優(yōu)選方案,步驟I)具體如下
對于已有的化合物,針對特定檢驗(yàn)體系進(jìn)行生物學(xué)活性的數(shù)據(jù)采集,數(shù)據(jù)指標(biāo)采用抑制濃度或抑制率的負(fù)對數(shù)形式[-Ig(抑制濃度)或-lg(l/抑制率-I)],以此作為訓(xùn)練集樣本;使用Sybyl分析軟件檢驗(yàn)化合物的二維結(jié)構(gòu),對通過檢驗(yàn)的化合物生成其三維結(jié)構(gòu);隨后,進(jìn)一步劃分化合物的取代基,并進(jìn)行優(yōu)化;最后,基于取代基劃分,并采用 Topomer疊合技術(shù)對以上化合物三維結(jié)構(gòu)進(jìn)行疊合。
作為一種優(yōu)選方案,步驟2)具體如下
用探針掃描疊合的訓(xùn)練集化合物周圍的分子場,計算MSA、CoMFA或者CoMSIA分子場,對分子場信息進(jìn)行挑選后,與訓(xùn)練集化合物的實(shí)驗(yàn)活性進(jìn)行線性回歸,獲得構(gòu)效關(guān)系的前級擬合模型。
作為一種優(yōu)選方案,步驟3)具體如下
將步驟2)計算得到的局部生理作用,與訓(xùn)練集化合物的活性進(jìn)行歸一化,得到歸一化值,通過神經(jīng)網(wǎng)絡(luò)模型去歸一化,計算出化合物的整體生物活性,獲得后級擬合模型。
作為一種優(yōu)選方案,所述訓(xùn)練集化合物為具有p38激酶抑制率的吡唑類化合物。
作為一種優(yōu)選方案,所述訓(xùn)練集化合物的樣本量至少有30個。
作為一種優(yōu)選方案,所述訓(xùn)練集化合物劃分的取代基至少有2個,所述劃分的取代基中包括有化合物的連接橋。
作為一種優(yōu)選方案,所述步驟2)采用的線性回歸法為偏最小二乘法或主成分分析法。
作為一種優(yōu)選方案,所述步驟3)采用的神經(jīng)網(wǎng)絡(luò)法為BF神經(jīng)網(wǎng)絡(luò)法或RBF神經(jīng)網(wǎng)絡(luò)法
本發(fā)明相對于現(xiàn)有技術(shù)具有如下的有益效果
I、本發(fā)明的建模方法是采用了線性回歸法和神經(jīng)網(wǎng)絡(luò)法結(jié)合的方式建立模型,因神經(jīng)網(wǎng)絡(luò)法具有良好的擬合能力,構(gòu)建的模型能夠比傳統(tǒng)線性模型更準(zhǔn)確地預(yù)測化合物的生物活性。
2、本發(fā)明的建模方法采用線性回歸作為前級模型具有兩方面有益效果1)線性模型容易解釋,有助于化合物的結(jié)構(gòu)修飾;2)用前級模型的結(jié)果作為后級神經(jīng)網(wǎng)絡(luò)模型的自變量,可以避免出現(xiàn)不收斂、過擬合的現(xiàn)象;從而防止神經(jīng)網(wǎng)絡(luò)建模失敗,提高后級模型的預(yù)測能力、也就是提高整個前后兩級擬合模型的預(yù)測能力。
3、本發(fā)明的建模方法采用了 Topomer疊合技術(shù)對訓(xùn)練集化合物進(jìn)行疊合,有利于建模的效率,同時疊合的結(jié)果整齊。
4、本發(fā)明的建模方法無需分子對接、無需量子化學(xué)計算、神經(jīng)網(wǎng)絡(luò)的自變量個數(shù)少,這樣可以在相同的時間內(nèi)可以基于大樣本的訓(xùn)練集構(gòu)建得到模型,從而可以進(jìn)一步提高QSAR模型的預(yù)測能力。
5、本發(fā)明的建模方法解決了使用傳統(tǒng)線性回歸作為建模方法的未考慮生物受體復(fù)雜性而導(dǎo)致的預(yù)測結(jié)果不精確的問題,構(gòu)建的兩級擬合QSAR模型對吡唑類化合物的p38 激酶抑制活性,相關(guān)系數(shù)平方大于O. 95,呈現(xiàn)出良好的良好的擬合能力和預(yù)測性能,作為以 P38激酶為作用靶點(diǎn)的吡唑類免疫抑制藥、抗炎藥、抗真菌藥的生物活性預(yù)測方法有著廣闊的應(yīng)用前景。
圖I為本發(fā)明兩級擬合QSAR模型構(gòu)建方法的流程示意圖。
圖2為吡唑類p38激酶抑制劑訓(xùn)練集化合物采用傳統(tǒng)單級模型M1的擬合優(yōu)度散點(diǎn)圖。
圖3為吡唑類p38激酶抑制劑訓(xùn)練集化合物采用前后兩級模型M1-M2的擬合優(yōu)度散點(diǎn)圖。
圖4為吡唑類p38激酶抑制劑訓(xùn)練集化合物采用傳統(tǒng)單級模型M1的預(yù)測性能散點(diǎn)圖。
圖5為吡唑類p38激酶抑制劑訓(xùn)練集化合物采用前后兩級模型M1-M2的預(yù)測性能散點(diǎn)圖。
具體實(shí)施方式
實(shí)施例I :
如圖I所示,本實(shí)施例的線性回歸-神經(jīng)網(wǎng)絡(luò)前后兩級擬合QSAR模型,其構(gòu)建步驟如下
I)生物活性的整理
為保證統(tǒng)計效果,取35個具有p38激酶抑制率的吡唑類化合物作為訓(xùn)練集S1,將其抑制率α換算成對數(shù)形式=Y1 = LgBio =- lg(a -1 — D。Y1 = LgBio即為后續(xù)建模所用因變量,使用Sybyl分析軟件檢驗(yàn)化合物的二維結(jié)構(gòu),對通過檢驗(yàn)的化合物生成其三維結(jié)構(gòu)。
2)前級擬合模型的構(gòu)建
將訓(xùn)練集化合物S1導(dǎo)入Sybyl軟件的分子表單SI. tbl,Topomer CoMFA模塊中, 對訓(xùn)練集S1的化合物劃分取代基,取代基劃分一方面要保證模型符合理論,另一方面對模型的擬合優(yōu)度具有一定影響,同時對模型的預(yù)測能力也非常相關(guān),而當(dāng)連接橋只有少數(shù)幾種結(jié)構(gòu)時,將其作為一個取代基,有利于探討連接橋?qū)ι锘钚缘挠绊?,所以將?xùn)練集化合物S1劃分為連接橋和側(cè)鏈兩個取代基,并采用Topomer方法疊合這35個化合物;用探針掃描疊合的訓(xùn)練集化合物周圍的分子場,計算MSA、CoMFA或者CoMSIA分子場,對分子場信息進(jìn)行挑選后,然后將1 = LgBio指定為因變量建立線性模型(命名為M1),所建模型即為前級擬合模型。建模過程中由Sybyl軟件計算出化合物取代基所產(chǎn)生的局部生理作用P1 ;因化合物有兩個取代基,故P1為二維向量,在分子表單中表示為AcH和Act_R2。
3)后級擬合模型的構(gòu)建
在SPSS Clementine軟件中,將上述由Sybyl軟件計算得到的局部生理作用P1作自變量,Y1 = LgBiO作因變量,與訓(xùn)練集化合物的活性進(jìn)行歸一化,得到歸一化值,通過神經(jīng)網(wǎng)絡(luò)模型去歸一化,計算訓(xùn)練集S1化合物的整體生物活性,建立“徹底修剪”神經(jīng)網(wǎng)絡(luò)模型 (命名為M2),所建模型即為后級擬合模型,建模過程中將樣本設(shè)置為100%以提高模型的預(yù)測能力,將隨機(jī)種子設(shè)置為O以保證實(shí)驗(yàn)的可重復(fù)性。
實(shí)施例2
本實(shí)施例是對擬合優(yōu)度進(jìn)行測定,比較上述實(shí)施例I所建的M1-M2兩級模型與M1單級模型的擬合優(yōu)度,具體步驟如下
I)變量命名
將模型M1對訓(xùn)練集S1化合物的計算活性命名為Y2。
將模型M2對訓(xùn)練集S1化合物的計算活性命名為Υ3。
2 )導(dǎo)出電子表格文件
將Sybyl分子表單S1. tbl中的LgBio和Pre_LgBio兩列導(dǎo)出為SlM1. csv文件, 再轉(zhuǎn)換為SlM1. xls文件。上述的LgBio即為Y1, Pre_LgBio即為Y20
采用相同的方法,從SPSS Clementine軟件中導(dǎo)出M2對訓(xùn)練集化合物S1的計算活性,保存為SlM2. xls文件;其中,SlM2. xls文件包含變量Y1和Y3。
3)計算相關(guān)系數(shù)平方以及繪制散點(diǎn)圖
將電子表格S1-M1. xls文件導(dǎo)入Origin軟件中,對變量Y1和Y2作線性回歸,計算得到相關(guān)系數(shù)平方R1為O. 95。繪制散點(diǎn)圖,結(jié)果如圖I所示。
將電子表格SlM2. xls文件導(dǎo)入Origin軟件中,對變量Y1和Y3作線性回歸,計算得到相關(guān)系數(shù)平方R2為O. 96。繪制散點(diǎn)圖,結(jié)果如圖2所示。
由此,可以看到采用前后兩級模型M1-M2相比單級模型M1,相關(guān)系數(shù)平方 VR1=O. 95,從而具有良好的擬合能力。
實(shí)施例3
本實(shí)施例是對預(yù)測性能進(jìn)行測定,比較上述實(shí)施例I所建的M1-M2兩級模型與M1單級模型的預(yù)測性能,具體步驟如下
I) p38激酶抑制活性的整理
取35個非訓(xùn)練集S1元素的吡唑類化合物組建測試集S2,其p38激酶抑制活性記為Y4。將測試集S2的35個吡唑類化合物制作成Sybyl分子表單S2. tbl,將Y4指定為因變量(在S2. tbl分子表單中表示為LgBio)。
2)單級模型Ml的預(yù)測性能測定
將Sybyl軟件的TopomerCoMFA模塊中,預(yù)測分子表單S2. tbl的p38激酶抑制活性,結(jié)果記為Y5 (在32.吐1分子表單中表示為?1^_1^810)。預(yù)測過程中,計算得到化合物兩個取代基的局部生理作用P2,在S2. tbl分子表單中表示為AcH和Act_R2。
在Origin軟件中計算得到Y(jié)4與Y5的相關(guān)系數(shù)平方R3為0. 95,繪制得到的散點(diǎn)圖CN 102930113 A書明說5/5頁如圖3所示。
3)兩級模型M1-M2的預(yù)測性能測定
將SPSS Clementine中,以P2為自變量、Y4為因變量,使用后級模型M2預(yù)測測試集化合物S2的p38激酶抑制活性,結(jié)果記為Y6。
在Origin軟件中計算得到Y(jié)4與Y6的相關(guān)系數(shù)平方R4為O. 96,繪制得到的散點(diǎn)圖如圖4所示。
由此,可以看到采用前后兩級模型M1-M2相比單級模型M1,相關(guān)系數(shù)平方 R4>R3=0. 95,從而具有良好的預(yù)測性能。
以上所述,僅為本發(fā)明優(yōu)選的實(shí)施例,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明所公開的范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都屬于本發(fā)明的保護(hù)范圍。權(quán)利要求
1.用于預(yù)測化合物活性的兩級擬合QSAR模型的構(gòu)建方法,其特征在于包括以下步驟 1)取若干個具有相同骨架的化合物作為訓(xùn)練集,將訓(xùn)練集化合物劃分取代基,并疊合訓(xùn)練集化合物; 2)根據(jù)訓(xùn)練集化合物的結(jié)構(gòu)與活性,采用線性回歸法計算各取代基產(chǎn)生的局部生理作用,建立前級擬合模型; 3)根據(jù)訓(xùn)練集化合物的活性與步驟2)計算得到的局部生理作用,采用神經(jīng)網(wǎng)絡(luò)法計算出化合物的整體生物活性,建立后級擬合模型; 4)將前級擬合模型和后級擬合模型結(jié)合,構(gòu)建成前后兩級QSAR模型。
2.根據(jù)權(quán)利要求I所述的用于預(yù)測化合物活性的兩級擬合QSAR模型的構(gòu)建方法,其特 征在于步驟2)所述訓(xùn)練集化合物的活性為抑制濃度或抑制率。
3.根據(jù)權(quán)利要求2所述的用于預(yù)測化合物活性的兩級擬合QSAR模型的構(gòu)建方法,其特征在于步驟I)具體如下 對于已有的化合物,針對特定檢驗(yàn)體系進(jìn)行生物學(xué)活性的數(shù)據(jù)采集,數(shù)據(jù)指標(biāo)采用抑制濃度或抑制率的負(fù)對數(shù)形式,以此作為訓(xùn)練集樣本;使用Sybyl分析軟件檢驗(yàn)化合物的二維結(jié)構(gòu),對通過檢驗(yàn)的化合物生成其三維結(jié)構(gòu);隨后,進(jìn)一步劃分化合物的取代基,并進(jìn)行優(yōu)化;最后,基于取代基劃分,并采用Topomer疊合技術(shù)對以上化合物三維結(jié)構(gòu)進(jìn)行疊
4.根據(jù)權(quán)利要求3任一項(xiàng)所述的用于預(yù)測化合物活性的兩級擬合QSAR模型的構(gòu)建方法,其特征在于步驟2)具體如下 用探針掃描疊合的訓(xùn)練集化合物周圍的分子場,計算MSA、CoMFA或者CoMSIA分子場,對分子場信息進(jìn)行挑選后,與訓(xùn)練集化合物的實(shí)驗(yàn)活性進(jìn)行線性回歸,獲得構(gòu)效關(guān)系的前級擬合模型。
5.根據(jù)權(quán)利要求4任一項(xiàng)所述的用于預(yù)測化合物活性的兩級擬合QSAR模型的構(gòu)建方法,其特征在于步驟3)具體如下 將步驟2)計算得到的局部生理作用,與訓(xùn)練集化合物的活性進(jìn)行歸一化,得到歸一化值,通過神經(jīng)網(wǎng)絡(luò)模型去歸一化,計算出化合物的整體生物活性,獲得后級擬合模型。
6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的用于預(yù)測化合物活性的兩級擬合QSAR模型的構(gòu)建方法,其特征在于所述訓(xùn)練集化合物為具有P38激酶抑制率的吡唑類化合物。
7.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的用于預(yù)測化合物活性的兩級擬合QSAR模型的構(gòu)建方法,其特征在于所述訓(xùn)練集化合物的樣本量至少有30個。
8.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的用于預(yù)測化合物活性的兩級擬合QSAR模型的構(gòu)建方法,其特征在于所述訓(xùn)練集化合物劃分的取代基至少有2個,所述劃分的取代基中包括有化合物的連接橋。
9.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的用于預(yù)測化合物活性的兩級擬合QSAR模型的構(gòu)建方法,其特征在于所述步驟2)采用的線性回歸法為偏最小二乘法或主成分分析法。
10.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的用于預(yù)測化合物活性的兩級擬合QSAR模型的構(gòu)建方法,其特征在于所述步驟3)采用的神經(jīng)網(wǎng)絡(luò)法為BF神經(jīng)網(wǎng)絡(luò)法或RBF神經(jīng)網(wǎng)絡(luò)法。
全文摘要
本發(fā)明公開了一種用于預(yù)測化合物活性的兩級擬合QSAR模型的構(gòu)建方法,包括以下步驟1)取若干個具有相同骨架的化合物作為訓(xùn)練集,將訓(xùn)練集化合物劃分取代基,并疊合訓(xùn)練集化合物;2)采用線性回歸法計算各取代基產(chǎn)生的局部生理作用,建立前級擬合模型;3)根據(jù)步驟2)計算得到的局部生理作用,采用神經(jīng)網(wǎng)絡(luò)法計算出化合物的整體生物活性,建立后級擬合模型;4)將前級擬合模型和后級擬合模型結(jié)合,構(gòu)建成前后兩級QSAR模型。本發(fā)明采用了線性回歸法和神經(jīng)網(wǎng)絡(luò)法結(jié)合的方式建立模型,因神經(jīng)網(wǎng)絡(luò)法具有良好的擬合能力,構(gòu)建的模型能夠比傳統(tǒng)線性模型更準(zhǔn)確地預(yù)測化合物的生物活性。
文檔編號G06N3/02GK102930113SQ201210455239
公開日2013年2月13日 申請日期2012年11月14日 優(yōu)先權(quán)日2012年11月14日
發(fā)明者劉雅紅, 賀利民, 梁智斌, 方炳虎, 陳建新, 湯有志, 陳良柱 申請人:華南農(nóng)業(yè)大學(xué)