專利名稱:化學(xué)物質(zhì)的信息的處理和匹配方法、系統(tǒng)及存儲系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本公開涉及化學(xué)信息處理技術(shù),尤其是,涉及存儲和匹配化學(xué)物質(zhì)的信息的方法和系統(tǒng)及存儲系統(tǒng)。
背景技術(shù):
眾所周知,在化學(xué)領(lǐng)域中術(shù)語是相當(dāng)復(fù)雜且不一致的。以化學(xué)名稱為例,存在以下多種不兼容命名法· IUPAC命名系統(tǒng)一種有系統(tǒng)地命名化合物的方法。該命名法用一個確定的名稱來描述每一種有清楚的結(jié)構(gòu)式的化合物,便于研究人員可以沒有歧義的進行交流。同時, IUPAC命名系統(tǒng)也接受一些物質(zhì)和基團的慣用普通命名?!?SMILES命名系統(tǒng)一種用于使用短的ASCII字符串來無歧義地描述化學(xué)分子的結(jié)構(gòu)的規(guī)范。SMILES串可以被大多數(shù)分子編輯器導(dǎo)入以轉(zhuǎn)換回到分子的2維圖或3維圖?!?IUPAC國際化學(xué)標(biāo)識符anChi)命名系統(tǒng)和SMILES類似,也是一種用于表示化學(xué)物質(zhì)結(jié)構(gòu)的文本標(biāo)識符。Inchi既是可讀的,也可以用來建立結(jié)構(gòu)索引數(shù)據(jù)庫。.CAS 注冊號(CAS Registry Number 或稱 CAS Number, CASRn, CAS#)它是有機化合物、無機化合物、金屬、合金、元素、蛋白質(zhì)與核酸、聚合物等的唯一數(shù)字標(biāo)識符。在上述命名系統(tǒng)中,SMILES和INCHI著重于表示化學(xué)結(jié)構(gòu),而IUPAC提供抽象表示,CAS編號使用數(shù)字編碼而沒有任何語義含義。其次,除了不同的化學(xué)名稱命名法則,在同一種命名方式下,化學(xué)名稱的同名(也稱為“同義詞”)非常普遍。根據(jù)DrugBank 的統(tǒng)計,對于藥物Valium(安定),DrugBank 給出了 117個同義詞,其中包括Clobazam(氯巴占)、Alboral、Duxen、Paceum、Solis等等。在過去幾十年里,信息技術(shù)的快速發(fā)展已經(jīng)實現(xiàn)了信息技術(shù)在化學(xué)信息處理領(lǐng)域中的應(yīng)用。例如,在現(xiàn)有技術(shù)中,有的技術(shù)通過分析化學(xué)物質(zhì)INCHI名稱,建立索引,實現(xiàn)化學(xué)名稱的檢索;有的技術(shù)從IUPAC化學(xué)名稱中抽取出最頻繁出現(xiàn)的子字符串作為索引,獲得具有該子字符串的所有化學(xué)名稱;另外還有的系統(tǒng)提供了繪制化學(xué)結(jié)構(gòu)式的工具,用戶可以利用該工具將繪制出部分結(jié)構(gòu)作為查詢條件,然后提交到搜索系統(tǒng)進行化學(xué)結(jié)構(gòu)相似度的搜索。此外,這些技術(shù)并沒有從功能的角度去分析化學(xué)結(jié)構(gòu),因此不能從功能的角度獲得某一化學(xué)物質(zhì)同一命名方法命名下的同義詞,更不用說使用其它命名方法命名的同義詞。
發(fā)明內(nèi)容
由上述可知,現(xiàn)有技術(shù)中存在以下缺陷第一,僅僅使用一種命名法來進行查詢, 這種查詢往往要求完全匹配,從而難以搜索到用其它命名法命名的同一種物質(zhì);第二,這些技術(shù)難以搜索具有相同或相似功能但具有不同名稱的化學(xué)物質(zhì);第三,雖然已經(jīng)有一些基于結(jié)構(gòu)相似度的匹配方法,但由于化學(xué)結(jié)構(gòu)非常復(fù)雜,簡單的應(yīng)用結(jié)構(gòu)匹配并不能找出具有相同或相似功效的匹配。也就是說,使用現(xiàn)有的信息技術(shù)在化學(xué)信息處理領(lǐng)域里仍然不能夠基于一種化學(xué)物質(zhì)的任一特定命名或結(jié)構(gòu)式獲得該化學(xué)名稱的全部同義詞。因此,現(xiàn)有技術(shù)中需要一種獨立于命名方法而處理和/或匹配化學(xué)物質(zhì)的信息的方法和系統(tǒng)及其存儲系統(tǒng)??紤]到現(xiàn)有技術(shù)中存在的上述問題,本公開的一個方面提供了一種利用特征子結(jié)構(gòu)高效全面地索引和/或查詢化學(xué)物質(zhì)的信息的方法和系統(tǒng)及其存儲系統(tǒng)。根據(jù)本公開的一個實施例提供了一種將化學(xué)結(jié)構(gòu)式用于化學(xué)信息處理的方法和系統(tǒng)。在這種化學(xué)信息處理系統(tǒng)中使用化學(xué)物質(zhì)的有功能區(qū)分度的化學(xué)子結(jié)構(gòu),而不是化學(xué)名稱或者普通的根據(jù)頻率抽取出的子結(jié)構(gòu),作為索引和檢索的基本單元。在此情況下,本公開的一個實施例解決了在化學(xué)領(lǐng)域中遇到的多種命名法和對同義詞進行分組的問題。更具體而言,本公開的一個實施例可以獨立于使用任一具體命名方法的命名而獲得具有相同或相似功能的化學(xué)物質(zhì)的信息。本發(fā)明的實施例可以以包括方法或系統(tǒng)的多種方式實施。下面討論本發(fā)明的幾個實施例。作為一種化學(xué)物質(zhì)的信息的處理方法,本發(fā)明的一個實施例至少包括下列操作 獲得所述化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式的子結(jié)構(gòu);從所獲得的子結(jié)構(gòu)中確定所述化學(xué)物質(zhì)的特征子結(jié)構(gòu);以及存儲所述化學(xué)物質(zhì)的所述特征子結(jié)構(gòu)。作為一種化學(xué)物質(zhì)的信息的查詢方法,本發(fā)明的一個實施例至少包括獲得化學(xué)物質(zhì)的查詢請求;以及獲得所要查詢的化學(xué)物質(zhì)的特征子結(jié)構(gòu)。作為一種用于相關(guān)聯(lián)地存儲化學(xué)物質(zhì)與特征子結(jié)構(gòu)的存儲系統(tǒng),本發(fā)明的一個實施例至少包括接口裝置,用于響應(yīng)于外部請求,傳送所述化學(xué)物質(zhì)的信息及其特征子結(jié)構(gòu);以及與所述接口裝置耦接的存儲裝置,用于相關(guān)聯(lián)地存儲化學(xué)物質(zhì)的信息及其特征子結(jié)構(gòu)。作為一種化學(xué)物質(zhì)的信息的處理系統(tǒng),本發(fā)明的一個實施例至少包括子結(jié)構(gòu)獲得裝置,用于獲得所述化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式的子結(jié)構(gòu);特征子結(jié)構(gòu)確定裝置,用于從所獲得的子結(jié)構(gòu)中確定所述化學(xué)物質(zhì)的特征子結(jié)構(gòu);以及存儲裝置,用于存儲所述化學(xué)物質(zhì)的所述特征子結(jié)構(gòu)。作為一種化學(xué)物質(zhì)的信息的查詢系統(tǒng),本發(fā)明的一個實施例至少包括接收裝置, 用于獲得化學(xué)物質(zhì)的查詢請求;以及特征子結(jié)構(gòu)獲得裝置,用于獲得所要查詢的化學(xué)物質(zhì)的特征子結(jié)構(gòu)。本發(fā)明的其中一個實施例至少提供了以下優(yōu)點能夠獨立于命名方法而獲得化學(xué)物質(zhì)的同義詞。
圖1示出了根據(jù)本發(fā)明的一個實施例的用于關(guān)聯(lián)化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式與化學(xué)物質(zhì)的信息的方法的示意性流程圖。圖2示出了根據(jù)本發(fā)明的一個實施例的在圖1所示的步驟103中包括的步驟的示意性流程圖。圖3示出了根據(jù)本發(fā)明的一個實施例的在圖1所示的步驟105中包括的步驟的示意性流程圖。
6
圖4示出了根據(jù)本發(fā)明的一個實施例的用于基于化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式匹配化學(xué)物質(zhì)的方法的示意性流程。圖5示出了根據(jù)本發(fā)明的一個實施例的在圖4所示的步驟405中包括的步驟的示意性流程圖。圖6示出了根據(jù)本發(fā)明的一個實施例的在圖4所示的步驟407中包括的步驟的示意性流程圖。圖7示出了本發(fā)明的一個實施例在生物醫(yī)藥領(lǐng)域中的應(yīng)用的一個例子的示意圖。圖8示出了根據(jù)本發(fā)明的一個實施例的用于存儲和匹配化學(xué)結(jié)構(gòu)式的系統(tǒng)的示意性框圖。
具體實施例方式下列討論中,提供大量具體的細節(jié)以幫助徹底了解本發(fā)明。然而,很顯然對于本領(lǐng)域技術(shù)人員來說,即使沒有這些具體細節(jié),并不影響對本發(fā)明的理解。并且應(yīng)該認識到,使用如下的任何具體術(shù)語僅僅是為了方便描述,因此,本發(fā)明不應(yīng)當(dāng)局限于只用在這樣的術(shù)語所表示和/或暗示的任何特定應(yīng)用中。在進行詳細描述之前,先對本文中出現(xiàn)的術(shù)語進行說明?!白咏Y(jié)構(gòu)”是指化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式的一部分或全部?!疤卣髯咏Y(jié)構(gòu)”是指具有功能區(qū)分度的子結(jié)構(gòu),更具體地,具有相同或相似功能的化學(xué)物質(zhì)部分或全部共有的子結(jié)構(gòu),這種子結(jié)構(gòu)往往代表一種或者多種功能。圖1示出了根據(jù)本發(fā)明的一個實施例的用于基于化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式索引化學(xué)物質(zhì)的過程的示意性流程圖。在步驟101,過程開始。在步驟103,基于所獲得的關(guān)于化學(xué)物質(zhì)的信息,獲得化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式的子結(jié)構(gòu)。圖2示出了根據(jù)本發(fā)明的一個實施例的在圖1所示的步驟103中包括的步驟的示意性流程圖。如圖2所示,過程一旦進行到步驟103,首先執(zhí)行步驟201。在步驟201,可以根據(jù)已有數(shù)據(jù),獲得具有相同或相似功能的一類化學(xué)物質(zhì)的信息。在此說明的是,所獲得的一類化學(xué)物質(zhì)中可以包括具有相同或相似功能的一種或多種化學(xué)物質(zhì)。如果獲得了多種化學(xué)物質(zhì)的信息,則需要針對每一種化學(xué)物質(zhì)的信息,執(zhí)行圖2所示的過程,直到獲得了該具有相同或相似功能的多種化學(xué)物質(zhì)的全部子結(jié)構(gòu)為止。還要說明的是,在下文中,為了便于說明,將作為圖2中的步驟的處理對象的一種化學(xué)物質(zhì)稱為“化學(xué)物質(zhì)”,并且將所獲得的一類化學(xué)物質(zhì)中的除作為處理對象的一種化學(xué)物質(zhì)之外的化學(xué)物質(zhì)稱為“其它化學(xué)物質(zhì)”。在化學(xué)領(lǐng)域中,已有數(shù)據(jù)可以是來自諸如DrugBank之類的商業(yè)數(shù)據(jù)源的數(shù)據(jù)。并且,在現(xiàn)有技術(shù)中,已有如下聚類算法來從諸如醫(yī)學(xué)文獻之類的數(shù)據(jù)源挖掘出具有某一共有屬性的數(shù)據(jù)集,這些具有某一共有屬性的化學(xué)物質(zhì)往往是具有相同或相似功能的化學(xué)物質(zhì)1) LDA (Latent Dirichlet Allocation),一種話題模型,2002 年由加州大學(xué)伯克利分校教授提出,用于對文章的話題進行識別;是一個集合概率模型,主要用于處理離散的數(shù)據(jù)集合,目前主要用在數(shù)據(jù)挖掘(dm)中的text mining和自然語言處理中,主要是用來降低維度的。2) LSA(Latent Semantic Analysis),潛在語義分析,是 ScottDeerwester, Susan Τ. Dumais等人在1990年提出來的一種新的索引和檢索方法。該方法和傳統(tǒng)向量空間模型 (vector space model) 一樣使用向量來表示詞(terms)禾口文檔(documents),并通過向量間的關(guān)系(如夾角)來判斷詞及文檔間的關(guān)系。3)PLSA(Probabilistic latent semantic analysis),概率潛在語義分析,基于雙模式和共現(xiàn)的數(shù)據(jù)分析方法延伸的經(jīng)典的統(tǒng)計學(xué)方法。PLSA應(yīng)用于信息檢索,過濾,自然語言處理,文本的機器學(xué)習(xí)或者其他相關(guān)領(lǐng)域。PLSA與LSA的不同是,LSA是以共現(xiàn)表(就是共現(xiàn)的矩陣)的奇異值分解的形式表現(xiàn)的,而PLSA是一個概率模型。例如在生物醫(yī)藥領(lǐng)域中,使用現(xiàn)有的這些技術(shù)可以從來自醫(yī)療文獻,如專利文獻 (US,W0,EU專利文獻),論文(Medline)中自動地挖掘藥物、疾病、蛋白質(zhì)之間的關(guān)系,從而獲得具有相同或相似功效的多種藥物的信息。使用現(xiàn)有技術(shù)獲得的化學(xué)物質(zhì)的信息包括化學(xué)物質(zhì)的名稱和/或化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式?;瘜W(xué)物質(zhì)的名稱可以是使用各種命名方法而獲得的名稱,諸如化學(xué)物質(zhì)的IUPAC名稱、SMILES名稱、InChi名稱、CAS注冊號等?;瘜W(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式可以是化學(xué)結(jié)構(gòu)式的圖像、3D分子圖像等。在步驟203,判斷所獲得的化學(xué)物質(zhì)的信息中是否包括化學(xué)結(jié)構(gòu)式。如果判定不包括化學(xué)結(jié)構(gòu)式,則過程前進到步驟205,否則過程前進到步驟207。在步驟205,將所獲得的化學(xué)物質(zhì)的信息轉(zhuǎn)換成化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式。然后,過程前進到步驟207。目前已經(jīng)存在現(xiàn)有工具,例如Cambridge公司提供的name = structure工具,用戶可以將化學(xué)物質(zhì)的名稱轉(zhuǎn)換成化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式。在步驟207,將獲得的化學(xué)結(jié)構(gòu)式分割為子結(jié)構(gòu)。然后,過程返回到圖1所示的步驟 105。在步驟105,從所獲得的子結(jié)構(gòu)中確定化學(xué)物質(zhì)的特征子結(jié)構(gòu)。圖3示出了根據(jù)本發(fā)明的一個實施例的在圖1所示的步驟105中包括的步驟的示意性流程圖。如圖3所示,過程一旦進行到步驟105,首先執(zhí)行步驟301。在步驟301,針對在步驟103中獲得的化學(xué)物質(zhì),確定該種化學(xué)物質(zhì)的至少一個子結(jié)構(gòu)在步驟103中獲得的具有相同或相似功能的其它化學(xué)物質(zhì)的全部子結(jié)構(gòu)中出現(xiàn)的次數(shù)。在該步驟中,統(tǒng)計化學(xué)物質(zhì)的每一個子結(jié)構(gòu)在由功能聚類結(jié)果獲得的同類的其它化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式中出現(xiàn)的次數(shù),出現(xiàn)頻率高的子結(jié)構(gòu)就用來代表著該化學(xué)物質(zhì)特
點ο在步驟303,判斷所確定的次數(shù)是否滿足預(yù)定條件。預(yù)定條件是次數(shù)的預(yù)定閾值、 次數(shù)的排序閾值、和次數(shù)與所有其它化學(xué)物質(zhì)的總數(shù)的比值的預(yù)定閾值中的一種或多種。 如果滿足預(yù)定條件,則過程前進到步驟305,否則,針對下一子結(jié)構(gòu)繼續(xù)進行判定。在步驟305,將滿足預(yù)定條件的子結(jié)構(gòu)確定為是該種化學(xué)物質(zhì)的特征子結(jié)構(gòu)。例如,具有類似功能的一組化學(xué)物質(zhì)包括ChCpdl、ChCpd2、ChCpd3。ChCpdl具有3 個子結(jié)構(gòu) SubStrl-U SubStrl-2、SubStrl-3,ChCpd2 具有 5 個子結(jié)構(gòu),而 ChCpd3 具有 4個子結(jié)構(gòu)。例如,ChCpdl的子結(jié)構(gòu)SubMrl-I在ChCpd2、ChCpd3的子結(jié)構(gòu)中都出現(xiàn)了, SubStrl-2在ChCpd2、ChCpd3的子結(jié)構(gòu)中都沒有出現(xiàn),而SubStrl_3僅在ChCpd2的子結(jié)構(gòu)中出現(xiàn)了。那么,SubStrl-I的出現(xiàn)次數(shù)為2,SubStrl-2的出現(xiàn)次數(shù)為0,而SubStrl_3的出現(xiàn)次數(shù)為1。假設(shè)預(yù)定條件是出現(xiàn)次數(shù)大于等于1。那么對于化學(xué)物質(zhì)ChCpdl,確定其特征子結(jié)構(gòu)為SubStrl-l、SubStrl-3。對于其它兩種化學(xué)物質(zhì)ChCpd2和ChCpd3,也可執(zhí)行上述過程??商鎿Q地,如果預(yù)定條件是次數(shù)的排序在前2位,那么由于ChCpdl的三個子結(jié)構(gòu)的次數(shù)排序為SubStrl-1、SubStrl-3、SubStrl-2,所以對于化學(xué)物質(zhì)ChCpdl,其特征子結(jié)構(gòu)仍為SubStrl-l、SubStrl-3。對于其它兩種化學(xué)物質(zhì)ChCpd2和ChCpd3,也可執(zhí)行上述過程??商鎿Q地,如果預(yù)定條件是次數(shù)與所有其它化學(xué)物質(zhì)的總數(shù)的比值大于50%,那么由于ChCpdl的三個子結(jié)構(gòu)SubStrl-l、SubStrl-3、SubStrl-2的出現(xiàn)次數(shù)與其它化學(xué)物質(zhì)的總數(shù)2的比值分別為100%、0和50%,所以對于化學(xué)物質(zhì)ChCpdl,其特征子結(jié)構(gòu)仍為 SubStrl-I ο在前述的Smsha等人提出的GraphGr印算法中,公開了將化學(xué)結(jié)構(gòu)式用高頻出現(xiàn)的子結(jié)構(gòu)表示。在該GraphGrep算法,窮舉數(shù)據(jù)庫中存儲的所有圖形的所有路徑,并且根據(jù)每一路徑在全部路徑中出現(xiàn)的頻率,將出現(xiàn)頻率達到或超過某一閾值的路徑用作索引。但是該GraphGrep算法沒有考慮功能,也就是說,沒有從數(shù)據(jù)庫中的所有圖形中確定具有某一功能的圖形,并且針對這部分圖形來確定用作為索引的子結(jié)構(gòu),從而導(dǎo)致很多子結(jié)構(gòu)對于該部分圖像來說是無用的。例如雙苯環(huán)、單苯環(huán)在各種化學(xué)物質(zhì)中出現(xiàn),但是其本身并不表征某種功能。同樣地,在 Xifeng Yan 等人的論文 “Graph Indexing :A Frequent Structurebased Approach", SIGMOD 2004 June 13-18,2004,Paris,F(xiàn)rance 中可以找到用于將化學(xué)結(jié)構(gòu)式分割成子結(jié)構(gòu),并且選擇出出現(xiàn)頻率高的作為有代表性的子結(jié)構(gòu),而本發(fā)明是挖掘出具有功能區(qū)分度的特征子結(jié)構(gòu)。在步驟107,存儲該種化學(xué)物質(zhì)的特征子結(jié)構(gòu)?,F(xiàn)有技術(shù)中,已經(jīng)存在用于存儲化學(xué)結(jié)構(gòu)式圖的以下方式1)鄰接矩陣;2)如前所述的INCHI ;3)如前所述的Smiles。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)知道,在步驟107中可以將該種化學(xué)物質(zhì)的特征子結(jié)構(gòu)與該種化學(xué)物質(zhì)的其它信息(諸如,使用各種命名法的命名信息,其包括IUPAC名稱、SMILES名稱、InChi名稱、CAS注冊號中的一個或多個)相關(guān)聯(lián)地存儲起來?;瘜W(xué)物質(zhì)的其它信息和特征子結(jié)構(gòu)中的一個或多個能夠用作為用于查詢所述化學(xué)物質(zhì)及其同義詞的索引。值得注意的是,在以上給出了確定特征子結(jié)構(gòu)的一種優(yōu)選方法。但是,特征子結(jié)構(gòu)也可以是用戶根據(jù)其先驗經(jīng)驗指定的,也可以用其它方式給出。在步驟109,過程結(jié)束。
圖4示出了根據(jù)本發(fā)明的一個實施例的用于基于化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式匹配化學(xué)物質(zhì)的方法的示意性流程。在步驟401,過程開始。在步驟403,獲得對于化學(xué)物質(zhì)的查詢請求。根據(jù)本發(fā)明的一個實施例,對于化學(xué)物質(zhì)的查詢請求是用戶輸入的。根據(jù)本發(fā)明的另一個實施例,對于化學(xué)物質(zhì)的查詢請求是系統(tǒng)生成的。查詢請求包括化學(xué)物質(zhì)的命名、 分子結(jié)構(gòu)式。此外,查詢請求中還可能包括指定的子結(jié)構(gòu),用戶有可能希望使用該指定的子結(jié)構(gòu)作為特征子結(jié)構(gòu)查詢其它化學(xué)物質(zhì)。在步驟405,獲得所要查詢的化學(xué)物質(zhì)的特征子結(jié)構(gòu)。圖5示出了根據(jù)本發(fā)明的一個實施例的在圖4所示的步驟405中包括的步驟的示意性流程圖。如圖5所示,過程一旦進行到步驟405,首先執(zhí)行步驟501。在步驟501,判斷查詢請求中是否包括化學(xué)結(jié)構(gòu)式。在此化學(xué)結(jié)構(gòu)式可以是圖像格式、3D圖像格式、SMILES格式或INCHI格式等。如果查詢請求中不包括化學(xué)結(jié)構(gòu)式,則過程前進到步驟503,否則,過程前進到步驟505。在步驟503,基于查詢請求中的信息查詢存儲庫,以獲得相關(guān)的特征子結(jié)構(gòu)。通常, 在查詢請求中包括化學(xué)物質(zhì)的名稱、名稱的關(guān)鍵字等等。由于如前所述,存儲庫中已經(jīng)相關(guān)聯(lián)地存儲了化學(xué)物質(zhì)的信息和特征子結(jié)構(gòu),因此查詢存儲庫可以快速獲得特征子結(jié)構(gòu)。在步驟505,將獲得的結(jié)構(gòu)式顯示給用戶以供用戶選擇,并將所選擇的結(jié)構(gòu)式確定為作為檢索條件的特征子結(jié)構(gòu)。在步驟505中,用戶也可以選擇排除某些子結(jié)構(gòu)作為特征子結(jié)構(gòu)。也就是,用戶希望獲得不包括被排除的子結(jié)構(gòu)的化學(xué)物質(zhì)。此外,步驟505可以重復(fù)執(zhí)行多次,直到用戶確定不再進行選擇為止,并且將用戶最終選擇的結(jié)構(gòu)式確定為作為檢索基礎(chǔ)的特征子結(jié)構(gòu)。步驟505是可選的。如圖5中虛線所示,也可以將在步驟503中所獲得的特征子結(jié)構(gòu)直接用于檢索,而無需用戶進一步選擇。在此情況下,將不執(zhí)行圖5中的步驟505??商鎿Q地,如果在步驟501中確定查詢請求中包括請求查詢的子結(jié)構(gòu),則在步驟 501中可以獲得請求查詢的子結(jié)構(gòu)。然后,將所獲得的請求查詢的子結(jié)構(gòu)作為特征子結(jié)構(gòu)用于查詢。例如,如果用戶知道某種農(nóng)藥的一子結(jié)構(gòu)對某種害蟲有殺滅作用并且希望查詢具有該作用的多種農(nóng)藥,那么用戶在查詢請求中直接輸入該子結(jié)構(gòu),然后將該子結(jié)構(gòu)用作為特征子結(jié)構(gòu)進行查詢。在此情況下,可以不執(zhí)行步驟505。在步驟407,基于獲得的特征子結(jié)構(gòu),確定與特征子結(jié)構(gòu)匹配的其它化學(xué)物質(zhì)。子結(jié)構(gòu)的比較可以使用現(xiàn)有技術(shù)中已有的方法,例如,“An algorithm for subgraph isomorphism", JR Ullmann-Journal of the ACM(JACM),1976 中公開的圖匹配算法。圖6示出了根據(jù)本發(fā)明的一個實施例的在圖4所示的步驟407中包括的步驟的示意性流程圖。如圖6所示,過程一旦進行到步驟407,首先執(zhí)行步驟601。在步驟601,基于在步驟405中確定的特征子結(jié)構(gòu),檢索出與該特征子結(jié)構(gòu)全部或部分匹配的化學(xué)物質(zhì)的信息。在步驟603,判斷檢索出的化學(xué)物質(zhì)中的每一種化學(xué)物質(zhì)與特征子結(jié)構(gòu)匹配的子結(jié)構(gòu)的個數(shù)是否滿足預(yù)定條件。預(yù)定條件可以是個數(shù)的預(yù)定閾值、個數(shù)的排序閾值、和個數(shù)與檢索出的特征子結(jié)構(gòu)的總個數(shù)的比值的預(yù)定閾值中的一種或多種。如果不滿足預(yù)定條件,則針對下一種化學(xué)物質(zhì)執(zhí)行步驟603。否則,過程前進到步驟605。例如,用于檢索的特征子結(jié)構(gòu)有3個,分別是SubStrl-1、SubStrl-2、SubStr 1-30 檢索后得出與SubMrl-I匹配的物質(zhì)有ChCpdl-ChCpd3和ChCpd8_ChCpdll,與 SubStrl-2 匹配的物質(zhì)有 ChCpdl-ChCpd4,與 SubMrl-3 匹配的物質(zhì)有 ChCpdl_ChCpd2 和 ChCpd4-ChCpdll。如果預(yù)定條件是匹配子結(jié)構(gòu)的個數(shù)大于等于3,那么匹配的物質(zhì)是與3個子結(jié)構(gòu)都匹配的ChCpdl和ChCpd2??商鎿Q地,如果預(yù)定條件是個數(shù)的排序在前2位,那么匹配的物質(zhì)是 ChCpdl-ChCpd4 和 ChCpd8_ChCpdll??商鎿Q地,如果預(yù)定條件是個數(shù)與檢索出的特征子結(jié)構(gòu)的總個數(shù)的比值大于 50%,那么匹配的物質(zhì)是 ChCpdl-ChCpcM 和 ChCpd8-ChCpdll。在步驟605,將滿足預(yù)定條件的化學(xué)物質(zhì)確定為與特征子結(jié)構(gòu)匹配的其它化學(xué)物質(zhì)。此外,還可以將該其它化學(xué)物質(zhì)的命名信息提供給用戶以供使用。在步驟409,過程結(jié)束。圖7示出了本發(fā)明的一個實施例在生物醫(yī)藥領(lǐng)域中的應(yīng)用的一個例子的示意圖。在步驟701從現(xiàn)有數(shù)據(jù)中識別出具有特定功能的一類藥品中的每一種藥品的名稱。如圖所示,在本例子中識別出的具有鎮(zhèn)定功能的藥品的名稱是Valium(安定)。在步驟703將該藥品的名稱轉(zhuǎn)換成化學(xué)結(jié)構(gòu)式。在步驟705將給化學(xué)結(jié)構(gòu)式分割成各種子結(jié)構(gòu)。在步驟707確定每一種藥品的特征子結(jié)構(gòu)。在步驟709將每一種藥品的特征子結(jié)構(gòu)與其名稱相關(guān)聯(lián)地存儲在數(shù)據(jù)庫中。在步驟711用戶輸入查詢請求。該查詢請求包括要查詢的藥品的名稱。在步驟713基于該名稱信息從數(shù)據(jù)庫中查詢出該藥品的特征子結(jié)構(gòu)。在步驟715基于所獲得的特征子結(jié)構(gòu)從數(shù)據(jù)庫中查詢出與特征子結(jié)構(gòu)全部或部分匹配的全部藥品。在步驟717將匹配的子結(jié)構(gòu)的個數(shù)符合預(yù)定條件的所有藥品的名稱顯示給用戶。圖8示出了根據(jù)本發(fā)明的一個實施例的用于存儲和匹配化學(xué)結(jié)構(gòu)式的系統(tǒng)的示意性框圖。如圖所示,系統(tǒng)包括后端、前端及其之間的存儲設(shè)備。系統(tǒng)的后端包括輸入裝置 801、轉(zhuǎn)換裝置803 (可選)、子結(jié)構(gòu)分割裝置805、特征子結(jié)構(gòu)確定裝置807、存儲裝置809。 系統(tǒng)的前端包括接收裝置813、特征子結(jié)構(gòu)獲得裝置815、選擇裝置817 (可選)和匹配裝置 819。后端和前端之間的存儲系統(tǒng)包括接口裝置821和存儲庫811。可替換地,存儲系統(tǒng)可以被結(jié)合到前端或后端中作為其中的一部分。輸入裝置801用于接收現(xiàn)有工具從已有數(shù)據(jù)源獲得的具有相同或相似功能的多種化學(xué)物質(zhì)的信息。轉(zhuǎn)換裝置803是可選的。如果轉(zhuǎn)換裝置803從輸入裝置801接收的化學(xué)物質(zhì)的信息包括化學(xué)結(jié)構(gòu)式,那么轉(zhuǎn)換裝置803無需執(zhí)行任何操作。如果轉(zhuǎn)換裝置803從輸入裝置801接收的化學(xué)物質(zhì)的信息不包括化學(xué)結(jié)構(gòu)式,而是包括化學(xué)物質(zhì)的名稱,那么轉(zhuǎn)換裝置 803將化學(xué)物質(zhì)的名稱轉(zhuǎn)換成其化學(xué)結(jié)構(gòu)式。子結(jié)構(gòu)分割裝置805將從轉(zhuǎn)換裝置803接收到的化學(xué)結(jié)構(gòu)式分割成各種子結(jié)構(gòu)。 如前所述,子結(jié)構(gòu)分割處理可以使用現(xiàn)有技術(shù)來實現(xiàn)。特征子結(jié)構(gòu)確定裝置807從分割出的子結(jié)構(gòu)中確定化學(xué)物質(zhì)的特征子結(jié)構(gòu)。具體地,特征子結(jié)構(gòu)確定裝置807首先基于已有數(shù)據(jù)將化學(xué)物質(zhì)進行聚類以獲得具有相同或相似功能的一類化學(xué)物質(zhì)。使用現(xiàn)有技術(shù),聚類過程可以包括如下處理-對于每一篇文獻(專利文獻、論文、或技術(shù)報告),將其表示為一組術(shù)語,例如,該組術(shù)語可以包括僅僅化學(xué)物質(zhì)名稱;或包括化學(xué)物質(zhì)名稱以及疾病名稱、蛋白質(zhì)等;以及-使用LDA、PLSA或LSA來對整組術(shù)語進行聚類。例如,對于藥物,可以根據(jù)醫(yī)療文獻中對于致病基因,所導(dǎo)致的疾病名稱,以及所誘發(fā)的蛋白質(zhì)等物質(zhì)以及它們的共同出現(xiàn)情況來確定哪些藥物能夠用來治療某一種疾病或具有某一療效。再例如,對于清潔劑,將可以用來清洗食物的清潔劑歸為一類,并將可以用來清洗非食品的清潔劑歸為另一類。然后,特征子結(jié)構(gòu)確定裝置807統(tǒng)計聚類所獲得的一類化學(xué)物質(zhì)中的一種化學(xué)物質(zhì)的每一個子結(jié)構(gòu)在該類中全部化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式中出現(xiàn)的次數(shù)。再然后,特征子結(jié)構(gòu)確定裝置807判斷所統(tǒng)計的次數(shù)是否滿足預(yù)定條件,如果滿足預(yù)定條件,則認為該子結(jié)構(gòu)是該種化學(xué)物質(zhì)的特征子結(jié)構(gòu)。預(yù)定條件是次數(shù)的預(yù)定閾值、次數(shù)的排序閾值、和次數(shù)與所有化學(xué)物質(zhì)的總數(shù)的比值的預(yù)定閾值中的一種或多種。概言之,特征子結(jié)構(gòu)確定裝置807 針對每次聚類都按照相關(guān)性對名稱列表進行排序,并且對于每次聚類,選擇最高排序的化學(xué)物質(zhì)名稱,并且選擇最頻繁出現(xiàn)的結(jié)構(gòu)作為關(guān)注的結(jié)構(gòu)(即,具有功能區(qū)分度的結(jié)構(gòu))。當(dāng)然,如前所述,特征子結(jié)構(gòu)也可以根據(jù)用戶的先驗知識來選擇確定。關(guān)聯(lián)存儲裝置809將特征子結(jié)構(gòu)確定裝置807針對每一化學(xué)物質(zhì)所確定的全部特征子結(jié)構(gòu)與該化學(xué)物質(zhì)的信息相關(guān)聯(lián)地存儲到存儲庫811中。存儲庫811用于相關(guān)聯(lián)地存儲化學(xué)物質(zhì)的信息及其特征子結(jié)構(gòu)。接口裝置821與存儲庫811和其它設(shè)備連接,其它設(shè)備經(jīng)由接口裝置821訪問存儲庫811。接收裝置813接收用戶輸入的查詢請求。用戶輸入的查詢請求可能包括某種化學(xué)物質(zhì)的某種名稱或者用戶已知的某種化學(xué)物質(zhì)的一個或多個特征子結(jié)構(gòu)。如果用戶輸入的查詢請求中包括請求查詢的子結(jié)構(gòu),則特征子結(jié)構(gòu)獲得裝置815 可以獲得請求查詢的子結(jié)構(gòu)并將該子結(jié)構(gòu)確定為特征子結(jié)構(gòu)。否則,特征子結(jié)構(gòu)獲得裝置 815根據(jù)查詢請求中包括的名稱查詢存儲庫811以獲得與該名稱相關(guān)聯(lián)的特征子結(jié)構(gòu)。選擇裝置817是可選的。用于將接收到的特征子結(jié)構(gòu)發(fā)送給顯示設(shè)備以顯示給用戶,供用戶選擇。如上所述,該選擇不限于一次,而是可以由用戶多次選擇。例如,用戶可能選擇某些特征子結(jié)構(gòu)以獲得具有這些特征子結(jié)構(gòu)所帶來的特定功效的化學(xué)物質(zhì)。當(dāng)然,用戶也可以排除某些特征子結(jié)構(gòu)以獲得不具有這些特征子結(jié)構(gòu)所帶來的特定功效的化學(xué)物質(zhì)。匹配裝置819基于選擇裝置817提供的特征子結(jié)構(gòu),從存儲庫811中查詢與特征子結(jié)構(gòu)全部或部分匹配的化學(xué)物質(zhì)。匹配裝置819判斷查詢得到的每一化學(xué)物質(zhì)的與特征子結(jié)構(gòu)匹配的子結(jié)構(gòu)的個數(shù)是否滿足預(yù)定條件。如果滿足預(yù)定條件,將滿足預(yù)定條件的化學(xué)物質(zhì)的信息顯示給用戶。以上通過具體實施例說明了本發(fā)明。在本發(fā)明中首先提出了特征子結(jié)構(gòu)的概念, 即具有功能區(qū)分度的子結(jié)構(gòu),并且基于特征子結(jié)構(gòu)來關(guān)聯(lián)和匹配化學(xué)物質(zhì)的信息,從而本發(fā)明能夠檢索出功能相同或相似的多種化學(xué)物質(zhì),而與使用何種命名方法來命名這種化學(xué)物質(zhì)無關(guān)。此外,現(xiàn)有技術(shù)中的匹配是完全匹配,例如,查詢請求中包括某一關(guān)鍵詞,查詢結(jié)果就是包括該關(guān)鍵詞的化學(xué)物質(zhì)信息。而本發(fā)明的查詢請求使用的是特征子結(jié)構(gòu),而查詢結(jié)果是根據(jù)化學(xué)物質(zhì)的子結(jié)構(gòu)與特征子結(jié)構(gòu)的匹配情況是否滿足預(yù)定條件而確定的化學(xué)物質(zhì)信息,因而本發(fā)明實際上使用的部分匹配。因此,本發(fā)明的查詢結(jié)果范圍更加寬泛。本發(fā)明在網(wǎng)絡(luò)系統(tǒng)中可能特別有用。大多數(shù)網(wǎng)絡(luò)系統(tǒng)現(xiàn)在允許用戶檢索關(guān)鍵字。 如果用戶想要給它們的產(chǎn)品,藥物Penicillin(盤尼西林)做檢索,除了藥物名稱之外,用戶還需要檢索其它40種名稱,象“Abbocillin” “Galofak”,這些都指的是同一種藥。如果清潔劑的某種化學(xué)結(jié)構(gòu)會導(dǎo)致疾病,用戶在使用本發(fā)明進行檢索時可以排除該化學(xué)結(jié)構(gòu), 以獲得不包括該化學(xué)結(jié)構(gòu)的安全洗滌劑。使用本發(fā)明,可以將檢索關(guān)鍵詞都變換成結(jié)構(gòu)表示并使用該結(jié)構(gòu)表示進行檢索,從而使檢索獨立于任一具體的命名方法,然后根據(jù)結(jié)構(gòu)相似性確定將哪些內(nèi)容與搜索結(jié)果一起顯示給用戶,從而可以檢索出具有相同或相似功能的所有產(chǎn)品,大大降低成本和耗時。本發(fā)明的各實施例可采用任何適宜的方式實現(xiàn),包括硬件、軟件、固件或其任何組合。或者,可將本發(fā)明實施例至少部分地實現(xiàn)為在一個或多個數(shù)據(jù)處理器和/或數(shù)字信號處理器上運行的計算機軟件。本發(fā)明的實施例的元件和組件可采用任何合適的方式在物理上、功能上和邏輯上實現(xiàn)。的確,可將該功能實現(xiàn)于單個部件、多個部件中,或作為其他功能部件的一部分。這樣,可將本發(fā)明實施例實現(xiàn)在單個部件中,或?qū)⑵湓谖锢砩虾凸δ苌戏植荚诓煌考吞幚砥髦g。用于執(zhí)行本發(fā)明的操作的計算機程序碼,可以以一種或多種程序設(shè)計語言的任何組合來編寫,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言-諸如JaVa、Smalltalk、C++ 之類,還包括常規(guī)的過程式程序設(shè)計語言-諸如” C”程序設(shè)計語言或類似的程序設(shè)計語言。程序碼可以完全地在用戶的計算上執(zhí)行、部分地在用戶的計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶的計算機上部分在遠程計算機上執(zhí)行、或者完全在遠程計算機或服務(wù)器上執(zhí)行。在后一種情形中,遠程計算機可以通過任何種類的網(wǎng)絡(luò)——包括局域網(wǎng) (LAN)或廣域網(wǎng)(WAN)-連接到用戶的計算機,或者,可以(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng))連接到外部計算機。以上參照按照本發(fā)明實施例的方法、系統(tǒng)和計算機程序產(chǎn)品的流程圖和/或框圖描述了本發(fā)明。要明白的是,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由計算機程序指令實現(xiàn)。這些計算機程序指令可以提供給通用計算機、專用計算機或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機器,使得通過計算機或其它可編程數(shù)據(jù)處理裝置執(zhí)行的這些指令,產(chǎn)生實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。也可以把這些計算機程序指令存儲在能指令計算機或其它可編程數(shù)據(jù)處理裝置以特定方式工作的計算機可讀介質(zhì)中,這樣,存儲在計算機可讀介質(zhì)中的指令產(chǎn)生一個包
13括實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instruction means) 的制造品。也可以把計算機程序指令加載到計算機或其它可編程數(shù)據(jù)處理裝置上,使得在計算機或其它可編程數(shù)據(jù)處理裝置上執(zhí)行一系列操作步驟,以產(chǎn)生計算機實現(xiàn)的過程,從而在計算機或其它可編程裝置上執(zhí)行的指令就提供實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。本發(fā)明通過使用本發(fā)明的實施例的詳細說明被描述,這些實施例作為例子被提供,并且不打算限制本發(fā)明的范圍。盡管本發(fā)明描述了這些實施例,不過對本領(lǐng)域的技術(shù)人員來說,對這些實施例的變更和改變是顯而易見的。因此,對示例性實施例的上述說明并不限定或約束本發(fā)明。其它變化、替代和更改也是可能的,并不脫離由下面的權(quán)利要求限定的本發(fā)明的精神和范圍。
權(quán)利要求
1.一種化學(xué)物質(zhì)的信息的處理方法,包括 獲得所述化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式的子結(jié)構(gòu);從所獲得的子結(jié)構(gòu)中確定所述化學(xué)物質(zhì)的特征子結(jié)構(gòu),其中所述特征子結(jié)構(gòu)是具有功能區(qū)分度的子結(jié)構(gòu);以及存儲所述化學(xué)物質(zhì)的所述特征子結(jié)構(gòu)。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述獲得子結(jié)構(gòu)的步驟還包括 獲得關(guān)于所述化學(xué)物質(zhì)的信息;如果所獲得的關(guān)于所述化學(xué)物質(zhì)的信息不是所述化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式,則將所述化學(xué)物質(zhì)的信息轉(zhuǎn)換成化學(xué)結(jié)構(gòu)式;以及將所述化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式分割成子結(jié)構(gòu)。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述確定特征子結(jié)構(gòu)的步驟包括獲得所述化學(xué)物質(zhì)的至少一個子結(jié)構(gòu)在具有與所述化學(xué)物質(zhì)相同或相似功能的其它化學(xué)物質(zhì)的子結(jié)構(gòu)中出現(xiàn)的次數(shù);以及如果所述次數(shù)滿足預(yù)定條件,則認為所述至少一個子結(jié)構(gòu)是所述化學(xué)物質(zhì)的特征子結(jié)構(gòu)。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述預(yù)定條件是所述次數(shù)的預(yù)定閾值、所述次數(shù)的排序閾值、和所述次數(shù)與所述其它化學(xué)物質(zhì)的總數(shù)的比值的預(yù)定閾值中的一種或多種。
5.一種化學(xué)物質(zhì)的信息的查詢方法,包括 獲得化學(xué)物質(zhì)的查詢請求;以及獲得所要查詢的化學(xué)物質(zhì)的特征子結(jié)構(gòu),其中所述特征子結(jié)構(gòu)是具有功能區(qū)分度的子結(jié)構(gòu)。
6.根據(jù)權(quán)利要求5所述的方法,還包括基于所述特征子結(jié)構(gòu),確定與所述特征子結(jié)構(gòu)匹配的其它化學(xué)物質(zhì)。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述獲得特征子結(jié)構(gòu)的步驟包括基于所述查詢請求中包括的信息,從存儲庫中檢索出所述特征子結(jié)構(gòu),其中在所述存儲庫中存儲了多種化學(xué)物質(zhì)的特征子結(jié)構(gòu)。
8.根據(jù)權(quán)利要求7所述的方法,還包括將檢索出的所述特征子結(jié)構(gòu)呈現(xiàn)給用戶以供用戶選擇;并且所述確定匹配的其它化學(xué)物質(zhì)的步驟是基于用戶選擇的特征子結(jié)構(gòu)匹配其它化學(xué)物質(zhì)。
9.根據(jù)權(quán)利要求7所述的方法,還包括響應(yīng)于匹配的特征子結(jié)構(gòu)的個數(shù)滿足預(yù)定條件,確定實現(xiàn)匹配;并且其中所述預(yù)定條件是所述個數(shù)的預(yù)定閾值、所述個數(shù)的排序閾值、和所述匹配的特征子結(jié)構(gòu)的個數(shù)與所述檢索出的特征子結(jié)構(gòu)的總個數(shù)的比值的預(yù)定閾值中的一種或多種。
10.根據(jù)權(quán)利要求6所述的方法,其中,如果所獲得的查詢請求包括要排除的子結(jié)構(gòu), 則在確定匹配的其它化學(xué)物質(zhì)的步驟中,從匹配的其它化學(xué)物質(zhì)中排除具有該要排除的子結(jié)構(gòu)的其它化學(xué)物質(zhì)。
11.根據(jù)權(quán)利要求5所述的方法,其中所述獲得化學(xué)物質(zhì)的查詢請求的步驟包括獲得請求查詢的子結(jié)構(gòu),并且所述獲得所述化學(xué)物質(zhì)的特征子結(jié)構(gòu)的步驟包括將所述請求查詢的子結(jié)構(gòu)確定為所要查詢的特征子結(jié)構(gòu);并且其中,所述方法還包括基于所述特征子結(jié)構(gòu),確定與所述特征子結(jié)構(gòu)匹配的化學(xué)物質(zhì)。
12.一種用于相關(guān)聯(lián)地存儲化學(xué)物質(zhì)與特征子結(jié)構(gòu)的存儲系統(tǒng),所述存儲系統(tǒng)包括 接口裝置,用于響應(yīng)于外部請求,傳送所述化學(xué)物質(zhì)的信息及其特征子結(jié)構(gòu),其中所述特征子結(jié)構(gòu)是具有功能區(qū)分度的子結(jié)構(gòu);以及與所述接口裝置耦接的存儲庫,用于相關(guān)聯(lián)地存儲化學(xué)物質(zhì)的信息及其特征子結(jié)構(gòu)。
13.一種化學(xué)物質(zhì)的信息的處理系統(tǒng),包括子結(jié)構(gòu)獲得裝置,用于獲得所述化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式的子結(jié)構(gòu); 特征子結(jié)構(gòu)確定裝置,用于從所獲得的子結(jié)構(gòu)中確定所述化學(xué)物質(zhì)的特征子結(jié)構(gòu),其中所述特征子結(jié)構(gòu)是具有功能區(qū)分度的子結(jié)構(gòu);以及存儲裝置,用于存儲所述化學(xué)物質(zhì)的所述特征子結(jié)構(gòu)。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述子結(jié)構(gòu)獲得裝置包括 輸入裝置,用于獲得關(guān)于所述化學(xué)物質(zhì)的信息;轉(zhuǎn)換裝置,用于如果所獲得的關(guān)于所述化學(xué)物質(zhì)的信息不是所述化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式,則將所述化學(xué)物質(zhì)的信息轉(zhuǎn)換成化學(xué)結(jié)構(gòu)式;以及子結(jié)構(gòu)分割裝置,用于將所述化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式分割成子結(jié)構(gòu)。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其中,所述特征子結(jié)構(gòu)確定裝置還用于獲得所述化學(xué)物質(zhì)的至少一個子結(jié)構(gòu)在具有與所述化學(xué)物質(zhì)功能相同或相似的其它化學(xué)物質(zhì)的子結(jié)構(gòu)中出現(xiàn)的次數(shù),并且如果所述次數(shù)滿足預(yù)定條件,則判定所述至少一個子結(jié)構(gòu)是所述化學(xué)物質(zhì)的特征子結(jié)構(gòu)。
16.根據(jù)權(quán)利要求15所述的系統(tǒng),其中,所述預(yù)定條件是所述次數(shù)的預(yù)定閾值、所述次數(shù)的排序閾值、和所述次數(shù)與所述其它化學(xué)物質(zhì)的總數(shù)的比值的預(yù)定閾值中的一種或多種。
17.一種化學(xué)物質(zhì)的信息的查詢系統(tǒng),包括 接收裝置,用于獲得化學(xué)物質(zhì)的查詢請求;以及特征子結(jié)構(gòu)獲得裝置,用于獲得所要查詢的化學(xué)物質(zhì)的特征子結(jié)構(gòu),其中所述特征子結(jié)構(gòu)是具有功能區(qū)分度的子結(jié)構(gòu)。
18.根據(jù)權(quán)利要求17所述的系統(tǒng),還包括匹配裝置,用于基于所述特征子結(jié)構(gòu),確定與所述特征子結(jié)構(gòu)匹配的其它化學(xué)物質(zhì)。
19.根據(jù)權(quán)利要求18所述的系統(tǒng),其中,所述特征子結(jié)構(gòu)獲得裝置還用于基于所述查詢請求中包括的信息,從存儲庫中檢索出所述特征子結(jié)構(gòu),其中在所述存儲庫中存儲了多種化學(xué)物質(zhì)的特征子結(jié)構(gòu)。
20.根據(jù)權(quán)利要求19所述的系統(tǒng),還包括選擇裝置,用于將檢索出的所述特征子結(jié)構(gòu)呈現(xiàn)給用戶以供用戶選擇;并且其中,所述匹配裝置基于用戶選擇的特征子結(jié)構(gòu)匹配其它化學(xué)物質(zhì)。
21.根據(jù)權(quán)利要求19所述的系統(tǒng),其中所述匹配裝置還用于響應(yīng)于匹配的特征子結(jié)構(gòu)的個數(shù)滿足預(yù)定條件,確定實現(xiàn)匹配;并且其中所述預(yù)定條件是所述個數(shù)的預(yù)定閾值、所述個數(shù)的排序閾值、和所述匹配的特征子結(jié)構(gòu)的個數(shù)與所述檢索出的特征子結(jié)構(gòu)的總個數(shù)的比值的預(yù)定閾值中的一種或多種。
22.根據(jù)權(quán)利要求18所述的系統(tǒng),其中,如果所獲得的查詢請求包括要排除的子結(jié)構(gòu), 則所述匹配裝置從匹配的其它化學(xué)物質(zhì)中排除具有該要排除的子結(jié)構(gòu)的其它化學(xué)物質(zhì)。
23.根據(jù)權(quán)利要求17所述的系統(tǒng),其中所述接收裝置進一步用于獲得請求查詢的子結(jié)構(gòu),并且所述特征子結(jié)構(gòu)獲得裝置進一步用于將所述請求查詢的子結(jié)構(gòu)確定為所要查詢的特征子結(jié)構(gòu),并且其中,所述系統(tǒng)還進一步包括匹配裝置,用于基于所述特征子結(jié)構(gòu),確定與所述特征子結(jié)構(gòu)匹配的化學(xué)物質(zhì)。
全文摘要
本公開提供了化學(xué)物質(zhì)的信息的處理和匹配方法、系統(tǒng)及存儲系統(tǒng)。根據(jù)本發(fā)明的一個實施例,化學(xué)物質(zhì)的信息的處理方法包括獲得所述化學(xué)物質(zhì)的化學(xué)結(jié)構(gòu)式的子結(jié)構(gòu);從所獲得的子結(jié)構(gòu)中確定所述化學(xué)物質(zhì)的特征子結(jié)構(gòu);以及存儲所述化學(xué)物質(zhì)的所述特征子結(jié)構(gòu)。本公開的一個方面所要解決的技術(shù)問題在于提供一種能夠獨立于現(xiàn)有的各種命名方法而處理和/或匹配化學(xué)物質(zhì)的信息的方法和系統(tǒng)。本公開的一個方面提供了一種利用特征子結(jié)構(gòu)高效全面地索引和/或查詢化學(xué)物質(zhì)的信息的方法和系統(tǒng)及其存儲系統(tǒng)。
文檔編號G06F17/30GK102436447SQ20101029905
公開日2012年5月2日 申請日期2010年9月29日 優(yōu)先權(quán)日2010年9月29日
發(fā)明者吳賢, 張俐, 蘇中, 蔡柯柯, 郭宏蕾 申請人:國際商業(yè)機器公司