專利名稱:用于產(chǎn)生馬庫什結(jié)構(gòu)專利權(quán)利要求內(nèi)的虛擬化合物鏈接庫的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一般化學結(jié)構(gòu)描述的分析、表征及比較,且更特別涉及化合物識別,所述化合物展示相似于物質(zhì)專利的組成中特別要求的化合物的特性或者相似于例示一般化學結(jié)構(gòu)描述的范圍的化合物的特性。
背景技術(shù):
世界各地所進行的并且每天在許多外語期刊所刊登的研究活動正延展當前專利審查系統(tǒng)的容量。為響應此,許多國內(nèi)以及國際專利系統(tǒng)主動評估當前專利實務的改變。在這些改變中,建議專利申請人不僅應當承擔識別且提交針對可專利性視為先有技術(shù)的材料的責任,還應當指出發(fā)明為何相對于先有技術(shù)文獻具有可專利性。例如美國專利及商標局考慮過在提交信息公開聲明(IDS)之外附加額外要求,并且是要求專利申請人具體指出針對該發(fā)明可專利性的材料在先有技術(shù)文獻中的相關(guān)段落。盡管這類計劃的規(guī)則改變目前尚未生效,然而該現(xiàn)象的開始將實質(zhì)上新的分析負擔強加于試圖使信息得到國內(nèi)以及國際專利審查機關(guān)注意的專利申請人。據(jù)此,對于基于研究的投資活動,預期與保護基于知識產(chǎn)權(quán)的投資活動相關(guān)的先有技術(shù)分析的重要性將增加。此外對于具有長期產(chǎn)品研發(fā)周期的化學和生化產(chǎn)業(yè),建立產(chǎn)品的穩(wěn)固知識產(chǎn)權(quán)保護是特別重要的。為符合公開的要求,此產(chǎn)業(yè)部門面臨解讀經(jīng)通用化學結(jié)構(gòu)表示方式(經(jīng)常又被稱為馬庫什(Markush)結(jié)構(gòu))編碼的先有技術(shù)的問題。不幸地是,當前用于基于先有技術(shù)信息分析馬庫什結(jié)構(gòu)的方法是耗費時間并且容易出錯。針對這些缺點,美國專利申請公開案第2009-013M64號描述了一種馬庫什結(jié)構(gòu)列舉技術(shù)。本發(fā)明結(jié)合該技術(shù)改善確定出現(xiàn)在物質(zhì)專利的化學組成和專利數(shù)據(jù)庫中的以馬庫什結(jié)構(gòu)表示方式和/或其它表示方式的衍生形式為形式的知識產(chǎn)權(quán)信息的速度和準確性。
發(fā)明內(nèi)容
簡言之,一種機器實施方法,其產(chǎn)生展示與例示性化合物具有特定程度的結(jié)構(gòu)相似性的化學結(jié)構(gòu)集庫。從專利提取特定實例。分子結(jié)構(gòu)指紋是針對特定實例進行計算的。從專利數(shù)據(jù)庫取得馬庫什結(jié)構(gòu)拓樸信息。使用從該專利數(shù)據(jù)庫所提取的馬庫什結(jié)構(gòu)拓樸信息來列舉虛擬鏈接庫。例示性化合物的分子結(jié)構(gòu)指紋相似性是通過將指紋與由隨機列舉的化合物集合計算的分子指紋進行對比予以識別。然后選出經(jīng)隨機列舉的化學結(jié)構(gòu)的子集合, 其展示在針對由例示性化合物計算的指紋使用者所預定的相似性范圍內(nèi)的相似性范圍。
圖1是用于確定一般化學結(jié)構(gòu)描述的內(nèi)容的程序的概略流程圖;以及圖2是用于產(chǎn)生展示結(jié)構(gòu)相似性的化合物集庫的系統(tǒng)的示意圖。發(fā)明內(nèi)容
在常規(guī)實踐描述與物質(zhì)組成相關(guān)的特性或?qū)嵱眯畔⒅惺褂靡话慊瘜W結(jié)構(gòu)的表示方式。這些表像、表征物質(zhì)組成的一般化學結(jié)構(gòu)通常由改變以下事項的描述組成1.化學結(jié)構(gòu)主干(類)的原子構(gòu)成,和/或2.接合至常見結(jié)構(gòu)核心的具有不同特性(取代基團)的結(jié)構(gòu)片段。因為這些一般化學結(jié)構(gòu)的描述提供一種用于敘述具有相似特性的物質(zhì)組成的變體的有效方法,所以這些一般化學結(jié)構(gòu)表像是經(jīng)常被使用在專利申請案中、并且更普遍地還用于捕捉與結(jié)構(gòu)上相關(guān)的化學組成相關(guān)的結(jié)構(gòu)特性關(guān)系信息。參看例如于1擬4年8月 26日所公開的Markush Ε. A的美國專利案第1,506,316號。取決于給定屬中的接合點數(shù)目,此方法通常產(chǎn)生起始點的多樣性,每一個起始點均具有各自獨立的分子架構(gòu)。然后依據(jù)專利權(quán)利要求語言通過連續(xù)地將片段接合于特定分子拓撲,由這些起始點的任一個能夠產(chǎn)生各自獨立的種屬(單種化合物)。此方法在各個接合點重復進行,直到用盡由專利權(quán)利要求語言所定義的所有條件(參看例如John Μ· Barnard、Geoff Μ. Downs>Annette von Scholley-Pfab 禾口 Robert D. Brown, Journal of Molecular Graphics and Modeling, Volume 18,Issues 4-5,2000,第 452-463 頁)。此評估頻繁要求對用于敘述具有相似物理化學特性的化學結(jié)構(gòu)片段集庫的開放式且不明確術(shù)語進行解讀。例如上位術(shù)語“烷基”描述了在鏈長和碳原子排列上具有變化的無限數(shù)目個碳原子(每個碳原子潛在承載取代基的四個不同組合)之間的無限數(shù)目種排列。同樣地,上位術(shù)語“雜芳基”編碼了其中每一個環(huán)系統(tǒng)包含一個或多個雜原子的近乎無限數(shù)目個芳香族碳基環(huán)系統(tǒng)。(參看例如Burton A. Leland等人,J. Chem. Inf. Comput. Sci. ;Volume 3,Issue,1997,第 62-70 頁)。除了解讀這些化學拓撲描述符的含義的復雜度之外,專利中權(quán)利要求文字經(jīng)常通過以非標準化方式定義這些術(shù)語的各自獨立的子集合來限制這些不明確術(shù)語的范疇。這些子集合的定義再度可能不僅受到發(fā)明人針對識別特定結(jié)構(gòu)特性關(guān)系的動機的影響,并且還受到專利法所強加的要求的影響。此外,為了用于制造由一般化學結(jié)構(gòu)表示方式所編碼的各種實施例提供有效的實驗細節(jié),發(fā)明人在專利權(quán)利要求中為通常反映較廣義馬庫什結(jié)構(gòu)權(quán)利要求的結(jié)構(gòu)多樣性的有限數(shù)目個特定結(jié)構(gòu)實例提供化學結(jié)構(gòu)信息。由于在比較由不同馬庫什結(jié)構(gòu)權(quán)利要求所定義的化學物質(zhì)中所牽涉的復雜度,所以這些比較時常牽涉特定結(jié)構(gòu)實例的檢視以供取得馬庫什結(jié)構(gòu)權(quán)利要求的可能解讀的線索。然而因為一般化學結(jié)構(gòu)描述經(jīng)常編碼大量的不同結(jié)構(gòu)片段組合、并且以可能甚至模糊其編碼內(nèi)容的結(jié)構(gòu)差異的形式構(gòu)成,所以化學專利中具體要求的各個和每個化學結(jié)構(gòu)的檢視,以及用于理解由相應馬庫什結(jié)構(gòu)所編碼的結(jié)構(gòu)特性關(guān)系的信息的應用,是非常耗時且容易出錯。因此,與物質(zhì)專利申請案的化學組成相關(guān)的先有技術(shù)分析是分析化學專利信息中最耗費資源的活動之一。此外,由于心智列舉的產(chǎn)生造成累人、耗時且易錯的過程,眾所周知的是在審查物質(zhì)專利的化學組成期間產(chǎn)生錯誤不僅影響所主張的知識產(chǎn)權(quán)還影響提取的結(jié)構(gòu)功能信息的品質(zhì)和價值。為了針對該分析化學專利信息中的瓶頸,先前提到的'464專利申請公開案揭示了一種用于確定一般化學結(jié)構(gòu)描述的內(nèi)容的方法。參考圖1的一般流程圖,識別出與查詢相關(guān)的專利文件。在這些文件中所敘述的化學結(jié)構(gòu)是使用以下事項表征并進行對比的(1)用于在諸如例如Derwent、匪S和Marpat數(shù)據(jù)庫的商用專利數(shù)據(jù)庫中所儲存的馬庫什結(jié)構(gòu)(MKST)的取代基定義中辨別開放式且不明確術(shù)語的方法;(2)用于以專利權(quán)利要求的范疇內(nèi)有限且明確定義結(jié)構(gòu)片段替代在MKST定義中開放式且不明確變量的方法及策略;(3)用于辨別商用專利數(shù)據(jù)庫中所儲存MKST的取代基定義中的接合點的價變化或結(jié)構(gòu)片段的價變化的方法;(4)用于以專利權(quán)利要求的一般范疇內(nèi)的化學結(jié)構(gòu)片段集庫替代這些可變接合點的方法;(5)用于列舉MKST的方法;(6)用于將經(jīng)列舉的結(jié)構(gòu)實例轉(zhuǎn)換成表征經(jīng)列舉化合物的確切化學結(jié)構(gòu)的分子指紋的方法;(7)用于計算經(jīng)列舉化合物的化學結(jié)構(gòu)指紋相似性的方法;以及(8)用于將化學結(jié)構(gòu)指紋相似性與所關(guān)注的發(fā)明和先有技術(shù)參考專利文獻相關(guān)聯(lián)的方法。關(guān)于這些方法的每一種的進一步細節(jié),參看美國專利申請公開案第2009/013M64 號,其公開內(nèi)容以引用方式納入本文中的。因此,使用諸如由末端使用者所提供的專利號數(shù)的先有技術(shù)搜尋結(jié)果,先前所公開的方法是從Questel、Derwent和/或Marpat數(shù)據(jù)庫找回相應的馬庫什信息,并且使用隨機列舉策略以供產(chǎn)生結(jié)構(gòu)實例來表示所輸入的專利列表的MKST權(quán)利要求中所特定的結(jié)構(gòu)多樣性。此列舉方法的輸出結(jié)果是以SDF格式的化學結(jié)構(gòu)檔案,其能使用諸如 Spotf ire 或窗口兼容平臺MPX的標準統(tǒng)計軟件及可視化軟件包進行分析。盡管先前所公開的方法方便一般化學結(jié)構(gòu)描述的內(nèi)容比較,然而所使用的隨機列舉方法在許多情況中產(chǎn)生極大的數(shù)據(jù)集合。此外,非常大量的經(jīng)隨機列舉的分子所展示的分子特性與由發(fā)明人在專利中所提供特定實例所展示的分子特性非常不相似。由于針對展示特性與由特定主張的化合物所展示特性最相似的分子解讀的與專利信息相關(guān)的結(jié)構(gòu)功能和先有技術(shù)關(guān)系是最準確的,所以希望將物質(zhì)專利的組成中所述的結(jié)構(gòu)功能信息分析局限到相比特定主張的(例示性)化合物展示高度的分子特性或結(jié)構(gòu)相似性的分子集庫。因此,本發(fā)明的一個方面是用于產(chǎn)生展示與例示性化合物具有特定程度的結(jié)構(gòu)相似性的化學結(jié)構(gòu)集庫的機器實施方法。更具體的是,本發(fā)明包括下述步驟(1)從專利數(shù)據(jù)庫提取發(fā)明人所提供的與專利相關(guān)的特定實例;(2)對特定實例計算分子結(jié)構(gòu)指紋,例如依據(jù)'464號公開申請案的運算法則;(3)從專利數(shù)據(jù)庫提取馬庫什結(jié)構(gòu)拓撲信息;(4)通過計算機技術(shù)使用提取自專利數(shù)據(jù)庫的馬庫什結(jié)構(gòu)拓撲信息來列舉虛擬鏈接庫,例如依據(jù)'464號公開申請案的程序;(5)通過將指紋與由隨機列舉的化合物集合計算的分子指紋進行對比以識別例示性化合物的分子結(jié)構(gòu)指紋相似性;以及(6)然后選出經(jīng)隨機列舉的化學結(jié)構(gòu)的子集合,其展示在針對由例示性化合物計算的指紋使用者所預定的相似性范圍內(nèi)的相似性范圍。預期與特定主張的化合物相比展示結(jié)構(gòu)相似性高于特定臨界值(諸如80% )的經(jīng)列舉的化合物集庫具有落入專利權(quán)利要求的邊界內(nèi)的最高機率。據(jù)此,通過確定指紋的相似性程度而使得下述變?yōu)榭尚型ㄟ^確定展示與相關(guān)專利權(quán)利要求中例示性結(jié)構(gòu)具有特定程度的結(jié)構(gòu)相似性的經(jīng)列舉化學結(jié)構(gòu)的數(shù)目來核查專利數(shù)據(jù)庫中的馬庫什結(jié)構(gòu)拓撲信息的品質(zhì)及馬庫什結(jié)構(gòu)列舉方法的品質(zhì)。例如,假如展示與特定主張的化合物相比小于80% 的結(jié)構(gòu)相似性的經(jīng)列舉化合物的數(shù)目低于某臨界值,例如當小于0. 的經(jīng)列舉分子展示與對比標準小于80%的相似性時,則相應馬庫什結(jié)構(gòu)或相關(guān)列舉結(jié)果的檢查可能是適當?shù)?。此外,展示與特定主張的化合物的高度化學結(jié)構(gòu)相似性的化合物集庫具有用于精確分析物質(zhì)專利權(quán)利要求的化學組成中由馬庫什結(jié)構(gòu)所編碼的化合物的結(jié)構(gòu)特性關(guān)系的功效。 據(jù)此,與特定例示性化合物相比而具有“高”分子特性相似性的經(jīng)列舉的化合物集庫具有用于識別及選出上位分子主干(scaffold)的功效,上位分子主干在列舉上是能夠產(chǎn)生落入某些分子特性邊界的分子。圖2中所描述的是一種用于選出結(jié)構(gòu)上相似于給定化合物集合的化學結(jié)構(gòu)集庫的系統(tǒng)。對于該系統(tǒng)的輸入包括兩個指紋集合。這些指紋典型上是基于化學結(jié)構(gòu)片段的。 例如,它們可能是“Isis”結(jié)構(gòu)鍵、“kitegic”結(jié)構(gòu)鍵、或任何公開的“原子對”或化學結(jié)構(gòu)或分子特性指紋。一個指紋集合構(gòu)成對比標準且對應所關(guān)注的示范性化合物,例如給定專利中所揭示的特定實例。第二指紋集合是從化學結(jié)構(gòu)集庫中產(chǎn)生的那些,例如,通過在諸如 Derwent或Marpat數(shù)據(jù)庫的數(shù)據(jù)庫中馬庫什結(jié)構(gòu)拓撲描述符衍生的,或它們的衍生物,依照'464號公開申請案的計算機執(zhí)行的程序。確定對比標準的指紋與集庫中成員的指紋之間的相似性。此確定著手于選出適當?shù)南嗨菩詼y量,諸如例如“余弦相關(guān)性、Euclidean距離”、Tanimoto系數(shù)、或任何其它相似性數(shù)值。該對比標準的化學結(jié)構(gòu)指紋的每個元素與參考取樣的化學結(jié)構(gòu)指紋中的每個元素進行對比。這些對比使用適當相似性測量并且通過考量所有指紋元素之間的距離以計算“平均”距離來確定各個指紋元素之間的距離。能用于這些計算的運算法則是取決于所選出相似性測量而變化的。已知數(shù)據(jù)分析及可視化程序能被用來計算指紋之間的相似程度。能用來計算這些數(shù)值的商購可得的程序的一個實例是由Tibco Software公司所發(fā)布的Spotf ire 。因此,本發(fā)明程序是能被實施在經(jīng)程序設計以執(zhí)行這樣的數(shù)據(jù)分析和可視化程序的計算機上。同樣的,用于表達指紋相似性的測量的標度取決于所選出的相似性測量。例如,在這些計算中使用相似性測量“余弦相關(guān)性”,輸出數(shù)值的范圍將在O與1之間。數(shù)值1識別在兩個取樣的指紋之間的最高相似性數(shù)值。在此案例中,兩個取樣是相同且相似性是100%。 相似性測量數(shù)值O將被用來表達最小相似性。針對指紋比較使用“余弦相關(guān)性”來說,一個典型觀察為共享遠大于0.8 (80%的指紋相似性)的相似性數(shù)值的化學品能被識別成具有相似的化學架構(gòu),而具有少于0. 5的相似性數(shù)值的化學品能被指定成具有不相似的化學架構(gòu)。一旦已對化合物集合確定了相似性結(jié)果,因此該結(jié)果能與該計算機內(nèi)的預定臨界數(shù)值 (例如0. 8)進行對比。具有相等于或超過該數(shù)值的高百分比的相似性結(jié)果的集庫,例如大于99%的結(jié)果符合該臨界數(shù)值,可以被標示成結(jié)構(gòu)上相似于對比標準,所述對比標準例如在給定專利中的主張的特定化合物或者具有希望用途、功效或特性的化合物。該集庫可以分開地儲存于內(nèi)存中作為具有注釋了特性的化合物鏈接庫。據(jù)此,使用適當?shù)闹讣y相似性測量允許對化學品在取樣集庫中的分子特性或化學結(jié)構(gòu)關(guān)系進行評估。例如,含有共享遠大于0.8(如由“余弦相關(guān)性”所確定)的相似性數(shù)值的結(jié)構(gòu)的取樣集庫能被指定成含有結(jié)構(gòu)上相關(guān)的分子。通常亦觀察到結(jié)構(gòu)上相關(guān)的分子具有相似物理化學及生物特性。據(jù)此,化學結(jié)構(gòu)之間的指紋相似性對化合物集庫之間的特性相似性提供評估。當然,不同臨界數(shù)值例如0. 75或0. 85取決于待用化合物的應用和 /或所希望的特性相似性而可能進行挑選。據(jù)此,化學結(jié)構(gòu)指紋相似性測量能被用于評估先有技術(shù)在物質(zhì)專利的化學組成中的相關(guān)性。例如假如化合物集庫(X)中的化學品與對比參考專利中所主張化合物的指紋共享遠大于0.8(如由“余弦相關(guān)性”所確定)的指紋相似性數(shù)值,則化合物集庫(X)包含具有相似的化學架構(gòu)且由此很可能具有相似的物理化學和生物特性的分子。據(jù)此,與參考專利中所主張化合物相關(guān)的特性能被用來預期集庫(X)中的化合物特性。據(jù)此,化合物集庫與先有技術(shù)專利之間的指紋相似性的確定能被用于評估發(fā)明的可專利性。此外,通過使用具有高商業(yè)價值的已知化合物集庫作為對比標準,化合物集庫之間超過遠大于0. 8(如由“余弦相關(guān)性”所確定)的數(shù)值的指紋相似性能被用于識別新化合物集庫是否具有商業(yè)價值。據(jù)此,所公開的方法對于表像可對比的以一般化學結(jié)構(gòu)描述形式公開的分子特性信息是有用的。將對于本領(lǐng)域技術(shù)人員顯而易見的是此方法能夠表像專利數(shù)據(jù)庫(諸如例如國內(nèi)及國際專利數(shù)據(jù)庫、MMS數(shù)據(jù)庫、Marpat數(shù)據(jù)庫或處于可比較形式的這些數(shù)據(jù)庫中的衍生)中所公開的分子特性信息。還將顯明的是這些對比還可通過使用末端使用者定義的化合物集庫作為對比標準而實行。此方法對于通過能夠利用專利數(shù)據(jù)庫中以一般化學結(jié)構(gòu)描述形式編碼的結(jié)構(gòu)功能信息來增加新分子結(jié)構(gòu)設計的效率是有用的。還提供用于執(zhí)行數(shù)據(jù)庫構(gòu)建的品質(zhì)控制分析,用以確保具有相似特性的化合物被適宜地彼此分組。
權(quán)利要求
1.用于產(chǎn)生展示與例示性化合物具有預定程度的結(jié)構(gòu)相似性的化學結(jié)構(gòu)集庫的方法, 該方法包括(a)提取化學結(jié)構(gòu)的特定實例;(b)針對特定實例來計算分子結(jié)構(gòu)指紋;(c)從數(shù)據(jù)庫提取馬庫什結(jié)構(gòu)拓樸信息;(d)使用從所述數(shù)據(jù)庫提取的馬庫什結(jié)構(gòu)拓樸信息來列舉虛擬鏈接庫;(e)由列舉的化學結(jié)構(gòu)集合計算分子指紋;(f)通過將特定實例的指紋與所列舉的化學結(jié)構(gòu)集合的指紋進行對比來識別例示性化合物的分子結(jié)構(gòu)指紋相似性;以及(g)選出所列舉的化學結(jié)構(gòu)的子集合,其展示在針對由例示性化合物計算的指紋使用者所預定的相似性范圍內(nèi)的相似性范圍。
2.如權(quán)利要求1所述方法的用途,其用于建構(gòu)化合物的鏈接庫。
3.如權(quán)利要求2所述方法的用途,其用于實行結(jié)構(gòu)/分子特性關(guān)系的分析。
4.如權(quán)利要求1所述方法的用途,其用于實行專利數(shù)據(jù)庫建構(gòu)的品質(zhì)控制分析。
5.如權(quán)利要求1所述方法的用途,其用于確定物質(zhì)專利的先有技術(shù)組成對于新發(fā)明而言的相關(guān)性。
全文摘要
一種機器實施方法,其產(chǎn)生展示與例示性化合物具有特定程度的結(jié)構(gòu)相似性的化學結(jié)構(gòu)集庫。從專利提取特定實例。分子結(jié)構(gòu)指紋是針對特定實例進行計算的。從專利數(shù)據(jù)庫取得馬庫什結(jié)構(gòu)拓樸信息。使用從該專利數(shù)據(jù)庫所提取的馬庫什結(jié)構(gòu)拓樸信息來列舉虛擬鏈接庫。例示性化合物的分子結(jié)構(gòu)指紋相似性是通過將指紋與由隨機列舉的化合物集合計算的分子指紋進行對比予以識別的。然后選出經(jīng)隨機列舉的化學結(jié)構(gòu)的子集合,其展示在針對由例示性化合物計算的指紋使用者所預定的相似性范圍內(nèi)的相似性范圍。
文檔編號C40B50/02GK102282560SQ200980154516
公開日2011年12月14日 申請日期2009年12月7日 優(yōu)先權(quán)日2008年12月5日
發(fā)明者A·弗利里, E·穆瓦桑, M·諾爾特 申請人:狄克雷佩特公司