專利名稱:知識發(fā)現(xiàn)的方法和系統(tǒng)的制作方法
知識發(fā)現(xiàn)的方法和系統(tǒng)本申請要求于2009年5月14日提交的美國臨時專利申請?zhí)?1/178482的權(quán)益和優(yōu)先權(quán),在此通過引用并將其作為在此的一部分而全部并入。
發(fā)明內(nèi)容
在一方面,提供了用于分析文本的自然語言處理(NLP)工作流引擎的系統(tǒng)、方法和計算機程序產(chǎn)品。該引擎可以將一個或多個獨立的NLP組件(例如斷詞(tokenization)、 詞性標(biāo)記、命名實體識別)組合成有意義的處理工作流。另外的優(yōu)點將在隨后的描述中部分地闡述,或者也可以通過實踐學(xué)習(xí)。將通過在所附權(quán)利要求中特別指出的要素和組合實現(xiàn)并獲得這些優(yōu)點。要理解,之前的一般描述和接下來的詳細(xì)描述兩者僅僅是示例的和說明性的,并且不意圖限制,如所聲稱的。
被并入本說明書中并作為本說明書的一部分的附圖例示了各實施例并與描述一起用于說明方法和系統(tǒng)的原理圖1是示例的模塊化自然語言處理(NLP)引擎工作流;圖2是實現(xiàn)斷詞、句界限、縮寫展開、標(biāo)準(zhǔn)化、概念提取組件的示例的NLP工作流;圖3是用于創(chuàng)建概念指紋(fingerprint)的示例NLP工作流;圖4是用于創(chuàng)建名詞短語指紋的示例NLP工作流;圖5是用于創(chuàng)建命名實體指紋的示例NLP工作流;圖6是用于創(chuàng)建概念關(guān)聯(lián)性指紋的示例NLP工作流;圖7是用于創(chuàng)建合格的概念關(guān)聯(lián)性指紋的示例NLP工作流;圖8是用于創(chuàng)建名詞短語和概念指紋的示例NLP工作流;圖9是智慧射擊者游戲的屏幕快照(shot);圖10是智慧射擊者游戲的另一屏幕快照;圖11是智慧射擊者游戲的另一屏幕快照;圖12是示例的聯(lián)合搜索結(jié)果的屏幕快照;以及圖13是示例操作環(huán)境。
具體實施例方式在公開和描述本方法和系統(tǒng)之前,要理解,這些方法和系統(tǒng)不限于具體綜合方法、 具體組件或者具體構(gòu)成。還要理解,在此使用的術(shù)語僅僅是為了描述特定實施例的目的,并且不意圖是限制性的。如在本說明書和所附權(quán)利要求書中所使用的,單數(shù)形式“一個”和“該”包括多個指代物,除非上下文明確另外指示。在此可以將范圍表達為從“大約” 一個具體值和/或到 “大約”另一具體值。當(dāng)表達這樣的范圍時,另一實施例包括從一個具體值和/或到另一具體值。類似地,當(dāng)值被表達為近似值時,通過使用先行詞(antecedent) “大約”,將理解該具體值形成另一實施例。將進一步理解,每個范圍的端點在與另一端點的關(guān)系以及與另一端點的獨立性兩方面是重要的。“可選的”或“可選地”意味隨后描述的事件或情況可以發(fā)生或者可以不發(fā)生,并且該描述包括其中所述事件或情況發(fā)生的實例和其中所述事件或情況不發(fā)生的實例。在此說明書的描述和權(quán)利要求書通篇,詞語“包括”以及該詞語的變型、比如“包括 (動名詞)”和“包括(單數(shù))”意味著“包括但不限于”,而不意圖排除例如其他添加、組件、
整數(shù)或步驟?!笆纠摹币馕丁?.....的例子”而不意圖傳達優(yōu)選或理想實施例的指示?!爸T
如”在此并不是以限制性意思使用而是用于說明的目的。公開了可以用于進行所公開的方法和系統(tǒng)的組件。這些和其他組件在此被公開, 并且要理解,當(dāng)公開這些組件的組合、子集、交互、組等時,盡管可能沒有明確公開對這些的每個各種單獨和集合的組合和變換的具體參考,但是在此具體預(yù)期到和描述每一個用于所有方法和系統(tǒng)。這適用于本申請的所有方面,包括但不限于所公開的方法中的步驟。因此, 如果存在可以進行的各種另外的步驟,則要理解,這些另外的步驟的每個可以與是公開的方法的任意具體實施例或者實施例的組合一起進行。通過參考對優(yōu)選實施例及其中包括的例子的以下詳細(xì)描述并參考附圖及其之前和以下的描述,可以更容易理解本方法和系統(tǒng)。共同未決的美國專利申請?zhí)?12/294, 589(美國授權(quán)前公開號2010_0049684,公開于2010年2月25日)和美國專利申請?zhí)?2/491,825(美國授權(quán)前公開號2010-0017431,公開于2010年1月21日)在此通過被全部引用而合并于此。在一個方面,確認(rèn)的(validated)概念和確認(rèn)的概念組可以是由人類專家編譯的概念。概念是例如對象、類、屬性和關(guān)聯(lián)性(relation)的表示。所提供的方法和系統(tǒng)可以區(qū)分定義了更一般的措辭和更具體的措辭之間的關(guān)系的關(guān)聯(lián)性(廣義措辭-狹義措辭)(例如,“動物”-“?!?,其中動物是廣義措辭,牛是狹義措辭)。在一個方面,確認(rèn)的概念可以是對一個或幾個詞語的描述。概念、與概念有關(guān)的措辭(優(yōu)選措辭和同義詞)由主題專家定義,并因此與知識領(lǐng)域(例如醫(yī)療、法律等)有關(guān)并被證實。確認(rèn)的概念、確認(rèn)的概念組和知識簡檔可以具有或者可以被給予字母數(shù)字表示,其允許確認(rèn)的概念、確認(rèn)的概念組和知識簡檔迅速被比較和集群(cluster)。對確認(rèn)的概念的字母數(shù)字表示的此選擇可以提供語言獨立性。例如,可以根據(jù)英語文本產(chǎn)生知識簡檔(以下描述),并且可以通過字母數(shù)字表示在法語詞庫(thesaurus)(概念的編譯)中搜索該英語知識簡檔中的確認(rèn)的概念以產(chǎn)生法語知識簡檔。在另一例子中,英語知識簡檔可以用于使用字母數(shù)字表示來搜索法語知識簡檔的集合。在一方面,法語知識簡檔可以以英語表示, 這允許用戶得到對由知識簡檔表示的知識源的內(nèi)容的印象,而不用查閱其原始語言的知識源。這允許獨立于語言的知識發(fā)現(xiàn)。確認(rèn)的概念的編譯可以被稱為詞庫,并表示知識的領(lǐng)域或者知識的片段。詞庫可以具有頂層概念,該頂層概念具有相關(guān)的較下層或底層概念。例如,在醫(yī)學(xué)科學(xué)中,疾病可以具有許多不同的名稱,但是,通過選擇具體疾病的名稱和該疾病的所有不同的已知名稱, 避免了由于不能使用正確的關(guān)鍵詞而遺漏相關(guān)信息的問題。一組各自矛盾的詞語當(dāng)它們一起出現(xiàn)在一段信息中時或者特別是當(dāng)他們出現(xiàn)在彼此附近時,可以表示非常清楚地定義的概念。
詞庫可以由人類專家定義并且可以被加載到系統(tǒng)中。詞庫可以以各種方式定義并且可以包括以下信息級別號(頂級是0,更具體的級別是1,等等);優(yōu)選的措辭(該措辭應(yīng)該用于與用戶通信);同義詞(如果同義詞是已知的,則可以添加它們);以及概念號,其是被分配給該概念的唯一數(shù)字。詞庫中的措辭可以被定義為“默認(rèn)措辭”,其中概念將被標(biāo)準(zhǔn)化并且措辭中詞語的順序可以變化。在另一方面,詞庫中的措辭可以被定義為“非標(biāo)準(zhǔn)化的措辭”。這樣的“非標(biāo)準(zhǔn)化的”措辭將不被標(biāo)準(zhǔn)化。例如,這在名稱是措辭的一部分時是有用的。在另一方面, 詞庫中的措辭可以被定義為“準(zhǔn)確匹配的措辭”。在此方面,必須以與在詞庫中定義的完全相同的順序發(fā)現(xiàn)準(zhǔn)確匹配的措辭中的詞語。例如這在像基因或者化學(xué)結(jié)構(gòu)的符號被定義在詞庫中時是有用的。在一方面,詞庫可以在結(jié)構(gòu)化的數(shù)據(jù)文件中表示。如在此使用的,詞庫也指元詞庫 (meta-thesaurus)。在辭典(thesauri)中,概念根據(jù)具有分級在其以下的更具體的概念的覆蓋的或一般的概念的分層系統(tǒng)而被分類。這得到分支到更具體的種類概念的更高的覆蓋的屬(genus)概念的類似樹結(jié)構(gòu)。在一方面,結(jié)構(gòu)化的數(shù)據(jù)文件可以表示一個或多個知識領(lǐng)域中的詞庫。為了使得能夠迅速處理并改善對確認(rèn)的概念的識別,結(jié)構(gòu)化的數(shù)據(jù)文件中的詞語可以是標(biāo)準(zhǔn)化的詞語。在此方面,產(chǎn)生的知識簡檔內(nèi)的信息可以被轉(zhuǎn)換成標(biāo)準(zhǔn)化的詞語的列表,在這之后,在結(jié)構(gòu)化的數(shù)據(jù)文件中查找這些標(biāo)準(zhǔn)化的詞語。在一方面,提供了自然語言處理(NLP)工作流引擎來分析文本。該引擎可以將一個或多個獨立的NLP組件(例如斷詞、詞性標(biāo)記、命名實體識別)組合成有意義的處理工作流。例如,概念提取可以是該引擎的一個工作流實例,并且名詞短語產(chǎn)生或者實體識別可以是該引擎的其他實例。圖1例示了示例的引擎工作流。組件C1-C5每個表示NLP處理中的具體任務(wù)。圖2例示了實現(xiàn)斷詞、句界限、縮寫展開、標(biāo)準(zhǔn)化、概念提取組件的工作流。可以被分析的文本數(shù)據(jù)庫的例子包括但不限于PubmecK生物醫(yī)學(xué)出版物)、科學(xué)工程的信息的計算機檢索(“CRISP”-搜索準(zhǔn)予)、專利數(shù)據(jù)庫、法律案件和條例數(shù)據(jù)庫、諸如相關(guān)新聞、 科學(xué)等的任何出版物數(shù)據(jù)庫。引擎的靈活性允許知識指紋(knowledge)的創(chuàng)建。知識指紋可以表示具體文檔中的同一文本的許多不同的看法(view)。例如,看法可以包括概念提取、名詞短語指紋、命名實體指紋、概念關(guān)聯(lián)性指紋(“Cl”傳輸“C2”)、量化的名詞短語指紋等中的一個或多個。處理組件可以基于引擎的工作流管理而使用。例如,可以使用詞庫組件??梢允褂脭嘣~組件。斷詞是基本NLP處理。斷詞組件可以將文本切割為語言的最基本的部分詞、標(biāo)點、省略號、括號等。其是可以在對如像語形學(xué)、語法或語義分析的其他高級分析的準(zhǔn)備中使用的組件。可以使用句界限檢測組件。在一方面,在應(yīng)用可以標(biāo)識標(biāo)點的斷詞組件之后,可以應(yīng)用句界限檢測組件來檢測語言的下一級有意義的部分即句子。句界限檢測組件中的低準(zhǔn)確度可以消極地影響其他高級分析。例如,在以下句子中的句點的位置處劃分文本可能具有消極影響“在2008年7月1日到2008年12月31日之間公司可以將營業(yè)額增加 36. 12%,得到8.2百萬$的總收益”。代替8. 2百萬,將僅僅是2百萬$,以及不是36. 12% 而是12%,這將非常不同。
可以使用縮寫擴展組件。尤其是在生命科學(xué)世界,但同樣在許多其他領(lǐng)域中,縮寫是很常見的現(xiàn)象。Pubmed每年增長近似100,000個縮寫和首字母縮拼(由各詞的第一個字母組成)。該組件可以自動檢測文本中的長短形式的組合,并且還可以利用持續(xù)增長的縮寫字典??梢允褂脴?biāo)準(zhǔn)化組件。標(biāo)準(zhǔn)化主要覆蓋例如詞向其標(biāo)準(zhǔn)型(women/woman、 children/child, walking/walk)的滋生的語形學(xué)任務(wù)。詞性標(biāo)記可以使用詞性(POS)標(biāo)記組件。詞的POS表示其在文本中的語法功能。POS標(biāo)記組件可以標(biāo)識每個詞的不同“角色”,比如名詞、動詞或形容詞。在一方面,可以使用隱藏馬爾可夫模型的實現(xiàn)。此方面可以使用訓(xùn)練集來“學(xué)習(xí)”用于調(diào)整詞的角色的樣式。可以使用名詞短語提取組件。此組件可以利用POS標(biāo)記的結(jié)果并且可以將單個詞或者各組詞標(biāo)識為有意義的短語。采樣樣式可以是“形容詞/名詞/名詞”,例如“特別法庭決定”。名詞短語可以在缺少適當(dāng)詞庫的領(lǐng)域中起著重要角色。通過將這些提取與統(tǒng)計分析組合而應(yīng)用于固態(tài)文檔主體,將有助于半自動詞庫產(chǎn)生或者詞庫擴展??梢允褂酶拍钐崛〗M件。在一方面,此組件可以表示詞庫組件的主要任務(wù)?;诨驹~庫或者受控的詞匯表,概念提取組件可以從給定文本中提取出詞庫概念或者詞匯表項。可以使用命名實體識別組件。此組件可以提取如像人名和機構(gòu)名稱、城市、國家、 美元量、案件號、日期、電話號碼、電子郵件地址等的標(biāo)準(zhǔn)命名實體。也可以提取如像蛋白質(zhì)名稱或者基因名稱的更高的規(guī)律??梢允褂藐P(guān)聯(lián)性提取組件?;谟擅麑嶓w識別組件和概念提取組件提供的信息,關(guān)聯(lián)性提取組件可以處理(address)兩個或更多實體或概念之間的關(guān)聯(lián)性。與指示出現(xiàn)在相同文本中的兩個概念/實體之間的松散關(guān)聯(lián)性的“單純的”同時出現(xiàn)相反,關(guān)聯(lián)性提取組件可以檢測限制的關(guān)聯(lián)性,如像“A是B的變型”或者“A導(dǎo)致B”。關(guān)聯(lián)性提取組件可以用于前提提取和產(chǎn)生??梢允褂昧吭~(quantifier)檢測組件。在許多情況下,未明確表達含義。像“肝炎X不是肝臟的疾病”的否定僅僅是量化(quantification)的一個實例。作者可以以混合的表達“在許多情況下藥物B對疾病A具有積極效果”來量化其意見,量詞檢測組件可以檢測并使用此量化信息來提取含義??梢允褂檬渍Z重復(fù)法方案組件。如像量化那樣,不使用明確的名詞,但是指的是該名詞“盤尼西林是藥物。其幫助頭痛的人們。”詞語“其”表示“盤尼西林”,但是“盤尼西林”和“頭痛”之間的關(guān)聯(lián)性可以由首語重復(fù)法方案組件來檢測。在一方面,可以基于所選工作流產(chǎn)生一個或多個不同的知識指紋。圖3-7例示可以產(chǎn)生得自文本的不同類型的知識指紋的各種工作流。圖3例示了通過斷詞組件、句界限組件、縮寫展開組件、標(biāo)準(zhǔn)化組件處理文本,得到了概念指紋。圖4例示了通過斷詞組件、標(biāo)準(zhǔn)化組件、縮寫展開組件、詞性組件和名詞短語提取組件處理文本,得到了名詞短語指紋。 圖5例示了通過斷詞組件、詞性組件、縮寫展開組件、名詞短語提取組件和命名實體識別組件處理文本,得到了命名實體指紋。圖6例示了通過斷詞組件、詞性組件、縮寫展開組件、名詞短語提取組件、概念提取組件和關(guān)聯(lián)性提取組件處理文本,得到了命名實體指紋。圖7例示了通過斷詞組件、詞性組件、量詞檢測組件、名詞短語提取組件、概念提取組件和關(guān)聯(lián)性提取組件處理文本,得到了量化的概念關(guān)聯(lián)性(QCI )指紋??梢詫⒁粋€或多個工具與在此提供的工作流一起使用。例如,在大文本主體和文檔庫的海量處理以及匯集的數(shù)據(jù)的統(tǒng)計分析的區(qū)域中??梢允褂酶拍詈蜻x者發(fā)生器工具。在一方面,此工具可以利用名詞短語提取工作流。此工具可以從具體領(lǐng)域(例如物理學(xué)、建模、破產(chǎn))的文本主體中提取名詞短語的列表, 并將此列表以適當(dāng)?shù)母袷酱鎯τ糜诮y(tǒng)計分析。統(tǒng)計分析的結(jié)果可以是領(lǐng)域?qū)S忻~短語的適當(dāng)列表,其可以用作“第一代”受控的詞匯表,或者用作領(lǐng)域詞庫的開始點。概念候選者發(fā)生器可以用于通過將候選者與現(xiàn)有概念相比較并通過在名詞短語提取期間的并行概念提取來產(chǎn)生候選者列表以擴展現(xiàn)有詞庫。利用所公開的方法和系統(tǒng)的靈活性,可以通過向如圖8所示的名詞短語工作流添加概念提取組件來實現(xiàn)此并行概念提取??梢允褂酶拍铌P(guān)聯(lián)性發(fā)生器。此工具可以基于更大領(lǐng)域?qū)S形谋局黧w來分析概念之間的關(guān)聯(lián)性。人們表達在其出版物、法律案件、書籍等中的關(guān)聯(lián)性,使得理論上極大的信息主體包含領(lǐng)域本體論(ontology)的所有信息。杠桿影響此信息是概念關(guān)聯(lián)性發(fā)生器的主要功能性。統(tǒng)計分析可以應(yīng)用于此結(jié)果。在一方面,提供了從在此所述的工作流得到的數(shù)據(jù)的各種應(yīng)用。在一方面,提供了關(guān)聯(lián)游戲,在此稱為“智慧射擊者”。智慧射擊者可以處理研究者對玩游戲的吸引力、創(chuàng)造性及其用于關(guān)聯(lián)事物的持續(xù)推動力。該游戲具有高度智力要求,并且可以關(guān)注于研究者所生活的科學(xué)世界,將其作為他/她自己的專門知識,如像“骨瘤”,或者將其作為另一專家智慧,如像教授或者會議上的演講者。如前所述,可以對所有Pubmed記錄,對于每個標(biāo)題以及摘要的每個句子產(chǎn)生 Pubmed指紋集。在句子或甚至標(biāo)題中一起提到的概念可以被認(rèn)為具有高度關(guān)系并且可以被看作是某人在文章中所做出的關(guān)聯(lián)。此數(shù)據(jù)可以用于產(chǎn)生許多對概念,例如疾病-藥物或者藥物-藥物和/或疾病-疾病??梢允紫纫笸婕彝ㄟ^選擇概念例如“骨瘤”或者通過選擇專家例如教授 Karl-Heinz Kuck來定義科學(xué)領(lǐng)域。另外,玩家可以選擇從“容易”到“困難”的難度級另Ij。 系統(tǒng)可以產(chǎn)生概念對列表。另外,系統(tǒng)可以產(chǎn)生以前在Pubmed中從未關(guān)聯(lián)過的、但是與用戶的選擇有關(guān)的對的第二列表??梢砸笥脩魳?biāo)識哪些關(guān)聯(lián)是“建立的”,意味著是在至少一個出版物中發(fā)現(xiàn)的,以及那些是系統(tǒng)構(gòu)造的。圖9例示了示例的屏幕快照。圖10例示了其中要求用戶預(yù)測在哪個時間點做出了關(guān)聯(lián)的變型。圖11例示了其中基于其教授的知識向?qū)W生問問題的屏幕快照。在已經(jīng)標(biāo)識了正確答案后,可以為用戶提供關(guān)于關(guān)聯(lián)的背景信息。例如,引用信息、相關(guān)專家等。在一方面,可以在移動設(shè)備上使用該游戲。概念信息、關(guān)聯(lián)性、連接和許多其他數(shù)據(jù)的可視化在用戶經(jīng)驗中起著作用。利用生物醫(yī)學(xué)專家的網(wǎng)絡(luò)查看器以及Geo查看器的經(jīng)驗已示出在市場中可以產(chǎn)生多少關(guān)注。可視化例子包括但不限于趨勢可視化、社交網(wǎng)絡(luò)、詞庫和本體論可視化、世界地圖、國家地圖和網(wǎng)絡(luò)集群。在另一方面,各方法和系統(tǒng)可以實現(xiàn)聯(lián)合搜索。用戶可以鍵入搜索查詢并且聯(lián)合搜索引擎可以在后臺訪問一系列其他搜索引擎或數(shù)據(jù)庫并返回包括摘要或第一段的限定數(shù)量的在前結(jié)果。概念提取器可以使用遞交的文本來提取詞庫概念。然后可以用標(biāo)識的概念來充實搜索的結(jié)果頁,并且將結(jié)果頁組織在詞庫結(jié)構(gòu)中。示例的屏幕快照示出在圖12 中。在另一方面,各方法和系統(tǒng)可以實現(xiàn)評論者查找器應(yīng)用。利用專家數(shù)據(jù)和geo分析數(shù)據(jù)的大網(wǎng)絡(luò),評論者查找器允許使用基于概念指紋的相似性搜索標(biāo)識專家。例如,各方法和系統(tǒng)可以為準(zhǔn)予的提案產(chǎn)生概念指紋,并且使用該概念指紋進行搜索以尋找具有類似專門知識的評論者。還能夠標(biāo)識不同種類的感興趣的沖突。如果潛在評論者是申請者的直接或間接合著者,或者如果他們在相同位置活動,則可以檢測沖突。該模型也適用于出版物對等評論處理。在另一方面,各方法和系統(tǒng)可以實現(xiàn)意見領(lǐng)袖查找器應(yīng)用。意見領(lǐng)袖查找器應(yīng)用可以基于某個概念指紋標(biāo)識具體領(lǐng)域中的關(guān)鍵研究者。可以通過時間線分析來擴展此功能性以標(biāo)識“早期領(lǐng)袖”或者“早期發(fā)明人”。圖13是例示用于進行公開的方法的示例操作環(huán)境的框圖。此示例操作環(huán)境僅僅是操作環(huán)境的例子,并且不意圖對操作環(huán)境架構(gòu)的使用范圍或功能性提出任何限制。也不應(yīng)將該操作環(huán)境解釋為具有任何與在該示例操作環(huán)境中所述的任意組件或其組合的依賴性或與其有關(guān)的要求。本方法和系統(tǒng)可以利用許多其他通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置來操作。可以適合于與各系統(tǒng)和方法一起使用的公知的計算系統(tǒng)、環(huán)境和/或配置的例子包括但不限于個人計算機、服務(wù)器計算機、膝上型設(shè)備和微處理器系統(tǒng)。例外的例子包括機頂盒、可編程消費者電子產(chǎn)品、網(wǎng)絡(luò)PC、迷你計算機、主機計算機、包括任意的以上系統(tǒng)或設(shè)備的分布式計算環(huán)境等。所公開的方法和系統(tǒng)的處理可以由軟件組件進行。所公開的系統(tǒng)和方法可以在由一個或多個計算機或其他設(shè)備執(zhí)行的諸如程序模塊的計算機可執(zhí)行指令的一般背景下描述。通常,程序模塊包括進行特定任務(wù)或者實現(xiàn)特定抽象數(shù)據(jù)類型的計算機代碼、例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等。所公開的方法還可以在其中任務(wù)由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備進行的基于柵格的分布式計算環(huán)境中實踐。在分布式計算環(huán)境中,程序模塊可以位于包括存儲器存儲器件的本地和遠(yuǎn)程計算機存儲介質(zhì)中。此外,本領(lǐng)域技術(shù)人員將認(rèn)識到,在此公開的系統(tǒng)和方法可以經(jīng)由計算機1301形式的通用計算設(shè)備實現(xiàn)。計算機1301的組件可以包括但不限于一個或多個處理器或處理單元1303、系統(tǒng)存儲器112和將包括處理器1303的各種系統(tǒng)組件耦合到系統(tǒng)存儲器112的系統(tǒng)總線113。在多個處理單元1303的情況下,該系統(tǒng)可以利用并行計算。系統(tǒng)總線113表示幾種可能類型的總線結(jié)構(gòu)中的一個或多個,包括使用各種總線架構(gòu)中的任意一種的存儲器總線或者存儲器控制器、外圍總線、加速圖形端口和處理器或本地總線。作為例子,這樣的架構(gòu)可以包括工業(yè)標(biāo)準(zhǔn)架構(gòu)(ISA)總線、微信道架構(gòu)(MCA)總線、增強ISA(EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(VESA)本地總線、加速圖形端口(AGP)總線和外圍組件互連(PCI)、PCI-快速總線、個人計算機存儲卡工業(yè)協(xié)會(PCMCIA)、通用串行總線(USB)等??偩€113和在此說明書中指出的所有總線也可以在有線或無線網(wǎng)絡(luò)連接上實現(xiàn),并且包括處理器1303、海量存儲器件1304、操作系統(tǒng)1305、工作流軟件1306、工作流數(shù)據(jù)1307、網(wǎng)絡(luò)適配器1308、系統(tǒng)存儲器112、輸入/輸出接口 110、顯示器適配器1309、顯示設(shè)備111和人機接口 1302的每個子系統(tǒng)可以通過此形式的總線連接而被包含在一個或多個遠(yuǎn)程計算設(shè)備114a、b、c內(nèi)物理上分離的位置處,有效實現(xiàn)全分布式系統(tǒng)。計算機1301通常包括各種計算機可讀介質(zhì)。示例的可讀介質(zhì)可以是可由計算機 1301訪問的任意可得的介,并例如而非意圖限制地包括易失性和非易失性介質(zhì)、可移除和不可移除介質(zhì)。系統(tǒng)存儲器112包括易失性存儲器形式的計算機可讀介質(zhì)(比如隨機存取存儲器(RAM))和/或非易失性存儲器(比如只讀存儲器(ROM))。系統(tǒng)存儲器112通常包含諸如工作流數(shù)據(jù)1307的數(shù)據(jù)和/或?qū)τ谔幚韱卧?303可立即訪問或者當(dāng)前有處理單元 1303操作的諸如操作系統(tǒng)1305和工作流軟件1306的程序模塊。在另一方面,計算機1301還可以包括其他可移除/不可移除、易失性/非易失性計算機存儲介質(zhì)。通過例子,圖13例示可以提供計算機代碼、計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、 程序模塊和計算機1301的其他數(shù)據(jù)的非易失性存儲的海量存儲器件1304。例如而非意圖限制,海量存儲器件1304可以是硬盤、可移除磁盤、可移除光盤、磁帶或者其他磁存儲器件、閃存卡、CD-ROM、數(shù)字通用盤(DVD)或者其他光存儲器、隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)等??蛇x地,任意數(shù)量的程序模塊可以被存儲在海量存儲器件1304上,通過例子包括操作系統(tǒng)1305和工作流軟件1306。操作系統(tǒng)1305和工作流軟件1306的每個(或其某些組合)可以包括編程的元件和工作流軟件1306。由處理器1303執(zhí)行的工作流軟件1306可以包括工作流引擎。工作流數(shù)據(jù)1307還可以被存儲在海量存儲器件1304上。工作流數(shù)據(jù) 1307可以存儲在本領(lǐng)域已知的一個或多個數(shù)據(jù)庫的任意一個中。這樣的數(shù)據(jù)庫的示例包括 DB2 ,Microsoft Access, Microsoft SQL Server, Oracle , mySQL,PostgreSQL 等。 數(shù)據(jù)庫可以是集中式或分布在多個系統(tǒng)上。在另一方面,用戶可以經(jīng)由輸入設(shè)備(未示出)將命令和信息鍵入計算機中。這樣的輸入設(shè)備的例子包括但不限于鍵盤、指示設(shè)備(例如鼠標(biāo))、麥克風(fēng)、操縱桿、掃描儀、 諸如手套和其他身體覆蓋物的觸感輸入設(shè)備等。這些和其他輸入設(shè)備可以經(jīng)由耦合到系統(tǒng)總線113的人機接口 1302連接到處理單元1303,但是可以通過諸如并行端口、游戲端口、 IEEE1394端口(也已知為火線端口)串行端口或通用串行總線(USB)的其他接口和總線結(jié)構(gòu)連接。在另一方面,顯示設(shè)備111經(jīng)由諸如顯示器適配器1309的接口連接到系統(tǒng)總線 113。預(yù)期計算機1301可以具有多于一個顯示器適配器1309,并且計算機1301可以具有多于一個顯示設(shè)備111。例如,顯示設(shè)備可以是監(jiān)視器、LCD(液晶顯示器)或投影儀。除了顯示設(shè)備111之外,其他輸出外圍設(shè)備可以包括可以經(jīng)由輸入/輸出接口 110連接到計算機1301的諸如揚聲器(未示出)和打印機(未示出)的組件。方法的任意步驟和/或結(jié)果可以以任意形式輸出到輸出設(shè)備。這樣的輸出可以是任意形式的視覺表示,包括但不限于文本、圖形、動畫、音頻、觸感等。計算機1301可以工作在使用到一個或多個遠(yuǎn)程計算設(shè)備lHa、b、c的邏輯連接的聯(lián)網(wǎng)環(huán)境中。通過例子,遠(yuǎn)程計算設(shè)備可以是個人計算機、便攜式計算機、服務(wù)器、路由器、 網(wǎng)絡(luò)計算機、對等設(shè)備或者其他公共網(wǎng)絡(luò)節(jié)點等。計算機1301和計算設(shè)備114a、b、c之間的邏輯連接可以經(jīng)由局域網(wǎng)(LAN)和一般廣域網(wǎng)(WAN)進行。這樣的網(wǎng)絡(luò)連接可以通過網(wǎng)絡(luò)適配器1308。網(wǎng)絡(luò)適配器1308可以實現(xiàn)在有線和無線環(huán)境中。這樣的聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍計算機網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)115中是傳統(tǒng)的和普通的。
為了例示的目的,在此將諸如操作系統(tǒng)1305的應(yīng)用程序和其他可執(zhí)行程序組件例示為離散的塊,盡管其被組織為這樣的程序和組件在各個時間存在于計算設(shè)備1301的不同存儲組件中并由計算機的數(shù)據(jù)處理器執(zhí)行。工作流軟件1306的實現(xiàn)方式可以被存儲在某種形式的計算機可讀介質(zhì)上或者經(jīng)過某形式的計算機可讀介質(zhì)傳輸。任意的所公開的方法可以由體現(xiàn)在計算機可讀介質(zhì)上的計算機可讀指令來進行。計算機可讀介質(zhì)可以是可以由計算機訪問的任意可得到的介質(zhì)。作為例子而非意圖限制,計算機可讀介質(zhì)可以包括 “計算機存儲介質(zhì)”和“通信介質(zhì)”。“計算機存儲介質(zhì)”包括在用于諸如計算機可讀指令、 數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)的信息的存儲的任意方法或技術(shù)中實現(xiàn)的易失性和非易失性、可移除和不可移除介質(zhì)。示例的計算機存儲介質(zhì)包括但不限于RAM、ROM、EEPR0M、閃存或其他存儲器技術(shù)、CD-ROM、數(shù)字通用盤(DVD)或者其他光存儲器、磁盒、磁帶、磁盤存儲器或者其他磁存儲器件、或者可以用于存儲期望的信息并且可以由計算機訪問的任何其他介質(zhì)。各方法和系統(tǒng)可以采用諸如機器學(xué)習(xí)和重復(fù)學(xué)習(xí)的人工智能技術(shù)。這樣的技術(shù)的例子包括但不限于專家系統(tǒng)、基于情況的推理、貝葉斯網(wǎng)路、基于行為的Al、神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)、進化計算(例如遺傳算法)、群智能(例如螞蟻算法)和混合智能系統(tǒng)(例如通過神經(jīng)網(wǎng)絡(luò)產(chǎn)生的專家推論規(guī)則或者來自統(tǒng)計學(xué)習(xí)的生產(chǎn)規(guī)則)。盡管已經(jīng)結(jié)合優(yōu)選實施例和具體例子描述了各方法和系統(tǒng),但是不意圖將范圍限制到所述的具體實施例,因為在此的實施例意圖在所有方面是例示的而非限制性的。除非另外明確表述,絕不意圖將在此所述的任意方法理解為要求其步驟按照具體順序執(zhí)行。因而,在方法權(quán)利要求沒有實際列出其步驟要依照的順序或者沒有在權(quán)利要求或說明書中例外具體陳述各步驟將被限制到具體順序的情況下,絕不意圖在任意方面推斷順序。這對用于解釋的任何可能的非明確基礎(chǔ)都成立,包括關(guān)于步驟或可操作流的布置的邏輯的事件;從文法組織或者標(biāo)點得出的原本意思;在說明書中描述的實施例的數(shù)量或類型。在本申請通篇,參考了各種出版物。通過引用這些出版物其全部的公開將并入此申請中以便更全面地描述各方法和系統(tǒng)所屬于的領(lǐng)域的狀態(tài)。對本領(lǐng)域技術(shù)人員將顯而易見的是,不脫離范圍或精神可以做出各種修改和變更。通過考慮在此公開的說明書和實踐,其他實施例對本領(lǐng)域技術(shù)人員來說將是顯而易見的。意圖將此說明書和例子僅僅當(dāng)作是示例性的,真實范圍和精神由以下權(quán)利要求指示。
權(quán)利要求
1.一種文本分析的方法,包括使用包括工作流引擎的處理器分析文本,其中所述工作流引擎至少包括詞庫組件,所述詞庫組件包括與知識領(lǐng)域有關(guān)的詞的結(jié)構(gòu)化數(shù)據(jù)文件; 使用所述分本分析創(chuàng)建文本的知識指紋。
2.如權(quán)利要求1的方法,其中所述工作流引擎包括一個或多個另外的組件。
3.如權(quán)利要求2的方法,其中所述一個或多個另外的組件可以包括斷詞組件、句界限檢測組件、縮寫展開組件、標(biāo)準(zhǔn)化組件、詞性(P0Q標(biāo)記組件、名詞短語提取組件、概念提取組件、命名實體識別組件、關(guān)聯(lián)性提取組件、量詞檢測組件或者首語重復(fù)法方案組件中的一個或多個。
4.如權(quán)利要求3的方法,其中由所述工作流引擎創(chuàng)建一個或多個不同的知識印記。
5.如權(quán)利要求3的方法,其中由包括所述工作流引擎的每個組件創(chuàng)建不同的知識印記。
6.如權(quán)利要求1的方法,其中所述詞庫組件包括被組織成與知識領(lǐng)域有關(guān)的詞的結(jié)構(gòu)化數(shù)據(jù)文件的、表示知識領(lǐng)域或者知識片段的確認(rèn)的概念的編譯。
7.如權(quán)利要求1的方法,其中所述詞庫組件包括與知識領(lǐng)域有關(guān)的標(biāo)準(zhǔn)化的詞的結(jié)構(gòu)化數(shù)據(jù)文件。
8.一種用于文本分析的系統(tǒng),包括 存儲器;以及處理器,可操作地與所述存儲器連接,其中所述處理器被配置為使用工作流引擎分析文本,其中所述工作流引擎至少包括詞庫組件,所述詞庫組件包括存儲在所述存儲器中的與知識領(lǐng)域有關(guān)的詞的結(jié)構(gòu)化數(shù)據(jù)文件;以及使用所述分本分析創(chuàng)建文本的知識指紋。
9.如權(quán)利要求8的系統(tǒng),其中所述工作流引擎包括一個或多個另外的組件。
10.如權(quán)利要求9的系統(tǒng),其中所述一個或多個另外的組件可以包括斷詞組件、句界限檢測組件、縮寫展開組件、標(biāo)準(zhǔn)化組件、詞性(P0Q標(biāo)記組件、名詞短語提取組件、概念提取組件、命名實體識別組件、關(guān)聯(lián)性提取組件、量詞檢測組件或者首語重復(fù)法方案組件中的一個或多個。
11.如權(quán)利要求10的系統(tǒng),其中由所述工作流引擎創(chuàng)建一個或多個不同的知識印記。
12.如權(quán)利要求10的系統(tǒng),其中由包括所述工作流引擎的每個組件創(chuàng)建不同的知識印記。
13.如權(quán)利要求8的系統(tǒng),其中所述詞庫組件包括被組織成與知識領(lǐng)域有關(guān)的詞的結(jié)構(gòu)化數(shù)據(jù)文件的、表示知識領(lǐng)域或者知識片段的確認(rèn)的概念的編譯。
14.如權(quán)利要求8的系統(tǒng),其中所述詞庫組件包括與知識領(lǐng)域有關(guān)的標(biāo)準(zhǔn)化的詞的結(jié)構(gòu)化數(shù)據(jù)文件。
15.一種計算機程序產(chǎn)品,包括至少一個非暫時計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)具有存儲在其中的用于文本分析的計算機可讀程序代碼部分,所述計算機可讀程序代碼部分包括第一部分,用于使用包括工作流引擎的處理器分析文本,其中所述工作流引擎至少包括詞庫組件,所述詞庫組件包括與知識領(lǐng)域有關(guān)的詞的結(jié)構(gòu)化數(shù)據(jù)文件;和第二部分,使用所述文本分析創(chuàng)建文本的知識指紋。
16.如權(quán)利要求15的計算機程序產(chǎn)品,其中所述工作流引擎包括一個或多個另外的組件。
17.如權(quán)利要求16的計算機程序產(chǎn)品,其中所述一個或多個另外的組件可以包括斷詞組件、句界限檢測組件、縮寫展開組件、標(biāo)準(zhǔn)化組件、詞性(P0Q標(biāo)記組件、名詞短語提取組件、概念提取組件、命名實體識別組件、關(guān)聯(lián)性提取組件、量詞檢測組件或者首語重復(fù)法方案組件中的一個或多個。
18.如權(quán)利要求17的計算機程序產(chǎn)品,其中由所述工作流引擎創(chuàng)建一個或多個不同的知識印記。
19.如權(quán)利要求17的計算機程序產(chǎn)品,其中由包括所述工作流引擎的每個組件創(chuàng)建不同的知識印記。
20.如權(quán)利要求15的計算機程序產(chǎn)品,其中所述詞庫組件包括被組織成與知識領(lǐng)域有關(guān)的詞的結(jié)構(gòu)化數(shù)據(jù)文件的、表示知識領(lǐng)域或者知識片段的確認(rèn)的概念的編譯。
21.如權(quán)利要求15的計算機程序產(chǎn)品,其中所述詞庫組件包括與知識領(lǐng)域有關(guān)的標(biāo)準(zhǔn)化的詞的結(jié)構(gòu)化數(shù)據(jù)文件。
全文摘要
在一方面,提供了用于分析文本的自然語言處理(NLP)工作流引擎。該引擎可以將一個或多個獨立的NLP組件(例如斷詞、詞性標(biāo)記、命名實體識別)組合成有意義的處理工作流。
文檔編號G06N5/00GK102576355SQ201080028049
公開日2012年7月11日 申請日期2010年5月14日 優(yōu)先權(quán)日2009年5月14日
發(fā)明者M.施密特, M.迪沃西 申請人:埃爾斯威爾股份有限公司