專利名稱:從文檔抽取句子的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體地涉及文檔處理和信息抽取,更具體地涉及從文檔抽取句子的方法和
直O(jiān)
背景技術(shù):
已經(jīng)提出了很多從文檔中自動(dòng)提取句子或形成文檔摘要的技術(shù)。在專禾Ij文獻(xiàn) US7051024 B2,題為 Document summarizer for word processors, MICROSOFT CORP中,提出一種自動(dòng)形成文檔摘要的方法,其中,統(tǒng)計(jì)文檔中的內(nèi)容單詞出現(xiàn)的頻次,通過對一個(gè)句子中所包含的各個(gè)內(nèi)容單詞的對應(yīng)頻次進(jìn)行求和來得到句子的評分;根據(jù)句子的評分對各個(gè)句子進(jìn)行排序。此外,預(yù)先定義了一些潛在的問題短語或詞匯, 在該文檔中稱之為提示詞短語(cue-phrase),其含義是包含有這樣的問題短語或詞匯的句子不應(yīng)該被加入到文檔摘要中,或者只有個(gè)某個(gè)先提條件成立的情況下才可以被加入到文檔摘要中;在進(jìn)行內(nèi)容單詞出現(xiàn)的頻率統(tǒng)計(jì)的同時(shí),將每個(gè)句子中的短語與預(yù)先定義的提示詞短語相比較,如果其包含提示詞短語,則決定是否要把該句子排除與文檔摘要之外,還是有條件地將其作為加入文檔摘要的候選。另夕卜,在專利文獻(xiàn) US Patent 5924108—Document summarizer for word processors, MICROSOFT CORP中,根據(jù)句子中是否包含提示詞或提示詞組合來判斷是否是關(guān)鍵句子。此夕卜,在 S Teufel,M Moens 的 Sentence
extraction as a classification task, In Proceedings of the ACL' 97/EACL' 97 Workshop on Intelligent Scalable Text Summarization (July 1997)中,提示詞組用來過濾元評論(meta_discourse),提示詞組被人工分成5類,分別對應(yīng)包含提示詞的句子屬于總結(jié)句的不同可能性。根據(jù)提示詞組,文章中位置,句子長度,詞典中詞出現(xiàn)次數(shù),適當(dāng)名字出現(xiàn),每個(gè)句子根據(jù)每個(gè)特征被打分,于是就得到句子出現(xiàn)在總結(jié)中的可能性。
發(fā)明內(nèi)容
不過,上述傳統(tǒng)方法存在一些問題。舉例來說,在認(rèn)為包含引導(dǎo)詞的句子傾向于為期望的句子的情況下,發(fā)現(xiàn)通常在一篇文檔中,存在很多雖包含引導(dǎo)詞但并非期望的句子 (下文中,稱之為噪音句子)。所以,利用上述傳統(tǒng)方法,常常不能適當(dāng)?shù)卣业狡谕渥印A硗?,發(fā)明人發(fā)現(xiàn),在許多情況下,可能期望從文檔中提取一些具有特殊意義或者起特殊作用的句子。例如,對于專利文件來說,期望自動(dòng)提取出說明發(fā)明要解決的技術(shù)問題的句子。再例如,產(chǎn)品說明書中,期望提取關(guān)于產(chǎn)品優(yōu)點(diǎn)的句子。再比如,對于合同書來說, 期望提取其中的對已方不利的條款等等。根據(jù)本發(fā)明的一個(gè)方面,提供了一種從文擋抽取具有預(yù)定特殊意義的句子的方法,可以包括下述步驟獲得具有預(yù)定特殊意義的句子的句子結(jié)構(gòu)模式;獲得提示詞,其中含有該提示詞的句子比不含有該提示詞的句子更可能是具有預(yù)定特殊意義的句子;組合句子結(jié)構(gòu)模式和提示詞,以獲得符合句子語法結(jié)構(gòu)的組合后的句子結(jié)構(gòu)模式-提示詞;基于所述文檔中的句子所包含的句子結(jié)構(gòu)模式-提示詞,確定句子的分?jǐn)?shù);以及基于句子的分?jǐn)?shù),來從所述文檔中抽取具有預(yù)定特殊意義的句子。根據(jù)本發(fā)明的另一方面,提供了一種從文擋抽取具有預(yù)定特殊意義的句子的裝置,可以包括句子結(jié)構(gòu)模式獲得部件,用于獲得具有預(yù)定特殊意義的句子的句子結(jié)構(gòu)模式;提示詞獲得部件,用于獲得提示詞,其中含有該提示詞的句子比不含有該提示詞的句子更可能是具有預(yù)定特殊意義的句子;句子結(jié)構(gòu)模式-提示詞組合部件,用于組合句子結(jié)構(gòu)模式和提示詞,以獲得符合句子語法結(jié)構(gòu)的組合后的句子結(jié)構(gòu)模式-提示詞;句子分?jǐn)?shù)確定部件,用于基于所述文檔中的句子所包含的句子結(jié)構(gòu)模式-提示詞,確定句子的分?jǐn)?shù);以及句子抽取部件,用于基于句子的分?jǐn)?shù),來從所述文檔中抽取具有預(yù)定特殊意義的句子。根據(jù)本發(fā)明的又一方面,提供了一種從文擋抽取具有預(yù)定特殊意義的句子的方法,可以包括下述步驟獲得具有預(yù)定特殊意義的句子的句子結(jié)構(gòu)模式;獲得提示詞,其中含有該提示詞的句子比不含有該提示詞的句子更可能是具有預(yù)定特殊意義的句子;組合句子結(jié)構(gòu)模式和提示詞,以獲得符合句子語法結(jié)構(gòu)的組合后的句子結(jié)構(gòu)模式-提示詞;以及基于所述文檔中的句子所包含的句子結(jié)構(gòu)模式-提示詞,來從所述文檔中抽取具有預(yù)定特殊意義的句子。利用本發(fā)明的從文檔中提取具有預(yù)定特殊意義的句子的方法和裝置,可以減輕噪音句子所帶來的干擾,更準(zhǔn)確、有效地提取具有預(yù)定特殊意義的句子。
圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的從文擋抽取具有預(yù)定特殊意義的句子的方法的整體流程圖;圖2是根據(jù)本發(fā)明另一個(gè)實(shí)施例的從文檔抽取具有預(yù)定特殊意義的句子的方法的流程圖;圖3是根據(jù)本發(fā)明再一個(gè)實(shí)施例的從文檔抽取具有預(yù)定特殊意義的句子的方法的流程圖;圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的從文擋抽取具有預(yù)定特殊意義的句子的裝置的示意性框圖;以及圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的可以實(shí)踐本發(fā)明的示例性計(jì)算機(jī)系統(tǒng)。
具體實(shí)施例方式為了使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明,下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明作進(jìn)一步詳細(xì)說明。下面為便于理解和描述方便,首先闡述一下本發(fā)明總體構(gòu)思。如前文所述,僅憑借提示詞短語可能得到許多噪音句子,噪音句子包括提示詞短語但并非想要的句子。而許多有特殊意義或特殊作用的句子通常具有某些特定的句子結(jié)構(gòu)模式。因此,如果在提取具有特殊意義的句子時(shí)既考慮句子結(jié)構(gòu)模式同時(shí)也考慮提示詞短語,則預(yù)期將取得更令人滿意的提取結(jié)果。在本申請文檔中,短語可以指單個(gè)詞或由多個(gè)單詞組成的詞語,而單詞和單個(gè)詞
5(word)指漢語中一個(gè)詞語或者英文中一個(gè)單詞。另外,為了避免混淆本發(fā)明要點(diǎn),本申請文檔中未對公知的特征或結(jié)構(gòu)加以描述, 例如,在句子抽取中,通常首先要對文檔進(jìn)行分句,分詞,以及在對詞語的重要性進(jìn)行評估時(shí),要考慮若干詞語特征如詞頻、倒排文檔頻率、詞的位置、詞長度、詞性等。關(guān)于分詞。分句有很多公知的技術(shù)如分詞技術(shù)ICTCLAS等,但這些并不是本發(fā)明關(guān)注的方面,因此未對其為加以詳述,但是,需要說明的是,這并不表示本發(fā)明不可以包括這些公知的特征或結(jié)構(gòu), 相反這些分詞和詞語特征選擇技術(shù)都可以用于本發(fā)明。下面為便于理解和描述方便,常常以針對專利文獻(xiàn)提取描述解決技術(shù)問題的句子來說明。但是,需要強(qiáng)調(diào)的是,本發(fā)明并不局限于提取描述解決技術(shù)問題的句子,實(shí)際上從文檔中提取任何具有特殊意義的句子都可以應(yīng)用本發(fā)明,例如,從產(chǎn)品說明書中提取關(guān)于產(chǎn)品優(yōu)點(diǎn)的句子;從合同書中提取對已方不利的條款等等。圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的從文擋抽取具有預(yù)定特殊意義的句子的方法的整體流程圖。如圖1所示,根據(jù)本發(fā)明一個(gè)實(shí)施例的從文擋抽取具有預(yù)定特殊意義的句子的方法100可以包括句子結(jié)構(gòu)模式獲得步驟S110、提示詞獲得步驟S120、句子結(jié)構(gòu)模式-提示詞組合步驟S130、句子分?jǐn)?shù)確定步驟S140、句子抽取步驟S150。下面對各步驟進(jìn)行具體說明。在步驟S110,獲得具有預(yù)定特殊意義的句子的句子結(jié)構(gòu)模式。具有預(yù)定特殊疑義的句子的句子結(jié)構(gòu)模式是指匹配該結(jié)構(gòu)模式的文字組合比不匹配該結(jié)構(gòu)模式的文字組合更可能是具有預(yù)定特殊意義的句子。例如,可以從以下幾個(gè)方面來刻畫句子結(jié)構(gòu)模式包含2個(gè)以上短語、短語之間由預(yù)定數(shù)目的標(biāo)點(diǎn)符號或者字隔開、 短語具有與其在句子結(jié)構(gòu)中的作用相應(yīng)的詞性,例如,如果短語作為狀語,則可能為副詞短語;如果短語作為主語,則可能為名詞或代詞短語;如果短語作為謂語主干,則可能為動(dòng)詞短語;如此等等。句子結(jié)構(gòu)模式和短語的區(qū)別在于,從句子結(jié)構(gòu)模式,人們可以窺見或知道一個(gè)句子的架構(gòu),以及想要描述的方面,而且一般比較復(fù)雜。而短語,則一般是位于單詞和句子之間的層級的句子組成單位,有比較固定的表達(dá)意思,但一般不能從其知曉句子的架構(gòu)。以提取專利文獻(xiàn)中的描述解決的技術(shù)問題的句子為例,典型的句子結(jié)構(gòu)模式有 "accordingly, the object of this method”(以下稱為句子結(jié)構(gòu)模式SPl),‘‘a(chǎn)s a result, the problem of the paper,,(以下稱句子結(jié)構(gòu)模式 SP2), " therefore···what is needed for {4, 20} invention"(以下稱為句子結(jié)構(gòu)模式SP3)是典型的句子結(jié)構(gòu)模式。其中{4, 20}表示中間字符個(gè)數(shù)為4到20個(gè)。具有預(yù)定特殊疑義的句子的句子結(jié)構(gòu)模式例如可以從訓(xùn)練文檔集合中自動(dòng)學(xué)習(xí)獲得,也可以由相關(guān)領(lǐng)域有經(jīng)驗(yàn)的專家人工定義。在從訓(xùn)練文檔集合中自動(dòng)學(xué)習(xí)的情況下, 訓(xùn)練文檔集合可以由大量訓(xùn)練文檔組成,對于從專利文獻(xiàn)中提取描述技術(shù)問題的句子的情況,訓(xùn)練文檔集合可以由大量專利文獻(xiàn)如專利申請公開文檔組成,并且已經(jīng)通過人工確認(rèn)而對其中描述技術(shù)問題的句子進(jìn)行了標(biāo)記。這時(shí)可以例如通過句子整體匹配或者句子部分匹配等來學(xué)習(xí)該描述技術(shù)問題的句子的句子結(jié)構(gòu)模式,并可以存儲(chǔ)經(jīng)學(xué)習(xí)獲得的描述技術(shù)問題的句子的句子結(jié)構(gòu)模式。
對于所獲得的句子結(jié)構(gòu)模式??梢圆患訁^(qū)別地等同對待。不過作為替代方式,也可以對所獲得的句子結(jié)構(gòu)模式設(shè)定不同的權(quán)重,例如可以根據(jù)該句子結(jié)構(gòu)模式在訓(xùn)練文檔集合中出現(xiàn)的頻次來設(shè)定權(quán)重。在步驟S120,獲得提示詞,其中含有該提示詞的句子比不含有該提示詞的句子更可能是具有預(yù)定特殊意義的句子。具有特殊意義的句子通常會(huì)含有某些提示詞。例如,對于專利文獻(xiàn)中的描述技術(shù)問題的句子,常常出現(xiàn)的詞匯有 solve, provide, need, increase, decrease, optimize, high, poorer等等??梢詫⑦@些詞匯提取出來作為提示詞。同樣,提示詞可以從訓(xùn)練文檔集合中自動(dòng)學(xué)習(xí)獲得或者由有經(jīng)驗(yàn)的專家來人工確定。同樣地,可以不加區(qū)別地同等對待不同的提示詞,或者可以為不同的提示詞設(shè)定不同的權(quán)重。另外,需要說明的是,具有預(yù)定特殊意義的句子的句子結(jié)構(gòu)模式和提示詞都可以由外部獲得,在這種情況下,可以是通過網(wǎng)絡(luò)從另一執(zhí)行對象識(shí)別的計(jì)算裝置獲得,或者是由用戶輸入,當(dāng)然也可以是把預(yù)先識(shí)別好的識(shí)別信息存儲(chǔ)在例如閃存的可移除存儲(chǔ)介質(zhì)中,然后從該可移除存儲(chǔ)介質(zhì)讀取識(shí)別信息,獲得的方法或手段不構(gòu)成對本發(fā)明的限制。在步驟S130,組合句子結(jié)構(gòu)模式和提示詞,以獲得符合句子語法結(jié)構(gòu)的組合后的句子結(jié)構(gòu)模式-提示詞。例如,句子模式SP1,即 “accordingly,the object of this method” 可以與提示 i司 solve, provide, need, increase, decrease, optimize 組合,但不適宜與 high>poorer 組
口 O同樣,可以根據(jù)大量訓(xùn)練文檔來得出哪些句子結(jié)構(gòu)模式可以和哪些提示詞組合, 而哪些句子結(jié)構(gòu)模式從來不或者極少與哪些提示詞組合。當(dāng)然,也可以由相關(guān)領(lǐng)域的專家根據(jù)經(jīng)驗(yàn)來人工定義。同樣地,可以不加區(qū)別地同等對待不同的句子結(jié)構(gòu)模式-提示詞組合,或者可以為不同的句子結(jié)構(gòu)模式-提示詞組合設(shè)定不同的權(quán)重。關(guān)于如何具體設(shè)定或者學(xué)習(xí)句子結(jié)構(gòu)模式-提示詞組合的權(quán)重,后面將專門參考圖3加以詳細(xì)描述。在步驟S140,基于文檔中的句子所包含的句子結(jié)構(gòu)模式-提示詞組合,確定句子的分?jǐn)?shù)。在通過前述步驟S110、S120、S130獲得了句子結(jié)構(gòu)模式-預(yù)定提示詞的組合后,可以對于任何一個(gè)文檔(下文稱之為測試文檔)中的各個(gè)句子,根據(jù)該句子是否含有已經(jīng)獲得的句子結(jié)構(gòu)模式-提示詞組合,來計(jì)算句子的分?jǐn)?shù)。例如,假設(shè)文檔中的一個(gè)句子為"accordingly, the object of this method is to provide an improved inkjet printing system having a specialized orifice plate,,,該句子包含 accordingly, the object of this method (SPl 模式)-provide (提示詞)組合,假設(shè)所有句子結(jié)構(gòu)模式-提示詞的組合的權(quán)重相同均為1,則該句子的分?jǐn)?shù)求得為1。假設(shè)文檔中的另一個(gè)句子為 “A description will be given below, with reference to the drawings, of embodiments of the present invention,,,因?yàn)樵谠摼渥又胁话魏尉渥咏Y(jié)構(gòu)模式-提示詞組合。因此該句子的分?jǐn)?shù)可以例如求得為0。在上述句子分?jǐn)?shù)計(jì)算過程中,簡單地根據(jù)句子是否包含句子結(jié)構(gòu)模式-提示詞組合來計(jì)算句子分?jǐn)?shù)。不過這僅僅是示例并且是出于便于理解的目的給出的,還可以具有其它計(jì)算句子分?jǐn)?shù)的方法。例如,可以對于包含句子結(jié)構(gòu)模式而不包含提示詞的句子設(shè)置與句子結(jié)構(gòu)模式相應(yīng)的權(quán)重,而對于包含提示詞但不包含句子結(jié)構(gòu)模式的句子設(shè)置與提示詞相應(yīng)的權(quán)重。另外,對于某些提示詞,可以配備同義詞、近似詞或者可以進(jìn)行同義替代的短語的列表,并配以相應(yīng)的比例分子,比如0.9。由此,在對句子進(jìn)行句子結(jié)構(gòu)模式-提示詞匹配或檢索時(shí),在未發(fā)現(xiàn)匹配的句子結(jié)構(gòu)模式-提示詞的情況下,可以檢索同義詞、近似詞或者可以進(jìn)行同義替代的短語的列表,并是否存在這種情況下的句子結(jié)構(gòu)模式和該同義詞、近似詞或可以進(jìn)行同義替代的短語的組合,并可以求得相應(yīng)的分?jǐn)?shù),例如,是存在匹配的句子結(jié)構(gòu)模式-提示詞情況下的分?jǐn)?shù)乘以0. 9。在步驟S150,基于句子的分?jǐn)?shù),來從所述文檔中抽取具有預(yù)定特殊意義的句子。例如,可以抽取分?jǐn)?shù)超過預(yù)定閾值的句子,或者抽取分?jǐn)?shù)排序靠前的句子作為具有預(yù)定特殊意義的句子。所提取出的特殊意義的句子可以輸出到輸出設(shè)備如顯示器、打印機(jī)等,也可以輸出到另一電子設(shè)備供進(jìn)一步使用或處理。上面參考附圖1描述了根據(jù)本發(fā)明一個(gè)實(shí)施例的從文擋抽取具有預(yù)定特殊意義的句子的方法。不過,需要說明的是,上述實(shí)施例僅僅是一個(gè)示例,不應(yīng)該作為本發(fā)明的限制。可以有很多替代或修改,這些并不超出本發(fā)明的保護(hù)范圍。例如,上述的確定句子的分?jǐn)?shù)的步驟并不是必須的,而是可以基于所述文檔中的句子所包含的句子結(jié)構(gòu)模式-提示詞,來利用某種分類算法或?qū)W習(xí)算法直接從所述文檔中抽取具有預(yù)定特殊意義的句子。例如,最簡單地,可以僅僅檢查一個(gè)句子是否包含句子結(jié)構(gòu)模式-提示詞組合,如果包含,則將該句子提取作為具有特殊意義的句子,而不存在顯式的計(jì)算分?jǐn)?shù)的操作?;蛘?,例如,可以利用決策樹進(jìn)行分類。這時(shí),可以以每個(gè)句子結(jié)構(gòu)模式-提示詞組合作為決策樹的節(jié)點(diǎn)的判斷特征或變量,例如,在一個(gè)節(jié)點(diǎn)處判斷一個(gè)句子是否存在句子結(jié)構(gòu)模式-提示詞組合A,而在另一個(gè)節(jié)點(diǎn)處判斷句子是否存在句子結(jié)構(gòu)模式-提示詞組合B,并依據(jù)判斷結(jié)果而加以分叉,最后在葉子節(jié)點(diǎn)處獲得句子的分類結(jié)果,其中利用訓(xùn)練文檔集對所構(gòu)造的決策樹進(jìn)行訓(xùn)練。在此示例中,在對一個(gè)測試句子進(jìn)行判斷時(shí),也不存在確定該測試句子的分?jǐn)?shù)的操作,而是根據(jù)該測試句子所含有的句子結(jié)構(gòu)模式-提示詞組合的情況,來以決策樹進(jìn)行判斷,看其會(huì)走到哪個(gè)葉子節(jié)點(diǎn),則將其歸入該葉子節(jié)點(diǎn)所屬的類別。再例如,在利用貝葉斯分類器的情況下,可以通過對訓(xùn)練文檔集的統(tǒng)計(jì)而獲得各種情況下的先驗(yàn)概率,從而求得在存在各個(gè)句子結(jié)構(gòu)模式-提示詞組合的情況下句子為特殊意義句子的概率。并依據(jù)此對于測試句子的屬于特殊意義的概率進(jìn)行計(jì)算,并進(jìn)而進(jìn)行歸類。這時(shí)也不需要確定句子分?jǐn)?shù)的操作。上面以決策樹和貝葉斯分類器說明了利用學(xué)習(xí)算法來進(jìn)行學(xué)習(xí)訓(xùn)練和測試的情況。不過這僅僅是示例,其它學(xué)習(xí)算法例如邏輯回歸分類方法、基于規(guī)則的方法等都可以用于本發(fā)明,并且后面將參考圖3對于利用邏輯回歸分類方法計(jì)算句子結(jié)構(gòu)模式-提示詞組合的權(quán)重和對測試句子進(jìn)行分類進(jìn)行詳細(xì)描述。此外,上述提示詞僅僅是起肯定作用的提示詞,即認(rèn)為包含提示詞的句子比不包含提示詞的句子更可能是具有特殊意義的句子。不過這僅僅是示例。例如,可以引入起否定作用的提示詞,然后為包含該起否定作用的提示詞的句子設(shè)定懲罰因子,例如應(yīng)降低其分?jǐn)?shù),或者簡單地把包含該起否定作用的提示詞的句子排除于具有特殊意義的句子之外。此外,上述例子中,僅僅考慮了具有預(yù)定特殊意義的句子的句子結(jié)構(gòu)模式。替代地或作為補(bǔ)充,可以考慮獲得噪音句子的句子結(jié)構(gòu)模式,噪音句子是指該句子含有提示詞但不是具有預(yù)定特殊意義的句子;然后判斷所述文檔中的句子是否符合噪音句子的句子結(jié)構(gòu)模式;以及從所述文檔中刪除被判斷為噪音句子的句子。例如,對于從專利文獻(xiàn)提取描述解決技術(shù)問題的句子,一個(gè)噪音句子模式可以是“invention…problem.,,此外,還可以考慮某些形式較固定的非具有特殊意義的句子的句子結(jié)構(gòu)模式,具有這種句子結(jié)構(gòu)模式的句子一般不具有期望的特殊意義。然后將檢查句子是否匹配該非具有特殊意義的句子的句子結(jié)構(gòu)模式,如果匹配,將該句子排除于具有特殊意義的句子之外, 或者為該句子設(shè)定懲罰因子。此外,也可以考慮將非具有特殊意義的句子的句子結(jié)構(gòu)模式和起否定作用的提示詞組合,然后檢查句子是否匹配這樣的非具有特殊意義的句子的句子結(jié)構(gòu)模式和起否定作用的提示詞的組合,如果匹配,將該句子排除于具有特殊意義的句子之外,或者為該句子設(shè)定懲罰因子。另外,需要說明的是,這里的文檔(無論是訓(xùn)練文檔還是測試文檔)是寬泛的概念,既可以是普通意義的完整文檔,也可以是文檔的一部分。圖2是根據(jù)本發(fā)明另一個(gè)實(shí)施例的從文檔抽取具有預(yù)定特殊意義的句子的方法 200的流程圖。圖2中所示的步驟S210、S220、S250與圖1所示的步驟S110、S120、S150基本相
同,這里省略其描述。圖2所示的具有預(yù)定特殊意義的句子的方法200與圖1所示的方法100不同在于引入了提示詞簇,即不再是以提示詞為角度考慮,而是從提示詞簇或者提示詞組的角度考慮。這是因?yàn)椋谀承┣闆r下,可能存在很多提示詞,這時(shí)存在的句子結(jié)構(gòu)模式-提示詞的組合的數(shù)目就會(huì)急劇增加,在句子結(jié)構(gòu)模式也較多的情況尤其如此。這時(shí)如果以提示詞簇為單位考慮,將大大降低處問題的復(fù)雜度和計(jì)算量,節(jié)省資源。具體地,在步驟S221,對于步驟S220獲得的提示詞進(jìn)行聚類,得到若干提示詞簇。聚類是一種非監(jiān)督的機(jī)器學(xué)習(xí)算法,用于將各個(gè)個(gè)體或樣本聚為若干類,每個(gè)個(gè)體可以視為特征空間中的一個(gè)點(diǎn)。其基本思想是,將特征空間中距離較近且密集的點(diǎn)聚為
一類或一簇。在本文的提示詞聚類中,各個(gè)詞語即為各個(gè)樣本,詞語之間的相似度可以視為詞語之間的距離。由此,現(xiàn)有的各種聚類算法例如題為“Clustering to Find Exemplar Terms for Keyphrase Extraction,,,Zhiyuan Liu,Peng Li,Yabin Zheng,Maosong Sun,自然語言處理相關(guān)會(huì)議EMNLP 2009,第257-266頁的文章中提及的聚類算法均可以應(yīng)用于本發(fā)明。關(guān)于最后聚類得到的簇的數(shù)目k可以是預(yù)先確定的,例如是用戶或系統(tǒng)指定的關(guān)鍵詞語的個(gè)數(shù),或者也可以是不確定的,根據(jù)聚類算法最后的運(yùn)行結(jié)果來確定。聚類的目標(biāo)函數(shù)可以是同一簇的引導(dǎo)詞具有相同的語義或者相同的句子語法和詞性。或者,聚類的目標(biāo)函數(shù)還可以考慮簇和簇之間的距離和/或各個(gè)簇內(nèi)成員的個(gè)數(shù)等因素。聚類方法可以包括基于語意的聚類方法,基于語法的聚類方法,或兩者的組合,等等。詞語之間的相似度可以是事先確定并儲(chǔ)存于詞語相似度數(shù)據(jù)庫中,也可以是現(xiàn)場從被處理的對象文檔中計(jì)算得到的??梢岳没バ畔⒎椒ㄓ?jì)算詞語之間的相似度,或者還可以利用對數(shù)似然比(Log Likelihood Ratio)、卡方檢驗(yàn)(Chi-squared)等統(tǒng)計(jì)方法,以及給予詞典(例如WordNet,知網(wǎng))的知識(shí)方法進(jìn)行計(jì)算。下面說明一個(gè)聚類過程的簡單示例。例如,對于上述例子中的提示詞solve, provide, need, increase, decrease, optimize, high, poorer, t艮據(jù)i司j"生(動(dòng)i司禾口形容i司), solve, provide, need, increase, decrease, optimize, high, poorer 可被分成 2 個(gè)族,艮口 "solve, provide, need, increase, decrease, optimize,,禾口"high, poorer,,(下文禾爾其為族 C3).進(jìn)而,根據(jù)語義,例如是表示解決還是表示升降,提示詞solve,provide, need, increase, decrease, optimize 又可被分成 2 個(gè)族"solve, provide, need,,(下文禾爾其為 Cl), "increase, decrease, optimize"(下文稱其為C2)。于是總共得到了 3個(gè)提示簇Cl, C2 禾口 C3。上面的提示詞、提示詞簇以及提示詞簇的數(shù)目僅僅是示例,根據(jù)需要可以涉及不同的提示詞、提示詞簇以及提示詞簇的數(shù)目。引入提示詞簇的一大好處在于,一個(gè)提示詞簇中的所有詞的地位、作用、權(quán)重等等認(rèn)為都是相同的。由此,無需針對每個(gè)提示詞簇來考慮這些因素,可以降低處理的工作量。在步驟S230,與圖1所示的步驟S130不同,不是組合句子結(jié)構(gòu)模式和提示詞,而是組合句子結(jié)構(gòu)模式和提示詞簇,以獲得符合句子語法結(jié)構(gòu)的組合后的句子結(jié)構(gòu)模式-提示詞簇。例如,對于上文提到的典型的句子結(jié)構(gòu)模式“accordingly,the object of this method,,(SPl), "as a result, the problem of the paper,,(SP2), " therefore···what is needed for {4, 20} invention" (SP3),以及上述提示詞簇“solve,provide,need”(Cl), “ increase,decrease,optimize”(C2)、“high,poorer”,我們可以得到以下有意義的句子結(jié)構(gòu)模式-引導(dǎo)詞簇的組合:SP1-C1, SP1-C2, SP2-C3, SP3-C2,SP3-C3。在考慮權(quán)重的情況下,不在單獨(dú)考慮每個(gè)句子結(jié)構(gòu)模式-引導(dǎo)詞的組合的權(quán)重, 而是簡化為考慮每個(gè)句子結(jié)構(gòu)模式-引導(dǎo)詞的組合的權(quán)重。由此,進(jìn)一步降低了處理的工作量。在步驟S240,基于測試文檔是否包含句子結(jié)構(gòu)模式-提示詞簇的組合,來確定句子的分?jǐn)?shù)。從而在步驟S250,基于句子的分?jǐn)?shù),來從文檔中提取具有特殊意義的句子。同樣地,上述特殊意義句子的提取方法僅為示例。可以進(jìn)一步地在句子提取方法中考慮噪音句子結(jié)構(gòu)模式和/或起否定作用的提示詞。圖3是根據(jù)本發(fā)明再一個(gè)實(shí)施例的從文檔抽取具有預(yù)定特殊意義的句子的方法 300的流程圖。圖 3 所示的步驟 S310、S320、S321、S330、S350 與圖 2 所示的步驟 S210、S220、S221、S230、S250基本相同,這里省略其具體敘述。圖3所示方法300與圖2所示方法200的不同在于多了步驟S331,用于確定組合后的句子結(jié)構(gòu)模式-預(yù)定提示詞簇的權(quán)重。以及確定句子的分?jǐn)?shù)的步驟S340可能相應(yīng)地不同。可以通過分類方法將訓(xùn)練文檔集合中的句子分類為具有預(yù)定特殊意義的句子和非具有預(yù)定特殊意義的句子來計(jì)算句子結(jié)構(gòu)模式-提示詞簇的權(quán)重。分類方法可以為邏輯回歸分類方法,貝葉斯分類方法,規(guī)則方法和功能方法中的至少一個(gè)或組合。下面給出通過邏輯回歸分類方法確定句子結(jié)構(gòu)模式-提示詞簇的組合的權(quán)重的例子。假設(shè),句子的分?jǐn)?shù)用變量ζ表示,句子結(jié)構(gòu)模式-提示詞簇的組合(設(shè)有k個(gè))用 xl,x2,…xk表示,在采用線性邏輯回歸分類方法的情況下,句子的分?jǐn)?shù)ζ可以以下述線性邏輯回歸公式(1)來表示。ζ = β 0+β 1*χ1+β 2*χ2+... + β k*Xk,......(1)其中β 0,β 1,β 2,β k,等分別是句子結(jié)構(gòu)模式-提示詞簇的組合xl,x2, xk的系數(shù),也即各個(gè)句子結(jié)構(gòu)模式-提示詞簇的組合的權(quán)重。在句子結(jié)構(gòu)模式-提示詞簇的組合為SPl-Cl,SP1-C2,SP2-C3的情況下,k = 3, 則上述公式(1)變?yōu)楣絆)ζ = β 0+β 1*χ1+β 2*χ2+β 3*X2,......(2)使用訓(xùn)練文檔集合,對于各個(gè)句子已經(jīng)根據(jù)其是否是具有預(yù)定特殊意義的句子設(shè)定其相應(yīng)的分?jǐn)?shù),以及根據(jù)是否含有句子結(jié)構(gòu)模式-提示詞簇的組合,xl, x2, χ3的值也已經(jīng)確定(例如,有該組合,取值為1,沒有該組合,取值為0)。由此可以求得系數(shù)β0、β U β 2,也即句子結(jié)構(gòu)模式-提示詞簇的組合SPl-Cl,SP1-C2,SP2-C3的權(quán)重。句子結(jié)構(gòu)模式-提示詞簇的組合SP1-C1,SP1-C2,SP2-C3的權(quán)重,用所有的句子-引導(dǎo)詞簇模式匹配測試文檔中的每一個(gè)句子,并且采用線性方法累計(jì)模式權(quán)重,得到句子值。例如,假定句子 S 是〃 accordingly, the object of this method is to provide an improved inkjet printing system having a specialized orifice plate".它IZS 配SPl-Cl模式,于是句子的分?jǐn)?shù)將為Score(S) = β 0+β 1。上述示例中,采用邏輯回歸分類方法確定句子結(jié)構(gòu)模式-提示詞簇的組合的權(quán)重,不過替代地也可以采用例如貝葉斯分類方法,規(guī)則方法和功能方法中的至少一個(gè)或組合來確定句子結(jié)構(gòu)模式-提示詞簇的組合的權(quán)重。圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的從文擋抽取具有預(yù)定特殊意義的句子的裝置400 的示意性框圖。從文擋抽取具有預(yù)定特殊意義的句子的裝置400可以包括句子結(jié)構(gòu)模式獲得部件410,用于獲得具有預(yù)定特殊意義的句子的句子結(jié)構(gòu)模式;提示詞獲得部件420,用于獲得提示詞,其中含有該提示詞的句子比不含有該提示詞的句子更可能是具有預(yù)定特殊意義的句子;句子結(jié)構(gòu)模式-提示詞組合部件430,用于組合句子結(jié)構(gòu)模式和提示詞,以獲得符合句子語法結(jié)構(gòu)的組合后的句子結(jié)構(gòu)模式-提示詞;句子分?jǐn)?shù)確定部件440,用于基于所述
11文檔中的句子所包含的句子結(jié)構(gòu)模式-提示詞,確定句子的分?jǐn)?shù);以及句子抽取部件450, 用于基于句子的分?jǐn)?shù),來從所述文檔中抽取具有預(yù)定特殊意義的句子。所述具有預(yù)定特殊意義的句子的句子結(jié)構(gòu)模式可以是從訓(xùn)練文檔集合中自動(dòng)學(xué)習(xí)獲得的,或者是由人工定義獲得的。具有預(yù)定特殊疑義的句子的句子結(jié)構(gòu)模式可以是指匹配結(jié)構(gòu)模式的文字組合比不匹配任何結(jié)構(gòu)模式的文字組合更可能是具有預(yù)定特殊意義的句子。所述裝置400還可以包括用于確定各個(gè)組合后的句子結(jié)構(gòu)模式-提示詞的權(quán)重的部件,以及句子分?jǐn)?shù)確定部件基于文檔中各個(gè)句子所包含的句子結(jié)構(gòu)模式-提示詞和對應(yīng)句子結(jié)構(gòu)模式-提示詞的權(quán)重,確定句子的分?jǐn)?shù)。裝置400還可以包括用于對于所獲得的提示詞進(jìn)行聚類,得到提示詞簇的部件。 該句子結(jié)構(gòu)模式-提示詞組合部件430組合句子結(jié)構(gòu)模式和提示詞簇。裝置400還可以包括用于確定各個(gè)組合后的句子結(jié)構(gòu)模式-提示詞簇的權(quán)重的部件。而且,句子分?jǐn)?shù)確定部件440可以基于所述文檔中各個(gè)句子所包含的句子結(jié)構(gòu)模式-提示詞簇和對應(yīng)句子結(jié)構(gòu)模式-提示詞簇的權(quán)重,確定句子的分?jǐn)?shù)。用于確定各個(gè)組合后的句子結(jié)構(gòu)模式-提示詞簇的權(quán)重的部件可以通過分類方法將訓(xùn)練文檔集合中的句子分類為具有預(yù)定特殊意義的句子和非具有預(yù)定特殊意義的句子來計(jì)算句子結(jié)構(gòu)模式-提示詞的權(quán)重。分類方法可以為邏輯回歸分類方法,貝葉斯分類方法,規(guī)則方法和功能方法中的至少一個(gè)或組合。裝置400還可以包括用于獲得噪音句子的句子結(jié)構(gòu)模式的部件,噪音句子是指該句子含有提示詞但不是具有預(yù)定特殊意義的句子;用于判斷所述文檔中的句子是否符合噪音句子的句子結(jié)構(gòu)模式的部件;以及用于從所述文檔中刪除被判斷為噪音句子的句子的部件。圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的可以實(shí)踐本發(fā)明的示例性計(jì)算機(jī)系統(tǒng)700的示意圖。將參考圖5給出作為實(shí)現(xiàn)上述多對象識(shí)別裝置的硬件配置的例子的描述。CPU (中央處理單元)701根據(jù)被存儲(chǔ)在R0M(只讀存儲(chǔ)器)702或存儲(chǔ)部分708中的程序來進(jìn)行各種處理。例如,CPU執(zhí)行在上述實(shí)施例中描述的從文擋抽取具有預(yù)定特殊意義的句子的方法的程序。RAM(隨機(jī)存取存儲(chǔ)器)703適當(dāng)?shù)卮鎯?chǔ)由CPU 701執(zhí)行的程序、數(shù)據(jù)等等。CPU 301、ROM 702和RAM 703通過總線704相互連接。CPU 701通過總線704連接于輸入/輸出接口 705。包括鍵盤、鼠標(biāo)、麥克風(fēng)等的輸入部分706和包括顯示器、揚(yáng)聲器等的輸出部分連接于輸入/輸出接口 705。CPU 701根據(jù)從輸入部分706輸入的指令來執(zhí)行各種處理。CPU 701向輸出部分707輸出處理的結(jié)果。連接于輸入/輸出接口 705的存儲(chǔ)部分708包括例如硬盤,并存儲(chǔ)由CPU701執(zhí)行的程序和各種數(shù)據(jù)。通信部分709通過諸如因特網(wǎng)、局域網(wǎng)等的網(wǎng)絡(luò)來與外部裝置通信。連接于輸入/輸出接口 705的驅(qū)動(dòng)器710驅(qū)動(dòng)諸如磁盤、光盤、磁光盤或半導(dǎo)體存儲(chǔ)器等的可移動(dòng)介質(zhì)711,并獲得記錄在那里的程序、數(shù)據(jù)等等。所獲得的程序和數(shù)據(jù)在需要時(shí)被傳輸給存儲(chǔ)部分708,并被存儲(chǔ)在那里。以上結(jié)合具體實(shí)施例描述了本發(fā)明的基本原理,但是,需要指出的是,對本領(lǐng)域的普通技術(shù)人員而言,能夠理解本發(fā)明的方法和裝置的全部或者任何步驟或者部件,可以在任何計(jì)算裝置(包括處理器、存儲(chǔ)介質(zhì)等)或者計(jì)算裝置的網(wǎng)絡(luò)中,以硬件、固件、軟件或者它們的組合加以實(shí)現(xiàn),這是本領(lǐng)域普通技術(shù)人員在閱讀了本發(fā)明的說明的情況下運(yùn)用他們的基本編程技能就能實(shí)現(xiàn)的。因此,本發(fā)明的目的還可以通過在任何計(jì)算裝置上運(yùn)行一個(gè)程序或者一組程序來實(shí)現(xiàn)。所述計(jì)算裝置可以是公知的通用裝置。因此,本發(fā)明的目的也可以僅僅通過提供包含實(shí)現(xiàn)所述方法或者裝置的程序代碼的程序產(chǎn)品來實(shí)現(xiàn)。也就是說,這樣的程序產(chǎn)品也構(gòu)成本發(fā)明,并且存儲(chǔ)有這樣的程序產(chǎn)品的存儲(chǔ)介質(zhì)也構(gòu)成本發(fā)明。顯然,所述存儲(chǔ)介質(zhì)可以是任何公知的存儲(chǔ)介質(zhì)或者將來所開發(fā)出來的任何存儲(chǔ)介質(zhì)。還需要指出的是,在本發(fā)明的裝置和方法中,顯然,各部件或各步驟是可以分解和 /或重新組合的。這些分解和/或重新組合應(yīng)視為本發(fā)明的等效方案。并且,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時(shí)間順序執(zhí)行,但是并不需要一定按照上述順序執(zhí)行,而是可能可以調(diào)換執(zhí)行順序,例如基于歷史識(shí)別信息修正識(shí)別信息的步驟和基于對象之間相互關(guān)系修正識(shí)別信息的步驟之間沒有嚴(yán)格的先后關(guān)系。上述具體實(shí)施方式
,并不構(gòu)成對本發(fā)明保護(hù)范圍的限制。本領(lǐng)域技術(shù)人員應(yīng)該明白的是,取決于設(shè)計(jì)要求和其他因素,可以發(fā)生各種各樣的修改、組合、子組合和替代。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種從文擋抽取具有預(yù)定特殊意義的句子的方法,包括下述步驟 獲得具有預(yù)定特殊意義的句子的句子結(jié)構(gòu)模式;獲得提示詞,其中含有該提示詞的句子比不含有該提示詞的句子更可能是具有預(yù)定特殊意義的句子;組合句子結(jié)構(gòu)模式和提示詞,以獲得符合句子語法結(jié)構(gòu)的組合后的句子結(jié)構(gòu)模式一提示詞;基于所述文檔中的句子所包含的句子結(jié)構(gòu)模式-提示詞,確定句子的分?jǐn)?shù);以及基于句子的分?jǐn)?shù),來從所述文檔中抽取具有預(yù)定特殊意義的句子。
2.如權(quán)利要求1所述的方法,所述具有預(yù)定特殊意義的句子的句子結(jié)構(gòu)模式是從訓(xùn)練文檔集合中自動(dòng)學(xué)習(xí)獲得的,或者是由人工定義獲得的。
3.如權(quán)利要求1所述的方法,具有預(yù)定特殊疑義的句子的句子結(jié)構(gòu)模式是指匹配該結(jié)構(gòu)模式的文字組合比不匹配該結(jié)構(gòu)模式的文字組合更可能是具有預(yù)定特殊意義的句子。
4.如權(quán)利要求1所述的方法,還包括確定各個(gè)組合后的句子結(jié)構(gòu)模式-提示詞的權(quán)重;其中所述確定句子的分?jǐn)?shù)包括基于所述文檔中各個(gè)句子所包含的句子結(jié)構(gòu)模式-提示詞和對應(yīng)句子結(jié)構(gòu)模式-提示詞的權(quán)重,確定句子的分?jǐn)?shù)。
5.如權(quán)利要求4所述的方法,其中對于所獲得的提示詞進(jìn)行聚類,得到提示詞簇; 組合句子結(jié)構(gòu)模式和提示詞簇;確定各個(gè)組合后的句子結(jié)構(gòu)模式-提示詞簇的權(quán)重;以及基于所述文檔中各個(gè)句子所包含的句子結(jié)構(gòu)模式-提示詞簇和對應(yīng)句子結(jié)構(gòu)模式-提示詞簇的權(quán)重,確定句子的分?jǐn)?shù)。
6.如權(quán)利要求1所述的方法,其中通過分類方法將訓(xùn)練文檔集合中的句子分類為具有預(yù)定特殊意義的句子和非具有預(yù)定特殊意義的句子來計(jì)算句子結(jié)構(gòu)模式-提示詞的權(quán)重。
7.如權(quán)利要求5所述的方法,其中通過分類方法將訓(xùn)練文檔集合中的句子分類為具有預(yù)定特殊意義的句子和非具有預(yù)定特殊意義的句子來計(jì)算句子結(jié)構(gòu)模式-提示詞簇的權(quán)重。
8.如權(quán)利要求1所述的方法,還包括獲得噪音句子的句子結(jié)構(gòu)模式,噪音句子是指該句子含有提示詞但不是具有預(yù)定特殊意義的句子;判斷所述文檔中的句子是否符合噪音句子的句子結(jié)構(gòu)模式;以及從所述文檔中刪除被判斷為噪音句子的句子。
9.一種從文擋抽取具有預(yù)定特殊意義的句子的裝置,包括句子結(jié)構(gòu)模式獲得部件,用于獲得具有預(yù)定特殊意義的句子的句子結(jié)構(gòu)模式; 提示詞獲得部件,用于獲得提示詞,其中含有該提示詞的句子比不含有該提示詞的句子更可能是具有預(yù)定特殊意義的句子;句子結(jié)構(gòu)模式-提示詞組合部件,用于組合句子結(jié)構(gòu)模式和提示詞,以獲得符合句子語法結(jié)構(gòu)的組合后的句子結(jié)構(gòu)模式-提示詞;句子分?jǐn)?shù)確定部件,用于基于所述文檔中的句子所包含的句子結(jié)構(gòu)模式-提示詞,確定句子的分?jǐn)?shù);以及句子抽取部件,用于基于句子的分?jǐn)?shù),來從所述文檔中抽取具有預(yù)定特殊意義的句子。
10. 一種從文擋抽取具有預(yù)定特殊意義的句子的方法,包括下述步驟 獲得具有預(yù)定特殊意義的句子的句子結(jié)構(gòu)模式;獲得提示詞,其中含有該提示詞的句子比不含有該提示詞的句子更可能是具有預(yù)定特殊意義的句子;組合句子結(jié)構(gòu)模式和提示詞,以獲得符合句子語法結(jié)構(gòu)的組合后的句子結(jié)構(gòu)模式-提示詞;以及基于所述文檔中的句子所包含的句子結(jié)構(gòu)模式-提示詞,來從所述文檔中抽取具有預(yù)定特殊意義的句子。
全文摘要
提供了一種從文擋抽取具有預(yù)定特殊意義的句子的方法和裝置。該方法包括下述步驟獲得具有預(yù)定特殊意義的句子的句子結(jié)構(gòu)模式;獲得提示詞,其中含有該提示詞的句子比不含有該提示詞的句子更可能是具有預(yù)定特殊意義的句子;組合句子結(jié)構(gòu)模式和提示詞,以獲得符合句子語法結(jié)構(gòu)的組合后的句子結(jié)構(gòu)模式-提示詞;基于所述文檔中的句子所包含的句子結(jié)構(gòu)模式-提示詞,確定句子的分?jǐn)?shù);以及基于句子的分?jǐn)?shù),來從所述文檔中抽取具有預(yù)定特殊意義的句子。利用本發(fā)明的從文檔中提取具有預(yù)定特殊意義的句子的方法和裝置,可以減輕噪音句子所帶來的干擾,更準(zhǔn)確、有效地提取具有預(yù)定特殊意義的句子。
文檔編號G06F17/27GK102385574SQ20101026867
公開日2012年3月21日 申請日期2010年9月1日 優(yōu)先權(quán)日2010年9月1日
發(fā)明者孫軍, 游贛梅, 謝宣松, 趙利軍, 鄭繼川 申請人:株式會(huì)社理光