括多個參考概念。例如,所述預定義的概念庫可W是但不限于Wikipedia,并且每 個Wikipedia頁面是參考概念。因此,在該示例中,W化ipedia被用作本體論(ontology) W檢測被用于表達原始句子的概念。根據(jù)示例,檢測句子中的概念設(shè)及兩個方面。首 先,通過簡單匹配來獲得針對在句子中的術(shù)語的概念候選。目P,將術(shù)語與W化ipedia頁 面的文章名稱比較W查看它們是否彼此匹配。如果它們匹配,則該Wikipedia頁面(即, W化ipedia概念)是針對該術(shù)語的候選概念。然后,可W在那些候選概念之上執(zhí)行消除歧義 (disambiguation)的操作W得到針對每個術(shù)語的最相似的W化ipedia概念,因為術(shù)語可W 具有多個含義并且引起歧義。例如,從"i地one是蘋果公司的產(chǎn)品"的句子可W檢測到兩個 概念;"iPhone"和"蘋果"。然而,詞語"蘋果"可W具有與其相關(guān)聯(lián)的兩種概念:水果和公 司。在該情況下,可W分析詞語"蘋果"的上下文信息(例如,"iphone")W進一步確定在該 句子中的"蘋果"表示公司。
[0014] 在框202處,在檢測了在每個句子中的概念之后,根據(jù)所檢測的概念計算在句子 之間的關(guān)聯(lián)性測量。根據(jù)本公開的示例,根據(jù)對應(yīng)于所檢測的概念的所述概念庫中的參考 概念(例如,W化ipedia概念)計算在句子之間的關(guān)聯(lián)性測量。在框203處,構(gòu)造概念意識圖, 其中在所述圖中的節(jié)點表示在文檔中的句子,并且在兩個節(jié)點之間的邊表示在該兩個句子 之間的所計算的關(guān)聯(lián)性測量。如之前描述的那樣,在構(gòu)造概念意識圖之后,可W對所述圖運 行某個分級方法W對所述句子進行分級,并且然后可W執(zhí)行諸如移除非常相似的句子的某 些后處理操作,并且最后通過選擇多個最高等級的句子來生成概括。
[0015] 現(xiàn)在參考圖3,圖3圖示了根據(jù)本公開的示例的概括文檔的方法的更詳細的處理 流程圖。方法一般地由參考標號300表示。方法300在框301處開始。在框302處,選擇 將被概括的文檔。該文檔可W被用戶輸入,或者可W來自捜索結(jié)果。在框303處,預處理所 述文檔。例如,從文檔移除非法詞語和感嘆詞。在框304處,基于諸如W化ipedia的預定義 的概念庫來檢測在文檔的每個句子中的(一個或多個)概念,所述諸如Wikipedia的預定義 的概念庫包括諸如W化ipedia頁面的多個參考概念。如上文描述的那樣,檢測概念可W設(shè) 及獲得概念候選W及消除歧義,并且本文將不詳細描述。在框305處,確定當前句子是否包 含任何概念。如果在句子中沒有檢測到概念,則將忽略該個句子,如在框306處示出的那 樣。在框307處,如果在句子中檢測到概念,則將相應(yīng)的權(quán)重分派到所檢測的概念。根據(jù)本 公開的示例,權(quán)重表示在所檢測的概念與在概念庫中的其相應(yīng)的參考概念之間的相似性的 程度。例如,所述權(quán)重可W是在0到1之間變化的值。
[0016] WW;Lkipedia作為示例。假設(shè)正在處理的句子是"OnOct. 31, 1999,aplane carrying217mostlyEgyptianpassengerscrashedintotheAtlanticOceanoff Massachusetts"。通過利用W化ipedia檢測在該句子中的概念獲得的結(jié)果可W是:
【主權(quán)項】
1. 一種用于概括文檔的方法,其包括: 針對在所述文檔中的每個句子,檢測在所述句子中的概念; 根據(jù)所檢測的概念,計算在句子之間的關(guān)聯(lián)性測量; 構(gòu)造概念意識圖,其中在所述圖中的節(jié)點表示在所述文檔中的句子并且在兩個節(jié)點之 間的邊表示在這兩個句子之間的關(guān)聯(lián)性測量。
2. 如權(quán)利要求1所述的方法,其中基于預定義的概念庫來執(zhí)行檢測句子中的概念,所 述預定義的概念庫包括多個參考概念。
3. 如權(quán)利要求2所述的方法,其中計算在句子之間的關(guān)聯(lián)性測量包括:根據(jù)對應(yīng)于所 檢測的概念的所述概念庫中的參考概念來計算所述關(guān)聯(lián)性測量。
4. 如權(quán)利要求2所述的方法,還包括:將相應(yīng)的權(quán)重指派到所檢測的概念。
5. 如權(quán)利要求4所述的方法,其中所述權(quán)重表示在所檢測的概念與在概念庫中的它 的相應(yīng)的參考概念之間的相似性的程度。
6. 如權(quán)利要求4所述的方法,其中計算在句子之間的關(guān)聯(lián)性測量包括:根據(jù)在所述句 子中檢測的概念的權(quán)重與對應(yīng)于所檢測的概念的所述概念庫中的參考概念之間的關(guān)聯(lián)性 測量來計算所述關(guān)聯(lián)性測量。
7. -種用于概括文檔的系統(tǒng),所述系統(tǒng)包括: 處理器,其適于執(zhí)行所存儲的指令;以及 存儲器設(shè)備,其存儲指令,所述存儲器設(shè)備包括處理器可執(zhí)行代碼,當其被所述處理器 執(zhí)行時,適于: 針對在所述文檔中的每個句子,檢測在所述句子中的概念; 根據(jù)所檢測的概念,計算在句子之間的關(guān)聯(lián)性測量; 構(gòu)造概念意識圖,其中在所述圖中的節(jié)點表示在所述文檔中的句子并且在兩個節(jié)點之 間的邊表示在這兩個句子之間的關(guān)聯(lián)性測量。
8. 如權(quán)利要求7所述的系統(tǒng),其中所述存儲器存儲處理器可執(zhí)行代碼,其適于基于預 定義的概念庫檢測在句子中的概念,所述預定義的概念庫包括多個參考概念。
9. 如權(quán)利要求8所述的系統(tǒng),其中所述存儲器存儲處理器可執(zhí)行代碼,其適于通過以 下內(nèi)容計算在句子之間的關(guān)聯(lián)性測量:根據(jù)對應(yīng)于所檢測的概念的所述概念庫中的參考概 念來計算所述關(guān)聯(lián)性測量。
10. 如權(quán)利要求8所述的系統(tǒng),其中所述存儲器存儲處理器可執(zhí)行代碼,其適于將相 應(yīng)的權(quán)重指派到所檢測的概念。
11. 如權(quán)利要求10所述的系統(tǒng),其中所述權(quán)重表示在所檢測的概念與在概念庫中的 它的相應(yīng)的參考概念之間的相似性的程度。
12. 如權(quán)利要求10所述的系統(tǒng),其中所述存儲器存儲處理器可執(zhí)行代碼,其適于通過 以下內(nèi)容計算在句子之間的關(guān)聯(lián)性測量:根據(jù)在所述句子中檢測的概念的權(quán)重與對應(yīng)于所 檢測的概念的所述概念庫中的參考概念之間的關(guān)聯(lián)性測量來計算所述關(guān)聯(lián)性測量。
13. -種非瞬時計算機可讀介質(zhì),其包括代碼,所述代碼用以引導處理器: 針對在包括多個句子的文檔中的每個句子,檢測在所述句子中的概念; 根據(jù)所檢測的概念,計算在句子之間的關(guān)聯(lián)性測量; 基于所述關(guān)聯(lián)性測量,生成針對所述文檔的概括;以及 構(gòu)造概念意識圖,其中在所述圖中的節(jié)點表示在所述文檔中的句子并且在兩個節(jié)點之 間的邊表示在這兩個句子之間的關(guān)聯(lián)性測量。
14. 如權(quán)利要求13所述的非瞬時計算機可讀介質(zhì),其中所述非瞬時計算機可讀介質(zhì) 包括用以基于預定義的概念庫來檢測在句子中的概念的代碼,所述預定義的概念庫包括多 個參考概念。
15. 如權(quán)利要求14所述的非瞬時計算機可讀介質(zhì),其中所述非瞬時計算機可讀介質(zhì) 包括用以將相應(yīng)的權(quán)重指派到所檢測的概念的代碼,其中所述權(quán)重表示在所檢測的概念與 在概念庫中的它的相應(yīng)的參考概念之間的相似性的程度。
【專利摘要】提供了一種用于概括文檔的方法。針對在文檔中的每個句子檢測概念。根據(jù)所檢測的概念計算在句子之間的關(guān)聯(lián)性測量。并且然后構(gòu)造概念意識圖,其中在圖中的節(jié)點表示在所述文檔中的句子,并且在兩個節(jié)點之間的邊表示在兩個句子之間的關(guān)聯(lián)性測量。
【IPC分類】G06F17-21
【公開號】CN104871151
【申請?zhí)枴緾N201280078015
【發(fā)明人】L.王, 王荀, 王敏, 張彤, 白斌
【申請人】惠普發(fā)展公司,有限責任合伙企業(yè)
【公開日】2015年8月26日
【申請日】2012年10月26日
【公告號】EP2912569A1, WO2014063354A1