国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種在文檔中獲得一個(gè)或多個(gè)關(guān)鍵元素的設(shè)備和方法

      文檔序號(hào):6605353閱讀:186來源:國知局
      專利名稱:一種在文檔中獲得一個(gè)或多個(gè)關(guān)鍵元素的設(shè)備和方法
      技術(shù)領(lǐng)域
      本申請(qǐng)一般涉及文本處理,且更具體地,涉及用于獲得關(guān)鍵元素的文本處理。
      背景技術(shù)
      隨著網(wǎng)絡(luò)中出現(xiàn)的文檔越來越多,越來越需要從各個(gè)文檔中獲得代表該文檔信息的關(guān)鍵詞或關(guān)鍵句子來便于搜索文檔、生成文檔摘要等等。人們已經(jīng)越來越關(guān)注如何更準(zhǔn)確地從文檔中獲得關(guān)鍵元素。獲得的關(guān)鍵詞或關(guān)鍵句子越準(zhǔn)確,則通過該關(guān)鍵詞或關(guān)鍵句子進(jìn)行搜索得到所期望的文檔的可能性越大,且通過該關(guān)鍵詞或關(guān)鍵句子生成的文檔摘要更確切地表示了文檔的信息。從文檔中獲得關(guān)鍵元素的一種傳統(tǒng)的技術(shù)是TextRank (文本分級(jí))方法,這在 Rada Mihalcea 禾口 Paul Tarau 的論文"TextRank :Bring Order into Texts,,中可以找至Ij 相關(guān)描述,其全文被引用合并于此。TextRank模型從自然語言的文檔中提取詞或句子元素, 然后將這些詞或句子元素作為圖的節(jié)點(diǎn)來打分,其基本思想是當(dāng)一個(gè)節(jié)點(diǎn)鏈接到另一節(jié)點(diǎn)時(shí),給該另一節(jié)點(diǎn)加一分。而且該節(jié)點(diǎn)的分值越高,該節(jié)點(diǎn)的重要程度越高。通過計(jì)算這些節(jié)點(diǎn)的最后分值來獲得每個(gè)節(jié)點(diǎn)的重要程度,以便得到關(guān)鍵的詞元素或關(guān)鍵的句子元素。 但是,該TextRank方法只考慮同一類型(例如詞或句子)的元素之間的鏈接關(guān)系,而不考慮不同類型的元素之間(例如,詞和句子之間)的關(guān)系。通過這種方法計(jì)算的節(jié)點(diǎn)的分值不能更準(zhǔn)確地表示該元素的重要程度,因此會(huì)導(dǎo)致通過關(guān)鍵詞或關(guān)鍵句子搜索得不到想要得到的結(jié)果。從文檔中獲得關(guān)鍵元素的另一傳統(tǒng)的技術(shù)是在專利W02006/001906,Graph-based ranking algorithms for text processing 巾白勺一禾中i^ffl ISjfe^biim、一禾中自Μ * 形式的文本的方法,其全部內(nèi)容被引用附于此。該方法包括從自然語言文本中確定同種類型(例如,詞或句子)的多個(gè)文本單元,把這多個(gè)文本單元與多個(gè)圖節(jié)點(diǎn)關(guān)聯(lián)起來,并且確定至少兩個(gè)文本單元之間的至少一個(gè)連接關(guān)系。但是,該專利主要關(guān)注于獨(dú)立的句子與句子之間和字與字之間的關(guān)系,即同種類型的文本單元之間的關(guān)系,也不考慮句子和字之間的關(guān)系,因此同樣,通過這種方法得到的同種類型的文本單元之間的關(guān)系也不能準(zhǔn)確地表示該文本單元在整個(gè)文檔中的重要程度,因此會(huì)導(dǎo)致通過關(guān)鍵詞或關(guān)鍵句子搜索得不到想要得到的結(jié)果。從文檔中獲得關(guān)鍵元素的另一傳統(tǒng)的技術(shù)是Xiaojun Wan等的“Towards an iterative reinforcement approach for simultaneous document summarization and keyword extraction". (ACL),2007中提出的一種關(guān)鍵詞獲得方法,其全部內(nèi)容被引用附于此。該方法基于句子與詞之間的關(guān)系。但是,該方法不考慮文檔標(biāo)題對(duì)文檔中的句子和詞的影響。而且該方法也不涉及其他文本元素(例如,區(qū)域、段落等)之內(nèi)或之間的關(guān)系。因此同樣,通過這種方法得到的同種類型的文本單元之間的關(guān)系也不能準(zhǔn)確地表示該文本單元在整個(gè)文檔中的重要程度。因此,需要一種改進(jìn)的、更準(zhǔn)確地得到在文檔中的文本元素的重要程度以便得到關(guān)鍵元素的方法和設(shè)備。

      發(fā)明內(nèi)容
      關(guān)鍵元素獲得和文本摘要都瞄準(zhǔn)從文檔中獲得精準(zhǔn)的能夠代表該文的信息的關(guān)鍵元素。現(xiàn)有技術(shù)中的一般技術(shù)方案都是關(guān)注于使用獨(dú)立的句子、詞以及他們之間的關(guān)系。 但是,文檔的物理結(jié)構(gòu)并沒有充分地被挖掘。因此,現(xiàn)有技術(shù)中的獲得關(guān)鍵元素的方案都不能準(zhǔn)確地表示該文本元素在整個(gè)文檔中的重要程度,因此所獲得的關(guān)鍵元素不能恰當(dāng)?shù)卮碚麄€(gè)文檔的內(nèi)容信息,從而導(dǎo)致無法通過該關(guān)鍵元素得到期望的文檔搜索結(jié)果,也無法獲得確切的文檔摘要。根據(jù)本申請(qǐng)的一個(gè)方面,提供一種在文檔中獲得一個(gè)或多個(gè)關(guān)鍵元素的方法,包括以下步驟抽取該文檔的結(jié)構(gòu)元素,所述結(jié)構(gòu)元素至少包含標(biāo)題元素,其中,該文檔包括多個(gè)結(jié)構(gòu)上的層,所述結(jié)構(gòu)上的層至少包含標(biāo)題層,且每個(gè)結(jié)構(gòu)元素對(duì)應(yīng)于各自的層;確定除了標(biāo)題層以外的一層中的被抽取的結(jié)構(gòu)元素在其對(duì)應(yīng)的層內(nèi)的層內(nèi)權(quán)重;確定所述被抽取的結(jié)構(gòu)元素與除了其對(duì)應(yīng)的層和標(biāo)題層以外的其他層中的結(jié)構(gòu)元素之間的跨層權(quán)重;確定所述被抽取的結(jié)構(gòu)元素與標(biāo)題元素之間的全局權(quán)重;組合所述被抽取的結(jié)構(gòu)元素的層內(nèi)權(quán)重、跨層權(quán)重和全局權(quán)重來確定所述被抽取的結(jié)構(gòu)元素的最后權(quán)重;以及根據(jù)所述一層中的結(jié)構(gòu)元素的最后權(quán)重,來獲得所述一層中的一個(gè)或多個(gè)關(guān)鍵元素。根據(jù)本申請(qǐng)的另一方面,還提供一種在文檔中獲得一個(gè)或多個(gè)關(guān)鍵元素的設(shè)備, 包括抽取裝置,抽取該文檔的結(jié)構(gòu)元素,所述結(jié)構(gòu)元素至少包含標(biāo)題元素,其中,該文檔包括多個(gè)結(jié)構(gòu)上的層,所述結(jié)構(gòu)上的層至少包含標(biāo)題層,且每個(gè)結(jié)構(gòu)元素對(duì)應(yīng)于各自的層;層內(nèi)權(quán)重確定裝置,確定除了標(biāo)題層以外的一層中的被抽取的結(jié)構(gòu)元素在其對(duì)應(yīng)的層內(nèi)的層內(nèi)權(quán)重;跨層權(quán)重確定裝置,確定所述被抽取的結(jié)構(gòu)元素與除了其對(duì)應(yīng)的層和標(biāo)題層以外的其他層中的結(jié)構(gòu)元素之間的跨層權(quán)重;全局權(quán)重確定裝置,確定所述被抽取的結(jié)構(gòu)元素與標(biāo)題元素之間的全局權(quán)重;最后權(quán)重確定裝置,組合被抽取的結(jié)構(gòu)元素的層內(nèi)權(quán)重、跨層權(quán)重和全局權(quán)重來確定所述被抽取的結(jié)構(gòu)元素的最后權(quán)重;以及關(guān)鍵元素獲得裝置,根據(jù)所述一層中的被抽取的結(jié)構(gòu)元素的最后權(quán)重,來獲得所述一層中的一個(gè)或多個(gè)關(guān)鍵元素。因此,本申請(qǐng)可以實(shí)現(xiàn)更準(zhǔn)確地計(jì)算文檔中的結(jié)構(gòu)元素的重要程度,從而更準(zhǔn)確地得到文檔中的關(guān)鍵結(jié)構(gòu)元素,以便利用這些關(guān)鍵結(jié)構(gòu)元素來進(jìn)行一系列相關(guān)應(yīng)用。


      圖1示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的獲得一個(gè)或多個(gè)關(guān)鍵元素的方法;圖2通過樹結(jié)構(gòu)示意性地示出了根據(jù)本發(fā)明的一種實(shí)施例、文檔的結(jié)構(gòu)元素的關(guān)系;圖3是示意性地具體示出了根據(jù)本發(fā)明的一種實(shí)施例、組合不同元素的層內(nèi)權(quán)重、跨層權(quán)重和全局權(quán)重的整體算法圖;圖4示意性地示出了根據(jù)本發(fā)明的一種實(shí)施例、建立詞、字層的層內(nèi)關(guān)系;圖5示意性地示出了根據(jù)本發(fā)明的一種實(shí)施例、計(jì)算層內(nèi)權(quán)重時(shí)使用的TextRank 的基于圖的算法;
      圖6示意性地示出了根據(jù)本發(fā)明的一種實(shí)施例、計(jì)算跨層關(guān)系時(shí)使用的命中矩陣;以及圖7示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的獲得一個(gè)或多個(gè)關(guān)鍵元素的設(shè)備。
      具體實(shí)施例方式下面結(jié)合附圖詳細(xì)描述本發(fā)明的各個(gè)實(shí)施例。但是,注意,這些實(shí)施例僅是舉例, 而不是限制。圖1示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的獲得一個(gè)或多個(gè)關(guān)鍵元素的方法100。該方法100包括步驟S101,抽取該文檔的結(jié)構(gòu)元素。如上所述,該結(jié)構(gòu)元素可以包含標(biāo)題元素。該文檔可以包括多個(gè)結(jié)構(gòu)上的層,這些結(jié)構(gòu)上的層可以至少包含標(biāo)題層。且每個(gè)結(jié)構(gòu)元素對(duì)應(yīng)于各自的層。該方法100還包括步驟S102,確定除了標(biāo)題層以外的一層中的被抽取的結(jié)構(gòu)元素在其對(duì)應(yīng)的層內(nèi)的層內(nèi)權(quán)重。該方法100還包括步驟S103,確定所述被抽取的結(jié)構(gòu)元素與除了其對(duì)應(yīng)的層和標(biāo)題層以外的其他層中的結(jié)構(gòu)元素之間的跨層權(quán)重。該方法100還包括步驟S104,確定所述被抽取的結(jié)構(gòu)元素與標(biāo)題元素之間的全局權(quán)重。該方法100還包括步驟S105,組合所述被抽取的結(jié)構(gòu)元素的層內(nèi)權(quán)重、跨層權(quán)重和全局權(quán)重來確定所述被抽取的結(jié)構(gòu)元素的最后權(quán)重。該方法100還包括步驟S106,根據(jù)所述一層中的結(jié)構(gòu)元素的最后權(quán)重,來獲得所述一層中的一個(gè)或多個(gè)關(guān)鍵元素。如此,可以通過組合結(jié)構(gòu)元素的層內(nèi)權(quán)重、跨層權(quán)重和全局權(quán)重以更準(zhǔn)確地得到結(jié)構(gòu)元素的重要性程度,從而可以更準(zhǔn)確地獲得一個(gè)或多個(gè)關(guān)鍵元素。下面,描述根據(jù)本發(fā)明的一個(gè)實(shí)施例的獲得一個(gè)或多個(gè)關(guān)鍵元素的具體流程。為了便于描述而不意圖限制,以下以樹的結(jié)構(gòu)來自然地表示文檔的結(jié)構(gòu)信息,這棵樹中的每層可以分別代表標(biāo)題、區(qū)域、段落、句子、詞(和/或字)(其中,區(qū)域指的是以文檔作為整體所劃分的部分,其可以包括一個(gè)或多個(gè)段落;另外,詞和字在中文表述里進(jìn)行區(qū)分,而在英文等外文表述里不進(jìn)行區(qū)分而統(tǒng)稱為詞,即在中文表述里字是文本的最小單位, 而在外文表述里詞是文本的最小單位,在此,為了最大的保護(hù)范圍,本申請(qǐng)的描述中包括了在中文環(huán)境下的詞和字,但是實(shí)際上在外文環(huán)境下,可以將詞和字統(tǒng)稱為詞),這種層次關(guān)系同樣透露很多有意義的信息。獲得不同的層次中的關(guān)鍵元素并且把它們之間的關(guān)系整合起來考慮,更具合理性,可以得到更準(zhǔn)確的關(guān)鍵元素重要性,得到的效果也更好。此外,在一個(gè)聯(lián)合模型中,獲得不同種類的關(guān)鍵元素,并同時(shí)考慮同一層內(nèi)的關(guān)系和不同層之間跨層的關(guān)系,這樣的模型是有用而且是新穎的,因此下面詳細(xì)描述基于樹結(jié)構(gòu)信息的獲得一個(gè)或多個(gè)關(guān)鍵元素的一種具體方法。圖2通過例如樹結(jié)構(gòu)示出了文檔中結(jié)構(gòu)元素的關(guān)系。圖2示意性地顯示了文檔中的4種層次、例如標(biāo)題層、區(qū)域?qū)?、句子層、和詞層。但是,這種層次結(jié)構(gòu)僅是為了便于描述的目的,本申請(qǐng)顯然不限于此。取決于所要獲得的關(guān)鍵元素、獲得關(guān)鍵元素的準(zhǔn)確性或者其他要求,層次還可以只有3種層,例如標(biāo)題層、句子層、和詞層,或者更少?;蛘撸瑢哟芜€可以包括文檔中的其他層次,例如段落層和字層等等。有時(shí),根據(jù)文檔的結(jié)構(gòu)信息,還可以使用另外的層次、例如摘要層、圖片層等等。從圖2中可以看到這里有兩種類型的關(guān)系同層之間的層內(nèi)關(guān)系以及不同層之間的跨層關(guān)系。在此實(shí)施例中,一些結(jié)構(gòu)化的信息可以被假定而且能夠被抽取V每個(gè)文檔通常有個(gè)標(biāo)題;V每個(gè)文檔通常由一系列區(qū)域組成;V每個(gè)區(qū)域通常由一系列句子組成;V每個(gè)句子通常由一系列詞組成。因此,圖2中示出了 4種層次關(guān)系、標(biāo)題層、區(qū)域?qū)?、句子層、和詞層。在這種情況下,層內(nèi)的關(guān)系可以由位置關(guān)系、順序關(guān)系,或者元素之間的相似度得到。對(duì)跨層的關(guān)系來說,最自然的關(guān)系是在樹中的父與子之間的關(guān)系,同樣地,針對(duì)這種樹中的關(guān)系可以有些假設(shè)如果孩子在一個(gè)更為重要的父之下,那么他們也更為重要; 如果父更為重要的話,那么在他們之下的孩子也相對(duì)更為重要。根據(jù)這個(gè)假設(shè),可以知道V標(biāo)題表達(dá)了一篇文檔的相對(duì)重要的信息;V如果句子在一個(gè)重要的區(qū)域中,那么這些句子也相對(duì)重要一些;V如果區(qū)域包括了一些重要的句子,那么這個(gè)區(qū)域也相對(duì)重要一些;V如果詞在一個(gè)重要的句子中,那么這些詞也相對(duì)重要一些;V如果句子包括了一些重要的詞,那么這個(gè)句子也相對(duì)重要一些。以上是對(duì)評(píng)價(jià)一個(gè)結(jié)構(gòu)元素的重要程度的一些假設(shè),但是,可以存在其他的評(píng)價(jià)結(jié)構(gòu)元素的重要程度的假設(shè)和推論。圖3是示意性地具體示出了組合不同元素的層內(nèi)權(quán)重、跨層權(quán)重和全局權(quán)重的整體算法圖。當(dāng)然,這種算法只是根據(jù)本發(fā)明的一個(gè)實(shí)施例的一種具體的算法,僅是示例,而不是限制。如圖3中所示,對(duì)于區(qū)域、句子、詞(和/或段落、字等)來說,步驟S201-S209是為了計(jì)算結(jié)構(gòu)元素在同層內(nèi)的層內(nèi)權(quán)重,其中步驟S201、S202、S203計(jì)算同層的結(jié)構(gòu)元素的初始權(quán)重;步驟S204、S205、S206建立結(jié)構(gòu)元素在同層之內(nèi)的層內(nèi)關(guān)系;步驟S207、S208、 S209計(jì)算同層的結(jié)構(gòu)元素的層內(nèi)權(quán)重。步驟S210-S211是為了計(jì)算不同層的結(jié)構(gòu)元素之間的跨層權(quán)重。對(duì)于標(biāo)題來說,標(biāo)題是對(duì)應(yīng)標(biāo)題層的一個(gè)單獨(dú)的節(jié)點(diǎn),在步驟S212中,標(biāo)題對(duì)所有下面的元素(包括區(qū)域、句子、詞元素)有一個(gè)全局的加權(quán)關(guān)系。在這種情況下,標(biāo)題是被當(dāng)作一種查詢條件來找到具有關(guān)系的文本元素。層內(nèi)權(quán)重的計(jì)算下面具體描述區(qū)域、句子、詞元素的層內(nèi)權(quán)重的一個(gè)具體計(jì)算方法,其由以下步驟完成1.各結(jié)構(gòu)元素的初始權(quán)重首先,可以給各個(gè)結(jié)構(gòu)元素賦予初始權(quán)重(S201、S202、S203)。區(qū)域元素或段落元素的初始權(quán)重可以與區(qū)域或段落的位置信息有關(guān);句子元素的初始權(quán)重可以與該句子被其他句子引用的次數(shù)有關(guān);而且/或者詞或字的初始權(quán)重可以與該詞或字的詞性和/或出現(xiàn)頻率有關(guān)。具體地,對(duì)區(qū)域或段落來說,決定初始權(quán)重的可以是位置。不同的位置可以被賦予不同的經(jīng)驗(yàn)的初始權(quán)重(S201);其中一種實(shí)施方式是
      7
      · C(Si) = 1,如果位置在開始,或者結(jié)束,則為1,否則為0.5 ;其中,C(Si)指的是元素Si的初始權(quán)重。顯然,上述設(shè)置初始權(quán)重的方式不是唯一的,而是可以根據(jù)不同的情況來設(shè)置不同的初始權(quán)重計(jì)算方式。對(duì)句子來說,先驗(yàn)的初始權(quán)重可以由該句子被其它句子引用的次數(shù)決定(S202), 其中一種實(shí)施方式為· C(Si) = log(e+cin) ......公式(1)·其中C(Si)指的是元素Si的初始權(quán)重,Cin表示其他元素對(duì)元素Si的引用次數(shù), 而引用次數(shù)則由該句的代表性詞是在別的句子中出現(xiàn)。顯然,上述設(shè)置初始權(quán)重的方式不是唯一的,而是可以根據(jù)不同的情況來設(shè)置不同的初始權(quán)重計(jì)算方式。對(duì)詞/字來說,其初始權(quán)重可以根據(jù)詞性的經(jīng)驗(yàn)權(quán)重來決定(S203),如名詞的重要程度高一些,為1. 0,動(dòng)態(tài)稍次,為0. 7等。但是,其初始權(quán)重不限于此,還可以根據(jù)詞/字出現(xiàn)的頻率,或者預(yù)設(shè)值等來決定。也就是說,上述設(shè)置初始權(quán)重的方式不是唯一的,而是可以根據(jù)不同的情況來設(shè)置不同的初始權(quán)重計(jì)算方式。2.層內(nèi)關(guān)系鏈的權(quán)重的計(jì)算在此,可以確定該結(jié)構(gòu)元素與在其對(duì)應(yīng)的層內(nèi)的其他結(jié)構(gòu)元素之間的層內(nèi)關(guān)系鏈的權(quán)重。對(duì)于區(qū)域元素、段落元素和句子元素,可以通過兩個(gè)結(jié)構(gòu)元素之間共同包含的詞或字的數(shù)目和兩個(gè)結(jié)構(gòu)元素的詞或字的總數(shù)來計(jì)算兩個(gè)結(jié)構(gòu)元素之間的層內(nèi)關(guān)系鏈的權(quán)重。具體地,對(duì)區(qū)域(或段落)和句子層來說,層內(nèi)的關(guān)系鏈?zhǔn)怯上嗨贫葲Q定的(S204, S205),其中一種計(jì)算方式如Sim(Gijej) = I {wk I wk G ei & wk e ej} / (log( | θ |)+lig( | ej |) ......公式
      (2)其中,sim(ei,ei)表示元素ei和e」之間的相似度…和e」在樹結(jié)構(gòu)中是兩個(gè)屬性節(jié)點(diǎn),一般是區(qū)域(或段落)或句子層內(nèi)的一個(gè)短語或詞,wk表示組成這個(gè)詞的單詞或字, Iog(IeiI)表示此屬性節(jié)點(diǎn)有幾個(gè)字,而I {wklwk G ei & wk e ej} I則代表即屬于ei又屬于h的字的數(shù)目。如此,通過遍歷區(qū)域(或段落)、或句子層內(nèi)的所有短語或字,得到兩個(gè)區(qū)域(或段落)、或句子之間的總相似度。當(dāng)然,區(qū)域(或段落)和句子層的相似度還可以由其他已知方法來獲得。另外,可以在相似度大于某個(gè)閾值的情況下決定兩個(gè)元素之間具有層內(nèi)關(guān)系。對(duì)于詞元素和字元素,則可以通過同層的兩個(gè)結(jié)構(gòu)元素同時(shí)出現(xiàn)在同一個(gè)預(yù)定大小的元素窗口內(nèi)時(shí)之間的距離和該元素窗口的預(yù)定大小來計(jì)算兩個(gè)結(jié)構(gòu)元素在該元素窗口內(nèi)的關(guān)系值,并可以通過這兩個(gè)結(jié)構(gòu)元素在整個(gè)文檔中的各個(gè)元素窗口內(nèi)的關(guān)系值之和來計(jì)算這兩個(gè)結(jié)構(gòu)元素在整個(gè)文檔中層內(nèi)關(guān)系鏈的權(quán)重。具體地,對(duì)詞、字層的關(guān)系鏈的建立而言,例如可以采用共現(xiàn)的方法(S206)。圖4 示出了建立詞、字層的層內(nèi)關(guān)系鏈的示意圖 如果某些詞/字在同一個(gè)預(yù)定大小的窗口內(nèi)(典型地,大小為5),則認(rèn)為這兩個(gè)
      詞/字之間存在關(guān)系。
      ·可以使用距離來計(jì)算兩個(gè)詞/字在該窗口內(nèi)的關(guān)系值,其公式為
      權(quán)利要求
      1.一種在文檔中獲得一個(gè)或多個(gè)關(guān)鍵元素的方法,包括以下步驟a)抽取該文檔的結(jié)構(gòu)元素,所述結(jié)構(gòu)元素至少包含標(biāo)題元素,其中,該文檔包括多個(gè)結(jié)構(gòu)上的層,所述結(jié)構(gòu)上的層至少包含標(biāo)題層,且每個(gè)結(jié)構(gòu)元素對(duì)應(yīng)于各自的層;b)確定除了標(biāo)題層以外的一層中的被抽取的結(jié)構(gòu)元素在其對(duì)應(yīng)的層內(nèi)的層內(nèi)權(quán)重;c)確定所述被抽取的結(jié)構(gòu)元素與除了其對(duì)應(yīng)的層和標(biāo)題層以外的其他層中的結(jié)構(gòu)元素之間的跨層權(quán)重;d)確定所述被抽取的結(jié)構(gòu)元素與標(biāo)題元素之間的全局權(quán)重;e)組合所述被抽取的結(jié)構(gòu)元素的層內(nèi)權(quán)重、跨層權(quán)重和全局權(quán)重來確定所述被抽取的結(jié)構(gòu)元素的最后權(quán)重;以及f)根據(jù)所述一層中的結(jié)構(gòu)元素的最后權(quán)重,來獲得所述一層中的一個(gè)或多個(gè)關(guān)鍵元ο
      2.根據(jù)權(quán)利要求1所述的方法,其中所述結(jié)構(gòu)元素還包括區(qū)域元素、段落元素、句子元素、詞元素、字元素中的一個(gè)或多個(gè),所述結(jié)構(gòu)上的層還包括區(qū)域?qū)?、段落層、句子層、詞層和字層中的一個(gè)或多個(gè)。
      3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述步驟b)包括b-Ι)給被抽取的結(jié)構(gòu)元素賦予初始權(quán)重;b-2)確定被抽取的結(jié)構(gòu)元素與在其對(duì)應(yīng)的層內(nèi)的其他結(jié)構(gòu)元素之間的層內(nèi)關(guān)系鏈的權(quán)重;b-3)根據(jù)被抽取的結(jié)構(gòu)元素的初始權(quán)重和其層內(nèi)關(guān)系鏈的權(quán)重,確定被抽取的結(jié)構(gòu)元素在其對(duì)應(yīng)的層內(nèi)的層內(nèi)權(quán)重。
      4.根據(jù)權(quán)利要求3所述的方法,其中,在步驟b-Ι)中,區(qū)域元素或段落元素的初始權(quán)重與區(qū)域或段落的位置信息有關(guān);句子元素的初始權(quán)重與該句子被其他句子引用的次數(shù)有關(guān);而且/或者詞或字的初始權(quán)重與該詞或字的詞性和/或出現(xiàn)詞頻有關(guān)。
      5.根據(jù)權(quán)利要求3所述的方法,其中,在步驟b-幻中,對(duì)于區(qū)域元素、段落元素和句子元素,通過兩個(gè)結(jié)構(gòu)元素之間共同包含的詞或字的數(shù)目和兩個(gè)結(jié)構(gòu)元素的詞或字的總數(shù)來計(jì)算兩個(gè)結(jié)構(gòu)元素之間的層內(nèi)關(guān)系鏈的權(quán)重;且對(duì)于詞元素和字元素,則通過同層的兩個(gè)結(jié)構(gòu)元素同時(shí)出現(xiàn)在同一個(gè)預(yù)定大小的元素窗口內(nèi)時(shí)之間的距離和該元素窗口的預(yù)定大小來計(jì)算兩個(gè)結(jié)構(gòu)元素在該元素窗口內(nèi)的關(guān)系值,并通過這兩個(gè)結(jié)構(gòu)元素在整個(gè)文檔中的各個(gè)元素窗口內(nèi)的關(guān)系值之和來計(jì)算這兩個(gè)結(jié)構(gòu)元素在整個(gè)文檔中層內(nèi)關(guān)系鏈的權(quán)重。
      6.根據(jù)權(quán)利要求3所述的方法,其中,在步驟b-3)中,利用TextRank的基于圖的算法, 根據(jù)被抽取的結(jié)構(gòu)元素的初始權(quán)重和其層內(nèi)關(guān)系鏈的權(quán)重,來計(jì)算被抽取的結(jié)構(gòu)元素在其對(duì)應(yīng)的層內(nèi)的層內(nèi)權(quán)重。
      7.根據(jù)權(quán)利要求1或2所述的方法,其中,在所述步驟c)中,通過所述被抽取的結(jié)構(gòu)元素和所述其他層中的結(jié)構(gòu)元素之間的包含次數(shù)、該被抽取的結(jié)構(gòu)元素的層內(nèi)權(quán)重和/或其他層結(jié)構(gòu)元素的層內(nèi)權(quán)重這些參數(shù)中的一個(gè)或多個(gè)來計(jì)算在所述被抽取的結(jié)構(gòu)元素的跨層權(quán)重。
      8.根據(jù)權(quán)利要求1或2所述的方法,其中,在所述步驟d)中,通過被抽取的結(jié)構(gòu)元素與標(biāo)題元素之間共同包含的詞或字的數(shù)目、共同包含的詞或字出現(xiàn)的詞頻、共同包含的詞或字的詞性、被抽取的結(jié)構(gòu)元素的詞或字的總數(shù)、標(biāo)題元素的詞或字的總數(shù)、被抽取的結(jié)構(gòu)元素的層內(nèi)權(quán)重和/或被抽取的結(jié)構(gòu)元素的跨層權(quán)重這些參數(shù)中的一個(gè)或多個(gè)來計(jì)算被抽取的結(jié)構(gòu)元素的全局權(quán)重。
      9.根據(jù)權(quán)利要求1所述的方法,其中,在所述步驟f)中,將所述一層中的結(jié)構(gòu)元素的最后權(quán)重進(jìn)行排序,獲得最后權(quán)重最高的一個(gè)或多個(gè)結(jié)構(gòu)元素作為所述一層中的一個(gè)或多個(gè)關(guān)鍵元素。
      10.一種在文檔中獲得一個(gè)或多個(gè)關(guān)鍵元素的設(shè)備,包括抽取裝置,抽取該文檔的結(jié)構(gòu)元素,所述結(jié)構(gòu)元素至少包含標(biāo)題元素,其中,該文檔包括多個(gè)結(jié)構(gòu)上的層,所述結(jié)構(gòu)上的層至少包含標(biāo)題層,且每個(gè)結(jié)構(gòu)元素對(duì)應(yīng)于各自的層;層內(nèi)權(quán)重確定裝置,確定除了標(biāo)題層以外的一層中的被抽取的結(jié)構(gòu)元素在其對(duì)應(yīng)的層內(nèi)的層內(nèi)權(quán)重;跨層權(quán)重確定裝置,確定所述被抽取的結(jié)構(gòu)元素與除了其對(duì)應(yīng)的層和標(biāo)題層以外的其他層中的結(jié)構(gòu)元素之間的跨層權(quán)重;全局權(quán)重確定裝置,確定所述被抽取的結(jié)構(gòu)元素與標(biāo)題元素之間的全局權(quán)重;最后權(quán)重確定裝置,組合被抽取的結(jié)構(gòu)元素的層內(nèi)權(quán)重、跨層權(quán)重和全局權(quán)重來確定所述被抽取的結(jié)構(gòu)元素的最后權(quán)重;以及關(guān)鍵元素獲得裝置,根據(jù)所述一層中的被抽取的結(jié)構(gòu)元素的最后權(quán)重,來獲得所述一層中的一個(gè)或多個(gè)關(guān)鍵元素。
      11.根據(jù)權(quán)利要求10所述的設(shè)備,其中所述結(jié)構(gòu)元素還包括區(qū)域元素、段落元素、句子元素、詞元素、字元素中的一個(gè)或多個(gè),所述結(jié)構(gòu)上的層還包括區(qū)域?qū)?、段落層、句子層、詞層和字層中的一個(gè)或多個(gè)。
      全文摘要
      本申請(qǐng)公開了一種在文檔中獲得一個(gè)或多個(gè)關(guān)鍵元素的方法和設(shè)備。該方法包括抽取該文檔的結(jié)構(gòu)元素,所述結(jié)構(gòu)元素至少包含標(biāo)題元素,其中,該文檔包括多個(gè)結(jié)構(gòu)上的層,所述結(jié)構(gòu)上的層至少包含標(biāo)題層,且每個(gè)結(jié)構(gòu)元素對(duì)應(yīng)于各自的層;確定除了標(biāo)題層以外的一層中的被抽取的結(jié)構(gòu)元素在其對(duì)應(yīng)的層內(nèi)的層內(nèi)權(quán)重;確定所述被抽取的結(jié)構(gòu)元素與除了其對(duì)應(yīng)的層和標(biāo)題層以外的其他層中的結(jié)構(gòu)元素之間的跨層權(quán)重;確定所述被抽取的結(jié)構(gòu)元素與標(biāo)題元素之間的全局權(quán)重;組合所述被抽取的結(jié)構(gòu)元素的層內(nèi)權(quán)重、跨層權(quán)重和全局權(quán)重來確定所述被抽取的結(jié)構(gòu)元素的最后權(quán)重;以及根據(jù)所述一層中的結(jié)構(gòu)元素的最后權(quán)重,來獲得所述一層中的一個(gè)或多個(gè)關(guān)鍵元素。
      文檔編號(hào)G06F17/27GK102314448SQ201010218148
      公開日2012年1月11日 申請(qǐng)日期2010年7月6日 優(yōu)先權(quán)日2010年7月6日
      發(fā)明者姜珊珊, 孫軍, 謝宣松, 趙利軍, 鄭繼川 申請(qǐng)人:株式會(huì)社理光
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1