專利名稱:摘要生成裝置和摘要生成方法
技術領域:
本發(fā)明涉及摘要生成裝置和摘要生成方法。
背景技術:
為了電子書籍的檢索等目的而應用從表示文章的文章數(shù)據(jù)生成表示摘要的摘要數(shù)據(jù)的技術。作為摘要生成的步驟,例如有對于構成文章的各句根據(jù)各種各樣的基準計算分值而抽出分值較高的句子的步驟。例如JP特開2003-281164號公報記載有利用單詞詞頻作為分值計算的基準的方式。這是因為詞頻較高的單詞被推測為文章中重要的單詞。文章由多個句子構成,句子由多個單詞構成。并且,在各個單詞中存在不只有一個詞義而具有多個詞義的單詞。但是,在JP特開2003-281164號公報記載的方法中,在利用單詞詞頻時未考慮單詞的詞義。關于具有多個詞義的單詞,即使詞頻高也存在與各詞義對應的詞頻低的情況。因此,具有多個詞義的單詞即使詞頻高也可能并非重要單詞。因此,按照JP特開2003-281164 號公報記載的方法,對于具有多個詞義的單詞不加考慮地僅基于各單詞的詞頻計算分值, 即使抽出了句子也無法生成適當?shù)恼?br>
發(fā)明內(nèi)容
本發(fā)明為了解決上述課題而做出,其目的在于提供摘要生成裝置和摘要生成方法,通過對具有多個詞義的單詞進行考慮而能夠生成適當?shù)恼?。本發(fā)明是摘要生成裝置,其特征在于,具有存儲文章數(shù)據(jù)的文章數(shù)據(jù)存儲部;詞頻統(tǒng)計部,對由上述文章數(shù)據(jù)表示的文章中的多個單詞,基于該文章數(shù)據(jù)統(tǒng)計各單詞的詞頻,當上述文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞處理,統(tǒng)計與各副單詞對應的詞頻;句子選擇部,基于上述文章數(shù)據(jù)和表示上述文章中的單詞和副單詞中通過上述詞頻統(tǒng)計部統(tǒng)計的詞頻最高者的數(shù)據(jù),選擇上述文章中的多個句子,從而生成摘要數(shù)據(jù)。根據(jù)本發(fā)明,詞頻統(tǒng)計部,當文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞處理,統(tǒng)計與各副單詞對應的詞頻。并且,句子選擇部,基于表示文章中的單詞和副單詞中通過詞頻統(tǒng)計部統(tǒng)計的詞頻最高者的數(shù)據(jù),選擇句子來生成摘要數(shù)據(jù)。因此,本發(fā)明的摘要生成裝置,能夠生成考慮了具有多個詞義的單詞的適當?shù)恼?。并且本發(fā)明的摘要生成裝置,其特征在于,上述詞頻統(tǒng)計部具有存儲將單詞、與該單詞對應的多個詞義、與該多個詞義各自對應的搭配語關聯(lián)起來的詞典數(shù)據(jù)的詞典數(shù)據(jù)存儲部;基于上述文章數(shù)據(jù)和上述詞典數(shù)據(jù)判斷上述文章中的各單詞是否具有多個詞義的單詞判斷部;基于上述文章數(shù)據(jù)和上述詞典數(shù)據(jù)從包含通過上述單詞判斷部判斷為具有多個
4詞義的單詞的句子中檢出與該單詞關聯(lián)的搭配語的搭配語檢出部;出現(xiàn)數(shù)取得部,基于上述文章數(shù)據(jù)和上述詞典數(shù)據(jù),對通過上述單詞判斷部判斷為不具有多個詞義的單詞,取得在上述文章中出現(xiàn)的該單詞的數(shù)量作為詞頻,對通過上述單詞判斷部判斷為具有多個詞義的單詞,按照與通過上述搭配語檢出部檢出的搭配語對應的每個詞義作為不同的副單詞處理,取得在上述文章中出現(xiàn)的該副單詞的數(shù)量作為詞頻。并且根據(jù)本發(fā)明,能夠基于在詞典數(shù)據(jù)存儲部中存儲的詞典數(shù)據(jù),通過搭配語檢出部檢出與具有多個詞義的單詞關聯(lián)的搭配語。并且,能夠通過出現(xiàn)數(shù)取得部對具有多個詞義的單詞,按照與搭配語檢出部檢出的搭配語對應的每個詞義作為不同的副單詞處理, 取得在文章中出現(xiàn)的該副單詞的數(shù)量作為詞頻。并且本發(fā)明的摘要生成裝置,其特征在于,上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含上述判斷為具有多個詞義的單詞的句子的前一句和后一句的至少一方中,檢測與該單詞關聯(lián)的搭配語。并且根據(jù)本發(fā)明,搭配語檢出部從包含具有多個詞義的單詞的句子的前一句和后一句的至少一方中檢出搭配語。因此,即使包含具有多個詞義的單詞的句子中不存在搭配語,對于該單詞,也能夠按照與搭配語對應的每個詞義作為不同的副單詞處理,從而能夠生成適當?shù)恼2⑶冶景l(fā)明的摘要生成裝置,其特征在于,上述詞典數(shù)據(jù)將單詞與跟該單詞對應的同義詞建立關聯(lián),上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的同義詞關聯(lián)的搭配語,上述出現(xiàn)數(shù)取得部構成為,對通過上述搭配語檢出部檢出與上述同義詞關聯(lián)的搭配語的單詞,按照與該搭配語對應的每個詞義作為不同的第二副單詞處理,取得在上述文章中出現(xiàn)的該第二副單詞的數(shù)量作為詞頻。并且根據(jù)本發(fā)明,搭配語檢出部從包含具有多個詞義的單詞的句子中檢出與該單詞的同義詞關聯(lián)的搭配語。因此,即使包含具有多個詞義的單詞的句子中不存在該單詞的搭配語,對于該單詞,也能夠按照與同義詞的搭配語對應的每個詞義作為不同的第二副單詞處理,從而能夠生成適當?shù)恼?。并且,即使在包含具有多個詞義的單詞的句子的前一句和后一句中不存在該單詞的搭配語,對于該單詞,也能夠按照與同義詞的搭配語對應的詞義作為不同的第二副單詞處理,從而能夠生成適當?shù)恼?。并且本發(fā)明的摘要生成裝置,其特征在于,上述詞典數(shù)據(jù)將單詞與跟該單詞對應的近義詞建立關聯(lián),上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的近義詞關聯(lián)的搭配語,上述出現(xiàn)數(shù)取得部構成為,對通過上述搭配語檢出部檢出與上述近義詞關聯(lián)的搭配語的單詞,按照與該搭配語對應的每個詞義作為不同的第三副單詞處理,取得在上述文章中出現(xiàn)的該第三副單詞的數(shù)量作為詞頻。并且根據(jù)本發(fā)明,搭配語檢出部從包含具有多個詞義的單詞的句子中檢出與該單詞的近義詞關聯(lián)的搭配語。因此,即使包含具有多個詞義的單詞的句子中不存在該單詞的搭配語,對于該單詞,也能夠按照與近義詞的搭配語對應的每個詞義作為不同的第三副單詞處理,從而能夠生成適當?shù)恼?。并且,即使在包含具有多個詞義的單詞的句子的前一句和后一句中不存在該單詞的搭配語,或者不存在與該單詞的同義詞關聯(lián)的搭配語,對于該單詞,也能夠按照與近義詞的搭配語對應的每個詞義作為不同的第三副單詞處理,從而能夠生成適當?shù)恼?。并且本發(fā)明的摘要生成裝置,其特征在于,上述詞典數(shù)據(jù)將單詞與跟該單詞對應的反義詞建立關聯(lián),上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的反義詞關聯(lián)的搭配語,上述出現(xiàn)數(shù)取得部構成為,對通過上述搭配語檢出部檢出與上述反義詞關聯(lián)的搭配語的單詞,按照與該搭配語對應的詞義作為不同的第四副單詞處理,取得在上述文章中出現(xiàn)的該第四副單詞的數(shù)量作為詞頻。并且根據(jù)本發(fā)明,搭配語檢出部從包含具有多個詞義的單詞的句子中檢測與該單詞的反義詞關聯(lián)的搭配語。因此,即使包含具有多個詞義的單詞的句子中不存在該單詞的搭配語,對于該單詞,也能夠按照與反義詞的搭配語對應的每個詞義作為不同的第四副單詞處理,從而能夠生成適當?shù)恼?。并且,即使在包含具有多個詞義的單詞的句子的前一句和后一句中不存在該單詞的搭配語,或者不存在與該單詞的同義詞和近義詞關聯(lián)的搭配語,對于該單詞,也能夠按照與反義詞的搭配語對應的每個詞義作為不同的第四副單詞處理,從而能夠生成適當?shù)恼?。并且本發(fā)明的摘要生成方法,是從文章數(shù)據(jù)生成摘要數(shù)據(jù)的摘要生成裝置生成摘要數(shù)據(jù)時的摘要生成方法,其特征在于,包含以下步驟詞頻統(tǒng)計步驟,對由上述文章數(shù)據(jù)表示的文章中的多個單詞,基于該文章數(shù)據(jù)統(tǒng)計各單詞的詞頻,當上述文章中的單詞有多個詞義時,按照每個詞義作為不同的副單詞處理,統(tǒng)計與各副單詞對應的詞頻;句子選擇步驟,基于上述文章數(shù)據(jù)和表示上述文章中的單詞和副單詞中在上述詞頻統(tǒng)計步驟中統(tǒng)計的詞頻最高者的數(shù)據(jù)選擇上述文章中的多個句子,從而生成摘要數(shù)據(jù)。并且根據(jù)本發(fā)明,在詞頻統(tǒng)計步驟中,當文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞處理,統(tǒng)計與各副單詞對應的詞頻。并且,在句子選擇步驟中,基于表示文章中的單詞和副單詞中通過詞頻統(tǒng)計部統(tǒng)計的詞頻最高者的數(shù)據(jù)選擇句子來生成摘要數(shù)據(jù)。因此,采用本發(fā)明的摘要生成方法,能夠生成考慮了具有多個詞義的單詞的適當?shù)恼?。并且本發(fā)明的摘要生成方法,其特征在于,上述詞頻統(tǒng)計步驟,包含基于上述文章數(shù)據(jù)以及、將單詞、與該單詞對應的多個詞義、與該多個詞義各自對應的搭配語關聯(lián)起來的詞典數(shù)據(jù),判斷上述文章中的各單詞是否具有多個詞義的單詞判斷步驟;基于上述文章數(shù)據(jù)和上述詞典數(shù)據(jù),從包含在上述單詞判斷步驟中判斷為具有多個詞義的單詞的句子中檢出與該單詞關聯(lián)的搭配語的搭配語檢出步驟;出現(xiàn)數(shù)取得步驟,基于上述文章數(shù)據(jù)和上述詞典數(shù)據(jù),對在上述單詞判斷步驟中判斷為不具有多個詞義的單詞,取得在上述文章中出現(xiàn)的該單詞的數(shù)量作為詞頻,對在上述單詞判斷步驟中判斷為具有多個詞義的單詞,按照與在上述搭配語檢出步驟中檢出的搭配語對應的每個詞義作為不同的副單詞處理,取得在上述文章中出現(xiàn)的該副單詞的數(shù)量作為詞頻。并且根據(jù)本發(fā)明,能夠基于詞典數(shù)據(jù),在搭配語檢出步驟中,檢測與具有多個詞義的單詞關聯(lián)的搭配語。并且,能夠在出現(xiàn)數(shù)取得步驟中,對具有多個詞義的單詞,按照與在搭配語檢出步驟中檢出的搭配語對應的每個詞義作為不同的副單詞處理,取得在文章中出現(xiàn)的該副單詞的數(shù)量作為詞頻。
本發(fā)明的目的、特色和優(yōu)點通過下述詳細說明和附圖能夠更加明確。圖1為基于功能表示摘要生成裝置的構成的框圖。圖2為表示相對于文章數(shù)據(jù)的摘要數(shù)據(jù)生成處理的流程圖。
具體實施例方式以下參照附圖對本發(fā)明的優(yōu)選實施方式進行詳細說明。以下對本發(fā)明實施方式的摘要生成裝置100進行說明。摘要生成裝置100是從文章數(shù)據(jù)生成摘要數(shù)據(jù)的裝置。圖1為功能性表示摘要生成裝置100的構成的框圖。摘要生成裝置100通過 PC (Personal Computer)等具備的現(xiàn)有公知的控制運算裝置和存儲裝置實現(xiàn),在功能上包含文章數(shù)據(jù)存儲部10、詞頻統(tǒng)計部20、句子選擇部30。詞頻統(tǒng)計部20包含前處理部21、詞典數(shù)據(jù)存儲部22、單詞判斷部23、搭配語檢出部24、出現(xiàn)數(shù)取得部25。文章數(shù)據(jù)存儲部10具有存儲作為生成摘要數(shù)據(jù)的對象的文章數(shù)據(jù)的功能。通過文章數(shù)據(jù)表示的文章(以下有時簡稱為“文章”)例如是論文或小說等。詞典數(shù)據(jù)存儲部22具有存儲詞典數(shù)據(jù)的功能。詞典數(shù)據(jù)為關于各種單詞的總括性數(shù)據(jù)。具體而言設定為,在詞典數(shù)據(jù)中對各單詞關聯(lián)該單詞是否具有多個詞義的信息。并且設定為,在詞典數(shù)據(jù)中,對具有多個詞義的單詞關聯(lián)多個詞義和與該多個詞義各自對應的搭配語。這里,搭配語是關于具有多個詞義的單詞的各詞義,作為表示該詞義的單詞在句中使用該單詞時,與其它詞義比較,通常與該單詞一起在相同句中使用的可能性高的單詞。例如,“打”這個中文單詞具有“買”、“玩”、“攪拌”、“裝訂”、“浸泡”等詞義。在與該單詞“打”一起使用中文單詞“酒”時,與其它詞義比較,表示“買”的詞義的可能性通常較高。因此,單詞“酒”在詞典數(shù)據(jù)中設定為與詞義“買”對應的搭配語。并且,對于一個單詞,一個搭配語僅對應一個詞義。因此,在單詞“酒”設定為對應詞義“買”的搭配語的情況下,不會作為與“攪拌”、“浸泡”等其它詞義對應的搭配語來設定。搭配語可以利用Wordnet或hownet等數(shù)據(jù)庫,根據(jù)人的判斷在詞典數(shù)據(jù)中設定, 并且也可以使輸入了電子報紙或網(wǎng)站等的文章數(shù)據(jù)的信息處理裝置判斷來設定搭配語。例如,使信息處理裝置判斷與單詞“打”的詞義“攪拌”對應的搭配語時,從通過文章數(shù)據(jù)表示的文章中檢測包含單詞“攪拌”的句子,按照在包含“攪拌”的單詞的句子中出現(xiàn)的次數(shù)的降序?qū)⒁?guī)定個數(shù)(例如100個)的單詞判斷為與單詞“打”的詞義“攪拌”對應的搭配語。
7并且,雖然對于與一個詞義對應地設定的搭配語的數(shù)量沒有特別限制,但是優(yōu)選為50個以上。并且,對于具有多個詞義的單詞,在詞典數(shù)據(jù)中,對該單詞關聯(lián)設定表示與其它詞義相比一般情況下最常用的詞義的信息。與其它詞義相比可能最常用的詞義,根據(jù)以報紙等為基礎的統(tǒng)計進行選擇。并且,在詞典數(shù)據(jù)中,對各單詞關聯(lián)設定同義詞、近義詞和反義詞。并且,在詞典數(shù)據(jù)中,也對各單詞關聯(lián)設定表示該單詞的詞類的信息。對于詞頻統(tǒng)計部20、前處理部21、單詞判斷部23、搭配語檢出部對、出現(xiàn)數(shù)取得部 25和句子選擇部30的功能,按照針對文章數(shù)據(jù)的摘要數(shù)據(jù)生成處理進行說明。圖2為表示針對文章數(shù)據(jù)的摘要數(shù)據(jù)生成處理的流程圖。摘要數(shù)據(jù)生成處理按照詞頻統(tǒng)計步驟Si、句子選擇步驟S2的順序進行。在詞頻統(tǒng)計步驟Sl中,詞頻統(tǒng)計部20對通過文章數(shù)據(jù)表示的文章中的多個單詞, 基于該文章數(shù)據(jù)統(tǒng)計各單詞的詞頻。在詞頻統(tǒng)計步驟Sl中,當文章中的單詞具有多個詞義時,詞頻統(tǒng)計部20按照每個詞義作為不同的副單詞處理,統(tǒng)計與各副單詞對應的詞頻。在句子選擇步驟S2中,通過句子選擇部30,基于文章數(shù)據(jù)和表示文章中的單詞和副單詞中在詞頻統(tǒng)計步驟Sl中統(tǒng)計的詞頻最高者的數(shù)據(jù),選擇文章中的多個句子而生成摘要數(shù)據(jù)。詞頻統(tǒng)計步驟Si,具體而言,按照前處理步驟S1-1、單詞判斷步驟S1-2、搭配語檢出步驟S1-3、出現(xiàn)數(shù)取得步驟S1-4的順序進行。在前處理步驟Sl-I中,通過前處理部21 對文章數(shù)據(jù)進行前處理。具體而言,作為前處理,首先根據(jù)文章中的句號、終止符,將文章分割為構成該文章的各個句子。接著,依照詞典數(shù)據(jù)將各個句子分割為構成各句的各單詞。在單詞判斷步驟S1-2中,通過單詞判斷部23,基于文章數(shù)據(jù)和詞典數(shù)據(jù),判斷文章中的各單詞是否具有多個詞義。當作為判斷對象的單詞,在詞典數(shù)據(jù)中沒有設定,或者與不具有多個詞義的信息關聯(lián)時,判斷為不具有多個詞義,當與具有多個詞義的信息關聯(lián)時, 判斷為具有多個詞義。在搭配語檢出步驟S1-3中,通過搭配語檢出部對,基于文章數(shù)據(jù)和詞典數(shù)據(jù),從包含在單詞判斷步驟S1-2中判斷為具有多個詞義的單詞(以下有時稱為“對象單詞”)的句子(以下稱為“本句”)中檢出與該對象單詞關聯(lián)的搭配語。在本實施方式中,當未從本句中檢出搭配語時,通過搭配語檢出部M,從本句的前一句(以下稱為“前句”)中檢測搭配語。并且,在本實施方式中,當未從前句中檢出搭配語時,通過搭配語檢出部M,從本句的后一句(以下稱為“后句”)中檢測搭配語。并且,作為本發(fā)明的其他實施方式,可以構成為, 當未從本句中檢出搭配語時,從后句中檢測搭配語,此時如果沒有從后句中檢出搭配語,則從前句中檢測搭配語。并且在本實施方式中,當在本句中、前句中和后句中均未檢出與對象單詞關聯(lián)的搭配語時,通過搭配語檢出部M,基于詞典數(shù)據(jù),從本句中檢測與該對象單詞的同義詞關聯(lián)的搭配語。如果在詞典數(shù)據(jù)中相對于對象單詞沒有設定同義詞,或者在詞典數(shù)據(jù)中沒有設定與該同義詞對應的搭配語,或者未從本句中檢出與該同義詞關聯(lián)的搭配語,則通過搭配語檢出部M,基于詞典數(shù)據(jù),從本句中檢測與該對象單詞的近義詞關聯(lián)的搭配語。如果在詞典數(shù)據(jù)中相對于對象單詞沒有設定近義詞,或者在詞典數(shù)據(jù)中沒有設定與該近義詞對應的搭配語,或者未從本句中檢出與該近義詞關聯(lián)的搭配語,則通過搭配語檢出部M,基于詞典數(shù)據(jù),從本文中檢測與該對象單詞的反義詞關聯(lián)的搭配語。并且在本實施方式中,如果在詞典數(shù)據(jù)中相對于對象單詞沒有設定反義詞,或者在詞典數(shù)據(jù)中沒有設定與該反義詞對應的搭配語,或者沒有從本句中檢出與該反義詞關聯(lián)的搭配語,則判斷為通過搭配語檢出部M,基于詞典數(shù)據(jù),檢出了與其它詞義相比可能最常用的詞義對應的搭配語,進行此后的處理。在詞典數(shù)據(jù)中,相對于對象單詞,沒有設定表示與其它詞義相比可能最常用的詞義的信息時,則通過搭配語檢出部M判斷為本句中不存在對象單詞,進行此后的處理。在出現(xiàn)數(shù)取得步驟S1-4中,出現(xiàn)數(shù)取得部25,基于文章數(shù)據(jù)和詞典數(shù)據(jù),對在單詞判斷步驟S1-2中判斷為不具有多個詞義的單詞,取得在文章中出現(xiàn)的該單詞的數(shù)量作為詞頻。因此,對在單詞判斷步驟S1-2中判斷為不具有多個詞義的單詞,在單詞判斷步驟 S1-2的處理之后,立即進行出現(xiàn)數(shù)取得步驟S1-4的處理。另外,在出現(xiàn)數(shù)取得步驟S1-4中,出現(xiàn)數(shù)取得部25,基于文章數(shù)據(jù)和詞典數(shù)據(jù),對在單詞判斷步驟S1-2中判斷為具有多個詞義的單詞,按照與在搭配語檢出步驟S1-3中檢出的該單詞的搭配語對應的每個詞義作為不同的第一副單詞處理,取得在文章中出現(xiàn)的該第一副單詞的數(shù)量作為詞頻。另外,在出現(xiàn)數(shù)取得步驟S1-4中,出現(xiàn)數(shù)取得部25,基于文章數(shù)據(jù)和詞典數(shù)據(jù),對在搭配語檢出步驟S1-3中檢出了與對象單詞的同義詞關聯(lián)的搭配語的該對象單詞,按照與該搭配語對應的每個詞義作為不同的第二副單詞處理,取得在文章中出現(xiàn)的該第二副單詞的數(shù)量作為詞頻。另外,在出現(xiàn)數(shù)取得步驟S1-4中,出現(xiàn)數(shù)取得部25,基于文章數(shù)據(jù)和詞典數(shù)據(jù),對在搭配語檢出步驟S1-3中檢出了與對象單詞的近義詞關聯(lián)的搭配語的該對象單詞,按照與該搭配語對應的每個詞義作為不同的第三副單詞處理,取得在文章中出現(xiàn)的該第三副單詞的數(shù)量作為詞頻。另外,在出現(xiàn)數(shù)取得步驟S1-4中,出現(xiàn)數(shù)取得部25,基于文章數(shù)據(jù)和詞典數(shù)據(jù),對在搭配語檢出步驟S1-3中檢出了與對象單詞的反義詞關聯(lián)的搭配語的該對象單詞,按照與該搭配語對應的每個詞義作為不同的第四副單詞處理,取得在文章中出現(xiàn)的該第四副單詞的數(shù)量作為詞頻。例如,假設在漢語文章中含有“我打酒”的漢語句子。該句子由單詞“我”、“打”和 “酒”構成。并且,“打”這個中文單詞,如上所述具有“買”、“玩”、“攪拌”、“裝訂”、“浸泡”的意思。在詞典數(shù)據(jù)中,關于單詞“打”,與詞義“買,,對應地關聯(lián)搭配語“酒”時,在出現(xiàn)數(shù)取得步驟S1-4中,單詞“打”作為“意思是‘買’的‘打’”的第一副單詞處理,判定為出現(xiàn)一個“意思是‘買’的‘打’”的副單詞。對于文章中的其它單詞“打”,也作為“意思是‘買’的 ‘打’”的副單詞處理時,判定為出現(xiàn)一個“意思是‘買’的‘打’ ”的副單詞。并且,判定的數(shù)的合計值,作為“意思是‘買’的‘打’ ”的副單詞的出現(xiàn)數(shù)量取得,并將取得的出現(xiàn)數(shù)作為詞頻。另外,例如在詞典數(shù)據(jù)中,關于“A”這個單詞,設定“A1”、“A2”和“A3”等詞義,設定“B”是同義詞、“C”是近義詞、“D”是反義詞,對同義詞“B”設定“Β1”、“Β2”等詞義,對近義詞“C”設定“C1”、“C2”的詞義,對反義詞“D”設定“D1”、“D2”、“D3”的詞義,和詞義“Al”、 詞義"A2 ”、詞義"A3 ”、詞義“Bi,,、詞義"B2 ”、詞義"Cl ”、詞義"C2 ”、詞義"Dl,,、詞義"D2 ”、詞義“D3’,分別對應地,設定“a”、“b,,、“c”、“d”、“e”、“f ”、“ g”、“h”、“ i ”、“ j ’,的搭配語時的處
理如下所示。并且,此時假設對單詞“A”設定一般情況下最常用的詞義為“Al”。此時,首先對于單詞“A”,從本句、前句和后句中的任一個檢測搭配語“a”、“b”、 “C”的任一個。例如,在本句中檢出了搭配語“b”時,單詞“A”作為“意思是‘A2’的‘A’” 的第一副單詞處理,判定為出現(xiàn)一個“意思是‘A2’的‘A’”的第一副單詞。并且,在本實施方式中,從本句中(或者前句中或后句中),檢出關于對象單詞與兩個以上的詞義分別對應的搭配語時,基于詞典數(shù)據(jù),該對象單詞作為表示該對象單詞的詞義中一般情況下最常用的詞義的第一副單詞處理,判定為出現(xiàn)一個表示對象單詞的詞義中一般情況下最常用的詞義的第一副單詞。例如,在本句中檢出了搭配語“a”、“c”時,對象單詞“A”作為“意思是‘Al’的‘A’”的第一副單詞處理,判定為出現(xiàn)一個“意思是‘Al’的 ‘A’”的第一副單詞。對于對象單詞,沒有設定表示與其它詞義相比一般情況下最常用的詞義的信息時,作為該對象單詞在本句中不存在的情況處理,未取得出現(xiàn)數(shù)。在本句中、前句和后句中均未檢出與對象單詞“A”對應的搭配語“a”、“b”、“c”的任一個時,從本句中檢出了與同義詞“B”對應的搭配語“d”、“e”的任一個。例如,在本句中檢出搭配語“e”時,單詞“A”作為“具有與‘B2’基本相同意思的‘A’”這樣的第二副單詞處理,判定為出現(xiàn)一個“具有與‘B2’基本相同意思的‘A’”這樣的第二副單詞。并且,在本實施方式中,從本句中對于同義詞檢出了與兩個以上的詞義分別對應的搭配語時,基于詞典數(shù)據(jù),對象單詞作為表示與同義詞的詞義中一般情況下最常用的詞義基本相同的意思的第二副單詞處理,判定為出現(xiàn)一個表示與同義詞的詞義中一般情況下最常用的詞義基本相同的意思的第二副單詞。關于同義詞,沒有設定表示與其它詞義相比一般情況下最常用的詞義的信息時,作為對象單詞在本句中不存在的情況處理,未取得出現(xiàn)數(shù)。在本句中,與同義詞“B”對應的搭配語“d”、“e”均未檢出時,從本句中檢測與近義詞“C”對應的搭配語“f”、“g”的任一個。例如,在本句中檢出搭配語“f”時,單詞“A”作為 “具有與‘Cl’類似意思的‘A’”這樣的第三副單詞處理,判定為出現(xiàn)一個“具有與‘Cl’基本相同意思的‘A’”這樣的第三副單詞。并且,在本實施方式中,從本句中,對于近義詞檢出了與兩個以上的詞義分別對應的搭配語時,基于詞典數(shù)據(jù),對象單詞作為表示與近義詞的詞義中一般情況下最常用的詞義類似的意思的第三副單詞處理,判定為出現(xiàn)一個表示與近義詞的詞義中一般情況下最常用的詞義類似的意思的第三副單詞。對于近義詞,沒有設定與其它詞義相比一般情況下最常用的詞義的信息時,作為對象單詞在本句中不存在的情況處理,未取得出現(xiàn)數(shù)。在本句中,與近義詞“C”對應的搭配語“f”、“g”均未檢出時,從本句中檢測與反義詞“0”對應的搭配語“1!”、“1”、“」”的任一個。例如,在本句中檢出搭配語“j”時,單詞“A” 作為“具有與‘D3’相反意思的‘A’”這樣的第四副單詞處理,判定為出現(xiàn)一個“具有與‘D3’ 相反意思的‘A’”這樣的第四副單詞。并且,在本實施方式中,從本句中,對于反義詞檢出了與兩個以上的詞義分別對應的搭配語時,基于詞典數(shù)據(jù),對象單詞作為表示與反義詞的詞義中一般情況下最常用的詞義相反意思的第四副單詞處理,判定為出現(xiàn)一個表示與反義詞的詞義中一般情況下最常用的詞義相反意思的第四副單詞。對于反義詞,沒有設定與其它詞義相比一般情況下最常用的詞義的信息時,作為對象單詞在本句中不存在的情況處理,未取得出現(xiàn)數(shù)。在本句中,與反義詞“0”對應的搭配語“1!”、“1”、“」”均未檢出時,基于詞典數(shù)據(jù), 對象單詞作為表示該對象單詞的詞義中一般情況下最常用的詞義的第一副單詞處理,判定為出現(xiàn)一個表示該對象單詞的詞義中一般情況下最常用的詞義的第一副單詞。對于對象單詞,沒有設定與其它詞義相比可能最常用的詞義的信息時,作為該對象單詞在本句中不存在的情況處理,未取得出現(xiàn)數(shù)。這樣,在本實施方式中,按照(1)從本句中檢出對象單詞的搭配語,(2)未從本句中檢出對象單詞的搭配語時,從前句中和后句中檢出對象單詞的搭配語,(3)從前句中和后句中未檢出對象單詞的搭配語時,從本句中檢出同義詞的搭配語,(4)未檢出同義詞的搭配語時,從本句中檢出近義詞的搭配語,(5)未檢出近義詞的搭配語時,從本句中檢出反義詞的搭配語,(6)未檢出反義詞的搭配語時,作為表示對象單詞的詞義中一般情況下最常用的詞義的第一副單詞處理這樣的順序,進行詞頻統(tǒng)計的處理。但是,作為本發(fā)明,不限于此,可以適宜地設定是否分別進行從前句中和后句中檢出對象單詞的搭配語的處理、檢出同義詞的搭配語的處理、檢出近義詞的搭配語的處理、檢出反義詞的搭配語的處理、作為表示對象單詞的詞義中一般情況下最常用的詞義的第一副單詞的處理,或者也能夠適宜地設定各自執(zhí)行的順序。并且,在本實施方式中,可以設置停止詞。停止詞是在出現(xiàn)數(shù)取得部25進行的出現(xiàn)數(shù)取得處理中作為句中不存在的情況處理的單詞,例如是前置詞或后置詞等。對于停止詞不統(tǒng)計詞頻。并且,雖然在本實施方式中,出現(xiàn)數(shù)取得部25將出現(xiàn)數(shù)直接作為詞頻,但是作為本發(fā)明的其它實施方式,出現(xiàn)數(shù)取得部25也可以構成為將出現(xiàn)數(shù)乘以與單詞的詞類對應的所定系數(shù)所得值作為詞頻。例如,在單詞或者第一 第四副單詞為名詞時將出現(xiàn)數(shù)乘以 1. 5的值作為詞頻,為動詞時將出現(xiàn)數(shù)乘以0. 8的值作為詞頻等。當上述這樣的詞頻統(tǒng)計步驟Sl的處理結束后,在句子選擇步驟S2中,通過句子選擇部30,基于文章數(shù)據(jù)和表示文章中的單詞和第一 第四副單詞中在出現(xiàn)數(shù)取得步驟 S1-4中統(tǒng)計的詞頻最高者的數(shù)據(jù),選擇文章中的多個句子。然后,句子選擇部30生成表示將選擇的句子進行概括的摘要的摘要數(shù)據(jù)。例如,‘ ”這個單詞的詞頻為10,“F”這個單詞的詞頻為20,“意思是A2的A”這樣的第一副單詞的詞頻為30時,詞頻最高者是“意思是‘A2’的‘A’”這樣的第一副單詞。使用表示該第一副單詞的數(shù)據(jù),例如句子選擇部30選擇包含“意思是‘A2’的‘A’”的所有句子,將僅由包含“意思是‘A2’的‘A’”的句子構成的文章作為摘要,生成摘要數(shù)據(jù)。并且,句子選擇部30也可以構成為一并使用詞頻以外的信息進行句子的選擇。作為詞頻以外的信息,有各句在文章整體中的位置信息、用戶設定關鍵字信息、文章題目所含單詞信息、提示詞(Cue word)信息等。提示詞是“也就是說”、“即”、“總之”等表示要旨的句子中所含的單詞。例如構成為,在一并使用詞頻以外的信息進行句子的選擇時,句子選擇部30計算各句的分值進行句子的選擇。分值計算的基準,例如在使用各句在文章整體中的位置信息時,是將文章整體分割為文章前半部和文章后半部,對文章前半部中的句子賦予1分,對文章后半部中的句子賦予2分等。并且,在使用用戶設定的關鍵字信息時,是對包含該關鍵字
11信息表示的單詞的句子賦予10分等,在使用文章題目中所含單詞信息時,是對包含該單詞信息表示的單詞的句子賦予10分等,在使用提示詞信息時,是對包含該提示詞信息表示的單詞的句子賦予10分等。以這種基準計算各句的分值的同時,也計算以詞頻為基準的分值。例如,對包含詞頻第一高的單詞(或者第一 第四副單詞)的句子,對每一個該單詞(或者第一 第四副單詞)賦予10分,對包含詞頻第二高的單詞(或者第一 第四副單詞)的句子,對每一個該單詞(或者第一 第四副單詞)賦予5分,對包含詞頻第三高的單詞(或者第一 第四副單詞)的句子,對每一個該單詞(或者第一 第四副單詞)賦予1分等。然后,句子選擇部30能夠按照以全部的基準算出的分值的合計值的降序,選擇上位5個句子,生成摘要數(shù)據(jù)。根據(jù)本發(fā)明的摘要生成裝置100,詞頻統(tǒng)計部20,當文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞(第一 第四副單詞)處理,統(tǒng)計與各副單詞對應的詞頻,句子選擇部30,基于表示文章中的單詞和副單詞中通過詞頻統(tǒng)計部統(tǒng)計的詞頻最高者的數(shù)據(jù),生成摘要數(shù)據(jù),因此能夠生成考慮了具有多個詞義的單詞的適當?shù)恼2⑶以诒緦嵤┓绞街?,基于在詞典數(shù)據(jù)存儲部22中存儲的詞典數(shù)據(jù),通過搭配語檢出部M,能夠檢出與具有多個詞義的單詞關聯(lián)的搭配語。并且,能夠通過出現(xiàn)數(shù)取得部 25,對于具有多個詞義的單詞,按照與搭配語檢出部M檢出的搭配語對應的每個詞義作為不同的副單詞(第一 第四副單詞)處理,取得在文章中出現(xiàn)的該副單詞的數(shù)量作為詞頻。并且在本實施方式中,搭配語檢出部M,在從本句中未檢出與對象單詞對應的搭配語時,從前句中和后句中檢出該搭配語。因此,即使在本句中不存在與對象單詞對應的搭配語,也能夠?qū)υ搶ο髥卧~按照與搭配語對應的每個詞義作為不同的第一副單詞處理,從而生成適當?shù)恼2⑶以诒緦嵤┓绞街?,搭配語檢出部M,在從本句、前句和后句中均未檢出與對象單詞對應的搭配語時,從本句中檢測與該單詞的同義詞關聯(lián)的搭配語。因此,即使在本句、 前句和后句中不存在與對象單詞對應的搭配語,對于該對象單詞,也能夠按照與同義詞的搭配語對應的每個詞義作為不同的第二副單詞處理,從而生成適當?shù)恼?。并且在本實施方式中,搭配語檢出部M,在從本句中未檢出與對象單詞的同義詞對應的搭配語時,從本句中檢測與該單詞的近義詞關聯(lián)的搭配語。因此,即使在本句中不存在與對象單詞和該對象單詞的同義詞對應的搭配語,對于該對象單詞,也能夠按照與近義詞的搭配語對應的每個詞義作為不同的第三副單詞處理,從而生成適當?shù)恼?。并且在本實施方式中,搭配語檢出部M,在從本句中未檢出與對象單詞的近義詞對應的搭配語時,從本句中檢測與該單詞的反義詞關聯(lián)的搭配語。因此,即使在本句中不存在與對象單詞、該對象單詞的同義詞以及近義詞對應的搭配語,對于該對象單詞,也能夠按照與反義詞的搭配語對應的每個詞義作為不同的第四副單詞處理,從而生成適當?shù)恼2⑶以诒緦嵤┓绞街?,搭配語檢出部M,在從本句中未檢出與對象單詞的反義詞對應的搭配語時,關于對象單詞,判斷為在本句中檢出了與其它詞義相比一般情況下最常用的詞義對應的搭配語。因此,在本句中,即使不存在與對象單詞以及該對象單詞的同義詞、近義詞和反義詞對應的搭配語,對于該對象單詞,也能夠作為表示與該對象單詞的詞義中其它詞義相比一般情況下最常用的詞義的第一副單詞處理,從而能夠生成適當?shù)恼?br>
摘要生成裝置100,可以通過在現(xiàn)有公知的信息處理裝置中存儲使該信息處理裝置作為摘要生成裝置100發(fā)揮功能的程序即摘要生成程序而實現(xiàn)。該摘要生成程序可以記錄在現(xiàn)有公知的計算機可讀取的記錄介質(zhì)中。通過上述摘要生成程序記錄在記錄介質(zhì)中,可以便攜地提供記錄用于執(zhí)行摘要生成裝置100進行的各種處理的程序代碼(執(zhí)行程序、中間代碼程序、源程序等)的記錄介質(zhì)。并且,記錄介質(zhì)也可以是微型計算機進行處理的存儲器,例如R0M(Read Only Memory)等程序介質(zhì),或者通過插入計算機作為外部存儲裝置具有的程序讀取裝置進行讀取的程序介質(zhì)。在記錄介質(zhì)中存儲的程序,可以是微處理器訪問記錄介質(zhì)執(zhí)行的方式,或者也可以是微處理器從記錄介質(zhì)讀出程序代碼并且將讀出的程序代碼下載到微型計算機的程序存儲區(qū)域來執(zhí)行該程序的方式。該下載用程序預先存儲于主體裝置。這里,上述程序介質(zhì)是構成為能夠與本體分離的記錄介質(zhì),可以是包含磁帶、盒帶等磁帶系、軟盤、硬盤等磁盤、CD-ROM (Compact Disc-Read Only Memory)、 MO(Magneto Optical disc)、MD(Mini Disc)、DVD(Digital Versatile Disc)等光盤的盤系、ICantegrated Circuit)卡(包含存儲卡)、光卡等卡系,或者基于掩模ROM、 EPROM(Erasable Programmable Read Only Memory) > EEPROM(ElectricalIy Erasable Programmable Read Only Memory)、閃存ROM等的半導體存儲器的固定地保持程序代碼的介質(zhì)。另外,只要是計算機能夠連接包含互聯(lián)網(wǎng)的通信網(wǎng)絡的系統(tǒng)構成,則記錄介質(zhì)也可以是以從通信網(wǎng)絡下載程序代碼的方式流動地保持程序代碼的介質(zhì)。并且,當這樣從通信網(wǎng)絡下載程序時,可以將該下載用程序預先存儲于本體裝置,或者從其它記錄介質(zhì)安裝。 另外,上述摘要生成程序能夠以上述程序代碼通過電子傳輸而具體化的嵌入載波的計算機數(shù)據(jù)信號的方式實現(xiàn)。本發(fā)明可以在不脫離其精神或者主要特征的范圍內(nèi)以其它方式實施。因此,上述實施方式僅為各方面的例示,本發(fā)明范圍由權利要求范圍決定而不限于說明書正文。并且從屬于權利要求范圍的變形或變更均落入本發(fā)明范圍。
權利要求
1.一種摘要生成裝置,其特征在于,具有 存儲文章數(shù)據(jù)的文章數(shù)據(jù)存儲部;詞頻統(tǒng)計部,對由上述文章數(shù)據(jù)表示的文章中的多個單詞,基于該文章數(shù)據(jù)統(tǒng)計各單詞的詞頻,當上述文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞處理,統(tǒng)計與各副單詞對應的詞頻;句子選擇部,基于上述文章數(shù)據(jù)和表示上述文章中的單詞和副單詞中通過上述詞頻統(tǒng)計部統(tǒng)計的詞頻最高者的數(shù)據(jù),選擇上述文章中的多個句子,從而生成摘要數(shù)據(jù)。
2.根據(jù)權利要求1所述的摘要生成裝置,其特征在于, 上述詞頻統(tǒng)計部具有存儲將單詞、與該單詞對應的多個詞義、與該多個詞義各自對應的搭配語關聯(lián)起來的詞典數(shù)據(jù)的詞典數(shù)據(jù)存儲部;基于上述文章數(shù)據(jù)和上述詞典數(shù)據(jù)判斷上述文章中的各單詞是否具有多個詞義的單詞判斷部;基于上述文章數(shù)據(jù)和上述詞典數(shù)據(jù)從包含通過上述單詞判斷部判斷為具有多個詞義的單詞的句子中檢測與該單詞關聯(lián)的搭配語的搭配語檢出部;出現(xiàn)數(shù)取得部,基于上述文章數(shù)據(jù)和上述詞典數(shù)據(jù),對通過上述單詞判斷部判斷為不具有多個詞義的單詞,取得在上述文章中出現(xiàn)的該單詞的數(shù)量作為詞頻,對通過上述單詞判斷部判斷為具有多個詞義的單詞,按照與通過上述搭配語檢出部檢出的搭配語對應的每個詞義作為不同的副單詞處理,取得在上述文章中出現(xiàn)的該副單詞的數(shù)量作為詞頻。
3.根據(jù)權利要求2所述的摘要生成裝置,其特征在于,上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含上述判斷為具有多個詞義的單詞的句子的上下文中,檢出與該單詞關聯(lián)的搭配語。
4.根據(jù)權利要求2或3所述的摘要生成裝置,其特征在于, 上述詞典數(shù)據(jù)將單詞與跟該單詞對應的同義詞建立關聯(lián),上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的同義詞關聯(lián)的搭配語,上述出現(xiàn)數(shù)取得部構成為,對通過上述搭配語檢出部檢出與上述同義詞關聯(lián)的搭配語的單詞,按照與該搭配語對應的每個詞義作為不同的第二副單詞處理,取得在上述文章中出現(xiàn)的該第二副單詞的數(shù)量作為詞頻。
5.根據(jù)權利要求2 4中任一項所述的摘要生成裝置,其特征在于, 上述詞典數(shù)據(jù)將單詞與跟該單詞對應的近義詞建立關聯(lián),上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的近義詞關聯(lián)的搭配語,上述出現(xiàn)數(shù)取得部構成為,對通過上述搭配語檢出部檢出與上述近義詞關聯(lián)的搭配語的單詞,按照與該搭配語對應的每個詞義作為不同的第三副單詞處理,取得在上述文章中出現(xiàn)的該第三副單詞的數(shù)量作為詞頻。
6.根據(jù)權利要求2 5中任一項所述的摘要生成裝置,其特征在于, 上述詞典數(shù)據(jù)將單詞與跟該單詞對應的反義詞建立關聯(lián),上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的反義詞關聯(lián)的搭配語,上述出現(xiàn)數(shù)取得部構成為,對通過上述搭配語檢出部檢出與上述反義詞關聯(lián)的搭配語的單詞,按照與該搭配語對應的每個詞義作為不同的第四副單詞處理,取得在上述文章中出現(xiàn)的該第四副單詞的數(shù)量作為詞頻。
7.一種摘要生成方法,是從文章數(shù)據(jù)生成摘要數(shù)據(jù)的摘要生成裝置生成摘要數(shù)據(jù)時的摘要生成方法,其特征在于,包含以下步驟詞頻統(tǒng)計步驟,對由上述文章數(shù)據(jù)表示的文章中的多個單詞,基于該文章數(shù)據(jù)統(tǒng)計各單詞的詞頻,當上述文章中的單詞有多個詞義時,按照每個詞義作為不同的副單詞處理,統(tǒng)計與各副單詞對應的詞頻;句子選擇步驟,基于上述文章數(shù)據(jù)和表示上述文章中的單詞和副單詞中在上述詞頻統(tǒng)計步驟中統(tǒng)計的詞頻最高者的數(shù)據(jù),選擇上述文章中的多個句子,從而生成摘要數(shù)據(jù)。
8.根據(jù)權利要求7所述的摘要生成方法,其特征在于,上述詞頻統(tǒng)計步驟包含基于上述文章數(shù)據(jù)以及、將單詞、與該單詞對應的多個詞義、與該多個詞義各自對應的搭配語關聯(lián)起來的詞典數(shù)據(jù),判斷上述文章中的各單詞是否具有多個詞義的單詞判斷步驟;基于上述文章數(shù)據(jù)和上述詞典數(shù)據(jù),從包含在上述單詞判斷步驟中判斷為具有多個詞義的單詞的句子中檢出與該單詞關聯(lián)的搭配語的搭配語檢出步驟;出現(xiàn)數(shù)取得步驟,基于上述文章數(shù)據(jù)和上述詞典數(shù)據(jù),對在上述單詞判斷步驟中判斷為不具有多個詞義的單詞,取得在上述文章中出現(xiàn)的該單詞的數(shù)量作為詞頻,對在上述單詞判斷步驟中判斷為具有多個詞義的單詞,按照與在上述搭配語檢出步驟中檢出的搭配語對應的每個詞義作為不同的副單詞處理,取得在上述文章中出現(xiàn)的該副單詞的數(shù)量作為詞頻。
全文摘要
本發(fā)明目的是提供摘要生成裝置和摘要生成方法,通過考慮具有多個詞義的單詞而能夠生成適當?shù)恼?。在摘要生成裝置(100)中設有存儲文章數(shù)據(jù)的文章數(shù)據(jù)存儲部(10);對由文章數(shù)據(jù)表示的文章中的多個單詞,基于該文章數(shù)據(jù)統(tǒng)計各單詞的詞頻,當文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞處理,統(tǒng)計與各副單詞對應的詞頻的詞頻統(tǒng)計部(20);基于文章數(shù)據(jù)和表示文章中的單詞和副單詞中詞頻最高者的數(shù)據(jù)來選擇文章中的多個句子,從而生成摘要數(shù)據(jù)的句子選擇部(30)。
文檔編號G06F17/30GK102479196SQ201010560580
公開日2012年5月30日 申請日期2010年11月23日 優(yōu)先權日2010年11月23日
發(fā)明者樂寧, 吳亞棟, 吳波 申請人:夏普株式會社