專利名稱:語(yǔ)言處理設(shè)備、語(yǔ)言處理方法、以及語(yǔ)言處理程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于在自然語(yǔ)言處理中執(zhí)行形態(tài)分析或句法分析等 的語(yǔ)言處理設(shè)備、語(yǔ)言處理方法以及語(yǔ)言處理程序,更具體地,涉及一種 能夠在不改變語(yǔ)言分析處理的基本分析結(jié)果的前提下刪除分析中間的歧 義性以便高速執(zhí)行分析處理的語(yǔ)言處理設(shè)備、語(yǔ)言處理方法及語(yǔ)言處理程序。
背景技術(shù):
在以計(jì)算機(jī)翻譯、文本挖掘等為代表的自然語(yǔ)言處理中,用于分析輸 入語(yǔ)句的句法分析處理是十分重要的。
在句法分析處理中,對(duì)輸入語(yǔ)句執(zhí)行一系列處理,如(1)將語(yǔ)句分
成單詞、(2)為各單詞賦予詞性、(3)確定單詞間的相互關(guān)系、以及(4) 為單詞賦予語(yǔ)義信息。
然而,由于自然語(yǔ)言的諸如單詞、短語(yǔ)等的語(yǔ)法要素可以具有多種語(yǔ) 法功能,如多種含意、多種詞性等,因此語(yǔ)法要素本身可能存在歧義性, 因而具有多種含意,而并非被識(shí)別為具有唯一一種含意。
為此,在句法分析處理中,在進(jìn)行分析要對(duì)語(yǔ)法要素的歧義性加以考 慮。'
具體地,語(yǔ)言處理設(shè)備在分析包含語(yǔ)法要素的語(yǔ)句時(shí)執(zhí)行如下分析, 所述語(yǔ)法要素具有諸如多種含意或多種詞性等語(yǔ)法功能,可以是比如單 詞、短語(yǔ)等(在下文中被稱為"多義詞")。
首先,語(yǔ)言處理設(shè)備根據(jù)多義詞所具有的多種語(yǔ)法功能(在下文中被 稱為"多種含意")創(chuàng)建多個(gè)候選項(xiàng)。隨后,語(yǔ)言處理設(shè)備對(duì)多個(gè)這樣的 候選項(xiàng)進(jìn)行分析,以輸出唯一的分析結(jié)果。
相應(yīng)地,語(yǔ)言處理設(shè)備在分析包含多義詞的語(yǔ)句時(shí),花費(fèi)大量時(shí)間用 于句法分析。
傳統(tǒng)上,巳提出了多種用于更快速地處理句法分析的方法。例如,存 在一種方法,該方法用于在不改變句法分析結(jié)果的前提下,通過(guò)在前期刪 除可以被刪除的非必要候選項(xiàng)的方式來(lái)使處理加速。
傳統(tǒng)上,已提出了一種事先手工列舉規(guī)則的方法作為創(chuàng)建用于識(shí)別這 種非必要候選項(xiàng)的方法,然而由于手工數(shù)據(jù)創(chuàng)建成本很高因而是不現(xiàn)實(shí) 的。
另一方面,專利文獻(xiàn)1 (JP-2-114377-A)描述了一種根據(jù)句法分析處 理的分析結(jié)果中的實(shí)例來(lái)學(xué)習(xí)歧義性消除模型(規(guī)則)的自然語(yǔ)言處理設(shè) 備。
具體地,專利文獻(xiàn)l描述了一種自然語(yǔ)言處理設(shè)備,該設(shè)備學(xué)習(xí)用于 從句法分析處理的分析結(jié)果中消除詞性歧義性的模型。
這種傳統(tǒng)的自然語(yǔ)言處理設(shè)備包括形態(tài)分析單元、句法分析單元、學(xué) 習(xí)設(shè)備、以及學(xué)習(xí)結(jié)果保存單元。具有這種配置的傳統(tǒng)自然語(yǔ)言處理設(shè)備 按照如下方式工作。
形態(tài)分析單元從形態(tài)上分析輸入語(yǔ)句。句法分析單元根據(jù)形態(tài)分析的 結(jié)果進(jìn)行句法分析。學(xué)習(xí)設(shè)備接收具有由形態(tài)分析單元輸出的具有歧義性 的詞性序列以及根據(jù)句法分析單元中的分析結(jié)果確定得到的詞性序列,以 學(xué)習(xí)用于估計(jì)詞性的統(tǒng)計(jì)模型。學(xué)習(xí)結(jié)果保存單元保存在學(xué)習(xí)設(shè)備中學(xué)到 的結(jié)果。在下一分析處理中,句法分析單元利用學(xué)習(xí)結(jié)果保存單元中的學(xué) 習(xí)結(jié)果來(lái)估計(jì)詞性,以在前期消除詞性序列的歧義性。
專利文獻(xiàn)l: JP-2-114377-A
發(fā)明內(nèi)容
為消除歧義性,專利文獻(xiàn)1中所描述的傳統(tǒng)自然語(yǔ)言處理設(shè)備對(duì)詞性 進(jìn)行估計(jì),但在這種情況下,存在執(zhí)行了錯(cuò)誤的詞性估計(jì)的可能。因此, 如果傳統(tǒng)自然語(yǔ)言處理設(shè)備執(zhí)行了錯(cuò)誤的詞性估計(jì),那么該設(shè)備可能輸出 與尚未消除歧義性時(shí)的句法分析結(jié)果不同的句法分析結(jié)果。
為此,傳統(tǒng)自然語(yǔ)言處理設(shè)備無(wú)法實(shí)現(xiàn)僅刪除不改變句法分析結(jié)果的 非必要候選項(xiàng)的目的。
在這點(diǎn)上,傳統(tǒng)自然語(yǔ)言處理設(shè)備產(chǎn)生錯(cuò)誤的詞性估計(jì)的原因在于
雖然存在實(shí)質(zhì)上不能刪除的候選項(xiàng),但是在估計(jì)最有可能的方案(候選項(xiàng)) 時(shí),進(jìn)行的是最大似然估計(jì),而沒(méi)有考慮統(tǒng)計(jì)模型中是否存在候選項(xiàng)。
例如,考慮兩種表達(dá)"hashiru/to/kare/ha/iu "(表達(dá)1 )和 "hashiru/to/kare/ha/tukareru"(表達(dá)2)。這里,表達(dá)中的符號(hào)"slash"代 表單詞之間的定界符。
這里,單詞"to"具有兩種語(yǔ)法功能(含意),即候選項(xiàng),這兩個(gè)候選
項(xiàng)為表示短語(yǔ)之前緊接著引用表達(dá)的"引用助詞",以及表示時(shí)間轉(zhuǎn)換 的"連接助詞"。因此,單詞"to"具有歧義。
具體哪個(gè)候選項(xiàng)是正確方案取決于"to"后面是否存在能夠接受引用 表達(dá)的動(dòng)詞。
在前述示例中,在表達(dá)1中,"引用助詞"是正確的方案,因?yàn)榇嬖?br>
可以接受引用表達(dá)"iu"的動(dòng)詞,而在表達(dá)2中,"連接助詞"是正確的方 案,因?yàn)椴淮嬖谙鄳?yīng)的動(dòng)詞。
然而,當(dāng)如同在傳統(tǒng)的自然語(yǔ)音處理設(shè)備中,僅通過(guò)觀察詞性來(lái)進(jìn)行 學(xué)習(xí)時(shí),表達(dá)1和2都具有能夠在學(xué)習(xí)過(guò)程中被參照的相同信息,即"動(dòng) 詞/to/名詞/助詞/動(dòng)詞"。為此,表達(dá)1和2中的詞性估計(jì)無(wú)法在實(shí)質(zhì)上導(dǎo) 致不同的結(jié)果。
當(dāng)在最大似然估計(jì)的統(tǒng)計(jì)學(xué)習(xí)中使用這樣的矛盾數(shù)據(jù)作為學(xué)習(xí)數(shù)據(jù) 時(shí),通常學(xué)習(xí)這樣的模型,該模型將學(xué)習(xí)數(shù)據(jù)內(nèi)的較頻繁出現(xiàn)的詞性估計(jì) 為某個(gè)單詞的詞性。
例如,如果"連接助詞"的頻率高于"引用助詞"的頻率,當(dāng)應(yīng)用于 表達(dá)l的分析時(shí),歧義性消除處理將消除出現(xiàn)頻率較低的、但其實(shí)是正確 方案的"引用助詞",并因而輸出與原始句法分析結(jié)果不同的句法分析結(jié) 果。
學(xué)習(xí)數(shù)據(jù)內(nèi)的這種矛盾不僅出現(xiàn)在在學(xué)習(xí)過(guò)程中單獨(dú)參照詞性的情 況下,在學(xué)習(xí)整個(gè)統(tǒng)計(jì)模型時(shí)也會(huì)出現(xiàn)。
在統(tǒng)計(jì)模型學(xué)習(xí)中,為了避免數(shù)據(jù)稀疏,將所參照的信息限定于有限 的空間,因此以同在不使用空間外部信息的情況下無(wú)法消除歧義性的示例 類似的方式,在學(xué)習(xí)數(shù)據(jù)中將會(huì)出現(xiàn)矛盾。
本發(fā)明的目的是提供一種能夠僅僅去除不改變最終分析結(jié)果的非必
要候選項(xiàng)的語(yǔ)言處理設(shè)備、語(yǔ)言處理方法以及語(yǔ)言處理程序,以及一種能 夠通過(guò)僅去除非必要候選項(xiàng)的方式在不改變分析結(jié)果的前提下以更快的 速度執(zhí)行分析處理的語(yǔ)言處理設(shè)備、語(yǔ)言處理方法以及語(yǔ)言處理程序。 解決問(wèn)題的手段
為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的語(yǔ)言處理設(shè)備包括第一分析單元, 對(duì)包括多義詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí)行預(yù)定分析,以根據(jù)多義 詞所具有的多種含意輸出針對(duì)該自然語(yǔ)言語(yǔ)句的多個(gè)分析結(jié)果;第二分析 單元,對(duì)第一分析單元輸出的多個(gè)分析結(jié)果執(zhí)行特定分析,以采用多個(gè)分 析結(jié)果中的一個(gè)分析結(jié)果;以及生成單元,基于第一分析單元所輸出的多 個(gè)分析結(jié)果以及第二分析單元所采用的結(jié)果,生成用于刪除第一分析單元 的一個(gè)或多個(gè)非必要分析結(jié)果的刪除規(guī)則,以便即使從第一分析單元輸出 的多個(gè)分析結(jié)果中刪除了一個(gè)或多個(gè)非必要分析結(jié)果,也能使第二分析單 元所采用的分析結(jié)果保持不變。
此外,根據(jù)本發(fā)明的語(yǔ)言處理方法包括第一分析步驟,對(duì)包括多義 詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí)行預(yù)定分析,以根據(jù)多義詞所具有的 多種含意輸出針對(duì)該自然語(yǔ)言語(yǔ)句的多個(gè)分析結(jié)果;第二分析步驟,對(duì)所 述多個(gè)分析結(jié)果執(zhí)行特定分析,以采用多個(gè)分析結(jié)果中的一個(gè)分析結(jié)果; 以及生成步驟,基于第一分析步驟所輸出的多個(gè)分析結(jié)果以及第二分析步 驟的采用結(jié)果,生成用于刪除第一分析步驟的一個(gè)或多個(gè)非必要分析結(jié)果 的刪除規(guī)則,以便即使從所述多個(gè)分析結(jié)果中刪除了一個(gè)或多個(gè)非必要分 析結(jié)果,也能使第二分析步驟所采用的分析結(jié)果保持不變。
根據(jù)上述發(fā)明,基于第一分析單元所輸出的多個(gè)分析結(jié)果以及第二分 析單元所采用的結(jié)果,生成用于刪除第一分析單元的一個(gè)或多個(gè)非必要分 析結(jié)果的刪除規(guī)則,以便即使從第一分析單元輸出的多個(gè)分析結(jié)果中刪除 了一個(gè)或多個(gè)非必要分析結(jié)果,也能夠使第二分析單元所采用的分析結(jié)果 保持不變。 .
因此,可以防止將第二分析單元為了采用正確的分析結(jié)果而需要的分 析結(jié)果從第一分析單元的、尚未被第二分析單元采用的分析結(jié)果中刪除。 因而,可以僅僅去除不改變最終分析結(jié)果的非必要候選項(xiàng)(分析結(jié)果)。
此外,根據(jù)本發(fā)明的語(yǔ)言處理設(shè)備包括第一分析單元,對(duì)包括多義
詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí)行預(yù)定分析,以根據(jù)多義詞所具有的 多種含意輸出針對(duì)該自然語(yǔ)言語(yǔ)句的多個(gè)分析結(jié)果;第二分析單元,對(duì)第 一分析單元輸出的多個(gè)分析結(jié)果執(zhí)行特定分析,以采用多個(gè)分析結(jié)果中的 一個(gè)分析結(jié)果;存儲(chǔ)單元,針對(duì)多義詞的一種含意與同其他單詞相關(guān)的信 息的各組合,存儲(chǔ)指示是否采用該組合的確定信息;采用信息生成單元, 針對(duì)第一分析單元所輸出的各分析結(jié)果內(nèi)的多義詞的含意與同其他單詞 相關(guān)的信息的各組合,基于第一分析單元所輸出的多個(gè)分析結(jié)果以及第二 分析單元所采用的結(jié)果,生成指示第二分析單元是否采用該組合的采用信 息;以及規(guī)則生成單元,當(dāng)在由采用信息生成單元所生成的采用信息中被 確定為"不采用"的組合與存儲(chǔ)單元中指示"采用"的確定信息相對(duì)應(yīng)時(shí), 將采用信息變?yōu)?采用",并在隨后基于改變了的采用信息以及沒(méi)有改變 的采用信息,生成用于從所述多個(gè)分析結(jié)果中刪除一個(gè)或多個(gè)非必要分析 結(jié)果的刪除規(guī)則。
此外, 一種根據(jù)本發(fā)明的語(yǔ)言處理方法是由語(yǔ)言處理設(shè)備所執(zhí)行的語(yǔ) 言處理方法,所述方法包括第一分析步驟,對(duì)包括多義詞和其他單詞在 內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí)行預(yù)定分析,以根據(jù)多義詞所具有的多種含意輸出針 對(duì)該自然語(yǔ)言語(yǔ)句的多個(gè)分析結(jié)果;第二分析步驟,對(duì)所述多個(gè)分析結(jié)果 執(zhí)行特定分析,以采用多個(gè)分析結(jié)果中的一個(gè)分析結(jié)果;采用信息生成步 驟,針對(duì)第一分析步驟所輸出的各分析結(jié)果內(nèi)的多義詞的含意與同其他詞 相關(guān)的信息的各組合,基于第一分析步驟所輸出的多個(gè)分析結(jié)果以及第二 分析步驟的采用結(jié)果,生成指示第二分析步驟是否采用該組合的采用信 息;以及規(guī)則生成步驟,當(dāng)在采用信息中被確定為"不采用"的組合與存 儲(chǔ)單元中指示"采用"的確定信息相對(duì)應(yīng)時(shí),將采用信息變?yōu)?采用", 并在隨后基于改變了的采用信息以及沒(méi)有改變的采用信息,生成用于從所 述多個(gè)分析結(jié)果中刪除一個(gè)或多個(gè)非必要分析結(jié)果的刪除規(guī)則;其中所述 語(yǔ)言處理設(shè)備包括存儲(chǔ)單元,所述存儲(chǔ)單元針對(duì)多義詞的一種含意與同其 他單詞相關(guān)的信息的各組合,存儲(chǔ)指示是否采用該組合的確定信息。
根據(jù)上述發(fā)明,當(dāng)未被第二分析單元采用的分析結(jié)果內(nèi)的組合與存儲(chǔ) 單元中指示"采用"的確定信息相對(duì)應(yīng)時(shí),將該組合的采用信息變?yōu)?采 用",并在隨后基于改變了的釆用信息以及沒(méi)有改變的采用信息,生成用
于從第一分析單元的多個(gè)分析結(jié)果中刪除一個(gè)或多個(gè)非必要分析結(jié)果的 刪除規(guī)則。
因此,可以防止將第二分析單元為了采用正確的分析結(jié)果而需要的分 析結(jié)果從第一分析單元的、尚未被第二分析單元采用的分析結(jié)果中刪除。 因而,可以僅僅去除不改變最終分析結(jié)果的非必要候選項(xiàng)(分析結(jié)果)。
在這點(diǎn)上,多義詞的含意與同其他單詞有關(guān)的信息的組合優(yōu)選地是該
多義詞的表面字符串(surface string)、原型、詞性、變形或其組合中的一 種與該多義詞相鄰單詞的組合。
此外,第一分析單元優(yōu)選地,按照用于根據(jù)事先確定的預(yù)定規(guī)則執(zhí)行 分析的基于規(guī)則的方案,對(duì)自然語(yǔ)言語(yǔ)句進(jìn)行分析。
根據(jù)上述發(fā)明,第一分析單元中的分析方案是與基于統(tǒng)計(jì)的分析在分 析方案上有所不同的基于規(guī)則的方案,所述基于統(tǒng)計(jì)的分析基于用于創(chuàng)建 刪除規(guī)則的統(tǒng)計(jì)模型。因此,基于刪除規(guī)則的刪除處理有效工作的可能性 更大。
此外,根據(jù)本發(fā)明的語(yǔ)言處理設(shè)備包括知識(shí)庫(kù)存儲(chǔ)單元,存儲(chǔ)上述 語(yǔ)言處理設(shè)備所生成的刪除規(guī)則;第一分析單元,對(duì)包括多義詞和其他單 詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí)行預(yù)定分析,以根據(jù)多義詞所具有的多種含意輸 出針對(duì)該自然語(yǔ)言語(yǔ)句的多個(gè)分析結(jié)果;歧義性刪除單元,基于知識(shí)庫(kù)存 儲(chǔ)單元內(nèi)存儲(chǔ)的刪除規(guī)則,從第一分析單元輸出的多個(gè)分析結(jié)果中刪除一 個(gè)或多個(gè)非必要分析結(jié)果;以及第二分析單元,對(duì)歧義性刪除單元己從中 刪除了一個(gè)或多個(gè)非必要分析結(jié)果的所述多個(gè)分析結(jié)果執(zhí)行特定分析,以 采用多個(gè)分析結(jié)果中的一個(gè)分析結(jié)果。
此外, 一種根據(jù)本發(fā)明的語(yǔ)言處理方法是由語(yǔ)言處理設(shè)備所執(zhí)行的語(yǔ) 言處理方法,該語(yǔ)言處理設(shè)備包括存儲(chǔ)由該語(yǔ)言處理設(shè)備所生成的刪除規(guī) 則的知識(shí)庫(kù)存儲(chǔ)單元,該方法包括第一分析步驟,對(duì)包括多義詞和其他 單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí)行預(yù)定分析,以根據(jù)多義詞所具有的多種含意 輸出針對(duì)該自然語(yǔ)言語(yǔ)句的多個(gè)分析結(jié)果;歧義性刪除步驟,基于知識(shí)庫(kù) 存儲(chǔ)單元內(nèi)存儲(chǔ)的刪除規(guī)則,從所述多個(gè)分析結(jié)果中刪除一個(gè)或多個(gè)非必 要分析結(jié)果;以及第二分析步驟,對(duì)已從中刪除了一個(gè)或多個(gè)非必要分析 結(jié)果的所述多個(gè)分析結(jié)果執(zhí)行特定分析,以采用多個(gè)分析結(jié)果中的一個(gè)分
析結(jié)果。
根據(jù)上述發(fā)明,由于沒(méi)有將第二分析單元為了采用正確的分析結(jié)果而 需要的分析結(jié)果從第一分析單元的、尚未被第二分析單元釆用的分析結(jié)果 中刪除,因而可以僅刪除非必要分析結(jié)果。因此,可以在保持第二分析單 元的分析結(jié)果的精確度的同時(shí),刪除第二分析單元的處理。
此外, 一種根據(jù)本發(fā)明的語(yǔ)言處理程序是用于使計(jì)算機(jī)執(zhí)行語(yǔ)言處理 的語(yǔ)言處理程序,并且該程序使計(jì)算機(jī)執(zhí)行的語(yǔ)言處理包括第一分析處 理,用于對(duì)包括多義詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí)行預(yù)定分析,以 根據(jù)多義詞所具有的多種含意輸出針對(duì)該自然語(yǔ)言語(yǔ)句的多個(gè)分析結(jié)果; 第二分析處理,用于對(duì)多個(gè)分析結(jié)果執(zhí)行特定分析,以采用多個(gè)分析結(jié)果 中的一個(gè)分析結(jié)果;以及生成處理,用于基于第一分析處理所輸出的多個(gè)
分析結(jié)果以及第二分析處理的采用結(jié)果,生成用于刪除第一分析處理的一 個(gè)或多個(gè)非必要分析結(jié)果的刪除規(guī)則,以便即使從所述多個(gè)分析結(jié)果中刪 除了一個(gè)或多個(gè)非必要分析結(jié)果,也能夠使第二分析處理所采用的分析結(jié) 果保持不變。
此外, 一種根據(jù)本發(fā)明的語(yǔ)言處理程序是用于使計(jì)算機(jī)執(zhí)行語(yǔ)言處理 的語(yǔ)言處理程序,該計(jì)算機(jī)連接至存儲(chǔ)單元,所述存儲(chǔ)單元針對(duì)多義詞的 一種含意與同其他單詞相關(guān)的信息的各組合,存儲(chǔ)指示是否采用該組合的 確定信息,并且該程序使計(jì)算機(jī)執(zhí)行的語(yǔ)言處理包括第一分析處理,用 于對(duì)包括多義詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí)行預(yù)定分析,以根據(jù)多 義詞所具有的多種含意輸出針對(duì)該自然語(yǔ)言語(yǔ)句的多個(gè)分析結(jié)果;第二分 析處理,用于對(duì)所述多個(gè)分析結(jié)果執(zhí)行特定分析,以采用多個(gè)分析結(jié)果中 的一個(gè)分析結(jié)果;采用信息生成處理,用于針對(duì)第一分析處理所輸出的各
分析結(jié)果內(nèi)的多義詞的含意與同其他詞相關(guān)的信息的各組合,基于第一分 析處理所輸出的多個(gè)分析結(jié)果以及第二分析處理的采用結(jié)果,生成指示第
二分析處理是否采用該組合的采用信息;以及規(guī)則生成處理,用于當(dāng)在采 用信息中被確定為"不采用"的組合與存儲(chǔ)單元中指示"采用"的確定信 息相對(duì)應(yīng)時(shí),將采用信息變?yōu)?采用",并在隨后基于改變了的采用信息 以及沒(méi)有改變的采用信息,生成用于從所述多個(gè)分析結(jié)果中刪除一個(gè)或多 個(gè)非必要分析結(jié)果的刪除規(guī)則。
此外, 一種根據(jù)本發(fā)明的語(yǔ)言處理程序是用于使計(jì)算機(jī)執(zhí)行語(yǔ)言處理 的語(yǔ)言處理程序,該計(jì)算機(jī)連接至知識(shí)庫(kù)存儲(chǔ)單元,所述知識(shí)庫(kù)存儲(chǔ)單元 存儲(chǔ)由語(yǔ)言處理設(shè)備生成的刪除規(guī)則,并且該程序使計(jì)算機(jī)執(zhí)行的的語(yǔ)言 處理包括第一分析處理,用于對(duì)包括多義詞和其他單詞在內(nèi)的自然語(yǔ)言 語(yǔ)句執(zhí)行預(yù)定分析,以根據(jù)多義詞所具有的多種含意輸出針對(duì)該自然語(yǔ)言 語(yǔ)句的多個(gè)分析結(jié)果;歧義性刪除處理,用于基于知識(shí)庫(kù)存儲(chǔ)單元內(nèi)存儲(chǔ) 的刪除規(guī)則,從所述多個(gè)分析結(jié)果中刪除一個(gè)或多個(gè)非必要分析結(jié)果;以 及第二分析處理,用于對(duì)己從中刪除了一個(gè)或多個(gè)非必要分析結(jié)果的所述 多個(gè)分析結(jié)果執(zhí)行特定分析,以采用多個(gè)分析結(jié)果中的一個(gè)分析結(jié)果。
根據(jù)上述發(fā)明,可以使計(jì)算機(jī)執(zhí)行語(yǔ)言處理方法。
發(fā)明效果
根據(jù)本發(fā)明,可以僅僅去除不改變最終分析結(jié)果的非必要候選項(xiàng),并 且能夠通過(guò)僅去除非必要候選項(xiàng)的方式在不改變分析結(jié)果的前提下以更 快的速度執(zhí)行分析處理。
圖1是示出了本發(fā)明的第一典型實(shí)施例的配置的框圖。 圖2是示出了圖1所示的語(yǔ)言處理設(shè)備的操作的流程圖。 圖3A是示出了存儲(chǔ)在出現(xiàn)事例存儲(chǔ)單元31中的矛盾檢測(cè)事例的特定 示例的說(shuō)明圖。
圖3B是示出了具有歧義性的形態(tài)分析結(jié)果的特定示例的說(shuō)明圖。 圖3C是示出了從圖3B的分析結(jié)果中導(dǎo)出的事例的特定示例的說(shuō)明圖。
附圖標(biāo)記的說(shuō)明 1輸入設(shè)備 2數(shù)據(jù)處理設(shè)備 21第一分析單元 22歧義性刪除單元 23第二分析單元
24非必要歧義性學(xué)習(xí)單元
241事例提取單元
243矛盾調(diào)整單元
243知識(shí)庫(kù)配置單元
244規(guī)則生成單元
3存儲(chǔ)設(shè)備
31出現(xiàn)事例存儲(chǔ)單元
32知識(shí)庫(kù)存儲(chǔ)單元
4輸出設(shè)備
5程序存儲(chǔ)單元
具體實(shí)施例方式
接下來(lái),將參考附圖詳細(xì)描述用于實(shí)施本發(fā)明的最佳模式。 圖1是示出了本發(fā)明的第一典型實(shí)施例的配置的框圖。
在圖1中,第一典型實(shí)施例的語(yǔ)言處理設(shè)備包括諸如鍵盤(pán)之類的輸 入設(shè)備l;數(shù)據(jù)處理設(shè)備(計(jì)算機(jī))2,用于在程序的控制下執(zhí)行操作;存 儲(chǔ)設(shè)備3,用于存儲(chǔ)信息;諸如顯示設(shè)備或打印設(shè)備等輸出設(shè)備4;以及 程序存儲(chǔ)單元(計(jì)算機(jī)可讀記錄介質(zhì))5,用于存儲(chǔ)定義了數(shù)據(jù)處理設(shè)備2 的操作的程序。
存儲(chǔ)設(shè)備3包括出現(xiàn)事例存儲(chǔ)單元31和知識(shí)庫(kù)存儲(chǔ)單元32。 出現(xiàn)事例存儲(chǔ)單元31具有事先存儲(chǔ)在其中的用于矛盾檢測(cè)的事例。 優(yōu)選地,由第一分析單元21和第二分析單元23通過(guò)在句法上分析大 量語(yǔ)句、并從其各個(gè)分析結(jié)果中提取與提供給知識(shí)庫(kù)配置單元243的事例 格式相同的數(shù)據(jù)的方式,來(lái)創(chuàng)建用于矛盾檢測(cè)的事例。由于這里創(chuàng)建了較 大量的事例,因而矛盾檢測(cè)的性能變得更好。
在各事例中,將多義詞的一種含意與同其他單詞相關(guān)的信息的組合與 表示是否采用該組合的確定信息相關(guān)聯(lián)。
作為參考,將多義詞定義為具有諸如多種含意或詞性等的語(yǔ)法功能的 語(yǔ)法要素,例如單詞或短語(yǔ)等。另一方面,與其他單詞有關(guān)的信息涉及與 某個(gè)不同于該多義詞的單詞有關(guān)的信息(例如,緊接在多義詞之前的單詞
的詞性)。
知識(shí)庫(kù)存儲(chǔ)單元32存儲(chǔ)由知識(shí)庫(kù)配置單元243創(chuàng)建的知識(shí)庫(kù)(例如,
刪除規(guī)則)。
數(shù)據(jù)處理設(shè)備2包括第一分析單元21、歧義性刪除單元22、第二 分析單元23、事例提取單元241、矛盾調(diào)整單元242、以及知識(shí)庫(kù)配置單 元243。在這點(diǎn)上,矛盾調(diào)整單元242和知識(shí)庫(kù)配置單元243組成了規(guī)則 生成單元244。此外,事例提取單元241、矛盾調(diào)整單元242、知識(shí)庫(kù)配置 單元243以及出現(xiàn)事例存儲(chǔ)單元31組成了一個(gè)生成單元。
數(shù)據(jù)處理設(shè)備2讀取比如存儲(chǔ)在程序存儲(chǔ)單元5中的程序,并執(zhí)行該 程序,以實(shí)現(xiàn)第一分析單元21、歧義性刪除單元22、第二分析單元23、 事例提取單元241、矛盾調(diào)整單元242、以及知識(shí)庫(kù)配置單元243。
在這點(diǎn)上,可以硬件方式配置第一分析單元21、歧義性刪除單元22、 第二分析單元23、事例提取單元241、矛盾調(diào)整單元242、以及知識(shí)庫(kù)配 置單元243。
這些組件通常按以下方式工作。
第一分析單元21執(zhí)行句法分析處理,直至某一中間階段。當(dāng)句法分 析處理包括n個(gè)階段Xl-Xn時(shí),第一分析單元21執(zhí)行Xl-Xm (m^n) 中的分析。
此外,第一分析單元21對(duì)包含多義詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ) 句執(zhí)行預(yù)定分析(Xl-Xm (m^n)中的分析),并根據(jù)多義詞所具有的多 種含意為自然語(yǔ)言語(yǔ)句輸出多個(gè)分析結(jié)果。
歧義性刪除單元22基于存儲(chǔ)在知識(shí)庫(kù)存儲(chǔ)單元32中的知識(shí)庫(kù),從第 一分析單元21輸出的多個(gè)分析結(jié)果中去除被確定為"不采用"的解釋結(jié) 果。在這點(diǎn)上,歧義性刪除單元22在第二分析單元23被禁止工作時(shí)向其 提供由第一分析單元21輸出的多個(gè)分析結(jié)果。
第二分析單元23基于歧義性刪除單元22的輸出,在第一分析單元21
執(zhí)行分析處理之后的階段執(zhí)行分析處理。
具體地,第二分析單元23對(duì)歧義性刪除單元22的輸出(例如,由第 一分析單元21輸出的多個(gè)分析結(jié)果)執(zhí)行特定分析(Xm+l至Xn的分析), 以采用多個(gè)分析結(jié)果中的一個(gè)分析結(jié)果。
事例提取單元241根據(jù)指示第二分析單元23的輸出中采用與否的采 用信息,以及與用于配置知識(shí)庫(kù)配置單元243中的知識(shí)庫(kù)的各分析結(jié)果中 的歧義性有關(guān)的信息(即屬性集合),創(chuàng)建針對(duì)第一分析單元21的各分析
結(jié)果的事例。
具體地,作為采用信息生成單元的示例,事例提取單元241根據(jù)第一 分析單元21所輸出的多個(gè)分析結(jié)果以及第二分析單元23所采用的結(jié)果, 從各分析結(jié)果中提取多義詞的含意與同其他單詞相關(guān)的信息的組合(包括 屬性集合),即事例。
此外,事例提取單元241根據(jù)第一分析單元21所輸出的多個(gè)分析結(jié) 果以及第二分析單元23所采用的結(jié)果,針對(duì)各事例生成指示該事例是否 己被第二分析單元23所采用的采用信息,并將該釆用信息附加至該事例。
矛盾調(diào)整單元242將存儲(chǔ)在出現(xiàn)事例存儲(chǔ)單元31中的大量事例同事 例提取單元241所提取的事例進(jìn)行匹配,以確認(rèn)是否存在矛盾事例。當(dāng)存 在矛盾事例時(shí),矛盾調(diào)整單元242僅按照從"不采用"到"采用"的方向, 對(duì)事例提取單元241所提取的事例的采用信息進(jìn)行修正。
知識(shí)庫(kù)配置單元243根據(jù)矛盾調(diào)整單元242輸出的事例,創(chuàng)建用于歧 義性刪除的知識(shí)庫(kù)(例如,用于從第一分析單元21的多個(gè)分析結(jié)果中刪 除一個(gè)或多個(gè)非必要分析結(jié)果的刪除規(guī)則),并將該知識(shí)庫(kù)存儲(chǔ)在知識(shí)庫(kù) 存儲(chǔ)單元32中。
圖2是用于描述圖1中所示的語(yǔ)言處理設(shè)備的操作的流程圖。下面, 將參考圖l和2對(duì)圖1中所示的語(yǔ)言處理設(shè)備的整體操作進(jìn)行詳細(xì)的描述。
首先,將對(duì)用于學(xué)習(xí)知識(shí)庫(kù)的操作(例如,在創(chuàng)建用于從第一分析單 元21的多個(gè)分析結(jié)果中刪除一個(gè)或多個(gè)非必要分析結(jié)果的刪除規(guī)則時(shí)的 操作)進(jìn)行描述。
第一分析單元21和第二分析單元23在句法上對(duì)從輸入設(shè)備1施加的 輸入字符串進(jìn)行分析(步驟A1)。在這點(diǎn)上,該輸入字符串包括多義詞和 其他單詞。
在該典型實(shí)施例中,第一分析單元21執(zhí)行用于將該輸入語(yǔ)句劃分為 單詞的形態(tài)分析處理,而第二分析單元23執(zhí)行用于確定單詞間的相互關(guān) 系的相互關(guān)系確定處理。在這種情況下,歧義性刪除單元22可以不刪除
歧義性。
接下來(lái),事例提取單元241接收由第一分析單元21輸出的多個(gè)分析
結(jié)果以及第二分析單元23所采用的結(jié)果,并從由上述結(jié)果的集合產(chǎn)生的
信息中提取事例。在這點(diǎn)上,事例包括各分析結(jié)果內(nèi)的多義詞的含意與同 其他單詞相關(guān)的信息的組合(包括標(biāo)識(shí)集),以及指示該組合是否已被第
二分析單元23采用的釆用信息(步驟A2)。
在該典型實(shí)施例中,第一分析單元21所輸出的分析結(jié)果在單詞劃分
以及詞性方面存在歧義性。此外,在該典型實(shí)施例中,所述屬性集合包括
具有歧義性的多義詞以及緊接在該多義詞之前和之后的單詞的表面字符 串、詞性和變形。
接下來(lái),矛盾調(diào)整單元242將存儲(chǔ)在出現(xiàn)事例存儲(chǔ)單元31中的事例 與事例提取單元241所提取的事例進(jìn)行匹配,以確認(rèn)是否存在矛盾事例(步 驟A3)
該矛盾指示,出現(xiàn)事例存儲(chǔ)單元31中存在與事例提取單元241所提 取的事例具有相同的屬性集合但不同采用信息的事例。
當(dāng)存在矛盾事例時(shí),矛盾調(diào)整單元242僅按照從"不采用"到"采用" 的方向,對(duì)事例提取單元241所提取的事例的采用信息進(jìn)行修正(步驟 A4)。
矛盾調(diào)整單元242執(zhí)行該修正,由此使創(chuàng)建錯(cuò)誤刪除由于歧義性實(shí)質(zhì) 上不能被刪除的,刪除時(shí)將導(dǎo)致學(xué)習(xí)數(shù)據(jù)中存在矛盾事例的分析結(jié)果的模 型變得更加困難。
將作為矛盾調(diào)整單元242的輸出的事例臨時(shí)存儲(chǔ)在知識(shí)庫(kù)配置單元 243中的存儲(chǔ)器內(nèi)(步驟A5)。
這里,第一分析單元21確認(rèn)是否仍存在可用于輸入的字符串(步驟 A6)。
當(dāng)仍存在可用于輸入的字符串時(shí),就對(duì)剩余輸入重復(fù)執(zhí)行步驟Al至A5。
當(dāng)不存在可用于輸入的字符串時(shí),知識(shí)庫(kù)配置單元243根據(jù)作為矛盾 調(diào)整單元242的輸出導(dǎo)出的事例,創(chuàng)建用于歧義性刪除的知識(shí)庫(kù),并將知 識(shí)庫(kù)存儲(chǔ)在知識(shí)庫(kù)存儲(chǔ)單元32中。
該典型實(shí)施例用統(tǒng)計(jì)模型創(chuàng)建方法作為知識(shí)庫(kù)創(chuàng)建方法,所述統(tǒng)計(jì)模 型創(chuàng)建方法使用諸如判決樹(shù)、最大熵法、支持向量機(jī)方法之類的學(xué)習(xí)器。 下面,將描述該典型實(shí)施例的其他變體。
可以根據(jù)需要,利用在其中由第二分析單元23刪除第一分析單元21 的分析結(jié)果的歧義性的任意組合來(lái)改變第一分析單元21和第二分析單元 23。
例如,第一分析單元21可以執(zhí)行形態(tài)分析和段落形式化處理,而第 二分析單元23可以執(zhí)行段落間相互關(guān)系分析。
此外,該典型實(shí)施例使用句法分析處理作為整體語(yǔ)言分析處理,所述 整體語(yǔ)言分析處理是第一分析單元21和第二分析單元23的組合。然而, 只要整體語(yǔ)言分析處理是由多個(gè)階段組成語(yǔ)言分析處理,并且在其中通過(guò) 諸如形態(tài)分析處理、語(yǔ)義分析處理、計(jì)算機(jī)翻譯處理、語(yǔ)音合成處理以及 語(yǔ)音識(shí)別處理之類的后面的階段來(lái)消除中間階段中的歧義性,那么就可以 根據(jù)需要以其他方式改變作為第一分析單元21和第二分析單元23的組合
的整體語(yǔ)言分析處理。
可以手工創(chuàng)建存儲(chǔ)在出現(xiàn)事例存儲(chǔ)單元31中的用于矛盾檢測(cè)的事例。 可選地,可以不事先創(chuàng)建該事例,而在語(yǔ)言處理過(guò)程中將矛盾調(diào)整單元242 的輸出作為事例存儲(chǔ)在出現(xiàn)事例存儲(chǔ)單元31中。此外,除事先存儲(chǔ)的用 于矛盾檢測(cè)的事例之外,還可以將矛盾調(diào)整單元242的輸出加入事例。
可以根據(jù)需要改變諸如單詞和段落之類的、被參照作為用于配置知識(shí) 庫(kù)的屬性集合的語(yǔ)法要素(其他詞)的數(shù)目和方向。例如,可以僅參照緊 接在多義詞之前的一個(gè)要素,或者可以參照緊接在多義詞之前的兩個(gè)要素 以及緊接在多義詞之后的一個(gè)要素。
此外,所參照的語(yǔ)法要素中的信息(與其他詞有關(guān)的信息)可以是下 列情況中的任意一種表面字符串、詞性、變形、或其組合、或者其他只 要是與語(yǔ)法要素有關(guān)的信息。
此外,各語(yǔ)法要素所參照的信息可以不是完全統(tǒng)一的。例如,可以加 入諸如功能詞參照表面字符串,而獨(dú)立詞不參照表面字符串之類的變化。
此外,可以不執(zhí)行步驟A6,但是每次輸入可以在步驟S7處更新一次
知識(shí)庫(kù)。
作為一種知識(shí)庫(kù)創(chuàng)建方法,可以存儲(chǔ)矛盾調(diào)整單元242的輸出,因?yàn)?該輸出處于知識(shí)庫(kù)內(nèi)。
接下來(lái),將對(duì)在使用知識(shí)庫(kù)存儲(chǔ)單元32內(nèi)的知識(shí)庫(kù)執(zhí)行句法分析時(shí) 的操作進(jìn)行描述。
第一分析單元21對(duì)從輸入設(shè)備1輸入的字符串進(jìn)行分析,直至句法 分析處理的中間階段(步驟B1)。在這點(diǎn)上,如果該字符串中包含多義詞, 第一分析單元21就根據(jù)該多義詞所具有的多種含意,輸出針對(duì)該字符串 的多個(gè)分析結(jié)果。
接下來(lái),歧義性刪除單元22參考第一分析單元21的各分析結(jié)果內(nèi)的、 與多義詞和其他單詞的含意有關(guān)的信息以及知識(shí)庫(kù)存儲(chǔ)單元32內(nèi)的知識(shí) 庫(kù),確定各分析結(jié)果的采用與否,并從這些分析結(jié)果中刪除被確定為"不 采用"的分析結(jié)果(步驟B2)。
第二分析單元23利用歧義性刪除單元22留下的分析結(jié)果,在剩余階 段執(zhí)行分析(步驟B3)。
第二分析單元23向輸出設(shè)備4輸出最終導(dǎo)出的分析結(jié)果作為分析的 結(jié)果(步驟B4)。
接下來(lái),將描述該典型實(shí)施例的效果。
在該典型實(shí)施例中,由事例提取單元241、矛盾調(diào)整單元242、知識(shí) 庫(kù)配置單元243以及出現(xiàn)事例存儲(chǔ)單元31構(gòu)成的生成單元,基于第一分 析單元21所輸出的多個(gè)分析結(jié)果以及第二分析單元23所采用的結(jié)果,生 成用于刪除第一分析單元21的一個(gè)或多個(gè)非必要分析結(jié)果的刪除規(guī)則, 以便即使從第一分析單元21輸出的多個(gè)分析結(jié)果中刪除了一個(gè)或多個(gè)非 必要分析結(jié)果,也能夠維持第二分析單元23所采用的分析結(jié)果。
因此,可以防止將第二分析單元23為了采用正確的分析結(jié)果而需要 的分析結(jié)果從第一分析單元21的、尚未被第二分析單元23采用的分析結(jié) 果中刪除。因而,可以僅僅去除不改變最終分析結(jié)果的非必要候選項(xiàng)(分 析結(jié)果)。
此外,在該典型實(shí)施例中,在向出現(xiàn)事例存儲(chǔ)單元31存儲(chǔ)與事例提 取單元241所提取的事例不同的事例(矛盾事例)時(shí),矛盾調(diào)整單元242 將事例提取單元241所提取的事例的采用信息從"不采用"修正為"采用"。
這樣,利用基于矛盾調(diào)整單元242的輸出創(chuàng)建的知識(shí)庫(kù)的歧義性刪除單元 22不太可能執(zhí)行錯(cuò)誤的搜索結(jié)果刪除。
相應(yīng)地,有利地,即使為了加速分析處理而刪除了歧義性,分析結(jié)果 也不會(huì)與未刪除歧義性的情況有所不同。
此外,盡管粗略地設(shè)想了兩種用于實(shí)現(xiàn)第一分析單元21方法,即以 統(tǒng)計(jì)模型為基礎(chǔ)的基于統(tǒng)計(jì)的分析,以及用于基于手工創(chuàng)建的規(guī)則執(zhí)行分 析的基于規(guī)則的分析(基于規(guī)則的方案)。該典型實(shí)施例對(duì)于基于以分析 為基礎(chǔ)的規(guī)則的分析單元更為有利。
這可歸因于下列原因。
第一分析單元21在許多情況下獨(dú)立刪除歧義性,而歧義性刪除單元 22刪除第一分析單元21所無(wú)法刪除的歧義性(分析結(jié)果)。
假設(shè)只能夠從類似的信息中刪除類似的歧義性(分析結(jié)果),則可以 認(rèn)為刪除效果變大了,這是由于第一分析單元21和歧義性刪除單元22參 照重疊部分減少了的信息。
當(dāng)?shù)谝环治鰡卧?1執(zhí)行基于統(tǒng)計(jì)的分析時(shí),如果基于該分析的統(tǒng)計(jì) 模型以及歧義性刪除單元22所參照的統(tǒng)計(jì)模型是類似的模型,則所參照 的信息在很大程度上重疊,從而導(dǎo)致削減的歧義性刪除效果。相反,基于 規(guī)則的分析中的分析規(guī)則通常具有與統(tǒng)計(jì)模型不同的性質(zhì),因此重疊參照 信息較少,從而導(dǎo)致增大的歧義性刪除效果。 (示例)
接下來(lái),將利用特定示例描述該典型實(shí)施例的操作。
在第一示例中,第一分析單元21執(zhí)行將輸入語(yǔ)句劃分為單詞并賦予 詞性的形態(tài)分析處理,而第二分析單元23執(zhí)行用于確定單詞間相互關(guān)系 的相互關(guān)系確定處理。
此外,事例提取單元241所參照的信息包括具有歧義性的單詞(多義 詞)以及緊接在該歧義性(多義詞)之前和之后的單詞的表面字符串(僅 針對(duì)具有歧義性的單詞(多義詞)和功能詞)和詞性。
此外,在知識(shí)庫(kù)配置單元243中創(chuàng)建知識(shí)庫(kù)的方法是支持向量機(jī)法(以 下稱為SVM法)。
此外,出現(xiàn)事例存儲(chǔ)單元31存儲(chǔ)事例,所述事例是通過(guò)為事例提取單元241提供在第一分析單元21和第二分析單元23中分析大量語(yǔ)句的結(jié) 果的方式導(dǎo)出的。
圖3A是示出了存儲(chǔ)在出現(xiàn)事例存儲(chǔ)單元31中的事例的特定示例的說(shuō) 明圖。例如,可以根據(jù)輸入語(yǔ)句"Mondai ga tokeru to shiawase ni nareru"(你
能夠在解決問(wèn)題時(shí)感到快樂(lè))導(dǎo)出圖3A中從上往下的第四事例。 首先,將描述知識(shí)庫(kù)學(xué)習(xí)過(guò)程中的操作。
假設(shè)輸入語(yǔ)句中存在三禾中表達(dá)"Mondai wo tokeru to musume ga iu" (我的女兒說(shuō)她能夠解決問(wèn)題)(表達(dá)l)、 "Yukiga tokeru to harugakuru" (隨著春天的到來(lái),雪開(kāi)始融化)(表達(dá)2)、以及"Kono mondai ga tokeru tohanashigasusumu"(如果解決了這個(gè)難題,會(huì)談將更進(jìn)一步)(表達(dá)3)。
單詞"tokem"具有兩種含意,即動(dòng)詞"(物體)融化"以及作為"解 決(問(wèn)題)"的可能形式的可能動(dòng)詞,因此詞"tokeru"具有歧義性。
此外,單詞"to"具有兩種含意,即"引用助詞"以及"連接助詞", 因此詞"to"具有歧義性。
相應(yīng)地,第一分析單元21對(duì)表達(dá)1-3的形態(tài)分析導(dǎo)致如圖3B所示的、 具有多個(gè)存在歧義性的形態(tài)分析結(jié)果的結(jié)構(gòu)。
由于向第二分析單元23提供了這一具有歧義性的結(jié)構(gòu),因而在第二 分析單元23的分析過(guò)程中消除了第一分析單元21的形態(tài)分析結(jié)果的歧義 性。圖3B中的符號(hào)※指示作為分析結(jié)果的第二分析單元23所采用的形態(tài) 分析結(jié)果。
接下來(lái),非必要歧義性學(xué)習(xí)單元24根據(jù)第一分析單元21的輸出以及 第二分析單元23所采用的結(jié)果,為學(xué)習(xí)知識(shí)庫(kù)創(chuàng)建事例。
在本示例中,事例的創(chuàng)建指的是對(duì)于第一分析單元的各形態(tài)分析結(jié) 果,對(duì)具有歧義性的單詞以及緊接在該單詞之前和之后的單詞的各分析結(jié) 果,將表面字符串(僅針對(duì)具有歧義性的單詞以及功能詞)、關(guān)于詞性的 信息、以及第二分析單元23中的采用信息進(jìn)行配對(duì)。
采用信息可以是"采用",或者是"不采用",并且取二進(jìn)制值。
下面,示出某一事例,其中由非必要歧義性學(xué)習(xí)單元24根據(jù)表達(dá)1 中的"tokeru"(融化)的歧義性創(chuàng)建事例。
參照?qǐng)D3B (表達(dá)1),具有歧義性的單詞(多義詞)的表面字符串是
"tokeru",其詞性是"動(dòng)詞",并且前一單詞的表面字符串是"wo",其詞 性是助詞,而后一單詞的表面字符串是"to",其詞性是"引用助詞"或"連 接助詞",并且由于關(guān)于這些單詞的采用信息是"不采用",因此導(dǎo)出下面 兩個(gè)事例。
事例l:[前一單詞(表面字符串WO/詞性助詞)、具有歧義性的單 詞(表面字符串tokeru/詞性動(dòng)詞)、后一單詞(表面字符串to/詞性 引用助詞)]->不采用
事例2:[前一單詞(表面字符串WO/詞性助詞)、具有歧義性的單 詞(表面字符串tokeru/詞性動(dòng)詞)、后一單詞(表面字符串to/詞性 連接助詞)]->不采用
為了降低學(xué)習(xí)過(guò)程中的計(jì)算量,優(yōu)選地將事例的數(shù)目減小至盡可能小 的數(shù)目。
因此,對(duì)于與具有歧義性的單詞不同的單詞(其他單詞),可以盡可
能地使用第二分析單元23所采用的單詞。
具體地,由于表達(dá)1中所采用的"to"的候選項(xiàng)(解釋事例)是"引 用助詞",因而在學(xué)習(xí)中不可以使用未采用的候選項(xiàng)(解釋事例)即"連
接助詞"的事例2。
圖3C是示出了按照這種方式針對(duì)表達(dá)1-3的所有形態(tài)分析結(jié)果創(chuàng)建 事例的結(jié)果的說(shuō)明圖。
接下來(lái),非必要歧義性學(xué)習(xí)單元24 (矛盾調(diào)整單元242)將導(dǎo)出的事 例與存儲(chǔ)在出現(xiàn)事例存儲(chǔ)單元31中的用于矛盾檢測(cè)的事例進(jìn)行比較,以 確認(rèn)是否存在矛盾。
例如,在將圖3C中從上往下的第四事例與圖3A中從上往下的用于 矛盾檢測(cè)的第四事例進(jìn)行比較時(shí),它們具有相同的屬性集合,不同的采用 信息,因此可以認(rèn)為這是一個(gè)矛盾事例。
在這種情況下,矛盾調(diào)整單元242將導(dǎo)出的事例的采用信息從"不采 用"更改為"采用"。
在這點(diǎn)上,當(dāng)進(jìn)行從"采用"到"不采用"的修改時(shí),將在后續(xù)知識(shí) 庫(kù)配置中創(chuàng)建用于統(tǒng)一刪除實(shí)質(zhì)上不能被刪除的歧義性的模型,因此在該 示例中,不進(jìn)行這樣的修改。
在這點(diǎn)上,對(duì)于需要從"不釆用"修改為"采用"的表達(dá)1的另一事 例,為圖3C中的使用信息項(xiàng)賦予標(biāo)記("矛盾")。
矛盾調(diào)整單元242 —旦完成修改,就為知識(shí)庫(kù)配置單元243提供經(jīng)修 改事例以及未經(jīng)修改事例。
最后,知識(shí)庫(kù)配置單元243從接受自矛盾調(diào)整單元242的事例中學(xué)習(xí) 利用SVM的歧義性消除模型。
在這種情況下,知識(shí)庫(kù)配置單元243利用被用作輸入的各事例的屬性 集合以及作為目標(biāo)類的采用信息,進(jìn)行二叉分類學(xué)習(xí)。
可以利用SVM核函數(shù)中的三階多項(xiàng)式函數(shù)實(shí)現(xiàn)較高的精度。
諸如SVM、最大熵法、判決樹(shù)之類的分類器嘗試學(xué)習(xí)分界線,利用 該分界線,根據(jù)事例中所指示的類對(duì)輸入事例進(jìn)行分類。
知識(shí)庫(kù)配置單元243通常根據(jù)本示例中的事例來(lái)配置這樣的一個(gè)模型 (知識(shí)庫(kù)),該知識(shí)庫(kù)在任意上下文中,將之前具有助詞的動(dòng)詞"tokeru" (融化)的形態(tài)分析結(jié)果定為"不采用",并將與單詞"to"有關(guān)的多個(gè)形 態(tài)分析結(jié)果(歧義性)定為"采用",并將其存儲(chǔ)在知識(shí)庫(kù)存儲(chǔ)單元32中。
接下來(lái),將對(duì)在利用所配置的知識(shí)庫(kù)執(zhí)行句法分析時(shí)的操作進(jìn)行描述。
假設(shè)輸入了表達(dá)1-3,第一分析單元21利用與學(xué)習(xí)過(guò)程中的方式類似 的方式,輸出具有圖3B所示的歧義性的形態(tài)分析結(jié)果,即多個(gè)形態(tài)分析結(jié)果。
隨后,歧義性刪除單元22針對(duì)每個(gè)形態(tài)分析結(jié)果創(chuàng)建一個(gè)屬性集合, 并在該屬性集合被存儲(chǔ)在知識(shí)庫(kù)中的分類器確定為"不釆用"的情況下, 去除與其組成集合相對(duì)應(yīng)的形態(tài)分析結(jié)果。
例如,在與學(xué)習(xí)過(guò)程的示例類似的過(guò)程中,根據(jù)表達(dá)1的動(dòng)詞"tokeru" (融化)的分析結(jié)果導(dǎo)出下列屬性集合。然而,由于尚未根據(jù)第一分析單 元21中的分析確定詞"to"的歧義性,因而屬性集合的數(shù)目是2。
屬性集合h [前一單詞(表面字符串wo/詞性助詞)、具有歧義性
的單詞(表面字符串t0keru/詞性動(dòng)詞)、后一單詞(表面字符串to/ 詞性引用助詞)]
屬性集合2:[前一單詞(表面字符串W0/詞性助詞)、具有歧義性
的單詞(表面字符串tokeru/詞性動(dòng)詞)、后一單詞(表面字符串to/ 詞性連接助詞)]
歧義性刪除單元22確定各屬性集合是否被知識(shí)庫(kù)存儲(chǔ)單元32內(nèi)的模 型所采用。在這種情況下,由于在這兩個(gè)屬性集合1和2中,具有歧義性 的單詞是動(dòng)詞"tokeru"(融化),并且在緊接在"tokeru"之前的是助詞"wo", 因而歧義性刪除單元22將該屬性集合確定為"不釆用"。
因此,確定針對(duì)動(dòng)詞"tokeru"(融化)的候選項(xiàng)是非必要的,并將其 去除。
另一方面,當(dāng)沒(méi)有助詞"wo"緊接在"tokeru"之前時(shí),此時(shí)所學(xué)習(xí) 的模型不將針對(duì)可能動(dòng)詞"tokeru"(解決)的候選項(xiàng)確定為"不采用", 并且不將針對(duì)單詞"to"的多個(gè)分析結(jié)果(歧義性)確定為"不采用",因 此不去除表達(dá)1-3的其他形態(tài)分析結(jié)果。
最后,第二分析單元23利用剩余的形態(tài)分析結(jié)果執(zhí)行分析處理。
由歧義性刪除單元22刪除的形態(tài)分析結(jié)果是即便沒(méi)有被歧義性刪除 單元22去除也不被第二分析單元23所采用的形態(tài)分析結(jié)果,因此歧義性 的當(dāng)前刪除不改變第二分析單元23的分析結(jié)果。
下面,將描述第一示例的效果。
在本示例中,由于僅去除了不改變第二分析單元23的分析結(jié)果的形 態(tài)分析結(jié)果,因而與沒(méi)有刪除歧義性時(shí)第二分析單元23的分析結(jié)果相比, 第二分析單元23的分析結(jié)果沒(méi)有改變。
另一方面,由于可以針對(duì)"tokem"刪除第一分析單元21的非必要 的形態(tài)分析結(jié)果,第二分析單元23在分析速度方面有所提高,從而導(dǎo)致 整體分析速度的提高。
此外,盡管以日語(yǔ)為例對(duì)本示例進(jìn)行了描述,可以分析的語(yǔ)言不局限 于日語(yǔ)。
接下來(lái),將描述第二示例。
第二示例實(shí)質(zhì)上在配置方面與第一示例相同,只不過(guò)知識(shí)庫(kù)配置單元 243將從矛盾調(diào)整單元242接收到的事例直接存儲(chǔ)在知識(shí)庫(kù)存儲(chǔ)單元32 中。
首先,將描述學(xué)習(xí)過(guò)程中的操作。當(dāng)輸入上述表達(dá)1-3時(shí),矛盾調(diào)整單元242按照與第一示例類似的方 式獲得圖3C所示的事例(注意,已經(jīng)被賦予矛盾標(biāo)記的事例具有被修正 為"采用"的采用信息)。
在本示例中,知識(shí)庫(kù)配置單元243實(shí)際上將從矛盾調(diào)整單元242導(dǎo)出 的事例存儲(chǔ)在知識(shí)庫(kù)存儲(chǔ)單元32中。
接下來(lái),將描述在使用導(dǎo)出的知識(shí)庫(kù)執(zhí)行句法分析時(shí)的操作。
按照與第一示例類似的方式,當(dāng)輸入表達(dá)1-3時(shí),第一分析單元21 輸出多個(gè)具有歧義性的形態(tài)分析結(jié)果(如圖3B所示),然后歧義性刪除單 元22從各形態(tài)分析結(jié)果中獲取與第一示例類似的屬性集合。表達(dá)1中的 動(dòng)詞"tokeru"(融化)的歧義性也與第一示例類似。
隨后,歧義性刪除單元22按照下列方式確定是否采用各屬性集合。
如果知識(shí)庫(kù)存儲(chǔ)單元32中存在具有與各導(dǎo)出的屬性集合相匹配的屬 性集合的事例,歧義性刪除單元22就使用存在于知識(shí)庫(kù)存儲(chǔ)單元32中的 事例的采用信息作為確定結(jié)果。
具體地,如果知識(shí)庫(kù)存儲(chǔ)單元32中存在相關(guān)事例,并且其采用信息 為"采用",則歧義性刪除單元22也將確定結(jié)果設(shè)置為"采用";如果相 關(guān)事例的釆用信息為"不采用",歧義性刪除單元22就將確定結(jié)果設(shè)置為 "不采用";以及如果不存在相關(guān)事例,歧義性刪除單元22就將確定結(jié)果 設(shè)置為"待定"。
然后,歧義性刪除單元22按以下方式確定各、形態(tài)分析結(jié)果。
就算甚至只有一個(gè)屬性集合與被設(shè)置為"采用"的確定結(jié)果同時(shí)存在, 歧義性刪除單元22就將相關(guān)的形態(tài)分析結(jié)果確定為"采用",在沒(méi)有任何 屬性集合與具有被設(shè)置為"采用"的確定結(jié)果同時(shí)存在的情況下,就算甚 至只有一個(gè)屬性集合與被設(shè)置為"不采用"的確定結(jié)果同時(shí)存在,歧義性 刪除單元22就將相關(guān)形態(tài)分析結(jié)果確定為"不采用",否則將相關(guān)形態(tài)分 析結(jié)果確定為"采用"。
例如,用動(dòng)詞"tokem"(融化)的各形態(tài)分析結(jié)果的屬性集合(屬性 集合l、 2)作為說(shuō)明用的事例,由于屬性集合1與圖3C中從上往下的、 具有采用信息被確定為"不采用"的第一事例的屬性集合相同,因此將屬 性集合1確定為"不采用",而由于不存在任何與知識(shí)庫(kù)中存在的事例具有相同屬性集合的事例,將屬性集合2確定為"待定"。
相應(yīng)地,將表示動(dòng)詞"tokeru"(融化)的形態(tài)分析結(jié)果確定為"不采 用"。由于已經(jīng)采用相似的方式確定了表達(dá)1-3的其他形態(tài)分析結(jié)果,因而 將它們?nèi)即_定為"采用"。
接下來(lái),將描述第二示例的效果。
在第二示例中,為了將各形態(tài)分析結(jié)果確定為"不采用",由形態(tài)分 析結(jié)果導(dǎo)出的屬性集合必須與知識(shí)庫(kù)內(nèi)的屬性集合完全匹配,因此可以利 用與第一示例相似的方式(盡管歧義性刪除性能比第一示例差),通過(guò)僅 僅去除不必要的歧義性的方式,在不改變分析結(jié)果的前提下實(shí)現(xiàn)更快的速度。
應(yīng)注意,本發(fā)明可應(yīng)用于需要句法分析處理的自然語(yǔ)言處理應(yīng)用,例 如用于從第一自然語(yǔ)言翻譯成第二自然語(yǔ)言的計(jì)算機(jī)翻譯程序,以及用于 從語(yǔ)句中提取單詞的特征序列的文本挖掘程序。
在典型實(shí)施例以及上述各示例中,所例證的配置僅作為示例,并且本 發(fā)明不局限于那些配置。
權(quán)利要求
1. 一種語(yǔ)言處理設(shè)備,包括第一分析單元,對(duì)包括多義詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí)行預(yù)定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對(duì)所述自然語(yǔ)言語(yǔ)句的多個(gè)分析結(jié)果;第二分析單元,對(duì)所述第一分析單元輸出的多個(gè)分析結(jié)果執(zhí)行特定分析,以采用所述多個(gè)分析結(jié)果中的一個(gè)分析結(jié)果;以及生成單元,基于所述第一分析單元所輸出的多個(gè)分析結(jié)果以及所述第二分析單元的采用結(jié)果,生成用于刪除所述第一分析單元的一個(gè)或多個(gè)非必要分析結(jié)果的刪除規(guī)則,以便即使從所述第一分析單元輸出的多個(gè)分析結(jié)果中刪除了一個(gè)或多個(gè)非必要分析結(jié)果,也能使所述第二分析單元所采用的分析結(jié)果保持不變。
2. —種語(yǔ)言處理設(shè)備,包括第一分析單元,對(duì)包括多義詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí)行預(yù) 定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對(duì)所述自然語(yǔ)言語(yǔ)句 的多個(gè)分析結(jié)果;第二分析單元,對(duì)所述第一分析單元輸出的多個(gè)分析結(jié)果執(zhí)行特定分 析,以采用所述多個(gè)分析結(jié)果中的一個(gè)分析結(jié)果;存儲(chǔ)單元,針對(duì)所述多義詞的一種含意與同其他單詞相關(guān)的信息的各 組合,存儲(chǔ)指示是否采用所述組合的確定信息;采用信息生成單元,針對(duì)所述第一分析單元所輸出的各分析結(jié)果內(nèi)的 多義詞的含意與同其他單詞相關(guān)的信息的各組合,基于所述第一分析單元 所輸出的多個(gè)分析結(jié)果以及所述第二分析單元的采用結(jié)果,生成指示所述 第二分析單元是否采用所述組合的采用信息;以及規(guī)則生成單元,當(dāng)在由所述采用信息生成單元所生成的采用信息中被 確定為"不采用"的組合與所述存儲(chǔ)單元中指示"采用"的確定信息相對(duì) 應(yīng)時(shí),將所述采用信息變?yōu)?釆用",并在隨后基于改變了的采用信息以 及沒(méi)有改變的采用信息,生成用于從所述多個(gè)分析結(jié)果中刪除一個(gè)或多個(gè) 非必要分析結(jié)果的刪除規(guī)則。
3. 根據(jù)權(quán)利要求2所述的語(yǔ)言處理設(shè)備,其中,多義詞的含意與同其 他單詞有關(guān)的信息的所述組合是所述多義詞的表面字符串、詞性、變形或 其組合中的一種與所述多義詞相鄰單詞的組合。
4. 根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的語(yǔ)言處理設(shè)備,其中,所述第 一分析單元按照用于根據(jù)事先確定的預(yù)定規(guī)則進(jìn)行分析的基于規(guī)則的方 案,對(duì)所述自然語(yǔ)言語(yǔ)句進(jìn)行分析。
5. —種語(yǔ)言處理設(shè)備,包括知識(shí)庫(kù)存儲(chǔ)單元,存儲(chǔ)根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的語(yǔ)言處理 設(shè)備所生成的刪除規(guī)則;第一分析單元,對(duì)包括多義詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí)行預(yù) 定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對(duì)所述自然語(yǔ)言語(yǔ)句 的多個(gè)分析結(jié)果;歧義性刪除單元,基于所述知識(shí)庫(kù)存儲(chǔ)單元內(nèi)存儲(chǔ)的刪除規(guī)則,從所 述第一分析單元輸出的多個(gè)分析結(jié)果中刪除一個(gè)或多個(gè)非必要分析結(jié)果; 以及第二分析單元,對(duì)所述歧義性刪除單元已從中刪除了一個(gè)或多個(gè)非必 要分析結(jié)果的所述多個(gè)分析結(jié)果執(zhí)行特定分析,以采用所述多個(gè)分析結(jié)果 中的一個(gè)分析結(jié)果。
6. —種語(yǔ)言處理方法,包括第一分析步驟,對(duì)包括多義詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí)行預(yù) 定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對(duì)所述自然語(yǔ)言語(yǔ)句 的多個(gè)分析結(jié)果;第二分析步驟,對(duì)所述多個(gè)分析結(jié)果執(zhí)行特定分析,以采用所述多個(gè) 分析結(jié)果中的一個(gè)分析結(jié)果;以及生成步驟,基于所述第一分析步驟所輸出的多個(gè)分析結(jié)果以及所述第 二分析步驟的采用結(jié)果,生成用于刪除所述第一分析步驟的一個(gè)或多個(gè)非 必要分析結(jié)果的刪除規(guī)則,以便即使從所述多個(gè)分析結(jié)果中刪除了一個(gè)或 多個(gè)非必要分析結(jié)果,也能使所述第二分析步驟所采用的分析結(jié)果保持不 變。
7. —種由語(yǔ)言處理設(shè)備所執(zhí)行的語(yǔ)言處理方法,所述語(yǔ)言處理設(shè)備包括存儲(chǔ)單元,所述存儲(chǔ)單元針對(duì)多義詞的一種含意與同其他單詞相關(guān)的信 息的各組合,存儲(chǔ)指示是否采用所述組合的確定信息,所述方法包括第一分析步驟,對(duì)包括多義詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí)行預(yù) 定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對(duì)所述自然語(yǔ)言語(yǔ)句 的多個(gè)分析結(jié)果;第二分析步驟,對(duì)所述多個(gè)分析結(jié)果執(zhí)行特定分析,以采用所述多個(gè) 分析結(jié)果中的一個(gè)分析結(jié)果;采用信息生成步驟,針對(duì)所述第一分析步驟所輸出的各分析結(jié)果內(nèi)的 多義詞的含意與同其他單詞相關(guān)的信息的各組合,基于所述第一分析步驟 所輸出的多個(gè)分析結(jié)果以及所述第二分析步驟的采用結(jié)果,生成指示所述 第二分析步驟是否采用所述組合的采用信息;以及規(guī)則生成步驟,當(dāng)在采用信息中被確定為"不采用"的組合與所述存 儲(chǔ)單元中指示"采用"的確定信息相對(duì)應(yīng)時(shí),將所述采用信息變?yōu)?采用", 并在隨后基于改變了的采用信息以及沒(méi)有改變的采用信息,生成用于從所 述多個(gè)分析結(jié)果中刪除一個(gè)或多個(gè)非必要分析結(jié)果的刪除規(guī)則。
8. —種由語(yǔ)言處理設(shè)備執(zhí)行的語(yǔ)言處理方法,所述語(yǔ)言處理設(shè)備包括 知識(shí)庫(kù)存儲(chǔ)單元,所述知識(shí)庫(kù)存儲(chǔ)單元存儲(chǔ)由根據(jù)權(quán)利要求1至4任一項(xiàng) 所述的語(yǔ)言處理設(shè)備所生成的刪除規(guī)則,所述方法包括第一分析步驟,對(duì)包括多義詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí)行預(yù) 定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對(duì)所述自然語(yǔ)言語(yǔ)句 的多個(gè)分析結(jié)果;歧義性刪除步驟,基于所述知識(shí)庫(kù)存儲(chǔ)單元內(nèi)存儲(chǔ)的刪除規(guī)則,從所 述多個(gè)分析結(jié)果中刪除一個(gè)或多個(gè)非必要分析結(jié)果;以及第二分析步驟,對(duì)已從中刪除了一個(gè)或多個(gè)非必要分析結(jié)果的所述多 個(gè)分析結(jié)果執(zhí)行特定分析,以采用所述多個(gè)分析結(jié)果中的一個(gè)分析結(jié)果。
9. 一種用于使計(jì)算機(jī)執(zhí)行語(yǔ)言處理的語(yǔ)言處理程序,所述程序使計(jì)算 機(jī)執(zhí)行的語(yǔ)言處理包括第一分析處理,用于對(duì)包括多義詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí) 行預(yù)定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對(duì)所述自然語(yǔ)言語(yǔ)句的多個(gè)分析結(jié)果;第二分析處理,用于對(duì)所述多個(gè)分析結(jié)果執(zhí)行特定分析,以采用所述多個(gè)分析結(jié)果中的一個(gè)分析結(jié)果;以及生成處理,用于基于所述第一分析處理所輸出的多個(gè)分析結(jié)果以及所 述第二分析處理的采用結(jié)果,生成用于刪除所述第一分析處理的一個(gè)或多 個(gè)非必要分析結(jié)果的刪除規(guī)則,以便即使從所述多個(gè)分析結(jié)果中刪除了一 個(gè)或多個(gè)非必要分析結(jié)果,也能使所述第二分析處理所采用的分析結(jié)果保 持不變。
10. —種用于使計(jì)算機(jī)執(zhí)行語(yǔ)言處理的語(yǔ)言處理程序,所述計(jì)算機(jī)連 接至存儲(chǔ)單元,所述存儲(chǔ)單元針對(duì)多義詞的一種含意與同其他單詞相關(guān)的 信息的各組合,存儲(chǔ)指示是否采用所述組合的確定信息,所述程序使計(jì)算 機(jī)執(zhí)行的語(yǔ)言處理包括第一分析處理,用于對(duì)包括多義詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí) 行預(yù)定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對(duì)所述自然語(yǔ)言語(yǔ)句的多個(gè)分析結(jié)果;第二分析處理,用于對(duì)所述多個(gè)分析結(jié)果執(zhí)行特定分析,以采用所述 多個(gè)分析結(jié)果中的一個(gè)分析結(jié)果;采用信息生成處理,用于針對(duì)所述第一分析處理所輸出的各分析結(jié)果 內(nèi)的多義詞的含意與同其他詞相關(guān)的信息的各組合,基于所述第一分析處 理所輸出的多個(gè)分析結(jié)果以及所述第二分析處理的采用結(jié)果,生成指示所 述第二分析處理是否采用所述組合的采用信息;以及規(guī)則生成處理,用于當(dāng)在采用信息中被確定為"不采用"的組合與所 述存儲(chǔ)單元中指示"采用"的確定信息相對(duì)應(yīng)時(shí),將所述采用信息變?yōu)?采 用",并在隨后基于改變的采用信息以及沒(méi)有改變的采用信息,生成用于 從所述多個(gè)分析結(jié)果中刪除一個(gè)或多個(gè)非必要分析結(jié)果的刪除規(guī)則。
11. 一種用于使計(jì)算機(jī)執(zhí)行語(yǔ)言處理的語(yǔ)言處理程序,所述計(jì)算機(jī)連 接至知識(shí)庫(kù)存儲(chǔ)單元,所述知識(shí)庫(kù)存儲(chǔ)單元存儲(chǔ)由根據(jù)權(quán)利要求1至4中 任一項(xiàng)所述的語(yǔ)言處理設(shè)備所生成的刪除規(guī)則,所述程序使計(jì)算機(jī)執(zhí)行的 語(yǔ)言處理包括-第一分析處理,用于對(duì)包括多義詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句執(zhí) 行預(yù)定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對(duì)所述自然語(yǔ)言 語(yǔ)句的多個(gè)分析結(jié)果;歧義性刪除處理,用于基于所述知識(shí)庫(kù)存儲(chǔ)單元內(nèi)存儲(chǔ)的刪除規(guī)則, 從所述多個(gè)分析結(jié)果中刪除一個(gè)或多個(gè)非必要分析結(jié)果;以及第二分析處理,用于對(duì)已從中刪除了一個(gè)或多個(gè)非必要分析結(jié)果的所 述多個(gè)分析結(jié)果執(zhí)行特定分析,以采用所述多個(gè)分析結(jié)果中的一個(gè)分析結(jié) 果。
全文摘要
一種語(yǔ)言處理設(shè)備,包括第一分析單元(21)、第二分析單元(23)、以及生成單元(244)。第一分析單元(21)對(duì)包含多義詞和其他單詞在內(nèi)的自然語(yǔ)言語(yǔ)句進(jìn)行預(yù)定分析,并根據(jù)多義詞的多種含意輸出針對(duì)該自然語(yǔ)言語(yǔ)句的多個(gè)分析結(jié)果。第二分析單元(23)對(duì)第一分析單元(21)輸出的多個(gè)分析結(jié)果執(zhí)行特定分析,以采用所述多個(gè)分析結(jié)果中的一個(gè)分析結(jié)果。生成單元(244)基于第一分析單元(21)所輸出的多個(gè)分析結(jié)果以及第二分析單元(23)所采用的結(jié)果,生成用于刪除從第一分析單元(21)所輸出的分析結(jié)果中刪除了的、但未被第二分析單元(23)所采用的非必要分析結(jié)果。
文檔編號(hào)G06F17/27GK101390091SQ20078000687
公開(kāi)日2009年3月18日 申請(qǐng)日期2007年2月9日 優(yōu)先權(quán)日2006年2月27日
發(fā)明者土井伸一, 安藤真一, 定政邦彥 申請(qǐng)人:日本電氣株式會(huì)社