專利名稱:字典檢索裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明是關(guān)于一種字典檢索裝置,它用于以日文、中文、朝鮮文、英文等書寫的報告的各種處理。進(jìn)一步說,本發(fā)明是關(guān)于這樣一種裝置,它使用該字典進(jìn)行裝置進(jìn)行形式元素(form element)分析、不正確字符校正、字符標(biāo)性化或后字行識別處理。
近些年,如字處理機(jī)、個人計算機(jī)、工作站之類計算機(jī)已廣泛推廣。人們希望使用計算機(jī)來進(jìn)行各種處理,如報告的翻譯、檢索或分發(fā)。為進(jìn)行翻譯之類處理,必須將報告存貯于計算機(jī)中,并參照字典對報告中的句子進(jìn)行形式元素分析。
通常的形式元素分析是在假定輸入字符串被正確輸入計算機(jī)的前提下進(jìn)行的。為了進(jìn)行形式元素分析,報告中的句子必須是正確輸入的。
然而,在實際上,都經(jīng)常輸入一個系統(tǒng)研制者所不希望的另一個字符串作為輸入字符串。
用日文寫的不正確輸入字符串和相應(yīng)的正確輸入字符串的表示實例示于
圖1。在圖1中每個字符串的發(fā)音表示在中。圖1的例1中,正確字符串“(ko)(n)(pi)(yu)(-)(ta)”的意思是“計算機(jī)”。在不正確的字符串中,使用了不正確的字符“減號”代夫了長元音符號“-”。在例2中,正確的字符串“(pa)(-)(Za)(-)”丟掉了第三個字符的發(fā)聲符號“Za”。在例3中正確的字符串“(doku)(sen)(jou)”的意思是“無與倫比的”。而在不正確的字符串“(doku)(dan)(jou)”中第二個漢字(漢字是一個中文字符)在外形上與正確的字符相似,但意思上不同。在上述實例中的三個錯誤都是由于使用了類似的字符。
在例4中正確的字符串和不正確的字符串有相同的發(fā)音“to ma to”和相同的含義“土豆”。不正確的字符串是用平假名(一種日文字母)輸入的而不是用片假名(另一種日文字母)正確輸入的。在這種情況下,不正確的字符串作為拼寫變體是一種允許的表示,然而計算機(jī)系統(tǒng)把它作為不正確字符串處理。
對于人而言,上述正確字符串和不正確字符串的差別是小差別。然而,如果在翻譯系統(tǒng)或其他類似系統(tǒng)中使用的詞典中只存貯了正確的詞,則會發(fā)生不能正確進(jìn)行分析的問題。
在例5中,正確字符串和不正確字符串都表示一個日本姓氏,稱作“takizawa”。它們的發(fā)音和它們的含義都相同,只是新體字和舊體字之差。這些不同的字體用于報告的不同書寫環(huán)境,例如由不同的人寫的或由于使用了不同的假名-漢字轉(zhuǎn)換字典(即日文字-中文字轉(zhuǎn)換字典)。正確字符串是用新體字寫的,而不正確字符串是用舊體字寫的。如果舊體字(它們不符合標(biāo)準(zhǔn))沒有登錄在一個系統(tǒng)字典中,這種不正確字符串便作為未登錄字輸出,于是在通常的形式元素分析中便不出現(xiàn)它的正確選擇物。
再有,通常的字符識別處理裝置,例如印刷字符閱讀器(reader)、手寫輸入字符閱讀器之類,對于每個閱讀字符輸出多個候選字符。當(dāng)用字符識別處理裝置得到輸入字符時,一個字符識別后處理裝置“對于每個輸入字符接收多個候選字符,再利用候選字符的組合來檢索字典。如果一個長度為n的字符串中每個字符有m個候選字符,則字符識別后處理裝置要對mn個字符串組合檢索字典。于是,每個候選字符的數(shù)量增加,候選字符組合的數(shù)目增加,從而使字符識別后處理的速度變得緩慢。
為了提高字符識別后處理的速度,按通常的方式是試圖把每個字符位置的候選字符數(shù)目減少為m′個候選字符(m′<m))。然而,在試圖減少數(shù)目時,如果正確的字符被排除在這m′個候選字符之外,則不能檢索到正確的詞。
所以,本發(fā)明的一個目標(biāo)是提供一個字典檢索裝置,它把由轉(zhuǎn)換字符定義表所規(guī)定的字符集的各元素看作為同一元素,從而對一個由于輸入錯誤迄今仍不能用以檢索字典的字能夠用以檢索字典。
本發(fā)明的另一目標(biāo)是提供一個形式元素分布裝置,它使用上述能對一個迄今仍不能被用以檢索字典的字進(jìn)行字典檢索的一個字典檢索裝置,從而允許有錯誤的輸入。
本發(fā)明的又一目標(biāo)是提供一種字符串校正裝置,它使用上述能對一個迄今仍不能被用以檢索字典的字進(jìn)行字典檢索的一個字典檢索裝置,從而能使字符標(biāo)準(zhǔn)化和改正錯誤。
本發(fā)明的又一目標(biāo)是提供一種字符識別后處理裝置,通過減少在每個字符位置候選組的數(shù)目和減少候選字符組合數(shù)目,并通過對字符識別處理裝置輸出的在每個字符位置的候選字符進(jìn)行分組,使該字符識別后處理裝置能提高其處理速度。
為達(dá)到上述目標(biāo),本發(fā)明構(gòu)成了一個字典檢索裝置,它利用其轉(zhuǎn)換字符定義表(difinition form)、字符組ID轉(zhuǎn)換部分、輸入字符串轉(zhuǎn)換部分、字典、字典轉(zhuǎn)換部分、被轉(zhuǎn)換字字典、以字典檢索部分,對來自輸入部分的字符串進(jìn)行轉(zhuǎn)換并將轉(zhuǎn)換后的字符串輸出到輸出部分。轉(zhuǎn)換字符定義表的構(gòu)成方法是把字符集C={C1,C2,…Cn}分類構(gòu)成一些子集(GiCC),并對每個子集提供一個“組ID”。字符組ID轉(zhuǎn)換部分使用轉(zhuǎn)換字符定義表將字符串的每個字符轉(zhuǎn)換成“組ID”。輸入字符串轉(zhuǎn)換部分調(diào)用字符-組ID轉(zhuǎn)換部分將來自輸入部分的輸入字符串轉(zhuǎn)換的“輸入組ID串”。字典存貯的字是在輸入部分出現(xiàn)的有效部分字符串(significant partial character string)。字典轉(zhuǎn)換部分調(diào)用字符-組ID轉(zhuǎn)換部分將字典中定義的每個詞的表示字符串轉(zhuǎn)換成“表示組ID串”。被轉(zhuǎn)換詞字典存貯由字典轉(zhuǎn)換部分轉(zhuǎn)換過的詞。字典檢索部分對于在輸入字符轉(zhuǎn)換部分轉(zhuǎn)換過的輸入組ID串來檢索由表示組ID表示的被轉(zhuǎn)換詞字典。
語法G由非終止符N集合、詞尾符集合、產(chǎn)生符(Production)P集合以及起始符S表示成G=(N,∑,P,S)。在語法G上的語言L表示為L(G)={t|s ()/() *t∧t∈∑*},這里∑是由∑符構(gòu)成的長度大于零的串集合。
現(xiàn)在,假定W、W’是詞,Ci是字符串,W=C1、C2、…、Ci…、Cn是屬于∑的詞尾符,W′=C1、C2、…、Ci’、…Cn是不屬于∑的詞尾符。如果有一個方向S ()/() *μwv但沒有S≠ ()/() *μwv,則僅由于Ci變?yōu)镃i'便造成語法G不再接受語言LCG)。就是說,僅由于一個不正確字符便不能執(zhí)行正確的分析。
在本發(fā)明中,有可能引入一個變換F,使(F(w)=F(w’)),它利用變換字符定義表使Ci和Ci’屬于同一組。在這時,定義了語法GF=(N,F(xiàn)(∑),P,S),由于使用了語法GF而接受的語言LCGF)變?yōu)長(GF)={t|s ()/() *F(t)∧F(t)∈∑*}?,F(xiàn)在,如果在語法GF下有派生S ()/() *F(μ)F(w)F(v),則由F(w)=F(w')也有派生S ()/() *F(μ)F(w')F(v)。就是說,盡管在字符中存在錯誤,由于借助變換字符定義表使這些錯誤映射到(正確字符的)同一組從而能正確地進(jìn)行分析。
例如,在上文中提到的圖1中例1的情況中,如果長元音符號“(-)”和減號“(減號)”定為同一組,即使在字典(屬于∑)中只定義了正確字符串,也能查出使用正確的長元音符“(-)”的正確詞代替所輸入的使用減號“(減號)”的不正確字符串,所以,該字符串能被改正。
在圖1中的例5,如果每個不同的字體被定義為同一組,而只有使用新體字的正確字符串被登錄,使用正確字體代替輸入的不下確字體便能檢索正確的詞,所以能進(jìn)行字符串的標(biāo)準(zhǔn)化。
本發(fā)明的另一方面是在一個機(jī)器翻譯或自然語言接口之類的句子分析裝置中構(gòu)成了一個允許錯誤輸入的形式元素分析裝置,它由輸入部分、擴(kuò)展字典檢索部分、語法規(guī)則以及語法檢驗部分構(gòu)成。輸入部分把句子輸入到擴(kuò)展字典檢索部分。擴(kuò)展字典檢索部分有上述字典檢索裝置并對來自輸入部分的輸出句子檢索字典。語法部分參照語法規(guī)則對字典檢索結(jié)果進(jìn)行形式元素分析并輸出形式分析結(jié)果和字典信息。
本發(fā)明的又一方面是在形式元素分析裝置中構(gòu)成字符串校正裝置,作法是設(shè)置構(gòu)成形式元素部分,它借助語法檢驗部分構(gòu)成形式元素分析結(jié)果并輸出句子。
本發(fā)明的又一方面是在形式元素分析裝置中構(gòu)成字符串識別后處理裝置,作法是將字符識別處理裝置輸出的候選字符串輸入到輸入部分并在語法檢驗部分和輸出部分之間設(shè)置形式元素判決部分。候選字符串對于由字符識別處理裝置得到的輸入字符串的每個字符有多個候選字符。形式元素判決部分使用適當(dāng)?shù)脑u價函數(shù)確定由語法檢驗部分從形式元素分析結(jié)果得到的多個形式元素分析候選者的候選類別。
在字符識別后處理裝置中,從字符識別處理裝置輸入的候選字符被轉(zhuǎn)換成對應(yīng)于每個候選字符的組號。所以,事先規(guī)定的轉(zhuǎn)換字符定義表中把易于被字符識別處理裝置錯讀的類似字符分到同一小組。于是減少了候選字符組的數(shù)量,也減少了用于查閱字典的候選字符組合的數(shù)目。而且,盡管從字符識別處理裝置輸出的候選字符中包括不正確字符,但如果在同一組中存在與該不正確字符類似的正確字符,便能夠查詢出正確的詞。
圖1給出從輸入部分輸入到一個字典檢索裝置中的不正確輸入字符串和相應(yīng)的正確字符串的實例。
圖2是根據(jù)本發(fā)明的第一個實例的方框圖。
圖3的框圖顯示出圖1的處理過程。
圖4給出從圖2的輸入部分輸入的不正確輸入字符串和相應(yīng)的正確字符串的一個實例。
圖5是解釋圖2中字符組ID轉(zhuǎn)換部分的流程圖。
圖6是根據(jù)本發(fā)明的第二個實例的方框圖。
圖7A顯示出圖6的輸入部分輸入的一個輸入串,圖7B顯示出由圖7A的輸入串得到的部分字符串。
圖8是根據(jù)本發(fā)明的第三個實例的方框圖。
圖9是根據(jù)本發(fā)明的第四個實例的方框圖。
圖10給出圖9的讀字行和候選字符串的一個實例。
圖11給出根據(jù)本發(fā)明的第五個實例的轉(zhuǎn)換字符定義表的一個實例。
圖12給出根據(jù)本發(fā)明的第六個實例的轉(zhuǎn)換字符定義表的一個實例。
圖13給出根據(jù)本發(fā)明的第七個實例的轉(zhuǎn)換字符定義表的一個實例。
圖14給出根據(jù)本發(fā)明的第七個實例當(dāng)中使用的自動裝置。
圖15給出根據(jù)本發(fā)明的第八個實例的轉(zhuǎn)換字符定義表的一個實例。
圖16給出根據(jù)本發(fā)明的第九個實例的轉(zhuǎn)換字符定義表的一個實例。
下面將描述根據(jù)本發(fā)明的應(yīng)用于日文書寫的報告處理的字典檢索、形式元素分析裝置、字符串校正裝置、以及字符識別后處理裝置的實例。然而,本發(fā)明也能應(yīng)用于日文以外的其他語言,如英文、中文、朝鮮文等。再有,本發(fā)明不僅能應(yīng)用于自然語言,而且能應(yīng)用于人工語言,例如由詞匯和語法規(guī)則定義的程序語言。
在下面的實例描述中,同樣的參考數(shù)碼在每個圖件中固定代表有同樣功能的部分,對于多余的描述將不予重復(fù)。
例1下面將描述根據(jù)本發(fā)明的字典檢索裝置一例。
圖2是本例的方框圖。輸入部分1從一個文件或輸入裝置之類讀入字符串并輸出該輸入字符串的編碼字符串。輸入字符串轉(zhuǎn)換部分2調(diào)用字符-組ID轉(zhuǎn)換部分3,把來自輸入部分1的輸入字符串轉(zhuǎn)換成輸入組ID串。字符-組ID轉(zhuǎn)換部分3使用轉(zhuǎn)字符定義表4把字符串的每個字符替換成“組ID”。
轉(zhuǎn)換字符定義表4是通過對字符集C=C1,C2…,Cn分類成若干了集(GiCC)并對每個子集給一個組ID構(gòu)成的。字典轉(zhuǎn)換部分5調(diào)用字符-組ID轉(zhuǎn)換部分3,把詞字典(word dictionary)6中定義的每個詞的“表示字符串”轉(zhuǎn)換成“表示組ID串”,并構(gòu)成一個轉(zhuǎn)換詞字典7,該字典7是由表示組ID予先定義的。
詞字典6存貯輸入部分1處出現(xiàn)的有效部分字符串構(gòu)成的詞。轉(zhuǎn)換詞字典7利用字典轉(zhuǎn)換部分5根據(jù)轉(zhuǎn)換字符定義表4的定義將詞字典6的表示部分的字符替換為組ID。字典檢索部分8對于在轉(zhuǎn)入字符轉(zhuǎn)換部分2轉(zhuǎn)換成的輸入組ID串來檢索由表示組ID寫成的轉(zhuǎn)換詞字典,并向輸出部分9輸出其結(jié)果。
下面將參考圖3描述上述字典檢索裝置的處理過程。
在輸入部分1從一個文件、鍵盤或其他輸入裝置輸入一個字符串并輸出到輸入字符串轉(zhuǎn)換部分2。圖4給出用日文寫的還正確輸入字符串和相應(yīng)的正確字符串的實例。在圖4中,每個字符串給出其表示符,并在括號()內(nèi)給出其發(fā)音。圖4中的正確字符串“(ko)(n)(pi)(yu)(-)(ta)”的意思是計算機(jī),發(fā)音“-”是長元音符號,使前面緊挨著它的元音發(fā)長音。在不正確字符串中丟失了第三個字符“(pi)”的濁音,于是第三個正確字符“(pi)”變成了“(hi)”。
在圖3中,輸入字符串轉(zhuǎn)換部分2借助字符-組ID轉(zhuǎn)換部分3將來自部分1的字符串中每個字符轉(zhuǎn)換為“組ID”。
將參考圖5的流程圖描述字符-組ID轉(zhuǎn)換部分3的處理過程。
在步驟1,轉(zhuǎn)入一個要被轉(zhuǎn)換的字符串S。
在步驟2,給指針P賦值以指示字符串S的頭。
在步驟3,判斷指針是否指示該字符串尾(在最后一個字符之后)。如果指針P指示字符串S的末尾,則處理結(jié)束,被替換成組ID的字符串被回送到字典檢索部分8。如果指針P沒有指向字符串末尾,則過程轉(zhuǎn)向步驟4。
在步驟4,由指針P指示的字符Ci被轉(zhuǎn)換成由圖3所示轉(zhuǎn)換字符定義表4規(guī)定的組IDgi。
在步驟5,指針推進(jìn)一個字符,處理過程返回步驟3。
通過上述圖3的處理過程,由輸入部分1輸入到字符串轉(zhuǎn)換部分2的輸入字符串“(ko)(n)(hi)(yu)(-1)(ta)”被轉(zhuǎn)成輸入組ID串“123145”,并被輸出到字典檢啊分8。
現(xiàn)在將描述由字典檢索部分8進(jìn)行檢索的轉(zhuǎn)換詞字典7。
詞字典6存貯在輸入部分1出現(xiàn)的有效部分字符串。圖3中顯示出該詞字典6的一部分。在圖3中只給出表示、發(fā)音和詞類,但也能增加關(guān)于該詞的其他信息,如含義狀態(tài)(meaning attitude)等。
字典轉(zhuǎn)換部分5調(diào)用字符組ID串轉(zhuǎn)換部分3,把詞字典6中定義的每個詞的表示字符串轉(zhuǎn)換為組ID串,于是轉(zhuǎn)換詞字典7存貯這些組ID串。圖3中給出轉(zhuǎn)換詞字典7的這些詞及相應(yīng)字符組串的一部分。
字典檢索部分8對于一個字典元素(它的組ID串作為相應(yīng)于輸入組ID串的關(guān)鍵字)來檢索轉(zhuǎn)換詞字典7。作為對輸入ID串“123145”的字典檢索結(jié)果,檢索出了“(ko)(n)(pi)(yu)(-)(ta)123145”。如前所述,通過這一例子,對于不正確詞“(ko)(n)(hi)(-)(ta)”能檢索到迄今不能被檢索到的正確詞“(ko)(n)(pi)(yu)(-)(ta)”。
在上述實例中,由相似字符集構(gòu)成了轉(zhuǎn)換字符定義表4。然而,轉(zhuǎn)換字符定義表4不能由片假名和平假名配對集、新體字和舊體字集等構(gòu)成。
如上所述,通過把轉(zhuǎn)換字符定義表4中的字符串各元素看作是相同的,使迄今不能被檢索的不正確輸入詞能夠被檢索。
再有,詞字典6和轉(zhuǎn)換詞字典7的結(jié)構(gòu)可以有類似于通常自然語言處理中使用的詞字典結(jié)構(gòu),如右截斷壓縮結(jié)構(gòu)、二進(jìn)制樹結(jié)構(gòu)、TRIE結(jié)構(gòu)等。
例2
通過使用上述例1中的字典檢索裝置作為擴(kuò)展字典檢索部分,一個分析機(jī)器語言的形狀元素分析裝置或自然語言接口等能夠分析允許錯誤輸入的形式元素。下面將描述一個執(zhí)行上述分析的形式元素分析裝置的實例。
圖6是本例框圖。擴(kuò)展字典檢索部分10的結(jié)構(gòu)與上述例1中描述的字典檢索裝置結(jié)構(gòu)相同。這個擴(kuò)展字典檢索部分10與語法檢查部分13共同工作,處理來自下文描述的輸入部分11的文本(text),由文本中所希望的部分檢索字典,并控制其他候選者的檢索和輸出。在擴(kuò)展字典檢索部分10中的每一塊2-8等同于圖2中相同數(shù)字代表的各塊。
輸入部分11從一文件或輸入裝置之類讀入字符串并輸出該輸入字符串的編碼字符串。
語法規(guī)則12提供輸入文本的語法。通常的語法規(guī)則能用于這個語法規(guī)則12。
語法檢驗部分13判斷由擴(kuò)展字典檢索部分10輸出的形式元素串是否符合語法規(guī)則12。如果不符合,則語法檢驗部分13要求擴(kuò)展字典檢索部分10輸出另一個候選者。語法檢驗部分13能使用通常的形式元素分析中使用的方法,如相鄰矩陣法(method by adjecency matrix),或者能使用與文本內(nèi)容無關(guān)的語法規(guī)則。
輸出部分14輸出在語法檢驗部分13判定符合規(guī)則的形式元素分析結(jié)果。
在本例中,從輸入部分11輸入的輸入串不僅是一個詞,而是一個句子。這里,輸入串“(ta)(n)(go)(wo)(odo)(ru)”(見圖7A)是來自輸入部分11的輸入,意思是“跳探戈舞”。
擴(kuò)展字典檢索部分10把輸入字符串分成部分字符串,并調(diào)用字典檢索部分8。在這種情況下,擴(kuò)展字典檢索部分10針對圖7B中第1號至第6號所示每個字符串調(diào)用字典檢索部分8。
字典檢索部分8對每個字符串的字符串一部分檢索轉(zhuǎn)換詞字典。當(dāng)完成檢索時,其檢索結(jié)果被轉(zhuǎn)送到語法檢驗部分13。
語法檢驗部分13與通常的形式元素分析類似,用語法規(guī)則12來核對送回來的詞,并通過推進(jìn)字符指針來繼續(xù)形式元素分析。如果該形式元素串與語法規(guī)則12不符合,語法檢驗部分13要求字典檢索部分8輸出另一個候選者。結(jié)果,形式分析結(jié)果加上字典信息被輸出到輸出部分14。
如前所述,以具有例1所述字典檢索裝置的擴(kuò)展字典部分來構(gòu)成形式元素分析裝置,便能夠得到允許錯誤輸入的形式元素分析裝置。
在上述情況中,當(dāng)輸入字符串S被輸入到字典檢索部分8時,字典檢索部分8便對輸入字符串S檢索字典中的詞。然而,它能對字符串S=C1,C2,…,Cn的前部組成的部分字符串Si=C1,C2,…,Cn(i≤n)在字典中檢索各個詞。
例3
利用上述例2中的形式元素分析裝置能得到一個字符串校正裝置,它改正句子中的錯誤字符或把不同的字體標(biāo)準(zhǔn)化。下面將描述這個字符串校正裝置。
在圖8中,形式元素組合部分15被置于語法檢驗聞分13和輸出部分14之間。形式元素組合部分把語法檢驗部分13得到的形式元素分析結(jié)果組合起來,并把組合結(jié)果作為文本輸出。例如,依次輸出由語法檢驗部分得到的形式元素串的表示部分,便得到了一個文本。
例4利用上述例1中的字典檢索部分作為一個字符識別后處理裝置的擴(kuò)展字典檢索部分,能夠減少該字符識別后處理裝置中每個字符位置的候選字符數(shù)量,從而能提高其處理速度。
下面將參考圖9描述字符識別后處理裝置的一個實例。
一個識別字符的輸入裝置(如印刷字符閱讀器、手寫字符閱讀器等)對被讀字符串的每個字符指定一個候選字符集。輸入部分11讀取被輸入裝置指定了候選字符集的字符串并把它們輸出到字典檢索部分10。
一個形式元素判定部分16連接于語法檢驗部分13和輸出部分14之間,它利用適當(dāng)?shù)脑u價函數(shù)確定多個形式元素分析候選者的候選級別(rank)并輸出形式元素分析結(jié)果。
下面將描述本例的字符識別后處理的過程。
在這情況下,一個OCR(光學(xué)字符閱讀器)讀出圖10所示字符“(ko)(n)(pi)(yu)(-)(ta)”。OCR識別字符串從而給出每個字符的候選字符級。結(jié)果,對每個讀出字符指定了圖10所示候選字符,并把這些候選字符輸出到擴(kuò)展字典檢索裝置10中。
輸入字符串轉(zhuǎn)換部分2使用字符-組ID轉(zhuǎn)換部分3中的轉(zhuǎn)換字符定義表把每個候選字符轉(zhuǎn)換成組號。轉(zhuǎn)換字符定義表4的內(nèi)容示于圖3。結(jié)果得到3組號(1)、(2,7)、(3)、(1)、(4)、(5)字典檢索部分8由這些組號得到二個組號串“123145”和“173145”,并對這些組號串檢索轉(zhuǎn)換詞字典。作為這一過程的結(jié)果,得到了包括詞“(ko)(n)(pi)(yu)(-)(ta)”的候選者。這些候選者被輸出到語法檢驗部分13。
當(dāng)?shù)玫蕉鄠€候選者時,語法檢驗部分13根據(jù)語法規(guī)則12進(jìn)行形式元素分析。形式元素判定部分16使用適當(dāng)?shù)脑u價標(biāo)準(zhǔn)確定來自形式元素分析結(jié)果的多個形式元素分析候選者的候選級別,并向輸出部分14輸出形式元素分析候選者。
在上述例4中,由于把多個類似字符看作一組,因而在每個字符位置的候選字符是作為“組”來處理的。因而減少了在每個字符位置候選者的數(shù)目,因為候選字符組的數(shù)目要相對少于候選字符的數(shù)目。所以,所得到的字符識別后處理裝置提高了它的處理速度。
在本例中,當(dāng)候選字符數(shù)量減少至m'個組號串減少為k(≤m)組。然而,由于每組由Ni個字符元素組成,事實上存在∑kiNi(≥m)個候選字符。所以,對于一個迄今不能檢索出的正確詞,當(dāng)候選字符減少時便能夠被本例以極大可能性檢索出來。
例5在上述例1中的字典檢索裝置使用組號作為組ID。然而,能夠使用適當(dāng)?shù)淖址蛎謥泶娼M號。
在本例中,例1的轉(zhuǎn)換字符定義表(見圖2的組分類由例如圖2)所示內(nèi)容代替。
在圖11中,組號由代表字符所代替。這些代表字符是圖2所示轉(zhuǎn)換字符定義表中各組的每個成員字符的首字符。同樣,在圖2中的轉(zhuǎn)換詞字典7的組號也由這些代表字符代替。對于詞“(ko)(n)(pi)(yu)(-)(ta)”給出組ID串“(ko)(so)(hi)(ko)(-)(ta)”。
本例的其他部分與例1的部分相似。而且這個字典檢索裝置能用于例2至例4的擴(kuò)展字典檢索部分10。
例6在例1和例5中的字典檢索裝置處,根據(jù)轉(zhuǎn)換字符定義表4中相似字符的組分類,一個字符屬于一個組。然而,允許一個字符Ci屬于多個組也是可能的。
在本例中,例1的轉(zhuǎn)換字符定義表4(見圖2)的組分類由例如圖12中所示內(nèi)容代替。
在圖12中,附上“*”號的字符“(ku)”是與字符“(gu)”、“(ta)”、“(da)”。組成的5號組的元素,同時也是與“(u)”、“(fu)”、“(7)”、“(1)”組成的6號組的元素。由于一個字符變成為多個組的元素,字符-組ID轉(zhuǎn)換部分3便對一個字符串輸出多個解。然而,通過把詞“(gu)(ta)(da)”和“(u)(fu)(7)(1)”分類為彼此不相似的其他組,能夠減少在轉(zhuǎn)換詞字典處相應(yīng)于相似字符組號串的候選詞數(shù)目。
本例的其他部他與例1中的相似。而且,這一字典檢索裝置能應(yīng)用于例2至例4的擴(kuò)展字典檢索部分10。
例7在例1、例5和例6中的字典檢索裝置處,對每個字符給出一組或多組。在本例中,允許對字符串S=Ci、C1+1、…,Ci+1給出組IDg。
在本例中,使用字符串-組ID部分3’代替字符-組ID轉(zhuǎn)換部分3。而且在例1的圖3所示轉(zhuǎn)換字符定義表4的組分類由例如圖13所示內(nèi)容代替。
在圖13中,一個漢字“(ka)”、一對片假名“(ka)(ro)”和一對漢字“(ka)(kuchi)”被分類成組1。類似地,一個漢字“(jin)”、一對片假名“(i)(ni)”和一對片假名“i”和漢字“(ni)”被分類成組2,而一個漢字“(ketsuo)”、和一對漢字“(ito)(kichi)”被分類成組3。
Aho-Corasick方法能用作為進(jìn)行字符串-組ID轉(zhuǎn)換的一種方法(Aho,A.and Corasick,M有效的串匹配雙語查詢的一種輔助手段,CACM18卷6期(1975))。
就是說,如圖14所示造成一個圖象核對自動裝置,它依據(jù)字符串-組ID轉(zhuǎn)換定義表4所定義的全部轉(zhuǎn)換字符串來記憶核對過程半路上的各個步驟。當(dāng)在自動裝置的某一狀態(tài)發(fā)生不符合時,便決定從半路上重新開始核對。通過在最后狀態(tài)時對最后狀態(tài)的轉(zhuǎn)換定義其組ID,它被轉(zhuǎn)換成了組ID。
通過定義如上述的轉(zhuǎn)換字符定義表4,即使OCR之類字符識別處理裝置讀取圖13中組1的一個漢字“(ka)”(加)時拆開成同一組中的二個片假名字符“(ka)”(力)和“(ko)”(口),或者在讀同一組中的兩個漢字“(riki)(力)”和“(kuchi)(口)”時合并成了同一組中的一個漢字字符“(ka)(加)”,字典檢索也能正確地執(zhí)行。
本例中的其他部分與例1中的相似。該字典檢索裝置能用于例2至例4的擴(kuò)展字典檢索部分10,而且更適用于例4中的字符識別后處理裝置的擴(kuò)展字典檢索部分10。
例8在本例中,通過改進(jìn)例7,使它允許對字符串S=Ci,Ci+1,…,Ci+1給出組ID串gj,gj+1,…,gj+k。
在本例中,例1的圖3所示轉(zhuǎn)換字符定義表4的組發(fā)類由例如圖15所示內(nèi)容代替。
在圖15中,組ID1被給予一個片假名“(ka)(力)”和一個漢字“(riki)(力)”,組ID2被給予一個片假名“(ro)(口)”和一個漢字“(kuchi)(口)”,組ID1和組ID2都給予一個漢字“(ka)(加)”,組ID3被給予一個片假名“(i)()”,組ID4被給予一個片假名“(ni)(二)”和一個漢字“(ni)(二)”,組ID3和4都給予一個漢字“(jin)(仁)”,組ID5被給予一個片假名“(hi)(匕)”,而組ID3和5被給予一個漢字“(ka)(化)”。
在本例中,與例7一樣使用Aho-Corasick方法,然而,當(dāng)處理過程達(dá)到最后狀態(tài)時,轉(zhuǎn)換成組ID串代替轉(zhuǎn)換成組ID是可能的。
本例的其他部分與例1的相似。這個字典檢索裝置能應(yīng)用于例2至例4的擴(kuò)展字典檢索部分10,而且最適于例4中字符識別后處理裝置的擴(kuò)展字典檢索部分10。
例9在上述例1和例5至例8中,一個組ID或組ID串被給予一個字符或一個字符串。然然在本例中允許把一個組ID串gi,gj+1,…,gj+k給于一個任選的圖象表達(dá)式(pattern expression)。
在本例中,使用字符串一組ID轉(zhuǎn)換部分3′代替字符-組ID轉(zhuǎn)換部分3。一個正規(guī)表達(dá)式轉(zhuǎn)換用作為該字符串-組ID轉(zhuǎn)換部分3′的一個實例。例1的圖2所示轉(zhuǎn)換字符定義表的組分類例如圖16所示的內(nèi)容代替。
在圖15中,在“(e)(-)()(to)”中的“*”是一個后(meta)續(xù)符,它表示恰在其前面的字符繼續(xù)0次,圖象串“(e)(-)(to)”由正規(guī)表達(dá)式轉(zhuǎn)換轉(zhuǎn)換成組ID“4,101,20”。
在本例中,把圖象串“(e)(-)(to)”,“(e)(-)(-)(to)”作為同一組處理是可能的。
在例的其他部分與例1有類似。本字典檢索裝置能應(yīng)用于例2至例4的擴(kuò)展字典檢索部分10。
1.通過把一個詞看作是由轉(zhuǎn)換字符定義表定義的同一組字符集中的元素,使得迄今不能檢索字典的詞能夠檢索字典了。
2.所以,能對一個包括輸入錯誤的報告正確地進(jìn)行形式元素分析。
3.再有,能得到一個字符號校正裝置,它能使這符串標(biāo)準(zhǔn)化和校正錯誤詞。
4.通過處理字符識別處理裝置輸出的每個字符位置處的候選字符,在每個字符位置的候選組個數(shù)減少了,而且候選字符組合的個數(shù)減少了。所以,能得到一個字符識別后處理地裝置,它的處理速度提高了。
權(quán)利要求
1.一個字典檢索裝置,用于轉(zhuǎn)換從輸入部分輸入的字符串并向輸出部分輸出轉(zhuǎn)換后的字符串,包括一個轉(zhuǎn)換字符定義表,它是把字符集C={C1,C2,…,Cn}分類成一些子集(GiCC)構(gòu)成的,并向每個子集提供組ID;一個字符一組ID轉(zhuǎn)換部分使用轉(zhuǎn)換字符定義表把字符串的每個字符由組ID代替;一個輸入字符串轉(zhuǎn)換部分調(diào)用字符一組ID轉(zhuǎn)換部分,把從輸入部分輸入的輸入字符串轉(zhuǎn)換成輸入組ID串;一個詞字典用于存貯在輸入部分出現(xiàn)的有效部分字符串構(gòu)成的詞;一個字典轉(zhuǎn)換部分調(diào)用字符一組ID轉(zhuǎn)換部分把在詞字典中定義的每個詞的表示字符串轉(zhuǎn)換成表示組ID串;一個轉(zhuǎn)換詞字典用于存貯由字典轉(zhuǎn)換部分轉(zhuǎn)換而成的詞;以及一個字典檢索部分用于對在輸入字符串轉(zhuǎn)換部分轉(zhuǎn)換的輸入組ID串檢索由表示組ID表示的轉(zhuǎn)換詞字典。
2.根據(jù)權(quán)利要求1的字典檢索裝置,其中的轉(zhuǎn)換字符定義表提供一個組中字符的代表字符作為組ID;以及轉(zhuǎn)換詞字典存貯該代表字符用以代替輸入字符串的每個字符。
3.根據(jù)權(quán)利要求1的字典檢索裝置,其中的轉(zhuǎn)換字符定義表允許一個字符Ci是多組中的元素,而字符一組ID轉(zhuǎn)換部分則輸出多個結(jié)果。
4.根據(jù)權(quán)利要求1的字典檢索裝置,其中的轉(zhuǎn)換字符定義表允許對一個字符串S=Ci,Ci+1,…,Ci+1給出一個組IDg。
5.根據(jù)權(quán)利要求1的字典檢索裝置,其中的轉(zhuǎn)換字符定義表允許對一個字符串S=Ci,Ci+1,…,Ci+1給出一個組ID串gj,gj+1
6.根據(jù)權(quán)利要求1的字典檢索裝置,其中的轉(zhuǎn)換字符定義表允許對所希望的圖象表達(dá)式ei給出一個組ID串gj,gj+1,…,gj+1
7.一個用于分析句子的形式元素分析裝置,包括一個輸入部分用于向擴(kuò)展字典檢索部分輸入句子;該擴(kuò)展字典檢索部分對從輸入部分輸入的輸出句子檢索字典,其組成是一個由把字符集C={C1,C2,…,Cn}分類成若干子集(GiCC)而構(gòu)成并為每個子集提供組ID的轉(zhuǎn)換字符定義表,一個使用該轉(zhuǎn)換字符定義表把字符串的每個字符替換成組ID的字符-組ID轉(zhuǎn)換部分,一個調(diào)用字符-組ID轉(zhuǎn)換部分從而把輸入部分輸入的輸入字符串轉(zhuǎn)換成輸入組ID串的輸入字符串轉(zhuǎn)換部分,一個用于存貯在輸入部分出現(xiàn)的有效部分字符串構(gòu)成的詞的詞字典,一個調(diào)用字符-組ID轉(zhuǎn)換部分從而把詞字典中定義的每個詞的表示字符串轉(zhuǎn)換成表示組ID串的字典轉(zhuǎn)換部分,一個用于存貯由字典轉(zhuǎn)換部分轉(zhuǎn)換的詞的轉(zhuǎn)換詞字典,以及一個字典檢索部分用于對輸入字符串轉(zhuǎn)換部分轉(zhuǎn)換的輸入組ID去檢索由表示組ID表示的轉(zhuǎn)換詞字典;一個語法規(guī)則;以及一個語法檢驗部分用于參照語法規(guī)則對字典檢索結(jié)果進(jìn)行形式元素分析,并將形式元素分析結(jié)果連同字典信息輸出給輸出部分。
8.一個字符串校正裝置,包括將句子輸入到擴(kuò)展字典檢索部分的輸入部分;該擴(kuò)展字典檢索部分用于對輸入部分輸入的輸出句子檢索字典,其組成是將字符集C={C1,C2,…,Cn}分類成若干子集(GiCC)而構(gòu)成的并對每個子集提供組ID的一個轉(zhuǎn)換字符定義表,使用該轉(zhuǎn)換字符定義表以組ID代替字符串每個字符的字符-組ID轉(zhuǎn)換部分,通過調(diào)用字符-組ID轉(zhuǎn)換部分從而把來自輸入部分的輸入字符串轉(zhuǎn)換成輸入組ID串的輸入字符串轉(zhuǎn)換部分,用于存貯在輸入部分出現(xiàn)的有效部分字符串構(gòu)成的詞的詞字典,通過調(diào)用字符-組ID轉(zhuǎn)換部分從而把詞字典中定義的每個詞的表示字符串轉(zhuǎn)換成表示組ID串的字典轉(zhuǎn)換部分,存貯由字典轉(zhuǎn)換部分轉(zhuǎn)換的詞的轉(zhuǎn)換詞字典,以及字典檢索部分用于對在輸入字符串轉(zhuǎn)換部分轉(zhuǎn)換的輸入組ID串檢索由表示組ID表示的轉(zhuǎn)換詞字典;一個語法規(guī)則;一個語法檢驗部分通過參照語法規(guī)則進(jìn)行對字典檢索結(jié)果的形式元素分析,并將形式元素分析結(jié)果連同字典信息一起送到輸出部分;以及設(shè)置在語法檢驗部分和輸出部分之間的形式元素組合部分,它通過把語法檢驗部分所作的形式元素分析結(jié)果進(jìn)行組合來輸出句子。
9.字符識別用的后處理裝置,包括;一個輸入部分用于把候選字符串輸入到擴(kuò)展字典檢索部分,該候選字符串對于來自字符識別處理裝置的輸入字符串的每個字符有多個候選字符;該擴(kuò)展字典檢索部分用于對輸入部分輸入的輸出句子檢索字典,其組成是將字符集C={C1,C2,…,Cn}分類成若干子集(GiCC)而構(gòu)成的并對每個子集提供組ID的一個轉(zhuǎn)換字符定義表,使用該轉(zhuǎn)換字符定義表以組ID代替字符串每個字符的字符-組ID轉(zhuǎn)換部分,通過調(diào)用字符-組ID轉(zhuǎn)換部分從而把來自輸入部分的輸入字符串轉(zhuǎn)換成輸入組ID串的輸入字符串轉(zhuǎn)換部分,用于存貯在輸入部分出現(xiàn)的有效部分字符串構(gòu)成的詞的詞字典,通過調(diào)用字符-組ID轉(zhuǎn)換部分從而把詞字典中定義的每個詞的表示字符串轉(zhuǎn)換成表示組ID串的字典轉(zhuǎn)換部分,存貯由字典轉(zhuǎn)換部分轉(zhuǎn)換的詞的轉(zhuǎn)換詞字典,以及字典檢索部分用于對在輸入字符串轉(zhuǎn)換部分轉(zhuǎn)換的輸入組ID串檢索由表示組ID表示的轉(zhuǎn)換詞字典;一個語法規(guī)則;一個語法檢驗部分通過參照語法規(guī)則進(jìn)行對字典檢索結(jié)果的形式元素分析,并將形式元素分析結(jié)果連同字典信息一起送到輸出部分;以及設(shè)置在語法檢驗部分和輸出部分之間的形式元素判定部分,這一部分使用適當(dāng)?shù)脑u估函數(shù)對于從語法檢驗部分得到的形式元素分析要所得到的多個形式元素分析候選者判定其候選級別,進(jìn)而形式元素分析候選者送到輸出部分。
全文摘要
本發(fā)明為一個字典檢索裝置,包括對字符子集提供組ID的轉(zhuǎn)換字符定義表,以組ID替代字符的字符一組ID轉(zhuǎn)換部分、把來自輸入部分的輸入字符串轉(zhuǎn)換成輸入組ID的輸入字符串轉(zhuǎn)換部分、將詞字典轉(zhuǎn)換成由表示組ID串定義的轉(zhuǎn)換詞字典的字典轉(zhuǎn)換部分、以及由輸入組ID串檢索轉(zhuǎn)換詞字典的字典檢索部分。該字典檢索裝置把轉(zhuǎn)換字符定義表所定義的字符集各元素看作為同一元素。
文檔編號G06F17/27GK1097883SQ94104998
公開日1995年1月25日 申請日期1994年4月29日 優(yōu)先權(quán)日1993年7月19日
發(fā)明者西野文人, 杉本尚美 申請人:富士通株式會社