專利名稱:頁(yè)式聯(lián)想漢字識(shí)別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于采用光學(xué)方法的漢字識(shí)別輸入技術(shù)領(lǐng)域,是一種頁(yè)式聯(lián)想漢字識(shí)別系統(tǒng)。
目前,國(guó)內(nèi)外諸多的漢字識(shí)別系統(tǒng),無(wú)論是對(duì)單體、兩種以上印刷體混排或聯(lián)機(jī)手寫漢字等文本進(jìn)行識(shí)別,均著重于將文本中的字詞、詞和短語(yǔ)做為字符串圖形,依據(jù)其筆段、筆劃、字根等字形特征對(duì)各個(gè)漢字做孤立的配比、判識(shí),而較少見利用文本中相鄰漢字的相關(guān)性為主的漢字識(shí)別系統(tǒng)。如清華大學(xué)的“印刷漢字識(shí)別裝置”(CN85100085A),遼寧王雅延的“印刷漢字識(shí)別方法”(CN85105586A)和各種類型的“圖文掃描儀”等。由于這些識(shí)別系統(tǒng)的漢字文本信源為無(wú)記憶的“單信原模型結(jié)構(gòu)”,故其相應(yīng)的“識(shí)別字典”的結(jié)構(gòu)適應(yīng)性差,容量大,這就限制了各識(shí)別系統(tǒng)在實(shí)際應(yīng)用中的判識(shí)性能,致使其識(shí)別程序內(nèi)存容量較大,識(shí)別率難以提高,識(shí)別速度一般僅在5字/秒以下。
本發(fā)明的目的在于提供一種以“雙信源識(shí)別字典”結(jié)構(gòu)為基礎(chǔ)的聯(lián)想漢字識(shí)別系統(tǒng),該系統(tǒng)由于充分利用了實(shí)際文本中漢字間的概率約束關(guān)系作為漢字聯(lián)想判識(shí),使其具有機(jī)動(dòng)靈活、容量小等顯著特點(diǎn),并易于引入現(xiàn)有的漢字識(shí)別系統(tǒng),以提高漢字識(shí)別率、識(shí)別速度和減小應(yīng)用軟件的容量。
頁(yè)式聯(lián)想漢字識(shí)別系統(tǒng)的整體結(jié)構(gòu)是“以雙信源模字典”為依據(jù)編制判識(shí)漢字的應(yīng)用軟件,并與特定的“計(jì)算機(jī)系統(tǒng)軟件”組成該系統(tǒng)的軟件部分;其硬件設(shè)備為配接有漢卡的計(jì)算機(jī)主機(jī)和掃描儀、顯示器、打印機(jī)等。
該系統(tǒng)的應(yīng)用軟件結(jié)構(gòu)是“雙信源模型字典”以“聯(lián)想識(shí)別樹”、“特征識(shí)別樹”為主構(gòu)成,其中的“聯(lián)想識(shí)別樹”是對(duì)應(yīng)單純“MARKOV信源模型”的樹狀數(shù)據(jù)結(jié)構(gòu),即對(duì)文本中某漢字的判識(shí)只依賴于其前或其后的一個(gè)漢字,分為“前導(dǎo)聯(lián)想”和“后續(xù)聯(lián)想”,以進(jìn)行引導(dǎo)識(shí)別和相近字的識(shí)別;“特征識(shí)別樹”是用于引導(dǎo)對(duì)漢字進(jìn)行特征識(shí)別的樹狀數(shù)據(jù)結(jié)構(gòu),在該結(jié)構(gòu)中使用了漢字的縱向、橫向分塊特征,長(zhǎng)筆道分布特征,邊框特征、二次白特征等;在該系統(tǒng)中以經(jīng)過“聯(lián)想識(shí)別處理”和“特征識(shí)別處理”做為漢字的一、二次背景特征對(duì)漢字進(jìn)行最后判識(shí);該系統(tǒng)以C語(yǔ)言編制識(shí)別程序,還采用“主菜單”提示方式完成整頁(yè)文本的掃描輸入或通過予掃描直接指定輸入?yún)^(qū)域,其掃描文本的最大尺寸為A4頁(yè)面,并可進(jìn)行版面分析和行字切分等輸入功能。
其硬件設(shè)備可以是配接中科院計(jì)算所Ⅲ型漢卡的CHIPS-386主機(jī),CC-1435型彩色顯示器,東芝3070型打印機(jī)和理光IS-30掃描儀,其“計(jì)算機(jī)系統(tǒng)軟件”為DOS3、3。
該系統(tǒng)識(shí)別的字體為6號(hào)以上的宋體印刷漢字,識(shí)別字域是以國(guó)際一級(jí)字為基礎(chǔ)的開放式識(shí)別字域,字?jǐn)?shù)大于3755。
本發(fā)明的附圖有
圖1是相關(guān)識(shí)別樹示意圖。
圖2是漢字聯(lián)想識(shí)別的程序框圖。
圖3是識(shí)別系統(tǒng)的應(yīng)用軟件結(jié)構(gòu)框圖。
圖4是識(shí)別系統(tǒng)的硬件結(jié)構(gòu)框圖。
結(jié)合附圖對(duì)本發(fā)明的漢字識(shí)別功能說(shuō)明如下該系統(tǒng)的基本工作流程如圖3所示,虛線框內(nèi)為“雙信源模字典結(jié)構(gòu)”。
1、歸一化及特征提取首先由掃描輸入部分完成整頁(yè)文本的輸入,并通過予掃描確定輸入?yún)^(qū)域?!鞍婷娣治龊托星蟹帧辈糠滞瓿筛綄儆虻呐懦?,實(shí)現(xiàn)文本塊的“行切分”。
在對(duì)文本塊完成行切分后,進(jìn)行字切分處理。在字切分同時(shí),區(qū)別出標(biāo)點(diǎn)符號(hào)并將其送至標(biāo)點(diǎn)識(shí)別部分。
歸一化及特征提取部分是對(duì)漢字進(jìn)展歸一化處理并同時(shí)完成對(duì)漢字的特征提取。經(jīng)過歸一化和特征提取的漢字,根據(jù)標(biāo)記,確定是否屬聯(lián)想漢字范圍。
2、聯(lián)想判別處理對(duì)屬于聯(lián)想范圍的漢字送入聯(lián)想判識(shí)處理,聯(lián)想判識(shí)處理過程主要是循環(huán)聯(lián)想識(shí)別樹的路徑進(jìn)行的。聯(lián)想識(shí)別樹的“字典”結(jié)構(gòu)如圖1所示,在聯(lián)想識(shí)別樹中,“樹根”對(duì)應(yīng)聯(lián)想功能始點(diǎn),每個(gè)引導(dǎo)字在樹上引出一個(gè)“枝”,一個(gè)終端聯(lián)想字對(duì)應(yīng)樹上一個(gè)“葉子”,聯(lián)想識(shí)別的處理程序如圖2所示。在該頁(yè)式聯(lián)想漢字識(shí)別系統(tǒng)中,目前,只設(shè)計(jì)成單純聯(lián)想功能,即對(duì)某漢字的聯(lián)想判識(shí)只取決于其前或其后的一個(gè)漢字進(jìn)行前導(dǎo)聯(lián)想和后續(xù)聯(lián)想。其中,前導(dǎo)聯(lián)想用于引導(dǎo)識(shí)別,而對(duì)相近字,則既使用前導(dǎo)聯(lián)想,也使用后續(xù)聯(lián)想。
3、特征判識(shí)處理對(duì)于本文中每段的第一個(gè)字,一句話的開頭字或在一句話中某些與前、后字的約束關(guān)系不很強(qiáng)的漢字,也就是說(shuō),當(dāng)一個(gè)字的聯(lián)想判識(shí)超出了單純一重馬爾科夫信息源系統(tǒng),而需要多重馬爾科夫信息源處理系統(tǒng)才能準(zhǔn)確判斷時(shí),如“使”與“便”兩個(gè)相近字在文本中可以有“可以使”和“以便”兩種可能。
以上情況則只有根據(jù)漢字的特征進(jìn)行判識(shí)處理,或其在文本中出的概率去判識(shí)。在對(duì)文本中必須靠文字特征判識(shí)的漢字,則送入特征識(shí)別處理,其識(shí)別過程循特征識(shí)別樹進(jìn)行,本系統(tǒng)使用的特征識(shí)別樹是以“樹根”對(duì)應(yīng)判識(shí)的特征,不同特征或不同特征值在樹上引出不同的“枝”。一個(gè)字對(duì)應(yīng)樹上一個(gè)“葉子”,所使用的文字特征如前述。
4、依據(jù)漢字的一、二次背景特征對(duì)漢字作最后的判識(shí)在對(duì)文本中相關(guān)漢字進(jìn)行引導(dǎo)識(shí)別并與漢字特征識(shí)別相匹配后,依據(jù)共同的漢字判識(shí)特征,通過相應(yīng)字指針引導(dǎo),完成對(duì)文本中漢字的最后判識(shí)。
圖4是本系統(tǒng)所使用的硬件結(jié)構(gòu)簡(jiǎn)圖,其中主機(jī)CHIP-386的主頻為16MC,內(nèi)存為640KBYTE,擴(kuò)展內(nèi)存為1MBYTE,,掃描儀的最高分辯率為300點(diǎn)/英寸。
該系統(tǒng)對(duì)應(yīng)“雙信源模型字典”應(yīng)用軟件的容量小于256KBYTE,識(shí)別程序總?cè)萘?包括輸入、版面分析、行字切分、識(shí)別等)小于40KBYTE。
本發(fā)明的實(shí)質(zhì)性特點(diǎn)的所取得的顯著步是1、學(xué)習(xí)擴(kuò)展功能根據(jù)信息的觀點(diǎn),語(yǔ)言可以用馬爾科夫信源來(lái)近似,即當(dāng)狀態(tài)經(jīng)過多次遷移之后,在狀態(tài)集合上的概率分布與初始狀態(tài)的概率分布無(wú)關(guān),故在其狀態(tài)集合中存在著唯一的概率分布,這唯一的狀態(tài)分布稱為定常分布,這就從理論上保證了只要經(jīng)過長(zhǎng)時(shí)間的使用觀測(cè),進(jìn)行大量的學(xué)習(xí)就可以使該系統(tǒng)的識(shí)別結(jié)果逐步接近到只受語(yǔ)言邏輯關(guān)系的約束,而與具體的識(shí)別特征和識(shí)別算法無(wú)關(guān)。這實(shí)質(zhì)上是給“聯(lián)想識(shí)別樹”“增枝”、“增葉”的擴(kuò)展過程。使所包含的漢字不僅能擴(kuò)展至一級(jí)漢字之外,而且也可將二級(jí)以外的漢字追加進(jìn)識(shí)別系統(tǒng)之中。
2、“雙信源模型字典結(jié)構(gòu)”具有廣泛的適應(yīng)性由于該字典的聯(lián)想識(shí)別樹結(jié)構(gòu)對(duì)文本中的漢字引導(dǎo)進(jìn)行相關(guān)識(shí)別,而其中的特征識(shí)別樹結(jié)構(gòu)又對(duì)漢字引導(dǎo)進(jìn)行特征識(shí)別,二者相互匹配,依據(jù)共同的漢字判識(shí)特征對(duì)漢字做最后的判識(shí),因此只改變現(xiàn)有字典中與識(shí)別機(jī)制有關(guān)的部分,即把聯(lián)想的識(shí)別樹和特征識(shí)別樹中相應(yīng)字指針改成新的相應(yīng)字指針值,便可更新漢字識(shí)別特征,這樣,就可將此字典引入任何漢字識(shí)別系統(tǒng)中。
3、本發(fā)明可以提高漢字識(shí)別的各項(xiàng)指標(biāo)由于該系統(tǒng)以實(shí)文本漢字作為識(shí)別對(duì)象,其“聯(lián)想識(shí)別樹結(jié)構(gòu)”充分利用了文本中相鄰漢字間的約束關(guān)系,使系統(tǒng)在漢字判識(shí)過程中,大大減小了進(jìn)行判識(shí)所需的漢字特征信息量,增強(qiáng)了識(shí)別的肯定性。這既可使識(shí)別系統(tǒng)應(yīng)用軟件總?cè)萘繙p小了17.8%-95.31%,又能使?jié)h字識(shí)別率提高3-5%。在16M主頻和使用C語(yǔ)言編制識(shí)別程序的條件下,其識(shí)別速度與其他常規(guī)識(shí)別系統(tǒng)相比可提高到6-8字/秒。若采用匯編語(yǔ)言并進(jìn)一步優(yōu)化程序,則識(shí)別率還能進(jìn)一步提高。
權(quán)利要求
1.頁(yè)式聯(lián)想漢字識(shí)別系統(tǒng)由計(jì)算機(jī)、掃描儀等硬件設(shè)備和相應(yīng)的軟件構(gòu)成,其特征在于利用實(shí)際文本中相鄰漢字中的相關(guān)性,配合漢字的結(jié)構(gòu)特征,以“雙信源模型字典”為依據(jù)編制判識(shí)漢字的應(yīng)用軟件,并與特定的“計(jì)算機(jī)系統(tǒng)軟件”組成該系統(tǒng)的軟件部分;其硬件設(shè)備為配接有漢卡的計(jì)算機(jī)主機(jī)和掃描儀、顯示器、打印機(jī)等。
2.根據(jù)權(quán)利要求1所述的漢字識(shí)別系統(tǒng),其特征在于“雙信源模型字典”以“聯(lián)想識(shí)別樹”、“特征識(shí)別樹”為主構(gòu)成,其中的“聯(lián)想識(shí)別樹”是對(duì)應(yīng)單純“MARKOV信源模型”的樹狀數(shù)據(jù)結(jié)構(gòu),即對(duì)文本中某漢字的判識(shí)只依賴于其前或其后的一個(gè)漢字,分為“前導(dǎo)聯(lián)想”和“后續(xù)聯(lián)想”以進(jìn)行引導(dǎo)識(shí)別和相近字的識(shí)別;“特征識(shí)別樹”是用于引導(dǎo)對(duì)漢字進(jìn)行特征識(shí)別的樹狀數(shù)據(jù)結(jié)構(gòu),在該結(jié)構(gòu)中使用了漢字的縱向、橫向分塊特征,長(zhǎng)筆道分布特征,邊框特征,二次白特征特;在該系統(tǒng)中以經(jīng)過“聯(lián)想識(shí)別處理”和“特征識(shí)別處理”做為漢字的一二次處理背景特征對(duì)漢字進(jìn)行最后判識(shí);該系統(tǒng)以C語(yǔ)言編制識(shí)別程序,還采用“主菜單”提示方式完成整頁(yè)本文的掃描輸入或通過予掃描直接指定輸入?yún)^(qū)域,其掃描本文最大尺寸為A4頁(yè),并可進(jìn)行版面分析和行字切分等輸入功能。
3.根據(jù)權(quán)利要求1或2所述的漢字識(shí)別系統(tǒng),其特征是該系統(tǒng)的各硬件設(shè)備分別是配接中科院計(jì)算機(jī)所Ⅲ型漢卡的CHIPS-386主機(jī),CC-1435型彩色顯示器,東芝3070型打字機(jī)和理光IS-30掃描儀,其“計(jì)算機(jī)系統(tǒng)軟件”為“DOS3、3”。
4.根據(jù)權(quán)利要求2或3所述的漢字識(shí)別系統(tǒng),其特征是識(shí)別的字體為6號(hào)以上的宋體印刷漢字,識(shí)別字域是以國(guó)際一級(jí)字為基礎(chǔ)的開放式識(shí)別字域,字?jǐn)?shù)大于3755。
全文摘要
本發(fā)明屬于采用光學(xué)方法的漢字識(shí)別技術(shù)領(lǐng)域是一種頁(yè)式聯(lián)想漢字識(shí)別系統(tǒng)。該系統(tǒng)判識(shí)漢字的應(yīng)用軟件以“雙信源模型字典”為依據(jù)編制而成,并與特定的“計(jì)算機(jī)系統(tǒng)軟件”組成本發(fā)明的軟件部份,其硬件設(shè)備有配接漢卡的計(jì)算機(jī)主機(jī)和掃描儀、顯示器、打印機(jī)等。該系統(tǒng)以實(shí)際文本中相鄰漢字中的概率約束關(guān)系作為漢字的聯(lián)想識(shí)別并輔之以漢字的特征判識(shí)。具有漢字識(shí)別率高、識(shí)別速度快、軟件容量小和易于引入現(xiàn)有漢字識(shí)別系統(tǒng)等顯著技術(shù)進(jìn)步。
文檔編號(hào)G06K9/72GK1059415SQ9010738
公開日1992年3月11日 申請(qǐng)日期1990年8月29日 優(yōu)先權(quán)日1990年8月29日
發(fā)明者郭寶蘭, 張彩錄, 衛(wèi)穎麗, 張宇桐 申請(qǐng)人:河北大學(xué)