頁(yè)式聯(lián)想漢字識(shí)別系統(tǒng)的制作方法

文檔序號(hào)：6405916閱讀：727來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：頁(yè)式聯(lián)想漢字識(shí)別系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明屬于采用光學(xué)方法的漢字識(shí)別輸入技術(shù)領(lǐng)域，是一種頁(yè)式聯(lián)想漢字識(shí)別系統(tǒng)。
目前，國(guó)內(nèi)外諸多的漢字識(shí)別系統(tǒng)，無(wú)論是對(duì)單體、兩種以上印刷體混排或聯(lián)機(jī)手寫漢字等文本進(jìn)行識(shí)別，均著重于將文本中的字詞、詞和短語(yǔ)做為字符串圖形，依據(jù)其筆段、筆劃、字根等字形特征對(duì)各個(gè)漢字做孤立的配比、判識(shí)，而較少見利用文本中相鄰漢字的相關(guān)性為主的漢字識(shí)別系統(tǒng)。如清華大學(xué)的“印刷漢字識(shí)別裝置”(CN85100085A)，遼寧王雅延的“印刷漢字識(shí)別方法”(CN85105586A)和各種類型的“圖文掃描儀”等。由于這些識(shí)別系統(tǒng)的漢字文本信源為無(wú)記憶的“單信原模型結(jié)構(gòu)”，故其相應(yīng)的“識(shí)別字典”的結(jié)構(gòu)適應(yīng)性差，容量大，這就限制了各識(shí)別系統(tǒng)在實(shí)際應(yīng)用中的判識(shí)性能，致使其識(shí)別程序內(nèi)存容量較大，識(shí)別率難以提高，識(shí)別速度一般僅在5字/秒以下。
本發(fā)明的目的在于提供一種以“雙信源識(shí)別字典”結(jié)構(gòu)為基礎(chǔ)的聯(lián)想漢字識(shí)別系統(tǒng)，該系統(tǒng)由于充分利用了實(shí)際文本中漢字間的概率約束關(guān)系作為漢字聯(lián)想判識(shí)，使其具有機(jī)動(dòng)靈活、容量小等顯著特點(diǎn)，并易于引入現(xiàn)有的漢字識(shí)別系統(tǒng)，以提高漢字識(shí)別率、識(shí)別速度和減小應(yīng)用軟件的容量。
頁(yè)式聯(lián)想漢字識(shí)別系統(tǒng)的整體結(jié)構(gòu)是“以雙信源模字典”為依據(jù)編制判識(shí)漢字的應(yīng)用軟件，并與特定的“計(jì)算機(jī)系統(tǒng)軟件”組成該系統(tǒng)的軟件部分;其硬件設(shè)備為配接有漢卡的計(jì)算機(jī)主機(jī)和掃描儀、顯示器、打印機(jī)等。
該系統(tǒng)的應(yīng)用軟件結(jié)構(gòu)是“雙信源模型字典”以“聯(lián)想識(shí)別樹”、“特征識(shí)別樹”為主構(gòu)成，其中的“聯(lián)想識(shí)別樹”是對(duì)應(yīng)單純“MARKOV信源模型”的樹狀數(shù)據(jù)結(jié)構(gòu)，即對(duì)文本中某漢字的判識(shí)只依賴于其前或其后的一個(gè)漢字，分為“前導(dǎo)聯(lián)想”和“后續(xù)聯(lián)想”，以進(jìn)行引導(dǎo)識(shí)別和相近字的識(shí)別;“特征識(shí)別樹”是用于引導(dǎo)對(duì)漢字進(jìn)行特征識(shí)別的樹狀數(shù)據(jù)結(jié)構(gòu)，在該結(jié)構(gòu)中使用了漢字的縱向、橫向分塊特征，長(zhǎng)筆道分布特征，邊框特征、二次白特征等;在該系統(tǒng)中以經(jīng)過“聯(lián)想識(shí)別處理”和“特征識(shí)別處理”做為漢字的一、二次背景特征對(duì)漢字進(jìn)行最后判識(shí);該系統(tǒng)以C語(yǔ)言編制識(shí)別程序，還采用“主菜單”提示方式完成整頁(yè)文本的掃描輸入或通過予掃描直接指定輸入?yún)^(qū)域，其掃描文本的最大尺寸為A4頁(yè)面，并可進(jìn)行版面分析和行字切分等輸入功能。
其硬件設(shè)備可以是配接中科院計(jì)算所Ⅲ型漢卡的CHIPS-386主機(jī)，CC-1435型彩色顯示器，東芝3070型打印機(jī)和理光IS-30掃描儀，其“計(jì)算機(jī)系統(tǒng)軟件”為DOS3、3。
該系統(tǒng)識(shí)別的字體為6號(hào)以上的宋體印刷漢字，識(shí)別字域是以國(guó)際一級(jí)字為基礎(chǔ)的開放式識(shí)別字域，字?jǐn)?shù)大于3755。
本發(fā)明的附圖有

圖1是相關(guān)識(shí)別樹示意圖。
圖2是漢字聯(lián)想識(shí)別的程序框圖。
圖3是識(shí)別系統(tǒng)的應(yīng)用軟件結(jié)構(gòu)框圖。
圖4是識(shí)別系統(tǒng)的硬件結(jié)構(gòu)框圖。
結(jié)合附圖對(duì)本發(fā)明的漢字識(shí)別功能說(shuō)明如下該系統(tǒng)的基本工作流程如圖3所示，虛線框內(nèi)為“雙信源模字典結(jié)構(gòu)”。
1、歸一化及特征提取首先由掃描輸入部分完成整頁(yè)文本的輸入，并通過予掃描確定輸入?yún)^(qū)域?！鞍婷娣治龊托星蟹帧辈糠滞瓿筛綄儆虻呐懦?，實(shí)現(xiàn)文本塊的“行切分”。
在對(duì)文本塊完成行切分后，進(jìn)行字切分處理。在字切分同時(shí)，區(qū)別出標(biāo)點(diǎn)符號(hào)并將其送至標(biāo)點(diǎn)識(shí)別部分。
歸一化及特征提取部分是對(duì)漢字進(jìn)展歸一化處理并同時(shí)完成對(duì)漢字的特征提取。經(jīng)過歸一化和特征提取的漢字，根據(jù)標(biāo)記，確定是否屬聯(lián)想漢字范圍。
2、聯(lián)想判別處理對(duì)屬于聯(lián)想范圍的漢字送入聯(lián)想判識(shí)處理，聯(lián)想判識(shí)處理過程主要是循環(huán)聯(lián)想識(shí)別樹的路徑進(jìn)行的。聯(lián)想識(shí)別樹的“字典”結(jié)構(gòu)如圖1所示，在聯(lián)想識(shí)別樹中，“樹根”對(duì)應(yīng)聯(lián)想功能始點(diǎn)，每個(gè)引導(dǎo)字在樹上引出一個(gè)“枝”，一個(gè)終端聯(lián)想字對(duì)應(yīng)樹上一個(gè)“葉子”，聯(lián)想識(shí)別的處理程序如圖2所示。在該頁(yè)式聯(lián)想漢字識(shí)別系統(tǒng)中，目前，只設(shè)計(jì)成單純聯(lián)想功能，即對(duì)某漢字的聯(lián)想判識(shí)只取決于其前或其后的一個(gè)漢字進(jìn)行前導(dǎo)聯(lián)想和后續(xù)聯(lián)想。其中，前導(dǎo)聯(lián)想用于引導(dǎo)識(shí)別，而對(duì)相近字，則既使用前導(dǎo)聯(lián)想，也使用后續(xù)聯(lián)想。
3、特征判識(shí)處理對(duì)于本文中每段的第一個(gè)字，一句話的開頭字或在一句話中某些與前、后字的約束關(guān)系不很強(qiáng)的漢字，也就是說(shuō)，當(dāng)一個(gè)字的聯(lián)想判識(shí)超出了單純一重馬爾科夫信息源系統(tǒng)，而需要多重馬爾科夫信息源處理系統(tǒng)才能準(zhǔn)確判斷時(shí)，如“使”與“便”兩個(gè)相近字在文本中可以有“可以使”和“以便”兩種可能。
以上情況則只有根據(jù)漢字的特征進(jìn)行判識(shí)處理，或其在文本中出的概率去判識(shí)。在對(duì)文本中必須靠文字特征判識(shí)的漢字，則送入特征識(shí)別處理，其識(shí)別過程循特征識(shí)別樹進(jìn)行，本系統(tǒng)使用的特征識(shí)別樹是以“樹根”對(duì)應(yīng)判識(shí)的特征，不同特征或不同特征值在樹上引出不同的“枝”。一個(gè)字對(duì)應(yīng)樹上一個(gè)“葉子”，所使用的文字特征如前述。
4、依據(jù)漢字的一、二次背景特征對(duì)漢字作最后的判識(shí)在對(duì)文本中相關(guān)漢字進(jìn)行引導(dǎo)識(shí)別并與漢字特征識(shí)別相匹配后，依據(jù)共同的漢字判識(shí)特征，通過相應(yīng)字指針引導(dǎo)，完成對(duì)文本中漢字的最后判識(shí)。
圖4是本系統(tǒng)所使用的硬件結(jié)構(gòu)簡(jiǎn)圖，其中主機(jī)CHIP-386的主頻為16MC，內(nèi)存為640KBYTE，擴(kuò)展內(nèi)存為1MBYTE，，掃描儀的最高分辯率為300點(diǎn)/英寸。
該系統(tǒng)對(duì)應(yīng)“雙信源模型字典”應(yīng)用軟件的容量小于256KBYTE，識(shí)別程序總?cè)萘?包括輸入、版面分析、行字切分、識(shí)別等)小于40KBYTE。
本發(fā)明的實(shí)質(zhì)性特點(diǎn)的所取得的顯著步是1、學(xué)習(xí)擴(kuò)展功能根據(jù)信息的觀點(diǎn)，語(yǔ)言可以用馬爾科夫信源來(lái)近似，即當(dāng)狀態(tài)經(jīng)過多次遷移之后，在狀態(tài)集合上的概率分布與初始狀態(tài)的概率分布無(wú)關(guān)，故在其狀態(tài)集合中存在著唯一的概率分布，這唯一的狀態(tài)分布稱為定常分布，這就從理論上保證了只要經(jīng)過長(zhǎng)時(shí)間的使用觀測(cè)，進(jìn)行大量的學(xué)習(xí)就可以使該系統(tǒng)的識(shí)別結(jié)果逐步接近到只受語(yǔ)言邏輯關(guān)系的約束，而與具體的識(shí)別特征和識(shí)別算法無(wú)關(guān)。這實(shí)質(zhì)上是給“聯(lián)想識(shí)別樹”“增枝”、“增葉”的擴(kuò)展過程。使所包含的漢字不僅能擴(kuò)展至一級(jí)漢字之外，而且也可將二級(jí)以外的漢字追加進(jìn)識(shí)別系統(tǒng)之中。
2、“雙信源模型字典結(jié)構(gòu)”具有廣泛的適應(yīng)性由于該字典的聯(lián)想識(shí)別樹結(jié)構(gòu)對(duì)文本中的漢字引導(dǎo)進(jìn)行相關(guān)識(shí)別，而其中的特征識(shí)別樹結(jié)構(gòu)又對(duì)漢字引導(dǎo)進(jìn)行特征識(shí)別，二者相互匹配，依據(jù)共同的漢字判識(shí)特征對(duì)漢字做最后的判識(shí)，因此只改變現(xiàn)有字典中與識(shí)別機(jī)制有關(guān)的部分，即把聯(lián)想的識(shí)別樹和特征識(shí)別樹中相應(yīng)字指針改成新的相應(yīng)字指針值，便可更新漢字識(shí)別特征，這樣，就可將此字典引入任何漢字識(shí)別系統(tǒng)中。
3、本發(fā)明可以提高漢字識(shí)別的各項(xiàng)指標(biāo)由于該系統(tǒng)以實(shí)文本漢字作為識(shí)別對(duì)象，其“聯(lián)想識(shí)別樹結(jié)構(gòu)”充分利用了文本中相鄰漢字間的約束關(guān)系，使系統(tǒng)在漢字判識(shí)過程中，大大減小了進(jìn)行判識(shí)所需的漢字特征信息量，增強(qiáng)了識(shí)別的肯定性。這既可使識(shí)別系統(tǒng)應(yīng)用軟件總?cè)萘繙p小了17.8%-95.31%，又能使?jié)h字識(shí)別率提高3-5%。在16M主頻和使用C語(yǔ)言編制識(shí)別程序的條件下，其識(shí)別速度與其他常規(guī)識(shí)別系統(tǒng)相比可提高到6-8字/秒。若采用匯編語(yǔ)言并進(jìn)一步優(yōu)化程序，則識(shí)別率還能進(jìn)一步提高。
權(quán)利要求
1.頁(yè)式聯(lián)想漢字識(shí)別系統(tǒng)由計(jì)算機(jī)、掃描儀等硬件設(shè)備和相應(yīng)的軟件構(gòu)成，其特征在于利用實(shí)際文本中相鄰漢字中的相關(guān)性，配合漢字的結(jié)構(gòu)特征，以“雙信源模型字典”為依據(jù)編制判識(shí)漢字的應(yīng)用軟件，并與特定的“計(jì)算機(jī)系統(tǒng)軟件”組成該系統(tǒng)的軟件部分；其硬件設(shè)備為配接有漢卡的計(jì)算機(jī)主機(jī)和掃描儀、顯示器、打印機(jī)等。
2.根據(jù)權(quán)利要求1所述的漢字識(shí)別系統(tǒng)，其特征在于“雙信源模型字典”以“聯(lián)想識(shí)別樹”、“特征識(shí)別樹”為主構(gòu)成，其中的“聯(lián)想識(shí)別樹”是對(duì)應(yīng)單純“MARKOV信源模型”的樹狀數(shù)據(jù)結(jié)構(gòu)，即對(duì)文本中某漢字的判識(shí)只依賴于其前或其后的一個(gè)漢字，分為“前導(dǎo)聯(lián)想”和“后續(xù)聯(lián)想”以進(jìn)行引導(dǎo)識(shí)別和相近字的識(shí)別;“特征識(shí)別樹”是用于引導(dǎo)對(duì)漢字進(jìn)行特征識(shí)別的樹狀數(shù)據(jù)結(jié)構(gòu)，在該結(jié)構(gòu)中使用了漢字的縱向、橫向分塊特征，長(zhǎng)筆道分布特征，邊框特征，二次白特征特;在該系統(tǒng)中以經(jīng)過“聯(lián)想識(shí)別處理”和“特征識(shí)別處理”做為漢字的一二次處理背景特征對(duì)漢字進(jìn)行最后判識(shí);該系統(tǒng)以C語(yǔ)言編制識(shí)別程序，還采用“主菜單”提示方式完成整頁(yè)本文的掃描輸入或通過予掃描直接指定輸入?yún)^(qū)域，其掃描本文最大尺寸為A4頁(yè)，并可進(jìn)行版面分析和行字切分等輸入功能。
3.根據(jù)權(quán)利要求1或2所述的漢字識(shí)別系統(tǒng)，其特征是該系統(tǒng)的各硬件設(shè)備分別是配接中科院計(jì)算機(jī)所Ⅲ型漢卡的CHIPS-386主機(jī)，CC-1435型彩色顯示器，東芝3070型打字機(jī)和理光IS-30掃描儀，其“計(jì)算機(jī)系統(tǒng)軟件”為“DOS3、3”。
4.根據(jù)權(quán)利要求2或3所述的漢字識(shí)別系統(tǒng)，其特征是識(shí)別的字體為6號(hào)以上的宋體印刷漢字，識(shí)別字域是以國(guó)際一級(jí)字為基礎(chǔ)的開放式識(shí)別字域，字?jǐn)?shù)大于3755。
全文摘要
本發(fā)明屬于采用光學(xué)方法的漢字識(shí)別技術(shù)領(lǐng)域是一種頁(yè)式聯(lián)想漢字識(shí)別系統(tǒng)。該系統(tǒng)判識(shí)漢字的應(yīng)用軟件以“雙信源模型字典”為依據(jù)編制而成，并與特定的“計(jì)算機(jī)系統(tǒng)軟件”組成本發(fā)明的軟件部份，其硬件設(shè)備有配接漢卡的計(jì)算機(jī)主機(jī)和掃描儀、顯示器、打印機(jī)等。該系統(tǒng)以實(shí)際文本中相鄰漢字中的概率約束關(guān)系作為漢字的聯(lián)想識(shí)別并輔之以漢字的特征判識(shí)。具有漢字識(shí)別率高、識(shí)別速度快、軟件容量小和易于引入現(xiàn)有漢字識(shí)別系統(tǒng)等顯著技術(shù)進(jìn)步。
文檔編號(hào)G06K9/72GK1059415SQ9010738
公開日1992年3月11日申請(qǐng)日期1990年8月29日優(yōu)先權(quán)日1990年8月29日
發(fā)明者郭寶蘭, 張彩錄, 衛(wèi)穎麗, 張宇桐申請(qǐng)人:河北大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭寶蘭;張彩錄;衛(wèi)穎麗;張宇桐
技術(shù)所有人：河北大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

漢字識(shí)別系統(tǒng)相關(guān)技術(shù)

聯(lián)想手寫輸入識(shí)別系統(tǒng)相關(guān)技術(shù)

漢字激光照排系統(tǒng)相關(guān)技術(shù)

漢字區(qū)位碼查詢系統(tǒng)相關(guān)技術(shù)

漢字編碼查詢系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

頁(yè)式聯(lián)想漢字識(shí)別系統(tǒng)的制作方法