專利名稱:地址識(shí)別裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及地址識(shí)別的裝置。更具體地,涉及一種識(shí)別任意間距區(qū) 域內(nèi)的手寫字符地址的地址識(shí)別裝置。
背景技術(shù):
傳統(tǒng)上有兩種對(duì)手寫地址進(jìn)行識(shí)別的方法。
第一種傳統(tǒng)方法是首先從輸入地址圖像中提取單字符區(qū)域(即只含 有一個(gè)字符的區(qū)域),并從這些單字符區(qū)域中提取關(guān)鍵字符(在手寫地址 識(shí)別中,關(guān)鍵字符為能夠表示行政區(qū)域的單一字符,例如省、區(qū)、州、 市、縣、鎮(zhèn)、鄉(xiāng)、村等),檢測(cè)由兩個(gè)相鄰關(guān)鍵字符所限定的地名區(qū)域。 為了識(shí)別地名區(qū)域內(nèi)的地名,該方法將該地名區(qū)域分割成獨(dú)立的字符, 然后逐個(gè)識(shí)別這些獨(dú)立字符。
但是,這種傳統(tǒng)的地址識(shí)別方法存在一定的缺陷,即,將地址分割 成獨(dú)立字符時(shí)常常出現(xiàn)錯(cuò)誤。特別是當(dāng)自由間距區(qū)內(nèi)的地址相互連接緊 密時(shí),該方法尤其容易出錯(cuò)。而由于手寫字符常常不太規(guī)范、形態(tài)各異, 所以這種緊密連接的情況很常見。
第二種傳統(tǒng)方法也是首先提取字符片斷,并檢測(cè)由兩個(gè)相鄰關(guān)鍵字 符所限定的地名區(qū)域。它與第一種方法的不同之處在于,這種方法將地 名區(qū)域內(nèi)的地名作為整體來進(jìn)行識(shí)別。比如輸入地址圖像的實(shí)際地址為 "北京市朝陽區(qū)霄云路",首先市,區(qū),路這些關(guān)鍵地址被提取識(shí)別出來。 然后這些關(guān)鍵字之間的圖像(或第一個(gè)關(guān)鍵字之前的圖像)被切分出來。 即,"北京","朝陽","霄云"所對(duì)應(yīng)的圖像將被切分出來。并對(duì)這些圖像 整體識(shí)別。
這個(gè)傳統(tǒng)方法的一個(gè)主要問題是,很大一部分實(shí)際地址中,關(guān)鍵字 往往被省去。比如,地址條"北京市朝陽區(qū)霄云路"中的"市"或"區(qū)"可以被略去,而且并不會(huì)影響對(duì)地址的解讀。在這種情況下,整體識(shí)別的 方法會(huì)失敗,因?yàn)榈孛麉^(qū)域也即關(guān)鍵字之間的圖像區(qū)域?qū)o法確定。
發(fā)明內(nèi)容
本發(fā)明鑒于上述問題而提出。本發(fā)明的目的是提供對(duì)地址進(jìn)行識(shí)別 的地址識(shí)別裝置,用以解決現(xiàn)有技術(shù)中的一個(gè)或更多個(gè)問題。
為了實(shí)現(xiàn)本發(fā)明的目的,根據(jù)本發(fā)明的第一方面,提供了一種地址 識(shí)別裝置,所述裝置包括以下單元關(guān)鍵字缺失判斷單元,判斷輸入的 地址圖像中關(guān)鍵字是否缺失;整體地址識(shí)別單元,在所述關(guān)鍵字缺失判 斷單元判斷出所述輸入的地址圖像中關(guān)鍵字不缺失時(shí),對(duì)所述關(guān)鍵字之 間的地址區(qū)域進(jìn)行整體識(shí)別;詞語言地址識(shí)別單元,在所述關(guān)鍵字缺失 判斷單元判斷出所述輸入的地址圖像中關(guān)鍵字缺失時(shí),對(duì)所述輸入的地 址圖像進(jìn)行詞語言地址識(shí)別。
根據(jù)本發(fā)明的第二方面,提供了一種確定字符圖像中單字符區(qū)域的 裝置,所述裝置包括以下單元連通域分割單元,對(duì)所述字符圖像進(jìn)行 連通域分割;候選單字符區(qū)域判斷單元,判斷每一個(gè)連通域、每相鄰的 倆個(gè)連通域以及每相鄰的三個(gè)連通域的寬度是否大于閾值,將大于閾值 的每一個(gè)連通域、每相鄰的倆個(gè)連通域以及每相鄰的三個(gè)連通域判斷為 候選單字符區(qū)域。
根據(jù)本發(fā)明的第三方面,提供了一種對(duì)地址圖像中的地址進(jìn)行識(shí)別 的裝置,所述裝置包括以下單元單字字符識(shí)別單元,識(shí)別所述地址圖 像中的每一個(gè)候選單字符區(qū)域,得到字符識(shí)別候選;識(shí)別候選陣列獲得 單元,獲得由所有所述候選單字符區(qū)域的字符識(shí)別候選所組成的識(shí)別候 選陣列;匹配單元,將地址字典中的地址與所述識(shí)別候選陣列進(jìn)行匹配, 將識(shí)別距離最小的地址識(shí)別為識(shí)別結(jié)果。
本發(fā)明在字符分割時(shí),每個(gè)連通組件,每倆個(gè)相鄰的連通組件及每 三個(gè)相鄰的連通組件,都將作為可能的字符區(qū)域被分別識(shí)別?;谠~圖 搜索的方法則從得到的識(shí)別候選序列中搜索最優(yōu)的識(shí)別地址。使用多個(gè) 連通組件的組合提高了系統(tǒng)的魯棒性,從而降低丟失正確字符的風(fēng)險(xiǎn),提高地址識(shí)別的正確度。
本發(fā)明能夠有效地識(shí)別存在關(guān)鍵字和不存在關(guān)鍵字的地址。 另外,本發(fā)明在基于詞圖搜索的地名匹配方法中,采用了一種加權(quán) 詞圖的搜索方法。關(guān)鍵字與普通漢字相比往往能提供更多的信息。當(dāng)關(guān) 鍵字存在時(shí),這種方法突出了關(guān)鍵字的作用,即,給予含關(guān)鍵字的地名 以較大的權(quán)值。另外,中文地址中,低級(jí)地名一般不會(huì)缺失關(guān)鍵字。比 如,北京市朝陽區(qū)霄云路中,"市"、"區(qū)"可能會(huì)被省去,但"路" 一般不會(huì)被省去??紤]加權(quán)關(guān)鍵字能提高識(shí)別地址識(shí)別的效率和正確率。
應(yīng)當(dāng)理解,以上總體說明和以下詳細(xì)說明都是說明性和示例性的, 并旨在提供對(duì)所要求的本發(fā)明的進(jìn)一步說明。
所包含的附圖用于提供對(duì)本發(fā)明的進(jìn)一步理解,其被并入說明書并 構(gòu)成其一部分,
了本發(fā)明的實(shí)施例,并與說明書一起用于解釋 本發(fā)明的原理。
圖1是依據(jù)本發(fā)明的一個(gè)實(shí)施例的地址識(shí)別裝置的方框圖; 圖2示出了依據(jù)本發(fā)明一個(gè)實(shí)施例的地址識(shí)別方法的流程圖; 圖3是依據(jù)本發(fā)明的關(guān)鍵字缺失判斷單元進(jìn)行的候選單字符區(qū)域分 割的示例性說明;
圖4是依據(jù)本發(fā)明實(shí)施例的詞語言地址識(shí)別單元的方框圖5是依據(jù)本發(fā)明的一種樹形結(jié)構(gòu)的地址詞圖示意圖6是依據(jù)本發(fā)明的詞語言模型匹配單元的操作流程圖;以及
圖7示出了依據(jù)本發(fā)明一個(gè)實(shí)施例的地址識(shí)別裝置的結(jié)構(gòu)圖。
具體實(shí)施例方式
下面將參照附圖詳細(xì)說明本發(fā)明的地址識(shí)別裝置和方法。在附圖中, 相同的附圖標(biāo)記代表相同或類似的部件。
圖1是依據(jù)本發(fā)明的一個(gè)實(shí)施例的地址識(shí)別裝置的方框圖。如圖1 所示,依據(jù)本發(fā)明的地址識(shí)別裝置包括關(guān)鍵字缺失判斷單元11、整體地址識(shí)別單元12、判斷單元13和詞語言地址識(shí)別單元14。圖2示出了依據(jù)本發(fā)明一個(gè)實(shí)施例的地址識(shí)別方法的流程圖。如圖 2所示,在步驟S201中,由關(guān)鍵字缺失判斷單元11將輸入的地址圖像切 分為可能的單一字符區(qū)域,并進(jìn)行關(guān)鍵字是否缺失的確定。在判斷出關(guān) 鍵字不缺失(步驟S202,是)時(shí),在步驟S203,整體地址識(shí)別單元12 進(jìn)行整體地址識(shí)別。然后,在步驟S204,判斷單元13判斷整體識(shí)別單元 12在步驟S203的輸出的地址的匹配距離是否超過一預(yù)設(shè)閾值。如果沒有 超過該閾值,說明整體識(shí)別單元識(shí)別結(jié)果可靠,于是輸出該結(jié)果為最終識(shí) 別結(jié)果。如果該匹配距離超過了該閾值,說明遞歸整體識(shí)別單元結(jié)果不 可靠,輸入的地址圖像中仍有較大可能性缺失關(guān)鍵字,于是處理進(jìn)行到 步驟S205,由詞語言地址識(shí)別單元14進(jìn)行識(shí)別。整體識(shí)別單元12在進(jìn)行整體地址識(shí)別時(shí),首先從候選單一字符區(qū)域 中提取關(guān)鍵字,再依次提取關(guān)鍵字之間的地名區(qū)域,進(jìn)行遞歸整體識(shí)別。 整體識(shí)別的方法和步驟可以詳見中國專利申請(qǐng)第200510089537.0號(hào)?,F(xiàn) 通過引用將該申請(qǐng)并如本文中,如同在本文中完全闡明一樣。大略地說, 所述整體地址識(shí)別步驟可以包括提取步驟,提取所述地址區(qū)域的特征 向量;匹配步驟,將所提取的特征向量與地名字典中的地名的特征向量 相匹配,尋找所有可能候選地名。實(shí)踐中,可以在所述地名字典中的地 名的特征向量與所提取的特征向量的匹配距離小于預(yù)定閾值時(shí)就將該地 名判斷為可能候選地名。而如果在所述匹配步驟中獲得多個(gè)可能候選地 名時(shí),按預(yù)定的規(guī)則對(duì)所述多個(gè)可能候選地名進(jìn)行篩選。當(dāng)輸入地址圖像中存在關(guān)鍵字缺失時(shí),整體識(shí)別的輸出結(jié)果將會(huì)錯(cuò) 誤。但此時(shí)其匹配距離也會(huì)較大。因而,由判斷單元13對(duì)整體識(shí)別單元 的整體識(shí)別結(jié)果進(jìn)行評(píng)價(jià)。判斷單元13的存在進(jìn)一步提高了本發(fā)明的地 址識(shí)別方法的可靠性,避免了關(guān)鍵字缺失判斷單元ll的判斷錯(cuò)誤可能造 成的影響。下面結(jié)合圖3說明關(guān)鍵字缺失判斷單元11和步驟S201的操作。圖 3是依據(jù)本發(fā)明的關(guān)鍵字缺失判斷單元11的候選單字符區(qū)域分割的示例 性說明。依據(jù)本發(fā)明的關(guān)鍵字缺失判斷單元11首先進(jìn)行候選單字符區(qū)域分割。具體地,首先從圖像中分割連通域;然后判斷每一個(gè)連通域、每相鄰的倆個(gè)連通域以及每相鄰的三個(gè)連通域是否為候選單字符區(qū)域。圖3中假設(shè)輸入的地址為"河北..."。作為示例性說明,僅對(duì)"河北" 圖像進(jìn)行說明。如圖3 (a),首先從圖像中得到連通域A,B,C,D。其中A 為倆個(gè)連通域組合而成。連通域是圖像前景色(通常為黑色)像素點(diǎn)的集 合,在此集合中,任何兩個(gè)像素點(diǎn)都能通過該集合內(nèi)的像素相連通。具 體檢測(cè)連通域的方法可參見連通域檢測(cè)算法(參見/^; erm^^ /waw i ^"e"ce, Bob Fisher, Simon Perkins, Ashley Walker and Erik Wolfart.Depa rtment of Artificial Intelligence University of Edinburgh,UK, http:〃www.cee.hw.ac.uk/hipr/html/label.html),連通域的合并可參見美國專 利US 6,535,619 Bl中圖11A, 11B, IIC及其說明。考慮漢字字符橫向上 最多只可能有三個(gè)獨(dú)立結(jié)構(gòu),比如"樹,,由"木","又","寸"組成。如圖 3(b)所示,相鄰的倆個(gè)連通域被組合作為候選單一字符區(qū)域,即,AB,BC, CD;如圖3(c)所示,相鄰的三個(gè)連通域也被組合作為候選單一字符區(qū)域, ABC, BCD。在上面的連通域組合過程中,當(dāng)組合后的連通域?qū)挾却笥?某一給定閾值The時(shí)則不進(jìn)行組合連通域。在一個(gè)實(shí)施例中,當(dāng)估計(jì)The 時(shí),首先從所有的連通域中得到平均高度,假定為Thh,對(duì)漢字而言,漢 字的平均寬度和高度之比往往在一個(gè)穩(wěn)定的范圍內(nèi),則The可被設(shè)置為 ThhXcof,其中cof通常為2 3。如圖3(d)所示,BCD的寬度大于J^c,艮卩^CX^ 〉7 2c,貝iJ BCD不被判定為候選的單一字符區(qū)域。于是,最后的候選單一字符區(qū)域 為,A,B,C,D, AB,BC,CD,ABC。在確定了候選單字符區(qū)域之后,判斷所確定的候選單字符區(qū)域中的 單個(gè)字符是否為關(guān)鍵字??梢詫⑺龊蜻x單字符區(qū)域中的單個(gè)字符與關(guān) 鍵字字典中的關(guān)鍵字進(jìn)行比較,以確定其是否為關(guān)鍵字。在一個(gè)實(shí)施例 中,當(dāng)所述單個(gè)字符與關(guān)鍵字字典中的關(guān)鍵字的匹配距離小于預(yù)定閾值 時(shí),認(rèn)為其為關(guān)鍵字。在一個(gè)實(shí)施例中,在判斷出所述輸入的圖像中存 在關(guān)鍵字時(shí),還進(jìn)行所識(shí)別出的關(guān)鍵字所組成的路徑是否合法的判斷。如"省...市"為合法,"市...省"為不合法。在本發(fā)明的一個(gè)實(shí)施例中, 所述關(guān)鍵字符詞典單元所保存的可能關(guān)鍵字符僅為包括如下漢字字符 省、市、區(qū)、弄、路、街、村、鄉(xiāng)、鎮(zhèn)、港、灣、縣、道、里、同、巷、 樓、州、旗、胡、莊、坊。在判斷出存在關(guān)鍵字時(shí),如上所示,進(jìn)行步 驟S203的整體識(shí)別。在判斷出不存在關(guān)鍵字或關(guān)鍵字路徑不符合預(yù)定規(guī)則(在某些實(shí)施例中)時(shí),進(jìn)行步驟S205的詞語言地址識(shí)別。圖4是依據(jù)本發(fā)明實(shí)施例的詞語言地址識(shí)別單元(詞圖搜索識(shí)別單 元)13的方框圖。如圖4所示,依據(jù)一個(gè)實(shí)施例,本發(fā)明的詞語言地址 識(shí)別單元13包括地址詞圖存儲(chǔ)單元302、單字字符識(shí)別單元301、候選 陣列獲得單元303、詞語言模型匹配單元304。在詞語言地址識(shí)別單元13中,首先對(duì)輸入的候選單一字符區(qū)域進(jìn)行 單字字符識(shí)別,于是每一候選單一字符區(qū)域都得到長度為N個(gè)的識(shí)別候 選,通過候選陣列獲得單元303簡單地排列所有的候選單一字符區(qū)域的識(shí) 別候選,而獲得一識(shí)別候選陣列。匹配單元將存儲(chǔ)在地址詞圖存儲(chǔ)單元 302當(dāng)中的地名(如,北京或北京市,上海或上海市,湖北或湖北省等) 與該識(shí)別候選陣列進(jìn)行匹配,并從中計(jì)算出識(shí)別距離最小的地址列作為 識(shí)別結(jié)果。更具體地,圖4中單字字符識(shí)別單元301用來識(shí)別候選單字區(qū)域。 單字字符識(shí)別單元301識(shí)別每一個(gè)候選單字區(qū)域而得到字符識(shí)別候選。 此時(shí)的候選單字區(qū)域就是前面所述的每一個(gè)連通域,每相鄰的倆個(gè)和三 個(gè)連通域,并利用給定的任一分類方法(比如模板匹配,二次判別分析,支撐 向量機(jī)等)對(duì)所述各連通域進(jìn)行了分類識(shí)別。所有候選單字區(qū)域的識(shí)別 候選將會(huì)組合成一陣列(識(shí)別候選陣列)。這種組合候選陣列獲得單元303 完成。匹配單元304則將存儲(chǔ)在地址詞圖存儲(chǔ)單元302當(dāng)中的地名(如, 北京或北京市,上?;蛏虾J?,湖北或湖北省等)與該識(shí)別候選陣列進(jìn) 行匹配,并從中計(jì)算出識(shí)別距離最小的地址列作為識(shí)別結(jié)果。圖5是依據(jù)本發(fā)明的一種樹形結(jié)構(gòu)的地址詞圖示意圖。在圖5中, 地名根據(jù)其隸屬關(guān)系被組織成樹形結(jié)構(gòu)。EO代表根節(jié)點(diǎn),連接一級(jí)地址, 即直轄市,或省級(jí)地址,如Ell示出了北京市,E12示出了上海市,E13示出了湖北省等。為了有效地識(shí)別關(guān)鍵字缺失的地址,該詞圖中的樹形 結(jié)構(gòu)的各節(jié)點(diǎn),既存儲(chǔ)含關(guān)鍵字的地名,又存儲(chǔ)不含關(guān)鍵字的地名,如Ell 中,北京和北京市都存儲(chǔ)在節(jié)點(diǎn)中。依據(jù)隸屬關(guān)系,中文地址最多只有四級(jí)結(jié)構(gòu),例如E13 (湖北省)-£23(荊州市)-£33(沙市區(qū))-£41(紅門路)。 圖6是依據(jù)本發(fā)明的匹配單元304的操作流程圖。如圖6所示,在 步驟S1讀入數(shù)據(jù),即識(shí)別各候選單字區(qū)域得到識(shí)別候選陣列。假設(shè)候選 單字區(qū)域共m個(gè),表示為M"2,...,^^,識(shí)別每個(gè)候選區(qū)域A共得到" 個(gè)候選,表示為Q (0<i<m, 0<j<n+l,i,j均為正整數(shù)),每個(gè)識(shí)別候選的識(shí)別 距離記為Dist(CV)。各候選按照識(shí)別距離由小到大進(jìn)行排序,即如果乂〉/t, Dist(Q)> Dist(C汰)。在步驟S2中,利用如下規(guī)則減少候選字符數(shù)目規(guī)則一如果Dist(C27^,從候選陣列中刪除Ciq, Ci(q+1) ...,Cin規(guī)則二如果[Dist(G々)-Dist(C")]/Dist(C")〉77^,從候選陣列中刪除某候選的識(shí)別絕對(duì)距離越大,說明該候選為正確的單字識(shí)別結(jié)果的 可能越小,規(guī)則一用于減少絕對(duì)距離大的識(shí)別候選。同理,規(guī)則二利用 與第一識(shí)別候選的相對(duì)值來濾除那些不大可能為正確識(shí)別結(jié)果的候選單 字。規(guī)則一和規(guī)則二能減少候選數(shù)目,從而提高系統(tǒng)的搜索速度和識(shí)別 精度。在步驟S3,將對(duì)識(shí)別候選陣列進(jìn)行不缺失第一級(jí)地址的匹配。即首先將地址詞圖存儲(chǔ)單元302里的所有第一級(jí)地址(77, 73,..,7"與前幾個(gè)候選單字區(qū)域的識(shí)別候選進(jìn)行匹配,得到候選地名《。具體而言,該候選詞《由以下公式得到,I) = arg maxn卩og尸(77) + log CF(70],p(77)為地名n'出現(xiàn)的概率,可以從大量的地址語料里通過計(jì)算"出現(xiàn)的 頻率來得到。CF(W為多個(gè)候選單字區(qū)域識(shí)別為^的置信度,其計(jì)算過程如下假設(shè)77 = ,...,t;},這里z;,o < / < P +1,且/為正整數(shù),表示地名里 的第j'個(gè)字符,如乃-北京市,則,T"北,r。-京,^=市。假設(shè),單字區(qū)域<formula>formula see original document page 14</formula>被匹配為<formula>formula see original document page 14</formula>為識(shí)別^所得的/個(gè)候選。如下 所示地定義字符^與人.的近似度<formula>formula see original document page 14</formula><formula>formula see original document page 14</formula>上面的定義中,如果字符4存在于《的識(shí)別候選陣列中,則《可能為字 符4。同時(shí),如果《識(shí)別為字符4的距離越小,則《越有可能識(shí)別為4,s一z;o則應(yīng)該越大,這也是(i)所闡述的意思。如果字符^不存在于《的識(shí)別候選陣列中,則認(rèn)為字符^與《的近似度很小,因此賦給 胸(7;,《.)一個(gè)很小的值《,這也是(2)所闡述的意思。最后c/^')定義如下<formula>formula see original document page 14</formula> (3){w、 如果;為關(guān)鍵字,并且存在6工—=7;'"一 —i wc, 如果;不是關(guān)鍵字,或者對(duì)任意6,C— - ^誕為一大于1的常數(shù),奮為一小于1的常數(shù)。公式(3)中,該地名n的置信度定義為其中各字符j;與字符圖像的近似度的乘積的加權(quán)。同時(shí),如果^的最后一個(gè)字為中有關(guān)鍵字,并且 該關(guān)鍵字出現(xiàn)在字符圖像的識(shí)別候選中,說明該候選字符圖為一正確的 地名的可能性很大,我們因此給予以較大權(quán)值滅,否則給予以較小權(quán)值wc。此處,"較大"、"較小"可以被分別理解為"大于""小于"某一預(yù)定的值。當(dāng)?shù)谝患?jí)地名被匹配后,確定第二級(jí)地名的匹配。第二級(jí)地名匹配完成后,再進(jìn)行下級(jí)地名匹配,并依此類推。直到匹配結(jié)束。第k級(jí)地名A由以下公式得到。<formula>formula see original document page 14</formula> (4) 其中/>(77|11...;^-1)表示前]^1級(jí)地址確定后,地名7;出現(xiàn)的概率。該值定義如下<formula>formula see original document page 14</formula>^為地名f在語料庫中出現(xiàn)的頻率。CF(77)置信度由公式(3)計(jì)算而得。艮P,在所述匹配中,所述第k級(jí)候選地名這樣確定計(jì)算前k-l級(jí) 地址確定后,地名Ti的出現(xiàn)概率,將計(jì)算出的概率與地名圖像被識(shí)別成 該地名Ti的置信度相乘,將乘積最大的地名Ti確定為第k級(jí)候選地名,i是大于等于1的整數(shù),Ti表示第k級(jí)候選地名的第i個(gè)候選。所述地名的置信度為地名圖像與識(shí)別出的所述地名Ti的近似度的加 權(quán);如果地名Ti中的最后一個(gè)候選識(shí)別區(qū)域被識(shí)別成關(guān)鍵字,則將所述 近似度乘以較大的權(quán)值,如果地名Ti中的最后一個(gè)候選識(shí)別區(qū)域未被識(shí)別成關(guān)鍵字,則將所述近似度乘以較小的權(quán)值。S4用來判斷不缺失第一級(jí)地址的匹配S3結(jié)果是否足夠好。具體而 言,假設(shè)不缺失第一級(jí)地址的匹配結(jié)果為, £。 = logI Zt.. .d) + log C尸(圳,"=7,…,t貝U, a-l 如果I^五。S7\ 不接受X,,...Xk,r&為一給定閾值。當(dāng)fl^〉7^時(shí),說明匹配結(jié)果A…^的總體可靠性較高,因此接受該匹配結(jié)果為最終的識(shí)別結(jié)果。當(dāng);fl五a^2^時(shí),說明匹配結(jié)果Zi...A的總體可靠性較低,因此該匹 配結(jié)果可能為不含第一級(jí)地址,比如"湖北省荊州市沙市區(qū)紅門路"中的湖北省可能缺失。因此在步驟S5中進(jìn)行缺失地址的匹配,首先進(jìn)行缺失第一級(jí)地址的匹配。在缺失第一級(jí)地址的匹配S5中,從地址詞圖存儲(chǔ)單元302中的第二 級(jí)地址開始與候選字符區(qū)域的識(shí)別候選陣列進(jìn)行匹配,其匹配基本過程 與S3—致。區(qū)別僅在于不從第一級(jí)地址開始。該步驟也會(huì)得到一匹配總體可靠性flA 。在步驟S6中比較缺失地址匹配的總體可靠性與不缺失地址匹配的 總體可靠性,取其中可靠性高的為最后識(shí)別結(jié)果。當(dāng)輸入地址含有第一級(jí)地址時(shí),采用S3-S4-S5-S6區(qū)分不缺失第一級(jí)地址匹配和缺失第一級(jí)地址的匹配的方法,S3將直接輸出識(shí)別結(jié)果,而 將不用進(jìn)行缺失第一級(jí)地址的匹配,從而能提高系統(tǒng)的效率和精度。注意在上面的說明中,根據(jù)實(shí)際情況,上面的框架應(yīng)該被靈活應(yīng)用。 比如當(dāng)輸入地址中存在一,二級(jí)地址均缺失較為頻繁的情況,參考上面的 方框圖,缺失地址匹配步驟可以進(jìn)行缺失第一級(jí)和第二級(jí)地址的匹配。 從而達(dá)到提高系統(tǒng)效率和精度的效果。圖7示出了依據(jù)本發(fā)明一個(gè)實(shí)施例的匹配單元的結(jié)構(gòu)圖。如圖7所 示,依據(jù)本發(fā)明一個(gè)實(shí)施例的匹配單元304包括地址不缺失匹配單元 701,用于進(jìn)行上述地址不缺失匹配,即按隸屬關(guān)系逐級(jí)將地址字典中的 地址與識(shí)別候選陣列進(jìn)行比較;判斷單元702,用于判斷所述地址不缺失 匹配單元701的匹配結(jié)果是否足夠好;地址缺失匹配單元703,用于在所 述判斷單元判斷出所述匹配結(jié)果不夠好時(shí),進(jìn)行地址缺失匹配,即只逐 級(jí)進(jìn)行隸屬關(guān)系中的較下幾級(jí)的匹配,所述較下幾級(jí)是指從隸屬關(guān)系中 的第二級(jí)或第三級(jí)開始直至隸屬關(guān)系中最后一級(jí);確定單元704,用于選 擇所述地址不缺失匹配單元7021和地址缺失匹配單元7023的匹配結(jié)果 中的較好者。綜上所述,本發(fā)明提供了這樣的地址識(shí)別裝置(或方法),所述裝置 (或方法)包括以下單元(或步驟)關(guān)鍵字缺失判斷單元(步驟),判 斷輸入的地址圖像中關(guān)鍵字是否缺失;整體地址識(shí)別單元(步驟),在所 述關(guān)鍵字缺失判斷單元(步驟)判斷出所述輸入的地址圖像中關(guān)鍵字不 缺失時(shí),對(duì)所述關(guān)鍵字之間的地址區(qū)域進(jìn)行整體識(shí)別;詞語言地址識(shí)別 單元(步驟),在所述關(guān)鍵字缺失判斷單元(步驟)判斷出所述輸入的地 址圖像中關(guān)鍵字缺失時(shí),對(duì)所述輸入的地址圖像進(jìn)行詞語言地址識(shí)別。本發(fā)明還提供了一種確定字符圖像中單字符區(qū)域的裝置(方法),所 述裝置(方法)包括以下單元(步驟)連通域分割單元(步驟),對(duì)所 述字符圖進(jìn)行連通域分割;候選單字符區(qū)域判斷單元(步驟),判斷每一 個(gè)連通域、每相鄰的倆個(gè)連通域以及每相鄰的三個(gè)連通域是否小于閾值, 將小于所述閾值的每一個(gè)連通域、每相鄰的倆個(gè)連通域以及每相鄰的三 個(gè)連通域判斷為候選單字符區(qū)域。在一個(gè)實(shí)施例中,所述裝置(方法)還包括以下單元(步驟)可靠 性判斷單元(步驟),對(duì)所述整體地址識(shí)別單元(步驟)所識(shí)別出的地址 的可靠性進(jìn)行判斷;其中,在所述可靠性判斷單元(步驟)判斷出所述 整體地址識(shí)別單元(步驟)所識(shí)別出的地址不可靠時(shí),由所述詞語言地 址識(shí)別單元(步驟)對(duì)所述輸入的地址圖像進(jìn)行詞語言地址識(shí)別。在一個(gè)實(shí)施例中,當(dāng)所述整體地址識(shí)別單元(步驟)所識(shí)別出的地 址的匹配距離大于預(yù)定閾值時(shí),所述可靠性判斷單元(步驟)判斷所述 整體地址識(shí)別單元(步驟)所識(shí)別出的地址不可靠。在一個(gè)實(shí)施例中,所述關(guān)鍵字缺失判斷單元(步驟)包括以下單元 (步驟)單個(gè)字符提取單元(步驟),提取所述輸入的地址圖像中的候 選單個(gè)字符;比較單元(步驟),將所提取的各候選單個(gè)字符分別與關(guān)鍵 字字符字典中的關(guān)鍵字進(jìn)行比較;關(guān)鍵字判斷單元(步驟),當(dāng)所述各候選單個(gè)字符與所述關(guān)鍵字字符字典中的所有關(guān)鍵字的匹配距離都大于特 定閾值時(shí)或雖然存在匹配距離小于特定閾值的所述候選單個(gè)字符,但未 出現(xiàn)合理的關(guān)鍵字次序時(shí),判斷所述輸入的地址圖像中關(guān)鍵字缺失。在一個(gè)實(shí)施例中,所述單個(gè)字符提取單元(步驟)包括以下單元(步 驟)連通域分割單元(步驟),從圖像中分割出連通域;候選單字符區(qū) 域判斷單元(步驟),判斷每一個(gè)連通域、每相鄰的倆個(gè)連通域以及每相 鄰的三個(gè)連通域是否為候選單字符區(qū)域;字符提取單元(步驟),針對(duì)所 確定出的候選單字符區(qū)域進(jìn)行字符提取。在一個(gè)實(shí)施例中,所述候選單字符區(qū)域判斷單元(步驟)通過判斷 每一個(gè)連通域、每相鄰的倆個(gè)連通域以及每相鄰的三個(gè)連通域的寬度是 否大于給定閾值而分別判斷所述每一個(gè)連通域、每相鄰的倆個(gè)連通域以 及每相鄰的三個(gè)連通域是否為候選單字符區(qū)域。在一個(gè)實(shí)施例中,所述整體字符識(shí)別單元(步驟)包括以下單元(步 驟)提取單元(步驟),提取所述地址區(qū)域的特征向量;匹配單元(步驟),將所提取的特征向量與地名字典中的地名的特征向量相匹配,尋找 所有可能候選地名。在一個(gè)實(shí)施例中,所述詞語言地址識(shí)別單元(步驟)包括識(shí)別候選陣列獲得單元(步驟),獲得單字符識(shí)別區(qū)域的候選單字字符組成的識(shí) 別候選陣列;匹配單元(步驟),將地址字典中的地址與所述識(shí)別候選陣 列進(jìn)行匹配,將識(shí)別距離最小的地址作為識(shí)別結(jié)果。在一個(gè)實(shí)施例中,所述匹配單元(步驟)包括地址不缺失匹配單元 (步驟),進(jìn)行地址不缺失匹配,即按隸屬關(guān)系逐級(jí)將地址字典中的地址 與所述識(shí)別候選陣列進(jìn)行匹配。在一個(gè)實(shí)施例中,所述匹配單元(步驟)還包括判斷單元(步驟),判斷所述地址不缺失匹配單元(步驟)所確定出 的地址是否可靠;地址缺失匹配單元(步驟),當(dāng)所述判斷單元(步驟) 判斷出所述地址不缺失匹配單元(步驟)所確定出的地址不可靠時(shí),進(jìn) 行地址缺失匹配,即只逐級(jí)進(jìn)行隸屬關(guān)系中的較下幾級(jí)的匹配,所述較 下幾級(jí)是指從隸屬關(guān)系中的第二級(jí)或第三級(jí)開始直至隸屬關(guān)系中最后一 級(jí);以及可靠性比較單元(步驟),將所述地址不缺失匹配單元(步驟)所確定出的結(jié)果的可靠性與所述地址缺失匹配單元(步驟)所確定出的 結(jié)果的可靠性進(jìn)行比較,將可靠性高的作為匹配結(jié)果。在一個(gè)實(shí)施例中,在所述匹配單元(步驟)中,所述第k級(jí)候選地 名這樣確定計(jì)算確定出了前k-l級(jí)地址后,地名Ti的出現(xiàn)概率,將計(jì) 算出的概率與地名圖像被識(shí)別成該地名Ti的置信度相乘,將乘積最大的 地名Ti確定為第k級(jí)候選地名,i是大于等于1的整數(shù),Ti表示第k級(jí)候 選地名的第i個(gè)候選。在一個(gè)實(shí)施例中,所述地名的置信度為地名圖像與識(shí)別出的所述地 名Ti的近似度的加權(quán);如果地名Ti中的最后一個(gè)候選識(shí)別區(qū)域被識(shí)別成 關(guān)鍵字,則將所述近似度乘以較大的權(quán)值,如果地名Ti中的最后一個(gè)候 選識(shí)別區(qū)域未被識(shí)別成關(guān)鍵字,則將所述近似度乘以較小的權(quán)值。在一個(gè)實(shí)施例中,所述詞語言地址識(shí)別單元(步驟)還包括候選字 減少單元(步驟),用于減少所述候選陣列中的候選單字字符。在一個(gè)實(shí)施例中,所述候選字減少單元(步驟)根據(jù)以下規(guī)則之一 減少候選單字字符,(1)如果候選單字字符的絕對(duì)識(shí)別距離大于第一閾 值則將其從所述候選陣列中刪除;(2)如果候選單字字符的相對(duì)識(shí)別距離大于第二閾值則將其從所述候選陣列中刪除。另外,本發(fā)明還提供了一種計(jì)算機(jī)程序,該計(jì)算機(jī)程序在被計(jì)算機(jī) 執(zhí)行時(shí),可使計(jì)算機(jī)實(shí)現(xiàn)權(quán)利要求書中獨(dú)立權(quán)利要求及從屬權(quán)利要求中 所記載的地址識(shí)別方法及其各組成單元。本發(fā)明還提供了存儲(chǔ)所述程序 的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。另外,本發(fā)明還提供了一種計(jì)算機(jī)程序,該計(jì)算機(jī)程序在被計(jì)算機(jī) 執(zhí)行時(shí),可使計(jì)算機(jī)實(shí)現(xiàn)權(quán)利要求書中獨(dú)立權(quán)利要求及從屬權(quán)利要求中 所記載的地址識(shí)別裝置及其各組成單元。本發(fā)明還提供了存儲(chǔ)該程序的 計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。另外,本發(fā)明還提供了一種計(jì)算機(jī)程序,該計(jì)算機(jī)程序在被計(jì)算機(jī) 執(zhí)行時(shí),可使計(jì)算機(jī)實(shí)現(xiàn)權(quán)利要求書中獨(dú)立權(quán)利要求及從屬權(quán)利要求中 所記載的確定字符圖像中單字符區(qū)域的方法及其各組成步驟。本發(fā)明還 提供了存儲(chǔ)該程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。另外,本發(fā)明還提供了一種計(jì)算機(jī)程序,該計(jì)算機(jī)程序在被計(jì)算機(jī) 執(zhí)行時(shí),可使計(jì)算機(jī)實(shí)現(xiàn)權(quán)利要求書中獨(dú)立權(quán)利要求及從屬權(quán)利要求中 所記載的確定字符圖像中單字符區(qū)域的裝置及其各組成單元。本發(fā)明還 提供了存儲(chǔ)該程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。另外,本發(fā)明還提供了一種計(jì)算機(jī)程序,該計(jì)算機(jī)程序在被計(jì)算機(jī) 執(zhí)行時(shí),可使計(jì)算機(jī)實(shí)現(xiàn)權(quán)利要求書中獨(dú)立權(quán)利要求及從屬權(quán)利要求中 所記載的對(duì)地址圖像中的地址進(jìn)行識(shí)別的方法及其各組成步驟。本發(fā)明 還提供了存儲(chǔ)該程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。另外,本發(fā)明還提供了一種計(jì)算機(jī)程序,該計(jì)算機(jī)程序在被計(jì)算機(jī) 執(zhí)行時(shí),可使計(jì)算機(jī)實(shí)現(xiàn)權(quán)利要求書中獨(dú)立權(quán)利要求及從屬權(quán)利要求中 所記載的對(duì)地址圖像中的地址進(jìn)行識(shí)別的裝置及其各組成單元。本發(fā)明 還提供了存儲(chǔ)該程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是硬盤、閃存、軟盤、磁盤、DVD、VCD、 CD,閃存、ROM、 RAM等本領(lǐng)域技術(shù)人員所知的所有可存儲(chǔ)計(jì) 算機(jī)可執(zhí)行指令或計(jì)算機(jī)程序的存儲(chǔ)介質(zhì)。前面對(duì)本發(fā)明實(shí)施例的描述是示例性和說明性的,并不是排他性的,也不是為了將本發(fā)明限制到所公開的確切形式。顯然,對(duì)于本領(lǐng)域的普 通技術(shù)人員,很多修改和變型是顯而易見的。選擇并說明這些實(shí)施例是 為了最好地說明本發(fā)明的原理及其實(shí)際應(yīng)用。從而使得本領(lǐng)域的其他技 術(shù)人員能夠理解用于各種實(shí)施例的本發(fā)明以及本發(fā)明適于特殊使用目的 的變型。例如本發(fā)明也可應(yīng)用于日語和韓文手寫地名的識(shí)別。此外,在 本文中使用匹配距離來判斷相似程度,但判斷相似程度也可使用匹配距 離以外的方法,例如特征向量之間的余弦夾角,特征向量之間的街區(qū)距離 等,因此本發(fā)明的匹配距離應(yīng)作廣泛的解釋,是本領(lǐng)域技術(shù)人員所能想 到的相似程度的定量表示。
權(quán)利要求
1. 一種地址識(shí)別裝置,所述裝置包括以下單元關(guān)鍵字缺失判斷單元,判斷輸入的地址圖像中關(guān)鍵字是否缺失;整體地址識(shí)別單元,在所述關(guān)鍵字缺失判斷單元判斷出所述輸入的地址圖像中關(guān)鍵字不缺失時(shí),對(duì)所述關(guān)鍵字之間的地址區(qū)域進(jìn)行整體識(shí)別;詞語言地址識(shí)別單元,在所述關(guān)鍵字缺失判斷單元判斷出所述輸入的地址圖像中關(guān)鍵字缺失時(shí),對(duì)所述輸入的地址圖像進(jìn)行詞語言地址識(shí)別;可靠性判斷單元,對(duì)所述整體地址識(shí)別單元所識(shí)別出的地址的可靠性進(jìn)行判斷;其中,在所述可靠性判斷單元判斷出所述整體地址識(shí)別單元所識(shí)別出的地址不可靠時(shí),由所述詞語言地址識(shí)別單元對(duì)所述輸入的地址圖像進(jìn)行詞語言地址識(shí)別。
2、 根據(jù)權(quán)利要求1所述的裝置,其中,當(dāng)所述整體地址識(shí)別單元所 識(shí)別出的地址的匹配距離大于預(yù)定閾值時(shí),所述可靠性判斷單元判斷所 述整體地址識(shí)別單元所識(shí)別出的地址不可靠。
3、 根據(jù)權(quán)利要求1所述的裝置,其中,所述關(guān)鍵字缺失判斷單元包 括以下單元單個(gè)字符提取單元,提取所述輸入的地址圖像中的候選單個(gè)字符; 比較單元,將所提取的各候選單個(gè)字符分別與關(guān)鍵字字符字典中的關(guān)鍵字進(jìn)行比較;以及關(guān)鍵字判斷單元,當(dāng)所述各候選單個(gè)字符與所述關(guān)鍵字字符字典中的所有關(guān)鍵字的匹配距離都大于特定閾值時(shí)或雖然存在匹配距離小于特定閾值的所述候選單個(gè)字符,但未出現(xiàn)合理的關(guān)鍵字次序時(shí),判斷所述輸入的地址圖像中關(guān)鍵字缺失。
4、 根據(jù)權(quán)利要求3所述的裝置,其中,所述單個(gè)字符提取單元包括 以下單元連通域分割單元,從圖像中分割出連通域;候選單字符區(qū)域判斷單元,判斷每一個(gè)連通域、每相鄰的倆個(gè)連通 域以及每相鄰的三個(gè)連通域是否為候選單字符區(qū)域;以及字符提取單元,針對(duì)所確定出的候選單字符區(qū)域進(jìn)行字符提取。
5、 根據(jù)權(quán)利要求4所述的裝置,其中,所述候選單字符區(qū)域判斷單 元通過判斷每一個(gè)連通域、每相鄰的倆個(gè)連通域以及每相鄰的三個(gè)連通 域的寬度是否大于給定閾值而分別判斷所述每一個(gè)連通域、每相鄰的倆 個(gè)連通域以及每相鄰的三個(gè)連通域是否為候選單字符區(qū)域。
6、 根據(jù)權(quán)利要求1所述的裝置,其中,所述整體地址識(shí)別單元包括 以下單元提取單元,提取所述地址區(qū)域的特征向量;整體匹配單元,將所提取的特征向量與地名字典中的地名的特征向 量相匹配,尋找所有可能候選地名。
7、 根據(jù)權(quán)利要求1所述的裝置,其中,所述詞語言地址識(shí)別單元包括識(shí)別候選陣列獲得單元,識(shí)別各候選單字符區(qū)域,得到識(shí)別候選陣 列;以及匹配單元,將地址字典中的地址與所述識(shí)別候選陣列進(jìn)行匹配,將 識(shí)別距離最小的地址作為識(shí)別結(jié)果。
8、 根據(jù)權(quán)利要求7所述的裝置,其中,所述匹配單元包括地址不缺 失匹配單元,進(jìn)行地址不缺失匹配,即按隸屬關(guān)系逐級(jí)將地址字典中的 地址與所述識(shí)別候選陣列進(jìn)行匹配。
9、 根據(jù)權(quán)利要求8所述的裝置,其中,所述匹配單元還包括 判斷單元,判斷所述地址不缺失匹配單元所確定出的地址是否可靠; 地址缺失匹配單元,當(dāng)所述判斷單元判斷出所述地址不缺失匹配單元所確定出的地址不可靠時(shí),進(jìn)行地址缺失匹配,即只逐級(jí)進(jìn)行隸屬關(guān) 系中的較下幾級(jí)的匹配,所述較下幾級(jí)是指從隸屬關(guān)系中的第二級(jí)或第 三級(jí)開始直至隸屬關(guān)系中最后一級(jí);以及可靠性比較單元,將所述地址不缺失匹配單元所確定出的結(jié)果的可靠性與所述地址缺失匹配單元所確定出的結(jié)果的可靠性進(jìn)行比較,將可 靠性高的作為匹配結(jié)果。
10、 根據(jù)權(quán)利要求7所述的裝置,其中,在所述匹配單元中,第k 級(jí)候選地名這樣確定計(jì)算在確定出了前k-l級(jí)地址后,地名Ti的出現(xiàn) 概率,將計(jì)算出的概率與地名圖像被識(shí)別成該地名Ti的置信度相乘,將乘積最大的地名Ti確定為第k級(jí)候選地名,i是大于等于1的整數(shù),Ti 表示第k級(jí)候選地名的第i個(gè)候選。
11、 根據(jù)權(quán)利要求10所述的裝置,所述地名的置信度為地名圖像與識(shí)別出的所述地名Ti的近似度的加權(quán);如果地名Ti中的最后一個(gè)候選識(shí)別區(qū)域被識(shí)別成關(guān)鍵字,則將所述近似度乘以較大的權(quán)值,如果地名Ti 中的最后一個(gè)候選識(shí)別區(qū)域未被識(shí)別成關(guān)鍵字,則將所述近似度乘以較 小的權(quán)值。
12、 根據(jù)權(quán)利要求7所述的裝置,其中,所述詞語言地址識(shí)別單元 還包括候選字減少單元,用于減少所述候選陣列中的候選單字字符。
13、 根據(jù)權(quán)利要求12所述的裝置,其中,所述候選字減少單元根據(jù) 以下規(guī)則之一減少候選單字字符,(1) 如果候選單字字符的絕對(duì)識(shí)別距離大于第一閾值則將其從所述 候選陣列中刪除;以及(2) 如果候選單字字符的相對(duì)識(shí)別距離大于第二閾值則將其從所述 候選陣列中刪除。
14、 一種確定字符圖像中單字字符區(qū)域的裝置,所述裝置包括以下單元連通域分割單元,對(duì)所述字符圖像進(jìn)行連通域分割; 候選單字符區(qū)域判斷單元,判斷每一個(gè)連通域、每相鄰的倆個(gè)連通 域以及每相鄰的三個(gè)連通域的寬度是否小于閾值,將小于所述閾值的每 一個(gè)連通域、每相鄰的倆個(gè)連通域以及每相鄰的三個(gè)連通域判斷為候選 單字符區(qū)域。
15、 一種對(duì)地址圖像中的地址進(jìn)行識(shí)別的裝置,所述裝置包括以下單元單字字符識(shí)別單元,識(shí)別所述地址圖像中的每一個(gè)候選單字符區(qū)域,得到字符識(shí)別候選;識(shí)別候選陣列獲得單元,獲得由所有所述候選單字符區(qū)域的字符識(shí)別候選所組成的識(shí)別候選陣列;以及匹配單元,將地址字典中的地址與所述識(shí)別候選陣列進(jìn)行匹配,將 識(shí)別距離最小的地址識(shí)別為識(shí)別結(jié)果。
16、 根據(jù)權(quán)利要求15所述的裝置,其中,所述匹配單元包括地址不 缺失匹配單元,該單元進(jìn)行地址不缺失匹配,即按隸屬關(guān)系逐級(jí)將地址 字典中的地址與所述識(shí)別候選陣列進(jìn)行匹配。
17、 根據(jù)權(quán)利要求16所述的裝置,其中,所述匹配單元還包括-判斷單元,判斷所述地址不缺失匹配單元所確定出的地址是否可靠; 地址缺失匹配單元,當(dāng)所述判斷單元判斷出所述地址不缺失匹配單元所確定出的地址不可靠時(shí),進(jìn)行地址缺失匹配,即只逐級(jí)進(jìn)行隸屬關(guān) 系中的較下幾級(jí)的匹配,所述較下幾級(jí)是指從隸屬關(guān)系中的第二級(jí)或第 三級(jí)開始直至隸屬關(guān)系中最后一級(jí),以及可靠性比較單元,將所述地址不缺失匹配單元所確定出的地址的可 靠性與所述地址缺失匹配單元所確定出的地址的可靠性進(jìn)行匹配,將可 靠性高的作為匹配結(jié)果。
18、 根據(jù)權(quán)利要求15所述的裝置,其中,在所述匹配單元中,第k 級(jí)候選地名這樣確定計(jì)算在前k-l級(jí)地址確定后,地名Tj的出現(xiàn)概率, 將計(jì)算出的概率與地名圖像被識(shí)別成該地名Ti的置信度相乘,將乘積最 大的地名Ti確定為第k級(jí)候選地名,i是大于等于l的整數(shù),Ti表示第k 級(jí)候選地名的第i個(gè)候選。
19、 根據(jù)權(quán)利要求18所述的裝置,所述地名的置信度為地名圖像與 識(shí)別出的所述地名Ti的近似度的加權(quán);如果地名Ti中的最后一個(gè)候選識(shí) 別區(qū)域被識(shí)別成關(guān)鍵字,則將所述近似度乘以較大的權(quán)值,如果地名Ti 中的最后一個(gè)候選識(shí)別區(qū)域未被識(shí)別成關(guān)鍵字,則將所述近似度乘以較 小的權(quán)值。
20、 根據(jù)權(quán)利要求15所述的裝置,其中,所述裝置還包括候選字減少單元,用于減少所述候選陣列中的候選單字字符。
21、根據(jù)權(quán)利要求20所述的裝置,其中,所述候選字減少單元根據(jù)以下規(guī)則之一減少候選單字字符,(1) 如果候選單字字符的絕對(duì)識(shí)別距離大于第一閾值則將其從所述候選陣列中刪除;以及(2) 如果候選單字字符的相對(duì)識(shí)別距離大于第二閾值則將其從所述候選陣列中刪除。
全文摘要
本發(fā)明公開了地址識(shí)別裝置。所述裝置包括以下單元關(guān)鍵字缺失判斷單元,判斷輸入的地址圖像中關(guān)鍵字是否缺失;整體地址識(shí)別單元,在所述關(guān)鍵字缺失判斷單元判斷出所述輸入的地址圖像中關(guān)鍵字不缺失時(shí),對(duì)所述關(guān)鍵字之間的地址區(qū)域進(jìn)行整體識(shí)別;詞語言地址識(shí)別單元,在所述關(guān)鍵字缺失判斷單元判斷出所述輸入的地址圖像中關(guān)鍵字缺失時(shí),對(duì)所述輸入的地址圖像進(jìn)行詞語言地址識(shí)別;可靠性判斷單元,對(duì)所述整體地址識(shí)別單元所識(shí)別出的地址的可靠性進(jìn)行判斷;其中,在所述可靠性判斷單元判斷出所述整體地址識(shí)別單元所識(shí)別出的地址不可靠時(shí),由所述詞語言地址識(shí)別單元對(duì)所述輸入的地址圖像進(jìn)行詞語言地址識(shí)別。
文檔編號(hào)G06F17/30GK101276327SQ200710091539
公開日2008年10月1日 申請(qǐng)日期2007年3月27日 優(yōu)先權(quán)日2007年3月27日
發(fā)明者堀田悅伸, 俊 孫, 麗 莊, 朱小燕, 直井聰, 藤本克仁, 黃開竹, 翀 龍 申請(qǐng)人:富士通株式會(huì)社