国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文字圖像中字符識別方法和識別裝置的制作方法

      文檔序號:6381996閱讀:227來源:國知局
      專利名稱:文字圖像中字符識別方法和識別裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及圖像處理技術(shù),尤其涉及文字圖像中字符識別方法和識別裝置。
      背景技術(shù)
      在對文本資料進行掃描后可以得到該文本資料的文字圖像;0CR (OpticalCharacter Recognition,光學(xué)字符識別)技術(shù)是對文字圖像中的字符進行識別后,轉(zhuǎn)換成計算機文字的過程;其一般包括如圖I所示的各步驟
      SlOl :獲取文字圖像后進行預(yù)處理。
      將文本資料通過光學(xué)儀器,如影像掃描儀、傳真機或任何攝影器材輸入到計算機中形成文字圖像。隨著科技的進步,掃描儀等輸入裝置已制作的愈來愈精致,輕薄短小、品質(zhì)也高,對OCR有相當(dāng)大的幫助,掃描儀的分辨率使影像更清晰、掃除速度更增進OCR處理的效率。
      一般來說,輸入的圖像格式并不唯一,對于不同的圖像格式,有著不同的存儲格式,不同的壓縮方式,這要求計算機在讀取圖像信息的時候,要對各類常見圖像格式具有較好的魯棒性。
      對文字圖像的預(yù)處理一般包括二值化、去除噪聲、斜校正處理等。
      對文字圖像進行二值化對攝像頭拍攝的圖片,大多數(shù)是彩色圖像,彩色圖像所含信息量巨大,對于圖片的內(nèi)容,我們可以簡單的分為前景與背景,為了讓計算機更快的, 更好的識別文字,我們需要先對彩色的文字圖像進行處理,使圖像只保留前景信息與背景信息,可以簡單的定義前景信息為黑色,背景信息為白色,從而生成彩色文字圖像的二值化圖。
      對文字圖像進行去除噪聲處理對于不同類型的文字圖像,我們對噪聲的定義可以不同,根據(jù)噪聲的特征進行去噪,就叫做噪聲去除。去除噪聲后的文字圖像版面更加整潔,文字輪廓邊緣更加清晰,辨識度高。
      對文字圖像進行傾斜校正處理用戶在拍照文本資料時,一般都比較隨意,因此拍照出來的文字圖像不可避免的產(chǎn)生傾斜,這就需要文字識別軟件進行較正。通??梢酝ㄟ^ Hough變換等方法來進行傾斜校正。
      S102 :對文字圖像進行版面分析。
      對經(jīng)過預(yù)處理后的文字圖像進行版面分析。將文字圖像分段落,分行的過程就叫做版面分析。
      S103 :對文字圖像進行字符切割。
      在經(jīng)過版面分析后,確定出文字圖像中的每行文字,將整行文字中的各個字符一個一個分離出來的過程就是字符切割。對于英文字母和阿拉伯?dāng)?shù)字等字符,通常采用連通域標記的方法將字符準確的切割開來。但對于漢字而言,由于漢字存在偏旁部首結(jié)構(gòu),僅僅依靠連通域標記來進行字符切割會影響識別的準確率,所以還要考慮到字符寬度等信息。
      S104 :對切割出的每個單個字符進行字符識別。
      針對上述步驟S103中切割出的每個單個字符進行識別。早期的字符識別是通過模板匹配的方式來實現(xiàn)的,后來以特征提取為主,用什么特征、怎么抽取,直接影響識別的好壞。目前常見的特征可分為兩類一為統(tǒng)計的特征,如文字區(qū)域內(nèi)的黑/白點數(shù)比,當(dāng)文字區(qū)分成好幾個區(qū)域時,這一個個區(qū)域黑/白點數(shù)比之聯(lián)合,就成了空間的一個數(shù)值向量, 在匹配時,采用基本的數(shù)學(xué)理論就可以進行判別。而另一類特征為結(jié)構(gòu)的特征,如文字影像細線化后,取得字的筆劃端點、交叉點的數(shù)量及位置,或以筆劃段為特征,配合特殊的匹配方法,進行比對。
      目前,單個字符的識別方法為對單個字符進行特征提取,將提取到的特征與模版庫中特征進行匹配,可以得到至少一個候選字,從中選取相似度最高的候選字作為該字符的識別結(jié)果輸出。
      S105 :基于識別的字符進行版面恢復(fù)。
      將識別出字符依據(jù)文字圖像中的版面進行排列,“段落不變,位置不變,順序不變” 的輸出到word文檔、或pdf文檔等,這一過程就叫做版面恢復(fù)。
      然而,本發(fā)明的發(fā)明人發(fā)現(xiàn),現(xiàn)有技術(shù)在進行字符識別時,僅采用字符形狀相似度作為判斷、識別的依據(jù),會產(chǎn)生較大的誤識率;換言之,現(xiàn)有技術(shù)的字符識別方法的準確率不高,具有提高字符識別準確率的需求。發(fā)明內(nèi)容
      本發(fā)明的實施例提供了一種文字圖像中字符識別方法和識別裝置,用以提高字符識別準確率。
      根據(jù)本發(fā)明的一個方面,提供了一種文字圖像中字符識別方法,包括
      對所述文字圖像中切割出的字符,以設(shè)定單位進行劃分;并對每個設(shè)定單位內(nèi)的字符進行識別
      對所述設(shè)定單位內(nèi)的每個字符進行特征提取和特征匹配后,確定每個字符的候選
      針對所述設(shè)定單位內(nèi)的每個字符,確定該字符的每個候選字的相似度、以及該字符的每個候選字與該字符相鄰的字符的候選字之間的轉(zhuǎn)移概率;
      根據(jù)確定出的相似度和轉(zhuǎn)移概率,確定出所述設(shè)定單位內(nèi)的字符的識別結(jié)果。
      較佳地,所述識別結(jié)果還根據(jù)所述設(shè)定單位內(nèi)的每個字符的每個候選字的出現(xiàn)概率確定。
      較佳地,所述根據(jù)確定出的相似度和轉(zhuǎn)移概率,確定出所述設(shè)定單位內(nèi)的字符的識別結(jié)果具體包括
      確定該設(shè)定單位內(nèi)的第I個字符的候選字的維特比概率為該候選字的相似度;
      從該設(shè)定單位內(nèi)的第2個字符起,對于當(dāng)前字符的每個候選字,根據(jù)該候選字的相似度、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率, 確定出所述當(dāng)前字符的每個候選字與所述在前字符的各候選字之間的維特比概率;
      在確定出當(dāng)前候選字與各在前候選字之間的維特比概率后,比較各維特比概率, 從中選擇最大的維特比概率作為當(dāng)前候選字的維特比概率;其中,所述當(dāng)前候選字為所述當(dāng)前字符的候選字之一,所述在前候選字為所述在前字符的候選字之一;
      以所述當(dāng)前候選字作為當(dāng)前節(jié)點,選擇與該當(dāng)前候選字之間的維特比概率最大的在前候選字作為與該當(dāng)前候選字相鄰的在前節(jié)點;
      確定候選路徑;其中,所述候選路徑中的每個節(jié)點為分別針對所述設(shè)定單位內(nèi)的每個字符選擇出的候選字,同一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的;
      比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結(jié)果。
      其中,所述根據(jù)該候選字的相似度、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,確定出所述當(dāng)前字符的每個候選字與所述在前字符的各候選字之間的維特比概率,具體根據(jù)如下公式5或4 :
      Pv=P2XRXP/(公式 5)
      IogPv=b X logP2+c X logR+dX IogPv 1(公式 4)
      其中,Pv為所述當(dāng)前候選字與所述在前候選字之間的維特比概率A為所述當(dāng)前候選字的出現(xiàn)概率,P2為所述在前候選字與所述當(dāng)前候選字之間的轉(zhuǎn)移概率;R為所述當(dāng)前候選字的相似度;P/為所述在前候選字的維特比概率;logPv、IogP1, IogP2, IogR, IogPv/ 分別為對Pv、P:、P2、R、P/取對數(shù)后得到的值山、c、d分別為設(shè)置的權(quán)重值。
      較佳地,所述根據(jù)確定出的相似度和轉(zhuǎn)移概率,確定出所述設(shè)定單位內(nèi)的字符的識別結(jié)果,以及所述識別結(jié)果還根據(jù)所述設(shè)定單位內(nèi)的每個字符的每個候選字的出現(xiàn)概率確定,具體包括
      對于該設(shè)定單位內(nèi)的第I個字符的候選字的維特比概率,根據(jù)該候選字的相似度、和/或該候選字的出現(xiàn)概率確定;
      從該設(shè)定單位內(nèi)的第2個字符起,對于當(dāng)前字符的每個候選字,根據(jù)該候選字的相似度、出現(xiàn)概率、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,確定出所述當(dāng)前字符的每個候選字與所述在前字符的各候選字之間的維特比概率;
      在確定出當(dāng)前候選字與各在前候選字之間的維特比概率后,比較各維特比概率, 從中選擇最大的維特比概率作為當(dāng)前候選字的維特比概率;其中,所述當(dāng)前候選字為所述當(dāng)前字符的候選字之一,所述在前候選字為所述在前字符的候選字之一;
      以所述當(dāng)前候選字作為當(dāng)前節(jié)點,選擇與該當(dāng)前候選字之間的維特比概率最大的在前候選字作為與該當(dāng)前候選字相鄰的在前節(jié)點;
      確定候選路徑;其中,所述候選路徑中的每個節(jié)點為分別針對所述設(shè)定單位內(nèi)的每個字符選擇出的候選字,同一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的;
      比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結(jié)果。
      其中,所述根據(jù)該候選字的相似度、出現(xiàn)概率、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,確定出所述當(dāng)前字符的每個候選字與所述在前字符的各候選字之間的維特比概率,具體根據(jù)如下公式1、2、或3
      Pv=P1XP2XRXPv'(公式 I)
      logPv=logP1+logP2+logR+logPv/(公式 2)
      IogPv=aX IogP^bX logP2+cX logR+dX IogPv; (公式 3)
      其中,Pv為所述當(dāng)前候選字與在所述前候選字之間的維特比概率A為所述當(dāng)前候選字的出現(xiàn)概率,P2為所述在前候選字與當(dāng)前候選字之間的轉(zhuǎn)移概率;R為所述當(dāng)前候選字的相似度;P/為所述在前候選字的維特比概率;IogPv, IogP1' IogP2' logK、IogPv/分別為對pv、Pp p2、R、p/取對數(shù)后得到的值;a、b、C、d分別為設(shè)置的權(quán)重值。
      根據(jù)本發(fā)明的另一個方面,還提供了一種文字圖像中字符識別裝置,包括
      字符單位劃分模塊,用于對所述文字圖像中切割出的字符,以設(shè)定單位進行劃分;
      候選字確定模塊,用于針對所述字符單位劃分模塊劃分出的每個設(shè)定單位,對該設(shè)定單位內(nèi)的每個字符進行特征提取和特征匹配,確定該設(shè)定單位內(nèi)的每個字符的候選字后發(fā)送單位候選字確定完畢通知;
      候選字信息確定模塊,用于針對所述候選字確定模塊確定出的所述設(shè)定單位內(nèi)的每個字符,確定該字符的每個候選字的相似度、以及該字符的每個候選字與該字符相鄰的字符的候選字之間的轉(zhuǎn)移概率;
      識別結(jié)果確定模塊,用于根據(jù)所述候選字信息確定模塊確定出的相似度和轉(zhuǎn)移概率,確定出所述設(shè)定單位內(nèi)的字符的識別結(jié)果。
      較佳地,所述候選字信息確定模塊還用于針對所述候選字確定模塊確定出的所述設(shè)定單位內(nèi)的每個字符,確定該字符的出現(xiàn)概率;以及
      所述識別結(jié)果確定模塊還根據(jù)所述候選字信息確定模塊確定的出現(xiàn)概率確定所述識別結(jié)果。
      所述識別結(jié)果確定模塊具體包括
      維特比概率確定單元,用于確定該設(shè)定單位內(nèi)的第I個字符的候選字的維特比概率為該候選字的相似度;從該設(shè)定單位內(nèi)的第2個字符起,對于當(dāng)前字符的每個候選字,根據(jù)該候選字的相似度、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,確定出所述當(dāng)前字符的每個候選字與所述在前字符的各候選字之間的維特比概率;
      所述維特比概率確定單元在確定出當(dāng)前候選字與各在前候選字之間的維特比概率后,比較各維特比概率,從中選擇最大的維特比概率作為當(dāng)前候選字的維特比概率;并以所述當(dāng)前候選字作為當(dāng)前節(jié)點,選擇與該當(dāng)前候選字之間的維特比概率最大的在前候選字作為與該當(dāng)前候選字相鄰的在前節(jié)點;其中,所述當(dāng)前候選字為所述當(dāng)前字符的候選字之一,所述在前候選字為所述在前字符的候選字之一;
      候選路徑確定單元,用于根據(jù)所述維特比概率確定單元確定出的相鄰節(jié)點確定候選路徑;其中,所述候選路徑中的每個節(jié)點為分別針對所述設(shè)定單位內(nèi)的每個字符選擇出的候選字,同一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的;
      候選路徑選擇單元,用于比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結(jié)果。
      或者,所述識別結(jié)果確定模塊具體包括
      維特比概率確定單元,用于對于該設(shè)定單位內(nèi)的第I個字符的候選字的維特比概率,根據(jù)該候選字的相似度、和/或該候選字的出現(xiàn)概率確定;從該設(shè)定單位內(nèi)的第2個字符起,對于當(dāng)前字符的每個候選字,根據(jù)該候選字的相似度、出現(xiàn)概率、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,確定出所述當(dāng)前字符的每個候選字與所述在前字符的各候選字之間的維特比概率;
      所述維特比概率確定單元在確定出當(dāng)前候選字與各在前候選字之間的維特比概率后,比較各維特比概率,從中選擇最大的維特比概率作為當(dāng)前候選字的維特比概率;并以所述當(dāng)前候選字作為當(dāng)前節(jié)點,選擇與該當(dāng)前候選字之間的維特比概率最大的在前候選字作為與該當(dāng)前候選字相鄰的在前節(jié)點;其中,所述當(dāng)前候選字為所述當(dāng)前字符的候選字之一,所述在前候選字為所述在前字符的候選字之一;
      候選路徑確定單元,用于根據(jù)所述維特比概率確定單元確定出的相鄰節(jié)點確定候選路徑;其中,所述候選路徑中的每個節(jié)點為分別針對所述設(shè)定單位內(nèi)的每個字符選擇出的候選字,同一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的;
      候選路徑選擇單元,用于比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結(jié)果。
      本發(fā)明實施例由于在進行字符識別的過程中,對于字符的多個候選字,除了依據(jù)候選字的相似度(即字形信息)外,還根據(jù)相鄰候選字之間的轉(zhuǎn)移概率(即語義信息),從多個候選字中選擇出一個作為該字符的識別結(jié)果;從而既參考了候選字與字符的相似度外, 還考慮了該候選字與在后字符之間的關(guān)聯(lián)度的因素,綜合考慮這些因素可以大大提高字符識別的準確率。
      進一步,還可參考候選字的出現(xiàn)概率來決定識別結(jié)果,更進一步保證字符識別的準確率。
      進一步,本發(fā)明中以計算維特比概率的方式來確定多條候選路徑,則是一種較佳地將字符間的關(guān)聯(lián)關(guān)系作為決定識別結(jié)果的參考的方法,更進一步保證字符識別的準確率。


      圖I為現(xiàn)有技術(shù)的文字圖像的OCR處理過程的流程圖2為本發(fā)明實施例的進行字符識別的方法流程圖3為本發(fā)明實施例的確定設(shè)定單位內(nèi)的字符的識別結(jié)果的方法流程圖4為本發(fā)明實施例的以文字行為設(shè)定單位所取字符以及每個字符的候選字的示意圖5為本發(fā)明實施例的根據(jù)確定出的相似度、轉(zhuǎn)移概率,確定設(shè)定單位內(nèi)的字符的識別結(jié)果的方法流程圖6為本發(fā)明實施例的文字圖像中字符識別裝置的內(nèi)部結(jié)構(gòu)框圖。
      具體實施方式
      為使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下參照附圖并舉出優(yōu)選實施例,對本發(fā)明進一步詳細說明。然而,需要說明的是,說明書中列出的許多細節(jié)僅僅是為了使讀者對本發(fā)明的一個或多個方面有一個透徹的理解,即便沒有這些特定的細節(jié)也可以實現(xiàn)本發(fā)明的這些方面。
      本申請使用的“模塊”、“系統(tǒng)”等術(shù)語旨在包括與計算機相關(guān)的實體,例如但不限于硬件、固件、軟硬件組合、軟件或者執(zhí)行中的軟件。例如,模塊可以是,但并不僅限于處理器上運行的進程、處理器、對象、可執(zhí)行程序、執(zhí)行的線程、程序和/或計算機。舉例來說,計算設(shè)備上運行的應(yīng)用程序和此計算設(shè)備都可以是模塊。一個或多個模塊可以位于執(zhí)行中的一個進程和/或線程內(nèi),一個模塊也可以位于一臺計算機上和/或分布于兩臺或更多臺計算機之間。
      本發(fā)明實施例的主要思路為,在進行字符識別的過程中,對于字符的多個候選字, 除了依據(jù)候選字的相似度外,還根據(jù)候選字與在后字符的候選字之間的轉(zhuǎn)移概率,從多個候選字中選擇出一個作為該字符的識別結(jié)果;從而既參考了候選字與字符的相似度外,還考慮了該候選字與在后字符之間的關(guān)聯(lián)度的因素,綜合考慮這些因素可以大大提高字符識別的準確率。例如,對于文字圖像中的一個字符“運”,確定出兩個候選字,分別為“遠”、“運”; 由于手寫輸入的原因,或者噪聲的原因,其中候選字“遠”的相似度高于“運”;如果按現(xiàn)有技術(shù)的識別方法,將判定“遠”為識別結(jié)果;而根據(jù)本發(fā)明的方法,在參考了候選字與在后字符“動”之間的轉(zhuǎn)移概率后,發(fā)現(xiàn)“運動”的概率要遠遠大于“遠動”的概率,因此,最終判定 “運”為識別結(jié)果;從而大大提高了字符識別的準確率。
      下面結(jié)合附圖詳細說明本發(fā)明實施例的技術(shù)方案。本發(fā)明實施例的技術(shù)方案中, 在獲取了文字圖像,并對文字圖像進行字符切割后,進行字符識別的方法流程,如圖2所示,包括如下步驟
      S201 :對文字圖像中切割出的字符,以設(shè)定單位進行劃分。
      輸入的文字圖像可能是包括多個段落、多個文字行的文字圖像;在本發(fā)明中,是將文字圖像中的字符以設(shè)定單位進行劃分,分批次處理;也就是說,每次處理是針對同一設(shè)定單位內(nèi)的字符進行識別。
      本領(lǐng)域技術(shù)人員可以根據(jù)實際情況來設(shè)置設(shè)定單位,例如,設(shè)置設(shè)定單位為文字行,即文字圖像中同一行的字符作為同一設(shè)定單位內(nèi)的字符;
      或者,設(shè)置設(shè)定單位為段落,即文字圖像中同一段落中的字符作為同一設(shè)定單位內(nèi)的字符;
      或者,設(shè)置設(shè)定單位為固定字符數(shù),如,設(shè)置設(shè)定單位為10個字符數(shù),即文字圖像中每10個字符劃分為同一設(shè)定單位內(nèi)的字符。
      S202 :針對每個設(shè)定單位內(nèi)的字符進行識別。
      按順序依次對每個設(shè)定單位進行處理對該設(shè)定單位中的各個字符進行識別。圖 3示出了對于一個設(shè)定單位,確定該設(shè)定單位內(nèi)的字符的識別結(jié)果的方法流程,具體包括如下步驟
      S301 :對該設(shè)定單位內(nèi)的每個字符進行特征提取和特征匹配后,確定每個字符的候選字。
      對字符進行特征提取和特征匹配,確定該字符的若干個候選字的方法可采用現(xiàn)有技術(shù)中通常所采用的方法,為本領(lǐng)域技術(shù)人員所熟知的技術(shù),此處不再贅述。
      S302 :針對該設(shè)定單位內(nèi)的每個字符,確定該字符的每個候選字的相似度,以及該字符的每個候選字與該字符相鄰的字符的候選字之間的轉(zhuǎn)移概率。
      在確定出字符的各候選字后,還可確定出每個候選字的相似度,即每個候選字與該字符的相似程度;
      在確定出字符的各候選字后,還可針對該字符的每個候選字,分別確定出該候選字與該字符相鄰的字符的候選字之間的轉(zhuǎn)移概率;為便于描述,本文中將相鄰字符的候選字稱為相鄰候選字,則上述候選字與該字符相鄰的字符的候選字之間的轉(zhuǎn)移概率,即為相鄰候選字之間的轉(zhuǎn)移概率;相鄰候選字之間的轉(zhuǎn)移概率指的是,相鄰候選字一起出現(xiàn)的概率。
      例如,如圖4所示,以文字行為設(shè)定單位取了 9個字符,序號分別為1-9 ;第1-9字符的候選字,以及每個候選字的相似度如下(相似度為括號內(nèi)的數(shù)值)
      第I字符的候選字包括中(O. 9);
      第2字符的候選字包括:國(O. 8)、團(O. 6);
      第3字符的候選字包括運(O. 9);
      第4字符的候選字包括動(O. 8)、勁(O. 8);
      第5字符的候選字包括員(O. 8)
      第6字符的候選字包括成(O. 8)
      第7字符的候選字包括績(O. 9)
      第8字符的候選字包括喜(O. 9)
      第9字符的候選字包括人(O. 9)、入(O. 9)。
      每個候選字與相鄰的在前字符的候選字之間的轉(zhuǎn)移概率,即相鄰候選字之間的轉(zhuǎn)移概率,取對數(shù)后,如下所示
      中國-0.5644877 ;中團_5· 6734289 ;國運_2· 864447 ;團運_3· 303452 ;運動-0. 7526801 ;運勁-3. 527933 ;動員-1. 370795 ;勁元-2. 221847 ;員成-2. 667307 ; 成績-1. 386276 ;績喜-2. 938662 ;喜人-1. 630958 ;喜入-3. 583296。
      可以看出,候選字“國”,與其相鄰的在前字符的候選字“中”之間的轉(zhuǎn)移概率取對數(shù)后為-O. 5644877 ;候選字“團”,與其相鄰的在前字符的候選字“中”之間的轉(zhuǎn)移概率取對數(shù)后為-5. 6734289 ;則“中”與“國”之間的轉(zhuǎn)移概率要大于“中”與“團”之間的轉(zhuǎn)移概率, 這意味著“中國” 一起出現(xiàn)的概率要大于“中團”。
      S303 :根據(jù)確定出的相似度和轉(zhuǎn)移概率,確定出所述設(shè)定單位內(nèi)的字符的識別結(jié)果O
      在本步驟中,更優(yōu)地,還可根據(jù)確定出的所述設(shè)定單位內(nèi)的每個字符的每個候選字的出現(xiàn)概率確定出所述設(shè)定單位內(nèi)的字符的識別結(jié)果;候選字的出現(xiàn)概率指的是統(tǒng)計出的該候選字被使用的概率。
      即根據(jù)確定出的相似度,以及轉(zhuǎn)移概率,確定出所述設(shè)定單位內(nèi)的字符的識別結(jié)果;具體方法流程如圖5所示,包括如下步驟
      S501 :計算該設(shè)定單位內(nèi)的每個字符的每個候選字的維特比概率;
      該設(shè)定單位內(nèi)的第I個字符的候選字的維特比概率可以如下方法確定
      以該候選字的出現(xiàn)概率作為該候選字的維特比概率;
      或者,以該候選字的相似度作為該候選字的維特比概率;
      或者,根據(jù)該候選字的相似度和出現(xiàn)概率作為該候選字的維特比概率,比如,以該候選字的相似度與該候選字的出現(xiàn)概率的乘積作為該候選字的維特比概率。
      從該設(shè)定單位內(nèi)的第2個字符起,對于當(dāng)前字符的每個候選字,根據(jù)該候選字的相似度、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率, 分別確定出當(dāng)前字符的每個候選字,與在前字符的各候選字之間的維特比概率;當(dāng)前字符的相鄰字符可以包括在后字符和在前字符,在計算當(dāng)前字符的候選字與相鄰字符的候選字之間的維特比概率時,可以是計算當(dāng)前字符的候選字與在前字符的候選字之間的維特比概率,也可以是計算當(dāng)前字符的候選字與在后字符的候選字之間的維特比概率;
      本發(fā)明實施例以計算當(dāng)前字符的候選字與在前字符的候選字之間的維特比概率為例進行詳細的方案說明
      從該設(shè)定單位內(nèi)的第2個字符起,對于當(dāng)前字符的每個候選字,根據(jù)該候選字的相似度、出現(xiàn)概率、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,分別確定出當(dāng)前字符的每個候選字,與在前字符的各候選字之間的維特比概率具體可以根據(jù)如下公式I、或公式2、或公式3計算
      Pv=P1XP2XRXP/(公式 I)
      公式I中,Pv為當(dāng)前候選字與在前候選字之間的維特比概率,其中,當(dāng)前候選字為當(dāng)前字符的候選字之一,在前候選字為在前字符的候選字之一 T1為當(dāng)前候選字的出現(xiàn)概率,P2為在前候選字與當(dāng)前候選字之間的轉(zhuǎn)移概率;R為當(dāng)前候選字的相似度;P/為在前候選字的維特比概率。
      logPv=logP1+logP2+logR+logPv/(公式 2)
      公式2 中,IogPvUogPp logP2、logR、logP/ 分別為對 Pv、P” P2、R、Pv'取對數(shù)后得到的值;
      IogPv=aX IogP^b X logP2+c X logR+dX IogPv;(公式 3)
      公式3中,a、b、c、d分別為設(shè)置的權(quán)重值,本領(lǐng)域技術(shù)人員可以根據(jù)實際情況進行設(shè)置;事實上,若設(shè)置a=0,則上述公式3實際如公式4所示
      IogPv=b X logP2+c X logR+dX IogPv 1 (公式 4)
      從公式4可以看出,可以僅根據(jù)當(dāng)前候選字的相似度、以及該當(dāng)前候選字與在前候選字之間的轉(zhuǎn)移概率,確定當(dāng)前候選字與在前候選字之間的維特比概率,也就是說,根據(jù)公式4計算出的當(dāng)前候選字與在前候選字之間的維特比概率,沒有考慮當(dāng)前候選字的出現(xiàn)概率。
      若設(shè)置公式4中的b=l、c=l、d=l,則公式4即可用公式5表達
      Pv=P2XRXP/(公式 5)
      也就是說,從該設(shè)定單位內(nèi)的第2個字符起,對于當(dāng)前字符的每個候選字,根據(jù)該候選字的相似度、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,分別確定出當(dāng)前字符的每個候選字,與在前字符的各候選字之間的維特比概率具體可以根據(jù)如上公式4或5確定。
      在確定當(dāng)前候選字與各在前候選字之間的維特比概率后,比較各維特比概率,從中選擇最大的維特比概率作為當(dāng)前候選字的維特比概率;并以當(dāng)前候選字作為當(dāng)前節(jié)點, 選擇與當(dāng)前候選字之間的維特比概率最大的在前候選字作為與該當(dāng)前候選字相鄰的在前節(jié)點。
      S502 :根據(jù)計算的各候選字的維特比概率,確定候選路徑;
      根據(jù)確定出的每個候選字的在前節(jié)點,確定出若干條候選路徑;其中,候選路徑中的每個節(jié)點為分別針對所述設(shè)定單位內(nèi)的每個字符選擇出的候選字,同一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的。
      例如,圖4中所示的各字符的各候選字,根據(jù)上述方法可以確定出兩條候選路徑, 分別為
      候選路徑一人-喜-績-成-員-動-運-國-中;
      候選路徑二 入-喜-績-成-員-動-運-國-中。
      S503 :選擇一條候選路徑作為識別結(jié)果。
      本步驟中,比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結(jié)果。
      例如,對于上述的候選路徑一和候選路徑二,由于候選路徑一的最后節(jié)點“人”的維特比概率,大于候選路徑二的最后節(jié)點“入”的維特比概率,因此,最終判定識別結(jié)果為候選路徑一,從而得到圖4中的序號分別為1-9的字符的識別結(jié)果為中國運動員成績喜人。
      由此選擇出的候選路徑綜合考慮了字形信息(相似度)和語義信息(轉(zhuǎn)移概率),綜合結(jié)果為最大值,相比于僅考慮字形信息(相似度)的現(xiàn)有技術(shù)具有更高的準確率。
      本發(fā)明實施例提供的一種文字圖像中字符識別裝置,如圖6所示,包括字符單位劃分模塊601、候選字確定模塊602、候選字信息確定模塊603、識別結(jié)果確定模塊604。
      字符單位劃分模塊601用于對所述文字圖像中切割出的字符,以設(shè)定單位進行劃分;
      候選字確定模塊602用于針對字符單位劃分模塊601劃分出的每個設(shè)定單位,對該設(shè)定單位內(nèi)的每個字符進行特征提取和特征匹配后,確定該設(shè)定單位內(nèi)的每個字符的候選字;候選字確定模塊602在確定出一個設(shè)定單位內(nèi)的每個字符的候選字后,向候選字信息確定模塊603發(fā)送通知;
      候選字信息確定模塊603在接收到候選字確定模塊602發(fā)送的通知后,用于針對候選字確定模塊602確定出的所述設(shè)定單位內(nèi)的每個字符,確定該字符的每個候選字的相似度、以及該字符的每個候選字與該字符相鄰的字符的候選字之間的轉(zhuǎn)移概率;之后,候選字信息確定模塊603向識別結(jié)果確定模塊604發(fā)送通知;
      識別結(jié)果確定模塊604在接收到候選字信息確定模塊603發(fā)送的通知后,用于根據(jù)候選字信息確定模塊603確定出的相似度和轉(zhuǎn)移概率,確定出所述設(shè)定單位內(nèi)的字符的識別結(jié)果。
      識別結(jié)果確定模塊604具體可以包括維特比概率確定單元611、候選路徑確定單元612、候選路徑選擇單元613。
      維特比概率確定單元611用于確定該設(shè)定單位內(nèi)的第I個字符的候選字的維特比概率為該候選字的相似度;從該設(shè)定單位內(nèi)的第2個字符起,對于當(dāng)前字符的每個候選字, 根據(jù)該候選字的相似度、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,確定出所述當(dāng)前字符的每個候選字,與所述在前字符的各候選字之間的維特比概率;具體地,可以根據(jù)上述公式5或4確定出所述當(dāng)前字符的每個候選字,與所述在前字符的各候選字之間的維特比概率。
      維特比概率確定單元611在確定出當(dāng)前候選字與各在前候選字之間的維特比概率后,比較各維特比概率,從中選擇最大的維特比概率作為當(dāng)前候選字的維特比概率;并以所述當(dāng)前候選字作為當(dāng)前節(jié)點,選擇與該當(dāng)前候選字之間的維特比概率最大的在前候選字作為與該當(dāng)前候選字相鄰的在前節(jié)點;其中,所述當(dāng)前候選字為所述當(dāng)前字符的候選字之一,所述在前候選字為所述在前字符的候選字之一;
      候選路徑確定單元612用于根據(jù)維特比概率確定單元611確定出的相鄰節(jié)點確定候選路徑;其中,所述候選路徑中的每個節(jié)點為分別針對所述設(shè)定單位內(nèi)的每個字符選擇出的候選字,同一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的;
      候選路徑選擇單元613用于根據(jù)候選路徑確定單元612確定出的候選路徑,比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結(jié)果。
      進一步,候選字信息確定模塊603還可用于針對候選字確定模塊602確定出的所述設(shè)定單位內(nèi)的每個字符,確定該字符的出現(xiàn)概率;以及
      識別結(jié)果確定模塊604還可根據(jù)候選字信息確定模塊603確定的出現(xiàn)概率確定所述識別結(jié)果;
      由此相應(yīng)地,識別結(jié)果確定模塊604中的維特比概率確定單元611具體用于對于該設(shè)定單位內(nèi)的第I個字符的候選字的維特比概率,根據(jù)該候選字的相似度、和/或該候選字的出現(xiàn)概率確定;從該設(shè)定單位內(nèi)的第2個字符起,對于當(dāng)前字符的每個候選字,根據(jù)該候選字的相似度、出現(xiàn)概率、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,確定出所述當(dāng)前字符的每個候選字,與所述在前字符的各候選字之間的維特比概率;維特比概率確定單元611具體可以根據(jù)上述公式1、2、或3確定出所述當(dāng)前字符的每個候選字,與所述在前字符的各候選字之間的維特比概率。
      維特比概率確定單元611在確定出當(dāng)前候選字與各在前候選字之間的維特比概率后,比較各維特比概率,從中選擇最大的維特比概率作為當(dāng)前候選字的維特比概率;并以所述當(dāng)前候選字作為當(dāng)前節(jié)點,選擇與該當(dāng)前候選字之間的維特比概率最大的在前候選字作為與該當(dāng)前候選字相鄰的在前節(jié)點;其中,所述當(dāng)前候選字為所述當(dāng)前字符的候選字之一,所述在前候選字為所述在前字符的候選字之一。
      本發(fā)明實施例由于在進行字符識別的過程中,對于字符的多個候選字,除了依據(jù)候選字的相似度(即字形信息)外,還根據(jù)相鄰候選字之間的轉(zhuǎn)移概率(即語義信息),從多個候選字中選擇出一個作為該字符的識別結(jié)果;從而既參考了候選字與字符的相似度外, 還考慮了該候選字與在后字符之間的關(guān)聯(lián)度的因素,綜合考慮這些因素可以大大提高字符識別的準確率。
      進一步,還可參考候選字的出現(xiàn)概率來決定識別結(jié)果,更進一步保證字符識別的準確率。
      進一步,本發(fā)明中以計算維特比概率的方式來確定多條候選路徑,則是一種較佳地將字符間的關(guān)聯(lián)關(guān)系作為決定識別結(jié)果的參考的方法,更進一步保證字符識別的準確率。
      本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機可讀取存儲介質(zhì)中,如ROM/RAM、磁碟、光盤等。
      以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。
      權(quán)利要求
      1.一種文字圖像中字符識別方法,包括 對所述文字圖像中切割出的字符,以設(shè)定單位進行劃分;并對每個設(shè)定單位內(nèi)的字符進行識別 對所述設(shè)定單位內(nèi)的每個字符進行特征提取和特征匹配后,確定每個字符的候選字;針對所述設(shè)定單位內(nèi)的每個字符,確定該字符的每個候選字的相似度、以及該字符的每個候選字與該字符相鄰的字符的候選字之間的轉(zhuǎn)移概率; 根據(jù)確定出的相似度和轉(zhuǎn)移概率,確定出所述設(shè)定單位內(nèi)的字符的識別結(jié)果。
      2.如權(quán)利要求I所述的方法,其特征在于,所述識別結(jié)果還根據(jù)所述設(shè)定單位內(nèi)的每個字符的每個候選字的出現(xiàn)概率確定。
      3.如權(quán)利要求I所述的方法,其特征在于,所述根據(jù)確定出的相似度和轉(zhuǎn)移概率,確定出所述設(shè)定單位內(nèi)的字符的識別結(jié)果具體包括 確定該設(shè)定單位內(nèi)的第I個字符的候選字的維特比概率為該候選字的相似度; 從該設(shè)定單位內(nèi)的第2個字符起,對于當(dāng)前字符的每個候選字,根據(jù)該候選字的相似度、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,確定出所述當(dāng)前字符的每個候選字與所述在前字符的各候選字之間的維特比概率; 在確定出當(dāng)前候選字與各在前候選字之間的維特比概率后,比較各維特比概率,從中選擇最大的維特比概率作為當(dāng)前候選字的維特比概率;其中,所述當(dāng)前候選字為所述當(dāng)前字符的候選字之一,所述在前候選字為所述在前字符的候選字之一; 以所述當(dāng)前候選字作為當(dāng)前節(jié)點,選擇與該當(dāng)前候選字之間的維特比概率最大的在前候選字作為與該當(dāng)前候選字相鄰的在前節(jié)點; 確定候選路徑;其中,所述候選路徑中的每個節(jié)點為分別針對所述設(shè)定單位內(nèi)的每個字符選擇出的候選字,同一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的;比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結(jié)果。
      4.如權(quán)利要求3所述的方法,其特征在于,所述根據(jù)該候選字的相似度、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,確定出所述當(dāng)前字符的每個候選字與所述在前字符的各候選字之間的維特比概率,具體根據(jù)如下公式5或4 : Pv=P2XRXP/(公式 5)logPv=b X logP2+c X logR+dX IogPv'(公式 4) 其中,Pv為所述當(dāng)前候選字與所述在前候選字之間的維特比概率為所述當(dāng)前候選字的出現(xiàn)概率,P2為所述在前候選字與所述當(dāng)前候選字之間的轉(zhuǎn)移概率;R為所述當(dāng)前候選字的相似度;P/為所述在前候選字的維特比概率;logPv、IogP1, IogP2, IogR, IogPv/分別為對Pv、取對數(shù)后得到的值;b、c、d分別為設(shè)置的權(quán)重值。
      5.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)確定出的相似度和轉(zhuǎn)移概率,確定出所述設(shè)定單位內(nèi)的字符的識別結(jié)果,以及所述識別結(jié)果還根據(jù)所述設(shè)定單位內(nèi)的每個字符的每個候選字的出現(xiàn)概率確定,具體包括 對于該設(shè)定單位內(nèi)的第I個字符的候選字的維特比概率,根據(jù)該候選字的相似度、和/或該候選字的出現(xiàn)概率確定; 從該設(shè)定單位內(nèi)的第2個字符起,對于當(dāng)前字符的每個候選字,根據(jù)該候選字的相似度、出現(xiàn)概率、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,確定出所述當(dāng)前字符的每個候選字與所述在前字符的各候選字之間的維特比概率;在確定出當(dāng)前候選字與各在前候選字之間的維特比概率后,比較各維特比概率,從中選擇最大的維特比概率作為當(dāng)前候選字的維特比概率;其中,所述當(dāng)前候選字為所述當(dāng)前字符的候選字之一,所述在前候選字為所述在前字符的候選字之一; 以所述當(dāng)前候選字作為當(dāng)前節(jié)點,選擇與該當(dāng)前候選字之間的維特比概率最大的在前候選字作為與該當(dāng)前候選字相鄰的在前節(jié)點; 確定候選路徑;其中,所述候選路徑中的每個節(jié)點為分別針對所述設(shè)定單位內(nèi)的每個字符選擇出的候選字,同一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的;比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結(jié)果。
      6.如權(quán)利要求5所述的方法,其特征在于,所述根據(jù)該候選字的相似度、出現(xiàn)概率、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,確定出所述當(dāng)前字符的每個候選字與所述在前字符的各候選字之間的維特比概率,具體根據(jù)如下公式1、2、或 3 Pv=P1XP2XRXP/(公式 I) logPv=logP1+logP2+logR+logPv'(公式 2)logPv=aX IogPfb X logP2+c X logR+dX IogPv 1 (公式 3) 其中,Pv為所述當(dāng)前候選字與在所述前候選字之間的維特比概率為所述當(dāng)前候選字的出現(xiàn)概率,P2為所述在前候選字與當(dāng)前候選字之間的轉(zhuǎn)移概率;R為所述當(dāng)前候選字的相似度;P/為所述在前候選字的維特比概率;logPv、IogP1, IogP2, IogR, IogPv/分別為對取對數(shù)后得到的值;a、b、c、d分別為設(shè)置的權(quán)重值。
      7.一種文字圖像中字符識別裝置,其特征在于,包括 字符單位劃分模塊,用于對所述文字圖像中切割出的字符,以設(shè)定單位進行劃分;候選字確定模塊,用于針對所述字符單位劃分模塊劃分出的每個設(shè)定單位,對該設(shè)定單位內(nèi)的每個字符進行特征提取和特征匹配后,確定該設(shè)定單位內(nèi)的每個字符的候選字;候選字信息確定模塊,用于針對所述候選字確定模塊確定出的所述設(shè)定單位內(nèi)的每個字符,確定該字符的每個候選字的相似度、以及該字符的每個候選字與該字符相鄰的字符的候選字之間的轉(zhuǎn)移概率; 識別結(jié)果確定模塊,用于根據(jù)所述候選字信息確定模塊確定出的相似度和轉(zhuǎn)移概率,確定出所述設(shè)定單位內(nèi)的字符的識別結(jié)果。
      8.如權(quán)利要求7所述的裝置,其特征在于, 所述候選字信息確定模塊還用于針對所述候選字確定模塊確定出的所述設(shè)定單位內(nèi)的每個字符,確定該字符的出現(xiàn)概率;以及 所述識別結(jié)果確定模塊還根據(jù)所述候選字信息確定模塊確定的出現(xiàn)概率確定所述識別結(jié)果。
      9.如權(quán)利要求8所述的裝置,其特征在于,所述識別結(jié)果確定模塊具體包括 維特比概率確定單元,用于確定該設(shè)定單位內(nèi)的第I個字符的候選字的維特比概率為該候選字的相似度;從該設(shè)定單位內(nèi)的第2個字符起,對于當(dāng)前字符的每個候選字,根據(jù)該候選字的相似度、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,確定出所述當(dāng)前字符的每個候選字與所述在前字符的各候選字之間的維特比概率; 所述維特比概率確定單元在確定出當(dāng)前候選字與各在前候選字之間的維特比概率后,比較各維特比概率,從中選擇最大的維特比概率作為當(dāng)前候選字的維特比概率;并以所述當(dāng)前候選字作為當(dāng)前節(jié)點,選擇與該當(dāng)前候選字之間的維特比概率最大的在前候選字作為與該當(dāng)前候選字相鄰的在前節(jié)點;其中,所述當(dāng)前候選字為所述當(dāng)前字符的候選字之一,所述在前候選字為所述在前字符的候選字之一; 候選路徑確定單元,用于根據(jù)所述維特比概率確定單元確定出的相鄰節(jié)點確定候選路徑;其中,所述候選路徑中的每個節(jié)點為分別針對所述設(shè)定單位內(nèi)的每個字符選擇出的候選字,同一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的; 候選路徑選擇單元,用于比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結(jié)果。
      10.如權(quán)利要求8所述的裝置,其特征在于,所述識別結(jié)果確定模塊具體包括 維特比概率確定單元,用于對于該設(shè)定單位內(nèi)的第I個字符的候選字的維特比概率,根據(jù)該候選字的相似度、和/或該候選字的出現(xiàn)概率確定;從該設(shè)定單位內(nèi)的第2個字符起,對于當(dāng)前字符的每個候選字,根據(jù)該候選字的相似度、出現(xiàn)概率、以及該候選字與該當(dāng)前字符相鄰的字符中的在前字符的候選字之間的轉(zhuǎn)移概率,確定出所述當(dāng)前字符的每個候選字與所述在前字符的各候選字之間的維特比概率; 所述維特比概率確定單元在確定出當(dāng)前候選字與各在前候選字之間的維特比概率后,比較各維特比概率,從中選擇最大的維特比概率作為當(dāng)前候選字的維特比概率;并以所述當(dāng)前候選字作為當(dāng)前節(jié)點,選擇與該當(dāng)前候選字之間的維特比概率最大的在前候選字作為與該當(dāng)前候選字相鄰的在前節(jié)點;其中,所述當(dāng)前候選字為所述當(dāng)前字符的候選字之一,所述在前候選字為所述在前字符的候選字之一; 候選路徑確定單元,用于根據(jù)所述維特比概率確定單元確定出的相鄰節(jié)點確定候選路徑;其中,所述候選路徑中的每個節(jié)點為分別針對所述設(shè)定單位內(nèi)的每個字符選擇出的候選字,同一候選路徑中的相鄰節(jié)點是根據(jù)每個候選字的在前節(jié)點確定的; 候選路徑選擇單元,用于比較各候選路徑的最后節(jié)點的維特比概率,以最后節(jié)點的維特比概率最大的候選路徑作為所述識別結(jié)果。
      全文摘要
      本發(fā)明公開了一種文字圖像中字符識別方法和識別裝置,所述方法包括對文字圖像中切割出的字符,以設(shè)定單位進行劃分;對所述設(shè)定單位內(nèi)的每個字符進行特征提取和特征匹配后,確定每個字符的候選字;針對所述設(shè)定單位內(nèi)的每個字符,確定該字符的每個候選字的相似度、以及該字符的每個候選字與該字符相鄰的字符的候選字之間的轉(zhuǎn)移概率;根據(jù)確定出的相似度和轉(zhuǎn)移概率,確定出所述設(shè)定單位內(nèi)的字符的識別結(jié)果。由于在進行字符識別的過程中,對于字符的多個候選字,除了依據(jù)候選字的相似度(即字形信息)外,還根據(jù)相鄰候選字之間的轉(zhuǎn)移概率(即語義信息),從多個候選字中選擇出一個作為該字符的識別結(jié)果;從而大大提高字符識別的準確率。
      文檔編號G06K9/20GK102982330SQ201210477638
      公開日2013年3月20日 申請日期2012年11月21日 優(yōu)先權(quán)日2012年11月21日
      發(fā)明者郝雙 申請人:新浪網(wǎng)技術(shù)(中國)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1