国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      梵文天城體印刷字符拉丁轉(zhuǎn)寫圖像識(shí)別方法與流程

      文檔序號(hào):12468630閱讀:2902來源:國知局
      梵文天城體印刷字符拉丁轉(zhuǎn)寫圖像識(shí)別方法與流程

      本發(fā)明屬于計(jì)算機(jī)文字圖像識(shí)別領(lǐng)域,具體涉及一種梵文天城體無噪聲印刷字符拉丁轉(zhuǎn)寫圖像識(shí)別方法。



      背景技術(shù):

      梵文不僅是一種優(yōu)美的語言,而且更具有細(xì)密完整的變位系統(tǒng),這已經(jīng)引起了現(xiàn)代科學(xué)家的極大興趣。正是因?yàn)殍笪木哂型晟频恼Z法規(guī)則,很適合用計(jì)算機(jī)來處理。利用現(xiàn)在計(jì)算機(jī)技術(shù)帶來的便利,可以促進(jìn)我們對(duì)梵文文獻(xiàn)的學(xué)習(xí)利用,加速佛經(jīng)的梵漢對(duì)比研究。作為梵文佛典計(jì)算機(jī)識(shí)別研究的第一步需要實(shí)現(xiàn)對(duì)佛典文本的數(shù)字化和自動(dòng)化識(shí)別,解決信息處理系統(tǒng)中手動(dòng)輸入效率低這一關(guān)鍵問題,可以節(jié)省大量的識(shí)別轉(zhuǎn)寫人力工作,這是文獻(xiàn)數(shù)字化過程中極為耗時(shí)的過程。

      隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展,計(jì)算機(jī)文字識(shí)別不斷取得新的進(jìn)展,極大提高了人類處理文字信息的能力。文字識(shí)別包括數(shù)字字符識(shí)別、文字字符識(shí)別,由于數(shù)字字符識(shí)別和英文字符識(shí)別難度相對(duì)不大,目前已經(jīng)研究得比較充分,識(shí)別率也比較高。然而梵文字符由于其文字結(jié)構(gòu)的復(fù)雜性,字符識(shí)別比較困難,因此梵文字符的圖像識(shí)別研究相對(duì)較少。由于梵文字符的復(fù)雜性不易進(jìn)行后續(xù)研究,通常需要將其轉(zhuǎn)換為拉丁字符,方便后續(xù)的分詞和釋義,因而實(shí)現(xiàn)從梵文字符圖像到拉丁字符的直接轉(zhuǎn)換能夠大大提高梵文文獻(xiàn)的處理效率,能夠很大程度加速翻譯進(jìn)程,具有重要的意義。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明提供了一種梵文天城體無噪聲印刷字符拉丁轉(zhuǎn)寫圖像識(shí)別方法,實(shí)現(xiàn)了從梵文天城體無噪聲印刷字符圖像到對(duì)應(yīng)拉丁字符的直接轉(zhuǎn)換,正確率高,能夠顯著提高梵文文獻(xiàn)的處理效率。

      一種梵文天城體無噪聲印刷字符拉丁轉(zhuǎn)寫圖像識(shí)別方法,包括如下步驟:

      (1)對(duì)包含梵文天城體印刷字符的字符圖片進(jìn)行掃描,基于字符塊間垂直最大空白空間進(jìn)行梵文天城體印刷字符塊分割,得到若干梵文天城體印刷字符塊;

      (2)對(duì)得到的梵文天城體印刷字符塊進(jìn)行識(shí)別,得到梵文天城體印刷字符塊對(duì)應(yīng)的特征向量;

      (3)將得到的特征向量與標(biāo)準(zhǔn)拉丁字符的特征向量進(jìn)行對(duì)比,根據(jù)對(duì)比結(jié)果,將識(shí)別的梵文天城體印刷字符塊轉(zhuǎn)為拉丁字符。

      作為優(yōu)選,步驟(1)中,對(duì)所述字符圖片進(jìn)行梵文天城體印刷字符塊分割的方法為:

      (1-1)對(duì)所述字符圖片進(jìn)行掃描后,識(shí)別出當(dāng)前梵文天城體印刷字符對(duì)應(yīng)的文字區(qū)域以及與文字區(qū)域相連的空白區(qū)域;

      (1-2)同時(shí)識(shí)別出該梵文天城體印刷字符的連接符;

      (1-3)利用在垂直于連接符的方向上最大空白區(qū)域?qū)Φ玫降奈淖謪^(qū)域進(jìn)行分割,分割出所述梵文天城體印刷字符塊。

      本發(fā)明中,對(duì)于文字區(qū)域和空白區(qū)域的識(shí)別,可通過讀取像素點(diǎn)的像素值確定;常見的字符圖片為黑白字符圖片,可直接進(jìn)行識(shí)別,像素值(灰度值)高于某一特定值的可判定為文字區(qū)域內(nèi)的像素點(diǎn),對(duì)于低于某一特定值的可判定為空白區(qū)域的像素點(diǎn)。對(duì)于彩色的字符圖片,我們可以對(duì)圖片進(jìn)行預(yù)處理,將圖片進(jìn)行灰度化和二值化等,轉(zhuǎn)化為計(jì)算機(jī)容易識(shí)別的圖樣,以加快計(jì)算速度和效率。

      一般情況下,梵文天城體印刷字符的連接符為水平的橫線結(jié)構(gòu)。

      相鄰兩個(gè)梵文天城體印刷字符塊的分割位置在字符塊間垂直方向字符空白最大的地方,本發(fā)明得到的字符塊有完全分開的字符塊和連接在一起的字符塊。完全分開的字符塊有Anusvāra符號(hào)、Visarga符號(hào)、Avagraha符號(hào)、元音上標(biāo)符號(hào)等,連接在一起的字符塊有疊加輔音字符群、垂直方向有重疊的字符群等。

      兩個(gè)相鄰梵文天城體印刷字符塊之間的分界線位于所述最大空白區(qū)域處。這里說到的最大空白區(qū)域,一般是指在垂直于連接符的方向長空白區(qū)域的總的高度值。該高度值一般與連接符所在的位置,以及梵文天城體印刷字符的行寬度有關(guān),一般為連接符距離該行寬邊界之間的距離。

      作為優(yōu)選,步驟(1-3)中,對(duì)文字區(qū)域進(jìn)行分割時(shí),分別對(duì)連接符兩側(cè)的文字區(qū)域進(jìn)行分割。即,對(duì)其中一側(cè)的文字區(qū)域獨(dú)立的進(jìn)行分割。

      作為優(yōu)選,步驟(2)中,利用九宮格或田字格的方法對(duì)梵文天城體印刷字符塊進(jìn)行識(shí)別。

      作為進(jìn)一步優(yōu)選,步驟(2)中,以梵文天城體頂部為上,對(duì)于位于連接符下方的梵文天城體印刷字符塊采用九宮格方法進(jìn)行識(shí)別,對(duì)于位于連接符上方的梵文天城體印刷字符塊采用田字格方法進(jìn)行識(shí)別。

      所述的九宮格編碼為對(duì)字符塊縱橫各分為等長度的三部分,田字格編碼為對(duì)字符塊縱橫各分為等長度的兩部分。所述的九宮格編碼為對(duì)等分的九部分進(jìn)行像素統(tǒng)計(jì)形成九維特征向量,田字格編碼為對(duì)等分的四部分進(jìn)行像素統(tǒng)計(jì)形成四維維特征向量。即作為優(yōu)選,利用所述九宮格方法進(jìn)行識(shí)別的過程為:利用三組橫線和三組豎線,將梵文天城體印刷字符塊均為九份,求取每份的像素值,歸一化,得到梵文天城體印刷字符塊的九維特征向量。作為優(yōu)選,利用所述田字格方法進(jìn)行識(shí)別的過程為:利用兩組橫線和兩組豎線,將梵文天城體印刷字符塊均為四份,求取每份的像素值,歸一化,得到梵文天城體印刷字符塊的四維特征向量。

      作為優(yōu)選,步驟(3)中,采用最小方差匹配法進(jìn)行對(duì)比,即具有最小方差結(jié)果的標(biāo)準(zhǔn)拉丁字符即為當(dāng)前梵文天城體印刷字符對(duì)應(yīng)的拉丁字符。

      作為優(yōu)選,步驟(3)中,所述的拉丁字符轉(zhuǎn)換基于字符塊特征向量與對(duì)應(yīng)拉丁字符集的特征向量進(jìn)行比對(duì),利用最小差異匹配完成拉丁字符識(shí)別轉(zhuǎn)換,即:

      其中xn為九維特征向量或者四維特征向量中的某一特征向量值,x0n為標(biāo)準(zhǔn)拉丁字符集的九維特征向量或者四維特征向量的某一特征向量值。

      作為優(yōu)選,所述標(biāo)準(zhǔn)拉丁字符的特征向量是由已知的梵文天城體印刷字符計(jì)算得到。

      本發(fā)明相對(duì)于現(xiàn)有梵文字符圖像識(shí)別方法具有如下優(yōu)點(diǎn):

      (1)本發(fā)明實(shí)現(xiàn)了從梵文天城體無噪聲印刷字符圖像到對(duì)應(yīng)拉丁字符的直接轉(zhuǎn)換,且準(zhǔn)確度高,基本達(dá)到100%正確率。

      (2)本發(fā)明所用的圖像識(shí)別算法方便易行,效率高。

      (3)本發(fā)明提供的技術(shù)方案易于實(shí)現(xiàn),適用于實(shí)際文獻(xiàn)研究應(yīng)用。

      附圖說明

      圖1為本發(fā)明的基于圖像識(shí)別的梵文天城體-拉丁字符轉(zhuǎn)換方法的流程圖;

      圖2為實(shí)施例1中待識(shí)別的梵文印刷字符圖片;

      圖3為實(shí)施例2中待識(shí)別的梵文印刷字符圖片;

      圖4為實(shí)施例3中待識(shí)別的梵文印刷字符圖片。

      具體實(shí)施方式

      下面結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。

      參考圖1,圖2:一種基于圖像識(shí)別的梵文天城體-拉丁字符轉(zhuǎn)換方法,包括如下步驟:

      (1)基于字符塊間垂直最大空白空間進(jìn)行梵文天城體印刷字符塊分割,具體為:

      (1-1)對(duì)印刷有待轉(zhuǎn)化的梵文天城體印刷字符的梵文印刷字符圖片進(jìn)行掃描,識(shí)別梵文天城體印刷字符對(duì)應(yīng)的文字區(qū)域以及與文字區(qū)域相連的空白區(qū)域;

      該步驟可以采用逐行掃描的方式進(jìn)行掃描;其中的識(shí)別過程可以通過對(duì)比每個(gè)像素點(diǎn)的像素值大小或者灰度值大小進(jìn)行識(shí)別;為便于像素點(diǎn)的識(shí)別,對(duì)于彩色梵文天城體印刷字符的梵文天城體印刷字符圖片,可以先進(jìn)行灰度化和二值化等預(yù)處理,得到對(duì)應(yīng)的灰度圖像,對(duì)于灰度值為0的區(qū)域可定義為空白區(qū)域(圖2中白色對(duì)應(yīng)的區(qū)域),對(duì)于灰度值為255的點(diǎn)可以定義為文字區(qū)域(圖2中黑色對(duì)應(yīng)的部分);

      (1-2)同時(shí)識(shí)別出該梵文天城體印刷字符的水平連接符,其中水平連接符為橫向水平設(shè)置的橫線段結(jié)構(gòu),可通過像素值大小識(shí)別水平連接符的位置、寬度和長度;

      我們?cè)趻呙韬妥R(shí)別時(shí),可設(shè)定水平連接符的方向?yàn)閤軸方向(或水平方向),垂直于連接符的方向可設(shè)定為y軸方向(或者垂直方向);

      (1-3)對(duì)得到的文字區(qū)域進(jìn)行分割,分割出一個(gè)或多個(gè)梵文天城體印刷字符塊,分割方法為:

      對(duì)于連接符上面和下面的文字區(qū)域和空白區(qū)域分別進(jìn)行判斷;比如,先對(duì)連接符下面提取的那些在y軸方向上尺寸最長(一般可根據(jù)連接符的位置以及每行梵文天城體印刷字符的掃描寬度或者行寬度進(jìn)行確定,最長值一般為連接符距離相鄰行之間的寬度值)的空白區(qū)域,被這些空白區(qū)域分割的文字區(qū)域部分所在的圖像區(qū)域構(gòu)成一個(gè)或多個(gè)梵文天城體印刷字符塊;對(duì)于其中一個(gè)梵文天城體字符塊,其為底邊(位于連接符上方的梵文天城體字符塊)或者頂邊(位于連接符下方的梵文天城體字符塊)與連接符位置重合的矩形字符塊,該矩形在x軸方向的寬度為該梵文天城體字符塊內(nèi)文字區(qū)域上所有像素點(diǎn)相距最遠(yuǎn)的兩個(gè)像素點(diǎn)的x坐標(biāo)的差值,在y軸方向的高度為該梵文天城體字符塊內(nèi)文字區(qū)域上所有像素點(diǎn)相距最遠(yuǎn)的兩個(gè)像素點(diǎn)的y坐標(biāo)的差值;

      (2)基于九宮格或者田字格方法對(duì)梵文天城體印刷字符塊進(jìn)行識(shí)別:對(duì)于位于連接符上方(y軸方向)的梵文天城體印刷字符塊采用田字格方法進(jìn)行識(shí)別,對(duì)于位于連接符下方(y軸方向)的梵文天城體印刷字符塊采用九宮格方法進(jìn)行識(shí)別,具體為:

      (i)利用九宮格方法對(duì)梵文天城體印刷字符塊進(jìn)行編碼,即對(duì)梵文天城體印刷字符塊縱橫各分為等長度的三部分,對(duì)等分的九部分進(jìn)行像素值統(tǒng)計(jì),然后歸一化,得到該梵文天城體印刷字符塊的九維特征向量;參考圖1所示;

      (ii)同樣,對(duì)較小塊的梵文天城體印刷字符塊基于田字格方法對(duì)字符塊進(jìn)行編碼,即對(duì)梵文天城體印刷字符塊縱橫各分為等長度的兩部分,對(duì)等分的四部分進(jìn)行像素值統(tǒng)計(jì),然后歸一化,得到字符塊的四維特征向量。

      (3)將得到的九維特征向量或者四維特征向量與已知的標(biāo)準(zhǔn)拉丁字符集的特征向量(通過已知的梵文天城體印刷字符計(jì)算得到)進(jìn)行比對(duì),利用向量之間最小方差匹配完成拉丁字符識(shí)別轉(zhuǎn)換,即:

      其中xn為九維特征向量或者四維特征向量中的某一特征向量值,x0n為標(biāo)準(zhǔn)拉丁字符集的九維特征向量或者四維特征向量的某一特征向量值;

      為進(jìn)一步驗(yàn)證本發(fā)明的可性能,下面利用上述方法對(duì)實(shí)際的梵文印刷字符圖片進(jìn)行實(shí)際識(shí)別,詳見實(shí)施例1~3:

      實(shí)施例1

      如圖2所示的梵文天城體印刷字符圖片,通過上述梵文天城體印刷字符塊分割方法分割得到6個(gè)梵文天城體印刷字符塊,通過九宮格方法和田字格方法進(jìn)行編碼,求取像素值和歸一化處理,分別計(jì)算方法得到各個(gè)字符塊的九維特征向量,如下表1所示:

      表1

      其中,字符向量編號(hào)方式,采用圖1中的編號(hào)方式進(jìn)行標(biāo)號(hào);梵文天城體印刷字符塊1~6以及連接符7分別如圖2所示;其中梵文天城體印刷字符塊1~5采用九宮格方法,梵文天城體印刷字符塊6采用田字格方法。字符向量x的編號(hào)方式是:九宮格是從左到右,從下到上,田字格是從左到右,從上到下。

      通過最小方差匹配得到識(shí)別后的拉丁字符識(shí)別轉(zhuǎn)換:識(shí)別正確率100%。

      實(shí)施例2

      如圖3所示梵文印刷字符圖片,按照上述方法,通過字符塊分割得到11個(gè)字符塊(按照?qǐng)D2的標(biāo)注方式,從連接符下方開始,自左到右分別是梵文天城體印刷字符塊1~8,然后連接符上方開始,自左到右為梵文天城體印刷字符塊9~11),通過九宮格或者田字格計(jì)算方法得到各個(gè)字符塊的九維特征向量,如下表2所示:

      表2

      通過最小方差匹配得到識(shí)別后的拉丁字符識(shí)別轉(zhuǎn)換:識(shí)別正確率100%。

      實(shí)施例3

      如圖4所示梵文印刷字符圖片,通過字符塊分割得到14個(gè)字符塊(編號(hào)同實(shí)施例2),通過九宮格和田字格計(jì)算方法得到各個(gè)字符塊的九維特征向量,如下表3所示:

      表3

      通過最小方差匹配得到識(shí)別后的拉丁字符識(shí)別轉(zhuǎn)換:karhicit,識(shí)別正確率100%。

      由實(shí)施例1~3的驗(yàn)證結(jié)果可知,采用本發(fā)明的轉(zhuǎn)換方法,精度高,正確率均為100%,具有較強(qiáng)的實(shí)用性。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1