專利名稱:一種提取視頻文本信息的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像及信息技術(shù)領(lǐng)域,具體涉及提取視頻文本信息的方法及裝置。 現(xiàn)有的提取視頻文本信息的方案中,通常具有對(duì)某一類文本的處理能力,但無法做到對(duì)大量不同風(fēng)格的視頻文本都進(jìn)行處理。而對(duì)于不同風(fēng)格的視頻文本難以在統(tǒng)一的流程中進(jìn)行處理。 現(xiàn)有技術(shù)中,平方差累計(jì)值是視頻文本跟蹤中常用的 一 種算法(在
IEEETransactions on Image Processing, Vol. 9, No. 1, Pages 147 — 56,2000, 〃 AutomaticText Detection and Tracking in Digital Video"中進(jìn)行了描述),
但該算法不區(qū)分文本區(qū)域內(nèi)的字符和背景,當(dāng)背景發(fā)生變化時(shí),平方差累計(jì)值就明顯增加,容易造成誤判。 目前,解決中英文混排情況下的字符分割有兩種思路 —)統(tǒng)一的識(shí)別引擎。將中、英文字符的樣本放在一起訓(xùn)練0CR引擎(在The
Proceedings of the Seventh International Conference on DocumentAnalysis and
Recognition, 2003,〃 Improving Chinese/English OCR Performanceby Using MCE-basedCharacter-pair Modeling and Negative Traning〃中進(jìn)行了描述),在識(shí)別環(huán)節(jié)解決中英
文混排的問題。由于字符分割時(shí)中文字符的偏旁可能被識(shí)別成英文字符,相鄰的英文字符的組合或者中文字符的偏旁和英文字符的組合可能被識(shí)別成中文字符,這就對(duì)OCR引擎訓(xùn)練樣本覆蓋的范圍和分類策略帶來很大挑戰(zhàn)。 二)中英文區(qū)域分離。根據(jù)字符的幾何特征對(duì)字符串中的中文區(qū)域和英文區(qū)域進(jìn)
行劃分,中文區(qū)域使用中文OCR引擎進(jìn)行識(shí)別,英文區(qū)域使用英文OCR引擎進(jìn)行識(shí)別,最后
將兩組識(shí)別結(jié)果進(jìn)行合并,得到最終的識(shí)別結(jié)果(在"軟件學(xué)報(bào)",Vol 16, No 5,2005,"中
英文混合文章識(shí)別問題"中進(jìn)行了描述)。在很多情況下,中英文字符之間差別并不顯著,
區(qū)域分離時(shí)難以做出正確的判斷結(jié)果,而一旦判斷錯(cuò)誤就得不到正確的識(shí)別結(jié)果。 現(xiàn)有技術(shù)中,在分類器融合中進(jìn)行的置信度校正通常是在相同樣本集下進(jìn)行,這
有利于專門分類器設(shè)計(jì),因?yàn)橄嗤臉颖炯峁┝艘粋€(gè)天然的統(tǒng)一的標(biāo)準(zhǔn),但對(duì)于有分類
器融合需求的使用者來說,不同的樣本集之間無法建立一個(gè)統(tǒng)一的識(shí)別置信度標(biāo)準(zhǔn)。 業(yè)內(nèi)對(duì)視頻文本信息提取的研究方向集中在文本的定位、分割、增強(qiáng)和識(shí)別等環(huán)
節(jié),力圖從視頻中提取全面、準(zhǔn)確的文本信息,但是,在實(shí)際應(yīng)用中,不加區(qū)分的文本信息難
以使用。 鑒于現(xiàn)有技術(shù)中存在的上述不足和缺陷,要求提供更好的解決方案。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供一種提取視頻文本信息的方法及裝置,可從不同類型的視
頻中提取文本信息。
背景技術(shù):
4
本發(fā)明實(shí)施例提供的一種提取視頻文本信息的方法,包括
確定視頻圖像中文本塊的位置; 按照中文字符特征對(duì)所述文本塊圖像進(jìn)行分割和字符識(shí)別,得到中文字符串;
根據(jù)所述文本塊圖像中連通域的幾何特征及位置信息確定英文區(qū)域,對(duì)所述英文區(qū)域進(jìn)行分割和字符識(shí)別,得到英文字符串; 分別計(jì)算所得到的中文字符、英文字符的識(shí)別置信度,并對(duì)識(shí)別置信度進(jìn)行校正; 基于校正后的字符識(shí)別置信度及中文字符與英文字符之間的位置關(guān)系將所述中
文字符串和英文字符串進(jìn)行合并,得到文本信息。 更適宜地,該方法還包括 監(jiān)測(cè)并跟蹤連續(xù)視頻圖像幀中的文本塊,根據(jù)相鄰視頻圖像幀中文本塊的位置關(guān)系和圖像內(nèi)容判斷是否為同一文本塊; 當(dāng)所述文本塊消失時(shí),確定該文本塊的位置,并對(duì)該文本塊進(jìn)行后續(xù)的分割和字符識(shí)別。 更適宜地,該方法還包括 在對(duì)文本塊進(jìn)行分割和字符識(shí)別之前,對(duì)所述文本塊所在區(qū)域圖像進(jìn)行預(yù)處理。
本發(fā)明實(shí)施例還提供一種提取視頻文本信息的裝置,包括
位置確定單元,用于確定視頻圖像中文本塊的位置; 第一處理單元,按照中文字符特征對(duì)所述文本塊進(jìn)行分割和字符識(shí)別,得到中文字符串; 第二處理單元,根據(jù)所述文本塊中連通域的幾何特征及位置信息確定英文區(qū)域,對(duì)所述英文區(qū)域進(jìn)行分割和字符識(shí)別,得到英文字符串; 計(jì)算單元,用于分別計(jì)算所得到的中文字符、英文字符的識(shí)別置信度,并對(duì)識(shí)別置信度進(jìn)行校正; 合并單元,用于基于校正后的字符識(shí)別置信度及中文字符與英文字符之間的位置
關(guān)系將所述中文字符串和中文字符串進(jìn)行合并,得到文本信息。 更適宜地,該裝置還包括 監(jiān)測(cè)跟蹤單元,用于監(jiān)測(cè)并跟蹤連續(xù)視頻圖像幀中的文本塊; 判斷單元,用于根據(jù)所述監(jiān)測(cè)跟蹤單元提供的相鄰視頻圖像幀中文本塊的位置信息和圖像內(nèi)容判斷是否為同一文本塊; 若所述視頻圖像幀中為不同文本塊,所述判斷單元確定該不同文本塊的區(qū)域,則
所述第一處理單元和第二處理單元分別對(duì)該不同文本塊進(jìn)行分割和字符識(shí)別。 綜上所述,本發(fā)明提供的一種提取視頻文本信息的方法及裝置,通過確定視頻圖
像中文本塊的位置;再分別按照中文、英文字符特征對(duì)文本塊圖像進(jìn)行分割和字符識(shí)別,得
到中文及英文字符串;并對(duì)識(shí)別置信度進(jìn)行校正;基于校正后的字符識(shí)別置信度及中文字
符與英文字符之間的位置關(guān)系將中文字符串和英文字符串進(jìn)行合并,得到文本信息。根據(jù)
本發(fā)明,可對(duì)視頻圖像中的中英文混排的文本進(jìn)行字符分割識(shí)別,可以解決不同風(fēng)格的視
頻文本難以在統(tǒng)一的流程中進(jìn)行處理的問題,可對(duì)視頻中不同類型的文本信息進(jìn)行組織、
分類。該架構(gòu)既可以有效處理各種不同類型的視頻,也可以方便進(jìn)行定制、修改、擴(kuò)充。
綱柳徹
圖1是本發(fā)明實(shí)施例提供的提取視頻文本信息的方法流程圖;
圖2是本發(fā)明實(shí)施例提供的對(duì)文本塊進(jìn)行定位的流程圖; 圖3是本發(fā)明實(shí)施例提供的對(duì)文本塊圖像進(jìn)行字符串分割和識(shí)別的流程圖;
圖4是本發(fā)明實(shí)施例提供的對(duì)中、英文字符的識(shí)別置信度進(jìn)行校正的示意圖;
圖5是本發(fā)明實(shí)施例提供的從視頻圖像中提取中英文數(shù)字混排文本的示意圖;
圖6是本發(fā)明實(shí)施例提供的具有多種類型文本的視頻圖像示意圖;
圖7是本發(fā)明實(shí)施例提供的版面分析流程圖; 圖8是本發(fā)明實(shí)施例提供的提取視頻文本信息的裝置架構(gòu)示意圖。
具體實(shí)施例方式
鑒于現(xiàn)有技術(shù)中的不足和缺陷,本發(fā)明提出了一種從視頻圖像中提取文本信息的
方法,可更加有效在中英文混排情況下進(jìn)行字符分割識(shí)別,可以解決不同風(fēng)格的視頻文本
難以在統(tǒng)一的流程中進(jìn)行處理的問題,可對(duì)視頻中不同類型的文本信息進(jìn)行組織、分類。該
架構(gòu)既可以有效處理各種不同類型的視頻,也可以方便進(jìn)行定制、修改、擴(kuò)充。 本發(fā)明提出的中英文混排情況下的字符分割方法,對(duì)中、英文字符OCR引擎進(jìn)行
識(shí)別置信度校正,使兩個(gè)引擎的識(shí)別置信度具有可比性,然后對(duì)字符串進(jìn)行中文字符的分
割和識(shí)別,再根據(jù)字符特征從字符串中找到候選英文區(qū)域,進(jìn)行英文字符的分割和識(shí)別,兩
種字符的識(shí)別結(jié)果中有補(bǔ)充或者重疊的部分,通過字符的位置和識(shí)別置信度做出取舍。這
樣既避免了訓(xùn)練復(fù)雜的OCR引擎,又使分割結(jié)果不嚴(yán)重依賴區(qū)域分離的判斷,保證了效率
和穩(wěn)定性。 本發(fā)明提供的技術(shù)方案中,可在不同樣本集上進(jìn)行分類器識(shí)別置信度校正的方 法。根據(jù)實(shí)際情況,從統(tǒng)計(jì)的角度出發(fā),提出了一種在不同樣本集上校正置信度的有效方 法。 另外,利用字符特征進(jìn)行版面分析。本發(fā)明從系統(tǒng)和應(yīng)用的角度出發(fā),提出了一種 收集字符特征進(jìn)行版面分析的方法,系統(tǒng)輸出結(jié)構(gòu)化的文本信息,便于后期處理。
為使本發(fā)明的原理、特性和優(yōu)點(diǎn),下面詳細(xì)描述本發(fā)明的具體實(shí)現(xiàn)方案。
實(shí)施例一 參照?qǐng)Dl,本發(fā)明實(shí)施例提供的一種提取視頻結(jié)構(gòu)化文本信息的方法,包括如下步 驟 S101,確定文本塊在視頻圖像中的位置; 如圖2,首先對(duì)文本塊進(jìn)行定位預(yù)處理、粗定位、投影切分和篩選。具體如下
(1)預(yù)處理包括計(jì)算筆畫響應(yīng)(在The Proceedings of the IEEEInternational Conference on Image Processing, October.2006, 〃 Stroke Filter forText Localization in Video Images"中進(jìn)行了描述)和顏色聚類,顏色聚類采用K均值方 法(在The Proceedings of the Eighteenth International Conference onMachine Learning, 2001, 〃 Constrained K_means Clustering with BachgroundKnowledge 〃中進(jìn) 行了描述),前者根據(jù)字符筆畫均勻的特點(diǎn)來突出字符,后者根據(jù)字符的顏色特征來突出字 符,根據(jù)配置項(xiàng)選擇其中一種處理流程。
通過計(jì)算筆畫響應(yīng)可以增強(qiáng)文本,抑制背景。計(jì)算筆畫響應(yīng)的步驟根據(jù)配置文件 確定筆畫響應(yīng)的間距;計(jì)算筆畫響應(yīng);二值化,并對(duì)得到的二值圖像進(jìn)行膨脹操作,以連接 一些斷開的筆畫。 [OO53] (2)粗定位 根據(jù)字符排列密集的特點(diǎn)來檢測(cè)文本區(qū)域,得到其大致位置。投影切分將檢測(cè)到 的多行文本拆分成單行文本,得到文本區(qū)域較為精確的邊界,便于后續(xù)分割。在驗(yàn)證環(huán)節(jié)提 取文本區(qū)域的特征,篩選虛警。 在二值圖像上,首先通過粗定位得到文本區(qū)域的大致位置,然后在區(qū)域內(nèi)部進(jìn)行 精確定位。粗定位步驟連通域標(biāo)定;確定文本區(qū)域,根據(jù)真實(shí)文本塊的幾何約束,如尺 寸、排列位置等,對(duì)文本區(qū)域在水平或者豎直方向上的進(jìn)行合并(在The Proceedings of International Conference on MachineVision. Dec,2007,〃 A Robust System for Text Extraction in Video"中進(jìn)行了描述)。 [OO56] (3)投影切分 視頻圖像中經(jīng)常出現(xiàn)多行文本,在粗檢測(cè)時(shí)多行文本經(jīng)常會(huì)被檢測(cè)成一個(gè)文本 塊。后續(xù)分割環(huán)節(jié)要求文本區(qū)域是單行文本,在此需要將潛在的多行文本切分成多個(gè)單行 文本。以連通域?yàn)閱挝?,采用投影切分的方?在PatternRecognition,Volume 36,Issue 10, Pages 2287-2299,2003, 〃 Character location inscene images from digital camera"中進(jìn)行了描述),有效解決多行文本的粘連以及在某些情況下文本與其周圍背景 的粘連,確保切分后的候選區(qū)域是單行文本。 [OO58] (4)篩選 首先,上述處理得到的候選文本塊中存在虛警,需要進(jìn)行驗(yàn)證根據(jù)文本區(qū)域的幾 何特征進(jìn)行驗(yàn)證,根據(jù)筆畫響應(yīng)進(jìn)行驗(yàn)證,根據(jù)梯度變化特征進(jìn)行驗(yàn)證。驗(yàn)證環(huán)節(jié)能夠篩選 掉定位結(jié)果中大部分虛警,在跟蹤和分割環(huán)節(jié)仍會(huì)根據(jù)當(dāng)前獲得的信息篩選虛警。
步驟S102,根據(jù)相鄰視頻圖像幀中文本塊的位置關(guān)系和圖像內(nèi)容判斷是否為同一 文本塊; 當(dāng)所述視頻圖像幀中被跟蹤的文本塊消失時(shí),如文本塊不再延續(xù)或者被替換,確 定該文本塊,并對(duì)該文本塊進(jìn)行后續(xù)的分割和字符識(shí)別。 在文本塊定位過程中,由于在視頻圖像中,文本塊通常會(huì)持續(xù)一段時(shí)間,因此同一 文本塊在連續(xù)數(shù)幀甚至數(shù)百幀圖像上都會(huì)被定位到。如果對(duì)每次定位結(jié)果都進(jìn)行分割、識(shí) 別,會(huì)浪費(fèi)大量的處理時(shí)間。采用跟蹤的方法,對(duì)同一文本塊在出現(xiàn)到消失的時(shí)間段內(nèi)只進(jìn) 行一次分割、識(shí)別,從而避免重復(fù)處理。并且,文本塊的起止時(shí)間和消失方式都是版面分析 環(huán)節(jié)的重要依據(jù)。因此需要對(duì)文本塊進(jìn)行跟蹤。 跟蹤環(huán)節(jié)包括位置判斷、時(shí)序判斷和維護(hù)數(shù)組三部分。位置判斷和時(shí)序判斷分別 從位置是否重疊和內(nèi)容是否延續(xù)兩方面分析定位結(jié)果,在維護(hù)跟蹤數(shù)組環(huán)節(jié)根據(jù)處理邏 輯,給出獨(dú)立文本塊。具體如下
I)位置判斷 同一文本塊在前后幀圖像上出現(xiàn)的位置固定不變,定位時(shí)得到的文本塊位置相互 重疊,而不同的文本塊在前后幀圖像上出現(xiàn)的位置不同,不會(huì)發(fā)生重疊,因此,位置重疊是 判斷前后幀上定位得到的兩個(gè)文本塊是否為同一文本塊的必要條件。位置關(guān)系有四種獨(dú)
7立、欠重疊、重疊和包含,根據(jù)兩個(gè)文本塊重疊區(qū)域的面積在文本塊中所占的比重做出判 斷。如果是獨(dú)立或者欠重疊,則說明在位置上沒有關(guān)系,判斷為不同的文本塊;如果是重疊 或者包含,則說明可能來自同一個(gè)文本塊,需要做進(jìn)一步判斷。根據(jù)前后幀上文本塊的位 置,確定需要跟蹤的文本塊的邊界。
II)時(shí)序判斷 時(shí)序判斷是從圖像內(nèi)容上判斷相鄰幀上定位到的兩個(gè)文本塊是否來自同一個(gè)文 本。時(shí)序關(guān)系有四種a)保持,前后兩幀圖像中的文本沒有發(fā)生變化;b)替換,前一幀圖像 中的文本被后一幀圖像中的新文本替換,文本內(nèi)容不同;c)消失,前一幀圖像中的文本消 失;d)虛警,前一幀圖像中定位得到的文本區(qū)域是噪聲。 在文本位置固定的情況下,前后幀灰度圖像的平方差累計(jì)值是判斷文本內(nèi)容是否
發(fā)生變化的一個(gè)有效標(biāo)準(zhǔn)。如果不區(qū)分文本區(qū)域內(nèi)部字符筆畫和背景的像素點(diǎn),計(jì)算整個(gè)
區(qū)域的平方差累計(jì)值,則判斷結(jié)果容易受到背景變化的影響而不穩(wěn)定,本文只比較那些筆
畫響應(yīng)值較大的像素點(diǎn),這些點(diǎn)都位于字符筆畫上,使該算法更加穩(wěn)定。根據(jù)兩個(gè)文本塊之
間的灰度差異和筆畫響應(yīng)差異進(jìn)行時(shí)序判斷。 III)維護(hù)跟蹤數(shù)組 為了跟蹤視頻中出現(xiàn)的文本塊,需要維護(hù)一個(gè)跟蹤數(shù)組。具體地,對(duì)當(dāng)前幀上新出 現(xiàn)的文本塊,將其定位結(jié)果添加進(jìn)數(shù)組;對(duì)持續(xù)出現(xiàn)的文本塊,在數(shù)組中保持該元素;對(duì)消 失的文本塊,確定該文本塊的起止時(shí)間和消失方式,在其起止時(shí)間中找出質(zhì)量最好的一幅 圖像,提交給分割環(huán)節(jié),然后從數(shù)組中刪除該元素。 維護(hù)跟蹤數(shù)組的另一個(gè)任務(wù)是從文本塊持續(xù)出現(xiàn)的多幀圖像中,挑選出質(zhì)量最好 的一幀,提交給分割環(huán)節(jié),這樣有助于降低分割環(huán)節(jié)的難度,提高最終的識(shí)別正確率。
步驟S103,獲取文本塊圖像并對(duì)該圖像進(jìn)行預(yù)處理; 參照?qǐng)D3,在進(jìn)行分割識(shí)別之前,當(dāng)視頻圖像為彩色圖像,需對(duì)文本塊圖像進(jìn)行預(yù) 處理,將所述視頻圖像轉(zhuǎn)化灰度圖像;再分別對(duì)中文、英文字符進(jìn)行分割識(shí)別,然后將得到 的中文、英文字符串合并得到文本信息。對(duì)于灰度圖像則不需進(jìn)行預(yù)處理,可直接對(duì)中文、 英文字符進(jìn)行分割識(shí)別。 對(duì)文本塊圖像進(jìn)行二值化處理,分離圖像中的字符和背景,以確定字符邊界;
對(duì)生成的二值圖像要進(jìn)行連通域分析,以獲得字符筆畫的位置和尺寸信息。
預(yù)處理包括轉(zhuǎn)化灰度圖像、二值化和連通域分析。在定位環(huán)節(jié)得到的候選文本區(qū) 域圖像是彩色圖像,而在二值化和字符識(shí)別時(shí)使用的是灰度圖像,因此需要轉(zhuǎn)換,具體包 括 i)提取亮度分量; ii)提取彩色圖像的某一個(gè)顏色通道(R、G和B),在該顏色通道上字符和背景之間 的強(qiáng)度對(duì)比最明顯; iii)轉(zhuǎn)換顏色空間,改變不同顏色之間的距離度量方式(在The Proceedingof International Conference on Document Analysis and Recognition,2005,〃 Colortext extraction from camera—based images :the impact of the choice of theclustering distance"中進(jìn)行了描述),得到字符和背景之間強(qiáng)度對(duì)比明顯的灰度圖像;
iv)顏色增強(qiáng)。分別指定字符和背景的一種或幾種代表顏色,采用K均值的方法對(duì)彩色圖像上的像素點(diǎn)進(jìn)行聚類,同時(shí)提取像素點(diǎn)的亮度分量作為灰度圖像,在灰度圖像上 增強(qiáng)字符像素,抑制背景像素,增加字符和背景之間的強(qiáng)度對(duì)比。 在實(shí)際應(yīng)用中,應(yīng)根據(jù)視頻圖像的特點(diǎn),尤其是字符和背景之間的顏色對(duì)比關(guān)系, 配置恰當(dāng)?shù)霓D(zhuǎn)換方法,改善后續(xù)二值化處理的效果。 二值化用于分離圖像中的字符和背景,為確定字符邊界奠定基礎(chǔ)。二值化算法是 OCR領(lǐng)域中一個(gè)重要的被廣泛研究的方向,目前已提出多種算法,例如
全局二值化算法0stu(在IEEE Transaction on System Man Cybe潔t, Vol9, Pages 62-66,1979, 〃 A threshold selection method from gray-scale histogram" 中進(jìn)行了描述),Kittler(在Pattern Recognition, Vol. 19, Issue 1, Pages 41-47, 1986, 〃 Minimum Error Thresholding"中進(jìn)行了描述)。 局部二值化算法Niblack(在An Introduction to Digital Image Processing, Prentice Hal 1, 1986中進(jìn)行了描述)、Sauvola(在Pattern Recognition, Vol. 33, Issue 2,Pages 225-236,2000,〃 Adaptive document image binarization〃禾口TheProceedings of SPIE,2008, 〃 Efficient Implementation of Local AdaptiveThresholding Techniques Using Integral Images"中進(jìn)行了描述)。
在應(yīng)用中需要根據(jù)待處理視頻圖像質(zhì)量情況,選用不同的算法。
對(duì)生成的二值圖像要進(jìn)行連通域分析,以獲得字符筆畫的位置和尺寸信息。連 通域分析包括三部分內(nèi)容連通域標(biāo)定、篩選和合并。連通域標(biāo)定是為了反映二值圖像 中像素點(diǎn)之間的連通關(guān)系(在Computer Vision and ImageUnderstanding, Vol 89, Issue 1, Pages 1_23,2003, 〃 Linear-timeco皿ected-component labeling based on sequential local operations"中進(jìn)行了描述)。經(jīng)過標(biāo)定后,能夠得到二值圖像中每 一個(gè)連通區(qū)域的位置、尺寸和像素點(diǎn)個(gè)數(shù)等信息。在連通域篩選中,設(shè)計(jì)規(guī)則,去掉那些 在位置、尺寸、形狀、占空比等特征上不合理的連通域,為后續(xù)處理減少干擾奠定基礎(chǔ)。由 于漢字字符一般是由多個(gè)分散的筆畫構(gòu)成,如果不對(duì)其連通域進(jìn)行合理的合并(在IEEE Transaction On Pattern Analysis And Mechine Itelligence,Vol. 24,No. ll,November, 2002, 〃 Lexicon-Driven S egmentation and Recognition ofHandwritten Character Strings for Japanese Address Reading"中進(jìn)行了描述),就會(huì)會(huì)影響分割點(diǎn)的選取。
步驟S104,按照中文字符特征對(duì)文本塊圖像進(jìn)行分割和字符識(shí)別,得到中文字符 串; 中文字符分割的流程包括確定分割點(diǎn)、預(yù)分割、字符識(shí)別和字符串過濾四部分。
根據(jù)實(shí)際情況,確定分割點(diǎn)的策略有 A.字符的連通域特征(在IEEE Transactions On Pattern Analysis AndMachine Intelligence, Vol. 18, No. 7, July 1996, 〃 A Survey of Methods andStrategies in Character Segmentation"中進(jìn)行了描述)。在簡(jiǎn)單、理想的情況下,字符之間有一定間隔, 字符筆畫不會(huì)粘連,結(jié)合連通域分析的結(jié)果和配置項(xiàng)中字符的高度和寬度,能夠準(zhǔn)確確定 分割點(diǎn)。 B.字符區(qū)域灰度圖像的豎直投影。在一些節(jié)目中,字符間距較小,相鄰字符的筆畫 容易發(fā)生粘連,不宜使用連通域分析,而應(yīng)該以字符區(qū)域灰度圖像的豎直投影中的局部極 小值點(diǎn)為基礎(chǔ),結(jié)合配置項(xiàng)中對(duì)字符寬度的約束,確定分割點(diǎn)。
9
C.背景輪廓模型(在Pattern Recognition, Vol 32, Pages 921-933, 1999, 〃 ABackground Thinning Based Approach for Seperating and RecognizingCo騰cted Handwriting Digit Strings"中進(jìn)行了描述)。對(duì)于相鄰字符筆 畫粘連更為緊密的情況,需要根據(jù)背景像素點(diǎn)的豎直投影,判斷筆畫粘連的發(fā)生的位置和 粘連寬度,結(jié)合配置項(xiàng)中對(duì)字符寬度的約束,確定分割點(diǎn)。 D.接觸點(diǎn)模型(在IEEE Transaction On Pattern Analysis And Mechineltelligence, Vol. 24, No. 11,November,2002, 〃 Lexicon-Driven Segmentation andRecognition of Handwritten Character Strings for Japanese Address Reading" 中進(jìn)行了描述)根據(jù)筆畫粘連時(shí)連通域的外部輪廓的形狀特征能夠確定一些分割點(diǎn)。
在實(shí)際應(yīng)用中,應(yīng)根據(jù)字符特征選擇恰當(dāng)?shù)姆指畈呗?,或者將不同策略組合起來, 相互補(bǔ)充,全面、準(zhǔn)確的確定分割點(diǎn)。 預(yù)分割時(shí),根據(jù)分割點(diǎn)確定候選字符的邊界。如果字符寬度固定,直接使用配置項(xiàng) 中的字符寬度作為約束,從分割點(diǎn)中確定候選字符邊界;如果字符寬度隨著排版情況在一 定范圍內(nèi)變化,需要采用直方圖統(tǒng)計(jì)的方法并結(jié)合字符寬度的變化范圍估計(jì)出當(dāng)前情況下 的字符寬度,再以該估計(jì)值作為約束,從分割點(diǎn)中確定候選字符邊界(在發(fā)明名稱為"字符 提取方法和裝置"申請(qǐng)?zhí)枮?00810246654. 7的申請(qǐng)文件中進(jìn)行了描述)。
在字符識(shí)別時(shí),根據(jù)候選字符的位置,從圖像中截取單個(gè)字符的圖像進(jìn)行識(shí)別。 字符識(shí)別采用清華文通的0CR引擎,以當(dāng)前圖像的最優(yōu)識(shí)別結(jié)果為最終識(shí)別結(jié)果,并根 據(jù)返回的候選識(shí)別結(jié)果個(gè)數(shù)和原型之間的距離計(jì)算當(dāng)前識(shí)別結(jié)果的置信度(在Pattern Recognition Letters, Vol.19, No. 10,1998, 〃 Adaptive Confidence Transform Based Classifier Combination for ChineseCharacter Recognition"中進(jìn)行了描述),作為字
符串過濾的依據(jù)。 字符串的分割采用過分割的策略,候選字符的個(gè)數(shù)大于字符的真實(shí)個(gè)數(shù),識(shí)別結(jié) 果中含有誤識(shí)字符,因此需要對(duì)識(shí)別結(jié)果進(jìn)行過濾以得到正確的字符串。在過濾時(shí),根據(jù)候 選相鄰字符之間的位置重疊程度和識(shí)別置信度進(jìn)行取舍。過濾后得到的字符串作為最終結(jié) 果輸出。 步驟S105,根據(jù)文本塊圖像中連通域的幾何特征及位置信息確定英文區(qū)域,對(duì)所 述英文區(qū)域進(jìn)行分割和字符識(shí)別,得到英文字符串; 存在中英文混排的文本中,單個(gè)英文字符或者相鄰英文字符的組合,經(jīng)常會(huì)被誤 識(shí)為中文字符,同時(shí),中文字符的偏旁部首或者一些筆畫簡(jiǎn)單的中文字符會(huì)被誤識(shí)為英文 字符,所以不能單憑識(shí)別結(jié)果來代替英文分割。 本發(fā)明實(shí)施例中,根據(jù)外部特征對(duì)先確定英文區(qū)域,再進(jìn)行有傾向性的分割、識(shí)
別,包括判斷英文區(qū)域和英文字符識(shí)別,識(shí)別結(jié)果以英文字符串的形式輸出。 在候選英文區(qū)域判斷環(huán)節(jié),根據(jù)連通域的幾何特征和相鄰情況,找出圖像中的候
選英文區(qū)域。在中英文混排文本中,英文字符和中文字符相比,有兩個(gè)特點(diǎn)中、英文字符的
寬度不同,英文字符寬度較??;英文字符的中心間距較小,中文字符的中心間距較大,在中、
英文字符交界處,字符的中心間距發(fā)生變化。 從預(yù)處理結(jié)果中,可以得到連通域的尺寸和位置信息。英文字符都是單個(gè)字符,在 不考慮粘連的情況下,英文字符連通域的寬度就是其字符寬度;中文字符的寬度由中文字符分割環(huán)節(jié)得到。字符的中心間距是相鄰字符的連通域中心點(diǎn)之間的距離。計(jì)算出字符寬 度和中心點(diǎn)的位置,結(jié)合上述兩個(gè)特點(diǎn)能夠確定候選英文區(qū)域。 在確定的候選英文區(qū)域中,經(jīng)常會(huì)包含非英文區(qū)域,如標(biāo)點(diǎn)、中文字符的筆畫等, 在中、英文字符合并環(huán)節(jié)能夠去除。 英文字符的識(shí)別采用自己研制的OCR引擎,(1)識(shí)別引擎只專注于英文字母和數(shù) 字的識(shí)別,由于需要區(qū)分的類別個(gè)數(shù)很小,能夠取得更高的識(shí)別正確率,(2)能夠根據(jù)實(shí)際 情況擴(kuò)充樣本,定制訓(xùn)練集,使識(shí)別結(jié)果更貼近實(shí)際應(yīng)用。 識(shí)別引擎提取字符的方向線素(在IEEE Transactions On Pattern AnalysisAnd Machine Inte11igence, Vo 1 21, No 3, March 1999, 〃 A Handwritten CharacterRecognition System Using Directional Element Feature and AsymmetricMahalanobis Distance" 中進(jìn)行了描述)禾口梯度(在IEEE Transactions On PatternAnalysis And Machine Intelligence, Vol 29, No 8, March 2007, 〃 Normalization-Cooperated Gradient Feature Extraction for HandwrittenCharacter Recognition"中進(jìn)行了描述)的組合特征,特征采用LDA降維 (在"Introduction to Statistical Pattern Recognition" , 2nd edition, Academic Press, NewYork, 1990中進(jìn)行了描述),分類器采用DLQDF(在IEEE Transactions OnNeural Networks, Vol 15, No 2, March 2004, 〃 Discriminative Learning QuadraticDiscriminant Function for Handwriting Recognition"中進(jìn)行了描述)算法 進(jìn)行訓(xùn)練,分類器輸出識(shí)別結(jié)果和置信度,置信度計(jì)算方法和中文字符相同。
步驟S106,分別計(jì)算所得到的中文字符、英文字符的識(shí)別置信度,并對(duì)識(shí)別置信度 進(jìn)行校正; 由于中、英文識(shí)別分別采用不同的識(shí)別引擎,兩個(gè)識(shí)別引擎的原型空間規(guī)模相差 很大,樣本間距離度量方式也不相同,因此計(jì)算得到的識(shí)別置信度不具有可比性,插入合并 前需要對(duì)兩類識(shí)別置信度進(jìn)行校正。校正識(shí)別置信度一般在相同的樣本空間上進(jìn)行,但在 此中、英文字符分開識(shí)別,兩個(gè)識(shí)別引擎的樣本空間不重疊,無法直接進(jìn)行校正。
參照?qǐng)D4,例如,假設(shè)中、英文字符的識(shí)別置信度為高斯分布(在 PatternRecognition Vol. 38, Pagess 11_28,2005, 〃 Classifier Combination Based onConfidence Transformation"中進(jìn)行了描述),以中文字符的識(shí)別置信度為準(zhǔn),對(duì)英文 字符的識(shí)別置信度進(jìn)行校正 (1)在樣本集(新聞標(biāo)題)上,根據(jù)中文字符的識(shí)別置信度的統(tǒng)計(jì)情況,將其分成
5個(gè)等級(jí),求得各等級(jí)的置信度均值ai、 a2、 a3、 a4、 a5 ; (2)同一行標(biāo)題中的英文字符具有和中文字符相同的等級(jí); (3)計(jì)算每個(gè)等級(jí)的英文字符的置信度均值bpb2、b3、b4、b5 ; (4)對(duì)中、英文字符五個(gè)等級(jí)的置信度均值進(jìn)行線性擬合(在"統(tǒng)計(jì)推斷",機(jī)械工
業(yè)出版社,2005.中進(jìn)行了描述); (5)根據(jù)擬合參數(shù),重新確定英文字符的識(shí)別置信度。 這樣經(jīng)過校正后的英文字符具有和中文字符相一致的置信度。 步驟S107,基于校正后的字符識(shí)別置信度及中文字符與英文字符之間的位置關(guān)系
將中文字符串和英文字符串進(jìn)行合并,得到文本信息。
在合并環(huán)節(jié),通過比較中、英文字符串在位置和識(shí)別置信度上的關(guān)系,對(duì)兩個(gè)字符 串進(jìn)行合并,合并后的結(jié)果作為最終結(jié)果輸出。本發(fā)明實(shí)施例中采用"插入式"策略進(jìn)行合 并,具體包括 在中文字符串的適當(dāng)位置,補(bǔ)上被遺漏的英文字符,遺漏的原因是在中文字符預(yù) 分割時(shí),英文字符的寬度不滿足要求而被篩選掉; 在中、英文字符重疊的地方,比較兩類字符的識(shí)別置信度,將那些被誤識(shí)為中文字 符的識(shí)別結(jié)果用置信度較高的英文識(shí)別結(jié)果代替,誤識(shí)的原因是兩個(gè)相鄰的英文字符在預(yù) 分割時(shí)被當(dāng)成一個(gè)中文字符。 例如,如圖5所示,是從屏幕上截取得到的具有中英文數(shù)字混排的文本圖像,內(nèi)容 為"倫敦720萬英鎊保駕G20峰會(huì)",按照中文字符進(jìn)行分割識(shí)別得到的是"倫敦加英鎊保 駕加峰會(huì)",其中將'7'、'72'的組合在字符串篩選環(huán)節(jié)被去除,'20'誤識(shí)別為'加',通過比 較中、英文字符串在位置和識(shí)別置信度上的關(guān)系,合并后得到正確的結(jié)果"倫敦720萬英鎊 保駕G20峰會(huì)"。 步驟S108,對(duì)視頻圖像的版面進(jìn)行分析,獲取視頻圖像中的文本特征;將合并后 得到的文本信息進(jìn)行組織、分類。 視頻中包含的文本種類繁多,不同種類的文本含義不同,如圖6所示,區(qū)域內(nèi)的文
本包括標(biāo)題、副標(biāo)題、臺(tái)標(biāo)、附屬詞、滾動(dòng)條等類型。在視頻搜索和視頻自動(dòng)編目中,需要從
視頻中提取結(jié)構(gòu)化的文本信息,文本類型是與文本內(nèi)容同等重要的特征。 根據(jù)文本特征對(duì)其進(jìn)行細(xì)致、準(zhǔn)確的組織和分類,輸出結(jié)構(gòu)化的文本信息,以滿足
不同應(yīng)用層面的需要,如圖7所示,包括收集特征、文本組織和文本分類。在版面分析中要
用到文本塊的時(shí)序特征,而時(shí)序特征在一段節(jié)目處理完才能確定,因此采用離線處理的方
式,即在一段節(jié)目處理完后才進(jìn)行版面分析。 版面分析包括收集特征、文本組織和文本分類。 版面分析中用到的文本特征包括 極性,反映文本區(qū)域中字符和背景的顏色深淺對(duì)比關(guān)系,如極性為O表示淺色背 景深色字符,極性為l表示深色背景淺色字符。分割環(huán)節(jié)可以利用算法自動(dòng)判斷文本極性; 也可以在配置文件中給出極性,并以此指導(dǎo)分割。 顏色,包括字符顏色和背景顏色。在某些情況下,極性不足以區(qū)分不同種類的文
本,如紅色背景下的白色和黃色字符極性都是l,這時(shí)就需要考慮顏色信息。 字符尺寸,包括文本行中單個(gè)字符的平均寬度和高度。在分割環(huán)節(jié)中,進(jìn)行預(yù)分割
后能夠得到單個(gè)字符的寬度和高度,以此統(tǒng)計(jì)文本行中單個(gè)字符的平均寬度和高度。 文本塊位置,包括文本塊的上下、左右邊界。 識(shí)別結(jié)果。文本塊圖像經(jīng)過分割、識(shí)別后得到的字符串,在分割環(huán)節(jié)給出。
文本塊的起止時(shí)間。文本塊出現(xiàn)和消失的時(shí)刻; 文本塊的時(shí)序關(guān)系。在跟蹤環(huán)節(jié),進(jìn)行時(shí)序判斷時(shí)給出四種關(guān)系保持、消失、替換 和虛警,屬于文本塊的有兩種消失和替換。 這些特征是版面分析的基礎(chǔ),在后續(xù)處理中,應(yīng)該根據(jù)被處理視頻的特點(diǎn),靈活組 合特征和設(shè)計(jì)規(guī)則,并沒有統(tǒng)一的處理流程。
文本組織,包括同一幀圖像上多行文本的合并;連續(xù)多幀圖像上同一個(gè)文本塊
12的合并。 經(jīng)過投影切分后,處理的文本塊都是單行文本,這些單行文本可能需要組合起來 才能表達(dá)完整的含義,如多行的新聞標(biāo)題。在同一幀圖像上,根據(jù)文本塊的位置、字符尺 寸、顏色等信息,結(jié)合被處理視頻的特點(diǎn),將空間上分散的單行文本組合成為完整的邏輯單 位。 在一些情況下,連續(xù)出現(xiàn)的文本可能需要組合起來才能表達(dá)完整的含義,或者同 一個(gè)文本斷斷續(xù)續(xù)出現(xiàn)多次,如新聞標(biāo)題。這就需要根據(jù)文本塊的識(shí)別結(jié)果、字符尺寸、顏 色等信息,將時(shí)間上分散的文本組合成為完整的邏輯單位。
文本分類,在不同的視頻節(jié)目中,文本的表現(xiàn)形式各不相同。針對(duì)一類節(jié)目,通過 觀察可以總結(jié)得出一些文本分類的規(guī)律,但在另一類節(jié)目中,規(guī)律可能不再成立。因此,文 本分類沒有具體的統(tǒng)一的處理流程,可結(jié)合文本特征和模板進(jìn)行分類。
實(shí)施例二 參照?qǐng)D8,本發(fā)明實(shí)施例還提供一種提取視頻文本信息的裝置200,包括
位置確定單元210,用于確定視頻圖像中文本塊區(qū)域的位置; 中文字符處理單元220,按照中文字符特征對(duì)所述文本塊進(jìn)行分割和字符識(shí)別,得 到中文字符串; 英文字符處理單元230,根據(jù)所述文本塊中連通域的幾何特征及位置信息確定英 文區(qū)域,對(duì)所述英文區(qū)域進(jìn)行分割和字符識(shí)別,得到英文字符串; 計(jì)算單元240,用于分別計(jì)算所得到的中文字符、英文字符的識(shí)別置信度,并對(duì)識(shí) 別置信度進(jìn)行校正; 合并單元250,用于基于校正后的字符識(shí)別置信度及中文字符與英文字符之間的
關(guān)系將所述中文字符串和中文字符串進(jìn)行合并,得到文本信息。
該裝置200,還包括 監(jiān)測(cè)跟蹤單元260,用于監(jiān)測(cè)并跟蹤連續(xù)視頻圖像幀中的文本塊; 判斷單元270,用于根據(jù)所述監(jiān)測(cè)跟蹤單元提供的相鄰視頻圖像幀中文本塊的位
置信息和圖像內(nèi)容判斷是否為同一文本塊; 若視頻圖像幀中為不同文本塊,判斷單元270確定該不同文本塊的區(qū)域,則中文 字符處理單元220和英文字符處理單元230分別對(duì)該不同文本塊進(jìn)行分割和字符識(shí)別。
計(jì)算單元240中具有校正子單元241,用于以中文字符的識(shí)別置信度為準(zhǔn),對(duì)英文 字符的識(shí)別置信度進(jìn)行校正,該校正子單元241包括 分級(jí)模塊241a,用于將中文字符的識(shí)別置信度分成若干等級(jí),并計(jì)算得到每個(gè)等
級(jí)的置信度均值,且同一行文本塊的英文字符和中文字符具有相同的等級(jí); 計(jì)算模塊241b,用于計(jì)算每個(gè)等級(jí)的英文字符的置信度均值; 調(diào)整模塊241c,用于對(duì)中、英文字符各等級(jí)的置信度均值進(jìn)行線性擬合;并根據(jù)
擬合參數(shù),重新確定英文字符的識(shí)別置信度。 該裝置200中,還設(shè)置有預(yù)處理單元270,用于在對(duì)文本塊進(jìn)行分割和字符識(shí)別之 前,對(duì)文本塊進(jìn)行預(yù)處理,該預(yù)處理單元270具體包括 圖像處理模塊270a,對(duì)文本塊所在區(qū)域圖像進(jìn)行二值化處理,分離圖像中的字符 和背景,以確定字符邊界;
圖像分析模塊270b,用于對(duì)生成的二值圖像要進(jìn)行連通域分析,以獲得字符筆畫 的位置和尺寸信息。 綜上所述,本發(fā)明提供的一種提取視頻結(jié)構(gòu)化文本信息的方法及裝置,通過定位 確定視頻圖像中文本塊的位置;并對(duì)文本塊進(jìn)行跟蹤;再分別按照中文、英文字符特征對(duì) 文本塊圖像進(jìn)行分割和字符識(shí)別,得到中文及英文字符串;并對(duì)中、英文字符的識(shí)別置信度 進(jìn)行校正;基于校正后的字符識(shí)別置信度及中文字符與英文字符之間的位置關(guān)系將中文字 符串和英文字符串進(jìn)行合并,得到文本信息。根據(jù)本發(fā)明,可對(duì)視頻圖像中的中英文混排的 文本進(jìn)行字符分割識(shí)別,可以解決不同風(fēng)格的視頻文本難以在統(tǒng)一的流程中進(jìn)行處理的問 題,可對(duì)視頻中不同類型的文本信息進(jìn)行組織、分類。該架構(gòu)既可以有效處理各種不同類型 的視頻,也可以方便進(jìn)行定制、修改、擴(kuò)充。 根據(jù)所述公開的實(shí)施例,可以使得本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)或者使用本發(fā)明。對(duì) 于本領(lǐng)域技術(shù)人員來說,這些實(shí)施例的各種修改是顯而易見的,并且這里定義的總體原理 也可以在不脫離本發(fā)明的范圍和主旨的基礎(chǔ)上應(yīng)用于其他實(shí)施例。以上所述的實(shí)施例僅為 本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任 何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
一種提取視頻文本信息的方法,其特征在于,包括確定視頻圖像中文本塊的位置;按照中文字符特征對(duì)所述文本塊圖像進(jìn)行分割和字符識(shí)別,得到中文字符串;根據(jù)所述文本塊圖像中連通域的幾何特征及位置信息確定英文區(qū)域,對(duì)所述英文區(qū)域進(jìn)行分割和字符識(shí)別,得到英文字符串;分別計(jì)算所得到的中文字符、英文字符的識(shí)別置信度,并對(duì)識(shí)別置信度進(jìn)行校正;基于校正后的字符識(shí)別置信度及中文字符與英文字符之間的位置關(guān)系將所述中文字符串和英文字符串進(jìn)行合并,得到文本信息。
2. 如權(quán)利要求l所述的方法,其特征在于,還包括監(jiān)測(cè)并跟蹤連續(xù)視頻圖像幀中的文本塊,根據(jù)相鄰視頻圖像幀中文本塊的位置關(guān)系和圖像內(nèi)容判斷是否為同一文本塊;當(dāng)所述文本塊消失時(shí),確定該文本塊的位置,并對(duì)該文本塊進(jìn)行后續(xù)的分割和字符識(shí)別。
3. 如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)相鄰視頻圖像幀中文本塊的位置關(guān)系和圖像內(nèi)容判斷是否為同一文本塊,具體為若相鄰視頻圖像幀中文本塊的區(qū)域相互獨(dú)立或者欠重疊,則判斷相鄰視頻圖像幀中文本塊為不同文本塊;若相鄰視頻圖像幀中文本塊的區(qū)域重疊或包含,則判斷相鄰視頻圖像幀中文本塊為同一文本塊。
4. 如權(quán)利要求1所述的方法,其特征在于,所述對(duì)識(shí)別置信度進(jìn)行校正的步驟,包括以中文字符的識(shí)別置信度為準(zhǔn),對(duì)英文字符的識(shí)別置信度進(jìn)行校正將所述中文字符的識(shí)別置信度分成若干等級(jí),并計(jì)算得到每個(gè)等級(jí)的置信度均值,且同一行文本塊的英文字符和中文字符具有相同的等級(jí);計(jì)算每個(gè)等級(jí)的英文字符的置信度均值;以中文字符各等級(jí)的置信度均值為基準(zhǔn),對(duì)中、英文字符相同等級(jí)的置信度均值進(jìn)行線性擬合;根據(jù)擬合參數(shù),重新確定英文字符的識(shí)別置信度。
5. 如權(quán)利要求1所述的方法,其特征在于,在對(duì)所述文本塊進(jìn)行分割和字符識(shí)別之前,還包括對(duì)所述文本塊所在區(qū)域圖像進(jìn)行預(yù)處理的步驟當(dāng)所述視頻圖像為彩色圖像,將所述視頻圖像轉(zhuǎn)化灰度圖像;對(duì)所述文本塊所在區(qū)域圖像進(jìn)行二值化處理,分離圖像中的字符和背景,以確定字符邊界;對(duì)生成的二值圖像要進(jìn)行連通域分析,以獲得字符筆畫的位置和尺寸信息。
6. 如權(quán)利要求l所述的方法,其特征在于,還包括對(duì)所述視頻圖像進(jìn)行版面分析,獲取所述視頻圖像中的文本特征;根據(jù)所述文本特征,將所述文本信息進(jìn)行組織、分類。
7. —種提取視頻文本信息的裝置,其特征在于,包括位置確定單元,用于確定視頻圖像中文本塊的位置;第一處理單元,按照中文字符特征對(duì)所述文本塊進(jìn)行分割和字符識(shí)別,得到中文字符串;第二處理單元,根據(jù)所述文本塊中連通域的幾何特征及位置信息確定英文區(qū)域,對(duì)所述英文區(qū)域進(jìn)行分割和字符識(shí)別,得到英文字符串;計(jì)算單元,用于分別計(jì)算所得到的中文字符、英文字符的識(shí)別置信度,并對(duì)識(shí)別置信度進(jìn)行校正;合并單元,用于基于校正后的字符識(shí)別置信度及中文字符與英文字符之間的位置關(guān)系將所述中文字符串和中文字符串進(jìn)行合并,得到文本信息。
8. 如權(quán)利要求7所述的裝置,其特征在于,還包括監(jiān)測(cè)跟蹤單元,用于監(jiān)測(cè)并跟蹤連續(xù)視頻圖像幀中的文本塊;判斷單元,用于根據(jù)所述監(jiān)測(cè)跟蹤單元提供的相鄰視頻圖像幀中文本塊的位置信息和圖像內(nèi)容判斷是否為同一文本塊;若所述視頻圖像幀中為不同文本塊,所述判斷單元確定該不同文本塊的區(qū)域,則所述第一處理單元和第二處理單元分別對(duì)該不同文本塊進(jìn)行分割和字符識(shí)別。
9. 如權(quán)利要求7所述的裝置,其特征在于,所述計(jì)算單元中具有校正子單元,用于以中文字符的識(shí)別置信度為準(zhǔn),對(duì)英文字符的識(shí)別置信度進(jìn)行校正,該校正子單元包括分級(jí)模塊,用于將中文字符的識(shí)別置信度分成若干等級(jí),并計(jì)算得到每個(gè)等級(jí)的置信度均值,且同一行文本塊的英文字符和中文字符具有相同的等級(jí);計(jì)算模塊,用于計(jì)算每個(gè)等級(jí)的英文字符的置信度均值;調(diào)整模塊,用于以中文字符各等級(jí)的置信度均值為目標(biāo),對(duì)中、英文字符各等級(jí)的置信度均值進(jìn)行線性擬合;并根據(jù)擬合參數(shù),重新確定英文字符的識(shí)別置信度。
10. 如權(quán)利要求7所述的裝置,其特征在于,還設(shè)置有預(yù)處理單元,用于在對(duì)所述文本塊進(jìn)行分割和字符識(shí)別之前,對(duì)所述文本塊進(jìn)行預(yù)處理,該預(yù)處理單元,具體包括圖像處理模塊,將所述文本塊圖像轉(zhuǎn)化灰度圖像,并對(duì)該灰度圖像進(jìn)行二值化處理,分離圖像中的字符和背景,以確定字符邊界;圖像分析模塊,用于對(duì)生成的二值圖像要進(jìn)行連通域分析,以獲得字符筆畫的位置和尺寸信息。
全文摘要
本發(fā)明公開了一種提取視頻文本信息的方法及裝置,通過確定視頻圖像中文本塊的位置;再分別按照中文、英文字符特征對(duì)文本塊圖像進(jìn)行分割和字符識(shí)別,得到中文及英文字符串;并對(duì)識(shí)別置信度進(jìn)行校正;基于校正后的字符識(shí)別置信度及中文字符與英文字符之間的位置關(guān)系將中文字符串和英文字符串進(jìn)行合并,得到文本信息。根據(jù)本發(fā)明,可對(duì)視頻圖像中的中英文混排的文本進(jìn)行字符分割識(shí)別,可以解決不同風(fēng)格的視頻文本難以在統(tǒng)一的流程中進(jìn)行處理的問題,可對(duì)視頻中不同類型的文本信息進(jìn)行組織、分類。該架構(gòu)既可以有效處理各種不同類型的視頻,也可以方便進(jìn)行定制、修改、擴(kuò)充。
文檔編號(hào)G06K9/62GK101777124SQ20101010424
公開日2010年7月14日 申請(qǐng)日期2010年1月29日 優(yōu)先權(quán)日2010年1月29日
發(fā)明者周景超, 苗廣義, 鮑東山 申請(qǐng)人:北京新岸線網(wǎng)絡(luò)技術(shù)有限公司