基于云計(jì)算的文本掃描識(shí)別方法
【專利摘要】本發(fā)明公開了一種基于云計(jì)算的文本掃描識(shí)別方法,包括以下步驟:文檔圖像預(yù)處理:針對(duì)從掃描儀直接掃描出的原始圖像進(jìn)行預(yù)處理;文檔圖像版面特征分析:將預(yù)處理文檔圖像加載到版面分析引擎進(jìn)行處理:根據(jù)預(yù)處理文檔圖像的版面特征信息,添加掩膜并對(duì)關(guān)鍵域進(jìn)行局部處理;碎片化:對(duì)經(jīng)過文檔圖像掩膜步驟處理后的預(yù)處理文檔圖像進(jìn)行切碎處理;碎片的OCR/ICR識(shí)別:識(shí)別小碎片,拼接并輸出文字;語(yǔ)意識(shí)別:利用統(tǒng)計(jì)語(yǔ)言模型算法結(jié)合行業(yè)辭典,對(duì)OCR/ICR的結(jié)果進(jìn)行邏輯校驗(yàn)。本發(fā)明利用圖像特征識(shí)別,圖像掩膜,圖像碎片化,碎片的并發(fā)處理OCR/ICR,語(yǔ)意校驗(yàn)等特種方法綜合使用,顯著提高了文本掃描件的最終準(zhǔn)確率。
【專利說明】基于云計(jì)算的文本掃描識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種文本掃描識(shí)別的方法,尤其涉及一種基于云計(jì)算的文本掃描識(shí)別 方法。
【背景技術(shù)】
[0002] 圖像識(shí)別技術(shù)是人工智能的一個(gè)重要領(lǐng)域。為了編制模擬人類圖像識(shí)別活動(dòng)的計(jì) 算機(jī)程序,人們提出了不同的圖像識(shí)別模型。例如模板匹配模型。這種模型認(rèn)為,識(shí)別某個(gè) 圖像,必須在過去的經(jīng)驗(yàn)中有這個(gè)圖像的記憶模式,又叫模板。當(dāng)前的刺激如果能與大腦中 的模板相匹配,這個(gè)圖像也就被識(shí)別了。例如有一個(gè)字母A,如果在腦中有個(gè)A模板,字母 A的大小、方位、形狀都與這個(gè)A模板完全一致,字母A就被識(shí)別了。這個(gè)模型簡(jiǎn)單明了,也 容易得到實(shí)際應(yīng)用。但這種模型強(qiáng)調(diào)圖像必須與腦中的模板完全符合才能加以識(shí)別,而事 實(shí)上人不僅能識(shí)別與腦中的模板完全一致的圖像,也能識(shí)別與模板不完全一致的圖像。例 如,人們不僅能識(shí)別某一個(gè)具體的字母A,也能識(shí)別印刷體的、手寫體的、方向不正、大小不 同的各種字母A。同時(shí),人能識(shí)別的圖像是大量的,如果所識(shí)別的每一個(gè)圖像在腦中都有 一個(gè)相應(yīng)的模板,也是不可能的。為了解決模板匹配模型存在的問題,格式塔心理學(xué)家又提 出了一個(gè)原型匹配模型。這種模型認(rèn)為,在長(zhǎng)時(shí)記憶中存儲(chǔ)的并不是所要識(shí)別的無(wú)數(shù)個(gè)模 板,而是圖像的某些"相似性"。從圖像中抽象出來(lái)的"相似性"就可作為原型,拿它來(lái)檢驗(yàn) 所要識(shí)別的圖像。如果能找到一個(gè)相似的原型,這個(gè)圖像也就被識(shí)別了。這種模型從神經(jīng) 上和記憶探尋的過程上來(lái)看,都比模板匹配模型更適宜,而且還能說明對(duì)一些不規(guī)則的,但 某些方面與原型相似的圖像的識(shí)別。但是,這種模型沒有說明人是怎樣對(duì)相似的刺激進(jìn)行 辨別和加工的,它也難以在計(jì)算機(jī)程序中得到實(shí)現(xiàn)。因此又有人提出了一個(gè)更復(fù)雜的模型, 即"泛魔"識(shí)別模型。
[0003] 具體而言,現(xiàn)有的影像識(shí)別技術(shù)有如下幾種:國(guó)內(nèi)的漢王,紫光文通,尚書7號(hào),國(guó) 外的Abbyy FineReaderll等。這些方案都著重于對(duì)于純文字的識(shí)別率,即OCR,但對(duì)整體 的識(shí)別準(zhǔn)確率,特別是對(duì)有超高識(shí)別率要求的特別域一即有效識(shí)別率,沒有太多的考慮和 設(shè)計(jì)。同時(shí),由于OCR / ICR的效率問題,往往處理速度較慢,無(wú)法應(yīng)對(duì)高時(shí)效的要求。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明所要解決的技術(shù)問題是針對(duì)上述現(xiàn)有技術(shù)的不足,提供一種識(shí)別速度快、 識(shí)別準(zhǔn)確率高的基于云計(jì)算的文本掃描識(shí)別方法。
[0005] 為實(shí)現(xiàn)上述技術(shù)目的,本發(fā)明采取的技術(shù)方案為一種基于云計(jì)算的文本掃描識(shí)別 方法,其特征在于包括以下步驟 : 第一步,文檔圖像預(yù)處理:針對(duì)從掃描儀直接掃描出的原始圖像進(jìn)行預(yù)處理,以將原始 圖像二值化并且去除原始圖像噪點(diǎn),將扭曲的原始圖像還原,將原始圖像壓縮以便后續(xù)圖 像處理; 第二步,文檔圖像版面特征分析:將預(yù)處理文檔圖像加載到版面分析引擎進(jìn)行處理,以 獲得預(yù)處理文檔圖像版面特征信息; 第三步,文檔圖像掩膜:根據(jù)預(yù)處理文檔圖像的版面特征信息,添加相應(yīng)的掩膜,然后 對(duì)關(guān)鍵域進(jìn)行局部處理,即提取預(yù)處理文檔圖像的版面特征信息并與掩模的特征信息進(jìn)行 匹配; 第四步,碎片化:即文檔圖片定位與分割,具體為采用圖像局部特征定位方法、表格識(shí) 別方法和OCR關(guān)鍵字符識(shí)別定位方法,對(duì)經(jīng)過文檔圖像掩膜步驟處理后的預(yù)處理文檔圖像 進(jìn)行切碎處理; 第五步:碎片的0CR/ICR識(shí)別:識(shí)別小碎片,拼接并輸出文字,以便進(jìn)行語(yǔ)意識(shí)別; 第六步,語(yǔ)意識(shí)別:利用統(tǒng)計(jì)語(yǔ)言模型算法結(jié)合行業(yè)辭典,對(duì)OCR / ICR的結(jié)果進(jìn)行邏 輯校驗(yàn)。
[0006] 作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案,所述文檔圖像預(yù)處理包括以下步驟: 首先,對(duì)原始圖像采用權(quán)平均法進(jìn)行處理后,再采用最大類間方差進(jìn)行二值化處理,將 原始的真彩色以及高DPI的灰度圖轉(zhuǎn)化為二值化的黑白圖; 其次,對(duì)二值化的黑白圖進(jìn)行圖像去噪,以去除了掃描過程中由于電子信號(hào)干擾帶來(lái) 的圖像噪點(diǎn),形成預(yù)處理文檔圖像; 第三,對(duì)預(yù)處理文檔圖像進(jìn)行糾偏處理,使扭曲的圖像還原。
[0007] 作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案,所述文檔圖像版面特征分析為:通過版面分 析算法搜索整個(gè)預(yù)處理文檔圖像并對(duì)預(yù)處理文檔圖像進(jìn)行區(qū)域劃分和類型識(shí)別,以獲得預(yù) 處理文檔圖像的版面特征信息,所述版面特征信息包括區(qū)域分割線坐標(biāo)信息、預(yù)處理文檔 圖像的類型信息以及預(yù)處理文檔圖像中的文字對(duì)象的坐標(biāo)信息; 作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案,所述預(yù)處理文檔圖像的類型信息包括文字、圖章、 圖片、公式和條碼。
[0008] 作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案,所述文檔圖像掩膜為:分別用各類型的掩模 依次覆蓋和匹配經(jīng)過文檔圖像版面特征分析步驟處理后的預(yù)處理文檔圖像,如果掩模的特 征信息和預(yù)處理文檔圖像的版面特征信息相一致,則所述預(yù)處理文檔圖像與掩模的類型相 一致并且將掩模的類型信息添加到預(yù)處理文檔圖像的版面特征信息中。
[0009] 作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案,在文檔圖像掩步驟中,還包括根據(jù)具體的業(yè) 務(wù)特征制作各種類型的掩模的步驟。
[0010] 作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案,所述文檔圖片定位與分割包括以下步驟: 首先,將預(yù)處理文檔圖像進(jìn)行定位分割,即根據(jù)預(yù)處理文檔圖像的版面特征信息中的 掩膜的特征信息,提取掩膜的具體坐標(biāo)信息; 其次,根據(jù)掩模的具體坐標(biāo)信息,將具體的業(yè)務(wù)數(shù)據(jù)圖像從整個(gè)的預(yù)處理文檔圖像中 截取出來(lái),形成具有具體業(yè)務(wù)數(shù)據(jù)的碎片圖像。
[0011] 作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案,所述碎片的0CR/ICR識(shí)別為對(duì)具有具體業(yè)務(wù) 數(shù)據(jù)的碎片圖像通過多路OCR引擎進(jìn)行識(shí)別處理,以識(shí)別小碎片,拼接并輸出文字。
[0012] 作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案,在所述碎片的0CR/ICR識(shí)別過程中,采用大 數(shù)據(jù)處理方案里的工作分解并發(fā)合成的方法對(duì)輸出文字第四步中輸出的文字進(jìn)行分解并 發(fā)與集成處理。
[0013] 作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案,所述語(yǔ)意識(shí)別包括以下步驟: 首先,根據(jù)不同的行業(yè)特征建立行業(yè)詞語(yǔ)庫(kù); 其次,對(duì)詞語(yǔ)進(jìn)行組合:針對(duì)不同專業(yè),生成專業(yè)詞語(yǔ)組合,并根據(jù)不同的行業(yè),基于所 述行業(yè)詞語(yǔ)庫(kù),統(tǒng)計(jì)得出詞語(yǔ)組合的概率分值; 第三,對(duì)OCR的結(jié)果句進(jìn)行劃分并自動(dòng)替換不可識(shí)別詞語(yǔ),生成多種組合句; 第四,計(jì)算生成的多種組合句的各自的總概率分值,并將總概率分值最高的組合句保 留。
[0014] 本發(fā)明利用圖像特征識(shí)別,圖像掩膜,圖像碎片化,碎片的并發(fā)處理OCR / ICR,語(yǔ) 意校驗(yàn)等特種方法綜合使用,顯著提高了文本掃描件的最終準(zhǔn)確率。
【專利附圖】
【附圖說明】
[0015] 圖1為本發(fā)明的流程結(jié)構(gòu)示意圖。
[0016] 下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】做進(jìn)一步說明。
【具體實(shí)施方式】
[0017] 參見圖1,本基于云計(jì)算的文本掃描識(shí)別方法,包括以下步驟: 第一步,文檔圖像預(yù)處理:針對(duì)從掃描儀直接掃描出的原始圖像進(jìn)行預(yù)處理,以將原始 圖像二值化并且去除原始圖像噪點(diǎn),將扭曲的原始圖像還原,將原始圖像壓縮以便后續(xù)圖 像處理; 第二步,文檔圖像版面特征分析:將預(yù)處理文檔圖像加載到版面分析引擎進(jìn)行處理,以 獲得預(yù)處理文檔圖像版面特征信息; 第三步,文檔圖像掩膜:根據(jù)預(yù)處理文檔圖像的版面特征信息,添加相應(yīng)的掩膜,然后 對(duì)關(guān)鍵域進(jìn)行局部處理,即提取預(yù)處理文檔圖像的版面特征信息并與掩模的特征信息進(jìn)行 匹配; 第四步,碎片化:即文檔圖片定位與分割,具體為采用圖像局部特征定位方法、表格識(shí) 別方法和OCR關(guān)鍵字符識(shí)別定位方法,對(duì)經(jīng)過文檔圖像掩膜步驟處理后的預(yù)處理文檔圖像 進(jìn)行切碎處理; 第五步:碎片的0CR/ICR識(shí)別:識(shí)別小碎片,拼接并輸出文字,以便進(jìn)行語(yǔ)意識(shí)別; 第六步,語(yǔ)意識(shí)別:利用統(tǒng)計(jì)語(yǔ)言模型算法結(jié)合行業(yè)辭典,對(duì)OCR / ICR的結(jié)果進(jìn)行邏 輯校驗(yàn)。
[0018] 作為優(yōu)選方案,所述文檔圖像預(yù)處理包括以下步驟: 首先,對(duì)原始圖像采用權(quán)平均法進(jìn)行處理后,再采用最大類間方差進(jìn)行二值化處理,將 原始的真彩色以及高DPI的灰度圖轉(zhuǎn)化為二值化的黑白圖; 其次,對(duì)二值化的黑白圖進(jìn)行圖像去噪,以去除了掃描過程中由于電子信號(hào)干擾帶來(lái) 的圖像噪點(diǎn),形成預(yù)處理文檔圖像; 第三,對(duì)預(yù)處理文檔圖像進(jìn)行糾偏處理,使扭曲的圖像還原。
[0019] 作為優(yōu)選方案,所述文檔圖像版面特征分析為:通過版面分析算法搜索整個(gè)預(yù)處 理文檔圖像并對(duì)預(yù)處理文檔圖像進(jìn)行區(qū)域劃分和類型識(shí)別,以獲得預(yù)處理文檔圖像的版面 特征信息,所述版面特征信息包括區(qū)域分割線坐標(biāo)信息、預(yù)處理文檔圖像的類型信息以及 預(yù)處理文檔圖像中的文字對(duì)象的坐標(biāo)信息。所述預(yù)處理文檔圖像的類型信息包括文字、圖 章、圖片、公式和條碼。
[0020] 所述文檔圖像掩膜為:分別用各類型的掩模依次覆蓋和匹配經(jīng)過文檔圖像版面特 征分析步驟處理后的預(yù)處理文檔圖像,如果掩模的特征信息和預(yù)處理文檔圖像的版面特征 信息相一致,則所述預(yù)處理文檔圖像與掩模的類型相一致并且將掩模的類型信息添加到預(yù) 處理文檔圖像的版面特征信息中。在文檔圖像掩步驟中,還包括根據(jù)具體的業(yè)務(wù)特征制作 各種類型的掩模的步驟。
[0021] 所述文檔圖片定位與分割包括以下步驟: 首先,將預(yù)處理文檔圖像進(jìn)行定位分割,即根據(jù)預(yù)處理文檔圖像的版面特征信息中的 掩膜的特征信息,提取掩膜的具體坐標(biāo)信息; 其次,根據(jù)掩模的具體坐標(biāo)信息,將具體的業(yè)務(wù)數(shù)據(jù)圖像從整個(gè)的預(yù)處理文檔圖像中 截取出來(lái),形成具有具體業(yè)務(wù)數(shù)據(jù)的碎片圖像。
[0022] 所述碎片的0CR/ICR識(shí)別為對(duì)具有具體業(yè)務(wù)數(shù)據(jù)的碎片圖像通過多路OCR引擎進(jìn) 行識(shí)別處理,以識(shí)別小碎片,拼接并輸出文字。在所述碎片的0CR/ICR識(shí)別過程中,采用大 數(shù)據(jù)處理方案里的工作分解并發(fā)合成的方法對(duì)輸出文字第四步中輸出的文字進(jìn)行分解并 發(fā)與集成處理。
[0023] 所述語(yǔ)意識(shí)別包括以下步驟: 首先,根據(jù)不同的行業(yè)特征建立行業(yè)詞語(yǔ)庫(kù); 其次,對(duì)詞語(yǔ)進(jìn)行組合:針對(duì)不同專業(yè),生成專業(yè)詞語(yǔ)組合,并根據(jù)不同的行業(yè),基于所 述行業(yè)詞語(yǔ)庫(kù),統(tǒng)計(jì)得出詞語(yǔ)組合的概率分值; 第三,對(duì)OCR的結(jié)果句進(jìn)行劃分并自動(dòng)替換不可識(shí)別詞語(yǔ),生成多種組合句; 第四,計(jì)算生成的多種組合句的各自的總概率分值,并將總概率分值最高的組合句保 留。
[0024] 關(guān)于文檔圖像預(yù)處理:圖像灰度化首先采用權(quán)平均法進(jìn)行第一步處理,灰度化后 采用最大類間方差進(jìn)行二值化處理。平滑去噪,糾偏。二值化的好處是顯而易見的:影像文 件大小顯著降低,后期處理速度加快。步驟是針對(duì)從掃描儀直接掃描出的原始圖像進(jìn)行預(yù) 處理。本處理分為三步驟:第一步對(duì)原始圖像進(jìn)行二值化處理將原始的真彩色/高DPI的 灰度圖轉(zhuǎn)化為二值化的黑白圖,該步驟大大減小了圖像文件的大小提高了后期處理中文件 的加載和識(shí)別速率。第二步圖像去噪,該步驟去除了掃描過程中由于電子信號(hào)干擾帶來(lái)的 圖像噪點(diǎn),進(jìn)一步提高圖像識(shí)別準(zhǔn)確率。第三步二值化圖像的糾偏,該步驟解決了扭曲圖像 的原始還原大大提高了識(shí)別的準(zhǔn)確率。
[0025] 關(guān)于:文檔圖像版面特征分析:采用經(jīng)典的游程版面分析法--run-length algorithm--自底向上的分析算法,同時(shí)兼顧分析處理的時(shí)間消耗及準(zhǔn)確性而引入了二 分法,還采用基于背景空白的版面分割法、基于圖像紋理特征的版面分割法、基于形態(tài)學(xué)處 理的版面分割法。本步驟將經(jīng)過文檔圖像預(yù)處理后的圖像加載到版面分析引擎進(jìn)行處理, 即通過版面分析算法搜索整個(gè)圖像,對(duì)圖像進(jìn)行區(qū)域劃分、類型識(shí)別等,本步驟處理完成后 會(huì)計(jì)算出如下信息:圖像區(qū)域分割線坐標(biāo),文字、圖章、圖片、公式、條碼等對(duì)象類型,文字對(duì) 象的坐標(biāo)信息。
[0026] 關(guān)于文檔圖像掩膜:本步驟基于預(yù)處理文檔圖像的版面特征,添加特別設(shè)計(jì)的掩 膜,對(duì)關(guān)鍵域進(jìn)行局部處理,其中掩膜可以基于特征自適應(yīng)。具體而言,將通過文檔圖像版 面特征分析后的預(yù)處理文檔圖像,提取其局部特征信息與掩模特征匹配如果掩模和局部特 征一致,將該圖像劃分為該掩模類型。本步驟處理完成后,預(yù)處理文檔圖像帶有了掩模類型 信息,并可根據(jù)預(yù)處理文檔圖像的掩模類型對(duì)圖像進(jìn)行分類,為下一步圖像的分割做準(zhǔn)備。
[0027] 關(guān)于碎片化及碎片的0CR/ICR識(shí)別:本步驟采用圖像局部特征定位、表格識(shí)別和 OCR關(guān)鍵字符識(shí)別定位等方法對(duì)文檔圖像進(jìn)行切碎處理,本步驟完成后會(huì)產(chǎn)生一系列具有 具體業(yè)務(wù)數(shù)據(jù)的碎片圖像,產(chǎn)生的碎片圖大大提高了識(shí)別的準(zhǔn)確率,再通過多路OCR引擎 的處理大大提高了識(shí)別的速率。本步驟運(yùn)用了國(guó)際著名的大數(shù)據(jù)處理方案Hadoop里的工 作分解并發(fā)合成的方法,即Map - Reduce,創(chuàng)新的應(yīng)用到了圖像識(shí)別里。這樣就很好的解決 了高性能派發(fā),大范圍分包的任務(wù)分解并發(fā)與集成的問題。
[0028] 關(guān)于語(yǔ)意識(shí)別:本步驟利用統(tǒng)計(jì)語(yǔ)言模型算法結(jié)合行業(yè)辭典,對(duì)OCR / ICR的結(jié)果進(jìn) 行邏輯校驗(yàn):首先基于建立一個(gè)詞語(yǔ)庫(kù);第二步,對(duì)詞語(yǔ)進(jìn)行組合,針對(duì)不同專業(yè),生成專業(yè)詞 語(yǔ)組合,并根據(jù)行業(yè),統(tǒng)計(jì)得出概率分值;第三步,對(duì)OCR的結(jié)果句進(jìn)行劃分并自動(dòng)替換不可識(shí) 別詞語(yǔ),生成多種組合句;第四步,生成多種組合比對(duì)總概率分值,保留最高者。比如:"清華大 X",X是不可識(shí)別文字。經(jīng)過比對(duì),"清華大學(xué)"的概率遠(yuǎn)遠(yuǎn)高于"清華大人"或者"清華大班" 等,保留"清華大學(xué)"作為識(shí)別結(jié)果。所述行業(yè)詞語(yǔ)庫(kù)是根據(jù)不同的行業(yè)特征建立,如電信行業(yè) 詞庫(kù),醫(yī)藥行業(yè)詞庫(kù)。這樣,處理的目標(biāo)比較有方向性,容易找到正確的結(jié)果。同時(shí),這個(gè)庫(kù)不 是靜態(tài)的,它是可以基于影像處理結(jié)果,自動(dòng)添加新詞,也可以通過網(wǎng)絡(luò)爬蟲學(xué)習(xí)新詞。
[0029] 本實(shí)施例中,包括文檔圖像預(yù)處理、文檔圖像版面特征分析、文檔圖像掩膜、碎片 化、碎片的0CR/ICR識(shí)別和語(yǔ)意識(shí)別六個(gè)步驟,各步驟的工作要點(diǎn)及目標(biāo)如表1所示。本實(shí)施 例整體的有效識(shí)別率高可達(dá)99. 8%,而且處理速度加快,在相同條件下,效率提高45%。
[0030] 表1 :各步驟的工作要點(diǎn)及目標(biāo)對(duì)應(yīng)表
【權(quán)利要求】
1. 一種基于云計(jì)算的文本掃描識(shí)別方法,其特征在于包括以下步驟: 第一步,文檔圖像預(yù)處理:針對(duì)從掃描儀直接掃描出的原始圖像進(jìn)行預(yù)處理,以將原始 圖像二值化并且去除原始圖像噪點(diǎn),將扭曲的原始圖像還原,將原始圖像壓縮以便后續(xù)圖 像處理; 第二步,文檔圖像版面特征分析:將預(yù)處理文檔圖像加載到版面分析引擎進(jìn)行處理,以 獲得預(yù)處理文檔圖像版面特征信息; 第三步,文檔圖像掩膜:根據(jù)預(yù)處理文檔圖像的版面特征信息,添加相應(yīng)的掩膜,然后 對(duì)關(guān)鍵域進(jìn)行局部處理,即提取預(yù)處理文檔圖像的版面特征信息并與掩模的特征信息進(jìn)行 匹配; 第四步,碎片化:即文檔圖片定位與分割,具體為采用圖像局部特征定位方法、表格識(shí) 別方法和OCR關(guān)鍵字符識(shí)別定位方法,對(duì)經(jīng)過文檔圖像掩膜步驟處理后的預(yù)處理文檔圖像 進(jìn)行切碎處理; 第五步:碎片的0CR/ICR識(shí)別:識(shí)別小碎片,拼接并輸出文字,以便進(jìn)行語(yǔ)意識(shí)別; 第六步,語(yǔ)意識(shí)別:利用統(tǒng)計(jì)語(yǔ)言模型算法結(jié)合行業(yè)辭典,對(duì)OCR / ICR的結(jié)果進(jìn)行邏 輯校驗(yàn)。
2. 根據(jù)權(quán)利要求1所述的基于云計(jì)算的文本掃描識(shí)別方法,其特征在于所述文檔圖像 預(yù)處理包括以下步驟: 首先,對(duì)原始圖像采用權(quán)平均法進(jìn)行處理后,再采用最大類間方差進(jìn)行二值化處理,將 原始的真彩色以及高DPI的灰度圖轉(zhuǎn)化為二值化的黑白圖; 其次,對(duì)二值化的黑白圖進(jìn)行圖像去噪,以去除了掃描過程中由于電子信號(hào)干擾帶來(lái) 的圖像噪點(diǎn),形成預(yù)處理文檔圖像; 第三,對(duì)預(yù)處理文檔圖像進(jìn)行糾偏處理,使扭曲的圖像還原。
3. 根據(jù)權(quán)利要求2所述的基于云計(jì)算的文本掃描識(shí)別方法,其特征在于所述文檔圖像 版面特征分析為:通過版面分析算法搜索整個(gè)預(yù)處理文檔圖像并對(duì)預(yù)處理文檔圖像進(jìn)行區(qū) 域劃分和類型識(shí)別,以獲得預(yù)處理文檔圖像的版面特征信息,所述版面特征信息包括區(qū)域 分割線坐標(biāo)信息、預(yù)處理文檔圖像的類型信息以及預(yù)處理文檔圖像中的文字對(duì)象的坐標(biāo)信 息。
4. 根據(jù)權(quán)利要求3所述的基于云計(jì)算的文本掃描識(shí)別方法,其特征在于:所述預(yù)處理 文檔圖像的類型信息包括文字、圖章、圖片、公式和條碼。
5. 根據(jù)權(quán)利要求4所述的基于云計(jì)算的文本掃描識(shí)別方法,其特征在于所述文檔圖像 掩膜為:分別用各類型的掩模依次覆蓋和匹配經(jīng)過文檔圖像版面特征分析步驟處理后的預(yù) 處理文檔圖像,如果掩模的特征信息和預(yù)處理文檔圖像的版面特征信息相一致,則所述預(yù) 處理文檔圖像與掩模的類型相一致并且將掩模的類型信息添加到預(yù)處理文檔圖像的版面 特征信息中。
6. 根據(jù)權(quán)利要求5所述的基于云計(jì)算的文本掃描識(shí)別方法,其特征在于:在文檔圖像 掩步驟中,還包括根據(jù)具體的業(yè)務(wù)特征制作各種類型的掩模的步驟。
7. 根據(jù)權(quán)利要求6所述的基于云計(jì)算的文本掃描識(shí)別方法,其特征在于所述文檔圖片 定位與分割包括以下步驟: 首先,將預(yù)處理文檔圖像進(jìn)行定位分割,即根據(jù)預(yù)處理文檔圖像的版面特征信息中的 掩膜的特征信息,提取掩膜的具體坐標(biāo)信息; 其次,根據(jù)掩模的具體坐標(biāo)信息,將具體的業(yè)務(wù)數(shù)據(jù)圖像從整個(gè)的預(yù)處理文檔圖像中 截取出來(lái),形成具有具體業(yè)務(wù)數(shù)據(jù)的碎片圖像。
8. 根據(jù)權(quán)利要求7所述的基于云計(jì)算的文本掃描識(shí)別方法,其特征在于:所述碎片的 OCR/ICR識(shí)別為對(duì)具有具體業(yè)務(wù)數(shù)據(jù)的碎片圖像通過多路OCR引擎進(jìn)行識(shí)別處理,以識(shí)別 小碎片,拼接并輸出文字。
9. 根據(jù)權(quán)利要求8所述的基于云計(jì)算的文本掃描識(shí)別方法,其特征在于:在所述碎片 的0CR/ICR識(shí)別過程中,采用大數(shù)據(jù)處理方案里的工作分解并發(fā)合成的方法對(duì)輸出文字第 四步中輸出的文字進(jìn)行分解并發(fā)與集成處理。
10. 根據(jù)權(quán)利要求7所述的基于云計(jì)算的文本掃描識(shí)別方法,其特征在于所述語(yǔ)意識(shí) 別包括以下步驟: 首先,根據(jù)不同的行業(yè)特征建立行業(yè)詞語(yǔ)庫(kù); 其次,對(duì)詞語(yǔ)進(jìn)行組合:針對(duì)不同專業(yè),生成專業(yè)詞語(yǔ)組合,并根據(jù)不同的行業(yè),基于所 述行業(yè)詞語(yǔ)庫(kù),統(tǒng)計(jì)得出詞語(yǔ)組合的概率分值; 第三,對(duì)OCR的結(jié)果句進(jìn)行劃分并自動(dòng)替換不可識(shí)別詞語(yǔ),生成多種組合句; 第四,計(jì)算生成的多種組合句的各自的總概率分值,并將總概率分值最高的組合句保 留。
【文檔編號(hào)】G06K9/20GK104123550SQ201310145112
【公開日】2014年10月29日 申請(qǐng)日期:2013年4月25日 優(yōu)先權(quán)日:2013年4月25日
【發(fā)明者】魏昊, 張磊 申請(qǐng)人:魏昊, 張磊