專利名稱:文字校對(duì)方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文字處理領(lǐng)域,尤其涉及一種對(duì)校對(duì)文字質(zhì)量的控制方法和裝置。
背景技術(shù):
一個(gè)完整的文檔錄入系統(tǒng)分為以下部分紙質(zhì)資料的整理、掃描、圖像預(yù)處理、版面分析、識(shí)別、校對(duì)和保存,其中校對(duì)是保證錄入文檔內(nèi)容準(zhǔn)確性的重要一環(huán)?,F(xiàn)有校對(duì)主要借助機(jī)器進(jìn)行,主要方式有兩種橫向校對(duì)和縱向校對(duì)。橫向校對(duì)直接將識(shí)別結(jié)果文本與圖像進(jìn)行對(duì)比,系統(tǒng)自動(dòng)調(diào)用文本所對(duì)應(yīng)的圖像進(jìn)行比對(duì),同時(shí),以顏色標(biāo)記識(shí)別可信度不高的文字??v向校對(duì)將文檔中識(shí)別結(jié)果為同一個(gè)字的文字圖像集中顯示,并以突出顏色標(biāo)出可疑字,發(fā)現(xiàn)錯(cuò)誤并修改。在實(shí)現(xiàn)上述文字校對(duì)的過程中,現(xiàn)有技術(shù)中至少存在如下問題無論是橫向校對(duì)還是縱向校對(duì),校對(duì)后都會(huì)存在一些殘留的沒有校對(duì)出的錯(cuò)誤,比如某字多處識(shí)別錯(cuò)誤,只修改了一部分,對(duì)于這些殘留錯(cuò)誤需要逐字核查,如果做大量這樣的工作的話,容易引起校對(duì)人員視覺疲勞,造成校對(duì)的準(zhǔn)確率降低,而且需要消耗大量的時(shí)間和精力。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供一種文字校對(duì)方法和裝置,能夠保證校對(duì)的準(zhǔn)確率。為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案一種文字校對(duì)方法,包括收集對(duì)文字進(jìn)行校對(duì)的修改信息;根據(jù)所述修改信息建立易錯(cuò)詞表;根據(jù)易錯(cuò)詞表查找文字中的可疑字并進(jìn)行提示。一種文字校對(duì)裝置,包括修改統(tǒng)計(jì)模塊用于收集對(duì)文字進(jìn)行校對(duì)的修改信息;易錯(cuò)詞表建立模塊用于根據(jù)所述修改信息建立易錯(cuò)詞表;易錯(cuò)詞表報(bào)警模塊用于根據(jù)易錯(cuò)詞表查找文字中的可疑字并進(jìn)行報(bào)警。本發(fā)明實(shí)施例提供的文字校對(duì)方法和裝置,利用文字校對(duì)的修改信息建立易錯(cuò)詞表,然后去全文中搜索殘留的可疑字并對(duì)殘留可疑字報(bào)警,方便核查,相對(duì)之前逐字核查找錯(cuò)檢驗(yàn)校對(duì)質(zhì)量的方法,本發(fā)明大大減少了核查工作量,減輕了核查人員的疲勞程度,在低報(bào)警率下保證了文字校對(duì)的質(zhì)量。
圖1為本發(fā)明文字校對(duì)方法的一個(gè)實(shí)施例的流程圖。圖2為本發(fā)明文字校對(duì)方法的另一個(gè)實(shí)施例的流程圖。圖加為易錯(cuò)詞表結(jié)構(gòu)采用哈希表結(jié)構(gòu)的結(jié)構(gòu)示意圖。
圖2b為易錯(cuò)詞表結(jié)構(gòu)采用漢字內(nèi)碼索引結(jié)構(gòu)的結(jié)構(gòu)示意圖。圖2c為“比”字的形似字集合示意圖。圖2d為分類圖像示意圖。圖2e為圖像聚類中的個(gè)類示意圖。圖3為本發(fā)明文字校對(duì)裝置的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例校對(duì)方法和裝置進(jìn)行詳細(xì)描述。本發(fā)明文字校對(duì)方法的一個(gè)實(shí)施例,如圖1所示,包括S101、收集對(duì)文字進(jìn)行校對(duì)的修改信息。首先對(duì)電子化文檔進(jìn)行或者其它機(jī)器輔助校對(duì),所述文檔可以是中文、英文或其它語(yǔ)言寫成,校對(duì)可以借助現(xiàn)有校對(duì)方式進(jìn)行,比如橫向校對(duì)和縱向校對(duì)。將所述校對(duì)后的文檔信息與校對(duì)前的文檔信息進(jìn)行通篇逐字比較,得到校對(duì)過程中的修改信息,包括字符的識(shí)別候選,修改之后的字符編碼,該字符在數(shù)據(jù)包的位置信息和該字符圖像的位置信息寸。S102、根據(jù)所述修改信息建立易錯(cuò)詞表。本步驟中,根據(jù)校對(duì)文字的語(yǔ)種確定該語(yǔ)種文字表述的使用習(xí)慣,比如,校對(duì)的文檔主體是以中文構(gòu)成的,中文是以單字結(jié)合成詞語(yǔ)的方式使用的,那么就先建立一個(gè)中文的語(yǔ)言模型,所述語(yǔ)言模型包括中文中不同文字組合成一個(gè)詞使用的概率。將概率量化成組合得分的形式,比如可以根據(jù)常用程度將不同字組合成一個(gè)詞的概率映射到0至255之間的組合得分,最生僻的詞為0,最常見的詞為255。如果從修改信息中查找到一處孤立修改的字,結(jié)合語(yǔ)言模型,取該字與前后相鄰字組合成詞中得分最高的詞,用目標(biāo)字符(也就是修改前的字)替換更新字符(也就是修改后的字)添加到易錯(cuò)詞表。比如,修改信息顯示文檔中有一處將“期間發(fā)生”錯(cuò)識(shí)成“期問發(fā)生”,又有修改成“間”的記錄,結(jié)合語(yǔ)言模型可以得到“期間”的得分高于“間發(fā)”的得分,因此將“期問”和對(duì)應(yīng)的可疑字“問”添加到易錯(cuò)詞表。S103、根據(jù)易錯(cuò)詞表查找文字中的可疑字并進(jìn)行提示。根據(jù)易錯(cuò)詞表對(duì)校對(duì)后的文檔進(jìn)行通篇查找,如果在校對(duì)后的文檔中出現(xiàn)易錯(cuò)詞表中的詞,對(duì)該詞的可疑字(曾經(jīng)出現(xiàn)在修改信息中的字)進(jìn)行標(biāo)識(shí)提示。本實(shí)施例利用文字校對(duì)的修改信息建立易錯(cuò)詞表,然后去全文中搜索殘留的易錯(cuò)詞并對(duì)殘留可疑字進(jìn)行提示,方便核查,相對(duì)之前逐字核查找錯(cuò)檢驗(yàn)校對(duì)質(zhì)量的方法,本發(fā)明大大減少了核查工作量,減輕了核查人員的疲勞程度,保證了校對(duì)的準(zhǔn)確率。本發(fā)明文字校對(duì)方法的另一個(gè)實(shí)施例,如圖2所示,包括S201、收集對(duì)文字進(jìn)行校對(duì)的修改信息。本步驟同步驟101,在此不做贅述。S202、根據(jù)所述修改信息建立易錯(cuò)詞表。本實(shí)施例中,首先建立語(yǔ)言模型,所述語(yǔ)言模型由已經(jīng)校對(duì)過的文本構(gòu)建,所述已經(jīng)校對(duì)過的文本可以是本語(yǔ)言大規(guī)??煽空Z(yǔ)料,也可以是本方法校對(duì)過的大量文件。所述語(yǔ)言模型包括不同文字組合成一個(gè)詞使用的概率。
然后結(jié)合語(yǔ)言模型,查找修改信息中用于對(duì)目標(biāo)字符修正的更新字符與前后相鄰沒有修改過的字組合成的詞中,使用概率最高的詞,將該詞用目標(biāo)字符替換更新字符,存入易錯(cuò)詞表,也將所述目標(biāo)字符作為與該詞對(duì)應(yīng)的可疑字存入易錯(cuò)詞表。此處評(píng)價(jià)不同字結(jié)合成詞的使用概率的方法,除了用步驟102中將概率量化成數(shù)值的形式外,也可以將不同字結(jié)合成詞的使用概率分為生僻、一般、常用等不同檔次,每一檔次內(nèi)可以根據(jù)實(shí)際需要進(jìn)一步細(xì)化成更小的檔次,通過檔次的比較來確定更新字符與前后相鄰字組合成的詞中,哪一個(gè)使用概率最高。如果連續(xù)修改兩個(gè)或者兩個(gè)以上字,查找更新字符與前后相鄰沒有修改過的字組合成的詞中,使用概率最高的兩個(gè)或者兩個(gè)以上詞,將上述詞用目標(biāo)字符替換更新字符,存入易錯(cuò)詞表。比如文檔中有一處將“2005-2006年間人口增長(zhǎng)”錯(cuò)識(shí)成“2005-2006年問入口增長(zhǎng)”,又有修改成“間”和“人”的記錄,結(jié)合語(yǔ)言模型可以得到“年間”的得分高于“間人,,的得分,“人口”的得分高于“間人”的得分,因此對(duì)應(yīng)將“期問”和“問”“,“入口 ”和 “入” “這兩個(gè)詞組和對(duì)應(yīng)可疑字添加到易錯(cuò)詞表。為了避免將常用詞添加到易錯(cuò)詞表,造成過多錯(cuò)誤提示,本實(shí)施例設(shè)定一個(gè)常用詞概率閾值,如果存入易錯(cuò)詞表的詞使用的概率超過所述常用詞概率閾值,刪除所述存入易錯(cuò)詞表的詞及對(duì)應(yīng)的可疑字。常用詞概率閾值可以根據(jù)經(jīng)驗(yàn)或者統(tǒng)計(jì)結(jié)果,按照評(píng)價(jià)不同字結(jié)合成詞的組合得分的方法設(shè)定,比如,如果將得分量化成數(shù)值0至255之間,那么常用詞概率閾值可以設(shè)定在180 ;如果將不同字結(jié)合成詞的使用概率分為生僻、一般、較常用,最常用等不同檔次,那么常用詞概率閾值可以設(shè)定在“較常用”檔次。比如,上面提到將 “入口 ”添加到易錯(cuò)詞表,但是“入口”的組合得分為255,超過了系統(tǒng)設(shè)定的常用詞組合得分閾值180,所以從易錯(cuò)詞表中刪除“入口,,和對(duì)應(yīng)的“入”字。易錯(cuò)詞表存儲(chǔ)結(jié)構(gòu)采用哈希表結(jié)構(gòu)或者漢字內(nèi)碼運(yùn)算作為位置索引的數(shù)組結(jié)構(gòu)。易錯(cuò)詞表結(jié)構(gòu)采用哈希表結(jié)構(gòu)的方式,可以適用于多種語(yǔ)言,以漢語(yǔ)為例,首先對(duì)添加的易錯(cuò)詞內(nèi)碼組成的字符串進(jìn)行哈希運(yùn)算得到數(shù)值,以該數(shù)值為索引,將所述易錯(cuò)詞的漢字內(nèi)碼和可疑字內(nèi)碼(如果是其它種類的文字,以該種語(yǔ)言對(duì)應(yīng)的編碼方式替換)加入到該索引下,如果多個(gè)易錯(cuò)詞哈希運(yùn)算數(shù)值相同,以單向鏈表的方式在同一哈希運(yùn)算數(shù)值索引下依次存儲(chǔ)多個(gè)易錯(cuò)詞和可疑字的漢字內(nèi)碼,如果某個(gè)哈希運(yùn)算數(shù)值索引下沒有易錯(cuò)詞對(duì)應(yīng),該哈希運(yùn)算數(shù)值索引對(duì)應(yīng)的單向鏈表為空。易錯(cuò)詞表結(jié)構(gòu)采用哈希表結(jié)構(gòu)的方式如圖加所示。假設(shè)“期閘”的哈希運(yùn)算數(shù)值為10001,“期問”和“重?!钡墓_\(yùn)算數(shù)值同為10002,詞組內(nèi)碼分別為C6DACECA、 D6D8CBA3,錯(cuò)字內(nèi)碼分別為CECA和CBA3。沒有與哈希運(yùn)算數(shù)值為10003對(duì)應(yīng)的詞。由于 “期問”和“重?!钡墓_\(yùn)算數(shù)值同為10002,在哈希表中沖突,所以用單向鏈表依次存儲(chǔ) “期問”和“重?!钡臐h字內(nèi)碼。由于沒有與漢字內(nèi)碼為10003對(duì)應(yīng)的詞,所以哈希表10003 的內(nèi)容為空(NULL)。由于漢字編碼的特殊性,對(duì)定長(zhǎng)的漢字編碼,比如二元詞組,易錯(cuò)詞表結(jié)構(gòu)也可以采用漢字內(nèi)碼作為索引的數(shù)組方式,用漢字內(nèi)碼進(jìn)行壓縮運(yùn)算作為一維數(shù)組索引進(jìn)行存儲(chǔ),壓縮過程保證漢字內(nèi)碼和壓縮值的一一映射。若該詞在易錯(cuò)詞表中該存儲(chǔ)單元可以設(shè)為可疑字的內(nèi)碼,否則設(shè)為0?;蛘邔?duì)二元詞組采用二維數(shù)組存儲(chǔ),每個(gè)漢字的內(nèi)碼進(jìn)行壓縮作為數(shù)組的行列坐標(biāo),壓縮過程也要保證漢字內(nèi)碼和壓縮值的一一映射。假設(shè)“重耍”的漢字內(nèi)碼壓縮為10000 ;“期問”的漢字內(nèi)碼為11000、“期閘”的漢字內(nèi)碼為11010,漢字內(nèi)
碼運(yùn)算作為一維數(shù)組索引的數(shù)組結(jié)構(gòu)如圖2b所示。S203、根據(jù)易錯(cuò)詞表查找文字中的可疑字并進(jìn)行提示。根據(jù)易錯(cuò)詞表對(duì)校對(duì)后的文檔進(jìn)行通篇查找,如果在校對(duì)后的文檔中出現(xiàn)易錯(cuò)詞表中的詞,對(duì)該詞對(duì)應(yīng)的可疑字進(jìn)行標(biāo)識(shí)提示。結(jié)合步驟S202易錯(cuò)詞表結(jié)構(gòu),如果易錯(cuò)詞表結(jié)構(gòu)采用哈希表結(jié)構(gòu)方式,對(duì)校對(duì)后的文檔逐詞進(jìn)行哈希運(yùn)算,得到哈希運(yùn)算數(shù)值作為索引查找,如果在易錯(cuò)詞表中該哈希運(yùn)算數(shù)值下有易錯(cuò)詞,進(jìn)一步比對(duì)文檔中該哈希運(yùn)算數(shù)值的詞與易錯(cuò)詞表中該哈希運(yùn)算數(shù)值下的易錯(cuò)詞的文字內(nèi)碼是否相同,如果相同,對(duì)校對(duì)后的文檔中的該易錯(cuò)詞對(duì)應(yīng)的可疑字進(jìn)行提示,否則如果易錯(cuò)詞表中該哈希運(yùn)算數(shù)值下易錯(cuò)詞鏈表下一項(xiàng)指針不為空,說明還有其他易錯(cuò)詞,繼續(xù)比較,直到易錯(cuò)詞鏈表指向下一項(xiàng)的指針為空。如果易錯(cuò)詞表結(jié)構(gòu)采用漢字內(nèi)碼作為索引的數(shù)組方式,對(duì)校對(duì)后的文檔逐詞對(duì)內(nèi)碼進(jìn)行運(yùn)算,查找數(shù)組對(duì)應(yīng)位置,如果該存儲(chǔ)單元不為0,對(duì)校對(duì)后的文檔中的該詞的可疑字進(jìn)行提示;其它情況下不提示。S204、結(jié)合修改信息從掃描的文本圖像中提取易錯(cuò)形似字圖像,整理成易錯(cuò)形似字集。對(duì)文本圖像中每個(gè)字符圖像,采用OCR識(shí)別引擎進(jìn)行識(shí)別的過程中每個(gè)識(shí)別字符會(huì)有多個(gè)候選,按識(shí)別距離從近到遠(yuǎn)排列,顯示的結(jié)果為第一候選。如果某個(gè)字符圖像的識(shí)別的候選字中出現(xiàn)修改信息中的原始識(shí)別結(jié)果,將該字符圖像、原始識(shí)別結(jié)果、修改后的結(jié)果、該字符在文檔中的位置等信息作為易錯(cuò)形似字單元保存到修改信息后的字對(duì)應(yīng)的易錯(cuò)形似字集中。作為改進(jìn),本實(shí)施例將OCR識(shí)別結(jié)果的候選字只限定在前三個(gè)候選字,候選取太多會(huì)增加計(jì)算量和提示數(shù)目,取太少無法充分檢查排除殘留的可疑字。比如文檔中有“比較”識(shí)別錯(cuò)誤為“此較”,又有把“此”改為“比”的記錄,查找將識(shí)別候選有“此”字的“此”、“比”、“業(yè)”等字符圖像等信息全部添加到“比”的形似字集合中, 如圖2c所示是“比”字的形似字集合圖像示意圖。數(shù)字為形似字集順序編號(hào),數(shù)字上面的大字符為從掃描的文本圖像中摳出的文字二值化圖像。數(shù)字右邊的小字符為當(dāng)前字符在文檔中當(dāng)前編碼,先前校對(duì)過程中沒有經(jīng)過修改的保持了初始識(shí)別結(jié)果,有修改的是修改后的結(jié)果。S205、對(duì)所述易錯(cuò)形似字圖像集進(jìn)行圖像聚類。提取易錯(cuò)形似字圖像集中每個(gè)字符圖像多維的方向線素特征。根據(jù)每個(gè)字符圖像多維的方向線素特征,通過最大最小距離法對(duì)字符圖像進(jìn)行圖像聚類。因?yàn)榛诜较虻奶卣鞣从沉藵h字的屬性,故本實(shí)施例中采用字符的方向線素特征來記錄字符圖像的字形特征。提取每張字符圖像多維的方向線素特征,然后對(duì)這些字符圖像的方向線素特征進(jìn)行聚類。由于本實(shí)施例中聚類的特征向量集合數(shù)目不大,如果使用通常的聚類算法K-means方法進(jìn)行聚類則初始時(shí)選擇的聚類中心過于鄰近,使多個(gè)聚類中心都被選擇在同一類中。故本實(shí)施例中,采用最大最小距離算法進(jìn)行圖像分類。需要指出的是最大最小距離算法是本實(shí)施例采用的優(yōu)選算法,本發(fā)明并不排斥采用其它常規(guī)聚類算法,如改進(jìn)的K-means方法。優(yōu)選的,圖像算法首先統(tǒng)計(jì)易錯(cuò)形似字圖像集中文字當(dāng)前內(nèi)碼,將每一種文字內(nèi)碼設(shè)為一類,得到實(shí)際類別數(shù),將圖像聚類的最大類別數(shù)設(shè)定為實(shí)際類別數(shù)的一倍或幾倍以上,這樣可以有效區(qū)分不同字符圖像。然后選取盡可能離得遠(yuǎn)的對(duì)象作為初始聚類中心, 這樣就可以得到數(shù)據(jù)的一個(gè)特征明顯的初始劃分,使各字符圖像的差異化更加顯著,從而形成各種分類。S206、統(tǒng)計(jì)圖像聚類后每一類易錯(cuò)形似字集中的每種更新字符的修改記錄數(shù)量, 以及每一類易錯(cuò)形似字集中每種字的文字識(shí)別結(jié)果數(shù)量。S207、將圖像聚類后每一類易錯(cuò)形似字集中修改記錄最多的一種更新字符作為該類的標(biāo)準(zhǔn)字,若沒有修改記錄則取文字識(shí)別結(jié)果最多的字作為標(biāo)準(zhǔn)字。如圖2d所示,這一類易錯(cuò)形似字集中修改記錄中最多的是將識(shí)別的“此”改為 “比”字,則將“比,,字作為本類的標(biāo)準(zhǔn)字。S208、對(duì)每一類易錯(cuò)形似字集中當(dāng)前結(jié)果與標(biāo)準(zhǔn)字不同的易錯(cuò)形似字進(jìn)行提示。如圖加所示,是實(shí)施例中圖像聚類中的一類易錯(cuò)形似字集,該類易錯(cuò)形似字集標(biāo)準(zhǔn)字是“比”,則依次比較該類易錯(cuò)形似字集中所有字符的當(dāng)前編碼,發(fā)現(xiàn)部分編碼依然為 “此”,則對(duì)其進(jìn)行提示。本實(shí)施例利用文字校對(duì)的修改信息建立易錯(cuò)詞表,然后去全文中搜索殘留的可疑字并對(duì)殘留可疑字進(jìn)行提示,方便核查。進(jìn)一步的,本實(shí)施例建立易錯(cuò)形似字集合,對(duì)可疑形似字符集圖像進(jìn)行圖像聚類,這樣通過統(tǒng)計(jì)以前校對(duì)信息得到的標(biāo)準(zhǔn)字,對(duì)殘留可疑字進(jìn)行提示。還可以先建立易錯(cuò)形似字集合,圖像聚類統(tǒng)計(jì)標(biāo)準(zhǔn)字查找錯(cuò)誤提示,然后再根據(jù)修改信息結(jié)合語(yǔ)言模型建立易錯(cuò)詞表查找錯(cuò)誤提示。這兩個(gè)階段是互補(bǔ)的,以求在低提示率下盡可能多的發(fā)現(xiàn)殘留錯(cuò)誤。兩個(gè)階段的執(zhí)行順序不是固定的,在統(tǒng)計(jì)完校對(duì)過程中的修改信息后,可以先執(zhí)行后者再執(zhí)行前者。兩個(gè)階段只要有一處提示,該字就要放到最后的可疑字集合中。相對(duì)現(xiàn)有逐字核查找錯(cuò)檢驗(yàn)校對(duì)質(zhì)量的方法,本發(fā)明大大減少了核查工作量,減輕了核查人員的疲勞程度。本發(fā)明文字校對(duì)裝置的一個(gè)實(shí)施例,如圖3所示,包括修改統(tǒng)計(jì)模塊31 用于收集對(duì)文字進(jìn)行校對(duì)的修改信息。所述修改信息包括修改字符修改前后的字符編碼和在文檔的位置等。易錯(cuò)詞表建立模塊32 用于根據(jù)所述修改信息建立易錯(cuò)詞表。本模塊首先建立語(yǔ)言模型,所述語(yǔ)言模型包括不同文字組合成一個(gè)詞使用的概率。然后結(jié)合語(yǔ)言模型,查找修改信息中更新字符與前后相鄰字組合成的詞中,使用概率最高的詞,將該詞用目標(biāo)字符替換更新字符,連同修改前的可疑字,存入易錯(cuò)詞表。易錯(cuò)詞表報(bào)警模塊33 用于根據(jù)易錯(cuò)詞表查找文字中的可疑字并進(jìn)行提示。進(jìn)一步的,本實(shí)施例的文字校對(duì)裝置,還包括易錯(cuò)形似字圖像集建立模塊34 用于結(jié)合修改信息從二值化后的單頁(yè)整幅圖像中提取易錯(cuò)形似字圖像,整理成易錯(cuò)形似字集。易錯(cuò)形似字圖像集建立模塊34遍歷文本中每個(gè)字符;如果某個(gè)字符原始識(shí)別的候選字中出現(xiàn)修改信息中的字,將該字符作為易錯(cuò)形似字保存到易錯(cuò)形似字集中。圖像聚類模塊35 用于對(duì)所述易錯(cuò)形似字集進(jìn)行圖像聚類。
圖像聚類模塊35首先提取易錯(cuò)形似字圖像集中每個(gè)字符圖像多維的方向線素特征;然后根據(jù)每個(gè)字符圖像多維的方向線素特征,通過最大最小距離法對(duì)字符圖像進(jìn)行圖像聚類。統(tǒng)計(jì)模塊36 用于統(tǒng)計(jì)圖像聚類后每一類易錯(cuò)形似字集中的每種更新字符的修改記錄數(shù)量,以及每一類易錯(cuò)形似字集中每種字的文字識(shí)別結(jié)果數(shù)量標(biāo)準(zhǔn)字選取模塊37 自動(dòng)統(tǒng)計(jì)分析類別的標(biāo)準(zhǔn)字,將圖像聚類后每一類易錯(cuò)形似字集中修改記錄最多的一種修改的更新字符作為該類的標(biāo)準(zhǔn)字,若沒有修改記錄則取文字識(shí)別結(jié)果最多的字作為標(biāo)準(zhǔn)字。圖像聚類報(bào)警模塊38:用于對(duì)每一類中當(dāng)前結(jié)果與標(biāo)準(zhǔn)字不同的易錯(cuò)形似字進(jìn)行提示。以上裝置實(shí)施例的具體實(shí)現(xiàn)過程見本發(fā)明方法實(shí)施例。本實(shí)施例建立易錯(cuò)詞表模塊利用文字校對(duì)的修改信息建立易錯(cuò)詞表,易錯(cuò)詞表報(bào)警模塊去全文中搜索殘留的可疑字并對(duì)殘留可疑字提示,方便核查。進(jìn)一步的,本實(shí)施例建立易錯(cuò)形似字集模塊建立易錯(cuò)形似字集,圖像聚類模塊對(duì)可疑形似字符集圖像進(jìn)行圖像聚類,標(biāo)準(zhǔn)字選取模塊得到標(biāo)準(zhǔn)字,圖像聚類報(bào)警模塊對(duì)殘留可疑字提示,相對(duì)之前逐字核查找錯(cuò)檢驗(yàn)校對(duì)質(zhì)量的方法,本發(fā)明大大減少了核查工作量,減輕了核查人員的疲勞程度。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory, ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory, RAM)等。以上所述,僅為本發(fā)明的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種文字校對(duì)方法,其特征在于,包括收集對(duì)文字進(jìn)行校對(duì)的修改信息;根據(jù)所述修改信息建立易錯(cuò)詞表;根據(jù)易錯(cuò)詞表查找文字中的可疑字并進(jìn)行提示。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述修改信息建立易錯(cuò)詞表包括建立語(yǔ)言模型,所述語(yǔ)言模型包括不同文字組合成一個(gè)詞使用的概率;結(jié)合語(yǔ)言模型查找修改信息中用于對(duì)目標(biāo)字符進(jìn)行修正的更新字符與前后相鄰字組合成的詞中使用概率最高的詞,用目標(biāo)字符替換使用概率最高的詞中的更新字符后將該使用概率最高的詞存入易錯(cuò)詞表,并將所述目標(biāo)字符作為與該詞對(duì)應(yīng)的可疑字存入易錯(cuò)詞表。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,結(jié)合語(yǔ)言模型查找修改信息中用于對(duì)目標(biāo)字符進(jìn)行修正的更新字符與前后相鄰字組合成的詞中使用概率最高的詞時(shí),如果連續(xù)修改兩個(gè)或者兩個(gè)以上字,查找更新字符與前后相鄰沒有修改過的字組合成的詞中,使用概率最高的兩個(gè)或者兩個(gè)以上詞,將上述詞用目標(biāo)字符替換更新字符,連同所述目標(biāo)字符作為與該詞對(duì)應(yīng)的可疑字存入易錯(cuò)詞表。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述修改信息建立易錯(cuò)詞表還包括設(shè)定常用詞概率閾值;如果存入易錯(cuò)詞表的詞使用概率超過所述常用詞概率閾值,刪除所述存入易錯(cuò)詞表的詞及對(duì)應(yīng)的可疑字。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,易錯(cuò)詞表結(jié)構(gòu)采用哈希表結(jié)構(gòu)或者漢字內(nèi)碼運(yùn)算作為位置索引的數(shù)組結(jié)構(gòu)。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述語(yǔ)言模型由已經(jīng)校對(duì)過的文本或者本語(yǔ)言其他可靠語(yǔ)料構(gòu)建。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括結(jié)合修改信息從二值化的單頁(yè)整幅文本圖像中提取易錯(cuò)形似字圖像,整理成易錯(cuò)形似字集;對(duì)所述易錯(cuò)形似字集進(jìn)行圖像聚類;統(tǒng)計(jì)圖像聚類后每一類易錯(cuò)形似字集中的每種更新字符的修改記錄數(shù)量,以及每一類易錯(cuò)形似字集中每種字的文字識(shí)別結(jié)果數(shù)量;將圖像聚類后每一類易錯(cuò)形似字集中修改記錄最多的一種更新字符作為該類的標(biāo)準(zhǔn)字,若沒有修改記錄則取文字識(shí)別結(jié)果最多的字作為標(biāo)準(zhǔn)字;對(duì)每一類易錯(cuò)形似字集中當(dāng)前結(jié)果與標(biāo)準(zhǔn)字不同的易錯(cuò)形似字進(jìn)行提示。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,結(jié)合修改信息從二值化的單頁(yè)整幅文本圖像中提取易錯(cuò)形似字圖像,整理成易錯(cuò)形似字集包括對(duì)文本圖像中每個(gè)字符圖像進(jìn)行OCR識(shí)別;如果某個(gè)字符圖像的OCR識(shí)別結(jié)果的候選字中出現(xiàn)修改信息中目標(biāo)字符,將該字符圖像作為其對(duì)應(yīng)的修改后字的易錯(cuò)形似字圖像保存到其對(duì)應(yīng)的易錯(cuò)形似字集中。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,對(duì)所述易錯(cuò)形似字圖像集進(jìn)行圖像聚類包括提取易錯(cuò)形似字集中每個(gè)字符圖像多維的方向線素特征;根據(jù)每個(gè)字符圖像多維的方向線素特征,通過最大最小距離法對(duì)字符圖像進(jìn)行圖像聚類。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,對(duì)所述易錯(cuò)形似字集進(jìn)行圖像聚類還包括聚類前統(tǒng)計(jì)易錯(cuò)形似字集中文字內(nèi)碼類別,得到實(shí)際類別數(shù),將圖像聚類的最大類別數(shù)設(shè)定為實(shí)際類別數(shù)的一倍以上。
11.一種文字校對(duì)裝置,其特征在于,包括修改統(tǒng)計(jì)模塊用于收集對(duì)文字進(jìn)行校對(duì)的修改信息;易錯(cuò)詞表建立模塊用于根據(jù)所述修改信息建立易錯(cuò)詞表;易錯(cuò)詞表報(bào)警模塊用于根據(jù)易錯(cuò)詞表查找文字中的可疑字并進(jìn)行提示。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,還包括易錯(cuò)形似字集建立模塊用于結(jié)合修改信息從二值化的單頁(yè)整幅文本圖像中提取易錯(cuò)形似字圖像,整理成易錯(cuò)形似字集;圖像聚類模塊用于對(duì)所述易錯(cuò)形似字集進(jìn)行圖像聚類;統(tǒng)計(jì)模塊用于統(tǒng)計(jì)圖像聚類后每一類易錯(cuò)形似字集中的每種更新字符的修改記錄數(shù)量,以及每一類易錯(cuò)形似字集中每種字的文字識(shí)別結(jié)果數(shù)量;標(biāo)準(zhǔn)字選取模塊用于將圖像聚類后每一類易錯(cuò)形似字集中修改記錄最多的一種更新字符作為該類的標(biāo)準(zhǔn)字,若沒有修改記錄則取文字識(shí)別結(jié)果最多的字作為標(biāo)準(zhǔn)字;圖像聚類報(bào)警模塊用于對(duì)每一類中當(dāng)前結(jié)果與標(biāo)準(zhǔn)字不同的易錯(cuò)形似字進(jìn)行報(bào)警。
全文摘要
本發(fā)明公開了一種文字校對(duì)方法和裝置,涉及文字處理領(lǐng)域。本發(fā)明實(shí)施例提供的方法,包括如下步驟收集對(duì)文字進(jìn)行校對(duì)的修改信息;根據(jù)所述修改信息建立易錯(cuò)詞表;根據(jù)易錯(cuò)詞表查找文字中的可疑字并進(jìn)行提示。本發(fā)明適用于文字錄入、數(shù)據(jù)加工系統(tǒng)。本發(fā)明為解決目前書籍資料電子化過程中校對(duì)文字質(zhì)量核查工作量大效率低的問題而發(fā)明,利用文字校對(duì)的修改信息建立易錯(cuò)詞表,然后去全文中搜索殘留的可疑字并對(duì)殘留可疑字報(bào)警,方便核查,相對(duì)之前逐字核查找錯(cuò)檢驗(yàn)校對(duì)質(zhì)量的方法,本發(fā)明大大減少了核查工作量,減輕了核查人員的疲勞程度,在低報(bào)警率下保證了文字校對(duì)的質(zhì)量。
文檔編號(hào)G06F17/30GK102375807SQ201010266100
公開日2012年3月14日 申請(qǐng)日期2010年8月27日 優(yōu)先權(quán)日2010年8月27日
發(fā)明者劉正珍, 高書征 申請(qǐng)人:漢王科技股份有限公司