錯(cuò)別字的檢查方法和裝置的制作方法

文檔序號(hào)：6334821閱讀：234來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：錯(cuò)別字的檢查方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)據(jù)領(lǐng)域，特別是指一種錯(cuò)別字的檢查方法和裝置。
背景技術(shù)：
錯(cuò)別字檢查是數(shù)據(jù)生產(chǎn)行業(yè)的典型工作環(huán)節(jié)。錯(cuò)別字的來(lái)源，主要有兩個(gè)方面第一方面是由于機(jī)器原因?qū)е碌臄?shù)據(jù)錯(cuò)誤。比如0CR(0ptical CharacterRecognition，光學(xué)字符識(shí)別)識(shí)別軟件的識(shí)別錯(cuò)誤。利用OCR識(shí)別軟件導(dǎo)致的錯(cuò)別字，一般是同形字。第二方面是人的錯(cuò)誤。典型的又分為如下幾類(1)同音字，很多情況下是由于在使用拼音輸入法時(shí)選擇錯(cuò)誤。例如“眼鏡”寫成 “眼睛”。(2)同形字，很多情況下是由于使用形狀類型輸入法(例如五筆輸入法)時(shí)選擇錯(cuò)誤。例如“體育”寫成“體肓”。(3)由于理解錯(cuò)誤時(shí)用錯(cuò)字或者用錯(cuò)詞。這些往往是由于對(duì)一些詞中的漢字把握不準(zhǔn)確。例如“迫不及待”寫成“迫不急待”；“松弛”寫成“松馳”等。對(duì)于數(shù)據(jù)生產(chǎn)企業(yè)而言，在生產(chǎn)過(guò)程中檢查錯(cuò)別字，防止錯(cuò)別字流入產(chǎn)品，是一個(gè)成本很大的過(guò)程。目前的錯(cuò)別字檢查方法為機(jī)器檢查錯(cuò)別字，典型的模式是建立一個(gè)錯(cuò)別詞與正確詞的對(duì)照表。然后通過(guò)對(duì)比分析方法甄別錯(cuò)別字。該方法需要維護(hù)錯(cuò)詞表，錯(cuò)詞表的數(shù)量決定了檢查效率。但是，積累錯(cuò)詞表是一個(gè)耗時(shí)和復(fù)雜的過(guò)程。錯(cuò)別字無(wú)定式，沒(méi)有積累的錯(cuò)字、錯(cuò)詞，是沒(méi)法進(jìn)行有效鑒別的。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是提供一種不需要預(yù)先建立錯(cuò)詞表的檢查錯(cuò)別字的方法和裝置。為解決上述技術(shù)問(wèn)題，本發(fā)明的實(shí)施例提供技術(shù)方案如下一方面，提供一種錯(cuò)別字的檢查方法，包括步驟一，獲取待檢查詞；步驟二，將所述待檢查詞進(jìn)行HASH函數(shù)處理，生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值；步驟三，判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中，生成判斷結(jié)果，所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成；步驟四，根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出，如果所述判斷結(jié)果為是，則所述檢查結(jié)果為所述待檢查詞正確；否則，所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。可選的，當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí)，所述方法還包括
步驟五，根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞；步驟六，依次判斷所述至少一個(gè)疑似詞是否正確；步驟七，輸出判斷為正確的所述疑似詞供用戶選擇；步驟八，接收用戶的選擇指令后，使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞?？蛇x的，當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí)，所述方法還包括步驟五，根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞；步驟六，依次判斷所述至少一個(gè)疑似詞是否正確；步驟七，統(tǒng)計(jì)判斷為正確的所述疑似詞的數(shù)量；步驟八，如果所述數(shù)量為0，則接收用戶提供的校對(duì)詞后，使用所述校對(duì)詞校正有錯(cuò)別字的所述待檢查詞；如果所述數(shù)量為1，則使用正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞；如果所述數(shù)量大于1，則輸出正確的所述疑似詞供用戶選擇，接收用戶的選擇指令后，使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。所述步驟五包括步驟a，將所述待檢查詞拆分成字；步驟b，分別查找所述拆分后的字對(duì)應(yīng)的同音字、近音字、同形字或近形字，作為查找出的字；步驟C，使用所述查找出的字代替所述拆分后的字，將所述待檢查詞構(gòu)造成疑似詞。所述步驟一之前，所述方法還包括選定一空間大小為N比特的存儲(chǔ)空間，所述存儲(chǔ)空間的相對(duì)地址以一維向量進(jìn)行編號(hào)，并從0開始，其中，N為大于0的自然數(shù)；將所述HASH函數(shù)的值域設(shè)置為從0到N ；將正確詞庫(kù)中的所有正確詞分別進(jìn)行HASH函數(shù)處理，生成HASH函數(shù)值；將所述HASH函數(shù)值作為所述存儲(chǔ)空間的相對(duì)地址，將所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為1 ；將所述存儲(chǔ)空間中沒(méi)有所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為0;所述步驟三具體為將所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值作為存儲(chǔ)空間的相對(duì)地址，判斷所述待檢查詞的HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容是否為1，生成判斷結(jié)^ ο所述HASH函數(shù)為一個(gè)或者至少二個(gè)。另一方面，提供一種錯(cuò)別字的檢查裝置，包括獲取單元，用于獲取待檢查詞；第一 HASH函數(shù)處理單元，用于將所述待檢查詞進(jìn)行HASH函數(shù)處理，生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值；第一正確詞判定單元，用于判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中，生成判斷結(jié)果，所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成；檢查結(jié)果生成單元，用于根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出，當(dāng)所述判斷結(jié)果為時(shí)，則所述檢查結(jié)果為所述待檢查詞正確；否則，所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。所述的錯(cuò)別字的檢查裝置，還包括疑似詞構(gòu)造單元，用于當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí)，根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞；第二正確詞判定單元，用于依次判斷所述至少一個(gè)疑似詞是否正確；輸出單元，用于輸出判斷為正確的所述疑似詞供用戶選擇；接收單元，用于接收用戶的選擇指令；校正單元，用于使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。所述的錯(cuò)別字的檢查裝置，還包括疑似詞構(gòu)造單元，用于當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí)，根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞；第二正確詞判定單元，用于依次判斷所述至少一個(gè)疑似詞是否正確；統(tǒng)計(jì)單元，用于統(tǒng)計(jì)判斷為正確的所述疑似詞的數(shù)量；接收單元，用于接收用戶提供的校對(duì)詞或者接收用戶的選擇指令；輸出單元，用于輸出正確的所述疑似詞供用戶選擇；校正單元，用于當(dāng)所述數(shù)量為0時(shí)，使用所述校對(duì)詞校正有錯(cuò)別字的所述待檢查詞；當(dāng)所述數(shù)量為1時(shí)，使用正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞；當(dāng)所述數(shù)量大于1時(shí)，使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。所述疑似詞構(gòu)造單元包括拆分子單元，用于將所述待檢查詞拆分成字；查找子單元，用于分別查找所述拆分后的字對(duì)應(yīng)的同音字、近音字、同形字或近形字，作為查找出的字；替代子單元，用于使用所述查找出的字代替所述拆分后的字，將所述待檢查詞構(gòu)造成疑似詞。所述的錯(cuò)別字的檢查裝置，還包括設(shè)定單元，用于選定一空間大小為N比特的存儲(chǔ)空間，所述存儲(chǔ)空間的相對(duì)地址以一維向量進(jìn)行編號(hào)，并從0開始，其中，N為大于0的自然數(shù)；第二 HASH函數(shù)處理單元，用于將所述HASH函數(shù)的值域設(shè)置為從0到N ；將正確詞庫(kù)中的所有正確詞分別進(jìn)行HASH函數(shù)處理，生成HASH函數(shù)值；賦值單元，將所述HASH函數(shù)值作為所述存儲(chǔ)空間的相對(duì)地址，將所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為1 ；將所述存儲(chǔ)空間中沒(méi)有所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為0 ；所述第一正確詞判定單元具體為將所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值作為存儲(chǔ)空間的相對(duì)地址，判斷所述待檢查詞的HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容是否為
Io本發(fā)明的實(shí)施例具有以下有益效果上述方案中，通過(guò)判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中，生成判斷結(jié)果，根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出，如果所述判斷結(jié)果為是，則所述檢查結(jié)果為所述待檢查詞正確；否則，所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。相比于現(xiàn)有技術(shù)來(lái)說(shuō)，不需要預(yù)先建立錯(cuò)詞表。

圖1為本發(fā)明所述的錯(cuò)別字的檢查方法的一實(shí)施例的流程示意圖；圖2為本發(fā)明所述的錯(cuò)別字的檢查方法的另一實(shí)施例的流程示意圖；圖3為本發(fā)明所述的錯(cuò)別字的檢查方法的另一實(shí)施例的流程示意圖；圖4為本發(fā)明所述的錯(cuò)別字的檢查裝置的結(jié)構(gòu)示意圖；圖5為本發(fā)明所述的生成HASH函數(shù)值數(shù)據(jù)庫(kù)的示意圖。
具體實(shí)施例方式為使本發(fā)明的實(shí)施例要解決的技術(shù)問(wèn)題、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合附圖及具體實(shí)施例進(jìn)行詳細(xì)描述。如圖1所示，為本發(fā)明所述的一種錯(cuò)別字的檢查方法的一實(shí)施例，包括步驟11，獲取待檢查詞；步驟12，將所述待檢查詞進(jìn)行HASH函數(shù)處理，生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值；步驟13，判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中，生成判斷結(jié)果，所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成；根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出，如果所述判斷結(jié)果為是，則執(zhí)行步驟14，所述檢查結(jié)果為所述待檢查詞正確；否則，執(zhí)行步驟15，所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字?？蛇x的，當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí)，所述方法還包括步驟16，根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞；步驟17，依次判斷所述至少一個(gè)疑似詞是否正確；步驟18，輸出判斷為正確的所述疑似詞供用戶選擇；步驟19，接收用戶的選擇指令后，使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。如圖2所示，為本發(fā)明所述的一種錯(cuò)別字的檢查方法的另一實(shí)施例，包括步驟21，獲取待檢查詞；步驟22，將所述待檢查詞進(jìn)行HASH函數(shù)處理，生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值；步驟23，判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中，生成判斷結(jié)果，所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成；根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出，如果所述判斷結(jié)果為是，則執(zhí)行步驟M，所述檢查結(jié)果為所述待檢查詞正確；否則，執(zhí)行步驟25，所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí)，所述方法還包括步驟沈，根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞；步驟27，依次判斷所述至少一個(gè)疑似詞是否正確；步驟觀，統(tǒng)計(jì)判斷為正確的所述疑似詞的數(shù)量；如果所述數(shù)量為0，則執(zhí)行步驟四，接收用戶提供的校對(duì)詞后，使用所述校對(duì)詞校正有錯(cuò)別字的所述待檢查詞；如果所述數(shù)量為1，則執(zhí)行步驟210，使用正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞；如果所述數(shù)量大于1，則執(zhí)行步驟211，輸出正確的所述疑似詞供用戶選擇，接收用戶的選擇指令后，使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。所述步驟沈包括步驟沈1，將所述待檢查詞拆分成字；步驟沈2，分別查找所述拆分后的字對(duì)應(yīng)的同音字、近音字、同形字或近形字，作為查找出的字；步驟沈3，使用所述查找出的字代替所述拆分后的字，將所述待檢查詞構(gòu)造成疑似詞。如圖3所示，為本發(fā)明所述的一種錯(cuò)別字的檢查方法的另一實(shí)施例，包括步驟31，選定一空間大小為N比特的存儲(chǔ)空間，所述存儲(chǔ)空間的相對(duì)地址以一維向量進(jìn)行編號(hào)，并從0開始，其中，N為大于0的自然數(shù)；步驟32，將所述HASH函數(shù)的值域設(shè)置為從0到N ；將正確詞庫(kù)中的所有正確詞分別進(jìn)行HASH函數(shù)處理，生成HASH函數(shù)值；步驟33，將所述HASH函數(shù)值作為所述存儲(chǔ)空間的相對(duì)地址，將所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為1 ；將所述存儲(chǔ)空間中沒(méi)有所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為0 ；步驟34，獲取待檢查詞；步驟35，將所述待檢查詞進(jìn)行HASH函數(shù)處理，生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值；步驟36，將所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值作為存儲(chǔ)空間的相對(duì)地址，判斷所述待檢查詞的HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容是否為1，生成判斷結(jié)果。根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出，如果所述判斷結(jié)果為是，則執(zhí)行步驟37，所述檢查結(jié)果為所述待檢查詞正確；否則，執(zhí)行步驟38，所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。所述HASH函數(shù)為一個(gè)或者至少二個(gè)。如圖4所示，為本發(fā)明所述的一種錯(cuò)別字的檢查裝置的一實(shí)施例，包括獲取單元41，用于獲取待檢查詞；第一 HASH函數(shù)處理單元42，用于將所述待檢查詞進(jìn)行HASH函數(shù)處理，生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值；第一正確詞判定單元43，用于判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中，生成判斷結(jié)果，所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成；檢查結(jié)果生成單元44，用于根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出，當(dāng)所述判斷結(jié)果為時(shí)，則所述檢查結(jié)果為所述待檢查詞正確；否則，所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。可選的，所述的錯(cuò)別字的檢查裝置，還包括疑似詞構(gòu)造單元45，用于當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí)，根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞；第二正確詞判定單元46，用于依次判斷所述至少一個(gè)疑似詞是否正確；輸出單元47，用于輸出判斷為正確的所述疑似詞供用戶選擇；接收單元48，用于接收用戶的選擇指令；校正單元49，用于使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。可選的，所述的錯(cuò)別字的檢查裝置，還包括統(tǒng)計(jì)單元410，用于統(tǒng)計(jì)判斷為正確的所述疑似詞的數(shù)量；輸出單元47，還用于輸出正確的所述疑似詞供用戶選擇；接收單元48，還用于接收用戶提供的校對(duì)詞或者接收用戶的選擇指令；校正單元49，還用于當(dāng)所述數(shù)量為0時(shí)，使用所述校對(duì)詞校正有錯(cuò)別字的所述待檢查詞；當(dāng)所述數(shù)量為1時(shí)，使用正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞；當(dāng)所述數(shù)量大于1時(shí)，使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。所述疑似詞構(gòu)造單元45包括拆分子單元，用于將所述待檢查詞拆分成字；查找子單元，用于分別查找所述拆分后的字對(duì)應(yīng)的同音字、近音字、同形字或近形字，作為查找出的字；替代子單元，用于使用所述查找出的字代替所述拆分后的字，將所述待檢查詞構(gòu)造成疑似詞。所述的錯(cuò)別字的檢查裝置，還包括設(shè)定單元411，用于選定一空間大小為N比特的存儲(chǔ)空間，所述存儲(chǔ)空間的相對(duì)地址以一維向量進(jìn)行編號(hào)，并從0開始，其中，N為大于0的自然數(shù)；第二 HASH函數(shù)處理單元412，用于將所述HASH函數(shù)的值域設(shè)置為從0到N ；將正確詞庫(kù)中的所有正確詞分別進(jìn)行HASH函數(shù)處理，生成HASH函數(shù)值；賦值單元413，將所述HASH函數(shù)值作為所述存儲(chǔ)空間的相對(duì)地址，將所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為1 ；將所述存儲(chǔ)空間中沒(méi)有所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為0 ；所述第一正確詞判定單元43具體為將所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值作為存儲(chǔ)空間的相對(duì)地址，判斷所述待檢查詞的HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容是否為1。本發(fā)明中，正確詞庫(kù)存儲(chǔ)了拼寫正確的詞匯。包括簡(jiǎn)單詞如“人民” “中國(guó)”；也包括各種多字詞，如“得隴望蜀”，“中華人民共和國(guó)”等；也可以是組合詞，例如“眼鏡店”。
正確詞快檢表(上文所述的HASH函數(shù)值數(shù)據(jù)庫(kù))，是為了將正確詞有效壓縮，易于放置在內(nèi)存空間，便于快速判斷一個(gè)詞匯是否為一個(gè)正確詞。將正確詞庫(kù)壓縮為正確詞快檢表后，存儲(chǔ)空間大大減少，但如無(wú)法一次性放入內(nèi)存，則可按詞頻將高頻詞的快檢表放置在內(nèi)存。Hash(散列)函數(shù)，就是把任意長(zhǎng)度的輸入(又叫做預(yù)映射，pre-image)，通過(guò)散列算法，變換成固定長(zhǎng)度的輸出，該輸出就是散列值(本文的Hash函數(shù)值)，散列值均勻分布在哈希表的值域中。這種轉(zhuǎn)換是一種壓縮映射，也就是，散列值的空間通常遠(yuǎn)小于輸入的空間，因此，使得正確詞庫(kù)生成的HASH函數(shù)值數(shù)據(jù)庫(kù)占用的存儲(chǔ)空間小于直接存儲(chǔ)正確詞庫(kù)的存儲(chǔ)空間。同/近音字表，存儲(chǔ)了同/近音的字。例如，同音字“在”與“再”、“宰”；近音字 “摘”與“載”等。由于常用漢字?jǐn)?shù)在萬(wàn)字以內(nèi)，因此，同/近音字表不大，可放置在內(nèi)存中。同/近音字表，可以通過(guò)自動(dòng)化的方法由字典生產(chǎn)。同/近形字表，儲(chǔ)了同/近形的字。例如“人”與“入”，“育”與“肓”等。同/近形字表可通過(guò)自動(dòng)化方法生成，例如，利用筆順相似、四角號(hào)碼相似、五筆字型相似等規(guī)則生成；也可通過(guò)人工輸入一些同/近形字。同/近形表不大，可放置在內(nèi)存中。以下描述本發(fā)明所述的錯(cuò)別字檢查流程的應(yīng)用場(chǎng)景，包括步驟一，輸入詞匯，進(jìn)入正確詞判定單元，進(jìn)行正確詞判定，這個(gè)過(guò)程中，涉及到查詢正確詞快檢表。如果判定為正確詞，則結(jié)束處理；否則，進(jìn)入步驟二。例如判定“入民”不是正確詞。利用正確詞快檢表快速判斷一個(gè)詞匯是否存儲(chǔ)于正確詞庫(kù)，也即是否為一個(gè)正確詞。例如“入民”不在正確詞庫(kù)內(nèi)，判定不是一個(gè)正確詞。步驟二，上述輸入詞(也就是上文所述的待檢查詞，例如“入民”)輸入疑似詞構(gòu)造
單元，通過(guò)同/近音字表和同/近形字表，按照用同/近音字替換，同/近形字替換的方法，構(gòu)造一組疑似詞。例如輸入詞為“入民”，分別拆分成“入”和“民”。通過(guò)查找同/近音字表和同/近形字表，獲取“入”的同/近音字“如”、“乳”、獲取 “民”的同/近音字“閩”、“敏”、“民”等。通過(guò)查找同/近形字表，獲取“入”的同/近音字“人”。使用所述查找出的字代替所述拆分的字，將所述待檢查詞“入民”構(gòu)造為“如民”、 “乳民，，、“入閩，，、“入敏”、“人民”等。步驟三，將步驟二輸出的一組疑似詞，輸入正確詞判定單元，檢查是否存在正確詞。上例中五個(gè)疑似詞中，輸出“人民”為驗(yàn)證正確的疑似詞。步驟四，使用步驟三輸出的驗(yàn)證正確的疑似詞“人民”代替步驟二檢查的詞匯“入民”。輸出“人民”為正確詞，則使用“人民”代替“入民”。如圖5所示，為本發(fā)明所述的生成正確詞快檢表(上文所述的HASH函數(shù)值數(shù)據(jù)庫(kù))的示意圖，所述方法包括步驟一，構(gòu)造一維空間，空間的每個(gè)比特的存儲(chǔ)內(nèi)容賦值為0。例如，空間大小為 80億位，則占用空間為1GB。存儲(chǔ)空間可放入內(nèi)存以加快處理速度。步驟二，構(gòu)造多維Hash函數(shù)。例如，構(gòu)造2維Hash函數(shù)，也就是說(shuō)，構(gòu)造兩個(gè)獨(dú)立的Hash函數(shù)。Hash函數(shù)的值域與上述一維空間的大小一致，為80億。步驟三，對(duì)正確詞庫(kù)中每一詞匯，通過(guò)多維Hash函數(shù)構(gòu)造一個(gè)多維向量。例如，“人民”，其bit串作為輸入，通過(guò)上述2個(gè)Hash函數(shù)，生成值構(gòu)成向量(XI，X2)步驟四，將向量的每一維，按其值在步驟一生成的一維空間尋址，將存儲(chǔ)空間的對(duì)應(yīng)比特位賦1。如，上述(XI，X2)，將一維空間的第Xl位賦1，將一維空間的第X2位賦1。步驟五，如果正確詞庫(kù)仍有詞未處理，則返回步驟三，直到正確詞庫(kù)中的每個(gè)正確詞被處理。在圖5中，詞的投影處(影子)的比特位賦值為1，其余的比特位賦值為0。通過(guò)上述流程，構(gòu)造一維空間及賦值，形成了正確詞快檢表。這個(gè)構(gòu)造完成后，將結(jié)果保存。后續(xù)檢查時(shí)，直接使用正確詞快檢表，而不需重新構(gòu)造。以下描本發(fā)明利用正確詞快檢表檢查詞匯是否正確的應(yīng)用場(chǎng)景，包括步驟一，對(duì)于一個(gè)詞匯，使用前述流程的多維Hash函數(shù)生成一個(gè)多維向量。例如， “人民”，其bit串作為輸入，通過(guò)上述2個(gè)Hash函數(shù)，生成值構(gòu)成向量(X1，X2)。當(dāng)HASH函數(shù)為二維以上的多維時(shí)，HASH函數(shù)值的多維向量為存儲(chǔ)空間以一維向量進(jìn)行編號(hào)的相對(duì)地址。步驟二，將向量的每一維，按其值在一維空間尋址。也就是說(shuō)，存儲(chǔ)空間以一維向量順序編號(hào)，Hash函數(shù)值的多維向量轉(zhuǎn)換為一維。將如，上述(X1，X2)，尋址一維空間第Xl 位，第X2位。如果上述位都被賦1，則判斷該詞匯為正確詞。本發(fā)明所述的錯(cuò)別字檢查的方法和裝置具有以下有益效果(1)對(duì)于錯(cuò)別字檢查，尤其是面對(duì)海量數(shù)據(jù)，本發(fā)明是一種高效率的檢查方法?，F(xiàn)有技術(shù)中，存儲(chǔ)錯(cuò)詞表和正確詞表都需要很大空間。在檢查過(guò)程中，不論是檢索錯(cuò)詞還是正確詞，都不可避免訪問(wèn)硬盤數(shù)據(jù)，這是整個(gè)檢查效率的瓶頸。一般而言，在少量數(shù)據(jù)中檢查錯(cuò)別字，效率尚可忍受。但是對(duì)于海量數(shù)據(jù)的錯(cuò)別字檢查，其效率將成為問(wèn)題。本發(fā)明中，在典型計(jì)算機(jī)配置下，HASH函數(shù)值數(shù)據(jù)庫(kù)占用的存儲(chǔ)空間比較小，可選的，可以預(yù)先調(diào)入內(nèi)存，避免了耗時(shí)的磁盤訪問(wèn)，并且Hash函數(shù)計(jì)算量不大，從而在數(shù)量級(jí)上提高檢查效率。(2)本發(fā)明是一種“少量學(xué)習(xí)”甚至是“無(wú)需學(xué)習(xí)”的檢查方法，從而在成本和檢查錯(cuò)別字的正確性上都有優(yōu)勢(shì)。目前的錯(cuò)別字檢查方法，需要人工不斷充實(shí)錯(cuò)詞表，未收集的錯(cuò)詞是無(wú)法被檢查的。本發(fā)明沒(méi)有“錯(cuò)詞表”，因此沒(méi)有收集、充實(shí)錯(cuò)詞表的過(guò)程。本發(fā)明所需的“同/近音字表”，“同/近形字表”，皆可一次建立而無(wú)需后期反復(fù)充實(shí)，建立過(guò)程可以是自動(dòng)化過(guò)程，不消耗人工。本發(fā)明所需“正確詞庫(kù)”，在行業(yè)內(nèi)屬于成本不高、可采購(gòu)的商品。所述方法實(shí)施例是與所述裝置實(shí)施例相對(duì)應(yīng)的，在方法實(shí)施例中未詳細(xì)描述的部分參照裝置實(shí)施例中相關(guān)部分的描述即可，在裝置實(shí)施例中未詳細(xì)描述的部分參照方法實(shí)施例中相關(guān)部分的描述即可。本領(lǐng)域普通技術(shù)人員可以理解，實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成，所述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中，該程序在執(zhí)行時(shí)，包括如上述方法實(shí)施例的步驟，所述的存儲(chǔ)介質(zhì)，如磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory, ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory, RAM)等。在本發(fā)明各方法實(shí)施例中，所述各步驟的序號(hào)并不能用于限定各步驟的先后順序，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，對(duì)各步驟的先后變化也在本發(fā)明的保護(hù)范圍之內(nèi)。
以上所述是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明所述原理的前提下，還可以作出若干改進(jìn)和潤(rùn)飾，這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種錯(cuò)別字的檢查方法，其特征在于，包括步驟一，獲取待檢查詞；步驟二，將所述待檢查詞進(jìn)行哈希HASH函數(shù)處理，生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值；步驟三，判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中，生成判斷結(jié)果，所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成；步驟四，根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出，如果所述判斷結(jié)果為是，則所述檢查結(jié)果為所述待檢查詞正確；否則，所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。
2.根據(jù)權(quán)利要求1所述的錯(cuò)別字的檢查方法，其特征在于，當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí)，所述方法還包括步驟五，根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞；步驟六，依次判斷所述至少一個(gè)疑似詞是否正確；步驟七，輸出判斷為正確的所述疑似詞供用戶選擇；步驟八，接收用戶的選擇指令后，使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。
3.根據(jù)權(quán)利要求1所述的錯(cuò)別字的檢查方法，其特征在于，當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí)，所述方法還包括步驟五，根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞；步驟六，依次判斷所述至少一個(gè)疑似詞是否正確；步驟七，統(tǒng)計(jì)判斷為正確的所述疑似詞的數(shù)量；步驟八，如果所述數(shù)量為0，則接收用戶提供的校對(duì)詞后，使用所述校對(duì)詞校正有錯(cuò)別字的所述待檢查詞；如果所述數(shù)量為1，則使用正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞；如果所述數(shù)量大于1，則輸出正確的所述疑似詞供用戶選擇，接收用戶的選擇指令后，使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。
4.根據(jù)權(quán)利要求2或3所述的錯(cuò)別字的檢查方法，其特征在于，所述步驟五包括步驟a，將所述待檢查詞拆分成字；步驟b，分別查找所述拆分后的字對(duì)應(yīng)的同音字、近音字、同形字或近形字，作為查找出的字；步驟c，使用所述查找出的字代替所述拆分后的字，將所述待檢查詞構(gòu)造成疑似詞。
5.根據(jù)權(quán)利要求1所述的錯(cuò)別字的檢查方法，其特征在于，所述步驟一之前，所述方法還包括選定一空間大小為N比特的存儲(chǔ)空間，所述存儲(chǔ)空間的相對(duì)地址以一維向量進(jìn)行編號(hào)，并從0開始，其中，N為大于0的自然數(shù)；將所述HASH函數(shù)的值域設(shè)置為從0到N，將正確詞庫(kù)中的所有正確詞分別進(jìn)行HASH函數(shù)處理，生成HASH函數(shù)值；將所述HASH函數(shù)值作為所述存儲(chǔ)空間的相對(duì)地址，將所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為1 ；將所述存儲(chǔ)空間中沒(méi)有所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為0;所述步驟三具體為將所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值作為存儲(chǔ)空間的相對(duì)地址，判斷所述待檢查詞的HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容是否為1，生成判斷結(jié)果。
6.根據(jù)權(quán)利要求1所述的錯(cuò)別字的檢查方法，其特征在于，所述HASH函數(shù)為一個(gè)或者至少二個(gè)。
7.一種錯(cuò)別字的檢查裝置，其特征在于，包括獲取單元，用于獲取待檢查詞；第一 HASH函數(shù)處理單元，用于將所述待檢查詞進(jìn)行HASH函數(shù)處理，生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值；第一正確詞判定單元，用于判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中，生成判斷結(jié)果，所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成；檢查結(jié)果生成單元，用于根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出，當(dāng)所述判斷結(jié)果為時(shí)，則所述檢查結(jié)果為所述待檢查詞正確；否則，所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。
8.根據(jù)權(quán)利要求7所述的錯(cuò)別字的檢查裝置，其特征在于，還包括疑似詞構(gòu)造單元，用于當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí)，根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞；第二正確詞判定單元，用于依次判斷所述至少一個(gè)疑似詞是否正確；輸出單元，用于輸出判斷為正確的所述疑似詞供用戶選擇；接收單元，用于接收用戶的選擇指令；校正單元，用于使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。
9.根據(jù)權(quán)利要求7所述的錯(cuò)別字的檢查裝置，其特征在于，還包括疑似詞構(gòu)造單元，用于當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí)，根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞；第二正確詞判定單元，用于依次判斷所述至少一個(gè)疑似詞是否正確；統(tǒng)計(jì)單元，用于統(tǒng)計(jì)判斷為正確的所述疑似詞的數(shù)量；接收單元，用于接收用戶提供的校對(duì)詞或者接收用戶的選擇指令；輸出單元，用于輸出正確的所述疑似詞供用戶選擇；校正單元，用于當(dāng)所述數(shù)量為0時(shí)，使用所述校對(duì)詞校正有錯(cuò)別字的所述待檢查詞；當(dāng)所述數(shù)量為1時(shí)，使用正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞；當(dāng)所述數(shù)量大于1 時(shí)，使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。
10.根據(jù)權(quán)利要求8或9所述的錯(cuò)別字的檢查裝置，其特征在于，所述疑似詞構(gòu)造單元包括拆分子單元，用于將所述待檢查詞拆分成字；查找子單元，用于分別查找所述拆分后的字對(duì)應(yīng)的同音字、近音字、同形字或近形字，作為查找出的字；替代子單元，用于使用所述查找出的字代替所述拆分后的字，將所述待檢查詞構(gòu)造成疑似詞。
11.根據(jù)權(quán)利要求7所述的錯(cuò)別字的檢查裝置，其特征在于，還包括設(shè)定單元，用于選定一空間大小為N比特的存儲(chǔ)空間，所述存儲(chǔ)空間的相對(duì)地址以一維向量進(jìn)行編號(hào)，并從0開始，其中，N為大于0的自然數(shù)；第二 HASH函數(shù)處理單元，用于將所述HASH函數(shù)的值域設(shè)置為從0到N ；將正確詞庫(kù)中的所有正確詞分別進(jìn)行HASH函數(shù)處理，生成HASH函數(shù)值；賦值單元，將所述HASH函數(shù)值作為所述存儲(chǔ)空間的相對(duì)地址，將所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為1 ；將所述存儲(chǔ)空間中沒(méi)有所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為0;所述第一正確詞判定單元具體為將所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值作為存儲(chǔ)空間的相對(duì)地址，判斷所述待檢查詞的HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容是否為1。
全文摘要
本發(fā)明提供一種錯(cuò)別字的檢查方法和裝置，涉及數(shù)據(jù)領(lǐng)域，為解決現(xiàn)有技術(shù)中錯(cuò)別字檢查需要預(yù)先建立錯(cuò)別詞表的技術(shù)問(wèn)題而發(fā)明。所述方法包括步驟一，獲取待檢查詞；步驟二，將所述待檢查詞進(jìn)行HASH函數(shù)處理，生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值；步驟三，判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中，生成判斷結(jié)果，所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成；步驟四，根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出，如果所述判斷結(jié)果為是，則所述檢查結(jié)果為所述待檢查詞正確；否則，所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。本發(fā)明能夠提高錯(cuò)別字檢查的工作效率。
文檔編號(hào)G06F17/27GK102456001SQ20101052750
公開日2012年5月16日申請(qǐng)日期2010年10月27日優(yōu)先權(quán)日2010年10月27日
發(fā)明者向哲, 徐晉暉, 曹曉航, 高超申請(qǐng)人:北京四維圖新科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：向哲;高超;徐晉暉;曹曉航
技術(shù)所有人：北京四維圖新科技股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

檢查裝置氣密性的方法相關(guān)技術(shù)

裝置氣密性檢查方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

錯(cuò)別字的檢查方法和裝置的制作方法