国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      錯(cuò)別字的檢查方法和裝置的制作方法

      文檔序號(hào):6334821閱讀:234來(lái)源:國(guó)知局
      專利名稱:錯(cuò)別字的檢查方法和裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及數(shù)據(jù)領(lǐng)域,特別是指一種錯(cuò)別字的檢查方法和裝置。
      背景技術(shù)
      錯(cuò)別字檢查是數(shù)據(jù)生產(chǎn)行業(yè)的典型工作環(huán)節(jié)。錯(cuò)別字的來(lái)源,主要有兩個(gè)方面第一方面是由于機(jī)器原因?qū)е碌臄?shù)據(jù)錯(cuò)誤。比如0CR(0ptical CharacterRecognition,光學(xué)字符識(shí)別)識(shí)別軟件的識(shí)別錯(cuò)誤。利用OCR識(shí)別軟件導(dǎo)致的錯(cuò)別字,一般是同形字。第二方面是人的錯(cuò)誤。典型的又分為如下幾類(1)同音字,很多情況下是由于在使用拼音輸入法時(shí)選擇錯(cuò)誤。例如“眼鏡”寫成 “眼睛”。(2)同形字,很多情況下是由于使用形狀類型輸入法(例如五筆輸入法)時(shí)選擇錯(cuò)誤。例如“體育”寫成“體肓”。(3)由于理解錯(cuò)誤時(shí)用錯(cuò)字或者用錯(cuò)詞。這些往往是由于對(duì)一些詞中的漢字把握不準(zhǔn)確。例如“迫不及待”寫成“迫不急待”;“松弛”寫成“松馳”等。對(duì)于數(shù)據(jù)生產(chǎn)企業(yè)而言,在生產(chǎn)過(guò)程中檢查錯(cuò)別字,防止錯(cuò)別字流入產(chǎn)品,是一個(gè)成本很大的過(guò)程。目前的錯(cuò)別字檢查方法為機(jī)器檢查錯(cuò)別字,典型的模式是建立一個(gè)錯(cuò)別詞與正確詞的對(duì)照表。然后通過(guò)對(duì)比分析方法甄別錯(cuò)別字。該方法需要維護(hù)錯(cuò)詞表,錯(cuò)詞表的數(shù)量決定了檢查效率。但是,積累錯(cuò)詞表是一個(gè)耗時(shí)和復(fù)雜的過(guò)程。錯(cuò)別字無(wú)定式,沒(méi)有積累的錯(cuò)字、錯(cuò)詞,是沒(méi)法進(jìn)行有效鑒別的。

      發(fā)明內(nèi)容
      本發(fā)明要解決的技術(shù)問(wèn)題是提供一種不需要預(yù)先建立錯(cuò)詞表的檢查錯(cuò)別字的方法和裝置。為解決上述技術(shù)問(wèn)題,本發(fā)明的實(shí)施例提供技術(shù)方案如下一方面,提供一種錯(cuò)別字的檢查方法,包括步驟一,獲取待檢查詞;步驟二,將所述待檢查詞進(jìn)行HASH函數(shù)處理,生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值;步驟三,判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中,生成判斷結(jié)果,所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成;步驟四,根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出,如果所述判斷結(jié)果為是,則所述檢查結(jié)果為所述待檢查詞正確;否則,所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。可選的,當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí),所述方法還包括
      步驟五,根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞;步驟六,依次判斷所述至少一個(gè)疑似詞是否正確;步驟七,輸出判斷為正確的所述疑似詞供用戶選擇;步驟八,接收用戶的選擇指令后,使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞??蛇x的,當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí),所述方法還包括步驟五,根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞;步驟六,依次判斷所述至少一個(gè)疑似詞是否正確;步驟七,統(tǒng)計(jì)判斷為正確的所述疑似詞的數(shù)量;步驟八,如果所述數(shù)量為0,則接收用戶提供的校對(duì)詞后,使用所述校對(duì)詞校正有錯(cuò)別字的所述待檢查詞;如果所述數(shù)量為1,則使用正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞;如果所述數(shù)量大于1,則輸出正確的所述疑似詞供用戶選擇,接收用戶的選擇指令后,使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。所述步驟五包括步驟a,將所述待檢查詞拆分成字;步驟b,分別查找所述拆分后的字對(duì)應(yīng)的同音字、近音字、同形字或近形字,作為查找出的字;步驟C,使用所述查找出的字代替所述拆分后的字,將所述待檢查詞構(gòu)造成疑似詞。所述步驟一之前,所述方法還包括選定一空間大小為N比特的存儲(chǔ)空間,所述存儲(chǔ)空間的相對(duì)地址以一維向量進(jìn)行編號(hào),并從0開始,其中,N為大于0的自然數(shù);將所述HASH函數(shù)的值域設(shè)置為從0到N ;將正確詞庫(kù)中的所有正確詞分別進(jìn)行HASH函數(shù)處理,生成HASH函數(shù)值;將所述HASH函數(shù)值作為所述存儲(chǔ)空間的相對(duì)地址,將所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為1 ;將所述存儲(chǔ)空間中沒(méi)有所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為0;所述步驟三具體為將所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值作為存儲(chǔ)空間的相對(duì)地址,判斷所述待檢查詞的HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容是否為1,生成判斷結(jié)^ ο所述HASH函數(shù)為一個(gè)或者至少二個(gè)。另一方面,提供一種錯(cuò)別字的檢查裝置,包括獲取單元,用于獲取待檢查詞;第一 HASH函數(shù)處理單元,用于將所述待檢查詞進(jìn)行HASH函數(shù)處理,生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值;第一正確詞判定單元,用于判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中,生成判斷結(jié)果,所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成;檢查結(jié)果生成單元,用于根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出,當(dāng)所述判斷結(jié)果為時(shí),則所述檢查結(jié)果為所述待檢查詞正確;否則,所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。所述的錯(cuò)別字的檢查裝置,還包括疑似詞構(gòu)造單元,用于當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí),根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞;第二正確詞判定單元,用于依次判斷所述至少一個(gè)疑似詞是否正確;輸出單元,用于輸出判斷為正確的所述疑似詞供用戶選擇;接收單元,用于接收用戶的選擇指令;校正單元,用于使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。所述的錯(cuò)別字的檢查裝置,還包括疑似詞構(gòu)造單元,用于當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí),根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞;第二正確詞判定單元,用于依次判斷所述至少一個(gè)疑似詞是否正確;統(tǒng)計(jì)單元,用于統(tǒng)計(jì)判斷為正確的所述疑似詞的數(shù)量;接收單元,用于接收用戶提供的校對(duì)詞或者接收用戶的選擇指令;輸出單元,用于輸出正確的所述疑似詞供用戶選擇;校正單元,用于當(dāng)所述數(shù)量為0時(shí),使用所述校對(duì)詞校正有錯(cuò)別字的所述待檢查詞;當(dāng)所述數(shù)量為1時(shí),使用正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞;當(dāng)所述數(shù)量大于1時(shí),使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。所述疑似詞構(gòu)造單元包括拆分子單元,用于將所述待檢查詞拆分成字;查找子單元,用于分別查找所述拆分后的字對(duì)應(yīng)的同音字、近音字、同形字或近形字,作為查找出的字;替代子單元,用于使用所述查找出的字代替所述拆分后的字,將所述待檢查詞構(gòu)造成疑似詞。所述的錯(cuò)別字的檢查裝置,還包括設(shè)定單元,用于選定一空間大小為N比特的存儲(chǔ)空間,所述存儲(chǔ)空間的相對(duì)地址以一維向量進(jìn)行編號(hào),并從0開始,其中,N為大于0的自然數(shù);第二 HASH函數(shù)處理單元,用于將所述HASH函數(shù)的值域設(shè)置為從0到N ;將正確詞庫(kù)中的所有正確詞分別進(jìn)行HASH函數(shù)處理,生成HASH函數(shù)值;賦值單元,將所述HASH函數(shù)值作為所述存儲(chǔ)空間的相對(duì)地址,將所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為1 ;將所述存儲(chǔ)空間中沒(méi)有所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為0 ;所述第一正確詞判定單元具體為將所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值作為存儲(chǔ)空間的相對(duì)地址,判斷所述待檢查詞的HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容是否為
      Io本發(fā)明的實(shí)施例具有以下有益效果上述方案中,通過(guò)判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中,生成判斷結(jié)果,根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出,如果所述判斷結(jié)果為是,則所述檢查結(jié)果為所述待檢查詞正確;否則,所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。相比于現(xiàn)有技術(shù)來(lái)說(shuō),不需要預(yù)先建立錯(cuò)詞表。


      圖1為本發(fā)明所述的錯(cuò)別字的檢查方法的一實(shí)施例的流程示意圖;圖2為本發(fā)明所述的錯(cuò)別字的檢查方法的另一實(shí)施例的流程示意圖;圖3為本發(fā)明所述的錯(cuò)別字的檢查方法的另一實(shí)施例的流程示意圖;圖4為本發(fā)明所述的錯(cuò)別字的檢查裝置的結(jié)構(gòu)示意圖;圖5為本發(fā)明所述的生成HASH函數(shù)值數(shù)據(jù)庫(kù)的示意圖。
      具體實(shí)施例方式為使本發(fā)明的實(shí)施例要解決的技術(shù)問(wèn)題、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例進(jìn)行詳細(xì)描述。如圖1所示,為本發(fā)明所述的一種錯(cuò)別字的檢查方法的一實(shí)施例,包括步驟11,獲取待檢查詞;步驟12,將所述待檢查詞進(jìn)行HASH函數(shù)處理,生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值;步驟13,判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中,生成判斷結(jié)果,所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成;根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出,如果所述判斷結(jié)果為是,則執(zhí)行步驟14, 所述檢查結(jié)果為所述待檢查詞正確;否則,執(zhí)行步驟15,所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字??蛇x的,當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí),所述方法還包括步驟16,根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞;步驟17,依次判斷所述至少一個(gè)疑似詞是否正確;步驟18,輸出判斷為正確的所述疑似詞供用戶選擇;步驟19,接收用戶的選擇指令后,使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。如圖2所示,為本發(fā)明所述的一種錯(cuò)別字的檢查方法的另一實(shí)施例,包括步驟21,獲取待檢查詞;步驟22,將所述待檢查詞進(jìn)行HASH函數(shù)處理,生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值;步驟23,判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中,生成判斷結(jié)果,所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成;根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出,如果所述判斷結(jié)果為是,則執(zhí)行步驟M, 所述檢查結(jié)果為所述待檢查詞正確;否則,執(zhí)行步驟25,所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí),所述方法還包括步驟沈,根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞;步驟27,依次判斷所述至少一個(gè)疑似詞是否正確;步驟觀,統(tǒng)計(jì)判斷為正確的所述疑似詞的數(shù)量;如果所述數(shù)量為0,則執(zhí)行步驟四,接收用戶提供的校對(duì)詞后,使用所述校對(duì)詞校正有錯(cuò)別字的所述待檢查詞;如果所述數(shù)量為1,則執(zhí)行步驟210,使用正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞;如果所述數(shù)量大于1,則執(zhí)行步驟211,輸出正確的所述疑似詞供用戶選擇,接收用戶的選擇指令后,使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。所述步驟沈包括步驟沈1,將所述待檢查詞拆分成字;步驟沈2,分別查找所述拆分后的字對(duì)應(yīng)的同音字、近音字、同形字或近形字,作為查找出的字;步驟沈3,使用所述查找出的字代替所述拆分后的字,將所述待檢查詞構(gòu)造成疑似詞。如圖3所示,為本發(fā)明所述的一種錯(cuò)別字的檢查方法的另一實(shí)施例,包括步驟31,選定一空間大小為N比特的存儲(chǔ)空間,所述存儲(chǔ)空間的相對(duì)地址以一維向量進(jìn)行編號(hào),并從0開始,其中,N為大于0的自然數(shù);步驟32,將所述HASH函數(shù)的值域設(shè)置為從0到N ;將正確詞庫(kù)中的所有正確詞分別進(jìn)行HASH函數(shù)處理,生成HASH函數(shù)值;步驟33,將所述HASH函數(shù)值作為所述存儲(chǔ)空間的相對(duì)地址,將所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為1 ;將所述存儲(chǔ)空間中沒(méi)有所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為0 ;步驟34,獲取待檢查詞;步驟35,將所述待檢查詞進(jìn)行HASH函數(shù)處理,生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值;步驟36,將所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值作為存儲(chǔ)空間的相對(duì)地址,判斷所述待檢查詞的HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容是否為1,生成判斷結(jié)果。根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出,如果所述判斷結(jié)果為是,則執(zhí)行步驟37, 所述檢查結(jié)果為所述待檢查詞正確;否則,執(zhí)行步驟38,所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。所述HASH函數(shù)為一個(gè)或者至少二個(gè)。如圖4所示,為本發(fā)明所述的一種錯(cuò)別字的檢查裝置的一實(shí)施例,包括獲取單元41,用于獲取待檢查詞;第一 HASH函數(shù)處理單元42,用于將所述待檢查詞進(jìn)行HASH函數(shù)處理,生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值;第一正確詞判定單元43,用于判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中,生成判斷結(jié)果,所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成;檢查結(jié)果生成單元44,用于根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出,當(dāng)所述判斷結(jié)果為時(shí),則所述檢查結(jié)果為所述待檢查詞正確;否則,所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。可選的,所述的錯(cuò)別字的檢查裝置,還包括疑似詞構(gòu)造單元45,用于當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí),根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞;第二正確詞判定單元46,用于依次判斷所述至少一個(gè)疑似詞是否正確;輸出單元47,用于輸出判斷為正確的所述疑似詞供用戶選擇;接收單元48,用于接收用戶的選擇指令;校正單元49,用于使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。可選的,所述的錯(cuò)別字的檢查裝置,還包括統(tǒng)計(jì)單元410,用于統(tǒng)計(jì)判斷為正確的所述疑似詞的數(shù)量;輸出單元47,還用于輸出正確的所述疑似詞供用戶選擇;接收單元48,還用于接收用戶提供的校對(duì)詞或者接收用戶的選擇指令;校正單元49,還用于當(dāng)所述數(shù)量為0時(shí),使用所述校對(duì)詞校正有錯(cuò)別字的所述待檢查詞;當(dāng)所述數(shù)量為1時(shí),使用正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞;當(dāng)所述數(shù)量大于1時(shí),使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。所述疑似詞構(gòu)造單元45包括拆分子單元,用于將所述待檢查詞拆分成字;查找子單元,用于分別查找所述拆分后的字對(duì)應(yīng)的同音字、近音字、同形字或近形字,作為查找出的字;替代子單元,用于使用所述查找出的字代替所述拆分后的字,將所述待檢查詞構(gòu)造成疑似詞。所述的錯(cuò)別字的檢查裝置,還包括設(shè)定單元411,用于選定一空間大小為N比特的存儲(chǔ)空間,所述存儲(chǔ)空間的相對(duì)地址以一維向量進(jìn)行編號(hào),并從0開始,其中,N為大于0的自然數(shù);第二 HASH函數(shù)處理單元412,用于將所述HASH函數(shù)的值域設(shè)置為從0到N ;將正確詞庫(kù)中的所有正確詞分別進(jìn)行HASH函數(shù)處理,生成HASH函數(shù)值;賦值單元413,將所述HASH函數(shù)值作為所述存儲(chǔ)空間的相對(duì)地址,將所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為1 ;將所述存儲(chǔ)空間中沒(méi)有所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為0 ;所述第一正確詞判定單元43具體為將所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值作為存儲(chǔ)空間的相對(duì)地址,判斷所述待檢查詞的HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容是否為1。本發(fā)明中,正確詞庫(kù)存儲(chǔ)了拼寫正確的詞匯。包括簡(jiǎn)單詞如“人民” “中國(guó)”;也包括各種多字詞,如“得隴望蜀”,“中華人民共和國(guó)”等;也可以是組合詞,例如“眼鏡店”。
      正確詞快檢表(上文所述的HASH函數(shù)值數(shù)據(jù)庫(kù)),是為了將正確詞有效壓縮,易于放置在內(nèi)存空間,便于快速判斷一個(gè)詞匯是否為一個(gè)正確詞。將正確詞庫(kù)壓縮為正確詞快檢表后,存儲(chǔ)空間大大減少,但如無(wú)法一次性放入內(nèi)存,則可按詞頻將高頻詞的快檢表放置在內(nèi)存。Hash(散列)函數(shù),就是把任意長(zhǎng)度的輸入(又叫做預(yù)映射,pre-image),通過(guò)散列算法,變換成固定長(zhǎng)度的輸出,該輸出就是散列值(本文的Hash函數(shù)值),散列值均勻分布在哈希表的值域中。這種轉(zhuǎn)換是一種壓縮映射,也就是,散列值的空間通常遠(yuǎn)小于輸入的空間,因此,使得正確詞庫(kù)生成的HASH函數(shù)值數(shù)據(jù)庫(kù)占用的存儲(chǔ)空間小于直接存儲(chǔ)正確詞庫(kù)的存儲(chǔ)空間。同/近音字表,存儲(chǔ)了同/近音的字。例如,同音字“在”與“再”、“宰”;近音字 “摘”與“載”等。由于常用漢字?jǐn)?shù)在萬(wàn)字以內(nèi),因此,同/近音字表不大,可放置在內(nèi)存中。 同/近音字表,可以通過(guò)自動(dòng)化的方法由字典生產(chǎn)。同/近形字表,儲(chǔ)了同/近形的字。例如“人”與“入”,“育”與“肓”等。同/近形字表可通過(guò)自動(dòng)化方法生成,例如,利用筆順相似、四角號(hào)碼相似、五筆字型相似等規(guī)則生成;也可通過(guò)人工輸入一些同/近形字。同/近形表不大,可放置在內(nèi)存中。以下描述本發(fā)明所述的錯(cuò)別字檢查流程的應(yīng)用場(chǎng)景,包括步驟一,輸入詞匯,進(jìn)入正確詞判定單元,進(jìn)行正確詞判定,這個(gè)過(guò)程中,涉及到查詢正確詞快檢表。如果判定為正確詞,則結(jié)束處理;否則,進(jìn)入步驟二。例如判定“入民”不是正確詞。利用正確詞快檢表快速判斷一個(gè)詞匯是否存儲(chǔ)于正確詞庫(kù),也即是否為一個(gè)正確詞。例如“入民”不在正確詞庫(kù)內(nèi),判定不是一個(gè)正確詞。步驟二,上述輸入詞(也就是上文所述的待檢查詞,例如“入民”)輸入疑似詞構(gòu)造
      單元,通過(guò)同/近音字表和同/近形字表,按照用同/近音字替換,同/近形字替換的方法, 構(gòu)造一組疑似詞。例如輸入詞為“入民”,分別拆分成“入”和“民”。通過(guò)查找同/近音字表和同/近形字表,獲取“入”的同/近音字“如”、“乳”、獲取 “民”的同/近音字“閩”、“敏”、“民”等。通過(guò)查找同/近形字表,獲取“入”的同/近音字“人”。使用所述查找出的字代替所述拆分的字,將所述待檢查詞“入民”構(gòu)造為“如民”、 “乳民,,、“入閩,,、“入敏”、“人民”等。步驟三,將步驟二輸出的一組疑似詞,輸入正確詞判定單元,檢查是否存在正確詞。上例中五個(gè)疑似詞中,輸出“人民”為驗(yàn)證正確的疑似詞。步驟四,使用步驟三輸出的驗(yàn)證正確的疑似詞“人民”代替步驟二檢查的詞匯“入民”。輸出“人民”為正確詞,則使用“人民”代替“入民”。如圖5所示,為本發(fā)明所述的生成正確詞快檢表(上文所述的HASH函數(shù)值數(shù)據(jù)庫(kù))的示意圖,所述方法包括步驟一,構(gòu)造一維空間,空間的每個(gè)比特的存儲(chǔ)內(nèi)容賦值為0。例如,空間大小為 80億位,則占用空間為1GB。存儲(chǔ)空間可放入內(nèi)存以加快處理速度。步驟二,構(gòu)造多維Hash函數(shù)。例如,構(gòu)造2維Hash函數(shù),也就是說(shuō),構(gòu)造兩個(gè)獨(dú)立的Hash函數(shù)。Hash函數(shù)的值域與上述一維空間的大小一致,為80億。步驟三,對(duì)正確詞庫(kù)中每一詞匯,通過(guò)多維Hash函數(shù)構(gòu)造一個(gè)多維向量。例如,“人民”,其bit串作為輸入,通過(guò)上述2個(gè)Hash函數(shù),生成值構(gòu)成向量(XI,X2)步驟四,將向量的每一維,按其值在步驟一生成的一維空間尋址,將存儲(chǔ)空間的對(duì)應(yīng)比特位賦1。如,上述(XI,X2),將一維空間的第Xl位賦1,將一維空間的第X2位賦1。步驟五,如果正確詞庫(kù)仍有詞未處理,則返回步驟三,直到正確詞庫(kù)中的每個(gè)正確詞被處理。在圖5中,詞的投影處(影子)的比特位賦值為1,其余的比特位賦值為0。通過(guò)上述流程,構(gòu)造一維空間及賦值,形成了正確詞快檢表。這個(gè)構(gòu)造完成后,將結(jié)果保存。后續(xù)檢查時(shí),直接使用正確詞快檢表,而不需重新構(gòu)造。以下描本發(fā)明利用正確詞快檢表檢查詞匯是否正確的應(yīng)用場(chǎng)景,包括步驟一,對(duì)于一個(gè)詞匯,使用前述流程的多維Hash函數(shù)生成一個(gè)多維向量。例如, “人民”,其bit串作為輸入,通過(guò)上述2個(gè)Hash函數(shù),生成值構(gòu)成向量(X1,X2)。當(dāng)HASH函數(shù)為二維以上的多維時(shí),HASH函數(shù)值的多維向量為存儲(chǔ)空間以一維向量進(jìn)行編號(hào)的相對(duì)地址。步驟二,將向量的每一維,按其值在一維空間尋址。也就是說(shuō),存儲(chǔ)空間以一維向量順序編號(hào),Hash函數(shù)值的多維向量轉(zhuǎn)換為一維。將如,上述(X1,X2),尋址一維空間第Xl 位,第X2位。如果上述位都被賦1,則判斷該詞匯為正確詞。本發(fā)明所述的錯(cuò)別字檢查的方法和裝置具有以下有益效果(1)對(duì)于錯(cuò)別字檢查,尤其是面對(duì)海量數(shù)據(jù),本發(fā)明是一種高效率的檢查方法?,F(xiàn)有技術(shù)中,存儲(chǔ)錯(cuò)詞表和正確詞表都需要很大空間。在檢查過(guò)程中,不論是檢索錯(cuò)詞還是正確詞,都不可避免訪問(wèn)硬盤數(shù)據(jù),這是整個(gè)檢查效率的瓶頸。一般而言,在少量數(shù)據(jù)中檢查錯(cuò)別字,效率尚可忍受。但是對(duì)于海量數(shù)據(jù)的錯(cuò)別字檢查,其效率將成為問(wèn)題。本發(fā)明中, 在典型計(jì)算機(jī)配置下,HASH函數(shù)值數(shù)據(jù)庫(kù)占用的存儲(chǔ)空間比較小,可選的,可以預(yù)先調(diào)入內(nèi)存,避免了耗時(shí)的磁盤訪問(wèn),并且Hash函數(shù)計(jì)算量不大,從而在數(shù)量級(jí)上提高檢查效率。(2)本發(fā)明是一種“少量學(xué)習(xí)”甚至是“無(wú)需學(xué)習(xí)”的檢查方法,從而在成本和檢查錯(cuò)別字的正確性上都有優(yōu)勢(shì)。目前的錯(cuò)別字檢查方法,需要人工不斷充實(shí)錯(cuò)詞表,未收集的錯(cuò)詞是無(wú)法被檢查的。本發(fā)明沒(méi)有“錯(cuò)詞表”,因此沒(méi)有收集、充實(shí)錯(cuò)詞表的過(guò)程。本發(fā)明所需的“同/近音字表”,“同/近形字表”,皆可一次建立而無(wú)需后期反復(fù)充實(shí),建立過(guò)程可以是自動(dòng)化過(guò)程,不消耗人工。本發(fā)明所需“正確詞庫(kù)”,在行業(yè)內(nèi)屬于成本不高、可采購(gòu)的商品。所述方法實(shí)施例是與所述裝置實(shí)施例相對(duì)應(yīng)的,在方法實(shí)施例中未詳細(xì)描述的部分參照裝置實(shí)施例中相關(guān)部分的描述即可,在裝置實(shí)施例中未詳細(xì)描述的部分參照方法實(shí)施例中相關(guān)部分的描述即可。本領(lǐng)域普通技術(shù)人員可以理解,實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中, 該程序在執(zhí)行時(shí),包括如上述方法實(shí)施例的步驟,所述的存儲(chǔ)介質(zhì),如磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory, ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory, RAM)等。在本發(fā)明各方法實(shí)施例中,所述各步驟的序號(hào)并不能用于限定各步驟的先后順序,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,對(duì)各步驟的先后變化也在本發(fā)明的保護(hù)范圍之內(nèi)。
      以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明所述原理的前提下,還可以作出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
      權(quán)利要求
      1.一種錯(cuò)別字的檢查方法,其特征在于,包括 步驟一,獲取待檢查詞;步驟二,將所述待檢查詞進(jìn)行哈希HASH函數(shù)處理,生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值;步驟三,判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中,生成判斷結(jié)果,所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成;步驟四,根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出,如果所述判斷結(jié)果為是,則所述檢查結(jié)果為所述待檢查詞正確;否則,所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。
      2.根據(jù)權(quán)利要求1所述的錯(cuò)別字的檢查方法,其特征在于,當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí),所述方法還包括步驟五,根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞; 步驟六,依次判斷所述至少一個(gè)疑似詞是否正確; 步驟七,輸出判斷為正確的所述疑似詞供用戶選擇;步驟八,接收用戶的選擇指令后,使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。
      3.根據(jù)權(quán)利要求1所述的錯(cuò)別字的檢查方法,其特征在于,當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí),所述方法還包括步驟五,根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞; 步驟六,依次判斷所述至少一個(gè)疑似詞是否正確; 步驟七,統(tǒng)計(jì)判斷為正確的所述疑似詞的數(shù)量;步驟八,如果所述數(shù)量為0,則接收用戶提供的校對(duì)詞后,使用所述校對(duì)詞校正有錯(cuò)別字的所述待檢查詞;如果所述數(shù)量為1,則使用正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞;如果所述數(shù)量大于1,則輸出正確的所述疑似詞供用戶選擇,接收用戶的選擇指令后,使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。
      4.根據(jù)權(quán)利要求2或3所述的錯(cuò)別字的檢查方法,其特征在于,所述步驟五包括 步驟a,將所述待檢查詞拆分成字;步驟b,分別查找所述拆分后的字對(duì)應(yīng)的同音字、近音字、同形字或近形字,作為查找出的字;步驟c,使用所述查找出的字代替所述拆分后的字,將所述待檢查詞構(gòu)造成疑似詞。
      5.根據(jù)權(quán)利要求1所述的錯(cuò)別字的檢查方法,其特征在于,所述步驟一之前,所述方法還包括選定一空間大小為N比特的存儲(chǔ)空間,所述存儲(chǔ)空間的相對(duì)地址以一維向量進(jìn)行編號(hào),并從0開始,其中,N為大于0的自然數(shù);將所述HASH函數(shù)的值域設(shè)置為從0到N,將正確詞庫(kù)中的所有正確詞分別進(jìn)行HASH函數(shù)處理,生成HASH函數(shù)值;將所述HASH函數(shù)值作為所述存儲(chǔ)空間的相對(duì)地址,將所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為1 ;將所述存儲(chǔ)空間中沒(méi)有所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為0;所述步驟三具體為將所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值作為存儲(chǔ)空間的相對(duì)地址,判斷所述待檢查詞的HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容是否為1,生成判斷結(jié)果。
      6.根據(jù)權(quán)利要求1所述的錯(cuò)別字的檢查方法,其特征在于,所述HASH函數(shù)為一個(gè)或者至少二個(gè)。
      7.一種錯(cuò)別字的檢查裝置,其特征在于,包括 獲取單元,用于獲取待檢查詞;第一 HASH函數(shù)處理單元,用于將所述待檢查詞進(jìn)行HASH函數(shù)處理,生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值;第一正確詞判定單元,用于判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中,生成判斷結(jié)果,所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成;檢查結(jié)果生成單元,用于根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出,當(dāng)所述判斷結(jié)果為時(shí),則所述檢查結(jié)果為所述待檢查詞正確;否則,所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。
      8.根據(jù)權(quán)利要求7所述的錯(cuò)別字的檢查裝置,其特征在于,還包括疑似詞構(gòu)造單元,用于當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí),根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞;第二正確詞判定單元,用于依次判斷所述至少一個(gè)疑似詞是否正確; 輸出單元,用于輸出判斷為正確的所述疑似詞供用戶選擇; 接收單元,用于接收用戶的選擇指令;校正單元,用于使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。
      9.根據(jù)權(quán)利要求7所述的錯(cuò)別字的檢查裝置,其特征在于,還包括疑似詞構(gòu)造單元,用于當(dāng)所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字時(shí),根據(jù)所述待檢查詞構(gòu)造至少一個(gè)疑似詞;第二正確詞判定單元,用于依次判斷所述至少一個(gè)疑似詞是否正確; 統(tǒng)計(jì)單元,用于統(tǒng)計(jì)判斷為正確的所述疑似詞的數(shù)量; 接收單元,用于接收用戶提供的校對(duì)詞或者接收用戶的選擇指令; 輸出單元,用于輸出正確的所述疑似詞供用戶選擇;校正單元,用于當(dāng)所述數(shù)量為0時(shí),使用所述校對(duì)詞校正有錯(cuò)別字的所述待檢查詞;當(dāng)所述數(shù)量為1時(shí),使用正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞;當(dāng)所述數(shù)量大于1 時(shí),使用用戶選擇的正確的所述疑似詞校正有錯(cuò)別字的所述待檢查詞。
      10.根據(jù)權(quán)利要求8或9所述的錯(cuò)別字的檢查裝置,其特征在于,所述疑似詞構(gòu)造單元包括拆分子單元,用于將所述待檢查詞拆分成字;查找子單元,用于分別查找所述拆分后的字對(duì)應(yīng)的同音字、近音字、同形字或近形字, 作為查找出的字;替代子單元,用于使用所述查找出的字代替所述拆分后的字,將所述待檢查詞構(gòu)造成疑似詞。
      11.根據(jù)權(quán)利要求7所述的錯(cuò)別字的檢查裝置,其特征在于,還包括設(shè)定單元,用于選定一空間大小為N比特的存儲(chǔ)空間,所述存儲(chǔ)空間的相對(duì)地址以一維向量進(jìn)行編號(hào),并從0開始,其中,N為大于0的自然數(shù);第二 HASH函數(shù)處理單元,用于將所述HASH函數(shù)的值域設(shè)置為從0到N ;將正確詞庫(kù)中的所有正確詞分別進(jìn)行HASH函數(shù)處理,生成HASH函數(shù)值;賦值單元,將所述HASH函數(shù)值作為所述存儲(chǔ)空間的相對(duì)地址,將所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為1 ;將所述存儲(chǔ)空間中沒(méi)有所述HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容賦值為0;所述第一正確詞判定單元具體為將所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值作為存儲(chǔ)空間的相對(duì)地址,判斷所述待檢查詞的HASH函數(shù)值對(duì)應(yīng)的相對(duì)地址處的存儲(chǔ)內(nèi)容是否為1。
      全文摘要
      本發(fā)明提供一種錯(cuò)別字的檢查方法和裝置,涉及數(shù)據(jù)領(lǐng)域,為解決現(xiàn)有技術(shù)中錯(cuò)別字檢查需要預(yù)先建立錯(cuò)別詞表的技術(shù)問(wèn)題而發(fā)明。所述方法包括步驟一,獲取待檢查詞;步驟二,將所述待檢查詞進(jìn)行HASH函數(shù)處理,生成所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值;步驟三,判斷所述待檢查詞對(duì)應(yīng)的HASH函數(shù)值是否在HASH函數(shù)值數(shù)據(jù)庫(kù)中,生成判斷結(jié)果,所述HASH函數(shù)值數(shù)據(jù)庫(kù)由正確詞庫(kù)中的正確詞經(jīng)過(guò)函數(shù)處理生成的函數(shù)值組成;步驟四,根據(jù)所述判斷結(jié)果生成檢查結(jié)果并輸出,如果所述判斷結(jié)果為是,則所述檢查結(jié)果為所述待檢查詞正確;否則,所述檢查結(jié)果為所述待檢查詞中有錯(cuò)別字。本發(fā)明能夠提高錯(cuò)別字檢查的工作效率。
      文檔編號(hào)G06F17/27GK102456001SQ20101052750
      公開日2012年5月16日 申請(qǐng)日期2010年10月27日 優(yōu)先權(quán)日2010年10月27日
      發(fā)明者向哲, 徐晉暉, 曹曉航, 高超 申請(qǐng)人:北京四維圖新科技股份有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1