一種計(jì)算機(jī)校驗(yàn)漢語同音錯(cuò)別字的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種計(jì)算機(jī)校驗(yàn)漢語同音錯(cuò)別字的方法。
【背景技術(shù)】
[0002]漢字文化博大精深,漢字本身具有表音和表義的雙重屬性,而漢語的基本信息單位有是由若干單個(gè)漢字組成的“詞”。在巨大的漢字個(gè)數(shù)基礎(chǔ)上而使用的詞的數(shù)量變得異常龐大,在漢字的使用過程中,錯(cuò)別字的頻繁出現(xiàn)變得在所難免。
[0003]根據(jù)形成原因的不同,在計(jì)算機(jī)中出現(xiàn)的常見漢字錯(cuò)別字基本分為兩類:同音錯(cuò)別字(一般源于拼音輸入法)和型近錯(cuò)別字(一般源于五筆等輸入法)。
[0004]目前,因?yàn)闈h字錯(cuò)別字的類型千差萬別,不管是同音錯(cuò)別字還是型近錯(cuò)別字,除了人工校驗(yàn)外,尚還沒有好的方法能通過計(jì)算機(jī)軟件來比較準(zhǔn)確的校驗(yàn)出文章中的錯(cuò)別字。某些方法中使用了建立錯(cuò)別字庫檢索的方式進(jìn)行,但此方法受限于錯(cuò)別字庫的覆蓋率,以及對(duì)句子拆詞的準(zhǔn)確性等因素,校驗(yàn)的準(zhǔn)確率不高。
[0005]近年來,隨著拼音輸入法在計(jì)算機(jī)輸入法中的越來越普及,使得出現(xiàn)同音錯(cuò)別字的機(jī)率大增。如果能夠研發(fā)出一種能夠驗(yàn)證同音錯(cuò)別字的計(jì)算機(jī)校驗(yàn)漢語的方法,就將會(huì)極具市場前景。
【發(fā)明內(nèi)容】
[0006]為了解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提供一種將化學(xué)領(lǐng)域中的一些概念引入到漢語句子分析中,通過與化學(xué)元素分析類似的方法來分析句子,通過代碼簡單、運(yùn)算量小的計(jì)算機(jī)軟件實(shí)現(xiàn)對(duì)整個(gè)漢語句子進(jìn)行準(zhǔn)確、快速的拆分,進(jìn)而能夠?qū)崿F(xiàn)對(duì)漢語句子的同音錯(cuò)別字的準(zhǔn)確分析的計(jì)算機(jī)校驗(yàn)漢語同音錯(cuò)別字的方法。
[0007]為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供的技術(shù)方案為:一種計(jì)算機(jī)校驗(yàn)漢語同音錯(cuò)別字的方法,其包括以下步驟:
[0008]步驟S01,對(duì)需要判斷是否存在同音錯(cuò)別字的句子進(jìn)行“句子化學(xué)拆分”;
[0009]步驟S02,將拆分后得到的句子中的單個(gè)字詞使用其不同同音字進(jìn)行替換,并對(duì)不同同音字組成的句子進(jìn)行句子尺度計(jì)算;
[0010]步驟S03,構(gòu)建出例外的優(yōu)先詞組庫,進(jìn)行特殊例外處理;
[0011]步驟S04,校驗(yàn)結(jié)果設(shè)置,S卩如果一個(gè)漢字被同音的另一個(gè)漢字取代后,句子重新拆分所得到句子的尺度“優(yōu)于”原來的尺度,則可以認(rèn)為該漢字是一個(gè)“嫌疑”錯(cuò)別字,該同音別字認(rèn)為是一個(gè)校驗(yàn)候選字;無同音別字的單個(gè)漢字,或者無尺度優(yōu)于該漢字的同音別字,目前可認(rèn)為是非錯(cuò)別字。對(duì)于一個(gè)錯(cuò)別字,可推薦其對(duì)應(yīng)的按照尺度排序的校驗(yàn)候選字作為更正時(shí)的參考。
[0012]優(yōu)選的技術(shù)方案,上述步驟SOl中的“句子化學(xué)拆分”具體過程如下:
[0013]步驟SI,建立基礎(chǔ)數(shù)據(jù)庫;所述基礎(chǔ)數(shù)據(jù)庫包括基礎(chǔ)詞庫和可以判斷單個(gè)漢字之間相互組合成詞的優(yōu)先順序原則的漢字組詞優(yōu)先原則判斷數(shù)據(jù)庫;
[0014]步驟S2,將需要被拆分的漢語句子與步驟SI中建立的基礎(chǔ)詞庫進(jìn)行匹配比對(duì),將需要被拆分的漢語句子拆分成詞;
[0015]步驟S3,將步驟S2中拆分得到的詞進(jìn)行詞性分類處理;
[0016]步驟S4,對(duì)詞性分類處理后的詞進(jìn)行重新組合成漢語短語;即完成對(duì)被拆漢語句子的拆分。
[0017]所述步驟SI中建立的基礎(chǔ)詞庫包括漢字詞、英文字母、數(shù)字和其它漢語語句中使用的通用字符。
[0018]所述基礎(chǔ)詞庫中的漢字詞包括日常用語、詩詞、網(wǎng)絡(luò)常用詞和特殊名稱用詞。
[0019]所述基礎(chǔ)詞庫存儲(chǔ)在計(jì)算機(jī)內(nèi)的代碼為Unicode編碼或者漢字國際GB碼。
[0020]所述漢字組詞優(yōu)先原則判斷數(shù)據(jù)庫是根據(jù)日常生活中漢字的實(shí)際使用頻率和使用慣例通過窮舉法進(jìn)行歸納總結(jié)而得出的優(yōu)先組合詞組。
[0021]所述步驟SI中建立的基礎(chǔ)詞庫中詞的尺度范圍為I至9 ;其中基礎(chǔ)詞庫中漢字詞的尺度定義為漢字詞中漢字的個(gè)數(shù),英文字母的尺度定義為1,數(shù)字的尺度定義為1,其它漢語語句中使用的通用字符也定義為I。
[0022]所述步驟S2中將需要被拆分的漢語句子拆分成詞的具體過程如下:
[0023]步驟S21,首先,依次使用基礎(chǔ)詞庫中尺度為9至I的漢字詞遍歷需要被拆分的漢語句子;
[0024]步驟S22,將上述需要被拆分的漢語句子中遍歷出來的漢字詞的首個(gè)漢字和最后個(gè)漢字分別運(yùn)用漢字組詞優(yōu)先原則判斷數(shù)據(jù)庫進(jìn)行判斷對(duì)比;該判斷對(duì)比的過程為:如果該漢字詞的首個(gè)漢字與在需要被拆分漢語句子中位于其后的組詞能力強(qiáng)于該漢字詞的首個(gè)漢字與在需要被拆分漢語句子中位于其前的組詞能力,且該漢字詞的最后個(gè)漢字與在需要被拆分漢語句子中位于其后的組詞能力弱于該漢字詞的最后個(gè)漢字與在需要被拆分漢語句子中位于其前的組詞能力,則認(rèn)為該次匹配正確;如果該漢字詞的首個(gè)漢字與在需要被拆分漢語句子中位于其后的組詞能力若于該漢字詞的首個(gè)漢字與在需要被拆分漢語句子中位于其前的組詞能力,或者該漢字詞的最后個(gè)漢字與在需要被拆分漢語句子中位于其后的組詞能力強(qiáng)于該漢字詞的最后個(gè)漢字與在需要被拆分漢語句子中位于其前的組詞能力,則認(rèn)為該次匹配不正確,同時(shí)將匹配不正確的漢字詞拆開重新遍歷基礎(chǔ)詞庫直至所有的拆分出來的漢字詞都判斷為匹配正確。
[0025]所述步驟S3中對(duì)拆分得到的詞進(jìn)行詞性分類處理為將拆分得到的詞分別分為漢字詞、英文字母串、數(shù)字串和其它符號(hào)串。
[0026]所述漢字詞分類處理為中心詞、前修飾詞、后修飾詞;所述中心詞分為名詞、動(dòng)詞和數(shù)詞;前修飾詞分為名詞前修飾詞和動(dòng)詞前修飾詞;后修飾詞分為名詞后修飾詞、動(dòng)詞后修飾詞和量詞。
[0027]所述步驟S4中對(duì)詞性分類處理后的詞進(jìn)行重新組合成漢語短語的具體過程為:將英文字母串和其它符號(hào)形成組合成獨(dú)立的漢語短語;數(shù)字串組合成漢字詞中的數(shù)詞;并且將中心詞分類組合成名詞短語、動(dòng)詞短語和數(shù)詞短語。
[0028]本發(fā)明的有益效果為:
[0029]本發(fā)明將化學(xué)領(lǐng)域中的一些概念引入到漢語句子分析中,通過與化學(xué)元素分析類似的方法來分析句子,通過代碼簡單、運(yùn)算量小的計(jì)算機(jī)軟件實(shí)現(xiàn),對(duì)整個(gè)漢語句子進(jìn)行準(zhǔn)確、快速的拆分,為漢語句子分析提供有效的基礎(chǔ)保證。本發(fā)明中的錯(cuò)別字校驗(yàn)算法基于句子拆分時(shí)的“最優(yōu)尺度”原則進(jìn)行,即根據(jù)當(dāng)前漢字,使用其同音別字進(jìn)行替換,對(duì)替換后的新句子進(jìn)行重新拆分,得到其拆分后的每個(gè)離子詞的尺度(字?jǐn)?shù))值,并根據(jù)一定的原則計(jì)算整個(gè)句子的尺度。將使用最初的漢字拆分時(shí)得出的句子尺度,與每個(gè)同音漢字替換后拆分時(shí)得出的句子尺度組合在一起,從中選擇出一個(gè)最優(yōu)的尺度,則此同音漢字可認(rèn)為是相對(duì)正確的字,如果跟原字不同,則判斷出原字為嫌疑錯(cuò)別字,尺度較優(yōu)的前幾個(gè)同音別字都可以作為推薦的校驗(yàn)字。本發(fā)明基于能夠通過一種漢語句子的化學(xué)分析拆分方法而將句子準(zhǔn)確拆分的基礎(chǔ)上,給出一種對(duì)整個(gè)句子進(jìn)行化學(xué)分析的錯(cuò)別字校驗(yàn)方法,大大提高錯(cuò)別字校驗(yàn)的效率和準(zhǔn)確率。
【附圖說明】
[0030]圖1位本發(fā)明“最優(yōu)尺度”錯(cuò)別字校驗(yàn)算法流程圖。
[0031]圖2位本發(fā)明所編寫的漢語句子化學(xué)拆分軟件的示意圖。
[0032]圖3位本發(fā)明中離子化合算法的流程示意圖。
【具體實(shí)施方式】
[0033]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明了,下面結(jié)合具體實(shí)例并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)該理解,這些描述只是示例性的,而并非要限制本發(fā)明的范圍。此外,在以下說明中,省