專利名稱:123漢字編碼法及其鍵盤的制作方法
技術領域:
本發(fā)明涉及一種實用的漢字編碼方法及其鍵盤。
現(xiàn)有的漢字編碼方法,從編碼對象來分,有音碼、形碼和音形組合碼三大類。音碼的典型代表是簡拼法與馬慶勇先生的“一種漢字聲、韻雙拼編碼的方法”(CN1049921A,以下簡稱馬碼),形碼的典型代表是四角號碼與王永民先生的五筆字型(以下簡稱王碼);音形組合碼的典型代表是杜冰蟾小姐的“漢字全息碼”(CN1043016A,以下簡稱杜碼),與肖水清先生的“無理序號數(shù)字編碼法及其鍵盤”。(CN1050273A,以下簡稱肖碼)。上述各種編碼方法都各具特色,但也各有缺陷。簡拼法與馬碼具有重碼率高,不完全掌握漢語拼音者不易使用等缺點;四角號碼的主要缺點在于碼長較大、重碼率較高;“王碼”是目前最為著名的一種編碼方法,其優(yōu)點在于重碼率極低,平均碼長很小,因而便于高速盲打,尤其適合于專職打字人員使用;但其最大的不足在于編碼規(guī)則很復雜、規(guī)則所需的強制記憶量很大,因而難于在一般學生和職員階層推廣?!岸糯a”和“肖碼”保留了“五筆字型”的主要長處,并使其缺點的嚴重程度有所下降,但總的來說,編碼規(guī)則較復雜、規(guī)則所需強制記憶量較大等問題仍成為“杜碼”與“肖碼”廣泛推廣的一大障礙。可見,上述幾種較為流行的編碼方法,如“王碼”、“杜碼”、“肖碼”等,都具有高效性強、易學性弱之特點。易學性弱的根本原因則在于這些編碼方法都沒有擺脫把部首作為編碼對象的常規(guī)思路。
本發(fā)明的目的在于提供一種兼顧高效性和易學性的實用漢字編碼方法及其專用鍵盤。本編碼方法以字音的聲母部分和字形的有序筆畫作為編碼對象,亦屬于音形組合碼。
本發(fā)明的具體編碼方法如下一、編碼元素編碼原素分為聲母碼、雙筆畫碼、單筆畫碼三種,均以英文字母表示。為了便于區(qū)別,在下文中,拼音的聲母采用小寫字母,編碼元素采用大寫字母。
二、聲母碼的取碼規(guī)則考慮到完全掌握漢語拼音并非易事,但大致了解拼音的聲母則不難做到。聲母碼是由字音的聲母部分確定的編碼元素,具體的取碼規(guī)則如下1、對于有聲母的漢字,若聲母只有一個字母,則取該聲母為該字的聲母碼。
例如,“人”的聲母碼為R,“的”的聲母碼為D。
事實上,這類聲母包括除zh、ch、sh以外的所有聲母。
根據(jù)漢語拼音方案,i行和
行韻母,前面沒有聲母時,在聲母位置寫上y,并對韻母部分作適當處理;u行韻母,前面沒有聲母時,在聲母位置寫上w,并對韻母部分作適當處理。對于這些特殊情況,本發(fā)明視同有聲母情況對待。
例如“衣”的聲母碼為Y,“王”的聲母碼為W。
2、對于有聲母的漢字,若該聲母含有一個以上字母,則取該聲母的第一個字母為該字的聲母碼。
例如,“之”的聲母為zh,故其聲母碼為Z“少”的聲母為sh,故其聲母碼為S事實上,這類聲母只涉及zh、ch、sh三個。這一規(guī)則從根本上避免了許多人zh與z,sh與s,ch與c混淆不清的難題。
3、對于無聲母的漢字,取字母V為該漢字的聲母碼。
例如,“安”、“兒”、“歐”等都無聲母,故它們的聲母碼都為V。
取字母V為無聲母字的聲母碼的原因有兩條首先,V不是拼音字母;其次,英語單詞Vacant易使人聯(lián)想到聲母“空缺”。
由上述規(guī)則可知,聲母碼共有21個。
此外,考慮到某些地區(qū)的發(fā)音習慣,本發(fā)明允許把聲母碼L與R混同使用,請參見容錯碼部分。
三、筆畫碼的取碼規(guī)則1、漢字的基本筆畫及其分類規(guī)則根據(jù)對漢字筆畫的常規(guī)認識,將漢字的基本筆畫分為橫、豎、撇、點、折五類,分別以“一”、“丨”、“丿”、“丶”、“乛”表示。須補充說明的筆畫分類規(guī)則如下A、除了基本類型的點,即從左上至右下的點(丶)以外,還有從右上至左下的點(
),如“火”、“心”、“忄”、“灬”之首筆,及“宀”之第二筆。
B、筆形帶鉤或帶折的筆畫,均歸入折類如“亅”、“
”、“乚”、“”、“乙”、
等。
C、捺(丿),如“文”、“收”之末筆,均歸入點類;
D、挑(
),如部首“
”、“扌”之末筆,一般歸入橫類,但挑與點相連時,如“冫”、“氵”、“丬”“習”中的挑,應歸入點類。
E、撇,當與點(或捺)相連而且基本對稱時,歸入點類,例如,“小”、“少”、“羊”、“業(yè)”、“學”、“共”中的撇,均應歸入點類。又如“木”、“禾”、“米”(作部首時,分別為“木”、“禾”、“米”)的例數(shù)第二筆撇,也都應歸入點類。
2、筆畫順序規(guī)則根據(jù)一般的漢字書寫習慣,規(guī)定如下筆畫順序規(guī)則。
A、先橫后豎例如,十一→十王二→王B、先撇后捺例如,人丿→人木
→木C、從上到下例如,合人→亼→合而一→丆→而D、從左到右例如,作亻→作州
→州E、從外到里例如,月
→月向
→向
4、單筆畫碼的取碼規(guī)則規(guī)定字母M為單筆畫碼,(可聯(lián)想英語單詞mono-stroke,意為“單筆畫”)。在本發(fā)明中,單筆畫碼僅用于筆畫數(shù)為一、三、五的字的末筆畫的編碼。
四、字的編碼規(guī)則字的編碼規(guī)則與字的筆畫數(shù)有關,具體規(guī)則如下1、一筆畫字編碼=聲母碼+單筆畫碼例如,一→y+一→YM2、二筆畫字編碼=聲母碼+雙筆畫碼例如,十→sh+一丨→SR力→亅+乛丿→LK3、三筆畫碼編碼=聲母碼+首雙筆畫碼+末單筆畫碼例如,小→x+乛丶+丶→XLM才→ch+一乛+丿→CQM4、四筆畫字編碼=聲母碼+首雙筆畫碼+末雙筆畫碼例如,王→w+一一+丨一→WTG
藝→y+一丨+丨乛→YRA5、五筆畫字編碼=聲母碼+首雙筆畫碼+次雙筆畫碼+末單筆畫碼例如,示→sh+一一+乛丶+丶→STLM付-f+丿丨+一乛+丶→FVQM6、六及六以上筆畫字編碼=聲母碼+首雙筆畫碼+次雙筆畫碼+末雙筆畫碼例如,吉→j+一丨+一丨+乛一→JRRH項→x+一丨+一一+丿丶→XRTX治→zh+丶丶+丶乛+乛一→ZOPH群→q+乛一+一丿+一丨→QHER五、詞組的編碼規(guī)則詞組的編碼規(guī)則與詞組的字數(shù)有關,具體規(guī)則如下1、二字詞編碼=第一字的聲母碼+第二字的聲母碼+第一字的首雙筆畫碼+第二字的首雙筆畫碼例外情況是,當詞組中的某個字僅有一筆畫時,取其單筆畫碼代替上式中該字的“首雙筆畫碼”。
例如,一起→y+q+一+一丨→YQMR人民→r+m+丿丶+乛一→RMXH2、三字詞編碼=第一字的聲母碼+第二字的聲母碼+第三字的聲母碼+第一字的首雙筆畫碼。
例外情況里,當詞組的第一字僅有一筆畫時,取其單筆畫碼代替上式中的“第一字的首雙筆畫碼”。
例如,科學家→k+x+j+丿一→KXJB新產品→x+ch+p+丶一→XCPY3、四及四以上字的詞編碼=第一字的聲母碼+第二字的聲母碼+第三字的聲母碼+最末字的聲母碼例如,實事求是→sh+sh+q+sh→SSQS中國科學院→zh+g+k+y→ZGKY有志者事竟成→y+zh+zh+ch→YZZC六、簡碼的確定方法對于使用頻率高的字,本發(fā)明專門設置了簡碼,以降低字的平均碼長,提高使用效率。簡碼的確定方法如下為了便于分析,設α、β、μ、δ都代表本發(fā)明任一編碼元素。
1、首綴碼的定義(1)若αβμδ為某字的編碼,則定義αβμδ、αβμ、αβ、α都為該編碼的前綴碼;
(2)若αβμ為某字的編碼,則定義αβμ、αβ、α都為該編碼的前綴碼;
(3)若αβ為某字的編碼,則定義αβ、α都為該編碼的前綴碼;
(4)若α為某字的編碼,則定義α為該編碼的前綴碼。
2、簡碼的確定規(guī)則對于所有編碼中含有同一前綴碼的字,若該前綴碼未成為某字的編碼,則確定該前綴碼為其中使用頻率最高的字的簡碼。具體規(guī)則如下(1)對于所有編碼中含有前綴碼αβμ的字,若αβμ未成為某字編碼,則確定αβμ為其中使用頻率最高的字的簡碼,并稱這種簡碼為三級簡碼。
例如,在所有編碼中含有SOU的字中,“沙”(編碼為SOUI)的使用效率最高,(其它的字如“濕”-編碼為SOUY,“汕”-編碼為SOUJ),且SOU未成為某字的編碼,故確定SOU為“沙”的三級簡碼。
(2)對于所有編碼中含有前綴碼αβ的字,若αβ未成某字的編碼,則確定αβ為其中使用頻率最高的字的簡碼,并稱這種簡碼為二級簡碼。
例如。在所有編碼中含有前綴碼JR的字中,“機”(編碼為JROZ)的使用頻率最高,(其它的字,如“教”-編碼為JREX,“警”-編碼為JRDH),且JR未成為某字的編碼,故確定JR為“機”的二級簡碼。
(3)對于所有編碼中含有前綴碼α的字,確定α為其中使用頻率最高的字的簡碼,并稱這種簡碼為一級簡碼。
例如,在所有編碼中含有前綴碼D的字中,“的”(編碼為DVHL)的使用頻率最高,(其它的字,如“大”-編碼為DEM,“到”-編碼為DQYA),故確定D為“的”的一級簡碼。
由上述規(guī)則可知,具有一級簡碼的字必有二級、三級簡碼,具有二級簡碼的字必有三級簡碼,反之就不一定成立。
七、容錯碼的說明本發(fā)明考慮到有某些字或詞組,其編碼不易確定或容易有誤,故允許存在少量的容錯碼,容錯碼的基本類型有以下兩類1、聲母容錯碼考慮到某些地區(qū)的發(fā)音習慣,本發(fā)明允許,而且僅允許兩個聲母碼混同使用,它們是L與R。顯然,聲母容錯碼的位置在編碼的第一位。
例如“人”的編碼為RX,其容錯碼為LX“來”的編碼為LWYO,其容錯碼為RWYO“人民”的編碼為RMXH,其容錯碼為LMXH2、筆畫容錯碼考慮到某些字的筆畫順序難以確定,如“義”字,《辭?!反_認其首筆為撇,而《漢字正字字典》確認其首筆為點。本發(fā)明根據(jù)一般書寫習慣的筆順來確定編碼的筆畫碼部分,但也按某種易錯的筆順來確定容錯碼的筆畫碼部分,即筆畫容錯碼。顯然,筆畫容錯碼的位置在編碼的第二至第四位。
例如義→y+丶丿+丶→YIM(編碼)→y+丿丶+丶→YXM(容錯碼)
王→w+一一+丨一→WTG(編碼)→w+一丨+一一→WRT(容錯碼)義務編碼為YWIZ,容錯碼為YWXZ。
上述兩類容錯碼組合在一起,便構成綜合容錯碼,其數(shù)量極少。如,“輪”編碼為LQRK,容錯碼為RQGK??梢娋C合容錯碼的容錯位至少有兩位,其中一位為編碼的第一位,另外的容錯位在編碼的第二至四位。
八、重碼的說明所謂重碼,是指這樣一種編碼,它所代表的字或詞組的數(shù)量超過一個。本發(fā)明允許存在極少量的重碼。
例如編碼YM所代表的字包括“一”和“乙”等。
編碼SATT所代表的字包括“暑”、“曙”等。
本發(fā)明嚴格限制重碼率,重碼率在3%以內。
為了將本發(fā)明的漢字編碼方法應用于鍵盤輸入,本發(fā)明還設計了專用鍵盤,其特點是將二十五種雙筆畫碼和一種單筆畫碼有規(guī)律地分配在通用的英文鍵盤的英文字母部分,并增設了四個專用功能鍵。具體鍵盤設計請參見說明書附圖
。說明書附圖僅給出通用英文鍵盤的一部分,在這一部分,本發(fā)明作了專門設計,共包括三十個鍵(即二十六個編碼元素鍵和四個功能鍵)。
四個功能鍵為輔助鍵、標點鍵、英漢鍵、漢英鍵,分別介紹如下1、輔助鍵全稱為輔助編碼鍵,以“?”表示,當某個編碼中的某一位難以確定或不愿確定時,可用輔助鍵代替,并通過屏幕菜單進行選擇。若編碼的連續(xù)若干位難于確定或不愿確定時,則用同樣數(shù)量的輔助鍵代替。
例如編碼WXYZ,可通過輸入WXY?、W?YZ、?XYZ、??YZ、W???等來選擇。
輔助鍵的設置至少可以解決以下兩個問題(1)不會讀的字的編碼聲母碼用輔助鍵代替。例如“靚”不會念,可輸入?TGZ。
(2)筆順難于確定的字的編碼在筆畫碼部分的某位或某幾位用輔助鍵代替。如,“義”筆順搞不清,可輸入Y?M。
2、標點鍵全稱為標點符號鍵,以“”表示??紤]到一般英文鍵盤上的標點符號種類不多,不能完全滿足漢語文章對標點符號的需要,故本發(fā)明設置專用的標點鍵。只要按下標點鍵,即可得到全部漢語標點符號的屏幕菜單。
3、英漢鍵全稱為英漢狀態(tài)切換鍵,以“>”表示。其功能為實現(xiàn)從鍵盤輸入的英文狀態(tài)向本編碼狀態(tài)的切換。
4、漢英鍵全稱為漢英狀態(tài)切換鍵,以“<”表示,其功能為實現(xiàn)從鍵盤輸入的本編碼狀態(tài)向英文狀態(tài)的切換。
還應指出,鍵盤輸入的初始狀態(tài)為英文狀態(tài),此后通過英漢鍵和漢英鍵進行狀態(tài)的雙向切換,而且在每種狀態(tài)下,數(shù)字鍵和其它未標有特殊符號的鍵都可照常使用。
下面簡要地談談本發(fā)明的名稱問題,通過上述描述可以知道一個典型的漢字(指六及六以上筆畫的字),其編碼為一個聲母碼+雙筆畫碼×3,其抽象表達式為1+2×3,用最簡捷的形式可縮寫為“123”。故本發(fā)明稱作“123漢字編碼法及其鍵盤”,其中的“123”既反映本編碼方法的實質性內容,又容易記憶、給人親切感。本編碼方法可以簡稱為“123碼”。
本發(fā)明所提供的漢字編碼方法在應用上具有以下特點編碼規(guī)則簡捷明了,強制記憶量極少,重碼率低于3%,實際使用時平均碼長少于2.5個。與其它各種編碼方法相比,本發(fā)明更好地考慮了上述指標的綜合平衡,即更好地兼顧了編碼方法的高效性與易學性,因而本發(fā)明既適合于專職使用,又易于推廣普及。
本發(fā)明的應用領域至少包括兩個方面信息處理機器(如電子計算機、文字處理機等)的漢字輸入,漢語字典及其它字典的漢字查字等。有理由相信,本發(fā)明將具有廣闊的應用前景。
權利要求
1.一種漢字編碼方法,以漢字的音和形的特性對字和詞組進行編碼,其特征在于(1)編碼元素分為聲母碼、雙筆畫碼和單筆畫碼三類,均以英文字母表示。(2)聲母碼的取碼規(guī)則如下A、對于有聲母的字(包括聲母位置為y和w的字),若該聲母(或聲母位置)只含有一個字母,則取該聲母為該字的聲母碼;B、對于有聲母的字,若該聲母含有一個以上字母,則取該聲母的第一個字母為該字的聲母碼;C、對于無聲母的字,規(guī)定字母V為該字的聲母碼。共有聲母碼21個。(3)筆畫碼的取碼規(guī)則如下A、雙筆畫碼由漢字的五種基本筆畫-橫、豎、撇、點、折兩兩組合,形成25種雙筆畫碼,具體取碼規(guī)則如下表
B、單筆畫碼的取碼規(guī)則如下規(guī)定字母M為單筆畫碼。(4)字的編碼規(guī)則如下A、一筆畫字聲母碼+單筆畫碼B、二筆畫字聲母碼+雙筆畫碼C、三筆畫字聲母碼+首雙筆畫碼+末單筆畫碼D、四筆畫字聲母碼+首雙筆畫碼+末雙筆畫碼E、五筆畫字聲母碼+首雙筆畫碼+次雙筆畫碼+末單筆畫碼F、六及六以上筆畫字聲母碼+首雙筆畫碼+次雙筆畫碼+末雙筆畫碼(5)詞組的編碼規(guī)則如下A、二字詞第一字的聲母碼+第二字的聲母碼+第一字的首雙筆畫碼+第二字的首雙筆畫碼二字詞編碼時,若某個字為一筆畫字,則以單筆畫碼代替上式中的該字的“首雙筆畫碼”。B、三字詞第一字的聲母碼+第二字的聲母碼+第三字的聲母碼+第一字的首雙筆畫碼三字詞編碼時,若第一字為一筆畫字,則以單筆畫碼代替上式中的“第一字的首雙筆畫碼”。C、四及四以上字的詞第一字的聲母碼+第二字的聲母碼+第三字的聲母碼+最末字的聲母碼。
2.如權利要求1所述的編碼方法,其特征在于字的簡碼的確定規(guī)則如下對于所有編碼中含有同一前綴碼的字,若該前綴碼未成為某字的編碼,則確定該前綴碼為其中使用頻率最高的字的簡碼。
3.如權利要求1所述的編碼方法,其特征在于存在如下容錯碼(1)聲母容錯碼允許聲母碼L與R混同使用。(2)筆畫容錯碼對于少量筆畫順序較準確定的字,允許按不同于正確筆順的某種筆順進行編碼。
4.一種適用于權利要求1所述的漢字編碼方法的專用鍵盤,其特征在于將二十五種雙筆畫碼和一種單筆畫碼有規(guī)律地分配在通用英文鍵盤的英文字母部分,并增設四個專用功能鍵。
5.如權利要求4所述的鍵盤,其特征在于所述的四個專用功能鍵分別為(1)輔助鍵當某個字或詞組的編碼的某一位難以確定或不愿確定時,可用輔助鍵代替。(2)標點鍵標點鍵被使用后,將出現(xiàn)所有漢語標點符號的選擇菜單。(3)英漢鍵其功能為實現(xiàn)從鍵盤輸入的英文狀態(tài)向本編碼狀態(tài)的切換。(4)漢英鍵其功能為實現(xiàn)從鍵盤輸入的本編碼狀態(tài)向英文狀態(tài)的切換。
全文摘要
本發(fā)明涉及一種實用的漢字編碼方法及其鍵盤。本發(fā)明以三類編碼元素——聲母碼、雙筆畫碼和單筆畫碼對字和詞組進行編碼,并設計了專用鍵盤。本發(fā)明具有規(guī)則簡捷明了、強制記憶量少、平均碼長較小、重碼率較低等優(yōu)點,因而既適合于專職使用,又易于推廣普及。
文檔編號G06F3/023GK1078316SQ92114330
公開日1993年11月10日 申請日期1992年12月3日 優(yōu)先權日1992年12月3日
發(fā)明者費革勝 申請人:費革勝