專利名稱:二維漢字形碼的制作方法
技術領域:
計算機漢字輸入技術。
現(xiàn)有技術目前漢字編碼已有數百種,由于部件與鍵位均按一維序列的方式對應,因此統(tǒng)稱為一維漢字編碼。除純音碼外,其他形碼或音形碼均將漢字分成三級筆形、字根、單字并以筆形或字根作為編碼的基本部件。本人于1985年首先提出二維漢字編碼的原理(見附件一),其主要特征是將漢字分成四級筆形、筆形結構、字根、單字,以筆形結構作為編碼的基本部件,采用縱橫兩套法則定出部件的縱橫坐標碼,并將鍵盤視為平面坐標使鍵位與部件對應。根據這個原理設計了第一套二維漢字漢字編碼-音形坐標輸入法(簡稱YXB)。此后又以筆形結構作為基本部件設計了另一套純形碼CXB。這兩套均由北京市計算機軟件中心實現(xiàn),并于87年4月通過鑒定(見附件二)。
發(fā)明目的使?jié)h字編碼更加易學易用。
發(fā)明內容(1)鍵盤設計,參照圖一。
說明P鍵的功能是數碼等字碼補位(見3);
P1鍵的功能是詞碼的轉換(見6);
P2鍵的功能是處理第二個重碼及簡碼符號碼補位(見7);
空格鍵的功能是處理第一個重碼及字碼補位。
(1)定碼法則(參照附表1)。
二維漢字編碼D2-A有橫縱兩套法則,橫向法則由筆形結構定,口訣是單筆一,雙筆二,三角三,方塊四,直交五,斜交六,直角七,人八八,三筆九。
縱向法則由筆形或筆數定,口訣是按點撇直橫,橫一直點二;撇勾夾八字,縱標取作三,四五六七九,還要看橫數。
說明與舉例11(Q)(1)單獨的橫,如亙(上下)、旦(下);
(2)下(上)面連有一筆的橫,如王(上)、正(上)、石(上)、頁(上)、生(下)、里(下)。
注
土為一個整體,其中的橫僅作為橫標取1(見下)。
21(W)兩橫或點橫,如示(上)、亍(上)、月(下)、甘(下)、齊(上)文(上)、充(上)。
31(E)(1)橫起筆的勾(包括部首冖及饣的上碼,如買(上)、予(上)、阝(上)、及(上)、乃(上)、子(上)、了、罕(上)、(下)、巾(下)、韋(下)、讠(下);
(2)
看作橫起筆的勾,主要用在單字比及頃的左邊。
41(R)(1)帶一橫或一直的口,如日、巴(上)、豆(上)、或(下)、咸(下)、艮(上);
(2)
作為下面為橫的方塊,用在且(上)、皿(上)等字型上;
(3)足的上碼為41,屬于特例;
51(T)
(1)土作為下面為橫的直交,如走(上)、幸(上)、王(下)、主(下),但生、里等字型的下碼不能取土,因它與其余筆形相交,故下碼取一橫為11(請注意他們之間的區(qū)別);
(2)與橫筆交一次的直交,如巾(上)、也(上)、皮(上)(十字作為數碼,規(guī)則見后)。
61(Y)(1)又作為橫起筆的斜交,如圣(上)、支(下)、反(下);
(2)與橫交一次的斜交,如大(上)、女(上)、堯(上)、農(上),內(上)、厥(左下)。
71(U)(1)橫起筆的直角如錄(上)、司(上)、區(qū)(左)、婦(右)、已(上下),心的下碼為71屬于特例;
(2)與橫筆交一次的直角,如七、托(右下)、屯(下);
81(I)(1)八字,如部首冫、單(上)、共(下)、將(左)、分(上)、公(上),
為一整體作為下面為一橫的八,例如,前(上)、豆(卞)、亞(下)(注意豆、亞、業(yè)、金等單字下碼不是11);
(2)竹字頭作為帶橫的八,故取碼為81。
91(O)(1)三點水,如學(上)、興(上)、心(上)及部首氵;
(2)右上角帶點的筆形結構,如犬(上)、戈(上)、我(上)、求(上)、甫(上)、書(上)、尤(上)、龍(上);
(3)與橫筆交一次的小,如木(下)、樂(下)、策(下)、東(下);
(4)÷作為帶橫的小,如母(下)、舟(下)。
12(A)(1)單獨的直,如引(右)、個(下)、片(上)、鬲(下)、阝(下)卩(下)、叫(右下);
(2)橫下(上)有兩筆,如耳(上)、開(上)、酉(上)、亞(上)、正(下)、丘(下)、兩(上);
(3)
作為直起筆的一,如止(上)、卓(上)、上(上)。
22(S)(1)平行的兩直(包括廾),例如草字頭艸、共(上)、革(上)、齊(下)、異(下)、典(上)、曲(上)、收(左上)、叫(右上);
(2)平行的兩點
(不同于冫),冬(下)、盡(下)、斗(上);
(3)
作為直起筆的二,如乍(下)、假(中下);
(4)
為麗字的下碼,作為帶點的雙筆。
32(D)(1)直起筆的勾,如丁(下)、爭(下)、民(下)、弋(下);
(2)帶點的三角,如部首礻(上)、衤(上)、宀以及單字令(下)、專(下)、寸(下)、勺(下)、夕(上)、之(上)。
(3)
作為直起筆的三,如非(左右),肆(左上)。
42(F)(1)帶兩橫或兩直的口,如目、羅(上)、言(下)(四為數碼,包括西(下),定碼為41);
(2)大囗,如田(上)、國(上)、母(上)、臼(下)、凹(下)、凸(下);
(3)直起筆的口,指筆形結構
,如民(上)、官(下)、巨(右)、
假(中上)巳(上)、異(上)、導(上);
(4)帶點的方塊,如戶(上)、良(上)。
52(G)(1)十字,如賣(上)、支(上)、早(下)、單(下)、事(上);
(2)與橫筆交兩次的直交,如中、降(右下)、奉(下)、聿(下);
(3)帶點的土,如玉(下)、壓(下)、國(下)。
62(H)(1)帶直的斜交,如部首扌、單字艮(下)、辰(下)、農(下)、才(下)、卜、長(上下);
(2)與橫筆交兩次的斜交,如夫(上)、史(上)、匆(下);
(3)其他帶挑的筆形結構,如扌、刁(下)、北(左)、蟲(下)(有的字形作偏旁時有時將橫寫成挑,如土字旁,不在此例);
(4)帶點的斜交如,義、叉、夜(右下)。
72(J)(1)直起筆的直角,如兒、軋(右)、充(下)、兇(下)山(下)、同(上)、斷(左下),部首辶=乚;
(2)與橫筆交兩次的直角,如毛(下);
(3)帶點的直角,如讠(上)、門(上)、為(上)。
82(K)(1)單立人亻(作為帶直的人),包括禾的上碼,如禾(上)、樂(上)、延(右上)、毛(上)、手(上)、千(上)、重(上);
(2)一長撇帶一點的人,如貝(下)、凡(下)、丸(下)、班(中)、為(下)、太(下)。
92(L)(1)帶直筆的小,如豎心旁忄、堂(上)、尚(上)、肖(上)、兼(下)、亦(下)、半(上);
(2)三直,如川、山(上)、出(上)、流(右下);
(3)水(包括氺),如汞(下)、泉(下)、錄(下)、隸(下)、雨(下);
(4)與橫筆交兩次的小,如末(下)、朱(下)、束(下);
(5)四點灬。
13(Z)(1)單獨的撇,如白(上)、后(上)、向(上)、鳥(上)、戶(下)刀(下)、鄉(xiāng)(下)、氕(下)、夕(下);
(2)帶撇的橫,指筆形結構與廠,如放(右上)、施(右上)、厲(上);
23(X)(1)平行的兩撇,如彳(上)、勿(下)、豕(下)、家(下)、象(下);
(2)帶撇的二和廣,如氣(上)、慶(上)(疒=廣);
(3)帶勾的兩直,如部首刂、冂(下),包括丙、內、離、兩、再、禹、咼等單字的下碼;
(4)業(yè)的上碼為23,屬于特例。
33(C)(1)撇起筆的三角,如纟(上)、鄉(xiāng)(上)、去(下)、公(下)、縣(下)、矣(上);
(2)帶撇的三角,如欠(上)、爾(上)、久(上)、魚(上)、奐
(上)、免(上)。
43(V)(1)口字,如只(上)、古(下);
(2)尸字(帶撇的口),如尺(上)、眉(上)、所(左下)。
53(B)(1)撇起筆的直交,如牛(上)、告(上)、朱(上)、制(左上);
(2)與橫筆交三次的直交,如豐、聿(上)、表(上)、羊(下)、由(上)、甲(下)、申(上下)、電(上)、耒(上);
(3)下面帶勾的直交,如寸(上)、才(上)、子(下)、手(下)、于(下)、乎(下);
(4)中間或上下夾八的直交,如喪(上)、平(下)、傘(下)、來(上)、木(上)。
63(N)(1)撇起筆的斜交,如殺(上)、丈(下)、女(下)、吏(下)、更(下)、史(下)、風(下);
(2)帶撇的斜交,如失(上)、務(上)、備(上)、條(上)、夏(下)、陵(下)、復(下)、處(左);
(3)中間夾八的斜交,如夾(上)、潦(右上)。
73(M)(1)帶撇的直角,如用(上)、月(上)、周(上)、句(上)、力、匕、幾、風(上);
(2)與橫筆交三次的直角,如電(下)、龜(下)、奄(下)。
83(<)
(1)人字(包括入),如金(上)、從(左右)、今(上)、令(上)、天(下)、大(下)、火(下)、亥(下)、久(下)、尺(下);
(2)橫撇與直撇的連,如夭(上)、喬(上)、看(上);
(3)中間夾八的立人,如乎(上)、釋(左上)。
93(>)(1)帶撇的小,如火(上)、卷(上),以下單字的上部同火,如癸(上)、祭(上)、脊(上);
(2)撇起筆及帶撇的三筆,如彡、巛、爪、采(上)、受(上)、愛(上);
(3)小字,如示(下)、不(下)、京(下)、少(上)、雀(上);
(4)與橫筆交三次的小,如耒(下)、秉(下);
(5)米字,如柬(下)、米(上下)、來(下)。
數碼一、二、三、四、五、六、七、八、九,依次對應于第一排的九個鍵位(P鍵補位),不完全按以上法則。如一11P,二21P,…九91P,大寫數碼分別為壹11 11P,貳21 21P,…玖91 91P,十看作5×2取碼為52P。
橫標為5、6、7、9時,縱標有時由與橫筆的交數確定,但單獨的橫與拐彎的橫不能合計,例如耒的下碼為93,上碼為53,但束的下碼為92,上碼為52。又如毛的下碼為72,但屯的下碼為51。
(3)單體字取碼法則單體字即由字根及部首構成的單字。從上一章可以看到,多數單體字僅取上下兩碼,不用拆根,這是二維漢字編碼的一個主要特點。對于一些筆形比較簡單的單體字,在取上下碼時,有的筆形可能要公用。如的上碼為71下碼為31;大的上碼為61,下碼為83,冂的上碼為72,下碼為23;木的上碼為53,下碼為91;巾的上碼為51,下碼為31。反之對于一些筆形比較復雜的單體字,中間的部分可能略去不計,例如重的上碼為82,下碼為11;事的上碼為52,下碼為32。初學時不能如一維漢字編碼那樣,將它們拆開取3碼。以下單體字僅取一碼以P鍵補位的有數碼一11、二21、三31、四41、五51、六61、七71、八81、九91、十52以及口43、目42、牛53、卜62、幾72、川92、爪93。以空格鍵補位的有工11、了31、日曰41、土士51、又61、廠13、廣23、中52、義叉62、兒72、水92、豐53、力匕73、人入83、小93。部首有氵91、冫81、疒23、亻82、宀32、扌62、艸廾22、辶72、忄92、犭夂63。
因為字碼的最大碼長為3,因此無論取兩碼還是取一碼都需補位才能斷碼。字碼補位一般情況用空格鍵,以下幾種情況用P鍵補位(a)數碼;一、二、…九及其大寫、十、百、千、萬、幾、單、雙、兩、共;
(b)干支;甲、乙、丙、丁、…子、丑…;
(c)人體器官口、目、舌、耳、身、手、足、血、肉、骨、皮、毛、發(fā)、心、頭、首、爪;
(d)動物牛、馬、羊、鹿、犬、龍、魚、蟲、鳥、鼠、龜、虎;
(e)人物父、母、兄、弟、夫、妻;
(f)方向東、西、南、北、上、下、左、右、前、后;
(g)重量長度斤、兩、克、尺、寸、丈;
(h)含門、勹、辶、弋、川、肀、卜、的兩碼單字。
(4)雙體字的取碼。
雙體字即由兩個字根構成的單字,分左右與上下兩種結構(A)左右結構(a)如兩體均為單碼字,則從左至右取兩碼,然后補位。例如,匯91 71,撲62 62P,淚91 42,僅82 61,抓62 93P;
(b)如一體為單碼另一體為雙碼,則從左上角起按順時針方向取三碼。如沐91 53 91,換62 33 83,札53 72 91;
(c)如兩體均為雙碼,則按順時針方向取三碼,但部首只取一碼。
當部首在左時(圖二a),例如,枝53 52 61,馱71 61 83;
當部首在右時(圖二b),例如,頂11 11 32,鴨42 13 53。
(B)上下結構(a)如兩體均為單碼,則依次取上下兩碼,然后補位。如塵93 51,早41 52P;
(b)如兩體中有一體為單碼,另一體為雙碼,則按上下中的順序取三碼。例如芙22 83 62,弄11 22 51,尖93 83 61;
(c)如兩體均為雙碼,則依次取上體的上碼,下體的下碼,然后再取非部首的另一碼。
當部首在上時(圖二c),例如,奈61 93 21,需11 22 11。
當部首在下時(圖二d),例如,患52 71 52,灸33 83 83。
(C)其余結構一律轉換為左右或上下結構(a)內外例如,因42 83 61(上下);
(b)上包例如,同72 41 23,風73 63,咸91 41 13(上下);
(c)下包例如,連61 72 52(上下);
(d)左包例如,區(qū)71 63,巨71 42(左右);
(e)右上包例如,司71 41,句73 43 31,或91 41 63,裁91
91 63(上下);
(f)左上包例如,床23 91 53,房42 31 21(上下)。
在雙體字中,如兩體都可作為部首,則常用字均有兩種輸入法。例如欣,取碼為13 33 83(左邊斤作部首),或13 33 12(右邊欠作部首)。又如季,取碼為82 53 31(上邊禾作部首),或82 53 91(下邊子作部首)。
(D)對于一些常用的筆形比較簡單的雙體字(特別是上下結構和部首在左邊的三碼左右結構),均配有兩鍵簡碼。例如召71 43,號43 31P,委82 63,和82 43,權53 61,相53 42P,責53 82,利82 23,別43 23。用戶可以在使用過程中逐漸掌握(這些字如按規(guī)取三碼有時可能是重碼)。
(5)多體字的取碼規(guī)則如一個單字由三個或三個以上字根組成,原則上是從左上角起按順時針方向取三碼,但每個字根最多取一碼,且遵循以下法則(A)先上后下、先左后右、先外后內;
(B)上上、下下、中上。
所謂上上,即上面的字根取上碼;下下,即下面的字根取下碼;中上,即中間的字根取上碼。多體字主要有以下幾種類型(a)例如(圖三a),樹53 61 53,漚91 71 63,微23 92 13;
(b)例如(圖三b),瑞11 92 22,編33 42 22,槌53 13 72;
(c)例如(圖三c),款51 33 93,題41 11 83,新21 13 91;
(d)例如(圖三d),慰43 53 71,避43 21 72,些12 73 21;
(e)例如(圖三e),罰42 23 31,宿32 41 82,履43 63 82;
(f)例如(圖三f),密32 72 91,愿13 71 13,蓬22 72 63;
(g)例如(圖三g),楷53 31 41,燃93 32 92,溜91 13 42;
(h)例如(圖三h),棍53 41 73,渝91 83 23,嚼43 93 32;
(i)例如(圖三i),樊53 63 83,輿13 61 81,兜13 13 72;
(j)例如(圖三j),嬴21 82 82,箍81 31 71;
(k)例如(圖三k),率21 52 81,燕22 92 62;
(l)例如(圖三l),菀22 71 32,蓖22 73 13。
(6)詞碼二維漢字編碼D2-A編有詞碼約一萬七千余條,由P1鍵轉換,分以下幾種情況。
(一)雙音詞(1)第一個字為單體結構或上方只有一個字根,先取第一個字的上碼,然后擊P1鍵,再取第二個字的前兩碼。
例如,正巧11P1 11 11,露骨11P1 72 21,可能11P1 33 73,最低41P1 82 13;
(2)第一個字的上方為左右結構,先取第一個字的前兩碼,然后擊P1鍵,再取第二個字的第一碼。但如第二個字也是左右結構且與第個字的部首相同,則第二個字取第二碼。
例如,短評13 41P1 72,往返23 21P1 13,組織33 41P1 43,樓梯53 93P1 81,衡量23 33P1 41,幫助63 31P1 41。
(3)特例(A)如第一個字為下、后、不、無,則第一碼分別取這些字的下碼。
例如,后面41P1 11 42,下落62P1 22 43,不斷93P1 93 13,無恥72P1 12 12。
(B)如第一個字的部首為廠(包括)、辶和竹字頭,則前一個字取兩碼(與上下結構同樣處理)。
例如,厘米13 11P1 93,反動13 61P1 21,道理81 72P1 11,等待81 32P1 23。
(二)三音詞先擊P1鍵,然后依次每個字各取第一碼。
例如,副總理P1 41 81 11,對不起P1 61 93 51,介紹信P1 83 33 82。
注意下、后、不、無仍取下碼(下同)。
(三)四音詞先擊P1鍵,然后依次取第一、第二、第四個字的第一碼。
例如,理所當然P1 11 13 32,無產階級P1 72 21 33,科學管理P1 82 91 11。
(四)多音詞(五音或五音以上)先擊P1鍵,然后依次取第一、第三及最后一個字的第一碼。
例如,中國共產黨P1 52 22 92,集體所有制P1 82 13 53,政治協(xié)商會議P1 11 52 72,中華人民共和國P1 52 83 42(為了避免重碼,少數多音詞不按以上法則取碼,用戶可在使用過程中逐漸掌握(7)簡碼、特殊碼、符號碼(A)簡碼如按規(guī)則應取三碼,但實際上僅取兩碼或一碼;或者按規(guī)則應取兩碼,但實際上僅取一碼的字或詞,均稱為簡碼。簡碼的主要作用是(1)減少重碼,有些常用字,如按規(guī)則取三碼則是重碼,但如取前兩碼,則可能不是重碼。例如,相按規(guī)則取碼應為53 42 91,這時與棵是重碼,但如取簡碼53 42 P,則不是重碼。
(2)有些常用字并非重碼,但為了提高輸入速度(僅取一碼或兩碼),也配有相應的簡碼。例如,這按規(guī)則應取21 72 63(不是重碼),但由于經常用,因此配有簡碼21。
簡碼可用空格鍵、P鍵或P2鍵補位,用P2鍵補位時,單碼為字碼,雙碼為詞的簡碼。
例如,正確11 11P2,國際42 31P2,人民政府83 23P2(取首尾字的第一碼)。
(B)特殊碼凡不按規(guī)則取碼者均為特殊碼。特殊碼的主要作用是(a)減少重碼,例如,臨按規(guī)則取碼應為22 81 41,這與監(jiān)是重碼,如采用另一碼22 81 42,則不是重碼(這種特殊碼為數不多,而且都是改變最后一碼的縱標)。
(b)有些漢字的筆形結構容易弄錯,故配有特殊碼。例如肺的取碼應為73 52 31,但有人將它誤寫為肺,因此配有特殊碼73 21 31。
用戶掌握了這些簡碼和特殊碼后(約150個),可以做到常用字幾乎無重碼,且純字碼的動態(tài)平均碼長可降到2.8以下。但是這些簡碼與特殊碼并不用死記硬背,初學時重碼率可能高一些,如常用字出現(xiàn)重碼就要找出相應的簡碼或特殊碼,經過一段時間的練習自然就能掌握。
(C)符號碼二維漢字編碼D2-A有三套符號碼(均以P2鍵補位)。
(a)常用標點先擊27個基本鍵位中的任一個,然后擊93(>)鍵,最后擊P2鍵。
例如,?號的對應碼為72>P2(只有逗號,和句號。分別為92P和93P)。
(b)小寫拉丁字母先擊27個基本鍵位中的任一個,然后擊92(L)鍵,最后擊P2鍵。
例如,a的對應碼為12LP2,s的對應碼為22L P2,余類推。
(C)常用數學符號先擊27個基本鍵位中的任一個,然后擊52(G)鍵,最后擊P2鍵。
例如,∑號的對應碼為73G P2。
與現(xiàn)有技術相比。
(1)與一維漢字編碼相比(A)易學。除拼音碼與筆形碼外,所有一維漢字編碼均以字根作為編碼的基本部件,用戶一般要記一百多個編碼字根,有的雖可按某種方式分組(例如五筆形碼是按起筆分成五組),但各組內的字根與鍵位并無統(tǒng)一的對應法則,而且對一些非編碼字根還要拆根,因此用戶的記憶量大,難以掌握。
D2-A碼是以筆形結構為部件的二維漢字編碼,用戶不用記字根也不用拆根,只要記住九類筆形結構及有關筆形,就能按二維坐標的對應方式找到每個部件所對應的鍵位,因此記憶量小,比較易學。
(B)鍵位少、碼長短。迄今為止,所有一維漢字編碼,在基本鍵位小于30的條件下,欲重碼率較低,字碼的最大碼長至少為4;反之,欲將字碼的碼長壓縮到3,則基本鍵位數至少在40以上,D2-A碼的基本鍵位為27,但字碼的最大碼長僅為3,且保持較低的重碼率(動態(tài)重碼率約為1%且最多3字相重)。
(2)與YXB、CXB相比。YXB雖是二維漢字編碼,但由于縱向法則由字音確定,每擊一鍵均要考慮音與形,二者永遠不能合一,因此只是易學,但輸入速度不可能提高。
CXB雖是純形碼,且以筆形結構作為編碼的基本部件,但由于沒有統(tǒng)一的縱向法則,規(guī)則較多,難以掌握。
D2-A碼綜合了二者的長處,克服了各自的不足,因為它有按筆形統(tǒng)一確定的縱向法則,因此學習難度低,又因其縱橫兩套法則均由字形確定,因此熟悉后即能使二者合一,完全如一維漢字編碼那樣由部件(筆形結構)直接找對應的鍵位,因此能得到較高的輸入速度。
關于D2-A碼與其它輸入法的不同之處可參閱附表二(一維形碼以五筆型碼為代表)。
3)D2-A碼現(xiàn)已在IBM-PC及長城0520等同類機型上實現(xiàn),并有現(xiàn)成的軟件。經測試,動態(tài)重碼率約為1%,且最多3字相重。對于其他機型只要對程序作適當調整即可實現(xiàn)。如用戶需要,可提供字碼與詞碼的全部碼本。
權利要求
1.前序部分現(xiàn)有漢字編碼多數是一維漢字編碼,其共同特征是(1)將漢字分成三級筆形、字根、單字,以筆形或字根作為編碼的基本部件;(2)部件與鍵位按一維序列方式對應。YXB碼雖是二維漢字編碼,但縱向法則由字音確定,CXB碼雖是以筆形結構作部件的純形碼,但沒有統(tǒng)一的縱向法則。
2.特征部分D2-A碼是二維漢字編碼,其特征是(1)將漢字分成四級筆形、筆形結構、字根、單字,以筆形結構作為編碼的基本部件,(2)以九類筆形結構作為統(tǒng)一的橫向法則,以三類筆形作為統(tǒng)一的縱向法則,由此定出部件的縱橫坐標碼,按二維平面坐標與鍵位對應。
專利摘要
D2—A碼是一種新的計算機漢字輸入技術,它是純形二維漢字編碼,由于將漢字分成四級筆形、筆形結構、字根、單字,以九類筆形結構定橫標,以三類筆形定縱標,由此定出部件的縱橫坐標碼,并按二維平面坐標的方式將部件與鍵位對應,從而緩和了漢字編碼易學(規(guī)則少)與易用(碼長短、鍵位少、重碼率低)的矛盾。D2—A碼以較少的規(guī)則,不用字音,在27個基本鍵位上實現(xiàn)了GB2312—80中的全部6763個漢字的字碼碼長不超過3,動態(tài)重碼率約為1%,且最多3字相重。
文檔編號G06F3/023GK87106169SQ87106169
公開日1988年4月27日 申請日期1987年9月9日
發(fā)明者石嘯生 申請人:石嘯生導出引文BiBTeX, EndNote, RefMan