專利名稱:拼音四角筆碼和字元四角筆碼漢字編碼方案的制作方法
技術(shù)領(lǐng)域:
本發(fā)明是用于中文信息處理領(lǐng)域里的一個新穎漢字編碼方案。
漢語拼音韻母表中有35個韻母,要用26個英文字母鍵來代換35個韻母,勢必有好多鍵要充當二個漢語拼音韻母鍵的作用。國內(nèi)外絕大多數(shù)雙拼編碼方案都無法做到將35個韻母,有規(guī)律的按順序安排到英文字母鍵上去,這樣勢必要造成中文信息處理操作人員,必須死記硬背英文字母鍵和所代表韻母的對應(yīng)關(guān)系。漢語拼音經(jīng)過三十多年的大力推廣,在群眾中有十分良好的基礎(chǔ),這一點對以漢字讀音為基礎(chǔ)的音碼編碼來說,確是得天獨厚的優(yōu)點,然而音碼最大的缺點是漢字中存在著大量的同音字。為了分解、離散同音字,音碼引進了形碼之中十分難學難記的字元和部首,這樣一來又大大增加了音形碼的學習難度。
本發(fā)明的目的,主要是提出一個新穎的漢字編碼。這個漢字編碼既能充分發(fā)揮音碼得天獨厚的優(yōu)勢,又不象音形碼那樣由于增加了形碼的成分而使學習難度增加,并且要實現(xiàn)韻母根據(jù)排列順序,有規(guī)律地分布到英文字母鍵上去。使人們見到一個漢字就能十分簡便、快速、自然而然地知道對應(yīng)于這個漢字的一組編碼字母符號,以便中文信息操作人員能更快、更好地進行中文信息處理。
本發(fā)明另一個目的是要使我國中文信息界,第一次獲得一個有能力、有條件,在全國大面積推廣、普及的優(yōu)秀漢字編碼方案。
本世紀二、三十年代,在我國發(fā)明并逐漸流行出來的四角號碼檢字法,之所以取漢字四角筆形作為查字依據(jù),一個重要的原因就是漢字四角位置,在漢字之中特別醒目,所以四角筆形特別容易被確定。我國漢字編碼技術(shù)中,現(xiàn)有一些頗有名氣、頗有影響的漢字編碼方案,不約而同地選擇了首筆劃和末筆劃作為輔助信息,編入編碼字母中。除了筆劃構(gòu)成簡單外,還有一點是和四角號碼檢字法不謀而合的,就是首筆劃大都集中在漢字的左上角,末筆劃大都集中在漢字的右下角。正因為首末筆劃大都在漢字特別醒目的部位,所以首末二筆劃特別容易被確定。本發(fā)明注意到上述情況后,下決心將離散、分解同音字的突破點,放在四角筆劃信息上。漢字共有三十種左右筆劃,將全部筆劃歸一下類,大致可分為橫、豎、撇、捺(點)、折五大類筆劃。對于這五大類筆劃,本發(fā)明分別用數(shù)字1、2、3、4、0來代表。漢字有第一、第二、第三、第四四角角碼,本發(fā)明為了便于表明,規(guī)定分別用①②③④為四個角碼的專用表示符號所取筆劃用粗黑筆劃表示。例如,“會”和“彗”二字,它們的讀音都是hui,因為它們的讀音相同,所以它們的雙拼字母必定相同。根據(jù)去四字母韻母,韻母順序代換法,韻母ui用字母y表示,所以“會”和“彗”二字的雙拼字母是hy。接下去就取這二字的四角筆碼①會會②③會會④根據(jù)取碼實例,“會”的四角筆劃信息是撇、捺、折、點,進而取得四角筆碼為3404,①彗彗②③彗彗④根據(jù)取碼實例,“彗”的四角筆劃信息是豎、豎、橫、折,進而取得四角筆碼為2210。一個角有可能遇到五種筆劃信息,①和②、③和④二個角合起來,共有可能遇到25種筆劃信息,漢字中最常見的口也被算作一種信息,共有26種筆劃信息,進而有可能取得26種筆碼。將26種筆碼,根據(jù)筆碼順序,以及對應(yīng)關(guān)系同26個英文字母相代換。例如,筆碼22由英文字母M代表;筆碼10由英文字母F代表;筆碼34由英文字母T代表,筆碼04由英文字母E代表。于是“會”字,可以用HY3404代表,也可以用HYTE代表;“彗”字可以用HY2210代表,也可以用HYMF代表。這樣“會”和“彗”不但二字有了區(qū)別,而且和所有讀音為hui的漢字都區(qū)分開來了。
漢字編碼分音碼、形碼、音形碼三種類型。音碼的缺點,是存在著大量的同音字。形碼的缺點是形碼通常有一百多個字元部首。使用者還必須記牢這一百多個部首字元和26個英文字母,無規(guī)則的對應(yīng)關(guān)系。使用時再要考慮怎樣拆分漢字的字元和部首,這些難學難記的部首和規(guī)則是廣大非專業(yè)人員無法掌握的。音形碼,增加了形碼的成分,同時也增加了難學的程度。正因為三大類型漢字編碼存在著不同程度的缺點。目前,我國現(xiàn)有的漢字編碼都跳不出這三大類型漢字編碼所屬的范圍。由此產(chǎn)生的結(jié)果是,中文信息處理技術(shù)長期以來無法大面積推廣和普及,漢字編碼這項作為我國推廣計算機應(yīng)用急需解決的課題長期攻而不克。本發(fā)明在漢字編碼技術(shù)中自創(chuàng)流派,獨樹一幟,創(chuàng)造了一種音四筆漢字編碼。YSB就是音四筆三字的首字母,YSB編碼不要求人們記部件,不要求人們拆分漢字,不要求人們增加識別碼。只要認準漢字四角五種筆劃,四碼中前二碼一律為雙拼字母,后二碼一律為四角筆劃。經(jīng)過幾小時學習就能掌握,一旦掌握就能以很快的速度,將漢字化成一行字母符號。音四筆碼的這些優(yōu)越特點是任何形碼、音碼、音形碼無法比擬的。
要掌握去四字母韻母,韻母順序代換法,只要記住以下口訣四字韻母靠邊站,單字韻母原字配。
其余各字依次對,窩雍去首同喔轟。
后五韻母后五字,央韻緊跟翁韻后。
上浮四字即汪韻。
口訣第一句四字韻母靠邊站。即在韻母排列順序之中先將iong、iang、ueng、uang四個韻母去掉,使它們不參加韻母順序排列;口訣第二句單字韻母原字配。即a、e、i、o、u這五個有單字母構(gòu)成的韻母仍用單字母A、E、I、O、U來表示;口訣第三句,其余各字依次對。即去掉四字母韻母和單字韻母后,將其余26個韻母根據(jù)字母順序排列出來。26個英文字母去掉需要原字配的A、E、I、O、U,其余21個英文字母根據(jù)順序排列出來,于是就得到下面一張排列表。
口訣第四句窩雍去首同喔轟。即把uo(窩)和iong(雍)去掉一個首字母后和o(喔)、ong(轟)一樣用英文字母O、S來表示;口訣第五句后五韻母后五字。就是將余下的七個韻母中的后五個韻母同英文字母最后五個字母相代換,于是我們列出下表。
口訣第六句央韻緊跟翁韻后。即iang排在ueng后面用英文字母V表示;最后一句上浮四字是汪韻。即V字母上面第四個字母R代換uang。
去四字母韻母,韻母順序代換法全表
iong、uo雖然沒有根據(jù)順序排列,但把它們?nèi)サ羰鬃帜负笸琽ng、o放在一起,應(yīng)該說這是很自然很好記的。原來必須逐一記住的三十五個韻母,當有了順序代換表后,只要記住iang、uang二個韻母就可以了。
四角筆碼定字法筆劃代號對應(yīng)表
四角定字法,每角有可能取得5種筆劃信息,2角合起來有可能25種信息組合。字元“口”也算是一種信息組合,現(xiàn)將26種信息組合和二十六個英文字母一一對應(yīng)如下;
筆碼、英文字母對照表
定字方法(一)取角順序1)左右結(jié)構(gòu)漢字先取左上,次取左下角,再取右上角,后取右下角。
例①②數(shù)③④2)左中右結(jié)構(gòu)的漢字,將其左中結(jié)構(gòu)看成是一個左右結(jié)構(gòu)漢字,然后依照左右結(jié)構(gòu)來取。
例鶘①②胡③④3)左右、左中右結(jié)構(gòu)以外的任何漢字,先取左上,次取右上,再取左下,后取右下。
例①③單②④①③左②④4)一筆劃漢字,①②重復(fù)取該筆劃;二筆劃漢字①②取完二筆劃后,取碼就算完成。
例①一一②所以“一”的四角筆碼為11。
①十十②所以“十”的四角筆碼為21。
5)只有三筆劃的漢字,在取完三筆劃后,④對該漢字重新取碼。
例土字①土土②③土土④所以土的四角筆碼是2111。
(二)左右結(jié)構(gòu)、左中右結(jié)構(gòu)的漢字。當左結(jié)構(gòu)是女、木、扌、亻、氵時。為了更多的選擇漢字的其它筆劃信息,所以這五大偏旁,在取①就將整個偏旁當作一個筆劃全都取走了,這五大偏旁分別有數(shù)字0、1、2、3、4代表,左上角由于把整個偏旁都取走了,左下角就向右下角借筆碼。
例①杉②杉杉③杉④所以杉的四角筆碼為1333。
①仗②仗仗③仗④所以仗的四角筆碼為3431。
女、木、扌、亻、氵五大偏旁取筆碼順序為①杉③② ④(三)上下結(jié)構(gòu)、上中下結(jié)構(gòu)的漢字中,上結(jié)構(gòu)是部首艸,把整個部首艸取筆碼為1,然后再取右上角、左下角、右下角。
例薺字的取法為①薺齊②③薺薺④所以薺的筆碼為1432。
(四)為了減少同碼,在左右結(jié)構(gòu)或左中右結(jié)構(gòu)漢字中。當左結(jié)構(gòu)是纟、钅、月、土四個偏旁時,左上角和左下角互為倒取。
例坷字正常四角筆碼為2112,鐵字正常四角筆碼為3234,但有了本條規(guī)定,坷字取碼順序變?yōu)棰冖倏愧邰?,因此坷字四角筆碼為1212,鐵字四角筆碼為2334。
(五)取漢字筆碼時,上角優(yōu)先取最高筆劃,當漢字有幾個筆劃同屬最高筆劃時,左上角優(yōu)先取擁有最高、最左點的筆劃;右上角優(yōu)先取擁有最高最右點的筆劃。同理,下角優(yōu)先取最低筆劃,左下角優(yōu)先取最底最左點的那個筆劃,右下角優(yōu)先取擁有最底最右的那個筆劃。
例王字①③王②④“王”字一橫一豎同屬最高筆劃,但最高最左點在王字最上面的一橫上,所以左上角①取一橫,②取余下的一豎。因此“王”字的①②的筆碼為12。
當最高最左點為二筆劃共有時,優(yōu)先取在最高處線段長的這一筆劃。
例“日”字中的豎和折,同屬最高筆劃,同時擁有最高最左點,而筆劃(折),在最高處有一段距離線段,而筆劃(豎)在最高處僅有一點是最高最左點,所以日字①取(折)①日。
(六)左角取碼,一般不取漢字右邊邊緣的筆劃。右角取碼一般不取漢字左邊邊緣的筆劃。但在筆劃全都取完了,只剩下左邊邊緣筆劃的情況下,才允許右角取漢字左邊邊緣筆劃。
例“日”字①日因為②是右角碼,所以無法取左邊緣(豎)筆劃。所以②只能日②,③取最下面一橫③日,右下角④只余下左邊邊緣筆劃(豎),于是日④。
(七)當中起筆的撇,下角有他筆的,優(yōu)先取他筆;漢字右邊邊緣起筆的撇,旁邊有他筆的,優(yōu)先取他筆。
例③衣③復(fù)③老②成④但左邊起筆的撇取撇筆作筆碼。
例②辟②尉(八)除需要進行借碼處理的,女、木、扌、亻、氵、艸幾個偏旁外,其余漢字左右結(jié)構(gòu),左角在左結(jié)構(gòu)上取筆碼,右角在右結(jié)構(gòu)上取筆碼,上下結(jié)構(gòu)漢字,上角在上結(jié)構(gòu)上取,下角在下結(jié)構(gòu)上取筆碼。
(九)當和第六條規(guī)定不發(fā)生沖突時,優(yōu)先取冂
幾等三面包圍型筆碼。
例傭字,①傭傭②傭③③優(yōu)先取了三面包圍型的筆劃。
(十)筆劃從漢字最高部位起筆,到漢字最低部位止筆,這類筆劃稱作通長筆劃。筆劃上面只有一點,筆劃到漢字最低部止筆,這種筆劃稱次通長筆劃。筆形
丷同通長筆劃,單獨相處時取通長筆劃,不單獨相處取
的筆碼。筆劃同通長、次通長筆劃,單獨相處時取通長、次通長筆劃。不單獨相處時取為筆劃。
例“病”字。筆形;旁邊的撇不是通長筆劃,所以③病。
例“兆”字。筆形
旁邊的兒都是通長筆劃,所以①兆兆②。
例“沛”字。由于其中的一豎為通長筆劃,所以沛②。
例“鼗”字。由于同冫
相處的不是通長筆劃,所以①鼗鼗②。
(十一)當取四角筆碼時,第1和第3碼取到口,即以53代替口字形筆碼,其它筆碼繼續(xù)取下去直到取滿4位筆碼為止。例“跑”字①②③跑④,所以“跑”字四角筆碼為5313。
但當②、④取到口時,由于前一碼已被他筆取走,這時字元口只能取筆碼53后面后一個3了。
例“語”字④取53后面的一個3,“語”字四角筆碼即為4013。
(十二)凡在豎筆和彎鉤旁邊的撇,一般不取碼。即使取碼,要等同高度的筆劃取完后,才能取該筆。
例“杲”字。四角筆碼為0124,③不取撇取豎。
例“木”字。四角筆碼為2143,③不取撇取捺,④同高度筆劃取完后才取豎筆旁邊起筆的撇。
(十三)字元艸、一概作艸、十,除此其它筆形以印刷通用漢字字形為準。例“真”字。作真取碼,四角筆碼為2134。
關(guān)于ZSB編碼的說明ZSB也就是對不認識的漢字,先取其字元再取其四角筆碼的一種編碼方法。由于本方案要求對常用一級漢字應(yīng)該都會寫都會讀,所以ZSB只對“GB2312-80”信息交換用漢字字符集中的二級常用漢字進行編碼。ZSB對漢字拆分原則是凡是相交的字元,一律不再拆分。例“夫”不拆成二人。相接相離的字元可以拆分。例“天”字,可拆成一大,早字可拆成日、十。ZSB選用了36個常見字元、部首。字元、部首表示符號即為該字元讀法的聲母。下面列出字元、部首和字母對應(yīng)表。
注攵是反文旁,反的聲母為f,O為零聲母,象“啊”一類漢字,拼音字母只有a代表,可以認為在a前面有一個零聲母。雙字母聲母ch、sh、zh分別用字母A、I、U代表。
凡是只能取一個字元的漢字,取字元后再取該漢字的四角筆碼。
例“晡”字。只有字元日可取,四角筆碼為0140,所以“晡”字編碼為R0140。根據(jù)筆碼字母對應(yīng)表,筆碼01由B代表,筆碼40由U代表,所以“晡”字編碼也可以寫作RBU。
凡是能取二個字元的漢字,在取了二個字元后再取四角筆碼。
例“杲”字有二個字元可取,日取R,木取M。“杲”字的四角筆碼為0124。
所以“杲”字的編碼可寫為RM0124。又筆碼01和字母B對應(yīng),24同O對應(yīng),所以“杲”字的編碼也可寫作RMBO。
凡是能取三個字元的漢字,在取完三個字元后,再取該漢字前二位四角筆碼。
例“坨”字。土取T,宀取B,匕取B。①②為12,筆碼12對應(yīng)于字母H,所以“坨”字的編碼為TBBH。
凡是取不到字元的漢字。例“斛”字。先取字母V,字母V即代表該漢字無字元,部首可以取。再取該漢字的四角筆碼?!磅弊炙慕枪P碼為3321(SL)所以“斛”字編碼為VSL。
關(guān)于同碼字和簡碼字之概況本方案有60對同碼,同碼率占GB2312-80字集全部漢字的1.8%。由于同碼字絕大部分是二級常用漢字,所以估計動態(tài)同碼率絕對不會超過萬分之四。即在文章中大約每2500個字有可能出現(xiàn)一次同碼,同其它各類方案相比,本方案同碼率應(yīng)該說是很低的。
為了提高編碼效率,本方案使用了438個簡碼字,簡碼字分以下三類一級簡碼字在特別高頻字中選取26個字,分別用26個字母來代表。26個高頻漢字如下A出、B不、C次、D的、E而、F分、G個、H和、I是、J機、K可、L了、M們、N年、O安、P者、Q起、R人、S所、T他、U用、V為、W我、X學、Y有、Z隨。
二級簡碼字一律以本字讀音雙拼字母作為簡碼編碼,一字編為二碼。如例字 漢語拼音聲母 漢拼韻母 雙拼簡碼千 q ian(L) QL耐 n ai(B) NB雙 sh(I) uang(R) IR
本方案除一、二級簡碼外,為了減少同碼,還設(shè)一些少量的特殊二級簡碼,以下18個漢字(邊、甫、室、馳、籍、歷、梁、漠、摸、砌、翹、蕪、塢、削、厭、援、贏、螢)取其四角筆碼為簡碼。
例字 ①和②的筆碼 ③和④的筆碼 對應(yīng)簡碼甫 24(O) 20(K) OK馳 00(A) 20(K) AK蕪 11(G) 30(P) GP以下10個字(胞、膜、覆、膚、助、獅、燼、界、污、圬)先取其讀音聲母,再取其第一個字元的讀音聲母構(gòu)成簡碼。
例字 讀音聲母 第一字元讀音聲母 對應(yīng)簡碼胞 b y BY界 j t JT污 w s WS關(guān)于聲母本方案三個雙字母聲母ch、sh、zh分別用A、I、U代表。a、ai、o等只有韻母沒有聲母構(gòu)成的音節(jié),看作該韻母前存在著一個零聲母。零聲母用O表示,象漢字“啊”漢語拼音符號為a,雙拼符號看作在a前面還有一個零聲母,所以“啊”字的雙拼符號為OA。音節(jié)是韻母er的漢字。就將該漢字看作聲母是e,韻母是r的音節(jié),i行的韻母前面沒有聲母時,由于它們是用yi、ya、ye、yao……來表示的,所以認為在i行韻母前存在著一個y聲母。u行的韻母前面沒有聲母時寫作wu、wa、wo……,所以可以認為在u行韻母前存在著一個w聲母。
關(guān)于詞語編碼本方案將詞語分為雙字、三字、四字和四字以上四類。一個詞語為四碼。
1)雙字詞語編碼全為詞語二個漢字的雙拼音節(jié)編碼。
例應(yīng)用,編碼為YQYS 語言,編碼為YUYC
2)三字詞語的編碼先取每個字的聲母加上最后一個字的韻母即成。
例計算機,編碼為JSJI 新華社,編碼為XHIE3)四字詞語的編碼取每個字的聲母為編碼。
例五講四美,編碼為WJSM 吉祥如意,編碼為JXRY4)五字和五字以上的詞語編碼取前三個字的聲母加上末一個字的聲母。
例中國人民銀行,編碼為UGRH五講四美三熱愛,編碼為WJSO國家科學技術(shù)委員會,編碼為GJKH最后附上64對同碼漢字羼-孱,鴟-飭,鴇-孢,鵓-勃,繽-殯,癲-癜,蝮-蚨,馥-鰒,祓-黻,皋-睪,轱-牯,瑚-醐,笏-鵠,绱-殤,畿-亟,笈-箕,鶼-湔,桕-廄,趄-掬,鞠-鞫,暌-睽,靂-鸝,荔-勵,癘-疬,躐-咧,麋-縻,瞑-暝,弩-駑,芪-磧,蜞-歧,謦-磬,蚯-蝤,闋-闕,駟-鷥,凇-竦,慝-忑,峒-捅,胝-炙,躓-躑,豌-琬,鼯-牾,曦-屐,蟋-螅,哮-嘯,衙-伢,郾-鄢,饜-贗,殷-筵,讞-閹,鑰-銚,場-圮,蟻-懿,銥-鐿,癔-痍,逸-迤,瓔-楹,縈-瑛,瘀-瘐,仔-輜,糊-祜-滹,鴝-劬-朐,巍-嵬-隗,毋-鶩-鶩,膺-鷹-贏
權(quán)利要求
1.漢語拼音韻母表中的35個韻母,單字母韻母用原字母代換,四字母韻母暫不參加順序代換iong、uo去首字母后和ong、o用同樣的字母代換,iang和uang分別用字母V、R代換,其余韻母一律依照排列順序和相對應(yīng)排列順序中的英文字母代換。
2.從漢字四角取筆劃信息,進而取得四角筆碼,使這四角筆碼成為確定這個漢字所需多種信息之中的構(gòu)成部分。(其它多種信息,它們有可能是漢字的聲母、韻母、字義、字型、部首、字元、首筆劃和末筆劃等。)
全文摘要
本發(fā)明是用于中文信息領(lǐng)域里的一個新穎編碼方案。為了解決多字母韻母代換法中的可記性問題和漢字同音字的分解離散問題,以及創(chuàng)建一種易學、易大面積推廣、普及,又能利用該漢字編碼進行快速中文信息處理的新穎編碼。本方案采用了四角筆碼定字法和去四字母韻母、韻母順序代換法。除iong、uo、iang、uang外,其余基本根據(jù)排列順序和相對應(yīng)排列順序中的英文字母代換。在根據(jù)漢字聲韻母得出漢字雙拼字母后,再在漢字四角取其筆碼,以十分簡便易懂的方法最后確定該漢字的字母編碼。
文檔編號G06F3/023GK1061294SQ91101998
公開日1992年5月20日 申請日期1991年3月29日 優(yōu)先權(quán)日1991年3月29日
發(fā)明者白定泉 申請人:白定泉