專利名稱:漢字表形符號(hào)和字素(即部件)分類編碼法的制作方法
技術(shù)領(lǐng)域:
漢字信息處理二、現(xiàn)有技術(shù)資料《漢字信息處理》、中國(guó)社會(huì)科學(xué)出版社出版。
李金凱《計(jì)算機(jī)中文信息筆形編碼法》,載《計(jì)算機(jī)學(xué)報(bào)》第四卷第四期。
《中文信息處理國(guó)際研討會(huì)論文集》,中國(guó)中文信息研究會(huì)出版。
朱子龍《天龍電腦中文字母輸入法述評(píng)》、載《計(jì)算機(jī)世界》1982年12月20日。
三、發(fā)明的目的作為字典的查字法;供計(jì)算機(jī)輸入漢字(包括日本漢字和朝鮮漢字);可作為電報(bào)的代用碼。
四、發(fā)明的內(nèi)容1.把漢字拆成若干部件(即字素),把部件進(jìn)行分類,每一類部件用一個(gè)符號(hào)代表。有的漢字拆分部件以后,還有剩余的筆畫不能納入部件,因而還要把筆畫進(jìn)行分類,這種筆畫也可稱為“單筆部件”。每一類筆畫也用一個(gè)符號(hào)代表。部件和筆畫合稱字素,全部字素的代號(hào)叫做“漢字表形符號(hào)”。這種編碼方法叫做“字素(即部件)分類編碼法”。
2.部件分為五十類,筆畫分為六類,共用四十七個(gè)代號(hào)。這四十七個(gè)代號(hào)作為字典的編碼,叫做“字典碼”。這四十七個(gè)符號(hào),有拉丁字母、數(shù)目字和幾個(gè)特殊符號(hào)。拉丁字母中有大寫、小寫和手寫體,如“L”和“l(fā)”,“H”和“h”,“X”和“x”;數(shù)目字中有中國(guó)數(shù)字和阿拉伯?dāng)?shù)字,如“五”和“5”。這些符號(hào)之間都有固有的照應(yīng)關(guān)系,如“H”和“h”為一組,“五”和“5”為一組。據(jù)此,這四十七個(gè)字典碼在輸入電腦時(shí)可以合并為三十一組,(二十六個(gè)拉丁字母和五個(gè)數(shù)目字),就是三十一個(gè)鍵,這就是電腦碼。
3.漢字表形符號(hào)諸表如下表一部件分類表第7頁(yè)至第10頁(yè)。
表二筆畫分類表第6頁(yè)。
表三漢字表形符號(hào)表第11頁(yè)。
表四漢字部件系統(tǒng)表第12頁(yè)。
4.編碼基本規(guī)則(字典碼和電腦碼的共同規(guī)則)(1)、碼位的次序根據(jù)筆順,如“漣”3(氵)、V(車)、Z(辶)。但是有的部件不是全部筆畫一氣寫完的,而是中間插入其它部件的,這種情況下,當(dāng)一個(gè)部件的第一筆出現(xiàn)時(shí),就當(dāng)作整個(gè)部件出現(xiàn)的位次。如“巫”,拆為“工、人、人”三個(gè)部件,“工”字先寫兩筆,然后寫“人、人”,最后寫“工”字的一橫,“工”的位次就算第一個(gè)部件。
(2)、“戈”類部件的一橫,如果向左伸長(zhǎng),上面下面有其它筆畫,這一橫要斷開(kāi),當(dāng)作兩個(gè)橫筆分別屬于兩個(gè)部件,如“
”,應(yīng)拆為“口、耳、戈”,“武”應(yīng)拆為“二、止、弋”。
(3)、封閉式、交叉式、三面包圍、二面包圍式,是一個(gè)穩(wěn)固的結(jié)構(gòu),不可以拆開(kāi)。如“白”只能拆成“丿、日”,不可拆成“
、彐”;“?!敝荒懿鸪伞柏?、
”,不可拆成“、十”;“
”只能拆成“丿、冂”,不可拆成“亻、”;“萬(wàn)”只能拆成“一、
”,不可拆成“
、”;“令”只可拆成“人、丶、”,不可拆成“人、
、丶”。因?yàn)椤叭铡笔欠忾]式,“
”是交叉式,“冂、
、”是三面包圍式。
(4).除上述規(guī)定外,在連續(xù)的黏連關(guān)系和分離關(guān)系的筆畫中,都優(yōu)先服從上面部件的需要,如“交”拆成“六、×”、不拆成“亠、父”;“辛”拆作“立、十”、不拆成“卞、干”。
5.電腦碼的規(guī)則(1)、單碼位字。一個(gè)字只有一個(gè)部件或筆畫,叫做單碼字。它的編碼,除部件、筆畫代號(hào)外,再加上這個(gè)字的聲母第一字母和韻母第一個(gè)字母。表示讀音的字母叫讀音碼位,如“木、未、末”都是單碼字,部件代號(hào)都是M,單獨(dú)一個(gè)M是字典碼。電腦碼要加上讀音碼位,“木”是MMu,“未”是MWEO,“末”是MMO。
(2)、二碼位字,除部件代號(hào)外,再加一個(gè)讀音碼位,並且重復(fù)一次。如“玫”,拆為“王、攵”,字典碼是“五A”,讀音碼位是“M”、電腦碼是“五AMM”。在電腦上輸入時(shí),如果操作者不知道這個(gè)字的讀音,讀音碼位用“??”代替,這時(shí)電腦上把所有“五A”的二碼位字顯示出來(lái),以供選擇。
(3)、三碼位,在家用電腦上就用三個(gè)碼位。在要求減少重碼字的專業(yè)電腦上,可以再加一個(gè)讀音碼位。如“茄”,拆為“艸、力、口”,字典碼和家用電腦碼都是“HXO”?!扒选钡淖x音碼位是“Q”,專業(yè)電腦碼是“HXOQ”。如果操作者不知道這個(gè)字的讀音,也用?代替,有重碼字時(shí)進(jìn)行屏幕選擇。
(4)、四碼位字不加讀音碼位,電腦碼和字典碼同。
(5)、五碼位以上的字,取第一、二、三碼位和末碼,如“襄”拆為“亠、口、口、
、丿、K”,字典碼為“200
PK”,電腦碼為“200K”。
(6)、如果一個(gè)字的前部是“魚(yú)、走、骨、雨”等部首,要把這些部首的代號(hào)進(jìn)行壓縮,辦法是取第一個(gè)部件代號(hào),重復(fù)一次,把其余的部件代號(hào)省掉?!棒~(yú)”用“nn”代表,“走”用“YY”代表,“骨”用“nn”代表,“雨”用“EE”代表,然后再取剩余部分的第一個(gè)部件和最后一個(gè)部件。舉例如下
(7)、繁體字和簡(jiǎn)體字共容的問(wèn)題,用如下方法處理幾個(gè)字?jǐn)?shù)較多的偏旁,“言(讠)、金(钅)、食(饣)、
(車)、糹(纟)、
(馬)”,分別存于繁、簡(jiǎn)兩個(gè)字庫(kù),不共容。用戶要用簡(jiǎn)體字就用簡(jiǎn)體字庫(kù),要用繁體字就用繁體字庫(kù),部件代號(hào)和簡(jiǎn)體相同?!把浴②ァ倍际莍,“金、钅”都是Z,“食、饣”都是S,“糹、纟”都是W,“馬、馬”都是5,“車、車”都是“V”。在儲(chǔ)存量大的字庫(kù)中,也可以共容,用功能鍵分開(kāi),使用簡(jiǎn)體字時(shí)按簡(jiǎn)體鍵;用繁體字時(shí),按繁體鍵。當(dāng)這些字不作為左偏旁時(shí),照原來(lái)的編碼規(guī)則打字。
其它的繁體字和簡(jiǎn)體字共存于一個(gè)字庫(kù),分別按照自己的字形進(jìn)行拆字,編碼。如
在特殊用途的字庫(kù)中(如圖書(shū)館用字),要求繁簡(jiǎn)體用同一編碼時(shí),將最長(zhǎng)碼位增加到五碼(超過(guò)五碼的字,取第一至四碼及末碼)。繁體偏旁用復(fù)碼表示,如下表
6.這套編碼作為字典碼時(shí),中國(guó)漢字、日本漢字、朝鮮漢字都可通用。作為電腦碼時(shí),把讀音碼位換成日語(yǔ)讀音的第一個(gè)字母(日語(yǔ)羅馬字),就成為日本漢字的電腦碼;把讀音碼位換成朝鮮語(yǔ)讀音的第一個(gè)字母(朝語(yǔ)羅馬字),就成為南朝鮮漢字的電腦碼。
7.電報(bào)代用碼的規(guī)則現(xiàn)有的電報(bào)編碼,從字查碼很不方便,有時(shí)急切查不到字。如果有一套跟字典、電腦統(tǒng)一使用的電報(bào)代用碼,就要方便得多。
電報(bào)代用碼采用電腦碼的編碼。電腦碼中有幾十個(gè)重碼字,列成一張重碼字表備查。每組重碼字中,每個(gè)字再加上一個(gè)數(shù)目字互相區(qū)別,如“晾”、“景”,編碼同為“D203”,可規(guī)定“晾”的電報(bào)碼為“D203①”,“景”的電報(bào)碼為“D203②”。
五、本發(fā)明的優(yōu)點(diǎn)1.本編碼是在漢字部件的分類系統(tǒng)的基礎(chǔ)上建立起來(lái)的,反映了漢字字形的客觀規(guī)律,可以跟識(shí)字教育結(jié)合起來(lái),因而學(xué)習(xí)、使用都很方便。
2.這種編碼可以同時(shí)適用于簡(jiǎn)體字和繁體字。
3.這一套符號(hào)可以兼作字典碼和電腦碼,必要時(shí)還可以臨時(shí)作為電報(bào)代用碼,用途廣泛,有利于在人們頭腦中建立起一套漢字結(jié)構(gòu)拆分的觀念。這種觀念的形成,是走向“中文電腦化”的第一步。
4.這套編碼還可以適用于日本漢字和朝鮮漢字。
漢字表形符號(hào)部件分類代號(hào)及筆畫分類代號(hào),合稱“漢字表形符號(hào)”。
漢字表形符號(hào)共47個(gè)。在電腦輸入時(shí),可以合并為31個(gè)鍵。
漢字表形符號(hào)的名稱和次序,以及47個(gè)代號(hào)合并為31個(gè)鍵的關(guān)系,列表于下
權(quán)利要求
權(quán)利要求
前序本發(fā)明所屬技術(shù)領(lǐng)域:
為漢字信息處理,現(xiàn)有技術(shù)中和本發(fā)明同性質(zhì)的漢字編碼主要有王永明的五筆字型編碼法;支秉彝的“見(jiàn)字識(shí)碼”;臺(tái)灣宏基電腦公司的“倉(cāng)頡字母”。這幾種編碼的歸類方法不夠嚴(yán)格,部件和代號(hào)之間的聯(lián)系缺乏規(guī)律性,因而記憶負(fù)擔(dān)重。本發(fā)明的特征是1、本發(fā)明為漢字部件建立了分類系統(tǒng),內(nèi)容包括除雙塊對(duì)稱類外,所有部件按“系、型、式、類”四級(jí)構(gòu)成一個(gè)系統(tǒng)。2、本發(fā)明把漢字的部件分類之后,在拉丁字母和數(shù)目字中選擇形狀相似的字母或數(shù)目字為代號(hào)。拉丁字母的形式有的是大寫,有的是小寫,有的是手寫體。數(shù)目字的形式有的是阿拉伯字,有的是中國(guó)數(shù)字。字母、數(shù)目字的形狀跟漢字部件相似的就采用,不象的就不用,當(dāng)拉丁字母和數(shù)目字中沒(méi)有符號(hào)可用時(shí),就找其它特殊符號(hào)(如
),從而建立起一套漢字表形符號(hào)。3、在設(shè)計(jì)字典碼代號(hào)的同時(shí)考慮到電腦鍵盤的要求,把字典上的47個(gè)碼元在電腦上合并為31個(gè)碼元,利用拉丁字母中的大寫、小寫的聯(lián)系,印刷體和手寫體的聯(lián)系,利用不同文字表示同一個(gè)數(shù)的聯(lián)系(如“5”和“五”),還利用某些特殊符號(hào)和拉丁字母的聯(lián)系(如
是S加兩直,可并入S),用這樣的辦法把字典上較多的碼元合并為電腦上較少的鍵。
專利摘要
本發(fā)明屬于漢字信息處理。有以下幾種用途一、作字典查字法。二、供計(jì)算機(jī)輸入漢字。三、可做為電報(bào)代用碼。其主要特點(diǎn)是
文檔編號(hào)G06F3/023GK85105556SQ85105556
公開(kāi)日1987年6月3日 申請(qǐng)日期1986年4月30日
發(fā)明者陳愛(ài)文, 周靜梓, 葉芬弟 申請(qǐng)人:陳愛(ài)文, 周靜梓導(dǎo)出引文BiBTeX, EndNote, RefMan