專利名稱:字元譜漢字編碼法(炎黃碼)及其鍵盤的制作方法
技術領域:
本發(fā)明涉及一種計算機漢字輸入的編碼方法及其鍵盤,具體地屬于一種按漢字筆順拆字元定代碼、以漢語拼音或注音符號的首字母作識別碼、以通用的計算機鍵盤及相應設備為輸入裝置的漢字編碼方法。
采用按筆順(或基本按筆順)拆字根(字元)定代碼的漢字編碼法已有不少,其中最著名的有“王碼”《優(yōu)化五筆字型編碼法及其鍵盤》(專利號85100837)和“鄭碼”《字根編碼輸入法及其設備》(專利號89108851.2)。這類編碼法的共同特征是一、要求記憶一定數(shù)量的字根;二、要求熟悉各字根在鍵盤上的位置;三、要有拆字根的明晰規(guī)則,盡量避免“二義性”。這些都是此類編碼法的重點和難點。上述兩種編碼法均在上述問題上煞費苦心,花了大氣力。例如“王碼”以字根首筆是橫、豎、撇、捺(點)、折為特征將字根劃分為五個根區(qū),一部分字根還以第二筆確定位號;另外還編出了“字根助記詞”?!班嵈a”以字根起筆的筆形確定“一碼主根”,以與主根構(gòu)形成分相關的字根作為“二碼副根”和“副根”。這些設計都是為了有助于解決上述第一、二兩個問題。但它們的規(guī)律性顯然并不強,使用者為了掌握它們,更多的還是靠機械記憶。這是電腦打字上手難的癥結(jié)之一。
另外,許多漢字編碼法聲稱依照筆順拆字根,其實并不嚴格,甚至相當程度上不遵守這個規(guī)則。例如“王碼”中“可”拆成“丁口”,酉-西-,巫-工人人,匹-匚兒,戒-戈廾,鹵-ト囗乂,等等;“鄭碼”中匹-匚兒,束-木口,龍-尤丿,成-戊
,等等;都明顯違反了筆順規(guī)則。不利于中小學生識字、寫字和普及文化。
再者,有的編碼規(guī)則不夠簡明,甚至相互抵觸。例如,“王碼”的拆字根規(guī)則是“依照書寫順序,取大優(yōu)先,兼顧直觀,能連不交”。除了“兼顧直觀”含義模糊外,其它三條都不能貫徹到底。違反“書寫順序”的情況較普遍,前已舉證多例。違反“取大優(yōu)先”的例子也不少,如“羊”拆成“
”,而不是依照本規(guī)則拆成“
二丨”;“生”拆成“丿
”,而非“土”;“?!辈鸪伞耙粌骸倍恰皝C乚”;等等。違反“能連不交”的例子也有,如“缶”拆成“
山”,而不是“十凵”。這里似乎認定“取大優(yōu)先”的原則優(yōu)先于“能連不交”,但上述“生”字的拆法,似乎認定后者應優(yōu)先于前者,叫人無所適從。這樣的例子絕不是個別的。
上述問題的產(chǎn)生,一般并不是由于發(fā)明者的疏忽(應該說,這些編碼法是經(jīng)過千錘百煉的),而是為了追求盡量少的字根(以減輕記憶負擔)、盡量短的碼長(以提高輸入速度)、盡量低的重碼率等目的??傊?,是受到了整體設計方案的制約。
本發(fā)明的目的在于避免上述漢字編碼法的缺點,提供一種新型的以拆字元定代碼、以漢語拼音或注音符號的首字母為識別碼的漢字編碼法,要求它所選用的字元在鍵盤上排列有很強的規(guī)律性,便于檢索,避免死記;同時拆字元的規(guī)則力求簡明、規(guī)律性強,無“二義性”,并嚴格遵循筆順;還要求簡、繁體字兼容,字、詞兼容。
本方案的字形以1965年文化部和中國文字改革委員會共同發(fā)布的《印刷通用漢字字形表》為準。
在字元譜中,可把所涉及的簡、繁體字的偏旁對照列出,便于共用一個字元譜分別對簡體字和繁體字進行編碼。
字元譜漢字碼的編碼及輸入規(guī)則敘述如下一、漢字拆字元規(guī)則(1)嚴格依照筆順和字元譜。即必須依照筆順來拆字元,字元只能是字元譜中的成員。
(2)、用以決定代碼的字元稱為碼元,每字所拆出的碼元數(shù)不少于兩個(除“一”和“乙”兩字外)。
(3)“取大不取小”。何為字元的大小?即某字或某筆畫組合,按規(guī)則(1)可拆解出筆畫由少增多、后者包含前者的一個字元序列,我們稱后一字元大于前一字元。例如“正”字,按“四劃碼字元譜”(圖2)或“五筆碼字元譜”(圖3),都可分解出“一、ㄒ、
、正”四個字元,由后往前,字元一個比一個大,這里“正”是最大字元,“下”是次大字元。另外,值得一提的是,由“下”到“正”不止增添了一畫(所以,通常以“某字元增添一畫則不成字元”來定義“最大字元”并不嚴密)?!叭〈蟛蝗⌒ 钡暮x是按規(guī)則(1)、(2)拆分漢字,規(guī)定取僅小于全字的字元作為第一碼元,隨即抹去這字元的筆畫;再取該字剩余的筆畫組合中的最大字元作為第二碼元,又抹去這第二碼元的筆畫;若還有剩余筆畫組合,再取它的最大字元作為第三碼元;等等,直至該字的全部筆畫用盡為止。最后得到該字的一個字元序列,用以確定字元譜漢字碼。例如上面的“正”字,按照“取大不取小”的規(guī)則,拆出的碼元序列只能是“下丄”。
二、本方案的識別碼、碼長及輸入規(guī)則(4)、漢字的識別碼規(guī)定為該字的漢語拼音首字母。為了便于港澳臺同胞使用本編碼,也可取為漢字注音符號的首字母(可刻寫于鍵面上)。使用識別碼是為了減少一部分筆畫少的漢字的重碼率。
(5)、本編碼的最大碼長定為4。
當某字拆出的字元序列中的字元數(shù)超過4時,依次取定第1、2、3、末字元的英文字母代碼組成本編碼。鍵盤輸入時只要從前至后按字母序列逐個擊鍵即可。
剛好4個字元時,依次取定它們的代碼作成本編碼。
不足4個字元時,依次取定各代碼,并在尾部添加識別碼,共同組成本編碼;若仍不足4碼,鍵盤輸入時要補打空格鍵。
以上(1)~(5)條就是本方案的全部編碼輸入規(guī)則(參見圖1)。按照這5條規(guī)則得到的編碼,稱為本方案的正常編碼。
相對于正常編碼,本方案還設置了漢字的簡碼。為了說明簡碼,我們只須注意到,在一定容量的漢字集(例如《國標》一、二級漢字)中,有一部分漢字的正常編碼,假若從后往前刪去一個或兩個代碼,卻能映射唯一的漢字,這時我們就刪去這些多余的代碼,所剩下的編碼便稱為該字的簡碼。顯然,簡碼一定不含識別碼,還可能不含末字元代碼等。為了制定簡碼,只須在按字元譜漢碼排列(字典排列法)的碼本中,逐個比較刪定,便可得到一部簡碼本。這在本編碼體系中,是最簡省、高效的編碼本。當然,在漢字輸入時若靠記憶來辨別哪個字有簡碼。哪個字無簡碼是很困難的。這只能在計算機處理程序上想辦法??墒褂嬎銠C在每個字輸入過程中,當擊第二鍵后,即開始搜索;若兩碼已唯一確定了某字,則熒屏顯示該字,并以短促聲響提示;擊空格鍵隔斷下一字的鍵入信號,同時機器自動錄入。否則,再擊第三鍵,又搜索,……直至完成正常編碼的輸入。
為了提高輸入速度,消除或減少重碼現(xiàn)象,本編碼法可以設置1至4種“單鍵字”一鍵字,選用漢字頻度表中的前26個高頻字,排列成易記的形式,即“我們是中國的主人,不要有時為了個(人),在這一大工地上動用(國)產(chǎn);和”。將它們在鍵盤上從左到右、從上至下依次排列。擊鍵一次并加擊一次空格鍵即可。二鍵字輸入時則須連續(xù)擊同一鍵兩次并加擊一次空格鍵;三鍵字仿此類推;四鍵字卻只須同鍵連擊四次便可。從二鍵字至四鍵字,除已被正常編碼占用者外,都安排重碼字,優(yōu)先考慮消除《國標》一級漢字中的重碼現(xiàn)象。不過這些重碼字的正常編碼仍然保留,排在同碼字的后面,依靠熒屏顯示,選擇輸入,而同碼非單鍵字則優(yōu)先顯示。這樣,不使用單鍵字設置,也能照常輸入預定的漢字集,以減輕初學時的記憶量。
由于本編碼法的碼長為4,其編碼容量很大,理論上有264+263+262個不同編碼,不僅可以容納大量的漢字,而且可以兼容大量的漢語詞匯。本方案規(guī)定詞語的定碼方式與單字的一致,但當詞語中有某字是字元譜中的字元時,不再拆分,就取該字元的代碼。不論詞語由幾個單字組成,一律用四個英文字母作代碼。
對于兩字詞,分別取兩字的首二字元代碼;當某字的字元數(shù)不足定額時以英文字母“O”補位(下同)。例如,當采用圖2的四劃碼<p>本發(fā)明的負載催化劑體系含有一種催化劑體系,它優(yōu)選由至少一種鋁噁烷作為助催化劑和至少一種金屬茂作為催化劑。
金屬茂優(yōu)選的是式Ⅸ的一種化合物,
其中M1是鈦,鋯,鉿,釩,鈮和鉭,優(yōu)選的是鋯和鉿,M2是硅,鍺或錫,優(yōu)選為硅或鍺,R14和R15是相同的或不同的基團,可為氫原子;C1-C10烷基,優(yōu)選的是C1-C3烷基;C1-C10烷氧基,優(yōu)選的是C1-C3烷氧基;C6-C10芳基,優(yōu)選的為C6-C8芳基;C6-C10芳氧基,優(yōu)選的為C6-C8芳氧基;C2-C10鏈烯基,優(yōu)選的為C2-C4鏈烯基;C7-C40芳烷基,優(yōu)選的為C7-C10芳烷基;C7-C40烷芳基,優(yōu)選的為C7-C12烷芳基;C8-C40芳基鏈烯基,優(yōu)選的為C8-C12芳基鏈烯基;鹵素原子,優(yōu)選的是氯;
m可以是1或2,按中心原子M1的價數(shù)定,R16和R17是相同的或不同的基團,可為單環(huán)和多環(huán)的烴基,它們能與中心原子M1形成夾心結(jié)構(gòu),R16和R17優(yōu)選的是彼此獨立的達到盲打的程度。漢字的正常編碼熟悉后,再逐步熟悉單鍵字、簡碼和詞語輸入,這樣就越打越快,得心應手。
本編碼方案的規(guī)則簡明,規(guī)律性、邏輯性很強,在碼本的制作過程中沒有發(fā)現(xiàn)“二義性”(即某字可能有兩種編碼的情況),拆字元規(guī)則也不存在互相矛盾的情形。
本編碼方案特別強調(diào)按筆順拆解字元、識別碼采用漢語拼音首母,都是著眼于“電腦要從娃娃抓起”,有利于中小學生漢字讀寫的規(guī)范化,有利于電腦打字和漢字書寫規(guī)則的統(tǒng)一及相互促進。
本編碼方案由于簡、繁體兼容,識別碼既可用漢語拼音首母,也可用注音符號首母(可刻于鍵碼表面),適合海峽兩岸、港澳臺同胞和各地華僑使用,故又名之曰“炎黃碼”。
本發(fā)明的
圖1是“炎黃碼”編碼流程圖;
圖2示出四劃碼字元譜;
圖3示出五筆碼字元譜;
圖4是漢字常用部首拆分、編碼示例;
圖5是繁體偏旁編碼示例;
圖6是“炎黃碼”碼本之一頁。
下面結(jié)合以上附圖著重說明四劃碼字元譜和五筆碼字元譜的編制方案。
一、四劃碼字元譜將漢字的各種筆畫分解、抽象為簡單的四種“筆劃”,簡稱為“劃”,以別于通常的筆畫或畫。這“四劃”依次為“點”、“橫”、“豎”、“斜”
值得注意的是,本方案關于“四劃”的劃分僅適用于字元譜中的字元編碼。漢字依筆順拆字元時,仍采用普通的筆畫,即不得分解、割裂曲折筆畫(極少例外須明確規(guī)定)。
本方案所規(guī)定的例外拆分如下1、違反“不斷開筆畫”規(guī)則的車ナ
東ナ木疌肀用熏千
灬;
戊廠戈戎
戈成萬戈(含“戈”的字)2、違反“取大不取小”規(guī)則的丷豕酋丷酉象
3、違反筆順規(guī)則的必心丿。
采用四劃碼編制字元譜的好處在于1)數(shù)碼的總數(shù)較少(75個,還可更少點);2)計算字元的各種“劃”數(shù)比考慮普通的筆畫要直觀些;3)同數(shù)碼的字元,各類劃數(shù)分別相等,因而往往在形體上具有某些共同特征。不少同碼字元,從一個到另一個,可以看作由少數(shù)筆劃的移動或略加變形而得到,如“1101”中的“大、
、厶、ス、、
、廣”等,“0211”中的“牛(
)、午、
、壬、
、尸、幾、開、井”等等,這些都有助于記憶。4)由于字元的四劃碼不考慮筆順,因此在拆分字元時可以減弱少數(shù)筆順有分歧的字元的影響。例如,字元“上”,有的字典規(guī)定筆順為“-丨-”,有的規(guī)定為“丨-”,但它的四劃碼只有一個“0210”,不會出現(xiàn)歧義。
四劃碼字元譜中選用的字元個數(shù)雖然比較多(約340個),但它們的可檢索性大大抵消了這個弱點。通常它們不必硬記,而是邊用邊熟。而且字元多一些,拆字較順手,較自然。
二、五筆碼字元譜將漢字的所有筆畫象“王碼”那樣,歸結(jié)為五種基本“筆畫”橫、豎、撇、捺(點)、折,曲折筆形都歸于“折”,分別以數(shù)字1~5來代表它們。每個入選字元依筆順取首三畫的數(shù)字代碼,不足三畫者以零補位,一律得到一個相應的三位數(shù)碼,稱之為字元的“五筆碼”。如王112,
213,-100,+120,韋115,氵444等。所有入選字元的五筆碼按大小順序、類似于四劃碼的方式配置于鍵盤的英文字母鍵上,便構(gòu)成了“五筆碼字元譜”。請參見圖3。
五筆碼定碼規(guī)則簡單,只需三位數(shù)碼。但數(shù)碼總個數(shù)(102)比四劃碼(75)多不少。且各數(shù)碼統(tǒng)率的字元數(shù)太不均衡,給它們在鍵位上的分布造成一定困難。
用以上兩種字元譜編碼的實例可參見圖4、圖5和圖6。圖4和圖5中的“編碼Ⅰ”與“編碼Ⅱ”分別是依據(jù)四劃碼字元譜和五筆碼字元譜得到的編碼;但圖4未加識別碼,圖5所加識別碼是漢語注音首母。圖6是根據(jù)四劃碼字元譜編制的,并按規(guī)則加上了漢語拼音識別碼,它是按區(qū)位號排序的碼本之一頁(共41頁)。
另外,由于“字元譜”所包含的數(shù)碼并不多,也適合配置中鍵盤,設計成一鍵一數(shù)碼,可進一步減少重碼率,更方便檢索字元。
權利要求
1.一種計算機的漢字輸入編碼方法一字元譜漢字編碼法,它主要是由一張字元、鍵位排列表和拆字元定代碼的一套規(guī)則組成的,其特征在于a)、上述的排列表是由優(yōu)選的字元集依據(jù)各字元的形體特點編制成一個多位數(shù)碼集,這些數(shù)碼又按大小順序配置在26個英文鍵位上,從而建立了由字元到數(shù)碼、由數(shù)碼到英文字母代碼的定碼方式,這種排列表,稱之為“字元譜”;b)、本方案拆分字元的規(guī)則如下(Ⅰ)嚴格依照筆順和字元譜;(Ⅱ)每字所拆出的字元個數(shù)不少于2(除“一”和“乙”兩字外);(Ⅲ)“取大不取小”,即按上述規(guī)則(Ⅰ)、(Ⅱ)拆分漢字,取僅小于全字的最大字元作為第一碼元,其后的碼元則取該字剩余筆畫組合中的最大字元,依此類推,直至該字的全部筆畫用盡為止;c)、本方案的識別碼、碼長及輸入規(guī)則(Ⅳ)漢字的識別碼規(guī)定為該字的漢語拼音首字母,或者“漢字注音符號”的首字母;(Ⅴ)本編碼的最大碼長定為4,當某字拆出的字元數(shù)超過4時,依次取定第1、2、3和末字元的代碼組成本編碼;按照編碼的英文字母逐個擊鍵,便可將該字輸入計算機;剛好4字元時,依次鍵入它們的代碼即可;不足4字元時,依次取定各代碼,并在尾部添加識別碼;若仍不足4碼,鍵入時要補打空格鍵。
2.如權利要求1所述的字元譜編碼法,其特征是在字元譜中,所涉及的簡、繁體字的偏旁對照列出,便于共用一個字元譜分別對簡體字和繁體字進行編碼輸入。
3.如權利要求2所述的字元譜編碼法,其特征是在正常編碼的基礎上制定了簡碼。
4.如權利要求3所述的字元譜編碼法,其特征在于另外設置了1至4種“單鍵字”一鍵字,選用26個高頻字,即“我們是中國的主人,不要有時為了個(人),在這一大工地上動用(國)產(chǎn);和”,將它們在鍵盤上從左到右、從上至下依次排列;輸入時只須擊鍵一次并加擊一次空格鍵即可;二鍵字輸入時則須連續(xù)擊同一鍵兩次并加擊一次空格鍵;三鍵字仿此類推;四鍵字卻只須同鍵連擊四次便可;從二鍵字至四鍵字,除已被正常編碼占用者外,都安排重碼字,優(yōu)先考慮消除《國標》一級字中的重碼現(xiàn)象。
5.如權利要求4所述的字元譜編碼法,其特征在于漢語詞匯的定碼方式與單字一致,但當詞語中有某字是字元譜中的字元時,不再拆分,就取該字元的英文代碼即可;不論詞語由幾個單字組成,一律用四個英文字母作代碼對于兩字詞,分別取兩字的首二字元代碼;當某字的字元數(shù)不足定額時以英文字母“O”補位(下同);對于三字詞,取第一字首二字元代碼,第二和第三字的首字元代碼;對于四字詞,各字都取首字元的代碼;對于多字詞,取第一、二、三、末字的首字元代碼。
6.如權利要求5所述的字元譜編碼法,其特征在于字元譜采用“四劃碼”對入選字元編碼,即將漢字的所有筆畫簡化為四種“筆劃”點、橫、豎、斜,曲折筆形分解為這“四劃”;將每個入選字元的“劃”數(shù)分類相加,缺某類“劃”者,以O補位,所得四個和依序構(gòu)成一個四位數(shù)碼,稱為該字元的“四劃碼”;通常一個四劃碼統(tǒng)領多個字元,所有入選字元的四劃碼按大小順序配置到鍵盤的26個英文鍵上,就得到了便于按數(shù)碼檢索字元的“四劃碼字元譜”。
7.如權利要求5所述的字元譜編碼法,其特征在于字元譜采用“五筆碼”對入選字元編碼,即將漢字的所有筆畫歸結(jié)為五種“筆畫”橫、豎、撇、捺(點)、折,曲折筆形都歸于“折”,分別以數(shù)字1~5來代表它們;每個入選字元依筆順取首三畫的數(shù)字代碼,不足三畫者,以O補位,一律得到一個相應的三位數(shù)碼,稱之為該字元的“五筆碼”;所有入選字元的五筆碼按大小順序配置于鍵盤的26個英文鍵上,便得到可按五筆碼查找字元的“五筆碼字元譜”。
全文摘要
本發(fā)明提供一種計算機漢字輸入的編碼方法,它嚴格依照筆順拆字元定代碼、以漢語拼音或注音符號的首字母為識別碼。其主要特征在于將優(yōu)選的字元集根據(jù)各字元的結(jié)構(gòu)特點編制成三位或四位的數(shù)碼集,數(shù)碼又依大小次序,合理配置在鍵盤的26個英文鍵位上,作成“字元-數(shù)碼-鍵位”的易于檢索的“字元譜”。本編碼方案規(guī)則簡明,無“二義性”;簡、繁體字兼容,字、詞兼容。電腦打字與手寫一樣遵循筆順,有利于漢字書寫規(guī)范化及相互促進。
文檔編號G06F3/023GK1095502SQ9410078
公開日1994年11月23日 申請日期1994年2月4日 優(yōu)先權日1994年2月4日
發(fā)明者彭聲羽 申請人:彭聲羽