專利名稱:漢字龍碼的制作方法
技術領域:
本發(fā)明涉及漢字編碼,更具體地說,涉及漢字龍碼。
在當今計算機日益普及的信息時代,漢字能否被各行各業(yè)的人們方便地用于計算機,關鍵問題之一是漢字的編碼輸入方法,這也是漢字電子化和數(shù)字化的關鍵。漢字能否像西文一樣,不受漢字庫的限制,自由輸入任意的漢字,也是漢字能否更廣泛應用的問題之一。
目前雖然已有眾多的漢字輸入法,但至今沒有一個,能滿足各行各業(yè)需要的,為人們公認和接受的無同碼的輸入法,尤其是適用于大漢字庫的,更是沒有。另一個問題是,漢字的使用往往受漢字庫大小的限制,字庫中沒有的字就不能輸入,由于沒有好的輸入法,GBK大字庫中的字也不能方便地輸入使用。近日來國家公布了新的漢字處理標準,字庫擴大至2.7萬個漢字,更沒有輸入法能方便地輸入。再一個問題是,現(xiàn)有的輸入法沒有全面統(tǒng)一地考慮繁簡體字的編碼問題,往往把二者對立起來,使用同一組編碼,即使在大字庫中包括有繁簡體字,也難以輸入使用,更不能適應一國兩制的需要。
需要指出的是,字形碼中字根法佔多數(shù),往往用字根(部件,部首)分析漢字和編碼,出現(xiàn)許多難以解決的問題。字根是一個不確定的概念,邊界不清,數(shù)量又多達600至700個,規(guī)范化的字根仍有560個,即使各編碼專家歸併以后,一般仍有200多個,而且名目繁多,一個字母同時要表示鍵名、筆形、字根、高頻字、助記符和識別碼,不可能作為基本的組字單位,也難記憶。比如較流行的幾種形碼,‘五筆字型’輸入法的鍵名、筆形、基本字根、高頻字和識別碼加在一起有230多個,還有25句口訣?!嵈a’的主根、副根、高頻字和助記符共有320多個。‘表形碼的部件將近400個。‘全息碼’號稱100個部首,實際上是250個。這些都不符合語言文字的簡易性和構字原則,字根在各種文字中都有(英文、俄文中都有),但不是也不可能作為構字單位,而僅僅作為幫助理解和記憶單詞的一種方法。字根中有不少重復現(xiàn)象,如已有、乂、亠、八、丷、木、幾、又、卜等字根,又有攵、文、父、米、殳、攴等組合的字根,造成重復和重疊,簡單的字根尚且如此,復雜的字根就更是這樣了。有的甚至把筆畫相當多的復雜字根作為組字單位,更是不合理??傊?,由于字根法的復雜性和不合理性,它不可能較好解決漢字輸入問題,只能是一種權宜之計。
有鑒于此,本發(fā)明的目的在于提供一種人人能記得住的、方便使用且無同碼的漢字龍碼。本發(fā)明的目的還在于尋求一種簡便無同碼地輸入新漢字標準的輸入法和查字法。
本發(fā)明的漢字龍碼是以精選的26個字形字母或其類字母為漢字編碼。依照筆順的習慣規(guī)則,從上到下,從左到右,從外到里,將分解成字形字母或其類字母,用其對應的漢語拼音字母進行編碼。本發(fā)明的26個字形字母或其類字母是漢字的組字和編碼的基本單位,是小學一年級學生人人都熟知的漢字和筆形,能和漢語拼音一樣容易掌握和普及,為了便于取碼,對20個由3個以上字母構成的且組字較多的字,分別取其第一和末字母二字母碼構成復合字母(見表)。
本發(fā)明的優(yōu)點之二是編碼簡單自然,按漢字自身結構分解編碼,不需添加附屬碼。
本發(fā)明的優(yōu)點之三是覆蓋的漢字面廣,既能無同碼地覆蓋大的漢字庫,又能覆蓋繁簡體字,以滿足各個領域的需要。
本發(fā)明的優(yōu)點之四是利用字庫中2000個左右的漢字即可半無編碼和半無字庫地輸入字庫中包含和沒有包含的字,幾乎所有有用的漢字(共4萬以上),接近于自由輸入漢字,它可成為新漢字處理標準2.7萬繁簡體字的輸入法,也可較徹底的解決漢字的缺字和輸入問題。可謂是漢字輸入法的一個較大的突破。
本發(fā)明的優(yōu)點之五是對漢字按字形有良好的排序功能,由于采用了類字母化的編碼,其1至3位可作為定序碼,4至5位將作為定位碼,有嚴密而良好的字序,可用于按編碼順序直接查字典和資料檢索,方便地實現(xiàn)‘漢語電子字典’,沒有同音字的干擾,提高查字效率。
關于字形符的說明,由于漢字字形的復雜性,常有兩個漢字的組字字母完全相同,只是由于字母的平面位置排列不同,而構成完全不同的兩個漢字,例如吧和邑;豈和屺;員和唄;旱和旰;只和叭;旭和旮;標和柰等,對兩個編碼相同而字形不同的漢字,輸入時用字形符加以區(qū)別,有如漢語拼音的聲調(diào)符號,為此,在后一個次常用字的編碼后面加一字形符,加以區(qū)別。由于這種字不多,且往往只有兩個字相同,操作者無需考慮,照常編碼,如有此種同碼情況,由計算機給出提示,以便選擇。并利用這一規(guī)則區(qū)分由各種因素造成的少量同碼,達到無同碼地輸入。
本發(fā)明同字根法相比,根本的區(qū)別在于,采用了類似于字母文字的類字母化的編碼方法,具有語言文字的簡易性,能和基礎教育結合,人人能記住,方便使用,有助于漢字的普及和推廣應用,目前已安排在一些中小學進行試驗,取得結果后可逐步推廣。
本發(fā)明的優(yōu)點和效果是顯而易見的,只要掌握容易記住的26個字形字母及其類字母,就可在標準鍵盤上輸入任意的漢字,該編碼系統(tǒng)還適用于漢字的國際標準(ISO)和中日韓字符集(CJK),可促進全世界漢字輸入的統(tǒng)一和信息交流。
為了提高輸入速度,對近600個最常用漢字提供了簡碼,即用二個碼便可輸入一個字,常用的4000字用3碼輸入,當然也沒有同碼,因此,用簡碼輸入往往比用詞組還快。
本發(fā)明的龍碼,由于最常用字的平均擊鍵次數(shù)小于2次,常用字的平均擊鍵次數(shù)小于3次,加上大量詞組輸入,實際的平均擊鍵次數(shù)小于理論平均擊鍵次數(shù)的1.33次,輸入速度快。
本發(fā)明是一種多功能碼,用途廣泛,已由試驗的實踐證明1,電腦輸入和打字,已生成大字庫無同碼的輸入法;2,按此編碼為漢字排序、查字和檢索,已編成‘速查漢語字典’和‘漢語電子字典’;3,由于無同碼,可將漢字用英文字母儲存、處理和傳輸,使用時由計算機轉(zhuǎn)譯成漢語輸出。
以下,結合實例對本發(fā)明的編碼方法加以敘述本發(fā)明的編碼方法非常簡便,無需口訣和專門訓練,沒有繁瑣的規(guī)則,見字按字母分解和編碼。
1.由1至5個字母組成的字,按順序取1至5個字母編碼,類字母中能獨立成字的(共14個),字母碼后加字形符以示區(qū)別例如1)八b;二e;木m;人r;2)兒b/; 丁g-; 日q-; 入r-;3)分bd; 個rp; 明qu; 囚or;4)字kgy; 同uyo; 音ecq; 體rmy;5)堤tqya; 徹prtd; 楚mmza; 喆toto;6)镕jkbro;稠pmuto;潮svqvu;綻lxkya;2.由6個或6個以上字形字母組成的字,可按漢字的習慣分為二部分的漢字,按二部分分別取碼,第一部分取1,2,3,4字母,第二部分取1,2,3,末字母,共取5個字母編碼,有以下幾種情況例如1)第一部分為一個字母的,取(1+4)字母填tvusb;擅feooy;2)第一部分為二個字母的,取(2+3)字母鎔jbkbo;繳lypqv;3)第一部分為三個字母或三個以上字母的,取(3+2)字母齡arlm;數(shù)bmzrv;4)第一部分為四個以上字母第二部分為一個字母的,取(4+1)字母熟eogyh;欒lxnom;3.詞組的編碼1)二字詞組每個字取第一、二字母,共取4個字母編碼,例如提高fqeo;數(shù)量bmqy;2)三字詞組第一個字取第1和2字母,第二、三字取第1字母,共取4個字母編碼,例如科技城pmft;上海市ryse;2)四字詞組第一個字取第1和2字母,第二、三和四字取第1字母,共5個字母編碼,例如豈有此理agvaw;總而言之boinn;4)五字以上詞組取第一、二、三、四和末字的第1個字母編碼,例如 革命根據(jù)地crmft 勞動生產(chǎn)率cepee提高產(chǎn)品質(zhì)量feeoq 國家經(jīng)濟建設oklsn經(jīng)濟技術開發(fā)區(qū)lsfmy 提高單位面積產(chǎn)量febrq國家科學技術委員會okpxr應該指出的是,由于輸入法的聯(lián)想提示功能,一般在輸入1到3個字母后,所需要的字詞(包括較長的詞組)即出現(xiàn)在提示框內(nèi),既方便又快捷。
本發(fā)明除了要求原理上準確并有創(chuàng)意和方法的簡易之外,特別注重其實用性,真正使廣大用戶能實際無同碼地輸入數(shù)萬漢字。同時考慮到一般用戶多用漢語拼音輸入常用字的習慣,提供了以拼音為主的音形輸入常用漢字和詞組,在能輸入所有的漢字的前提下,又能使用較習慣的拼音,做到聲形并用,人們可自由地使用自己最熟悉最方便的方法輸入所需要的字,既方便又快。使其成為能夠滿足各種用戶需要并為之接受的輸入法,較徹底地解決漢字的輸入問題。另一個實際的應用是已編輯成直接按編碼查字的‘速查漢語字典’和相應的‘漢語電子字典’。字母及類字母表字母及類字母A[山]止 N[丶]ㄟB[八]丷幾兒O[口]口 C[艸]廿 廾P[丿]丨D[刀]卩勹ㄍ刂 ク Q[日]曰 E[二]亠丄冫 R[人]入亻卜 F[扌]干戈S[三]氵彡 G[了]丁丅 ㄣㄋ T[土]士七H[火]灬 U[月]冂 I[廠]廣丆廠 V[十]乂ナ 弋J[钅] W[王]豐 非K[宀]冖X[小]川忄巛 L[幺] 匕 Y[一] M[木] Z[乙]又辶 乛く 復合字母(簡、繁體字共用)魚 辛 衤 礻 蟲 身 舟 髟 耳 酉 臣dy ef nh nx on pp ps ws ys yy yp繁體復合字母魚 言 烏 門 鬥 飠 貝 車 馬dh no ph pl pw rl ub vy wh字形符- = /[ ]獨體型 上下型左右型包容型復合型
權利要求
1.一種漢字龍碼,其特征在于所說的龍碼是以漢字字形字母及其類字母為漢字編碼。
2.根據(jù)權利要求1所述的漢字龍碼,其特征在于所說的漢字字形字母是優(yōu)選的26個漢字字形字母及其類字母。
3.根據(jù)權利要求1所述的漢字龍碼,其特征在于所說的26個漢字字形字母及類字母是以26個漢語拼音字母表示為字母碼排列的。
4.根據(jù)權利要求1、2或3所述的漢字龍碼,其特征在于依照漢字筆順的習慣規(guī)則,從左到右,從上到下,從外到內(nèi),將漢字分解成字形字母進行編碼。
5.根據(jù)權利要求4所述的漢字龍碼,其特征在于每一步分解取筆畫最多的字母。
6.根據(jù)權利要求4所述的漢字龍碼,其特征在于對由1至5個字母組成的漢字,按順序取1至5個字母碼編碼。
7.根據(jù)權利要求4所述的漢字龍碼,其特征在于對由6個及6個以上字母組成的復合漢字,按漢字及部首的習慣分成兩部分分別取碼,共取五個字母碼編碼。
8.根據(jù)權利要求4,7所述的漢字龍碼,其特征在于對由6個及6個以上字母組成的復合漢字,按漢字及部首的習慣分成兩部分分別取碼,第一部分為一個字母的,取一個字母碼,第二部分取1、2、3和末字母四字母碼,共取五個字母碼編碼。
9.根據(jù)權利要求4,7所述的漢字龍碼,其特征在于對由6個及6個以上字母組成的復合漢字,按漢字及部首的習慣分成兩部分分別取碼,第一部分為二個字母的,取1、2兩個字母碼,第二部分取1、2和末字母三個字母碼,共取五個字母碼編碼。
10.根據(jù)權利要求4,7所述的漢字龍碼,其特征在于對由6個及6個以上字母組成的復合漢字,按漢字及部首的習慣分成兩部分分別取碼,第一部分為三個字母的,取1、2、3三個字母碼,第二部分取1和末二字母碼,共取五個字母碼編碼。
11.根據(jù)權利要求4,7所述的漢字龍碼,其特征在于對由6個及6個以上字母組成的復合漢字,按漢字及部首的習慣分成兩部分分別取碼,第一部分為三個以上字母的,取1、2、3三個字母碼,第二部分取1和末二字母碼,共取五個字母碼編碼。
12.根據(jù)權利要求4,7所述的漢字龍碼,其特征在于對由6個及6個以上字母組成的復合漢字,按漢字及部首的習慣分成兩部分分別取碼,第一部分為四個以上字母的,第二部分為一個字母的,則第一部分取1、2、3、4四個字母碼,第二部分取一個字母碼,共取五個字母碼編碼。
13.根據(jù)權利要求4所述的漢字龍碼,其特征在于對二個漢字的詞語,分別以二個字的第1、2字母碼,用四個字母碼編碼。
14.根據(jù)權利要求4所述的漢字龍碼,其特征在于對三個漢字的詞語,分別以首字的第1、2字母碼,第二、三字的第1字母碼,用四個字母碼編碼。
15.根據(jù)權利要求4所述的漢字龍碼,其特征在于對四個漢字的詞語,分別以首字的第1、2字母碼,第二、三、四字的第1字母碼,用五個字母碼編碼。
16.根據(jù)權利要求4所述的漢字龍碼,其特征在于對五個漢字以上的詞語,分別以第一、二、三、四和末字的第1字母碼編碼。
17.根據(jù)權利要求4所述的漢字龍碼,其特征在于對20個由3個以上字形字母組成,且組字較多的漢字,分別由其第一字母和末字母二個字母編碼,構成復合字母(見表)
18.根據(jù)權利要求4,6,7,8,9,10,11,12所述的漢字龍碼,其特征在于對由二個漢字組成的漢字,用該二個漢字按比例合成并輸入該漢字。其編碼按權利要求6,7,8,9,10,11,12進行。
19.根據(jù)權利要求4所述的漢字龍碼,其特征在于對漢字,取其漢語拼音的1至3個拼音字母及該漢字的第一個字形字母碼編碼。
20.根據(jù)權利要求4,6,7,8,9,10,11,12所述的漢字龍碼,其特征在于制造成一種按本編碼法查字的‘漢語電子字典’。
全文摘要
本發(fā)明涉及漢字編碼,更具體地涉及漢字龍碼。它是以小學一年級學生人人都熟記的26個漢字字形字母及其類字母為漢字編碼。它符合語言文字的簡易性和單一性,不需要任何口訣和助記符??蔁o同碼地輸入數(shù)萬個漢字,不但能適應包含繁簡體字的大字庫,而且不受字庫的限制,自由輸入漢字,可成為新漢字處理標準中2.7萬繁簡體字的輸入法,能滿足各行各業(yè)不同用戶的需要。還可方便地用于漢語電子字典查字。
文檔編號G06F3/023GK1322985SQ0011559
公開日2001年11月21日 申請日期2000年5月9日 優(yōu)先權日2000年5月9日
發(fā)明者武守義 申請人:武守義