專利名稱:漢字形音編碼方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)中文信息技術(shù)——漢字編碼領(lǐng)域。
背景技術(shù):
公知的漢字編碼方法主要分為“形”碼和“音”碼兩類。雖然到現(xiàn)在為止已有多種漢字編碼方法問世,真正為大眾接受、并廣泛應(yīng)用的還是拼音輸入法。拼音輸入法是一種“音”碼,其使用必須以了解漢字的讀音為基礎(chǔ),對于一級漢字使用效果尚可,對于二級漢字已經(jīng)勉為其難,尤其要面對Unicode大字符集漢字那是根本不可能的。“形”碼避免了“音”碼該缺點(diǎn),但也存在著不足之處對于漢字的分解缺少嚴(yán)格的、令人信服的理論依據(jù);將漢字轉(zhuǎn)換成碼字后,丟失了漢字的結(jié)構(gòu)信息;字根與鍵盤的對應(yīng)關(guān)系造成較大的記憶負(fù)擔(dān);必須經(jīng)過專業(yè)培訓(xùn)才能較熟練地使用。這些缺點(diǎn)限制了“形”碼的普及。
1996年11月,中國計(jì)算機(jī)學(xué)會中文信息技術(shù)專業(yè)委員會和中國中文信息學(xué)會漢字編碼專業(yè)委員會召開了年會暨學(xué)術(shù)交流會,發(fā)明人發(fā)表了題為《漢字的信息結(jié)構(gòu)和劃分原理》一文(《年會論文集》第104頁)。文中提出以下觀點(diǎn) 1.關(guān)于漢字的信息結(jié)構(gòu) 人類的文字(詞或字)具有形狀和聲音兩種基本屬性。對于文字的形狀,可以看成是某一字素集合中的字素按照一定的排布規(guī)則組成的特殊圖形。
字素的排布規(guī)則可以分為排列構(gòu)形和結(jié)構(gòu)構(gòu)形兩類。排列構(gòu)形的文字(西文)是把一定量的字素按照某一方向先后排列,形成一個(gè)有限長的序列,具備有序的特點(diǎn),因此它是一維構(gòu)形的,人們很容易把一維的空間形式與某一時(shí)間過程相對應(yīng);結(jié)構(gòu)構(gòu)形的文字(如漢字)是把一定量的字素在平面內(nèi)排布,形成一個(gè)有限面積的圖形,具備復(fù)雜的平面布置形式,因此它是二維構(gòu)形的,人們無法把二維的空間形式與某一時(shí)間過程相對應(yīng)。
計(jì)算機(jī)的鍵盤輸入流是一個(gè)時(shí)間過程,因此,排列構(gòu)形的文字可以以自然語言的形式輕松地輸入計(jì)算機(jī),而結(jié)構(gòu)構(gòu)形的文字則必須經(jīng)過某種變換,形成有別于自然語言的、排列構(gòu)形的、中間信息載體,以適應(yīng)計(jì)算機(jī)的鍵盤輸入流——這就是通常所說的“漢字編碼”。
漢字的字素集合和字素排布形式兩者的結(jié)合形成了漢字的信息結(jié)構(gòu)。因此,可以從字素及其排布形式兩個(gè)方面來研究現(xiàn)代漢字的信息結(jié)構(gòu)。
1.1現(xiàn)代漢字的字素 現(xiàn)代漢字的字素可以分為三類原始字素、有音字素和無音字素。
a.原始字素 原始字素就是漢字的基本筆畫,按照傳統(tǒng)的漢字教育知識和科學(xué)的分類方法,可以歸納為以下八種橫、豎、撇、捺、點(diǎn)、折、鉤、趯。在這八種筆畫中,鉤有多種形式;折包括除了別的七種筆畫之外的任何帶有轉(zhuǎn)折的筆畫。
迄今為止,找不到這樣一個(gè)八筆漢字,它包含這八個(gè)原始字素,并僅僅包含一次。發(fā)明人用八種原始字素構(gòu)成一個(gè)具有漢字形狀的助記符——“
”作為漢字筆畫圖示。
b.有音字素 有音字素就是可以單獨(dú)作為漢字的字素或與某一漢字同源并且與其形狀相近的字素。在所有有音字素中,“一”、“乙”具有有音字素和原始字素的雙重性。
c.無音字素 無音字素不是一個(gè)獨(dú)立的漢字,因此不具有音的屬性,只具有形的屬性,它可以是原始字素的某種組合,如“
”、“
”和“”都是無音字素。
1.2現(xiàn)代漢字的字素排布形式 現(xiàn)代漢字的字素排布形式,可以分為可劃分類和不可劃分類。
可劃分類又可分為 a.普通類
類,
類。
b.特殊類
類,
類,
類,
類,
類,
類,
類,
類,
類。
不可劃分類又可分為 c.可拆分類 可拆分類不可劃分,但可以拆分,會意表示為
類。
d.不可拆分類 不可拆分類既不可劃分,也不可拆分,表示為□類。
現(xiàn)代漢字的信息結(jié)構(gòu)體現(xiàn)和表達(dá)了漢字的信息特征,它是一種客觀存在,決不是任何人意志或想象的產(chǎn)物。以上所列的字素排布形式適合于極大部分現(xiàn)代漢字,但現(xiàn)代漢字的字素排布形式還不止這些,我們必須使用劃分(拆分)的手段,將信息結(jié)構(gòu)復(fù)雜的漢字納入上列形式之中,并把漢字的信息特征盡可能多地采集出來。
2.關(guān)于劃分原理 劃分(拆分)就是根據(jù)上列漢字字素的排布形式,將漢字的字素從漢字整體中分離出來。對于極大多數(shù)漢字來說,劃分就是在字素的排布形式的基礎(chǔ)上,對字素進(jìn)行自然的分析;對于少數(shù)字素排布形式復(fù)雜的漢字來說,劃分就是對它們的信息結(jié)構(gòu)人為地重新進(jìn)行定義。
從漢字的信息結(jié)構(gòu)的角度來考慮,劃分應(yīng)當(dāng)保證字素的完整性、通俗性,并適合人的心理特點(diǎn)。因此發(fā)明人提出劃分原理——劃分就是為了使基本字素增加。
為了保護(hù)發(fā)明人尚未完全成熟的發(fā)明思想,對于基本字素該文中沒有給出確切的定義,但解釋了劃分原理的應(yīng)用是為了避免把漢字的任何殘片都作為字素分離出來,以保證字素的完整性和劃分的唯一性,并通過兩個(gè)例子示范了劃分原理的應(yīng)用。
發(fā)明內(nèi)容
本發(fā)明克服了現(xiàn)有技術(shù)中“形”碼“漢字分解不規(guī)范、記憶負(fù)擔(dān)重”和“音”碼“識字才能打字”的不足,提供了一種規(guī)范嚴(yán)謹(jǐn)?shù)?、符合傳統(tǒng)文化習(xí)慣的、沒有繁重記憶負(fù)擔(dān)的、適合Unicode大字符集漢字計(jì)算機(jī)輸入的漢字形音編碼方法。
本發(fā)明用形象記憶代替抽象記憶,自然地引進(jìn)字素排布形式的助記符和原始字素的編號;創(chuàng)建分類字素以規(guī)范傳統(tǒng)部首的分類作用、強(qiáng)化傳統(tǒng)部首的信息結(jié)構(gòu)特征;應(yīng)用劃分原理和劃分存在性判定準(zhǔn)則建立劃分的理論依據(jù)和實(shí)施法則;研究“格式塔”心理現(xiàn)象對劃分的影響并做出合理的處置;通過0至2次劃分將漢字分解成1至3個(gè)字素,并借助字素與碼字的形音等價(jià)轉(zhuǎn)換法則生成漢字的四字符等長編碼。
1.漢字的字素排布形式和原始字素編號 為了減輕記憶負(fù)擔(dān),用形象記憶代替抽象記憶,引進(jìn)與漢字字素排布形式圖示相適應(yīng)的字母助記符。實(shí)際中,將具有某種字素排布形式的漢字稱為某類漢字,而類名就是漢字字素的排布形式所采用的助記符。
可劃分類漢字的普通類包括I和S類; 可劃分類漢字的特殊類包括P、L、A、Q、C、U、R、N和Z類; 不可劃分類漢字的可拆分類包括X類; 不可劃分類漢字的不可拆分類包括O類。
原始字素的編號采用數(shù)字1~8,分別與橫、豎、撇、捺、點(diǎn)、折、鉤、趯相 對應(yīng),在“
”中相當(dāng)于將“
”的右邊先寫,左邊后寫的筆畫序號。
2.分類字素 為了保存漢字的結(jié)構(gòu)特征信息引入分類字素的概念。分類字素就是用來對漢字的結(jié)構(gòu)形式和共有特征進(jìn)行分類的字素。它與漢字的部首有以下不同之處 分類字素具有結(jié)構(gòu)特征“麋”中的分類字素雖然與“麒”中的分類字素屬于同一個(gè)字素“鹿”(《康熙字典》中屬于同一部首),但是“麋”屬于P類漢字,而“麒”屬于I類漢字,兩者不是同一分類字素。對特殊類,分類字素為具有特殊結(jié)構(gòu)形狀的那一部分,如“病”中的“疒”為分類字素,但“産”中的“生”不是分類字素(《康熙字典》中“産”屬于“生”部)。
分類字素具有面積特征分類字素必須具備橫通左右,或縱貫上下的特點(diǎn),至少在一個(gè)方向上具備最長的尺度。如“薊”中的分類字素為“艸”,而“荊”中的分類字素不是“艸”,應(yīng)是“刂”(《康熙字典》中“荊”屬于“艸”部)。
分類字素具有位置特征分類字素的位置必須處于漢字的上、下、左、右和外面,而不能夠被包容在里面或中間。如“唱”的分類字素為“口”,而“哀”的分類字素不是“口”,應(yīng)是“亠”(《康熙字典》中“哀”屬于“口”部)。
分類字素不被割裂對于任何可劃分類型的漢字,分類字素不能為別的字素分隔,如“亙”中的“二”被“日”所分隔,故不能作為分類字素(民國版《辭?!分小皝儭睂儆凇岸辈?。
此外,漢字局部的分類字素不能作為漢字的分類字素,如漢字“賾”局部“
”中的“匚”,不能作為“賾”的分類字素(《新華字典》中“賾”屬于“匚”部);分類字素的選擇只能是字素的自然分離,不能割斷筆畫,如漢字“凸”不具有分類字素“凵”(《康熙字典》中“凸”屬于“凵”部)。
除了“一”、“乙”和“乚”外,其他原始字素不作為分類字素。
3.劃分原理與劃分存在性判定準(zhǔn)則 劃分原理指導(dǎo)劃分如何進(jìn)行,劃分存在性判定準(zhǔn)則確定劃分可否進(jìn)行。
劃分原理表述為劃分就是為了使基本字素增加。其中,基本字素就是分類字素與有音字素的并集中的元素。應(yīng)用劃分原理可使得劃分具有嚴(yán)格的規(guī)范。如“含”,不劃分時(shí),只有一個(gè)基本字素;劃分為“今”和“口”,有了兩個(gè)基本字素;但如果劃分為“人”和另外一個(gè)漢字殘片,還是只有一個(gè)基本字素;后一種劃分給人一種破碎、不完整的感覺,相比之下,前一種劃分更合理。
劃分是在對漢字的信息結(jié)構(gòu)認(rèn)識的基礎(chǔ)上,對漢字進(jìn)行自然的分析,不能割斷漢字連續(xù)的筆畫。
劃分根據(jù)普通類、特殊類、可拆分類、不可拆分類從左到右的次序進(jìn)行,先判斷是否為普通類,不然判斷是否為特殊類、再不然判斷是否為可拆分類、最終才作為不可拆分類。
例如,對“産”嘗試S類劃分,在上部可以得到分類字素“亠”,但下部成為漢字殘片,基本字素為1,嘗試P類劃分,成為“產(chǎn)”和“生”,基本字素為2,根據(jù)劃分原理應(yīng)為P類;“夫”字筆畫相互貫穿,不可劃分,只能歸入X類;“天”字應(yīng)作S類劃分,成為“一”和“大”,不可以歸為X類而拆分成為“二”和“人”。
劃分是否存在,由劃分存在性判定準(zhǔn)則確定,該準(zhǔn)則可表述為劃分應(yīng)保證基本字素不減。
劃分存在性判定準(zhǔn)則可以在以下量化的基礎(chǔ)上,作為嚴(yán)格的判據(jù) 將由兩個(gè)相同部分組成的無音字素算作0.5個(gè)基本字素;將可以作為分類字素的三個(gè)原始字素“一”、“乙”和“乚”算作0.5個(gè)基本字素;將其它分類字素和有音字素都作為一個(gè)基本字素;劃分后將得到的基本字素相加,如果得到的值大于等于1,則劃分存在。
例如,漢字“皿”,不劃分前,基本字素為1,嘗試作S類劃分,上面為漢字殘片,下面為字素“一”,得到的基本字素為0+0.5=0.5小于1,劃分不存在。
在實(shí)施例1中,將集中給出一些劃分原理和劃分存在性判定準(zhǔn)則的應(yīng)用實(shí)例。
4.劃分中的“格式塔”現(xiàn)象 “格式塔”現(xiàn)象是一種心理學(xué)現(xiàn)象,是指人們受事物的外部形式約束,只注重事物的整體的特性,忽略了組成整體的部分的特性,從而不能擺脫形式的束縛,無法對組成整體的個(gè)體元素進(jìn)行分析。
“格式塔”現(xiàn)象在圖形的知覺方面表現(xiàn)尤其明顯。漢字是通過字素的離、接、交三種組合形式組成的圖形,因此,漢字的劃分將不可避免地受到“格式塔”現(xiàn)象影響?!案袷剿爆F(xiàn)象有如下形成原則 最短距離原則即某些距離較短的或互相鄰接的部分容易組成整體。
如“章”可有劃分“立”、“早”,亦可有劃分“音”、“十”,兩種劃分都符合劃分原理,但習(xí)慣上人們都認(rèn)可前者,因?yàn)樗先藗兊男睦?。最短距離原則常常是影響劃分的最大障礙,如“得”的右面的劃分,一眼望去,常常被分為“日”和一個(gè)漢字殘片,其實(shí)根據(jù)劃分原理,它應(yīng)該被分為“旦”和“寸”?!肮摹弊竺娴膭澐忠灿型瑯拥默F(xiàn)象。
類似原則互相類似的部分容易組成整體。
在“彬”字中可有劃分“林”和“彡”,亦可有劃分“木”和“杉”,兩者都符合劃分原理,但人們一般都認(rèn)可前者。在大多數(shù)情況下,類似原則并不與劃分原理相抵觸。
取向于完形的原則彼此相屬的部分容易組成整體,反之,彼此不相屬的部分則容易被隔離開來。
如“玉”是“、”填入具有良好完形的“王”字中,因此“、”很容易被分離出來,這時(shí)“格式塔”現(xiàn)象對劃分有利;對于“主”字,如果把它劃分成為“、”與“王”,則違背了劃分原理,它應(yīng)為“亠”和“土”的組合,這時(shí)“格式塔”現(xiàn)象對劃分不利。
閉合的原則傾向于閉合的圖形,容易被看成一個(gè)整體。
對于“皿”字,它是一個(gè)閉合的圖形,如果把“一”從中分離出來,破壞了其原有的閉合特性,使人產(chǎn)生一種殘缺的感覺。
“格式塔”現(xiàn)象是影響人們進(jìn)行漢字劃分的自然的心理現(xiàn)象,本著以人為本的原則,在不違背劃分原理的基礎(chǔ)上,盡量照顧到“格式塔”現(xiàn)象。
5.劃分與主字素選擇原則 每個(gè)漢字在編碼過程中,最多進(jìn)行兩次劃分,首次劃分和再次劃分。遞歸地定義再次劃分為一級字素的首次劃分。
在進(jìn)行首次劃分時(shí),對含有“冖”的S類漢字,保持劃分處于“冖”之下。這是因?yàn)楹小摆ⅰ钡腟類漢字常常在“冖”上堆砌多個(gè)字素,如“帝”,“冖”上堆砌了“亠”、“丷”、“冖”,為了避免劃分只是從局部采集信息,作以上規(guī)定。
漢字稱為零級字素,經(jīng)首次劃分,產(chǎn)生兩個(gè)一級字素,其中一個(gè)選定為主字素,主字素選定以后,受到保護(hù),不再進(jìn)行劃分;對另一個(gè)一級字素,嘗試再次劃分,若再次劃分存在,產(chǎn)生兩個(gè)二級字素。所以,一個(gè)漢字可劃分為1個(gè)零級字素(O型),或2個(gè)一級字素,或1個(gè)一級字素和2個(gè)二級字素。分離的字素?cái)?shù)目不超過3個(gè)。
主字素表征了漢字的類屬。
主字素在分類字素中選擇,在不能選擇分類字素作為主字素的情況下,其它有音字素也可以被選為主字素。
對于I類,主字素可以在左或在右,以哪邊為分類字素決定,當(dāng)左右兩個(gè)一級字素都是分類字素時(shí),根據(jù)劃分原理及左面優(yōu)先選定主字素。
類似地,對于S類,主字素可以在上或在下,以哪邊為分類字素決定,當(dāng)上下兩個(gè)一級字素都是分類字素時(shí),根據(jù)劃分原理及上面優(yōu)先選定主字素。
對于特殊類,主字素選擇具有特殊結(jié)構(gòu)形狀的那一部分,在這里主字素與分類字素等同。在劃分中,可以將除分類字素外的、具有特殊類特征的字素作為主字素,如“勉”,應(yīng)選“免”作為L類主字素。
X類沒有主字素。
6.漢字信息結(jié)構(gòu)到碼字的等價(jià)轉(zhuǎn)換 每個(gè)漢字采用4字符等長碼,并將4字符從左到右分為前、后兩對,依次稱為“前一對”和“后一對”。
對于I類,主字素位置可左可右,在碼字中分別與前一對或后一對相應(yīng);對于S類,主字素位置可上可下,在碼字中分別與前一對或后一對相應(yīng);對于特殊類,主字素始終與前一對相應(yīng)。
字素與碼字的形音等價(jià)轉(zhuǎn)換法則如下 零級字素(漢字)對應(yīng)整個(gè)碼字(4個(gè)字符),前三個(gè)字符代表字素“形”的信息,第四個(gè)字符代表字素“音”的信息;一級字素對應(yīng)一個(gè)碼對(2個(gè)字符),前一字符代表字素“形”的信息,后一字符代表字素“音”的信息;二級字素對應(yīng)一個(gè)字符,代表字素“音”的信息。當(dāng)字素沒有“音”的信息,代之以字素“形”的信息。
a.可劃分類漢字 主字素與碼字的轉(zhuǎn)換規(guī)則為碼對的首字符為“形”的信息,對于I類漢字和S類漢字取字素首筆編號,但有3個(gè)特例,對于P、L、A、Q、C、U、R、N、Z類漢字取各自的字母助記符;次字符為“音”的信息,有音字素時(shí)取拼音首字母,無音字素時(shí)取末筆編號。
特例1為了減少重碼率,將I類中的14個(gè)具有眾多下屬漢字的分類字素的編碼首字符取作子類的字母助記符 這14個(gè)I類字素為“猶信虹橋接瑤池,堪恃錦路吟好詩”一聯(lián)中每個(gè)字的主字素(犭亻蟲木扌王氵土忄钅口女讠)。
類似地,將S類中的2個(gè)具有眾多下屬漢字的分類字素的編碼首字符取作子類的字母助記符 這2個(gè)S類字素為“箬”字的主字素“”和其一級字素的主字素“艸”。
特例2為了避免字素編碼相重,將S類中的4個(gè)分類字素的編碼首字符取作S。這4個(gè)分類字素為詞語“旦霞冠崗”的每個(gè)漢字的主字素“日雨冖山”。
特例3為了避免字素編碼相重,將I類和S類中的5個(gè)繁體分類字素的編碼首字符取作F,其相應(yīng)的簡體分類字素的編碼首字符取作J。這5個(gè)分類字素為詞語“馳鯤戀螢餌?”的每個(gè)漢字的主字素“馬魚
食”,無論這些字素在I類或在S類皆作此種處置。
一級字素與碼字的轉(zhuǎn)換規(guī)則碼對的首字符為“形”的信息,取字素首筆編號;次字符為“音”的信息,有音字素時(shí)取拼音首字母,無音字素時(shí)取末筆編號。
二級字素與碼字的轉(zhuǎn)換規(guī)則編碼字符為“音”的信息,有音字素時(shí)為拼音首字母,無音字素時(shí),若是P、L、A、Q、C、U、R、N、Z類的特征字素取特征字素的字母助記符,若由左、中、右三個(gè)字素構(gòu)成,取中間字素的拼音首字母,否則為字素末筆編號。
b.可拆分類漢字 對于可拆分類漢字,根據(jù)有音字素與有音字素、原始字素與有音字素2種組合進(jìn)行1次拆分,分解成2個(gè)一級字素;將碼字的前一對對應(yīng)字素重心較高、不然重心較偏左、再不然所占面積較小的字素;前一對的首字符為“形”的信息取X,次字符為“音”的信息,有音字素時(shí)取拼音首字母,原始字素時(shí)取字素編號;后一對按可劃分類的一級字素與碼字的轉(zhuǎn)換規(guī)則處理。
c.不可拆分類漢字 對于不可拆分類漢字,碼字的4字符分別為類符O、漢字首筆編號、漢字末筆編號、漢字拼音首字母。
在以上所有的編碼中,如果遇到多音字素,拼音首字母取(英語字母表中)字母序最小的一個(gè)。
與現(xiàn)有技術(shù)相比,本發(fā)明有以下有益效果 本發(fā)明具有理論的嚴(yán)謹(jǐn)性和實(shí)施的可操作性。本發(fā)明以發(fā)明人提出的信息結(jié)構(gòu)理論為基礎(chǔ),應(yīng)用劃分原理和劃分存在性判定準(zhǔn)則,建立了劃分的理論依據(jù)和實(shí)施法則,因而具有理論的嚴(yán)謹(jǐn)性和實(shí)施的可操作性。
本發(fā)明植根于漢學(xué)文化,符合傳統(tǒng)文化習(xí)慣。本發(fā)明創(chuàng)建分類字素以規(guī)范傳統(tǒng)部首的分類作用,強(qiáng)化傳統(tǒng)部首的信息結(jié)構(gòu)特征;原始字素的分類也符合傳統(tǒng)漢字教學(xué)中的八種基本筆畫。
本發(fā)明體現(xiàn)了以人為本的設(shè)計(jì)思想,沒有繁重的記憶負(fù)擔(dān)。本發(fā)明用形象記憶代替抽象記憶,自然地引進(jìn)字素排布形式的助記符和原始字素的編號;研究“格式塔”心理現(xiàn)象對劃分的影響并做出合理的處置;對編碼中的特例也提出了一聯(lián)、一字、兩詞語的記憶方法。
本發(fā)明適合Unicode大字符集漢字的計(jì)算機(jī)輸入編碼和詞組輸入編碼。本發(fā)明中考慮了兼容簡體和繁體的分類字素,對于單個(gè)漢字的輸入,可以采用全碼;對于詞組的輸入,可以采用簡碼,參見實(shí)施方式2。
(圖1)為原始字素編號的圖示。
(圖2)為分類字素的列表,每一個(gè)表項(xiàng)的第一欄為分類字素,第二欄為分類字素的編碼,第三欄為例字。整個(gè)表按照分類字素的編碼進(jìn)行排序,并分欄按從左到右排列。
具體實(shí)施例方式 實(shí)施方式1 實(shí)施方式1就是全碼的方式,即每個(gè)漢字用4個(gè)字符編碼,適合于Unicode大字符集漢字的計(jì)算機(jī)輸入編碼。
當(dāng)本編碼方法在計(jì)算機(jī)上用軟件實(shí)現(xiàn)時(shí),可以用組合鍵進(jìn)行簡體、繁體的輸入模式切換,從而解決Unicode大字符集漢字的計(jì)算機(jī)輸入問題。由于筆畫編碼占用了數(shù)字鍵,重碼的選擇鍵可采用組合鍵Shift+數(shù)字鍵。
應(yīng)用漢字形音編碼方法對漢字進(jìn)行編碼時(shí),必須應(yīng)用劃分原理,用劃分存在性判定準(zhǔn)則確定劃分是否存在,并兼顧“格式塔”心理現(xiàn)象。
劃分原理應(yīng)用的例子(編碼中主字素帶下劃線) 判定劃分是否存在的例子(編碼中主字素帶下劃線) 在實(shí)施編碼的過程中,真正需要判定劃分的存在性的僅僅是一些O類或與O類相似或與“一”、“乙”和“乚”三個(gè)分類字素相關(guān)的漢字。因?yàn)閷τ诖蠖鄶?shù)可劃分類漢字都有明確的、非原始字素的主字素,無須判定劃分是否存在。在更多時(shí)候需要應(yīng)用劃分原理,確定最優(yōu)的劃分。
兼顧“格式塔”現(xiàn)象的例子(編碼中主字素帶下劃線) 實(shí)施方式2 實(shí)施方式2就是簡碼的方式,即每個(gè)漢字用2個(gè)字符編碼,用于詞組的輸入。
在實(shí)施方式2中劃分原理和劃分存在性判定準(zhǔn)則仍然有效,但對每個(gè)漢字只進(jìn)行首次劃分或拆分。字素與碼字的轉(zhuǎn)換規(guī)則降級執(zhí)行,一級字素采用全碼方式中二級字素與碼字的轉(zhuǎn)換規(guī)則,零級字素采用全碼方式中一級字素與碼字的轉(zhuǎn)換規(guī)則。
當(dāng)本發(fā)明在計(jì)算機(jī)上實(shí)現(xiàn)時(shí),實(shí)施方式2可以與實(shí)施方式1并用,同時(shí)實(shí)現(xiàn)字與詞的輸入。
權(quán)利要求
1.一種漢字形音編碼方法產(chǎn)生四字符等長編碼,其特征是自然地引進(jìn)字素排布形式的助記符和原始字素的編號;創(chuàng)建分類字素以規(guī)范傳統(tǒng)部首的分類作用、強(qiáng)化傳統(tǒng)部首的信息結(jié)構(gòu)特征;應(yīng)用劃分原理和劃分存在性判定準(zhǔn)則建立劃分的理論依據(jù)和實(shí)施法則;研究“格式塔”心理現(xiàn)象對劃分的影響并做出合理的處置;通過0至2次劃分將漢字分解成1至3個(gè)字素;并借助字素與碼字的形音等價(jià)轉(zhuǎn)換法則生成漢字編碼。
2.根據(jù)權(quán)利要求1所述的漢字形音編碼方法,其特征是信息結(jié)構(gòu)中描述字素排布形式采用與排布形式圖示相適應(yīng)的字母助記符I、S、P、L、A、Q、C、U、R、N、Z、X、O;原始字素(圖1)采用
作為原始字素編號的助記符,其編號就是將
的右邊先寫,左邊后寫的筆畫序號。
3.根據(jù)權(quán)利要求1所述的漢字形音編碼方法,其特征是借助首次劃分確定漢字的類時(shí),按可劃分類中的普通類I、S,可劃分類中的特殊類P、L、A、O、C、U、R、N、Z,可拆分類X,不可拆分類O的順序進(jìn)行;對于可劃分類最多進(jìn)行2次劃分,在首次劃分后選取分類字素(圖2)或其它有音字素為主字素,再次劃分定義為對一級字素的首次劃分,最終分解為1個(gè)主字素和1個(gè)一級字素或1個(gè)主字素和2個(gè)二級字素;對于可拆分類,只根據(jù)有音字素與有音字素、原始字素與有音字素2種組合進(jìn)行1次拆分,分解成2個(gè)一級字素;對于不可拆分類無可分解,成為1個(gè)零級字素。
4.根據(jù)權(quán)利要求3所述的漢字形音編碼方法,其特征是字素與碼字的形音等價(jià)轉(zhuǎn)換法則為零級字素對應(yīng)整個(gè)碼字,碼字前三個(gè)字符代表字素“形”的信息,第四個(gè)字符代表字素“音”的信息;一級字素對應(yīng)一個(gè)碼對,前一字符代表字素“形”的信息,后一字符代表字素“音”的信息;二級字素對應(yīng)一個(gè)字符,代表字素“音”的信息。當(dāng)字素沒有“音”的信息,代之以字素“形”的信息。
5.根據(jù)權(quán)利要求4所述的漢字形音編碼方法,其特征是主字素與碼字的轉(zhuǎn)換規(guī)則為碼對的首字符,對于I類漢字取字素首筆編號或子類助記符I、H、W,對于S類漢字取字素首筆編號或子類助記符S、E、T,對于P、L、A、Q、C、U、R、N、Z類漢字取各自的字母助記符次字符,有音字素時(shí)取拼音首字母,無音字素時(shí)取末筆編號。
6.根據(jù)權(quán)利要求4所述的漢字形音編碼方法,其特征是一級字素與碼字的轉(zhuǎn)換規(guī)則為碼對的首字符取字素首筆編號;次字符,有音字素時(shí)取拼音首字母,無音字素時(shí)取末筆編號。
7.根據(jù)權(quán)利要求4所述的漢字形音編碼方法,其特征是二級字素與碼字的轉(zhuǎn)換規(guī)則為其編碼字符,有音字素時(shí)為拼音首字母;無音字素時(shí),若是P、L、A、Q、C、U、R、N、Z類的特征字素取特征字素的字母助記符,若由左、中、右三個(gè)字素構(gòu)成,取中間字素的拼音首字母,否則為字素末筆編號。
8.根據(jù)權(quán)利要求4所述的漢字形音編碼方法,其特征是對于可拆分類漢字,碼字的前一對對應(yīng)字素重心較高、不然重心較偏左、再不然所占面積較小的字素;前一對的首字符為X,次字符,有音字素時(shí)取拼音首字母,原始字素時(shí)取字素編號;后一對按可劃分類的一級字素與碼字的轉(zhuǎn)換規(guī)則處理。
9.根據(jù)權(quán)利要求4所述的漢字形音編碼方法,其特征是對于不可拆分類漢字,碼字的4字符分別為類符O、漢字首筆編號、漢字末筆編號、漢字的拼音首字母。
全文摘要
一種漢字形音編碼方法,旨在提供一種規(guī)范嚴(yán)謹(jǐn)、符合傳統(tǒng)文化習(xí)慣、沒有繁重記憶負(fù)擔(dān)、適合Unicode大字符集漢字計(jì)算機(jī)輸入的編碼。本發(fā)明用形象記憶代替抽象記憶,自然地引進(jìn)字素排布形式的助記符和原始字素的編號;創(chuàng)建分類字素以規(guī)范傳統(tǒng)部首的分類作用、強(qiáng)化傳統(tǒng)部首的信息結(jié)構(gòu)特征;應(yīng)用劃分原理和劃分存在性判定準(zhǔn)則建立劃分的理論依據(jù)和實(shí)施法則;研究“格式塔”心理現(xiàn)象對劃分的影響并做出合理的處置;通過0至2次劃分將漢字分解成1至3個(gè)字素,并借助字素的形、音屬性的等價(jià)轉(zhuǎn)換法則生成漢字編碼。本發(fā)明可用于簡體和繁體漢字、詞組的計(jì)算機(jī)輸入,既適合大眾普及應(yīng)用,也可用于字典編排、古籍出版等專業(yè)領(lǐng)域。
文檔編號G06F3/023GK1963805SQ200610118908
公開日2007年5月16日 申請日期2006年11月30日 優(yōu)先權(quán)日2006年11月30日
發(fā)明者姚詩忠 申請人:姚詩忠