漢字形聲碼的制作方法

文檔序號：6598292閱讀：414來源：國知局

專利名稱：漢字形聲碼的制作方法
專利說明漢字形聲碼是一種形碼，應用于中文信息處理。
目前，漢字編碼方案已有600種，但成名的，不過十幾種。編碼按信息特征分，基本上為音碼、形碼、音形碼三類。音碼的缺點是①同音字太多，②8000漢字，通常只識得三、四千字。形碼的缺點是①要記字根及其編碼，②字根分解規(guī)則的模糊性常造成誤碼，並增加了記憶量，③字碼合成時總有些特殊的規(guī)定，④要準確掌握字形。音形碼則兼有兩者的優(yōu)點與缺點。當前的電腦輸入還是形碼占優(yōu)勢，而王永民的五筆字型碼為其典型代表。
作為形碼方案主要由四部分組成①字根選擇及其編碼，②字根分解規(guī)則，③識別碼設(shè)計，④字碼合成規(guī)則。
字根編碼方法有三①區(qū)位碼，如王碼，②象形碼，如錢碼，③聲碼，如全息碼。顯然聲碼比較優(yōu)越，容易記憶，反應快。
字根分解方法常見以筆順為序。它的優(yōu)點是將平面結(jié)構(gòu)的字形轉(zhuǎn)化為線性結(jié)構(gòu)的筆順，簡單明確。其缺點是將字形分解得較零碎，常不符合文字傳統(tǒng)與習慣，因而王碼要加個“兼顧直觀”的規(guī)定。但是“直觀”是個模糊概念。王碼的五條分解規(guī)則各自獨立，使人不知道該用那條規(guī)則。
識別碼的主要功能是抑制重碼，王碼的末筆、字型交叉識別碼是一種很好的識別碼。當字根采用按聲取碼時，對其識別碼提出了更高的要求。杜冰蟾的全息碼采用末筆畫的八種筆型作為識別碼，其離散力不足，故未能實現(xiàn)真正的按聲編碼。
本發(fā)明的目的在于全面改進形碼的品質(zhì)，並實現(xiàn)部分的反向識別功能(見碼識字)，使它成為一種文字碼的雛形。
本發(fā)明的構(gòu)思原理與基本結(jié)構(gòu)如下漢字是一種拼形文字，拼音化道路走不通，能否走拼形道路。漢字現(xiàn)代化就是漢字符號化，符號漢字就是文字碼。它與一般編碼不同之處就在于要求反向識別;還有，編碼過程中、符號轉(zhuǎn)換中，不允許存在文字學以外的指令手段。一旦，統(tǒng)籌研究漢字編碼與漢字簡化(減少字根，而不是減少筆畫)，實現(xiàn)2500常用字的雙向識別是可能的。那時，一般文字資料中，每100個字有99個可以雙向識別，這種編碼就可稱之為“文字碼”。它不取代漢字，但可輔助漢字，它將從專業(yè)走向社會。本發(fā)明是設(shè)計文字碼的一次初步嘗試。
本編碼采用英文字母鍵盤，4位等長碼，(用于漢字檢索或全漢字編碼也可用5位等長碼)。150～200個正體字根按音(聲母)編碼，另聲母字根采用韻母的一個字母，首字母或韻腹字母。聲母21個，Ch、Sh、Zh寫成C1、

、Z1。取消分隔用聲母W、Y，Y改作ü。元音“O”用作功能碼。C1、

可占用V、W鍵，Z與Z合用Z鍵，這樣共26鍵位。字根讀音在下列讀音中選擇①今音、②古音、③習慣音，④注音符號音，沒有現(xiàn)成讀音或因避重需要給予擬定讀音的，可采用如下方法①形轉(zhuǎn)意法，②仿形聲法，③仿音省法，④仿反切法，⑤形似法。凡當今通用的成字字根，一律采用今音。凡有現(xiàn)成讀音的盡量在現(xiàn)成讀音中選取。(注今音是指現(xiàn)代讀音。) 本編碼創(chuàng)造一種新的字根分解方法。它與通常的以筆順為序的動態(tài)分解法不同，而是直接分解字形的靜態(tài)分解法。這種分解法所得的字根比較完整，比較符合于文字傳統(tǒng)。如束字王碼分解為一、口、小，本編碼分解為木、口，符合“說文解字”束從口木的觀點。它有一條必循準則與五條順序運用的優(yōu)先準則。根據(jù)這些嚴密、確定、統(tǒng)一的準則，任一字形均可得到一個唯一的分解結(jié)果。必循準則是“筆順一致性”準則。這規(guī)定分解所得的字根其筆順必須與整字中的筆順一致，即字根的筆順在整字中可以被別的字根間斷，但不可顛倒。五條優(yōu)先準則依次為①最少字根優(yōu)先，②脫連優(yōu)先，③最小根值優(yōu)先，④筆順連續(xù)優(yōu)先，⑤筆畫先分優(yōu)先。下面給予扼要說明最少字根優(yōu)先是為了取得較少的字根，這樣字根字形完整，並利于反向識別。
漢字中的筆畫群組成字根或部件，說明這些筆畫間存在一定的關(guān)系。依其關(guān)系的緊密程度可分為三類，(1)相關(guān)幾何學上不相連，而文字學上相連，如八、心，(2)相連筆畫接觸，(3)相交筆畫相交，有交點。脫連優(yōu)先的含義是筆畫間關(guān)系較松散的，相關(guān)與相連優(yōu)先脫開，其特征是交點數(shù)不減少。
字根是由一個筆畫、二個筆畫，或多于二筆畫組成，用“根值”來表示字根筆畫的繁簡程度。規(guī)定二筆以上的復筆字根其根值為1，一個筆畫的單筆字根，若其筆型為“折”時，根值為0·8，其余四種筆型時，根值為0·6。最小根值優(yōu)先準則規(guī)定了在同樣字根數(shù)，同樣是脫連(或折交)的情況下，選取根值較小的一種。
靜態(tài)分解法規(guī)定字根的筆順在整字中可以被別的字根間斷，在先行的優(yōu)先準則相同的條件下，字根筆順未被間斷的分解結(jié)果應該優(yōu)先。
筆畫先分優(yōu)先準則規(guī)定在先行優(yōu)先準則相同的條件下，可以歸屬于二字根的中間筆畫應歸屬于前字根。如蘭→

、二，

丷、三。(→讀成“分解為”或“編碼為”，

讀成“不分解為”或“不編碼為”。) 分解后的字根次序依其首筆畫的先后為序。
本編碼的字根分解采用二步進行第一步先分解為獨立部件這是指該部件與相鄰筆畫無牽連;所謂牽連是指相鄰筆畫間可組成新的字根。8000正體漢字共有600個獨立部件，其中200多個是單個字根，余下只有300多復字根部件需要分解。只要按照分解準則，掌握這300多部件的分解結(jié)果，那應對8000正體漢字的分解便駕輕就熟，反應迅速。
同碼(同聲母)字根用字形識別碼來加以區(qū)分。字形的分類用字根的首末筆畫的筆型作為特征來確定的。這樣，相似的字形既可歸于一類，又可避免“相似”的模糊性。筆型分五種，字形分成5×5＝25類，可以用2位數(shù)表示。末筆為撇的字根很少，可以歸為一類，用03表示，定名為“撇”，這樣得字形為21類，03之外的20類字形，每類中選出一個字根作為代表，稱代字，這個代字的讀音(聲母)便是該類字形的代碼。這樣21類字形可由21個字母表示，稱為字形識別碼，簡稱識別碼。
同碼字根(字根碼相同)中可選出一、二個較常用的字根，對它們不用字形識別碼，而用功能碼“O”代替。這些字根便稱為零識別碼字根，或簡稱O碼字根。
當字根碼、識別碼結(jié)合起來成為字母區(qū)位碼，用來表示一個字根時，這字根的字形便可確定。這就是實現(xiàn)反向識別功能的途徑。
代字法的構(gòu)思來源于漢字的音韻學傳統(tǒng)，用字母(整字)代表音素符號。
字碼合成規(guī)則如下單字根字GO

′; 雙字根字G1G21

2

1 三字根字G1G2G31

i(i＝3或2) 或G1G2G3，

i(i＝1) 用一個識別碼位去識別三個字根碼，本發(fā)明首創(chuàng)“掃描識別法”。

i首先識別G1，遇O碼字根，轉(zhuǎn)向G3，遇O碼，轉(zhuǎn)向G2，又是O碼，則

i標為“O”。若在掃描過程中，遇到非O碼，則標記首先遇到的非O碼字根的字形識別碼。
掃描法有利于抑制重碼與增強反向識別功能。
四字根字G1G2G3G4 ≥5字根字G1G2Gn-1Gn 當復筆字根數(shù)≥5時，單筆字根全部省去。
得Gf1Gf2Gfn-1Gfn。
以上G、

、S′、Gf、O表示字根碼、識別碼，輔助識別碼、復筆字根碼、功能碼。注腳數(shù)字為序號?！啊洹睘閰^(qū)分字根碼與識別碼的分隔符，它不用輸入電腦，僅用于人腦反向識別。
另外，尚有局部的附加規(guī)則，以抑制重碼，如8000漢字編碼初稿中有這樣三條附則 (1)以口，木為首字根的雙字根字，字型為上下型時，口、木的識別碼不用“O”，而用上下字型識別碼“K”、K是“卡”的聲母。
(2)由2～3個字根組成的字形在整字中重復出現(xiàn)時，后面的可用“U”代替。它模仿簡化漢字中，用“又”代替重復字形，如轟、聶。
例器→KKQU，辨→L

BU。
注U所代表的字根(上例為KK，L

)必須全部入選字碼。
(3)四字根字，首字根為M、Y、S、

的≥3筆的非O碼字根時，字碼不用G1G2G3G4，而用G1G2G4

1(或G1G3G4

1)。
初學者忘記附則時，可用容錯碼找出該字。
8000漢字編碼初稿中單字根字編碼是這樣規(guī)定的單筆畫字，三個 O→LOOO，一→IOOI 乙→IOOE。
M1是讀音，M2是空位碼，M3是識別碼，M4是筆型碼。(M表示碼位)。
O碼字根字GOO

是它的原本的字形識別碼; 非O碼字根字GO

b3 b3是它的第三筆畫的筆型碼，若字根筆畫數(shù)≤3，則用“O”代替。
高頻字可采用以一碼表示的一級簡碼，以二碼表示的二級簡碼。一級簡碼按整字讀音取碼。
參照字碼結(jié)構(gòu)，可編制詞碼，單字讀音聲母相當于字根碼，首字根相當于識別碼。這種詞碼比較好記，反應快。
功能碼“O”出現(xiàn)在不同的碼位上有不同的功能。在M1時作為查詢碼。查詢時，字碼中不再用識別碼，不確定的字根碼可用空位碼O代替。正碼的M4為O時，規(guī)定應省去，如森→MMM，而

MMMO。這樣“O”在M4可以用作“去重碼”。功能碼“O”共有①查詢②空位③識別④去重⑤反向識別等五種功能。
本編碼由于其按音取碼的結(jié)構(gòu)可提供一種新的讀碼、記碼方式。如照字分解為“日、刀、口、灬”四個字根，可得編碼為“RDKH”，這樣有二種讀碼方式①按字母讀音讀碼，②按字根讀音讀碼。設(shè)計者推薦采用第二種方式。這時，讀碼為“Ri、Dao、Kou、Hou-Zhao”。通過字根的讀音，把單字的字形結(jié)構(gòu)與代碼緊密地聯(lián)系起來，這有利于默打。如此還為我們學習、記憶漢字字形提供了一種新的方法一一拼讀法。自古以來，記憶漢字字形只有靠看和寫二種方法(讀是記字音)，現(xiàn)在多了一種象拼讀英文生字一樣的拼讀漢字字形的方法。
從上面的介紹可以看出本編碼的優(yōu)越性與獨創(chuàng)性。它靈活地應用了文字傳統(tǒng)，又注入了數(shù)學的邏輯性。它易學好記，反應快，適宜于專職人員的視作(看打)，又適宜于非專職人員的默打(想打)。它實現(xiàn)了部分的反向識別，將來有可能演變成文字碼。
作為實施例8000正體漢字的編碼初稿選用正體字根約160個，連同變體、變形字根共260個，詳見附表“字根表”。表中“氵”、“冫”讀成流、凍，是形轉(zhuǎn)意法，“攵”、“阝”讀成撲、阜，是古音，“宀”、“辶”讀成寶、之，是習慣音，“匚”、“卩”讀成方、資，是注意符號音;“丂”、“

”讀成巧、各，是仿形聲法，“

”、“

”讀成黑、母，是仿音省法，“

”、“

”讀成噴、撇、是仿反切法，“

”、“”讀成里、厶、是形似法。只一個字根“才”尚未找到合適的文字學依據(jù)。
筆型代碼，“撇”用聲母“p”，其余“橫、豎、點(奈)、折”，用元音“I、U、A、E”。此時I可讀成“一”或“提”，也可讀“橫”。
首字母為A、E、U、Y的韻母即用A、E、U、Y(即

)作代碼，首字母為I的韻母用它的韻腹字母作代碼，如言(ian)為A，也(ie)為E。
編碼初稿在一級字集3755字中，有1839字實現(xiàn)反向識別，占49%。這包括①全部單字根字，②全部雙字根字，③三字根字中，掃描識別了2～3個字根的字。一級字集，重碼39字，增加二級字集，增加重碼150字，增加二級外字集(1058字)，增加重碼72字，略低于王碼。
下附“字根表”。
字根表 (8頁)
字根表(續(xù)) (9頁)

權(quán)利要求
1、一種用于信息處理的漢字形聲碼，其特征在于字根按音取碼，采用字根的靜態(tài)分解法和以首末畫筆型為特征的字形識別碼，組成字根碼在前、識別碼在后的四位等長碼。
2、根據(jù)權(quán)利要求1所述的漢字形聲碼，其特征在于正體字根選取150～200個為宜。
3、根據(jù)權(quán)利要求1所述的漢字形聲碼，其特征在于字根按其讀音聲母取碼，零聲母字根采用韻母的首字母或韻腹字母。
4、根據(jù)權(quán)利要求1、3所述的漢字形聲碼，其特征在于聲母為21個，Ch、Sh占用V、W鍵。Z與Zh合用Z鍵。取消分隔用聲母W、V、Y改作u。元音“O”改作功能碼。共占26鍵位。
5、根據(jù)權(quán)利要求1所述的漢字形聲碼，其特征在于字根讀音在①今音、②古音、③習慣音、④注音符號音中選擇;無現(xiàn)成讀音或因避重需要給予擬定讀音的可采用如下方法①形轉(zhuǎn)意法，②仿形聲法，③仿音省法，④仿反切法，⑤形似法。凡當今通用的成字字根一律采用今音。
6、根據(jù)權(quán)利要求1所述的漢字形聲碼，其特征在于字根的靜態(tài)分解法由一條必循準則與五條順序運用的優(yōu)先準則組成。必循準則為筆順一致性準則，五條優(yōu)先準則依次為①最少字根優(yōu)先、②脫連優(yōu)先、③最小根值優(yōu)先，④筆順連續(xù)優(yōu)先，⑤筆畫先分優(yōu)先。
7、根據(jù)權(quán)利要求6所述的字根靜態(tài)分解法，其特征在于根值表示字根筆畫的繁簡程度，規(guī)定復筆字根的根值為1，單筆字根，筆型為“折”者，根值為0.8，其余筆型為0.6。脫連優(yōu)先的特征是筆畫間的交點數(shù)不減少。
8、根據(jù)權(quán)利要求1所述的漢字形聲碼，其特征在于字形識別碼由字根的首末畫筆型所確定。筆型為5種，得字形為25類。末筆為撇的字形較少，合并為一類，定名為“撇”。代碼為P。余下20類各選一字根為代字，取其字根碼為代碼。稱字形識別碼。
9、根據(jù)權(quán)利要求1所述的漢字形聲碼，其特征在于在同碼(同聲母)字根中，可選取一二個較常用的字根，規(guī)定不用字形識別碼，而用功能碼“O”代替，這些字根稱為“O”碼字根。
10、根據(jù)權(quán)利要求1所述的漢字形聲碼，其特征在于字碼一般為四位等長碼，(用于漢字檢索或全漢字編碼也可用五位等長碼)，其字碼結(jié)構(gòu)如下
單字根字GO
′;
雙字根字G1G2′
2
1;
三字根字G1G2G3′
i，i＝2或3，
G1G2G3，
i i＝1，
對G1、G3、G2順次掃描識別，標以首先相遇的非O碼字根的字形識別碼。若G1、G3、G2均為O碼，則
i標以“O”。
四字根字G1G2G3G4;
≥5字根字G1G2Gn-1Gn;
當復筆字根數(shù)≥5時，單筆字根可略，
得Gf1Gf2Gfn-1Gfn;
以上G、S等符號含義見說明書。
11、根據(jù)權(quán)利要求1、10所述的漢字形聲碼，參照字碼結(jié)構(gòu)，可編制詞碼，單字讀音聲母相當于字根碼，首字根代碼相當于識別碼。
全文摘要
本發(fā)明為一種具有部分反向識別功能(見碼識字)的漢字形聲碼。26個字母，4位等長碼，字根按音取碼。本發(fā)明提出了字根的靜態(tài)分解法和以首末畫筆型為特征的字形識別碼。本編碼易學好記，適用于電腦輸入與漢字檢索。
文檔編號G06F3/023GK1060363SQ91108178
公開日1992年4月15日申請日期1991年9月16日優(yōu)先權(quán)日1991年9月16日
發(fā)明者嵇政申請人:嵇政

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：嵇政
技術(shù)所有人：嵇政
我是此專利的發(fā)明人

上一篇：中文速記電腦編碼方法及輸入鍵盤的制作方法
上一篇：快速中文編碼輸入法的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

形聲結(jié)合識漢字相關(guān)技術(shù)

漢字形聲字相關(guān)技術(shù)

形聲結(jié)合識漢字ppt相關(guān)技術(shù)

漢字字形碼相關(guān)技術(shù)

漢字字形碼的使用是在相關(guān)技術(shù)

點陣漢字字形碼相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

漢字形聲碼的制作方法