專利名稱:一種漢語(yǔ)聲韻音位漢字編碼方法
專利說(shuō)明 本發(fā)明涉及一種音形漢語(yǔ)字詞輸入技術(shù)及其鍵盤設(shè)計(jì)。
現(xiàn)有音碼設(shè)計(jì)均以漢語(yǔ)字詞或漢字部件表現(xiàn)的語(yǔ)音作為編碼碼元,所用的語(yǔ)音表示法是1958年制定的拼音方案。拼音方案的核心是音素化拼音字母表示法(《拼音方案》第一部分),其理論基礎(chǔ)是西方現(xiàn)代音位學(xué)理論。《拼音方案》同時(shí)吸收了中國(guó)傳統(tǒng)的聲母、韻母以及聲調(diào)概念,并用音素化字母建立了字母組合式聲韻母表示法(《拼音方案》第二、三部分)。這兩種表示法就是漢語(yǔ)鍵盤輸入拼音音碼的元表示法。拼音音碼方案采用拉丁字母符號(hào),并與國(guó)際通用的標(biāo)準(zhǔn)小鍵盤鍵位符號(hào)保持一致,具有一定的大眾基礎(chǔ)。不足之處是以西方音位理論為基礎(chǔ)的音素化拼音字母全拼或純拼音碼方案的碼元單位缺乏漢民族認(rèn)知心理基礎(chǔ),其音素字母單位與漢民族幾千年語(yǔ)言運(yùn)用中形成的語(yǔ)音單位不一致,這就給方案的易學(xué)、易用、易記造成難以逾越的障礙。而以拼音字母組合形式構(gòu)成的聲母和韻母雙拼、簡(jiǎn)拼或三拼音碼方案雖具有一定的實(shí)用性,但缺乏支撐理論。聲母和韻母甚至不是現(xiàn)代語(yǔ)言學(xué)中的任何一級(jí)語(yǔ)言單位。這給今后國(guó)家標(biāo)準(zhǔn)鍵盤表示法的制定、規(guī)范應(yīng)用和理論建設(shè)均造成困難。
分析字形是對(duì)漢字客觀屬性的發(fā)掘,但本編碼方案更重視發(fā)掘作為主體的人對(duì)作為客體圖形符號(hào)特征的漢字客體的心理感知過(guò)程。漢字認(rèn)知心理有以下特點(diǎn) A模糊性。中外學(xué)者對(duì)字母圖形和漢字圖形的知覺研究證明,在字形識(shí)別過(guò)程中存在局部特征和完形特征的認(rèn)知差別。人們往往依據(jù)從字形獲取的大體輪廓(完形特征)模糊印象而進(jìn)行識(shí)別。就漢字論,首尾筆畫、外框、偏旁等反映輪廓的完形特征在局部特征(如中間部件和精細(xì)筆畫)得到清晰的辯認(rèn)之前已經(jīng)得到提取。閱讀中,漢字處在語(yǔ)句大字符串情景中,視覺迅速掃描和心理迅即感知都充分說(shuō)明人們心理對(duì)字形的模糊識(shí)別過(guò)程。
B二分性。這項(xiàng)性質(zhì)一直很少直接的充分研究,但相關(guān)研究成果已十分豐碩。二分性的重要基礎(chǔ)是聚合性概念,漢字以形聲字為主,據(jù)研究,在國(guó)家頒布的《現(xiàn)代漢語(yǔ)通用字表》的7000漢字中,形聲結(jié)構(gòu)的字共5636字,占80%強(qiáng)。形聲字由形符與聲符構(gòu)成,各種形符或聲符具有共同的特征,在人們認(rèn)知心理中形符與聲符構(gòu)成漢字的兩個(gè)聚合類,因此識(shí)別漢字時(shí)很大程度上以二合及二分的識(shí)別模式進(jìn)行。另外,哲學(xué)上的二元辯證觀及邏輯上的二分性均支持漢字字形的二分觀念。
C習(xí)慣性。習(xí)慣性是一種經(jīng)驗(yàn),是模糊性和二分性在實(shí)踐中的反映。如民間對(duì)同音姓氏的辯析弓-長(zhǎng)-張;立-早-章;古-月-胡;言-午-許。俗語(yǔ)源字有“人言為信;羊大為美;貝乏為貶;三人為眾;立女為妾”等等。行話或黑語(yǔ)有“丘八為兵”等等。
本發(fā)明的目的在于避免上述現(xiàn)有技術(shù)中的不足之處而提供一種通用標(biāo)準(zhǔn)鍵盤上輸入漢語(yǔ)字詞的方法滿足人們按語(yǔ)音盲打輸入的要求。
本發(fā)明依據(jù)聲韻音位學(xué)理論及其方法而建立,主要是將漢語(yǔ)字詞語(yǔ)音(音節(jié))分為聲位和韻位(及調(diào)位),編碼中將聲位和韻位作為編碼碼元應(yīng)用。
一、支撐理論 漢語(yǔ)聲韻音位理論是基于歷時(shí)和共時(shí)語(yǔ)言系統(tǒng)所存在的客觀語(yǔ)言單位而提出的。漢語(yǔ)音位系統(tǒng)必須建立在漢民族對(duì)語(yǔ)言單位歸納的認(rèn)知基礎(chǔ)上,真實(shí)反映出音位在漢民族語(yǔ)言心理上具有的客觀真實(shí)性、可感知性和可識(shí)別性。為此我們提出了漢語(yǔ)的三大音位類聲位、韻位和調(diào)位。下面列出聲位和韻位,并用通行的拉丁字母來(lái)表示(也可用其它符號(hào)形式表示)。
聲位符號(hào)(括號(hào)內(nèi)為國(guó)際音標(biāo)) b[p]p[p']d[t]t[t']g[k]k[k'] z[ts] c[ts'] zh[t
s] ch[t
s'] j[t
] q[t
'] f[f] s[s] sh[
s] r[z
] x[
] h[x] m[m]n[n] l[l] 韻位符號(hào)(括號(hào)內(nèi)為國(guó)際音標(biāo)) i[i]u[u]ü[y] a[a]ia[ia]ua[ua] (o[o])uo[uo] e[r]ie[iε]üe[y] -i[
]/[
] er[
] ai[ai]uai[uai] ei[ei]uei[uei] ao[au]iao[iau] ou[ou]iou[iou] an[an]ian[ian]uan[uan]üan[yan] en[
n] in[in] uen[u
n] ün[yn] ang[aη]iang[iaη]uang[uaη] eng[
η] ing[iη] ueng[u
η] (ong[uη]iong[yη] 三、碼元設(shè)計(jì) 漢語(yǔ)聲韻音位具有特定的組合關(guān)系,見下表
為了增加區(qū)別性碼元,離散同音現(xiàn)象和均衡鍵位負(fù)載量,可根據(jù)聲韻音位組合關(guān)系將同一聲位或韻位分為不同的結(jié)構(gòu)音位形式元音位和變音位以及代音位。變音位采用在元音位前后加特殊符合來(lái)表示,本編碼在元音位前后加“-”表示。
1.凡與u或u起首讀音形式和ü或ü起首讀音形式韻位組合的聲位,取變聲位作為碼元,反之則取元聲位作為碼元。
2.凡與非u或u起首讀音形式和非ü或ü起首讀音形式韻位組合的零聲位(即僅有韻位形式的音節(jié)),取韻位起始的拉丁字母符號(hào)作為代聲位。
3.凡與u或u起首讀音形式韻位組合的零聲位,取拉丁字母W作為代聲位。
4.凡與ü或ü起首讀音形式韻位組合的零聲位,取拉丁字母符號(hào)y作為代聲位。本項(xiàng)同時(shí)要滿足第一條的規(guī)則。
5.凡與咝音聲位(即z、c、s、zh、ch、sh、r、i、q、x)組合的i韻位,取變韻位作為碼元。本編碼以-i形式表示。
6.幾個(gè)特殊的自成音節(jié)的聲位(如普通話m、n,廣州話η等),取其本身作為變音位形式碼元。
因此,本編碼現(xiàn)有作為碼元的元聲位、變聲位及代聲位共計(jì)48個(gè),聲位與韻位的組合規(guī)律見下表
三、鍵位設(shè)計(jì) 考慮到漢語(yǔ)中方音的現(xiàn)實(shí)存在,本編碼按方音差別將音位碼設(shè)計(jì)為普通話方案、南北通用方案和粵方言方案及其它方言方案。鍵盤設(shè)計(jì)見附圖,
圖1是聲韻音位鍵位分布圖(通用版);圖2是聲韻音位鍵位分布圖(北方版)。
在普通話方案中,本發(fā)明巧妙地將具有互補(bǔ)關(guān)系的韻位排列在同一鍵位上,如ong和ueng,ia和ua,ve和uei等,將視覺符形相近的韻位排列在同一鍵位上,如vn和un,van和uan等,將讀音相近的放在同一鍵位上,如o和uo,-m和-n等。同時(shí)還將卷舌音元聲位與相應(yīng)的非卷舌音元聲位安排在同一鍵位上,或者卷舌音變聲位與非卷舌音元聲位排在同一鍵位上,既便于記憶,又易與通用版銜接,如sh和s-,ch和c-,zh和z-,s與sh-,c與ch-,z與zh-。此外,本編碼還遵操作者擊鍵規(guī)律研究的最新成果,將高頻與低頻鍵位調(diào)到最佳狀態(tài)。
四、漢字部件類 從字形上分析,所有漢字均由部件構(gòu)成,其結(jié)構(gòu)如下
獨(dú)體型漢字以筆畫作為部件,其部件類型為 名稱橫(提)豎(豎勾)撇捺(點(diǎn))折 形式 一
丨亅 丿
丶 乙
獨(dú)體型漢字以起始筆畫作為起筆部件,結(jié)束筆畫作為末筆部件。
筆畫在且僅在獨(dú)體型漢字類作為部件。具有歧義的部件“-”在獨(dú)體型漢字類定為部件“-”(橫,hen),在非獨(dú)體型漢字類定為“-”(壹,yi)。
本編碼將成字部件和非成字可讀部件作為取碼信息源,除個(gè)別特殊部件賦予可讀音外,其他不可讀部件均不成為信息源部件。
五、漢字切分原則 1.基本原則(二分原則) 所有漢字均按字型切分成兩個(gè)部件。起筆筆畫所在部件叫起筆部件,末筆筆畫所在部件叫末筆部件。
2.成字原則(或可讀原則) 切分出的各部件要成字或成可讀部件。
3.取小原則 切出的部件若不成字或可讀部件,則切出下一級(jí)起筆或末筆所在部件為所選部件。
4.剩余原則 除個(gè)別例外,切分剩余部分亦應(yīng)成字或可讀部件。
六、單字編碼 單字以其起筆和末筆部件及單字本身作為取碼信息源,并以部件音的聲位和單字的聲韻位作為碼元。取碼順序?yàn)槠鸸P部件音聲位+末筆部件音聲位+漢字聲位+漢字韻位。
例如 漢字起筆末筆起筆部末筆部漢字漢字字碼 部件部件件聲位件聲位聲位韻位 嘆口又KYTanKYTJ 揚(yáng) 扌
T Y Y ang TYYH 碧王石WSBiWSBI 廣丶丿NPK-uangNPHM 七、詞語(yǔ)編碼 詞語(yǔ)以首位漢字和末位漢字的起、末筆部件音的聲位作為碼元,詞語(yǔ)的長(zhǎng)度限定為最長(zhǎng)4個(gè)漢字。取碼為首字起筆部件音聲位+首字末筆部件音聲位+末字起筆部件音聲位+末字末筆部件音聲位。
例如 詞組部件1部件2部件3 部件4 聲位1 聲位2 聲位3 聲位4 詞碼 工藝一一艸乙HHCYHHCY 拼音扌并立日TBLRTBLR 美化羊大亻七YDRBYDRB 處理攵卜王里WMWLWMWL 中文丨丨丶丶S-S-NNUUNN 本發(fā)明相比現(xiàn)有技術(shù)具有如下優(yōu)點(diǎn) 1.采用漢字聲韻音位理論建立編碼方案,符合漢民族語(yǔ)音感知和漢字認(rèn)知心理。
2.漢字切分規(guī)則簡(jiǎn)潔、明確統(tǒng)一,不必特別記憶字形部件對(duì)應(yīng)的碼元,因而辯證地解決了字形碼元(無(wú)論少抑或多)記憶問題。
3.根據(jù)結(jié)構(gòu)語(yǔ)言學(xué)方法,在尊重客觀語(yǔ)音現(xiàn)象規(guī)律的前提下,將有限的聲韻音位形式數(shù)量大大擴(kuò)充,為區(qū)分重碼辟出一條新路,且聲韻音位的形式分割具有嚴(yán)格規(guī)則,有利于學(xué)習(xí)和記憶。
4.鍵盤設(shè)計(jì)巧妙清晰,高擊鍵率鍵位與低擊鍵鍵位均衡分布,符合人體工程學(xué)原理。
5.本編碼為“高頻全碼”設(shè)計(jì)(即高頻字以全碼方式輸入),為實(shí)現(xiàn)動(dòng)態(tài)方式下無(wú)記憶語(yǔ)音盲打奠下了堅(jiān)實(shí)的基礎(chǔ)。其中高頻字采用無(wú)重碼全碼方式輸入,二碼和三碼低頻字也無(wú)重碼,詞語(yǔ)編碼在任何情況下均為全碼方式。
權(quán)利要求
1、一種漢語(yǔ)聲韻音位漢字編碼方法,其主要特征是將漢字字詞語(yǔ)音(音節(jié))分為聲位和韻位(及調(diào)位),編碼中將聲位和韻位作為編碼碼元應(yīng)用,將同一聲位或韻位切分為不同的結(jié)構(gòu)音位形式元音位、變音位、代音位,即同一音位在不同條件下可切分為兩個(gè)或多個(gè)的變音位形式,對(duì)聲位和韻位(及調(diào)位)可進(jìn)一步作多層次變音位形式切分。
2、根據(jù)權(quán)利要求1所述編碼方法,其特征在于按方音差別將音位碼設(shè)計(jì)為普通話、南北通用、粵語(yǔ)方言及其它方言方案。鍵盤設(shè)計(jì)如下
聲韻音位鍵位分布圖(通用版)
聲韻音位鍵位分布圖(北方版)
3、根據(jù)權(quán)利要求1所述編碼方法,其特征在于漢字切分的方法為
(1)所有漢字均按字形二分為起筆、末筆部件,根據(jù)二分原則、可讀原則、取小原則和剩余原則切分漢字。
(2)獨(dú)體型漢字以起始筆畫為起始部件,結(jié)束筆畫為末筆部件。
4、根據(jù)權(quán)利要求1所述編碼方法,其特征在于字詞的編碼方式為
(1)單字編碼起筆部件音聲位+末筆部件音聲位+漢字聲位+漢字韻位。
(2)詞語(yǔ)編碼首字起筆部件音聲位+首字末筆部件音聲位+末字起筆部件音聲位+末字末筆部件音聲位。
全文摘要
漢語(yǔ)聲韻音位編碼將聲位和韻位作為編碼碼元應(yīng)用,又將同一聲位或韻位切分為不同的結(jié)構(gòu)音位形式。漢字切分按字形二分或二分取小方式進(jìn)行。高頻字采用無(wú)重碼、全碼方式輸入,動(dòng)態(tài)方式下不必記憶高頻字種而實(shí)施盲打輸入。二碼和三碼低碼字也無(wú)重碼。詞語(yǔ)編碼在任何情況下均為全碼方式。
文檔編號(hào)G06F3/023GK1074296SQ9211005
公開日1993年7月14日 申請(qǐng)日期1992年8月27日 優(yōu)先權(quán)日1992年8月27日
發(fā)明者江荻 申請(qǐng)人:江荻