專利名稱:段碼中文輸入法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計(jì)算機(jī)漢字編碼和重碼字詞處理的方法。
背景技術(shù):
目前流行的計(jì)算機(jī)漢字輸入法以“五筆字型”為代表的“形碼”輸入方法和以“智能ABC”、“微軟輸入法”等為代表的“音碼”輸入方法,雖然都有各自的優(yōu)點(diǎn),但又各自都存在著難以避免的弊端。如“形碼”輸入方法雖然重碼少,速度快,但其低重碼率往往是通過縮小字庫(kù)量,增加字根記憶難度,增加漢字拆分難度等方式獲得的,故普遍存在著難掌握,易遺忘,很多非通用字無法輸入等弊端;“音碼”輸入方法雖然簡(jiǎn)便易學(xué)(對(duì)熟悉普通話和漢語拼音的人而言),但存在著重碼率高,輸入速度慢,很多不懂讀音的漢字難以輸入等弊端,且這種輸入方法用久還易造成亂用同音字和“執(zhí)筆忘字”等毛病。最后,無論是“音碼”輸入方法還是“形碼”輸入方法,都不能全面體現(xiàn)漢字“音”、“形”、“義”的基本特征。
發(fā)明內(nèi)容
本發(fā)明旨在創(chuàng)造一種取兩種輸入方法之長(zhǎng),避兩種輸入方法之短,能全面體現(xiàn)我們中華漢字“音”、“形”、“義”基本特征的計(jì)算機(jī)漢字輸入法。
(一)編碼的基本模式段碼中文輸入法對(duì)中文輸入編碼采取“音形結(jié)合”和分段編碼的方法,這種編碼方法能使中文單字或詞組的編碼更加科學(xué)、簡(jiǎn)明。段碼中文輸入法編碼的基本模式可用下面式子表示單字或詞組的編碼=漢字碼段編碼+字根碼段編碼+根首碼段編碼其中,單字或詞組編碼的標(biāo)準(zhǔn)碼長(zhǎng)均為4碼,在實(shí)際編碼時(shí),可根據(jù)不同的情況對(duì)各碼段進(jìn)行取舍。
(二)漢字碼和字根碼段碼中文輸入法取漢字或字根讀音的聲母作為該漢字或字根的漢字碼或字根碼,但是,當(dāng)漢字或字根讀音的聲母為zh、ch、sh時(shí),用字母V、U、I替代;當(dāng)漢字或字根讀音為零聲母時(shí),取其第一個(gè)拼音字母作為該漢字或字根的漢字碼或字根碼。如漢字“貝”(bèi)、“蟲”(chóng)、“耳”(ěr)的漢字碼分別為“B”、“U”、“E”。
(三)漢字的筆畫和基本筆形段碼中文輸入法中漢字的書寫順序以國(guó)家語言文字工作委員會(huì),國(guó)家新聞出版署1997年4月發(fā)布的《現(xiàn)代漢語通用字筆順規(guī)范》為依據(jù);漢字基礎(chǔ)部件以國(guó)家語言文字工作委員會(huì)1997年12月發(fā)布的《漢字部件規(guī)范》為依據(jù)。為便于描述和分析漢字的字形,凡本輸入法所描述和分析的漢字,主要指國(guó)家語言文字工作委員會(huì),國(guó)家新聞出版署1988年3月發(fā)布的《現(xiàn)代漢語通用字表》的7000個(gè)漢字;漢字字體為常規(guī)印刷宋體,對(duì)字體筆畫的起筆、轉(zhuǎn)角、收筆中屬美術(shù)修飾而加粗、加長(zhǎng)部分,本輸入法一律予以忽略。
段碼中文輸入法把漢字的組成分為基本筆形、字根、漢字三個(gè)層次。
段碼中文輸入法對(duì)漢字筆畫的定義是構(gòu)成漢字字形的最小連筆單位稱作筆畫。
漢字的筆畫形態(tài)非常多,但如果只考慮筆畫的運(yùn)筆方向,不考慮筆畫的長(zhǎng)短或輕重,則漢字的筆畫可以歸納為五種橫(héng)、豎(shù)、撇(piě)、點(diǎn)(diǎn)、折(zhé),漢字的這五種筆畫稱為漢字的基本筆形,段碼中文輸入法將其分別記作“一”、“丨”、“ノ”、“丶”、“”,其編碼符號(hào)及鍵位取這五個(gè)漢字的漢字碼,分別為“H”、“I”、“P”、“D”、“V”。
段碼中文輸入法對(duì)一些筆畫的變形作如下規(guī)定
1、“提”歸于基本筆形“橫”。例如漢字“冷”的第2筆;漢字“地”的第3筆。
2、“豎左鉤”歸于基本筆形“豎”。例如漢字“了”的第2筆;漢字“利”的最后一筆。
3、“捺”歸于基本筆形“點(diǎn)”。例如漢字“八”的第2筆;漢字“禾”的最后一筆。
4、有些長(zhǎng)度很短,筆畫先輕后重,我們通常稱為“斜點(diǎn)”和“豎點(diǎn)”的漢字筆畫,這類筆畫作為例外主要考慮筆畫的長(zhǎng)短或輕重。為易于區(qū)別,段碼中文輸入法把它們稱作“短點(diǎn)筆畫”。短點(diǎn)筆畫歸于基本筆形“點(diǎn)”。例如漢字“心”的第1筆(豎點(diǎn))和第3、4筆(斜點(diǎn))都是短點(diǎn)筆畫,它們都?xì)w于基本筆形“點(diǎn)”。
5、所有帶轉(zhuǎn)折、拐彎的筆畫均歸于基本筆形“折”(筆畫“豎左鉤”除外)。例如漢字“又”的第1筆;漢字“兒”的第2筆。
漢字五種基本筆形的標(biāo)記、讀音、編碼符號(hào)、鍵位、運(yùn)筆方向及筆畫的變形如下表所示 (四)兩個(gè)筆畫之間的相對(duì)位置關(guān)系1、筆畫的構(gòu)成一個(gè)筆畫由它的筆首、筆身和筆尾3個(gè)部分構(gòu)成,其中筆首和筆尾可統(tǒng)稱為筆端。
筆畫的筆首(或筆尾)是指從筆畫的起筆端點(diǎn)(或收筆端點(diǎn))起沿運(yùn)筆方向(或運(yùn)筆相反方向)量得長(zhǎng)度等于筆畫直徑的那一段筆畫,其中筆畫的直徑是指筆畫所在字體中或參與討論研究的各筆畫中最粗的那一段筆畫的直徑;筆畫的筆身為該筆畫除了兩個(gè)筆端外余下的(或中間的)那一段筆畫。
特殊例外短點(diǎn)筆畫只有筆身而沒有筆端。
2、連結(jié)兩個(gè)筆畫的兩種基本形式當(dāng)兩個(gè)筆畫的筆端與筆端、筆身與筆端或筆端與筆身相連結(jié)時(shí),則稱這種筆畫連結(jié)形式為相接形式,其連結(jié)部位叫相接部。如漢字“廠”(筆端與筆端相連結(jié))、漢字“人”(筆身與筆端相連結(jié))和漢字“匕”(筆端與筆身相連結(jié))的兩個(gè)筆畫都是以相接形式相連結(jié),這三個(gè)漢字內(nèi)的兩個(gè)筆畫的連結(jié)部位都叫兩個(gè)筆畫的相接部;當(dāng)兩個(gè)筆畫的筆身與筆身相連結(jié)且每個(gè)筆畫都有筆畫的一部分分別落在另一個(gè)筆畫的兩側(cè)時(shí),則稱這種筆畫連結(jié)形式為相交形式,其連結(jié)部位叫相交部。如漢字“九”的兩個(gè)筆畫以相交形式相連結(jié),這兩個(gè)筆畫的連結(jié)部位就叫兩個(gè)筆畫的相交部。
3、兩個(gè)筆畫之間的相對(duì)位置關(guān)系(可簡(jiǎn)稱為筆畫關(guān)系)假定筆畫A比筆畫B的書寫順序在先,則這兩個(gè)筆畫之間的相對(duì)位置關(guān)系可分為(1)當(dāng)筆畫A與筆畫B在筆首相接而其它部分互不連結(jié)時(shí),則稱這兩個(gè)筆畫為筆首單接關(guān)系,可用符號(hào) 表示。如漢字“廠”的兩個(gè)筆畫為 關(guān)系。
(2)當(dāng)筆畫A與筆畫B在筆尾相接而其它部分互不連結(jié)時(shí),則稱這兩個(gè)筆畫為筆尾單接關(guān)系,可用符號(hào) 表示。如漢字“口”的第二筆與第三筆為 關(guān)系。
(3)當(dāng)筆畫A的筆尾與筆畫B的筆首相接而其它部分互不連結(jié)時(shí),則稱筆畫A與筆畫B為尾首單接關(guān)系,可用符號(hào) 表示。如漢字“口”的第一筆與第三筆為 關(guān)系。
(4)當(dāng)筆畫A的筆首與筆畫B的筆身相接而其它部分互不連結(jié)時(shí),則稱筆畫A與筆畫B為首身單接關(guān)系,可用符號(hào) 表示。如漢字“女”的第二筆與第三筆為 關(guān)系,(5)當(dāng)筆畫A的筆身與筆畫B的筆首相接而其它部分互不連結(jié)時(shí),則稱筆畫A與筆畫B為身首單接關(guān)系,可用符號(hào) 表示。如漢字“寫”的第一筆與第二筆為 關(guān)系(注意因?yàn)槎厅c(diǎn)筆畫只有筆身而沒有筆端,所以這兩個(gè)筆畫不能看成是 關(guān)系)。
(6)當(dāng)筆畫A的筆尾與筆畫B的筆身相接而其它部分互不連結(jié)時(shí),則稱筆畫A與筆畫B為尾身單接關(guān)系,可用符號(hào) 表示。如漢字“匕”的第一筆與第二筆為 關(guān)系。
(7)當(dāng)筆畫A的筆身與筆畫B的筆尾相接而其它部分互不連結(jié)時(shí),則稱筆畫A與筆畫B為身尾單接關(guān)系,可用符號(hào) 表示。如漢字“北”的第一筆與第二筆為 關(guān)系。
(8)當(dāng)筆畫A的兩個(gè)筆端與筆畫B的兩個(gè)筆端兩兩相接時(shí),則稱這兩個(gè)筆畫為筆端雙接關(guān)系,可用符號(hào) 表示。如漢字“貫”的前二筆為 關(guān)系。
(9)當(dāng)筆畫A與筆畫B的筆身各有一個(gè)相接部時(shí),則稱這兩個(gè)筆畫為筆身雙接關(guān)系,可用符號(hào) 表示。如漢字“互”的第二筆與第三筆為 關(guān)系。
(10)當(dāng)筆畫A與筆畫B相交且僅有一個(gè)連結(jié)部位時(shí),則稱這兩個(gè)筆畫為單一相交關(guān)系,可用符號(hào) 表示。如漢字“七”的兩個(gè)筆畫為 關(guān)系。
(11)當(dāng)筆畫A與筆畫B有兩個(gè)連結(jié)部位,一個(gè)在筆端相接,另一個(gè)在筆身相交時(shí),則稱這兩個(gè)筆畫為相接相交關(guān)系,可用符號(hào) 表示。如漢字“母”的前二筆為 關(guān)系。
(12)當(dāng)筆畫A與筆畫B之間既沒有相接部,也沒有相交部時(shí),則稱這兩個(gè)筆畫為相離關(guān)系,可用符號(hào)“//”表示。如漢字“二”的兩個(gè)筆畫為“//”關(guān)系,漢字“膏”的前二筆也為“//”關(guān)系(注意因?yàn)槎厅c(diǎn)筆畫沒有筆端,所以這兩個(gè)筆畫不能看成是 關(guān)系)。
段碼中文輸入法把漢字內(nèi)部的兩個(gè)筆畫之間的相對(duì)位置關(guān)系分為以上12種關(guān)系,并規(guī)定每?jī)蓚€(gè)筆畫的關(guān)系只能且必須屬于其中一種筆畫相對(duì)位置關(guān)系。
(五)漢字構(gòu)件漢字的字形是漢字的各筆畫按書寫順序和字的結(jié)構(gòu)組成的圖形。如果我們?cè)噲D按書寫順序?qū)h字以“形”編碼,則經(jīng)常需要取若干個(gè)按書寫順序連續(xù)的筆畫在保持原結(jié)構(gòu)的狀態(tài)下進(jìn)行分析,這部分筆畫組成的結(jié)構(gòu)就是下面所述的“漢字構(gòu)件”。
漢字構(gòu)件的定義由若干個(gè)按書寫順序連續(xù)的筆畫構(gòu)成的漢字組件叫漢字構(gòu)件(連續(xù)筆畫的個(gè)數(shù)可以是由1到整個(gè)漢字的筆畫個(gè)數(shù)的任一自然數(shù))。
如漢字“子”,其第一筆、第二筆和第三筆各可組成一個(gè)漢字構(gòu)件;漢字“子”的第一筆和第二筆、第二筆和第三筆又可以各組成一個(gè)漢字構(gòu)件;漢字“子”本身也可以組成一個(gè)漢字構(gòu)件。
漢字構(gòu)件筆順的定義一個(gè)漢字構(gòu)件中的全部筆畫所屬的基本筆形按書寫順序的排列叫該漢字構(gòu)件的筆順。漢字構(gòu)件的筆順可用X{a、b…c}表示。其中X為漢字構(gòu)件,a、b…c為該漢字構(gòu)件全部筆畫所屬的基本筆形按書寫順序的排列。如漢字構(gòu)件“子”的筆順可記作子{、丨、一}。
先后筆關(guān)系的定義在同一個(gè)漢字構(gòu)件中,相對(duì)于兩個(gè)筆畫而言,書寫順序在先的叫先筆,書寫順序在后的叫后筆,先筆和后筆的筆畫相對(duì)位置關(guān)系叫先后筆關(guān)系。漢字構(gòu)件的先后筆關(guān)系可用X[m:n]表示,其中X為漢字構(gòu)件,m和n分別是先筆和后筆的書寫順序排序號(hào)。
如在漢字構(gòu)件“子”中,各個(gè)筆畫間的先后筆關(guān)系為子[1:2]= 子[1:3]=//,子[2:3]= (六)漢字的字根從漢字構(gòu)件的定義可知,漢字構(gòu)件能夠分別表示所有漢字中各個(gè)筆畫數(shù)層次的按書寫順序筆畫連續(xù)的漢字組件的結(jié)構(gòu),因此可以用這些有準(zhǔn)確定義的結(jié)構(gòu)對(duì)漢字進(jìn)行粗細(xì)自如的拆分。但另一方面,漢字的數(shù)量很大,漢字構(gòu)件的數(shù)量更大,因而使用全部的漢字構(gòu)件對(duì)漢字進(jìn)行編碼是很不現(xiàn)實(shí)的。但如果將這些漢字構(gòu)件歸納起來,只考慮其筆順和先后筆關(guān)系,即以筆順和先后筆關(guān)系來對(duì)漢字構(gòu)件進(jìn)行歸類,并從中選出最有代表性的漢字構(gòu)件類別,則利用這部分漢字構(gòu)件類別方便地對(duì)所有漢字進(jìn)行拆分和編碼是可能的。
漢字的字根的定義筆順和先后筆關(guān)系都分別相同的漢字構(gòu)件類別叫做漢字的字根。
如漢字構(gòu)件“”、“勹”、 的筆順均為“ノ、”,先后筆關(guān)系均為 所以這幾個(gè)漢字構(gòu)件組成的類別叫做筆順為“ノ、”先后筆關(guān)系為 的字根。
當(dāng)漢字構(gòu)件只有一個(gè)筆畫時(shí),因?yàn)闆]有先后筆關(guān)系,筆順成為只有這個(gè)筆畫所屬的基本筆形的排列,筆順相同的漢字構(gòu)件類別也就成為基本筆形,所以這時(shí)漢字的字根為該筆畫所屬的基本筆形。
如所有歸于基本筆形“折”的筆畫均屬于字根“”。
因?yàn)樽指菨h字構(gòu)件的類別,所以它不一定有固定的形態(tài),為便于對(duì)字根進(jìn)行分析和運(yùn)用,一般段碼中文輸入法是從同屬一個(gè)字根的漢字構(gòu)件中選出一個(gè)代表(7個(gè)變讀音字根和它們對(duì)應(yīng)的7個(gè)引讀音字根除外,后面章節(jié)再加以說明),以它的形態(tài)、結(jié)構(gòu)、筆順和先后筆關(guān)系代表這個(gè)字根,這樣的漢字構(gòu)件稱為字根的原形,其余原來與這個(gè)代表同屬一個(gè)字根的漢字構(gòu)件稱作該字根的變形。當(dāng)漢字構(gòu)件A和B同屬一個(gè)字根且選用漢字構(gòu)件A作為字根原形時(shí),也可以稱漢字構(gòu)件B屬于字根A。例如漢字構(gòu)件“”、“勹”、 都同屬一個(gè)字根,段碼中文輸入法選其中的漢字構(gòu)件“”代表這個(gè)字根,則漢字構(gòu)件“”就是字根的原形,漢字構(gòu)件“勹”、 是字根“”的變形,漢字構(gòu)件“勹”、 都屬于字根“”(在后面如不特別說明,所講的字根均指字根的原形)。
(七)字根的讀音、筆順、字根碼及在鍵盤上的鍵位由前面“(二)漢字碼和字根碼”可知,字根的讀音關(guān)系到字根碼的取得及字根在鍵盤上的位置,故字根的讀音在段碼中文輸入法中很重要。為使所有段碼中文輸入法字根(后面所述的字根均指段碼中文輸入法選用的字根)都取得讀音,段碼中文輸入法把字根按讀音的取得方式分為引讀音字根、跟讀音字根和變讀音字根三類。
1、引讀音字根和跟讀音字根段碼中文輸入法引讀音字根有155個(gè),跟讀音字根有26個(gè)。
成字引讀音字根直接以其引用字讀音作為字根讀音[注在成字字根里,“口”取字根的似形讀(o)]。如成字引讀音字根“米”,它的讀音直接用它的引用字“米”的讀音讀“mǐ”。
非成字引讀音字根的讀音是先為其定義一個(gè)要義,然后取在要義中起主要作用的漢字作為引用字,最后以引用字的讀音作為字根讀音。如非成字引讀音字根“钅”,我們先為其定義一個(gè)要義叫“金字旁”,然后取在要義中起主要作用的“金”字作為引用字,最后以引用字“金”的讀音“jīn”作為字根“钅”的讀音。
對(duì)于跟讀音字根,則取其對(duì)應(yīng)的引讀音字根的讀音作為字根讀音。如跟讀音字根 和“廾”,均取它們對(duì)應(yīng)的引讀音字根“艸”的讀音“cǎo”作為它們的讀音。
引讀音字根和跟讀音字根的讀音及它們的對(duì)應(yīng)關(guān)系如附圖1所示。
2、變讀音字根變讀音字根原本是與某一引讀音字根屬同一字根的兩個(gè)不同的漢字構(gòu)件(如字根“馬”和“纟”),但由于其形態(tài)上的不同而在漢字結(jié)構(gòu)中往往屬于不同的漢字部首或漢字基礎(chǔ)部件(漢字基礎(chǔ)部件可簡(jiǎn)稱為部件),而且它們也不便互相取得同聲母的讀音,因而段碼中文輸入法在同屬一個(gè)字根的漢字構(gòu)件類別中分別以它們的形態(tài)分出兩個(gè)字根原形,將它們之中的一個(gè)歸入引讀音字根,而另一個(gè)則取一要義后從這個(gè)引讀音字根中“變”讀音而變回其應(yīng)有的讀音,并把其稱為“變讀音字根”。段碼中文輸入法共有7個(gè)變讀音字根。7對(duì)引讀音字根和變讀音字根的讀音及它們的對(duì)應(yīng)關(guān)系如附圖2所示。在下面所述的漢字拆分中,這7對(duì)引讀音字根和變讀音字根應(yīng)作不同的字根選用。
3、字根的筆順成字字根的筆順取其引用字的筆順;非成字字根的筆順,取其引用字中對(duì)應(yīng)的漢字構(gòu)件或與其對(duì)應(yīng)的部件的筆順,對(duì)無部件相對(duì)應(yīng)或引用字中沒有對(duì)應(yīng)的漢字構(gòu)件的字根,其筆順取段碼中文輸入法定義的筆順。段碼中文輸入法字根的筆順如附圖3所示。
4、字根的字根碼及其在鍵盤上的鍵位字根在取得讀音后,其字根碼即可按“(二)漢字碼和字根碼”的方法取得。段碼中文輸入法共選用了188個(gè)字根。段碼中文輸入法字根表和各字根在鍵盤上的鍵位如附圖4所示。
(八)字根的判定由字根的定義可知,一個(gè)漢字構(gòu)件是否屬一個(gè)字根,不是依據(jù)其形態(tài)是否相似,而是依據(jù)它們的筆順是否一致,先后筆關(guān)系是否相同。
現(xiàn)在舉幾個(gè)例子加以說明例1、判定漢字構(gòu)件“”是否屬字根“厶”。
解因?yàn)辋Y{、丶}=厶{、丶}[1:2]= =厶[1:2]所以漢字構(gòu)件“”屬于字根“厶”。
例2、判定漢字構(gòu)件“已”是否屬字根“己”。
解因?yàn)橐裑2:3]= 己[2:3]= 已[2:3]≠己[2:3]故漢字構(gòu)件“已”不屬于字根“己”。
例3、判定漢字“里”中的漢字構(gòu)件“土”是否屬字根“土”。
解漢字“里”中的漢字構(gòu)件“土”的筆順為土{丨、一、一};字根“土”的筆順為土{一、丨、一},它們的筆順不一致,故漢字“里”中的漢字構(gòu)件“土”不屬字根“土”。
例4、判定漢字構(gòu)件“六”是否屬字根 解六{丶、一、ノ、丶}= {丶、一、ノ、丶}。
六[1:2]=//= [1:2],六[1:3]=//= [1:3],六[1:4]=//= [1:4],六[2:3]=//= [2:3],六[2:4]=//= [2:4],但是六[3:4]=//, [3:4]= 六[3:4]≠ [3:4],故漢字構(gòu)件“六”不屬于字根 由于一個(gè)字根先后筆關(guān)系的個(gè)數(shù)是N個(gè)相異元素不許重復(fù)的2的組合數(shù)(N為字根筆畫數(shù)),當(dāng)字根的筆畫數(shù)慢慢增加時(shí),先后筆關(guān)系的個(gè)數(shù)增加得很快(比如當(dāng)字根筆畫數(shù)增加到6個(gè)時(shí),該字根先后筆關(guān)系的個(gè)數(shù)增加到了15個(gè)),這使得當(dāng)字根筆畫數(shù)增大后,用先后筆關(guān)系進(jìn)行字根的判定變得十分麻煩。但在另一方面,受漢字結(jié)構(gòu)規(guī)律性的制約,當(dāng)字根的筆畫數(shù)增加時(shí),筆順相同的字根的個(gè)數(shù)也迅速減少,當(dāng)字根筆畫數(shù)增加到一定數(shù)量時(shí),所有字根的筆順都不相同了,此時(shí)僅依據(jù)筆順就可判定其之間是否相屬。以段碼中文輸入法的188個(gè)字根為例,當(dāng)字根筆畫數(shù)為2時(shí),52個(gè)字根中有兩個(gè)以上筆順相同的有43個(gè);隨著字根筆畫數(shù)的增加,筆順相同的字根個(gè)數(shù)也迅速減少,當(dāng)字根筆畫數(shù)為5時(shí),23個(gè)字根中只有2個(gè)筆順相同的了(字根“罒”和“皿”);而當(dāng)字根筆畫數(shù)為6個(gè)以上時(shí),全部字根互相之間都沒有相同的筆順,此時(shí)僅依據(jù)筆順就可判定其之間是否相屬了。
由于段碼中文輸入法的字根基本上以漢字部首、漢字基礎(chǔ)部件或可組字漢字作為字根原形,所以在漢字拆分時(shí)這些漢字部首、部件可直接與字根原形對(duì)號(hào)入座(特別是多筆畫的漢字構(gòu)件),即使有些漢字部首或部件在不同的漢字中發(fā)生了形變,也能從字根原形的部首或部件屬性上比較容易地判別出來。故在實(shí)際進(jìn)行漢字拆分時(shí),大多數(shù)漢字構(gòu)件都能直觀地進(jìn)行字根的判定。而對(duì)一些變形較大的小筆畫漢字構(gòu)件,往往只需關(guān)注結(jié)構(gòu)上的某些關(guān)鍵部位,再結(jié)合筆順,亦不難進(jìn)行字根的判定,很少情況需要象例1、例4那樣把整個(gè)漢字構(gòu)件全部分解后逐一分析。在經(jīng)過一段時(shí)間使用本輸入法后,我們會(huì)很快熟悉各種漢字構(gòu)件與字根的對(duì)應(yīng)關(guān)系。
為方便在下面所述的漢字拆分中進(jìn)行字根的判定,現(xiàn)把一些變形較大的字根列表如下 (九)在進(jìn)行字根判定時(shí)應(yīng)注意的問題在進(jìn)行字根判定時(shí),還應(yīng)注意在個(gè)別情況下,同一部件在漢字的不同位置有時(shí)會(huì)發(fā)生微小的變形,以致當(dāng)它作為漢字構(gòu)件時(shí)的字根屬性發(fā)生了改變,而這時(shí)該部件的部件屬性并沒有改變。在這種情況下,段碼中文輸入法仍把該漢字構(gòu)件看作是未變形前的部件的結(jié)構(gòu)。如漢字“雙”是由兩個(gè)相同的部件“又”組成的,但它左邊的部件由“又”變形為“ヌ”(先后筆關(guān)系由 關(guān)系變形為 關(guān)系),如果判定這個(gè)漢字構(gòu)件屬字根“廴”(筆順同為“、丶”,先后筆關(guān)系同為 關(guān)系),顯然不符合這個(gè)“ヌ”仍然是部件“又”的部件屬性。故在進(jìn)行字根判定時(shí)應(yīng)把左邊變形后的“ヌ”看作是未變形時(shí)的部件“又”的結(jié)構(gòu),即應(yīng)判定漢字構(gòu)件“ヌ”屬字根“又”;同理,不應(yīng)判定“兆”和“豕”字的最后二筆屬字根“八”和“人”,而應(yīng)判定屬字根 (盡管 并不是漢字基礎(chǔ)部件,但卻是一種常見的漢字基礎(chǔ)結(jié)構(gòu))。
(十)漢字的拆分規(guī)則漢字的拆分是段碼中文輸入法進(jìn)行字根碼取碼的必要前提。段碼中文輸入法漢字的拆分是指在進(jìn)行字根碼取碼前,都應(yīng)把漢字拆分為兩個(gè)以上(含兩個(gè))段碼中文輸入法字根,并將拆分出來的字根按拆分的先后順序排列成字根排列。
段碼中文輸入法對(duì)漢字的拆分制定了如下規(guī)則書寫順序,取大優(yōu)先,照顧部件,特殊拆分,兼顧直觀。
1、書寫順序段碼中文輸入法對(duì)漢字進(jìn)行拆分的順序是按照漢字的書寫順序進(jìn)行的,具體方法是從書寫漢字的第一筆起以字根為單位按書寫順序一個(gè)緊接一個(gè)地把漢字進(jìn)行拆分,直至把整個(gè)漢字全部拆分為字根為止。例如,“把”字的拆分是從“把”字的第一筆起按書寫順序先拆分出字根“扌”,此時(shí)拆分已進(jìn)行到“把”字的第四筆,再?gòu)牡谒墓P起按書寫順序拆分出字根“巴”,所以“把”字可拆分為字根排列“扌、巴”;同樣道理,“周”字的拆分是按書寫順序先取字根 再取字根“土”,然后取字根“口”,所以“周”字可拆分為字根排列 土、口”。
2、取大優(yōu)先在按照書寫順序?qū)h字拆分時(shí),不能無限制地選取筆畫數(shù)小的字根,因?yàn)檫@樣會(huì)造成所有漢字都被拆分為基本筆形字根,使?jié)h字編碼復(fù)雜化。為了避免這種情況,段碼中文輸入法制定了“取大優(yōu)先”的規(guī)則在按照書寫順序?yàn)闈h字拆分的過程中,如有若干個(gè)不同筆畫數(shù)的字根可選取,則優(yōu)先選取筆畫數(shù)大的字根(當(dāng)然這個(gè)字根的筆畫數(shù)最大不能等于漢字的筆畫數(shù)),使?jié)h字拆分的字根數(shù)減少到最小限度。以“環(huán)”字的拆分為例第一筆按書寫順序可選取的字根有“一”、“二”、“干”、“王”四個(gè)字根,取筆畫數(shù)最多的字根“王”為“環(huán)”字的第一排序字根。此時(shí)“環(huán)”字的拆分已進(jìn)行到第五筆,該筆按書寫順序可選取的字根有“一”、“丆”二個(gè)字根,取筆畫數(shù)最多的字根“丆”為“環(huán)”字的第二排序字根。在第七筆,該筆按書寫順序可選取的字根有“丨”、“卜”二個(gè)字根,取筆畫數(shù)最多的字根“卜”為“環(huán)”字的第三排序字根。至此,“環(huán)”字全部拆分完畢,故“環(huán)”字可拆分為字根排列“王、丆、卜”。
3、照顧部件在按取大優(yōu)先規(guī)則對(duì)漢字進(jìn)行拆分時(shí),對(duì)由多個(gè)漢字基礎(chǔ)部件組成的漢字,一般情況下都應(yīng)照顧部件的整體性,盡量使?jié)h字的拆分與漢字的部件組成一致。為此,本輸入法規(guī)定在進(jìn)行漢字拆分時(shí),如需將兩個(gè)以上(含兩個(gè))部件組合成一個(gè)字根,一般情況下只能以完整部件的形式互相組合,而不能將任一部件拆散后跨部件組合成字根。如“舊”字是由“丨”和“日”兩個(gè)部件左右結(jié)合而成的漢字,在進(jìn)行漢字拆分時(shí)如只考慮取大優(yōu)先規(guī)則而不管漢字的結(jié)構(gòu),把左邊部件“丨”和右邊部件“日”的第一筆“丨”(將部件“日”拆散)組合成字根“‖”。那么,“舊”字的第二個(gè)字根就只能取“彐”,這就破壞了“丨”和“日”作為漢字“舊”的左右結(jié)構(gòu)的整體性,使?jié)h字的拆分與漢字的部件組成不一致。所以對(duì)“舊”字的拆分應(yīng)照顧部件的整體性,不取“‖、彐”的字根拆分方案,而應(yīng)取“丨、日”的字根拆分方案;又如對(duì)漢字“出”的拆分,不取“凵、山”的字根拆分方案(拆開第一個(gè)部件“屮”的第三筆“丨”與第二個(gè)部件“凵”組合成字根“山”),而應(yīng)取“凵、丨、凵”的字根拆分方案。
對(duì)單個(gè)漢字基礎(chǔ)部件拆分一般情況下仍按取大優(yōu)先規(guī)則進(jìn)行。如獨(dú)體字“示”作“二、小”拆分。但拆分時(shí)如前面字根按取大優(yōu)先拆分影響到后面字根選取的整體性,使該部件拆分字根個(gè)數(shù)增多時(shí),應(yīng)照顧后面字根的選取,采用字根拆分個(gè)數(shù)較少的拆分方案。如漢字基礎(chǔ)部件“牜”不作“、丨、一、”拆分,而應(yīng)作“ノ、扌”拆分。
因?yàn)椤稘h字部件規(guī)范》中有些部件在組配漢字過程中有時(shí)候并不按照書寫順序來組配,所以本輸入法規(guī)定在部件與書寫順序不一致的地方,以書寫順序?yàn)闇?zhǔn)(后面“4、特殊拆分”所規(guī)定的特殊的漢字和漢字構(gòu)件除外)。如漢字“巫”不作“工、人、人”拆分,而應(yīng)作“丁、人、人、一”拆分。
前面已經(jīng)說過,在按取大優(yōu)先規(guī)則對(duì)漢字進(jìn)行拆分時(shí),對(duì)由多個(gè)部件組成的漢字,一般情況下都應(yīng)照顧部件的整體性。也就是說,在一般情況下是照顧部件優(yōu)先于取大優(yōu)先。但是在下面特殊情況下,段碼中文輸入法則規(guī)定取大優(yōu)先優(yōu)先于照顧部件(1)在對(duì)多部件漢字拆分時(shí),由于有相當(dāng)一部分漢字不易判斷是否包含部件“亠”、“”和 為有利于字根的迅速選定,作為例外,段碼中文輸入法允許“亠”、“”和 這三個(gè)字根,不管前后部件是否被分割,只要不增加字根拆分個(gè)數(shù),都可以按取大優(yōu)先規(guī)則跨部件組合成字根。如漢字“主”由部件“丶”、“王”結(jié)合而成,而對(duì)“主”字的拆分應(yīng)取“亠、土”的字根拆分方案,不取“丶、王”的字根拆分方案(注意在進(jìn)行漢字拆分的過程中,如可選“立”、 或 等筆畫數(shù)大于“亠”的字根且能夠照顧部件的話,則仍按取大優(yōu)先規(guī)則優(yōu)先選取“立”、 或 等字根進(jìn)行漢字的拆分)。在運(yùn)用“亠”、“”和 這三個(gè)字根對(duì)漢字進(jìn)行拆分時(shí),若前面字根按取大優(yōu)先拆分影響到后面字根選取的整體性,從而使?jié)h字拆分的字根個(gè)數(shù)增多時(shí),應(yīng)照顧后面字根的選取,采用字根拆分個(gè)數(shù)較少的拆分方案。例如對(duì)“遂”字的拆分,不取“、、 辶”的字根拆分方案,而應(yīng)取“丷、豕、辶”的字根拆分方案。
(2)有些漢字在相同部位具有某個(gè)相同的漢字構(gòu)件(如漢字“頁、夏、面、而、石、不、豕”和“百”在頭二筆均具有漢字構(gòu)件“丆”),一般按取大優(yōu)先規(guī)則選用該漢字構(gòu)件作字根都沒有出現(xiàn)將任一部件拆散后跨部件組合成字根的情況(如“頁、夏、面”的第一個(gè)部件均為漢字構(gòu)件“丆”,“而、石、不、豕”為獨(dú)體字,它們拆分時(shí)第一個(gè)字根都可取“丆”),僅在個(gè)別漢字中選用該漢字構(gòu)件作字根會(huì)出現(xiàn)將部件拆散后跨部件組合成字根的情況(如漢字“百”的部件結(jié)構(gòu)為“一”、“白”上下結(jié)合)。
為有利于字根的迅速選定,除上述字根“亠”、“”和 外,下面漢字或漢字結(jié)構(gòu)也可按取大優(yōu)先規(guī)則選用字根,它們分別是“百”(“丆”為應(yīng)選的第一排序字根);“虧”、“亍”、“元”(“二”為應(yīng)選的第一排序字根);“生”、“失”、“朱” 為應(yīng)選的第一排序字根);“無”(“二”為應(yīng)選的第一排序字根)。如“百”字不應(yīng)作“一、白”拆分,而作應(yīng)“丆、日”拆分;“行”字不應(yīng)作“彳、一、丁”拆分,而作應(yīng)“彳、二、丨”拆分。
4、特殊拆分在對(duì)漢字進(jìn)行拆分時(shí),對(duì)一些特殊的漢字和漢字構(gòu)件,要采用一些特殊的拆分方法。
(1)對(duì)全包圍、左包圍、右上包圍型的漢字或漢字構(gòu)件的拆分。根據(jù)字根的定義,字根是漢字構(gòu)件的類別,而漢字構(gòu)件是由連續(xù)筆畫所構(gòu)成的。如按字根的定義及按以上規(guī)則對(duì)全包圍、左包圍、右上包圍型的漢字或漢字構(gòu)件進(jìn)行拆分,往往會(huì)使?jié)h字的拆分變得十分零碎和很不直觀。各舉一個(gè)漢字為例“國(guó)”字拆分為字根排列“冂、王、丶、一”;“區(qū)”字拆分為字根排列“一、乂、”;“可”字拆分為字根排列“一、口、丨”。
為使全包圍、左包圍、右上包圍型的漢字或漢字構(gòu)件拆分的字根個(gè)數(shù)盡可能減少,字根的選取更直觀,段碼中文輸入法引入了“準(zhǔn)字根”的概念假如一個(gè)漢字內(nèi)的兩個(gè)漢字構(gòu)件相隔若干筆畫,當(dāng)將相隔的筆畫予以忽略后,這兩個(gè)漢字構(gòu)件按原結(jié)構(gòu)結(jié)合起來的組合體屬于某一字根,則該組合體叫做屬于這個(gè)字根的準(zhǔn)字根。
如“國(guó)”字的漢字構(gòu)件“冂”和最末一筆“一”相隔漢字構(gòu)件“玉”的5個(gè)筆畫,若將那5個(gè)筆畫予以忽略,則其按原結(jié)構(gòu)結(jié)合起來的組合體為“口”,它顯然屬于字根“口”。所以“國(guó)”字的漢字構(gòu)件“冂”和最末一筆“一”按原結(jié)構(gòu)結(jié)合起來的組合體是字根“口”的準(zhǔn)字根。
為使?jié)h字的拆分更直觀,漢字拆分的字根個(gè)數(shù)更少,段碼中文輸入法對(duì)全包圍、左包圍、右上包圍型的漢字或漢字構(gòu)件,允許且優(yōu)先使用準(zhǔn)字根并采用“先外后內(nèi)”的拆分方法進(jìn)行拆分。這樣,對(duì)上面三個(gè)漢字的拆分可分別為“國(guó)”字拆分為字根排列“口、王、丶”;“區(qū)”字拆分為字根排列“匚、乂”;“可”字拆分為字根排列“丁、口”。同理“聲”字可拆分為字根排列“士、尸、丨”;“其”字可拆分為字根排列“、二、八”;“歐”字可拆分為字根排列“匚、乂、、人”;“斌”字可拆分為字根排列“文、一、弋、止”。
將全包圍、左包圍、右上包圍型的漢字或漢字構(gòu)件拆分時(shí)有兩點(diǎn)是需要注意的一是若應(yīng)用準(zhǔn)字根拆分不但沒有減少字根個(gè)數(shù),反而增加字根個(gè)數(shù),就不能應(yīng)用準(zhǔn)字根進(jìn)行拆分。如“艮”字應(yīng)用準(zhǔn)字根時(shí)拆分為字根排列“巳、一、 而不應(yīng)用準(zhǔn)字根時(shí)拆分為字根排列“彐、 這時(shí)應(yīng)采用后一種拆分方法二是在沒有準(zhǔn)字根參與拆分的情況下,即使是全包圍、左包圍、右上包圍型的漢字或漢字構(gòu)件,也應(yīng)按照漢字或漢字構(gòu)件的書寫順序進(jìn)行拆分。如“且”字不應(yīng)作“冂、一、二”拆分(先封口再進(jìn)入),而應(yīng)作“冃、一”拆分;“耳”字不應(yīng)作“丁、十、二”拆分,而應(yīng)作“丁、丨、三”拆分。
(2)對(duì)單筆畫漢字的拆分。由于在進(jìn)行字根碼取碼前,都應(yīng)把漢字拆分為兩個(gè)以上(含兩個(gè))字根。為了使單筆畫漢字也能夠進(jìn)行字根碼取碼,本輸入法規(guī)定每個(gè)單筆畫漢字都可拆分為兩個(gè)與該漢字基本筆形相同的字根。如漢字“一”可拆分為“一、一”字根排列漢字“乙,,可拆分為“、”,字根排列。特殊例外漢字“O”可拆分為“口、口”字根排列。
5、兼顧直觀(1)段碼中文輸入法的7對(duì)引讀音字根和變讀音字根按字根的定義本應(yīng)分別屬同一個(gè)字根,但在漢字拆分中每一對(duì)字根都作不同的字根使用,因此在每一對(duì)字根中選用哪一個(gè)時(shí)應(yīng)按其在漢字中的部件屬性相同或直觀相似的那個(gè)字根選取。如“吉”字應(yīng)作“士、口”拆分,不作“十、口”拆分“走”字應(yīng)作“土、 ”拆分,不作“士、 ”拆分“丹”字應(yīng)作 亠”拆分,不作“幾、亠”拆分,“風(fēng)”字應(yīng)作“幾、乂”拆分,不作 乂”拆分。
(2)若漢字拆分后兩個(gè)筆畫的位置與漢字原筆畫位置相反,或與常見的漢字結(jié)構(gòu)比較變化過大不易辨認(rèn),應(yīng)兼顧直觀,選用其它比較直觀的字根。如獨(dú)體字“兆”不作“八、一、、 拆分,而應(yīng)作“ノ、冫、、 拆分;又如獨(dú)體字“舟”不作“ 、、亠、丶”拆分,而應(yīng)作“ノ、 亠、丶”拆分再如漢字“既”不作“彐、厶、一、力、”拆分,而應(yīng)作“彐、厶、一、、兒”拆分。
對(duì)一些常見的漢字結(jié)構(gòu)的拆分,附圖5“常見漢字結(jié)構(gòu)拆分示例”中給出了示例,它可以幫助學(xué)習(xí)者快速掌握漢字拆分的方法。
(十一)字根的拆分及根首字根和根首碼為解決“形碼”中“識(shí)別碼”難選的問題,段碼中文輸入法采取對(duì)字根進(jìn)行拆分后再取根首碼作為“識(shí)別碼”的方法。
字根的拆分方法參照漢字的拆分規(guī)則進(jìn)行,要注意的是漢字基礎(chǔ)部件不能當(dāng)作多部件的漢字進(jìn)行拆分。如漢字基礎(chǔ)部件“宀”不能作“丶、冖”拆分,而應(yīng)作 ”拆分。
一個(gè)字根拆分后排在首位所得的字根叫該字根的根首字根,所得根首字根的字根碼是該字根的根首碼。如字根“革”拆分后的字根排列為“廿、口、十”,則字根“革”的根首字根為“廿”,根首碼為“N”。由此段碼中文輸入法188個(gè)字根就對(duì)應(yīng)有188個(gè)根首字根和188個(gè)根首碼。段碼中文輸入法188個(gè)字根拆分后對(duì)應(yīng)的根首字根如附圖6所示。
(十二)段碼中文輸入法分段編碼的基本模式段碼中文輸入法對(duì)中文輸入編碼采用分段編碼的方法,其編碼的基本模式可用下式表示單字或詞組的編碼=漢字碼段編碼+字根碼段編碼+根首碼段編碼其中單字的漢字碼段編碼最多只有一個(gè)編碼,就是該單字本身的漢字碼,詞組的漢字碼段編碼是該詞組各漢字的漢字碼依其對(duì)應(yīng)的漢字在詞組中的順序組成的排列;單字的字根碼段編碼是該單字按漢字拆分規(guī)則拆分出來的字根的字根碼依其對(duì)應(yīng)的字根在字根排列中的順序組成的排列,詞組的字根碼段編碼是詞組中各漢字的字根碼段編碼的第二個(gè)字根碼依其對(duì)應(yīng)的漢字在詞組中的順序組成的排列;根首碼段編碼是單字拆分出來的各字根的根首碼依其對(duì)應(yīng)的字根在字根排列中的順序組成的排列。
單字或詞組的標(biāo)準(zhǔn)編碼碼長(zhǎng)均為4碼,在編碼中1、當(dāng)前面碼段編碼不足4碼時(shí),以后面碼段編碼依次補(bǔ)足4碼作為標(biāo)準(zhǔn)編碼;
2、當(dāng)前面碼段編碼超出4碼(含4碼)時(shí),舍去后面碼段編碼,取前3碼和末碼作為標(biāo)準(zhǔn)編碼。
(十三)段碼中文輸入法三種編碼的條件模式在段碼中文輸入法編碼的基本模式下,依據(jù)提供的字詞條件有三種編碼的條件模式可供選擇單字純形編碼模式、單字音形編碼模式和詞組編碼模式,其中任一漢字都可用單字純形編碼模式和單字音形編碼模式兩種條件模式進(jìn)行編碼,任一詞組都可用詞組編碼模式進(jìn)行編碼。
1、單字純形編碼模式單字純形編碼模式是指單個(gè)漢字單純依據(jù)該漢字的字形的條件進(jìn)行編碼的模式。單字純形編碼模式可用下式表示單字純形編碼=字根碼段編碼+根首碼段編碼單字純形編碼的具體方法是(1)當(dāng)字根碼段編碼不足4碼時(shí),以根首碼段編碼依次補(bǔ)足4碼作為漢字的標(biāo)準(zhǔn)編碼。
如“時(shí)”字的字根碼段編碼為“RC”,“時(shí)”字拆分出來的字根“日”和“寸”的根首碼分別為“O”和“I”,即根首碼段編碼為“OI”,所以“時(shí)”字的純形編碼為“RCOI”;又如“棒”字的字根碼段編碼為“MUF”,“棒”字在拆分時(shí)排在第一的字根“木”的根首碼為“I”,則“棒”字的純形編碼為“MUFI”。
(2)當(dāng)字根碼段編碼超出4碼(含4碼)時(shí),舍去根首碼段編碼,以字根碼段編碼的前3碼和末碼組成的編碼作為漢字的標(biāo)準(zhǔn)編碼。
如“睹”字的字根碼段編碼為“MTPR”,則“睹”字的純形編碼為“MTPR”;又如“羹”字的字根碼段編碼為“QTSQTD”,則“羹”字的純形編碼為“QTSD”。
2、單字音形編碼模式單字音形編碼模式是指單個(gè)漢字依據(jù)該漢字的讀音和字形兩個(gè)方面的條件進(jìn)行編碼的模式。單字音形編碼模式可用下式表示單字音形編碼=漢字碼段編碼+字根碼段編碼+根首碼段編碼其中漢字碼段編碼只有一個(gè)編碼,就是該單字本身的漢字碼;根首碼段編碼最多只有一個(gè)編碼,就是該單字在拆分時(shí)排在第一的字根的根首碼。
單字音形編碼的具體方法是(1)當(dāng)單字的“漢字碼段編碼+字根碼段編碼”不足4碼時(shí),以該單字在拆分時(shí)排在第一的字根的根首碼補(bǔ)足4碼作為漢字的標(biāo)準(zhǔn)編碼。
以上述的“時(shí)”字為例其漢字碼為“I”,字根碼段編碼為“RC”,“時(shí)”字在拆分時(shí)排在第一的字根“日”的根首碼為“O”,則其音形編碼為“IRCO”。
(2)當(dāng)“漢字碼段編碼+字根碼段編碼”超出4碼(含4碼)時(shí),舍去根首碼段編碼,以“漢字碼段編碼+字根碼段編碼”的前3碼和末碼組成的編碼作為漢字的標(biāo)準(zhǔn)編碼。
以上述的“棒”字為例其漢字碼為“B”,字根碼段編碼為“MUF”,則其音形編碼為“BMUF”;再以上述的“羹”字為例其漢字碼為“G”,字根碼段編碼為“QTSQTD”,則其音形編碼為“GQTD”。
3、詞組編碼模式詞組編碼模式是指詞組依據(jù)該詞組中各漢字的順序、讀音和字形三個(gè)方面的條件進(jìn)行編碼的模式。詞組編碼模式可用下式表示詞組編碼=漢字碼段編碼+字根碼段編碼詞組編碼的具體方法是(1)當(dāng)漢字碼段編碼不足4碼時(shí),以詞組中各漢字的字根碼段編碼的第一個(gè)字根碼依次補(bǔ)足4碼作為詞組的標(biāo)準(zhǔn)編碼。
以對(duì)詞組“繁榮”編碼為例其漢字碼段編碼為“FR”,詞組中漢字“繁”的字根碼段編碼為“NMWYX”,漢字“榮”的字根碼段編碼為“CGM”,詞組中漢字“繁”和“榮”的字根碼段編碼的第一個(gè)字根碼分別為“N”和“C”,則詞組“繁榮”的標(biāo)準(zhǔn)編碼為“FRNC”。
又以對(duì)詞組“專利局”編碼為例,其漢字碼段編碼為“VLJ”,詞組中首漢字“專”的字根碼段編碼的第一個(gè)字根碼為“E”,則詞組“專利局”的標(biāo)準(zhǔn)編碼為“VLJE”。
(2)當(dāng)詞組的漢字碼段編碼超出4碼(含4碼)時(shí),舍去字根碼段編碼,以漢字碼段編碼的前3碼和末碼組成的編碼作為詞組的標(biāo)準(zhǔn)編碼。
以對(duì)詞組“獨(dú)具匠心”編碼為例其漢字碼段編碼為“DJJX”,則詞組“獨(dú)具匠心”的標(biāo)準(zhǔn)編碼為“DJJX”;又以對(duì)詞組“中華人民共和國(guó)”編碼為例其漢字碼段編碼為“VHRMGHG”,則詞組“中華人民共和國(guó)”的標(biāo)準(zhǔn)編碼為“VHRG”。
(十四)默認(rèn)上屏欄與選擇上屏欄相分離的重碼字詞處理方法一般來說,當(dāng)一種輸入法的字詞庫(kù)量增大時(shí),重碼率也會(huì)相應(yīng)增大,段碼中文輸入法也不例外。況且段碼中文輸入法在單字錄入里還同時(shí)兼容了二種編碼的條件模式,這也會(huì)不同程度增大重碼率。為減少重碼率增大給中文錄入造成的影響,段碼中文輸入法創(chuàng)造了一種默認(rèn)上屏欄與選擇上屏欄相分離的重碼字詞處理方法,具體是當(dāng)標(biāo)準(zhǔn)編碼發(fā)生重碼時(shí),在輸滿標(biāo)準(zhǔn)編碼后把其中一個(gè)重碼字詞顯示在輸入法提示窗口的默認(rèn)上屏欄上(該欄可單獨(dú)設(shè)一個(gè)提示框,置于光標(biāo)所處的位置上,提示框不設(shè)邊框,提示框的字詞用反色顯示,使其在視覺上跟已上屏的字詞的區(qū)別僅為反色顯示,提示框僅在重碼字詞輸滿標(biāo)準(zhǔn)編碼后才出現(xiàn)),其余重碼的字詞顯示在以數(shù)字為標(biāo)題的選擇上屏欄上。此時(shí),有三種輸入方法可供選擇1、若擊打?qū)?yīng)數(shù)字標(biāo)題的數(shù)字鍵,則可使該數(shù)字標(biāo)題欄的字詞上屏。對(duì)數(shù)字標(biāo)題為1的字詞,擊打空格鍵也可使該欄字詞上屏(用鼠標(biāo)單擊任一欄字詞也可以使其上屏);2、若擊打任意一個(gè)字符鍵(數(shù)字鍵和空格鍵除外),則首先使默認(rèn)上屏欄的字詞上屏,緊接著又執(zhí)行擊打該鍵的指令;3、若按下或擊打Shift鍵或Ctrl鍵,則僅使默認(rèn)上屏欄的字詞上屏,不再執(zhí)行其它指令。
以輸入標(biāo)準(zhǔn)編碼“CMCI”為例,它有“村”、“草木”和“萛”三個(gè)重碼字詞。當(dāng)標(biāo)準(zhǔn)編碼“CMCI”全部輸入后,漢字“村”作為默認(rèn)上屏字詞顯示在熒屏光標(biāo)所處的位置上(在視覺上它跟已上屏的“村”字的區(qū)別僅為反色顯示),“草木”和“算”這二個(gè)字詞顯示在選擇上屏提示框里面,數(shù)字標(biāo)題分別為“1”和“2”。此時(shí)當(dāng)需要“萛”字上屏?xí)r,擊一次數(shù)字鍵“2”即可;當(dāng)需要詞組“草木”上屏?xí)r,擊一次空格鍵即可(當(dāng)然,擊一次數(shù)字鍵“1”也可使其上屏,但恐怕沒有擊打一次空格鍵來得方便);當(dāng)需要在錄入漢字“村”以后緊接著要輸入其它字符時(shí)(數(shù)字和空格除外),可把“村”字當(dāng)作已上屏,直接輸入其它字符,在擊打第一個(gè)字符鍵時(shí),“村”字正式上屏,隨后緊接著執(zhí)行擊打該鍵的指令。
若在錄入漢字“村”以后,不打算緊接著輸入其它字符(比如準(zhǔn)備在錄入“村”字后再輸入空格),按下或擊打Shift鍵或Ctrl鍵,則僅使“村”字上屏,不再執(zhí)行其它指令(這時(shí)可以再輸入空格)。
在采用上述的重碼字詞處理方法后,相當(dāng)于在重碼的字詞中除默認(rèn)上屏字詞和數(shù)字標(biāo)題為2以上的選擇上屏字詞外,還有了一個(gè)準(zhǔn)第四級(jí)簡(jiǎn)碼(數(shù)字標(biāo)題為1的選擇上屏字詞可使用標(biāo)準(zhǔn)編碼+空格鍵的方法輸入),而段碼中文輸入法的重碼字詞中,大部分為只有兩個(gè)。這樣,在中文錄入時(shí)即使發(fā)生了重碼,但在大多數(shù)情況下,操作者只須繼續(xù)下一步操作或擊打空格鍵即可完成重碼的選擇輸入。由于段碼中文輸入法在字詞庫(kù)中已進(jìn)行了高頻字詞在前的頻率分級(jí)處理,使得操作者很少需要使用數(shù)字鍵來進(jìn)行字詞選擇輸入。
(十五)段碼中文輸入法的盲打輸入漢字的盲打輸入是一種高速的漢字輸入方法,特別是在單純抄錄文稿時(shí),它能有效地減少目光在熒屏和文稿上切換的頻率,所以它是一種重要的漢字輸入方法。
段碼中文輸入法的盲打輸入方法是;在全部收錄字詞范圍內(nèi)重碼的字詞中把單字音形編碼設(shè)定為優(yōu)先默認(rèn)上屏字詞,再把在《國(guó)家標(biāo)準(zhǔn)GB2312-80字符集》的一級(jí)漢字范圍內(nèi)按單字音形編碼而重碼的漢字,優(yōu)先選定其中一個(gè)為默認(rèn)上屏單字,另外的一至二個(gè)(最多時(shí)僅有三個(gè))重碼漢字以強(qiáng)記方式記住其簡(jiǎn)碼,則可實(shí)現(xiàn)在大字庫(kù)范圍內(nèi)按單字音形編碼模式的低誤差率盲打錄入(當(dāng)然,有時(shí)也可以用單字純形編碼模式輸入,但這會(huì)提高誤差率)。段碼中文輸入法的盲打輸入方法需強(qiáng)記的漢字的音形編碼的簡(jiǎn)碼有96個(gè),在我們記住這96個(gè)漢字的音形編碼的簡(jiǎn)碼后,即可使用單字音形編碼模式的方法盲打。該盲打方法可覆蓋包括全部一級(jí)漢字在內(nèi)的漢字12000余個(gè),因已進(jìn)行了字詞使用頻率的分級(jí)處理,該盲打方法誤差率當(dāng)在千分之一以下。段碼中文輸入法的盲打輸入方法需強(qiáng)記的96個(gè)漢字和編碼如附圖7所示。
(十六)段碼中文輸入法的技術(shù)效果段碼中文輸入法目前已經(jīng)進(jìn)行了在數(shù)據(jù)庫(kù)上的編碼,共收錄了漢字13000余個(gè),大部分為簡(jiǎn)化漢字,也有部分繁體字和異體字,全部用單字音形編碼和單字純形編碼兩種模式進(jìn)行編碼,能基本上解決生僻字輸入難的問題;共收錄了詞組55000余條,能方便地以詞組為單位優(yōu)先進(jìn)行輸入;其中收錄成語8000余條,能使很多忘記字形的漢字也能方便地進(jìn)行輸入;第三級(jí)簡(jiǎn)碼14000余條,覆蓋了第三級(jí)簡(jiǎn)碼可用編碼空間的80%以上;如以單字音形編碼和單字純形編碼及詞組編碼共83000余條為基數(shù),總重碼率為35%;在單字音形編碼范圍內(nèi)的重碼率為17%;在重碼的字詞中,大部分為只有兩個(gè)重碼的,在采用默認(rèn)上屏欄與選擇上屏欄相分離的重碼字詞處理方法后,其中有12000余條已選為默認(rèn)上屏,余下的有12000余條成為準(zhǔn)第四級(jí)簡(jiǎn)化編碼,選擇上屏欄標(biāo)題數(shù)字在2以后的字詞僅有4000余條,在進(jìn)行字詞使用頻率分級(jí)后,這4000余字詞其本上是生僻字或是較少使用的詞組了,而在同一組重碼的字詞數(shù)再高不超過9個(gè),這使得選擇上屏欄無需翻頁檢索;由于在一級(jí)漢字范圍內(nèi)按單字音形編碼重碼的漢字僅有188個(gè),已將其中的92個(gè)設(shè)定為默認(rèn)上屏,在對(duì)其余的96個(gè)漢字進(jìn)行簡(jiǎn)碼強(qiáng)記后,即可實(shí)現(xiàn)按單字音形編碼模式的盲打,該盲打方法可覆蓋漢字12000余個(gè),因已進(jìn)行了字詞頻率的分級(jí)處理,該盲打方法的誤差率當(dāng)在千分之一以下。
四
附圖1為引讀音字根和跟讀音字根的讀音及它們的對(duì)應(yīng)關(guān)系表圖;附圖2為7對(duì)引讀音字根和變讀音字根的讀音及它們的對(duì)應(yīng)關(guān)系表圖;附圖3為段碼中文輸入法字根的筆順表圖;附圖4為段碼中文輸入法字根表圖;附圖5為常見漢字結(jié)構(gòu)拆分示例表圖;附圖6為段碼中文輸入法188個(gè)字根拆分后對(duì)應(yīng)的根首字根表圖;附圖7為段碼中文輸入法的盲打輸入方法需強(qiáng)記的漢字及其音形簡(jiǎn)化編碼表圖。
權(quán)利要求
1.一種計(jì)算機(jī)漢字編碼方法,其特征是任一漢字或詞組都可以按以下基本模式進(jìn)行編碼單字或詞組的編碼=漢字碼段編碼+字根碼段編碼+根首碼段編碼
2.一種計(jì)算機(jī)漢字編碼的重碼字詞處理方法,其特征是當(dāng)標(biāo)準(zhǔn)編碼發(fā)生重碼時(shí),在輸滿標(biāo)準(zhǔn)編碼后采取默認(rèn)上屏欄與選擇上屏欄相分離的重碼字詞處理方法。
3.根據(jù)權(quán)利要求1所述的編碼方法,其特征在于取漢字或字根讀音的聲母作為該漢字或字根的漢字碼或字根碼,但是,當(dāng)漢字或字根讀音的聲母為zh、ch、sh時(shí),用字母V、U、I替代;當(dāng)漢字或字根讀音為零聲母時(shí),取其第一個(gè)拼音字母作為該漢字或字根的漢字碼或字根碼。
4.根據(jù)權(quán)利要求1所述的編碼方法,其特征在于把漢字的字根定義為筆順和先后筆關(guān)系都分別相同的漢字構(gòu)件類別叫做漢字的字根。
5.根據(jù)權(quán)利要求1所述的編碼方法,其特征在于把字根分為引讀音字根、跟讀音字根和變讀音字根三類,再分別定義各類字根取得讀音的方式,然后根據(jù)其讀音確定其字根碼及在鍵盤中的鍵位,段碼中文輸入法的188個(gè)字根分配及鍵位如下A 爫 B 八 貝 白 巴 卜 疒 匕C 寸 艸 廾D 丶 丁 刀 大 E 二 兒 耳 阝 ‖ 冫 丷 F 非 豐 纟 G 廣 革 干 工 古弓戈 宀 冖H 一 禾 黑 火 I 丨 山 石 十 士尸豕 ネJ 九 幾 己 臼 钅 廴 K 冂 L 力 龍 鹿 林 了立 M 母 馬 目 門 米皿木 N 鳥 乃 廿 女 O 囗P ノ 扌 Q 七 千 犭 亠R 人 亻 彳日S 三 罒 巳 厶 氵 巛 灬 T 土 田 镸U 廠 蟲 車 V 止 兆 舟 豸 豖 辶W 我 王 文 攵 夂X 小 心 忄覀 夕 辛 彐 Y 又 幺 弋 也 業(yè)羽 乂 月 讠 衤Z 子 早 ナ丆
6.根據(jù)權(quán)利要求1所述的編碼方法,其特征是單字的漢字碼段編碼是該單字的漢字碼,詞組的漢字碼段編碼是該詞組各漢字的漢字碼依其對(duì)應(yīng)的漢字在詞組中的順序組成的排列;單字的字根碼段編碼是該單字按漢字拆分規(guī)則拆分出來的字根的字根碼依其對(duì)應(yīng)的字根在字根排列中的順序組成的排列,詞組的字根碼段編碼是詞組中各漢字的字根碼段編碼的第一個(gè)字根碼依其對(duì)應(yīng)的漢字在詞組中的順序組成的排列;根首碼是將一個(gè)字根參照漢字拆分規(guī)則拆分后排在首位的字根的字根碼,根首碼段編碼是單字拆分出來的各字根的根首碼依其對(duì)應(yīng)的字根在字根排列中的順序組成的排列。
7.根據(jù)權(quán)利要求1所述的編碼方法,其特征是在段碼中文輸入法編碼的基本模式下,依據(jù)提供的字詞條件有三種編碼的條件模式可供選擇單字純形編碼模式、單字音形編碼模式和詞組編碼模式,其中任一漢字都可用單字純形編碼模式和單字音形編碼模式兩種條件模式進(jìn)行編碼,任一詞組都可用詞組編碼模式進(jìn)行編碼。
8.根據(jù)權(quán)利要求1所述的編碼方法,其特征是在全部收錄字詞范圍內(nèi)重碼的字詞中把單字音形編碼設(shè)定為優(yōu)先默認(rèn)上屏字詞,再把在《國(guó)家標(biāo)準(zhǔn)GB2312-80字符集》的一級(jí)漢字范圍內(nèi)按單字音形編碼而重碼的漢字,優(yōu)先選定其中一個(gè)為默認(rèn)上屏單字,其余重碼的漢字以強(qiáng)記方式記住其簡(jiǎn)碼,則可實(shí)現(xiàn)按單字音形編碼的盲打錄入。
全文摘要
一種計(jì)算機(jī)漢字編碼和重碼字詞處理方法。它以漢語拼音為“音”的基本依據(jù),以國(guó)家《漢字筆順規(guī)范》和《漢字部件規(guī)范》為“形”的基本依據(jù),采取“音形結(jié)合”和分段編碼的編碼方法;以“先音后形”的編碼方式適應(yīng)人們的書寫習(xí)慣;以兼容“純形編碼”的方式解決不懂讀音的漢字輸入問題;以“音托”和“形托”字根的方式解決字根難記問題;用明確的字根概念解決字根選用模糊問題;用對(duì)字根進(jìn)行拆分的方法,解決“形碼”中識(shí)別碼難選的問題;用“音碼”為主的詞組輸入方法;有效提高輸入速度;創(chuàng)造一種默認(rèn)上屏欄與選擇上屏欄相分離的重碼字詞處理方法,有效緩解重碼對(duì)中文錄入造成的影響;用確保一級(jí)漢字上屏的方法,適應(yīng)一部分有盲打需求的群體。
文檔編號(hào)G06F3/023GK1841365SQ20061005468
公開日2006年10月4日 申請(qǐng)日期2006年1月18日 優(yōu)先權(quán)日2005年2月2日
發(fā)明者李梧杰 申請(qǐng)人:李梧杰