專(zhuān)利名稱(chēng):漢字詞多維編碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明是一種漢字詞多維編碼的方法,它屬于計(jì)算機(jī)漢字輸入編碼技術(shù),根據(jù)漢字的四角號(hào)碼,按四角號(hào)碼的編碼規(guī)則,對(duì)漢字進(jìn)行數(shù)字編碼,并以此編碼輸入計(jì)算機(jī)用以檢索漢字的技術(shù)。
目前使用的漢字編碼技術(shù)已有很多種,象國(guó)標(biāo)碼或電報(bào)碼,也是編碼的一種,這種碼是順序的硬性規(guī)定,雖然字和碼一一對(duì)應(yīng),但需死記硬背或按本查找,一般很難用于大量的漢字輸入。拚音碼和聯(lián)想漢字,這是一種用漢語(yǔ)拚音輸入漢字的方法,能在計(jì)算機(jī)的輔助下,可以聯(lián)想輸入成語(yǔ)和詞組,能見(jiàn)字讀碼,只要掌握漢語(yǔ)拚音,就很容易學(xué)習(xí)。但因漢語(yǔ)的同音字太多,因此,重碼率高,不能盲打,對(duì)于未系統(tǒng)學(xué)習(xí)過(guò)拚音的,不能正確地識(shí)別韻母,同時(shí)由于受方言的影響,使用這個(gè)方法也存在一定的障礙。聯(lián)想漢字方式的詞語(yǔ)輸入,可以減少上述缺點(diǎn),但仍不能盲打。“五筆字形”漢字輸入技術(shù),這種方法將漢字分解為一百三十個(gè)字根,用一個(gè)英文鍵代表數(shù)個(gè)字根,輸入時(shí)每一個(gè)漢字用四個(gè)英文字母表示,如“想”字用SHNO表示。這種方法雖然重碼率低,能見(jiàn)字識(shí)碼,可以盲打,漢字輸入速度增快,但因字根數(shù)太多,記憶量加大,要求實(shí)際學(xué)習(xí)時(shí)間長(zhǎng),一般需通過(guò)半個(gè)月以上的系統(tǒng)培訓(xùn)才能上機(jī)。另外,每個(gè)漢字由四位英文字母組成,共計(jì)用25個(gè)字母,編碼單元太大,為25×25×25×25=390625,占用計(jì)算機(jī)內(nèi)存多,影響了更多辭語(yǔ)的輸入,這種方法主要在專(zhuān)業(yè)人員中使用。其余方法雖各有利弊,但不能兼顧以下四點(diǎn),①見(jiàn)字識(shí)碼,易學(xué)易用;②重碼率低,輸入可以盲打;③兼顧專(zhuān)業(yè)和一般計(jì)算機(jī)用戶(hù),熟練盲打以提高輸入速度,一學(xué)就會(huì),非文字專(zhuān)業(yè)工作人員也能較容易的使用漢字輸入計(jì)算機(jī);④兼顧電報(bào)、字典編纂等多種需要。
本發(fā)明的目的就是為了克服上述缺點(diǎn),并兼顧上述四個(gè)要求的一種編碼方法,這種編碼方法是把漢字形、聲、義三者有機(jī)的結(jié)合起來(lái),用數(shù)字和漢語(yǔ)拚音輔音合在一起進(jìn)行編碼,這樣可以提高輸入漢字的速度,達(dá)到易學(xué)易用,可以盲打,重碼率低的效果。
本發(fā)明的漢字詞多維編碼,就是用數(shù)字編碼加漢字拚音的輔音構(gòu)成的一種編碼方法,主要利用計(jì)算機(jī)鍵盤(pán)上集中在一排的十個(gè)數(shù)字鍵進(jìn)行編碼輸入,以利于提高漢字的輸入速度和檢索速度。漢字詞多維編碼是根據(jù)漢字“形、聲、義”三要素,把三者有機(jī)的結(jié)合起來(lái)的一種編碼,它包括兩部分,一是漢字編碼,二是詞語(yǔ)編碼。漢字編碼是兼顧字形和字音進(jìn)行編碼,因此,也叫形聲碼,這種形聲編碼不是以字根作為編碼部件,而是采用以改進(jìn)的四角號(hào)碼為編碼部件。這種字形編碼方法是在四角號(hào)碼的基礎(chǔ)上,加以改進(jìn)構(gòu)成四位數(shù)字碼,然后再加上該字的輔音形成五位碼,叫形聲碼。形聲碼很容易將各種不同的漢字用十個(gè)數(shù)字編成四位不同的代碼,編碼單元只有1萬(wàn)個(gè)(即0~9999),編碼效率高,所占計(jì)算機(jī)內(nèi)存少,可以容納更多的詞語(yǔ)。形聲碼可以極大地減少重碼率,據(jù)統(tǒng)計(jì)在一級(jí)字庫(kù)中二字重碼率只有170對(duì)漢字左右,三字重碼率只有13對(duì)漢字左右。形聲碼的形碼取角先后順序?yàn)棰傧热∽笊辖洽谌∮疑辖洽廴∽笙陆洽苋∮蚁陆?。取角順序?yàn)橐阎夹g(shù),不再贅述。形聲碼的取碼規(guī)則,在沿用字典漢字四角號(hào)碼編碼的基礎(chǔ)上加以修改。原四角號(hào)碼的查字法口訣為橫一垂二三點(diǎn)捺,叉四插五方框六,七角八八九是小,點(diǎn)下有橫變零頭。原四角號(hào)碼查字法編碼重碼率較高,為了減少重碼率,提高輸入漢字的速度,本發(fā)明對(duì)原四角號(hào)碼的筆形代號(hào)作了修改,①將“0”碼代表的筆劃擴(kuò)大為亠、廣、廣;②將“4”碼代表的筆劃擴(kuò)大為十、卄兩類(lèi),其特點(diǎn)是一橫筆和縱筆交叉的都算在此類(lèi);③將“5”碼代表的筆劃限定為一筆縱穿兩筆的。本發(fā)明的取碼規(guī)則為,①框形結(jié)構(gòu)的字取內(nèi)部的筆劃作為下角,如“國(guó)、鬧、風(fēng)、用、周、區(qū)”等字;閉口的框形結(jié)構(gòu)作字頭時(shí),應(yīng)取框內(nèi)右角的字形作碼,如“置”字;類(lèi)似框形結(jié)構(gòu)的字取中間字形的下角作碼,如銜、斑、辨”等字。若這類(lèi)字形作為偏旁時(shí),取內(nèi)部靠外側(cè)的筆劃作為一個(gè)下角,如“摳、雕”等字;若框內(nèi)無(wú)字形則編碼取“0”;②由一橫勾或一捺上托字形,這種字形依此筆劃上托字形的右下角取碼,如“道、毯”等字;③對(duì)于字頭或字尾只有一個(gè)碼的字,用字頭右下角的筆形或字尾右上的筆形取碼,如“衣、契、玉、索”等字,其中“索”字取碼為4793(原四角號(hào)碼取碼為4090)。④以“點(diǎn)”為字頭的字,為減少重碼,將點(diǎn)打頭的字一律編碼為“30”,如“憲”字等。⑤遞推或嵌套原則,即一個(gè)字形包含在另一個(gè)字形之內(nèi),可依次執(zhí)行上述規(guī)則,如“閑”字的編碼是3794,而不是3790。⑥取碼惟上惟先的原則,即筆劃較少的字取碼自上而下的取,先盡上面的取,但至少為下角取碼留一筆,如“王、下、干”等字。“王”字取碼為1410而不是1400。以上部分介紹了形聲碼形碼的編碼規(guī)則。下面介紹字音的規(guī)則,為區(qū)別重碼,將該字的輔音作為一位碼后掇在數(shù)字碼后面,作為漢字拚音的輔音有兩個(gè)聲母的,只取一個(gè)聲母,如“C”和“Ch”、“Z”和“Zh”、“S”和“sh”都取前一位“C”、“Z”、“S”。對(duì)于一級(jí)字庫(kù)和二級(jí)字庫(kù)中一般常用的都應(yīng)輸入聲碼。對(duì)一些冷僻、不易辨音的字,可只按形碼檢索。對(duì)形碼不相重的字,一級(jí)字庫(kù)中有1200余個(gè),可以只按形碼檢索,通過(guò)計(jì)算機(jī)鍵盤(pán)輸入時(shí),只輸入數(shù)字碼即可,以提高輸入速度,對(duì)于重碼的檢索,因本發(fā)明重碼少,在一級(jí)字庫(kù)中只有約200個(gè)漢字重字,基本上是二字重碼,為便于檢索,以漢字使用的頻次在字庫(kù)中排列,大多數(shù)情況下不必增加擊鍵數(shù),必要時(shí)只要打一下轉(zhuǎn)換鍵即可。為使用方便將一、二級(jí)字庫(kù)分開(kāi)排列,排列時(shí)可酌情增加一級(jí)字庫(kù)的字?jǐn)?shù),排列原則是語(yǔ)音容易辨認(rèn)的,無(wú)重碼或重碼不超過(guò)二個(gè)的,其目的是加快鍵盤(pán)輸入速度和方便用戶(hù)使用。下面介紹詞組的輸入編碼,詞組不同于漢字,它有明確的含義和一定的內(nèi)在邏輯聯(lián)系,為方便和容易編碼,兼顧形、聲、義多維取碼原則,①一個(gè)詞組的編碼是,用兩個(gè)字詞的字頭編碼,即取第一個(gè)字和第二個(gè)字的上碼依次組成形碼,然后再掇上最末一個(gè)字的輔音作為聲碼,如中國(guó)編碼為5061G,從概率論的角度統(tǒng)計(jì),由于幾個(gè)字組成的詞,其重碼率將大為減少。②多個(gè)詞組的編碼,首先按語(yǔ)義將詞組分成幾個(gè)字節(jié),如中華人民共和國(guó),可分成中華、人民、共和國(guó)三個(gè)字節(jié),然后取前兩個(gè)字節(jié)中的第一個(gè)字編成數(shù)字碼,再將最后一個(gè)字節(jié)的最末一個(gè)字的輔音作為聲碼,即組成詞組的編碼,上述詞組的編碼為5080G。③取碼惟上惟先的原則。形聲碼和詞組的編碼,以十進(jìn)制四位數(shù)字打頭,容易和計(jì)算機(jī)地址碼相聯(lián)系,檢索方便,所占空間少,即0~9999個(gè)單元,用字母編碼尋找計(jì)算機(jī)內(nèi)的地址,需通過(guò)譯碼步驟,而本發(fā)明是數(shù)字編碼地址轉(zhuǎn)換容易。實(shí)現(xiàn)計(jì)算機(jī)檢索的方法是,將所有漢字一、二級(jí)字庫(kù)的地址,分別按其漢字的形碼相應(yīng)存入0~9999個(gè)存貯單元中,檢索時(shí)首先依據(jù)形碼取出具有相同形碼的所有漢字,如果屬于單一形碼的漢字,則檢索結(jié)束。對(duì)于重碼的漢字,應(yīng)再根據(jù)聲碼找出所需要的那一個(gè)漢字。
本發(fā)明是一種最簡(jiǎn)單的非字根編碼,很容易地將各種不同的字形用10個(gè)數(shù)字碼編成各種不同的四位代碼。編碼單元有一萬(wàn)個(gè),為國(guó)標(biāo)二級(jí)字庫(kù)的一點(diǎn)五倍,具有很高的編碼效率。編碼方式規(guī)則簡(jiǎn)單明白,有很好的直觀(guān)性,在計(jì)算機(jī)鍵盤(pán)上集中在一排,輸入很方便,可以提高漢字輸入速度。形聲碼具有見(jiàn)字識(shí)碼,易學(xué)易用,可以盲打,重碼率低,輸入速度快等特點(diǎn)。這種編碼用于計(jì)算機(jī)輸入漢字,也可以用于編纂字典或電報(bào)編碼。本發(fā)明具有一學(xué)就會(huì),能兼顧專(zhuān)業(yè)和一般計(jì)算機(jī)用戶(hù)使用,只要熟練掌握數(shù)字鍵很容易提高漢字輸入速度和檢索速度,專(zhuān)業(yè)人員和非文字工作人員都能很快掌握使用。
實(shí)施例漢字詞多維編碼的特點(diǎn)是數(shù)字碼和漢字拚音輔音碼的結(jié)合,這種編碼易學(xué)易用,可以盲打,專(zhuān)業(yè)人員和非專(zhuān)業(yè)人員都能適用,不需進(jìn)行特別培訓(xùn)就能掌握使用。一般情況下,只要了解辭典的四角號(hào)碼取角順序和取角方法,加上掌握本發(fā)明的編碼規(guī)則就完全可以應(yīng)用。如框形字和類(lèi)似框形字的編碼如,74風(fēng)70、77醫(yī)88等字。框形結(jié)構(gòu)的字作偏旁時(shí),則取開(kāi)口部分的外下角編碼,如50摳14、76雕01等字。類(lèi)似框形結(jié)構(gòu)的字其編碼如27銜11、03辨02、14斑10等字。由一橫勾或一捺上托字形者其編碼如27毯98、33道86等字,這類(lèi)字若做偏旁時(shí),可按一般規(guī)則取碼,其編碼如50挺24字。對(duì)字頭、字尾只有一個(gè)碼的字,實(shí)際上少了一角或兩角的,容易重碼,為防止重碼編碼時(shí)應(yīng)注意取碼,如07衣23、58契74、11玉43等字。對(duì)“廣、疒”、“十、卄、亠”的偏旁部首的字,取碼如07瘡81、44苔30等字。對(duì)點(diǎn)打頭的字取碼如32憲01等字。遞推或嵌套原則取碼如35閑74字。取碼惟上惟先的原則,取碼如11王40、12下30等字,對(duì)于詞語(yǔ)編碼的實(shí)例,從形碼“5000”開(kāi)始到“5099”為止,這一區(qū)間可供編詞的有中、擴(kuò)、抗、忠、本等字,由于詞組編碼只執(zhí)行惟上惟上的原則,取碼只取字節(jié)字的上角作碼,以“中”字為例說(shuō)明中斷5022D中心5033X中止5021Z中隊(duì)5078D中學(xué)5097X中立5008L中國(guó)5061G中旬5027X中人5080R中華5024H中央5053Y中方5002f中間5037J中藥5047Y中樞5041S中年5085n中醫(yī)5071Y中葉5064Y中外5023W中國(guó)′共產(chǎn)黨5041D中文5004W中國(guó)′政府5018f中國(guó)人民5080m中華′人民′共和國(guó)5080g中共中央5050y中央′委員會(huì)5024H中央′辦公廳5043T中央′政治局5018J中央′人民′廣播電臺(tái)5080T中東5044d中國(guó)′人民′解放軍5080J中秋5029q
中華民族5077Z中流砥柱5012Z以上34個(gè)詞組中,僅有一個(gè)“中華”和“中央委員會(huì)”相重碼。絕大部分連形碼也不相同。
權(quán)利要求
1.一種用于計(jì)算機(jī)漢字輸入的編碼技術(shù),根據(jù)漢字四角號(hào)碼按其編碼規(guī)則對(duì)漢字進(jìn)行數(shù)字編碼,此編碼輸入計(jì)算機(jī)用以檢索漢字的技術(shù),其特征在于用數(shù)字編碼加漢字拼音輔音構(gòu)成的一種編碼方法,其筆形代號(hào)為①將“0”碼代表的筆劃擴(kuò)大為“┴、廣、疒”,②將“4”碼代表的筆劃擴(kuò)大為“十、艸”兩類(lèi),屬一橫筆和縱筆相交叉的,③將“5”碼代表的筆劃限定為一筆縱穿兩筆的,取碼規(guī)則為①框形結(jié)構(gòu)的字取內(nèi)部的筆劃作為下角,閉口的框形結(jié)構(gòu)作字頭時(shí),應(yīng)取框內(nèi)右角的字形作碼,類(lèi)似框形結(jié)構(gòu)的字取中間字形的下角作碼,這類(lèi)字形作為偏旁時(shí),取內(nèi)部靠外側(cè)的筆劃作為一個(gè)下角,若框內(nèi)無(wú)字形,則編碼取“0”,②由一橫勾或一捺上托字形,依此筆劃上托字形的右下角取碼,③對(duì)字頭或字尾只有一個(gè)碼的字,用字頭右下角的筆形或字尾右上的筆形取碼,④以“點(diǎn)”為字頭的字,一律編碼為“30”,⑤遞推或嵌套原則,即一個(gè)字形包含在另一個(gè)字形之內(nèi),⑥取碼惟上惟先的原則,即筆劃較少的字取碼自上而下的取,先盡上面的取,但至少為下角取碼留一筆,作為漢字拼音的輔音有兩個(gè)聲母的只取一個(gè)聲母,詞組的編碼取碼規(guī)則,①一個(gè)詞組的編碼是,用兩個(gè)字詞的字頭編碼,即取第一個(gè)字和第二個(gè)字的上碼依次組成形碼,然后再掇上最末一個(gè)字的輔音作為聲碼,②多個(gè)詞組的編碼,首先按語(yǔ)義將詞組分成幾個(gè)字節(jié),然后取前兩個(gè)字節(jié)中的第一個(gè)字編成數(shù)字碼,再將最后一個(gè)字節(jié)的最末一個(gè)字的輔音作為聲碼,即組成詞組的編碼,③取碼惟上惟上的原則。
全文摘要
本發(fā)明屬于計(jì)算機(jī)漢字輸入編碼技術(shù),主要解決不能見(jiàn)字識(shí)碼,重碼率高,不能盲打,輸入速度不高等技術(shù)問(wèn)題,其主要技術(shù)特征是把漢字形、聲、義三者有機(jī)的結(jié)合起來(lái),在四角號(hào)碼的基礎(chǔ)上加以改進(jìn),按新的取碼規(guī)則取碼,用數(shù)字碼和漢字拼音的輔音合在一起編碼叫形聲碼,用它對(duì)漢字和詞組進(jìn)行編碼,利用計(jì)算機(jī)鍵盤(pán)上的數(shù)字鍵在一排的特點(diǎn),進(jìn)行漢字輸入。除用于計(jì)算機(jī)漢字輸入和檢索外,還可用于編纂字典等。
文檔編號(hào)G06F3/00GK1045469SQ9010522
公開(kāi)日1990年9月19日 申請(qǐng)日期1990年2月8日 優(yōu)先權(quán)日1990年2月8日
發(fā)明者羅彬 申請(qǐng)人:羅彬