漢字詞多維編碼的制作方法

文檔序號(hào)：6598258閱讀：360來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：漢字詞多維編碼的制作方法
技術(shù)領(lǐng)域：
本發(fā)明是一種漢字詞多維編碼的方法，它屬于計(jì)算機(jī)漢字輸入編碼技術(shù)，根據(jù)漢字的四角號(hào)碼，按四角號(hào)碼的編碼規(guī)則，對(duì)漢字進(jìn)行數(shù)字編碼，并以此編碼輸入計(jì)算機(jī)用以檢索漢字的技術(shù)。
目前使用的漢字編碼技術(shù)已有很多種，象國(guó)標(biāo)碼或電報(bào)碼，也是編碼的一種，這種碼是順序的硬性規(guī)定，雖然字和碼一一對(duì)應(yīng)，但需死記硬背或按本查找，一般很難用于大量的漢字輸入。拚音碼和聯(lián)想漢字，這是一種用漢語(yǔ)拚音輸入漢字的方法，能在計(jì)算機(jī)的輔助下，可以聯(lián)想輸入成語(yǔ)和詞組，能見(jiàn)字讀碼，只要掌握漢語(yǔ)拚音，就很容易學(xué)習(xí)。但因漢語(yǔ)的同音字太多，因此，重碼率高，不能盲打，對(duì)于未系統(tǒng)學(xué)習(xí)過(guò)拚音的，不能正確地識(shí)別韻母，同時(shí)由于受方言的影響，使用這個(gè)方法也存在一定的障礙。聯(lián)想漢字方式的詞語(yǔ)輸入，可以減少上述缺點(diǎn)，但仍不能盲打。“五筆字形”漢字輸入技術(shù)，這種方法將漢字分解為一百三十個(gè)字根，用一個(gè)英文鍵代表數(shù)個(gè)字根，輸入時(shí)每一個(gè)漢字用四個(gè)英文字母表示，如“想”字用SHNO表示。這種方法雖然重碼率低，能見(jiàn)字識(shí)碼，可以盲打，漢字輸入速度增快，但因字根數(shù)太多，記憶量加大，要求實(shí)際學(xué)習(xí)時(shí)間長(zhǎng)，一般需通過(guò)半個(gè)月以上的系統(tǒng)培訓(xùn)才能上機(jī)。另外，每個(gè)漢字由四位英文字母組成，共計(jì)用25個(gè)字母，編碼單元太大，為25×25×25×25＝390625，占用計(jì)算機(jī)內(nèi)存多，影響了更多辭語(yǔ)的輸入，這種方法主要在專(zhuān)業(yè)人員中使用。其余方法雖各有利弊，但不能兼顧以下四點(diǎn)，①見(jiàn)字識(shí)碼，易學(xué)易用;②重碼率低，輸入可以盲打;③兼顧專(zhuān)業(yè)和一般計(jì)算機(jī)用戶(hù)，熟練盲打以提高輸入速度，一學(xué)就會(huì)，非文字專(zhuān)業(yè)工作人員也能較容易的使用漢字輸入計(jì)算機(jī);④兼顧電報(bào)、字典編纂等多種需要。
本發(fā)明的目的就是為了克服上述缺點(diǎn)，并兼顧上述四個(gè)要求的一種編碼方法，這種編碼方法是把漢字形、聲、義三者有機(jī)的結(jié)合起來(lái)，用數(shù)字和漢語(yǔ)拚音輔音合在一起進(jìn)行編碼，這樣可以提高輸入漢字的速度，達(dá)到易學(xué)易用，可以盲打，重碼率低的效果。
本發(fā)明的漢字詞多維編碼，就是用數(shù)字編碼加漢字拚音的輔音構(gòu)成的一種編碼方法，主要利用計(jì)算機(jī)鍵盤(pán)上集中在一排的十個(gè)數(shù)字鍵進(jìn)行編碼輸入，以利于提高漢字的輸入速度和檢索速度。漢字詞多維編碼是根據(jù)漢字“形、聲、義”三要素，把三者有機(jī)的結(jié)合起來(lái)的一種編碼，它包括兩部分，一是漢字編碼，二是詞語(yǔ)編碼。漢字編碼是兼顧字形和字音進(jìn)行編碼，因此，也叫形聲碼，這種形聲編碼不是以字根作為編碼部件，而是采用以改進(jìn)的四角號(hào)碼為編碼部件。這種字形編碼方法是在四角號(hào)碼的基礎(chǔ)上，加以改進(jìn)構(gòu)成四位數(shù)字碼，然后再加上該字的輔音形成五位碼，叫形聲碼。形聲碼很容易將各種不同的漢字用十個(gè)數(shù)字編成四位不同的代碼，編碼單元只有1萬(wàn)個(gè)(即0～9999)，編碼效率高，所占計(jì)算機(jī)內(nèi)存少，可以容納更多的詞語(yǔ)。形聲碼可以極大地減少重碼率，據(jù)統(tǒng)計(jì)在一級(jí)字庫(kù)中二字重碼率只有170對(duì)漢字左右，三字重碼率只有13對(duì)漢字左右。形聲碼的形碼取角先后順序?yàn)棰傧热∽笊辖洽谌∮疑辖洽廴∽笙陆洽苋∮蚁陆?。取角順序?yàn)橐阎夹g(shù)，不再贅述。形聲碼的取碼規(guī)則，在沿用字典漢字四角號(hào)碼編碼的基礎(chǔ)上加以修改。原四角號(hào)碼的查字法口訣為橫一垂二三點(diǎn)捺，叉四插五方框六，七角八八九是小，點(diǎn)下有橫變零頭。原四角號(hào)碼查字法編碼重碼率較高，為了減少重碼率，提高輸入漢字的速度，本發(fā)明對(duì)原四角號(hào)碼的筆形代號(hào)作了修改，①將“0”碼代表的筆劃擴(kuò)大為亠、廣、廣;②將“4”碼代表的筆劃擴(kuò)大為十、卄兩類(lèi)，其特點(diǎn)是一橫筆和縱筆交叉的都算在此類(lèi);③將“5”碼代表的筆劃限定為一筆縱穿兩筆的。本發(fā)明的取碼規(guī)則為，①框形結(jié)構(gòu)的字取內(nèi)部的筆劃作為下角，如“國(guó)、鬧、風(fēng)、用、周、區(qū)”等字;閉口的框形結(jié)構(gòu)作字頭時(shí)，應(yīng)取框內(nèi)右角的字形作碼，如“置”字;類(lèi)似框形結(jié)構(gòu)的字取中間字形的下角作碼，如銜、斑、辨”等字。若這類(lèi)字形作為偏旁時(shí)，取內(nèi)部靠外側(cè)的筆劃作為一個(gè)下角，如“摳、雕”等字;若框內(nèi)無(wú)字形則編碼取“0”;②由一橫勾或一捺上托字形，這種字形依此筆劃上托字形的右下角取碼，如“道、毯”等字;③對(duì)于字頭或字尾只有一個(gè)碼的字，用字頭右下角的筆形或字尾右上的筆形取碼，如“衣、契、玉、索”等字，其中“索”字取碼為4793(原四角號(hào)碼取碼為4090)。④以“點(diǎn)”為字頭的字，為減少重碼，將點(diǎn)打頭的字一律編碼為“30”，如“憲”字等。⑤遞推或嵌套原則，即一個(gè)字形包含在另一個(gè)字形之內(nèi)，可依次執(zhí)行上述規(guī)則，如“閑”字的編碼是3794，而不是3790。⑥取碼惟上惟先的原則，即筆劃較少的字取碼自上而下的取，先盡上面的取，但至少為下角取碼留一筆，如“王、下、干”等字。“王”字取碼為1410而不是1400。以上部分介紹了形聲碼形碼的編碼規(guī)則。下面介紹字音的規(guī)則，為區(qū)別重碼，將該字的輔音作為一位碼后掇在數(shù)字碼后面，作為漢字拚音的輔音有兩個(gè)聲母的，只取一個(gè)聲母，如“C”和“Ch”、“Z”和“Zh”、“S”和“sh”都取前一位“C”、“Z”、“S”。對(duì)于一級(jí)字庫(kù)和二級(jí)字庫(kù)中一般常用的都應(yīng)輸入聲碼。對(duì)一些冷僻、不易辨音的字，可只按形碼檢索。對(duì)形碼不相重的字，一級(jí)字庫(kù)中有1200余個(gè)，可以只按形碼檢索，通過(guò)計(jì)算機(jī)鍵盤(pán)輸入時(shí)，只輸入數(shù)字碼即可，以提高輸入速度，對(duì)于重碼的檢索，因本發(fā)明重碼少，在一級(jí)字庫(kù)中只有約200個(gè)漢字重字，基本上是二字重碼，為便于檢索，以漢字使用的頻次在字庫(kù)中排列，大多數(shù)情況下不必增加擊鍵數(shù)，必要時(shí)只要打一下轉(zhuǎn)換鍵即可。為使用方便將一、二級(jí)字庫(kù)分開(kāi)排列，排列時(shí)可酌情增加一級(jí)字庫(kù)的字?jǐn)?shù)，排列原則是語(yǔ)音容易辨認(rèn)的，無(wú)重碼或重碼不超過(guò)二個(gè)的，其目的是加快鍵盤(pán)輸入速度和方便用戶(hù)使用。下面介紹詞組的輸入編碼，詞組不同于漢字，它有明確的含義和一定的內(nèi)在邏輯聯(lián)系，為方便和容易編碼，兼顧形、聲、義多維取碼原則，①一個(gè)詞組的編碼是，用兩個(gè)字詞的字頭編碼，即取第一個(gè)字和第二個(gè)字的上碼依次組成形碼，然后再掇上最末一個(gè)字的輔音作為聲碼，如中國(guó)編碼為5061G，從概率論的角度統(tǒng)計(jì)，由于幾個(gè)字組成的詞，其重碼率將大為減少。②多個(gè)詞組的編碼，首先按語(yǔ)義將詞組分成幾個(gè)字節(jié)，如中華人民共和國(guó)，可分成中華、人民、共和國(guó)三個(gè)字節(jié)，然后取前兩個(gè)字節(jié)中的第一個(gè)字編成數(shù)字碼，再將最后一個(gè)字節(jié)的最末一個(gè)字的輔音作為聲碼，即組成詞組的編碼，上述詞組的編碼為5080G。③取碼惟上惟先的原則。形聲碼和詞組的編碼，以十進(jìn)制四位數(shù)字打頭，容易和計(jì)算機(jī)地址碼相聯(lián)系，檢索方便，所占空間少，即0～9999個(gè)單元，用字母編碼尋找計(jì)算機(jī)內(nèi)的地址，需通過(guò)譯碼步驟，而本發(fā)明是數(shù)字編碼地址轉(zhuǎn)換容易。實(shí)現(xiàn)計(jì)算機(jī)檢索的方法是，將所有漢字一、二級(jí)字庫(kù)的地址，分別按其漢字的形碼相應(yīng)存入0～9999個(gè)存貯單元中，檢索時(shí)首先依據(jù)形碼取出具有相同形碼的所有漢字，如果屬于單一形碼的漢字，則檢索結(jié)束。對(duì)于重碼的漢字，應(yīng)再根據(jù)聲碼找出所需要的那一個(gè)漢字。
本發(fā)明是一種最簡(jiǎn)單的非字根編碼，很容易地將各種不同的字形用10個(gè)數(shù)字碼編成各種不同的四位代碼。編碼單元有一萬(wàn)個(gè)，為國(guó)標(biāo)二級(jí)字庫(kù)的一點(diǎn)五倍，具有很高的編碼效率。編碼方式規(guī)則簡(jiǎn)單明白，有很好的直觀(guān)性，在計(jì)算機(jī)鍵盤(pán)上集中在一排，輸入很方便，可以提高漢字輸入速度。形聲碼具有見(jiàn)字識(shí)碼，易學(xué)易用，可以盲打，重碼率低，輸入速度快等特點(diǎn)。這種編碼用于計(jì)算機(jī)輸入漢字，也可以用于編纂字典或電報(bào)編碼。本發(fā)明具有一學(xué)就會(huì)，能兼顧專(zhuān)業(yè)和一般計(jì)算機(jī)用戶(hù)使用，只要熟練掌握數(shù)字鍵很容易提高漢字輸入速度和檢索速度，專(zhuān)業(yè)人員和非文字工作人員都能很快掌握使用。
實(shí)施例漢字詞多維編碼的特點(diǎn)是數(shù)字碼和漢字拚音輔音碼的結(jié)合，這種編碼易學(xué)易用，可以盲打，專(zhuān)業(yè)人員和非專(zhuān)業(yè)人員都能適用，不需進(jìn)行特別培訓(xùn)就能掌握使用。一般情況下，只要了解辭典的四角號(hào)碼取角順序和取角方法，加上掌握本發(fā)明的編碼規(guī)則就完全可以應(yīng)用。如框形字和類(lèi)似框形字的編碼如，74風(fēng)70、77醫(yī)88等字。框形結(jié)構(gòu)的字作偏旁時(shí)，則取開(kāi)口部分的外下角編碼，如50摳14、76雕01等字。類(lèi)似框形結(jié)構(gòu)的字其編碼如27銜11、03辨02、14斑10等字。由一橫勾或一捺上托字形者其編碼如27毯98、33道86等字，這類(lèi)字若做偏旁時(shí)，可按一般規(guī)則取碼，其編碼如50挺24字。對(duì)字頭、字尾只有一個(gè)碼的字，實(shí)際上少了一角或兩角的，容易重碼，為防止重碼編碼時(shí)應(yīng)注意取碼，如07衣23、58契74、11玉43等字。對(duì)“廣、疒”、“十、卄、亠”的偏旁部首的字，取碼如07瘡81、44苔30等字。對(duì)點(diǎn)打頭的字取碼如32憲01等字。遞推或嵌套原則取碼如35閑74字。取碼惟上惟先的原則，取碼如11王40、12下30等字，對(duì)于詞語(yǔ)編碼的實(shí)例，從形碼“5000”開(kāi)始到“5099”為止，這一區(qū)間可供編詞的有中、擴(kuò)、抗、忠、本等字，由于詞組編碼只執(zhí)行惟上惟上的原則，取碼只取字節(jié)字的上角作碼，以“中”字為例說(shuō)明中斷5022D中心5033X中止5021Z中隊(duì)5078D中學(xué)5097X中立5008L中國(guó)5061G中旬5027X中人5080R中華5024H中央5053Y中方5002f中間5037J中藥5047Y中樞5041S中年5085n中醫(yī)5071Y中葉5064Y中外5023W中國(guó)′共產(chǎn)黨5041D中文5004W中國(guó)′政府5018f中國(guó)人民5080m中華′人民′共和國(guó)5080g中共中央5050y中央′委員會(huì)5024H中央′辦公廳5043T中央′政治局5018J中央′人民′廣播電臺(tái)5080T中東5044d中國(guó)′人民′解放軍5080J中秋5029q
中華民族5077Z中流砥柱5012Z以上34個(gè)詞組中，僅有一個(gè)“中華”和“中央委員會(huì)”相重碼。絕大部分連形碼也不相同。
權(quán)利要求
1.一種用于計(jì)算機(jī)漢字輸入的編碼技術(shù)，根據(jù)漢字四角號(hào)碼按其編碼規(guī)則對(duì)漢字進(jìn)行數(shù)字編碼，此編碼輸入計(jì)算機(jī)用以檢索漢字的技術(shù)，其特征在于用數(shù)字編碼加漢字拼音輔音構(gòu)成的一種編碼方法，其筆形代號(hào)為①將“0”碼代表的筆劃擴(kuò)大為“┴、廣、疒”，②將“4”碼代表的筆劃擴(kuò)大為“十、艸”兩類(lèi)，屬一橫筆和縱筆相交叉的，③將“5”碼代表的筆劃限定為一筆縱穿兩筆的，取碼規(guī)則為①框形結(jié)構(gòu)的字取內(nèi)部的筆劃作為下角，閉口的框形結(jié)構(gòu)作字頭時(shí)，應(yīng)取框內(nèi)右角的字形作碼，類(lèi)似框形結(jié)構(gòu)的字取中間字形的下角作碼，這類(lèi)字形作為偏旁時(shí)，取內(nèi)部靠外側(cè)的筆劃作為一個(gè)下角，若框內(nèi)無(wú)字形，則編碼取“0”，②由一橫勾或一捺上托字形，依此筆劃上托字形的右下角取碼，③對(duì)字頭或字尾只有一個(gè)碼的字，用字頭右下角的筆形或字尾右上的筆形取碼，④以“點(diǎn)”為字頭的字，一律編碼為“30”，⑤遞推或嵌套原則，即一個(gè)字形包含在另一個(gè)字形之內(nèi)，⑥取碼惟上惟先的原則，即筆劃較少的字取碼自上而下的取，先盡上面的取，但至少為下角取碼留一筆，作為漢字拼音的輔音有兩個(gè)聲母的只取一個(gè)聲母，詞組的編碼取碼規(guī)則，①一個(gè)詞組的編碼是，用兩個(gè)字詞的字頭編碼，即取第一個(gè)字和第二個(gè)字的上碼依次組成形碼，然后再掇上最末一個(gè)字的輔音作為聲碼，②多個(gè)詞組的編碼，首先按語(yǔ)義將詞組分成幾個(gè)字節(jié)，然后取前兩個(gè)字節(jié)中的第一個(gè)字編成數(shù)字碼，再將最后一個(gè)字節(jié)的最末一個(gè)字的輔音作為聲碼，即組成詞組的編碼，③取碼惟上惟上的原則。
全文摘要
本發(fā)明屬于計(jì)算機(jī)漢字輸入編碼技術(shù)，主要解決不能見(jiàn)字識(shí)碼，重碼率高，不能盲打，輸入速度不高等技術(shù)問(wèn)題，其主要技術(shù)特征是把漢字形、聲、義三者有機(jī)的結(jié)合起來(lái)，在四角號(hào)碼的基礎(chǔ)上加以改進(jìn)，按新的取碼規(guī)則取碼，用數(shù)字碼和漢字拼音的輔音合在一起編碼叫形聲碼，用它對(duì)漢字和詞組進(jìn)行編碼，利用計(jì)算機(jī)鍵盤(pán)上的數(shù)字鍵在一排的特點(diǎn)，進(jìn)行漢字輸入。除用于計(jì)算機(jī)漢字輸入和檢索外，還可用于編纂字典等。
文檔編號(hào)G06F3/00GK1045469SQ9010522
公開(kāi)日1990年9月19日申請(qǐng)日期1990年2月8日優(yōu)先權(quán)日1990年2月8日
發(fā)明者羅彬申請(qǐng)人:羅彬

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅彬
技術(shù)所有人：羅彬
我是此專(zhuān)利的發(fā)明人

上一篇：電子計(jì)算機(jī)漢語(yǔ)的制作方法
上一篇：拆聲漢字編碼的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

漢字編碼相關(guān)技術(shù)

漢字編碼查詢(xún)相關(guān)技術(shù)

漢字編碼轉(zhuǎn)換相關(guān)技術(shù)

漢字utf8編碼相關(guān)技術(shù)

gb2312編碼轉(zhuǎn)換為漢字相關(guān)技術(shù)

漢字信息編碼相關(guān)技術(shù)

unicode漢字編碼表相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

漢字詞多維編碼的制作方法