專利名稱:無理序號數字編碼法及其鍵盤的制作方法
技術領域:
本發(fā)明涉及到一種電子計算機漢字輸入方法及其鍵盤。
電子計算機漢字輸入方法目前有500多種,這些漢字輸入方法可分成六大類一.音碼即根據漢字的讀音來編碼。如漢語拼音碼、山東省唐樊寬的《中文聲數碼》、四川省錢玉趾的《未來碼》。其缺點是碼長較長,單字平均每字4鍵以上;重碼率較高;采取難記的識別碼來離散重碼,不會讀的字無法輸入。
二.形碼即根據漢字的字形來編碼。如河南省王永明的《五筆字型》、陳國斌的《層次四角》、江西省萬仁芳的《前三未一》。其缺點是有一套拆分漢字進行編碼的規(guī)則,較難學,碼長較長,單字平均每字3鍵以上,有重碼。
三.音形結合碼即同時根據漢字的讀音和字形來編碼。如四川省陳代于的《大眾碼》、北京市郭淑珍的《聲韻聲聲》、扶良文的《智能碼》。其缺點是有一套拆分漢字進行編碼的原則,單字碼長較長,平較每字3鍵以上,有重碼。
四.數碼如區(qū)位碼、電報碼,其缺點是碼長較長,每字4鍵,用一般的學習方法較難掌握。
五.聲控輸入如北京四達技術中心開發(fā)的聲控卡。聲控輸入的缺點是錯誤率高,對同音字無法區(qū)分。
六.手寫輸入如劉迎建的手寫識別方法。手寫輸入的缺點是錯誤率高,形相近的字無法識別。
本人提交申請?zhí)?9107074.5的《無理序號數字編碼法及其鍵盤》,該方法將26個英文字母鍵盤設計成26個數字鍵盤,按照越常用的字擊鍵次數越少、擊鍵越容易的原則,用數字對漢字編碼,使得單字平均碼長縮短到2.2鍵,字詞均無重碼,特別適合專職打字員使用,但對于兼職打字員來說,雖然編碼用心象聯想法容易記憶,但記憶量太大。
本發(fā)明的目的,在于向公眾提供一種把漢字音和形的信息轉化為數字,用數字對漢字進行編碼的無理序號數字編碼方法。
本發(fā)明具體結構和細節(jié),從
和實施例中給出。
本發(fā)明的實施方案有鍵盤設計、中文信息數字化、碼長壓縮技術、漢字編碼、詞組編碼、圖形符號編碼、中文輸入方法等具體內容。
一.鍵盤設計本發(fā)明將標準英文鍵盤的英文字母、符號、數字40個鍵設計成⊙_9.、◎_⑨、◇_〔9〕、○_〔九〕等40個帶符號的數字鍵(⊙表示0.,◇表示(0),○表示〔一〕-〔九〕對應的零),從鍵盤中部6、Y、H、N分開,右邊是雙數,左邊是單數,鍵盤中部數值小,邊部數值大。見附圖1。
二.中文信息數字化本發(fā)明將漢語拼音的聲母、韻母、漢字的部首、筆畫各分成10類,編碼1-9,分別叫聲母碼、韻母碼、部首碼、筆畫碼,見附圖2。
〔一〕.聲母碼數字0、1、2、3、4、5、6、7、8、9有多種不同的讀音,如按普通話正常讀音,如0零、1一、2二……;電訊讀音,如0洞、1妖、7拐……;音符讀音,如4發(fā)、6拉……。在以上讀音的者礎上,我們把聲母作如下歸類(見附圖2)0-因為電訊讀音“洞”的聲母為d,t是與d成對的聲母,所以把d、t歸到0;1-因為讀音“一”的聲母為y、r的讀音與y相近,所以把y、r歸到1;2-因為讀音“二”無聲母,以韻母e開頭,能位于讀音首字母的韻母還有a、o,把以e、d、o開頭的漢字稱為無聲母漢字,其聲母碼規(guī)定為2;3-因為讀音“三”的聲母為s,sh、x的讀音與s相近,所以把s、sh、x歸到3;4-因為音符“發(fā)”的聲母為f,h的讀音與f相近,所以把f、h歸到4;5-因為讀音“五”的聲母為w,所以把w歸到5;6-因為讀音“六”的聲母為l,m、n的讀音與l相近,所以把l、m、n歸到6;7-因為讀音“七”的聲母為q,電訊讀音“拐”的聲母為g,k是與g成對的聲母,所以把q、g、k歸到7;8-因為讀音“八”的聲母為b,p是與b成對的聲母,所以把b、p歸到8;9-因為讀音“九”的聲母為j,所以把j歸到9。還剩z、zh、C、ch沒有歸類,考慮到把漢字均勻地歸到0-9,聲母數值小的漢字多一些,本發(fā)明把z、zh歸到2,c、ch歸到5;如果聲母歸類與數字讀音相抵觸,則以數字讀音為準,即零的聲母為l,四的聲母為s,但根據零、四的讀音,零歸到0,四歸到4。
〔二〕.韻母碼首先根據韻母首字母a、o、e、i、u(包括ü)把韻母分成5大類,每一大類又分成單韻母,用x表示(x=a、o、e、i、u,下同)。復韻母用xi表示,如ai、ou,鼻韻母,用xn表示,如an、ing,共分成15類,其中e、ei、en、o、oi、on、a、ai的使用頻率很小,把使用頻率小的韻母合為一類,計有e、ei、en合為一類,記為ein,o、oi、on合拼為一類,記為oin,a、ai合拼為一類。這樣共分成10類,按照數字0-9的韻母讀音,用0-9進行編碼,見附圖2。具體是0-因讀音“零”的韻母為ing,所以in歸到0;1-因讀音“一”的韻母為i,所以i歸到1;2-因讀音“二”的韻母為er,所以ein歸到2;3-因讀音“三”的韻母為an,所以an歸到3;4-因音符“發(fā)”的韻母為a,所以a、ai歸到4;5-因讀音“五”的韻母為u,所以u歸到5;6-因讀音“六”的韻母為iou,所以ii歸到6;7-因電訊讀音“拐”的韻母為uai,所以ui歸到7;oin、un沒有對應的數字讀音,數字8、9尚未編碼,故規(guī)定oin歸到8,un歸到9。
〔三〕.部首碼采用新華字典規(guī)定的部首和取部首原則,根據部首的讀音聲母碼分成10類,編碼0-9。其中一些部首無名稱,不能讀,取“不”的聲母,歸到8。見附圖2。如0-扌、土,1-讠、日,2-阝、辶、3-氵、山,4-石、火,5-王、蟲,6-木、門,7-口、廣,8-亠、宀,9-斤、钅。
〔四〕.筆畫碼根據筆畫的讀音聲母碼和漢字字型結構,把筆畫分成10類,編碼0-9,具體編碼是漢字的字型可分為左右結構、上下結構、雜合結構。漢字的筆畫可分為橫、豎、撇(包括捺)、點(包括提)、折(包括鉤)5類。其中橫、豎的使用頻率很大,進一步細分為左右結構、上下結構、雜合結構的橫、豎。撇的使用頻率也較大,細分為左右結構,上下和雜合結構的撇。各類的編碼是(見附圖2)0-點;1-上下結構的豎;2-折;3-左右結構的豎;4-左右結構的橫;5-上下結構的橫;6-雜合結構的橫;7-上下結構、雜合結構的撇;8-左右結構的撇;9-雜合結構的豎。
三、碼長壓縮技術。
如附圖1所示,本發(fā)明將40個英文、符號、數字鍵盤設計成四套0-9數字鍵盤。四套數字的兩鍵排列有16種,三鍵排列就更多了。選取10種二鍵排列,10種三鍵排列對漢字編碼,用0-9對10種排列編號,叫排列序號,見附圖2。用部首碼代表排列序號,確定編碼的數字類型,這樣可將10000個四鍵字縮短為三鍵字,將1000個三鍵字縮短為二鍵字。
四、漢字的編碼按照無理序號越小,即越常用的字,擊鍵次數越少、擊鍵越容易的原則,對漢字編碼。
1、簡碼簡碼是無理序號36號以前的36個最常用字和4個常用標點符號。碼長一位加一空格。本發(fā)明嚴格按照越常用的字,擊鍵越容易的原則,將的、一、是、在等最常用的字,安排在鍵盤中部,然后按使用頻率遞減,安排在鍵盤邊部。簡碼對應的字已標在鍵盤上。見附圖1。
2、聲韻碼碼長二位,其中第一位聲母碼,第二位韻母碼,數字類型根據部首碼確定,見附圖2。如〔6〕①-利,〔6〕〔1〕-理。聲韻碼對1000常用字編碼。
3、聲韻畫碼碼長三位,其中第一位為聲母碼,第二位為韻母碼,第三位為除部首外的首筆筆畫碼,數字類型根據部首碼確定,見附圖2。如1.①3.-揖,1.①〔8〕-蟻。
4.部畫畫聲碼碼長四位,其中第一位部首碼,第二位為除部首外的第一筆筆畫碼,第三鍵為除部首外的第二筆筆畫碼,第四位為聲母碼,對于不會讀的稀用字,可擊了三鍵后選屏。數字類型⊙⊙⊙⊙,如有重碼,則稀用字第四位的數字類型為◎、◇、○。部畫畫聲碼可對國標漢字基本集,擴充集等兩萬多個漢字編碼。如8.8.2.⊙-的,4.3.2.4.-和。
5.五位音形碼碼長五位,其中第一位部首碼,第二位為除部首外的首筆筆畫碼,第三位為除部首外的第二筆筆畫畫碼,第四位為除部首外的未筆筆畫碼,第五位為聲母碼,數字類型00000,如有重碼,則改變第5位碼的數字大小。如02320-他,63243-相。五位音形碼可對國標漢字基本集,擴充集等兩萬多個漢字編碼。五位音形碼可用一至四位加空格來輸入常用字,根據無理序號從小到大依次取1位聲母碼10個,2位聲韻碼100個,3位聲韻部碼1000個,4位聲韻部畫碼10000個。
五.詞組的編碼詞組分為二字詞、三字詞、四字詞、五字以上詞,又分為四位詞、五位詞。
〔一〕.四位詞,碼長四位,數字類型根據詞的字數定。
二字詞第一、二位依次為二字詞的聲母碼,第三四位依次為二字詞的部首碼。數字類型⊙⊙◎⊙,如有重碼,則第四位為◎、◇、○,如7.⊙⑥6.-桂林。
三字詞第一至三位依次為三字詞的聲母碼,第四位為第三字的部首碼。數字類型⊙⊙◇⊙,如7.⊙〔4〕8.-桂林市。
四字詞第一至四位依次為四字詞的聲母碼,數字類型⊙⊙◇◎,如7.⊙〔4〕⑤-桂林市委。
五字以上詞一至四位依次為五字以上詞前四字的聲母碼,數字類型⊙⊙◇◇,如7.0〔4〕〔5〕-桂林市委員會。
三字以上詞的重碼第四位數字類型為○。
〔二〕、五位詞碼長五位,數字類型00000。
二字詞第一二位依次為二字詞的聲母碼,第三、四位為二字詞的部首碼,第五位為第二字除部首外的首筆筆畫碼。如70664-桂林。
三字詞第一至第三位為三字詞的聲母碼,第四、五位依次為三字詞第二、三字的部首碼,如70468-桂林市。
四字詞第一至第四位依次為四字詞的聲母碼,第五位為第四字的部首碼,如70454-桂林市委五字以上詞第一至第五位依次為五字以上詞前五位的聲母碼,如70451-桂林市委員會。
六.圖形符號的編碼圖形符號碼長二位或二位加一空格,編碼方法是根據圖形符號的讀音、意義,挑選兩個關鍵字作為圖形符號的名稱,用圖形符號名稱的聲母碼對圖形符號編碼。如1.-點一⊙1.△(△表示空格),②-園二1.2.△,〔三〕-漢三4.3.△,├-東-◎①△,┳-南二⑥②△,▲-實三4.〔三〕,→-指東2.○,ē-鵝一〔二〕〔一〕△,ǔ-烏三〔五〕〔三〕△。也可取圖形符號名稱的聲韻碼,碼長四位,數字類型為0000。
七.中文輸入方法由于本發(fā)明把中文信息轉化成了0-9十個數字,輸入1-5個數字,就可輸入一個字或詞組、圖形符號。計算機識別10個數字遠比識別幾千個漢字容易得多,因此本發(fā)明可廣泛應用于計算機鍵盤輸入、聲控輸入、手寫輸入。
1.標準鍵盤輸入標準計算機鍵盤可分為右邊英文、數字大鍵盤和左邊10個數字小鍵盤。本發(fā)明提出的簡碼、聲韻碼、聲韻畫碼、部畫畫聲碼、四位詞組碼,二位圖形符號碼可用于右邊大鍵盤輸入,五位音形碼、五位詞組碼和四位圖形符號碼可用于左邊小鍵盤輸入。左右兩邊互相獨立,可采用左中文右數字、左英文右中文的輸入方式輸入純中文或中英文混合輸入。
2.計算機小鍵盤輸入對于只有10個數字鍵,沒有英文字母鍵的計算機,可用五位音形碼、五位詞組碼和四位圖形符號碼輸入中文。
3.聲控輸入可用五位音形碼、五位詞組碼和四位圖形符號碼輸入中文,只要讀出0-9中1-5個數字的音,就可輸入一個漢字或詞組、圖形符號。
4.手寫輸入可用五位音形碼、五位詞組碼和四位圖形符號碼輸入中文,只要寫出0-9中1-5個數,就可輸入一個漢字或詞組、圖形符號。
圖1鍵盤2中文信息數字轉化表本發(fā)明的優(yōu)點1.英文鍵盤數字化,把40個英文、字符、數字鍵盤設計成4套0-9數字鍵盤;2.中文信息數字化,把中文音、形信息轉化為0-9數字信息;3.在使用40個鍵位的條件下,單字平均碼長2.2鍵,詞組碼長4鍵,在使用10個鍵位的情況下,字、詞最大碼長不越過5位,字、詞均無重碼、中文輸入速度快;充分利用國民知識漢語拼音和部首,易學易用;5.能快速輸入圖形符號,方便地制作表格;6.在同一輸入狀態(tài)下,可用音碼、形碼、音形碼輸入中文;7.在同一輸入狀態(tài)下,實現中英文混合輸入;8.占用計算機內存少,在無硬盤,只有512K內存的普及型微機中都能運行本方法。
權利要求
1.一種無理序號數字編碼方法和鍵盤設計,可利用英文字母、符號、數字40個鍵輸入漢字和詞組的漢字輸入方法,本發(fā)明的特征是,將上述40個鍵按鍵盤中部數字小、邊部數字大,組成4套0--9數字鍵。
2.一種提取漢字信息的方法,本發(fā)明的特征是,將漢語拼音的聲母、韻母、漢字的筆畫、部首分成10類,編碼0-9。
3.根據權利要求1和權利要求2所述,其特征是,采用碼長壓縮技術,按照越常用的字,擊鍵次數越少、擊鍵越容易,對漢字、詞組、圖形符號編碼。
4.根據權利要求2所述,其特征是,按照越常用的字,擊鍵次數越少、擊鍵越容易,用0-9十個數字對漢字、詞組和圖形符號編碼。
5.根據權利要求3和權利要求4所述,其特征是,在普通計算機鍵盤上實現中英文混合輸入,鍵盤的左邊大鍵盤既可輸入中文,又可輸入英文,鍵盤的右邊10個數字小鍵盤既可輸入數字,又可輸入中文,鍵盤兩邊的輸入方式互相獨立。
6.根據權利要求4所述,其特征是,在只有10個數字鍵,沒有英文字母鍵的計算機上實現中文輸入,擊入字、詞組、圖形符號的數字編碼,就可輸入中文。
7.根據權利要求4所述,其特征是,用聲控方法輸入中文,讀入字、詞組、圖形符號的數字編碼,就可輸入中文。
8.根據權利要求4所述,其特征是,用手寫方式輸入中文,寫出字、詞組、圖形符號的數字編碼,就可輸入中文。
全文摘要
一種漢字輸入方法和鍵盤設計,利用標準鍵盤可輸入國標基本字符集和擴充字符集,共2萬多個漢字和8萬條詞組。按照越常用的字,擊鍵次數越少、擊鍵越容易的原則對字、詞編碼。漢字平均碼長2.2鍵,詞組碼長4鍵。利用10個數字編碼,輸入或讀入、寫入1~5個數字,就可輸入一個字或詞組。字詞均無重碼。充分利用國民知識漢語拼音和部首,易學易用。占用計算機內存小,在無硬盤。只有512K內存的低檔計算機上都運行本方法。
文檔編號G06F3/023GK1050273SQ9010893
公開日1991年3月27日 申請日期1990年11月3日 優(yōu)先權日1990年11月3日
發(fā)明者肖水清 申請人:肖水清