基于聲母韻母的中文輸入法
【專利說明】
所屬技術領域
[0001]本發(fā)明涉及一種應用于計算機的基于聲母韻母的中文輸入法,尤其是一種以句子為輸入單位、以詞語為輸入粒度、輸入的同時對中文語句進行分詞的輸入法。
[0002]背景知識
[0003]漢語是一門優(yōu)秀的語言,同時又是最復雜的語言之一。漢語語音豐滿、音節(jié)豐富,音節(jié)分為聲母和韻母,聲母包括:b、p、m、f、d、t、η、1、g、k、h、j、q、X、z、C、S、zh、ch、sh、r、y、w,韻母包括:a、o、e、1、u、U、a1、ao、an、e1、er、en、ie、in、iu、ou、u1、un、Ue、ang、eng、ing、ong、iao、ian、iang、1ng、ua1、uan、uang、ia、uo、uaD 漢語由象形文字發(fā)展而來,會泛反映出中國的文化繁榮與歷史底蘊。計算機的蓬勃發(fā)展離不開人機交互的進步,計算機的中文輸入法技術歷經(jīng)近30年的發(fā)展,已趨于成熟??傮w來說,現(xiàn)在施行的中文輸入法技術可分為三類:第一類是以現(xiàn)代漢語拼音方案為編碼基礎的拼音輸入法,第二類是以漢字的字形特征為編碼基礎的字形輸入法,第三類是以漢字的字音字形相結(jié)合的特征為基礎的音形輸入法。然而由于漢字本身的復雜性,現(xiàn)存的中文輸入法總要面對兩個問題:拼寫困難和重碼率高。
【發(fā)明內(nèi)容】
[0004]為了提高現(xiàn)存中文輸入法的輸入簡易度,為了降低重碼率進而提高中文的輸入速度,本發(fā)明提出一種基于聲母韻母的中文輸入法。該輸入法不僅實現(xiàn)了正確打出每個漢字的平均擊鍵次數(shù)小于二次,而且輸入計算機的中文都是經(jīng)過分詞處理過的,有利于后期的數(shù)據(jù)挖掘和大數(shù)據(jù)處理。
[0005]本發(fā)明解決其技術問題所采用的技術方案是:當切換到中文輸入法時,利用軟件對大鍵盤上的按鍵進行重新編碼。第一步把中文音節(jié)分為兩類并分配到鍵盤的按鍵上,第一類是 a、O、e、1、U、U、b、p、m、f、d、t、η、1、g、k、h、j、q、X、z、C、S、r、y、w,除去 ii 這個音節(jié)編碼到V鍵上,其他音節(jié)分配到對應拉丁字母所在鍵上;第二類分為十組:第I組:a1、ao、an,第 2 組:e1、er、en,第 3 組 ie、in、iu,第 4 組:ou,第 5 組:u1、un、iie,第 6 組:ang、eng、ing、ong,第 7 組:iao、ian、iang、1ng,第 8 組:ua1、uan、uang,第 9 組:ia、uo、ua,第10組:zh、ch、sh,第一到第十組的音節(jié)分別分配到大鍵盤數(shù)字鍵1-9、0上。為了便于使用,請按照這個方法記憶:字母鍵,全不變;一二三四五,a、e、1、O、u ;六是嗯(ng),七八哎呦(1、u);九是組,十是合(h)。第二步首先在漢字編碼中添加一個編碼:分詞碼,該碼為非打印編碼,起到中文分詞標記的作用,然后對tab鍵和空格鍵重新編碼,因為數(shù)字鍵在第一步被編碼過了,所以編碼tab在輸入法中作用是選中下一個重碼對象,由于中文不可能輸入空格,所以把空格鍵編碼為分詞碼。該輸入法技術有兩種輸入方法:全輸和非全輸,全輸需要敲擊一次聲母加上敲擊一次韻母,或者只敲擊一次韻母,非全輸只需要敲擊聲母組合。第三步規(guī)定詞語是有屬性的,本發(fā)明的輸入法技術,以詞語為最小輸入粒度,而漢語中詞語是有屬性的,比如說:什么詞性、用來修飾什么的、近義詞有哪些、同音詞有哪些、在語句中經(jīng)常出現(xiàn)的位置等等。規(guī)定詞語是有屬性的是有必要的,因為中文里可能同一個讀音的有多個詞語,同一個詞語在不同的場合也有多彩的意義,規(guī)定詞語的屬性,可以大大降低重碼率,而且也是計算機讀懂漢語的一大進步。第四步規(guī)定輸入法以語句為輸入單位,以詞語為輸入粒度,利用漢字組合詞語時的習慣、詞語構成句子時的屬性來排除漢語重碼冗余。比如讀音為“zhi”或“Shi”的漢字非常多,但是讀音為“zhishi”的詞語就很少了 ;比如讀音為“faxian”的詞語有“發(fā)現(xiàn)”、“法線”,但是“發(fā)現(xiàn)”是動詞屬性,“法線”是名詞屬性,在組成句子的時候,可以分析語句成分,進一步排除冗余對象。
[0006]本發(fā)明的有益效果是,簡單易推廣,能夠?qū)崿F(xiàn)每個漢字平均擊鍵次數(shù)小于二次,準確率比現(xiàn)行的輸入法要高,以語句為輸入單位,輸入效率比現(xiàn)行的輸入法都要高,現(xiàn)存的中文輸入法主要使用鍵盤的三層字母鍵,本輸入法主要使用鍵盤的三層字母鍵和大鍵盤數(shù)字鍵,輸入時必須手腕騰空,有利于養(yǎng)成正確的輸入姿勢,保護手腕。輸入的中文是經(jīng)過分詞處理過的,有利于后期的數(shù)據(jù)挖掘、大數(shù)據(jù)處理、網(wǎng)絡搜索引擎搜索等的實施。
【附圖說明】
[0007]圖1是本發(fā)明的輸入法對大鍵盤數(shù)字鍵的重新編碼對照圖
[0008]圖2是基于聲母韻母的中文輸入法第一個具體實施例的分析圖
[0009]具體實施案例
[0010]如圖2所示,使用本發(fā)明的基于聲母韻母的中文輸入法輸入“誠實是一種品質(zhì)”的過程,第一步敲擊 ‘0 鍵’、‘6 鍵’、‘0 鍵’、‘i 鍵’,輸出為 “chengsh1、changsh1、shangsh1、shengshi” ;第二步敲擊‘空格鍵’,輸出為“chengshi”,此時直接選擇第一個對象,有個空格在轉(zhuǎn)換成中文時編碼成分詞碼;第三步敲擊‘0鍵’、‘i鍵’,輸出為“chengshi shi,chengshi zh1、chengshi chi”,這里解釋一下為什么總是第一個對象就是我們需要的呢,第一步中采用了使用頻率排行技術,這在現(xiàn)有的輸入法中已經(jīng)使用,第三步中使用了詞語的屬性分析,一句話中的第二個詞語一般是動詞,而且判斷動詞最有可能。第四步敲擊‘空格鍵’,直接選取第一個對象,輸出為“chengshi shi”;第五步敲擊‘y鍵’、‘i鍵’、‘0鍵’、‘6鍵,,此時輸出為“chengshi shi yichang、chengshi shi yizhong、chengshi shi yichong,,;第六步敲擊‘tab鍵’,選擇上一步輸出的第二個對象,“chengshi shi yizhong” ;第七步敲擊‘空格鍵’,輸出“chengshi shi yizhong”,第八步敲擊‘p鍵’、‘3鍵’、‘0鍵’、‘i鍵’,此時輸出為“chengshi shi yizhong pinzhi”,為什么這次沒有冗余對象呢,因為漢字在組字的時候,聲母‘P’開頭的只能跟韻母‘in’,而不能跟‘iu’或者‘ie’,在組詞的時候,發(fā)音為‘pin’的漢字只能和發(fā)音為‘zhi’的漢字組合,而不能和‘chi’或者‘shi’結(jié)合;第九步敲擊‘。鍵’,輸出為“誠實是一種品質(zhì)。”,在這里因為輸入法探測到標點符號,知道一句話已經(jīng)輸入完,所以把拼音翻譯成中文。為什么不是“城市是一種品質(zhì)?!被蛘摺罢\實是一種品質(zhì)?!蹦兀恳驗椤鞘小汀\實’具有不同的詞語屬性,在一個判斷語句中,很容易就把第一種給排除掉了 ;又因為漢語中是不存在空格輸出的,我們只是把空格編碼為一種分詞碼,所以雖然輸出的中文是包含空格這個編碼的,但是不會顯示出來。第十步敲擊‘空格鍵’,把“誠實是一種品質(zhì)?!陛斎氲诫娔X文件中,輸入一句話結(jié)束。
【主權項】
1.一種計算機設備的基于聲母韻母的中文輸入法,所有韻母均可以一鍵敲出,聲母和韻母組合拼出一個漢字,以句子為輸出單元,以詞語為輸入粒度,本輸入法利用了中文無空格,以及中文很少輸入阿拉伯數(shù)字的特點,重新對空格鍵和數(shù)字鍵進行編碼,首先為中文添加一個編碼:分詞碼,這個編碼對應著鍵盤空格鍵的輸入,為非打印編碼,主要作用是切分輸入語句中的詞語,接著把中文音節(jié)分為兩類,第一類包括:a、O、e、1、U、U、b、P、m、f、d、t、n、1、g、k、h、1、q、x、z、c、s、r、y、w,這些音節(jié)分配到各自對應的鍵盤的拉丁字母按鍵上,第二類分十組,第一組:a1、ao、an,第二組:e1、er、en,第三組ie、in、iu,第四組:ou,第五組:u1、un、iie,第六組:ang、eng、ing、ong,第七組:iao、ian、iang、1ng,第八組:ua1、uan、uang,第九組:ia、uo、ua,第十組:zh、ch、sh,第一到第十組的音節(jié)分別分配到數(shù)字鍵1_9、O上,為了便于使用,請按照這個方法記憶:字母鍵,全不變;一二三四五,&、6、1、0、11;六是嗯(ng),七八哎呦(1、u);九是組,十是合(h)。
2.如權利要求1所示,其特征是輸入句子時用空格鍵對詞語進行分詞,同時利用漢字組成詞語的習慣、詞語構成句子時的屬性來排除漢語重碼冗余,利用tab鍵進行重碼冗余篩選。
3.如權利要求1所示,其特征是作為輸入的粒度,每個詞語都是有屬性的,比如說:什么詞性、用來修飾什么的、近義詞有哪些、同音詞有哪些、在語句中經(jīng)常出現(xiàn)的位置等等。
【專利摘要】一種用于計算機設備的基于聲母韻母的中文輸入法。它是以聲母+韻母進行輸入、以語句為輸入單位、詞語為輸入粒度、兼帶分詞功能的中文輸入技術。該輸入技術首先對鍵盤按鍵重新編碼,每輸入一個漢字只需最多兩次擊鍵,對空格鍵編碼實現(xiàn)中文分詞的功能,賦予了詞語以屬性,利用組詞習慣以及詞語的屬性對重碼漢字進行排除。
【IPC分類】G06F3-023
【公開號】CN104571573
【申請?zhí)枴緾N201310479509
【發(fā)明人】杜亞博, 劉玉紅, 王艷培
【申請人】杜亞博, 劉玉紅, 王艷培
【公開日】2015年4月29日
【申請日】2013年10月15日