一種方塊苗文的音形結(jié)合快速輸入編碼及其優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種方塊苗文的音形結(jié)合快速輸入編碼及其優(yōu)化方法,屬于我國少數(shù) 民族文字鍵盤輸入編碼技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] W漢字為代表的方塊文字鍵盤輸入主要采用基于本身字音屬性或字形屬性的音 碼或形碼輸入編碼方法。漢字輸入編碼方法研究起步于上世紀(jì)80年代,先后經(jīng)歷了單字、 詞語及整句輸入編碼方法研究幾個階段,目前已進(jìn)入面向Windows、Linux、An化oid等操作 系統(tǒng),W重碼字和詞的智能識別、候選字的智能選定上屏、縮短平均碼長且促進(jìn)編碼簡單化 和規(guī)范化為目標(biāo)的字、詞、句輸入的智能處理時代,各類智能輸入法軟件紛紛出現(xiàn)。與漢字 相比,我國少數(shù)民族方塊文字的輸入編碼方法研究起步較晚。2006年至今期間,與此相關(guān)研 究報道主要有:董芳等提出的基本筆畫與部件相結(jié)合的水書文字形碼輸入編碼方法;楊撼 岳等研制的基于7種基本筆畫細(xì)分所得的21類筆形的水書文字=角形碼輸入編碼方法的 輸入法軟件;郭海等研究的基于音標(biāo)轉(zhuǎn)寫的納西象形文字音碼輸入編碼方法;柳長青等提 出的由文字本身4個角的筆形數(shù)碼決定的西夏文四角號碼形碼輸入編碼方法;寧威林等設(shè) 計的基于有無曲線、有無封閉、有無點(diǎn)等字形特點(diǎn)分類的彝文輸入形碼編碼方法;吳馳等提 出的結(jié)構(gòu)類型和書寫筆順相結(jié)合的彝文形碼輸入編碼方法;黃勇等設(shè)計和開發(fā)的基于規(guī)范 拼音音碼及本身字形五筆形碼的古壯文輸入法編輯器。上述少數(shù)民族方塊文字的輸入編碼 方法主要基于純形碼,編碼設(shè)計方法不夠簡便,輸入法的易學(xué)易用性及快捷高效性有待提 局。
[0003] 方塊苗文是一種仿漢字結(jié)構(gòu)的方塊文字,其信息處理技術(shù)研究剛剛起步。方塊苗 文主要包括=套:老寨苗文、古丈苗文和板塘苗文。它們造字原理完全相同,都創(chuàng)造性地運(yùn) 用了形聲、會意、假借、象形等手段,直接取一些含義明確、結(jié)構(gòu)或筆畫較簡單且日常使用頻 率較高的漢字或偏旁,W及極個別無音無義的純粹符號(如"~"、"X")作為義符、聲符或形 符構(gòu)件,采用一字一音節(jié)的方法來標(biāo)記一個語素或詞。方塊苗文基本上都是合體字,其結(jié)構(gòu) 類型大致分為左右結(jié)構(gòu)、上下結(jié)構(gòu)、側(cè)圍結(jié)構(gòu)和內(nèi)外結(jié)構(gòu)4種。圖1給出4種不同結(jié)構(gòu)的方 塊苗文字例及其漢義示意圖。
[0004] 理論上,仿漢字結(jié)構(gòu)的方塊苗文可采用類似于漢字的音碼或形碼輸入方法實現(xiàn)輸 入。然而,會拼讀方塊苗文的人極少,使得基于本身字音屬性的方塊苗文音碼輸入編碼方法 不可行。通常,方塊苗文均可視為二或=構(gòu)件型合體字,其構(gòu)件筆形拆分繁瑣,如果采用純 形碼輸入編碼方法,不利于用戶記憶。 陽〇化]考慮到方塊苗文的構(gòu)件除個別是純粹符號外,其余都是簡單漢字(或偏旁)運(yùn)一 事實,可W嘗試?yán)脴?gòu)件的字音屬性取代文字本身字音屬性的思路來設(shè)計其輸入編碼方 法。前期,為了解決方塊苗文的輸入問題,莫禮平等根據(jù)此思路先后研究并實現(xiàn)了基于構(gòu)件 漢語全拼的音碼輸入和基于構(gòu)件拼音同文字結(jié)構(gòu)類型相結(jié)合的音形碼輸入編碼方法。前一 方法中,一個方塊苗文的輸入編碼序列由其所包含的2至3個構(gòu)件的全部漢語拼音字母構(gòu) 成,碼元與鍵盤26個字符鍵位一一對應(yīng)。后一方法中,將方塊苗文輸入編碼統(tǒng)一為"3個音 碼+1個形碼"的4碼形式。其中,二構(gòu)件型方塊苗文的音碼由第一個構(gòu)件拼音首字母和第 二個構(gòu)件拼音的首字母和次字母決定,=構(gòu)件型方塊苗文的音碼由3個構(gòu)件拼音的首字母 決定;形碼由其結(jié)構(gòu)類型決定;音碼碼元與鍵盤相應(yīng)字符鍵位一一對應(yīng),左右結(jié)構(gòu)、上下結(jié) 構(gòu)形碼分別映射至鍵盤數(shù)字鍵位"4"和"5";考慮到方塊苗文中,內(nèi)外結(jié)構(gòu)的極少,側(cè)圍結(jié) 構(gòu)的也不多,運(yùn)兩種結(jié)構(gòu)形碼均映射至數(shù)字鍵位"6"。
[0006] 上述兩種方法的實現(xiàn),證明了利用構(gòu)件的字音屬性代替文字本身字音屬性來設(shè)計 方塊苗文輸入編碼方法運(yùn)一思路的正確性和可行性。然而,前述第一種方法存在碼長過大, 重碼情況嚴(yán)重等缺陷,基本上沒考慮效率;第二種方法雖然有效地降低了碼長和重碼率,但 沒有考慮用戶思維習(xí)慣和擊鍵習(xí)慣,效率依然不甚理想。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于提供一種方塊苗文的音形結(jié)合快速輸入編碼及其優(yōu)化方法,W 便能提供一種符合用戶思維習(xí)慣和擊鍵習(xí)慣的、碼長短、重碼率低、能夠有效保障用戶輸入 速度和正確率的方塊苗文音形結(jié)合快速輸入編碼方法,有效解決從方塊苗文字庫中快速調(diào) 出所需字形的問題。
[0008] 為了實現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下。
[0009] 一種方塊苗文的音形結(jié)合快速輸入編碼方法,其基本思想是:由方塊苗文的構(gòu)件 漢語拼音的聲母(或韻母)決定音碼,由本身的筆順筆畫和結(jié)構(gòu)類型決定形碼。由于構(gòu)件 漢語拼音的聲母(或韻母)數(shù)目遠(yuǎn)多于基本筆畫種數(shù),基本筆畫種數(shù)又多于結(jié)構(gòu)類型種數(shù), 為了增加區(qū)分度,將方塊苗文輸入編碼統(tǒng)一設(shè)計為"首構(gòu)件音碼+末構(gòu)件音碼+文字筆順形 碼+文字結(jié)構(gòu)類型形碼"的4碼形式。通常,文字的首筆和末筆是最易提取的筆畫,考慮到 方塊苗文中,首構(gòu)件相同者遠(yuǎn)多于末構(gòu)件相同者,末筆筆畫比首筆筆畫的區(qū)分性更好,故由 文字末筆筆畫決定筆順形碼,該方法中方塊苗文輸入編碼的具體形式為"首構(gòu)件音碼+末 構(gòu)件音碼+文字末筆筆畫形碼+文字結(jié)構(gòu)類型形碼"。
[0010] 上述方法中,音碼設(shè)計的方法為,按照從上至下、從左到右、從外到內(nèi)的順序?qū)Ψ?塊苗文進(jìn)行構(gòu)件拆分后,選取首構(gòu)件和末構(gòu)件的漢語拼音首字母作為音碼碼元;取出的第 一個構(gòu)件為首構(gòu)件,最后一個構(gòu)件為末構(gòu)件;成字構(gòu)件選取其拼音首字母作為音碼碼元,若 無聲母,則取韻母首字母;純粹符號對應(yīng)的不成字構(gòu)件,統(tǒng)一選用一個非拼音首字母的字母 作為音碼碼元。
[0011] 上述方法中,形碼設(shè)計的方法為,采用最簡易直觀的方法:選取橫、豎、撇、掠、點(diǎn)、 折6種基本筆畫名稱的漢語拼音首字母作為筆順形碼碼元;選取左右、上下、側(cè)圍、內(nèi)外4種 結(jié)構(gòu)類型名稱的漢語拼音首字母作為結(jié)構(gòu)類型形碼碼元。
[0012] 上述方法中,W通用鍵盤為標(biāo)準(zhǔn),將碼元與鍵盤鍵位之間建立如下映射關(guān)系:(1) 成字構(gòu)件音碼碼元直接映射至其拼音首字母對應(yīng)的字符鍵位,不成字構(gòu)件音碼碼元統(tǒng)一映 射至非拼音首字母i對應(yīng)的I鍵位;
[0013] (2)筆順筆畫及結(jié)構(gòu)類型形碼碼元直接映射至對應(yīng)其名稱漢語拼音首字母的字 符鍵位,即:橫化)一H、豎(S) -S、撇(P)-P、掠(n)-N、點(diǎn)(d)-D、折(Z) -Z,左右結(jié)構(gòu) (z)-Z、上下結(jié)構(gòu)(s)-S、側(cè)圍結(jié)構(gòu)(c)-C、內(nèi)外結(jié)構(gòu)(n)-N。
[0014] 基于上述方塊苗文的音形結(jié)合快速輸入編碼的優(yōu)化方法,所述方法W鍵位碼元 負(fù)荷分析和相關(guān)擊鍵時間當(dāng)量分析為基礎(chǔ)進(jìn)行了優(yōu)化:采用"避重就輕"的原則均衡碼元負(fù) 荷,盡可能將負(fù)荷大的鍵位上的碼元分散到負(fù)荷較小的鍵位上去;同時,根據(jù)鍵位有效使用 原則,調(diào)整形碼映射方式,W提高連續(xù)擊鍵速度;上述方法中,Z、S、C運(yùn)=個映射鍵位因碼 元負(fù)荷大而被過度使用,而碼元負(fù)荷小、比Z、S、C鍵位更適合高頻使用的U、V、I=個鍵位 卻沒得到充分利用;根據(jù)優(yōu)化的基本思想,將形碼碼元的Z用U替代,S用V替代,C用i替 代;運(yùn)樣,左右結(jié)構(gòu)形碼和折筆形碼被映射至鍵位U,上下結(jié)構(gòu)形碼和