專利名稱:一種漢字輸入方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種漢字輸入技術(shù),尤其涉及一種漢字輸入方法和裝置。
背景技術(shù):
在打字的時(shí)候,我們需要使用輸入法系統(tǒng)記錄想要表達(dá)的信息,而這些信息中很 大的一部分都是較長(zhǎng)的句子,將拼音一次完整輸入并得到想要的句子,這就需要使用輸入 法系統(tǒng)中的一個(gè)重要功能-智能組句。我們知道同一個(gè)拼音串可以對(duì)應(yīng)多個(gè)詞、詞條或者 句子,輸入法系統(tǒng)為了更大可能的向用戶提供該拼音所表達(dá)的信息,目前輸入法系統(tǒng)主要 根據(jù)詞條出現(xiàn)的概率找到出現(xiàn)概率最大的詞條、短語(yǔ)或者句子作為備選項(xiàng)。在輸入漢字的時(shí)候輸入法系統(tǒng)提供的備選詞一般是選擇日常生活中出現(xiàn)概率較 高的詞條、詞條以及英文單詞按照降序排列的。當(dāng)輸入較長(zhǎng)的句子時(shí),就使用智能匹配算法 組合出共現(xiàn)概率最大的句子作為備選項(xiàng)。例如在輸入拼音串xian'cheng之后,根據(jù)該拼音 串對(duì)應(yīng)的各個(gè)詞條出現(xiàn)的頻率(或者概率)進(jìn)行排序,“縣城”會(huì)排在“現(xiàn)成”和“線程”前 面,而“先乘”這樣的詞條因?yàn)槌霈F(xiàn)次數(shù)較少,沒(méi)有被記錄到輸入法系統(tǒng)的詞庫(kù)選中。在輸入一句話時(shí),輸入法系統(tǒng)會(huì)根據(jù)輸入的拼音進(jìn)行切分,再根據(jù)詞出現(xiàn)的頻率 找到共現(xiàn)概率最大的句子。例如圖1所示。如圖1所示,對(duì)于輸入的拼音串“bushoufanshiqinrao”,經(jīng)過(guò)對(duì)拼音串進(jìn)行單漢 字對(duì)應(yīng)的拼音子串切分以后的結(jié)果是“bu’ shou' fan' shi’ qin' rao”,這些拼音子串可對(duì) 應(yīng)下列單字“不收飯是親繞”或者“部受煩事秦饒”等等,再根據(jù)單字拼成詞,每一個(gè)詞由一 個(gè)長(zhǎng)弧線標(biāo)識(shí)。如圖1所示,由字拼接成的詞所對(duì)應(yīng)的拼音子串有“bUShoU”、“fanShi”、 “ qinrao ”,其中,拼音子串“bushou,,可對(duì)應(yīng)“不受”、“不收”等詞、拼音子串“ fanshi,,對(duì)應(yīng) “凡是”、“凡是”等詞、拼音子串“qinrao”對(duì)應(yīng)“侵?jǐn)_”等詞。目前的方法是根據(jù)前后兩個(gè) 詞A、B出現(xiàn)的概率P (Ai I Ai^1),當(dāng)前詞條出現(xiàn)的概率P (Ai),結(jié)合隱性馬爾科夫模型,求得整 句出現(xiàn)的最大概率。一般的公式為IogP (Ai I Ai.,) +bxlogP(Ai)+K)。根據(jù)以上的公
式,可以計(jì)算出Weight(Sl)、Weight (S2)......等的概率值,選擇擁有最大概率P(S)的整
句S作為智能組句的輸出。目前的技術(shù)雖然在一定程度上能夠很好的滿足智能組句的需求,但是還是會(huì)有一 定的問(wèn)題?,F(xiàn)在的方法只是考慮了詞出現(xiàn)的頻率以及兩個(gè)詞的共現(xiàn)概率,并沒(méi)有考慮詞條 的屬性等其他關(guān)系。由于詞條的數(shù)量是巨大的,二元組數(shù)量會(huì)成平方關(guān)系,當(dāng)前的輸入法系 統(tǒng)為了將這些海量的關(guān)系存儲(chǔ)在有限的空間當(dāng)中,只能去掉一些不重要的關(guān)系。這在一定 程度上影響了智能組句的準(zhǔn)確率。而且,單一的使用詞條之間的條件概率和出現(xiàn)的頻率并 不能很好的解決所有的問(wèn)題。如圖1所示,輸入法系統(tǒng)很自然的將“不受凡事侵?jǐn)_”,翻譯成 “不受凡是侵?jǐn)_”。因此,在輸入過(guò)程中,用戶不得不更改輸入結(jié)果,從而導(dǎo)致輸入速度慢的 問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供了一種漢字輸入方法和裝置,可解決現(xiàn)有技術(shù)漢字輸入速度 慢的問(wèn)題。本發(fā)明的實(shí)施例提供了一種漢字輸入方法,包括獲取拼音串;根據(jù)詞典對(duì)所述 拼音串進(jìn)行切分以獲得拼音串的拼音子串,所述詞典包括詞條、詞條對(duì)應(yīng)的拼音、詞條的出 現(xiàn)概率、其它詞條出現(xiàn)條件下該詞條的出現(xiàn)概率、詞性、詞性之間的條件概率;從詞典中獲 取與拼音子串對(duì)應(yīng)的候選詞條,以及該候選詞條對(duì)應(yīng)的出現(xiàn)概率、其它詞條出現(xiàn)條件下該 候選詞條的出現(xiàn)概率、該候選詞條的詞性;根據(jù)候選詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下 該候選詞條的出現(xiàn)概率、所述候選詞條的詞性自左向右計(jì)算每一候選詞條的權(quán)重;從包括 拼音串的最后拼音子串對(duì)應(yīng)的所有候選詞條的權(quán)重中,找出權(quán)重最大的候選詞條,并根據(jù) 該權(quán)重最大的候選詞條確定所述拼音串對(duì)應(yīng)的各個(gè)候選詞條,將這些候選詞條的組合作為 輸入結(jié)果。本發(fā)明實(shí)施例還提供了一種漢字輸入裝置,具體包括詞典,其包括詞條、詞條對(duì) 應(yīng)的拼音、詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該詞條的出現(xiàn)概率、詞性、詞性之間的條 件概率;第一獲取單元,用于獲取拼音串;切分單元,用于根據(jù)詞典對(duì)所述拼音串進(jìn)行切分 以獲得拼音串的拼音子串;第二獲取單元,用于從詞典中獲取與拼音子串對(duì)應(yīng)的候選詞條, 以及該候選詞條對(duì)應(yīng)的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、該候選詞 條的詞性、詞性之間的條件概率;計(jì)算單元,用于根據(jù)候選詞條的出現(xiàn)概率、其它詞條出現(xiàn) 條件下該候選詞條的出現(xiàn)概率、所述候選詞條的詞性自左向右計(jì)算每一候選詞條的權(quán)重; 確定單元,用于從包括拼音串的最后拼音子串對(duì)應(yīng)的所有候選詞條的權(quán)重中,找出權(quán)重最 大的候選詞條,并根據(jù)該權(quán)重最大的候選詞條確定所述拼音串對(duì)應(yīng)的各個(gè)候選詞條,將這 些候選詞條的組合作為輸入結(jié)果。本發(fā)明的實(shí)施例,由于考慮了詞的詞性,由于詞性有一定的約束關(guān)系,通過(guò)這種約 束關(guān)系,會(huì)提高了輸入拼音串對(duì)應(yīng)漢字的正確性,進(jìn)而提高了輸入速度。
圖1示出了現(xiàn)有技術(shù)的漢字分詞方法;圖2示出了本發(fā)明實(shí)施例的漢字輸入方法;圖3示出了本發(fā)明實(shí)施例中的漢字分詞方法;圖4示出了本發(fā)明實(shí)施例的漢字輸入裝置。
具體實(shí)施例方式為了便于本領(lǐng)域一般技術(shù)人員理解和實(shí)現(xiàn)本發(fā)明,現(xiàn)結(jié)合附圖描繪本發(fā)明的實(shí)施例。實(shí)施例一如圖2所示,本實(shí)施例提供了一種漢字輸入方法,包括如下步驟步驟21、獲取拼音串。步驟22、根據(jù)詞典對(duì)所述拼音串進(jìn)行切分以獲得拼音串的拼音子串,所述詞典包 括詞條、詞條對(duì)應(yīng)的拼音、詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該詞條的出現(xiàn)概率、詞性、 詞性之間的條件概率等。所述拼音子串可以是組成單個(gè)漢字的拼音子串,或者可以是組成詞的拼音子串。步驟23、從詞典中獲取與所述拼音子串對(duì)應(yīng)的候選詞條或候選字,以及該候選詞 條或候選字對(duì)應(yīng)的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條或候選字的出現(xiàn)概率、詞性。 為描述方便,將候選字或候選詞條統(tǒng)稱為候選詞條,詞和詞條是同一概念。步驟24、根據(jù)候選詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、 該候選詞條的詞性自左向右計(jì)算每一候選詞條的權(quán)重;權(quán)重的計(jì)算公式如下Weight(Ai) = max (Weight (Ai^1) + (aX log (P (Ai | Ai^1)) +b X log (P (Ai)) +c X log (P ( Prop (Ai) I Prop (Ai^1))))其中,i = 1到M,M為拼音串被切分為單個(gè)漢字所對(duì)應(yīng)的拼音子串總的數(shù)目A 代表第i個(gè)位置的詞條,Weight(Ai)表示詞條&的權(quán)重,a、b、c是常數(shù);P(AiIA^1)是指 在詞條Ap1的條件下Ai出現(xiàn)的概率;P (Ai)是詞條Ai出現(xiàn)的概率,Prop(A)是詞A的詞性; P (Prop (Ai) Prop (AiJ)是在A^1的詞性Prop (AiJ出現(xiàn)的條件下Ai的詞性Prop (Ai)出現(xiàn) 的概率。由于上述公式用到了詞性,可大大增加組句的正確率。優(yōu)選地,為了計(jì)算候選詞條的權(quán)重,將這些候選詞條對(duì)應(yīng)的拼音子串按照輸入的 順序前后排列起來(lái)。由于拼音串可切分成不同組合的各個(gè)拼音子串,即對(duì)拼音串可有多種 切分方式,每一種切分方式使得拼音串由不同組合的拼音子串組成。這樣,切分后的這些不 同組合的拼音子串可組成二維的矩陣,即可以看成一個(gè)NXM的矩陣。其中,N為在拼音串 中從任意漢字位置開(kāi)始的最多可能的拼音子串的數(shù)目;M為拼音串被切分的拼音子串的最 大數(shù)目,該數(shù)目為拼音串被切分為單個(gè)漢字所對(duì)應(yīng)的拼音子串總的數(shù)目。矩陣的每一個(gè)單 元被稱為節(jié)點(diǎn),節(jié)點(diǎn)的列為拼音子串對(duì)應(yīng)的詞的首個(gè)漢字的位置。這樣,矩陣的第一行的所 有節(jié)點(diǎn)都存在,而其它行的某些節(jié)點(diǎn)可能不存在。每一個(gè)不為空的節(jié)點(diǎn)代表一個(gè)拼音子串, 該拼音子串根據(jù)詞典可對(duì)應(yīng)一個(gè)或多個(gè)詞。將每一個(gè)拼音子串與其相鄰的下一拼音子串相 連,就會(huì)將上述矩陣變?yōu)橐粋€(gè)圖。步驟25、從包括拼音串的最后拼音子串對(duì)應(yīng)的所有候選詞條的權(quán)重中,找出權(quán)重 最大的候選詞條,根據(jù)該權(quán)重最大的候選詞條確定所述拼音串對(duì)應(yīng)的各個(gè)候選詞條。根據(jù)該權(quán)重最大的候選詞條確定所述拼音串對(duì)應(yīng)的各個(gè)候選詞條具體步驟如下 從拼音串去除該權(quán)重最大候選詞條的拼音子串中,將該拼音子串作為當(dāng)前拼音串,從包括 當(dāng)前拼音串的最后拼音子串對(duì)應(yīng)的所有候選詞條的權(quán)重中,找出權(quán)重最大的候選詞條,直 到當(dāng)前拼音串包括最開(kāi)始的拼音子串為止,所得到的各個(gè)候選詞條即為拼音串對(duì)應(yīng)的各個(gè) 候選詞條。將這些候選詞條的組合作為輸入結(jié)果。下面以一個(gè)具體的例子來(lái)進(jìn)一步描述本發(fā)明。即以拼音串“shifengongli”為例 來(lái)說(shuō)明本發(fā)明。假設(shè)詞典的內(nèi)容包括表1、表2和表3。其中,表1包括詞條、詞條對(duì)應(yīng)的拼 音、詞條的出現(xiàn)概率和詞性等;表2包括其它詞條出現(xiàn)條件下該詞條的出現(xiàn)概率;表3包括 包括詞性之間的條件概率。
表 權(quán)利要求
1.一種漢字輸入方法,其特征在于,包括獲取拼音串;根據(jù)詞典對(duì)所述拼音串進(jìn)行切分以獲得拼音串的拼音子串,所述詞典包括詞條、詞條 對(duì)應(yīng)的拼音、詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該詞條的出現(xiàn)概率、詞性、詞性之間的 條件概率;從詞典中獲取與拼音子串對(duì)應(yīng)的候選詞條,以及該候選詞條對(duì)應(yīng)的出現(xiàn)概率、其它詞 條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、該候選詞條的詞性;根據(jù)候選詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、所述候選詞 條的詞性自左向右計(jì)算每一候選詞條的權(quán)重;從包括拼音串的最后拼音子串對(duì)應(yīng)的所有候選詞條的權(quán)重中,找出權(quán)重最大的候選詞 條,并根據(jù)該權(quán)重最大的候選詞條確定所述拼音串對(duì)應(yīng)的各個(gè)候選詞條,將這些候選詞條 的組合作為輸入結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)候選詞條的出現(xiàn)概率、所述候選 詞條條件下其它詞條出現(xiàn)的概率、所述候選詞條的詞性自左向右計(jì)算每一候選詞條的權(quán)重 的計(jì)算公式如下Weight (Ai) = max (Weight (Ai^1) + (aX log (P (Ai | Ai^1)) +b X log (P (Ai)) +c X log (P (Prop (Ai) IProp(AiJ))))其中,i = 1到M,M為拼音串被切分為單個(gè)漢字所對(duì)應(yīng)的拼音子串的數(shù)目九代表 第i個(gè)位置的詞條,Weight(Ai)表示詞條&的權(quán)重,a、b、c是常數(shù);P(AiIU是指在詞 條Ag的條件下Ai出現(xiàn)的概率;P(Ai)是詞條Ai出現(xiàn)的概率,Prop(A)是詞條A的詞性; P (Prop (Ai) Prop (AiJ)是在A^1的詞性Prop (AiJ出現(xiàn)的條件下Ai的詞性Prop (Ai)出現(xiàn) 的概率。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)該權(quán)重最大的候選詞條獲得所 述拼音串對(duì)應(yīng)的各個(gè)候選詞條具體包括從拼音串去除該權(quán)重最大候選詞條的拼音子串中,將該拼音子串作為當(dāng)前拼音串,從 包括當(dāng)前拼音串的最后拼音子串對(duì)應(yīng)的所有候選詞條的權(quán)重中,找出權(quán)重最大的候選詞 條,直到當(dāng)前拼音串包括最開(kāi)始的拼音子串為止,所得到的各個(gè)候選詞條即為拼音串對(duì)應(yīng) 的各個(gè)候選詞條。
4.一種漢字輸入裝置,其特征在于,具體包括詞典,其包括詞條、詞條對(duì)應(yīng)的拼音、詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該詞條的 出現(xiàn)概率、詞性、詞性之間的條件概率;第一獲取單元,用于獲取拼音串;切分單元,用于根據(jù)詞典對(duì)所述拼音串進(jìn)行切分以獲得拼音串的拼音子串;第二獲取單元,用于從詞典中獲取與拼音子串對(duì)應(yīng)的候選詞條,以及該候選詞條對(duì)應(yīng) 的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、該候選詞條的詞性、詞性之間的 條件概率;計(jì)算單元,用于根據(jù)候選詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概 率、所述候選詞條的詞性自左向右計(jì)算每一候選詞條的權(quán)重;確定單元,用于從包括拼音串的最后拼音子串對(duì)應(yīng)的所有候選詞條的權(quán)重中,找出權(quán)重最大的候選詞條,并根據(jù)該權(quán)重最大的候選詞條確定所述拼音串對(duì)應(yīng)的各個(gè)候選詞條, 將這些候選詞條的組合作為輸入結(jié)果。
5.根據(jù)權(quán)利要求4所述的裝置,其特征在于,所述計(jì)算單元使用如下公式 Weight (Ai) = max (Weight (Ai^1) + (aX log (P (Ai | Ai^1)) +b X log (P (Ai)) +c X log (P (Prop (Ai) IProp(AiJ))))其中,i = 1到M,M為拼音串被切分為單個(gè)漢字所對(duì)應(yīng)的拼音子串的數(shù)目九代表 第i個(gè)位置的詞條,Weight(Ai)表示詞條Ai的權(quán)重,a、b、c是常數(shù);^1)是指在 詞條Ap1的條件下Ai出現(xiàn)的概率;P(Ai)是詞條Ai出現(xiàn)的概率,Prop(A)是詞A的詞性; P (Prop (Ai) Prop (AiJ)是在A^1的詞性Prop (AiJ出現(xiàn)的條件下Ai的詞性Prop (Ai)出現(xiàn) 的概率。
全文摘要
本發(fā)明的實(shí)施例提供了一種漢字輸入方法和裝置,可解決現(xiàn)有技術(shù)漢字輸入速度慢的問(wèn)題。所述方法包括獲取拼音串;根據(jù)詞典對(duì)所述拼音串進(jìn)行切分以獲得拼音串的拼音子串;根據(jù)詞典獲取與拼音子串對(duì)應(yīng)的候選詞條,以及該候選詞條對(duì)應(yīng)的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、該候選詞條的詞性;根據(jù)上述候選詞條自左向右計(jì)算每一候選詞條的權(quán)重;并根據(jù)候選詞條的權(quán)重確定輸入結(jié)果。本發(fā)明的實(shí)施例,由于考慮了詞的詞性,由于詞性有一定的約束關(guān)系,通過(guò)這種約束關(guān)系,會(huì)提高了輸入拼音串對(duì)應(yīng)漢字的正確性,進(jìn)而提高了輸入速度。
文檔編號(hào)G06F3/023GK102103416SQ20091026106
公開(kāi)日2011年6月22日 申請(qǐng)日期2009年12月17日 優(yōu)先權(quán)日2009年12月17日
發(fā)明者李洋, 董恭謹(jǐn), 蔡衡 申請(qǐng)人:新浪網(wǎng)技術(shù)(中國(guó))有限公司