一種漢字輸入方法和裝置的制作方法

文檔序號(hào)：6586491閱讀：117來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種漢字輸入方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種漢字輸入技術(shù)，尤其涉及一種漢字輸入方法和裝置。
背景技術(shù)：
在打字的時(shí)候，我們需要使用輸入法系統(tǒng)記錄想要表達(dá)的信息，而這些信息中很大的一部分都是較長(zhǎng)的句子，將拼音一次完整輸入并得到想要的句子，這就需要使用輸入法系統(tǒng)中的一個(gè)重要功能-智能組句。我們知道同一個(gè)拼音串可以對(duì)應(yīng)多個(gè)詞、詞條或者句子，輸入法系統(tǒng)為了更大可能的向用戶提供該拼音所表達(dá)的信息，目前輸入法系統(tǒng)主要根據(jù)詞條出現(xiàn)的概率找到出現(xiàn)概率最大的詞條、短語(yǔ)或者句子作為備選項(xiàng)。在輸入漢字的時(shí)候輸入法系統(tǒng)提供的備選詞一般是選擇日常生活中出現(xiàn)概率較高的詞條、詞條以及英文單詞按照降序排列的。當(dāng)輸入較長(zhǎng)的句子時(shí)，就使用智能匹配算法組合出共現(xiàn)概率最大的句子作為備選項(xiàng)。例如在輸入拼音串xian'cheng之后，根據(jù)該拼音串對(duì)應(yīng)的各個(gè)詞條出現(xiàn)的頻率(或者概率)進(jìn)行排序，“縣城”會(huì)排在“現(xiàn)成”和“線程”前面，而“先乘”這樣的詞條因?yàn)槌霈F(xiàn)次數(shù)較少，沒(méi)有被記錄到輸入法系統(tǒng)的詞庫(kù)選中。在輸入一句話時(shí)，輸入法系統(tǒng)會(huì)根據(jù)輸入的拼音進(jìn)行切分，再根據(jù)詞出現(xiàn)的頻率找到共現(xiàn)概率最大的句子。例如圖1所示。如圖1所示，對(duì)于輸入的拼音串“bushoufanshiqinrao”，經(jīng)過(guò)對(duì)拼音串進(jìn)行單漢字對(duì)應(yīng)的拼音子串切分以后的結(jié)果是“bu’ shou' fan' shi’ qin' rao”，這些拼音子串可對(duì) 應(yīng)下列單字“不收飯是親繞”或者“部受煩事秦饒”等等，再根據(jù)單字拼成詞，每一個(gè)詞由一個(gè)長(zhǎng)弧線標(biāo)識(shí)。如圖1所示，由字拼接成的詞所對(duì)應(yīng)的拼音子串有“bUShoU”、“fanShi”、 “ qinrao ”，其中，拼音子串“bushou，，可對(duì)應(yīng)“不受”、“不收”等詞、拼音子串“ fanshi，，對(duì)應(yīng) “凡是”、“凡是”等詞、拼音子串“qinrao”對(duì)應(yīng)“侵?jǐn)_”等詞。目前的方法是根據(jù)前后兩個(gè) 詞A、B出現(xiàn)的概率P (Ai I Ai^1)，當(dāng)前詞條出現(xiàn)的概率P (Ai)，結(jié)合隱性馬爾科夫模型，求得整句出現(xiàn)的最大概率。一般的公式為IogP (Ai I Ai.,) +bxlogP(Ai)+K)。根據(jù)以上的公
式，可以計(jì)算出Weight(Sl)、Weight (S2)......等的概率值，選擇擁有最大概率P(S)的整
句S作為智能組句的輸出。目前的技術(shù)雖然在一定程度上能夠很好的滿足智能組句的需求，但是還是會(huì)有一定的問(wèn)題?，F(xiàn)在的方法只是考慮了詞出現(xiàn)的頻率以及兩個(gè)詞的共現(xiàn)概率，并沒(méi)有考慮詞條的屬性等其他關(guān)系。由于詞條的數(shù)量是巨大的，二元組數(shù)量會(huì)成平方關(guān)系，當(dāng)前的輸入法系統(tǒng)為了將這些海量的關(guān)系存儲(chǔ)在有限的空間當(dāng)中，只能去掉一些不重要的關(guān)系。這在一定程度上影響了智能組句的準(zhǔn)確率。而且，單一的使用詞條之間的條件概率和出現(xiàn)的頻率并不能很好的解決所有的問(wèn)題。如圖1所示，輸入法系統(tǒng)很自然的將“不受凡事侵?jǐn)_”，翻譯成 “不受凡是侵?jǐn)_”。因此，在輸入過(guò)程中，用戶不得不更改輸入結(jié)果，從而導(dǎo)致輸入速度慢的問(wèn)題。

發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供了一種漢字輸入方法和裝置，可解決現(xiàn)有技術(shù)漢字輸入速度慢的問(wèn)題。本發(fā)明的實(shí)施例提供了一種漢字輸入方法，包括獲取拼音串；根據(jù)詞典對(duì)所述拼音串進(jìn)行切分以獲得拼音串的拼音子串，所述詞典包括詞條、詞條對(duì)應(yīng)的拼音、詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該詞條的出現(xiàn)概率、詞性、詞性之間的條件概率；從詞典中獲取與拼音子串對(duì)應(yīng)的候選詞條，以及該候選詞條對(duì)應(yīng)的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、該候選詞條的詞性；根據(jù)候選詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、所述候選詞條的詞性自左向右計(jì)算每一候選詞條的權(quán)重；從包括拼音串的最后拼音子串對(duì)應(yīng)的所有候選詞條的權(quán)重中，找出權(quán)重最大的候選詞條，并根據(jù) 該權(quán)重最大的候選詞條確定所述拼音串對(duì)應(yīng)的各個(gè)候選詞條，將這些候選詞條的組合作為輸入結(jié)果。本發(fā)明實(shí)施例還提供了一種漢字輸入裝置，具體包括詞典，其包括詞條、詞條對(duì) 應(yīng)的拼音、詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該詞條的出現(xiàn)概率、詞性、詞性之間的條件概率；第一獲取單元，用于獲取拼音串；切分單元，用于根據(jù)詞典對(duì)所述拼音串進(jìn)行切分以獲得拼音串的拼音子串；第二獲取單元，用于從詞典中獲取與拼音子串對(duì)應(yīng)的候選詞條，以及該候選詞條對(duì)應(yīng)的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、該候選詞條的詞性、詞性之間的條件概率；計(jì)算單元，用于根據(jù)候選詞條的出現(xiàn)概率、其它詞條出現(xiàn) 條件下該候選詞條的出現(xiàn)概率、所述候選詞條的詞性自左向右計(jì)算每一候選詞條的權(quán)重；確定單元，用于從包括拼音串的最后拼音子串對(duì)應(yīng)的所有候選詞條的權(quán)重中，找出權(quán)重最大的候選詞條，并根據(jù)該權(quán)重最大的候選詞條確定所述拼音串對(duì)應(yīng)的各個(gè)候選詞條，將這些候選詞條的組合作為輸入結(jié)果。本發(fā)明的實(shí)施例，由于考慮了詞的詞性，由于詞性有一定的約束關(guān)系，通過(guò)這種約束關(guān)系，會(huì)提高了輸入拼音串對(duì)應(yīng)漢字的正確性，進(jìn)而提高了輸入速度。

圖1示出了現(xiàn)有技術(shù)的漢字分詞方法；圖2示出了本發(fā)明實(shí)施例的漢字輸入方法；圖3示出了本發(fā)明實(shí)施例中的漢字分詞方法；圖4示出了本發(fā)明實(shí)施例的漢字輸入裝置。
具體實(shí)施例方式為了便于本領(lǐng)域一般技術(shù)人員理解和實(shí)現(xiàn)本發(fā)明，現(xiàn)結(jié)合附圖描繪本發(fā)明的實(shí)施例。實(shí)施例一如圖2所示，本實(shí)施例提供了一種漢字輸入方法，包括如下步驟步驟21、獲取拼音串。步驟22、根據(jù)詞典對(duì)所述拼音串進(jìn)行切分以獲得拼音串的拼音子串，所述詞典包括詞條、詞條對(duì)應(yīng)的拼音、詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該詞條的出現(xiàn)概率、詞性、詞性之間的條件概率等。所述拼音子串可以是組成單個(gè)漢字的拼音子串，或者可以是組成詞的拼音子串。步驟23、從詞典中獲取與所述拼音子串對(duì)應(yīng)的候選詞條或候選字，以及該候選詞條或候選字對(duì)應(yīng)的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條或候選字的出現(xiàn)概率、詞性。為描述方便，將候選字或候選詞條統(tǒng)稱為候選詞條，詞和詞條是同一概念。步驟24、根據(jù)候選詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、該候選詞條的詞性自左向右計(jì)算每一候選詞條的權(quán)重；權(quán)重的計(jì)算公式如下Weight(Ai) = max (Weight (Ai^1) + (aX log (P (Ai | Ai^1)) +b X log (P (Ai)) +c X log (P ( Prop (Ai) I Prop (Ai^1))))其中，i = 1到M，M為拼音串被切分為單個(gè)漢字所對(duì)應(yīng)的拼音子串總的數(shù)目A 代表第i個(gè)位置的詞條，Weight(Ai)表示詞條&的權(quán)重，a、b、c是常數(shù)；P(AiIA^1)是指在詞條Ap1的條件下Ai出現(xiàn)的概率；P (Ai)是詞條Ai出現(xiàn)的概率，Prop(A)是詞A的詞性； P (Prop (Ai) Prop (AiJ)是在A^1的詞性Prop (AiJ出現(xiàn)的條件下Ai的詞性Prop (Ai)出現(xiàn) 的概率。由于上述公式用到了詞性，可大大增加組句的正確率。優(yōu)選地，為了計(jì)算候選詞條的權(quán)重，將這些候選詞條對(duì)應(yīng)的拼音子串按照輸入的順序前后排列起來(lái)。由于拼音串可切分成不同組合的各個(gè)拼音子串，即對(duì)拼音串可有多種切分方式，每一種切分方式使得拼音串由不同組合的拼音子串組成。這樣，切分后的這些不同組合的拼音子串可組成二維的矩陣，即可以看成一個(gè)NXM的矩陣。其中，N為在拼音串中從任意漢字位置開(kāi)始的最多可能的拼音子串的數(shù)目；M為拼音串被切分的拼音子串的最大數(shù)目，該數(shù)目為拼音串被切分為單個(gè)漢字所對(duì)應(yīng)的拼音子串總的數(shù)目。矩陣的每一個(gè)單元被稱為節(jié)點(diǎn)，節(jié)點(diǎn)的列為拼音子串對(duì)應(yīng)的詞的首個(gè)漢字的位置。這樣，矩陣的第一行的所有節(jié)點(diǎn)都存在，而其它行的某些節(jié)點(diǎn)可能不存在。每一個(gè)不為空的節(jié)點(diǎn)代表一個(gè)拼音子串，該拼音子串根據(jù)詞典可對(duì)應(yīng)一個(gè)或多個(gè)詞。將每一個(gè)拼音子串與其相鄰的下一拼音子串相連，就會(huì)將上述矩陣變?yōu)橐粋€(gè)圖。步驟25、從包括拼音串的最后拼音子串對(duì)應(yīng)的所有候選詞條的權(quán)重中，找出權(quán)重最大的候選詞條，根據(jù)該權(quán)重最大的候選詞條確定所述拼音串對(duì)應(yīng)的各個(gè)候選詞條。根據(jù)該權(quán)重最大的候選詞條確定所述拼音串對(duì)應(yīng)的各個(gè)候選詞條具體步驟如下從拼音串去除該權(quán)重最大候選詞條的拼音子串中，將該拼音子串作為當(dāng)前拼音串，從包括當(dāng)前拼音串的最后拼音子串對(duì)應(yīng)的所有候選詞條的權(quán)重中，找出權(quán)重最大的候選詞條，直到當(dāng)前拼音串包括最開(kāi)始的拼音子串為止，所得到的各個(gè)候選詞條即為拼音串對(duì)應(yīng)的各個(gè) 候選詞條。將這些候選詞條的組合作為輸入結(jié)果。下面以一個(gè)具體的例子來(lái)進(jìn)一步描述本發(fā)明。即以拼音串“shifengongli”為例來(lái)說(shuō)明本發(fā)明。假設(shè)詞典的內(nèi)容包括表1、表2和表3。其中，表1包括詞條、詞條對(duì)應(yīng)的拼音、詞條的出現(xiàn)概率和詞性等；表2包括其它詞條出現(xiàn)條件下該詞條的出現(xiàn)概率；表3包括包括詞性之間的條件概率。
表 權(quán)利要求
1.一種漢字輸入方法，其特征在于，包括獲取拼音串；根據(jù)詞典對(duì)所述拼音串進(jìn)行切分以獲得拼音串的拼音子串，所述詞典包括詞條、詞條對(duì)應(yīng)的拼音、詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該詞條的出現(xiàn)概率、詞性、詞性之間的條件概率；從詞典中獲取與拼音子串對(duì)應(yīng)的候選詞條，以及該候選詞條對(duì)應(yīng)的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、該候選詞條的詞性；根據(jù)候選詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、所述候選詞條的詞性自左向右計(jì)算每一候選詞條的權(quán)重；從包括拼音串的最后拼音子串對(duì)應(yīng)的所有候選詞條的權(quán)重中，找出權(quán)重最大的候選詞條，并根據(jù)該權(quán)重最大的候選詞條確定所述拼音串對(duì)應(yīng)的各個(gè)候選詞條，將這些候選詞條的組合作為輸入結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)候選詞條的出現(xiàn)概率、所述候選詞條條件下其它詞條出現(xiàn)的概率、所述候選詞條的詞性自左向右計(jì)算每一候選詞條的權(quán)重的計(jì)算公式如下Weight (Ai) = max (Weight (Ai^1) + (aX log (P (Ai | Ai^1)) +b X log (P (Ai)) +c X log (P (Prop (Ai) IProp(AiJ))))其中，i = 1到M，M為拼音串被切分為單個(gè)漢字所對(duì)應(yīng)的拼音子串的數(shù)目九代表第i個(gè)位置的詞條，Weight(Ai)表示詞條&的權(quán)重，a、b、c是常數(shù)；P(AiIU是指在詞條Ag的條件下Ai出現(xiàn)的概率；P(Ai)是詞條Ai出現(xiàn)的概率，Prop(A)是詞條A的詞性； P (Prop (Ai) Prop (AiJ)是在A^1的詞性Prop (AiJ出現(xiàn)的條件下Ai的詞性Prop (Ai)出現(xiàn) 的概率。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)該權(quán)重最大的候選詞條獲得所述拼音串對(duì)應(yīng)的各個(gè)候選詞條具體包括從拼音串去除該權(quán)重最大候選詞條的拼音子串中，將該拼音子串作為當(dāng)前拼音串，從包括當(dāng)前拼音串的最后拼音子串對(duì)應(yīng)的所有候選詞條的權(quán)重中，找出權(quán)重最大的候選詞條，直到當(dāng)前拼音串包括最開(kāi)始的拼音子串為止，所得到的各個(gè)候選詞條即為拼音串對(duì)應(yīng) 的各個(gè)候選詞條。
4.一種漢字輸入裝置，其特征在于，具體包括詞典，其包括詞條、詞條對(duì)應(yīng)的拼音、詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該詞條的出現(xiàn)概率、詞性、詞性之間的條件概率；第一獲取單元，用于獲取拼音串；切分單元，用于根據(jù)詞典對(duì)所述拼音串進(jìn)行切分以獲得拼音串的拼音子串；第二獲取單元，用于從詞典中獲取與拼音子串對(duì)應(yīng)的候選詞條，以及該候選詞條對(duì)應(yīng) 的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、該候選詞條的詞性、詞性之間的條件概率；計(jì)算單元，用于根據(jù)候選詞條的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、所述候選詞條的詞性自左向右計(jì)算每一候選詞條的權(quán)重；確定單元，用于從包括拼音串的最后拼音子串對(duì)應(yīng)的所有候選詞條的權(quán)重中，找出權(quán)重最大的候選詞條，并根據(jù)該權(quán)重最大的候選詞條確定所述拼音串對(duì)應(yīng)的各個(gè)候選詞條，將這些候選詞條的組合作為輸入結(jié)果。
5.根據(jù)權(quán)利要求4所述的裝置，其特征在于，所述計(jì)算單元使用如下公式 Weight (Ai) = max (Weight (Ai^1) + (aX log (P (Ai | Ai^1)) +b X log (P (Ai)) +c X log (P (Prop (Ai) IProp(AiJ))))其中，i = 1到M，M為拼音串被切分為單個(gè)漢字所對(duì)應(yīng)的拼音子串的數(shù)目九代表第i個(gè)位置的詞條，Weight(Ai)表示詞條Ai的權(quán)重，a、b、c是常數(shù)；^1)是指在詞條Ap1的條件下Ai出現(xiàn)的概率；P(Ai)是詞條Ai出現(xiàn)的概率，Prop(A)是詞A的詞性； P (Prop (Ai) Prop (AiJ)是在A^1的詞性Prop (AiJ出現(xiàn)的條件下Ai的詞性Prop (Ai)出現(xiàn) 的概率。
全文摘要
本發(fā)明的實(shí)施例提供了一種漢字輸入方法和裝置，可解決現(xiàn)有技術(shù)漢字輸入速度慢的問(wèn)題。所述方法包括獲取拼音串；根據(jù)詞典對(duì)所述拼音串進(jìn)行切分以獲得拼音串的拼音子串；根據(jù)詞典獲取與拼音子串對(duì)應(yīng)的候選詞條，以及該候選詞條對(duì)應(yīng)的出現(xiàn)概率、其它詞條出現(xiàn)條件下該候選詞條的出現(xiàn)概率、該候選詞條的詞性；根據(jù)上述候選詞條自左向右計(jì)算每一候選詞條的權(quán)重；并根據(jù)候選詞條的權(quán)重確定輸入結(jié)果。本發(fā)明的實(shí)施例，由于考慮了詞的詞性，由于詞性有一定的約束關(guān)系，通過(guò)這種約束關(guān)系，會(huì)提高了輸入拼音串對(duì)應(yīng)漢字的正確性，進(jìn)而提高了輸入速度。
文檔編號(hào)G06F3/023GK102103416SQ20091026106
公開(kāi)日2011年6月22日申請(qǐng)日期2009年12月17日優(yōu)先權(quán)日2009年12月17日
發(fā)明者李洋, 董恭謹(jǐn), 蔡衡申請(qǐng)人:新浪網(wǎng)技術(shù)(中國(guó))有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔡衡;董恭謹(jǐn);李洋
技術(shù)所有人：新浪網(wǎng)技術(shù)（中國(guó)）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

漢字輸入方法相關(guān)技術(shù)

五筆漢字輸入方法相關(guān)技術(shù)

漢字輸入編碼方法相關(guān)技術(shù)

漢字輸入一點(diǎn)通相關(guān)技術(shù)

漢字輸入一點(diǎn)通軟件相關(guān)技術(shù)

3ds漢字輸入相關(guān)技術(shù)

漢字輸入相關(guān)技術(shù)

三國(guó)志13漢字輸入相關(guān)技術(shù)

日文漢字輸入相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種漢字輸入方法和裝置的制作方法