一種文字輸入方法和裝置的制作方法

文檔序號：6334241閱讀：326來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種文字輸入方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及文字輸入技術(shù)領(lǐng)域，特別是涉及一種文字輸入方法和裝置。
背景技術(shù)：
隨著外文使用的增多，語言的使用開始互相滲透，中英混合已經(jīng)越來越成為一種用戶習慣。但是，現(xiàn)有輸入法提供的英文輸入模式、英文補全功能，仍然是涇渭分明地在中文和英文之間劃清了界線。這樣，用戶欲輸入一段中英混合文字，需要首先輸入中文，在輸入英文之前確認中文上屏，然后輸入英文、上屏英文，再接著輸入中文。比如使用中文拼音輸入法，要輸入“按住shift鍵”，需要先輸入“按住”然后確認上屏，再輸入“shift”，回車上屏，再輸入“鍵”，上屏，才能完成輸入。由于增加了中英文邊界處確認上屏的動作，因而相對于連貫輸入中文長句一次上屏的過程，上述中英混合文字的輸入效率就比較低，而且會打斷思維，降低整個寫作過程的效率。因而，文字輸入中一個新的需求是，如何使用戶在連貫的、不需要分段上屏的過程中輸入混合了中文、英文甚至其他語言的語句。有些輸入法通過設(shè)計某種特殊的操作來滿足這樣的需求，如搜狗拼音輸入法5. 0 版，支持通過在輸入串中夾雜大寫字母、實現(xiàn)中文中間夾雜大寫英文單詞的輸入。例如，可以通過鍵入“guankanNBAbisai，，來輸入“觀看NBA比賽”。為滿足中文中夾帶小寫英文單詞的需求，本專利發(fā)明人提出一種可以推行的中英混輸技術(shù)方案，該技術(shù)方案在完整輸入串中判別出英文子串后，將所述英文子串暫時從該完整輸入串中分離出來，而其他片段按照中文編碼規(guī)則解析出中文候選片段，然后把這些中文和英文的片段按照原有的順序連綴起來形成整個中英混合的候選。參照圖1，示出了該技術(shù)方案的流程圖，具體可以包括步驟101、針對完整輸入串進行全中文候選構(gòu)造；所述中文候選構(gòu)造，也即按照不支持中英文混合的方式構(gòu)造出候選，這個候選結(jié)果取決于輸入法的算法和數(shù)據(jù)；以完整輸入串“anzhushiffjian”為例，假設(shè)輸入法構(gòu)造出了唯一全匹配候選“按住是否條件”，并附帶給出了這個候選的“正確概率”，其中，所述“正確概率”用以表征其符合用戶需求的可能性。步驟102、識別英文子串，并依據(jù)該英文子串將所述完整輸入串分解為若干個片段；這里，可以使用子串匹配的相關(guān)技術(shù)，從所述完整輸入串中識別出英文子串。上例中可被識別出的英文子串是“shift”，對應(yīng)著輸入串第6個字母到第10個字母。將這個英文子串分離出來，則所述完整輸入串被分解成三個片段，依次為中文片段“anzhu”，英文片段“shift”，中文片段“jian”。步驟103、判別該英文子串屬于中文還是英文；通常情況下英文片段本身也可以按照中文編碼解釋為中文候選，因而判別結(jié)果應(yīng)該符合用戶的意圖。所述判別依據(jù)可以是上述完整輸入串中文候選項的“正確概率”大小，也可以是用戶以往的輸入習慣，還可以是shift這個英文片段本身的使用概率。步驟104、如果判別結(jié)果為中文，則直接使用上述的全中文候選結(jié)果；此種情況下，則輸入法提供的候選項為“按住是否條件”。步驟105、如果判別結(jié)果為英文，則對每個中文片段分別構(gòu)造中文；例如，“anzhu”這個中文片段可能構(gòu)造出中文候選“按住”，“jian”這個中文片段可能構(gòu)造出“見、煎、鍵...”等中文候選。步驟106、組合所有片段的候選。也即，按照原有片段順序，將步驟105中構(gòu)造的中文候選與原英文片段組合起來。在組合時，遇到一個中文片段具有多個中文候選的情形，則會選擇“正確概率”最大的那個中文候選；比如，上例中組合出來的中英候選可能會是“按住shift見”現(xiàn)有的中英混輸解決方法雖然能夠產(chǎn)生中英文混輸?shù)慕Y(jié)果，但由于在計算過程中把中文和英文是割裂開來分別處理，沒有考慮到它們之間可能的關(guān)聯(lián)關(guān)系，具體表現(xiàn)在，其直接把從中文片段匹配出的“正確概率”最大的中文候選和英文片段組合在一起，未必最有可能符合用戶意圖。上例中，雖然詞匯“見”的使用概率比“鍵”高，但“shift”和“見”字放在一起就不如把“ shift”和“鍵”放在一起合理?？傊?，需要本領(lǐng)域技術(shù)人員迫切解決的一個技術(shù)問題就是如何能夠產(chǎn)生符合用戶意圖的中英文混輸結(jié)果。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種文字輸入方法和裝置，能夠在類似中英混輸?shù)亩喾N語言滲透場景下，得到符合用戶需求的候選項。為了解決上述問題，本發(fā)明公開了一種文字輸入方法，包括預(yù)設(shè)以字母組成的語言文字與以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列之間的二元關(guān)系數(shù)據(jù)；接收用戶輸入；利用二元關(guān)系數(shù)據(jù)對用戶輸入進行分析，并生成包含以字母組詞的語言與以拼音和/或筆畫組成的文字語言混合的文字輸出。優(yōu)選的，所述用戶輸入為用戶通過鍵盤輸入的編碼字符串。優(yōu)選的，所述用戶輸入為手寫或語音輸入，所述方法還包括依據(jù)所述手寫或語音輸入，識別得到相應(yīng)的編碼字符串。優(yōu)選的，所述分析步驟包括利用二元關(guān)系數(shù)據(jù)，對所述生成的包含以字母組詞的語言與以拼音和/或筆畫組成的文字語言混合的文字候選項進行排序展示。優(yōu)選的，所述分析步驟包括從所述編碼字符串中識別出可能的字符切分結(jié)果，組詞得到候選項；基于所獲得候選項的預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對所述候選項進行排序展示。優(yōu)選的，所述分析步驟包括依據(jù)所述編碼字符串，切分得到相應(yīng)的字符切分結(jié)果；依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對所述字符切分結(jié)果進行第一排序；
依據(jù)所述字符切分結(jié)果，組詞得到相應(yīng)的候選項；基于所獲得候選項的預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對每種字符切分結(jié)果的候選項進行第二排序；依據(jù)所述第一排序和第二排序結(jié)果，對所述候選項進行排序展示。優(yōu)選的，所述依據(jù)字符切分結(jié)果，組詞得到候選項的步驟，包括依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)，獲得與所述字符切分結(jié)果相應(yīng)的候選項。優(yōu)選的，所述對候選項排序的步驟，包括按照位置順序，將所述候選項中第一個詞匯到最后一個詞匯的走向作為一個路徑；依據(jù)每個路徑中的鄰接詞匯，依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)獲取相應(yīng)的連接參數(shù)，并計算路徑概率；依據(jù)所述路徑概率，對所述候選項進行排序。優(yōu)選的，通過如下步驟識別出可能的字符切分結(jié)果從所述編碼字符串中匹配識別以字母組成的語言文字；基于剩余編碼字符串片段，匹配獲得相應(yīng)的以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列。優(yōu)選的，所述匹配識別以字母組成的語言文字的步驟，包括基于以字母組成的語言文字和以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列詞庫，在匹配以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列的同時，從所述編碼字符串中匹配出以字母組成的語言文字；或者，基于以字母組成的語言文字字典，從所述編碼字符串中識別出以字母組成的語言文字。優(yōu)選的，所述預(yù)設(shè)二元關(guān)系數(shù)據(jù)存儲于二元庫中；所述方法還包括在用戶選擇的候選項上屏后，如果所述上屏候選項中鄰接詞匯在二元庫中存在，則增強二元庫中所述鄰接詞匯的相鄰?fù)F(xiàn)概率；否則，將所述鄰接詞匯作為新的搭配關(guān)系添加到二元庫中，并增強二元庫中所述鄰接詞匯的相鄰?fù)F(xiàn)概率。優(yōu)選的，所述方法還包括在用戶選擇的候選項上屏后，如果所述上屏候選項和/或所述上屏候選項中詞匯在所述以字母組成的語言文字和以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列詞庫中存在，則增強該詞庫中所述上屏候選項和/或所述上屏候選項中詞匯的詞頻；否則，將所述上屏候選項和/或所述上屏候選項中詞匯作為新的詞匯添加到以字母組成的語言文字和字符序列詞庫中，并增強所述上屏候選項和/或所述上屏候選項中詞匯的詞頻。優(yōu)選的，所述預(yù)設(shè)二元關(guān)系數(shù)據(jù)包括二元和二元以上的關(guān)系數(shù)據(jù)。依據(jù)另一實施例、本發(fā)明還公開了一種文字輸入裝置，包括二元預(yù)設(shè)單元，用于預(yù)設(shè)以字母組成的語言文字與以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列之間的二元關(guān)系數(shù)據(jù)；
輸入接口單元，用于接收用戶輸入；分析單元，用于利用二元關(guān)系數(shù)據(jù)對用戶輸入進行分析，并生成包含以字母組詞的語言與以拼音和/或筆畫組成的文字語言混合的文字輸出。優(yōu)選的，所述用戶輸入為用戶通過鍵盤輸入的編碼字符串。優(yōu)選的，所述用戶輸入為手寫或語音輸入，所述裝置還包括字符串識別單元，用于依據(jù)所述手寫或語音輸入，識別得到相應(yīng)的編碼字符串。優(yōu)選的，所述分析單元包括排序展示子單元，用于利用二元關(guān)系數(shù)據(jù)，對所述生成的包含以字母組詞的語言與以拼音和/或筆畫組成的文字語言混合的文字候選項進行排序展示。優(yōu)選的，所述分析單元包括識別子單元，用于從所述編碼字符串中識別出可能的字符切分結(jié)果；組詞子單元，用于根據(jù)所述字符切分結(jié)果，組詞得到候選項；第一排序展示子單元，用于基于所獲得候選項的預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對所述候選項進行排序展示。優(yōu)選的，所述分析單元包括音節(jié)切分子單元，用于依據(jù)所述編碼字符串，切分得到相應(yīng)的字符切分結(jié)果；第一排序子單元，用于依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對與所述編碼字符串相應(yīng)的字符切分結(jié)果進行第一排序；組詞子單元，用于依據(jù)所述字符切分結(jié)果，組詞得到相應(yīng)的候選項；第二排序子單元，用于基于所獲得候選項的預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對每種字符切分結(jié)果的候選項進行第二排序；第二排序展示子單元，用于依據(jù)所述第一排序和第二排序結(jié)果，對所述候選項進行排序展示。優(yōu)選的，所述組詞子單元，具體用于依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)，獲得與所述字符切分結(jié)果相應(yīng)的候選項。優(yōu)選的，所述第一排序展示子單元包括路徑獲取模塊，用于按照位置順序，將所述候選項中第一個詞匯到最后一個詞匯的走向作為一個路徑；計算子模塊，用于依據(jù)每個路徑中的鄰接詞匯，依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)獲取相應(yīng)的連接參數(shù)，并計算路徑概率；排序模塊，用于依據(jù)所述路徑概率，對所述候選項進行排序展示。優(yōu)選的，所述識別子單元包括語言文字識別模塊，用于從所述編碼字符串中匹配識別以字母組成的語言文字；匹配模塊，用于基于剩余編碼字符串片段，匹配獲得相應(yīng)的以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列。優(yōu)選的，所述語言文字識別模塊，具體用于基于以字母組成的語言文字和以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列詞庫，在匹配以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列的同時，從所述編碼字符串中匹配出以字母組成的語言文字；或者，基于以字母組成的語言文字字典，從所述編碼字符串中識別出以字母組成的語言文字。
優(yōu)選的，所述裝置還包括二元庫，用于存儲所述預(yù)設(shè)二元關(guān)系數(shù)據(jù)；二元庫更新單元，用于在用戶選擇的候選項上屏后，如果所述上屏候選項中鄰接詞匯在二元庫中存在，則增強二元庫中所述鄰接詞匯的相鄰?fù)F(xiàn)概率；否則，將所述鄰接詞匯作為新的搭配關(guān)系添加到二元庫中，并增強二元庫中所述鄰接詞匯的相鄰?fù)F(xiàn)概率。優(yōu)選的，所述裝置還包括詞庫更新單元，用于在用戶選擇的候選項上屏后，如果所述上屏候選項和/或所述上屏候選項中詞匯在所述以字母組成的語言文字和以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列詞庫中存在，則增強該詞庫中所述上屏候選項和/或所述上屏候選項中詞匯的詞頻；否則，將所述上屏候選項和/或所述上屏候選項中詞匯作為新的詞匯添加到以字母組成的語言文字和以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列詞庫中，并增強所述上屏候選項和/或所述上屏候選項中詞匯的詞頻。優(yōu)選的，所述預(yù)設(shè)二元關(guān)系數(shù)據(jù)包括二元和二元以上的關(guān)系數(shù)據(jù)。與現(xiàn)有技術(shù)相比，本發(fā)明具有以下優(yōu)點本發(fā)明利用預(yù)設(shè)的二元關(guān)系數(shù)據(jù)對用戶輸入的編碼字符串進行分析，并對由該編碼字符串生成的候選項進行排序展示。由于二元關(guān)系數(shù)據(jù)能夠反映兩個詞匯鄰接使用的概率，因而，在類似中英混輸?shù)亩喾N語言滲透場景下，最終的候選項排序結(jié)果，能夠考慮候選項中各種鄰接詞匯搭配的合理性，因而，排在前面的一個或幾個候選項最有可能符合用戶需求。例如，本發(fā)明可以分析得到的中文詞匯和英文詞匯為素材，組詞得到全中文候選項、中英文混合候選項和/或全英文候選項；或者，依據(jù)中/英詞匯和/或英/英詞匯的二元關(guān)系數(shù)據(jù)，分析得到相應(yīng)的中文詞匯、英文詞匯和/或中英混合詞，或者，英文詞匯和/或中英混合詞，進而得到中英文混合候選項和/或全英文候選項。然后，以候選項作為路徑，依據(jù)相應(yīng)二元關(guān)系數(shù)據(jù)，從多個路徑中選擇最佳路徑為首選項進行展示，或者，選取排在前面的若干個路徑作為候選項進行展示。再者，相對于背景技術(shù)，對于是否采用中英文混輸?shù)呐袆e，主要以編碼字符串全中文候選項的“正確概率”大小為依據(jù)，由于沒有考慮到中英之間的關(guān)聯(lián)，而增加錯判概率的問題；本發(fā)明是輸出中英文混合候選項，還是全中文候選項或全英文候選項，是以所有候選項的路徑概率為依據(jù)的，因此，能夠提高判斷的準確性，從而能夠在判斷的基礎(chǔ)上，展示更為準確、更符合用戶需求的候選項。

圖1是背景技術(shù)一種中英混輸技術(shù)方案的流程圖；圖2是本發(fā)明一種文字輸入方法實施例1的流程圖；圖3是本發(fā)明一種文字輸入方法實施例2的流程圖；圖4是本發(fā)明一種文字輸入方法的應(yīng)用示例；圖5是本發(fā)明一種文字輸入方法實施例3的流程10
圖6是本發(fā)明一種文字輸入方法實施例4的流程圖；圖7是本發(fā)明另一種文字輸入方法的應(yīng)用示例；圖8是本發(fā)明一種文字輸入裝置實施例的結(jié)構(gòu)圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。
背景技術(shù)：
的可以推行方案，直接把從中文片段匹配出的“正確概率”最大的中文候選和英文片段組合在一起，得到中英候選；上述直接組合，使得中英候選的組合邊界處缺少中文詞匯和英文片段之間的關(guān)聯(lián)關(guān)系，因而所述中英候選未必最有可能符合用戶需求。本發(fā)明的核心構(gòu)思之一在于，依據(jù)所述英文片段，以及，與所述中文片段相應(yīng)的中文詞匯，組詞得到中英文混合候選項，并依據(jù)鄰接詞匯的二元關(guān)系對所述中英文混合候選項進行排序展示；這樣，最終的排序結(jié)果，不僅能夠考慮被英文片段分隔開的中文片段本身的概率，而且能夠考慮中英文之間搭配的合理性，因而，排在前面的一個或幾個中英文混合候選項最有可能符合用戶需求。參照圖2，示出了本發(fā)明一種文字輸入方法實施例1的流程圖，具體可以包括步驟201、預(yù)設(shè)以字母組成的語言文字與以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列之間的二元關(guān)系數(shù)據(jù)；本發(fā)明實施例中，所述預(yù)設(shè)二元關(guān)系可以包括二元和二元以上的關(guān)系數(shù)據(jù)。二元關(guān)系，又稱2-gram，用于表示兩個元素相繼出現(xiàn)的概率，在輸入法領(lǐng)域，這里的元素可以是音素、音節(jié)、筆畫字符串、字母或單詞等。本發(fā)明中，所述二元主要可以包括詞匯的二元關(guān)系和音節(jié)的二元關(guān)系，音素和字母的二元關(guān)系請參照即可。二元以上的關(guān)系則用于表示兩個以上元素相繼出現(xiàn)的概率，例如，可用三元關(guān)系表示詞匯“按住”、“shift”和“鍵”相繼出現(xiàn)的概率。以下主要以二元關(guān)系為例進行說明，二元以上的關(guān)系請參照即可。對于詞匯，其二元關(guān)系數(shù)據(jù)主要用于反映兩個詞匯鄰接使用的概率。一方面，所述詞匯可以包括以字母組成的語言文字，其可以是鍵盤上印刷的字母組成的單詞、詞組、短語，具體可以適用于英文、法文、德文等；另一方面，所述詞匯還可以包括以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列，這里，所述以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列可以包括拼音對應(yīng)的字詞、筆畫對應(yīng)的字詞等，具體可以適用于中文、日文、韓文等。對于音節(jié)，其二元關(guān)系數(shù)據(jù)主要用于反映兩個音節(jié)鄰接使用的概率，這里的音節(jié)主要包括中文音節(jié)等?？梢岳斫?，所述以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列還可以包括拼音串等，其中，所述拼音串可被應(yīng)用于音節(jié)的二元關(guān)系。另外，所述以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列還可以包括筆畫對應(yīng)的筆畫字符串，此時，所述筆畫字符串可被應(yīng)用于筆畫字符串的二元關(guān)系。因此，所述拼音和/或筆畫組成的文字語言與字符序列之間的對應(yīng)關(guān)系，不僅可以包括拼音和/或筆畫到詞匯的映射，此時，所述字符序列即是詞匯；還可以包括拼音到音節(jié)和/或筆畫字符串的映射，此時，所述字符序列即可以包括音節(jié)、筆畫序列等。下面主要以英文詞匯之間的二元關(guān)系，和/或，英文詞匯與中文詞匯之間的二元關(guān)系為例，也即，分別將英文詞匯、中文詞匯作為單詞和字符序列的例子，以說明如何克服背景技術(shù)中英文混輸方案的缺陷，其它詞匯請參照即可。另外，下面還對中文音節(jié)和筆畫字符串之間的二元關(guān)系進行說明。為保證二元關(guān)系數(shù)據(jù)的準確性、代表性，在本發(fā)明的一種優(yōu)選實施例中，可以采用同一語料庫對中/英詞匯和/或英/英詞匯和/或中/中詞匯的二元關(guān)系數(shù)據(jù)進行統(tǒng)計，得到二元庫。其中，所述語料庫可以為基于網(wǎng)絡(luò)爬蟲技術(shù)獲取的互聯(lián)網(wǎng)語料庫，也可以為云計算輸入法積累的語料庫；另外，所述互聯(lián)網(wǎng)可以為互聯(lián)網(wǎng)博客語料庫、互聯(lián)網(wǎng)新聞?wù)Z料庫和/或互聯(lián)網(wǎng)論壇語料庫等等，本發(fā)明對具體的語料庫不加以限制。為反映兩個詞匯鄰接使用的概率，在具體實現(xiàn)中，可以采用所述二元庫存儲兩個詞匯的搭配關(guān)系和連接參數(shù)；其中，所述兩個詞匯可以包括中文詞匯和中文詞匯，中文詞匯和英文詞匯，英文詞匯和中文詞匯，以及，英文詞匯和英文詞匯，等等。表1
搭配關(guān)系連接參數(shù)
按住-shift 0. 8732 shift-鍵0. 9578
案-住0.0023
安-主0.0018
go-shopping 0.8769 ~I-see0. 9854參照表1，示出了本發(fā)明一種二元庫的片段示例，這里，第一列表示兩個詞匯之間的搭配關(guān)系，第二列表示所述搭配關(guān)系的連接參數(shù)；進一步，所述連接參數(shù)可以包括相鄰?fù)F(xiàn)概率、同現(xiàn)頻率或連接強度值等，其中，所述相鄰?fù)F(xiàn)概率可依據(jù)所述語料庫統(tǒng)計獲得，所述同現(xiàn)概率可依據(jù)兩個詞匯的相鄰?fù)F(xiàn)概率以及所述兩個詞匯的詞頻計算獲得，所述連接強度值可依據(jù)兩個詞匯的相鄰?fù)F(xiàn)概率和同現(xiàn)概率計算獲得?？梢岳斫?，所述連接參數(shù)可以是任一種表明詞匯搭配關(guān)系強度的數(shù)值，本發(fā)明對此不加以限制。另外，所述二元庫的形式可以根據(jù)需要任意設(shè)置，本發(fā)明對此不作限定。步驟202、接收用戶輸入；步驟203、利用二元關(guān)系數(shù)據(jù)對用戶輸入進行分析，并生成包含以字母組詞的語言與以拼音和/或筆畫組成的文字語言混合的文字輸出。在本發(fā)明的一種優(yōu)選實施例中，所述分析步驟可以包括利用二元關(guān)系數(shù)據(jù)，對所述生成的包含以字母組詞的語言與以拼音和/或筆畫組成的文字語言混合的文字候選項進行排序展示。本具體實現(xiàn)中，所述用戶輸入可以為用戶通過鍵盤輸入的編碼字符串；或者，所述用戶輸入還可以為手寫或語音輸入，此時，所述方法還包括依據(jù)所述手寫或語音輸入，識別得到相應(yīng)的編碼字符串。
針對所述編碼字符串，本發(fā)明可以提供如下分析方案方案一、所述步驟203可以首先從所述編碼字符串中識別出可能的切分結(jié)果，組詞得到候選項；然后，基于所獲得候選項的預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對所述候選項進行排序展示。以編碼字符串“anzhushiftjian”為例，最終識別的切分結(jié)果可能包括中文詞匯、英文詞匯和中英文混合詞等，這樣，可以組詞得到相應(yīng)的中英文混合候選項和/或全英文和/或全中文候選項，然后依據(jù)這些候選項中鄰接詞匯的二元關(guān)系數(shù)據(jù)進行候選項的排序展示，其中，所述鄰接詞匯可以包括中中、中英、英中、英英等搭配關(guān)系。方案二、所述步驟203具體可以包括子步驟Si、依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對與所述編碼字符串相應(yīng)的字符切分結(jié)果進行第一排序；以編碼字符串“anzhushiftjian”為例，假設(shè)其有多種字符切分結(jié)果，且每種字符切分結(jié)果具有多個相應(yīng)的候選項；則子步驟Sl可以通過第一排序，得到排在前 4 位的字符切分結(jié)果，依次為“an，zhu，shift，jian,\"an' zhu，shi，f，t，jian，，、 ‘‘a(chǎn)n，zhu，shift，ji，an”、‘‘a(chǎn)n，zhu，shi，f' t，ji，an”。子步驟S2、依據(jù)所述字符切分結(jié)果，組詞得到相應(yīng)的候選項；通常情況下，可以首先為所述字符切分結(jié)果中的每個切分片段匹配出詞匯，然后，對于每個詞匯，都按照其所由來的切分片段在整個字符切分結(jié)果中的位置，依序整理得到候選項。在本發(fā)明的一種優(yōu)選實施例中，還可以依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)，獲得與所述字符切分結(jié)果相應(yīng)的候選項。以字符切分結(jié)果‘‘a(chǎn)n，zhu' shift，jian”為例，由于可以為切分片段‘‘shift”匹配得到詞匯“shift”，而與“jian”相匹配的詞匯有多個，此時，如果“shift”與詞匯“鍵”的連接參數(shù)值高于其它詞匯，則可以直接組詞得到“shift鍵”；這樣最終得到的候選項可用包括 “an”的中文詞匯+ "zhu"的中文詞匯+中英混合詞("shift鍵”)。而對于“jian”的其它詞匯，如“見”、“件、“間”等，由于其與“shift”的連接參數(shù)低，故可以直接丟棄，以減少候選項的數(shù)目，從而減少子步驟S3的排序工作量。子步驟S3、基于所獲得候選項的預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對每種字符切分結(jié)果的候選項進行第二排序；假設(shè)“an，zhu' shift，jian”的候選項有5個，按照前后順序分別為“按住shift 鍵”、“按住shift見”、“按住shift煎”、“案住shift鍵”、“俺住shift鍵”，這里則是對所述 5個候選項進行排序。又如，排在前5位的“an，zhu' shi，f，t，jian”的候選項依次為“按住是否推薦”、“按住是否聽見”、“按住是飯團煎”、“按住示范田見”、“安駐示范田見”。子步驟S4、依據(jù)所述第一排序和第二排序結(jié)果，對所述候選項進行排序展示。以候選項“按住shift鍵”為例，由于其所屬字符切分結(jié)果“an，zhu' shift，jian" 的第一排序結(jié)果為“ 1 ”，其第二排序結(jié)果為“ 1 ”，則其總排序結(jié)果為“ 1” ；同理，候選項“按住示范田見”的總排序結(jié)果為“5+4 = 9”。
以上對分析的兩種方案進行了詳細介紹，可以理解，本領(lǐng)域技術(shù)人員可以根據(jù)需要聯(lián)合使用所述兩種方案，或者，使用其中任一種方案，另外，除了上述幾種方案，本領(lǐng)域技術(shù)人員還可以采用其它分析方案，本發(fā)明對此不加以限制。以上分析方案可以適用于各種拼音對應(yīng)的編碼字符串，而對于筆畫對應(yīng)的編碼字符串(也即筆畫字符串)，其二元關(guān)系數(shù)據(jù)可以包括A、單詞與筆畫字符串組成二元關(guān)系數(shù)據(jù)；B、單詞與筆畫字符串對應(yīng)的文字組成的二元關(guān)系數(shù)據(jù)等。例如，用戶欲采用五筆輸入法輸入“按住shift鍵”，則對應(yīng)的筆畫字符串應(yīng)該為 "rpv' wygg' shift，qvfp，，，則A的二元關(guān)系數(shù)據(jù)可能為，shift，qvfp,而B的二元關(guān)系數(shù)據(jù)可能是“shift鍵”，因此用戶輸入上述字符串之后，雖然有多種五筆結(jié)果，但是利用二元關(guān)系，可以將“，shift，qvfp”優(yōu)先對應(yīng)“shift鍵”。需要說明的是，如果候選項中含有兩個或兩個以上英文詞匯緊鄰在一起，在上屏時可以自動設(shè)置一個規(guī)則，也即，自動在相鄰的英文詞匯之間增加一個空格，本發(fā)明對具體的規(guī)則不加以限制。假設(shè)用戶輸入為“thisissougou”，且用戶選擇了 “thisis搜狗”候選項，則在上屏時，可以根據(jù)上述設(shè)置的規(guī)則，為用戶輸出“this is搜狗”。可以理解，還可以設(shè)置英文詞匯的首字母大寫等規(guī)則，本發(fā)明對此不加以限制。由于所述二元關(guān)系數(shù)據(jù)依據(jù)同一語料庫得到，而所述語料庫能夠準確反映用戶在語言使用上的趨勢，故可以保證連接參數(shù)的準確性、代表性，因而，最終的排序結(jié)果，能夠考慮各種鄰接詞匯搭配的合理性，因而，排在前面的一個或幾個候選項最有可能符合用戶需求。參照圖3，示出了本發(fā)明一種文字輸入方法實施例2的流程圖，具體可以包括步驟301、接收用戶輸入的編碼字符串；步驟302、從所述編碼字符串中識別出可能的英文詞匯和中文詞匯；隨著外文使用的增多，用戶已習慣使用多種語言的互相滲透，例如，中國人習慣將英文滲透到中文中，而外國人習慣在英文中滲透中文等，本實施例意在此場景下產(chǎn)生符合用戶需求的候選項。本實施例與實施例1的區(qū)別之一在于，針對所述編碼字符串識別出可能的英文詞匯和中文詞匯，并依此為素材組詞得到中英混合候選項。在本發(fā)明的一種優(yōu)選實施例中，所述步驟302具體可以包括子步驟Al、從所述編碼字符串中匹配識別英文詞匯；子步驟A2、基于剩余編碼字符串片段，匹配獲得相應(yīng)的中文詞匯。以編碼字符串“anzhushiftjian”為例，子步驟Al則是從中匹配識別出英文詞匯 “shift”，而子步驟A2則是找出剩余編碼字符串片段中可匹配中文詞匯的輸入串片段，并把從它們匹配出的中文詞匯都提取出來。優(yōu)選的，本發(fā)明可以提供如下子步驟Al的實現(xiàn)方案方案一、基于中英混合詞庫，在匹配中文詞匯的同時，從所述編碼字符串中匹配出英文詞匯；以拼音輸入法為例，一個普通的中文詞庫可以包括如下詞匯片段
[ni]你，倪，擬，昵...[ni，hao]你好，擬好[ni，jiu]你就，擬就[ni，kan]你看邏輯上，所述中文詞庫也即包括讀音串(比如[ni'hao])及相應(yīng)的若干同音詞匯，其中，每一個同音詞匯可由若干個字符組成，這里，一個漢字就是一個字符。由于英文詞匯也是由若干字符組成的，只不過英文詞匯只是用了沈個字符，而中文詞有幾千個字符；并且，對于計算機而言，不管是中文字符還是英文字符，都是字符。因此，本方案采用中英混合詞庫，也即，在中文詞庫中增加英文詞匯，將英文詞匯看作中文詞匯?？紤]到中文字符具有對應(yīng)的讀音，英文字符沒有讀音的情形，本方案在具體實現(xiàn)時，為每個英文字符設(shè)置相應(yīng)的讀音，例如，a和A的讀音設(shè)為[A]，b和B的讀音設(shè)為[B]，以此類推，為英文沈個字符的大小寫形式設(shè)置讀音。這樣，中英混合詞庫中可以包括如下詞匯片段[N，E，V，E，R]never[N，0]no[N' E' W] new[ni]你，倪，擬，昵...[ni，hao]你好，擬好[ni，jiu]你就，擬就[ni，kan]你看這樣，在采用上述中英混合庫，為所述編碼字符串匹配詞匯時，拼音輸入法首先把編碼字符串解析成讀音串，然后使用這個讀音串去中英混合庫中尋找如此讀音的詞匯。例如，可以將“nihao”解析成[ni，hao]、[N，I，H，A，0]兩種讀音串，其中，中英混合庫中具有與[ni’ hao]相匹配的詞匯你好，擬好，而沒有與[N’ I’ H’ A’ 0]相匹配的詞匯。又如，可以將“new”解析成[N’ E’ W] 一種讀音串，并且，可以在中英混合庫中匹配到發(fā)音為[N’ E’ W]的詞匯new。方案二、基于英文字典，從所述編碼字符串中識別出英文詞匯。本方案可以基于子串匹配技術(shù)，從所述編碼字符串中識別出英文詞匯，其中，哪一段子串被識別為英文詞匯取決于輸入法所使用的數(shù)據(jù)和算法，例如，所述數(shù)據(jù)可以為英文字典數(shù)據(jù)?？梢岳斫猓景l(fā)明并不限于上述兩種“從所述編碼字符串中匹配識別英文詞匯”的方案，本領(lǐng)域技術(shù)人員可以根據(jù)需要，采用其它方案。步驟303、組詞得到中英文混合候選項；對于識別得到的每個詞匯，都可按照其所由來的字符串片段在整個編碼字符串中的位置，依序整理。組詞算法就是組建所有從某個對應(yīng)于編碼字符串最左端片段的詞匯沿著詞匯走到某個對應(yīng)著編碼字符串最右端片段的詞匯的多個路徑。參照圖4，在本發(fā)明的一種應(yīng)用示例中，示出了編碼字符串“anzhushiftjian”的
15編碼字符串詞匯，相應(yīng)的組詞結(jié)果可以包括多個中英文混合候選項“案住shift見”、“案住shift煎”、“案住shift鍵”、“按住shift見”、“按住shift鍵”等。步驟304、基于所獲得候選項的中/英詞匯和/或英/英詞匯的二元關(guān)系數(shù)據(jù)，對候選項進行排序展示。所述排序的目的是從多個路徑中選擇最佳路徑為首選項進行展示，或者，選取排在前面的若干個路徑作為候選項進行展示。在本發(fā)明的一種優(yōu)選實施例中，所述步驟204具體可以包括子步驟Bi、按照位置順序，將所述中英文混合候選項中第一個詞匯到最后一個詞匯的走向作為一個路徑；子步驟B2、依據(jù)每個路徑中的鄰接詞匯，在二元庫中獲取相應(yīng)的連接參數(shù)，并計算路徑概率；子步驟B3、依據(jù)所述路徑概率，對所述中英文混合候選項進行排序。這樣，在所述連接參數(shù)為相鄰?fù)F(xiàn)概率時，所述子步驟B2計算路徑概率的過程可以為，依據(jù)每個路徑中鄰接詞匯的相鄰?fù)F(xiàn)概率，計算路徑概率。例如，“按住shift鍵”的路徑概率計算如下P( “按住”)*P( “按住-shift” |”按住”)*卩(“shift-鍵” |” shift，，)其中，P( “按住”)代表“按住”的出現(xiàn)概率，在實際中可用“按住”的詞頻來表示； P( “按住-Shift” I”按住”)代表當出現(xiàn)“按住”時，“按住-shift ”出現(xiàn)的概率，在本發(fā)明中可用“按住”和“shift”的相鄰?fù)F(xiàn)概率來表示；P( “Shift-鍵” I ” shift”)代表當出現(xiàn) “shift”時，"shift-鍵”出現(xiàn)的概率，在本發(fā)明中可用“shift”和“鍵”的相鄰?fù)F(xiàn)概率來表不。由于所述二元關(guān)系數(shù)據(jù)依據(jù)同一語料庫得到，而所述語料庫能夠準確反映用戶在語言使用上的趨勢，故可以保證連接參數(shù)的準確性、代表性，因而，依據(jù)所述連接參數(shù)計算得到的路徑概率也能夠準確反映意圖；例如，在“按住shift鍵”的路徑概率比其他路徑概率高時，表明它最優(yōu)可能符合用戶需求，因此，可將其作為首選項展示給用戶。另外，還可以將路徑概率最高的若干個中英文混合候選項展示給用戶，本發(fā)明對此不加以限制。以上主要以拼音輸入法為例對詞匯的匹配、組詞和排序過程進行了介紹，可以理解，本發(fā)明并不限制于拼音輸入法，而是可以適用于任何有重碼的中文輸入法編碼方案。在本發(fā)明的一種優(yōu)選實施例中，還可以根據(jù)用戶選擇的候選項對二元庫進行更新，相應(yīng)地，所述文字輸入方法還可以包括在用戶選擇的候選項上屏后，如果所述上屏候選項中鄰接詞匯在二元庫中存在，則增強二元庫中所述鄰接詞匯的相鄰?fù)F(xiàn)概率；否則，將所述鄰接詞匯作為新的搭配關(guān)系添加到二元庫中，并增強二元庫中所述鄰接詞匯的相鄰?fù)F(xiàn)概率。假設(shè)“按住shift鍵”被用戶選擇上屏，則可以將其中的“按住shift”、“shift鍵” 作為新的搭配關(guān)系添加至二元庫，并增強相應(yīng)的相鄰?fù)F(xiàn)概率；可以理解，并不一定添加或更新所有的鄰接詞匯，而是應(yīng)該從中選擇用戶常用的。在本發(fā)明的另一種優(yōu)選實施例中，還可以根據(jù)用戶選擇的候選項對詞庫進行更新，相應(yīng)地，所述文字輸入方法還可以包括
1
在用戶選擇的候選項上屏后，如果所述上屏候選項和/或所述上屏候選項中詞匯在所述以字母組成的語言文字和以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列詞庫中存在，則增強該詞庫中所述上屏候選項和/或所述上屏候選項中詞匯的詞頻；否則，將所述上屏候選項和/或所述上屏候選項中詞匯作為新的詞匯添加到以字母組成的語言文字和字符序列詞庫中，并增強所述上屏候選項和/或所述上屏候選項中詞匯的詞頻。參照圖5，示出了本發(fā)明一種文字輸入方法實施例3的流程圖，具體可以包括步驟501、接收用戶輸入的編碼字符串；步驟502、從所述編碼字符串中識別出可能的字符切分結(jié)果，并依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)，獲得與所述字符切分結(jié)果相應(yīng)的中英文混合候選項和/或全英文候選項；本實施例與實施例2的區(qū)別之一在于，還可以依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)，獲得與所述字符切分結(jié)果相應(yīng)的候選項。以字符切分結(jié)果“an，zhu' shift，jian”為例，由于可以為切分片段“shift”匹配得到詞匯“shift”，而與“jian”相匹配的詞匯有多個，此時，如果“shift”與詞匯“鍵”的連接參數(shù)值高于其它詞匯，則可以直接組詞得到“shift鍵”；這樣最終得到的中英文混合候選項可用包括“an”的中文詞匯+ "zhu"的中文詞匯+中英混合詞("shift鍵”)。又如，針對編碼字符串“anzhuspaceshift jian”，可以基于二元關(guān)系數(shù)據(jù)得到 “shift鍵”，以及，最終得到的中文混合候選項可以包括中文詞匯、英文詞匯(space)和中英混合詞(“shift鍵”)?；蛘撸槍幋a字符串“goshopping”，可以基于二元關(guān)系數(shù)據(jù)直接得到全英文候選項"go shopping，，。步驟503、基于所獲得候選項的中/英詞匯和/或英/英詞匯的二元關(guān)系數(shù)據(jù)，對所述候選項進行排序展示。與全中文、中英文混合的情況相似，如果組詞結(jié)果是全英文候選項，由于其是多個詞匯的連綴，所以輸入goshopping就能夠出現(xiàn)goshopping的候選項。與中英文混合候選項的排序步驟類似，也是依據(jù)路徑概率對所述中英文混合候選項和/或全英文候選項進行排序，例如，全英文候選項“go shopping"的路徑概率計算如下P( “go”)*P( "goshopping” "go")其中，P( “go”)代表“go”的出現(xiàn)概率，在實際中可用“按住”的詞頻來表示； P( “goshopping” I” go”)則代表當出現(xiàn)“go”時，“goshopping”出現(xiàn)的概率，在本發(fā)明中可用“go”和“shopping”的相鄰?fù)F(xiàn)概率來表示。參照圖6，示出了本發(fā)明一種文字輸入方法實施例3的流程圖，具體可以包括步驟601、接收用戶輸入的編碼字符串；步驟602、從所述編碼字符串中匹配識別英文詞匯；步驟603、依據(jù)所述編碼字符串，匹配獲得相應(yīng)的中文詞匯；步驟604、基于所獲得的中文詞匯和英文詞匯，組詞得到全中文候選項、中英文混合候選項和/或全英文候選項；步驟605、基于所獲得候選項的中/中詞匯、中/英詞匯和/或英/英詞匯的二元關(guān)系數(shù)據(jù)，對所述候選項進行排序展示。本實施例與實施例2的區(qū)別之一在于，分別依據(jù)所述編碼字符串，匹配獲得所有的中文詞匯和英文詞匯，也即，步驟502和步驟503可以同時執(zhí)行；這樣，最終排序的候選項可以包括全中文候選項、中英文混合候選項和/或全英文候選項多種。參照圖7，在本發(fā)明的一種應(yīng)用示例中，示出了編碼字符串“anzhushiftjian”的編碼字符串詞匯，相應(yīng)的組詞結(jié)果可以包括多個全中文候選項和多個中英文混合候選項。作為本發(fā)明的另一種應(yīng)用示例，編碼字符串“goshopping”的組詞結(jié)果可以包括多個全中文候選項、多個中英文混合候選項，以及，一個全英文候選項。由于所述全中文候選項、中英文混合候選項和/或全英文候選項，是依據(jù)相同的算法和數(shù)據(jù)集(中文詞匯和英文詞匯)得到的，而且，同樣根據(jù)路徑概率對二者進行候選項排序。因此，相對于背景技術(shù)，對于是否采用中英文混輸?shù)呐袆e，主要以編碼字符串全中文候選項的“正確概率”大小為依據(jù)，由于沒有考慮到中英之間的關(guān)聯(lián)，而導(dǎo)致錯判的問題；本發(fā)明是輸出中英文混合候選項，還是全中文候選項或全英文候選項，是以所有候選項的路徑概率為依據(jù)的，因此，能夠提高判斷的準確性，從而能夠在判斷的基礎(chǔ)上，展示更為準確、更符合用戶需求的候選項。例如，當全中文候選項概率較高，但中英文混合候選項概率更高的時候，本發(fā)明可以給出更正確、更符合用戶需求的中英文混輸候選，而背景技術(shù)方案中可能因為全中文候選項的較高概率而放棄中英文混合候選項。需要說明的是，在中英文混合候選項概率較高，但全中文候選項概率更高的時候，本發(fā)明也會將更正確、更符合用戶需求的全中文候選項排在前面。與前述方法實施例相應(yīng)，本發(fā)明還公開了一種文字輸入裝置，參照圖8，具體可以包括二元預(yù)設(shè)單元801，用于預(yù)設(shè)以字母組成的單詞與單詞之間或者以字母組成的單詞與以拼音、筆畫所映射的字符序列之間的二元關(guān)系數(shù)據(jù)；輸入接口單元802，用于接收用戶輸入；分析單元803，用于利用二元關(guān)系數(shù)據(jù)對用戶輸入進行分析，并生成包含以字母組詞的語言與以拼音和/或筆畫組成的文字語言混合的文字輸出。本發(fā)明實施例中，所述預(yù)設(shè)二元關(guān)系可以包括二元和二元以上的關(guān)系數(shù)據(jù)。以下主要以二元關(guān)系為例進行說明，二元以上的關(guān)系請參照即可。在實際中，所述用戶輸入可以為用戶通過鍵盤輸入的編碼字符串；或者，所述用戶輸入還可以為手寫或語音輸入，此時，所述裝置還可以包括字符串識別單元，用于依據(jù)所述手寫或語音輸入，識別得到相應(yīng)的編碼字符串。在本發(fā)明的一種優(yōu)選實施例中，所述分析單元可以包括排序展示子單元，用于利用二元關(guān)系數(shù)據(jù)，對所述生成的包含以字母組詞的語言與以拼音和/或筆畫組成的文字語言混合的文字候選項進行排序展示。在本發(fā)明的一種優(yōu)選實施例中，所述分析單元803可以包括識別子單元，用于從所述編碼字符串中識別出可能的字符切分結(jié)果；組詞子單元，用于根據(jù)所述字符切分結(jié)果，組詞得到候選項；
第一排序展示子單元，用于基于所獲得候選項的預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對所述候選項進行排序展示。在具體實現(xiàn)中，所述識別子單元可以包括語言文字識別模塊Cl，用于從所述編碼字符串中匹配識別以字母組成的語言文字；匹配模塊C2，用于基于剩余編碼字符串片段，匹配獲得相應(yīng)的以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列。在具體實現(xiàn)中，所述語言文字識別模塊Cl，可具體用于基于語言文字和字符序列詞庫，在匹配字符序列的同時，從所述編碼字符串中匹配出語言文字；或者，基于語言文字字典，從所述編碼字符串中識別出語言文字?？梢岳斫?，除了上述方案，本領(lǐng)域技術(shù)人員還可以采用其它識別子單元的設(shè)計方案，本發(fā)明對此不加以限制。在本發(fā)明的另一種優(yōu)選實施例中，所述分析單元803具體可以包括音節(jié)切分子單元，用于依據(jù)所述編碼字符串，切分得到相應(yīng)的字符切分結(jié)果；第一排序子單元，用于依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對與所述編碼字符串相應(yīng)的字符切分結(jié)果進行第一排序；組詞子單元，用于依據(jù)所述字符切分結(jié)果，組詞得到相應(yīng)的候選項；第二排序子單元，用于基于所獲得候選項的預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對每個字符切分結(jié)果的候選項進行第二排序；第二排序展示子單元，用于依據(jù)所述第一排序和第二排序結(jié)果，對所述候選項進行排序展示。優(yōu)選的，所述組詞子單元，可具體用于依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)，獲得與所述字符切分結(jié)果相應(yīng)的候選項。在本發(fā)明的另一種優(yōu)選實施例中，所述第一排序展示子單元或第二排序展示子單元可以包括如下結(jié)構(gòu)路徑獲取模塊E1，用于按照位置順序，將所述候選項中第一個詞匯到最后一個詞匯的走向作為一個路徑；計算模塊E2，用于依據(jù)每個路徑中的鄰接詞匯，依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)獲取相應(yīng)的連接參數(shù)，并計算路徑概率；排序模塊E3，用于依據(jù)所述路徑概率，對所述候選項進行排序。優(yōu)選的，所述預(yù)設(shè)二元關(guān)系數(shù)據(jù)可存儲于二元庫中，可以通過如下結(jié)構(gòu)建立所述二元庫二元庫建立單元F，用于采用同一語料庫對單詞與單詞之間和/或單詞與字符序列之間和/或字符序列之間的二元關(guān)系數(shù)據(jù)進行統(tǒng)計，得到二元庫。在本發(fā)明的一種優(yōu)選實施例中，還可以根據(jù)用戶選擇的候選項對二元庫進行更新，相應(yīng)地，所述文字輸入裝置還可以包括二元庫更新單元G，用于在用戶選擇的候選項上屏后，如果所述上屏候選項中鄰接詞匯在二元庫中存在，則增強二元庫中所述鄰接詞匯的相鄰?fù)F(xiàn)概率；否則，將所述鄰接詞匯作為新的搭配關(guān)系添加到二元庫中，并增強二元庫中所述鄰接詞匯的相鄰?fù)F(xiàn)概率。在本發(fā)明的另一種優(yōu)選實施例中，還可以根據(jù)用戶選擇的候選項對詞庫進行更新，相應(yīng)地，所述文字輸入裝置還可以包括詞庫更新單元，用于在用戶選擇的候選項上屏后，如果所述上屏候選項和/或所述上屏候選項中詞匯在所述以字母組成的語言文字和以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列詞庫中存在，則增強該詞庫中所述上屏候選項和/或所述上屏候選項中詞匯的詞頻；否則，將所述上屏候選項和/或所述上屏候選項中詞匯作為新的詞匯添加到以字母組成的語言文字和以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列詞庫中，并增強所述上屏候選項和/或所述上屏候選項中詞匯的詞頻。在本發(fā)明實施例中，所述候選項可以包括包含以字母組詞的語言與以拼音和/或筆畫組成的文字語言混合的文字候選項。假設(shè)語言文字屬于英文，字符序列屬于中文，則所述候選項可以包括中英文混合候選項，當然在某些情形下，所述候選項還可以包括全英文和/或全中文候選項等；由于能夠二元關(guān)系數(shù)據(jù)計算候選項的路徑概率，這樣，最終輸出中英文混合候選項，還是全中文候選項或全英文候選項，是以所有候選項的路徑概率為依據(jù)的，因此，能夠提高判斷的準確性，從而能夠在判斷的基礎(chǔ)上，展示更為準確、更符合用戶需求的候選項。本說明書中的各個實施例均采用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。對于系統(tǒng)實施例而言，由于其與方法實施例基本相似，所以描述的比較簡單，相關(guān)之處參見方法實施例的部分說明即可。以上對本發(fā)明所提供的一種文字輸入方法和裝置，進行了詳細介紹，本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時，對于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在具體實施方式
及應(yīng)用范圍上均會有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1.一種文字輸入方法，其特征在于，包括預(yù)設(shè)以字母組成的語言文字與以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列之間的二元關(guān)系數(shù)據(jù)；接收用戶輸入；利用二元關(guān)系數(shù)據(jù)對用戶輸入進行分析，并生成包含以字母組詞的語言與以拼音和/ 或筆畫組成的文字語言混合的文字輸出。
2.如權(quán)利要求1所述的方法，其特征在于，所述用戶輸入為用戶通過鍵盤輸入的編碼字符串。
3.如權(quán)利要求1所述的方法，其特征在于，所述用戶輸入為手寫或語音輸入，所述方法還包括依據(jù)所述手寫或語音輸入，識別得到相應(yīng)的編碼字符串。
4.如權(quán)利要求1至3中任一項所述的方法，其特征在于，所述分析步驟包括利用二元關(guān)系數(shù)據(jù)，對所述生成的包含以字母組詞的語言與以拼音和/或筆畫組成的文字語言混合的文字候選項進行排序展示。
5.如權(quán)利要求2所述的方法，其特征在于，所述分析步驟包括從所述編碼字符串中識別出可能的字符切分結(jié)果，組詞得到候選項；基于所獲得候選項的預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對所述候選項進行排序展示。
6.如權(quán)利要求2所述的方法，其特征在于，所述分析步驟包括依據(jù)所述編碼字符串，切分得到相應(yīng)的字符切分結(jié)果；依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對所述字符切分結(jié)果進行第一排序；依據(jù)所述字符切分結(jié)果，組詞得到相應(yīng)的候選項；基于所獲得候選項的預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對每種字符切分結(jié)果的候選項進行第二排序；依據(jù)所述第一排序和第二排序結(jié)果，對所述候選項進行排序展示。
7.如權(quán)利要求6所述的方法，其特征在于，所述依據(jù)字符切分結(jié)果，組詞得到候選項的步驟，包括依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)，獲得與所述字符切分結(jié)果相應(yīng)的候選項。
8.如權(quán)利要求5至7中任一項所述的方法，其特征在于，所述對候選項排序的步驟，包括按照位置順序，將所述候選項中第一個詞匯到最后一個詞匯的走向作為一個路徑；依據(jù)每個路徑中的鄰接詞匯，依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)獲取相應(yīng)的連接參數(shù)，并計算路徑概率；依據(jù)所述路徑概率，對所述候選項進行排序。
9.如權(quán)利要求5所述的方法，其特征在于，通過如下步驟識別出可能的字符切分結(jié)果從所述編碼字符串中匹配識別以字母組成的語言文字；基于剩余編碼字符串片段，匹配獲得相應(yīng)的以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列。
10.如權(quán)利要求9所述的方法，其特征在于，所述匹配識別以字母組成的語言文字的步驟，包括基于以字母組成的語言文字和以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列詞庫，在匹配以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列的同時，從所述編碼字符串中匹配出以字母組成的語言文字；或者，基于以字母組成的語言文字字典，從所述編碼字符串中識別出以字母組成的語言文字。
11.如權(quán)利要求7所述的方法，其特征在于，所述預(yù)設(shè)二元關(guān)系數(shù)據(jù)存儲于二元庫中；所述方法還包括在用戶選擇的候選項上屏后，如果所述上屏候選項中鄰接詞匯在二元庫中存在，則增強二元庫中所述鄰接詞匯的相鄰?fù)F(xiàn)概率；否則，將所述鄰接詞匯作為新的搭配關(guān)系添加到二元庫中，并增強二元庫中所述鄰接詞匯的相鄰?fù)F(xiàn)概率。
12.如權(quán)利要求10所述的方法，其特征在于，還包括在用戶選擇的候選項上屏后，如果所述上屏候選項和/或所述上屏候選項中詞匯在所述以字母組成的語言文字和以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列詞庫中存在，則增強該詞庫中所述上屏候選項和/或所述上屏候選項中詞匯的詞頻；否則，將所述上屏候選項和/或所述上屏候選項中詞匯作為新的詞匯添加到以字母組成的語言文字和字符序列詞庫中，并增強所述上屏候選項和/或所述上屏候選項中詞匯的詞頻。
13.如權(quán)利要求1至3中任一項所述的方法，所述預(yù)設(shè)二元關(guān)系數(shù)據(jù)包括二元和二元以上的關(guān)系數(shù)據(jù)。
14.一種文字輸入裝置，其特征在于，包括二元預(yù)設(shè)單元，用于預(yù)設(shè)以字母組成的語言文字與以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列之間的二元關(guān)系數(shù)據(jù)；輸入接口單元，用于接收用戶輸入；分析單元，用于利用二元關(guān)系數(shù)據(jù)對用戶輸入進行分析，并生成包含以字母組詞的語言與以拼音和/或筆畫組成的文字語言混合的文字輸出。
15.如權(quán)利要求14所述的裝置，其特征在于，所述用戶輸入為用戶通過鍵盤輸入的編碼字符串。
16.如權(quán)利要求14所述的方法，其特征在于，所述用戶輸入為手寫或語音輸入，所述裝置還包括字符串識別單元，用于依據(jù)所述手寫或語音輸入，識別得到相應(yīng)的編碼字符串。
17.如權(quán)利要求14至16中任一項所述的裝置，其特征在于，所述分析單元包括排序展示子單元，用于利用二元關(guān)系數(shù)據(jù)，對所述生成的包含以字母組詞的語言與以拼音和/或筆畫組成的文字語言混合的文字候選項進行排序展示。
18.如權(quán)利要求15所述的裝置，其特征在于，所述分析單元包括識別子單元，用于從所述編碼字符串中識別出可能的字符切分結(jié)果；組詞子單元，用于根據(jù)所述字符切分結(jié)果，組詞得到候選項；第一排序展示子單元，用于基于所獲得候選項的預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對所述候選項進行排序展示。
19.如權(quán)利要求15所述的裝置，其特征在于，所述分析單元包括音節(jié)切分子單元，用于依據(jù)所述編碼字符串，切分得到相應(yīng)的字符切分結(jié)果；第一排序子單元，用于依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對與所述編碼字符串相應(yīng)的字符切分結(jié)果進行第一排序；組詞子單元，用于依據(jù)所述字符切分結(jié)果，組詞得到相應(yīng)的候選項；第二排序子單元，用于基于所獲得候選項的預(yù)設(shè)二元關(guān)系數(shù)據(jù)，對每種字符切分結(jié)果的候選項進行第二排序；第二排序展示子單元，用于依據(jù)所述第一排序和第二排序結(jié)果，對所述候選項進行排序展示。
20.如權(quán)利要求19所述的裝置，其特征在于，所述組詞子單元，具體用于依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)，獲得與所述字符切分結(jié)果相應(yīng)的候選項。
21.如權(quán)利要求18所述的裝置，其特征在于，所述第一排序展示子單元包括路徑獲取模塊，用于按照位置順序，將所述候選項中第一個詞匯到最后一個詞匯的走向作為一個路徑；計算子模塊，用于依據(jù)每個路徑中的鄰接詞匯，依據(jù)預(yù)設(shè)二元關(guān)系數(shù)據(jù)獲取相應(yīng)的連接參數(shù)，并計算路徑概率；排序模塊，用于依據(jù)所述路徑概率，對所述候選項進行排序展示。
22.如權(quán)利要求18所述的裝置，其特征在于，所述識別子單元包括語言文字識別模塊，用于從所述編碼字符串中匹配識別以字母組成的語言文字；匹配模塊，用于基于剩余編碼字符串片段，匹配獲得相應(yīng)的以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列。
23.如權(quán)利要求22所述的裝置，其特征在于，所述語言文字識別模塊，具體用于基于以字母組成的語言文字和以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列詞庫，在匹配以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列的同時，從所述編碼字符串中匹配出以字母組成的語言文字；或者，基于以字母組成的語言文字字典，從所述編碼字符串中識別出以字母組成的語言文字。
24.如權(quán)利要求21所述的裝置，其特征在于，還包括二元庫，用于存儲所述預(yù)設(shè)二元關(guān)系數(shù)據(jù)；二元庫更新單元，用于在用戶選擇的候選項上屏后，如果所述上屏候選項中鄰接詞匯在二元庫中存在，則增強二元庫中所述鄰接詞匯的相鄰?fù)F(xiàn)概率；否則，將所述鄰接詞匯作為新的搭配關(guān)系添加到二元庫中，并增強二元庫中所述鄰接詞匯的相鄰?fù)F(xiàn)概率。
25.如權(quán)利要求23所述的裝置，其特征在于，還包括詞庫更新單元，用于在用戶選擇的候選項上屏后，如果所述上屏候選項和/或所述上屏候選項中詞匯在所述以字母組成的語言文字和以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列詞庫中存在，則增強該詞庫中所述上屏候選項和/或所述上屏候選項中詞匯的詞頻；否則，將所述上屏候選項和/或所述上屏候選項中詞匯作為新的詞匯添加到以字母組成的語言文字和以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列詞庫中，并增強所述上屏候選項和/或所述上屏候選項中詞匯的詞頻。
26.如權(quán)利要求14至比中任一項所述的裝置，所述預(yù)設(shè)二元關(guān)系數(shù)據(jù)包括二元和二元以上的關(guān)系數(shù)據(jù)。
全文摘要
本發(fā)明提供了一種文字輸入方法和裝置，其中的方法具體包括預(yù)設(shè)以字母組成的語言文字與以拼音和/或筆畫組成的文字語言所對應(yīng)的字符序列之間的二元關(guān)系數(shù)據(jù)；接收用戶輸入；利用二元關(guān)系數(shù)據(jù)對用戶輸入進行分析，并生成包含以字母組詞的語言與以拼音和/或筆畫組成的文字語言混合的文字輸出。本發(fā)明能夠在類似中英混輸?shù)亩喾N語言滲透場景下，得到符合用戶需求的候選項。
文檔編號G06F3/048GK102455845SQ201010515259
公開日2012年5月16日申請日期2010年10月14日優(yōu)先權(quán)日2010年10月14日
發(fā)明者張軍, 楊磊, 賈劍峰申請人:北京搜狗科技發(fā)展有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張軍;賈劍峰;楊磊
技術(shù)所有人：北京搜狗科技發(fā)展有限公司
我是此專利的發(fā)明人

上一篇：多網(wǎng)絡(luò)計算機文件保密和病毒防護方法
上一篇：一種提供資訊的系統(tǒng)和方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

cad文字輸入相關(guān)技術(shù)

cad文字輸入快捷鍵相關(guān)技術(shù)

文字輸入相關(guān)技術(shù)

cad2007文字輸入相關(guān)技術(shù)

ps文字輸入相關(guān)技術(shù)

ps文字輸入看不到相關(guān)技術(shù)

文字輸入兼職相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種文字輸入方法和裝置的制作方法