国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      在輸入法詞庫中添加未登錄詞的方法及文字輸入裝置的制作方法

      文檔序號:6563222閱讀:198來源:國知局
      專利名稱:在輸入法詞庫中添加未登錄詞的方法及文字輸入裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及文字輸入技術(shù),尤其涉及一種在輸入法詞庫中添加未登錄詞的 方法及文字輸入裝置。
      背景技術(shù)
      中文輸入軟件是運(yùn)行于操作系統(tǒng)上的一個工具軟件,是一種把鍵盤輸入的 編碼或其他非鍵盤輸入的媒體數(shù)據(jù)轉(zhuǎn)換為中文輸入的軟件。目前,中文輸入軟 件從輸入方式來區(qū)分可分為鍵盤中文輸入軟件和非鍵盤中文輸入軟件兩種,下面分別予以-說明鍵盤中文輸入軟件就是利用鍵盤,才艮據(jù)一定的編碼規(guī)則來輸入漢字的一種 方式。英文字母只有26個,它們對應(yīng)著鍵盤上的26個字母鍵,所以,對于英 文輸入而言是不存在什么輸入軟件的,直接輸入英文字母就可以。漢字的字?jǐn)?shù) 有幾萬個,它們和鍵盤沒有任何對應(yīng)關(guān)系,但為了向電腦中輸入漢字,我們必 須對漢字進(jìn)行編碼,并將這些編碼與鍵盤上的鍵關(guān)聯(lián)起來,才能使我們通過鍵 盤輸入某個漢字的編碼,然后將編碼轉(zhuǎn)換成漢字。目前,漢字編碼方案已經(jīng)有數(shù)百種,其中在電腦上已經(jīng)運(yùn)行的就有幾十種, 作為一種圖形文字,漢字是由字的音、形、義來共同表達(dá)的,漢字輸入的編碼 方法,基本上都是采用將音、形、義與特定的鍵相聯(lián)系,再根據(jù)不同漢字對所 述特定的鍵進(jìn)行組合來完成漢字輸入的目的。非鍵盤中文輸入軟件包括手寫輸入軟件、語音輸入軟件、OCR (Optical Character Recognition,光學(xué)字符識別)輸入軟件等。手寫輸入軟件是一種筆式環(huán)境下的手寫中文識別輸入軟件,符合中國人用筆寫字的習(xí)慣,只要在手寫板上按平常的習(xí)慣寫字,電腦就能將其識別顯示出來。手寫輸入軟件需要配套的硬件手寫板,在配套的手寫板上用筆(可以是任 何類型的硬筆)來書寫錄入漢字,不僅方便、快捷,而且錯字率也比較低。另 外也可在指定區(qū)域內(nèi)通過操作鼠標(biāo)寫出字來,然后使用手寫輸入軟件轉(zhuǎn)換成漢 字,只是鼠標(biāo)操作要求非常熟練。語音輸入軟件是通過話筒輸入聲音然后轉(zhuǎn)換成文字的一種輸入軟件。雖然 使用起來很方便,但錯字率仍然比較高,特別是一些未經(jīng)訓(xùn)練的專業(yè)名詞以及 生僻字。語音輸入軟件在硬件方面要求電腦必須配備聲卡及麥克風(fēng),用戶通過 麥克風(fēng)使用普通話進(jìn)行文字錄入。如果用戶的普通話不夠標(biāo)準(zhǔn),通過使用語音 輸入軟件提供的語音訓(xùn)練程序進(jìn)行一段時間的訓(xùn)練后,同樣可以通過語音來實(shí) 現(xiàn)文字輸入。OCR輸入軟件把要輸入的文稿通過掃描儀轉(zhuǎn)化為圖形進(jìn)行文字輸入,原稿 的印刷質(zhì)量越高,識別的準(zhǔn)確率就越高。未登錄詞是指在詞典中沒有收錄過,但又確實(shí)能稱為詞的詞,最典型的是 人名及地名,現(xiàn)有技術(shù)中在中文輸入軟件的詞庫中添加未登錄詞的方法主要采 用以下兩種方式,下面分別予以說明第 一種在中文輸入軟件的詞庫中添加未登錄詞的方法是在中文輸入軟件 的自定義詞設(shè)置窗口中手動添加未登錄詞,這種方法不具有即時性,用戶每次 向詞庫中添加未登錄詞時都要打開自定義詞設(shè)置窗口進(jìn)行添加,操作較煩瑣。第二種在中文輸入軟件的詞庫中添加未登錄詞的方法是中文輸入法程序 根據(jù)用戶的輸入習(xí)慣自動學(xué)習(xí)添加未登錄詞,其主要過程如下首先,用戶輸 入未登錄詞的連續(xù)拼音串,然后選出未登錄詞中的每個漢字的序號,中文輸入 軟件即可將該未登錄詞添加到詞庫中。這種方法對用戶的輸入習(xí)慣有一定的限 制,要求用戶必須采用整體輸入的方式輸入未登錄詞,如果用戶采用分別輸入 未登錄詞中每個獨(dú)立的字的方式來輸入未登錄詞,則中文輸入軟件無法學(xué)習(xí)到 該未登錄詞
      發(fā)明內(nèi)容
      本發(fā)明提供一種在輸入法詞庫中添加未登錄詞的方法及文字輸入裝置,使 加到自身的詞庫中。本發(fā)明技術(shù)方案包括一種在輸入法詞庫中添加未登錄詞的方法,包括步驟A、 檢測用戶輸入的文字序列,根據(jù)其中的間隔符號提取序列中包含的文 字片斷;B、 識別所述文字片斷中包含的未登錄詞,將該未登錄詞與其對應(yīng)的鍵值 編碼序列關(guān)聯(lián)保存到輸入法的詞庫中。較佳的,所述步驟B具體包括步驟對所述文字片斷進(jìn)行原子切分,將其中每一個原子標(biāo)注為一個切分單元;根據(jù)當(dāng)前輸入法詞庫中包含的詞匯,識別出所述原子序列中包含的現(xiàn)有詞 匯,將其標(biāo)注為切分單元,并且根據(jù)預(yù)先確定的隱馬爾科夫模型參數(shù),利用 Viterbi算法對所述原子序列進(jìn)行角色標(biāo)注,以此識別出所述原子序列中包含的 未登錄詞,則將其標(biāo)注為切分單元;根據(jù)切分單元的標(biāo)注結(jié)果確定出最終的切分詞圖,從該切分詞圖中確定出 概率最大的分詞路徑,將該分詞路徑中包含的未登錄詞與其對應(yīng)的鍵值編碼序 列關(guān)聯(lián)保存到輸入法的詞庫中。較佳的,所述隱馬爾科夫模型參數(shù)包括初始概率、轉(zhuǎn)移概率 _射概率。較佳的,所述未登錄詞為人名和/或地名。較佳的,所述未登錄詞對應(yīng)的鍵值編碼序列為拼音^^值編碼序列或者字形 鍵值編碼序列。較佳的,將所述未登錄詞與其對應(yīng)的鍵值編碼序列關(guān)聯(lián)保存到輸入法的詞 庫中的具體過程為判斷輸入法詞庫的索引表中是否存在所述未登錄詞對應(yīng)的鍵值編碼序列, 若是,則將所述未登錄詞添加到該鍵值編碼序列指向的鏈表中,否則,將所述 鍵值編碼序列添加到輸入法詞庫的索引表中,然后將所述未登錄詞添加到該鍵 值編碼序列指向的鏈表中。一種文字輸入裝置,包括文字片斷獲取模塊,用于檢測用戶輸入的文字序列,根據(jù)其中的間隔符號 提取序列中包含的文字片斷;未登錄詞識別模塊,用于識別所述文字片斷中包含的未登錄詞,將該未登 錄詞與其對應(yīng)的鍵值編碼序列關(guān)聯(lián)保存到輸入法的詞庫中。較佳的,所述未登錄詞識別模塊具體包括原子切分子模塊,用于對所述文字片斷進(jìn)行原子切分,將其中每一個原子 標(biāo)注為一個切分單元;現(xiàn)有詞匯標(biāo)注子模塊,用于根據(jù)當(dāng)前輸入法詞庫中包含的詞匯,識別出原 子序列中包含的現(xiàn)有詞匯,將其標(biāo)注為切分單元;未登錄詞標(biāo)注子模塊,用于根據(jù)預(yù)先確定的隱馬爾科夫模型參數(shù),利用 Viterbi算法對原子序列進(jìn)行角色標(biāo)注,以此識別出所述原子序列中包含的未登 錄詞,則將其標(biāo)注為切分單元;分詞路徑確定子模塊,用于根據(jù)切分單元的標(biāo)注結(jié)果確定出切分詞圖,從 該切分詞圖中確定出概率最大的分詞路徑;未登錄詞添加子模塊,用于將所述概率最大的分詞路徑中包含的未登錄詞 與其對應(yīng)的鍵值編碼序列關(guān)聯(lián)保存到輸入法的詞庫中。較佳的,所述未登錄詞為人名和/或地名。較佳的,所述未登錄詞對應(yīng)的鍵值編碼序列為拼音鍵值編碼序列或者字形 鍵值編碼序列。本發(fā)明有益效果如下本發(fā)明所述技術(shù)方案通過檢測用戶輸入的文字序列,根據(jù)其中的間隔符號 提取序列中包含的文字片斷,并且識別出該文字片斷中包含的未登錄詞,將該
      未登錄詞與其對應(yīng)的鍵值編碼序列關(guān)聯(lián)保存到輸入法的詞庫中。從而在不改變 用戶輸入習(xí)慣的前提下,無需用戶進(jìn)行任何操作,即可自動將用戶輸入的文字 序列中包含的未登錄詞添加到輸入法詞庫中。


      圖1為本發(fā)明在輸入法詞庫中添加未登錄詞的方法的較佳實(shí)施例的流程圖;圖2為本發(fā)明實(shí)施例中對文字序列進(jìn)行原子切分后建立的切分詞圖的示意圖;圖3為本發(fā)明實(shí)施例中利用Viterbi算法對圖2所示原子序列進(jìn)行未登錄詞 識別的示意圖;的鏈表中的示意圖;圖5為本發(fā)明文字輸入裝置的組成結(jié)構(gòu)框圖具體實(shí)施方式
      本發(fā)明技術(shù)方案的主要設(shè)計(jì)構(gòu)思是針對現(xiàn)有技術(shù)中在向中文輸入軟件的 詞庫中添加未登錄詞時,需要通過自定義詞設(shè)置窗口添加,操作較煩瑣的問題, 或者需要由中文輸入法程序根據(jù)用戶的輸入習(xí)慣自動學(xué)習(xí)添加,對用戶的輸入 習(xí)慣有一定的限制的問題,而提出 一種在輸入法詞庫中添力。未登錄詞的方法及 文字輸入裝置,本發(fā)明所述技術(shù)方案通過檢測用戶輸入的文字序列,根據(jù)其中 的間隔符號提取序列中包含的文字片斷,并且識別出該文字片斷中包含的未登 錄詞,將該未登錄詞與其對應(yīng)的鍵值編碼序列關(guān)聯(lián)保存到輸入法的詞庫中。從 而使得輸入法程序在不改變用戶輸入習(xí)慣的前提下,能夠自動將用戶輸入的文 字序列中包含的未登錄詞添加到輸入法詞庫中。下面將結(jié)合各個附圖對本發(fā)明技術(shù)方案的主要實(shí)現(xiàn)原理具體實(shí)施方式

      其對應(yīng)能夠達(dá)到的有益效果進(jìn)4于詳細(xì)的闡述。請參閱圖1,該圖為本發(fā)明在輸入法詞庫中添加未登錄詞的方法的較佳實(shí)施例的流程圖,其主要包括步驟步驟SIO、在用戶進(jìn)行文字輸入的過程中,輸入法程序檢測用戶輸入的文 字序列,根據(jù)其中的間隔符號提取序列中包含的文字片斷,所述文字序列中的 間隔符號為標(biāo)點(diǎn)符號或非文字符號。輸入法程序檢測用戶輸入鍵值編碼序列,若用戶輸入的鍵值編碼對應(yīng)的是 文字,則將該文字添加到預(yù)先設(shè)置的一塊初始為空的內(nèi)存緩沖區(qū)中,如果用戶 輸入的鍵值編碼對應(yīng)的是標(biāo)點(diǎn)符號或其他非文字符號,如空格,回車,Tab等, 并且當(dāng)前緩沖區(qū)非空,則提取緩沖區(qū)中的文字片斷,然后清空緩沖區(qū),等待接 下來的輸入。步驟Sll、輸入法程序?qū)μ崛〕龅奈淖制瑪噙M(jìn)行原子切分,將其中每一個 原子標(biāo)注為一個+刀分單元;所述原子為分詞的最小單位,典型的一個漢字就是一個原子, 一個連續(xù)的 半角字符串也是一個原子。輸入法程序?qū)μ崛〕龅奈淖制瑪噙M(jìn)行從前往后的掃描,按順序切分出其中 所有的原子并保存到一個數(shù)組中,之后根據(jù)數(shù)組中存儲的原子個數(shù)建立初始的 切分詞圖,將其中每一個原子標(biāo)注為一個切分單元,在切分詞圖中,在原子兩 側(cè)的節(jié)點(diǎn)之間添加一條圓弧用以標(biāo)注該切分單元;請參閱圖2,該圖為對文字 序列進(jìn)行原子切分后建立的切分詞圖的示意圖,其中每兩個節(jié)點(diǎn)之間的一個圓 弧代表一個切分單元。步驟S12、輸入法程序?qū)η蟹衷~圖中的原子序列進(jìn)行遍歷,根據(jù)當(dāng)前輸入 法詞庫中包含的詞匯,查找該原子序列中包含的在輸入法詞庫中出現(xiàn)過的詞, 將其標(biāo)注為切分單元,在切分詞圖中,在查找出的現(xiàn)有詞匯兩側(cè)的節(jié)點(diǎn)之間添 加 一條圓弧用以標(biāo)注該切分單元。步驟SB、輸入法程序根據(jù)預(yù)先確定的隱馬爾科夫模型參數(shù),包括初始概
      率、轉(zhuǎn)移概率和發(fā)射概率,利用Viterbi算法對切分詞圖中的原子序列進(jìn)行角色 標(biāo)注,以此識別出所述原子序列中包含的未登錄詞,將其標(biāo)注為切分單元; 本實(shí)施例中所迷未登錄詞為人名和/或地名。隱馬爾科夫模型是一種用于序列標(biāo)注的統(tǒng)計(jì)模型,下面首先對本發(fā)明中用到的 一些隱馬爾科夫模型^進(jìn)行解釋初始概率指一個角色出現(xiàn)在文字序列起始位置的概率。轉(zhuǎn)移概率指的是角色A出現(xiàn)的情況下,下一個角色是角色B的概率。發(fā)射概率指的是角色R出現(xiàn)的所有次數(shù)中原子O作為角色R出現(xiàn)的次數(shù)所占的比例。進(jìn)行未登錄詞識別之前要先確定出隱馬爾科夫模型的參數(shù),包括初始概 率、轉(zhuǎn)移概率和發(fā)射概率,隱馬爾科夫模型參數(shù)的確定過程采用現(xiàn)有技術(shù)中常 用的方式完成,這里不再給予過多贅述。根據(jù)確定出的隱馬爾科夫模型的 ,利用Viterbi算法對切分詞圖中的原 子序列進(jìn)行角色標(biāo)注,利用Viterbi算法進(jìn)行角色標(biāo)注的過程同樣為現(xiàn)有技術(shù), 因此不再給予過多贅述。本發(fā)明中設(shè)置的角色標(biāo)記主要包括以下幾種人名中的姓X二字人名中的名S三字人名中名的第一個字H三字人名中名的第二個字T地名的首字F地名的中間的字M地名的末尾字E其他O根據(jù)角色標(biāo)注結(jié)果識別出原子序列中包含的人名和/或地名未登錄詞,將其 標(biāo)注為切分單元,在切分詞圖中,在識別出的未登錄詞兩側(cè)的節(jié)點(diǎn)之間添加一 條圓弧用以標(biāo)注該切分單元。請參閱圖3,該圖為利用Viterbi算法對圖2所示
      原子序列進(jìn)行未登錄詞識別的示意圖,根據(jù)角色標(biāo)注結(jié)果,"張會鵬"被識別 為人名未登錄詞。步驟S14、輸入法程序根據(jù)切分單元的標(biāo)注結(jié)果確定出最終的切分詞圖, 從該切分詞圖中確定出概率最大的分詞路徑,將該分詞路徑中包含的未登錄詞 與其對應(yīng)的鍵值編碼序列關(guān)聯(lián)保存到輸入法的詞庫中;碼序列。其中,將未登錄詞與其對應(yīng)的鍵值編碼序列關(guān)聯(lián)保存到輸入法的詞庫中的 具體過程如下判斷輸入法詞庫的索引表中是否存在所述未登錄詞對應(yīng)的鍵值編碼序列, 若是,則將所述未登錄詞添加到該鍵值編碼序列指向的鏈表中,否則,將所述 鍵值編碼序列添加到輸入法詞庫的索引表中,然后將所述未登錄詞添加到該鍵 值編碼序列指向的鏈表中,請參閱圖4,該圖為將未登錄詞添加到其對應(yīng)的拼 音鍵值編碼序列指向的鏈表中的示意圖。在本發(fā)明上述方法的實(shí)現(xiàn)流程中,步驟S12及步驟S13無必然的先后順序, 可以同時進(jìn)行,也可以根據(jù)需要按序進(jìn)行。相應(yīng)于本發(fā)明上述提出的方法原理,本發(fā)明這里還對應(yīng)的提出了一種文字 輸入裝置,請參閱圖5,該圖為本發(fā)明文字輸入裝置的組成結(jié)構(gòu)框圖,其主要 包括文字片斷獲取模塊50及未登錄詞識別模塊60,其中各個組成模塊的主要 作用如下文字片斷獲取模塊50,用于檢測用戶輸入的文字序列,根據(jù)其中的間隔符 號提取序列中包含的文字片斷;檢測用戶輸入鍵值編碼序列,若用戶輸入的鍵值編碼對應(yīng)的是文字,則將 該文字添加到預(yù)先設(shè)置的一塊初始為空的內(nèi)存緩沖區(qū)中,如果用戶輸入的鍵值 編碼對應(yīng)的是標(biāo)點(diǎn)符號或其他非文字符號,并且當(dāng)前緩沖區(qū)非空,則提取緩沖區(qū)中的文字片斷,然后清空緩沖區(qū),等待接下來的輸入。
      未登錄詞識別模塊60,用于識別所述文字片斷中包含的未登錄詞,所述未 登錄詞為人名和/或地名,將該未登錄詞與其對應(yīng)的鍵值編碼序列關(guān)聯(lián)保存到輸 入法的詞庫中。所述未登錄詞識別模塊60具體包括原子切分子模塊601、現(xiàn)有詞匯標(biāo)注子 模塊602、未登錄詞標(biāo)注子模塊603、分詞路徑確定子模塊604及未登錄詞添 加子模塊605,其中各個子模塊的主要作用如下原子切分子模塊601,用于對所述文字片斷進(jìn)行原子切分,將其中每一個 原子標(biāo)注為一個切分單元;現(xiàn)有詞匯標(biāo)注子模塊602,用于根據(jù)當(dāng)前輸入法詞庫中包含的詞匯,識別 出原子序列中包含的現(xiàn)有詞匯,將其標(biāo)注為切分單元;未登錄詞標(biāo)注子模塊603,用于根據(jù)預(yù)先確定的隱馬爾科夫模型參數(shù),利 用Viterbi算法對原子序列進(jìn)行角色標(biāo)注,以此識別出所述原子序列中包含的未 登錄詞,則將其標(biāo)注為切分單元;分詞路徑確定子模塊604,用于根據(jù)切分單元的標(biāo)注結(jié)果確定出切分詞圖, 從該切分詞圖中確定出概率最大的分詞路徑;未登錄詞添加子模塊605,用于將所述概率最大的分詞路徑中包含的未登 錄詞與其對應(yīng)的鍵值編碼序列關(guān)聯(lián)保存到輸入法的詞庫中,所述未登錄詞對應(yīng)的鍵值編碼序列為拼音鍵值編碼序列或者字形鍵值編碼序列。有關(guān)本發(fā)明文字輸入裝置中的其他相關(guān)技術(shù)實(shí)現(xiàn)細(xì)節(jié)請參照本發(fā)明上述方法原理中的相應(yīng)技術(shù)實(shí)現(xiàn)細(xì)節(jié)描述,這里不再給以過多贅述。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
      權(quán)利要求
      1、一種在輸入法詞庫中添加未登錄詞的方法,其特征在于,包括步驟A、檢測用戶輸入的文字序列,根據(jù)其中的間隔符號提取序列中包含的文字片斷;B、識別所述文字片斷中包含的未登錄詞,將該未登錄詞與其對應(yīng)的鍵值編碼序列關(guān)聯(lián)保存到輸入法的詞庫中。
      2、 如權(quán)利要求l所述的方法,其特征在于,所述步驟B具體包括步驟 對所述文字片斷進(jìn)行原子切分,將其中每一個原子標(biāo)注為一個切分單元; 根據(jù)當(dāng)前輸入法詞庫中包含的詞匯,識別出所述原子序列中包含的現(xiàn)有詞匯,將其標(biāo)注為切分單元,并且根據(jù)預(yù)先確定的隱馬爾科夫模型參數(shù),利用 Viterbi算法對所述原子序列進(jìn)行角色標(biāo)注,以此識別出所述原子序列中包含的 未登錄詞,則將其標(biāo)注為切分單元;根據(jù)切分單元的標(biāo)注結(jié)果確定出最終的切分詞圖,從該切分詞圖中確定出 概率最大的分詞路徑,將該分詞路徑中包含的未登錄詞與其對應(yīng)的鍵值編碼序 列關(guān)聯(lián)保存到輸入法的詞庫中。
      3、 如權(quán)利要求2所述的方法,其特征在于,所述隱馬爾科夫模型參數(shù)包 括初始概率、轉(zhuǎn)移概率及發(fā)射概率。
      4、 如權(quán)利要求1或2所述的方法,其特征在于,所述未登錄詞為人名和/ 或地名。
      5、 如權(quán)利要求1或2所述的方法,其特征在于,所述未登錄詞對應(yīng)的鍵 值編碼序列為拼音鍵值編碼序列或者字形鍵值編碼序列。
      6、 如權(quán)利要求1或2所述的方法,其特征在于,將所述未登錄詞與其對 應(yīng)的鍵值編碼序列關(guān)聯(lián)保存到輸入法的詞庫中的具體過程為判斷輸入法詞庫的索引表中是否存在所述未登錄詞對應(yīng)的鍵值編碼序列, 若是,則將所述未登錄詞添加到該鍵值編碼序列指向的鏈表中,否則,將所述 鍵值編碼序列添加到輸入法詞庫的索引表中,然后將所述未登錄詞添加到該鍵 值編碼序列指向的鏈表中。
      7、 一種文字輸入裝置,其特征在于,包括文字片斷獲取模塊,用于檢測用戶輸入的文字序列,根據(jù)其中的間隔符號 提取序列中包含的文字片斷;未登錄詞識別模塊,用于識別所述文字片斷中包含的未登錄詞,將該未登 錄詞與其對應(yīng)的鍵值編碼序列關(guān)聯(lián)保存到輸入法的詞庫中。
      8、 如權(quán)利要求7所述的裝置,其特征在于,所述未登錄詞識別模塊具體 包括原子切分子模塊,用于對所述文字片斷進(jìn)行原子切分,將其中每一個原子 標(biāo)注為一個切分單元;現(xiàn)有詞匯標(biāo)注子模塊,用于根據(jù)當(dāng)前輸入法詞庫中包含的詞匯,識別出原 子序列中包含的現(xiàn)有詞匯,將其標(biāo)注為切分單元;未登錄詞標(biāo)注子模塊,用于根據(jù)預(yù)先確定的隱馬爾科夫模型參數(shù),利用 Viterbi算法對原子序列進(jìn)行角色標(biāo)注,以此識別出所述原子序列中包舍的未登 錄詞,則將其標(biāo)注為切分單元;分詞路徑確定子模塊,用于根據(jù)切分單元的標(biāo)注結(jié)果確定出切分詞圖,從 該切分詞圖中確定出概率最大的分詞路徑;未登錄詞添加子模塊,用于將所述概率最大的分詞路徑中包含的未登錄詞 與其對應(yīng)的鍵值編碼序列關(guān)聯(lián)保存到輸入法的詞庫中。
      9、 如權(quán)利要求7或8所述的裝置,其特征在于,所述未登錄詞為人名和/ 或地名。
      10、 如權(quán)利要求7或8所述的裝置,其特征在于,所述未登錄詞對應(yīng)的鍵 值編碼序列為拼音鍵值編碼序列或者字形鍵值編碼序列。
      全文摘要
      本發(fā)明公開了一種在輸入法詞庫中添加未登錄詞的方法及文字輸入裝置,使得輸入法程序可從用戶輸入的漢字序列中自動識別出其中的未登錄詞,將其添加到自身的詞庫中。所述方法包括步驟檢測用戶輸入的文字序列,根據(jù)其中的間隔符號提取序列中包含的文字片斷;識別所述文字片斷中包含的未登錄詞,將該未登錄詞與其對應(yīng)的鍵值編碼序列關(guān)聯(lián)保存到輸入法的詞庫中。所述文字輸入裝置包括文字片斷獲取模塊和未登錄詞識別模塊。本發(fā)明在不改變用戶輸入習(xí)慣的前提下,無需用戶進(jìn)行任何操作,即可自動將用戶輸入的文字序列中包含的未登錄詞添加到輸入法詞庫中。
      文檔編號G06F17/30GK101154226SQ20061015226
      公開日2008年4月2日 申請日期2006年9月27日 優(yōu)先權(quán)日2006年9月27日
      發(fā)明者張會鵬 申請人:騰訊科技(深圳)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1