国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      使用口頭話語驗證語音輸入的方法

      文檔序號:2829437閱讀:232來源:國知局
      專利名稱:使用口頭話語驗證語音輸入的方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及語音識別系統(tǒng),并尤其涉及消除向這種系統(tǒng)提供的語音輸入的歧義。
      背景技術(shù)
      語音識別是指機器或程序?qū)⒂脩粽Z音轉(zhuǎn)化成易于被計算機處理的文本表示或字符串的能力。一旦已如此轉(zhuǎn)化語音,則可以多種不同的方式使用該信息。例如,語音識別技術(shù)允許計算機在命令和控制的情境中響應(yīng)用戶語音命令。在另一示例中,語音識別技術(shù)使得計算機可記錄口授。
      通常,語音識別系統(tǒng)(SRS)在接收到的語音輸入時執(zhí)行聲學(xué)分析。生成與語音輸入的發(fā)音有關(guān)的信息。然后,可將提供語音輸入的語音表達的此數(shù)據(jù)與可識別單詞的詞匯表或一組定義的語法相比較以確定匹配。還使用統(tǒng)計語言模型來幫助此識別過程。統(tǒng)計語言模型提供了可在其中評估可能的識別結(jié)果的上下文。即,給定從用戶的口頭話語中獲得的一個或多個單詞的字符串,統(tǒng)計模型可提供在統(tǒng)計的確定性內(nèi)關(guān)于字符串的下一個單詞將是什么的指示。
      就對包括多個單詞的短語的識別而言,SRS已達到了可接受的準(zhǔn)確度水平。當(dāng)評估單詞短語時,其構(gòu)成單詞通常在聲學(xué)上不同,并且因而可彼此區(qū)分。語言模型的使用提供了額外的將一個單詞與另一個單詞區(qū)分開的方法。但是,在其它情況下,例如當(dāng)識別單個單詞并尤其是專有名詞或單個字符時,語音識別會比較不準(zhǔn)確。這個事實的一個原因是生成所有難以識別的單詞例如名字的語法即使可能也非常困難。另外,當(dāng)識別單個單詞時,上下文模型不會提供額外的洞見。
      提出的一種識別這些較困難的單詞的方法是要求用戶拼寫作為輸入提供的單詞。要求用戶讀出預(yù)期的單詞的每個字母或字符。但是,字母輸入會由于話語簡短以及字母的聲學(xué)混淆而有歧義。例如,在英語中難以區(qū)分字母F和S。其它混淆地類似的字母可包括B、C、D、E、G、P、T、V和Z。此外,類似于識別單個單詞的情況,語言模型沒有提供額外的用于消除單個字母的歧義的信息。
      結(jié)果,必須使用其它方法消除拼寫輸入的歧義。通常,使用N-best匹配和對用戶的詢問的組合來消除歧義性。SRS詢問用戶對于每個說出的字母的可能識別結(jié)果是否正確。例如,對于每個識別的字母,可對用戶進行如下的詢問“你說的是E嗎?”,“你說的是B嗎?”,“你說的是D嗎?”等,詢問沿與可能的識別結(jié)果相關(guān)聯(lián)的通常混淆的字母的N-best列表繼續(xù)下去,直到用戶肯定地響應(yīng)。這會繼續(xù)進行直到拼寫和識別了整個單詞。
      這種逐字母的、提問-回答式的消除歧義性的方法對于用戶而言可能非常乏味并且耗時。擁有一種用于以克服了上述缺陷的方式識別和/或驗證單詞輸入的技術(shù)將是有益的。

      發(fā)明內(nèi)容
      本發(fā)明提供了一種用于識別和/或驗證單詞輸入的解決方案。本發(fā)明的一個實施例可包括一種驗證語音輸入的方法。該方法可包括確定接收到的指定一單詞的用戶口頭話語的發(fā)音數(shù)據(jù),并語音識別進一步的指定該單詞的單個字符的用戶口頭話語??蔀槊總€字符生成N-best列表。該方法還可包括使用每個字符的N-best列表自動生成候選單詞,并將該單詞的發(fā)音數(shù)據(jù)與候選單詞相比較以確定至少一個匹配。
      本發(fā)明的另一實施例包括處理語音輸入的方法,該方法包括選擇單詞域并確定接收到的用戶口頭話語指定的單詞的發(fā)音數(shù)據(jù)。該方法還可包括將該單詞的發(fā)音數(shù)據(jù)與該域的常用單詞的列表相比較,以發(fā)現(xiàn)匹配。如果發(fā)現(xiàn)匹配,則可停止進一步的語音處理。如果沒有發(fā)現(xiàn)匹配,則可識別進一步的指定該單詞的多個單個字符的用戶口頭話語,以便與識別結(jié)果比較。
      本發(fā)明的另一實施例可包括被編程以使得機器執(zhí)行這里描述的各個步驟的機器可讀存儲器。


      附圖中示出了目前為優(yōu)選的實施例;但是應(yīng)理解,本發(fā)明并不局限于所示的精確安排和手段。
      圖1是示出根據(jù)這里公開的發(fā)明安排的消除用戶語音輸入的歧義的方法的流程圖。
      圖2是示出根據(jù)這里公開的發(fā)明安排的用于使用N-best列表生成候選單詞的技術(shù)的示意圖。
      具體實施例方式
      本發(fā)明提供了一種用于識別用戶語音輸入以及消除其歧義的解決方案。根據(jù)這里公開的發(fā)明安排,可使用本發(fā)明來識別語音識別系統(tǒng)(SRS)傳統(tǒng)上較難識別的那些單詞。這樣的單詞可包括但不局限于專有名詞包括名字、城市名等。本發(fā)明確定指定一單詞的用戶語音輸入的發(fā)音數(shù)據(jù)??山邮詹⒆R別拼寫了單詞的逐字符字符的語音輸入,該輸入被稱為拼寫型輸入。通常,可使用從拼寫型輸入識別的字符生成候選單詞的語法??蓪⒃撜Z法與該單詞的發(fā)音數(shù)據(jù)相比較以便驗證。
      圖1是示出根據(jù)這里公開的發(fā)明安排的消除用戶語音輸入的歧義的方法100的流程圖。方法100可在與用戶通信的情境中由SRS執(zhí)行。在一個實施例中,SRS可設(shè)置在用戶的計算機系統(tǒng)內(nèi)。例如,該計算機系統(tǒng)可實現(xiàn)為臺式計算機系統(tǒng)、膝上計算機、個人數(shù)字助理等??墒褂萌魏芜m于執(zhí)行語音處理并具有合適的音頻輸入和輸出能力的合適的計算機系統(tǒng)。在另一個實施例中,SRS可位于遠程,可經(jīng)由數(shù)據(jù)連接或語音連接訪問,例如當(dāng)在交互式語音響應(yīng)(IVR)系統(tǒng)中實現(xiàn)時。
      應(yīng)理解,SRS可與文本到語音(TTS)系統(tǒng)或其它音頻重放系統(tǒng)結(jié)合。這種系統(tǒng)與SRS合作使用允許向用戶提供這里所述的聲音提示。但是在其它安排中,例如在多模接口的情況下可通過視覺工具例如文本來提供提示。
      在步驟105中,可要求用戶提供一單詞作為語音輸入。在步驟110,SRS可接收到指定一單詞的用戶口頭話語。在步驟115中,可記錄用戶口頭話語以便進行進一步處理。在步驟120中,可處理用戶口頭話語以確定發(fā)音數(shù)據(jù)。更具體地,在語音識別的過程中,可對用戶口頭話語進行聲學(xué)分析。在此過程期間,SRS可生成用戶口頭話語的發(fā)音數(shù)據(jù)和/或由用戶口頭話語指定的單詞的語音表達。
      步驟125-155包括本發(fā)明的任選特征,其提供了識別接收的單詞的快速可選方案。一般而言,如果使用此任選過程識別出用戶口頭話語指定的單詞,則不需要對用戶輸入進行進一步的消除歧義和/或語音處理。因此,在步驟125中,可識別或選擇預(yù)期用戶口頭話語屬于的特定域。
      用戶口頭話語指定的單詞可屬于特定的詞類或詞域。例如,SRS可能詢問用戶用戶的名字、用戶所在的城市、產(chǎn)品的特定品牌等。例如,如果SRS詢問用戶的名字,該域可視具體情況而包括名或?qū)S忻Q。如果SRS詢問城市,則該域可包括城市名。這里公開的示例僅是為說明目的而提供的,因而并非旨在限制本發(fā)明的范圍。
      因此,在步驟130中,可識別選擇的域中的常用單詞的列表。更具體地,對于在SRS系統(tǒng)內(nèi)指定的每個域,可包括常用單詞的語法。常用單詞的列表或語法可通過多種不同的技術(shù)例如統(tǒng)計處理文本語料庫、分析用戶隨時間對特定問題的響應(yīng)等中的任何一個來確定。不管確定常用單詞的方式是什么,可選擇指定這樣的單詞的對應(yīng)于該域的語法。
      在步驟135中,可將發(fā)音數(shù)據(jù)與常用單詞的列表相比較。如已知的,SRS可包括常用單詞中的每一個的發(fā)音。該發(fā)音可以是預(yù)先編程的,由SRS動態(tài)地生成的,或由TTS動態(tài)地生成并然后提供給SRS的。因此,可將該單詞的發(fā)音數(shù)據(jù)與常用單詞列表的發(fā)音數(shù)據(jù)相比較。
      在任何情況下,在步驟140中,可確定該發(fā)音數(shù)據(jù)是否匹配該域的任何常用單詞。如果確定了一個或多個匹配,則該方法可繼續(xù)到步驟145。如果確定沒有匹配,則該方法可繼續(xù)到步驟160。在步驟145,可由用戶確認(rèn)匹配的一個或多個常用單詞的拼寫。例如,SRS可提供提示“你說的是Dave,拼寫為D-A-V-E嗎?”。在該提示中,可讀出并然后拼寫該單詞。如果匹配多于一個單詞,則可逐一地將每個單詞呈現(xiàn)給用戶,其中讀出并拼寫每個可能的單詞?;蛘?,如果SRS經(jīng)由基于文本的提示與用戶交互,則可將可能的或者匹配的單詞顯示為文本。在任何情況下,SRS可提示用戶驗證或選擇匹配的常用單詞中的特定一個單詞。
      在步驟150中,可接收這樣的用戶輸入,其接受匹配單詞中的一個或拒絕匹配單詞。在步驟155中,可確定用戶輸入是接受一匹配單詞還是拒絕匹配單詞。如果用戶數(shù)據(jù)接受一匹配單詞,則由于已找到匹配,本方法結(jié)束。如果用戶輸入拒絕匹配單詞,則方法可繼續(xù)進行到步驟160。
      在步驟160,SRS可提示用戶逐字符地拼寫在步驟110中的語音輸入指定的單詞。在步驟165中,可接收用戶口頭話語,該話語指定該單詞的一字符。在步驟170中,可語音識別用戶口頭話語,并可確定接收到的用戶口頭話語的N-best匹配。如提到的,當(dāng)接收在拼寫單詞的情況下指定單個字符的語音輸入時,SRS可能容易混淆特定的字母、數(shù)字或符號。例如,如果用戶說字母B,SRS可理解成B、V、E、D等。因此,SRS可確定對于接收的用戶口頭話語的最可能的匹配或識別結(jié)果。在此情況下,N-best列表將被局限于易混淆的字符即字母、數(shù)字和/或符號。N-best列表中指定的每個字符均可認(rèn)為是候選字符。對于每個用戶口頭話語,候選字符可從最可能到最不可能排序。
      在步驟175中,可確定是否將接收更多的指定字符的用戶口頭話語。如果是這樣,則該方法可循環(huán)回到步驟165以接收和處理更多的用戶口頭話語。該方法100可繼續(xù)循環(huán)直到用戶已拼寫完單詞。當(dāng)不再有字母剩余時,該方法可繼續(xù)進行到步驟180。
      在步驟180中,可通過使用在該單詞的每個被識別的字符的N-best列表中指定的候選字符生成單詞組合,來自動和動態(tài)地生成語法。當(dāng)生成候選單詞時,可從對應(yīng)于第一被識別的字符的N-best列表選擇第一字符,從對應(yīng)于第二被識別的字符的N-best列表選擇第二字符,等等。圖2是示出如上所述地使用N-best列表生成候選單詞的技術(shù)的示意圖。
      根據(jù)一個實施例,可生成候選單詞而沒有定義容許的單詞的詞典的限制。即,SRS可從N-best列表生成所有可能的字符排列(候選單詞),只要遵守參照步驟180描述的準(zhǔn)則即可。此技術(shù)可導(dǎo)致偽單詞或不是實際單詞的字符排列。在另一個實施例中,字符排列被局限于容許的單詞的詞典內(nèi)定義的那些單詞。這確保了將僅生成實際的單詞或預(yù)定的偽單詞。
      在步驟185中,可將步驟120的發(fā)音數(shù)據(jù)與候選單詞的語法比較。在一個安排中,SRS可被配置成生成該語法內(nèi)的候選單詞的發(fā)音數(shù)據(jù)。該發(fā)音數(shù)據(jù)可根據(jù)候選單詞的拼寫生成。在另一個安排中,SRS可將候選單詞傳遞給TTS,該TTS可根據(jù)候選單詞的拼寫為該語法中的每個單詞生成發(fā)音數(shù)據(jù)。如果在步驟190中發(fā)現(xiàn)一個匹配,則由于對照候選單詞驗證了可能的識別結(jié)果,該方法可結(jié)束。如果沒有發(fā)現(xiàn)匹配,則在步驟195中,可執(zhí)行其他的消除歧義性技術(shù),例如傳統(tǒng)的逐字母消除歧義性。
      本發(fā)明提供了一種用于消除SRS的語音輸入的歧義的解決方案。根據(jù)這里公開的發(fā)明安排,可處理指定一單詞的用戶口頭話語,以確定該話語的發(fā)音數(shù)據(jù)。然后可將拼寫該單詞的語音輸入提供給SRS。可通過從通過語音識別該單詞的每個字符獲得的N-best列表生成排列,自動和動態(tài)地生成語法。然后可將該單詞的發(fā)音數(shù)據(jù)與候選單詞的語法比較以便進行驗證。本發(fā)明還提供了一種用于通過將識別結(jié)果與特定于域的常用單詞的語法比較來快速確認(rèn)可能的識別結(jié)果是否準(zhǔn)確的技術(shù)。
      本發(fā)明可在硬件、軟件或硬件和軟件的組合中實現(xiàn)。本發(fā)明可以集中方式在一個計算機系統(tǒng)中實現(xiàn),或以其中不同的元件分布在一些互連的計算機系統(tǒng)上的分布方式實現(xiàn)。適于執(zhí)行這里公開的方法的任何類型的計算機系統(tǒng)或其它裝置均適用。硬件和軟件的典型組合是具有這樣的計算機程序的通用計算機系統(tǒng),該計算機程序當(dāng)被加載和執(zhí)行時控制該計算機系統(tǒng)從而該計算機系統(tǒng)執(zhí)行這里描述的方法。
      本發(fā)明還可包含在計算機程序產(chǎn)品內(nèi),該計算機程序產(chǎn)品包含能夠?qū)崿F(xiàn)這里所述的方法的所有特征,并且當(dāng)被加載到計算機系統(tǒng)中時能夠執(zhí)行這些方法。在當(dāng)前上下文中的計算機程序、軟件應(yīng)用和/或這些術(shù)語的其它變體是指這樣一組指令的以任何語言、代碼或符號表示的任何表達,該組指令旨在使具有信息處理能力的系統(tǒng)直接或在下面的操作中的任何一個或全部之后執(zhí)行特定功能a)轉(zhuǎn)換到另一種語言、代碼或符號;或b)以不同的物質(zhì)形式再現(xiàn)。
      本發(fā)明可體現(xiàn)為其它形式而不會背離本發(fā)明的精神或其基本屬性。因此,應(yīng)參照下面的權(quán)利要求而不是前面的說明來指示本發(fā)明的范圍。
      權(quán)利要求
      1.一種用于驗證語音輸入的方法,包括確定接收到的指定一單詞的用戶口頭話語的發(fā)音數(shù)據(jù);語音識別進一步的指定該單詞的單個字符的用戶口頭話語,其中為每個字符生成N-best列表;使用每個字符的N-best列表自動生成候選單詞;以及將該單詞的所述發(fā)音數(shù)據(jù)與所述候選單詞相比較以確定至少一個匹配。
      2.根據(jù)權(quán)利要求1的方法,還包括動態(tài)生成所述候選單詞的語法,從而將所述發(fā)音數(shù)據(jù)與該語法相比較以確定匹配。
      3.根據(jù)權(quán)利要求1的方法,其中,所述語音識別步驟還包括確定每個N-best列表的至少一個可選字符。
      4.根據(jù)權(quán)利要求1的方法,其中,所述發(fā)音數(shù)據(jù)包括對應(yīng)于所述用戶口頭話語的聲音數(shù)據(jù)。
      5.根據(jù)權(quán)利要求1的方法,其中,所述自動生成步驟包括根據(jù)容許的單詞的字典基于所述N-best列表生成候選單詞。
      6.根據(jù)權(quán)利要求1的方法,其中,所述自動生成步驟包括使用所述N-best列表生成候選單詞而沒有來自容許的單詞的詞典的限制。
      7.根據(jù)權(quán)利要求1的方法,還包括首先確定單詞域;以及將所述發(fā)音數(shù)據(jù)與該域的一組常用單詞相比較以發(fā)現(xiàn)匹配。
      8.一種處理語音輸入的方法,包括選擇單詞域;確定由接收到的用戶口頭話語指定的單詞的發(fā)音數(shù)據(jù);將該單詞的該發(fā)音數(shù)據(jù)與該域的常用單詞的列表相比較以發(fā)現(xiàn)匹配;如果發(fā)現(xiàn)匹配,則停止進一步的語音處理;以及如果沒有發(fā)現(xiàn)匹配,則語音識別進一步的指定該單詞的多個單個字符的用戶口頭話語,以便與所述發(fā)音數(shù)據(jù)相比較。
      9.根據(jù)權(quán)利要求8的方法,其中,所述語音識別步驟還包括為所述多個字符中的每一個確定一N-best列表;使用該些N-best列表自動生成候選單詞;以及將所述發(fā)音數(shù)據(jù)與所述候選單詞相比較以確定至少一個匹配。
      10.根據(jù)權(quán)利要求9的方法,還包括將所述候選單詞包括在語法內(nèi),從而將所述發(fā)音數(shù)據(jù)與該語法相比較以確定匹配。
      11.根據(jù)權(quán)利要求9的方法,其中,所述確定N-best列表的步驟包括為所述多個字符中的每一個識別至少一個可選字符。
      12.根據(jù)權(quán)利要求9的方法,其中,所述自動生成候選單詞的步驟包括根據(jù)容許的單詞的字典基于所述N-best列表生成候選單詞。
      13.根據(jù)權(quán)利要求9的方法,其中,所述自動生成候選單詞的步驟包括使用所述N-best列表生成候選單詞而沒有來自容許的單詞的詞典的限制。
      14.一種機器可讀存儲器,該存儲器中存儲有具有多個代碼部分的計算機程序,這些代碼部分可被機器執(zhí)行以便使該機器執(zhí)行前面的方法權(quán)利要求的任何方法的步驟。
      全文摘要
      一種驗證語音輸入的方法可包括確定接收到的指定一單詞的用戶口頭話語的發(fā)音數(shù)據(jù),并語音識別進一步的指定該單詞的單個字符的用戶口頭話語??蔀槊總€字符生成一N-best列表??墒褂妹總€字符的N-best列表生成候選單詞??蓪⑺霭l(fā)音數(shù)據(jù)與所述候選單詞相比較以確定至少一個匹配。
      文檔編號G10L15/08GK1841498SQ200610057008
      公開日2006年10月4日 申請日期2006年3月13日 優(yōu)先權(quán)日2005年3月30日
      發(fā)明者J·S·科巴爾 申請人:國際商業(yè)機器公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1