国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于互聯網接入的分布式語音識別的制作方法

      文檔序號:6465407閱讀:145來源:國知局
      專利名稱:用于互聯網接入的分布式語音識別的制作方法
      技術領域
      本發(fā)明涉及通信領域,并且特別涉及通過口頭命令提供互聯網接入。
      語音識別系統(tǒng)將口頭單詞和短語轉換成為文本串。語音識別系統(tǒng)可以是“本地的”或者“遠程的”,和/或者是“集成式的”或者“分布式的”。通常,遠程系統(tǒng)包括用戶本地位置的計算機,同時在一個遠程位置提供大部分語音識別系統(tǒng)。這樣,術語“遠程的”和“分布式的”通常被互換使用。同樣,某些諸如辦公環(huán)境中的網絡的本地網可以包括為用戶站提供服務器的應用服務器和文件服務器。由這種應用服務器提供的應用照慣例被認為是“分布式的”,即使諸如語音識別應用的應用全部駐留在一個應用服務器上。為了本公開的內容,術語“分布式的”被在最廣泛的意義上使用,并且包括沒有集成在被提供了來自口頭命令的文本串的應用中的任何語音系統(tǒng)。通常,這種分布式語音識別系統(tǒng)從一個話音輸入控制應用接收一個口頭短語或者一個口頭短語的編碼,并且將相應的文本串返回給控制應用以便路由到恰當的應用程序。


      圖1表示傳統(tǒng)的通用語音識別系統(tǒng)100。語音識別系統(tǒng)100包括控制器110、語音識別器120和字典125??刂破?10包括語音建模器(modeler)112和文本處理器114。當用戶對著麥克風101講話時,語音建模器112就將聲音輸入編碼成為模型數據,模型數據基于用于實現語音識別的特定方案。模型數據可以包括例如用于每個音位或一組音位的符號,并且語音識別器120被配置成為根據符號識別單詞或短語,并且基于提供符號和文本之間映射的字典125。
      文本處理器114處理來自語音識別器120的文本,以便確定響應于該文本的恰當動作。例如,文本可以是“轉到單詞”,并且響應于該文本,控制器110提供恰當的命令到系統(tǒng)130以啟動一個特定的單詞處理應用140。之后,“開始口授”文本串導致控制器110將所有后續(xù)文本串不經處理地傳送到應用140,直到從語音識別器120接收到“結束口授“文本串為止。
      語音識別器120可以使用用于將文本與語音相關的各種技術中的任何一種。在一個小詞匯量系統(tǒng)中,例如識別器120可以只選擇其模型數據與來自語音建模器的模型數據最匹配的文本。在大詞匯量系統(tǒng)中,識別器120可以使用輔助信息,如基于語法規(guī)則,以在適用的與來自語音建模器的模型數據最匹配的替代物中選擇。用于將語音轉換成為文本的技術在本領域中是普通的。注意從語音識別器提供的文本不需要是口頭短語的直接轉換。例如,口頭短語“呼叫喬”導致來自字典125的文本串“1-914-555-4321”。在分布式語音識別系統(tǒng)中,語音識別器120和所有或部分字典125可以是從語音建模器112和文本處理器114分離的應用。例如,語音識別器120和字典125可以位于一個遠程互聯網站點,并且語音建模器112在一個本地站點,以最小化將用戶語音傳送到識別器120所需要的帶寬。
      Ichiro Hatano在1999年8月25日提交的歐洲專利申請EP0982672A2“利用搜索幫助服務器的信息檢索系統(tǒng)(INFORMATIONRETRIEVAL SYSTEM WITH A SEARCH ASSIST SERVER)”包括在此作為參考,其公開了一種信息檢索系統(tǒng),它具有用于接入多個諸如互聯網站點的信息服務器的每個的標識符列表。與每個信息服務器相關的標識符列表包括用于標識服務器的各種方法,包括一個“發(fā)音”標識符。當用戶的口頭短語對應于一個特定信息服務器的發(fā)音標識符時,信息服務器的位置,如服務器的統(tǒng)一資源定位符(URL)被檢索。然后,這個URL被提供給一個從位于這個URL的信息服務器檢索信息的應用。諸如斯布韋治(Spridge)公司的mySpeech應用的商業(yè)應用提供了目標是通過啟用互聯網的電話裝置接入移動網的類似功能。
      圖2表示被配置來便于接入特定互聯網站點的特殊用途語音處理系統(tǒng)的一個示例實施例。URL搜索服務器220通過互聯網250接收來自用戶站230的輸入。來自用戶站230的輸入包括對應于來自麥克風201的模型數據,以及搜索服務器220用于指導用戶輸入處理結果的“應答返回到的”地址。在這個應用中,用戶輸入處理的結果或者是“未發(fā)現”消息,或者是含有對應于用戶輸入的站點的URL。用戶站230使用所提供的URL來將一個消息以及上述搜索服務器220用于發(fā)送消息回用戶的“應答返回到的”地址發(fā)送到信息源210。典型地,來自信息源210的消息是網頁。注意,如果用戶站230是移動裝置,則典型地使用無線接入協議(WAP)。來自信息源210的WAP消息是來自被使用無線標記語音(WML)編碼的“卡片組(deck)”的一組“卡片”。
      本發(fā)明的一個目的是提高通過語音識別系統(tǒng)的互聯網接入的效率。本發(fā)明的另一個目的是提高通過移動裝置的互聯網接入的效率。本發(fā)明的再一個目的是改進互聯網接入的響應時間。
      通過提供一種搜索服務器來達到這些以及其它目的,所述搜索服務器提供一個用戶地址到信息源,以便實現由用戶對信息源的接入。用戶發(fā)送一個請求到搜索服務器,搜索服務器標識對應于該請求的信息源的地址(URL)。所述請求可以是口頭請求或者對應于口頭請求的模型數據,并且搜索服務器可以包括一個語音識別系統(tǒng)。之后,搜索服務器將一個請求傳送到被標識的信息源,使用用戶地址作為響應于該請求的“應答返回到的地址”。用戶的地址可以是用戶用于傳送初始請求的設備的地址,或者與用戶相關的另一個設備的地址。
      下面參考附圖來更詳細地舉例描述本發(fā)明,在附圖中圖1表示現有技術通用語音識別系統(tǒng)的示例框圖。
      圖2表示包括一個語音識別系統(tǒng)的現有技術搜索系統(tǒng)的示例框圖。
      圖3A和3B表示根據本發(fā)明的搜索系統(tǒng)的示例框圖。
      圖4表示根據本發(fā)明的搜索系統(tǒng)的示例流程圖。
      在各圖中,相同的參考編號表示相似或相應的特征或功能。
      圖3A和3B表示根據本發(fā)明的搜索系統(tǒng)300、300’的示例框圖。為了易于理解,沒有示出在系統(tǒng)300、300’的各部件中的每個間實現通信的常規(guī)裝置,如發(fā)送機、接收機、調制解調器等,但是這些對于本領域技術人員是顯然的。
      在圖3A的示例中,用戶將一個來自用戶站330的請求提交給URL搜索服務器320。搜索服務器320被配置來確定對應于用戶請求的一個單獨URL。同樣,它尤其適合用于語音識別系統(tǒng)中,其中用戶使用關鍵詞或短語,如“獲得股票價格”作為接入特定預定義網站的請求。口頭短語被通過麥克風201輸入用戶站330。用戶站330可以是移動電話、膝上裝置、便攜式計算機、桌上計算機、機頂盒或者能夠提供接入諸如互聯網250的廣域網的任何其它裝置。對網絡250的接入可以通過一個或多個網關(未示出)。
      在語音識別實施例中,用戶站優(yōu)選地將口頭短語編碼成為模型數據,以便使用較少的帶寬來將口頭請求傳送到服務器320。服務器320包括語音識別器120和將模型數據按照要求轉換成為URL定位器322使用的形式的字典125。例如,在上述mySpeech應用中,用戶通過輸入一個文本串和一個相應的URL(如“獲得股票價格”,http//www.stocksonline/userpage3/)來為用戶希望將來接入的每個信息源210建立應用數據庫325。在上述EP0982672A2專利申請中,數據庫包括對應于每個URL的短語的音位的文本編碼。
      注意,盡管本發(fā)明最適合于語音識別以及其中語音識別器120位于搜索服務器320的分布式語音識別,但是用戶站330可以將請求直接提供給URL位置122。所述請求可以是例如用戶輸入的文本串、用戶站330的語音識別器的輸出等。
      作為在常規(guī)TCP/IP請求中的來自用戶的請求包括請求的源330的地址和/或顯示“應答返回到的”地址。常規(guī)地,搜索服務器使用這個地址來將標識的信息源URL發(fā)送回用戶站330。
      根據本發(fā)明,搜索服務器320將一個請求直接傳送到標識的信息源210,其中請求將用戶站330的地址標識作為請求的源,和/或作為顯示“應答返回到的”地址。這樣,當信息源210響應于所述請求時,響應被直接發(fā)送到用戶站330??蛇x地,如果需要,則為了后續(xù)對于信息源210的直接接入,定位的URL也被發(fā)送給用戶站330。
      從服務器320發(fā)送的特定請求可以是用于接入網站的固定請求,或者在一個優(yōu)選實施例中是對應于包括在數據庫325中的每個短語的請求的形式。例如,一些請求可以是下載在URL的一個網頁的常規(guī)請求,而其它請求可以是通過例如選項的選擇、搜索請求等接入網站中的信息的子命令。除了對應于URL的短語之外,在一個優(yōu)選實施例中的數據庫325還被配置為允許其它信息與存儲的短語相關。一些短語,例如數字或字母或者諸如“下一步”、“上一步”和“返回”的特定關鍵字可以在數據庫325和服務器320中定義,以便一個相應的命令或者串被直接傳送到在上次被參考的URL中的信息源210。
      圖3B表示本發(fā)明的一個替代實施例,其中有兩個或多個與用戶相關的站330a、330b。例如,用戶站330a和麥克風201可以是移動電話,并且用戶站330b可以是一個汽車導航系統(tǒng)。在一個優(yōu)選實施例中,用戶站330a將其它用戶站330b的地址提供作為用戶請求的源,或者顯示“應答返回到的”地址。為了易于參考,術語“源地址”在下文中包括隱式或顯示應答返回到的地址。URL服務器320使用第二個用戶站330b的這個源地址作為在對于定位的信息源210的請求中的源地址。這個實施例特別適合于沒有配置用于話音輸入的設備330b和/或沒有被配置為接收下載的網頁或WAP卡片組的設備330a。例如,用戶可以將一個串“顯示市區(qū)”與一個特定地圖的相應URL地址編碼在數據庫325中。用戶配置站330a以將站330b的地址包括在隨后對于URL搜索服務器320的請求中。當用戶說短語“顯示市區(qū)”時,站330a將對應于所述短語的模型數據與站330b的地址傳送到搜索服務器320。之后,搜索服務器320將對于特定地圖的請求傳送到相應的信息源210,包括站330b的地址,并且源210將地圖傳送給站330b。用戶還可以將諸如“放大”、“縮小”、“向北移動”等的短語編碼到數據庫325中,并且搜索服務器320將相應的命令傳送到信息源210,就好像命令是從站330b發(fā)出的一樣。
      按照配置用戶站330a以將站330b的地址包括在對于服務器320的請求中,數據庫325可以被配置為還含有用于某些短語的預定義源URL的字段。例如,短語“顯示汽車中的市區(qū)地圖”對應于數據庫325的“目標URL”字段中的地圖的地址,并且對應于在“源URL”字段中的用戶汽車導航系統(tǒng)的URL地址。這些以及其它用于增強本發(fā)明原理的使用的選項對于本領域的普通技術人員是顯然的。
      圖4表示根據本發(fā)明的搜索系統(tǒng)的示例流程圖,其可以包括在圖3的搜索服務器320中。圖4的示例流程圖并不是詳盡的,對于本領域的普通技術人員來說顯然,替代的處理方案可以被用來實現上述選項和特征。
      在410,對應于聲音輸入的模型數據被接收,在420,這個模型數據被通過語音識別器轉換成為文本串。含有模型數據的消息包括一個源URL的標識。如上關于圖3的服務器320的數據庫325所述,循環(huán)430-450將模型數據與存儲的數據短語比較。如果在435,模型數據對應于存儲的數據短語,則在440,相應的目標URL被檢索到。如上所述,諸如相應的命令或文本串的其它信息也被檢索到。在470,一個請求被傳送到目標URL,并且該請求包括在410檢索到的源地址,以便如上所述,目標URL直接響應于初始源地址。如果模型數據不與任何存儲的數據短語匹配,則在460,用戶被通知。
      以上只是說明了本發(fā)明的原理。應當理解,本領域的技術人員可以設計各種設備,其盡管未在這里明確描述或示出,但是包括本發(fā)明的原理并且在所附權利要求的精神和范圍內。
      權利要求
      1.一種搜索設備(320),包括被配置來從一個源設備(330)接收一個目標標識符和一個源地址的接收機,被配置來標識對應于目標標識符的目標地址(210)的目標定位器(322),以及被配置來將一個請求傳送到目標地址(210)的發(fā)送機;其中所述請求包括源地址,其作為來自搜索設備(320)的發(fā)送機的對于請求的響應的預期接受者。
      2.如權利要求1所述的搜索設備(320),其中目標標識符對應于一個聲音短語,并且搜索設備(320)還包括一個語音識別器(120),其處理目標標識符以便提供一個輸入到用于標識目標地址(210)的目標定位器(322)。
      3.如權利要求1所述的搜索設備(320),其中源地址對應于源設備(330)以及不同于源設備(330a)的目的地設備(330b)中的一個。
      4.如權利要求1所述的搜索設備(320),其中發(fā)送機和接收機被配置來通過互聯網(250)連接通信。
      5.如權利要求4所述的搜索設備(320),其中源地址和目標地址(210)是統(tǒng)一資源定位符(URL)。
      6.如權利要求1所述的搜索設備(320),其中接收機還被配置來接收來自源設備(330)的后續(xù)輸入,目標定位器(322)還被配置來標識對應于后續(xù)輸入的文本串,并且發(fā)送機還被配置來將文本串傳送到目標地址(210)。
      7.如權利要求6所述的搜索設備(320),其中后續(xù)輸入對應于一個聲音短語,并且目標定位器(322)還包括處理后續(xù)輸入以便提供文本串的語音識別器(120)。
      8.一種用戶設備(330),包括一個應用,它被配置來接收一個用戶輸入,將一個源地址和一個對應于用戶輸入的目標標識符發(fā)送到定位器設備(320),以及從目標源(210)接收對應于目標標識符的響應,而無需啟動直接到目標源(210)的請求。
      9.如權利要求8所述的用戶設備(330),其中應用通過互聯網(250)連接發(fā)送到定位器設備(320)并且從目標源(210)接收。
      10.如權利要求8所述的用戶設備(330),其中用戶輸入對應于一個聲音輸入,并且應用還被配置來處理聲音輸入以便提供目標標識符。
      11.一種為用戶提供服務的方法,包括從用戶接收(410)一個目標標識符以及一個相關地址,標識(440)對應于目標標識符的目標地址(210),以及發(fā)送(470)一個請求到目標地址(210);其中所述請求包括相關地址,其作為對于請求的響應的預期接受者。
      12.如權利要求11所述的方法,其中目標標識符對應于一個聲音短語,并且所述方法還包括處理(420)所述目標標識符以便提供用于標識目標地址(210)的搜索條目。
      13.如權利要求11所述的方法,其中相關地址對應于下列內容之一來自用戶的目標標識符的源設備(330)和不同于源設備(330a)的目的地設備(330b)。
      14.如權利要求11所述的方法,其中接收和發(fā)送的每個都是通過互聯網(250)連接實現的。
      15.如權利要求14所述的方法,其中源地址和目標地址(210)是統(tǒng)一資源定位符(URL)。
      16.如權利要求11所述的方法,還包括接收來自用戶的一個后續(xù)輸入,標識對應于后續(xù)輸入的文本串,以及將文本串發(fā)送到目標地址(210)。
      全文摘要
      搜索服務器提供用戶地址到信息源,以便實現用戶對于信息源的接入。用戶發(fā)送一個請求到搜索服務器,并且搜索服務器標識對應于所述請求的信息源的地址(URL)。所述請求可以是口頭請求或者對應于口頭請求的模型數據,并且搜索服務器可以包括一個語音識別系統(tǒng)。之后,搜索服務器將一個請求傳送到被標識的信息源,使用用戶地址作為用于所述請求的響應的“應答返回到的地址”。用戶地址可以是用戶使用來傳送初始請求的地址,或者是與用戶相關的另一個設備的地址。
      文檔編號G06F17/30GK1476714SQ01804664
      公開日2004年2月18日 申請日期2001年12月5日 優(yōu)先權日2000年12月8日
      發(fā)明者T·D·弗里德曼, T D 弗里德曼 申請人:皇家菲利浦電子有限公司
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1