国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      頭戴式顯示設(shè)備的制作方法

      文檔序號:6544379閱讀:165來源:國知局
      頭戴式顯示設(shè)備的制作方法
      【專利摘要】本發(fā)明提供一種頭戴式顯示設(shè)備,所述頭戴式顯示設(shè)備包括:顯示屏幕;麥克風(fēng),接收來自外部或者用戶的源語言語音信息;揚聲器,向用戶發(fā)送聲音信息;無線通信單元,與遠(yuǎn)程服務(wù)器通信;控制器,其中,控制器將麥克風(fēng)接收的源語言語音信息以及用戶指定的目標(biāo)語言通過無線通信單元發(fā)送到遠(yuǎn)程服務(wù)器,遠(yuǎn)程服務(wù)器將源語言語音信息轉(zhuǎn)換為目標(biāo)語言語音信息并將目標(biāo)語言語音信息發(fā)送到無線通信單元,控制器控制揚聲器向用戶發(fā)出由無線通信單元接收的目標(biāo)語言語音信息。
      【專利說明】頭戴式顯示設(shè)備
      【技術(shù)領(lǐng)域】
      [0001 ] 本發(fā)明涉及一種能夠進(jìn)行語言、文字翻譯的頭戴式顯示設(shè)備。
      【背景技術(shù)】
      [0002]頭戴式顯示設(shè)備(Head Mounted Display,HMD)指的是可以戴在頭上的顯示設(shè)備。HMD—般使用“近眼光學(xué)系統(tǒng)”來在距離眼球幾厘米的顯示屏幕(例如鏡片)上顯示圖形圖片等多媒體信息。根據(jù)顯示屏幕的數(shù)量,HMD可以細(xì)分為“單鏡片HMD”和“雙鏡片HMD”。一些HMD只顯示一張“計算機生成圖像”(CGI),而一些種類的HMD則可以以“現(xiàn)實世界視角”的方式顯示疊加的CGI。后者一般又稱為“增強的現(xiàn)實”,因為使用者的對于現(xiàn)實世界的圖像信息被附著在顯示設(shè)備上的圖像給“強化”了。具體來說,就是用戶既可以通過透明的鏡片觀看自己周圍的外部世界,也可以通過控制系統(tǒng)在鏡片上顯示一些多媒體信息,例如文字(在前方看到的一座大廈的名字,距離自己最近的餐館的位置以及其招牌菜、菜單等即時信息)。
      [0003]HMD具有許多實用性的和娛樂性的應(yīng)用。例如,航天應(yīng)用允許飛行員在眼光不從飛行路線上移開的前提下,查看至關(guān)重要的飛行控制信息。公共安全應(yīng)用可以包括跟蹤顯示地圖信息以及犯罪嫌疑人的面部自動識別匹配信息等。其他應(yīng)用領(lǐng)域也可以包括視頻游戲、遠(yuǎn)程醫(yī)療、遠(yuǎn)程控制等。由于該技術(shù)還處于早期階段,隨著該技術(shù)的發(fā)展,將會有更多的實用性和娛樂性的應(yīng)用出現(xiàn)。但是,目前這些應(yīng)用被限制在成本、尺寸、顯示區(qū)域、以及用來實現(xiàn)當(dāng)前HMD的傳統(tǒng)光學(xué)設(shè)備的效率問題等。并且,其他一些尚未徹底解決的技術(shù)問題將會隨著HMD的迅猛發(fā)展而被逐步攻克并實現(xiàn)其在市場上的廣泛應(yīng)用。
      [0004]作為消除全世界范圍內(nèi)人與人溝通的技術(shù),機器翻譯技術(shù),特別是基于統(tǒng)計的機器翻譯技術(shù)業(yè)已經(jīng)越來越成熟,并吸引著越來越多的人使用。然而,當(dāng)一個人去另外一個不同語言的國家旅行或者公務(wù)的時候,如果存在語言/文字障礙,通常需要借助于電子詞典或移動終端中的翻譯軟件,然而這樣并不快速和便捷,由此帶來不便。

      【發(fā)明內(nèi)容】

      [0005]針對上述問題,本發(fā)明提出一種能夠?qū)崿F(xiàn)語言實時翻譯的頭戴式顯示設(shè)備。
      [0006]根據(jù)本發(fā)明的一方面,一種頭戴式顯示設(shè)備包括:顯示屏幕;麥克風(fēng),接收來自外部或者用戶的源語言語音信息;揚聲器,向用戶發(fā)送聲音信息;無線通信單元,與遠(yuǎn)程服務(wù)器通信;控制器,其中,控制器將麥克風(fēng)接收的源語言語音信息以及用戶指定的目標(biāo)語言通過無線通信單元發(fā)送到遠(yuǎn)程服務(wù)器,遠(yuǎn)程服務(wù)器將源語言語音信息轉(zhuǎn)換為目標(biāo)語言語音信息并將目標(biāo)語言語音信息發(fā)送到無線通信單元,控制器控制揚聲器向用戶發(fā)出由無線通信單元接收的目標(biāo)語言語音信息。
      [0007]遠(yuǎn)程服務(wù)器對源語言語音信息進(jìn)行語音識別,將源語言語音信息轉(zhuǎn)換為對應(yīng)的文字,然后將所述對應(yīng)的文字轉(zhuǎn)換為目標(biāo)語言文字,接著將目標(biāo)語言文字轉(zhuǎn)換為對應(yīng)的目標(biāo)語言語音信息,并將目標(biāo)語言語音信息發(fā)送到頭戴式顯示設(shè)備的無線通信單元,控制器控制揚聲器向用戶發(fā)出由無線通信單元接收的目標(biāo)語言語音信息。
      [0008]頭戴式顯示設(shè)備還包括:一個或多個攝像頭,設(shè)置在頭戴式顯示設(shè)備的一側(cè)或多偵牝?qū)︻^戴式顯示設(shè)備的一側(cè)或多側(cè)區(qū)域進(jìn)行拍攝,形成圖像信息。
      [0009]控制器將攝像頭拍攝的圖像信息以及用戶指定的目標(biāo)語言通過無線通信單元發(fā)送到遠(yuǎn)程服務(wù)器,遠(yuǎn)程服務(wù)器將圖像信息中的原始文字轉(zhuǎn)換為目標(biāo)語言文字,并將目標(biāo)語言文字發(fā)送到無線通信單元,控制器控制顯示屏幕顯示目標(biāo)語言文字。
      [0010]遠(yuǎn)程服務(wù)器將目標(biāo)語言文字嵌入到圖像信息中的原始文字對應(yīng)位置處,并且將嵌入了目標(biāo)語言文字的圖像信息發(fā)送到頭戴式顯示設(shè)備的無線通信單元,控制器控制顯示屏幕顯示嵌入了目標(biāo)語言文字的圖像信息。
      [0011]遠(yuǎn)程服務(wù)器將攝像頭拍攝的圖像信息中的原始文字轉(zhuǎn)換為目標(biāo)語言文字,將目標(biāo)語言文字作為訓(xùn)練特征來更新遠(yuǎn)程服務(wù)器針對用戶的源語言語音識別結(jié)果的輸出,重新排列源語言語音識別結(jié)果的排序,以獲得融合了外部環(huán)境特征的優(yōu)化的源語言語音識別結(jié)果;遠(yuǎn)程服務(wù)器將優(yōu)化的源語言語音識別結(jié)果轉(zhuǎn)換為原始文字信息,將轉(zhuǎn)換的原始文字信息作為新訓(xùn)練特征來優(yōu)化源語言語音識別的翻譯結(jié)果,重新排列源語言語音識別的翻譯結(jié)果的排序,以獲得融合了外部環(huán)境特征的優(yōu)化的源語言語音翻譯結(jié)果,并將優(yōu)化的源語言語音翻譯結(jié)果發(fā)送到無線通信單元,控制器控制揚聲器向用戶發(fā)出由無線通信單元接收的優(yōu)化的源語言語音翻譯結(jié)果。
      [0012]遠(yuǎn)程服務(wù)器在對用戶的源語言語音信息的歷史語音識別結(jié)果中提取關(guān)鍵詞,計算關(guān)鍵詞與轉(zhuǎn)換的特定目標(biāo)語言文字之間的相似度,根據(jù)相似度使用所述關(guān)鍵詞來修正所述特定目標(biāo)語言文字,并將修正后的特定目標(biāo)語言文字發(fā)送到無線通信單元,控制器控制顯示屏幕顯示修正后的特定目標(biāo)語言文字。
      [0013]遠(yuǎn)程服務(wù)器在網(wǎng)絡(luò)上的語料中查找所述特定目標(biāo)語言文字出現(xiàn)的文檔的統(tǒng)一資源定位符列表以及所述關(guān)鍵詞出現(xiàn)的文檔的統(tǒng)一資源定位符列表,并確定所述兩個列表的重合度是否大于預(yù)定閾值,如果所述兩個列表的重合度大于預(yù)定閾值,則遠(yuǎn)程服務(wù)器使用所述關(guān)鍵詞替換所述特定目標(biāo)語言文字,并且將替換后的目標(biāo)語言文字發(fā)送到無線通信單元,控制器控制顯示屏幕顯示修正后的特定目標(biāo)語言文字。
      [0014]根據(jù)本發(fā)明的一方面,一種頭戴式顯示設(shè)備可包括:顯示屏幕;麥克風(fēng),接收來自外部或者用戶的源語言語音信息;揚聲器,向用戶發(fā)送聲音信息;語音轉(zhuǎn)換單元;控制器,其中,控制器將麥克風(fēng)接收的源語言語音信息發(fā)送到語音轉(zhuǎn)換單元,語音轉(zhuǎn)換單元將源語言語音信息轉(zhuǎn)換為用戶指定的目標(biāo)語言語音信息,揚聲器向用戶發(fā)出由語音轉(zhuǎn)換單元轉(zhuǎn)換的目標(biāo)語目語首/[目息。
      [0015]語音轉(zhuǎn)換單元包括:語音識別單元,對從麥克風(fēng)接收的源語言語音信息進(jìn)行語音識別;語音到文字轉(zhuǎn)換單元,將由語音識別單元識別的語音轉(zhuǎn)換為文字;文字翻譯單元,將由語音到文字轉(zhuǎn)換單元轉(zhuǎn)換的文字翻譯為用戶指定的目標(biāo)語言文字;語音生成單元,根據(jù)由文字翻譯單元翻譯的目標(biāo)語言文字生成目標(biāo)語言語音信息,其中,控制器控制揚聲器向用戶發(fā)出由語音生成單元生成的目標(biāo)語言語音信息。
      [0016]頭戴式顯示設(shè)備還包括:一個或多個攝像頭,設(shè)置在頭戴式顯示設(shè)備的一側(cè)或多偵牝?qū)︻^戴式顯示設(shè)備的一側(cè)或多側(cè)區(qū)域進(jìn)行拍攝,形成圖像信息。
      [0017]頭戴式顯示設(shè)備還包括:文字識別單元,對由攝像頭拍攝的圖像信息進(jìn)行文字識別;文字翻譯單元,將由文字識別單元識別的文字翻譯為用戶指定的目標(biāo)語言文字,其中,控制器控制顯示屏幕顯示目標(biāo)語言文字。
      [0018]控制器將目標(biāo)語言文字嵌入到圖像信息中的原始文字對應(yīng)位置處,并且控制顯示屏幕顯示嵌入了目標(biāo)語言文字的圖像信息。
      [0019]文字翻譯單元將文字識別單元識別的圖像信息中的原始文字轉(zhuǎn)換為目標(biāo)語言文字,控制器將目標(biāo)語言文字作為訓(xùn)練特征來更新語音識別單元針對用戶的源語言語音識別結(jié)果的輸出,重新排列語音識別單元的源語言語音識別結(jié)果的排序,以獲得融合了外部環(huán)境特征的優(yōu)化的源語言語音識別結(jié)果;語音到文字轉(zhuǎn)換單元將優(yōu)化的源語言語音識別結(jié)果轉(zhuǎn)換為原始文字信息,控制器將轉(zhuǎn)換的原始文字信息作為新訓(xùn)練特征來優(yōu)化源語言語音識別的翻譯結(jié)果,重新排列源語言語音識別的翻譯結(jié)果的排序,以獲得融合了外部環(huán)境特征的優(yōu)化的源語言語音翻譯結(jié)果,并且控制器控制揚聲器向用戶發(fā)出優(yōu)化的源語言語音翻譯結(jié)果。
      [0020]控制器在對用戶的源語言語音信息的歷史語音識別結(jié)果中提取關(guān)鍵詞,計算關(guān)鍵詞與轉(zhuǎn)換的特定目標(biāo)語言文字之間的相似度,根據(jù)相似度使用所述關(guān)鍵詞來修正所述特定目標(biāo)語言文字,并控制顯示屏幕顯示修正后的特定目標(biāo)語言文字。
      [0021]控制器通過頭戴式顯示設(shè)備的無線通信單元在網(wǎng)絡(luò)上的語料中查找所述特定目標(biāo)語言文字出現(xiàn)的文檔的統(tǒng)一資源定位符列表以及所述關(guān)鍵詞出現(xiàn)的文檔的統(tǒng)一資源定位符列表,并確定所述兩個列表的重合度是否大于預(yù)定閾值,如果所述兩個列表的重合度大于預(yù)定閾值,則所述控制器使用所述關(guān)鍵詞替換所述特定目標(biāo)語言文字,并控制顯示屏幕顯示修正后的特定目標(biāo)語言文字。
      [0022]根據(jù)本發(fā)明的可頭戴式顯示設(shè)備,可將機器翻譯系統(tǒng)集成到可頭戴式顯示設(shè)備上,用戶可以以語音的方式將一種語言翻譯成另外一種語言;用戶還可以以文字自動識別(例如OCR)方式來通過頭戴式顯示設(shè)備上的攝像頭接收外部圖像信息,提取文字,并翻譯為指定的目標(biāo)語言,最后將翻譯的結(jié)果展現(xiàn)在頭戴式顯示設(shè)備的屏幕上,可為用戶提供更多的便利。
      【專利附圖】

      【附圖說明】
      [0023]通過結(jié)合附圖,從下面的實施例的描述中,本發(fā)明這些和/或其它方面及優(yōu)點將會變得清楚,并且更易于理解,其中:
      [0024]圖1是示出根據(jù)本發(fā)明實施例的頭戴式顯示設(shè)備的前向視角示意圖;
      [0025]圖2示出了根據(jù)本發(fā)明的頭戴式顯示設(shè)備的語音翻譯的流程圖;
      [0026]圖3示出了根據(jù)本發(fā)明的由頭戴式顯示設(shè)備提供輸入輸出接口的基于統(tǒng)計的機器翻譯模型的示例的框圖;
      [0027]圖4示出了通過根據(jù)本發(fā)明的頭戴式顯示設(shè)備的翻譯處理所看到的外景上的文字信息的示例的示意圖;
      [0028]圖5和圖6是示出根據(jù)本發(fā)明的利用文字識別技術(shù)識別出來的文字信息、圖像信息等來修正語音信息的翻譯結(jié)果的應(yīng)用場景的示意圖。
      【具體實施方式】[0029]以下參照附圖來詳細(xì)描述本發(fā)明的實施例。根據(jù)HMD的顯示屏幕的數(shù)量,HMD可以細(xì)分為單鏡片HMD和雙鏡片HMD。本發(fā)明可同時適用于單鏡片HMD以及雙鏡片HMD。
      [0030]圖1是示出根據(jù)本發(fā)明實施例的頭戴式顯示設(shè)備的前向視角示意圖。
      [0031]圖1中的標(biāo)號I表示頭戴式顯示設(shè)備的框架??蚣躀可由特定材料(例如碳纖維等輕質(zhì)材料)制成。參照圖1,頭戴式顯示設(shè)備可包括顯示屏幕2、一個或多個攝像頭3、麥克風(fēng)4和揚聲器5。上述部件可安裝在頭戴式顯示設(shè)備的框架I中。
      [0032]此外,在頭戴式顯示設(shè)備的框架I中還可設(shè)置控制器以及無線通信單元。無線通信單元可與遠(yuǎn)程服務(wù)器(例如云端服務(wù)器)通信。另外,無線通信單元還可與另一頭戴式顯示設(shè)備的無線通信單元通信。
      [0033]顯示屏幕2可被設(shè)置有觸摸式控制界面或者麥克風(fēng)配合聲音識別模塊等來接收用戶的觸摸式以及聲音等控制信息,實現(xiàn)交互。
      [0034]顯示屏幕2可以是一個顯示屏幕或兩個顯示屏幕(B卩,左顯示屏幕21和右顯示屏幕22),分別對應(yīng)于單鏡片HMD和雙鏡片HMD。
      [0035]一個或多個攝像頭3可設(shè)置在頭戴式顯示設(shè)備的一側(cè)或多側(cè),對頭戴式顯示設(shè)備的一側(cè)或多側(cè)區(qū)域進(jìn)行拍攝,并且將拍攝的圖像信息發(fā)送到控制器。圖像信息可以是靜止圖片或視頻。
      [0036]控制器可將接收到的圖像信息顯示在顯示屏幕2上。
      [0037]麥克風(fēng)4可接收聲音信息,例如來自外部或者用戶的語音指令。
      [0038]揚聲器5可向用戶發(fā)送聲音信息。例如,揚聲器5可根據(jù)來自控制器的命令向用戶發(fā)送聲音信息(例如聲音反饋、聲音提示等聲音信息)。
      [0039]麥克風(fēng)4可接收來自用戶或外部的語音信息(即,源語言語音信息),控制器將麥克風(fēng)4接收的語音信息以及用戶指定的目標(biāo)語言通過無線通信單元發(fā)送到遠(yuǎn)程服務(wù)器。遠(yuǎn)程服務(wù)器將語音信息轉(zhuǎn)換為目標(biāo)語言語音信息。
      [0040]具體地,遠(yuǎn)程服務(wù)器對語音信息進(jìn)行語音識別,將語音信息轉(zhuǎn)換為對應(yīng)的文字,然后將所述對應(yīng)的文字轉(zhuǎn)換為目標(biāo)語言文字,接著將目標(biāo)語言文字轉(zhuǎn)換為對應(yīng)的目標(biāo)語言語音信息,并將目標(biāo)語言語音信息發(fā)送到頭戴式顯示設(shè)備的無線通信單元。頭戴式顯示設(shè)備的控制器控制揚聲器5向用戶發(fā)出由無線通信單元接收的目標(biāo)語言語音信息。這樣,頭戴式顯示設(shè)備實現(xiàn)了對用戶或外部的語音信息的翻譯。
      [0041]圖2示出了根據(jù)本發(fā)明的頭戴式顯示設(shè)備的語音翻譯的流程圖。
      [0042]此外,也可在頭戴式顯示設(shè)備中將遠(yuǎn)程服務(wù)器發(fā)送的目標(biāo)語言文字轉(zhuǎn)換為對應(yīng)的目標(biāo)語言語音信息。因此,頭戴式顯示設(shè)備還可包括語音生成單元。語音生成單元根據(jù)無線通信單元從遠(yuǎn)程服務(wù)器接收的目標(biāo)語言文字生成對應(yīng)的目標(biāo)語言語音信息。頭戴式顯示設(shè)備的控制器控制揚聲器5向用戶發(fā)出由語音生成單元生成的目標(biāo)語言語音信息。
      [0043]頭戴式顯示設(shè)備除了進(jìn)行語音翻譯之外,還可進(jìn)行文字翻譯。
      [0044]控制器可將攝像頭3拍攝的圖像信息以及用戶指定的目標(biāo)語言通過無線通信單元發(fā)送到遠(yuǎn)程服務(wù)器。遠(yuǎn)程服務(wù)器將圖像信息中的原始文字轉(zhuǎn)換為目標(biāo)語言文字,并將目標(biāo)語言文字發(fā)送到頭戴式顯示設(shè)備的無線通信單元。
      [0045]具體地,遠(yuǎn)程服務(wù)器在圖像信息中進(jìn)行文字識別,將識別的文字轉(zhuǎn)換為目標(biāo)語言文字,并將目標(biāo)語言文字發(fā)送到頭戴式顯示設(shè)備的無線通信單元。文字識別可以是光學(xué)字符識別(OCR)。
      [0046]控制器控制頭戴式顯示設(shè)備的顯示屏幕顯示目標(biāo)語言文字。這樣,頭戴式顯示設(shè)備實現(xiàn)了對攝像頭3拍攝的圖像信息中的原始文字的翻譯。優(yōu)選地,遠(yuǎn)程服務(wù)器將目標(biāo)語言文字嵌入到圖像信息中的原始文字對應(yīng)位置處,并且將嵌入了目標(biāo)語言文字的圖像信息發(fā)送到頭戴式顯示設(shè)備的無線通信單元??刂破骺煽刂祁^戴式顯示設(shè)備的顯示屏幕顯示嵌入了目標(biāo)語言文字的圖像信息,從而為用戶提供更多便利。
      [0047]圖3示出了根據(jù)本發(fā)明的由頭戴式顯示設(shè)備提供輸入輸出接口的基于統(tǒng)計的機器翻譯模型的示例的框圖。
      [0048]參照圖3,在橫向上(箭頭方向從左向右移動)給出的是“基于統(tǒng)計的機器翻譯模型”的訓(xùn)練流程圖。該流程主要是兩部分:雙語翻譯模型和單語語言模型?!半p語翻譯模型”以概率的形式來衡量兩種語言之間的映射關(guān)系?!皢握Z語言模型”以概率的形式來衡量目標(biāo)語言的語句的正確性(例如,“我吃飯”比“我飯吃”更像中文語言,更符合中文語言習(xí)慣)。
      [0049]在縱向上(箭頭方向從上向下移動)給出的是:1、由頭戴式顯示設(shè)備提供了輸入接口和輸出接口(負(fù)責(zé)接收/發(fā)送語音信號以及接收/發(fā)送圖像信號);2、語音識別/生成,圖像上文字的識別和文字轉(zhuǎn)圖像等;3、基于統(tǒng)計的機器翻譯模型的“解碼階段”(從源語言的語句使用橫向訓(xùn)練得到的機器翻譯模型,在基于短語的雙語翻譯詞典和目標(biāo)語言的語言模型上進(jìn)行搜索解碼(諸如n-best搜索),從而最終得到目標(biāo)語言的自動翻譯后的語句)。
      [0050]上面的實施例描述了頭戴式顯示設(shè)備通過與遠(yuǎn)程服務(wù)器進(jìn)行交互來自動獲得翻譯后的語音或文字的情形,但是本發(fā)明不限于此。隨著電子元器件的集成度越來越高以及各種應(yīng)用程序的不斷開發(fā),可以將語音識別、文字識別、語音生成等功能集成到頭戴式顯示設(shè)備中。
      [0051]因此,頭戴式顯示設(shè)備還可包括語音轉(zhuǎn)換單元??刂破鲗Ⅺ溈孙L(fēng)4接收的源語言語音信息發(fā)送到語音轉(zhuǎn)換單元。語音轉(zhuǎn)換單元將源語言語音信息轉(zhuǎn)換為用戶指定的目標(biāo)語言語音信息。揚聲器5向用戶發(fā)出由語音轉(zhuǎn)換單元轉(zhuǎn)換的目標(biāo)語言語音信息。
      [0052]具體地,語音轉(zhuǎn)換單元可包括語音識別單元、語音到文字轉(zhuǎn)換單元、文字翻譯單元和語音生成單元。
      [0053]語音識別單元對從麥克風(fēng)4接收的源語言語音信息進(jìn)行語音識別。語音到文字轉(zhuǎn)換單元將由語音識別單元識別的語音轉(zhuǎn)換為文字。文字翻譯單元將由語音到文字轉(zhuǎn)換單元轉(zhuǎn)換的文字翻譯為用戶指定的目標(biāo)語言文字。語音生成單元根據(jù)由文字翻譯單元翻譯的目標(biāo)語言文字生成目標(biāo)語言語音信息。揚聲器5向用戶發(fā)出由語音生成單元生成的目標(biāo)語言語音信息。這樣,頭戴式顯示設(shè)備實現(xiàn)了對用戶或外部的語音信息的翻譯。
      [0054]另外,頭戴式顯示設(shè)備還可包括文字識別單元。文字識別單元對由攝像頭3拍攝的圖像信息進(jìn)行文字識別(例如進(jìn)行光學(xué)字符識別(OCR))。文字翻譯單元將由文字識別單元識別的文字翻譯為用戶指定的目標(biāo)語言文字??刂破骺刂祁^戴式顯示設(shè)備的顯示屏幕顯示目標(biāo)語言文字。這樣,頭戴式顯示設(shè)備實現(xiàn)了對攝像頭3拍攝的圖像信息中的原始文字的翻譯。優(yōu)選地,控制器將目標(biāo)語言文字嵌入到圖像信息中的原始文字對應(yīng)位置處,并且可控制頭戴式顯示設(shè)備的顯示屏幕顯示嵌入了目標(biāo)語言文字的圖像信息,從而為用戶提供更多便利。[0055]圖4示出了通過根據(jù)本發(fā)明的頭戴式顯示設(shè)備的翻譯處理所看到的外景上的文字信息的示例的示意圖。
      [0056]參照圖4,例如,商店的招牌上的日語“八” ^ 被翻譯成“電腦”,日語“3 K'>力^ 9”被翻譯成“淀橋照相機”。頭戴式顯示設(shè)備的這種展示效果對于出國旅游購物的游客來說有很大幫助。
      [0057]此外,用戶所見和所說在頭戴式顯示設(shè)備的外界場景下,聲音和圖像具有一定的關(guān)聯(lián)度,在本發(fā)明中,將針對這種關(guān)聯(lián)度利用外部文字識別技術(shù)識別出來的文字信息、圖像信息等來修正語音信息的翻譯結(jié)果。
      [0058]反之,也可針對這種聲音和圖像的關(guān)聯(lián)度根據(jù)語音識別的識別結(jié)果和翻譯結(jié)果,來修正圖像上的文字翻譯結(jié)果。例如,如果用戶看到一個商店,其店名為“〃 〃 - >”,則頭戴式顯示設(shè)備直接翻譯該日語,得到的是“電腦”這個詞。假設(shè)頭戴式顯示設(shè)備通過其語音轉(zhuǎn)換單元得到了用戶說出的“買計算機、購物”等關(guān)鍵詞的語音信息,則在翻譯時,將文字翻譯結(jié)果“電腦”修正為“計算機”,并且將修正后的翻譯結(jié)果顯示給用戶。下面將進(jìn)行詳細(xì)描述。
      [0059]首先,將描述利用外部文字識別技術(shù)識別出來的文字信息、圖像信息等來修正語音信息的翻譯結(jié)果的示例。
      [0060]使用外文的來自圖形圖像的文字信息的翻譯后果來優(yōu)化提升語音識別信息的識別準(zhǔn)確率,同時這種外部文字信息的重要度通過訓(xùn)練模型的加權(quán)權(quán)重wi被自適應(yīng)調(diào)整,基于針對外部文字信息 和語音識別聲波的關(guān)聯(lián)度函數(shù)計算得到加權(quán)權(quán)重wi,wi = edit,distance (words, candidatesl, candidates2)。這里,words 表不外部的離散的那些分布在“路牌”、“店名看板”、“路標(biāo)”等上面的原始文字的翻譯結(jié)果(成為用戶目標(biāo)文字,例如如果路牌是日文,則翻譯結(jié)果是中文);candidateSl表示翻譯后的目標(biāo)文字對應(yīng)的聲波信息;candidates〗表示用戶語音輸入(即,用戶語言,例如中文)。
      [0061]接著,可使用翻譯之前的外文文字信息,來優(yōu)化翻譯之后的語音識別的結(jié)果。
      [0062]具體地,遠(yuǎn)程服務(wù)器接收攝像頭3拍攝的圖像信息,并使用文字識別(例如OCR)識別出原始文字信息(非用戶語言,例如日語)。
      [0063]遠(yuǎn)程服務(wù)器將識別的文字轉(zhuǎn)換為目標(biāo)語言文字(成為用戶語言文字,例如中文)。
      [0064]遠(yuǎn)程服務(wù)器將目標(biāo)語言文字作為訓(xùn)練特征feature,更新遠(yuǎn)程服務(wù)器針對用戶的源語言語音識別結(jié)果的輸出。更新公式為:weight.new (output) = weight,old (output)+wi Xf (words)。其中,weight, old (output)是源語言語音識別結(jié)果 output 的原有的沒有使用來自圖像的文字信息feature的權(quán)重,wi是新feature (訓(xùn)練特征)的加權(quán)權(quán)重(前面已描述),而weight, new是源語言語音識別結(jié)果output的新權(quán)重。遠(yuǎn)程服務(wù)器根據(jù)所述源語言語音識別結(jié)果的新權(quán)重,重新排列源語言語音識別結(jié)果的排序,以獲得融合了外部環(huán)境特征的優(yōu)化的源語言語音識別結(jié)果。
      [0065]接著,遠(yuǎn)程服務(wù)器將優(yōu)化的源語言語音識別結(jié)果轉(zhuǎn)換為原始文字信息(非用戶語言,例如日語)。
      [0066]最后,遠(yuǎn)程服務(wù)器將非用戶語言的原始文字信息作為新訓(xùn)練特征來優(yōu)化語音識別翻譯的結(jié)果,其更新公式為:weight.new (translation) = weight,old(translation)+wiXf(words)。其中,weight, old(translation)是翻譯結(jié)果translation的原有的沒有使用來自圖像的文字信息feature的權(quán)重,wi是新feature (訓(xùn)練特征)的加權(quán)權(quán)重(前面已描述),而weight, new是源語言語音識別文字的翻譯結(jié)果translation(即,目標(biāo)語言語音信息)的新權(quán)重。遠(yuǎn)程服務(wù)器根據(jù)所述翻譯結(jié)果的新權(quán)重,重新排列語音識別的翻譯結(jié)果的排序,以獲得融合了外部環(huán)境特征的優(yōu)化的源語言語音翻譯結(jié)果。
      [0067]另外,上面描述了頭戴式顯示設(shè)備利用遠(yuǎn)程服務(wù)器來實現(xiàn)對的源語言語音翻譯結(jié)果修正的實施例。在語音識別、文字識別、語音生成等功能集成到頭戴式顯示設(shè)備中的情況下,也可在頭戴式顯示設(shè)備中實現(xiàn)對語音翻譯結(jié)果的修正,其基本處理類似,這里不再詳述。
      [0068]為了便于理解,下面給出將描述利用文字識別技術(shù)識別出來的文字信息、圖像信息等來修正語音信息的翻譯結(jié)果的應(yīng)用場景。
      [0069]圖5和圖6是示出根據(jù)本發(fā)明的利用文字識別技術(shù)識別出來的文字信息、圖像信息等來修正語音信息的翻譯結(jié)果的應(yīng)用場景的示意圖。
      [0070]參照圖5和圖6,一個美國人和一個中國人在打乒乓球。美國人只會說英文,中國人只會說中文。他們都佩戴有根據(jù)本發(fā)明的頭戴式顯示設(shè)備。即,設(shè)定頭戴式顯示設(shè)備的用戶的一方是英文為母語,另外的一方是中文為母語。
      [0071]當(dāng)美國人說“give me a shot”的時候,其真實的意圖是“給我殺一板過來/請進(jìn)攻”這樣的意思。而直接識別該英文語音,并且翻譯為中文的時候,遇到問題在于,shot有多個意思,例如,“照相”、“射擊”和“進(jìn)球”等。則,“give mea shot”可以被分別翻譯成“給我照相”、“給我打一槍”、和“給我進(jìn)攻擊球”等意思。如果翻譯系統(tǒng)本身不借助外力,單靠自身的訓(xùn)練模型,則只能按照訓(xùn)練數(shù)據(jù)集合中哪個最常用來返回翻譯結(jié)果。很顯然,這種翻譯需要和具體的外部世界的場景相匹配。由此擴展開來,所有的基于口語的(即基于語音識別)的翻譯,都需要 將外部場景引入進(jìn)來,作為最佳翻譯結(jié)果選擇的一個重要的前提條件。
      [0072]頭戴式顯示設(shè)備的攝像頭3拍攝外部圖像,當(dāng)識別出“人臉,相機”等圖像物體的時候,則最佳翻譯應(yīng)該是“給我照相”;當(dāng)識別出“槍械,軍服”等圖像物體的時候,則最佳翻譯應(yīng)該是“給我打一槍”;當(dāng)識別出“球拍,球棒,球桌,圓球/橢圓球”等圖像物體的時候,則最佳翻譯應(yīng)該是“給我進(jìn)攻擊球/向我進(jìn)攻擊球”
      [0073]上述示例適用前提是通過攝像頭3可以觀察到外部世界。如果由于光線等問題,外部世界無法觀察,則本發(fā)明采用傳統(tǒng)的翻譯模型,即外部圖像信息失效。
      [0074]下面給出本發(fā)明涉及的基于圖像識別的機器翻譯模型的數(shù)學(xué)公式:
      [0075]pM = Σ P(e, O = [ Ρ_.P⑴
      / i
      [0076]這里的,e表示目標(biāo)語言句子,例如“給我進(jìn)攻擊球/向我進(jìn)攻擊球”;t表示根據(jù)外部應(yīng)用場景的圖形圖像信息所識別出來的具體的場景分類,例如“照相”,“軍事”,“運動/體育”這樣的標(biāo)簽;P(e,t)biose和t的聯(lián)合概率;P(e|t)表示在外部場景分類標(biāo)簽t給定的前提下,一個具體的翻譯e的概率(概率越大,越有可能作為最佳候選返回給用戶);P(t)表示外部場景分類標(biāo)簽t在給定外部圖形圖像(例如,球拍,球棒,圓球等,攝像頭3獲取并識別出的具體的物體的標(biāo)簽)給出的情況下,外部世界屬于一個具體的標(biāo)簽t (例如,體育/運動)的概率。[0077]通過這個概率模型,可以將外部圖形圖像信息很好地融入到機器翻譯模型中去,如下是傳統(tǒng)的機器翻譯模型:
      [0078]P (e I f) = argmaxe P (f | e) P (e)
      [0079]其中,e表示目標(biāo)語言句子,例如“給我進(jìn)攻擊球/向我進(jìn)攻擊球”;f表示源語言句子,例如“give me a shot” ;argmaxe表示在空間“P(f | e)P(e) ”中尋找最匹配的那個目標(biāo)語言的句子e。該公式中的P(e)將從傳統(tǒng)的η元語言模型,修改為:
      [0080]
      【權(quán)利要求】
      1.一種頭戴式顯示設(shè)備,包括: 顯示屏幕; 麥克風(fēng),接收來自外部或者用戶的源語言語音信息; 揚聲器,向用戶發(fā)送聲音信息; 無線通信單元,與遠(yuǎn)程服務(wù)器通信; 控制器, 其中,控制器將麥克風(fēng)接收的源語言語音信息以及用戶指定的目標(biāo)語言通過無線通信單元發(fā)送到遠(yuǎn)程服務(wù)器,遠(yuǎn)程服務(wù)器將源語言語音信息轉(zhuǎn)換為目標(biāo)語言語音信息并將目標(biāo)語言語音信息發(fā)送到無線通信單元,控制器控制揚聲器向用戶發(fā)出由無線通信單元接收的目標(biāo)語目語首/[目息。
      2.根據(jù)權(quán)利要求1所述的頭戴式顯示設(shè)備,其中,遠(yuǎn)程服務(wù)器對源語言語音信息進(jìn)行語音識別,將源語言語音信息轉(zhuǎn)換為對應(yīng)的文字,然后將所述對應(yīng)的文字轉(zhuǎn)換為目標(biāo)語言文字,接著將目標(biāo)語言文字轉(zhuǎn)換為對應(yīng)的目標(biāo)語言語音信息,并將目標(biāo)語言語音信息發(fā)送到頭戴式顯示設(shè)備的無線通信單元, 控制器控制揚聲器向用戶發(fā)出由無線通信單元接收的目標(biāo)語言語音信息。
      3.根據(jù)權(quán)利要求2所述的頭戴式顯示設(shè)備,頭戴式顯示設(shè)備還包括:一個或多個攝像頭,設(shè)置在頭戴式顯示設(shè)備的一側(cè)或多側(cè),對頭戴式顯示設(shè)備的一側(cè)或多側(cè)區(qū)域進(jìn)行拍攝,形成圖像信息。
      4.根據(jù)權(quán)利要求3所述的頭戴式顯示設(shè)備,其中,控制器將攝像頭拍攝的圖像信息以及用戶指定的目標(biāo)語言通過無線通信單元發(fā)送到遠(yuǎn)程服務(wù)器,遠(yuǎn)程服務(wù)器將圖像信息中的原始文字轉(zhuǎn)換為目標(biāo)語言文字,并將目標(biāo)語言文字發(fā)送到無線通信單元, 控制器控制顯示屏幕顯示目標(biāo)語言文字。
      5.根據(jù)權(quán)利要求4所述的頭戴式顯示設(shè)備,其中,遠(yuǎn)程服務(wù)器將目標(biāo)語言文字嵌入到圖像信息中的原始文字對應(yīng)位置處,并且將嵌入了目標(biāo)語言文字的圖像信息發(fā)送到頭戴式顯示設(shè)備的無線通信單元, 控制器控制顯示屏幕顯示嵌入了目標(biāo)語言文字的圖像信息。
      6.根據(jù)權(quán)利要求4所述的頭戴式顯示設(shè)備,其中,遠(yuǎn)程服務(wù)器將攝像頭拍攝的圖像信息中的原始文字轉(zhuǎn)換為目標(biāo)語言文字,將目標(biāo)語言文字作為訓(xùn)練特征來更新遠(yuǎn)程服務(wù)器針對用戶的源語言語音識別結(jié)果的輸出,重新排列源語言語音識別結(jié)果的排序,以獲得融合了外部環(huán)境特征的優(yōu)化的源語言語音識別結(jié)果;遠(yuǎn)程服務(wù)器將優(yōu)化的源語言語音識別結(jié)果轉(zhuǎn)換為原始文字信息,將轉(zhuǎn)換的原始文字信息作為新訓(xùn)練特征來優(yōu)化源語言語音識別的翻譯結(jié)果,重新排列源語言語音識別的翻譯結(jié)果的排序,以獲得融合了外部環(huán)境特征的優(yōu)化的源語言語音翻譯結(jié)果,并將優(yōu)化的源語言語音翻譯結(jié)果發(fā)送到無線通信單元, 控制器控制揚聲器向用戶發(fā)出由無線通信單元接收的優(yōu)化的源語言語音翻譯結(jié)果。
      7.根據(jù)權(quán)利要求4所述的頭戴式顯示設(shè)備,其中,遠(yuǎn)程服務(wù)器在對用戶的源語言語音信息的歷史語音識別結(jié)果中提取關(guān)鍵詞,計算關(guān)鍵詞與轉(zhuǎn)換的特定目標(biāo)語言文字之間的相似度,根據(jù)相似度使用所述關(guān)鍵詞來修正所述特定目標(biāo)語言文字,并將修正后的特定目標(biāo)語言文字發(fā)送到無線通信單元, 控制器控制顯示屏幕顯示修正后的特定目標(biāo)語言文字。
      8.根據(jù)權(quán)利要求7所述的頭戴式顯示設(shè)備,其中,遠(yuǎn)程服務(wù)器在網(wǎng)絡(luò)上的語料中查找所述特定目標(biāo)語言文字出現(xiàn)的文檔的統(tǒng)一資源定位符列表以及所述關(guān)鍵詞出現(xiàn)的文檔的統(tǒng)一資源定位符列表,并確定所述兩個列表的重合度是否大于預(yù)定閾值,如果所述兩個列表的重合度大于預(yù)定閾值,則遠(yuǎn)程服務(wù)器使用所述關(guān)鍵詞替換所述特定目標(biāo)語言文字,并且將替換后的目標(biāo)語言文字發(fā)送到無線通信單元, 控制器控制顯示屏幕顯示修正后的特定目標(biāo)語言文字。
      9.一種頭戴式顯示設(shè)備,包括: 顯示屏幕; 麥克風(fēng),接收來自外部或者用戶的源語言語音信息; 揚聲器,向用戶發(fā)送聲音信息; 語音轉(zhuǎn)換單元; 控制器, 其中,控制器將麥克風(fēng)接收的源語言語音信息發(fā)送到語音轉(zhuǎn)換單元,語音轉(zhuǎn)換單元將源語言語音信息轉(zhuǎn)換為用戶指定的目標(biāo)語言語音信息,揚聲器向用戶發(fā)出由語音轉(zhuǎn)換單元轉(zhuǎn)換的目標(biāo)語言語音信息。
      10.根據(jù)權(quán)利要求9所述的頭戴式顯示設(shè)備,其中,語音轉(zhuǎn)換單元包括: 語音識別單元,對從麥克風(fēng)接收的源語言語音信息進(jìn)行語音識別; 語音到文字轉(zhuǎn)換單元,將由語音識別單元識別的語音轉(zhuǎn)換為文字; 文字翻譯單元,將由語音到文字轉(zhuǎn)換單元轉(zhuǎn)換的文字翻譯為用戶指定的目標(biāo)語言文字; 語音生成單元,根據(jù)由文字翻譯單元翻譯的目標(biāo)語言文字生成目標(biāo)語言語音信息, 其中,控制器控制揚聲器向用戶發(fā)出由語音生成單元生成的目標(biāo)語言語音信息。
      11.根據(jù)權(quán)利要求10所述的頭戴式顯示設(shè)備,頭戴式顯示設(shè)備還包括:一個或多個攝像頭,設(shè)置在頭戴式顯示設(shè)備的一側(cè)或多側(cè),對頭戴式顯示設(shè)備的一側(cè)或多側(cè)區(qū)域進(jìn)行拍攝,形成圖像信息。
      12.根據(jù)權(quán)利要求11所述的頭戴式顯示設(shè)備,頭戴式顯示設(shè)備還包括: 文字識別單元,對由攝像頭拍攝的圖像信息進(jìn)行文字識別; 文字翻譯單元,將由文字識別單元識別的文字翻譯為用戶指定的目標(biāo)語言文字, 其中,控制器控制顯示屏幕顯示目標(biāo)語言文字。
      13.根據(jù)權(quán)利要求12所述的頭戴式顯示設(shè)備,其中,控制器將目標(biāo)語言文字嵌入到圖像信息中的原始文字對應(yīng)位置處,并且控制顯示屏幕顯示嵌入了目標(biāo)語言文字的圖像信肩、O
      14.根據(jù)權(quán)利要求12所述的頭戴式顯示設(shè)備,其中,文字翻譯單元將文字識別單元識別的圖像信息中的原始文字轉(zhuǎn)換為目標(biāo)語言文字,控制器將目標(biāo)語言文字作為訓(xùn)練特征來更新語音識別單元針對用戶的源語言語音識別結(jié)果的輸出,重新排列語音識別單元的源語言語音識別結(jié)果的排序,以獲得融合了外部環(huán)境特征的優(yōu)化的源語言語音識別結(jié)果;語音到文字轉(zhuǎn)換單元將優(yōu)化的源語言語音識別結(jié)果轉(zhuǎn)換為原始文字信息,控制器將轉(zhuǎn)換的原始文字信息作為新訓(xùn)練特征來優(yōu)化源語言語音識別的翻譯結(jié)果,重新排列源語言語音識別的翻譯結(jié)果的排序,以獲得融合了外部環(huán)境特征的優(yōu)化的源語言語音翻譯結(jié)果,并且控制器控制揚聲器向用戶發(fā)出優(yōu)化的源語言語音翻譯結(jié)果。
      15.根據(jù)權(quán)利要求12所述的頭戴式顯示設(shè)備,其中,控制器在對用戶的源語言語音信息的歷史語音識別結(jié)果中提取關(guān)鍵詞,計算關(guān)鍵詞與轉(zhuǎn)換的特定目標(biāo)語言文字之間的相似度,根據(jù)相似度使用所述關(guān)鍵詞來修正所述特定目標(biāo)語言文字,并控制顯示屏幕顯示修正后的特定目標(biāo)語言文字。
      16.根據(jù)權(quán)利要求15所述的頭戴式顯示設(shè)備,其中,控制器通過頭戴式顯示設(shè)備的無線通信單元在網(wǎng)絡(luò)上的語料中查找所述特定目標(biāo)語言文字出現(xiàn)的文檔的統(tǒng)一資源定位符列表以及所述關(guān)鍵詞出 現(xiàn)的文檔的統(tǒng)一資源定位符列表,并確定所述兩個列表的重合度是否大于預(yù)定閾值,如果所述兩個列表的重合度大于預(yù)定閾值,則所述控制器使用所述關(guān)鍵詞替換所述特定目標(biāo)語言文字,并控制顯示屏幕顯示修正后的特定目標(biāo)語言文字。
      【文檔編號】G06F17/28GK103941870SQ201410160794
      【公開日】2014年7月23日 申請日期:2014年4月21日 優(yōu)先權(quán)日:2014年4月21日
      【發(fā)明者】吳先超 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1