語音翻譯系統(tǒng)和語音翻譯方法
【專利摘要】根據(jù)一個實施例,語音翻譯系統(tǒng)包括第一終端裝置,包括第一語音輸入單元,其被配置為輸入由第一用戶講的第一語言的第一語音,并且將第一語音轉(zhuǎn)換為第一語音信號;第二終端裝置,包括第二語音輸入單元,其被配置為輸入由第二用戶講的第二語言的第二語音,并將第二語音轉(zhuǎn)換為第二語音信號;語音識別裝置,被配置為接收第一語音信號和第二語音信號,將第一語音信號識別為第一識別文本并將第二語音信號識別為第二識別文本;機器翻譯裝置,被配置為接收第一識別文本和第二識別文本,將第一識別文本翻譯為第二語言的第一翻譯文本,并將第二識別文本翻譯為第一語言的第二翻譯文本;控制裝置;其中,第一終端裝置接收(a)作為第一識別文本和第二翻譯文本的第一語言的第一文本集合,和(b)作為第二識別文本和第一翻譯文本的第二語言的第二文本集合,并且包括第一顯示單元,其被配置為顯示第一文本集合和第二文本集合;第二終端裝置接收第二文本集合中的至少一個文本,并包括被配置為顯示第二文集合中的至少一個文本的第二顯示單元。
【專利說明】語音翻譯系統(tǒng)和語音翻譯方法
【技術(shù)領(lǐng)域】
[0001]在此描述的實施例大致涉及語音翻譯系統(tǒng)和關(guān)聯(lián)的方法。
【背景技術(shù)】
[0002]隨著近年來文化和經(jīng)濟的全球化,機器翻譯裝置提出了對支持在講不同語言的人之間的通信的期望。目前,實行的是運行在移動終端(例如,智能電話)上的語音翻譯應(yīng)用軟件,和提供語音翻譯功能的Web服務(wù)。
[0003]根據(jù)用戶的通信方式,這些語音翻譯系統(tǒng)分為以下兩組。第一系統(tǒng)是語音交換式系統(tǒng),其中用戶講源語言,而用戶聽到翻譯結(jié)果——目標(biāo)語言。第二系統(tǒng)是顯示器結(jié)合使用式系統(tǒng),其中用戶確認顯示器以讀取所識別的文本和所翻譯的文本,以便檢查用戶的語音是否被正確地處理,然后講出對話。
[0004]不幸的是,不可能使用現(xiàn)有技術(shù)進行語音識別和機器翻譯而沒有錯誤。于是,一些反饋的功能是必要的。反饋功能向用戶顯示識別結(jié)果和翻譯結(jié)果,該識別結(jié)果和翻譯結(jié)果不是必需準確,因為用戶清楚地進行重新表述、猜測其他用戶的對話的意愿、和提問。
[0005]因此,當(dāng)用戶可以看到顯示器時,相比于語音交換式,顯示器結(jié)合使用式語音翻譯系統(tǒng)對于用戶更可靠。
[0006]根據(jù)用戶的瀏覽方式,在該瀏覽方式中用戶與何人看到何尺寸類型的顯示器,顯示器結(jié)合使用式語音翻譯系統(tǒng)進一步分為以下兩組。
[0007]第一系統(tǒng)是顯示器共享式系統(tǒng),其中,用戶們在一起看到一個終端設(shè)備的相同顯示器,并講對話。第二系統(tǒng)是單獨屏幕式系統(tǒng),其中每個用戶看到在各自的終端中的每個顯不器,并講對話。
[0008]利用顯示器共享式語音翻譯系統(tǒng)的問題是,如果某個用戶的終端裝置被其他用戶共享,該其他用戶很難操作該終端裝置。
[0009]考慮商店的員工與來到該商店的外國來訪者使用顯示器共享式同時語音翻譯系統(tǒng)(例如,平板電腦)進行對話的情況。員工在操作該平板電腦方面很有經(jīng)驗。但是第一次的來訪者在該操作方面沒有經(jīng)驗。因此,訪來訪者操作該平板電腦是很困難的。
[0010]類似的問題不僅在顯示器的操作上存在,還在向麥克風(fēng)輸入音頻的方式上存在。例如,語音識別的精度受影響于用戶的對話的音量、在麥克風(fēng)和用戶的嘴之間的距離、以及麥克風(fēng)被用戶手持的方式。因此,如果用戶沒有使用麥克風(fēng)的經(jīng)驗,語音識別的準確性可能會變得更糟。
[0011]在上面的情況中,商店的員工可以將他們的講話輸入平板電腦。另一方面,對于外國來訪者而言輸入他們的講話很難。因此,如果來訪者有他們通常使用的終端設(shè)備(例如,智能電話),那么有望在系統(tǒng)中實現(xiàn)語音識別的準確性的改進。
[0012]如上面解釋的,常規(guī)的顯示器共享式系統(tǒng)和單獨屏幕式系統(tǒng)不能夠解決上述缺點。
[0013]為了解決上述缺點,語音翻譯系統(tǒng)需要考慮(a)在終端裝置中的顯示器尺寸的差異,(b)用戶是否一起看相同的顯示器的共享顯示器的可能性,和(C)終端裝置的語音輸入單元的用戶體驗適應(yīng)性。
[0014]特別是近幾年來,各種形式的個人信息終端裝置(例如,智能電話和平板電腦)正迅速普及。因此,就如何結(jié)合各種終端而言,解決上述缺點需求非常強烈。
【發(fā)明內(nèi)容】
[0015]實施例提供一種能夠?qū)崿F(xiàn)一個終端可以被用戶雙方看到而另一終端僅可以被一個用戶看到的面對面服務(wù)或面對面交談的語音翻譯系統(tǒng)。
[0016]根據(jù)一個實施例,語音翻譯系統(tǒng)包括第一終端裝置,其包括第一語音輸入單元,所述第一語音輸入單元被配置為輸入由第一用戶講的第一語言的第一語音,并且將所述第一語音轉(zhuǎn)換為第一語音信號;第二終端裝置,其包括第二語音輸入單元,所述第二語音輸入單元被配置為輸入由第二用戶講的第二語言的第二語音,并將所述第二語音轉(zhuǎn)換為第二語音信號;語音識別裝置,其被配置為接收所述第一語音信號和所述第二語音信號,將所述第一語音信號識別為第一識別文本并將所述第二語音信號識別為第二識別文本;機器翻譯裝置,其被配置為接收所述第一識別文本和所述第二識別文本,將所述第一識別文本翻譯為所述第二語言的第一翻譯文本,并將所述第二識別文本翻譯為所述第一語言的第二翻譯文本;控制裝置;其中,所述第一終端裝置接收(a)作為所述第一識別文本和所述第二翻譯文本的第一語言的第一文本集合,和(b)作為所述第二識別文本和所述第一翻譯文本的第二語言的第二文本集合,并且包括第一顯示單元,其被配置為顯示第一文本集合和第二文本集合;第二終端裝置接收所述第二文本集合中的至少一個文本,并包括第二顯示單元,其被配置為顯示所述第二文集合中的所述至少一個文本。
[0017]根據(jù)至少一個實施例的語音翻譯系統(tǒng),第一終端裝置顯示第一文本集合和第二文本集合,并且所述第二終端裝置顯示所述第二文本集合中的至少一個文本。因此,語音翻譯系統(tǒng)可以提供一個終端可以被用戶雙方看到而另一終端僅可以被一個用戶看到的面對面服務(wù)或面對面交談。
【專利附圖】
【附圖說明】
[0018]圖1示出了一個實施例的語音翻譯系統(tǒng);
[0019]圖2示出了語音翻譯系統(tǒng)的概觀;
[0020]圖3示出了第一終端裝置200中的第一顯示單元220的圖片;
[0021]圖4A至4C示出了第二終端裝置300中的第二顯示單元320的圖片;
[0022]圖5示出了語音翻譯系統(tǒng)的操作;
[0023]圖6示出了語音翻譯系統(tǒng)的另一操作;
[0024]圖7示出了語音翻譯系統(tǒng)的另一操作;
[0025]圖8示出了語音翻譯系統(tǒng)的另一操作;
[0026]圖9示出了語音翻譯系統(tǒng)的另一操作;
[0027]圖10示出了語音翻譯系統(tǒng)的另一操作;
[0028]圖11示出了語音翻譯系統(tǒng)的另一操作;
[0029]圖12A和12B示出了語音翻譯系統(tǒng)的另一操作;
[0030]圖13圖示了語音翻譯系統(tǒng)的操作的流程圖;
[0031]圖14圖示了語音翻譯系統(tǒng)的操作的另一流程圖;
[0032]圖15圖示了語音翻譯系統(tǒng)的操作的另一流程圖;
[0033]圖16圖示了語音翻譯系統(tǒng)的操作的另一流程圖;
[0034]圖17圖示了語音翻譯系統(tǒng)的操作的另一流程圖;
[0035]圖18圖示了語音翻譯系統(tǒng)的操作的另一流程圖;
[0036]圖19圖示了語音翻譯系統(tǒng)的操作的另一流程圖;
[0037]圖20圖示了語音翻譯系統(tǒng)的操作的另一流程圖;
[0038]圖21圖示了語音翻譯系統(tǒng)的操作的另一流程圖;
[0039]圖22A至22D示出了在存儲裝置130中與終端和用戶有關(guān)的表;以及
[0040]圖23示出了在存儲裝置130中的對話歷史表。
【具體實施方式】
[0041]以下將參考所附的附圖描述語音翻譯系統(tǒng)的各種實施例。
[0042]在一個實施例中,描述系統(tǒng)和方法,其中第一語目是日語,而第二語目是英語。但機器翻譯的方向不限于上述情況。翻譯可以是在任意兩種或兩種以上的語言或方言之間執(zhí)行。
[0043]圖1示出了一個實施例的語音翻譯系統(tǒng)。語音翻譯系統(tǒng)包括語音識別裝置110,其直接或間接地接收第一語言的第一語音信號及第二語言的第二語音信號,并將第一語音信號和第二語音信號分別識別為第一識別文本和第二識別文本;機器翻譯裝置120,其從裝置110直接或間接地接收第一識別文本和第二識別文本,并將第一識別文本和第二識別文本分別翻譯為第二語言的第一翻譯文本和第一語言的第二翻譯文本,并具有將第二翻譯文本翻譯為第二語言的第二反向翻譯文本的反向翻譯單元121 ;存儲裝置130 ;第一終端裝置200 ;第二終端裝置300和控制裝置400。
[0044]裝置130存儲終端信息表、用戶信息表、語言信息表、發(fā)言歷史表、終端使用表、語音輸入語言表、顯示語言表、和對話歷史表。這些細節(jié)將在下文中參照圖22來描述。
[0045]裝置200包括第一語音輸入單元210、第一顯示單元220、第一顯示選擇單元230和第二顯示選擇單元240,第一語音輸入單元210輸入由第一語言(日語)的第一用戶講的第一次語音并將第一語音轉(zhuǎn)換為第一語音信號;第一顯不單兀220具有第一顯不區(qū)域221和第二顯示區(qū)域222,所述第一顯示區(qū)域221顯示作為第一識別文本和第二翻譯文本的第一語言的第一文本集合,并且第二顯示區(qū)域222顯示作為第二識別文本和翻譯文本的第二語言的第二文本集合;第一顯示選擇單元230接收從顯示在單元220上的第一文本集合和第二文本集合中的文本選擇;并且第二顯示選擇單元240接收對區(qū)域222是否顯示在單元220上的選擇。
[0046]裝置300包括第二語音輸入單元310和第二顯示單元320,第二語音輸入單元310輸入由第二語言(英語)的第二用戶講的第二語音并將第二語音轉(zhuǎn)換為第二語音信號;并且第二顯示單元320具有第三顯示區(qū)域321、第四顯示區(qū)域322和第五顯示區(qū)域323,第三顯示區(qū)域321直接或間接地接收第二文本集合中的至少一個文本并顯示第二文本中的至少一個文本,第四顯示區(qū)域322顯示與最近的發(fā)言對應(yīng)的第二識別文本和對應(yīng)的第二反向翻譯文本,第五顯示區(qū)域323顯示與顯示在區(qū)域321上的第一語言的文本對應(yīng)的第二語言的文本。
[0047]裝置400包括第一顯示控制單元410、第二顯示控制單元420、第一顯示判定單元430、第二顯示判定單元440、第一確認指引單元450,和第二確認指引單元460。在這種情況下,詞“直接”意味著多個裝置直接連接,或多個軟件模塊是在一個硬件上實現(xiàn)的,而詞“間接”的意思是“通過有線或無線網(wǎng)絡(luò)”。
[0048]圖2示出了在裝置200是平板電腦而裝置300是小于裝置200的智能電話計算機的情況下的語音翻譯系統(tǒng)的概觀。
[0049]裝置110、裝置120,裝置130和裝置400被包括在一個服務(wù)器中。裝置200和裝置300通過有線或無線網(wǎng)絡(luò)與該服務(wù)器通信。裝置130可以建立在裝置400中。
[0050]裝置200的實例具有觸摸屏顯示器和麥克風(fēng)。當(dāng)觸摸屏顯示器是電容式顯示器時,裝置200具有指點功能和顯示功能,所述指點功能檢測區(qū)域通過被用戶的手指接觸該區(qū)域而被指點(point),并且所述顯示功能顯示字母、圖片,等等。
[0051]裝置300的實例也具有觸摸屏顯示器和麥克風(fēng)。由于裝置300的顯示區(qū)域小于裝置200的顯示區(qū)域,裝置300顯示比裝置200少的信息。
[0052]例如,講日語的第一用戶(以下,稱為Hanako (花子)),在裝置200的麥克風(fēng)(平板電腦)中輸入她的語音,而講英語的第二用戶(以下,稱為Jack (杰克))在裝置300 (智能手機)的麥克風(fēng)中輸入他的語音。華子和杰克看著裝置200 (平板電腦)的大顯示器進行交互式對話。他們在每個裝置200或300的麥克風(fēng)中輸入他們的語音。
[0053]圖3示出了裝置200中的第一顯示單元220的圖片。單元220具有第一顯示區(qū)域、第二顯示區(qū)域以及英語顯示鍵,所述第一顯示區(qū)域顯示與花子的語音對應(yīng)的所識別的日語文本和與杰克的英語語音對應(yīng)的所翻譯的日語文本,所述第二顯示區(qū)域顯示與杰克的語音對應(yīng)的所識別的英語文本和與花子的日語語音對應(yīng)的所翻譯的英語文本,并且所述英語顯示鍵切換區(qū)域222的顯示/不顯示。
[0054]圖4A至4C示出了在裝置300中的第二顯示單元320的圖片。單元320有第三顯示區(qū)域321、第四顯示區(qū)域322、第五顯示區(qū)域323以及日語顯示鍵324,第三顯示區(qū)域321顯示與杰克的語音對應(yīng)的所識別的英語文本和與花子的日語語音對應(yīng)的所翻譯的英語文本,第四顯示區(qū)域322顯示與最新的杰克的語音對應(yīng)的所識別的文本、與他最新的語音對應(yīng)的反向翻譯文本、確認是否接受所識別的文本的OK (確定)/Cancel (取消)按鈕,第五顯示區(qū)域323顯示與顯示在區(qū)域321上的日語文本對應(yīng)的英語文本,并且日語顯示鍵324切換區(qū)域323的顯示或不顯示。
[0055]當(dāng)沒有足夠的顯示區(qū)域來顯示區(qū)域321、322和323時,區(qū)域322可以不顯示,以便在圖4B中顯示區(qū)域323。
[0056]或者,單元320可以不顯示區(qū)域321,而在區(qū)域323上顯示與區(qū)域322的識別文本對應(yīng)的所翻譯的日語文本,也就是說,單元320具有區(qū)域322、區(qū)域323和日語顯示鍵324。
[0057]圖5至圖12解釋了這一實施例的例子,其中,作為店員(講日語)的第一用戶面對面服務(wù)作為顧客的第二用戶(講英語)。
[0058]圖5示出了當(dāng)?shù)谝挥脩糁v日語的語音「P 6 ^f姑!」(Irassyaimase !)(歡迎光臨!)時裝置200和300的顯示內(nèi)容。單元220顯示所識別的日語文本「^ 6 -L.j^5! J (Irassyaimase !)和所翻譯的英語文本“Welcome ! ”,單兀320只顯不所翻譯的英語文本“Welcome ! ”
[0059]圖6至圖12示出了其中第一用戶和第二用戶具有對話的實施例的例子。
[0060]圖6示出講英語的人講出發(fā)言的例子。單元310輸入發(fā)言“I want to buy amirror-less camera”(我想買無反相機)。裝置110執(zhí)行語音識別過程,并輸出識別文本“I want bye there come here”(我想再見那里來這里),和識別似然度(在這種情況下,“0.1”)。單元430將識別似然度與預(yù)定的閾值(在這種情況下,“0.8”)相比較,然后判定所識別的文本“I want bye there come here.”是錯誤的,因為識別似然度小于閾值。裝置120不執(zhí)行機器翻譯過程。單元220顯示識別文本而單元320的區(qū)域322顯示識別文本“I want bye there come here,,。
[0061]當(dāng)英語用戶看單元220或看看別處于是沒有看單元322時(也就是說,英語用戶沒看到識別的文本“I want bye there come here”),第一確認指引單元450需要督促由英語用戶進行的檢查。單元450控制單元220的區(qū)域222以顯示系統(tǒng)確認消息“Pleasecheck your smartphone.”(請檢查你的智能電話)。第二確認指引單元460控制智能電話300振動或輸出對于英語用戶的報警。此外,區(qū)域為日語用戶顯示日語的系統(tǒng)消息「&⑶
S確認中T十...」(tadaima kakunintyu desu…)(現(xiàn)在確認中......),這意味著讓英語用戶確認的狀態(tài)。
[0062]區(qū)域321顯示英語消息“Checking now......”(正在檢查......),這表明系統(tǒng)提示英語用戶檢查所識別的文本“I want bye there come here”。當(dāng)英語用戶輕敲(tap)鍵“Cancel” (取消)時,所識別的文本將在區(qū)域222和區(qū)域223被清除,確認消息被清除,而且顯示在區(qū)域221和321上的英語消息“Checking now……”被清除。
[0063]另一方面,當(dāng)英語用戶輕敲鍵“0K”時,顯示在區(qū)域322上的識別文本被清除,機器翻譯處理被執(zhí)行,所翻譯的文本顯示在區(qū)域221上。
[0064]圖7示出了當(dāng)英語用戶重新表述時的例子。
[0065]裝置110執(zhí)行對重新表述的發(fā)言的語音識別過程,并輸出所識別的文本和識別似然度(1.0)。單元430判定該識別是正確的,因為識別似然度比閾值(0.8)大。裝置120翻譯所識別的文本并輸出所翻譯的文本,并且反向翻譯單元121反向翻譯所翻譯的文本并輸出反向翻譯的文本。
[0066]單元440將所接收的文本與反向翻譯的文本相比較,并計算重合度(在這種情況下,“0.86”)。單元440將重合度與預(yù)定的閾值(在這種情況下,“0.8”)相比較,由于重合度大于閾值,并判定所翻譯的文本是正確的。區(qū)域222顯示所翻譯的文本「S — 7〒''J力 J 全買P 乃.? t 力5?!?mira-lesu dejikame wo kaitai no desuga.)(想買無反光鏡數(shù)碼相機。)但所識別的文本和反向翻譯的文本不顯示。
[0067]圖8示出了交互式對話的進展的例子,日語用戶講出發(fā)言,并且英語用戶講出另一發(fā)言。
[0068]英語使用者的發(fā)言 “Someday, when my daughter grows up, I want to show herthe photos”(某一天,當(dāng)我的女兒長大了,我想給她展示照片)被輸入。裝置110執(zhí)行語音識別處理,并輸出所識別的文本和識別似然度(1.0)。單元430判定識別似然度大于閾值。區(qū)域顯示所識別的文本。裝置將所識別的文本翻譯為所翻譯的文本,并且單元121將所翻譯的文本反向翻譯為反向翻譯的文本。
[0069]單元440比較所識別的文本與反向翻譯的文本,并計算重合度(在這種情況下,“0.69”)。單元440比較重合度與閾值(在這種情況下,“0.8”),由于重合度小于閾值,并判定所翻譯的文本是錯誤的。當(dāng)英語用戶被督促檢查時,區(qū)域222顯示確認消息“Pleasecheck your smartphone.” (請檢查您的智能電話),并且區(qū)域322顯示所識別的文本和反向番羽譯的文本“Someday, my daughter becomes large, I want to show the photos of
that某一天,我的女兒變大,我想展示那時的照片)。此外,智能電話振動和輸出告
m
目O
[0070]由于日本人被告知英語用戶正在確認,區(qū)域221顯示消息「t: tz V f確認中T
十...」(tadaima kakunintyu desu…)(現(xiàn)在確認中......),并且區(qū)域321將顯示消息
“Checking now...,,(正在檢查......)。
[0071]當(dāng)用戶輕敲鍵“Cancel”(取消)時,區(qū)域221、222、321、和322被清除。另一方面,當(dāng)用戶輕敲鍵“0K”時,每個顯示被清除,區(qū)域222顯示所翻譯的文本。
[0072]圖9顯示該交互式對話進一步進展的例子。當(dāng)日語用戶從智能電話300刪除他/她的對話的一部分時,平板電腦200可以進行所選擇的顯示/刪除。在這種情況下,一個例子是,英語用戶想要從智能電話刪除對話「6 i値ii張>9 t + W」(chottoneha harimasuga)(價格有點貴)。日語文本「6° i値(i張t力'*」(chotto nehaharimasuga)或相應(yīng)的英語文本“It’ s a bit expensive”(這有些貴了 )被輕敲,兩個文本被突出顯示(參見圖9中的“陰影”)。顯示在區(qū)域321上的英語文本“It’ s a bitexpensive”被刪除,于是它被顯示在圖10中。如果日語用戶輕敲所突出顯示的文本,則該文本被正常顯示在平板電腦上,而且英語文本“It’s a bit expensive”被再次顯示在智能電話上。
[0073]以這種方式,在店員的裝置200上選擇不小心講的或誤解的對話就是從顧客的裝置300刪除該對話。另一方面,可以將重要的對話留在顧客裝置300上。
[0074]圖11示出了當(dāng)在裝置200中的英語顯示鍵的復(fù)選框被清除時的例子。在這種情況下,由于區(qū)域222是不顯示的,區(qū)域221水平地變長,每個對話被顯示在區(qū)域221上的每一行處。因此,可以在區(qū)域221上顯示更多的對話歷史。
[0075]圖12A和12B示出了當(dāng)裝置300中的鍵“日語顯示”324的復(fù)選框被清除時的例子。如果裝置200中的鍵“英語顯示”223的復(fù)選框是否被清除,則這僅僅是可選的。也就是說,如果在裝置200中用于顯示英語文本的區(qū)域222被顯示,則這是不可選的。
[0076]圖12A示出了顯示器向左邊旋轉(zhuǎn)90度,第一語言的區(qū)域321被顯示在顯示器的左偵牝而第二語言的區(qū)域323被顯示在顯示器的右側(cè)。
[0077]圖12B示出了第一語言的翻譯文本也顯示在區(qū)域322上,區(qū)域322顯示第二語言的識別文本和相應(yīng)的反向翻譯文本。
[0078]圖13到21圖示了的語音翻譯系統(tǒng)的操作流程圖。該流程圖能夠用于在圖5到12中所示的系統(tǒng)的操作。
[0079]圖13圖示了當(dāng)裝置200和裝置300被連接時首先執(zhí)行的流程圖。在圖22中顯示的表被做出并且值被設(shè)置為初始值。
[0080]在步驟102中,裝置200和裝置300被分別給予“I”和“2”作為終端ID。裝置200和300的用戶名稱和語言名稱被獲得。第一用戶(花子)和第二用戶(杰克)被分別給予“I”和“2”作為用戶ID。語言名稱的對應(yīng)表(日語,英語)和語言ID(JP,EN)被預(yù)先存儲在裝置130中。圖22k顯示在步驟102中做出的表。
[0081]在步驟103中,估計用戶和終端之間的空間關(guān)系。在步驟104中,比較終端尺寸的差異(詳細地,終端的顯示器尺寸),并確定每個用戶使用每個終端輸入語音,并使用每個終端顯示器輸出。在這種情況下,假定日語用戶和英語用戶都在觀看日語用戶的平板電腦200的較大的顯示器,并且英語用戶拿著智能電話300并能夠僅僅觀看智能電話300的較小的顯示器(日語用戶看不到較小的顯示器)。日語用戶通過平板電腦200的麥克風(fēng)輸入語音。英語用戶通過智能電話300的麥克風(fēng)輸入語音。圖22B顯示出在這種情況下的終端使用表。
[0082]在語音輸入語言的這種情況下,平板電腦的200只輸入英語語音而智能電話300只輸入日語語音,并且在圖22C中設(shè)置語音輸入語言表。
[0083]另一方面,在顯示語言的這種情況下,平板電腦200顯示英語和日語兩者,而智能電話200僅顯示日語,并且在圖22D中設(shè)置顯示語言表。
[0084]在步驟105中,平板電腦200和智能電話300的語音輸入單元和顯示單元(用于檢測輕敲)轉(zhuǎn)移到輸入接收狀態(tài)。
[0085]圖14圖出了輸入語音的流程圖。
[0086]單元210檢測語音輸入(步驟201),然后步驟202從單元210接收語音信息并將其輸入至裝置110。裝置110將語音信息變換為所識別的文本的過程是已知的。因為這個過程是已知的,為簡潔起見略去詳細的解釋。
[0087]在步驟203中,裝置110的處理結(jié)束,裝置400接收所識別的文本和識別似然度,向它們添加對話ID,把它們與用戶ID和識別語言ID—起寫在裝置130中的對話歷史表中(參見圖23中所示的第一行)。
[0088]在步驟204中,當(dāng)終端ID是“I”時,處理去往S206。當(dāng)終端ID是“2”時,處理去往 S205。
[0089]步驟205調(diào)用圖15所示的裝置400中的單元430的處理。
[0090]步驟206向裝置200發(fā)送所識別的文本,并將其顯示在單元220上。
[0091]步驟207在裝置120中輸入所識別的文本。S208接收所翻譯的文本和反向翻譯的文本,并將它們寫在圖23中所示的對話歷史表中。
[0092]裝置120將第一語言文本翻譯到第二語言文本的過程已知為各種技術(shù)。因為可以應(yīng)用他們的技術(shù),省略詳細的解釋。
[0093]步驟209根據(jù)終端ID對處理進行分支。當(dāng)終端ID是“1”,處理去往S211。當(dāng)終端ID是“2”時,處理去往S210。
[0094]S210調(diào)用圖16所示的裝置400的單元440的處理。
[0095]S211向裝置200發(fā)送所翻譯的文本并將它們顯示在單元220上。
[0096]S212向裝置300發(fā)送對話歷史表中與語言ID “2”對應(yīng)的識別文本或翻譯文本(即,第二語言文本),并將它們顯示在單元320的區(qū)域321上。
[0097]當(dāng)在步驟212中的顯示處理結(jié)束后,處理再次轉(zhuǎn)移到輸入語音的等待狀態(tài)。
[0098]圖15圖示了第一顯示判定單元430的流程圖。
[0099]S302接收所識別的文本和識別似然度。
[0100]S303比較識別似然度與閾值(在這種情況下,“0.8”)。
[0101]當(dāng)識別似然度小于閾值時,處理去往S304。
[0102]另一方面,當(dāng)識別似然度大于閾值時,處理去往S306,并返回到調(diào)用腳本的流程(圖14所示的S205)。
[0103]步驟304向裝置300發(fā)送所識別的文本,并控制所識別的文本和確認鍵被顯示在單元320的區(qū)域322上。
[0104]在步驟305中,裝置300的單元320轉(zhuǎn)移至輸入確認鍵的等待狀態(tài)。
[0105]如果裝置300輸入語音,則它可以設(shè)置確認顯示以清除。
[0106]圖16圖示了第二顯示判定單元440的流程圖。
[0107]裝置400接收所識別的文本和反向翻譯的文本(S402)。
[0108]S403計算在所識別的文本和反向翻譯的文本之間的重合度。
[0109]重合度的指數(shù)已知為各種技術(shù)。在這種情況下,指數(shù)是這樣的值:(a)在所識別的文本和反向翻譯的文本二者中都包含的詞的數(shù)量除以(b)在所識別的文本中包含的詞的總數(shù)量。當(dāng)重合度小于閾值(在這種情況下,“0.8”),處理去往S405 (S404)。
[0110]當(dāng)重合度大于閾值時,處理返回到調(diào)用腳本(圖14中所示的S210)。
[0111]S405在單元320的區(qū)域322上顯示所識別的文本、反向翻譯的文本和確認鍵。
[0112]S406將裝置300的單元320轉(zhuǎn)移為輸入確認鍵的等待狀態(tài)。
[0113]圖17圖示了當(dāng)用戶輕敲單元220時的操作流程圖。
[0114]S501將接收輕敲的等待狀態(tài)轉(zhuǎn)移至S502。如果語音文本(區(qū)域221和區(qū)域222的文本)被輕敲,則處理去往S503。如果不是,則處理去往S504。
[0115]S503調(diào)用裝置中的單元410的流程圖(在圖18中示出)。
[0116]在S504中,如果輕敲為對第二語言顯示鍵的輕敲,則處理去往S505。如果輕敲是對除了第二語言顯示鍵之外的區(qū)域的其他輕敲,則處理去往S501。
[0117]步驟505調(diào)用裝置400的單元420的流程圖(在圖20中示出)。
[0118]圖18示出了裝置400中的單元410的流程圖。
[0119]S602標(biāo)識在圖23中的識別文本和翻譯文本中的哪個對應(yīng)于輕敲的文本,并參考被識別的對話ID中的第二顯示標(biāo)志。如果第二顯示標(biāo)志是“0FF”,處理去往S603。如果第二顯示標(biāo)志是“0N”,則處理去往S606。
[0120]S603將對話歷史表中的第二顯示標(biāo)志重寫為“0N”。
[0121]S604將單元220的與對話ID對應(yīng)的第一和第二顯示區(qū)域的文本顯示為突出的。
[0122]與單元320的對話ID對應(yīng)的第二語言文本(也就是說,語言ID是“2”的所識別的文本和所翻譯的文本)被發(fā)送給裝置300。第二語言文本被控制為以對話ID的順序被顯示在單元320的區(qū)域321上。
[0123]S606將對話歷史表中對話ID的第二顯示標(biāo)志重寫為“OFF”。
[0124]S607將與對話ID對應(yīng)的突出顯示的文本返回為普通顯示。
[0125]S608刪除與單元320的對話ID對應(yīng)的文本的顯示。
[0126]S609返回到調(diào)用腳本的流程。
[0127]圖19圖示了設(shè)備400的單元420的流程圖。
[0128]當(dāng)?shù)诙Z言顯示鍵被輕敲時,S702參考在顯示語言表中裝置200第二語言(英語,語言ID = EN)的列(EN, I)的值。如果值是“NO”,則處理去往S703。如果值是“YES”,則處理去往S709。
[0129]步驟703將列(EN,I)的值重寫為“YES”。
[0130]步驟704控制使得單元220顯示區(qū)域222和第二語言(英語)的文本。
[0131]S705參考裝置300 (終端ID = 2)的第一語言(日語,語言ID = JP)的列(JP,2)的值。如果值是“YES”,則處理去往S706。如果值是“NO”,則處理去往S708。
[0132]步驟706將列(JP,2)的值重寫為“NO”。
[0133]在步驟707中,單元320控制使得顯示第一語言文本的區(qū)域323是不顯示的。
[0134]S708控制使得第一語言顯示鍵(日語顯示鍵)不能被選擇,并且處理去往S711。
[0135]S709將列(EN,1)的值重寫為“NO”。
[0136]S710控制使得單元220的區(qū)域222是不顯示的,并且處理去往S711。
[0137]S711將單元320的第一語言顯示鍵324 ( “日語顯示”)設(shè)置為可選的。
[0138]S712返回到調(diào)用腳本的流程。
[0139]圖20圖示了當(dāng)用戶輕敲裝置300中的單元320時的流程圖。
[0140]該處理從輕敲單元320的等待狀態(tài)(S801)到S802。
[0141]如果單元320當(dāng)前不是輸入確認鍵的等待狀態(tài),則處理去往S803。如果是,則處理去往S810。
[0142]S803判斷是否針對第一語目顯不鍵324被輕敲。如果是被輕敲,則處理去往S804。如果不被輕敲,則處理去往S801。
[0143]S804判斷鍵324是否是可選的。如果鍵不是可選的,則處理去往裝置400中的單元420的流程圖的S708。
[0144]如果鍵324是可選的,處理去往S805。如果不是,該處理返回到S801。
[0145]S805參考在顯示語言表中的列(JP,2)的值,因為裝置300的第一語言(日本)的顯示集合被確認。如果列(JP,2)的值是“YES”,則處理去往S808。如果是“NO”,則處理去往 S806。
[0146]S806 將列(JP,2)的值重寫為 “YES”。
[0147]S807顯示區(qū)域323和第一語言文本,然后返回S801。
[0148]S808將列(JP,2)的值重寫為“NO”。
[0149]S809不顯示區(qū)域323,并且然后返回S801。
[0150]在步驟810中,當(dāng)在輕敲確認鍵的等待狀態(tài)中時如果輕敲了確認鍵,則處理去往S811。如果沒有,則處理返回S801。
[0151]S811調(diào)用確認鍵的流程圖(如圖21中所示)。
[0152]圖21圖示了當(dāng)用戶輕敲單元320的確認鍵時的流程圖。
[0153]如果在S902中確認鍵是“0K”,則處理去往S905。如果鍵是“CANCEL”,則處理去往S903。
[0154]S903 清除區(qū)域 322。
[0155]S906從單元220刪除與顯示在區(qū)域322上的對話ID對應(yīng)的文本。
[0156]S905返回到調(diào)用腳本的流程。
[0157]根據(jù)至少一個上述實施例的語音翻譯系統(tǒng),第一終端裝置顯示第一文本集合和第二文本集合,并且第二終端裝置顯示第二文本集合中的至少一個文本。因此,語音翻譯系統(tǒng)可以提供面對面服務(wù)或面對面交談,其中一個終端可以被用戶雙方看到,而另一終端僅可以被一個用戶看到。
[0158]實施例的流程圖圖示了根據(jù)實施例的方法和系統(tǒng)。應(yīng)理解,流程圖圖示的每一個塊,流程圖圖示中的塊的組合,可以通過計算機程序指令實現(xiàn)。這些計算機程序指令可以被加載到計算機或其它可編程裝置上,以產(chǎn)生機器,從而使得執(zhí)行在計算機或其它可編程裝置上的指令創(chuàng)建用于實現(xiàn)一個或多個流程圖塊的部件。這些計算機程序指令還可以被存儲在非瞬時計算機可讀存儲器中,其可以指示計算機或其它可編程裝置以特定的方式工作,從而使得存儲在非瞬時存儲計算機可讀存儲器上的指令產(chǎn)生制品,包括實現(xiàn)一個或多個流程圖塊的中說明的功能的指令裝置。計算機程序指令也可以被加載到計算機或其它可編程裝置/設(shè)備,以致使在計算機或其它可編程裝置上將執(zhí)行的一系列操作性步驟/行為,從而產(chǎn)生提供用于實現(xiàn)一個或多個流程圖塊說明的功能的步驟/行為的計算機編程設(shè)備/裝置。
[0159]盡管已經(jīng)描述了某些實施例,這些實施例僅以舉例的方式被呈現(xiàn),而不是為了限制本發(fā)明的范圍。事實上,本文描述的新穎實施例可以以各種其他形式實現(xiàn);此外,在不背離本發(fā)明的精神的情況下,可以對在此描述的實施例的形式進行各種省略、替代和變化。所附的權(quán)利要求和它們的等同體意欲覆蓋將落入本發(fā)明的精神范圍內(nèi)的這些形式或修改。
[0160]例如,考慮講座的情況。當(dāng)?shù)谝唤K端裝置200是投影儀且第二終端裝置300是每個外國觀眾持有的終端時,類似于上面的實施例來使用語音翻譯系統(tǒng)。
【權(quán)利要求】
1.一種語音翻譯系統(tǒng),包括: 第一終端裝置,包括第一語音輸入單元,其被配置為輸入由第一用戶講的第一語言的第一語音,并且將所述第一語音轉(zhuǎn)換為第一語音信號; 第二終端裝置,包括第二語音輸入單元,其被配置為輸入由第二用戶講的第二語言的第二語音,并且將所述第二語音轉(zhuǎn)換為第二語音信號; 語音識別裝置,其被配置為接收所述第一語音信號和所述第二語音信號,將所述第一語音信號識別為第一識別文本,并將所述第二語音信號識別為第二識別文本; 機器翻譯裝置,其被配置為接收所述第一識別文本和所述第二識別文本,將所述第一識別文本翻譯為所述第二語言的第一翻譯文本,并將所述第二識別文本翻譯為所述第一語言的第二翻譯文本; 控制裝置; 其中,第一終端裝置接收(a)作為所述第一識別文本和所述第二翻譯文本的所述第一語言的第一文本集合,和(b)作為所述第二識別文本和所述第一翻譯文本的所述第二語言的第二文本集合,并包括被配置為顯示所述第一文本集合和所述第二文本集合的第一顯示單元; 所述第二終端裝置接收所述第二文本集合中的至少一個文本,并且包括被配置為顯示所述第二文本集合中的至少一個文本的第二顯示單元。
2.根據(jù)權(quán)利要求1的系統(tǒng),其中所述機器翻譯裝置進一步包括: 反向翻譯單元,其被配置為將所述第一語言的所述第二翻譯文本反向翻譯為所述第二語言的第二反向翻譯文本; 所述第二顯示單元顯示第二文本集合和所述第二語言的所述第二反向翻譯文本的第三文本集合中的至少一個文本。
3.根據(jù)權(quán)利要求1的系統(tǒng),進一步包括: 第三終端裝置,包括第三語音輸入單元,其被配置為輸入由第三用戶講的第三語言的第三語音,并將所述第三語音轉(zhuǎn)換為第三語音信號; 所述語音識別裝置接收所述第三語音信號,并將所述第三語音信號識別為第三識別文本; 所述機器翻譯裝置接收所述第三識別文本和所述第一識別文本,進一步包括第三機器翻譯單元,所述第三機器翻譯單元被配置為將所述第三識別文本翻譯為所述第一語言的第三翻譯文本,并且將所述第一識別文本翻譯為所述第三語言的第四翻譯文本; 所述第一顯示單元顯示(a)所述第二文本集合和所述第三語言的第三文本集合中的至少一個文本集合,其中所述第三文本集合為所述第三識別文本和所述第四翻譯文本,和(b)作為所述第一文本集合和所述第三翻譯文本的所述第一語言的第四文本集合; 所述第三終端裝置進一步包括被配置為顯示所述第三文本集合中的至少一個文本的第三顯示單元。
4.根據(jù)權(quán)利要求1的系統(tǒng),其中所述第一終端裝置進一步包括第一顯示選擇單元,其被配置為接收從顯示在所述第一顯示單元上的所述第一文本集合和所述第二集文本中的文本選擇; 所述控制裝置包括第一顯示控制單元,其被配置為如果所述第一顯示選擇單元接收所述選擇,則控制在所述第二顯示單元上顯示所述第二文本集合中的至少一個文本。
5.根據(jù)權(quán)利要求1的系統(tǒng),其中所述第二顯示單元顯示所述第一文本集合中的至少一個文本, 所述第一終端裝置進一步包括第二顯示選擇單元,其配置為接收是否在所述第一顯示單元上顯示所述第二文本集合的選擇; 所述控制裝置進一步包括顯示控制單元,其被配置為如果所述第二顯示選擇單元接收所述第二文本被顯示的選擇,則控制所述第一文本集合不被顯示在所述第二顯示單元上。
6.根據(jù)權(quán)利要求1的系統(tǒng),其中所述控制裝置進一步包括第一確認指引單元,其被配置為當(dāng)所述第二文本集合被顯示在所述第二顯示單元上時,顯示所述第二語言的通知消肩、O
7.根據(jù)權(quán)利要求1的系統(tǒng),其中所述控制裝置進一步包括第二確認指引單元,其被配置為當(dāng)所述第二文本集合被顯示在所述第二顯示單元上時,振動所述第二終端裝置和/或輸出確認聲音。
8.根據(jù)權(quán)利要求1的系統(tǒng),其中所述語音識別裝置輸出識別文本和表示語音識別處理的可信程度的識別似然度; 所述控制裝置進一步包括第二識別顯示判定單元,其被配置為基于所述識別似然度判斷是否在所述第二顯示單元上顯示所述第二識別文本。
9.根據(jù)權(quán)利要求1的系統(tǒng),其中所述控制單元進一步包括第二反向轉(zhuǎn)換顯示判定單元,其被配置為基于所述第二識別文本和所述第二反向翻譯文本之間的重合度,判斷是否顯示所述第二顯示單元。
10.根據(jù)權(quán)利要求1的系統(tǒng),其中所述控制單元進一步包括第一顯示判定單元,其被配置為基于所述第一終端裝置和所述第二終端裝置之間的距離,判斷是否在所述第一顯示單元顯示所述第二文本集合。
11.根據(jù)權(quán)利要求1的系統(tǒng),其中所述控制單元進一步包括第一顯示判定單元,其被配置為基于第二用戶能夠讀取所述第一顯示裝置的可讀性,判斷是否在所述第一顯示單元上顯示所述第二文本集合。
12.根據(jù)權(quán)利要求1的系統(tǒng),其中所述第二終端裝置是便攜式的。
13.根據(jù)權(quán)利要求1的系統(tǒng),其中所述第一顯示單元上的第一尺寸的顯示區(qū)域大于所述第二顯示單元上的第二尺寸的顯示區(qū)域。
14.一種語音翻譯方法,包括: 輸入由第一用戶講的第一語言的第一語音; 將所述第一語音轉(zhuǎn)換為第一語音信號; 輸入由第二用戶講的第二語言的第二語音; 將所述第二語音轉(zhuǎn)換為第二語音信號; 接收所述第一語音信號和所述第二語音信號; 將所述第一語音信號識別為第一識別文本; 將所述第二語音信號識別為第二識別文本; 接收所述第一識別文本和所述第二識別文本; 將所述第一識別文本翻譯為所述第二語言的第一翻譯文本; 將所述第二識別文本翻譯為所述第一語言的第二翻譯文本; 接收(a)作為所述第一識別文本和所述第二翻譯文本的所述第一語言的第一文本集合,和(b)作為所述第二識別文本和所述第一翻譯文本的所述第二語言的第二文本集合;顯示所述第一文本集合和所述第二文本集合; 接收所述第二文本集合中的至少一個文本; 顯示所述第二文本集合中的至少一個文本。
【文檔編號】G06F17/28GK104516876SQ201410471689
【公開日】2015年4月15日 申請日期:2014年9月16日 優(yōu)先權(quán)日:2013年9月30日
【發(fā)明者】降幡建太郎, 住田一男, 釜谷聰史 申請人:株式會社 東芝