国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      通話方法、發(fā)送裝置、接收裝置、語音處理和終端設(shè)備的制作方法

      文檔序號(hào):2825460閱讀:150來源:國知局
      通話方法、發(fā)送裝置、接收裝置、語音處理和終端設(shè)備的制作方法
      【專利摘要】本發(fā)明實(shí)施例提供了一種用于通話的方法、發(fā)送裝置、接收裝置、終端設(shè)備和語音處理設(shè)備。所述用于通話的方法包括:在發(fā)送端采集視聽數(shù)據(jù),所述視聽數(shù)據(jù)包括語音數(shù)據(jù);對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù);在接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù);在接收端中同步地執(zhí)行所述視聽數(shù)據(jù)的播放和所述字幕數(shù)據(jù)的顯示,從而實(shí)現(xiàn)帶字幕的通話。在本發(fā)明的實(shí)施例中,能夠在提供通話的語音的同時(shí)提供與該語音對(duì)應(yīng)的字幕,從而即使通信環(huán)境惡化無法聽清通話語音也保證通話信息不被錯(cuò)失。
      【專利說明】通話方法、發(fā)送裝置、接收裝置、語音處理和終端設(shè)備
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及通信【技術(shù)領(lǐng)域】,更具體地,涉及一種用于通話的方法、發(fā)送裝置、接收裝置、終端設(shè)備和語音處理設(shè)備。
      【背景技術(shù)】
      [0002]隨著通信技術(shù)的發(fā)展,因特網(wǎng)和第三代移動(dòng)通信(3G)網(wǎng)絡(luò)使得人與人之間的溝通更加便捷和靈活。例如,通過具有顯示屏幕的智能通信終端或計(jì)算機(jī),人們不但可以進(jìn)行單純的語音通話,也可以進(jìn)行能夠看到通話對(duì)方的圖像的可視通話。
      [0003]在進(jìn)行通話的過程中,為了減少通信終端對(duì)人體的輻射影響、或者為了看到通信終端上的顯示屏幕的圖像、或者為了使多個(gè)人能夠同時(shí)聽到通話內(nèi)容等各種原因,可能利用耳機(jī)或采用免提的方式進(jìn)行通話。然而,由于通信信道的不完善、以及用戶所處環(huán)境的外界干擾,在通話過程中可以出現(xiàn)無法聽清通話對(duì)方的聲音的情況發(fā)生。例如,當(dāng)使用因特網(wǎng)進(jìn)行可視通話時(shí),由于數(shù)據(jù)通信信道的不穩(wěn)定以及所傳輸?shù)臄?shù)據(jù)量的變大,使得通話的語音會(huì)出現(xiàn)斷續(xù)或丟失、通話視頻中出現(xiàn)馬賽克等;當(dāng)用戶使用免提方式通話時(shí),如果周圍環(huán)境出現(xiàn)噪音,則也可能導(dǎo)致用戶難以聽清通話對(duì)方的聲音。這極大地降低了通話質(zhì)量并丟失了部分通話信息,帶給用戶較差的通話體驗(yàn)。
      [0004]因此,期望提供一種能夠在通信條件差或周圍環(huán)境嘈雜的情況下保證通話信息不被錯(cuò)失的通話手段。

      【發(fā)明內(nèi)容】

      [0005]本發(fā)明實(shí)施例提供了 一種用于通話的方法、發(fā)送裝置、接收裝置、終端設(shè)備和語音處理設(shè)備,其能夠在提供通話的語音的同時(shí)提供與該語音對(duì)應(yīng)的字幕,從而即使通信環(huán)境惡化無法聽清通話語音也保證通話信息不被錯(cuò)失。
      [0006]一方面,提供了一種通話的方法,包括:在發(fā)送端采集視聽數(shù)據(jù),所述視聽數(shù)據(jù)包括語音數(shù)據(jù);對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù);在接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù);在接收端中同步地執(zhí)行所述視聽數(shù)據(jù)的播放和所述字幕數(shù)據(jù)的顯示,從而實(shí)現(xiàn)帶字幕的通話。
      [0007]優(yōu)選地,所述對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù)的步驟可以是在發(fā)送端中執(zhí)行的,并通過將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)從發(fā)送端傳送到接收端來在接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù)。
      [0008]優(yōu)選地,在將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)傳送到接收端的過程中,如果數(shù)據(jù)傳輸條件低于預(yù)設(shè)閾值,則可以僅將所述字幕數(shù)據(jù)從發(fā)送端傳送到接收端而不發(fā)送所述視聽數(shù)據(jù)。
      [0009]優(yōu)選地,將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)從發(fā)送端傳送到接收端的步驟可包括:在發(fā)送端按照會(huì)話啟動(dòng)協(xié)議SIP來將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)封裝為SIP數(shù)據(jù)包;將所述SIP數(shù)據(jù)包傳送到所述接收端。[0010]優(yōu)選地,所述通話方法還可包括發(fā)送端將所述視聽數(shù)據(jù)傳送到獨(dú)立于所述發(fā)送端和接收端的服務(wù)器,其中,在所述服務(wù)器中執(zhí)行所述對(duì)所述視聽數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù),以及通過從發(fā)送端向接收端發(fā)送視聽數(shù)據(jù)和從服務(wù)器向接收端發(fā)送字幕數(shù)據(jù)來在接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù)。
      [0011]優(yōu)選地,在從發(fā)送端向接收端發(fā)送視聽數(shù)據(jù)和從服務(wù)器向接收端發(fā)送字幕數(shù)據(jù)的過程中,如果數(shù)據(jù)傳輸條件低于預(yù)設(shè)閾值,則從服務(wù)器向接收端僅發(fā)送字幕數(shù)據(jù)而不發(fā)送視聽數(shù)據(jù)。
      [0012]優(yōu)選地,所述接收端的數(shù)目為多個(gè),從所述發(fā)送端向多個(gè)接收端發(fā)送視聽數(shù)據(jù)和從所述服務(wù)器向多個(gè)接收端發(fā)送字幕數(shù)據(jù)來在接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù)。
      [0013]優(yōu)選地,所述通話方法還可包括將所采集的視聽數(shù)據(jù)傳送到接收端,其中,在所述接收端中執(zhí)行所述對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù)。
      [0014]優(yōu)選地,所述基于所識(shí)別的語音獲得字幕數(shù)據(jù)的步驟可包括:基于所識(shí)別的語音獲得與該語音的第一語言對(duì)應(yīng)的文字;將所述第一語言的文字轉(zhuǎn)換為與所述第一語言不同的第二語言對(duì)應(yīng)的字幕。
      [0015]優(yōu)選地,在接收端中同步地執(zhí)行所述視聽數(shù)據(jù)的播放和所述字幕數(shù)據(jù)的顯示的步驟可包括:在接收端中設(shè)置字幕顯示選項(xiàng);當(dāng)接收端的用戶選擇不顯示所述字幕數(shù)據(jù)時(shí),在接收端中執(zhí)行所述視聽數(shù)據(jù)的播放而不執(zhí)行所述字幕數(shù)據(jù)的顯示。
      [0016]另一方面,提供了一種發(fā)送裝置,用于終端設(shè)備,該發(fā)送裝置包括:采集單元,用于采集視聽數(shù)據(jù),所述視聽數(shù)據(jù)包括語音數(shù)據(jù);語音識(shí)別單元,用于對(duì)語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù);發(fā)送單元,用于發(fā)送所述視聽數(shù)據(jù)和字幕數(shù)據(jù),從而在接收裝置中實(shí)現(xiàn)帶字幕的通話。
      [0017]另一方面,提供了一種接收裝置,用于終端設(shè)備,該接收裝置包括:接收單元,用于接收視聽數(shù)據(jù),該視聽數(shù)據(jù)包括語音數(shù)據(jù);字幕獲取單元,用于獲取與所述語音數(shù)據(jù)對(duì)應(yīng)的字幕數(shù)據(jù),該字幕數(shù)據(jù)是對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音而獲得的;處理單元,用于處理所述視聽數(shù)據(jù)和所述字幕數(shù)據(jù),以同步地進(jìn)行所述視聽數(shù)據(jù)的播放和所述字幕數(shù)據(jù)的顯示,從而實(shí)現(xiàn)帶字幕的通話。
      [0018]另一方面,提供了一種終端設(shè)備,包括上述的發(fā)送裝置和上述的接收裝置。
      [0019]另一方面,提供了一種語音處理設(shè)備,連接到多個(gè)源終端設(shè)備和多個(gè)目的終端設(shè)備,該語音處理設(shè)備包括:接收單元,用于從所述多個(gè)源終端設(shè)備中的至少一個(gè)源終端設(shè)備接收語音數(shù)據(jù);語音識(shí)別單元,用于對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù);發(fā)送單元,用于將所述字幕數(shù)據(jù)發(fā)送到所述多個(gè)目的終端設(shè)備中的至少一個(gè)目的終端設(shè)備。
      [0020]在本發(fā)明的上述實(shí)施例中,能夠在提供通話的語音的同時(shí)提供與該語音對(duì)應(yīng)的字幕,從而即使通信環(huán)境惡化無法聽清通話語音也保證通話信息不被錯(cuò)失。
      【專利附圖】

      【附圖說明】
      [0021]為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
      [0022]圖1是圖示了根據(jù)本發(fā)明實(shí)施例的用于通話的通信架構(gòu)的示意圖;
      [0023]圖2是示意性圖示了根據(jù)本發(fā)明實(shí)施例的用于通話的方法的流程圖;
      [0024]圖3圖示了根據(jù)本發(fā)明實(shí)施例的帶字幕的可視通話中的屏幕顯示示例;
      [0025]圖4是示意性圖示了根據(jù)本發(fā)明實(shí)施例的用于終端設(shè)備的發(fā)送裝置的框圖;
      [0026]圖5圖示了根據(jù)本發(fā)明實(shí)施例的進(jìn)行可視通話的發(fā)送裝置的示意性結(jié)構(gòu)圖;
      [0027]圖6是示意性圖示了根據(jù)本發(fā)明實(shí)施例的用于終端設(shè)備的接收裝置的框圖;
      [0028]圖7是示意性圖示了根據(jù)本發(fā)明實(shí)施例的終端設(shè)備的框圖;以及
      [0029]圖8是示意性圖示了根據(jù)本發(fā)明實(shí)施例的語音處理設(shè)備的框圖。
      【具體實(shí)施方式】
      [0030]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。
      [0031]圖1是圖示了根據(jù)本發(fā)明實(shí)施例的用于通話的通信架構(gòu)的示意圖。在圖1中,所述通信架構(gòu)包括通信網(wǎng)絡(luò)、以及連接到該通信網(wǎng)絡(luò)的終端設(shè)備1、終端設(shè)備2、和服務(wù)器3。所述通信網(wǎng)絡(luò)可以是諸如因特網(wǎng)、3G網(wǎng)絡(luò)、長期演進(jìn)(LTE, long term evolution)網(wǎng)絡(luò)等已有的或?qū)砭哂械母鞣N通信網(wǎng)絡(luò)。所述服務(wù)器3可以是連接到所述通信網(wǎng)絡(luò)的任何服務(wù)器。終端設(shè)備I和終端設(shè)備2可通過所述通信網(wǎng)絡(luò)進(jìn)行可視通話或單純的語音通話,該通話通常是雙向的。也就是說,終端設(shè)備I可以作為發(fā)送端向終端設(shè)備2發(fā)送視聽數(shù)據(jù),也可以作為接收端接收來自終端設(shè)備2的視聽數(shù)據(jù)。在圖1中,終端設(shè)備的數(shù)目被圖示為兩個(gè),但這僅僅是示意性的。連接到通信網(wǎng)絡(luò)的終端設(shè)備可以三個(gè)或更多。此外,各個(gè)終端設(shè)備之間不僅可以進(jìn)行前述的雙向通信,還可以進(jìn)行例如僅僅終端設(shè)備I發(fā)送視聽數(shù)據(jù)、終端設(shè)備2接收視聽數(shù)據(jù)的單向通信,甚至還可以進(jìn)行三個(gè)或更多終端設(shè)備之間的多方通話。具體的終端設(shè)備的數(shù)目已經(jīng)通信方向不構(gòu)成對(duì)本發(fā)明的限制。
      [0032]為了簡化,在下面的描述,僅僅描述其中終端設(shè)備I作為發(fā)送端發(fā)送視聽數(shù)據(jù)、終端設(shè)備2作為接收端接收來自終端設(shè)備I的視聽數(shù)據(jù)的示例性通話過程。
      [0033]圖2是示意性圖示了根據(jù)本發(fā)明實(shí)施例的用于通話的方法的流程圖。該通話方法200包括:在發(fā)送端采集視聽數(shù)據(jù),所述視聽數(shù)據(jù)包括語音數(shù)據(jù)(S210);對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù)(S220);在接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù)(S230);在接收端中同步地執(zhí)行所述視聽數(shù)據(jù)的播放和所述字幕數(shù)據(jù)的顯示,從而實(shí)現(xiàn)帶字幕的通話(S240)。
      [0034]在S210中,在發(fā)送端采集視聽數(shù)據(jù),所述視聽數(shù)據(jù)包括語音數(shù)據(jù)。
      [0035]所述發(fā)送端是進(jìn)行通話的雙方中的說話的一方,在從圖1中的終端設(shè)備I向終端設(shè)備2的示例性通話過程中,該發(fā)送端是所述終端設(shè)備I。要注意,該發(fā)送端不限于終端設(shè)備1,在從圖1中的終端設(shè)備2向終端設(shè)備I的通話過程中,該發(fā)送端是所述終端設(shè)備2。此夕卜,如果通話的終端設(shè)備改變,則該發(fā)送端還可以是其它的進(jìn)行通話的終端設(shè)備。
      [0036]在單純的語音通話中,所述視聽數(shù)據(jù)僅僅包括語音數(shù)據(jù);在可視通話中,所述視聽數(shù)據(jù)除了包括語音數(shù)據(jù)之外還包括圖像數(shù)據(jù)。作為示例,在發(fā)送端中,可利用麥克風(fēng)采集用戶的語音,利用攝像頭采集用戶的圖像,從而獲得包括語音數(shù)據(jù)的視聽數(shù)據(jù)。關(guān)于該視聽數(shù)據(jù)的采集,可以利用現(xiàn)有的或?qū)沓霈F(xiàn)的任何技術(shù)手段來實(shí)現(xiàn)。
      [0037]在S220中,對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù)。可以利用任何語音識(shí)別技術(shù)來識(shí)別所述語音數(shù)據(jù),并基于所識(shí)別的語音獲得相應(yīng)的字幕數(shù)據(jù),使得進(jìn)行通話的接收端能夠在通話過程中看到通話內(nèi)容的字幕。因此,即使接收端用戶的周圍環(huán)境偶爾變得嘈雜,也可以通過所述字幕知曉通話對(duì)方所講的內(nèi)容。此外,在發(fā)送端的用戶具有方言口音的情況下,所述字幕數(shù)據(jù)還可以幫助接收端的用戶理解發(fā)送端的用戶的通話內(nèi)容,以實(shí)現(xiàn)更好的溝通。
      [0038]取決于語音識(shí)別技術(shù)的發(fā)展和完善,在該S220中,還可以先基于所識(shí)別的語音獲得與該語音的第一語言(例如漢語)對(duì)應(yīng)的文字;然后將所述第一語言的文字轉(zhuǎn)換為與所述第一語言不同的第二語言(例如英語)對(duì)應(yīng)的字幕。此外,在具有多個(gè)接收端、且接收端的各個(gè)用戶理解不同語言的情況下,還可以獲得與所述第一語言和第二語言分別對(duì)應(yīng)的第一語言字幕和第二語言字幕二者,甚或獲得與更多種語言對(duì)應(yīng)的字幕,以將不同語言的字幕的發(fā)送到能夠理解所述語言的對(duì)應(yīng)用戶。這樣,當(dāng)熟悉不同語言的用戶進(jìn)行通話時(shí),用戶可以接收到他所熟悉的語言的字幕,所述用戶借助于所述字幕可以進(jìn)行更好的溝通。
      [0039]該S220可以在發(fā)送端、接收端或獨(dú)立于所述發(fā)送端和接收端的其它設(shè)備中執(zhí)行。例如,當(dāng)發(fā)送端為計(jì)算機(jī)等處理能力強(qiáng)的終端設(shè)備時(shí),可以在發(fā)送端中實(shí)現(xiàn)該S220 ;當(dāng)接收端為計(jì)算機(jī)等處理能力強(qiáng)的終端設(shè)備時(shí),可以將所述視聽數(shù)據(jù)發(fā)送到接收端,由接收端實(shí)現(xiàn)該S220 ;如果想要減輕發(fā)送端和接收端的數(shù)據(jù)處理壓力,可以將所述視聽數(shù)據(jù)發(fā)送到獨(dú)立于所述發(fā)送端和接收端的第三方,由該第三方執(zhí)行所述S220以獲得字幕數(shù)據(jù),并然后將字幕數(shù)據(jù)傳送到接收端。
      [0040]在S230中,在接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù)。
      [0041]如前所述,對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù)(S220)可以在發(fā)送端、接收端或獨(dú)立于所述發(fā)送端和接收端的第三方設(shè)備中執(zhí)行。相應(yīng)地,在接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù)的方式也會(huì)有所變化。下面具體描述接收端中的三種相應(yīng)的數(shù)據(jù)獲取情形。
      [0042]情形一,當(dāng)對(duì)語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù)(S220)是在發(fā)送端中執(zhí)行時(shí),可通過將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)從發(fā)送端傳送到接收端來在接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù)(S230)。作為所述將視聽數(shù)據(jù)和字幕數(shù)據(jù)從發(fā)送端傳送到接收端的示例,可以在發(fā)送端按照會(huì)話啟動(dòng)協(xié)議(SIP, Session Initiation Protocol)來將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)封裝為SIP數(shù)據(jù)包,并然后將所述SIP數(shù)據(jù)包傳送到所述接收端。
      [0043]以圖1的通信架構(gòu)為例,在終端設(shè)備I (發(fā)送端)采集視聽數(shù)據(jù),并在終端設(shè)備I中基于所述視聽數(shù)據(jù)中的語音數(shù)據(jù)獲得字幕數(shù)據(jù),然后經(jīng)由所述因特網(wǎng)或3G通信網(wǎng)絡(luò)將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)發(fā)送到終端設(shè)備2 (接收端)。
      [0044]在將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)傳送到接收端的過程中,如果發(fā)送端和/或接收所處于的通信環(huán)境的數(shù)據(jù)傳輸條件低于預(yù)設(shè)閾值,則僅將所述字幕數(shù)據(jù)從發(fā)送端傳送到接收端而不發(fā)送所述視聽數(shù)據(jù)。已知視聽數(shù)據(jù)的數(shù)據(jù)量大、而字幕(即文本)數(shù)據(jù)的數(shù)據(jù)量小,在數(shù)據(jù)傳輸條件變差時(shí)僅傳輸字幕數(shù)據(jù)可以極大地降低通信網(wǎng)絡(luò)的負(fù)載量,以改善數(shù)據(jù)傳輸條件,同時(shí)字幕數(shù)據(jù)的傳輸也保證了接收端的用戶不錯(cuò)失通話信息。所述數(shù)據(jù)傳輸條件可以是通信信道的信噪比、時(shí)延等任何能夠表征數(shù)據(jù)傳輸環(huán)境的參數(shù),可以針對(duì)不同的通話質(zhì)量要求而為這些數(shù)據(jù)傳輸條件設(shè)置相應(yīng)的預(yù)設(shè)閾值,以基于所述預(yù)設(shè)閾值來判斷數(shù)據(jù)傳輸環(huán)境的優(yōu)劣。
      [0045]情形二,當(dāng)對(duì)語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù)(S220)是在獨(dú)立于所述發(fā)送端和接收端的第三方設(shè)備(例如,圖1中的服務(wù)器3)中執(zhí)行時(shí),在所述第三方設(shè)備中執(zhí)行所述對(duì)語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù),以及通過從發(fā)送端向接收端發(fā)送視聽數(shù)據(jù)和從服務(wù)器向接收端發(fā)送字幕數(shù)據(jù)來在接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù)。
      [0046]以圖1的通信架構(gòu)為例,在終端設(shè)備I (發(fā)送端)采集視聽數(shù)據(jù),將所述視聽數(shù)據(jù)中的語音數(shù)據(jù)發(fā)送到服務(wù)器3,在所述服務(wù)器3中執(zhí)行所述對(duì)語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù),并將字幕數(shù)據(jù)傳送到終端設(shè)備2 (接收端),與此同時(shí),也將所述視聽數(shù)據(jù)從終端設(shè)備I發(fā)送到終端設(shè)備2,從而在所述終端設(shè)備2中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù)。
      [0047]在從發(fā)送端向接收端發(fā)送視聽數(shù)據(jù)和從服務(wù)器向接收端發(fā)送字幕數(shù)據(jù)的過程中,如果發(fā)送端和/或接收所處于的通信環(huán)境的數(shù)據(jù)傳輸條件低于預(yù)設(shè)閾值,則從服務(wù)器向接收端發(fā)送字幕數(shù)據(jù)而不執(zhí)行視聽數(shù)據(jù)從發(fā)送端向接收端的發(fā)送。此時(shí),通過不從發(fā)送端向接收端的發(fā)送視聽數(shù)據(jù)可以極大地降低通信網(wǎng)絡(luò)的負(fù)載量,改善數(shù)據(jù)傳輸條件,同時(shí)從服務(wù)器3到接收端的字幕傳輸也保證了接收端的用戶不錯(cuò)失通話信息。
      [0048]所述接收端的數(shù)目可以為兩個(gè)或更多,則所述發(fā)送端向各個(gè)接收端發(fā)送視聽數(shù)據(jù)、和從所述服務(wù)器向各個(gè)接收端發(fā)送字幕數(shù)據(jù)來在各個(gè)接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù),從而實(shí)現(xiàn)帶字幕的通話。此外,如前所述,在所述服務(wù)器中可以獲得與不同語言對(duì)應(yīng)的字幕,并將不同語言的字幕發(fā)送到不同的接收端,從而為接收端的用戶提供其所熟悉的語目的字眷。
      [0049]情形三,當(dāng)對(duì)語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù)(S220)是在接收端中執(zhí)行時(shí),可以先將所采集的視聽數(shù)據(jù)傳送到接收端,然后,在接收端中執(zhí)行對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù)(S230)。在該情形三中,也可以將所述視聽數(shù)據(jù)傳送到多個(gè)接收端,在全部或部分接收端中對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù)。此外,可以由各個(gè)接收端本身決定是實(shí)現(xiàn)帶字幕的通話還是不帶字幕的通話,從而實(shí)現(xiàn)多方通話。
      [0050]以圖1的通信架構(gòu)為例,在終端設(shè)備I (發(fā)送端)采集視聽數(shù)據(jù),經(jīng)由所述因特網(wǎng)或3G通信網(wǎng)絡(luò)將所述視聽數(shù)據(jù)發(fā)送到終端設(shè)備2 (接收端),并在終端設(shè)備2中基于所述視聽數(shù)據(jù)中的語音數(shù)據(jù)獲得字幕數(shù)據(jù),以在接收端中實(shí)現(xiàn)帶字幕的通話。
      [0051]在S240中,在接收端中同步地執(zhí)行所述視聽數(shù)據(jù)的播放和所述字幕數(shù)據(jù)的顯示,從而實(shí)現(xiàn)帶字幕的通話。為了實(shí)現(xiàn)該S240,接收端典型地具有用于播放或傳送語音的揚(yáng)聲器或耳機(jī)、以及用于顯示字幕數(shù)據(jù)的顯示屏。
      [0052]在該S240中,可以在接收端中設(shè)置字幕顯示選項(xiàng)。當(dāng)接收端的用戶選擇不顯示所述字幕數(shù)據(jù)時(shí),在接收端中執(zhí)行所述視聽數(shù)據(jù)的播放而不執(zhí)行所述字幕數(shù)據(jù)的顯示。這樣,當(dāng)信道狀況良好且通話環(huán)境安靜的情況下,進(jìn)行不帶字幕的通話,從而節(jié)約字幕數(shù)據(jù)的傳輸流量、和/或減輕接收端的數(shù)據(jù)處理負(fù)擔(dān)。[0053]在本發(fā)明的上述用于進(jìn)行通話的方法的實(shí)施例中,能夠在提供通話的語音的同時(shí)提供與該語音對(duì)應(yīng)的字幕,從而即使通信環(huán)境惡化無法聽清通話語音也保證通話信息不被錯(cuò)失。
      [0054]圖3圖示了根據(jù)本發(fā)明實(shí)施例的帶字幕的可視通話中的屏幕顯示示例。在圖3中,熟悉中文的小琳(Xiaolin)與熟悉英文的皮特進(jìn)行帶字幕的可視通話。圖3中的左側(cè)顯示屏是小琳的終端設(shè)備的屏幕顯示,在該左側(cè)顯示屏上,不僅顯示通話對(duì)方皮特的頭像,還用小琳所熟悉的中文來顯示皮特的語音的字幕,從而當(dāng)通信環(huán)境惡化無法聽清皮特的聲音的情況下,小琳也可以通過字幕與皮特溝通,保證通話信息不被錯(cuò)失。而且,因?yàn)樽帜皇且孕×账煜さ闹形倪M(jìn)行顯示,這可幫助她準(zhǔn)確地理解皮特所講的內(nèi)容。類似地,圖3中的右側(cè)顯示屏是皮特的終端設(shè)備的屏幕顯示在該顯示屏上,在該右側(cè)顯示屏上,不僅顯示通話對(duì)方小琳的頭像,還用皮特所熟悉的英文來顯示小琳的語音的字幕,從而當(dāng)通信環(huán)境惡化無法聽清聲音的情況下,皮特也可以通過字幕與小琳溝通,保證通話信息不被錯(cuò)失。而且,因?yàn)樽帜皇且云ぬ厮煜さ挠⑽倪M(jìn)行顯示,這可幫助他準(zhǔn)確地理解小琳所講的內(nèi)容。
      [0055]下面結(jié)合圖4 - 7來描述根據(jù)本發(fā)明實(shí)施例的用于進(jìn)行帶字幕的通話的裝置的示例性實(shí)現(xiàn)。
      [0056]圖4是示意性圖示了根據(jù)本發(fā)明實(shí)施例的用于終端設(shè)備的發(fā)送裝置400的框圖。該發(fā)送裝置400所用于的終端設(shè)備是其用戶講話的終端設(shè)備。在從圖1中的終端設(shè)備I向終端設(shè)備2的示例性通話過程中,該發(fā)送裝置400用于所述終端設(shè)備I。在從圖1中的終端設(shè)備2向終端設(shè)備I的通話過程中,該發(fā)送裝置400用于所述終端設(shè)備2。
      [0057]該發(fā)送裝置400包括:采集單元410,用于采集視聽數(shù)據(jù),所述視聽數(shù)據(jù)包括語音數(shù)據(jù);語音識(shí)別單元420,用于對(duì)語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù);發(fā)送單元430,用于發(fā)送所述視聽數(shù)據(jù)和字幕數(shù)據(jù),從而在接收裝置中實(shí)現(xiàn)帶字幕的通話??蛇x地,該發(fā)送裝置400還可以包括傳輸條件確定單元440 (如圖4中的虛線所示),用于確定所述發(fā)送裝置所處于的通信網(wǎng)絡(luò)的數(shù)據(jù)傳輸條件是否低于預(yù)設(shè)閾值,以確定所述發(fā)送單元430是發(fā)送所述視聽數(shù)據(jù)和字幕數(shù)據(jù)二者、還是僅僅發(fā)送所述字幕數(shù)據(jù)。
      [0058]所述采集單元410可以包括所述終端設(shè)備的麥克風(fēng)和/或攝像頭。在單純的語音通話中,可利用所述麥克風(fēng)采集語音數(shù)據(jù),以形成視聽數(shù)據(jù)。在可視通話中,可利用所述麥克風(fēng)采集語音數(shù)據(jù)、并利用攝像頭采集終端設(shè)備的用戶的圖像數(shù)據(jù),從而基于該語音數(shù)據(jù)和圖像數(shù)據(jù)形成視聽數(shù)據(jù)。關(guān)于該采集單元410的視聽數(shù)據(jù)采集,可以利用現(xiàn)有的或?qū)沓霈F(xiàn)的任何技術(shù)手段來實(shí)現(xiàn)。
      [0059]語音識(shí)別單元420可以對(duì)語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù)。該語音識(shí)別單元420可以利用任何語音識(shí)別技術(shù)來識(shí)別所述語音數(shù)據(jù),并基于所識(shí)別的語音獲得相應(yīng)的字幕數(shù)據(jù),使得進(jìn)行通話的接收端能夠在通話過程中顯示通話內(nèi)容的字幕。此外,在發(fā)送端的用戶具有方言口音的情況下,所述字幕數(shù)據(jù)還可以幫助接收端的用戶理解發(fā)送端的用戶的通話內(nèi)容,以實(shí)現(xiàn)更好的溝通。
      [0060]取決于語音識(shí)別技術(shù)的發(fā)展和完善,所述語音識(shí)別單元420可通過如下操作來基于所識(shí)別的語音獲得字幕數(shù)據(jù):基于所識(shí)別的語音獲得與該語音的第一語言(例如漢語)對(duì)應(yīng)的第一語言字幕;將所述第一語言字幕轉(zhuǎn)換為與所述第一語言不同的第二語言(例如英語)對(duì)應(yīng)的第二語言字幕。這樣,在具有多個(gè)接收端、且接收端的各個(gè)用戶熟悉不同語言的情況下,還可以獲得與所述第一語言和第二語言分別對(duì)應(yīng)的第一語言字幕和第二語言字幕二者,甚或獲得與更多種語言對(duì)應(yīng)的字幕,以將不同語言的字幕的發(fā)送到能夠熟悉所述語言的對(duì)應(yīng)用戶。這樣,當(dāng)熟悉不同語言的用戶進(jìn)行通話時(shí),用戶可以接收到他所熟悉的語言的字幕,各個(gè)用戶借助于所述字幕可以進(jìn)行更好的溝通。
      [0061]所述發(fā)送單元430例如將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)發(fā)送到一個(gè)或多個(gè)接收裝置,從而在接收裝置中實(shí)現(xiàn)帶字幕的通話。所述發(fā)送單元430可通過如下操作來發(fā)送所述視聽數(shù)據(jù)和字幕數(shù)據(jù):按照會(huì)話啟動(dòng)協(xié)議SIP來將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)封裝為SIP數(shù)據(jù)包;發(fā)送所述SIP數(shù)據(jù)包。
      [0062]在本發(fā)明的上述用于進(jìn)行帶字幕的通話的發(fā)送裝置的示例性實(shí)現(xiàn)中,能夠在提供通話的語音的同時(shí)提供與該語音對(duì)應(yīng)的字幕,從而即使通信環(huán)境惡化無法聽清通話語音也保證通話信息不被錯(cuò)失。
      [0063]此外,如前所述,發(fā)送裝置400還可以包括傳輸條件確定單元440,用于確定所述發(fā)送裝置所處于的通信網(wǎng)絡(luò)的數(shù)據(jù)傳輸條件是否低于預(yù)設(shè)閾值。作為示例,傳輸條件確定單元440可以通過監(jiān)測用于傳輸視聽數(shù)據(jù)和字幕數(shù)據(jù)的各個(gè)通信鏈路或節(jié)點(diǎn)的參數(shù)來確定所述數(shù)據(jù)傳輸條件是否低于預(yù)設(shè)閾值。當(dāng)所述數(shù)據(jù)傳輸條件低于預(yù)設(shè)閾值時(shí),所述傳輸條件確定單元440指示發(fā)送單元430僅發(fā)送所述字幕數(shù)據(jù)而不發(fā)送所述視聽數(shù)據(jù)。在數(shù)據(jù)傳輸條件變差時(shí)僅傳輸字幕數(shù)據(jù)可以極大地降低通信網(wǎng)絡(luò)的負(fù)載量(視聽數(shù)據(jù)的數(shù)據(jù)量大、而字幕數(shù)據(jù)的數(shù)據(jù)量小),以改善數(shù)據(jù)傳輸條件,同時(shí)字幕數(shù)據(jù)的傳輸也保證了接收端的用戶不錯(cuò)失通話信息。如前所述,所述數(shù)據(jù)傳輸條件可以是通信信道的信噪比、時(shí)延等任何能夠表征數(shù)據(jù)傳輸環(huán)境的參數(shù),且可以針對(duì)不同的通話質(zhì)量要求而為這些數(shù)據(jù)傳輸條件設(shè)置相應(yīng)的預(yù)設(shè)閾值,以基于所述預(yù)設(shè)閾值來判斷數(shù)據(jù)傳輸環(huán)境的優(yōu)劣。
      [0064]圖5圖示了根據(jù)本發(fā)明實(shí)施例的進(jìn)行可視通話的發(fā)送裝置的示意性結(jié)構(gòu)圖。在該圖5中,所述麥克風(fēng)和攝像頭組成圖4中的采集單元410來采集圖像和聲音;語音識(shí)別轉(zhuǎn)字幕模塊對(duì)應(yīng)于圖4中的語音識(shí)別單元;其余部分對(duì)應(yīng)于圖4中的發(fā)送單元。
      [0065]當(dāng)進(jìn)行可視通話時(shí),麥克風(fēng)采集用戶的語音數(shù)據(jù),分別傳給編碼模塊和語音識(shí)別轉(zhuǎn)字幕模塊。在編碼模塊中進(jìn)行音頻編碼,同時(shí)在語音識(shí)別轉(zhuǎn)字幕模塊完成語音識(shí)別轉(zhuǎn)字幕,這里的字幕可根據(jù)用戶的實(shí)際需求,實(shí)現(xiàn)不同語言類別的字幕。盡管該語音識(shí)別轉(zhuǎn)字幕模塊被圖示為單獨(dú)的模塊,但其也可以作為芯片而包含在數(shù)據(jù)處理模塊中。數(shù)據(jù)處理模塊與存儲(chǔ)器通信連接。數(shù)據(jù)處理模塊將通過攝像頭獲得的圖像數(shù)據(jù)、來自語音識(shí)別轉(zhuǎn)字幕模塊的字幕數(shù)據(jù)、和利用所述編碼模塊編碼的數(shù)據(jù)分別緩沖到存儲(chǔ)器中,利用諸如SIP的數(shù)據(jù)封包程序?qū)@些數(shù)據(jù)進(jìn)行封裝,通過網(wǎng)卡傳輸?shù)娇梢曂ㄔ挼膶?duì)方(接收端)。所述網(wǎng)卡可以是3G網(wǎng)卡、LTE網(wǎng)卡、4G網(wǎng)卡、WIFI (wireless fidelity)網(wǎng)卡中的任一個(gè),還可以是任何能夠與其它設(shè)備進(jìn)行通信的其它網(wǎng)絡(luò)接口。
      [0066]要注意,圖5的結(jié)構(gòu)圖僅僅示出了發(fā)送裝置的實(shí)現(xiàn)示例,不能構(gòu)成對(duì)本發(fā)明實(shí)施例的限制。在實(shí)踐中,可以根據(jù)需要對(duì)圖5中的組成模塊進(jìn)行其它組合、添加或刪除。例如,可以將存儲(chǔ)器包括在所述數(shù)據(jù)處理模塊中,可以為所述發(fā)送裝置添加顯示器,在不進(jìn)行可視通話時(shí)還可以刪除所述攝像頭。
      [0067]圖6是示意性圖示了根據(jù)本發(fā)明實(shí)施例的用于終端設(shè)備的接收裝置600的框圖。
      [0068]該接收裝置600所用于的終端設(shè)備是其用戶接收通話對(duì)方的視聽信號(hào)的終端設(shè)備。在從圖1中的終端設(shè)備I向終端設(shè)備2的示例性通話過程中,該接收裝置600用于所述終端設(shè)備2。在從圖1中的終端設(shè)備2向終端設(shè)備I的通話過程中,該接收裝置600用于所述終端設(shè)備I。
      [0069]所述接收裝置600包括:接收單元610,用于接收視聽數(shù)據(jù),該視聽數(shù)據(jù)包括語音數(shù)據(jù);字幕獲取單元620,用于獲取與所述語音數(shù)據(jù)對(duì)應(yīng)的字幕數(shù)據(jù),該字幕數(shù)據(jù)是對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音而獲得的;處理單元630,用于處理所述視聽數(shù)據(jù)和所述字幕數(shù)據(jù),以同步地進(jìn)行所述視聽數(shù)據(jù)的播放和所述字幕數(shù)據(jù)的顯示,從而實(shí)現(xiàn)帶字幕的通話。
      [0070]可選地,該接收裝置600還可以包括傳輸條件確定單元640、語音識(shí)別單元650、字幕顯示按鍵660中的至少一個(gè)。所述傳輸條件確定單元640用于確定所述接收裝置所處于的通信網(wǎng)絡(luò)的數(shù)據(jù)傳輸條件是否低于預(yù)設(shè)閾值。所述語音識(shí)別單元650用于對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù)。所述字幕顯示按鍵660用于啟動(dòng)或關(guān)閉所述字幕數(shù)據(jù)的顯示。
      [0071]所述接收單元610用于接收視聽數(shù)據(jù),該視聽數(shù)據(jù)包括語音數(shù)據(jù)。所述接收單元610可以是前述的網(wǎng)卡、或者是任何能夠與其它設(shè)備進(jìn)行通信的其它網(wǎng)絡(luò)接口。
      [0072]所述字幕獲取單元620用于獲取與所述語音數(shù)據(jù)對(duì)應(yīng)的字幕數(shù)據(jù),該字幕數(shù)據(jù)是對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音而獲得的。如前面結(jié)合圖2中的S220和S230進(jìn)行的描述,所述用于獲得所述字幕數(shù)據(jù)的語音識(shí)別單元可以位于發(fā)送端、服務(wù)器和接收端中,該字幕獲取單元620獲取字幕數(shù)據(jù)的方式將隨著所述字幕數(shù)據(jù)的生成方式而改變。
      [0073]當(dāng)與所述語音數(shù)據(jù)對(duì)應(yīng)的字幕數(shù)據(jù)來自發(fā)送裝置或獨(dú)立于發(fā)送裝置和接收裝置的服務(wù)器(例如圖1中的服務(wù)器3)時(shí),所述接收單元610還接收所述字幕數(shù)據(jù),并將字幕數(shù)據(jù)傳送到字幕獲取單元620。因此,所述字幕獲取單元620直接從該接收單元610獲取所述字幕數(shù)據(jù)??蛇x地,所述接收裝置600還可以包括傳輸條件確定單元640,用于確定所述接收裝置600所處于的通信網(wǎng)絡(luò)的數(shù)據(jù)傳輸條件是否低于預(yù)設(shè)閾值。該傳輸條件確定單元640類似于圖4中的傳輸條件確定單元440。當(dāng)所述數(shù)據(jù)傳輸條件低于預(yù)設(shè)閾值時(shí),所述接收單元610僅接收所述字幕數(shù)據(jù)而不接收所述視聽數(shù)據(jù)。關(guān)于該部分的描述可以參見前面在S230中的情形一和情形二中的相關(guān)描述。
      [0074]當(dāng)與所述語音數(shù)據(jù)對(duì)應(yīng)的字幕數(shù)據(jù)是在接收端中產(chǎn)生時(shí),所述接收裝置600還包括語音識(shí)別單元650。所述語音識(shí)別單元650用于從接收單元接收視聽數(shù)據(jù)中的語音數(shù)據(jù),對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù)。這樣,所述字幕獲取單元620可以從所述語音識(shí)別單元640獲取所述字幕數(shù)據(jù)。在接收裝置600的用戶所熟悉的語言不同于與接收單元610接收的語音數(shù)據(jù)對(duì)應(yīng)的語言時(shí),所述語音識(shí)別單元650可基于所識(shí)別的語音獲得與該語音的第一語言對(duì)應(yīng)的文字,并且將所述第一語言的文字轉(zhuǎn)換為與所述第一語言不同的第二語言對(duì)應(yīng)的字幕,從而獲得與接收裝置600的用戶所熟悉的語言對(duì)應(yīng)的字幕。關(guān)于該部分的描述可以參見前面在S230中的情形三中的相關(guān)描述。
      [0075]所述處理單元630用于處理所述視聽數(shù)據(jù)和所述字幕數(shù)據(jù),以同步地進(jìn)行所述視聽數(shù)據(jù)的播放和所述字幕數(shù)據(jù)的顯示,從而實(shí)現(xiàn)帶字幕的通話。所述處理單元630可以將已同步的視聽數(shù)據(jù)和字幕數(shù)據(jù)分別傳送到在終端設(shè)備中與所述接收裝置連接的揚(yáng)聲器和顯示器。
      [0076]可選地,所述接收裝置600還可包括字幕顯示按鍵660,用于啟動(dòng)或關(guān)閉所述字幕數(shù)據(jù)的顯示。當(dāng)接收裝置600的用戶按下所述字幕顯示按鍵660而選擇關(guān)閉所述字幕數(shù)據(jù)的顯示時(shí),在接收裝置600中僅執(zhí)行所述視聽數(shù)據(jù)的播放而不執(zhí)行所述字幕數(shù)據(jù)的顯示。作為僅執(zhí)行所述視聽數(shù)據(jù)的播放而不執(zhí)行所述字幕數(shù)據(jù)的顯示的手段,可以通過控制所述接收單元610和/或所述處理單元630來實(shí)現(xiàn)。例如,可以控制所述接收單元610不從外部接收中字幕數(shù)據(jù),可以切斷所述接收單元610與字幕獲取單元620的連接,還可以指令所述處理單元630不接收所述字幕數(shù)據(jù)、或不向顯示器發(fā)送所述字幕數(shù)據(jù)等。這樣,當(dāng)信道狀況良好且通話環(huán)境安靜的情況下,進(jìn)行不帶字幕的通話,從而節(jié)約字幕數(shù)據(jù)的傳輸流量、和/或減輕接收端的數(shù)據(jù)處理負(fù)擔(dān)。
      [0077]在本發(fā)明的上述用于進(jìn)行帶字幕通話的接收裝置的實(shí)施例中,能夠在接收視聽數(shù)據(jù)的同時(shí)獲得與該視聽數(shù)據(jù)中的語音數(shù)據(jù)對(duì)應(yīng)的字幕數(shù)據(jù),從而即使通信環(huán)境惡化無法聽清通話語音也保證通話信息不被錯(cuò)失。
      [0078]圖7是示意性圖示了根據(jù)本發(fā)明實(shí)施例的終端設(shè)備的框圖。該終端設(shè)備700包括圖4所示的發(fā)送裝置400和圖6所示的接收裝置600。通常,通話是兩個(gè)終端設(shè)備之間進(jìn)行的雙向通信。也就是說,終端設(shè)備即可以發(fā)送通話數(shù)據(jù)(包括視聽數(shù)據(jù)和字幕數(shù)據(jù))也可以接收通話數(shù)據(jù)。因此,終端設(shè)備典型地如圖7所示。要注意的是,在具體的實(shí)踐中,可以將圖7所示的終端設(shè)備中的發(fā)送裝置和接收裝置中的部分組成單元進(jìn)行組合、增加或刪減。例如,發(fā)送裝置和接收裝置可以共用一個(gè)語音識(shí)別單元,二者可以共用一個(gè)麥克風(fēng)等;當(dāng)在服務(wù)器中進(jìn)行語音識(shí)別和字幕轉(zhuǎn)換時(shí),所述終端設(shè)備中可以不包括語音識(shí)別單元。
      [0079]圖8是示意性圖示了根據(jù)本發(fā)明實(shí)施例的語音處理設(shè)備800的框圖。
      [0080]該語音處理設(shè)備800典型地是圖1所示的獨(dú)立于終端設(shè)備I和2的服務(wù)器3。該語音處理設(shè)備與多個(gè)源終端設(shè)備和多個(gè)目的終端設(shè)備通信連接,例如經(jīng)由圖1中所示的通信網(wǎng)絡(luò)進(jìn)行所述通信連接。如前所述,由于通話通常是雙向通信,所以圖1中的每個(gè)終端設(shè)備即可以是源終端設(shè)備也可以是目的終端設(shè)備。
      [0081]該語音處理設(shè)備800包括:接收單元810,用于從所述多個(gè)源終端設(shè)備中的至少一個(gè)源終端設(shè)備接收語音數(shù)據(jù);語音處理單元820,用于對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù);發(fā)送單元830,用于將所述字幕數(shù)據(jù)發(fā)送到所述多個(gè)目的終端設(shè)備中的至少一個(gè)目的終端設(shè)備。在進(jìn)行多方通話的情況中,該語音處理單元820可以基于所識(shí)別的語音獲得與該語音的第一語言對(duì)應(yīng)的第一語言字幕、并且將所述第一語言字幕轉(zhuǎn)換為與所述第一語言不同的第二語言對(duì)應(yīng)的第二語言字幕,然后所述發(fā)送單元830將所述第一語言字幕和第二語言字幕發(fā)送到不同的目的終端設(shè)備。關(guān)于該語音處理單元820所執(zhí)行的功能,可以參見前面結(jié)合圖2中S220、圖4中的語音識(shí)別單元420、或圖6中的語音識(shí)別單元650進(jìn)行的描述。
      [0082]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置和單元的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。
      [0083]本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
      [0084]在本申請(qǐng)所提供的實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合在一起,或一些特征可以忽略,或不執(zhí)行。
      [0085]以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
      【權(quán)利要求】
      1.一種通話的方法,包括: 在發(fā)送端采集視聽數(shù)據(jù),所述視聽數(shù)據(jù)包括語音數(shù)據(jù); 對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù); 在接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù); 在接收端中同步地執(zhí)行所述視聽數(shù)據(jù)的播放和所述字幕數(shù)據(jù)的顯示,從而實(shí)現(xiàn)帶字幕的通話。
      2.根據(jù)權(quán)利要求1的方法,其中所述對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù)的步驟是在發(fā)送端中執(zhí)行的,并通過將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)從發(fā)送端傳送到接收端來在接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù)。
      3.根據(jù)權(quán)利要求2的方法,其中,在將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)傳送到接收端的過程中,如果數(shù)據(jù)傳輸條件低于預(yù)設(shè)閾值,則僅將所述字幕數(shù)據(jù)從發(fā)送端傳送到接收端而不發(fā)送所述視聽數(shù)據(jù)。
      4.根據(jù)權(quán)利要求2的方法,其中,將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)從發(fā)送端傳送到接收端的步驟包括: 在發(fā)送端按照會(huì)話啟動(dòng)協(xié)議SIP來將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)封裝為SIP數(shù)據(jù)包; 將所述SIP數(shù)據(jù)包傳送到所述接收端。
      5.根據(jù)權(quán)利要求1的方法,還包括發(fā)送端將所述視聽數(shù)據(jù)傳送到獨(dú)立于所述發(fā)送端和接收端的服務(wù)器, 其中,在所述服務(wù)器中執(zhí)行所述對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù),以及通過從發(fā)送端向接收端發(fā)送視聽數(shù)據(jù)和從服務(wù)器向接收端發(fā)送字幕數(shù)據(jù)來在接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù)。
      6.根據(jù)權(quán)利要求5的方法,其中,在從發(fā)送端向接收端發(fā)送視聽數(shù)據(jù)和從服務(wù)器向接收端發(fā)送字幕數(shù)據(jù)的過程中,如果數(shù)據(jù)傳輸條件低于預(yù)設(shè)閾值,則從服務(wù)器向接收端僅發(fā)送字幕數(shù)據(jù)而不發(fā)送視聽數(shù)據(jù)。
      7.根據(jù)權(quán)利要求5的方法,其中,所述接收端的數(shù)目為多個(gè),從所述發(fā)送端向多個(gè)接收端發(fā)送視聽數(shù)據(jù)和從所述服務(wù)器向多個(gè)接收端發(fā)送字幕數(shù)據(jù)來在接收端中獲得所述視聽數(shù)據(jù)和字幕數(shù)據(jù)。
      8.根據(jù)權(quán)利要求1的方法,還包括將所采集的視聽數(shù)據(jù)傳送到接收端, 其中,在所述接收端中執(zhí)行對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字眷數(shù)據(jù)。
      9.根據(jù)權(quán)利要求1的方法,其中,所述基于所識(shí)別的語音獲得字幕數(shù)據(jù)的步驟包括: 基于所識(shí)別的語音獲得與該語音的第一語言對(duì)應(yīng)的文字; 將所述第一語言的文字轉(zhuǎn)換為與所述第一語言不同的第二語言對(duì)應(yīng)的字幕。
      10.根據(jù)權(quán)利要求1的方法,其中,在接收端中同步地執(zhí)行所述視聽數(shù)據(jù)的播放和所述字幕數(shù)據(jù)的顯示的步驟包括: 在接收端中設(shè)置字幕顯示選項(xiàng); 當(dāng)接收端的用戶選擇不顯示所述字幕數(shù)據(jù)時(shí),在接收端中執(zhí)行所述視聽數(shù)據(jù)的播放而不執(zhí)行所述字幕數(shù)據(jù)的顯示。
      11.一種發(fā)送裝置,用于終端設(shè)備,該發(fā)送裝置包括:采集單元,用于采集視聽數(shù)據(jù),所述視聽數(shù)據(jù)包括語音數(shù)據(jù); 語音識(shí)別單元,用于對(duì)語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù); 發(fā)送單元,用于發(fā)送所述視聽數(shù)據(jù)和字幕數(shù)據(jù),從而在接收裝置中實(shí)現(xiàn)帶字幕的通話。
      12.根據(jù)權(quán)利要求11的發(fā)送裝置,還包括傳輸條件確定單元,用于確定所述發(fā)送裝置所處于的通信網(wǎng)絡(luò)的數(shù)據(jù)傳輸條件是否低于預(yù)設(shè)閾值, 其中, 當(dāng)所述數(shù)據(jù)傳輸條件低于預(yù)設(shè)閾值時(shí),所述傳輸條件確定單元指示發(fā)送單元僅發(fā)送所述字幕數(shù)據(jù)而不發(fā)送所述視聽數(shù)據(jù)。
      13.根據(jù)權(quán)利要求11的發(fā)送裝置,其中所述發(fā)送單元通過如下操作來發(fā)送所述視聽數(shù)據(jù)和字幕數(shù)據(jù): 按照會(huì)話啟動(dòng)協(xié)議SIP來將所述視聽數(shù)據(jù)和字幕數(shù)據(jù)封裝為SIP數(shù)據(jù)包; 發(fā)送所述SIP數(shù)據(jù)包。
      14.根據(jù)權(quán)利要求11的發(fā)送裝置,其中,所述語音識(shí)別單元通過如下操作來基于所識(shí)別的語音獲得字幕數(shù)據(jù): 基于所識(shí)別的語音獲得與該語音的第一語言對(duì)應(yīng)的第一語言字幕; 將所述第一語言字幕轉(zhuǎn)換為與所述第一語言不同的第二語言對(duì)應(yīng)的第二語言字幕。
      15.一種接收裝置,用于終端設(shè)備,該接收裝置包括: 接收單元,用于接收視聽數(shù)據(jù),該視聽數(shù)據(jù)包括語音數(shù)據(jù); 字幕獲取單元,用于獲取與所述語音數(shù)據(jù)對(duì)應(yīng)的字幕數(shù)據(jù),該字幕數(shù)據(jù)是對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音而獲得的; 處理單元,用于處理所述視聽數(shù)據(jù)和所述字幕數(shù)據(jù),以同步地進(jìn)行所述視聽數(shù)據(jù)的播放和所述字幕數(shù)據(jù)的顯示,從而實(shí)現(xiàn)帶字幕的通話。
      16.根據(jù)權(quán)利要求15的接收裝置,其中,所述接收單元還接收與所述語音數(shù)據(jù)對(duì)應(yīng)的字幕數(shù)據(jù),該字幕數(shù)據(jù)來自發(fā)送裝置或獨(dú)立于發(fā)送裝置和接收裝置的服務(wù)器, 所述字幕獲取單元從所述接收單元獲取所述字幕數(shù)據(jù)。
      17.根據(jù)權(quán)利要求16的接收裝置,其中,當(dāng)接收單元所接收的字幕數(shù)據(jù)來自所述服務(wù)器時(shí),所述接收裝置還包括傳輸條件確定單元,用于確定所述接收裝置所處于的通信網(wǎng)絡(luò)的數(shù)據(jù)傳輸條件是否低于預(yù)設(shè)閾值, 其中,當(dāng)所述數(shù)據(jù)傳輸條件低于預(yù)設(shè)閾值時(shí),所述接收單元僅接收所述字幕數(shù)據(jù)而不接收所述視聽數(shù)據(jù)。
      18.根據(jù)權(quán)利要求15的接收裝置,其中,所述接收裝置還包括語音識(shí)別單元,用于對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù), 所述字幕獲取單元從所述語音識(shí)別單元獲取所述字幕數(shù)據(jù)。
      19.根據(jù)權(quán)利要求18的接收裝置,其中,所述語音識(shí)別單元通過如下操作基于所識(shí)別的語音獲得字幕數(shù)據(jù): 基于所識(shí)別的語音獲得與該語音的第一語言對(duì)應(yīng)的文字;以及 將所述第一語言的文字轉(zhuǎn)換為與所述第一語言不同的第二語言對(duì)應(yīng)的字幕。
      20.根據(jù)權(quán)利要求15的接收裝置,還包括字幕顯示按鍵,用于啟動(dòng)或關(guān)閉所述字幕數(shù)據(jù)的顯示, 其中,當(dāng)接收裝置的用戶按下所述字幕顯示按鍵而選擇關(guān)閉所述字幕數(shù)據(jù)的顯示時(shí),在接收裝置中僅執(zhí)行所述視聽數(shù)據(jù)的播放而不執(zhí)行所述字幕數(shù)據(jù)的顯示。
      21.—種終端設(shè)備,包括根據(jù)權(quán)利要求11的發(fā)送裝置和根據(jù)權(quán)利要求15的接收裝置。
      22.—種語音處理設(shè)備,與多個(gè)源終端設(shè)備和多個(gè)目的終端設(shè)備通信連接,該語音處理設(shè)備包括: 接收單元,用于從所述多個(gè)源終端設(shè)備中的至少一個(gè)源終端設(shè)備接收語音數(shù)據(jù); 語音識(shí)別單元,用于對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別并基于所識(shí)別的語音獲得字幕數(shù)據(jù); 發(fā)送單元,用于將所述字幕數(shù)據(jù)發(fā)送到所述多個(gè)目的終端設(shè)備中的至少一個(gè)目的終端設(shè)備。
      23.根據(jù)權(quán)利要求22的語音處理設(shè)備,其中,所述語音識(shí)別單元基于所識(shí)別的語音獲得與該語音的第一語言對(duì)應(yīng)的第一語言字幕、并且將所述第一語言字幕轉(zhuǎn)換為與所述第一語言不同的第二語言對(duì)應(yīng)的第二語言字幕, 所述發(fā)送單元將所述 第一 語言字幕和第二語言字幕發(fā)送到不同的目的終端設(shè)備。
      【文檔編號(hào)】G10L15/26GK103685985SQ201210345722
      【公開日】2014年3月26日 申請(qǐng)日期:2012年9月17日 優(yōu)先權(quán)日:2012年9月17日
      【發(fā)明者】嚴(yán)小平 申請(qǐng)人:聯(lián)想(北京)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1