專利名稱:電子系統(tǒng)及其嵌入式設(shè)備和中轉(zhuǎn)設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電子技術(shù)領(lǐng)域,特別是涉及嵌入式娛樂產(chǎn)品。
技術(shù)背景
模式識(shí)別技術(shù),指的是對(duì)外部世界某一特定環(huán)境中的客體、過程和現(xiàn)象的識(shí)別功能(包括視覺、聽覺、觸覺、判斷等)進(jìn)行模擬的科學(xué)技術(shù)。近年來,此項(xiàng)技術(shù)在在計(jì)算機(jī)智能領(lǐng)域取得了迅速的發(fā)展,已經(jīng)取得了系統(tǒng)的研究成果。
語音識(shí)別是模式識(shí)別技術(shù)中的一項(xiàng)典型應(yīng)用,它正逐步成為信息技術(shù)中人機(jī)接口 (HCI)的關(guān)鍵技術(shù)。作為一個(gè)新興高技術(shù)產(chǎn)業(yè),語音識(shí)別技術(shù)已經(jīng)有了不少較為成熟的識(shí)別引擎可以利用,中國(guó)科學(xué)院聲學(xué)研究所的中科信利語音平臺(tái)是其中之一。
語言音識(shí)別技術(shù)使得使用者和計(jì)算機(jī)之間能夠進(jìn)行直接的感官交流,因此如果能將其運(yùn)用于娛樂產(chǎn)品,必將前所未有地提升用戶感受,也可以引申出許多新的娛樂運(yùn)用。
第一、目前的模式識(shí)別技術(shù)需要消耗的極大的軟硬件資源首先、其復(fù)雜的浮點(diǎn)運(yùn)算要求有高性能的處理器和容量巨大的內(nèi)存;其次,語音識(shí)別需要較大的比照樣本庫,會(huì)耗費(fèi)相當(dāng)多的存儲(chǔ)空間。因此,此技術(shù)對(duì)運(yùn)行平臺(tái)有著極為苛刻的要求,是以嵌入式設(shè)備為主的數(shù)字娛樂設(shè)備所不能負(fù)擔(dān)的。如何突破軟硬件瓶頸,在嵌入式設(shè)備上運(yùn)用此項(xiàng)技術(shù),是需要嵌入式軟件開發(fā)者面臨的問題。
第二、目前的嵌入式識(shí)別引擎都是基于x86硬件和windows平臺(tái)而開發(fā)的,但嵌入式產(chǎn)品平臺(tái)的架構(gòu)和操作系統(tǒng)則可能千變?nèi)f化。不可能讓單一的語音識(shí)別引擎去遷就各種不同的硬件平臺(tái)。為此如何讓語音識(shí)別引擎能夠適應(yīng)各種不同的嵌入式設(shè)備,使得兩者能夠相對(duì)獨(dú)立,不受對(duì)方的影響,也是嵌入式軟件開發(fā)者面臨的問題。
關(guān)于語音識(shí)別技術(shù)的應(yīng)用,還可以參閱2001年10月03日公開了一種名為“客戶服務(wù)器語音信息傳送系統(tǒng)與方法”的中國(guó)發(fā)明專利申請(qǐng)第00109844. 6號(hào)。所述系統(tǒng)包括至少一個(gè)服務(wù)器站和客戶站;客戶站包括用于接收來自用戶的語音輸入信號(hào)的裝置;和用于將表示所接收的語音的信號(hào)通過公共因特網(wǎng)傳送到服務(wù)器站的裝置;以及服務(wù)器站包括用于接收來自公共因特網(wǎng)的語音等效信號(hào)的裝置;和用于識(shí)別所接收的語音等效信號(hào)的大/巨大詞匯量語音識(shí)別器;客戶站包括本地語音識(shí)別器和語音控制器;語音控制器能將至少部分語音輸入信號(hào)導(dǎo)入本地語音識(shí)別器中,并根據(jù)識(shí)別結(jié)果選擇性地將一部分語音輸入信號(hào)通過公共因特網(wǎng)導(dǎo)入服務(wù)器站中。發(fā)明內(nèi)容
本發(fā)明主要解決的技術(shù)問題是提供一種電子系統(tǒng)及其嵌入式設(shè)備和中轉(zhuǎn)設(shè)備,能夠讓語音識(shí)別技術(shù)輕易地應(yīng)用于嵌入式設(shè)備中,對(duì)嵌入式設(shè)備的要求低,并且可以屏蔽嵌入式設(shè)備和語音識(shí)別服務(wù)器各自的變化,使得通用的語音識(shí)別引擎能夠適用于不同的嵌入式應(yīng)用系統(tǒng)。
為解決上述技術(shù)問題,本發(fā)明采用的一個(gè)技術(shù)方案是提供一種電子系統(tǒng),包括語音采集設(shè)備、嵌入式客戶端、中轉(zhuǎn)設(shè)備以及服務(wù)器;所述語音采集設(shè)備連接所述嵌入式客戶端,所述中轉(zhuǎn)設(shè)備連接在嵌入式客戶端和服務(wù)器之間;其中,所述嵌入式客戶端控制語音采集設(shè)備進(jìn)行語音采集并得到語音數(shù)據(jù),所述中轉(zhuǎn)設(shè)備用于將所述語音數(shù)據(jù)發(fā)送至所述服務(wù)器進(jìn)行語音識(shí)別,并將所述服務(wù)器語音識(shí)別得到的識(shí)別結(jié)果反饋回所述嵌入式客戶端。
其中,所述中轉(zhuǎn)設(shè)備與所述嵌入式客戶端之間采用局域網(wǎng)的TCP/IP連接,所述中轉(zhuǎn)設(shè)備與所述服務(wù)器之間采用局域網(wǎng)的TCP/IP連接。
其中,所述中轉(zhuǎn)設(shè)備是具有獨(dú)立主機(jī)的中轉(zhuǎn)設(shè)備,且包括連接所述獨(dú)立主機(jī)和嵌入式客戶端的網(wǎng)卡。
其中,所述獨(dú)立主機(jī)包括語音識(shí)別引擎接口和初始化語音識(shí)別資源;連接單元, 用于通過所述網(wǎng)卡接收來自嵌入式客戶端的TCP連接請(qǐng)求,并通過所述網(wǎng)卡建立中轉(zhuǎn)設(shè)備與嵌入式客戶端之間的TCP/IP連接;控制包接收單元,用于建立所述TCP/IP連接后,通過所述網(wǎng)卡接收來自嵌入式客戶端的UDP控制包,所述UDP控制包包含采樣率、聲道數(shù)和語音編碼格式,以此請(qǐng)求開始語音識(shí)別;初始化單元,用于在接收開始語音識(shí)別請(qǐng)求后,調(diào)用語音識(shí)別引擎接口,初始化語音識(shí)別資源,并在初始化成功后通過所述網(wǎng)卡回復(fù)對(duì)應(yīng)所述 UDP控制包的通知給嵌入式客戶端設(shè)備;數(shù)據(jù)接收單元,用于在回復(fù)所述通知給嵌入式客戶端設(shè)備后,通過所述網(wǎng)卡接收來自嵌入式客戶端的語音數(shù)據(jù);數(shù)據(jù)發(fā)送單元,用于調(diào)用所述語音識(shí)別引擎接口將語音數(shù)據(jù)傳送給服務(wù)器;結(jié)果返回單元,用于將來自服務(wù)器的識(shí)別結(jié)果通過UDP轉(zhuǎn)發(fā)給嵌入式客戶端。
其中,進(jìn)一步包括格式轉(zhuǎn)化單元,用于在數(shù)據(jù)接收單元接收到語音數(shù)據(jù)后、在數(shù)據(jù)發(fā)送單元發(fā)送語音數(shù)據(jù)前,對(duì)所述語音數(shù)據(jù)進(jìn)行采樣率轉(zhuǎn)換,轉(zhuǎn)換為服務(wù)器可以識(shí)別的語音數(shù)據(jù)格式,交由所述數(shù)據(jù)發(fā)送單元發(fā)送。
本發(fā)明還提供一種嵌入式設(shè)備,包括嵌入式客戶端;所述嵌入式客戶端具有連接外接語音采集設(shè)備的第一接口、以及連接外接中轉(zhuǎn)設(shè)備的第二接口;其中,所述嵌入式客戶端經(jīng)第一接口接收語音采集設(shè)備采集得到的語音數(shù)據(jù),經(jīng)所述第二接口將語音數(shù)據(jù)向外接中轉(zhuǎn)設(shè)備發(fā)送,并經(jīng)所述第二接口接收所述語音數(shù)據(jù)的識(shí)別結(jié)果。
其中,所述嵌入式客戶端的接口采用局域網(wǎng)的TCP/IP連接所述外接中轉(zhuǎn)設(shè)備。
本發(fā)明又提供一種應(yīng)用于嵌入式設(shè)備的中轉(zhuǎn)設(shè)備,包括獨(dú)立主機(jī)、連接所述獨(dú)立主機(jī)和嵌入式客戶端的網(wǎng)卡;其中,所述獨(dú)立主機(jī)通過所述網(wǎng)卡接收來自所述嵌入式客戶端的語音數(shù)據(jù),將語音數(shù)據(jù)發(fā)送至外接服務(wù)器進(jìn)行語音識(shí)別,并將所述服務(wù)器語音識(shí)別得到的識(shí)別結(jié)果反饋回所述嵌入式客戶端。
其中,所述獨(dú)立主機(jī)包括語音識(shí)別引擎接口和初始化語音識(shí)別資源;連接單元, 用于通過所述網(wǎng)卡接收來自嵌入式客戶端的TCP連接請(qǐng)求,并通過所述網(wǎng)卡建立獨(dú)立主機(jī)與嵌入式客戶端之間的TCP/IP連接;控制包接收單元,用于建立所述TCP/IP連接后,通過所述網(wǎng)卡接收來自嵌入式客戶端的UDP控制包,所述UDP控制包包含采樣率、聲道數(shù)和語音編碼格式,以此請(qǐng)求開始語音識(shí)別;初始化單元,用于在接收開始語音識(shí)別請(qǐng)求后,調(diào)用語音識(shí)別引擎接口,初始化語音識(shí)別資源,并在初始化成功后通過所述網(wǎng)卡回復(fù)對(duì)應(yīng)所述 UDP控制包的通知給嵌入式客戶端設(shè)備;數(shù)據(jù)接收單元,用于在回復(fù)所述通知給嵌入式客戶端設(shè)備后,通過所述網(wǎng)卡接收來自嵌入式客戶端的語音數(shù)據(jù);數(shù)據(jù)發(fā)送單元,用于調(diào)用所述語音識(shí)別引擎接口將語音數(shù)據(jù)傳送給服務(wù)器;結(jié)果返回單元,用于將來自服務(wù)器的識(shí)別結(jié)果通過UDP轉(zhuǎn)發(fā)給嵌入式客戶端。
其中,格式轉(zhuǎn)化單元,用于在數(shù)據(jù)接收單元接收到語音數(shù)據(jù)后、在數(shù)據(jù)發(fā)送單元發(fā)送語音數(shù)據(jù)前,對(duì)所述語音數(shù)據(jù)進(jìn)行采樣率轉(zhuǎn)換,轉(zhuǎn)換為服務(wù)器可以識(shí)別的語音數(shù)據(jù)格式, 交由所述數(shù)據(jù)發(fā)送單元發(fā)送。
本發(fā)明的有益效果是區(qū)別于現(xiàn)有技術(shù)電子系統(tǒng)中語音識(shí)別技術(shù)難以應(yīng)用的情況,本發(fā)明能將語音數(shù)據(jù)的采集工作和對(duì)語音數(shù)據(jù)的處理識(shí)別工作從物理上分開成3個(gè)子系統(tǒng)資源較少能力較弱的嵌入式設(shè)備只負(fù)責(zé)采集和發(fā)送數(shù)據(jù)并接收結(jié)果;中轉(zhuǎn)設(shè)備能夠?qū)⒄Z音數(shù)據(jù)傳送到具有語音識(shí)別引擎的服務(wù)器,接收到識(shí)別結(jié)果后回傳給嵌入式設(shè)備;由于識(shí)別引擎安裝在服務(wù)器上,因此有著豐富的軟硬件資源,且在資源不夠的時(shí)候,可以通過增加新的服務(wù)器來解決。語音識(shí)別引擎可以由第三方提供;同時(shí),各個(gè)子系統(tǒng)間只要遵守一定的協(xié)議即可連接,因此可以相對(duì)降低各個(gè)子系統(tǒng)的關(guān)聯(lián)性中轉(zhuǎn)設(shè)備的設(shè)置,可以屏蔽嵌入式前臺(tái)和語音識(shí)別后臺(tái)各自的變化,使得通用的語音識(shí)別引擎能夠適用于不同的嵌入式應(yīng)用系統(tǒng);采用了以上的方案后,嵌入式設(shè)備繞開了資源的瓶頸限制,同時(shí)突破了固定運(yùn)行平臺(tái)的局限,使得原本代價(jià)高昂的語音識(shí)別技術(shù)能夠?qū)嶋H可行地運(yùn)用于嵌入式平臺(tái)上的娛樂設(shè)備。
圖1是本發(fā)明電子系統(tǒng)實(shí)施方式一的原理框圖2是本發(fā)明電子系統(tǒng)實(shí)施方式二的原理框圖3是本發(fā)明電子系統(tǒng)實(shí)施方式三的原理框圖4是本發(fā)明中控制信息通訊包的結(jié)構(gòu)示意圖5是本發(fā)明中數(shù)據(jù)信息通訊包的結(jié)構(gòu)示意圖。
具體實(shí)施方式
參閱圖1,本發(fā)明電子系統(tǒng)實(shí)施方式包括
語音采集設(shè)備(圖未示)、嵌入式客戶端、中轉(zhuǎn)設(shè)備以及服務(wù)器;
所述語音采集設(shè)備連接所述嵌入式客戶端,所述中轉(zhuǎn)設(shè)備連接在嵌入式客戶端和服務(wù)器之間,圖中用嵌入式設(shè)備來代替語音采集設(shè)備和嵌入式客戶端;
其中,所述嵌入式客戶端控制語音采集設(shè)備進(jìn)行語音采集并得到語音數(shù)據(jù),所述中轉(zhuǎn)設(shè)備用于將所述語音數(shù)據(jù)發(fā)送至所述服務(wù)器進(jìn)行語音識(shí)別,并將所述服務(wù)器語音識(shí)別得到的識(shí)別結(jié)果反饋回所述嵌入式客戶端。
本發(fā)明能將語音數(shù)據(jù)的采集工作和對(duì)語音數(shù)據(jù)的處理識(shí)別工作從物理上分開成 3個(gè)子系統(tǒng)資源較少能力較弱的嵌入式設(shè)備只負(fù)責(zé)采集和發(fā)送數(shù)據(jù)并接收結(jié)果;中轉(zhuǎn)設(shè)備能夠?qū)⒄Z音數(shù)據(jù)傳送到具有語音識(shí)別引擎的服務(wù)器,接收到識(shí)別結(jié)果后回傳給嵌入式設(shè)備;由于識(shí)別引擎安裝在服務(wù)器上,因此有著豐富的軟硬件資源,且在資源不夠的時(shí)候,可以通過增加新的服務(wù)器來解決。語音識(shí)別引擎可以由第三方提供;
同時(shí),各個(gè)子系統(tǒng)間只要遵守一定的協(xié)議即可連接,因此可以相對(duì)降低各個(gè)子系統(tǒng)的關(guān)聯(lián)性中轉(zhuǎn)設(shè)備的設(shè)置,可以屏蔽嵌入式前臺(tái)和語音識(shí)別后臺(tái)各自的變化,使得通用的語音識(shí)別引擎能夠適用于不同的嵌入式應(yīng)用系統(tǒng);
采用了以上的方案后,嵌入式設(shè)備繞開了資源的瓶頸限制,同時(shí)突破了固定運(yùn)行平臺(tái)的局限,使得原本代價(jià)高昂的語音識(shí)別技術(shù)能夠?qū)嶋H可行地運(yùn)用于嵌入式平臺(tái)上的娛樂設(shè)備。
在另一個(gè)實(shí)施方式中,所述中轉(zhuǎn)設(shè)備與所述嵌入式客戶端之間采用局域網(wǎng)的TCP/ IP連接,所述中轉(zhuǎn)設(shè)備與所述服務(wù)器之間采用局域網(wǎng)的TCP/IP連接。當(dāng)然,所述中轉(zhuǎn)設(shè)備與所述嵌入式客戶端之間也可以不采用局域網(wǎng)連接,或不采用TCP/IP連接,所有的連接方式都是可以考慮的,比如無線連接方式。
在另一個(gè)實(shí)施方式中,所述中轉(zhuǎn)設(shè)備是具有獨(dú)立主機(jī)的中轉(zhuǎn)設(shè)備,且包括連接所述獨(dú)立主機(jī)和嵌入式客戶端的網(wǎng)卡。當(dāng)然也可以不具有獨(dú)立主機(jī),比如采用與其他應(yīng)用兼容的系統(tǒng)等。
參閱圖2,在另一個(gè)實(shí)施方式中,所述獨(dú)立主機(jī)包括
語音識(shí)別引擎接口和初始化語音識(shí)別資源;
連接單元,用于通過所述網(wǎng)卡接收來自嵌入式客戶端的TCP連接請(qǐng)求,并通過所述網(wǎng)卡建立中轉(zhuǎn)設(shè)備與嵌入式客戶端之間的TCP/IP連接;
控制包接收單元,用于建立所述TCP/IP連接后,通過所述網(wǎng)卡接收來自嵌入式客戶端的UDP控制包,所述UDP控制包包含采樣率、聲道數(shù)和語音編碼格式,以此請(qǐng)求開始語音識(shí)別;
初始化單元,用于在接收開始語音識(shí)別請(qǐng)求后,調(diào)用語音識(shí)別引擎接口,初始化語音識(shí)別資源,并在初始化成功后通過所述網(wǎng)卡回復(fù)對(duì)應(yīng)所述UDP控制包的通知給嵌入式客戶端設(shè)備;
數(shù)據(jù)接收單元,用于在回復(fù)所述通知給嵌入式客戶端設(shè)備后,通過所述網(wǎng)卡接收來自嵌入式客戶端的語音數(shù)據(jù);
數(shù)據(jù)發(fā)送單元,用于調(diào)用所述語音識(shí)別引擎接口將語音數(shù)據(jù)傳送給服務(wù)器;
結(jié)果返回單元,用于將來自服務(wù)器的識(shí)別結(jié)果通過UDP轉(zhuǎn)發(fā)給嵌入式客戶端。
參閱圖3,在另一個(gè)實(shí)施方式中,進(jìn)一步包括格式轉(zhuǎn)化單元,用于在數(shù)據(jù)接收單元接收到語音數(shù)據(jù)后、在數(shù)據(jù)發(fā)送單元發(fā)送語音數(shù)據(jù)前,對(duì)所述語音數(shù)據(jù)進(jìn)行采樣率轉(zhuǎn)換, 轉(zhuǎn)換為服務(wù)器可以識(shí)別的語音數(shù)據(jù)格式,交由所述數(shù)據(jù)發(fā)送單元發(fā)送。經(jīng)數(shù)據(jù)格式轉(zhuǎn)化,使各系統(tǒng)之間的屏蔽效果更好。
還參閱圖1,本發(fā)明還提供一種嵌入式設(shè)備實(shí)施方式,包括
嵌入式客戶端;
所述嵌入式客戶端具有連接外接語音采集設(shè)備如麥克風(fēng)的第一接口(圖未示)、 以及連接外接中轉(zhuǎn)設(shè)備的第二接口(圖未示)比如網(wǎng)卡;
其中,所述嵌入式客戶端經(jīng)第一接口接收語音采集設(shè)備采集得到的語音數(shù)據(jù),經(jīng)所述第二接口將語音數(shù)據(jù)向外接中轉(zhuǎn)設(shè)備發(fā)送,并經(jīng)所述第二接口接收所述語音數(shù)據(jù)的識(shí)別結(jié)果。
上述實(shí)施方式能夠讓語音識(shí)別技術(shù)輕易地應(yīng)用于嵌入式設(shè)備中,對(duì)嵌入式設(shè)備的要求低,并且可以屏蔽嵌入式設(shè)備和語音識(shí)別服務(wù)器各自的變化,使得通用的語音識(shí)別引擎能夠適用于不同的嵌入式應(yīng)用系統(tǒng)。
在另外一個(gè)實(shí)施方式中,所述嵌入式客戶端的接口采用局域網(wǎng)的TCP/IP連接所述外接中轉(zhuǎn)設(shè)備。當(dāng)然也可以采用城域網(wǎng)、互聯(lián)網(wǎng)等連接方式。
還參閱圖1,本發(fā)明又提供一種應(yīng)用于嵌入式設(shè)備的中轉(zhuǎn)設(shè)備實(shí)施方式,包括
獨(dú)立主機(jī)、連接所述獨(dú)立主機(jī)(圖未示)和嵌入式客戶端的網(wǎng)卡(圖未示);
其中,所述獨(dú)立主機(jī)通過所述網(wǎng)卡接收來自所述嵌入式客戶端的語音數(shù)據(jù),將語音數(shù)據(jù)發(fā)送至外接服務(wù)器進(jìn)行語音識(shí)別,并將所述服務(wù)器語音識(shí)別得到的識(shí)別結(jié)果反饋回所述嵌入式客戶端。
上述中轉(zhuǎn)設(shè)備,使語音識(shí)別技術(shù)應(yīng)用于嵌入式設(shè)備時(shí),可以屏蔽嵌入式設(shè)備和語音識(shí)別服務(wù)器各自的變化,使得通用的語音識(shí)別引擎能夠適用于不同的嵌入式應(yīng)用系統(tǒng)。
嵌入式設(shè)備和具體的識(shí)別引擎之間使用中轉(zhuǎn)設(shè)備如中轉(zhuǎn)網(wǎng)關(guān)接口和調(diào)度,使得嵌入式設(shè)備的功能和使用具體的識(shí)別引擎(服務(wù)器)無關(guān),可以方便更換。
還參閱圖2,在另外一個(gè)實(shí)施方式中,所述獨(dú)立主機(jī)還進(jìn)一步包括
語音識(shí)別引擎接口和初始化語音識(shí)別資源;
連接單元,用于通過所述網(wǎng)卡接收來自嵌入式客戶端的TCP連接請(qǐng)求,并通過所述網(wǎng)卡建立獨(dú)立主機(jī)與嵌入式客戶端之間的TCP/IP連接;
控制包接收單元,用于建立所述TCP/IP連接后,通過所述網(wǎng)卡接收來自嵌入式客戶端的UDP控制包,所述UDP控制包包含采樣率、聲道數(shù)和語音編碼格式,以此請(qǐng)求開始語音識(shí)別;
初始化單元,用于在接收開始語音識(shí)別請(qǐng)求后,調(diào)用語音識(shí)別引擎接口,初始化語音識(shí)別資源,并在初始化成功后通過所述網(wǎng)卡回復(fù)對(duì)應(yīng)所述UDP控制包的通知給嵌入式客戶端設(shè)備;
數(shù)據(jù)接收單元,用于在回復(fù)所述通知給嵌入式客戶端設(shè)備后,通過所述網(wǎng)卡接收來自嵌入式客戶端的語音數(shù)據(jù);
數(shù)據(jù)發(fā)送單元,用于調(diào)用所述語音識(shí)別引擎接口將語音數(shù)據(jù)傳送給服務(wù)器;
結(jié)果返回單元,用于將來自服務(wù)器的識(shí)別結(jié)果通過UDP轉(zhuǎn)發(fā)給嵌入式客戶端。
還參閱圖3,另外,還可以進(jìn)一步包括
格式轉(zhuǎn)化單元,用于在數(shù)據(jù)接收單元接收到語音數(shù)據(jù)后、在數(shù)據(jù)發(fā)送單元發(fā)送語音數(shù)據(jù)前,對(duì)所述語音數(shù)據(jù)進(jìn)行采樣率轉(zhuǎn)換,轉(zhuǎn)換為服務(wù)器可以識(shí)別的語音數(shù)據(jù)格式,交由所述數(shù)據(jù)發(fā)送單元發(fā)送。
以上各子系統(tǒng)的具體運(yùn)作過程可以如下
1)嵌入式設(shè)備端按照制定協(xié)議與中轉(zhuǎn)設(shè)備建立會(huì)話;
2)嵌入式設(shè)備端負(fù)責(zé)從麥克風(fēng)采集音頻數(shù)據(jù);
一個(gè)會(huì)話由一個(gè)采用UDP連接的控制通訊和采用TCP的純數(shù)據(jù)通訊實(shí)現(xiàn);TCP的數(shù)據(jù)連接保證了數(shù)據(jù)傳輸?shù)目煽啃裕瑫r(shí)純數(shù)據(jù)包保證在即使發(fā)生包粘連的時(shí)候,也不會(huì)影響數(shù)據(jù)的準(zhǔn)確性;UDP的控制連接可以減少連接的數(shù)量,減輕并發(fā)時(shí)中轉(zhuǎn)設(shè)備的負(fù)載,同時(shí),即使局域網(wǎng)內(nèi)的UDP通信經(jīng)測(cè)試基本是穩(wěn)定可靠的;
其中,對(duì)于分發(fā)中轉(zhuǎn)設(shè)備端
1)中轉(zhuǎn)設(shè)備負(fù)責(zé)接收嵌入式設(shè)備的連接請(qǐng)求,管理并轉(zhuǎn)發(fā)所有會(huì)話;
2)接收嵌入式設(shè)備發(fā)來的語音數(shù)據(jù)后,進(jìn)行一次重采樣,將pcm數(shù)據(jù)轉(zhuǎn)換成符合語音識(shí)別引擎(服務(wù)器)要求的數(shù)據(jù);8
3)將重采樣后的數(shù)據(jù),通過識(shí)別接口發(fā)往識(shí)別服務(wù)器集群,并搜集他們的識(shí)別結(jié)果反饋;
4)將識(shí)別結(jié)果發(fā)還給嵌入式設(shè)備;
其中,針對(duì)識(shí)別服務(wù)器集群和識(shí)別引擎
1)真正耗費(fèi)資源的工作全部在識(shí)別服務(wù)器集群中的識(shí)別引擎上完成,這個(gè)服務(wù)器集群對(duì)嵌入式設(shè)備是透明的;
2)當(dāng)識(shí)別技術(shù)更新或者服務(wù)器負(fù)載不夠時(shí),僅需要維護(hù)此服務(wù)器集群即可,不會(huì)牽扯前端的改動(dòng)。
其中,對(duì)于中轉(zhuǎn)設(shè)備而言
一、物理連接
1)中轉(zhuǎn)設(shè)備(中轉(zhuǎn)網(wǎng)關(guān))和嵌入式客戶端處在統(tǒng)一局域網(wǎng)中。即在物理上,中轉(zhuǎn)設(shè)備可以是一臺(tái)獨(dú)立主機(jī),且可以通過一張網(wǎng)卡和許多嵌入式客戶端相連于一個(gè)局域網(wǎng)中;
2)中轉(zhuǎn)設(shè)備的另一端,應(yīng)該以某種方式和識(shí)別服務(wù)器的集群連接,這取決于所采用的語音識(shí)別引擎的設(shè)計(jì),和這種應(yīng)用方式本身無關(guān),而這一點(diǎn)正式設(shè)立中轉(zhuǎn)設(shè)備的目的之一,即屏蔽嵌入式設(shè)備和具體采用的第三方語音識(shí)別引擎間依賴關(guān)系,使之各自的變化都不會(huì)影響到另一端;
3)中轉(zhuǎn)設(shè)備和嵌入式客戶端的通信采用局域網(wǎng)的TCP/IP連接,能夠保證足夠的傳輸速率;通信的協(xié)議是視易自定義的適合于局域網(wǎng)特點(diǎn)的通信協(xié)議,即采用UDP控制包和TCP連接的數(shù)據(jù)包組合的協(xié)議。在一個(gè)具體實(shí)施方式
中,所述協(xié)議詳情可以參考如下;
一、通訊接口定義
1、系統(tǒng)通訊模式
(1)控制信息通訊包UDP ;
(2)數(shù)據(jù)信息通訊包TCP ;
2、數(shù)據(jù)包大小最大不超過4096字節(jié);
3、端口號(hào)
(1) UDP控制信息通訊端口
發(fā)送端口10010;
接收端口10011;
(2) TCP數(shù)據(jù)信息通訊端口 (可分別對(duì)應(yīng)一個(gè)音頻輸入流)
通道一端口10020;
通道二端口10022;
4、適用系統(tǒng)應(yīng)用中科信利語音平臺(tái)的系統(tǒng);
二、通訊方式簡(jiǎn)要說明
1、控制信息通訊
(1)控制信息指的是申請(qǐng)語音傳輸開始、申請(qǐng)語音傳輸結(jié)束、結(jié)果反饋、后臺(tái)狀態(tài)通知(檢測(cè)到語音開始、結(jié)束)、后臺(tái)強(qiáng)制終止,等等;
(2)控制信息通訊采用UDP方式,保證數(shù)據(jù)包邊界獨(dú)立;
2、數(shù)據(jù)信息通訊
(1)數(shù)據(jù)信息指的是采集的音頻數(shù)據(jù)流;
(2)數(shù)據(jù)信息通訊采用TCP方式,發(fā)送數(shù)據(jù)為裸數(shù)據(jù),無封裝結(jié)構(gòu),在保證數(shù)據(jù)可靠傳輸?shù)那闆r下,避免數(shù)據(jù)粘連造成的影響;
(3)每個(gè)音頻數(shù)據(jù)流對(duì)應(yīng)一個(gè)TCP連接;
三、協(xié)議格式圖
在語音平臺(tái)通信中,采用以下兩種格式協(xié)議
1、控制信息通訊包,如圖4
2、數(shù)據(jù)信息通訊包,如圖5
四、協(xié)議格式簡(jiǎn)要說明
(一)、控制信息通訊包
協(xié)議包括包頭和正文兩部分,其中包頭部分采用固定長(zhǎng)度32字節(jié),正文部分的長(zhǎng)度在包頭的“正文長(zhǎng)度”字段中予以給出。
0、通訊方式UDP
1、下面對(duì)包頭部分各字段作一簡(jiǎn)單說明
權(quán)利要求
1.一種電子系統(tǒng),其特征在于,包括語音采集設(shè)備、嵌入式客戶端、中轉(zhuǎn)設(shè)備以及服務(wù)器;所述語音采集設(shè)備連接所述嵌入式客戶端,所述中轉(zhuǎn)設(shè)備連接在嵌入式客戶端和服務(wù)器之間;其中,所述嵌入式客戶端控制語音采集設(shè)備進(jìn)行語音采集并得到語音數(shù)據(jù),所述中轉(zhuǎn)設(shè)備用于將所述語音數(shù)據(jù)發(fā)送至所述服務(wù)器進(jìn)行語音識(shí)別,并將所述服務(wù)器語音識(shí)別得到的識(shí)別結(jié)果反饋回所述嵌入式客戶端。
2.根據(jù)權(quán)利要求1所述的電子系統(tǒng),其特征在于所述中轉(zhuǎn)設(shè)備與所述嵌入式客戶端之間采用局域網(wǎng)的TCP/IP連接,所述中轉(zhuǎn)設(shè)備與所述服務(wù)器之間采用局域網(wǎng)的TCP/IP連接。
3.根據(jù)權(quán)利要求2所述的電子系統(tǒng),其特征在于所述中轉(zhuǎn)設(shè)備是具有獨(dú)立主機(jī)的中轉(zhuǎn)設(shè)備,且包括連接所述獨(dú)立主機(jī)和嵌入式客戶端的網(wǎng)卡。
4.根據(jù)權(quán)利要求3所述的電子系統(tǒng),其特征在于 所述獨(dú)立主機(jī)包括語音識(shí)別引擎接口和初始化語音識(shí)別資源;連接單元,用于通過所述網(wǎng)卡接收來自嵌入式客戶端的TCP連接請(qǐng)求,并通過所述網(wǎng)卡建立中轉(zhuǎn)設(shè)備與嵌入式客戶端之間的TCP/IP連接;控制包接收單元,用于建立所述TCP/IP連接后,通過所述網(wǎng)卡接收來自嵌入式客戶端的UDP控制包,所述UDP控制包包含采樣率、聲道數(shù)和語音編碼格式,以此請(qǐng)求開始語音識(shí)別;初始化單元,用于在接收開始語音識(shí)別請(qǐng)求后,調(diào)用語音識(shí)別引擎接口,初始化語音識(shí)別資源,并在初始化成功后通過所述網(wǎng)卡回復(fù)對(duì)應(yīng)所述UDP控制包的通知給嵌入式客戶端設(shè)備;數(shù)據(jù)接收單元,用于在回復(fù)所述通知給嵌入式客戶端設(shè)備后,通過所述網(wǎng)卡接收來自嵌入式客戶端的語音數(shù)據(jù);數(shù)據(jù)發(fā)送單元,用于調(diào)用所述語音識(shí)別引擎接口將語音數(shù)據(jù)傳送給服務(wù)器; 結(jié)果返回單元,用于將來自服務(wù)器的識(shí)別結(jié)果通過UDP轉(zhuǎn)發(fā)給嵌入式客戶端。
5.根據(jù)權(quán)利要求4所述的電子系統(tǒng),其特征在于,進(jìn)一步包括格式轉(zhuǎn)化單元,用于在數(shù)據(jù)接收單元接收到語音數(shù)據(jù)后、在數(shù)據(jù)發(fā)送單元發(fā)送語音數(shù)據(jù)前,對(duì)所述語音數(shù)據(jù)進(jìn)行采樣率轉(zhuǎn)換,轉(zhuǎn)換為服務(wù)器可以識(shí)別的語音數(shù)據(jù)格式,交由所述數(shù)據(jù)發(fā)送單元發(fā)送。
6.一種嵌入式設(shè)備,其特征在于,包括 嵌入式客戶端;所述嵌入式客戶端具有連接外接語音采集設(shè)備的第一接口、以及連接外接中轉(zhuǎn)設(shè)備的第二接口 ;其中,所述嵌入式客戶端經(jīng)第一接口接收語音采集設(shè)備采集得到的語音數(shù)據(jù),經(jīng)所述第二接口將語音數(shù)據(jù)向外接中轉(zhuǎn)設(shè)備發(fā)送,并經(jīng)所述第二接口接收所述語音數(shù)據(jù)的識(shí)別結(jié)^ ο
7.根據(jù)權(quán)利要求6所述的設(shè)備,其特征在于所述嵌入式客戶端的接口采用局域網(wǎng)的TCP/IP連接所述外接中轉(zhuǎn)設(shè)備。
8.一種應(yīng)用于嵌入式設(shè)備的中轉(zhuǎn)設(shè)備,其特征在于,包括獨(dú)立主機(jī)、連接所述獨(dú)立主機(jī)和嵌入式客戶端的網(wǎng)卡;其中,所述獨(dú)立主機(jī)通過所述網(wǎng)卡接收來自所述嵌入式客戶端的語音數(shù)據(jù),將語音數(shù)據(jù)發(fā)送至外接服務(wù)器進(jìn)行語音識(shí)別,并將所述服務(wù)器語音識(shí)別得到的識(shí)別結(jié)果反饋回所述嵌入式客戶端。
9.根據(jù)權(quán)利要求8所述的設(shè)備,其特征在于,所述獨(dú)立主機(jī)包括語音識(shí)別引擎接口和初始化語音識(shí)別資源;連接單元,用于通過所述網(wǎng)卡接收來自嵌入式客戶端的TCP連接請(qǐng)求,并通過所述網(wǎng)卡建立獨(dú)立主機(jī)與嵌入式客戶端之間的TCP/IP連接;控制包接收單元,用于建立所述TCP/IP連接后,通過所述網(wǎng)卡接收來自嵌入式客戶端的UDP控制包,所述UDP控制包包含采樣率、聲道數(shù)和語音編碼格式,以此請(qǐng)求開始語音識(shí)別;初始化單元,用于在接收開始語音識(shí)別請(qǐng)求后,調(diào)用語音識(shí)別引擎接口,初始化語音識(shí)別資源,并在初始化成功后通過所述網(wǎng)卡回復(fù)對(duì)應(yīng)所述UDP控制包的通知給嵌入式客戶端設(shè)備;數(shù)據(jù)接收單元,用于在回復(fù)所述通知給嵌入式客戶端設(shè)備后,通過所述網(wǎng)卡接收來自嵌入式客戶端的語音數(shù)據(jù);數(shù)據(jù)發(fā)送單元,用于調(diào)用所述語音識(shí)別引擎接口將語音數(shù)據(jù)傳送給服務(wù)器;結(jié)果返回單元,用于將來自服務(wù)器的識(shí)別結(jié)果通過UDP轉(zhuǎn)發(fā)給嵌入式客戶端。
10.根據(jù)權(quán)利要求9所述的設(shè)備,其特征在于,進(jìn)一步包括格式轉(zhuǎn)化單元,用于在數(shù)據(jù)接收單元接收到語音數(shù)據(jù)后、在數(shù)據(jù)發(fā)送單元發(fā)送語音數(shù)據(jù)前,對(duì)所述語音數(shù)據(jù)進(jìn)行采樣率轉(zhuǎn)換,轉(zhuǎn)換為服務(wù)器可以識(shí)別的語音數(shù)據(jù)格式,交由所述數(shù)據(jù)發(fā)送單元發(fā)送。
全文摘要
本發(fā)明公開了一種電子系統(tǒng)及其嵌入式設(shè)備和中轉(zhuǎn)設(shè)備。所述系統(tǒng)包括語音采集設(shè)備、嵌入式客戶端、中轉(zhuǎn)設(shè)備以及服務(wù)器;所述語音采集設(shè)備連接所述嵌入式客戶端,所述中轉(zhuǎn)設(shè)備連接在嵌入式客戶端和服務(wù)器之間;其中,所述嵌入式客戶端控制語音采集設(shè)備進(jìn)行語音采集并得到語音數(shù)據(jù),所述中轉(zhuǎn)設(shè)備用于將所述語音數(shù)據(jù)發(fā)送至所述服務(wù)器進(jìn)行語音識(shí)別,并將所述服務(wù)器語音識(shí)別得到的識(shí)別結(jié)果反饋回所述嵌入式客戶端。本發(fā)明能夠讓語音識(shí)別技術(shù)輕易地應(yīng)用于嵌入式設(shè)備中,對(duì)嵌入式設(shè)備的要求低,并且可以屏蔽嵌入式設(shè)備和語音識(shí)別服務(wù)器各自的變化,使得通用的語音識(shí)別引擎能夠適用于不同的嵌入式應(yīng)用系統(tǒng)。
文檔編號(hào)G10L15/00GK102546542SQ201010596778
公開日2012年7月4日 申請(qǐng)日期2010年12月20日 優(yōu)先權(quán)日2010年12月20日
發(fā)明者馮銳, 盧廉瑾, 郭峰 申請(qǐng)人:福建星網(wǎng)視易信息系統(tǒng)有限公司