專利名稱:融合通信中智能語音交互系統(tǒng)及其實現(xiàn)方法
技術(shù)領(lǐng)域:
發(fā)明涉及一種屬于通信技術(shù)領(lǐng)域,涉及一種模擬電話與服務(wù)器終端實現(xiàn)的融合通
信中智能語音交互系統(tǒng)及其實現(xiàn)方法。
背景技術(shù):
傳統(tǒng)的融合通信中,終端一般是完成通信的業(yè)務(wù),起的是一個模擬電話的作用。在 此基礎(chǔ)上,需要集成一些增值業(yè)務(wù),達到融臺通信的業(yè)務(wù)需求。但是,由于終端的通信處理 一般用處理數(shù)據(jù)能力較低的嵌入式設(shè)備,因此終端對語音的處理能力不足, 一般僅僅能完 成普通的語音錄制功能。而由于終端設(shè)備的存儲能力也有限,僅能完成較小語音文件的存 儲。終端設(shè)備在處理和存儲數(shù)據(jù)能力的限制,使用戶無法與終端進行語音的交互。在融合 通信中,為了方便用戶的使用,用過語音與機器的交互是很有必要的。終端設(shè)備功能,使融 合通信的優(yōu)勢無法發(fā)揮。而如果采用處理能力較強的終端設(shè)備,會需要很高的成本。
發(fā)明內(nèi)容
本發(fā)明目的是針對現(xiàn)有技術(shù)存在的缺陷提供一種融合通信中智能語音交互系統(tǒng) 及其實現(xiàn)方法。 本發(fā)明為實現(xiàn)上述目的,采用如下技術(shù)方案 本發(fā)明融合通信中智能語音交互系統(tǒng),其特征在于包括眾多個智能終端、眾多個 語音處理進程單元、一個語音服務(wù)器和一個計算機,其中語音處理進程單元都包括前端語 音采集裝置、實時傳輸模塊、語音合成模塊和語音識別模塊,每個智能終端分別串接語音處 理進程單元后與語音服務(wù)器通信,前端語音采集裝置依次串接語音合成模塊、語音識別模 塊后與語音服務(wù)器通信,前端語音采集裝置的輸出端串接實時傳輸模塊后接語音服務(wù)器的 輸入端,每個智能終端的控制信號輸入端分別接計算機的控制端。 所述的融合通信中智能語音交互系統(tǒng),其特征在于所述前端語音采集裝置包括 CCM模塊、微處理器和緩存器,前端語音采集裝置和緩存器分別與微處理器雙向通信,所述 微處理器接實時傳輸模塊。 所述的融合通信中智能語音交互系統(tǒng),其特征在于所述微處理器為DSP或混頻器 mixer。 所述的融合通信中智能語音交互系統(tǒng),其特征在于所述語音合成模塊由文本分析 模塊、韻律生成模塊和合成語音模塊依次串接構(gòu)成。 所述的融合通信中智能語音交互系統(tǒng)的實現(xiàn)方法,其特征在于包括如下步驟
a)前端語音采集裝置通過智能終端采集客戶的語音信號,智能終端開始錄制音 頻; b)智能終端向服務(wù)器請求連接; c)若請求響應(yīng),則建立起客戶端與服務(wù)器之間的連接,否則智能終端繼續(xù)存儲,并 繼續(xù)向語音服務(wù)器發(fā)出請求;
d)在建立的連接上傳輸數(shù)據(jù); e)服務(wù)器按照語音數(shù)據(jù)來源和數(shù)據(jù)類型,對其進行分類存儲;
f)完成客戶端與服務(wù)器的傳輸,關(guān)閉此連接; g)客戶端向服務(wù)器申請語音合成,若服務(wù)器無響應(yīng),擇返回步驟g,重新向服務(wù)器 發(fā)出請求,若服務(wù)器響應(yīng),則建立起一條與客戶端的數(shù)據(jù)連接;
h)客戶端將數(shù)據(jù)上傳至服務(wù)器; i)服務(wù)器調(diào)用語音合成引擎,將文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù),并將生成的語音文件 轉(zhuǎn)存至/tmp/audio目錄下; j)在步驟g建立的連接上,將音頻文件回傳給智能終端;
k)話機終端實時播放音頻; 1)客戶端向服務(wù)器申請語音撥號,若服務(wù)器無響應(yīng),擇返回步驟l,重新向服務(wù)器 發(fā)出請求,或直接轉(zhuǎn)手動撥號;若服務(wù)器響應(yīng),則建立起一條與客戶端的數(shù)據(jù)連接;
m)客戶端采集錄音數(shù)據(jù),在語音撥號中是對數(shù)字序列進行錄制的,將其錄制好后, 以pcm文件保存; n)錄制完畢后,將其發(fā)送至服務(wù)器; n)服務(wù)器調(diào)用語音識別引擎,對傳輸過的音頻文件進行解析;
n)將解析后的數(shù)字信息以文本形式回發(fā)給智能終端。 本發(fā)明可以實現(xiàn)多個終端與一個語音服務(wù)器的小型交互系統(tǒng)。終端本身具有的錄 音和放音的功能,可以良好的錄制音頻文件和播放音頻文件。而服務(wù)器較強的數(shù)據(jù)能力又 保證了具體的語音處理可以進行展開,大大豐富了融合通信終端的功能,使終端滿足了融 合通信終端的一般性需求。 該方案的優(yōu)點在于,以較低的成本實現(xiàn)了較多的功能,系統(tǒng)的實現(xiàn)并不復(fù)雜,而且 該發(fā)明具有較強的魯棒性。 該系統(tǒng),可運用于家用或中小型企業(yè),本發(fā)明的設(shè)計也有利于客戶增值功能的集 成。
圖1 : (a)系統(tǒng)整體結(jié)構(gòu)圖,(b)前端語音采集裝置結(jié)構(gòu)圖,(c)每個智能終端的結(jié) 構(gòu)圖。
圖2 :錄音與播放聲音的過程圖。
圖3:實時傳輸流程圖。
圖4 :語音合成模塊流程圖。
圖5 :語音識別模塊流程圖。
具體實施例方式
下面結(jié)合附圖對發(fā)明的技術(shù)方案進行詳細說明 如圖1所示,融合通信中智能語音交互系統(tǒng),其特征在于包括眾多個智能終端、眾 多個語音處理進程單元、一個語音服務(wù)器和一個計算機,其中語音處理進程單元都包括前 端語音采集裝置、實時傳輸模塊、語音合成模塊和語音識別模塊,每個智能終端分別串接語音處理進程單元后與語音服務(wù)器通信,前端語音采集裝置依次串接語音合成模塊、語音識 別模塊后與語音服務(wù)器通信,前端語音采集裝置的輸出端串接實時傳輸模塊后接語音服務(wù) 器的輸入端,每個智能終端的控制信號輸入端分別接計算機的控制端。 所述的融合通信中智能語音交互系統(tǒng),其特征在于所述前端語音采集裝置包括 CCM模塊、微處理器和緩存器,前端語音采集裝置和緩存器分別與微處理器雙向通信,所述 微處理器接實時傳輸模塊。 本發(fā)明通過以下技術(shù)實現(xiàn)在整個內(nèi)部通信系統(tǒng)中,架構(gòu)一臺專業(yè)的語音服務(wù)器, 對多個客戶端的請求進行響應(yīng)。客戶端通過向語音服務(wù)器發(fā)送數(shù)據(jù),由語音服務(wù)器對數(shù)據(jù) 進行處理,處理完畢后,將數(shù)據(jù)返回給客戶端。 通過這種架構(gòu),解決了客戶端本身處理和存儲數(shù)據(jù)能力的不足,而又很好的利用
的內(nèi)部網(wǎng)絡(luò)有足夠帶寬的優(yōu)點,并能在此基礎(chǔ)上靈活的集成各種語音的業(yè)務(wù)。而終端只需
要擁有基本的通信、錄音和播放音頻的作用即可。服務(wù)器可選用一般的PC機,安裝Linux
操作系統(tǒng),配置以speech公司的語音庫軟件,包含語音合成和語音識別的功能。 首先,終端采集音頻數(shù)據(jù),進行錄音。終端是基于嵌入式設(shè)備的,采用uCLi皿x操
作系統(tǒng),使用的常見的語音庫是OSS開發(fā)語音庫。錄音的同時,實時將錄音的內(nèi)容發(fā)至服務(wù)
器,達到實時存儲的作用,解決了終端錄音能力的不足,可以實現(xiàn)無時限的錄音。 其次,終端將文本信息發(fā)至服務(wù)器,由服務(wù)器將文本信息轉(zhuǎn)換為音頻信息,實現(xiàn)
Text-to-speech的業(yè)務(wù)。終端上存的文本文件,通過網(wǎng)絡(luò)發(fā)給服務(wù)器,服務(wù)器接收到文本文
件后,調(diào)用相關(guān)的音頻庫接口 ,將其轉(zhuǎn)換為音頻文件。 由于現(xiàn)行網(wǎng)絡(luò)上,通用是mp3格式的音樂,因此可以涉及mp3至ljpcm的文件格式的 轉(zhuǎn)換。該部分的轉(zhuǎn)換,可在服務(wù)器上轉(zhuǎn)換,服務(wù)器上有現(xiàn)成的mp3topcm的轉(zhuǎn)換音頻接口程 序,轉(zhuǎn)換完成后,再將其返回給客戶機。 本發(fā)明還提供了終端語音撥號的功能。用戶在終端錄制一段數(shù)字序列的音頻后,
將音頻發(fā)送至服務(wù)器,服務(wù)器對該音頻進行解析,將解析出來的數(shù)字序列返回給終端后,終
端即可對此播放。
具體步驟如下 1)前端語音采集 終端采用嵌入式的設(shè)備,使用ucLi皿x系統(tǒng),使用0SS音頻接口,對聲音進行錄制 與播放。此終端設(shè)備擁有4M的Flash空間和16M的Sdram空間。通常將終端常用的鈴音 文件與語音文件存至Flash中。而在Sdram中,開辟一個緩存空間,將正在錄制和播放的音 頻文件以流媒體形式放置其中。通過軟件編程,在錄音時,選擇定時將Sdram緩存中的音頻 數(shù)據(jù)轉(zhuǎn)發(fā)至服務(wù)器,在播放音頻文件時,選擇定時從服務(wù)器上下載音頻文件。在本發(fā)明中, 使用ARM7芯片,在錄音時使用OSS音頻編程接口。在Li皿x下,音頻接口編程實際上就是 一組音頻設(shè)備文件,通過對文件的讀寫控制操作,就相當于對音頻接口進行了操作。在完成 錄音和播放的功能時,主要用到了如下的設(shè)備mixer (混頻器),對應(yīng)于Li皿x下的文件是 /dev/mixer。 本發(fā)明在錄制音頻的時候,編程是直接和聲卡相關(guān)的。在Li皿x系統(tǒng)下,是把聲卡 設(shè)備當作文件來處理的。具體錄音與播放聲音的過程可由圖2所示。
首先,獲得對聲卡的訪問權(quán),通過open函數(shù),獲得對聲卡的控制
int open (const char氺pathn咖e, int flags, int mode); —般控制音頻的設(shè)備為DSP或Mixer,因此在函數(shù)接口調(diào)用,可以選擇/dev/dsp或
/dev/mixer作為pathname參數(shù)。 錄音的時候,使用對聲卡read調(diào)用 int read(int fd, char氺buf, size_t count); 可在sdram上開設(shè)buf的大小, 一般設(shè)置為4096字節(jié)。 播放音頻的時候,使用對聲卡的write操作。 size_t write (int fd, const char樸uf, size_t count); buf的大小同read的buf設(shè)置。 錄音完畢后,用close關(guān)閉聲卡硬件資源 在本發(fā)明中,采用的終端的文件格式為pcm格式。PCM文件是經(jīng)由模擬音頻信號經(jīng) 模數(shù) 轉(zhuǎn)換(A/D變換)直接形成的二進制序列,該文件沒有附加的文件頭和文件結(jié)束標
志o 在本發(fā)明中,采用兩種格式的PCM,如下表所示。 表l PCM數(shù)據(jù)的格式
樣本大小數(shù)據(jù)格式最大值最小值
8位PCMunsigned char2550
16位PCMint32767-32767 具體參數(shù)為采樣率/sample rate :8KHz ;量化位數(shù)8bit ;單聲道m(xù)ono ;采用的 數(shù)據(jù)存儲方式Unsigned char。 文件大小的計算文件大小"采樣率*量化位數(shù)*聲道數(shù)/8。因此對于一個lmin 的錄音文件,它所需要的存儲空間大約為480Kb,終端的Sdram可以滿足一次簡單通話的錄 音需求。但是Sdram掉電后,其中的數(shù)據(jù)就會丟失,因此在話機的處理過程中僅將Sdram作 為存儲的臨時媒質(zhì)。 具體可以選擇表中的兩種PCM存儲格式。若用戶對音頻質(zhì)量要求不高或者網(wǎng)絡(luò)帶 寬不夠時,可以選擇使用8位PCM的格式;而當用戶對音頻質(zhì)量要求較高或者網(wǎng)絡(luò)帶寬足夠 時,可以選擇16位PCM的格式。
2)實時傳輸 為了解決本地Sdram對存儲大容量音頻文件的不足,以及掉電易失等特點,因此 為了能夠穩(wěn)定的存儲音頻文件,需將其以網(wǎng)絡(luò)方式傳至服務(wù)器,由服務(wù)器存儲,而當客戶端 終端需要用該相關(guān)的音頻文件時,通過向服務(wù)器發(fā)送請求,服務(wù)器將文件發(fā)送至客戶端,具 體實現(xiàn)方式采用HTTP傳輸方式。 服務(wù)器架設(shè)HTTP文件服務(wù)器,分別對文件的類型按照語音和文本分類,分別放在 /tmp/text和/tmp/audio目錄中。當客戶端和服務(wù)器進行交互的時候,按照文件類型,分別對上述2個目錄進行交互。 當終端向服務(wù)器發(fā)出傳輸文件的響應(yīng)后,服務(wù)器與終端之間建立起一條連接。終 端可以實時的從服務(wù)器收發(fā)音頻文件,由于PCM是流媒體形式的,因此可以實時錄制和播 放音頻。 如圖3所示,具體實施步驟如下。 St印l :終端開始錄制音頻,并將錄制的音頻文件暫時緩存在sdram中。
St印2 :向語音服務(wù)器發(fā)出請求,終端向服務(wù)器請求連接。 St印3 :若請求響應(yīng),則建立起客戶端與服務(wù)器之間的連接。否則客戶端繼續(xù)存儲, 并繼續(xù)將語音服務(wù)器發(fā)出請求。
St印4 :在建立的連接上傳輸數(shù)據(jù)。傳輸分上傳和下載。文件內(nèi)部有一個文件偏移
量,通過軟件編程控制偏移量的位置,和文件end處的位置,保證文件的實時傳輸。 St印5 :服務(wù)器按照語音數(shù)據(jù)來源和數(shù)據(jù)類型,對其進行分類,按分類存儲,依次放
在/tmp/text或/tmp/audio中。終端也按照類似規(guī)則,分別存儲文件。 St印6 :完成客戶端與服務(wù)器的傳輸,關(guān)閉此連接。 3)語音合成 在本發(fā)明中,語音合成技術(shù)主要用于將客戶端的文本轉(zhuǎn)換成語音文件,以供在客 戶端播放。 客戶端的短消息模塊收到了短消息,客戶可以通過語音合成的功能將其播放出
來,這樣,客戶就可以不用去查看短消息的內(nèi)容,而可以直接聽到短消息的內(nèi)容。 語音合成系統(tǒng)根據(jù)輸入的文本合成出對應(yīng)需要播放的pcm文件。
輸入文本 輸出pcm文件(或數(shù)據(jù)流) 實現(xiàn)途徑語音合成中,主要用到了 TTS技術(shù)(Text-to-Speech) 。 TTS是將文本轉(zhuǎn)
換為自然語音流的技術(shù),它要求實時處理并且處理后的數(shù)據(jù)能易于被人理解。 語音合成系統(tǒng)主要包括3部分文本分析模塊、韻律生成模塊和合成語音模塊,其
中,合成語音模塊是最基本、最重要的模塊。 在本發(fā)明中,使用speech公司的語音庫,包含TTS引擎庫的功能。(如圖4所示)
具體步驟如下 St印l :客戶端向服務(wù)器申請語音合成,若服務(wù)器無響應(yīng),擇返回St印l,重新向服 務(wù)器發(fā)出請求。若服務(wù)器響應(yīng),會建立起一條與客戶端的數(shù)據(jù)連接。
St印2 :客戶端將數(shù)據(jù)上傳至服務(wù)器的/tmp/text中。 St印3:服務(wù)器調(diào)用語音合成引擎,將文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù),并將生成的語音 文件轉(zhuǎn)存至/tmp/audio目錄下。 St印4 :在之前建立的連接上,將音頻文件回傳給話機終端。
St印5 :話機終端實時播放音頻。
4)語音識別 為了使客戶端更為簡便的智能終端,通過語音識別的技術(shù),可以講客戶端以語音 輸入的方式控制話機的功能。例如,客戶端可以通過朗讀"1234567890",由服務(wù)器識別后, 轉(zhuǎn)化成數(shù)字,完成撥號的功能。
語音識別這項技術(shù)就是為了識別終端的語音輸入,將此語音轉(zhuǎn)換成文本或相關(guān)的 指令,以此達到語音對話機的撥號或控制,以語音實現(xiàn)人機交互。
如果輸入靜音數(shù)據(jù),返回N0SPEECH ; 如果輸入語音數(shù)據(jù),給出識別結(jié)果和相應(yīng)的置信度得分信息。外部應(yīng)用程序根據(jù) 這一信息來確定與用戶的交互處理。 一般,在完成語音識別之前,都需要用戶進行幾次訓(xùn) 練,服務(wù)器能夠?qū)τ脩粲辛己玫淖R別能力,以在識別的時候可以達到較精確的結(jié)果。
輸入pcm文件(或數(shù)據(jù)流)
輸出文本 在本發(fā)明中,通過終端和服務(wù)器如下的交互,實現(xiàn)語音撥號。使用的語音識別弓I擎 集成在speech公司提供的語音包中。步驟實施如圖5所示。 St印l :客戶端向服務(wù)器申請語音撥號,若服務(wù)器無響應(yīng),擇返回st印l,重新向服 務(wù)器發(fā)出請求,或直接轉(zhuǎn)手動撥號。若服務(wù)器響應(yīng),會建立起一條與客戶端的數(shù)據(jù)連接。
St印2:客戶端采集錄音數(shù)據(jù),在語音撥號中是對數(shù)字序列進行錄制的,將其錄制 好后,以pcm文件保存。 St印3 :錄制完畢后,將其發(fā)送至服務(wù)器。 St印4:服務(wù)器調(diào)用語音識別引擎,對傳輸過的音頻文件進行解析。
St印5 :將解析后的數(shù)字信息以文本形式回發(fā)給終端。終端完成撥號的任務(wù)。
在本發(fā)明中,通過已有架設(shè)好的語音服務(wù)器與客戶終端的交互,可以有效的彌補 客戶終端處理和存儲數(shù)據(jù)能力的不足,將數(shù)據(jù)的處理和存儲由服務(wù)器端來完成。在局域網(wǎng) 內(nèi)部,可以架設(shè)一臺語音服務(wù)器(一般情況下,PC機已可以滿足正常的業(yè)務(wù)需求)。語音服 務(wù)器有一般語音合成(Text-To-Speech)的功能,以及語音識別的功能。通過這種C/S模型, 可以有效的解決終端處理和存儲數(shù)據(jù)能力不足的缺點,也能以較低的成本實現(xiàn)上述交互系 統(tǒng)。
權(quán)利要求
一種融合通信中智能語音交互系統(tǒng),其特征在于包括眾多個智能終端、眾多個語音處理進程單元、一個語音服務(wù)器和一個計算機,其中語音處理進程單元都包括前端語音采集裝置、實時傳輸模塊、語音合成模塊和語音識別模塊,每個智能終端分別串接語音處理進程單元后與語音服務(wù)器通信,前端語音采集裝置依次串接語音合成模塊、語音識別模塊后與語音服務(wù)器通信,前端語音采集裝置的輸出端串接實時傳輸模塊后接語音服務(wù)器的輸入端,每個智能終端的控制信號輸入端分別接計算機的控制端。
2. 根據(jù)權(quán)利要求1所述的融合通信中智能語音交互系統(tǒng),其特征在于所述前端語音采集裝置包括CCM模塊、微處理器和緩存器,前端語音采集裝置和緩存器分別與微處理器雙向通信,所述微處理器接實時傳輸模塊。
3. 根據(jù)權(quán)利要求1所述的融合通信中智能語音交互系統(tǒng),其特征在于所述微處理器為DSP或混頻器mixer 。
4. 根據(jù)權(quán)利要求1所述的融合通信中智能語音交互系統(tǒng),其特征在于所述語音合成模塊由文本分析模塊、韻律生成模塊和合成語音模塊依次串接構(gòu)成。
5. —種基于權(quán)利要求1所述的融合通信中智能語音交互系統(tǒng)的實現(xiàn)方法,其特征在于包括如下步驟a) 前端語音采集裝置通過智能終端采集客戶的語音信號,智能終端開始錄制音頻;b) 智能終端向服務(wù)器請求連接;c) 若請求響應(yīng),則建立起客戶端與服務(wù)器之間的連接,否則智能終端繼續(xù)存儲,并繼續(xù)向語音服務(wù)器發(fā)出請求;d) 在建立的連接上傳輸數(shù)據(jù);e) 服務(wù)器按照語音數(shù)據(jù)來源和數(shù)據(jù)類型,對其進行分類存儲;f) 完成客戶端與服務(wù)器的傳輸,關(guān)閉此連接;g) 客戶端向服務(wù)器申請語音合成,若服務(wù)器無響應(yīng),擇返回步驟g,重新向服務(wù)器發(fā)出請求,若服務(wù)器響應(yīng),則建立起一條與客戶端的數(shù)據(jù)連接;h) 客戶端將數(shù)據(jù)上傳至服務(wù)器;i) 服務(wù)器調(diào)用語音合成引擎,將文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù),并將生成的語音文件轉(zhuǎn)存至/tmp/audio目錄下;j)在步驟g建立的連接上,將音頻文件回傳給智能終端;k)話機終端實時播放音頻;1)客戶端向服務(wù)器申請語音撥號,若服務(wù)器無響應(yīng),擇返回步驟l,重新向服務(wù)器發(fā)出請求,或直接轉(zhuǎn)手動撥號;若服務(wù)器響應(yīng),則建立起一條與客戶端的數(shù)據(jù)連接;m)客戶端采集錄音數(shù)據(jù),在語音撥號中是對數(shù)字序列進行錄制的,將其錄制好后,以pcm文件保存;n)錄制完畢后,將其發(fā)送至服務(wù)器;n)服務(wù)器調(diào)用語音識別引擎,對傳輸過的音頻文件進行解析;n)將解析后的數(shù)字信息以文本形式回發(fā)給智能終端。
全文摘要
本發(fā)明公布了一種融合通信中智能語音交互系統(tǒng)及其實現(xiàn)方法,所述系統(tǒng)包括眾多個智能終端、語音處理進程單元和一個語音服務(wù)器,其中語音處理進程單元都包括前端語音采集裝置、實時傳輸模塊、語音合成模塊和語音識別模塊,每個智能終端分別串接語音處理進程單元后與語音服務(wù)器通信,前端語音采集裝置依次串接語音合成模塊、語音識別模塊后與語音服務(wù)器通信,前端語音采集裝置的輸出端串接實時傳輸模塊后接語音服務(wù)器的輸入端。所述方法首先,終端采集音頻數(shù)據(jù),進行錄音。其次,終端將文本信息發(fā)至服務(wù)器,由服務(wù)器將文本信息轉(zhuǎn)換為音頻信息,實現(xiàn)Text-to-speech的業(yè)務(wù)。本發(fā)明系統(tǒng)結(jié)構(gòu)簡單,具有較強的魯棒性。
文檔編號H04M3/42GK101699840SQ200910185429
公開日2010年4月28日 申請日期2009年11月9日 優(yōu)先權(quán)日2009年11月9日
發(fā)明者任夢琪, 夏然輝, 孫慶慶, 孫龍, 張勤, 張春, 張金璽, 洪松, 王開, 王毛, 葛俊, 裴文江, 顧衍 申請人:南京希華通信技術(shù)有限公司;東南大學(xué)