本發(fā)明涉及通信
技術(shù)領(lǐng)域:
,尤其涉及一種語音處理方法及系統(tǒng)。
背景技術(shù):
:語言是最重要的交際工具和信息載體,民族共同語的普及是國家統(tǒng)一、民族團結(jié)、社會進步的重要基礎(chǔ),我國是一個多民族、多語言的國家,母語環(huán)境較為寬松,人們最初所習(xí)得的語言多為本民族語或是方言,使得不同地區(qū)的人們交流出現(xiàn)阻礙,而普通話作為全國通用的語言,大力推廣。積極普及普通話,有利于消除語言隔閡,促進社會交往,對社會主義經(jīng)濟、政治、文化建設(shè)和社會發(fā)展具有重要意義。推廣普及普通話有利于增進各民族各地區(qū)的交流,有利于維護國家統(tǒng)一,增強中華民族凝聚力。普通話測試作為推廣普通話過程中的重要一環(huán),當(dāng)前仍多采用人工評分的方式,一名被考核人需要3到5名考核人員進行長時間的考核,但每年的各行業(yè)都需要大量普通話測試合格人員,這種方法耗時費力、成本高昂、主觀性強,顯然不能滿足當(dāng)前的社會需求。而移動領(lǐng)域硬件技術(shù)的高速發(fā)展賦予了智能移動終端更廣闊的應(yīng)用前景,智能移動終端成為個人連接網(wǎng)絡(luò)和企業(yè)提供服務(wù)的重要平臺,人們可以嘗試通過智能移動終端來進行普通話測試。例如,基于Android設(shè)備的普通話評價與指導(dǎo)系統(tǒng)來進行普通話測試,耗時短,成本低,使用方便,客觀公正。技術(shù)實現(xiàn)要素:本發(fā)明的主要目的在于公開一種語音處理方法及系統(tǒng),以實現(xiàn)語音的在線測試。為實現(xiàn)上述目的,本發(fā)明公開了一種語音處理方法,執(zhí)行于手機客戶端,包括:獲取用戶的語音測試請求;根據(jù)所述語音測試請求輸出一段文字顯示在屏幕上,供用戶朗讀,并記錄該段文字的系統(tǒng)編號;采集用戶朗讀該段文字的音頻信息;對所述采集的音頻信息進行模數(shù)轉(zhuǎn)換及降噪處理;提取降噪處理后測試語音特征值,并將該測試語音特征值連同系統(tǒng)編號發(fā)送給遠程服務(wù)器端。為實現(xiàn)上述目的,本發(fā)明還公開了一種語音處理方法,執(zhí)行于服務(wù)器端,包括:接收手機客戶端所發(fā)送的測試語音特征值和系統(tǒng)編號;根據(jù)所述系統(tǒng)編號搜索對應(yīng)的標準語音特征值;將所述測試語音特征值與相應(yīng)的標準語音特征值進行相關(guān)性比較;將相關(guān)性比較的結(jié)果返回所述手機客戶端。為實現(xiàn)上述目的,本發(fā)明還公開了一種語音處理系統(tǒng),包括:手機客戶端,用于獲取用戶的語音測試請求;根據(jù)所述語音測試請求輸出一段文字顯示在屏幕上,供用戶朗讀,并記錄該段文字的系統(tǒng)編號;采集用戶朗讀該段文字的音頻信息;對所述采集的音頻信息進行模數(shù)轉(zhuǎn)換及降噪處理;提取降噪處理后測試語音特征值,并將該測試語音特征值連同系統(tǒng)編號發(fā)送給遠程服務(wù)器端;服務(wù)器端,用于接收手機客戶端所發(fā)送的測試語音特征值和系統(tǒng)編號;根據(jù)所述系統(tǒng)編號搜索對應(yīng)的標準語音特征值;將所述測試語音特征值與相應(yīng)的標準語音特征值進行相關(guān)性比較;將相關(guān)性比較的結(jié)果返回所述手機客戶端。本發(fā)明具有以下有益效果:采用B/S網(wǎng)絡(luò)架構(gòu)來實現(xiàn)在線測試,極大提高了監(jiān)測的便捷性。同時,由客戶端提取測試語音特征值,減少了數(shù)據(jù)的傳輸量,緩解了服務(wù)器端的數(shù)據(jù)處理壓力,而且將降噪處理也放在客戶端,該降噪處理可利用手機通話過程中固有的降噪模塊進行處理,易于實現(xiàn)且精度高,可有效消除客戶端本身及其數(shù)據(jù)傳輸過程中引入新的噪音,進一步提高了語音測試的準確性。下面將參照附圖,對本發(fā)明作進一步詳細的說明。附圖說明構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:圖1是本發(fā)明優(yōu)選實施例公開的語音處理方法執(zhí)行于手機客戶端的流程圖;圖2是本發(fā)明優(yōu)選實施例公開的語音處理方法執(zhí)行于服務(wù)器端的流程圖。具體實施方式以下結(jié)合附圖對本發(fā)明的實施例進行詳細說明,但是本發(fā)明可以由權(quán)利要求限定和覆蓋的多種不同方式實施。本發(fā)明實施例首先公開一種語音處理方法,該方法可運行于基于Android平臺或IOS等平臺的手機客戶端上,其具體表現(xiàn)形式包括但不限于基于相應(yīng)平臺所開發(fā)及加載的應(yīng)用APP及其配套硬件的組合,該手機客戶端與遠程的服務(wù)器端可通過socket通信。如圖1所示,該方法執(zhí)行于手機客戶端的流程包括:步驟S1、獲取用戶的語音測試請求。該語音測試請求可通過點擊相應(yīng)APP中的觸控按鍵或菜單發(fā)出。步驟S2、根據(jù)該語音測試請求輸出一段文字顯示在屏幕上,供用戶朗讀,并記錄該段文字的系統(tǒng)編號。通常,服務(wù)器端存儲多段測試文字,客戶端可以視資源情況在本地存儲并同步各測試段文字。其中,輸出供用戶朗讀的測試段文字可以是隨機方式,也可以按順序循環(huán)等方式。步驟S3、采集用戶朗讀該段文字的音頻信息。該步驟可通過麥克風(fēng)協(xié)助采集。可選的,采樣率設(shè)置在最高每秒44100,保證了最高質(zhì)量的音頻樣本;聲道設(shè)置為STEREO立體聲模式;采樣大小為16bit,以能夠得到最多的信息量,保證最高的音質(zhì)效果。步驟S4、對所采集的音頻信息進行模數(shù)轉(zhuǎn)換及降噪處理。該步驟中,所采集的音頻信息為有效語音段的音頻信息,即在采集用戶朗讀該段文字的音頻信息時,根據(jù)峰值剔除朗讀前后的空白段環(huán)境語音。該步驟中,降噪處理包括預(yù)先采集一段環(huán)境音頻(可以是上段所描述的空白段語音),獲得該環(huán)境音頻的頻率信息,然后與測試語音的頻率信息相減,得到去除環(huán)境噪聲的測試語音的音頻信息。步驟S5、提取降噪處理后測試語音特征值,并將該測試語音特征值連同系統(tǒng)編號發(fā)送給遠程服務(wù)器端??蛇x的,編碼制式可使用PCM編碼(PulseCodeModularion,脈沖代碼調(diào)制編碼),其通過抽樣、量化、編碼三個步驟將連續(xù)變化的模擬信號轉(zhuǎn)化為數(shù)字編碼。該步驟中,優(yōu)選的,通過梅爾倒譜系數(shù)(MelFrequencyCepstrumCoefficient,MFCC)提取語音特征值。MFCC的分析基于人類聽覺機理,具有較高的識別率和較好的魯棒性,Mel頻率表達了一種常用的從語音頻率到感知頻率的對應(yīng)關(guān)系;通常包括下述的預(yù)加重、加窗、FFT(快速傅里葉變換)、Mel濾波、DCT(離散余弦變換)變換及歸一化等處理。在實際應(yīng)用中,一般對Mel頻率進行如下近似:FMel(f)=α*ff<1kHzFMel(f)=2595·lg(1+f/700)f≥1kHz]]>其中頻率f的單位是Hz,梅爾頻率FMel的單位是Mel,α為線性變換系數(shù);因為當(dāng)數(shù)據(jù)在低頻處的強度高于高頻處,不利于處理,所以需要通過高通濾波器濾去低頻部分,突出高頻部分,同時消除發(fā)聲過程中聲帶和嘴唇的效應(yīng),來補償語音信號受到發(fā)音系統(tǒng)所抑制的高頻部分,也為了突出高頻的共振峰。即預(yù)加重處理:S[n]=S[n]-0.95*S[n-1]其中,S[n]為第n幀的頻率。由于分幀的下一步是FFT處理,為了保證FFT在每幀的端點處不會發(fā)生突變,需要對每幀加窗處理:w[n]=0.54-0.46*cos(2πb/M)M為幀長,w[n]為第n幀的加窗處理結(jié)果。計算各幀信號的FFT。三角帶通Mel濾波器響應(yīng)輸出:Hm(k)=0k<f(m-1)k-f(m-1)f(m)-f(m-1)f(m-1)≤k≤f(m)f(m+1)-kf(m+1)-f(m)f(m)≤k≤f(m+1)0k>f(m+1)]]>其中k為待變換頻率,f(m)為當(dāng)前濾波器組的分布,Hm(k)為梅爾濾波器組的響應(yīng)。DCT變換:c[i]=Σi=0L-1In(S[i])cos(πn2L(2i+1))]]>c[i]表示MFCC的第n維特征參數(shù),S[i]為濾波器系數(shù),L為濾波器階數(shù)。歸一化:Mrecording=1LΣic(i)]]>cnormalized(i)=c(i)-Mrecording其中,Mrecording為MFCC所有特征參數(shù)的均值,cnormalized(i)為MFCC歸一化后的結(jié)果。在客戶端執(zhí)行于上述步驟之后,服務(wù)器端相對應(yīng)執(zhí)行的語音處理如圖2所示,包括:步驟S6、接收手機客戶端所發(fā)送的測試語音特征值和系統(tǒng)編號。步驟S7、根據(jù)該系統(tǒng)編號搜索對應(yīng)的標準語音特征值。其中,該標準語音特征值事先經(jīng)過樣本訓(xùn)練已存儲在服務(wù)器相對應(yīng)的數(shù)據(jù)庫中。步驟S8、將測試語音特征值與相應(yīng)的標準語音特征值進行相關(guān)性比較。該步驟中,可基于皮爾森相關(guān)系數(shù)進行相關(guān)性比較,主要的計算公式如下:其中,ρx,y為計算所得出的皮爾遜相關(guān)系數(shù),x和y為兩組需要計算相關(guān)性的長度為n的數(shù)組,xi和yi分別為x和y數(shù)組中的第i個數(shù)據(jù),和分別為x和y數(shù)組中數(shù)據(jù)的平均值。步驟S9、將相關(guān)性比較的結(jié)果返回手機客戶端。該結(jié)果包括但不限于:具體測試的分值,并標注出發(fā)音不標準的字詞及句等,較佳的,還可以將標準的語音發(fā)送給用戶供其比較參考。綜上,本發(fā)明公開的語音處理方法,可采用B/S網(wǎng)絡(luò)架構(gòu)來實現(xiàn)在線測試,極大提高了監(jiān)測的便捷性。同時,由客戶端提取測試語音特征值,減少了數(shù)據(jù)的傳輸量,緩解了服務(wù)器端的數(shù)據(jù)處理壓力,而且將降噪處理也放在客戶端,該降噪處理可利用手機通話過程中固有的降噪模塊進行處理,易于實現(xiàn)且精度高,可有效消除客戶端本身及其數(shù)據(jù)傳輸過程中引入新的噪音,進一步提高了語音測試的準確性。本實施例中,上述語音測試可以用于普通話測試,也可以與求職招聘系統(tǒng)進行關(guān)聯(lián),用于對普通話要求比較高的如客服、前臺、售前和售后以及公務(wù)員等崗位的求職招聘。與上述方法實施例相對應(yīng)的,下述實施例還公開一種用于執(zhí)行上述方法的配套系統(tǒng)。該系統(tǒng)包括于機客戶端和服務(wù)器端,其中:手機客戶端,用于獲取用戶的語音測試請求;根據(jù)語音測試請求輸出一段文字顯示在屏幕上,供用戶朗讀,并記錄該段文字的系統(tǒng)編號;采集用戶朗讀該段文字的音頻信息;對采集的音頻信息進行模數(shù)轉(zhuǎn)換及降噪處理;提取降噪處理后測試語音特征值,并將該測試語音特征值連同系統(tǒng)編號發(fā)送給遠程服務(wù)器端。服務(wù)器端,用于接收手機客戶端所發(fā)送的測試語音特征值和系統(tǒng)編號;根據(jù)系統(tǒng)編號搜索對應(yīng)的標準語音特征值;將測試語音特征值與相應(yīng)的標準語音特征值進行相關(guān)性比較;將相關(guān)性比較的結(jié)果返回手機客戶端??蛇x的,該系統(tǒng)可通過梅爾倒譜系數(shù)提取語音特征值,并基于皮爾森相關(guān)系數(shù)將測試語音特征值與相應(yīng)的標準語音特征值進行相關(guān)性比較。較佳的,上述手機客戶端還用于:預(yù)先采集一段環(huán)境音頻,獲得該環(huán)境音頻的頻率信息,然后與測試語音的頻率信息相減,得到去除環(huán)境噪聲的測試語音的音頻信息,實現(xiàn)降噪處理。進一步的,該手機客戶端還用于:在采集用戶朗讀該段文字的音頻信息時,根據(jù)峰值剔除朗讀前后的空白段環(huán)境語音。本實施例公開的上述系統(tǒng),可采用B/S網(wǎng)絡(luò)架構(gòu)來實現(xiàn)在線測試,極大提高了監(jiān)測的便捷性。同時,由客戶端提取測試語音特征值,減少了數(shù)據(jù)的傳輸量,緩解了服務(wù)器端的數(shù)據(jù)處理壓力,而且將降噪處理也放在客戶端,該降噪處理可利用手機通話過程中固有的降噪模塊進行處理,易于實現(xiàn)且精度高,可有效消除客戶端本身及其數(shù)據(jù)傳輸過程中引入新的噪音,進一步提高了語音測試的準確性。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。當(dāng)前第1頁1 2 3