語音處理方法及系統(tǒng)與流程

文檔序號：11954803閱讀：539來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及通信
技術(shù)領(lǐng)域：
，尤其涉及一種語音處理方法及系統(tǒng)。
背景技術(shù)：
：語言是最重要的交際工具和信息載體，民族共同語的普及是國家統(tǒng)一、民族團結(jié)、社會進步的重要基礎(chǔ)，我國是一個多民族、多語言的國家，母語環(huán)境較為寬松，人們最初所習(xí)得的語言多為本民族語或是方言，使得不同地區(qū)的人們交流出現(xiàn)阻礙，而普通話作為全國通用的語言，大力推廣。積極普及普通話，有利于消除語言隔閡，促進社會交往，對社會主義經(jīng)濟、政治、文化建設(shè)和社會發(fā)展具有重要意義。推廣普及普通話有利于增進各民族各地區(qū)的交流，有利于維護國家統(tǒng)一，增強中華民族凝聚力。普通話測試作為推廣普通話過程中的重要一環(huán)，當(dāng)前仍多采用人工評分的方式，一名被考核人需要3到5名考核人員進行長時間的考核，但每年的各行業(yè)都需要大量普通話測試合格人員，這種方法耗時費力、成本高昂、主觀性強，顯然不能滿足當(dāng)前的社會需求。而移動領(lǐng)域硬件技術(shù)的高速發(fā)展賦予了智能移動終端更廣闊的應(yīng)用前景，智能移動終端成為個人連接網(wǎng)絡(luò)和企業(yè)提供服務(wù)的重要平臺，人們可以嘗試通過智能移動終端來進行普通話測試。例如，基于Android設(shè)備的普通話評價與指導(dǎo)系統(tǒng)來進行普通話測試，耗時短，成本低，使用方便，客觀公正。技術(shù)實現(xiàn)要素：本發(fā)明的主要目的在于公開一種語音處理方法及系統(tǒng)，以實現(xiàn)語音的在線測試。為實現(xiàn)上述目的，本發(fā)明公開了一種語音處理方法，執(zhí)行于手機客戶端，包括：獲取用戶的語音測試請求；根據(jù)所述語音測試請求輸出一段文字顯示在屏幕上，供用戶朗讀，并記錄該段文字的系統(tǒng)編號；采集用戶朗讀該段文字的音頻信息；對所述采集的音頻信息進行模數(shù)轉(zhuǎn)換及降噪處理；提取降噪處理后測試語音特征值，并將該測試語音特征值連同系統(tǒng)編號發(fā)送給遠程服務(wù)器端。為實現(xiàn)上述目的，本發(fā)明還公開了一種語音處理方法，執(zhí)行于服務(wù)器端，包括：接收手機客戶端所發(fā)送的測試語音特征值和系統(tǒng)編號；根據(jù)所述系統(tǒng)編號搜索對應(yīng)的標準語音特征值；將所述測試語音特征值與相應(yīng)的標準語音特征值進行相關(guān)性比較；將相關(guān)性比較的結(jié)果返回所述手機客戶端。為實現(xiàn)上述目的，本發(fā)明還公開了一種語音處理系統(tǒng)，包括：手機客戶端，用于獲取用戶的語音測試請求；根據(jù)所述語音測試請求輸出一段文字顯示在屏幕上，供用戶朗讀，并記錄該段文字的系統(tǒng)編號；采集用戶朗讀該段文字的音頻信息；對所述采集的音頻信息進行模數(shù)轉(zhuǎn)換及降噪處理；提取降噪處理后測試語音特征值，并將該測試語音特征值連同系統(tǒng)編號發(fā)送給遠程服務(wù)器端；服務(wù)器端，用于接收手機客戶端所發(fā)送的測試語音特征值和系統(tǒng)編號；根據(jù)所述系統(tǒng)編號搜索對應(yīng)的標準語音特征值；將所述測試語音特征值與相應(yīng)的標準語音特征值進行相關(guān)性比較；將相關(guān)性比較的結(jié)果返回所述手機客戶端。本發(fā)明具有以下有益效果：采用B/S網(wǎng)絡(luò)架構(gòu)來實現(xiàn)在線測試，極大提高了監(jiān)測的便捷性。同時，由客戶端提取測試語音特征值，減少了數(shù)據(jù)的傳輸量，緩解了服務(wù)器端的數(shù)據(jù)處理壓力，而且將降噪處理也放在客戶端，該降噪處理可利用手機通話過程中固有的降噪模塊進行處理，易于實現(xiàn)且精度高，可有效消除客戶端本身及其數(shù)據(jù)傳輸過程中引入新的噪音，進一步提高了語音測試的準確性。下面將參照附圖，對本發(fā)明作進一步詳細的說明。附圖說明構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進一步理解，本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中：圖1是本發(fā)明優(yōu)選實施例公開的語音處理方法執(zhí)行于手機客戶端的流程圖；圖2是本發(fā)明優(yōu)選實施例公開的語音處理方法執(zhí)行于服務(wù)器端的流程圖。具體實施方式以下結(jié)合附圖對本發(fā)明的實施例進行詳細說明，但是本發(fā)明可以由權(quán)利要求限定和覆蓋的多種不同方式實施。本發(fā)明實施例首先公開一種語音處理方法，該方法可運行于基于Android平臺或IOS等平臺的手機客戶端上，其具體表現(xiàn)形式包括但不限于基于相應(yīng)平臺所開發(fā)及加載的應(yīng)用APP及其配套硬件的組合，該手機客戶端與遠程的服務(wù)器端可通過socket通信。如圖1所示，該方法執(zhí)行于手機客戶端的流程包括：步驟S1、獲取用戶的語音測試請求。該語音測試請求可通過點擊相應(yīng)APP中的觸控按鍵或菜單發(fā)出。步驟S2、根據(jù)該語音測試請求輸出一段文字顯示在屏幕上，供用戶朗讀，并記錄該段文字的系統(tǒng)編號。通常，服務(wù)器端存儲多段測試文字，客戶端可以視資源情況在本地存儲并同步各測試段文字。其中，輸出供用戶朗讀的測試段文字可以是隨機方式，也可以按順序循環(huán)等方式。步驟S3、采集用戶朗讀該段文字的音頻信息。該步驟可通過麥克風(fēng)協(xié)助采集。可選的，采樣率設(shè)置在最高每秒44100，保證了最高質(zhì)量的音頻樣本；聲道設(shè)置為STEREO立體聲模式；采樣大小為16bit，以能夠得到最多的信息量，保證最高的音質(zhì)效果。步驟S4、對所采集的音頻信息進行模數(shù)轉(zhuǎn)換及降噪處理。該步驟中，所采集的音頻信息為有效語音段的音頻信息，即在采集用戶朗讀該段文字的音頻信息時，根據(jù)峰值剔除朗讀前后的空白段環(huán)境語音。該步驟中，降噪處理包括預(yù)先采集一段環(huán)境音頻(可以是上段所描述的空白段語音)，獲得該環(huán)境音頻的頻率信息，然后與測試語音的頻率信息相減，得到去除環(huán)境噪聲的測試語音的音頻信息。步驟S5、提取降噪處理后測試語音特征值，并將該測試語音特征值連同系統(tǒng)編號發(fā)送給遠程服務(wù)器端?？蛇x的，編碼制式可使用PCM編碼(PulseCodeModularion，脈沖代碼調(diào)制編碼)，其通過抽樣、量化、編碼三個步驟將連續(xù)變化的模擬信號轉(zhuǎn)化為數(shù)字編碼。該步驟中，優(yōu)選的，通過梅爾倒譜系數(shù)(MelFrequencyCepstrumCoefficient，MFCC)提取語音特征值。MFCC的分析基于人類聽覺機理，具有較高的識別率和較好的魯棒性，Mel頻率表達了一種常用的從語音頻率到感知頻率的對應(yīng)關(guān)系；通常包括下述的預(yù)加重、加窗、FFT(快速傅里葉變換)、Mel濾波、DCT(離散余弦變換)變換及歸一化等處理。在實際應(yīng)用中，一般對Mel頻率進行如下近似：FMel(f)=α*ff<1kHzFMel(f)=2595·lg(1+f/700)f≥1kHz]]>其中頻率f的單位是Hz，梅爾頻率FMel的單位是Mel，α為線性變換系數(shù)；因為當(dāng)數(shù)據(jù)在低頻處的強度高于高頻處，不利于處理，所以需要通過高通濾波器濾去低頻部分，突出高頻部分，同時消除發(fā)聲過程中聲帶和嘴唇的效應(yīng)，來補償語音信號受到發(fā)音系統(tǒng)所抑制的高頻部分，也為了突出高頻的共振峰。即預(yù)加重處理：S[n]＝S[n]-0.95*S[n-1]其中，S[n]為第n幀的頻率。由于分幀的下一步是FFT處理，為了保證FFT在每幀的端點處不會發(fā)生突變，需要對每幀加窗處理：w[n]＝0.54-0.46*cos(2πb/M)M為幀長，w[n]為第n幀的加窗處理結(jié)果。計算各幀信號的FFT。三角帶通Mel濾波器響應(yīng)輸出：Hm(k)=0k<f(m-1)k-f(m-1)f(m)-f(m-1)f(m-1)≤k≤f(m)f(m+1)-kf(m+1)-f(m)f(m)≤k≤f(m+1)0k>f(m+1)]]>其中k為待變換頻率，f(m)為當(dāng)前濾波器組的分布，Hm(k)為梅爾濾波器組的響應(yīng)。DCT變換：c[i]=Σi=0L-1In(S[i])cos(πn2L(2i+1))]]>c[i]表示MFCC的第n維特征參數(shù)，S[i]為濾波器系數(shù)，L為濾波器階數(shù)。歸一化：Mrecording=1LΣic(i)]]>cnormalized(i)＝c(i)-Mrecording其中，Mrecording為MFCC所有特征參數(shù)的均值，cnormalized(i)為MFCC歸一化后的結(jié)果。在客戶端執(zhí)行于上述步驟之后，服務(wù)器端相對應(yīng)執(zhí)行的語音處理如圖2所示，包括：步驟S6、接收手機客戶端所發(fā)送的測試語音特征值和系統(tǒng)編號。步驟S7、根據(jù)該系統(tǒng)編號搜索對應(yīng)的標準語音特征值。其中，該標準語音特征值事先經(jīng)過樣本訓(xùn)練已存儲在服務(wù)器相對應(yīng)的數(shù)據(jù)庫中。步驟S8、將測試語音特征值與相應(yīng)的標準語音特征值進行相關(guān)性比較。該步驟中，可基于皮爾森相關(guān)系數(shù)進行相關(guān)性比較，主要的計算公式如下：其中，ρx，y為計算所得出的皮爾遜相關(guān)系數(shù)，x和y為兩組需要計算相關(guān)性的長度為n的數(shù)組，xi和yi分別為x和y數(shù)組中的第i個數(shù)據(jù)，和分別為x和y數(shù)組中數(shù)據(jù)的平均值。步驟S9、將相關(guān)性比較的結(jié)果返回手機客戶端。該結(jié)果包括但不限于：具體測試的分值，并標注出發(fā)音不標準的字詞及句等，較佳的，還可以將標準的語音發(fā)送給用戶供其比較參考。綜上，本發(fā)明公開的語音處理方法，可采用B/S網(wǎng)絡(luò)架構(gòu)來實現(xiàn)在線測試，極大提高了監(jiān)測的便捷性。同時，由客戶端提取測試語音特征值，減少了數(shù)據(jù)的傳輸量，緩解了服務(wù)器端的數(shù)據(jù)處理壓力，而且將降噪處理也放在客戶端，該降噪處理可利用手機通話過程中固有的降噪模塊進行處理，易于實現(xiàn)且精度高，可有效消除客戶端本身及其數(shù)據(jù)傳輸過程中引入新的噪音，進一步提高了語音測試的準確性。本實施例中，上述語音測試可以用于普通話測試，也可以與求職招聘系統(tǒng)進行關(guān)聯(lián)，用于對普通話要求比較高的如客服、前臺、售前和售后以及公務(wù)員等崗位的求職招聘。與上述方法實施例相對應(yīng)的，下述實施例還公開一種用于執(zhí)行上述方法的配套系統(tǒng)。該系統(tǒng)包括于機客戶端和服務(wù)器端，其中：手機客戶端，用于獲取用戶的語音測試請求；根據(jù)語音測試請求輸出一段文字顯示在屏幕上，供用戶朗讀，并記錄該段文字的系統(tǒng)編號；采集用戶朗讀該段文字的音頻信息；對采集的音頻信息進行模數(shù)轉(zhuǎn)換及降噪處理；提取降噪處理后測試語音特征值，并將該測試語音特征值連同系統(tǒng)編號發(fā)送給遠程服務(wù)器端。服務(wù)器端，用于接收手機客戶端所發(fā)送的測試語音特征值和系統(tǒng)編號；根據(jù)系統(tǒng)編號搜索對應(yīng)的標準語音特征值；將測試語音特征值與相應(yīng)的標準語音特征值進行相關(guān)性比較；將相關(guān)性比較的結(jié)果返回手機客戶端?？蛇x的，該系統(tǒng)可通過梅爾倒譜系數(shù)提取語音特征值，并基于皮爾森相關(guān)系數(shù)將測試語音特征值與相應(yīng)的標準語音特征值進行相關(guān)性比較。較佳的，上述手機客戶端還用于：預(yù)先采集一段環(huán)境音頻，獲得該環(huán)境音頻的頻率信息，然后與測試語音的頻率信息相減，得到去除環(huán)境噪聲的測試語音的音頻信息，實現(xiàn)降噪處理。進一步的，該手機客戶端還用于：在采集用戶朗讀該段文字的音頻信息時，根據(jù)峰值剔除朗讀前后的空白段環(huán)境語音。本實施例公開的上述系統(tǒng)，可采用B/S網(wǎng)絡(luò)架構(gòu)來實現(xiàn)在線測試，極大提高了監(jiān)測的便捷性。同時，由客戶端提取測試語音特征值，減少了數(shù)據(jù)的傳輸量，緩解了服務(wù)器端的數(shù)據(jù)處理壓力，而且將降噪處理也放在客戶端，該降噪處理可利用手機通話過程中固有的降噪模塊進行處理，易于實現(xiàn)且精度高，可有效消除客戶端本身及其數(shù)據(jù)傳輸過程中引入新的噪音，進一步提高了語音測試的準確性。以上所述僅為本發(fā)明的優(yōu)選實施例而已，并不用于限制本發(fā)明，對于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進等，均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。當(dāng)前第1頁1 2 3

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3