一種用于智能機(jī)器人的聲音識(shí)別方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及智能機(jī)器人技術(shù)領(lǐng)域,尤其涉及一種用于智能機(jī)器人的聲音識(shí)別方法 及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的飛速發(fā)展,特別是Internet的發(fā)展,數(shù)據(jù)信息化的不斷深入。越 來(lái)越多的事務(wù),可以通過(guò)智能機(jī)器人來(lái)辦理,例如:在公共安全領(lǐng)域的用于智能門禁、智能 視頻監(jiān)控、公安布控、海關(guān)身份驗(yàn)證、實(shí)際駕照驗(yàn)證等的智能機(jī)器人;在民事和經(jīng)濟(jì)領(lǐng)域,對(duì) 各類銀行卡、金融卡、信用卡、存蓄卡的持卡人進(jìn)行身份驗(yàn)證的智能機(jī)器人。為了信息安全, 辦理業(yè)務(wù)之前通常需要通過(guò)驗(yàn)證人員身份后,智能機(jī)器人才能為其辦理所請(qǐng)求的業(yè)務(wù)。
[0003] 傳統(tǒng)的身份驗(yàn)證方法是根據(jù)預(yù)先設(shè)置的密碼或特定的身份標(biāo)識(shí)物,如:證件,來(lái)鑒 別不同用戶。這種方法存在明顯的缺點(diǎn),如:個(gè)人的身份標(biāo)識(shí)物容易丟失或被偽造,密碼容 易遺忘或者被破譯。更為嚴(yán)重的是,這些系統(tǒng)無(wú)法區(qū)分真正的擁有者和取得身份標(biāo)識(shí)物的 冒充者。為了克服傳統(tǒng)身份驗(yàn)證的缺陷,結(jié)合人類鑒別不同個(gè)體的方法和特點(diǎn)以及人類自 身的一些生理和行為特征,如:聲音、面容、指紋等,其中指紋也容易被竊取后套模。
[0004] 其中,通過(guò)聲音來(lái)鑒別人員的身份,在接收聲音輸入時(shí),周圍環(huán)境噪音會(huì)影響對(duì)于 聲音鑒別的準(zhǔn)確性。如何解決環(huán)境噪音對(duì)于聲音識(shí)別的影響是亟待解決的一個(gè)問(wèn)題。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本申請(qǐng)?zhí)峁┮环N用于智能機(jī)器人的聲音識(shí)別方法及系統(tǒng),其能避免環(huán) 境因素而降低聲音識(shí)別準(zhǔn)確率的問(wèn)題,使得智能機(jī)器人能以高準(zhǔn)確率地進(jìn)行人員身份鑒 別。
[0006] 本申請(qǐng)?zhí)峁┮环N用于只能機(jī)器人的聲音識(shí)別方法,所述方法包括步驟:
[0007] 步驟一,建立聲音識(shí)別數(shù)據(jù)庫(kù);
[0008] 步驟二,輸入待鑒別的聲音;
[0009] 步驟三,計(jì)算輸入聲音的特征向量;
[0010] 步驟四,進(jìn)行身份鑒定;
[0011] 步驟五,輸出身份鑒別結(jié)果。
[0012] 根據(jù)在本申請(qǐng)一具體實(shí)施例中,所述建立聲音識(shí)別數(shù)據(jù)庫(kù)包括:采集所有人的可 靠聲音、可靠聲音的特征提取以及在數(shù)據(jù)庫(kù)中記錄聲音特征信息。
[0013] 根據(jù)在本申請(qǐng)一具體實(shí)施例中,所述可靠聲音的特征提取包括:
[0014] (1)將所述可靠聲音對(duì)應(yīng)的音頻信號(hào)x(i)劃分成一系列連續(xù)的幀,對(duì)每幀信號(hào)做 傅里葉變換;
[0015] (2)使用濾波器對(duì)音頻信號(hào)進(jìn)行處理,并移除所述音頻信號(hào)的中間偏差;
[0016] (3)對(duì)所有濾波器輸出的音頻信號(hào)數(shù)據(jù)做非線性冪函數(shù)運(yùn)算;
[0017] (4)對(duì)所述非線性冪函數(shù)運(yùn)算結(jié)果進(jìn)一步做離散余弦變換后得到聲音特征參數(shù)。
[0018] 根據(jù)在本申請(qǐng)一具體實(shí)施例中,所述濾波器中使用的濾波函數(shù)為filter(t)= Bntn-V2nBtC〇S(2 3ifQt+0)U(t)),其中:參數(shù)0為濾波器的初始相位,n為濾波器的階數(shù); 當(dāng)t< 0 時(shí),u(t) = 0,當(dāng)t> 0 時(shí),u(t) = 1;B= 1. 019*ERB(f0),ERB(f0)為濾波器的等 價(jià)矩形帶寬,與濾波器中心頻率fQ的關(guān)系為:ERB(fQ) = 24. 7+0. 108f。。
[0019] 根據(jù)在本申請(qǐng)一具體實(shí)施例中,所述移除音頻信號(hào)的中間偏差包括:
[0020] (1)在音頻信號(hào)分幀后,把7個(gè)幀組成一個(gè)分段;
[0021] (2)使用26. 5ms作為海明窗口,重疊幀長(zhǎng)為10ms,每幀的中間量Q(i,j)通過(guò)計(jì)算 段內(nèi)幀能量P(i,j)的平均值得到:
[0022]
【主權(quán)項(xiàng)】
1. 一種用于智能機(jī)器人的聲音識(shí)別方法,所述方法包括: 步驟一,建立聲音識(shí)別數(shù)據(jù)庫(kù); 步驟二,輸入待鑒別的聲音; 步驟三,計(jì)算輸入聲音的特征向量; 步驟四,進(jìn)行身份鑒定; 步驟五,輸出身份鑒別結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述建立聲音識(shí)別數(shù)據(jù)庫(kù)包括:采集所有 人的可靠聲音、可靠聲音的特征提取以及在數(shù)據(jù)庫(kù)中記錄聲音特征信息。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,其特征在于所述可靠聲音的特征提取包 括: (1) 將所述可靠聲音對(duì)應(yīng)的音頻信號(hào)x(i)劃分成一系列連續(xù)的幀,對(duì)每幀信號(hào)做傅里 葉變換; (2) 使用濾波器對(duì)音頻信號(hào)進(jìn)行處理,并移除所述音頻信號(hào)的中間偏差; (3) 對(duì)所有濾波器輸出的音頻信號(hào)數(shù)據(jù)做非線性冪函數(shù)運(yùn)算; (4) 對(duì)所述非線性冪函數(shù)運(yùn)算結(jié)果進(jìn)一步做離散余弦變換后得到聲音特征參數(shù)。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述濾波器中使用的濾波函數(shù)為 filter(t) zBUj^cosOjif^t+eha)),其中:參數(shù)Θ為濾波器的初始相位,n為濾 波器的階數(shù);當(dāng) t < 0 時(shí),u(t) = 0,當(dāng) t > 0 時(shí),u(t) = I ;B = I. 019*ERB(fQ),ERB(f。) 為濾波器的等價(jià)矩形帶寬,與濾波器中心頻率fQ的關(guān)系為:ERB (fQ) = 24. 7+0. 108f。。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述移除音頻信號(hào)的中間偏差包括: (1) 在音頻信號(hào)分幀后,把7個(gè)幀組成一個(gè)分段; (2) 使用26. 5ms作為海明窗口,重疊幀長(zhǎng)為10ms,每幀的中間量Q (i,j)通過(guò)計(jì)算段內(nèi) 幀能量P (i,j)的平均值得到:
公式(3)中M = 3, i為頻道序號(hào),j為所求幀的序列,j'為所求分段中各幀的序列; (3) 在噪聲能量去除過(guò)程中,使用算術(shù)平均值與幾何平均值的比值(AM/GM)可以表示 聲音信號(hào)被腐蝕的程度,對(duì)上述比率求對(duì)數(shù)后得到:
公式⑷中z為平面系數(shù),J為幀的序列總數(shù); (4) B(i)是背景噪聲引起的偏差,i表示頻道序列,移除偏差后的中間量Q'(i,j|B(i)) 為:Q' (i,j |B(i)) = max(Q(i,j)-B(i),l(T3Q(i,j)) 公式(5)而得到:
(5) 對(duì)于公式(6),當(dāng)噪聲情況下AM/GM的比值最接近原聲信號(hào)的AM/GM值時(shí),可以求 得B (i)的估計(jì)值為: Br ⑴=min{B(i) |G, (i | B (i))彡 Gc (i)} 公式(7) 其中,GJi)表示G(i)在原聲信號(hào)中的對(duì)應(yīng)值,對(duì)每個(gè)頻道計(jì)算公式(7)后得到,對(duì)于 每個(gè)時(shí)頻BIN信號(hào)(i,j),噪聲移除的比率為:
(6) 為了平滑計(jì)算,對(duì)頻道i-N至i+N的噪聲移除比率取平均值,調(diào)整后最終的函數(shù)為:
(7) 使用公式(10)對(duì)濾波器中所有音頻信號(hào)進(jìn)行處理,移除中間偏差后作為濾波器的 輸出。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算輸入聲音的特征向量包括: (1) 將所述輸入聲音對(duì)應(yīng)的音頻信號(hào)x(i)劃分成一系列連續(xù)的幀,對(duì)每幀信號(hào)做傅里 葉變換; (2) 使用濾波器對(duì)音頻信號(hào)進(jìn)行處理,并移除所述音頻信號(hào)的中間偏差; (3) 對(duì)所有濾波器輸出的音頻信號(hào)數(shù)據(jù)做非線性冪函數(shù)運(yùn)算; (4) 對(duì)所述非線性冪函數(shù)運(yùn)算結(jié)果進(jìn)一步做離散余弦變換后得到聲音特征參數(shù)。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述移除音頻信號(hào)的中間偏差包括: (1) 在音頻信號(hào)分幀后,把7個(gè)幀組成一個(gè)分段; (2) 使用26. 5ms作為海明窗口,