動(dòng)態(tài)選擇語音模型的語音識(shí)別方法及裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例提供一種動(dòng)態(tài)選擇語音模型的語音識(shí)別方法及裝置。獲取待測語音的第一個(gè)語音包,并對(duì)所述第一個(gè)語音包進(jìn)行基頻的提取,其中所述基頻為聲帶振動(dòng)的頻率;根據(jù)所述基頻對(duì)所述待測語音的來源進(jìn)行分類并選擇預(yù)先訓(xùn)練的相應(yīng)類別的語音模型;對(duì)待測語音進(jìn)行前端處理以獲取所述待測語音的特征參數(shù)的值,并將處理后的所述待測語音與所述語音模型進(jìn)行匹配打分,從而獲取語音識(shí)別的結(jié)果。實(shí)現(xiàn)了女性語音和兒童語音識(shí)別率的提升,具有高效率,低成本的優(yōu)勢。
【專利說明】
動(dòng)態(tài)選擇語音模型的語音識(shí)別方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明實(shí)施例涉及語音識(shí)別領(lǐng)域,尤其涉及一種動(dòng)態(tài)選擇語音模型的語音識(shí)別方法及裝置。
【背景技術(shù)】
[0002]語音識(shí)別是一門交叉學(xué)科,近些年來,語音識(shí)別逐漸從實(shí)驗(yàn)室走向市場。人們預(yù)計(jì),未來10年內(nèi),語音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。語音識(shí)別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。語音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。
[0003]在互聯(lián)網(wǎng)語音識(shí)別應(yīng)用系統(tǒng)中,通常訓(xùn)練出一個(gè)通用的語音模型,男性語音的訓(xùn)練數(shù)據(jù)占主導(dǎo),因此使用通用模型進(jìn)行語音識(shí)別,在識(shí)別階段,相對(duì)于男性,女性和兒童的語音識(shí)別率明顯偏低,導(dǎo)致語音識(shí)別系統(tǒng)的總體用戶體驗(yàn)下降。
[0004]為了解決這一問題,現(xiàn)有的解決方案是采用模型自適應(yīng),包括無監(jiān)督的和有監(jiān)督的模型自適應(yīng)。這兩種解決方案都具有很大缺陷。對(duì)于無監(jiān)督的模型自適應(yīng),其缺陷在于,訓(xùn)練出的模型有可能偏移很大,越訓(xùn)越差;對(duì)于有監(jiān)督的模型自適應(yīng),訓(xùn)練過程需要女性和兒童的參與,這樣做需要很大的人力和物力,成本會(huì)很高。
[0005]因此,一種高效率、低成本的語音識(shí)別方法及裝置亟待提出。
【發(fā)明內(nèi)容】
[0006]本發(fā)明實(shí)施例提供一種動(dòng)態(tài)選擇語音模型的語音識(shí)別方法及裝置,用以解決現(xiàn)有技術(shù)中女性和兒童的語音識(shí)別率明顯偏低的缺陷,實(shí)現(xiàn)了高效準(zhǔn)確的語音識(shí)別。
[0007]本發(fā)明實(shí)施例提供一種動(dòng)態(tài)選擇語音模型的語音識(shí)別方法,包括:
[0008]獲取待測語音的第一個(gè)語音包,并對(duì)所述第一個(gè)語音包進(jìn)行基頻的提取,其中所述基頻為聲帶振動(dòng)的頻率;
[0009]根據(jù)所述基頻對(duì)所述待測語音的來源進(jìn)行分類并選擇預(yù)先訓(xùn)練的相應(yīng)類別的語音模型;
[0010]對(duì)待測語音進(jìn)行前端處理以獲取所述待測語音的特征參數(shù)的值,并將處理后的所述待測語音與所述語音模型進(jìn)行匹配打分,從而獲取語音識(shí)別的結(jié)果。
[0011]本發(fā)明實(shí)施例提供一種動(dòng)態(tài)選擇語音模型的語音識(shí)別裝置,包括:
[0012]基頻提取模塊,用于獲取待測語音的第一個(gè)語音包,并對(duì)所述第一個(gè)語音包進(jìn)行基頻的提取,其中所述基頻為聲帶振動(dòng)的頻率;
[0013]分類模塊,用于根據(jù)所述基頻對(duì)所述待測語音的來源進(jìn)行分類并選擇預(yù)先訓(xùn)練的相應(yīng)類別的語音模型;
[0014]語音識(shí)別模塊,用于對(duì)待測語音進(jìn)行前端處理以獲取所述待測語音的特征參數(shù)的值,并將處理后的所述待測語音與所述語音模型進(jìn)行匹配打分,從而獲取語音識(shí)別的結(jié)果。
[0015]本發(fā)明提出的語音識(shí)別系統(tǒng),可以通過檢測說話人的類別,進(jìn)行動(dòng)態(tài)的選擇說話人豐旲型進(jìn)彳丁識(shí)別,可以提尚女性和兒童的識(shí)別率,具有尚效率,低成本的優(yōu)勢。
【附圖說明】
[0016]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0017]圖1為現(xiàn)有技術(shù)中語音識(shí)別方法流程圖;
[0018]圖2為本發(fā)明語音識(shí)別方法實(shí)施例流程圖;
[0019]圖3為本發(fā)明語音識(shí)別裝置實(shí)施例結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0020]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0021]需要說明的是,本發(fā)明的各實(shí)施例并非獨(dú)立存在,若干個(gè)實(shí)施例之間可以相互補(bǔ)充或組合存在。例如,實(shí)施一和實(shí)施例二分別是對(duì)本發(fā)明實(shí)施例中的語音識(shí)別階段和語音模型訓(xùn)練階段的闡述,實(shí)施例二是實(shí)施例一的依托,二者的結(jié)合是一個(gè)更加完整的技術(shù)方案。
[0022]實(shí)施例一
[0023]圖1是本發(fā)明實(shí)施例一的技術(shù)流程圖,結(jié)合圖1,本發(fā)明實(shí)施例一種動(dòng)態(tài)選擇語音模型的語音識(shí)別方法,主要由以下的幾個(gè)步驟實(shí)現(xiàn):
[0024]步驟110:獲取待測語音的第一個(gè)語音包,并對(duì)所述第一個(gè)語音包進(jìn)行基頻的提取,其中所述基頻為聲帶振動(dòng)的頻率;
[0025]本發(fā)明實(shí)施例的核心在于,在語音識(shí)別之前預(yù)先判斷請(qǐng)求語音識(shí)別的語音來源,是男性、女性或是兒童,從而選擇與所述語音來源相匹配的語音模型進(jìn)行語音識(shí)別,進(jìn)一步提高語音識(shí)別的準(zhǔn)確率。
[0026]當(dāng)檢測到有語音輸入時(shí),首先對(duì)語音信號(hào)進(jìn)行采樣,并通過采樣信號(hào)迅速判斷當(dāng)選擇何種語音識(shí)別的模型。所述采樣信號(hào)的采樣起始時(shí)間和信號(hào)長度是非常關(guān)鍵的,就采樣起始時(shí)間而言,對(duì)靠近語音信號(hào)起始端點(diǎn)的一部分進(jìn)行采樣能夠迅速的在語音輸入之后啟動(dòng)檢測,及時(shí)判斷語音信號(hào)的來源,從而提高語音識(shí)別的效率,提升用戶體驗(yàn);就信號(hào)長度而言,若采樣間隔太小,則不足以對(duì)采集到的樣本進(jìn)行足夠正確的判斷,容易出現(xiàn)誤檢,采樣間隔過大,又會(huì)使得語音輸入語音來源檢測之間的間隔過長,會(huì)導(dǎo)致識(shí)別緩慢,用戶體驗(yàn)差,通常采樣間隔大于0.3s才能保證較好的檢測。經(jīng)過反復(fù)的實(shí)驗(yàn),本發(fā)明實(shí)施例將采樣時(shí)間的起始點(diǎn)設(shè)置為語音輸入的啟示點(diǎn),以0.5s作為所述采樣間隔。
[0027]具體地,首先對(duì)待測語音進(jìn)行端點(diǎn)檢測(VAD),即從包含語音的一段信號(hào)中確定出語音信號(hào)的起始點(diǎn)及結(jié)束點(diǎn),獲取從起始點(diǎn)開始到該時(shí)間點(diǎn)后約0.5秒的語音數(shù)據(jù)作為所述第一個(gè)語音包,根據(jù)所述第一個(gè)語音包進(jìn)行快速準(zhǔn)確的語音來源的判斷。
[0028]步驟120:根據(jù)所述基頻對(duì)所述待測語音的來源進(jìn)行分類并選擇預(yù)先訓(xùn)練的相應(yīng)類別的語首t旲型;
[0029]在濁音的發(fā)音過程中,氣流通過聲門使得聲帶產(chǎn)生張弛振蕩式的振動(dòng),產(chǎn)生一股準(zhǔn)周期脈沖氣流,這一氣流激勵(lì)聲道就產(chǎn)生濁音,它攜帶了語音中的大部分能量,其中聲帶的振動(dòng)頻率就稱為基頻。
[0030]本發(fā)明實(shí)施例中,采用基于時(shí)域的算法和/或基于空域的算法提取所述第一個(gè)語音包的基頻,其中,所述基于時(shí)域的算法包括自相關(guān)函數(shù)算法和平均幅度差函數(shù)算法,所述基于空域的算法包括倒普分析法和離散小波變換法。
[0031]自相關(guān)函數(shù)法是利用了濁音信號(hào)的準(zhǔn)周期性,通過對(duì)比原始信號(hào)和它的位移后信號(hào)之間的類似性來進(jìn)行基頻的檢測,其原理是濁音信號(hào)的自相關(guān)函數(shù)在時(shí)延等于基音周期整數(shù)倍的地方產(chǎn)生一個(gè)峰值,而清音信號(hào)的自相關(guān)函數(shù)無明顯的峰值。因此通過檢測語音信號(hào)的自相關(guān)函數(shù)的峰值位置,就可以估計(jì)語音的基頻。
[0032]平均幅度差函數(shù)法檢測基頻的依據(jù)為:語音的濁音具有準(zhǔn)周期性,完全周期信號(hào)在相距為周期的倍數(shù)的幅值點(diǎn)上的幅值是相等的,從而差值為零。假設(shè)基音周期為P,則在濁音段,則平均幅度差函數(shù)將出現(xiàn)谷底,則兩個(gè)谷底之間的距離即為基音周期,其倒數(shù)則為基頻。
[0033]倒譜分析是譜分析的一種方法,輸出是傅里葉變換的幅度譜取對(duì)數(shù)后做傅里葉逆變換的結(jié)果。該方法所依據(jù)的理論是,一個(gè)具有基頻的信號(hào)的傅立葉變換的幅度譜有一些等距離分布的峰值,代表信號(hào)中的諧波結(jié)構(gòu),當(dāng)對(duì)幅度譜取對(duì)數(shù)之后,這些峰值被削弱到一個(gè)可用的范圍。幅度譜取對(duì)數(shù)后得到的結(jié)果是在頻域的一個(gè)周期信號(hào),而這個(gè)頻域信號(hào)的周期(是頻率值)可以認(rèn)為就是原始信號(hào)的基頻,所以對(duì)這個(gè)信號(hào)做傅里葉逆變換就可以在原始信號(hào)的基音周期處得到一個(gè)峰值。
[0034]離散小波變換是一個(gè)強(qiáng)大的工具,它允許在連續(xù)的尺度上把信號(hào)分解為高頻成分和低頻成分,它是時(shí)間和頻率的局部變換,能有效地從信號(hào)中提取信息。與快速傅里葉變換相比,離散小波變換的主要好處在于,在高頻部分它可以取得好的時(shí)間分辨率,在低頻部分可以取得好的頻率分辨率。
[0035]本發(fā)明實(shí)施例中,根據(jù)語音樣本的來源,訓(xùn)練了不同類型的語音模型,如男性語音模型、女性語音模型以及兒童語音模型等。與此同時(shí),對(duì)于每種不同的類型設(shè)置相應(yīng)的基頻閾值,所述基頻閾值的取值范圍通過大量的試驗(yàn)檢測得到。
[0036]基頻取決于聲帶的大小、厚薄、松弛程度以及聲門上下之間的氣壓差的效應(yīng)等。當(dāng)聲帶被拉得越長、越緊、越薄,聲門的形狀就變得越細(xì)長,而且這時(shí)聲帶在閉合時(shí)也未必是完全的閉合,相應(yīng)的基頻就越高。基頻隨著發(fā)音人的性別,年齡及具體情況而定,總體來說,老年男性偏低,女性和兒童偏高。經(jīng)測試,一般地,男性的基頻范圍大概在80Hz到200Hz之間,女性的基頻范圍大概在200-350HZ之間,而兒童的基頻范圍大概在350-500HZ之間。
[0037]當(dāng)一段語音輸入請(qǐng)求語音識(shí)別時(shí),提取其基頻,并判斷其所述的閾值范圍,即可判斷輸入語音的來源是男性、女性或是兒童,若是得不到檢測結(jié)果。
[0038]具體地,根據(jù)待檢測語音來源類別進(jìn)行語音模型的選擇,可以分為以下四種情況:
[0039]若所述待檢測語音來源于男性,則選擇男性語音模型;
[0040]若所述待檢測語音來源于女性,則選擇女性語音模型;
[0041]若所述待檢測語音來源于兒童,則選擇兒童語音模型;
[0042]若無檢測結(jié)果或?yàn)槠渌瑒t選擇通用語音模型進(jìn)行待測語音的識(shí)別。
[0043]步驟130:對(duì)待測語音進(jìn)行前端處理以獲取所述待測語音的特征參數(shù)的值,并將處理后的所述待測語音與所述語音模型進(jìn)行匹配打分,從而獲取語音識(shí)別的結(jié)果。
[0044]對(duì)語料進(jìn)行前端處理,主要是提取語音的特征參數(shù),語音特征參數(shù)包括Mel頻率倒譜系數(shù)(MFCC),線性預(yù)測系數(shù)(LPC),線性預(yù)測倒譜系數(shù)(LPCC)等,本發(fā)明實(shí)施例并不做限制。因MFCC在一定程度上模擬了人耳對(duì)語音的處理特點(diǎn),因此本實(shí)施例提取MFCC作為特征參數(shù)。
[0045]MFCC的計(jì)算流程如下:將語音信號(hào)進(jìn)行段式傅里葉變換得到其頻譜;求頻譜幅度的平方,即能量譜,并用一組三角濾波器在頻域?qū)δ芰窟M(jìn)行帶通濾波;對(duì)濾波器的輸出取對(duì)數(shù),然后做傅里葉逆變換或DCT變換即可得到MFCC的值。
[0046]本發(fā)明實(shí)施例中將處理后的所述待測語音與所述語音模型進(jìn)行匹配打分,實(shí)際上是待測語音的MFCC值與訓(xùn)練好的所述語音模型中的MFCC值進(jìn)行匹配,計(jì)算二者的匹配度得分,從而得出識(shí)別結(jié)果。
[0047]需要說明的是,在語音識(shí)別階段對(duì)所述待測語音進(jìn)行前端處理和訓(xùn)練階段對(duì)語料樣本進(jìn)行前端處理的過程相同,選取的特征參數(shù)相同,這樣特征參數(shù)的值才具有可比性。
[0048]本實(shí)施例首先將待測語音經(jīng)過端點(diǎn)檢測,獲取待測語音段的起始點(diǎn),然后對(duì)其進(jìn)行分包;獲取第一個(gè)語音包的數(shù)據(jù)后,對(duì)所述第一個(gè)語音包進(jìn)行語音來源類別的檢測(SCD)從而判斷出待測語音屬于男性,女性還是兒童并選擇相應(yīng)語音來源對(duì)應(yīng)的語音模型;通過提取待測語音的特征參數(shù)進(jìn)行語音識(shí)別,得出識(shí)別結(jié)果。實(shí)現(xiàn)了通過檢測語音來源的類別,進(jìn)行動(dòng)態(tài)的選擇語音模型進(jìn)行識(shí)別,提高了女性和兒童的語音識(shí)別率,同時(shí)具有高效率,低成本的優(yōu)勢。
[0049]實(shí)施例二
[0050]圖2是本發(fā)明實(shí)施例二的技術(shù)流程圖,結(jié)合圖2,本發(fā)明實(shí)施例一種動(dòng)態(tài)選擇語音模型的語音識(shí)別方法中,預(yù)先訓(xùn)練不同的語音來源對(duì)應(yīng)的語音模型,主要由以下的步驟實(shí)現(xiàn):
[0051]步驟210:對(duì)不同來源的語料進(jìn)行所述前端處理以獲取所述語料的所述特征參數(shù);
[0052]本步驟的執(zhí)行過程與技術(shù)效果同實(shí)施例二中的步驟130相同,此處不贅述。
[0053]步驟220:根據(jù)所述特征參數(shù)對(duì)所述語料進(jìn)行訓(xùn)練,得到與不同的所述來源對(duì)應(yīng)的語音模型。
[0054]本步驟中,利用各類來源的語料提取的所述特征參數(shù),分別進(jìn)行四個(gè)類別的模型訓(xùn)練,即男性語料訓(xùn)練男性語音模型;女性語料訓(xùn)練女性語音模型;兒童語料訓(xùn)練兒童語音模型;三種類別的混合語料訓(xùn)練通用語音模型。
[0055]本發(fā)明實(shí)施例中,語音模型的訓(xùn)練可以采用HMM,GMM-HMM, DNN-HMM等。
[0056]HMM(Hidden Markov Model),即隱馬爾可夫模型。HMM是馬爾可夫鏈的一種,它的狀態(tài)不能直接觀察到,但能通過觀測向量序列觀察到,每個(gè)觀測向量都是通過某些概率密度分布表現(xiàn)為各種狀態(tài),每一個(gè)觀測向量是由一個(gè)具有相應(yīng)概率密度分布的狀態(tài)序列產(chǎn)生。所以,隱馬爾可夫模型是一個(gè)雙重隨機(jī)過程----具有一定狀態(tài)數(shù)的隱馬爾可夫鏈和顯示隨機(jī)函數(shù)集。自20世紀(jì)80年代以來,HMM被應(yīng)用于語音識(shí)別,取得重大成功。GMM為混合高斯模型,DNN為深度神經(jīng)網(wǎng)絡(luò)模型。
[0057]GMM-HMM和DNN-HMM都是基于HMM的變形,由于這三種模型都是非常成熟的現(xiàn)有技術(shù)且并非本發(fā)明實(shí)施例保護(hù)重點(diǎn),此處將不再贅述。
[0058]本實(shí)施例這種,通過對(duì)現(xiàn)有不同來源的語料進(jìn)行特征參數(shù)的提取以及語音模型的訓(xùn)練,得到了與語音來源相匹配的幾類語音模型,將之用于語音識(shí)別,可以有效的提升女性語音和兒童語音的相對(duì)識(shí)別率。
[0059]實(shí)施例三
[0060]圖3是本發(fā)明實(shí)施例三的裝置結(jié)構(gòu)示意圖,結(jié)合圖3,本發(fā)明實(shí)施例一種動(dòng)態(tài)選擇語音模型的語音識(shí)別裝置主要包括如下的幾個(gè)模塊:基頻提取模塊310、分類模塊320、語音識(shí)別模塊330、語音模型訓(xùn)練模塊340。
[0061]所述基頻提取模塊310,用于獲取待測語音的第一個(gè)語音包,并對(duì)所述第一個(gè)語音包進(jìn)行基頻的提取,其中所述基頻為聲帶振動(dòng)的頻率;
[0062]所述分類模塊320,與所述基頻提取模塊310相連并調(diào)用所述基頻提取模塊310提取到的基頻值,根據(jù)所述基頻對(duì)所述待測語音的來源進(jìn)行分類并選擇預(yù)先訓(xùn)練的相應(yīng)類別的語首t旲型;
[0063]所述語音識(shí)別模塊330,與所述分類模塊320相連接,用于對(duì)待測語音進(jìn)行前端處理以獲取所述待測語音的特征參數(shù)的值,并將處理后的所述待測語音與所述分類模塊320分類所得的所述語音模型進(jìn)行匹配打分,從而獲取語音識(shí)別的結(jié)果。
[0064]具體地,所述基頻提取模塊310進(jìn)一步用于:對(duì)所述待測語音進(jìn)行端點(diǎn)檢測以獲取所述待測語音的起始點(diǎn);以所述起始點(diǎn)之后一定時(shí)間范圍內(nèi)的語音信號(hào)作為所述第一個(gè)語音包。
[0065]具體地,所述基頻提取模塊310進(jìn)一步還用于:采用基于時(shí)域的算法和/或基于空域的算法提取所述第一個(gè)語音包的基頻,其中,所述基于時(shí)域的算法包括自相關(guān)函數(shù)算法和平均幅度差函數(shù)算法,所述基于空域的算法包括倒普分析法和離散小波變換法。
[0066]具體地,所述分類模塊330用于:根據(jù)預(yù)設(shè)的基頻閾值判斷所述基頻所屬的閾值范圍,并根據(jù)所述閾值范圍對(duì)所述待測語音的來源進(jìn)行分類,其中,所述閾值范圍與語音的不同來源存在唯一的對(duì)應(yīng)關(guān)系。
[0067]具體地,所述裝置進(jìn)一步包括語音模型訓(xùn)練模塊340:對(duì)不同來源的語料進(jìn)行所述前端處理以獲取所述語料的所述特征參數(shù);根據(jù)所述特征參數(shù)對(duì)所述語料進(jìn)行訓(xùn)練,得到與不同的所述來源對(duì)應(yīng)的語音模型。
[0068]圖2所示裝置可以執(zhí)行圖1以及圖2所示實(shí)施例的方法,實(shí)現(xiàn)原理和技術(shù)效果參考圖1以及圖2所示實(shí)施例,不再贅述。
[0069]以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性的勞動(dòng)的情況下,即可以理解并實(shí)施。
[0070]通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實(shí)施方式可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件。基于這樣的理解,上述技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)裝置(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)裝置等)執(zhí)行各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
[0071]最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
【主權(quán)項(xiàng)】
1.一種動(dòng)態(tài)選擇語音模型的語音識(shí)別方法,其特征在于,包括如下的步驟: 獲取待測語音的第一個(gè)語音包,并對(duì)所述第一個(gè)語音包進(jìn)行基頻的提取,其中所述基頻為聲帶振動(dòng)的頻率; 根據(jù)所述基頻對(duì)所述待測語音的來源進(jìn)行分類并選擇預(yù)先訓(xùn)練的相應(yīng)類別的語音模型; 對(duì)待測語音進(jìn)行前端處理以獲取所述待測語音的特征參數(shù)的值,并將處理后的所述待測語音與所述語音模型進(jìn)行匹配打分,從而獲取語音識(shí)別的結(jié)果。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取待測語音的第一個(gè)語音包,進(jìn)一步包括: 對(duì)所述待測語音進(jìn)行端點(diǎn)檢測以獲取所述待測語音的起始點(diǎn); 以所述起始點(diǎn)之后一定時(shí)間范圍內(nèi)的語音信號(hào)作為所述第一個(gè)語音包。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述第一個(gè)語音包進(jìn)行基頻的提取,進(jìn)一步包括: 采用基于時(shí)域的算法和/或基于空域的算法提取所述第一個(gè)語音包的基頻,其中,所述基于時(shí)域的算法包括自相關(guān)函數(shù)算法和平均幅度差函數(shù)算法,所述基于空域的算法包括倒普分析法和離散小波變換法。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述基頻對(duì)所述待測語音的來源進(jìn)行分類,進(jìn)一步包括: 根據(jù)預(yù)設(shè)的基頻閾值判斷所述基頻所屬的閾值范圍,并根據(jù)所述閾值范圍對(duì)所述待測語音的來源進(jìn)行分類,其中,所述閾值范圍與語音的不同來源存在唯一的對(duì)應(yīng)關(guān)系。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述基頻對(duì)所述待測語音的來源進(jìn)行分類并選擇預(yù)先訓(xùn)練的相應(yīng)類別的語音模型之前,進(jìn)一步包括: 對(duì)不同來源的語料進(jìn)行所述前端處理以獲取所述語料的所述特征參數(shù); 根據(jù)所述特征參數(shù)對(duì)所述語料進(jìn)行訓(xùn)練,得到與不同的所述來源對(duì)應(yīng)的語音模型。6.一種動(dòng)態(tài)選擇語音模型的語音識(shí)別裝置,其特征在于,包括如下的模塊: 基頻提取模塊,用于獲取待測語音的第一個(gè)語音包,并對(duì)所述第一個(gè)語音包進(jìn)行基頻的提取,其中所述基頻為聲帶振動(dòng)的頻率; 分類模塊,用于根據(jù)所述基頻對(duì)所述待測語音的來源進(jìn)行分類并選擇預(yù)先訓(xùn)練的相應(yīng)類別的語首t旲型; 語音識(shí)別模塊,用于對(duì)待測語音進(jìn)行前端處理以獲取所述待測語音的特征參數(shù)的值,并將處理后的所述待測語音與所述語音模型進(jìn)行匹配打分,從而獲取語音識(shí)別的結(jié)果。7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述基頻提取模塊進(jìn)一步用于: 對(duì)所述待測語音進(jìn)行端點(diǎn)檢測以獲取所述待測語音的起始點(diǎn); 以所述起始點(diǎn)之后一定時(shí)間范圍內(nèi)的語音信號(hào)作為所述第一個(gè)語音包。8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述基頻提取模塊進(jìn)一步還用于: 采用基于時(shí)域的算法和/或基于空域的算法提取所述第一個(gè)語音包的基頻,其中,所述基于時(shí)域的算法包括自相關(guān)函數(shù)算法和平均幅度差函數(shù)算法,所述基于空域的算法包括倒普分析法和離散小波變換法。9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述分類模塊用于: 根據(jù)預(yù)設(shè)的基頻閾值判斷所述基頻所屬的閾值范圍,并根據(jù)所述閾值范圍對(duì)所述待測語音的來源進(jìn)行分類,其中,所述閾值范圍與語音的不同來源存在唯一的對(duì)應(yīng)關(guān)系。10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述裝置進(jìn)一步包括語音模型訓(xùn)練模塊: 對(duì)不同來源的語料進(jìn)行所述前端處理以獲取所述語料的所述特征參數(shù); 根據(jù)所述特征參數(shù)對(duì)所述語料進(jìn)行訓(xùn)練,得到與不同的所述來源對(duì)應(yīng)的語音模型。
【文檔編號(hào)】G10L15/07GK105895078SQ201510849106
【公開日】2016年8月24日
【申請(qǐng)日】2015年11月26日
【發(fā)明人】王永慶
【申請(qǐng)人】樂視致新電子科技(天津)有限公司