語音識別模型訓(xùn)練方法、說話人類型識別方法及裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例提供一種語音識別模型訓(xùn)練方法、說話人類型識別方法及裝置,獲取訓(xùn)練語音并提取其聲學(xué)特征,利用所述聲學(xué)特征,訓(xùn)練獲得用于提取說話人特征的特征識別器;利用所述特征識別器從每一個用戶類型對應(yīng)的目標(biāo)語音中提取說話人特征,作為所述用戶類型對應(yīng)的說話人特征;將不同用戶類型對應(yīng)的說話人特征以及所述特征提取器,作為說話人類型識別模型,利用說話人類型識別模型中所述特征識別器結(jié)合待識別語音的聲音特征,提取所述待識別語音的說話人特征,并將所述待識別語音的說話人特征與不同用戶類型對應(yīng)的說話人特征進(jìn)行匹配,將匹配度最高的說話人特征對應(yīng)的用戶類型識別為所述待識別語音的用戶類型。本發(fā)明實(shí)施實(shí)現(xiàn)了用戶類型的識別。
【專利說明】
語音識別模型訓(xùn)練方法、說話人類型識別方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明實(shí)施例涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種用于說話人類型識別的語音識別模型訓(xùn)練方法、語音識別模型訓(xùn)練裝置、說話人類型識別方法及裝置。
【背景技術(shù)】
[0002]隨著信息類型的多元化發(fā)展,例如影視劇類型的多樣化,不同用戶對信息類型的需求也不一樣,例如兒童、成年和老年對影視劇需求即不一樣,成年男和成年女對影視劇需求也不一樣。因此針對用戶類型推送或者顯示不同的信息內(nèi)容,可以極大提高用戶體驗(yàn)。而為了實(shí)現(xiàn)針對用戶類型推送或者顯示不同的信息內(nèi)容,就需要對用戶類型進(jìn)行區(qū)分。
[0003]目前的信息播放設(shè)備中,例如電視劇、電腦等中都配置有語音識別模塊,但是語音識別模塊通常只是用于提取語音信號的語言相關(guān)信息,識別關(guān)鍵詞,并用于信息查找等方面。而并無法實(shí)現(xiàn)對用戶類型的區(qū)分,因此如何提供一種說話人類型識別方案,實(shí)現(xiàn)對用戶類型的識別,成為本領(lǐng)域技術(shù)人員主要解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實(shí)施例提供一種語音識別模型訓(xùn)練方法、語音識別模型訓(xùn)練裝置、說話人類型識別方法及裝置,用以解決現(xiàn)有技術(shù)中無法實(shí)現(xiàn)用戶類型識別的計(jì)算問題。
[0005]本發(fā)明實(shí)施例提供一種語音識別模型訓(xùn)練方法,包括:
[0006]獲取訓(xùn)練語音并提取所述訓(xùn)練語音的聲學(xué)特征,所述訓(xùn)練語音包括不同用戶類型的語音;
[0007]利用所述聲學(xué)特征,訓(xùn)練獲得用于提取說話人特征的特征識別器;其中,不同用戶類型對應(yīng)的說話人特征不同;
[0008]利用所述特征識別器從每一個用戶類型對應(yīng)的目標(biāo)語音中提取說話人特征,作為所述用戶類型對應(yīng)的說話人特征;
[0009]將不同用戶類型對應(yīng)的說話人特征以及所述特征提取器,作為說話人類型識別模型,所述說話人類型識別模型用于利用所述特征識別器結(jié)合待識別語音的聲音特征,提取所述待識別語音的說話人特征,并將所述待識別語音的說話人特征與不同用戶類型對應(yīng)的說話人特征進(jìn)行匹配,將匹配度最高的說話人特征對應(yīng)的用戶類型識別為所述待識別語音的用戶類型。
[0010]本發(fā)明實(shí)施例提供一種說話人類型識別方法,包括:
[0011 ]獲取待識別語音,并提取所述待識別語音的聲學(xué)特征;
[0012]利用說話人類型識別模型中的特征識別器以及所述聲學(xué)特征,提取所述待識別語音的說話人特征;所述說話人類型識別模型包括特征識別器以及不同用戶類型對應(yīng)的說話人特征;所述特征識別器利用訓(xùn)練語音的聲學(xué)特征訓(xùn)練獲得;所述不同用戶類型對應(yīng)的說話人特征利用所述特征識別器從所述用戶類型對應(yīng)的目標(biāo)語音中提取獲得;
[0013]分別計(jì)算所述待識別語音的說話人特征,與所述說話人類型識別模型中不同用戶類型對應(yīng)的說話人特征的匹配度;
[0014]將匹配度最高的說話人特征對應(yīng)的用戶類型識別為所述待識別語音的用戶類型。
[0015]本發(fā)明實(shí)施例提供一種語音識別模型訓(xùn)練裝置,包括:
[0016]第一提取模塊,用于獲取訓(xùn)練語音并提取所述訓(xùn)練語音的聲學(xué)特征,所述訓(xùn)練語音包括不同用戶類型的語音;
[0017]訓(xùn)練模塊,用于利用所述聲學(xué)特征,訓(xùn)練獲得用于提取說話人特征的特征識別器;其中,不同用戶類型對應(yīng)的說話人特征不同;
[0018]第二提取模塊,用于利用所述特征識別器從每一個用戶類型對應(yīng)的目標(biāo)語音中提取說話人特征,作為所述用戶類型對應(yīng)的說話人特征;
[0019]模型生成模塊,用于將不同用戶類型對應(yīng)的說話人特征以及所述特征提取器,作為說話人類型識別模型,所述說話人類型識別模型用于利用所述特征識別器結(jié)合待識別語音的聲音特征,提取所述待識別語音的說話人特征,并將所述待識別語音的說話人特征與不同用戶類型對應(yīng)的說話人特征進(jìn)行匹配,將匹配度最高的說話人特征對應(yīng)的用戶類型識別為所述待識別語音的用戶類型。
[0020]本發(fā)明實(shí)施例提供一種說話人類型識別裝置,包括:
[0021]第三提取模塊,用于獲取待識別語音,并提取所述待識別語音的聲學(xué)特征;
[0022]第四提取模塊,用于利用說話人類型識別模型中的特征識別器以及所述聲學(xué)特征,提取所述待識別語音的說話人特征;所述說話人類型識別模型包括特征識別器以及不同用戶類型對應(yīng)的說話人特征;所述特征識別器利用訓(xùn)練語音的聲學(xué)特征訓(xùn)練獲得;所述不同用戶類型對應(yīng)的說話人特征利用所述特征識別器從所述不同用戶類型對應(yīng)的目標(biāo)語首中提取獲得;
[0023]匹配度計(jì)算模塊,用于分別計(jì)算所述待識別語音的說話人特征,與所述說話人類型識別模型中不同用戶類型對應(yīng)的說話人特征的匹配度;
[0024]識別模塊,用于將匹配度最高的說話人特征對應(yīng)的用戶類型識別為所述待識別語音的用戶類型。
[0025]本發(fā)明實(shí)施例提供的語音識別模型訓(xùn)練方法、語音識別模型訓(xùn)練裝置、說話人類型識別方法及裝置,獲取訓(xùn)練語音并提取所述訓(xùn)練語音的聲學(xué)特征,所述訓(xùn)練語音包括不同用戶類型的語音;利用所述聲學(xué)特征,訓(xùn)練獲得用于提取說話人特征的特征識別器;其中,不同用戶類型對應(yīng)的說話人特征不同,利用所述特征識別器從每一個用戶類型對應(yīng)的目標(biāo)語音中提取說話人特征,作為所述用戶類型對應(yīng)的說話人特征;將不同用戶類型對應(yīng)的說話人特征以及所述特征提取器,作為說話人類型識別模型,從而在進(jìn)行說話人類型識別時,利用所述說話人類型識別模型中的所述特征識別器結(jié)合待識別語音的聲音特征,可以提取所述待識別語音的說話人特征,并將所述待識別語音的說話人特征與不同用戶類型對應(yīng)的說話人特征進(jìn)行匹配,匹配度最高的說話人特征對應(yīng)的用戶類型即為所述待識別語音的用戶類型,從而實(shí)現(xiàn)了用戶類型的識別。
【附圖說明】
[0026]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0027]圖1為本發(fā)明語音識別模型訓(xùn)練方法一個實(shí)施例流程圖;
[0028]圖2為本發(fā)明說話人類型識別方法一個實(shí)施例流程圖;
[0029]圖3為本發(fā)明語音識別模型訓(xùn)練裝置一個實(shí)施例結(jié)構(gòu)示意圖;
[0030]圖4為本發(fā)明說話人類型識別裝置一個實(shí)施例結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0031]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0032]本發(fā)明的技術(shù)方案適用于語音識別場景中,用于區(qū)分不同用戶類型,用戶類型可以包括成年男、成年女、老人或者兒童,對用戶類型的區(qū)分可以應(yīng)用于不同的應(yīng)用場景中,例如智能電視通過區(qū)分用戶類型可以向不同用戶類型的用戶展示不同的影視內(nèi)容等。
[0033]在本發(fā)明實(shí)施例中,為了實(shí)現(xiàn)不同用戶類型的區(qū)分,首先進(jìn)行模型訓(xùn)練,獲取訓(xùn)練語音并提取所述訓(xùn)練語音的聲學(xué)特征,所述訓(xùn)練語音包括不同用戶類型的語音;利用所述聲學(xué)特征,訓(xùn)練獲得用于提取說話人特征的特征識別器;其中,不同用戶類型對應(yīng)的說話人特征不同,利用所述特征識別器從每一個用戶類型對應(yīng)的目標(biāo)語音中提取說話人特征,作為所述用戶類型對應(yīng)的說話人特征;將不同用戶類型對應(yīng)的說話人特征以及所述特征提取器,作為說話人類型識別模型,從而在進(jìn)行說話人類型識別時,利用所述說話人類型識別模型中的所述特征識別器結(jié)合待識別語音的聲音特征,可以提取所述待識別語音的說話人特征,并將所述待識別語音的說話人特征與不同用戶類型對應(yīng)的說話人特征進(jìn)行匹配,匹配度最高的說話人特征對應(yīng)的用戶類型即為所述待識別語音的用戶類型,從而實(shí)現(xiàn)了用戶類型的識別。
[0034]下面將結(jié)合附圖對本發(fā)明技術(shù)方案進(jìn)行詳細(xì)描述。
[0035]圖1是本發(fā)明實(shí)施例提供的一種語音識別模型訓(xùn)練方法一個實(shí)施例的流程圖,該方法可以包括以下幾個步驟:
[0036]101:獲取訓(xùn)練語音并提取所述訓(xùn)練語音的聲學(xué)特征。
[0037]其中,所述訓(xùn)練語音包括不同用戶類型的語音。
[0038]通常選擇大規(guī)模的訓(xùn)練語音,一般超過50小時。
[0039]不同用戶類型可以包括成年男、成年女、老人或者兒童,不同用戶類型對應(yīng)的語音量相同或相近。
[0040]對于大量的訓(xùn)練語音,首先提取聲學(xué)特征,該聲學(xué)特征可以是MF C C (M e IFrequency Cepstrum Coefficient,梅爾頻率倒譜系數(shù))特征。
[0041]102:利用所述聲學(xué)特征,訓(xùn)練獲得用于提取說話人特征的特征識別器。
[0042]其中,不同用戶類型對應(yīng)的說話人特征不同。
[0043]其中,所述說話人特征為與文本無關(guān)的特征。通過利用聲學(xué)特征計(jì)算獲得。因此利用所述聲學(xué)特征,可以訓(xùn)練用于提取說話人特征的特征識別器。
[0044]該說話人特征可以是基頻特征,發(fā)明人在研究中發(fā)現(xiàn),人聲基頻一般在140Hz(赫茲)到300Hz之間,通常女性比男性的基頻高,兒童比成人基頻高,從而可以利用基頻特征進(jìn)行不同用戶類型的區(qū)分。
[0045]當(dāng)然,為了進(jìn)一步提高識別準(zhǔn)確度,該說話人特征可以是1-Vector(1-向量)特征。1-Vector特征能夠反映說話人聲學(xué)差異,從而可以實(shí)現(xiàn)對不同用戶類型的區(qū)分。
[0046]利用訓(xùn)練語音的聲學(xué)特征可以訓(xùn)練特征識別器,以用于提取說話人特征。在說話人特征為1-Vector特征時,該特征識別器具體即是一個T矩陣。
[0047]其中,利用所述聲學(xué)特征,訓(xùn)練獲得用于提取說話人特征的特征識別器可以具體是:
[0048]利用所述聲學(xué)特征可以首先訓(xùn)練獲得UBM(Universal Background Model,通用背景模型),再利用UBM,訓(xùn)練獲得用于提取說話人特征的特征識別器。
[0049]103:利用所述特征識別器從每一個用戶類型對應(yīng)的目標(biāo)語音中提取說話人特征,作為所述用戶類型對應(yīng)的說話人特征。
[0050]目標(biāo)語音可以是在應(yīng)用環(huán)境中采集的目標(biāo)語音,用于進(jìn)行訓(xùn)練。
[0051]例如應(yīng)用于電視機(jī)中時,每一個用戶類型的目標(biāo)語音可以是利用電視機(jī)的麥克風(fēng)采集獲得的每一個用戶類型的目標(biāo)語音。
[0052]其中這些目標(biāo)語音具有一定時長,通常至少為I個小時,以提高識別精確度。
[0053]獲得目標(biāo)語音之后,即可以利用步驟102訓(xùn)練獲得的特征識別器提取說話人特征。
[0054]為了提高識別準(zhǔn)確度,每一個用戶類型的目標(biāo)語音可以包括多個,從而具體的可以是利用所述特征識別器從每一個用戶類型的多個目標(biāo)語音中分別提取說話人特征,并將提取獲得的多個說話人特征的平均值作為所述用戶類型對應(yīng)的說話人特征。
[0055]104:將不同用戶類型對應(yīng)的說話人特征以及所述特征識別器,作為說話人類型識別模型。
[0056]訓(xùn)練獲得的特征識別器以及利用特征識別器從目標(biāo)語音中提取的每一用戶類型對應(yīng)的說話人特征,即作為說話人類型識別模型。
[0057]在進(jìn)行說話人類型識別時,即可以利用所述說話人類型識別模型的特征識別器結(jié)合待識別語音的聲音特征,提取所述待識別語音的說話人特征,并將所述待識別語音的說話人特征與不同用戶類型對應(yīng)的說話人特征進(jìn)行匹配,將匹配度最高的說話人特征對應(yīng)的用戶類型識別所述待識別語音的用戶類型。
[0058]在本實(shí)施例中,通過訓(xùn)練獲得的說話人類型識別模型,實(shí)現(xiàn)了識別用戶類型目的,從而實(shí)現(xiàn)對不同用戶類型的區(qū)分。
[0059]在實(shí)際應(yīng)用中,通過識別用戶語音,確定用戶類型,以可以針對性的向用戶推送其用戶類型對應(yīng)的相關(guān)信息等。
[0060]圖2為本發(fā)明實(shí)施例提供的一種說話人類型識別方法一個實(shí)施例的流程圖,該方法可以包括以下幾個步驟:
[0061]201:獲取待識別語音,并提取所述待識別語音的聲學(xué)特征。
[0062]在實(shí)際應(yīng)用中,該待識別語音可以是設(shè)備采集的用戶輸入的語音,通過對該待識別語音進(jìn)行識別,以實(shí)現(xiàn)確定所述用戶的用戶類型的目的。
[0063]202:利用說話人類型識別模型中的特征識別器以及所述聲學(xué)特征,提取所述待識別語首的說話人特征。
[0064]其中,所述說話人類型識別模型包括特征識別器以及不同用戶類型對應(yīng)的說話人特征;所述特征識別器利用訓(xùn)練語音的聲學(xué)特征訓(xùn)練獲得;所述不同用戶類型對應(yīng)的說話人特征利用所述特征識別器從所述不同用戶類型的目標(biāo)語音中提取獲得。
[0065]其中,所述說話人類型識別模型的具體訓(xùn)練過程可以參見圖1對應(yīng)實(shí)施例,在此不再贅述。
[0066]203:分別計(jì)算所述待識別語音的說話人特征與所述說話人類型識別模型中不同用戶類型對應(yīng)的說話人特征的匹配度。
[0067]204:將匹配度最高的說話人特征對應(yīng)的用戶類型識別為所述待識別語音的用戶類型。
[0068]匹配度最高的說話人特征對應(yīng)的用戶類型,即識別為待識別語音的用戶類型。
[0069]其中,說話人特征為1-Vector特征時,計(jì)算所述待識別語音的說話人特征與所述說話人類型識別模型中不同用戶類型對應(yīng)的說話人特征的匹配度具體可以是:
[0070]分別計(jì)算所述待識別語音的1-Vector特征與所述說話人類型識別模型中不同用戶類型的1-Vector特征的距離作為匹配度;其中距離越小,匹配度越大。
[0071]計(jì)算的待識別語音的1-Vector特征與所述說話人類型識別模型中不同用戶類型的1-Vector特征的距離具體可以是余弦距離。
[0072]從而最小距離對應(yīng)的用戶類型,即識別為所述待識別語音的用戶類型。
[0073]通過本實(shí)施例,實(shí)現(xiàn)了用戶類型的確定,從而實(shí)現(xiàn)了根據(jù)語音區(qū)分不同用戶類型的目的。
[0074]圖3為本發(fā)明實(shí)施例提供的一種語音識別模型訓(xùn)練裝置一個實(shí)施例的結(jié)構(gòu)示意圖,該裝置可以包括:
[0075]第一提取模塊301,用于獲取訓(xùn)練語音并提取所述訓(xùn)練語音的聲學(xué)特征。
[0076]所述訓(xùn)練語音包括不同用戶類型的語音。
[0077]不同用戶類型可以包括成年男、成年女、老人或者兒童。
[0078]對于大量的訓(xùn)練語音,首先提取聲學(xué)特征,該聲學(xué)特征可以是MFCC特征。
[0079]訓(xùn)練模塊302,用于利用所述聲學(xué)特征,訓(xùn)練獲得用于提取說話人特征的特征識別器。
[0080]其中,不同用戶類型對應(yīng)的說話人特征不同。
[0081]其中,所述說話人特征為與文本無關(guān)的特征。通過利用聲學(xué)特征計(jì)算獲得。因此利用所述聲學(xué)特征,可以訓(xùn)練用于提取說話人特征的特征識別器。
[0082]該說話人特征可以是基頻特征。人聲基頻一般在140Hz(赫茲)到300Hz之間,通常女性比男性的基頻高,兒童比成人基頻高,從而可以利用基頻特征進(jìn)行不同用戶類型的區(qū)分。
[0083]當(dāng)然,為了進(jìn)一步提高識別準(zhǔn)確度,該說話人特征可以是1-Vector特征。1-Vector特征能夠反映說話人聲學(xué)差異,從而可以實(shí)現(xiàn)對不同用戶類型的區(qū)分。
[0084]利用訓(xùn)練語音的聲學(xué)特征可以訓(xùn)練特征識別器,以用于提取說話人特征。在說話人特征為1-Vector特征時,該特征識別器具體即是一個T矩陣。
[0085]作為又一個實(shí)施例,該訓(xùn)練模塊可以包括:
[0086]第一訓(xùn)練單元,用于利用所述聲學(xué)特征,訓(xùn)練獲得通用背景模型;
[0087]第二訓(xùn)練單元,用于利用所述通用背景模型,訓(xùn)練獲得用于提取說話人特征的特征識別器。
[0088]第二提取模塊303,用于利用所述特征識別器從每一個用戶類型對應(yīng)的目標(biāo)語音中提取說話人特征,作為所述用戶類型對應(yīng)的說話人特征。
[0089]目標(biāo)語音可以是在應(yīng)用環(huán)境中采集的目標(biāo)語音,用于進(jìn)行訓(xùn)練。
[0090]例如應(yīng)用于電視機(jī)中時,每一個用戶類型的目標(biāo)語音可以是利用電視機(jī)的麥克風(fēng)采集獲得的每一個用戶類型的目標(biāo)語音。
[0091]為了提高識別準(zhǔn)確度,每一個用戶類型的目標(biāo)語音可以包括多個,因此,作為又一個實(shí)施例,所述第二提取模塊具體用于利用所述特征識別器從每一個用戶類型的多個目標(biāo)語音中分別提取說話人特征,并提取獲得的多個說話人特征的平均值作為所述用戶類型對應(yīng)的說話人特征。
[0092]模型生成模塊304,用于將不同用戶類型對應(yīng)的說話人特征以及所述特征提取器,作為說話人類型識別模型。
[0093]訓(xùn)練獲得的特征識別器以及利用特征識別器從目標(biāo)語音中提取的每一用戶類型對應(yīng)的說話人特征,即作為說話人類型識別模型。
[0094]在進(jìn)行說話人類型識別時,即可以利用所述說話人類型識別模型的特征識別器結(jié)合待識別語音的聲音特征,提取所述待識別語音的說話人特征,并將所述待識別語音的說話人特征與不同用戶類型對應(yīng)的說話人特征進(jìn)行匹配,將匹配度最高的說話人特征對應(yīng)的用戶類型識別所述待識別語音的用戶類型。
[0095]在本實(shí)施例中,通過訓(xùn)練獲得的說話人類型識別模型,實(shí)現(xiàn)了識別用戶類型目的,從而實(shí)現(xiàn)對不同用戶類型的區(qū)分。
[0096]在實(shí)際應(yīng)用中,通過識別用戶語音,確定用戶類型,以可以針對性的向用戶推送其用戶類型對應(yīng)的相關(guān)信息等。
[0097]圖4為本發(fā)明實(shí)施例提供的一種說話人類型識別裝置一個實(shí)施例的結(jié)構(gòu)示意圖,該裝置可以包括:
[0098]第三提取模塊401,用于獲取待識別語音,并提取所述待識別語音的聲學(xué)特征。
[0099]在實(shí)際應(yīng)用中,該待識別語音可以是設(shè)備采集的用戶輸入的語音,通過對該待識別語音進(jìn)行識別,以實(shí)現(xiàn)確定所述用戶的用戶類型的目的。
[0100]第四提取模塊402,用于利用說話人類型識別模型中的特征識別器以及所述聲學(xué)特征,提取所述待識別語音的說話人特征。
[0101]其中,所述說話人類型識別模型包括特征識別器以及不同用戶類型對應(yīng)的說話人特征;所述特征識別器利用訓(xùn)練語音的聲學(xué)特征訓(xùn)練獲得;所述不同用戶類型對應(yīng)的說話人特征利用所述特征識別器從所述不同用戶類型的目標(biāo)語音提取中獲得。
[0102]其中,所述說話人類型識別模型的具體訓(xùn)練過程可以參見上述實(shí)施例中所述,在此不再贅述。
[0103]匹配度計(jì)算模塊403,用于分別計(jì)算所述待識別語音的說話人特征與所述說話人類型識別模型中不同用戶類型對應(yīng)的說話人特征的匹配度。
[0104]識別模塊404,用于將匹配度最高的說話人特征對應(yīng)的用戶類型識別為所述待識別語音的用戶類型。
[0105]匹配度最高的說話人特征對應(yīng)的用戶類型,即識別為待識別語音的用戶類型。
[0106]其中,說話人特征為1-Vector特征時,所述匹配度計(jì)算模塊具體用于:
[0107]分別計(jì)算所述待識別語音的1-Vector特征與所述說話人類型識別模型中不同用戶類型的1-Vector特征的距離作為匹配度;其中距離越小,匹配度越大。
[0108]計(jì)算待識別語音的1-Vector特征與所述說話人類型識別模型中不同用戶類型的1-Vector特征的距離具體可以是余弦距離。
[0109]從而最小距離對應(yīng)的用戶類型,即識別為所述待識別語音的用戶類型。
[0110]通過本實(shí)施例,實(shí)現(xiàn)了用戶類型的確定,從而實(shí)現(xiàn)了根據(jù)語音區(qū)分不同用戶類型的目的。
[0111]在實(shí)際應(yīng)用中,圖4所示的說話人類型識別裝置可以配置在諸如智能電視、手機(jī)、平板電腦等智能電子設(shè)備中,實(shí)現(xiàn)對用戶輸入的語音進(jìn)行用戶類型識別,從而針對不同的用戶類型,可以推送或顯示不同的信息。
[0112]以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性的勞動的情況下,即可以理解并實(shí)施。
[0113]通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實(shí)施方式可借助軟件加必需的通用硬件平臺的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件?;谶@樣的理解,上述技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲在計(jì)算機(jī)可讀存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可以是個人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個實(shí)施例或者實(shí)施例的某些部分所述的方法。
[0114]最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
【主權(quán)項(xiàng)】
1.一種語音識別模型訓(xùn)練方法,其特征在于,包括: 獲取訓(xùn)練語音并提取所述訓(xùn)練語音的聲學(xué)特征,所述訓(xùn)練語音包括不同用戶類型的語■~>V.曰; 利用所述聲學(xué)特征,訓(xùn)練獲得用于提取說話人特征的特征識別器;其中,不同用戶類型對應(yīng)的說話人特征不同; 利用所述特征識別器從每一個用戶類型對應(yīng)的目標(biāo)語音中提取說話人特征,作為所述用戶類型對應(yīng)的說話人特征; 將不同用戶類型對應(yīng)的說話人特征以及所述特征提取器,作為說話人類型識別模型,所述說話人類型識別模型用于利用所述特征識別器結(jié)合待識別語音的聲音特征,提取所述待識別語音的說話人特征,并將所述待識別語音的說話人特征與不同用戶類型對應(yīng)的說話人特征進(jìn)行匹配,將匹配度最高的說話人特征對應(yīng)的用戶類型識別為所述待識別語音的用戶類型。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用所述聲學(xué)特征,訓(xùn)練獲得用于提取說話人特征的特征識別器包括: 利用所述聲學(xué)特征,訓(xùn)練用于計(jì)算1-Vector特征的T矩陣,所述T矩陣為特征識別器,所述1-Vector特征為說話人特征。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用所述特征識別器從每一個用戶類型對應(yīng)的目標(biāo)語音中提取說話人特征,作為所述用戶類型對應(yīng)的說話人特征包括: 利用所述特征識別器從每一個用戶類型的多個目標(biāo)語音中分別提取說話人特征,并提取獲得的多個說話人特征的平均值作為所述用戶類型對應(yīng)的說話人特征。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用所述聲學(xué)特征,訓(xùn)練獲得用于提取說話人特征的特征識別器包括: 利用所述聲學(xué)特征,訓(xùn)練獲得通用背景模型; 利用所述通用背景模型,訓(xùn)練獲得用于提取說話人特征的特征識別器。5.一種說話人類型識別方法,其特征在于,包括: 獲取待識別語音,并提取所述待識別語音的聲學(xué)特征; 利用說話人類型識別模型中的特征識別器以及所述聲學(xué)特征,提取所述待識別語音的說話人特征;所述說話人類型識別模型包括特征識別器以及不同用戶類型對應(yīng)的說話人特征;所述特征識別器利用訓(xùn)練語音的聲學(xué)特征訓(xùn)練獲得;所述不同用戶類型對應(yīng)的說話人特征利用所述特征識別器從所述不同用戶類型的目標(biāo)語音中提取獲得; 分別計(jì)算所述待識別語音的說話人特征,與所述說話人類型識別模型中不同用戶類型對應(yīng)的說話人特征的匹配度; 將匹配度最高的說話人特征對應(yīng)的用戶類型識別為所述待識別語音的用戶類型。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述說話人特征為1-Vector特征; 所述分別計(jì)所述算所述待識別語音的說話人特征,與所述說話人類型識別模型中不同用戶類型對應(yīng)的說話人特征的匹配度包括: 分別計(jì)算所述待識別語音的1-Vector特征,與所述說話人類型識別模型中不同用戶類型對應(yīng)的1-Vector特征的距離作為匹配度;其中距離越小,匹配度越大。7.一種語音識別模型訓(xùn)練裝置,其特征在于,包括: 第一提取模塊,用于獲取訓(xùn)練語音并提取所述訓(xùn)練語音的聲學(xué)特征,所述訓(xùn)練語音包括不同用戶類型的語音; 訓(xùn)練模塊,用于利用所述聲學(xué)特征,訓(xùn)練獲得用于提取說話人特征的特征識別器;其中,不同用戶類型對應(yīng)的說話人特征不同; 第二提取模塊,用于利用所述特征識別器從每一個用戶類型對應(yīng)的目標(biāo)語音中提取說話人特征,作為所述用戶類型對應(yīng)的說話人特征; 模型生成模塊,用于將不同用戶類型對應(yīng)的說話人特征以及所述特征提取器,作為說話人類型識別模型,所述說話人類型識別模型用于利用所述特征識別器結(jié)合待識別語音的聲音特征,提取所述待識別語音的說話人特征,并將所述待識別語音的說話人特征與不同用戶類型對應(yīng)的說話人特征進(jìn)行匹配,將匹配度最高的說話人特征對應(yīng)的用戶類型識別為所述待識別語音的用戶類型。8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述訓(xùn)練模塊具體用于: 利用所述聲學(xué)特征,訓(xùn)練用于計(jì)算1-Vector特征的T矩陣,所述T矩陣為特征識別器,所述1-Vector特征為說話人特征。9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第二提取模塊具體用于: 利用所述特征識別器從每一個用戶類型的多個目標(biāo)語音中分別提取說話人特征,并提取獲得的多個說話人特征的平均值作為所述用戶類型對應(yīng)的說話人特征。10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述訓(xùn)練模塊包括: 第一訓(xùn)練單元,用于利用所述聲學(xué)特征,訓(xùn)練獲得通用背景模型; 第二訓(xùn)練單元,用于利用所述通用背景模型,訓(xùn)練獲得用于提取說話人特征的特征識別器。11.一種說話人類型識別裝置,其特征在于,包括: 第三提取模塊,用于獲取待識別語音,并提取所述待識別語音的聲學(xué)特征; 第四提取模塊,用于利用說話人類型識別模型中的特征識別器以及所述聲學(xué)特征,提取所述待識別語音的說話人特征;所述說話人類型識別模型包括特征識別器以及不同用戶類型對應(yīng)的說話人特征;所述特征識別器利用訓(xùn)練語音的聲學(xué)特征訓(xùn)練獲得;所述不同用戶類型對應(yīng)的說話人特征利用所述特征識別器從所述不同用戶類型的目標(biāo)語音中提取獲得; 匹配度計(jì)算模塊,用于分別計(jì)算所述待識別語音的說話人特征,與所述說話人類型識別模型中不同用戶類型對應(yīng)的說話人特征的匹配度; 識別模塊,用于將匹配度最高的說話人特征對應(yīng)的用戶類型識別為所述待識別語音的用戶類型。12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述說話人特征為1-Vector特征; 所述匹配度計(jì)算模塊具體用于: 分別計(jì)算所述待識別語音的1-Vector特征與所述說話人類型識別模型中不同用戶類型的1-Vector特征的距離作為匹配度;其中距離越小,匹配度越大。
【文檔編號】G10L15/02GK105895080SQ201610195561
【公開日】2016年8月24日
【申請日】2016年3月30日
【發(fā)明人】張俊博
【申請人】樂視控股(北京)有限公司, 樂視致新電子科技(天津)有限公司