專利名稱:音頻處理方法和音頻處理設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及ー種音頻處理方法和音頻處理設(shè)備,且更具體地,涉及ー種用于檢測(cè)說(shuō)話人改變點(diǎn)的音頻處理方法和音頻處理設(shè)備。
背景技術(shù):
現(xiàn)今,隨著數(shù)據(jù)量的不斷増加,越來(lái)越需要從大量數(shù)據(jù)中提取有意義的信息。ー種這樣的應(yīng)用是從音頻中提取信息。這種音頻可以包括例如語(yǔ)音音頻、新聞廣播、電話交談、或非語(yǔ)音的音頻、諸如音樂(lè)或背景噪聲等。但是,音頻文件通常被認(rèn)為是僅具有諸如名稱、文件格式、采樣率等的最原始信息標(biāo)簽的晦澀字節(jié)。為了使得音頻文件更容易訪問(wèn)和處理,需要從音頻文件中提取更多的信息、諸如音頻數(shù)據(jù)的重要信息之一的說(shuō)話人相關(guān)的信息, 來(lái)有助于語(yǔ)音識(shí)別、音頻檢索等應(yīng)用,來(lái)用于說(shuō)話人跟蹤麥克風(fēng)、說(shuō)話人自動(dòng)對(duì)焦的攝像系統(tǒng)、機(jī)器人(人機(jī)對(duì)話)等的產(chǎn)品。為了從音頻中提取這些有意義的信息,一般需要通過(guò)找到諸如說(shuō)話人改變點(diǎn)的音頻改變點(diǎn)來(lái)對(duì)音頻進(jìn)行分段,使得每個(gè)音頻片段可能僅包括同一說(shuō)話人、或同一聲學(xué)條件、或同一類別的音頻,由此單獨(dú)地處理每個(gè)音頻片段,例如對(duì)每個(gè)音頻片段建立同一聲學(xué)模型等,從而實(shí)現(xiàn)語(yǔ)音識(shí)別、音頻檢索等的目的。已經(jīng)提出了很多技術(shù)來(lái)對(duì)音頻進(jìn)行分段。其中廣泛應(yīng)用的ー種方式是基于貝葉斯信息準(zhǔn)則(Bayesian Information Criterion, BIC)來(lái)對(duì)音頻進(jìn)行分段。BIC用于通過(guò)確定信號(hào)特征改變的最可能的位置來(lái)確定音頻片段分界的位置。BIC給出了一種準(zhǔn)則來(lái)確定在音頻中某個(gè)點(diǎn)處的改變是否是顯著的。在 Chen S, Gopalakrishnan P 的論又“Speaker, environment and channelchange detection and clustering via the Bayesian imormation criterion”,DARPABroadcast News Trans and Under Workshop, 1998. 8 中描述了如何使用 BIC 準(zhǔn)則來(lái)確定在音頻中的改變點(diǎn)。首先,BIC方法從整個(gè)音頻段中針對(duì)每個(gè)時(shí)間點(diǎn)提取倒頻向量(cepstral vector)的序列,然后通過(guò)高斯模型來(lái)計(jì)算在姆個(gè)時(shí)間點(diǎn)處的BIC值,并將BIC值之間的差A(yù)BIC的大于0的最大值所處的時(shí)間點(diǎn)認(rèn)為是音頻改變點(diǎn)。在美國(guó)專利US7243062中也公開了ー種使用BIC來(lái)找到音頻改變點(diǎn)并對(duì)音頻序列進(jìn)行分段的方法和裝置。其沿著音頻序列形成一系列幀,且對(duì)于每個(gè)幀提取數(shù)據(jù)特征以形成數(shù)據(jù)特征的序列。通過(guò)拉普拉斯分布模型來(lái)對(duì)數(shù)據(jù)特征的序列計(jì)算BIC的值,并計(jì)算BIC之間的差A(yù)BICJf ABIC的大于0的最大值所處的時(shí)間點(diǎn)認(rèn)為是音頻改變點(diǎn)。
發(fā)明內(nèi)容
現(xiàn)有技術(shù)都使用ABIC的最大值來(lái)判斷音頻改變點(diǎn),而沒(méi)有考慮ABIC的值的趨勢(shì)、分布、曲線的形狀等。因此,當(dāng)在音頻中本不應(yīng)該是音頻改變點(diǎn)的時(shí)間點(diǎn)處發(fā)生了波形上的突變、例如同一說(shuō)話人突然提高嗓音時(shí),現(xiàn)有的基于ABIC的最大值的判斷方式可能將該點(diǎn)判斷為說(shuō)話人改變點(diǎn),但此時(shí)說(shuō)話人實(shí)際并未改變,這樣將導(dǎo)致說(shuō)話人改變點(diǎn)的判斷錯(cuò)誤,使得后續(xù)的說(shuō)話人相關(guān)的處理產(chǎn)生偏差或造成不必要的計(jì)算資源浪費(fèi)。
因此,需要一種更準(zhǔn)確地檢測(cè)音頻改變點(diǎn)的方法和設(shè)備。根據(jù)本發(fā)明的ー個(gè)方面,提供ー種音頻處理方法,所述方法包括以下步驟a)根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段;對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段b)在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處,提取一種或多種音頻特征作為音頻特征向量;c)針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè),通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值;d)通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn),將該片段劃分為第一部分和第二部分;以及e)通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布,來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)。在本發(fā)明的一個(gè)實(shí)施例中,可以對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段,通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布,來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)的步驟包括計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率,以及將所述概率與預(yù)定閾值比較,如果該概率大于或等于該預(yù)定閾值,則判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn),其中,如果第一部分和第二部分中的兩個(gè)曲線的幅度越靠近該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)處越單調(diào)地升高且升高得越高,則該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率越大。在本發(fā)明的一個(gè)實(shí)施例中,可以在計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率的步驟中將第一部分的曲線劃分為多個(gè)第一時(shí)間段,其中,在每個(gè)第一時(shí)間段中,第一部分的曲線對(duì)時(shí)間求積分所得的面積值等于預(yù)定面積值;將第二部分的曲線劃分為多個(gè)第二時(shí)間段,其中,在每個(gè)第二時(shí)間段中,第二部分的曲線對(duì)時(shí)間求積分所得的面積值等于所述預(yù)定面積值;計(jì)算在各個(gè)第一時(shí)間段中的曲線的均值;計(jì)算在各個(gè)第二時(shí)間段中的曲線的均值;以第一部分的第一個(gè)第一時(shí)間段中的曲線的均值為基礎(chǔ),如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值大,則加上下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值,如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值小,則減去下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值的倍數(shù),以獲得第一部分的概率;以第二部分的最后ー個(gè)第二時(shí)間段中的曲線的均值為基礎(chǔ),如果前ー第二時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值大,則加上前一第ニ時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值,如果前ー第二時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值小,則減去前一第二時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值的倍數(shù),以獲得第二部分的概率;以及以預(yù)定權(quán)重來(lái)組合第一部分的概率和第二部分的概率來(lái)獲得該片段中該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率。在本發(fā)明的一個(gè)實(shí)施例中,在步驟a)中,可以根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段使得每個(gè)片段足夠短以僅包含一個(gè)或兩個(gè)說(shuō)話人的聲音。在本發(fā)明的一個(gè)實(shí)施例中,方法還可以包括f)通過(guò)各個(gè)片段中在步驟e)中所判斷的各個(gè)說(shuō)話人改變點(diǎn)以及在步驟a)中初始分段的各個(gè)分段點(diǎn),將所述音頻分段為新的片段,針對(duì)兩兩相鄰的兩個(gè)新的片段所合成的ー個(gè)片段,通過(guò)重復(fù)步驟b)到e)來(lái)進(jìn)ー步判斷該合成的片段中是否存在新的說(shuō)話人改變點(diǎn);以及g)根據(jù)所有說(shuō)話人改變點(diǎn)來(lái)對(duì)所述 音頻進(jìn)行最終地分段。
根據(jù)本發(fā)明的另一方面,提供ー種音頻處理設(shè)備,所述設(shè)備包括初始分段裝置,根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段;說(shuō)話人改變點(diǎn)判斷裝置,包括對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段的音頻特征向量提取裝置,在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處,提取一種或多種音頻特征作為音頻特征向量;貝葉斯信息準(zhǔn)則值計(jì)算裝置,針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè),通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值;片段劃分裝置,通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn),將該片段劃分為第一部分和第二部分;以及判斷裝置,通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布,來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)。在本發(fā)明的一個(gè)實(shí)施例中,所述判斷裝置可以包括計(jì)算裝置,計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率;以及比較裝置,將所述概率與預(yù)定閾值比較,如果該概 率大于或等于該預(yù)定閾值,則判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn),其中,如果第一部分和第二部分中的兩個(gè)曲線的幅度越靠近該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)處越單調(diào)地升高且升高得越高,則該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率越大。在本發(fā)明的一個(gè)實(shí)施例中,所述計(jì)算裝置可以包括將第一部分的曲線劃分為多個(gè)第一時(shí)間段的裝置,其中,在每個(gè)第一時(shí)間段中,第一部分的曲線對(duì)時(shí)間求積分所得的面積值等于預(yù)定面積值;將第二部分的曲線劃分為多個(gè)第二時(shí)間段的裝置,其中,在每個(gè)第二時(shí)間段中,第二部分的曲線對(duì)時(shí)間求積分所得的面積值等于所述預(yù)定面積值;計(jì)算在各個(gè)第一時(shí)間段中的曲線的均值的裝置;計(jì)算在各個(gè)第二時(shí)間段中的曲線的均值的裝置;以第一部分的第一個(gè)第一時(shí)間段中的曲線的均值為基礎(chǔ),如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值大,則加上下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值,如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值小,則減去下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值的倍數(shù),以獲得第一部分的概率的裝置;以第二部分的最后ー個(gè)第二時(shí)間段中的曲線的均值為基礎(chǔ),如果前ー第二時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值大,則加上前一第二時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值,如果前ー第二時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值小,則減去前一第二時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值的倍數(shù),以獲得第二部分的概率的裝置;以及以預(yù)定權(quán)重來(lái)組合第一部分的概率和第二部分的概率來(lái)獲得該片段中該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率的裝置。在本發(fā)明的一個(gè)實(shí)施例中,初始分段裝置可以根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段使得每個(gè)片段足夠短以僅包含一個(gè)或兩個(gè)說(shuō)話人的聲音。在本發(fā)明的一個(gè)實(shí)施例中,設(shè)備還可以包括新的說(shuō)話人改變點(diǎn)判斷裝置,通過(guò)各個(gè)片段中由所述判斷裝置所判斷的各個(gè)說(shuō)話人改變點(diǎn)以及由所述初始分段裝置初始分段的各個(gè)分段點(diǎn),將所述音頻分段為新的片段,針對(duì)兩兩相鄰的兩個(gè)新的片段所合成的ー個(gè)片段,通過(guò)所述說(shuō)話人改變點(diǎn)判斷裝置來(lái)進(jìn)ー步判斷該合成的片段中是否存在新的說(shuō)話人改變點(diǎn);以及最終分段裝置,根據(jù)所有說(shuō)話人改變點(diǎn)來(lái)對(duì)所述音頻進(jìn)行最終地分段。通過(guò)本發(fā)明的各個(gè)實(shí)施例,可以不僅使用ABIC的值還使用ABIC的值的曲線分布、形狀,來(lái)更準(zhǔn)確地、更穩(wěn)定地檢測(cè)音頻改變點(diǎn),從而準(zhǔn)確地將音頻進(jìn)行分段,使得每個(gè)音頻片段可能僅包括同一說(shuō)話人、或同一聲學(xué)條件、或同一類別的音頻,由此可以単獨(dú)地處理每個(gè)音頻片段,例如對(duì)每個(gè)音頻片段建立同一聲學(xué)模型等,從而實(shí)現(xiàn)語(yǔ)音識(shí)別、音頻檢索等的目的
在附圖中圖示了示范性實(shí)施例。意圖使在此公開的實(shí)施例是說(shuō)明性的而不是限制性的。然而,當(dāng)與附圖一起閱讀時(shí),參考如下詳細(xì)描述,可以更好地理解本公開,在附圖中圖I是示出本發(fā)明可以應(yīng)用的系統(tǒng)的示意方塊圖;圖2是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理設(shè)備的方塊圖;圖3是示出根據(jù)本發(fā)明的另ー實(shí)施例的音頻處理設(shè)備的方塊圖;圖4是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理方法的一般流程圖;圖5是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理方法的示例步驟的流程圖;圖6是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理方法中的計(jì)算音頻改變點(diǎn)概率的示例步驟的流程圖;以及圖7是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的ABIC的值隨時(shí)間變化的曲線分布圖。
具體實(shí)施例方式現(xiàn)在具體參考本發(fā)明的具體實(shí)施例,在附圖中例示本發(fā)明的具體實(shí)施例的例子。雖然將結(jié)合下述具體實(shí)施例說(shuō)明本發(fā)明,但是并不是用于將發(fā)明限于所說(shuō)明的實(shí)施例。相反,所說(shuō)明的實(shí)施例用于覆蓋可以在由所附權(quán)利要求限定的本發(fā)明的精神和范圍內(nèi)包括的替代、修改和等效物。圖I是示出本發(fā)明可以應(yīng)用的系統(tǒng)100的示意方塊圖。該系統(tǒng)100包括諸如傳統(tǒng)的通用計(jì)算機(jī)的計(jì)算機(jī)模塊101、包括鍵盤102的輸入設(shè)備、指示設(shè)備103和麥克風(fēng)115、以及包括顯不設(shè)備114和一個(gè)或多個(gè)揚(yáng)聲器116的輸入設(shè)備。計(jì)算機(jī)模塊101通常包括至少ー個(gè)處理器単元105、存儲(chǔ)器単元106、包括用于視頻顯示器114的視頻接ロ 107、用于鍵盤102、指示設(shè)備103并將計(jì)算機(jī)模塊101與諸如因特網(wǎng)的網(wǎng)絡(luò)118相連接的輸入/輸出(I/O)接ロ、和用于麥克風(fēng)115和揚(yáng)聲器116的音頻接ロ 108的113(1/0)接ロ。存儲(chǔ)設(shè)備109通常包括硬盤和軟盤。提供⑶-ROM或DVD盤112作為非易失性存儲(chǔ)器。計(jì)算機(jī)模塊101的組件105到113通常經(jīng)由互連的總線104通信。由系統(tǒng)100且更具體的處理器105來(lái)處理音頻數(shù)據(jù)。音頻數(shù)據(jù)可以從⑶-ROM或DVD盤112中得到,或由處理器105接收。音頻數(shù)據(jù)還可以從網(wǎng)絡(luò)118下載。音頻數(shù)據(jù)也可以是用麥克風(fēng)115記錄的音頻數(shù)據(jù)。在這種情況下,音頻接ロ 108采樣從麥克風(fēng)115接收的模擬信號(hào),井向處理器105提供用于處理和/或存儲(chǔ)的具體格式的音頻數(shù)據(jù)。上述系統(tǒng)100僅是實(shí)現(xiàn)本發(fā)明的ー個(gè)示例。很顯然,本發(fā)明的實(shí)施例不限于此。圖2是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理設(shè)備200的方塊圖。音頻處理設(shè)備200包括初始分段裝置201,根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段;說(shuō)話人改變點(diǎn)判斷裝置202,包括對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段的音頻特征向量提取裝置203,在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處,提取ー種或多種音頻特征作為音頻特征向量;貝葉斯信息準(zhǔn)則值計(jì)算裝置204,針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè),通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值;片段劃分裝置205,通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn),將該片段劃分為第一部分和第二部分;以及判斷裝置206,通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布,來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)。通過(guò)本發(fā)明的實(shí)施例,可以不僅使用A BIC的值還使用ABIC的值的曲線分布、形狀,來(lái)更準(zhǔn)確地、更穩(wěn)定地檢測(cè)音頻改變點(diǎn),從而準(zhǔn)確地將音頻進(jìn)行分段,使得每個(gè)音頻片段可能僅包括同一說(shuō)話人、或同一聲學(xué)條件、或同一類別的音頻,由此可以単獨(dú)地處理每個(gè)音頻片段,例如對(duì)每個(gè)音頻片段建立同一聲學(xué)模型等,從而實(shí)現(xiàn)語(yǔ)音識(shí)別、音頻檢索等的目的。
圖3是示出根據(jù)本發(fā)明的另ー實(shí)施例的音頻處理設(shè)備300的方塊圖。音頻處理設(shè)備300包括初始分段裝置301,根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段;說(shuō)話人改變點(diǎn)判斷裝置302,包括對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段的音頻特征向量提取裝置303,在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處,提取ー種或多種音頻特征作為音頻特征向量;貝葉斯信息準(zhǔn)則值計(jì)算裝置304,針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè),通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值;片段劃分裝置305,通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn),將該片段劃分為第一部分和第二部分;以及判斷裝置306,通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布,來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)。在本發(fā)明的一個(gè)實(shí)施例中,所述判斷裝置306還可以包括計(jì)算裝置3061,計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率;以及比較裝置3062,將所述概率與預(yù)定閾值比較,如果該概率大于或等于該預(yù)定閾值,則判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn),其中,如果第一部分和第二部分中的兩個(gè)曲線的幅度越靠近該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)處越單調(diào)地升高且升高得越高,則該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率越大。在本發(fā)明的一個(gè)實(shí)施例中,所述計(jì)算裝置3061可以包括將第一部分的曲線劃分為多個(gè)第一時(shí)間段的裝置(未示出),其中,在每個(gè)第一時(shí)間段中,第一部分的曲線對(duì)時(shí)間求積分所得的面積值等于預(yù)定面積值;將第二部分的曲線劃分為多個(gè)第二時(shí)間段的裝置(未示出),其中,在每個(gè)第二時(shí)間段中,第二部分的曲線對(duì)時(shí)間求積分所得的面積值等于所述預(yù)定面積值;計(jì)算在各個(gè)第一時(shí)間段中的曲線的均值的裝置(未示出);計(jì)算在各個(gè)第ニ時(shí)間段中的曲線的均值的裝置(未示出);以第一部分的第一個(gè)第一時(shí)間段中的曲線的均值為基礎(chǔ),如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值大,則加上下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值,如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值小,則減去下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值的倍數(shù),以獲得第一部分的概率的裝置(未示出);以第二部分的最后ー個(gè)第二時(shí)間段中的曲線的均值為基礎(chǔ),如果前ー第ニ時(shí)間段中的曲線的均值比下一第ニ時(shí)間段中的曲線的均值大,則加上前一第ニ時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值,如果前ー第二時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值小,則減去前一第二時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值的倍數(shù),以獲得第二部分的概率的裝置(未示出);以及以預(yù)定權(quán)重來(lái)組合第一部分的概率和第二部分的概率來(lái)獲得該片段中該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率的裝置(未示出)。在本發(fā)明的一個(gè)實(shí)施例中,初始分段裝置301可以根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段使得每個(gè)片段足夠短以僅包含一個(gè)或兩個(gè)說(shuō)話人的聲音。在本發(fā)明的一個(gè)實(shí)施例中,設(shè)備300還可以包括新的說(shuō)話人改變點(diǎn)判斷裝置307,通過(guò)各個(gè)片段中由所述判斷裝置所判斷的各個(gè)說(shuō)話人改變點(diǎn)以及由所述初始分段裝置初始分段的各個(gè)分段點(diǎn),將所述音頻分段為新的片段,針對(duì)兩兩相鄰的兩個(gè)新的片段所合成的ー個(gè)片段,通過(guò)所述說(shuō)話人改變點(diǎn)判斷裝置來(lái)進(jìn)ー步判斷該合成的片段中是否存在 新的說(shuō)話人改變點(diǎn);以及最終分段裝置308,根據(jù)所有說(shuō)話人改變點(diǎn)來(lái)對(duì)所述音頻進(jìn)行最終地分段。通過(guò)本發(fā)明的實(shí)施例,可以不僅使用A BIC的值還使用ABIC的值的曲線分布、形狀,來(lái)更準(zhǔn)確地、更穩(wěn)定地檢測(cè)音頻改變點(diǎn),從而準(zhǔn)確地將音頻進(jìn)行分段,使得每個(gè)音頻片段可能僅包括同一說(shuō)話人、或同一聲學(xué)條件、或同一類別的音頻,由此可以単獨(dú)地處理每個(gè)音頻片段,例如對(duì)每個(gè)音頻片段建立同一聲學(xué)模型等,從而實(shí)現(xiàn)語(yǔ)音識(shí)別、音頻檢索等的目的。圖4是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理方法400的一般步驟的流程圖。音頻處理方法400包括以下步驟a)根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段(S401);對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段b)在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處,提取一種或多種音頻特征作為音頻特征向量(S402) ;c)針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè),通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值(S403) ;d)通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn),將該片段劃分為第一部分和第二部分(S404);以及e)通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布,來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)(S405)。在本發(fā)明的一個(gè)實(shí)施例中,步驟S405還可以包括計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率(S4051,圖中未示出),以及將所述概率與預(yù)定閾值比較(S4052,圖中未示出),如果該概率大于或等于該預(yù)定閾值,則判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)。如果第一部分和第二部分中的兩個(gè)曲線的幅度越靠近該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)處越單調(diào)地升高且升高得越高,則該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率越大。在本發(fā)明的一個(gè)實(shí)施例中,在步驟S4051(圖中未示出)中還可以將第一部分的曲線劃分為多個(gè)第一時(shí)間段,其中,在每個(gè)第一時(shí)間段中,第一部分的曲線對(duì)時(shí)間求積分所得的面積值等于預(yù)定面積值;將第二部分的曲線劃分為多個(gè)第二時(shí)間段,其中,在每個(gè)第二時(shí)間段中,第二部分的曲線對(duì)時(shí)間求積分所得的面積值等于所述預(yù)定面積值;計(jì)算在各個(gè)第一時(shí)間段中的曲線的均值;計(jì)算在各個(gè)第二時(shí)間段中的曲線的均值;以第一部分的第一個(gè)第一時(shí)間段中的曲線的均值為基礎(chǔ),如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值大,則加上下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值,如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值小,則減去下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值的倍數(shù),以獲得第一部分的概率;以第二部分的最后ー個(gè)第二時(shí)間段中的曲線的均值為基礎(chǔ),如果前ー第二時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值大,則カロ上前一第二時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值,如果前一第ニ時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值小,則減去前一第ニ時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值的倍數(shù),以獲得第二部分的概率;以及以預(yù)定權(quán)重來(lái)組合第一部分的概率和第二部分的概率來(lái)獲得該片段中該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率。在本發(fā)明的一個(gè)實(shí)施例中,在步驟S401中,可以根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段使得每個(gè)片段足夠短以僅包含一個(gè)或兩個(gè)說(shuō)話人的聲音。在本發(fā)明的一個(gè)實(shí)施例中,方法400還可以包括f)通過(guò)各個(gè)片段中在步驟e)中所判斷的各個(gè)說(shuō)話人改變點(diǎn)以及在步驟a)中初始分段的各個(gè)分段點(diǎn),將所述音頻分段為新的片段,針對(duì)兩兩相鄰的兩個(gè)新的片段所合成的ー個(gè)片段,通過(guò)重復(fù)步驟b)到e)來(lái)進(jìn)ー步判斷該合成的片段中是否存在新的說(shuō)話人改變點(diǎn);以及g)根據(jù)所有說(shuō)話人改變點(diǎn)來(lái)對(duì)所述音頻進(jìn)行最終地分段。通過(guò)本發(fā)明的實(shí)施例,可以不僅使用A BIC的值還使用ABIC的值的曲線分布、形狀,來(lái)更準(zhǔn)確地、更穩(wěn)定地檢測(cè)音頻改變點(diǎn),從而準(zhǔn)確地將音頻進(jìn)行分段,使得每個(gè)音頻片段可能僅包括同一說(shuō)話人、或同一聲學(xué)條件、或同一類別的音頻,由此可以単獨(dú)地處理每個(gè)音頻片段,例如對(duì)每個(gè)音頻片段建立同一聲學(xué)模型等,從而實(shí)現(xiàn)語(yǔ)音識(shí)別、音頻檢索等的目的。圖5是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理方法500的示例的具體步驟的流程圖。輸入的音頻可以是包括一個(gè)或多個(gè)說(shuō)話人的語(yǔ)音的音頻。但是,音頻還可以是包括一個(gè)或多個(gè)其他聲學(xué)條件的音頻,以下為了便于描述,均使用包括一個(gè)或多個(gè)說(shuō)話人的
語(yǔ)音的音頻。在步驟S501中,根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段。在ー個(gè)實(shí)施例中,每個(gè)片段可以足夠短以僅包含一個(gè)或兩個(gè)說(shuō)話人的語(yǔ)音。在一個(gè)實(shí)施例中,可以設(shè)置分段后的每個(gè)片段的持續(xù)時(shí)間短于ー預(yù)定閾值、TML。在一個(gè)實(shí)施例中,該TML可以是2 5秒,但不限于此。在一個(gè)實(shí)施例中,例如,可以、但不限于使用音頻的能量作為所述音頻物理特性。以下基于音頻的能量來(lái)描述示例的初始分段步驟S501 I)首先,將整個(gè)輸入的音頻考慮為ー個(gè)片段。2)對(duì)于該片段,如果該片段的持續(xù)時(shí)間長(zhǎng)于TML,則從最低能量的(時(shí)間)點(diǎn),將該片段劃分為兩個(gè)片段。3)重復(fù)步驟2)直到所有的片段的持續(xù)時(shí)間都短于TML。如此,將輸入的音頻分段為ー個(gè)或多個(gè)片段。處理繼續(xù)到步驟S502,在步驟S502中,確定是否有更多的片段。如果是,則進(jìn)入步驟S503來(lái)處理該片段。如果否,則說(shuō)明沒(méi)有片段需要處理了,則進(jìn)入步驟S508和S510,以下將詳細(xì)描述。
處理繼續(xù)到步驟S503,在步驟S503中,對(duì)該片段提取特征。在一個(gè)實(shí)施例中,對(duì)姆個(gè)片段,在時(shí)間序列的姆例如IOms間_處生成例如標(biāo)準(zhǔn)Mel倒頻特征向量(standardmel-cepstral feature)。當(dāng)然,IOms間_僅是示例,還可以使用其他間但一般小于TML0而且,該特征向量也可以是標(biāo)準(zhǔn)Mel倒頻特征向量、Mel頻率倒頻系數(shù)(Mel-frequencyCepstral Coefficients, MFCC)、直觀線性預(yù)測(cè)(Perceptual Linear Predictive, PLP)等其他特性向量中的ー種或幾種。如果使用幾種特征向量,則可以將這幾種特征向量的向量值、例如{a, b, c}和{d, e}組合為一個(gè)特征向量,例如{a, b, c, d, e}。以下,將描述示例的提取例如標(biāo)準(zhǔn)Mel倒頻特征向量的步驟a)對(duì)IOms的時(shí)間窗內(nèi)的信號(hào)采取傅立葉變換;b)使用三角重疊窗,將以上獲得的頻譜的功率映射到Mel范圍上; c)在Mel頻率的每個(gè)處取功率的log ;d)對(duì)Mel log功率的列表、就好像其是ー個(gè)信號(hào)一樣地進(jìn)行離散余弦變換(DCT);e)所得到的頻譜的幅度即為特征向量。以上提取例如標(biāo)準(zhǔn)Mel倒頻特征向量的步驟的公知的,在此不贅述。處理繼續(xù)到步驟S504,在步驟S504中,計(jì)算A BIC的值。對(duì)每個(gè)片段中的每個(gè)時(shí)間點(diǎn),例如每IOms間隔處,計(jì)算A BIC的值。例如,在使用最大似然度估計(jì)來(lái)估計(jì)模型的參數(shù)時(shí),可能通過(guò)增加參數(shù)的數(shù)量來(lái)増加似然度,但是這可能導(dǎo)致過(guò)擬合(overfit)。而BIC通過(guò)對(duì)模型中的參數(shù)的數(shù)量引入懲罰項(xiàng)能夠解決這個(gè)問(wèn)題。假設(shè)從步驟S503中提取的倒頻特征的序列是X= (Xi G Rd, i = I,. . . ,N}。對(duì)于該片段中除了起始點(diǎn)以外的每個(gè)時(shí)間點(diǎn)i,通過(guò)以下公式計(jì)算ABIC的值。ABIC(i) = R(i)_ 入 P (I)其中,似然度為R⑴=NlogI E -NiIog E J-N2Iog E 2|(2)其中,例如,E是對(duì)于所有特征向量、即X= {Xi G Rd, i = I, , N}的采樣協(xié)方差矩陣、E1是以該時(shí)間點(diǎn)i為中心以前的部分的特征向量、即Ix1,...,Xi,}的采樣協(xié)方差矩陣、E2是以該時(shí)間點(diǎn)i為中心之后的部分的特征向量、即{Xi+1,...,XN}的采樣協(xié)方差矩陣,N是總的時(shí)間點(diǎn)個(gè)數(shù),N1是{x1; . . . , Xi, }的時(shí)間點(diǎn)個(gè)數(shù),N2是{xi+1, . . . , xN}的時(shí)間點(diǎn)個(gè)數(shù)。懲罰項(xiàng)P為P — - H— d(d + 1)| IogN * M (3)其中,假設(shè)懲罰權(quán)重\ = l,d為特征向量空間的維度,M為高斯混合數(shù)的階數(shù),一般為正整數(shù),為了簡(jiǎn)化公式(3)可以取M= I。處理繼續(xù)到步驟S505,在步驟S505中,計(jì)算說(shuō)話人改變點(diǎn)的概率。結(jié)合圖6來(lái)描述計(jì)算A BIC的值最大的時(shí)間點(diǎn)為說(shuō)話人改變點(diǎn)的概率的示例詳細(xì)步驟。在圖6的步驟S5051中,在ABIC的值最大的時(shí)間點(diǎn)處將該片段劃分為兩個(gè)部分。假設(shè),在時(shí)間點(diǎn)為tp,ABIC的值最大。因此,將該片段的時(shí)間序列(0,t_)劃分為(o, tp]和(tp,tmax)兩個(gè)部分。在圖6的步驟S5052中,對(duì)這兩個(gè)部分進(jìn)行曲線擬合。由于在提取特征時(shí)的時(shí)間間隔是10ms,因此得到的ABIC也以IOms為間隔。為了便于計(jì)算,將圖6的步驟S5051中得到的兩個(gè)部分(0,tp]和(tp,t_)的A BIC的子序列值曲線擬合為兩個(gè)曲線Cabici和Cabic2:
權(quán)利要求
1.ー種音頻處理方法,所述方法包括以下步驟 a)根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段; 對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段 b)在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處,提取一種或多種音頻特征作為音頻特征向量; c)針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè),通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值; d)通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn),將該片段劃分為第一部分和第二部分;以及 e)通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布,來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)。
2.根據(jù)權(quán)利要求I的方法,其中,對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段,通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布,來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)的步驟包括 計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率,以及 將所述概率與預(yù)定閾值比較,如果該概率大于或等于該預(yù)定閾值,則判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn), 其中,如果第一部分和第二部分中的兩個(gè)曲線的幅度越靠近該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)處越單調(diào)地升高且升高得越高,則該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率越大。
3.根據(jù)權(quán)利要求2的方法,其中,在計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率的步驟中 將第一部分的曲線劃分為多個(gè)第一時(shí)間段,其中,在每個(gè)第一時(shí)間段中,第一部分的曲線對(duì)時(shí)間求積分所得的面積值等于預(yù)定面積值; 將第二部分的曲線劃分為多個(gè)第二時(shí)間段,其中,在每個(gè)第二時(shí)間段中,第二部分的曲線對(duì)時(shí)間求積分所得的面積值等于所述預(yù)定面積值; 計(jì)算在各個(gè)第一時(shí)間段中的曲線的均值; 計(jì)算在各個(gè)第二時(shí)間段中的曲線的均值; 以第一部分的第一個(gè)第一時(shí)間段中的曲線的均值為基礎(chǔ),如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值大,則加上下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值,如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值小,則減去下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值的倍數(shù),以獲得第一部分的概率; 以第二部分的最后ー個(gè)第二時(shí)間段中的曲線的均值為基礎(chǔ),如果前ー第二時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值大,則加上前一第ニ時(shí)間段中的曲線的均值與下一第ニ時(shí)間段中的曲線的均值之間的差值,如果前ー第ニ時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值小,則減去前一第ニ時(shí)間段中的曲線的均值與下一第ニ時(shí)間段中的曲線的均值之間的差值的倍數(shù),以獲得第二部分的概率;以及 以預(yù)定權(quán)重來(lái)組合第一部分的概率和第二部分的概率來(lái)獲得該片段中該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率。
4.根據(jù)權(quán)利要求1-3中的任一的方法,其中在步驟a)中,根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段使得每個(gè)片段足夠短以僅包含一個(gè)或兩個(gè)說(shuō)話人的聲音。
5.根據(jù)權(quán)利要求1-3中的任一的方法,還包括 f)通過(guò)各個(gè)片段中在步驟e)中所判斷的各個(gè)說(shuō)話人改變點(diǎn)以及在步驟a)中初始分段的各個(gè)分段點(diǎn),將所述音頻分段為新的片段,針對(duì)兩兩相鄰的兩個(gè)新的片段所合成的一個(gè)片段,通過(guò)重復(fù)步驟b)到e)來(lái)進(jìn)ー步判斷該合成的片段中是否存在新的說(shuō)話人改變點(diǎn);以及 g)根據(jù)所有說(shuō)話人改變點(diǎn)來(lái)對(duì)所述音頻進(jìn)行最終地分段。
6.ー種音頻處理設(shè)備,所述設(shè)備包括 初始分段裝置,根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段; 說(shuō)話人改變點(diǎn)判斷裝置,包括對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段的 音頻特征向量提取裝置,在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處,提取ー種或多種音頻特征作為音頻特征向量; 貝葉斯信息準(zhǔn)則值計(jì)算裝置,針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè),通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值; 片段劃分裝置,通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn),將該片段劃分為第一部分和第二部分;以及 判斷裝置,通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布,來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)。
7.根據(jù)權(quán)利要求6的設(shè)備,其中,所述判斷裝置包括 計(jì)算裝置,計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率;以及比較裝置,將所述概率與預(yù)定閾值比較,如果該概率大于或等于該預(yù)定閾值,則判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn), 其中,如果第一部分和第二部分中的兩個(gè)曲線的幅度越靠近該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)處越單調(diào)地升高且升高得越高,則該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率越大。
8.根據(jù)權(quán)利要求7的設(shè)備,其中,所述計(jì)算裝置包括 將第一部分的曲線劃分為多個(gè)第一時(shí)間段的裝置,其中,在每個(gè)第一時(shí)間段中,第一部分的曲線對(duì)時(shí)間求積分所得的面積值等于預(yù)定面積值; 將第二部分的曲線劃分為多個(gè)第二時(shí)間段的裝置,其中,在每個(gè)第二時(shí)間段中,第二部分的曲線對(duì)時(shí)間求積分所得的面積值等于所述預(yù)定面積值; 計(jì)算在各個(gè)第一時(shí)間段中的曲線的均值的裝置; 計(jì)算在各個(gè)第二時(shí)間段中的曲線的均值的裝置; 以第一部分的第一個(gè)第一時(shí)間段中的曲線的均值為基礎(chǔ),如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值大,則加上下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值,如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值小,則減去下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值的倍數(shù),以獲得第一部分的概率的裝置; 以第二部分的最后ー個(gè)第二時(shí)間段中的曲線的均值為基礎(chǔ),如果前ー第二時(shí)間段中的曲線的均值比下一第ニ時(shí)間段中的曲線的均值大,則加上前一第二時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值,如果前ー第二時(shí)間段中的曲線的均值比下一第ニ時(shí)間段中的曲線的均值小,則減去前一第二時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值的倍數(shù),以獲得第二部分的概率的裝置;以及 以預(yù)定權(quán)重來(lái)組合第一部分的概率和第二部分的概率來(lái)獲得該片段中該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率的裝置。
9.根據(jù)權(quán)利要求6-8中的任一的設(shè)備,其中, 初始分段裝置根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段使得每個(gè)片段足夠短以僅包含一個(gè)或兩個(gè)說(shuō)話人的聲音。
10.根據(jù)權(quán)利要求6-8中的任一的設(shè)備,還包括 新的說(shuō)話人改變點(diǎn)判斷裝置,通過(guò)各個(gè)片段中由所述判斷裝置所判斷的各個(gè)說(shuō)話人改變點(diǎn)以及由所述初始分段裝置初始分段的各個(gè)分段點(diǎn),將所述音頻分段為新的片段,針對(duì)兩兩相鄰的兩個(gè)新的片段所合成的ー個(gè)片段,通過(guò)所述說(shuō)話人改變點(diǎn)判斷裝置來(lái)進(jìn)ー步判斷該合成的片段中是否存在新的說(shuō)話人改變點(diǎn);以及 最終分段裝置,根據(jù)所有說(shuō)話人改變點(diǎn)來(lái)對(duì)所述音頻進(jìn)行最終地分段。
全文摘要
提供一種音頻處理方法和設(shè)備,該方法包括以下步驟a)根據(jù)音頻物理特性將音頻初始地分段為一個(gè)或多個(gè)片段;對(duì)于所述一個(gè)或多個(gè)片段中的每個(gè)片段b)在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處,提取一種或多種音頻特征作為音頻特征向量;c)針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè),通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值;d)通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn),將該片段劃分為第一部分和第二部分;以及e)通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布,來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)。
文檔編號(hào)G10L17/00GK102655002SQ201110049298
公開日2012年9月5日 申請(qǐng)日期2011年3月1日 優(yōu)先權(quán)日2011年3月1日
發(fā)明者尹悅燕, 鄭繼川, 魯耀杰 申請(qǐng)人:株式會(huì)社理光