音頻處理方法和音頻處理設(shè)備的制作方法

文檔序號(hào)：2825014閱讀：176來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：音頻處理方法和音頻處理設(shè)備的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及ー種音頻處理方法和音頻處理設(shè)備，且更具體地，涉及ー種用于檢測(cè)說(shuō)話人改變點(diǎn)的音頻處理方法和音頻處理設(shè)備。
背景技術(shù)：
現(xiàn)今，隨著數(shù)據(jù)量的不斷増加，越來(lái)越需要從大量數(shù)據(jù)中提取有意義的信息。ー種這樣的應(yīng)用是從音頻中提取信息。這種音頻可以包括例如語(yǔ)音音頻、新聞廣播、電話交談、或非語(yǔ)音的音頻、諸如音樂(lè)或背景噪聲等。但是，音頻文件通常被認(rèn)為是僅具有諸如名稱、文件格式、采樣率等的最原始信息標(biāo)簽的晦澀字節(jié)。為了使得音頻文件更容易訪問(wèn)和處理，需要從音頻文件中提取更多的信息、諸如音頻數(shù)據(jù)的重要信息之一的說(shuō)話人相關(guān)的信息，來(lái)有助于語(yǔ)音識(shí)別、音頻檢索等應(yīng)用，來(lái)用于說(shuō)話人跟蹤麥克風(fēng)、說(shuō)話人自動(dòng)對(duì)焦的攝像系統(tǒng)、機(jī)器人(人機(jī)對(duì)話)等的產(chǎn)品。為了從音頻中提取這些有意義的信息，一般需要通過(guò)找到諸如說(shuō)話人改變點(diǎn)的音頻改變點(diǎn)來(lái)對(duì)音頻進(jìn)行分段，使得每個(gè)音頻片段可能僅包括同一說(shuō)話人、或同一聲學(xué)條件、或同一類別的音頻，由此單獨(dú)地處理每個(gè)音頻片段，例如對(duì)每個(gè)音頻片段建立同一聲學(xué)模型等，從而實(shí)現(xiàn)語(yǔ)音識(shí)別、音頻檢索等的目的。已經(jīng)提出了很多技術(shù)來(lái)對(duì)音頻進(jìn)行分段。其中廣泛應(yīng)用的ー種方式是基于貝葉斯信息準(zhǔn)則(Bayesian Information Criterion, BIC)來(lái)對(duì)音頻進(jìn)行分段。BIC用于通過(guò)確定信號(hào)特征改變的最可能的位置來(lái)確定音頻片段分界的位置。BIC給出了一種準(zhǔn)則來(lái)確定在音頻中某個(gè)點(diǎn)處的改變是否是顯著的。在 Chen S, Gopalakrishnan P 的論又“Speaker, environment and channelchange detection and clustering via the Bayesian imormation criterion”，DARPABroadcast News Trans and Under Workshop, 1998. 8 中描述了如何使用 BIC 準(zhǔn)則來(lái)確定在音頻中的改變點(diǎn)。首先，BIC方法從整個(gè)音頻段中針對(duì)每個(gè)時(shí)間點(diǎn)提取倒頻向量(cepstral vector)的序列,然后通過(guò)高斯模型來(lái)計(jì)算在姆個(gè)時(shí)間點(diǎn)處的BIC值,并將BIC值之間的差A(yù)BIC的大于0的最大值所處的時(shí)間點(diǎn)認(rèn)為是音頻改變點(diǎn)。在美國(guó)專利US7243062中也公開了ー種使用BIC來(lái)找到音頻改變點(diǎn)并對(duì)音頻序列進(jìn)行分段的方法和裝置。其沿著音頻序列形成一系列幀，且對(duì)于每個(gè)幀提取數(shù)據(jù)特征以形成數(shù)據(jù)特征的序列。通過(guò)拉普拉斯分布模型來(lái)對(duì)數(shù)據(jù)特征的序列計(jì)算BIC的值，并計(jì)算BIC之間的差A(yù)BICJf ABIC的大于0的最大值所處的時(shí)間點(diǎn)認(rèn)為是音頻改變點(diǎn)。

發(fā)明內(nèi)容
現(xiàn)有技術(shù)都使用ABIC的最大值來(lái)判斷音頻改變點(diǎn)，而沒(méi)有考慮ABIC的值的趨勢(shì)、分布、曲線的形狀等。因此，當(dāng)在音頻中本不應(yīng)該是音頻改變點(diǎn)的時(shí)間點(diǎn)處發(fā)生了波形上的突變、例如同一說(shuō)話人突然提高嗓音時(shí)，現(xiàn)有的基于ABIC的最大值的判斷方式可能將該點(diǎn)判斷為說(shuō)話人改變點(diǎn)，但此時(shí)說(shuō)話人實(shí)際并未改變，這樣將導(dǎo)致說(shuō)話人改變點(diǎn)的判斷錯(cuò)誤，使得后續(xù)的說(shuō)話人相關(guān)的處理產(chǎn)生偏差或造成不必要的計(jì)算資源浪費(fèi)。
因此，需要一種更準(zhǔn)確地檢測(cè)音頻改變點(diǎn)的方法和設(shè)備。根據(jù)本發(fā)明的ー個(gè)方面，提供ー種音頻處理方法，所述方法包括以下步驟a)根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段；對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段b)在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處，提取一種或多種音頻特征作為音頻特征向量；c)針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè)，通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值；d)通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn)，將該片段劃分為第一部分和第二部分；以及e)通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布，來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)。在本發(fā)明的一個(gè)實(shí)施例中，可以對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段，通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布，來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)的步驟包括計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率，以及將所述概率與預(yù)定閾值比較，如果該概率大于或等于該預(yù)定閾值，則判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)，其中，如果第一部分和第二部分中的兩個(gè)曲線的幅度越靠近該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)處越單調(diào)地升高且升高得越高，則該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率越大。在本發(fā)明的一個(gè)實(shí)施例中，可以在計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率的步驟中將第一部分的曲線劃分為多個(gè)第一時(shí)間段，其中，在每個(gè)第一時(shí)間段中，第一部分的曲線對(duì)時(shí)間求積分所得的面積值等于預(yù)定面積值；將第二部分的曲線劃分為多個(gè)第二時(shí)間段，其中，在每個(gè)第二時(shí)間段中，第二部分的曲線對(duì)時(shí)間求積分所得的面積值等于所述預(yù)定面積值；計(jì)算在各個(gè)第一時(shí)間段中的曲線的均值；計(jì)算在各個(gè)第二時(shí)間段中的曲線的均值；以第一部分的第一個(gè)第一時(shí)間段中的曲線的均值為基礎(chǔ)，如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值大，則加上下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值，如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值小，則減去下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值的倍數(shù)，以獲得第一部分的概率；以第二部分的最后ー個(gè)第二時(shí)間段中的曲線的均值為基礎(chǔ)，如果前ー第二時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值大，則加上前一第ニ時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值，如果前ー第二時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值小，則減去前一第二時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值的倍數(shù)，以獲得第二部分的概率；以及以預(yù)定權(quán)重來(lái)組合第一部分的概率和第二部分的概率來(lái)獲得該片段中該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率。在本發(fā)明的一個(gè)實(shí)施例中，在步驟a)中，可以根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段使得每個(gè)片段足夠短以僅包含一個(gè)或兩個(gè)說(shuō)話人的聲音。在本發(fā)明的一個(gè)實(shí)施例中，方法還可以包括f)通過(guò)各個(gè)片段中在步驟e)中所判斷的各個(gè)說(shuō)話人改變點(diǎn)以及在步驟a)中初始分段的各個(gè)分段點(diǎn)，將所述音頻分段為新的片段，針對(duì)兩兩相鄰的兩個(gè)新的片段所合成的ー個(gè)片段，通過(guò)重復(fù)步驟b)到e)來(lái)進(jìn)ー步判斷該合成的片段中是否存在新的說(shuō)話人改變點(diǎn)；以及g)根據(jù)所有說(shuō)話人改變點(diǎn)來(lái)對(duì)所述音頻進(jìn)行最終地分段。
根據(jù)本發(fā)明的另一方面，提供ー種音頻處理設(shè)備，所述設(shè)備包括初始分段裝置，根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段；說(shuō)話人改變點(diǎn)判斷裝置，包括對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段的音頻特征向量提取裝置，在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處，提取一種或多種音頻特征作為音頻特征向量；貝葉斯信息準(zhǔn)則值計(jì)算裝置，針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè)，通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值；片段劃分裝置，通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn)，將該片段劃分為第一部分和第二部分；以及判斷裝置，通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布，來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)。在本發(fā)明的一個(gè)實(shí)施例中，所述判斷裝置可以包括計(jì)算裝置，計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率；以及比較裝置，將所述概率與預(yù)定閾值比較，如果該概率大于或等于該預(yù)定閾值，則判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)，其中，如果第一部分和第二部分中的兩個(gè)曲線的幅度越靠近該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)處越單調(diào)地升高且升高得越高，則該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率越大。在本發(fā)明的一個(gè)實(shí)施例中，所述計(jì)算裝置可以包括將第一部分的曲線劃分為多個(gè)第一時(shí)間段的裝置，其中，在每個(gè)第一時(shí)間段中，第一部分的曲線對(duì)時(shí)間求積分所得的面積值等于預(yù)定面積值；將第二部分的曲線劃分為多個(gè)第二時(shí)間段的裝置，其中，在每個(gè)第二時(shí)間段中，第二部分的曲線對(duì)時(shí)間求積分所得的面積值等于所述預(yù)定面積值；計(jì)算在各個(gè)第一時(shí)間段中的曲線的均值的裝置；計(jì)算在各個(gè)第二時(shí)間段中的曲線的均值的裝置；以第一部分的第一個(gè)第一時(shí)間段中的曲線的均值為基礎(chǔ)，如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值大，則加上下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值，如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值小，則減去下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值的倍數(shù)，以獲得第一部分的概率的裝置；以第二部分的最后ー個(gè)第二時(shí)間段中的曲線的均值為基礎(chǔ)，如果前ー第二時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值大，則加上前一第二時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值，如果前ー第二時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值小，則減去前一第二時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值的倍數(shù)，以獲得第二部分的概率的裝置；以及以預(yù)定權(quán)重來(lái)組合第一部分的概率和第二部分的概率來(lái)獲得該片段中該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率的裝置。在本發(fā)明的一個(gè)實(shí)施例中，初始分段裝置可以根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段使得每個(gè)片段足夠短以僅包含一個(gè)或兩個(gè)說(shuō)話人的聲音。在本發(fā)明的一個(gè)實(shí)施例中，設(shè)備還可以包括新的說(shuō)話人改變點(diǎn)判斷裝置，通過(guò)各個(gè)片段中由所述判斷裝置所判斷的各個(gè)說(shuō)話人改變點(diǎn)以及由所述初始分段裝置初始分段的各個(gè)分段點(diǎn)，將所述音頻分段為新的片段，針對(duì)兩兩相鄰的兩個(gè)新的片段所合成的ー個(gè)片段，通過(guò)所述說(shuō)話人改變點(diǎn)判斷裝置來(lái)進(jìn)ー步判斷該合成的片段中是否存在新的說(shuō)話人改變點(diǎn)；以及最終分段裝置，根據(jù)所有說(shuō)話人改變點(diǎn)來(lái)對(duì)所述音頻進(jìn)行最終地分段。通過(guò)本發(fā)明的各個(gè)實(shí)施例,可以不僅使用ABIC的值還使用ABIC的值的曲線分布、形狀，來(lái)更準(zhǔn)確地、更穩(wěn)定地檢測(cè)音頻改變點(diǎn)，從而準(zhǔn)確地將音頻進(jìn)行分段，使得每個(gè)音頻片段可能僅包括同一說(shuō)話人、或同一聲學(xué)條件、或同一類別的音頻，由此可以単獨(dú)地處理每個(gè)音頻片段，例如對(duì)每個(gè)音頻片段建立同一聲學(xué)模型等，從而實(shí)現(xiàn)語(yǔ)音識(shí)別、音頻檢索等的目的

在附圖中圖示了示范性實(shí)施例。意圖使在此公開的實(shí)施例是說(shuō)明性的而不是限制性的。然而，當(dāng)與附圖一起閱讀時(shí)，參考如下詳細(xì)描述，可以更好地理解本公開，在附圖中圖I是示出本發(fā)明可以應(yīng)用的系統(tǒng)的示意方塊圖；圖2是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理設(shè)備的方塊圖；圖3是示出根據(jù)本發(fā)明的另ー實(shí)施例的音頻處理設(shè)備的方塊圖；圖4是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理方法的一般流程圖；圖5是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理方法的示例步驟的流程圖；圖6是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理方法中的計(jì)算音頻改變點(diǎn)概率的示例步驟的流程圖；以及圖7是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的ABIC的值隨時(shí)間變化的曲線分布圖。
具體實(shí)施例方式現(xiàn)在具體參考本發(fā)明的具體實(shí)施例，在附圖中例示本發(fā)明的具體實(shí)施例的例子。雖然將結(jié)合下述具體實(shí)施例說(shuō)明本發(fā)明，但是并不是用于將發(fā)明限于所說(shuō)明的實(shí)施例。相反，所說(shuō)明的實(shí)施例用于覆蓋可以在由所附權(quán)利要求限定的本發(fā)明的精神和范圍內(nèi)包括的替代、修改和等效物。圖I是示出本發(fā)明可以應(yīng)用的系統(tǒng)100的示意方塊圖。該系統(tǒng)100包括諸如傳統(tǒng)的通用計(jì)算機(jī)的計(jì)算機(jī)模塊101、包括鍵盤102的輸入設(shè)備、指示設(shè)備103和麥克風(fēng)115、以及包括顯不設(shè)備114和一個(gè)或多個(gè)揚(yáng)聲器116的輸入設(shè)備。計(jì)算機(jī)模塊101通常包括至少ー個(gè)處理器単元105、存儲(chǔ)器単元106、包括用于視頻顯示器114的視頻接ロ 107、用于鍵盤102、指示設(shè)備103并將計(jì)算機(jī)模塊101與諸如因特網(wǎng)的網(wǎng)絡(luò)118相連接的輸入/輸出(I/O)接ロ、和用于麥克風(fēng)115和揚(yáng)聲器116的音頻接ロ 108的113(1/0)接ロ。存儲(chǔ)設(shè)備109通常包括硬盤和軟盤。提供⑶-ROM或DVD盤112作為非易失性存儲(chǔ)器。計(jì)算機(jī)模塊101的組件105到113通常經(jīng)由互連的總線104通信。由系統(tǒng)100且更具體的處理器105來(lái)處理音頻數(shù)據(jù)。音頻數(shù)據(jù)可以從⑶-ROM或DVD盤112中得到，或由處理器105接收。音頻數(shù)據(jù)還可以從網(wǎng)絡(luò)118下載。音頻數(shù)據(jù)也可以是用麥克風(fēng)115記錄的音頻數(shù)據(jù)。在這種情況下，音頻接ロ 108采樣從麥克風(fēng)115接收的模擬信號(hào)，井向處理器105提供用于處理和/或存儲(chǔ)的具體格式的音頻數(shù)據(jù)。上述系統(tǒng)100僅是實(shí)現(xiàn)本發(fā)明的ー個(gè)示例。很顯然，本發(fā)明的實(shí)施例不限于此。圖2是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理設(shè)備200的方塊圖。音頻處理設(shè)備200包括初始分段裝置201，根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段；說(shuō)話人改變點(diǎn)判斷裝置202，包括對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段的音頻特征向量提取裝置203，在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處，提取ー種或多種音頻特征作為音頻特征向量；貝葉斯信息準(zhǔn)則值計(jì)算裝置204，針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè)，通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值；片段劃分裝置205，通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn)，將該片段劃分為第一部分和第二部分；以及判斷裝置206，通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布，來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)。通過(guò)本發(fā)明的實(shí)施例,可以不僅使用A BIC的值還使用ABIC的值的曲線分布、形狀，來(lái)更準(zhǔn)確地、更穩(wěn)定地檢測(cè)音頻改變點(diǎn)，從而準(zhǔn)確地將音頻進(jìn)行分段，使得每個(gè)音頻片段可能僅包括同一說(shuō)話人、或同一聲學(xué)條件、或同一類別的音頻，由此可以単獨(dú)地處理每個(gè)音頻片段，例如對(duì)每個(gè)音頻片段建立同一聲學(xué)模型等，從而實(shí)現(xiàn)語(yǔ)音識(shí)別、音頻檢索等的目的。
圖3是示出根據(jù)本發(fā)明的另ー實(shí)施例的音頻處理設(shè)備300的方塊圖。音頻處理設(shè)備300包括初始分段裝置301，根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段；說(shuō)話人改變點(diǎn)判斷裝置302，包括對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段的音頻特征向量提取裝置303，在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處，提取ー種或多種音頻特征作為音頻特征向量；貝葉斯信息準(zhǔn)則值計(jì)算裝置304，針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè)，通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值；片段劃分裝置305，通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn)，將該片段劃分為第一部分和第二部分；以及判斷裝置306，通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布，來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)。在本發(fā)明的一個(gè)實(shí)施例中，所述判斷裝置306還可以包括計(jì)算裝置3061，計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率；以及比較裝置3062，將所述概率與預(yù)定閾值比較，如果該概率大于或等于該預(yù)定閾值，則判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)，其中，如果第一部分和第二部分中的兩個(gè)曲線的幅度越靠近該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)處越單調(diào)地升高且升高得越高，則該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率越大。在本發(fā)明的一個(gè)實(shí)施例中，所述計(jì)算裝置3061可以包括將第一部分的曲線劃分為多個(gè)第一時(shí)間段的裝置(未示出)，其中，在每個(gè)第一時(shí)間段中，第一部分的曲線對(duì)時(shí)間求積分所得的面積值等于預(yù)定面積值；將第二部分的曲線劃分為多個(gè)第二時(shí)間段的裝置(未示出)，其中，在每個(gè)第二時(shí)間段中，第二部分的曲線對(duì)時(shí)間求積分所得的面積值等于所述預(yù)定面積值；計(jì)算在各個(gè)第一時(shí)間段中的曲線的均值的裝置(未示出)；計(jì)算在各個(gè)第ニ時(shí)間段中的曲線的均值的裝置(未示出)；以第一部分的第一個(gè)第一時(shí)間段中的曲線的均值為基礎(chǔ)，如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值大，則加上下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值，如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值小，則減去下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值的倍數(shù)，以獲得第一部分的概率的裝置(未示出)；以第二部分的最后ー個(gè)第二時(shí)間段中的曲線的均值為基礎(chǔ)，如果前ー第ニ時(shí)間段中的曲線的均值比下一第ニ時(shí)間段中的曲線的均值大，則加上前一第ニ時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值，如果前ー第二時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值小，則減去前一第二時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值的倍數(shù)，以獲得第二部分的概率的裝置(未示出)；以及以預(yù)定權(quán)重來(lái)組合第一部分的概率和第二部分的概率來(lái)獲得該片段中該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率的裝置(未示出)。在本發(fā)明的一個(gè)實(shí)施例中，初始分段裝置301可以根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段使得每個(gè)片段足夠短以僅包含一個(gè)或兩個(gè)說(shuō)話人的聲音。在本發(fā)明的一個(gè)實(shí)施例中，設(shè)備300還可以包括新的說(shuō)話人改變點(diǎn)判斷裝置307，通過(guò)各個(gè)片段中由所述判斷裝置所判斷的各個(gè)說(shuō)話人改變點(diǎn)以及由所述初始分段裝置初始分段的各個(gè)分段點(diǎn)，將所述音頻分段為新的片段，針對(duì)兩兩相鄰的兩個(gè)新的片段所合成的ー個(gè)片段，通過(guò)所述說(shuō)話人改變點(diǎn)判斷裝置來(lái)進(jìn)ー步判斷該合成的片段中是否存在新的說(shuō)話人改變點(diǎn)；以及最終分段裝置308，根據(jù)所有說(shuō)話人改變點(diǎn)來(lái)對(duì)所述音頻進(jìn)行最終地分段。通過(guò)本發(fā)明的實(shí)施例,可以不僅使用A BIC的值還使用ABIC的值的曲線分布、形狀，來(lái)更準(zhǔn)確地、更穩(wěn)定地檢測(cè)音頻改變點(diǎn)，從而準(zhǔn)確地將音頻進(jìn)行分段，使得每個(gè)音頻片段可能僅包括同一說(shuō)話人、或同一聲學(xué)條件、或同一類別的音頻，由此可以単獨(dú)地處理每個(gè)音頻片段，例如對(duì)每個(gè)音頻片段建立同一聲學(xué)模型等，從而實(shí)現(xiàn)語(yǔ)音識(shí)別、音頻檢索等的目的。圖4是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理方法400的一般步驟的流程圖。音頻處理方法400包括以下步驟a)根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段(S401);對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段b)在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處，提取一種或多種音頻特征作為音頻特征向量(S402) ；c)針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè)，通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值(S403) ；d)通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn)，將該片段劃分為第一部分和第二部分(S404);以及e)通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布，來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)(S405)。在本發(fā)明的一個(gè)實(shí)施例中，步驟S405還可以包括計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率(S4051，圖中未示出)，以及將所述概率與預(yù)定閾值比較(S4052，圖中未示出)，如果該概率大于或等于該預(yù)定閾值，則判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)。如果第一部分和第二部分中的兩個(gè)曲線的幅度越靠近該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)處越單調(diào)地升高且升高得越高，則該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率越大。在本發(fā)明的一個(gè)實(shí)施例中，在步驟S4051(圖中未示出)中還可以將第一部分的曲線劃分為多個(gè)第一時(shí)間段，其中，在每個(gè)第一時(shí)間段中，第一部分的曲線對(duì)時(shí)間求積分所得的面積值等于預(yù)定面積值；將第二部分的曲線劃分為多個(gè)第二時(shí)間段，其中，在每個(gè)第二時(shí)間段中，第二部分的曲線對(duì)時(shí)間求積分所得的面積值等于所述預(yù)定面積值；計(jì)算在各個(gè)第一時(shí)間段中的曲線的均值；計(jì)算在各個(gè)第二時(shí)間段中的曲線的均值；以第一部分的第一個(gè)第一時(shí)間段中的曲線的均值為基礎(chǔ)，如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值大，則加上下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值，如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值小，則減去下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值的倍數(shù)，以獲得第一部分的概率；以第二部分的最后ー個(gè)第二時(shí)間段中的曲線的均值為基礎(chǔ)，如果前ー第二時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值大，則カロ上前一第二時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值，如果前一第ニ時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值小，則減去前一第ニ時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值的倍數(shù)，以獲得第二部分的概率；以及以預(yù)定權(quán)重來(lái)組合第一部分的概率和第二部分的概率來(lái)獲得該片段中該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率。在本發(fā)明的一個(gè)實(shí)施例中，在步驟S401中，可以根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段使得每個(gè)片段足夠短以僅包含一個(gè)或兩個(gè)說(shuō)話人的聲音。在本發(fā)明的一個(gè)實(shí)施例中，方法400還可以包括f)通過(guò)各個(gè)片段中在步驟e)中所判斷的各個(gè)說(shuō)話人改變點(diǎn)以及在步驟a)中初始分段的各個(gè)分段點(diǎn)，將所述音頻分段為新的片段，針對(duì)兩兩相鄰的兩個(gè)新的片段所合成的ー個(gè)片段，通過(guò)重復(fù)步驟b)到e)來(lái)進(jìn)ー步判斷該合成的片段中是否存在新的說(shuō)話人改變點(diǎn)；以及g)根據(jù)所有說(shuō)話人改變點(diǎn)來(lái)對(duì)所述音頻進(jìn)行最終地分段。通過(guò)本發(fā)明的實(shí)施例,可以不僅使用A BIC的值還使用ABIC的值的曲線分布、形狀，來(lái)更準(zhǔn)確地、更穩(wěn)定地檢測(cè)音頻改變點(diǎn)，從而準(zhǔn)確地將音頻進(jìn)行分段，使得每個(gè)音頻片段可能僅包括同一說(shuō)話人、或同一聲學(xué)條件、或同一類別的音頻，由此可以単獨(dú)地處理每個(gè)音頻片段，例如對(duì)每個(gè)音頻片段建立同一聲學(xué)模型等，從而實(shí)現(xiàn)語(yǔ)音識(shí)別、音頻檢索等的目的。圖5是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理方法500的示例的具體步驟的流程圖。輸入的音頻可以是包括一個(gè)或多個(gè)說(shuō)話人的語(yǔ)音的音頻。但是，音頻還可以是包括一個(gè)或多個(gè)其他聲學(xué)條件的音頻，以下為了便于描述，均使用包括一個(gè)或多個(gè)說(shuō)話人的
語(yǔ)音的音頻。在步驟S501中，根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段。在ー個(gè)實(shí)施例中，每個(gè)片段可以足夠短以僅包含一個(gè)或兩個(gè)說(shuō)話人的語(yǔ)音。在一個(gè)實(shí)施例中，可以設(shè)置分段后的每個(gè)片段的持續(xù)時(shí)間短于ー預(yù)定閾值、TML。在一個(gè)實(shí)施例中，該TML可以是2 5秒，但不限于此。在一個(gè)實(shí)施例中，例如，可以、但不限于使用音頻的能量作為所述音頻物理特性。以下基于音頻的能量來(lái)描述示例的初始分段步驟S501 I)首先，將整個(gè)輸入的音頻考慮為ー個(gè)片段。2)對(duì)于該片段，如果該片段的持續(xù)時(shí)間長(zhǎng)于TML，則從最低能量的(時(shí)間)點(diǎn)，將該片段劃分為兩個(gè)片段。3)重復(fù)步驟2)直到所有的片段的持續(xù)時(shí)間都短于TML。如此，將輸入的音頻分段為ー個(gè)或多個(gè)片段。處理繼續(xù)到步驟S502，在步驟S502中，確定是否有更多的片段。如果是，則進(jìn)入步驟S503來(lái)處理該片段。如果否，則說(shuō)明沒(méi)有片段需要處理了，則進(jìn)入步驟S508和S510，以下將詳細(xì)描述。
處理繼續(xù)到步驟S503，在步驟S503中，對(duì)該片段提取特征。在一個(gè)實(shí)施例中，對(duì)姆個(gè)片段，在時(shí)間序列的姆例如IOms間_處生成例如標(biāo)準(zhǔn)Mel倒頻特征向量(standardmel-cepstral feature)。當(dāng)然，IOms間_僅是示例，還可以使用其他間但一般小于TML0而且,該特征向量也可以是標(biāo)準(zhǔn)Mel倒頻特征向量、Mel頻率倒頻系數(shù)(Mel-frequencyCepstral Coefficients, MFCC)、直觀線性預(yù)測(cè)(Perceptual Linear Predictive, PLP)等其他特性向量中的ー種或幾種。如果使用幾種特征向量，則可以將這幾種特征向量的向量值、例如{a, b, c}和{d, e}組合為一個(gè)特征向量,例如{a, b, c, d, e}。以下，將描述示例的提取例如標(biāo)準(zhǔn)Mel倒頻特征向量的步驟a)對(duì)IOms的時(shí)間窗內(nèi)的信號(hào)采取傅立葉變換；b)使用三角重疊窗，將以上獲得的頻譜的功率映射到Mel范圍上； c)在Mel頻率的每個(gè)處取功率的log ；d)對(duì)Mel log功率的列表、就好像其是ー個(gè)信號(hào)一樣地進(jìn)行離散余弦變換(DCT)；e)所得到的頻譜的幅度即為特征向量。以上提取例如標(biāo)準(zhǔn)Mel倒頻特征向量的步驟的公知的，在此不贅述。處理繼續(xù)到步驟S504，在步驟S504中，計(jì)算A BIC的值。對(duì)每個(gè)片段中的每個(gè)時(shí)間點(diǎn),例如每IOms間隔處，計(jì)算A BIC的值。例如，在使用最大似然度估計(jì)來(lái)估計(jì)模型的參數(shù)時(shí)，可能通過(guò)增加參數(shù)的數(shù)量來(lái)増加似然度，但是這可能導(dǎo)致過(guò)擬合(overfit)。而BIC通過(guò)對(duì)模型中的參數(shù)的數(shù)量引入懲罰項(xiàng)能夠解決這個(gè)問(wèn)題。假設(shè)從步驟S503中提取的倒頻特征的序列是X= (Xi G Rd, i = I,. . . ,N}。對(duì)于該片段中除了起始點(diǎn)以外的每個(gè)時(shí)間點(diǎn)i，通過(guò)以下公式計(jì)算ABIC的值。ABIC(i) = R(i)_ 入 P (I)其中，似然度為R⑴=NlogI E -NiIog E J-N2Iog E 2|(2)其中，例如，E是對(duì)于所有特征向量、即X= {Xi G Rd, i = I, , N}的采樣協(xié)方差矩陣、E1是以該時(shí)間點(diǎn)i為中心以前的部分的特征向量、即Ix1,...，Xi，}的采樣協(xié)方差矩陣、E2是以該時(shí)間點(diǎn)i為中心之后的部分的特征向量、即{Xi+1，...，XN}的采樣協(xié)方差矩陣，N是總的時(shí)間點(diǎn)個(gè)數(shù)，N1是{x1; . . . , Xi, }的時(shí)間點(diǎn)個(gè)數(shù)，N2是{xi+1, . . . , xN}的時(shí)間點(diǎn)個(gè)數(shù)。懲罰項(xiàng)P為P — - H— d(d + 1)| IogN * M (3)其中，假設(shè)懲罰權(quán)重\ = l，d為特征向量空間的維度，M為高斯混合數(shù)的階數(shù)，一般為正整數(shù)，為了簡(jiǎn)化公式(3)可以取M= I。處理繼續(xù)到步驟S505，在步驟S505中，計(jì)算說(shuō)話人改變點(diǎn)的概率。結(jié)合圖6來(lái)描述計(jì)算A BIC的值最大的時(shí)間點(diǎn)為說(shuō)話人改變點(diǎn)的概率的示例詳細(xì)步驟。在圖6的步驟S5051中，在ABIC的值最大的時(shí)間點(diǎn)處將該片段劃分為兩個(gè)部分。假設(shè)，在時(shí)間點(diǎn)為tp，ABIC的值最大。因此，將該片段的時(shí)間序列(0，t_)劃分為(o, tp]和(tp，tmax)兩個(gè)部分。在圖6的步驟S5052中，對(duì)這兩個(gè)部分進(jìn)行曲線擬合。由于在提取特征時(shí)的時(shí)間間隔是10ms，因此得到的ABIC也以IOms為間隔。為了便于計(jì)算，將圖6的步驟S5051中得到的兩個(gè)部分(0，tp]和(tp，t_)的A BIC的子序列值曲線擬合為兩個(gè)曲線Cabici和Cabic2:
權(quán)利要求
1.ー種音頻處理方法，所述方法包括以下步驟 a)根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段；對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段 b)在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處，提取一種或多種音頻特征作為音頻特征向量； c)針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè)，通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值； d)通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn)，將該片段劃分為第一部分和第二部分；以及 e)通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布，來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)。
2.根據(jù)權(quán)利要求I的方法，其中，對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段，通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布，來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)的步驟包括計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率，以及將所述概率與預(yù)定閾值比較，如果該概率大于或等于該預(yù)定閾值，則判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)，其中，如果第一部分和第二部分中的兩個(gè)曲線的幅度越靠近該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)處越單調(diào)地升高且升高得越高，則該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率越大。
3.根據(jù)權(quán)利要求2的方法，其中，在計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率的步驟中將第一部分的曲線劃分為多個(gè)第一時(shí)間段，其中，在每個(gè)第一時(shí)間段中，第一部分的曲線對(duì)時(shí)間求積分所得的面積值等于預(yù)定面積值；將第二部分的曲線劃分為多個(gè)第二時(shí)間段，其中，在每個(gè)第二時(shí)間段中，第二部分的曲線對(duì)時(shí)間求積分所得的面積值等于所述預(yù)定面積值；計(jì)算在各個(gè)第一時(shí)間段中的曲線的均值；計(jì)算在各個(gè)第二時(shí)間段中的曲線的均值；以第一部分的第一個(gè)第一時(shí)間段中的曲線的均值為基礎(chǔ)，如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值大，則加上下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值，如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值小，則減去下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值的倍數(shù)，以獲得第一部分的概率；以第二部分的最后ー個(gè)第二時(shí)間段中的曲線的均值為基礎(chǔ)，如果前ー第二時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值大，則加上前一第ニ時(shí)間段中的曲線的均值與下一第ニ時(shí)間段中的曲線的均值之間的差值，如果前ー第ニ時(shí)間段中的曲線的均值比下一第二時(shí)間段中的曲線的均值小，則減去前一第ニ時(shí)間段中的曲線的均值與下一第ニ時(shí)間段中的曲線的均值之間的差值的倍數(shù)，以獲得第二部分的概率；以及以預(yù)定權(quán)重來(lái)組合第一部分的概率和第二部分的概率來(lái)獲得該片段中該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率。
4.根據(jù)權(quán)利要求1-3中的任一的方法，其中在步驟a)中，根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段使得每個(gè)片段足夠短以僅包含一個(gè)或兩個(gè)說(shuō)話人的聲音。
5.根據(jù)權(quán)利要求1-3中的任一的方法，還包括 f)通過(guò)各個(gè)片段中在步驟e)中所判斷的各個(gè)說(shuō)話人改變點(diǎn)以及在步驟a)中初始分段的各個(gè)分段點(diǎn)，將所述音頻分段為新的片段，針對(duì)兩兩相鄰的兩個(gè)新的片段所合成的一個(gè)片段，通過(guò)重復(fù)步驟b)到e)來(lái)進(jìn)ー步判斷該合成的片段中是否存在新的說(shuō)話人改變點(diǎn)；以及 g)根據(jù)所有說(shuō)話人改變點(diǎn)來(lái)對(duì)所述音頻進(jìn)行最終地分段。
6.ー種音頻處理設(shè)備，所述設(shè)備包括初始分段裝置，根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段；說(shuō)話人改變點(diǎn)判斷裝置，包括對(duì)于所述ー個(gè)或多個(gè)片段中的每個(gè)片段的音頻特征向量提取裝置，在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處，提取ー種或多種音頻特征作為音頻特征向量；貝葉斯信息準(zhǔn)則值計(jì)算裝置，針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè)，通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值；片段劃分裝置，通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn)，將該片段劃分為第一部分和第二部分；以及判斷裝置，通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布，來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)。
7.根據(jù)權(quán)利要求6的設(shè)備，其中，所述判斷裝置包括計(jì)算裝置，計(jì)算該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率；以及比較裝置，將所述概率與預(yù)定閾值比較，如果該概率大于或等于該預(yù)定閾值，則判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)，其中，如果第一部分和第二部分中的兩個(gè)曲線的幅度越靠近該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)處越單調(diào)地升高且升高得越高，則該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率越大。
8.根據(jù)權(quán)利要求7的設(shè)備，其中，所述計(jì)算裝置包括將第一部分的曲線劃分為多個(gè)第一時(shí)間段的裝置，其中，在每個(gè)第一時(shí)間段中，第一部分的曲線對(duì)時(shí)間求積分所得的面積值等于預(yù)定面積值；將第二部分的曲線劃分為多個(gè)第二時(shí)間段的裝置，其中，在每個(gè)第二時(shí)間段中，第二部分的曲線對(duì)時(shí)間求積分所得的面積值等于所述預(yù)定面積值；計(jì)算在各個(gè)第一時(shí)間段中的曲線的均值的裝置；計(jì)算在各個(gè)第二時(shí)間段中的曲線的均值的裝置；以第一部分的第一個(gè)第一時(shí)間段中的曲線的均值為基礎(chǔ)，如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值大，則加上下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值，如果下ー第一時(shí)間段中的曲線的均值比前一第一時(shí)間段中的曲線的均值小，則減去下一第一時(shí)間段中的曲線的均值與前一第一時(shí)間段中的曲線的均值之間的差值的倍數(shù)，以獲得第一部分的概率的裝置；以第二部分的最后ー個(gè)第二時(shí)間段中的曲線的均值為基礎(chǔ)，如果前ー第二時(shí)間段中的曲線的均值比下一第ニ時(shí)間段中的曲線的均值大，則加上前一第二時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值，如果前ー第二時(shí)間段中的曲線的均值比下一第ニ時(shí)間段中的曲線的均值小，則減去前一第二時(shí)間段中的曲線的均值與下一第二時(shí)間段中的曲線的均值之間的差值的倍數(shù)，以獲得第二部分的概率的裝置；以及以預(yù)定權(quán)重來(lái)組合第一部分的概率和第二部分的概率來(lái)獲得該片段中該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是說(shuō)話人改變點(diǎn)的概率的裝置。
9.根據(jù)權(quán)利要求6-8中的任一的設(shè)備，其中，初始分段裝置根據(jù)音頻物理特性將音頻初始地分段為ー個(gè)或多個(gè)片段使得每個(gè)片段足夠短以僅包含一個(gè)或兩個(gè)說(shuō)話人的聲音。
10.根據(jù)權(quán)利要求6-8中的任一的設(shè)備，還包括新的說(shuō)話人改變點(diǎn)判斷裝置，通過(guò)各個(gè)片段中由所述判斷裝置所判斷的各個(gè)說(shuō)話人改變點(diǎn)以及由所述初始分段裝置初始分段的各個(gè)分段點(diǎn)，將所述音頻分段為新的片段，針對(duì)兩兩相鄰的兩個(gè)新的片段所合成的ー個(gè)片段，通過(guò)所述說(shuō)話人改變點(diǎn)判斷裝置來(lái)進(jìn)ー步判斷該合成的片段中是否存在新的說(shuō)話人改變點(diǎn)；以及最終分段裝置，根據(jù)所有說(shuō)話人改變點(diǎn)來(lái)對(duì)所述音頻進(jìn)行最終地分段。
全文摘要
提供一種音頻處理方法和設(shè)備，該方法包括以下步驟a)根據(jù)音頻物理特性將音頻初始地分段為一個(gè)或多個(gè)片段；對(duì)于所述一個(gè)或多個(gè)片段中的每個(gè)片段b)在該片段中的多個(gè)時(shí)間點(diǎn)的每個(gè)處，提取一種或多種音頻特征作為音頻特征向量；c)針對(duì)所述多個(gè)時(shí)間點(diǎn)的每個(gè)，通過(guò)所述音頻特征向量來(lái)計(jì)算該時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值；d)通過(guò)各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值中的最大值所對(duì)應(yīng)的時(shí)間點(diǎn)，將該片段劃分為第一部分和第二部分；以及e)通過(guò)第一部分和第二部分中的由各個(gè)時(shí)間點(diǎn)的貝葉斯信息準(zhǔn)則值構(gòu)成的相對(duì)于時(shí)間點(diǎn)的兩個(gè)曲線的分布，來(lái)判斷該最大值所對(duì)應(yīng)的時(shí)間點(diǎn)是否是說(shuō)話人改變點(diǎn)。
文檔編號(hào)G10L17/00GK102655002SQ201110049298
公開日2012年9月5日申請(qǐng)日期2011年3月1日優(yōu)先權(quán)日2011年3月1日
發(fā)明者尹悅燕, 鄭繼川, 魯耀杰申請(qǐng)人:株式會(huì)社理光

完整全部詳細(xì)技術(shù)資料下載