一種判斷說(shuō)話人數(shù)目的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語(yǔ)音信號(hào)處理領(lǐng)域,具體涉及一種判斷說(shuō)話人數(shù)目的方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著語(yǔ)音信號(hào)處理技術(shù)的不斷發(fā)展,語(yǔ)音信號(hào)處理的對(duì)象由原來(lái)僅包括單說(shuō)話人 場(chǎng)景,逐步開(kāi)始包括雙說(shuō)話人場(chǎng)景,例如電話記錄;甚至多說(shuō)話人場(chǎng)景,例如會(huì)議記錄;此 外,目前的語(yǔ)音信號(hào)處理的數(shù)據(jù)由原來(lái)的時(shí)長(zhǎng)為幾秒,幾十秒的短時(shí)音頻逐步擴(kuò)展到幾十 分鐘,甚至幾小時(shí)的長(zhǎng)時(shí)音頻。對(duì)于雙說(shuō)話人場(chǎng)景或多說(shuō)話人場(chǎng)景,尤其是長(zhǎng)時(shí)音頻,語(yǔ)音 記錄的識(shí)別效果跟說(shuō)話人分離的效果密切相關(guān),而準(zhǔn)確的判斷說(shuō)話人數(shù)目,能夠幫助分析 語(yǔ)音記錄的場(chǎng)景,優(yōu)化說(shuō)話人分離的效果,從而制定相應(yīng)的策略提升識(shí)別的效果,例如,針 對(duì)某個(gè)說(shuō)話人的自適應(yīng)識(shí)別策略。
[0003] 現(xiàn)有的說(shuō)話人數(shù)目判斷多是基于說(shuō)話人變化點(diǎn)檢測(cè),對(duì)語(yǔ)音信號(hào)進(jìn)行分割,以達(dá) 到對(duì)說(shuō)話人進(jìn)行分割,再對(duì)分割后的各段語(yǔ)音信號(hào)基于貝葉斯信息準(zhǔn)則進(jìn)行聚類,最終確 定說(shuō)話人數(shù)目。現(xiàn)有技術(shù)中判斷說(shuō)話人數(shù)目結(jié)果的準(zhǔn)確性完全依賴于說(shuō)話人分割和聚類的 準(zhǔn)確性,而說(shuō)話人分割受到步長(zhǎng)的影響,步長(zhǎng)多是根據(jù)經(jīng)驗(yàn)確定,所以難免出現(xiàn)設(shè)定的步長(zhǎng) 不合適的情況,從而影響說(shuō)話人分割的準(zhǔn)確性及后續(xù)聚類的準(zhǔn)確性;此外,在聚類時(shí)貝葉斯 距離受語(yǔ)音時(shí)長(zhǎng)的影響,主要表現(xiàn)為一般情況下語(yǔ)音時(shí)長(zhǎng)越長(zhǎng)其貝葉斯距離越大,因而在 對(duì)不同時(shí)長(zhǎng)的語(yǔ)音進(jìn)行說(shuō)話人聚類時(shí),難以用統(tǒng)一的閾值進(jìn)行聚類停止條件的判斷,使得 說(shuō)話人數(shù)目判斷存在較大誤差,最終影響語(yǔ)音識(shí)別效果。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實(shí)施例提供一種判斷說(shuō)話人數(shù)目的方法及系統(tǒng),解決對(duì)于雙說(shuō)話人場(chǎng)景或 多說(shuō)話人場(chǎng)景,尤其是長(zhǎng)時(shí)音頻,通過(guò)現(xiàn)有技術(shù)判斷的說(shuō)話人數(shù)目不準(zhǔn)確的問(wèn)題,以提高判 斷說(shuō)話人數(shù)目的準(zhǔn)確度。
[0005] 為此,本發(fā)明實(shí)施例提供如下技術(shù)方案:
[0006] 一種判斷說(shuō)話人數(shù)目的方法,包括:
[0007] 接收語(yǔ)音信號(hào);
[0008] 提取所述語(yǔ)音信號(hào)的語(yǔ)音信號(hào)特征;
[0009] 根據(jù)所述語(yǔ)音信號(hào)的語(yǔ)音信號(hào)特征對(duì)所述語(yǔ)音信號(hào)進(jìn)行分割,得到分割信號(hào)段;
[0010] 將所述分割信號(hào)段聚類成指定個(gè)數(shù)的語(yǔ)音信號(hào)類;
[0011] 根據(jù)所述語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征對(duì)所述語(yǔ)音信號(hào)進(jìn)行重分 割;
[0012] 計(jì)算過(guò)程:根據(jù)重分割后語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征計(jì)算并比較 不同語(yǔ)音信號(hào)類之間的相似度;
[0013] 計(jì)算過(guò)程結(jié)束后,根據(jù)計(jì)算結(jié)果確定說(shuō)話人數(shù)目。
[0014] 優(yōu)選地,所述根據(jù)所述語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征對(duì)所述語(yǔ)音信 號(hào)進(jìn)行重分割包括:
[0015] (1)利用所述語(yǔ)音信號(hào)的語(yǔ)音信號(hào)特征訓(xùn)練一個(gè)總的高斯混合模型;
[0016] (2)利用各語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征在該總的高斯混合模型上 進(jìn)行最大后驗(yàn)概率自適應(yīng),得到各類的高斯混合模型;
[0017] (3)利用各類的高斯混合模型對(duì)所述語(yǔ)音信號(hào)進(jìn)行重分割,并確定重分割后語(yǔ)音 信號(hào)類中各分割信號(hào)段;
[0018] 重復(fù)上述步驟(2)至步驟(3)直至完成設(shè)定的重復(fù)次數(shù)。
[0019] 優(yōu)選地,所述計(jì)算過(guò)程包括:
[0020] 利用總體變化因子模型提取當(dāng)前各語(yǔ)音信號(hào)類的說(shuō)話人因子向量;
[0021] 根據(jù)所述說(shuō)話人因子向量之間的距離計(jì)算不同語(yǔ)音信號(hào)類之間的相似度;
[0022] 如果得到的最大相似度大于設(shè)定的第一閾值,則將最大相似度對(duì)應(yīng)的兩個(gè)語(yǔ)音信 號(hào)類進(jìn)行合并;然后重復(fù)計(jì)算過(guò)程;
[0023] 否則,計(jì)算過(guò)程結(jié)束。
[0024] 優(yōu)選地,所述計(jì)算過(guò)程包括:
[0025] 利用總體變化因子模型提取當(dāng)前各語(yǔ)音信號(hào)類的說(shuō)話人因子向量;
[0026] 利用概率線性鑒別分析PLDA技術(shù)從所述說(shuō)話人因子向量中提取信道無(wú)關(guān)的說(shuō)話 人因子向量;
[0027] 根據(jù)所述信道無(wú)關(guān)的說(shuō)話人因子向量之間的距離計(jì)算不同語(yǔ)音信號(hào)類之間的相 似度;
[0028] 如果得到的最大相似度大于設(shè)定的第二閾值,則將最大相似度對(duì)應(yīng)的兩個(gè)語(yǔ)音信 號(hào)類進(jìn)行合并;然后重復(fù)計(jì)算過(guò)程;
[0029] 否則,計(jì)算過(guò)程結(jié)束。
[0030] 優(yōu)選地,所述計(jì)算過(guò)程包括:
[0031] 利用總體變化因子模型提取當(dāng)前各語(yǔ)音信號(hào)類的說(shuō)話人因子向量;
[0032] 利用大量離線數(shù)據(jù)訓(xùn)練的PLDA模型來(lái)計(jì)算各語(yǔ)音信號(hào)類的說(shuō)話人因子向量之間 與信道無(wú)關(guān)的PLDA得分;
[0033] 如果得到的最大PLDA得分大于設(shè)定的第三閾值,則將最大PLDA得分對(duì)應(yīng)的兩個(gè) 語(yǔ)音信號(hào)類進(jìn)行合并;然后重復(fù)計(jì)算過(guò)程;
[0034] 否則,計(jì)算過(guò)程結(jié)束。
[0035] 優(yōu)選地,所述根據(jù)計(jì)算結(jié)果確定說(shuō)話人數(shù)目包括:
[0036] 將當(dāng)前語(yǔ)音信號(hào)類的數(shù)目作為說(shuō)話人數(shù)目。
[0037] -種判斷說(shuō)話人數(shù)目的系統(tǒng),包括:
[0038] 接收模塊,用于接收語(yǔ)音信號(hào);
[0039] 特征提取模塊,用于提取所述語(yǔ)音信號(hào)的語(yǔ)音信號(hào)特征;
[0040] 分割模塊,用于根據(jù)所述語(yǔ)音信號(hào)的語(yǔ)音信號(hào)特征對(duì)所述語(yǔ)音信號(hào)進(jìn)行分割,得 到分割信號(hào)段;
[0041] 聚類模塊,用于將所述分割信號(hào)段聚類成指定個(gè)數(shù)的語(yǔ)音信號(hào)類;
[0042] 重分割模塊,用于根據(jù)所述語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征對(duì)所述語(yǔ) 音信號(hào)進(jìn)行重分割;
[0043] 相似度獲取模塊,用于根據(jù)重分割后語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征 計(jì)算并比較不同語(yǔ)音信號(hào)類之間的相似度;
[0044] 數(shù)目獲取模塊,用于根據(jù)不同語(yǔ)音信號(hào)類之間的相似度的比較結(jié)果確定說(shuō)話人數(shù) 目。
[0045] 優(yōu)選地,所述重分割模塊包括:
[0046] 第一模型訓(xùn)練單元,用于利用所述語(yǔ)音信號(hào)的語(yǔ)音信號(hào)特征訓(xùn)練一個(gè)總的高斯混 合模型;
[0047] 第二模型訓(xùn)練單元,用于利用各語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征在該 總的高斯混合模型上進(jìn)行最大后驗(yàn)概率自適應(yīng),得到各類的高斯混合模型;
[0048] 重分割單元,用于利用各類的高斯混合模型對(duì)所述語(yǔ)音信號(hào)進(jìn)行重分割,并確定 重分割后語(yǔ)音信號(hào)類中各分割信號(hào)段;
[0049] 第一判斷單元,用于判斷重復(fù)重分割的次數(shù)是否達(dá)到設(shè)定的重復(fù)次數(shù),如果未達(dá) 到,則觸發(fā)所述第二模型訓(xùn)練單元和所述重分割單元繼續(xù)重復(fù)執(zhí)行各自的操作過(guò)程。
[0050] 優(yōu)選地,所述相似度獲取模塊包括:
[0051] 說(shuō)話人因子向量提取單元,用于利用總體變化因子模型提取當(dāng)前各語(yǔ)音信號(hào)類的 說(shuō)話人因子向量;
[0052] 第一計(jì)算單元,用于根據(jù)所述說(shuō)話人因子向量之間的距離計(jì)算不同語(yǔ)音信號(hào)類之 間的相似度;
[0053] 第一合并單元,用于在所述第一計(jì)算單元計(jì)算得到的最大相似度大于設(shè)定的第一 閾值時(shí),將最大相似度對(duì)應(yīng)的兩個(gè)語(yǔ)音信號(hào)類進(jìn)行合并,然后觸發(fā)所述第一計(jì)算單元繼續(xù) 重復(fù)計(jì)算過(guò)程。
[0054] 優(yōu)選地,所述相似度獲取模塊包括:
[0055] 說(shuō)話人因子向量提取單元,用于利用總體變化因子模型提取當(dāng)前各語(yǔ)音信號(hào)類的 說(shuō)話人因子向量;
[0056] 說(shuō)話人因子分析單元,用于利用概率線性鑒別分析PLDA技術(shù)從所述說(shuō)話人因子 向量中提取信道無(wú)關(guān)的說(shuō)話人因子向量;
[0057] 第二計(jì)算單元,用于根據(jù)所述信道無(wú)關(guān)的說(shuō)話人因子向量之間的距離計(jì)算不同語(yǔ) 音信號(hào)類之間的相似度;
[0058] 第二合并單元,用于在所述第二計(jì)算單元得到的最大相似度大于設(shè)定的第二閾值 時(shí),將最大相似度對(duì)應(yīng)的兩個(gè)語(yǔ)音信號(hào)類進(jìn)行合并,然后觸發(fā)所述第二計(jì)算單元繼續(xù)重復(fù) 計(jì)算過(guò)程。
[0059] 優(yōu)選地,所述相似度獲取模塊包括:
[0060] 說(shuō)話人因子向量提取單元,用于利用總體變化因子模型提取當(dāng)前各語(yǔ)音信號(hào)類的 說(shuō)話人因子向量;
[0061] 第三計(jì)算單元,用于利用大量離線數(shù)據(jù)訓(xùn)練的PLDA模型來(lái)計(jì)算各語(yǔ)音信號(hào)類的 說(shuō)話人因子向量之間與信道無(wú)關(guān)的PLDA得分;
[0062] 第三合并單元,用于在所述第三計(jì)算單元得到的最大PLDA得分大于設(shè)定的第三 閾值時(shí),將最大PLDA得分對(duì)應(yīng)的兩個(gè)語(yǔ)音信號(hào)類進(jìn)行合并,然后觸發(fā)所述第三計(jì)算單元繼 續(xù)重復(fù)計(jì)算過(guò)程。
[0063] 優(yōu)選地,所述數(shù)目獲取模塊具體用于將當(dāng)前語(yǔ)音信號(hào)類的數(shù)目作為說(shuō)話人數(shù)目。
[0064] 本發(fā)明實(shí)施例提供的判斷說(shuō)話人數(shù)目的方法及系統(tǒng),通過(guò)提取接收的語(yǔ)音信號(hào)的 語(yǔ)音信號(hào)特征,然后通過(guò)現(xiàn)有技術(shù),根據(jù)語(yǔ)音信號(hào)特征對(duì)語(yǔ)音信號(hào)進(jìn)行分割,并將分割后得 到的分割信號(hào)段聚類成指定個(gè)數(shù)的語(yǔ)音信號(hào)類,接著根據(jù)各分割信號(hào)段的語(yǔ)音特征對(duì)所述 語(yǔ)音信號(hào)進(jìn)行重分割,根據(jù)重分割后語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征計(jì)算重分 割后各語(yǔ)音信號(hào)類的相似度,根據(jù)