一種判斷說(shuō)話人數(shù)目的方法及系統(tǒng)的制作方法

文檔序號(hào)：8944168閱讀：1097來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種判斷說(shuō)話人數(shù)目的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語(yǔ)音信號(hào)處理領(lǐng)域，具體涉及一種判斷說(shuō)話人數(shù)目的方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著語(yǔ)音信號(hào)處理技術(shù)的不斷發(fā)展，語(yǔ)音信號(hào)處理的對(duì)象由原來(lái)僅包括單說(shuō)話人場(chǎng)景，逐步開(kāi)始包括雙說(shuō)話人場(chǎng)景，例如電話記錄；甚至多說(shuō)話人場(chǎng)景，例如會(huì)議記錄；此外，目前的語(yǔ)音信號(hào)處理的數(shù)據(jù)由原來(lái)的時(shí)長(zhǎng)為幾秒，幾十秒的短時(shí)音頻逐步擴(kuò)展到幾十分鐘，甚至幾小時(shí)的長(zhǎng)時(shí)音頻。對(duì)于雙說(shuō)話人場(chǎng)景或多說(shuō)話人場(chǎng)景，尤其是長(zhǎng)時(shí)音頻，語(yǔ)音記錄的識(shí)別效果跟說(shuō)話人分離的效果密切相關(guān)，而準(zhǔn)確的判斷說(shuō)話人數(shù)目，能夠幫助分析語(yǔ)音記錄的場(chǎng)景，優(yōu)化說(shuō)話人分離的效果，從而制定相應(yīng)的策略提升識(shí)別的效果，例如，針對(duì)某個(gè)說(shuō)話人的自適應(yīng)識(shí)別策略。
[0003] 現(xiàn)有的說(shuō)話人數(shù)目判斷多是基于說(shuō)話人變化點(diǎn)檢測(cè)，對(duì)語(yǔ)音信號(hào)進(jìn)行分割，以達(dá) 到對(duì)說(shuō)話人進(jìn)行分割，再對(duì)分割后的各段語(yǔ)音信號(hào)基于貝葉斯信息準(zhǔn)則進(jìn)行聚類，最終確定說(shuō)話人數(shù)目。現(xiàn)有技術(shù)中判斷說(shuō)話人數(shù)目結(jié)果的準(zhǔn)確性完全依賴于說(shuō)話人分割和聚類的準(zhǔn)確性，而說(shuō)話人分割受到步長(zhǎng)的影響，步長(zhǎng)多是根據(jù)經(jīng)驗(yàn)確定，所以難免出現(xiàn)設(shè)定的步長(zhǎng) 不合適的情況，從而影響說(shuō)話人分割的準(zhǔn)確性及后續(xù)聚類的準(zhǔn)確性；此外，在聚類時(shí)貝葉斯距離受語(yǔ)音時(shí)長(zhǎng)的影響，主要表現(xiàn)為一般情況下語(yǔ)音時(shí)長(zhǎng)越長(zhǎng)其貝葉斯距離越大，因而在對(duì)不同時(shí)長(zhǎng)的語(yǔ)音進(jìn)行說(shuō)話人聚類時(shí)，難以用統(tǒng)一的閾值進(jìn)行聚類停止條件的判斷，使得說(shuō)話人數(shù)目判斷存在較大誤差，最終影響語(yǔ)音識(shí)別效果。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明實(shí)施例提供一種判斷說(shuō)話人數(shù)目的方法及系統(tǒng)，解決對(duì)于雙說(shuō)話人場(chǎng)景或多說(shuō)話人場(chǎng)景，尤其是長(zhǎng)時(shí)音頻，通過(guò)現(xiàn)有技術(shù)判斷的說(shuō)話人數(shù)目不準(zhǔn)確的問(wèn)題，以提高判斷說(shuō)話人數(shù)目的準(zhǔn)確度。
[0005] 為此，本發(fā)明實(shí)施例提供如下技術(shù)方案：
[0006] 一種判斷說(shuō)話人數(shù)目的方法，包括：
[0007] 接收語(yǔ)音信號(hào)；
[0008] 提取所述語(yǔ)音信號(hào)的語(yǔ)音信號(hào)特征；
[0009] 根據(jù)所述語(yǔ)音信號(hào)的語(yǔ)音信號(hào)特征對(duì)所述語(yǔ)音信號(hào)進(jìn)行分割，得到分割信號(hào)段；
[0010] 將所述分割信號(hào)段聚類成指定個(gè)數(shù)的語(yǔ)音信號(hào)類；
[0011] 根據(jù)所述語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征對(duì)所述語(yǔ)音信號(hào)進(jìn)行重分割；
[0012] 計(jì)算過(guò)程：根據(jù)重分割后語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征計(jì)算并比較不同語(yǔ)音信號(hào)類之間的相似度；
[0013] 計(jì)算過(guò)程結(jié)束后，根據(jù)計(jì)算結(jié)果確定說(shuō)話人數(shù)目。
[0014] 優(yōu)選地，所述根據(jù)所述語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征對(duì)所述語(yǔ)音信號(hào)進(jìn)行重分割包括：
[0015] (1)利用所述語(yǔ)音信號(hào)的語(yǔ)音信號(hào)特征訓(xùn)練一個(gè)總的高斯混合模型；
[0016] (2)利用各語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征在該總的高斯混合模型上進(jìn)行最大后驗(yàn)概率自適應(yīng)，得到各類的高斯混合模型；
[0017] (3)利用各類的高斯混合模型對(duì)所述語(yǔ)音信號(hào)進(jìn)行重分割，并確定重分割后語(yǔ)音信號(hào)類中各分割信號(hào)段；
[0018] 重復(fù)上述步驟（2)至步驟（3)直至完成設(shè)定的重復(fù)次數(shù)。
[0019] 優(yōu)選地，所述計(jì)算過(guò)程包括：
[0020] 利用總體變化因子模型提取當(dāng)前各語(yǔ)音信號(hào)類的說(shuō)話人因子向量；
[0021] 根據(jù)所述說(shuō)話人因子向量之間的距離計(jì)算不同語(yǔ)音信號(hào)類之間的相似度；
[0022] 如果得到的最大相似度大于設(shè)定的第一閾值，則將最大相似度對(duì)應(yīng)的兩個(gè)語(yǔ)音信號(hào)類進(jìn)行合并；然后重復(fù)計(jì)算過(guò)程；
[0023] 否則，計(jì)算過(guò)程結(jié)束。
[0024] 優(yōu)選地，所述計(jì)算過(guò)程包括：
[0025] 利用總體變化因子模型提取當(dāng)前各語(yǔ)音信號(hào)類的說(shuō)話人因子向量；
[0026] 利用概率線性鑒別分析PLDA技術(shù)從所述說(shuō)話人因子向量中提取信道無(wú)關(guān)的說(shuō)話人因子向量；
[0027] 根據(jù)所述信道無(wú)關(guān)的說(shuō)話人因子向量之間的距離計(jì)算不同語(yǔ)音信號(hào)類之間的相似度；
[0028] 如果得到的最大相似度大于設(shè)定的第二閾值，則將最大相似度對(duì)應(yīng)的兩個(gè)語(yǔ)音信號(hào)類進(jìn)行合并；然后重復(fù)計(jì)算過(guò)程；
[0029] 否則，計(jì)算過(guò)程結(jié)束。
[0030] 優(yōu)選地，所述計(jì)算過(guò)程包括：
[0031] 利用總體變化因子模型提取當(dāng)前各語(yǔ)音信號(hào)類的說(shuō)話人因子向量；
[0032] 利用大量離線數(shù)據(jù)訓(xùn)練的PLDA模型來(lái)計(jì)算各語(yǔ)音信號(hào)類的說(shuō)話人因子向量之間與信道無(wú)關(guān)的PLDA得分；
[0033] 如果得到的最大PLDA得分大于設(shè)定的第三閾值，則將最大PLDA得分對(duì)應(yīng)的兩個(gè) 語(yǔ)音信號(hào)類進(jìn)行合并；然后重復(fù)計(jì)算過(guò)程；
[0034] 否則，計(jì)算過(guò)程結(jié)束。
[0035] 優(yōu)選地，所述根據(jù)計(jì)算結(jié)果確定說(shuō)話人數(shù)目包括：
[0036] 將當(dāng)前語(yǔ)音信號(hào)類的數(shù)目作為說(shuō)話人數(shù)目。
[0037] -種判斷說(shuō)話人數(shù)目的系統(tǒng)，包括：
[0038] 接收模塊，用于接收語(yǔ)音信號(hào)；
[0039] 特征提取模塊，用于提取所述語(yǔ)音信號(hào)的語(yǔ)音信號(hào)特征；
[0040] 分割模塊，用于根據(jù)所述語(yǔ)音信號(hào)的語(yǔ)音信號(hào)特征對(duì)所述語(yǔ)音信號(hào)進(jìn)行分割，得到分割信號(hào)段；
[0041] 聚類模塊，用于將所述分割信號(hào)段聚類成指定個(gè)數(shù)的語(yǔ)音信號(hào)類；
[0042] 重分割模塊，用于根據(jù)所述語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征對(duì)所述語(yǔ) 音信號(hào)進(jìn)行重分割；
[0043] 相似度獲取模塊，用于根據(jù)重分割后語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征計(jì)算并比較不同語(yǔ)音信號(hào)類之間的相似度；
[0044] 數(shù)目獲取模塊，用于根據(jù)不同語(yǔ)音信號(hào)類之間的相似度的比較結(jié)果確定說(shuō)話人數(shù) 目。
[0045] 優(yōu)選地，所述重分割模塊包括：
[0046] 第一模型訓(xùn)練單元，用于利用所述語(yǔ)音信號(hào)的語(yǔ)音信號(hào)特征訓(xùn)練一個(gè)總的高斯混合模型；
[0047] 第二模型訓(xùn)練單元，用于利用各語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征在該總的高斯混合模型上進(jìn)行最大后驗(yàn)概率自適應(yīng)，得到各類的高斯混合模型；
[0048] 重分割單元，用于利用各類的高斯混合模型對(duì)所述語(yǔ)音信號(hào)進(jìn)行重分割，并確定重分割后語(yǔ)音信號(hào)類中各分割信號(hào)段；
[0049] 第一判斷單元，用于判斷重復(fù)重分割的次數(shù)是否達(dá)到設(shè)定的重復(fù)次數(shù)，如果未達(dá) 到，則觸發(fā)所述第二模型訓(xùn)練單元和所述重分割單元繼續(xù)重復(fù)執(zhí)行各自的操作過(guò)程。
[0050] 優(yōu)選地，所述相似度獲取模塊包括：
[0051] 說(shuō)話人因子向量提取單元，用于利用總體變化因子模型提取當(dāng)前各語(yǔ)音信號(hào)類的說(shuō)話人因子向量；
[0052] 第一計(jì)算單元，用于根據(jù)所述說(shuō)話人因子向量之間的距離計(jì)算不同語(yǔ)音信號(hào)類之間的相似度；
[0053] 第一合并單元，用于在所述第一計(jì)算單元計(jì)算得到的最大相似度大于設(shè)定的第一閾值時(shí)，將最大相似度對(duì)應(yīng)的兩個(gè)語(yǔ)音信號(hào)類進(jìn)行合并，然后觸發(fā)所述第一計(jì)算單元繼續(xù) 重復(fù)計(jì)算過(guò)程。
[0054] 優(yōu)選地，所述相似度獲取模塊包括：
[0055] 說(shuō)話人因子向量提取單元，用于利用總體變化因子模型提取當(dāng)前各語(yǔ)音信號(hào)類的說(shuō)話人因子向量；
[0056] 說(shuō)話人因子分析單元，用于利用概率線性鑒別分析PLDA技術(shù)從所述說(shuō)話人因子向量中提取信道無(wú)關(guān)的說(shuō)話人因子向量；
[0057] 第二計(jì)算單元，用于根據(jù)所述信道無(wú)關(guān)的說(shuō)話人因子向量之間的距離計(jì)算不同語(yǔ) 音信號(hào)類之間的相似度；
[0058] 第二合并單元，用于在所述第二計(jì)算單元得到的最大相似度大于設(shè)定的第二閾值時(shí)，將最大相似度對(duì)應(yīng)的兩個(gè)語(yǔ)音信號(hào)類進(jìn)行合并，然后觸發(fā)所述第二計(jì)算單元繼續(xù)重復(fù) 計(jì)算過(guò)程。
[0059] 優(yōu)選地，所述相似度獲取模塊包括：
[0060] 說(shuō)話人因子向量提取單元，用于利用總體變化因子模型提取當(dāng)前各語(yǔ)音信號(hào)類的說(shuō)話人因子向量；
[0061] 第三計(jì)算單元，用于利用大量離線數(shù)據(jù)訓(xùn)練的PLDA模型來(lái)計(jì)算各語(yǔ)音信號(hào)類的說(shuō)話人因子向量之間與信道無(wú)關(guān)的PLDA得分；
[0062] 第三合并單元，用于在所述第三計(jì)算單元得到的最大PLDA得分大于設(shè)定的第三閾值時(shí)，將最大PLDA得分對(duì)應(yīng)的兩個(gè)語(yǔ)音信號(hào)類進(jìn)行合并，然后觸發(fā)所述第三計(jì)算單元繼續(xù)重復(fù)計(jì)算過(guò)程。
[0063] 優(yōu)選地，所述數(shù)目獲取模塊具體用于將當(dāng)前語(yǔ)音信號(hào)類的數(shù)目作為說(shuō)話人數(shù)目。
[0064] 本發(fā)明實(shí)施例提供的判斷說(shuō)話人數(shù)目的方法及系統(tǒng)，通過(guò)提取接收的語(yǔ)音信號(hào)的語(yǔ)音信號(hào)特征，然后通過(guò)現(xiàn)有技術(shù)，根據(jù)語(yǔ)音信號(hào)特征對(duì)語(yǔ)音信號(hào)進(jìn)行分割，并將分割后得到的分割信號(hào)段聚類成指定個(gè)數(shù)的語(yǔ)音信號(hào)類，接著根據(jù)各分割信號(hào)段的語(yǔ)音特征對(duì)所述語(yǔ)音信號(hào)進(jìn)行重分割，根據(jù)重分割后語(yǔ)音信號(hào)類中各分割信號(hào)段的語(yǔ)音信號(hào)特征計(jì)算重分割后各語(yǔ)音信號(hào)類的相似度，根據(jù)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4 5

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：何山;殷兵;潘青華;胡國(guó)平;胡郁;劉慶峰;
技術(shù)所有人：科大訊飛股份有限公司;
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

教室人數(shù)統(tǒng)計(jì)系統(tǒng)相關(guān)技術(shù)

人數(shù)統(tǒng)計(jì)系統(tǒng)相關(guān)技術(shù)

視頻監(jiān)控人數(shù)統(tǒng)計(jì)系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種判斷說(shuō)話人數(shù)目的方法及系統(tǒng)的制作方法