一種基于說話人分割的會議主持人語音提取方法
【專利摘要】本發(fā)明公開了一種基于說話人分割的會議主持人語音提取方法,包括如下步驟:S1、讀入記錄有會議語音的音頻文件;S2、說話人分割:檢測上述會議語音中的說話人改變點,將相鄰兩個改變點之間的語音樣點作為一個語音段,將音頻文件分成多個語音段;S3、語音段距離比較:將說話人分割之后的第一個語音段作為會議主持人的語音,并比較該語音段與其他語音段的距離,將距離小于門限的語音段也判為會議主持人語音,從而得到會議主持人的所有語音段。本發(fā)明為會議語音的快速瀏覽、主題提取、說話人檢索等奠定了基礎,具有能快速有效地提取出會議主持人的語音等優(yōu)點。
【專利說明】一種基于說話人分割的會議主持人語音提取方法【技術領域】[0001]本發(fā)明涉及語音信號處理和模式識別技術,尤其涉及一種基于說話人分割的會議 主持人語音提取方法?!颈尘凹夹g】[0002]會議主持人是指在多人會話的會議中,使會議進程有序進行的說話人。在經(jīng)常召 開的討論會、新聞發(fā)布會、演講等會議中,一般都有一個會議主持人。主持人往往是整個會 議的第一個發(fā)言人,他組織并引導與會者有序地參與會議議程的討論。從會議主持人的發(fā) 言中,可以得到該會議的主題、與會人員人數(shù)及身份、主要議程、會議決議等重要信息。這些 信息是人們在瀏覽分析會議語音時最希望獲取的。因此,快速有效地提取出會議主持人的 語音,對于會議語音的快速瀏覽、主題提取、說話人檢索等應用都具有非常重要的意義。目 前的會議主持人語音提取方法流程如下:先對會議語音進行說話人分割,再對分割結果進 行說話人聚類得到各個說話人語音,最后進行說話人角色分析得到會議主持人語音。目前 的方法在說話人分割之后還需要進行說話人聚類和說話人角色分析才能得到會議主持人 語音。因此,目前的方法存在步驟多、計算量大的缺點,難以實現(xiàn)快速的會議主持人語音提 取。
【發(fā)明內容】
[0003]本發(fā)明的目的在于克服現(xiàn)有技術存在的缺點與不足,提供一種基于說話人分割的 會議主持人語音提取方法,該方法能快速有效地提取出會議主持人的語音。[0004]本發(fā)明的目的通過以下技術方案實現(xiàn):一種基于說話人分割的會議主持人語音提 取方法,包括如下步驟:[0005]S1、讀入記錄有會議語音的音頻文件;[0006]S2、說話人分割:檢測上述會議語音中的說話人改變點,將相鄰兩個改變點之間的 語音樣點作為一個語音段,將音頻文件分成多個語音段,所述語音段的個數(shù)等于改變點個 數(shù)加I ;[0007]S3、語音段距離比較:將說話人分割之后的第一個語音段作為會議主持人的語音, 并比較該語音段與其他語音段的距離,將距離小于門限的語音段也判為會議主持人語音, 從而得到會議主持人的所有語音段。[0008]進一步地,所述S2說話人分割:檢測上述會議語音中的說話人改變點,將相鄰兩 個改變點之間的語音樣點作為一個語音段,將音頻文件分成多個語音段,具體為:[0009]S2.1、利用門限判決的語音檢測算法從上述音頻文件中找出靜音段和語音段;[0010]S2.2、將上述語音段按時間順序拼接成一個長語音段,并從長語音段中提取音頻 特征;[0011]S2.3、利用上述提取的音頻特征,根據(jù)貝葉斯信息準則,判斷長語音段中相鄰數(shù)據(jù) 窗之間的相似度來檢測說話人改變點;[0012]S2.4、依次把相鄰兩個改變點之間的語音樣點作為一個語音段,從而將音頻文件分割成多個語音段,且每個語音段包含一個說話人。[0013]進一步地,所述S2.1利用門限判決的語音檢測算法從上述音頻文件中找出靜音段和語音段,具體包括如下步驟:[0014]S2.1.1、對讀入的會議語音進行分幀,并計算每幀語音的能量,得到會議語音的能量特征矢量;[0015]S2.1.2、計算每幀語音的能量門限;[0016]S2.1.3、將每幀語音的能量與能量門限比較,低于能量門限的幀為靜音幀,否則為語音幀,將靜音幀按時間順序拼接成一個靜音段,將語音幀按時間順序拼接成一個語音段。[0017]進一步地,所述S3中比較第一個語音段X1與其他語音段Xi (i ^ 2)之間的距離, 將距離小于門限的語音段也判為會議主持人語音,包括如下步驟:[0018]S3.1、將第一個語音段X1與其他語音段Xi都分為語音幀,再從每幀語音中提取梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCCs)及其一階差分 (Delta-MFCCs)的音頻特征,各個語音段的特征構成一個特征矩陣,語音段X1的特征矩陣為 F17Xi的特征矩陣為Fi (i^2);[0019]S3.2、計算語音段X1與Xi之間的BIC距離,BIC距離計算公式如下:
【權利要求】
1.一種基于說話人分割的會議主持人語音提取方法,其特征在于,包括如下步驟:S1、讀入記錄有會議語音的音頻文件;S2、對會議上說話人的語音進行分割:檢測上述會議語音中的說話人改變點,將相鄰兩個改變點之間的語音樣點作為一個語音段,將音頻文件分成若干個語音段,所述語音段的個數(shù)等于改變點個數(shù)加I ;S3、語音段距離比較:將說話人的語音進行分割之后的第一個語音段作為會議主持人的一部分語音,并比較該語音段與其他語音段的距離,并將距離小于門限的語音段也判為會議主持人的另一部分語音,根據(jù)分割后的第一個語音段和距離小于門限的語音段,得到會議主持人的全部語段。
2.根據(jù)權利要求1所述的會議語音中的主持人語音提取方法,其特征在于,所述步驟 S2包括以下步驟:S2.1、利用門限判決的語音檢測算法從上述音頻文件中找出靜音段和語音段;S2.2、將步驟S2.1中的語音段按時間順序拼接成一個長語音段,并從長語音段中提取音頻特征;S2.3、利用步驟S2.2中提取的音頻特征,根據(jù)貝葉斯信息準則,判斷長語音段中相鄰數(shù)據(jù)窗之間的相似度來檢測說話人改變點;S2.4、依次把相鄰兩個改變點之間的語音樣點作為一個語音段,從而將音頻文件分割成多個語音段,且每個語音段包含一個說話人的語音。
3.根據(jù)權利要求2所述的會議語音中的主持人語音提取方法,其特征在于,所述步驟 S2.1包括如下步驟:S2.1.1、對讀入的會議語音進行分幀,并計算每幀語音的能量,得到會議語音的能量特征矢量;S2.1.2、計算每幀語音的能量門限;S2.1.3、將每幀語音的能量與能量門限比較,低于能量門限的幀為靜音幀,否則為語音幀,將所有的靜音幀都舍棄,并將語音幀按時間順序拼接成一個語音段。
4.根據(jù)權利要求1所述的會議語音中的主持人語音提取方法,其特征在于,所述步驟 S3包括如下步驟:S3.1、將第一語音段X1與其他語音段Xi都分為語音幀,從每幀語音中提取梅爾頻率倒譜系數(shù)及其一階差分的音頻特征,各個語音段的特征構成一個特征矩陣,語音段X1的特征矩陣為F1, Xi的特征矩陣為Fi,其中,i > 2 ;S3.2、計算語音段X1與Xi之間的BIC距離,所述BIC距離的計算公式如下:
【文檔編號】G10L17/02GK103559882SQ201310479266
【公開日】2014年2月5日 申請日期:2013年10月14日 優(yōu)先權日:2013年10月14日
【發(fā)明者】李艷雄, 金海 , 賀前華 申請人:華南理工大學