基于聲紋識別的錄音文件分離方法及裝置的制造方法

文檔序號：9930283閱讀：998來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于聲紋識別的錄音文件分離方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及錄音技術(shù)領(lǐng)域，尤其涉及一種基于聲紋識別的錄音文件分離方法及裝置。
【背景技術(shù)】
[0002]目前，使用手機(jī)等移動終端進(jìn)行錄音，所記錄的聲音數(shù)據(jù)非常多且復(fù)雜，例如，對于會議錄音，通常包含多個會議參與人的聲音數(shù)據(jù)，在回顧會議內(nèi)容或進(jìn)行會議記要工作時，需要聽取錄音文件，但由于參與會議的人較多，可能無法聽清錄音內(nèi)容，給用戶的工作生活帶來不便。

【發(fā)明內(nèi)容】

[0003]有鑒于此，本發(fā)明實(shí)施例期望提供一種基于聲紋識別的錄音文件分離方法及裝置，以使得用戶可以從錄制文件中聽到清晰的錄音內(nèi)容，方便用戶的工作生活。
[0004]本發(fā)明的實(shí)施例一方面提供了一種基于聲紋識別的錄音文件分離裝置，所述裝置包括:聲紋提取模塊、對比模塊和編碼存儲模塊；
[0005]其中，所述聲紋提取模塊，用于提取錄音信號中的聲紋特征數(shù)據(jù)；
[0006]所述對比模塊，用于將所述聲紋特征數(shù)據(jù)與預(yù)設(shè)語音模型進(jìn)行對比；
[0007]所述編碼存儲模塊，用于根據(jù)所述對比模塊的對比結(jié)果，對與相同的聲紋特征數(shù)據(jù)對應(yīng)的錄音信號單體進(jìn)行單獨(dú)編碼，存儲為單獨(dú)的聲音文件。
[0008]可選的，所述聲紋提取模塊具體用于:
[0009]通過小波變換技術(shù)，提取所述錄音信號中如下聲紋特征數(shù)據(jù):基音頻譜及其輪廓、基音幀的能量、基音共振峰的出現(xiàn)頻率及其軌跡、線性預(yù)測倒譜、線譜對、自相關(guān)和對數(shù)面積比、Mel頻率倒譜系數(shù)MFCC、感知線性預(yù)測。
[0010]可選的，所述預(yù)設(shè)語音模型包括以下至少一項:矢量化模型、隨機(jī)模型和神經(jīng)網(wǎng)絡(luò)模型。
[0011 ]可選的，所述編碼存儲模塊具體用于:
[0012]將與相同的聲紋特征數(shù)據(jù)對應(yīng)的錄音信號單體進(jìn)行加強(qiáng)放大處理;對經(jīng)過加強(qiáng)放大處理后的錄音信號單體進(jìn)行單獨(dú)編碼。
[0013]可選的，所述裝置還包括降噪模塊，用于對采集到的音頻信號進(jìn)行降噪處理，得到所述錄音信號。
[0014]本發(fā)明的實(shí)施例另一方面提供了一種基于聲紋識別的錄音文件分離方法，所述方法包括:
[0015]提取錄音信號中的聲紋特征數(shù)據(jù)；
[0016]將所述聲紋特征數(shù)據(jù)與預(yù)設(shè)語音模型進(jìn)行對比；
[0017]根據(jù)對比結(jié)果，對與相同的聲紋特征數(shù)據(jù)對應(yīng)的錄音信號單體進(jìn)行單獨(dú)編碼，存儲為單獨(dú)的聲音文件。
[0018]可選的，所述提取錄音信號中的聲紋特征數(shù)據(jù)，包括:
[0019]通過小波變換技術(shù)，提取所述錄音信號中如下聲紋特征數(shù)據(jù):基音頻譜及其輪廓、基音幀的能量、基音共振峰的出現(xiàn)頻率及其軌跡、線性預(yù)測倒譜、線譜對、自相關(guān)和對數(shù)面積比、Mel頻率倒譜系數(shù)MFCC、感知線性預(yù)測。
[0020]可選的，所述預(yù)設(shè)語音模型包括以下至少一項:矢量化模型、隨機(jī)模型和神經(jīng)網(wǎng)絡(luò)模型。
[0021]可選的，所述對與相同的聲紋特征數(shù)據(jù)對應(yīng)的錄音信號單體進(jìn)行單獨(dú)編碼，包括:
[0022]將與相同的聲紋特征數(shù)據(jù)對應(yīng)的錄音信號單體進(jìn)行加強(qiáng)放大處理；
[0023]對經(jīng)過加強(qiáng)放大處理后的錄音信號單體進(jìn)行單獨(dú)編碼。
[0024]可選的，所述提取錄音信號中的聲紋特征數(shù)據(jù)之前，所述方法還包括:
[0025]對采集到的音頻信號進(jìn)行降噪處理，得到所述錄音信號。
[0026]本發(fā)明實(shí)施例所提供的一種基于聲紋識別的錄音文件分離方法及裝置，基于聲紋識別的錄音文件分離裝置提取錄音信號中的聲紋特征數(shù)據(jù);將所述聲紋特征數(shù)據(jù)與預(yù)設(shè)語音模型進(jìn)行對比；根據(jù)對比結(jié)果，對與相同的聲紋特征數(shù)據(jù)對應(yīng)的錄音信號單體進(jìn)行單獨(dú)編碼，存儲為單獨(dú)的聲音文件。如此，在錄制的聲音數(shù)據(jù)多且復(fù)雜時，通過將不同的聲音分離開并單獨(dú)存儲，使得用戶可以聽到清晰的錄音內(nèi)容，方便用戶的工作生活。
【附圖說明】
[0027]圖1為實(shí)現(xiàn)本發(fā)明實(shí)施例的一種可選的移動終端的硬件結(jié)構(gòu)示意圖；
[0028]圖2為本發(fā)明實(shí)施例提供的移動終端能夠操作的通信系統(tǒng)結(jié)構(gòu)示意圖；
[0029]圖3為本發(fā)明實(shí)施例提供的基于聲紋識別的錄音文件分離裝置的結(jié)構(gòu)示意圖；
[0030]圖4為本發(fā)明實(shí)施例提供的基于聲紋識別的錄音文件分離方法的流程圖。
【具體實(shí)施方式】
[0031]下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。
[0032]現(xiàn)在將參考附圖1來描述實(shí)現(xiàn)本發(fā)明各個實(shí)施例的移動終端。在后續(xù)的描述中，使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發(fā)明的說明，其本身并沒有特定的意義。因此，"模塊"與"部件"可以混合地使用。
[0033]移動終端可以以各種形式來實(shí)施。例如，本發(fā)明中描述的終端可以包括諸如移動電話、智能電話、筆記本電腦、數(shù)字廣播接收器、個人數(shù)字助理(PDA)、平板電腦(PAD)、便攜式多媒體播放器(PMP)、導(dǎo)航裝置等等的移動終端以及諸如數(shù)字TV、臺式計算機(jī)等等的固定終端。下面，假設(shè)終端是移動終端。然而，本領(lǐng)域技術(shù)人員將理解的是，除了特別用于移動目的的元件之外，根據(jù)本發(fā)明的實(shí)施方式的構(gòu)造也能夠應(yīng)用于固定類型的終端。
[0034]圖1為實(shí)現(xiàn)本發(fā)明各個實(shí)施例一種可選的移動終端的硬件結(jié)構(gòu)示意圖。
[0035]移動終端100可以包括無線通信單元110、音頻/視頻(A/V)輸入單元120、用戶輸入單元130、輸出單元150、存儲器160、接口單元170、控制器180和電源單元190等等。圖1示出了具有各種組件的移動終端，但是應(yīng)理解的是，并不要求實(shí)施所有示出的組件，可以替代地實(shí)施更多或更少的組件，將在下面詳細(xì)描述移動終端的元件。
[0036]無線通信單元110通常包括一個或多個組件，其允許移動終端100與無線通信系統(tǒng)或網(wǎng)絡(luò)之間的無線電通信。例如，無線通信單元可以包括移動通信模塊112、無線互聯(lián)網(wǎng)模塊113、短程通信模塊114和位置信息模塊115中的至少一個。
[0037]移動通信模塊112將無線電信號發(fā)送到基站(例如，接入點(diǎn)、節(jié)點(diǎn)B等等)、外部終端以及服務(wù)器中的至少一個和/或從其接收無線電信號。這樣的無線電信號可以包括語音通話信號、視頻通話信號、或者根據(jù)文本和/或多媒體消息發(fā)送和/或接收的各種類型的數(shù)據(jù)。
[0038]無線互聯(lián)網(wǎng)模塊113支持移動終端的無線互聯(lián)網(wǎng)接入。該模塊可以內(nèi)部或外部地耦接到終端。該模塊所涉及的無線互聯(lián)網(wǎng)接入技術(shù)可以包括WLAN(無線LAN)(W1-Fi)、Wibro(無線寬帶)、Wimax(全球微波互聯(lián)接入)、HSDPA(高速下行鏈路分組接入)等等。
[0039]短程通信模塊114是用于支持短程通信的模塊。短程通信技術(shù)的一些示例包括藍(lán)牙TM、射頻識別(RFID)、紅外數(shù)據(jù)協(xié)會(IrDA)、超寬帶(UWB)、紫蜂TM等等。
[0040]位置信息模塊115是用于檢查或獲取移動終端的位置信息的模塊。位置信息模塊115的典型示例是GPS(全球定位系統(tǒng))。根據(jù)當(dāng)前的技術(shù)，GPS模塊115計算來自三個或更多衛(wèi)星的距離信息和準(zhǔn)確的時間信息并且對于計算的信息應(yīng)用三角測量法，從而根據(jù)經(jīng)度、瑋度和高度準(zhǔn)確地計算三維當(dāng)前位置信息。當(dāng)前，用于計算位置和時間信息的方法使用三顆衛(wèi)星并且通過使用另外的一顆衛(wèi)星校正計算出的位置和時間信息的誤差。此外，GPS模塊115能夠通過實(shí)時地連續(xù)計算當(dāng)前位置信息來計算速度信息。
[0041]A/V輸入單元120用于接收音頻或視頻信號。A/V輸入單元120可以包括相機(jī)121和麥克風(fēng)122，相機(jī)121對在視頻捕獲模式或圖像捕獲模式中由圖像捕獲裝置獲得的靜態(tài)圖片或視頻的圖像數(shù)據(jù)進(jìn)行處理。處理后的圖像幀可以顯示在顯示單元151上。經(jīng)相機(jī)121處理后的圖像幀可以存儲在存儲器160(或其它存儲介質(zhì))中或者經(jīng)由無線通信單元110進(jìn)行發(fā)送，可以根據(jù)移動終端的構(gòu)造提供兩個或更多相機(jī)121。麥克風(fēng)122可以在電話通話模式、記錄模式、語音識別模式等等運(yùn)行模式中經(jīng)由麥克風(fēng)122接收聲音(音頻數(shù)據(jù))，并且能夠?qū)⑦@樣的聲音處理為音頻數(shù)據(jù)。處理后的音頻(語音)數(shù)據(jù)可以在電話通話模式的情況下轉(zhuǎn)換為可經(jīng)由移動通信模塊112發(fā)送到移動通信基站的格式輸出。麥克風(fēng)122可以實(shí)施各種類型的噪聲消除(或抑制)算法以消除(或抑制)在接收和發(fā)送音頻信號的過程中產(chǎn)生的噪聲或者干擾。
[0042]用戶輸入單元130可以根據(jù)用戶輸入的命令生成鍵輸入數(shù)據(jù)以控制移動終端的各種操作。用戶輸入單

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：廖娟娟;
技術(shù)所有人：努比亞技術(shù)有限公司;
我是此專利的發(fā)明人

上一篇：一種基于量化特性的語音篡改定位檢測方法
上一篇：車載語音識別系統(tǒng)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

聲紋識別相關(guān)技術(shù)

聲紋識別軟件相關(guān)技術(shù)

聲紋識別技術(shù)相關(guān)技術(shù)

聲紋識別算法相關(guān)技術(shù)

百度聲紋識別相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于聲紋識別的錄音文件分離方法及裝置的制造方法