音頻管理裝置和方法
【專利摘要】本發(fā)明公開了一種音頻管理裝置,該裝置包括:語音識別模塊,用于對音頻文件進行語音識別,獲取所述音頻文件對應的文本,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息;信息提取模塊,用于根據(jù)預先配置的識別模型,提取所述文本的標注信息;標簽獲取模塊,用于根據(jù)所述文本的標注信息,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息,獲取所述音頻文件的標簽。本發(fā)明還公開了一種音頻管理方法。本發(fā)明實現(xiàn)了自動識別、智能添加音頻文件的標簽,無需用戶手動對音頻文件進行標簽的添加和編輯,提升了用戶體驗。
【專利說明】
音頻管理裝置和方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及語音處理技術(shù)領(lǐng)域,尤其涉及一種音頻管理裝置和方法。
【背景技術(shù)】
[0002]用戶使用手機、錄音筆等終端設(shè)備進行錄音時,在錄音過程中可以給錄音文件添加標簽,進行重點標記或段落劃分。后續(xù),在用戶播放錄音文件的時,可以根據(jù)標簽獲取錄首內(nèi)容的提不。
[0003]例如,在開會時,會議內(nèi)容通常會有幾個明確的議題,在討論不同的議題時,用戶可以使用錄音應用的標簽功能,給錄音文件的時間點上添加標簽。從而,在播放錄音文件時,用戶可以根據(jù)時間點上的標簽獲知此段錄音的議題。
[0004]但是,目前錄音標簽的添加通常是由用戶手動進行操作的,在錄音的過程中可能會漏掉部分重要的標簽沒有添加,若在錄音結(jié)束后再添加,則需要用戶再次查找到錄音的時間點進行標簽的添加,浪費了用戶的精力。并且,當用戶感覺一段錄音需要標記時,使用標簽功能手動給錄音打上標簽,而在打標簽的過程中,用戶一心二用、注意力分散,可能會錯過重要的談話內(nèi)容,影響用戶的使用體驗。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的主要目的在于提供一種音頻管理裝置和方法,旨在解決語音標簽的添加不智能的技術(shù)問題。
[0006]為實現(xiàn)上述目的,本發(fā)明提供一種音頻管理裝置,所述音頻管理裝置包括:
[0007]語音識別模塊,用于對音頻文件進行語音識別,獲取所述音頻文件對應的文本,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息;
[0008]信息提取模塊,用于根據(jù)預先配置的識別模型,提取所述文本的標注信息;
[0009]標簽獲取模塊,用于根據(jù)所述文本的標注信息,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息,獲取所述音頻文件的標簽。
[0010]在一個實施例中,所述信息提取模塊包括:
[0011 ]信息提取單元,用于根據(jù)預先配置的識別模型,分別提取所述文本中各句文字信息對應的標注信息;
[0012]去重單元,用于對所述文字信息的標注信息進行去重處理;
[0013]整合單元,用于獲取去重處理后的標注信息為所述文本的標注信息。
[0014]在一個實施例中,所述音頻管理裝置還包括:
[0015]關(guān)聯(lián)模塊,用于建立所述標簽和音頻文件的關(guān)聯(lián)關(guān)系,將所述標簽鏈接到所述音頻文件對應的時間段或時間點。
[0016]在一個實施例中,所述音頻管理裝置還包括:
[0017]模型配置模塊,用于根據(jù)預先配置的訓練語料和特征模板,訓練得到所述識別模型。
[0018]在一個實施例中,所述模型配置模塊包括:
[0019]預處理單元,用于對預先配置的訓練語料進行預處理,獲取所述訓練語料正確的標注信息;
[0020]配置單元,用于根據(jù)預先配置的特征模板和所述正確的標注信息,對所述預處理后的訓練語料進行特征提取訓練,得到模型參數(shù),建立識別模型。
[0021]此外,為實現(xiàn)上述目的,本發(fā)明還提供一種音頻管理方法,所述音頻管理方法包括以下步驟:
[0022]對音頻文件進行語音識別,獲取所述音頻文件對應的文本,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息;
[0023]根據(jù)預先配置的識別模型,提取所述文本的標注信息;
[0024]根據(jù)所述文本的標注信息,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息,獲取所述音頻文件的標簽。
[0025]在一個實施例中,所述根據(jù)預先配置的識別模型,提取所述文本的標注信息的步驟包括:
[0026]根據(jù)預先配置的識別模型,分別提取所述文本中各句文字信息對應的標注信息;
[0027]對所述文字信息的標注信息進行去重處理;
[0028]獲取去重處理后的標注信息為所述文本的標注信息。
[0029]在一個實施例中,所述根據(jù)所述文本的標注信息,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息,獲取所述音頻文件的標簽的步驟之后,還包括:
[0030]建立所述標簽和音頻文件的關(guān)聯(lián)關(guān)系,將所述標簽鏈接到所述音頻文件對應的時間段或時間點。
[0031]在一個實施例中,所述對音頻文件進行語音識別,獲取所述音頻文件對應的文本,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息的步驟之前,還包括:
[0032]根據(jù)預先配置的訓練語料和特征模板,訓練得到所述識別模型。
[0033]在一個實施例中,所述根據(jù)預先配置的訓練語料和特征模板,訓練得到所述識別模型的步驟包括:
[0034]對預先配置的訓練語料進行預處理,獲取所述訓練語料正確的標注信息;
[0035]根據(jù)預先配置的特征模板和所述正確的標注信息,對所述預處理后的訓練語料進行特征提取訓練,得到模型參數(shù),建立識別模型。
[0036]本發(fā)明提出的一種音頻管理裝置和方法,通過語音識別模塊對音頻文件進行語音識別,獲取音頻文件對應的文本,以及音頻文件與文本的時間關(guān)聯(lián)信息;然后,信息提取模塊根據(jù)預先配置的識別模型,提取文本的標注信息;然后,標簽獲取模塊根據(jù)文本的標注信息,以及音頻文件與文本的時間關(guān)聯(lián)信息,獲取音頻文件的標簽。本發(fā)明通過對音頻文件進行語音識別得到對應的文本,從而根據(jù)提取文本的標注信息,用于添加音頻文件的標簽;獲取音頻文件與文本的時間關(guān)聯(lián)信息,從而將得到的標簽添加到音頻文件對應的時間段或時間點,保證了音頻文件標簽位置的準確性。由此,本發(fā)明實現(xiàn)了自動識別、智能添加音頻文件的標簽,無需用戶手動對音頻文件進行標簽的添加和編輯,提升了用戶體驗。
【附圖說明】
[0037]圖1為實現(xiàn)本發(fā)明各個實施例一個可選的移動終端的硬件結(jié)構(gòu)示意圖;
[0038]圖2為如圖1所示的移動終端的無線通信系統(tǒng)示意圖;
[0039]圖3為本發(fā)明音頻管理裝置第一實施例的功能模塊示意圖;
[0040]圖4為本發(fā)明音頻管理裝置第二實施例的功能模塊示意圖;
[0041 ]圖5為本發(fā)明音頻管理裝置第三實施例的功能模塊示意圖;
[0042]圖6為本發(fā)明音頻管理裝置第四實施例的功能模塊示意圖;
[0043]圖7為本發(fā)明音頻管理裝置第五實施例的功能模塊示意圖;
[0044]圖8為本發(fā)明音頻管理方法第一實施例的流程示意圖;
[0045]圖9為本發(fā)明音頻管理方法第二實施例的流程示意圖;
[0046]圖10為本發(fā)明音頻管理方法第三實施例的流程示意圖;
[0047]圖11為本發(fā)明音頻管理方法第四實施例的流程示意圖;
[0048]圖12為本發(fā)明音頻管理方法第五實施例的流程示意圖;
[0049]圖13為本發(fā)明實施例中一種音頻文件標簽示意圖;
[0050]圖14為本發(fā)明實施例中一種音頻文件標簽示意圖;
[0051]圖15為本發(fā)明實施例中一種訓練提取評價對象的識別模型應用場景示意圖。
[0052]本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進一步說明。
【具體實施方式】
[0053]應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0054]現(xiàn)在將參考附圖描述實現(xiàn)本發(fā)明各個實施例的移動終端。在后續(xù)的描述中,使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發(fā)明的說明,其本身并沒有特定的意義。因此,"模塊"與"部件"可以混合地使用。
[0055]移動終端可以以各種形式來實施。例如,本發(fā)明中描述的終端可以包括諸如移動電話、智能電話、錄音筆、筆記本電腦、數(shù)字廣播接收器、PDA(個人數(shù)字助理)、PAD(平板電腦)、PMP(便攜式多媒體播放器)、導航裝置等等的移動終端以及諸如數(shù)字TV、臺式計算機等等的固定終端。下面,假設(shè)終端是移動終端。然而,本領(lǐng)域技術(shù)人員將理解的是,除了特別用于移動目的的元件之外,根據(jù)本發(fā)明的實施方式的構(gòu)造也能夠應用于固定類型的終端。
[0056]圖1為實現(xiàn)本發(fā)明各個實施例的一個可選的移動終端硬件結(jié)構(gòu)示意。
[0057]移動終端100可以包括A/V(音頻/視頻)輸入單元110、用戶輸入單元120、輸出單元130、存儲器140、控制器150和電源單元160等等。圖1示出了具有各種組件的移動終端,但是應理解的是,并不要求實施所有示出的組件??梢蕴娲貙嵤└嗷蚋俚慕M件。將在下面詳細描述移動終端的元件。
[0058]A/V輸入單元110用于接收音頻或視頻信號。A/V輸入單元110可以包括麥克風111,麥克風111可以在電話通話模式、記錄模式、語音識別模式等等運行模式中經(jīng)由麥克風接收聲音(音頻數(shù)據(jù)),并且能夠?qū)⑦@樣的聲音處理為音頻數(shù)據(jù)。處理后的音頻(語音)數(shù)據(jù)可以在電話通話模式的情況下轉(zhuǎn)換為可經(jīng)由移動通信模塊112發(fā)送到移動通信基站的格式輸出。麥克風111可以實施各種類型的噪聲消除(或抑制)算法以消除(或抑制)在接收和發(fā)送音頻信號的過程中產(chǎn)生的噪聲或者干擾。
[0059]用戶輸入單元120可以根據(jù)用戶輸入的命令生成鍵輸入數(shù)據(jù)以控制移動終端的各種操作。用戶輸入單元120允許用戶輸入各種類型的信息,并且可以包括鍵盤、鍋仔片、觸摸板(例如,檢測由于被接觸而導致的電阻、壓力、電容等等的變化的觸敏組件)、滾輪、搖桿等等。特別地,當觸摸板以層的形式疊加在顯示單元131上時,可以形成觸摸屏。
[0060]輸出單元130可以包括顯示單元131、音頻輸出模塊132等等。
[0061 ] 顯示單元131可以顯示在移動終端100中處理的信息。例如,當移動終端100處于電話通話模式時,顯示單元131可以顯示與通話或其它通信(例如,文本消息收發(fā)、多媒體文件下載等等)相關(guān)的用戶界面(UI)或圖形用戶界面(GUI)。當移動終端100處于視頻通話模式或者圖像捕獲模式時,顯示單元131可以顯示捕獲的圖像和/或接收的圖像、示出視頻或圖像以及相關(guān)功能的UI或GUI等等。
[0062]同時,當顯示單元131和觸摸板以層的形式彼此疊加以形成觸摸屏時,顯示單元131可以用作輸入裝置和輸出裝置。顯示單元131可以包括液晶顯示器(LCD)、薄膜晶體管IXD(TFT-1XD)、有機發(fā)光二極管(OLED)顯示器、柔性顯示器、三維(3D)顯示器等等中的至少一種。這些顯示器中的一些可以被構(gòu)造為透明狀以允許用戶從外部觀看,這可以稱為透明顯示器,典型的透明顯示器可以例如為TOLED(透明有機發(fā)光二極管)顯示器等等。根據(jù)特定想要的實施方式,移動終端100可以包括兩個或更多顯示單元(或其它顯示裝置),例如,移動終端可以包括外部顯示單元(未示出)和內(nèi)部顯示單元(未示出)。觸摸屏可用于檢測觸摸輸入壓力以及觸摸輸入位置和觸摸輸入面積。
[0063]音頻輸出模塊132可以在移動終端處于呼叫信號接收模式、通話模式、記錄模式、語音識別模式、廣播接收模式等等模式下時,將無線通信單元110接收的或者在存儲器140中存儲的音頻數(shù)據(jù)轉(zhuǎn)換音頻信號并且輸出為聲音。而且,音頻輸出模塊132可以提供與移動終端100執(zhí)行的特定功能相關(guān)的音頻輸出(例如,呼叫信號接收聲音、消息接收聲音等等)。音頻輸出模塊132可以包括揚聲器、蜂鳴器等等。
[0064]存儲器140可以存儲由控制器150執(zhí)行的處理和控制操作的軟件程序等等,或者可以暫時地存儲己經(jīng)輸出或?qū)⒁敵龅臄?shù)據(jù)(例如,電話簿、消息、靜態(tài)圖像、視頻等等)。而且,存儲器140可以存儲關(guān)于當觸摸施加到觸摸屏時輸出的各種方式的振動和音頻信號的數(shù)據(jù)。
[0065]存儲器140可以包括至少一種類型的存儲介質(zhì),所述存儲介質(zhì)包括閃存、硬盤、多媒體卡、卡型存儲器(例如,SD或DX存儲器等等)、隨機訪問存儲器(RAM)、靜態(tài)隨機訪問存儲器(SRAM)、只讀存儲器(R0M)、電可擦除可編程只讀存儲器(EEPROM)、可編程只讀存儲器(PROM)、磁性存儲器、磁盤、光盤等等。而且,移動終端100可以與通過網(wǎng)絡(luò)連接執(zhí)行存儲器140的存儲功能的網(wǎng)絡(luò)存儲裝置協(xié)作。
[0066]控制器150通常控制移動終端的總體操作。例如,控制器150執(zhí)行與語音通話、數(shù)據(jù)通信、視頻通話等等相關(guān)的控制和處理。控制器150可以執(zhí)行模式識別處理,以將在觸摸屏上執(zhí)行的手寫輸入或者圖片繪制輸入識別為字符或圖像。
[0067]電源單元160在控制器150的控制下接收外部電力或內(nèi)部電力并且提供操作各元件和組件所需的適當?shù)碾娏Α?br>[0068]這里描述的各種實施方式可以以使用例如計算機軟件、硬件或其任何組合的計算機可讀介質(zhì)來實施。對于硬件實施,這里描述的實施方式可以通過使用特定用途集成電路(ASIC)、數(shù)字信號處理器(DSP)、數(shù)字信號處理裝置(DSPD)、可編程邏輯裝置(PLD)、現(xiàn)場可編程門陣列(FPGA)、處理器、控制器、微控制器、微處理器、被設(shè)計為執(zhí)行這里描述的功能的電子單元中的至少一種來實施,在一些情況下,這樣的實施方式可以在控制器150中實施。對于軟件實施,諸如過程或功能的實施方式可以與允許執(zhí)行至少一種功能或操作的單獨的軟件模塊來實施。軟件代碼可以由以任何適當?shù)木幊陶Z言編寫的軟件應用程序(或程序)來實施,軟件代碼可以存儲在存儲器140中并且由控制器150執(zhí)行。
[0069]至此,己經(jīng)按照其功能描述了移動終端。下面,為了簡要起見,將描述諸如折疊型、直板型、擺動型、滑動型移動終端等等的各種類型的移動終端中的滑動型移動終端作為示例。因此,本發(fā)明能夠應用于任何類型的移動終端,并且不限于滑動型移動終端。
[0070]如圖1中所示的移動終端100可以被構(gòu)造為利用經(jīng)由幀或分組發(fā)送數(shù)據(jù)的諸如有線和無線通信系統(tǒng)以及基于衛(wèi)星的通信系統(tǒng)來操作。
[0071]現(xiàn)在將參考圖2描述其中根據(jù)本發(fā)明的移動終端能夠操作的通信系統(tǒng)。
[0072]這樣的通信系統(tǒng)可以使用不同的空中接口和/或物理層。例如,由通信系統(tǒng)使用的空中接口包括例如頻分多址(FDMA)、時分多址(TDMA)、碼分多址(CDMA)和通用移動通信系統(tǒng)(UMTS)(特別地,長期演進(LTE))、全球移動通信系統(tǒng)(GSM)等等。作為非限制性示例,下面的描述涉及CDMA通信系統(tǒng),但是這樣的教導同樣適用于其它類型的系統(tǒng)。
[0073]參考圖2,⑶MA無線通信系統(tǒng)可以包括多個移動終端100、多個基站(BS)270、基站控制器(BSC)275和移動交換中心(MSCUSOJSCSSO被構(gòu)造為與公共電話交換網(wǎng)絡(luò)(PSTN)290形成接口。MSC280還被構(gòu)造為與可以經(jīng)由回程線路耦接到基站270的BSC275形成接口?;爻叹€路可以根據(jù)若干己知的接口中的任一種來構(gòu)造,所述接口包括例如E1/T1、ATM,IP、PPP、幀中繼、HDSL、ADSL或xDSL。將理解的是,如圖2中所示的系統(tǒng)可以包括多個BSC275。
[0074]每個BS270可以服務一個或多個分區(qū)(或區(qū)域),由多向天線或指向特定方向的天線覆蓋的每個分區(qū)放射狀地遠離BS270?;蛘?,每個分區(qū)可以由用于分集接收的兩個或更多天線覆蓋。每個BS270可以被構(gòu)造為支持多個頻率分配,并且每個頻率分配具有特定頻譜(例如,1.25MHz,5MHz 等等)。
[0075]分區(qū)與頻率分配的交叉可以被稱為CDMA信道。BS270也可以被稱為基站收發(fā)器子系統(tǒng)(BTS)或者其它等效術(shù)語。在這樣的情況下,術(shù)語"基站"可以用于籠統(tǒng)地表示單個BSC275和至少一個BS270?;疽部梢员环Q為〃蜂窩站〃?;蛘?,特定BS270的各分區(qū)可以被稱為多個蜂窩站。
[0076]如圖2中所示,廣播發(fā)射器(BT)295將廣播信號發(fā)送給在系統(tǒng)內(nèi)操作的移動終端100。在圖2中,示出了幾個全球定位系統(tǒng)(GPS)衛(wèi)星300。衛(wèi)星300幫助定位多個移動終端100中的至少一個。
[0077]在圖2中,描繪了多個衛(wèi)星300,但是需要理解的是,可以利用任何數(shù)目的衛(wèi)星獲得有用的定位信息。替代GPS跟蹤技術(shù)或者在GPS跟蹤技術(shù)之外,可以使用可以跟蹤移動終端的位置的其它技術(shù)。另外,至少一個GPS衛(wèi)星300可以選擇性地或者額外地處理衛(wèi)星DMB傳輸。
[0078]作為無線通信系統(tǒng)的一個典型操作,BS270接收來自各種移動終端100的反向鏈路信號。移動終端100通常參與通話、消息收發(fā)和其它類型的通信。特定基站270接收的每個反向鏈路信號被在特定BS270內(nèi)進行處理。獲得的數(shù)據(jù)被轉(zhuǎn)發(fā)給相關(guān)的BSC275 ASC提供通話資源分配和包括BS270之間的軟切換過程的協(xié)調(diào)的移動管理功能。BSC275還將接收到的數(shù)據(jù)路由到MSC280,其提供用于與PSTN290形成接口的額外的路由服務。類似地,PSTN290與MSC280形成接口,MSC與BSC275形成接口,并且BSC275相應地控制BS270以將正向鏈路信號發(fā)送到移動終端100。
[0079]基于上述移動終端硬件結(jié)構(gòu)以及通信系統(tǒng),提出本發(fā)明各個實施例。
[0080]參照圖3,本發(fā)明音頻管理裝置第一實施例提供一種音頻管理裝置,所述音頻管理裝置包括:
[0081]語音識別模塊10,用于對音頻文件進行語音識別,獲取所述音頻文件對應的文本,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息。
[0082]本發(fā)明通過對音頻文件進行標注信息的提取,實現(xiàn)了對音頻文件自動添加標簽,減少了很多人工干預,使語音標簽的管理更加智能化、自動化,大大的提升了用戶體驗。
[0083]音頻管理裝置可部署于移動終端中、服務器中等,進行錄音等各類音頻文件的音頻管理,本實施例以移動終端錄音得到的錄音文件作為音頻文件進行舉例說明。
[0084]具體的,作為一種實施方式,首先,語音識別模塊10對音頻文件進行語音識別,也即將音頻文件中的語音信息轉(zhuǎn)換為文字信息,得到的文本即為音頻文件對應的文本。
[0085]需要說明的是,在語音識別的過程中,可以將音頻文件中的語音信息以句為單位進行劃分,由于音頻文件包括一句或多句語音信息,則識別得到的文本包括一句或多句對應的文字信息。還可以將音頻文件中的語音信息以預設(shè)長度的時間段為單位進行劃分,由于音頻文件包括一段或多段語音信息,則識別得到的文本包括一段或多段對應的文字信息。
[0086]在根據(jù)預設(shè)的單位對語音信息進行分節(jié)后,語音識別模塊10記錄每節(jié)語音信息在音頻文件中的時間起始點和終止點,得到每節(jié)語音信息的時間信息,也即將音頻文件以小節(jié)為單位,劃分成不同的時間段。
[0087]同時,在語音識別的過程中,保存音頻文件中每節(jié)語音信息與識別得到的對應的文字信息的關(guān)聯(lián)信息,也即得到每節(jié)語音信息與每節(jié)文字信息的對應關(guān)系。
[0088]然后,語音識別模塊10根據(jù)每節(jié)語音信息的時間信息,和每節(jié)語音信息與每節(jié)文字信息的對應關(guān)系,以音頻文件的時間軸為基礎(chǔ),建立音頻文件各時間段與文本中每節(jié)文字信息的關(guān)聯(lián)關(guān)系,音頻文件各時間段均有對應的文本信息,并且同一時間段中的各時間點對應的文本信息,與該時間段對應的文本信息相同。
[0089]由此,語音識別模塊10得到音頻文件與文本的時間關(guān)聯(lián)關(guān)系。
[0090]根據(jù)音頻文件與文本的時間關(guān)聯(lián)關(guān)系,可以得到音頻文件中的各時間點或時間段對應的文本信息。
[0091 ]信息提取模塊20,用于根據(jù)預先配置的識別模型,提取所述文本的標注信息。
[0092]在得到音頻文件對應的文本,以及音頻文件與文本的時間關(guān)聯(lián)關(guān)系后,信息提取模塊20根據(jù)預先配置的識別模型,提取文本的標注信息。
[0093]作為一種實施方式,信息提取模塊20預先配置有識別模型,用于提取文本的目標特征信息,對文本進行標注。
[0094]具體的,信息提取模塊20將文本信息中的各節(jié)文字信息作為語料,輸入識別模型,識別提取文本中每節(jié)文字信息的目標特征信息作為標注信息。
[0095]需要說明的是,信息提取模塊20提取的目標特征信息為預設(shè)類型的特征信息,例如提取文本中的評價對象作為目標特征信息,提取文本中的情感評價作為目標特征信息。
[0096]本實施例中,以目標特征信息為評價對象,進行舉例說明。評價對象是一篇討論性文本中表現(xiàn)的主題。如在產(chǎn)品討論中關(guān)于一款手機屏幕、電池、按鍵、應用軟件等的討論,在一部電影中關(guān)于導演、演員、制片人的討論。因此評價對象的抽取蘊含著極大地商業(yè)價值。如:
[0097]這款手機的屏幕分辨率很低,有點失望。
[0098]在這個例句中,可以看出它討論的主題是屏幕分辨率,因此這句話的評價對象就是“屏幕分辨率”。
[0099]信息提取模塊20在提取得到每節(jié)文字信息的評價對象后,將評價對象作為目標特征信息,對對應的文字信息進行標注。
[0100]例如文字信息“這款手機的屏幕分辨率很低,有點失望”的目標特征信息即為“屏幕分辨率”,標注的信息也即“屏幕分辨率”。
[0101]由此,信息提取模塊20得到文本中每節(jié)文字信息的目標特征信息,也即得到文本的標注信息。
[0102]標簽獲取模塊30,用于根據(jù)所述文本的標注信息,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息,獲取所述音頻文件的標簽。
[0103]在得到文本的標注信息后,標簽獲取模塊30根據(jù)文本的標注信息,以及音頻文件與文本的時間關(guān)聯(lián)信息,獲取音頻文件的標簽。
[0104]具體的,作為一種實施方式,標簽獲取模塊30根據(jù)文本與音頻文件的時間關(guān)聯(lián)關(guān)系,將文本中每節(jié)文字信息的標注信息作為標簽,標注到音頻文件對應的時間段,保持音頻文件各時間段的語音信息的標簽與對應的文字信息的標注信息一致。
[0105]由此,標簽獲取模塊30得到音頻文件各時間段的標簽,音頻文件同一時間段中各時間點的標簽與該時間段相同。
[0106]需要說明的是,用戶可根據(jù)需要對獲取的音頻文件標簽進行編輯、保存、刪除等操作。
[0107]然后,標簽獲取模塊30可以根據(jù)音頻文件的各標簽與對應的時間段信息建立標簽列表,參照圖13,供用戶根據(jù)標簽列表了解當前音頻文件各時間段的評價對象。
[0108]參照圖14,標簽獲取模塊30在播放當前音頻文件的過程中,可將標簽顯示在音頻文件的時間軸或播放進度條附近,供用戶根據(jù)各標簽了解當前音頻文件各時間段的評價對象。
[0109]在本實施例中,通過語音識別模塊10對音頻文件進行語音識別,獲取音頻文件對應的文本,以及音頻文件與文本的時間關(guān)聯(lián)信息;然后,信息提取模塊20根據(jù)預先配置的識別模型,提取文本的標注信息;然后,標簽獲取模塊30根據(jù)文本的標注信息,以及音頻文件與文本的時間關(guān)聯(lián)信息,獲取音頻文件的標簽。本實施例通過對音頻文件進行語音識別得到對應的文本,從而根據(jù)提取文本的標注信息,用于添加音頻文件的標簽;獲取音頻文件與文本的時間關(guān)聯(lián)信息,從而將得到的標簽添加到音頻文件對應的時間段或時間點,保證了音頻文件標簽位置的準確性。由此,本實施例實現(xiàn)了自動識別、智能添加音頻文件的標簽,無需用戶手動對音頻文件進行標簽的添加和編輯,提升了用戶體驗。
[0110]進一步的,參照圖4,本發(fā)明音頻管理裝置第二實施例提供一種音頻管理裝置,基于上述圖3所示的實施例,所述信息提取模塊20包括:
[0111]信息提取單元21,用于根據(jù)預先配置的識別模型,分別提取所述文本中各句文字信息對應的標注信息。
[0112]在本發(fā)明音頻管理裝置第一實施例的基礎(chǔ)上,本實施例通過以句為單位提取標注信息,更加符合語言結(jié)構(gòu),從而在對標注信息進行去重時,能夠合理有效的去除重復的標注信息,得到的文本標注信息也更加準確,符合音頻的語義。
[0113]具體的,以句為單位,對音頻文件中的語音信息進行分節(jié)后,語音識別模塊10記錄每句語音信息在音頻文件中的時間起始點和終止點,得到每句語音信息的時間信息,也即將音頻文件以句為單位,劃分成不同的時間段。
[0114]同時,在語音識別的過程中,保存音頻文件中每句語音信息與識別得到的對應的文字信息的關(guān)聯(lián)信息,也即得到每句語音信息與每句文字信息的對應關(guān)系。
[0115]然后,語音識別模塊10根據(jù)每句語音信息的時間信息,和每句語音信息與每句文字信息的對應關(guān)系,以音頻文件的時間軸為基礎(chǔ),建立音頻文件各時間段與文本中每句文字信息的關(guān)聯(lián)關(guān)系,音頻文件各時間段均有對應的文本信息,并且同一時間段中的各時間點對應的文本信息,與該時間段對應的文本信息相同。
[0116]由此,得到的音頻文件與文本的時間關(guān)聯(lián)關(guān)系,包括音頻文件中各時間段或時間點與文本中文本信息的對應關(guān)系。
[0117]然后,信息提取單元21將文本信息中的各句文字信息作為語料,輸入識別模型,識別提取文本中每句文字信息的目標特征信息。
[0118]本實施例中,以目標特征信息為評價對象,進行舉例說明。
[0119]信息提取單元21根據(jù)識別模型,提取得到文本中每句文字信息的評價對象,作為每句文字信息對應的標注信息。
[0120]去重單元22,用于對所述文字信息的標注信息進行去重處理。
[0121]在獲取文本中每句文字信息對應的標注信息后,去重單元22對文字信息的標注信息進行去重處理。
[0122]具體的,作為一種實施方式,若相鄰兩句文字信息的評價對象相同,標注信息相同,則去重單元22合并此兩句文字信息,相應的,合并對應的標注信息;
[0123]若相鄰兩句文字信息的評價對象不同,也即標注信息不同,則去重單元22分別保存此相鄰兩句文字信息的標注信息。
[0124]由此,去重單元22實現(xiàn)了對文字信息的標注信息的去重處理。
[0125]整合單元23,用于獲取去重處理后的標注信息為所述文本的標注信息。
[0126]在完成對文字信息的標注信息去重處理后,整合單元23獲取去重處理后的標注信息為當前文本的標注信息。
[0127]然后,標簽獲取模塊30根據(jù)去重處理后的每句文字信息與音頻文件的對應管關(guān)系,將文本中每句文字信息的標注信息作為標簽,標注到音頻文件中對應的時間段,保持音頻文件各時間段的語音信息的標簽與對應的文字信息的標注信息一致。
[0128]由此,標簽獲取模塊30得到音頻文件各時間段的標簽,音頻文件同一時間段中各時間點的標簽與該時間段相同。
[0129]例如,對于一個手機發(fā)布會的錄音文件,根據(jù)本實施例,首先語音識別模塊10將錄音文件轉(zhuǎn)化為文本,信息提取單元21分別對文本中的每句文字信息進行標注信息的提取,得到每句文字信息的評價對象。然后,去重單元22對文字信息的標注信息進行去重處理,合并評價對象相同的相鄰文字信息及對應的標注信息,整合單元23得到文本的標注信息。
[0130]取錄音文件0-5分鐘對應的文本信息的評價對象,也即標注信息是“手機的屏幕”;5-10分鐘對應的文本信息的評價對象,也即標注信息是“手機的相機” ;10-15分鐘對應的文本信息的評價對象,也即標注信息是“手機的價格”。
[0131]然后,標簽獲取模塊30根據(jù)文本的標注信息,以及錄音文件與文本的時間關(guān)聯(lián)信息,獲取首頻文件的標簽,則:
[0132]錄音文件0-5分鐘的標簽是“手機的屏幕”;
[0133]錄音文件5-10分鐘的標簽是是“手機的相機”;
[0134]錄音文件10-15分鐘的標簽是是“手機的價格”。
[0135]錄音文件有了以上的標簽,用戶便知道錄音文件每一段的主題是什么,如果是用戶感興趣的主題,那么用戶自然會重點關(guān)注。
[0136]在本實施例中,信息提取單元21根據(jù)預先配置的識別模型,分別提取文本中各句文字信息對應的標注信息;去重單元22對文字信息的標注信息進行去重處理;整合單元23獲取去重處理后的標注信息為文本的標注信息。本實施例以句為單位,分別對文本中的每句文字信息進行標注信息的提取,然后對文字信息的標注信息進行去重處理,有效的去除了文本中相鄰的重復標注信息,也同時對應去除了音頻文件中相鄰的重復標簽,合并音頻文件中標簽相同的相鄰時間段,降低了音頻文件的標簽重復程度,使得音頻文件的標簽更加簡潔有序,提升了用戶體驗。
[0137]進一步的,參照圖5,本發(fā)明音頻管理裝置第三實施例提供一種音頻管理裝置,基于上述圖3或圖4所示的實施例(本實施例以圖3為例),所述音頻管理裝置還包括:
[0138]關(guān)聯(lián)模塊40,用于建立所述標簽和音頻文件的關(guān)聯(lián)關(guān)系,將所述標簽鏈接到所述音頻文件對應的時間段或時間點。
[0139]本實施例在獲取首頻文件的標簽后,關(guān)聯(lián)t旲塊40建立標簽和首頻文件的關(guān)聯(lián)關(guān)系,將標簽鏈接到音頻文件對應的時間段或時間點。在本發(fā)明音頻管理裝置第二實施例或第三實施例的基礎(chǔ)上,本實施例實現(xiàn)了通過標簽即可連接到對應的音頻文件時間點或時間段,進行播放,使音頻文件中的標簽更加具有實用意義,提升了用戶的體驗。
[0140]具體的,作為一種實施方式,關(guān)聯(lián)模塊40根據(jù)文本與音頻文件的時間關(guān)聯(lián)關(guān)系,將文本中每節(jié)文字信息的標注信息作為標簽,標注到音頻文件對應的時間段后,建立標簽與對應的時間段的關(guān)聯(lián)關(guān)系,將各標簽鏈接到對應的時間段。
[0141]作為另一種實施方式,關(guān)聯(lián)模塊40還可以分別建立各標簽與音頻文件對應的時間段中任意時間點的關(guān)聯(lián)關(guān)系,將各標簽鏈接到對應的時間段中的任意時間點。
[0142]例如,將各標簽鏈接到音頻文件對應的時間段的起始時間點。
[0143]由此,根據(jù)各標簽,可以鏈接到音頻文件中對應的時間段,播放此時間段的音頻文件;或,
[0144]根據(jù)各標簽鏈,可以鏈接到音頻文件對應的時間點,進行音頻文件的播放。
[0145]需要說明的是,在關(guān)聯(lián)模塊40建立音頻文件和標簽的關(guān)聯(lián)關(guān)系后,用戶可根據(jù)需要調(diào)整音頻文件和標簽的對應關(guān)系,調(diào)整將標簽對應的時間點或時間段。
[0146]參照圖13,用戶可以根據(jù)標簽列表中的各標簽,鏈接到音頻文件對應的時間段進行播放;或者,
[0147]參照圖14,用戶可以根據(jù)音頻文件時間軸或播放進度條附近的標簽,跳轉(zhuǎn)到對應的時間點進行播放。當用戶調(diào)整播放進度條時,關(guān)聯(lián)模塊40根據(jù)進度條的時間點,和標簽與音頻文件的關(guān)聯(lián)關(guān)系,查找到當前時間點對應的標簽,并顯示。
[0148]在本實施例中,在獲取音頻文件的標簽后,關(guān)聯(lián)模塊40建立標簽和音頻文件的關(guān)聯(lián)關(guān)系,將標簽鏈接到音頻文件對應的時間段或時間點。本實施例通過建立標簽和音頻文件的關(guān)聯(lián)關(guān)系,將音頻文件的標簽鏈接到音頻文件對應的時間段或時間點,實現(xiàn)了根據(jù)標簽可以跳轉(zhuǎn)到音頻文件對應的時間段或時間點進行播放,還可以根據(jù)音頻文件的時間點獲取對應的標簽,豐富了音頻文件標簽的功能,使用戶操作更加方便快捷,提升了用戶體驗。
[0149]進一步的,參照圖6,本發(fā)明音頻管理裝置第四實施例提供一種音頻管理裝置,基于上述圖3、圖4或圖5所示的實施例(本實施例以圖5為例),所述音頻管理裝置還包括:
[0150]模型配置模塊50,用于根據(jù)預先配置的訓練語料和特征模板,訓練得到所述識別模型。
[0151]本實施例中,模型配置模塊50預先配置訓練語料和特征模板,訓練得到識別模型,用于文本標注信息的獲取。在本發(fā)明音頻管理裝置第一實施例、第二實施例和第三實施例的基礎(chǔ)上,本實施例通過訓練識別模型,能夠根據(jù)實際需要調(diào)整模型參數(shù),從而使得到的識別模型能夠更加準確的提取出文本的標注信息,提升了音頻文件標簽的準確率。
[0152]具體的,作為一種實施方式,模型配置模塊50預先配置預設(shè)數(shù)量的訓練語料,訓練語料也即用于訓練的文本。模型配置模塊50去除訓練語料中無明確評價對象的中性語料,得到可用訓練語料。
[0153]然后,模型配置模塊50分別獲取各可用訓練語料的評價對象,作為對應的正確的標注信息。
[0154]然后,模型配置模塊50使用預先配置的特征模板,提取各可用訓練語料的評價對象作為標注信息,訓練預先配置的訓練模型,得到識別模型。
[°?55] 需要說明的是,預先配置的訓練模型可以是SVM(Support Vector Machine,支持向量機)模型、CRF(Condit1nal Random Field,條件隨機場)模型等,可根據(jù)需要靈活設(shè)置。
[0156]模型配置模塊50訓練得到的識別模型,可以用來提取文本的標注信息。
[0157]在本實施例中,模型配置模塊50根據(jù)預先配置的訓練語料和特征模板,訓練得到識別模型。本實施例通過預先配置訓練語料和特征模板,訓練得到識別模型,使獲取的識別模型能夠更加準確的提取文本的標注信息,提高了文本標注信息的提取正確率,也即提高了音頻文件標簽的正確率,在實現(xiàn)標簽自動獲取的同時保障了標簽的正確率,提升了用戶體驗。
[0158]進一步的,參照圖7,本發(fā)明音頻管理裝置實施例第五實施例提供一種音頻管理裝置,基于上述圖6所示的實施例,所述模型配置模50塊包括:
[0159]預處理單元51,用于對預先配置的訓練語料進行預處理,獲取所述訓練語料正確的標注信息。
[0160]在本發(fā)明音頻管理裝置實施例第四實施例的基礎(chǔ)上,本實施例通過預先配置訓練語料的正確標注信息,在訓練過程校正模型參數(shù),使得訓練得到的識別模型能夠更加準確的提取出符合用戶實際需求的標注信息。
[0161 ]具體的,作為一種實施方式,首先,預處理單元51對訓練語料進行預處理,進行訓練語料的主觀性檢測,去除無評價對象的中性語料,得到可用訓練語料。
[0162]然后,預處理單元51對可用訓練語料進行詞性標注、依存關(guān)系分析,分析可用訓練語料的語句結(jié)構(gòu),對可用訓練語料進行分詞。
[0163]同時,預處理單元51將各可用訓練語料反饋給測試人員,獲取測試人員輸入的各訓練語料的正確標注信息。
[0164]配置單元52,用于根據(jù)預先配置的特征模板和所述正確的標注信息,對所述預處理后的訓練語料進行特征提取訓練,得到模型參數(shù),建立識別模型。
[0165]在對訓練語料進行預處理,獲取訓練語料正確的標注信息后,配置單元52根據(jù)預先配置的特征模板,對預處理后的訓練語料進行特征提取訓練,得到參數(shù)模型,根據(jù)模型參數(shù),建立識別模型。
[0166]具體的,作為一種實施方式,預先配置的特征模板包括了多種語句結(jié)構(gòu)模板的特征,用于提取訓練語料的特征。
[0167]配置單元52使用預先配置的特征模板和訓練模型,對預處理后的可用訓練語料進行特征提取訓練,根據(jù)可用訓練語料的正確標注信息對訓練過程進行校正。
[0168]由此,配置單元52得到訓練模型的模型參數(shù),也即各特征的權(quán)重。
[0169]然后,配置單元52根據(jù)訓練模型和模型參數(shù),建立得到識別模型。
[0170]參照圖15,以訓練提取評價對象的識別模型為應用場景,進行舉例說明。
[0171]首先,配置一定數(shù)量的原始語料。原始語料的數(shù)量規(guī)模越大,訓練得到的識別模型越準確。
[0172]然后,將原始語料進行預處理,包括主觀性檢測、詞性分析、依存關(guān)系分析等,得到可用訓練語料,和可用訓練語料的正確評價對象。
[0173]然后使用預先配置的特征模板和訓練模型,對可用訓練語料進行特征提取的訓練,在訓練過程中,使用可用訓練語料的正確評價對象進行校正,得到最優(yōu)的模型參數(shù)。
[0174]然后,根據(jù)訓練模型和模型參數(shù),建立識別模型。
[0175]然后,對識別模型進行性能測試。輸入一定數(shù)量的測試語料進行特征提取,得到測試語料的評價對象,也即標注信息。由于已經(jīng)預先獲取測試語料的正確評價對象,則根據(jù)提取得到的測試語料的評價對象和預先配置的正確的評價對象,獲取當前識別模型的識別正確率。
[0176]若當前識別模型的識別正確率不能夠達到預期值,則可以通過增加特征模板的形式,從新訓練識別模型,對識別模型進行修正,提升識別模型的識別正確率。
[0177]由此,實現(xiàn)了識別模型的配置。
[0178]在本實施例中,預處理單元51對預先配置的訓練語料進行預處理,獲取訓練語料正確的標注信息;配置單元52根據(jù)預先配置的特征模板和訓練語料正確的標注信息,對預處理后的訓練語料進行特征提取訓練,得到模型參數(shù),建立識別模型。本實施例通過根據(jù)特征模板和訓練語料進行特征提取訓練,獲取最優(yōu)的模型參數(shù),建立識別模型,提升了識別模型識別標注信息的正確率。
[0179]參照圖8,本發(fā)明音頻管理方法第一實施例提供一種音頻管理方法,可通過上述音頻管理裝置第一實施例具體實現(xiàn)。所述音頻管理方法包括:
[0180]步驟S10、對音頻文件進行語音識別,獲取所述音頻文件對應的文本,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息。
[0181]本發(fā)明通過對音頻文件進行標注信息的提取,實現(xiàn)了對音頻文件自動添加標簽,減少了很多人工干預,使語音標簽的管理更加智能化、自動化,大大的提升了用戶體驗。
[0182]本發(fā)明實施例可應用于錄音等各類音頻文件的音頻管理,本實施例以移動終端錄音得到的錄音文件作為音頻文件進行舉例說明。
[0183]具體的,作為一種實施方式,首先,移動終端對音頻文件進行語音識別,也即將音頻文件中的語音信息轉(zhuǎn)換為文字信息,得到的文本即為音頻文件對應的文本。
[0184]需要說明的是,在語音識別的過程中,可以將音頻文件中的語音信息以句為單位進行劃分,由于音頻文件包括一句或多句語音信息,則識別得到的文本包括一句或多句對應的文字信息。還可以將音頻文件中的語音信息以預設(shè)長度的時間段為單位進行劃分,由于音頻文件包括一段或多段語音信息,則識別得到的文本包括一段或多段對應的文字信息。
[0185]在根據(jù)預設(shè)的單位對語音信息進行分節(jié)后,移動終端記錄每節(jié)語音信息在音頻文件中的時間起始點和終止點,得到每節(jié)語音信息的時間信息,也即將音頻文件以小節(jié)為單位,劃分成不同的時間段。
[0186]同時,在語音識別的過程中,保存音頻文件中每節(jié)語音信息與識別得到的對應的文字信息的關(guān)聯(lián)信息,也即得到每節(jié)語音信息與每節(jié)文字信息的對應關(guān)系。
[0187]然后,移動終端根據(jù)每節(jié)語音信息的時間信息,和每節(jié)語音信息與每節(jié)文字信息的對應關(guān)系,以音頻文件的時間軸為基礎(chǔ),建立音頻文件各時間段與文本中每節(jié)文字信息的關(guān)聯(lián)關(guān)系,音頻文件各時間段均有對應的文本信息,并且同一時間段中的各時間點對應的文本信息,與該時間段對應的文本信息相同。
[0188]由此,得到音頻文件與文本的時間關(guān)聯(lián)關(guān)系。
[0189]根據(jù)音頻文件與文本的時間關(guān)聯(lián)關(guān)系,可以得到音頻文件中的各時間點或時間段對應的文本信息。
[0190]步驟S20、根據(jù)預先配置的識別模型,提取所述文本的標注信息。
[0191]在得到音頻文件對應的文本,以及音頻文件與文本的時間關(guān)聯(lián)關(guān)系后,移動終端根據(jù)預先配置的識別模型,提取文本的標注信息。
[0192]作為一種實施方式,移動終端預先配置有識別模型,用于提取文本的目標特征信息,對文本進行標注。
[0193]具體的,將文本信息中的各節(jié)文字信息作為語料,輸入識別模型,識別提取文本中每節(jié)文字信息的目標特征信息作為標注信息。
[0194]需要說明的是,提取的目標特征信息為預設(shè)類型的特征信息,例如提取文本中的評價對象作為目標特征信息,提取文本中的情感評價作為目標特征信息。
[0195]本實施例中,以目標特征信息為評價對象,進行舉例說明。評價對象是一篇討論性文本中表現(xiàn)的主題。如在產(chǎn)品討論中關(guān)于一款手機屏幕、電池、按鍵、應用軟件等的討論,在一部電影中關(guān)于導演、演員、制片人的討論。因此評價對象的抽取蘊含著極大地商業(yè)價值。如:
[0196]這款手機的屏幕分辨率很低,有點失望。
[0197]在這個例句中,可以看出它討論的主題是屏幕分辨率,因此這句話的評價對象就是“屏幕分辨率”。
[0198]移動終端在提取得到每節(jié)文字信息的評價對象后,將評價對象作為目標特征信息,對對應的文字信息進行標注。
[0199]例如文字信息“這款手機的屏幕分辨率很低,有點失望”的目標特征信息即為“屏幕分辨率”,標注的信息也即“屏幕分辨率”。
[0200]由此,得到文本中每節(jié)文字信息的目標特征信息,也即得到文本的標注信息。
[0201 ]步驟S30、根據(jù)所述文本的標注信息,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息,獲取所述音頻文件的標簽。
[0202]在得到文本的標注信息后,移動終端根據(jù)文本的標注信息,以及音頻文件與文本的時間關(guān)聯(lián)信息,獲取音頻文件的標簽。
[0203]具體的,作為一種實施方式,移動終端根據(jù)文本與音頻文件的時間關(guān)聯(lián)關(guān)系,將文本中每節(jié)文字信息的標注信息作為標簽,標注到音頻文件對應的時間段,保持音頻文件各時間段的語音信息的標簽與對應的文字信息的標注信息一致。
[0204]由此,得到音頻文件各時間段的標簽,音頻文件同一時間段中各時間點的標簽與該時間段相同。
[0205]需要說明的是,用戶可根據(jù)需要對獲取的音頻文件標簽進行編輯、保存、刪除等操作。
[0206]然后,移動終端可以根據(jù)音頻文件的各標簽與對應的時間段信息建立標簽列表,參照圖13,供用戶根據(jù)標簽列表了解當前音頻文件各時間段的評價對象。
[0207]參照圖14,移動終端在播放當前音頻文件的過程中,可將標簽顯示在音頻文件的時間軸或播放進度條附近,供用戶根據(jù)各標簽了解當前音頻文件各時間段的評價對象。
[0208]在本實施例中,通過對音頻文件進行語音識別,獲取音頻文件對應的文本,以及音頻文件與文本的時間關(guān)聯(lián)信息;然后,根據(jù)預先配置的識別模型,提取文本的標注信息;然后,根據(jù)文本的標注信息,以及音頻文件與文本的時間關(guān)聯(lián)信息,獲取音頻文件的標簽。本實施例通過對音頻文件進行語音識別得到對應的文本,從而根據(jù)提取文本的標注信息,用于添加音頻文件的標簽;獲取音頻文件與文本的時間關(guān)聯(lián)信息,從而將得到的標簽添加到音頻文件對應的時間段或時間點,保證了音頻文件標簽位置的準確性。由此,本實施例實現(xiàn)了自動識別、智能添加音頻文件的標簽,無需用戶手動對音頻文件進行標簽的添加和編輯,提升了用戶體驗。
[0209]進一步的,參照圖9,本發(fā)明音頻管理方法第二實施例提供一種音頻管理方法,可通過上述音頻管理裝置第二實施例具體實現(xiàn)?;谏鲜鰣D8所示的實施例,所述步驟S20包括:
[0210]步驟S21、根據(jù)預先配置的識別模型,提取所述各句文字信息對應的標注信息。
[0211]在本發(fā)明音頻管理方法第一實施例的基礎(chǔ)上,本實施例通過以句為單位提取標注信息,更加符合語言結(jié)構(gòu),從而在對標注信息進行去重時,能夠合理有效的去除重復的標注信息,得到的文本標注信息也更加準確,符合音頻的語義。
[0212]具體的,以句為單位,對音頻文件中的語音信息進行分節(jié)后,移動終端記錄每句語音信息在音頻文件中的時間起始點和終止點,得到每句語音信息的時間信息,也即將音頻文件以句為單位,劃分成不同的時間段。
[0213]同時,在語音識別的過程中,保存音頻文件中每句語音信息與識別得到的對應的文字信息的關(guān)聯(lián)信息,也即得到每句語音信息與每句文字信息的對應關(guān)系。
[0214]然后,移動終端根據(jù)每句語音信息的時間信息,和每句語音信息與每句文字信息的對應關(guān)系,以音頻文件的時間軸為基礎(chǔ),建立音頻文件各時間段與文本中每句文字信息的關(guān)聯(lián)關(guān)系,音頻文件各時間段均有對應的文本信息,并且同一時間段中的各時間點對應的文本信息,與該時間段對應的文本信息相同。
[0215]由此,得到的音頻文件與文本的時間關(guān)聯(lián)關(guān)系,包括音頻文件中各時間段或時間點與文本中文本信息的對應關(guān)系。
[0216]然后,移動終端將文本信息中的各句文字信息作為語料,輸入識別模型,識別提取文本中每句文字信息的目標特征信息。
[0217]本實施例中,以目標特征信息為評價對象,進行舉例說明。
[0218]移動終端根據(jù)識別模型,提取得到文本中每句文字信息的評價對象,作為每句文字信息對應的標注信息。
[0219]步驟S22、對所述文字信息的標注信息進行去重處理。
[0220]在獲取文本中每句文字信息對應的標注信息后,對文字信息的標注信息進行去重處理。
[0221]具體的,作為一種實施方式,若相鄰兩句文字信息的評價對象相同,標注信息相同,則合并此兩句文字信息,相應的,合并對應的標注信息;
[0222]若相鄰兩句文字信息的評價對象不同,也即標注信息不同,則分別保存此相鄰兩句文字信息的標注信息。
[0223]由此,實現(xiàn)了對文字信息的標注信息去重處理。
[0224]步驟S23、獲取去重處理后的標注信息為所述文本的標注信息。
[0225]在完成對文字信息的標注信息去重處理后,獲取去重處理后的標注信息為當前文本的標注信息。
[0226]然后,移動終端根據(jù)去重處理后的每句文字信息與音頻文件的對應管關(guān)系,將文本中每句文字信息的標注信息作為標簽,標注到音頻文件中對應的時間段,保持音頻文件各時間段的語音信息的標簽與對應的文字信息的標注信息一致。
[0227]由此,得到音頻文件各時間段的標簽,音頻文件同一時間段中各時間點的標簽與該時間段相同。
[0228]例如,對于一個手機發(fā)布會的錄音文件,根據(jù)本實施例,首先將錄音文件轉(zhuǎn)化為文本,分別對文本中的每句文字信息進行標注信息的提取,得到每句文字信息的評價對象。然后,對文字信息的標注信息進行去重處理,合并評價對象相同的相鄰文字信息及對應的標注信息,得到文本的標注信息。
[0229]取錄音文件0-5分鐘對應的文本信息的評價對象,也即標注信息是“手機的屏幕”;5-10分鐘對應的文本信息的評價對象,也即標注信息是“手機的相機” ;10-15分鐘對應的文本信息的評價對象,也即標注信息是“手機的價格”。
[0230]然后,根據(jù)文本的標注信息,以及錄音文件與文本的時間關(guān)聯(lián)信息,獲取音頻文件的標簽,則:
[0231]錄音文件0-5分鐘的標簽是“手機的屏幕”;
[0232]錄音文件5-10分鐘的標簽是是“手機的相機”;
[0233]錄音文件10-15分鐘的標簽是是“手機的價格”。
[0234]錄音文件有了以上的標簽,用戶便知道錄音文件每一段的主題是什么,如果是用戶感興趣的主題,那么用戶自然會重點關(guān)注。
[0235]在本實施例中,根據(jù)預先配置的識別模型,分別提取文本中各句文字信息對應的標注?目息;對文字?目息的標注?目息進行去重處理;獲取去重處理后的標注?目息為文本的標注信息。本實施例以句為單位,分別對文本中的每句文字信息進行標注信息的提取,然后對文字信息的標注信息進行去重處理,有效的去除了文本中相鄰的重復標注信息,也同時對應去除了音頻文件中相鄰的重復標簽,合并音頻文件中標簽相同的相鄰時間段,降低了音頻文件的標簽重復程度,使得音頻文件的標簽更加簡潔有序,提升了用戶體驗。
[0236]進一步的,參照圖10,本發(fā)明音頻管理方法第三實施例提供一種音頻管理方法,可通過上述音頻管理裝置第三實施例具體實現(xiàn)?;谏鲜鰣D8或圖9所示的實施例(本實施例以圖8為例),所述S30的步驟之后,還包括:
[0237]步驟S40、建立所述標簽和音頻文件的關(guān)聯(lián)關(guān)系,將所述標簽鏈接到所述音頻文件對應的時間段或時間點。
[0238]本實施例在獲取音頻文件的標簽后,移動終端建立標簽和音頻文件的關(guān)聯(lián)關(guān)系,將標簽鏈接到音頻文件對應的時間段或時間點。在本發(fā)明音頻管理方法第二實施例或第三實施例的基礎(chǔ)上,本實施例實現(xiàn)了通過標簽即可連接到對應的音頻文件時間點或時間段,進行播放,使音頻文件中的標簽更加具有實用意義,提升了用戶的體驗。
[0239]具體的,作為一種實施方式,移動終端根據(jù)文本與音頻文件的時間關(guān)聯(lián)關(guān)系,將文本中每節(jié)文字信息的標注信息作為標簽,標注到音頻文件對應的時間段后,建立標簽與對應的時間段的關(guān)聯(lián)關(guān)系,將各標簽鏈接到對應的時間段。
[0240]作為另一種實施方式,移動終端還可以分別建立各標簽與音頻文件對應的時間段中任意時間點的關(guān)聯(lián)關(guān)系,將各標簽鏈接到對應的時間段中的任意時間點。
[0241 ]例如,將各標簽鏈接到音頻文件對應的時間段的起始時間點。
[0242 ]由此,根據(jù)各標簽,可以鏈接到音頻文件中對應的時間段,播放此時間段的音頻文件;或,
[0243]根據(jù)各標簽鏈,可以鏈接到音頻文件對應的時間點,進行音頻文件的播放。
[0244]需要說明的是,在建立音頻文件和標簽的關(guān)聯(lián)關(guān)系后,用戶可根據(jù)需要調(diào)整音頻文件和標簽的對應關(guān)系,調(diào)整將標簽對應的時間點或時間段。
[0245]參照圖13,用戶可以根據(jù)標簽列表中的各標簽,鏈接到音頻文件對應的時間段進行播放;或者,
[0246]參照圖14,用戶可以根據(jù)音頻文件時間軸或播放進度條附近的標簽,跳轉(zhuǎn)到對應的時間點進行播放。當用戶調(diào)整播放進度條時,移動終端根據(jù)進度條的時間點,和標簽與音頻文件的關(guān)聯(lián)關(guān)系,查找到當前時間點對應的標簽,并顯示。
[0247]在本實施例中,在獲取首頻文件的標簽后,建立標簽和首頻文件的關(guān)聯(lián)關(guān)系,將標簽鏈接到音頻文件對應的時間段或時間點。本實施例通過建立標簽和音頻文件的關(guān)聯(lián)關(guān)系,將音頻文件的標簽鏈接到音頻文件對應的時間段或時間點,實現(xiàn)了根據(jù)標簽可以跳轉(zhuǎn)到音頻文件對應的時間段或時間點進行播放,還可以根據(jù)音頻文件的時間點獲取對應的標簽,豐富了音頻文件標簽的功能,使用戶操作更加方便快捷,提升了用戶體驗。
[0248]進一步的,參照圖11,本發(fā)明音頻管理方法第四實施例提供一種音頻管理方法,可通過上述音頻管理裝置第四實施例具體實現(xiàn)。基于上述圖10所示的實施例,所述步驟SlO之前,還包括:
[0249]步驟S50、根據(jù)預先配置的訓練語料和特征模板,訓練得到所述識別模型。
[0250]本實施例中,預先配置訓練語料和特征模板,訓練得到識別模型,用于文本標注信息的獲取。在本發(fā)明音頻管理方法第一實施例、第二實施例和第三實施例的基礎(chǔ)上,本實施例通過訓練識別模型,能夠根據(jù)實際需要調(diào)整模型參數(shù),從而使得到的識別模型能夠更加準確的提取出文本的標注信息,提升了音頻文件標簽的準確率。
[0251]具體的,作為一種實施方式,預先配置預設(shè)數(shù)量的訓練語料,訓練語料也即用于訓練的文本。去除訓練語料中無明確評價對象的中性語料,得到可用訓練語料。
[0252]然后,分別獲取各可用訓練語料的評價對象,作為對應的正確的標注信息。
[0253]然后,使用預先配置的特征模板,提取各可用訓練語料的評價對象作為標注信息,訓練預先配置的訓練模型,得到識別模型。
[°254] 需要說明的是,預先配置的訓練模型可以是SVM(Support Vector Machine,支持向量機)模型、CRF(Condit1nal Random Field,條件隨機場)模型等,可根據(jù)需要靈活設(shè)置。
[0255]訓練得到的識別模型,可以用來提取文本的標注信息。
[0256]在本實施例中,根據(jù)預先配置的訓練語料和特征模板,訓練得到識別模型。本實施例通過預先配置訓練語料和特征模板,訓練得到識別模型,使獲取的識別模型能夠更加準確的提取文本的標注信息,提高了文本標注信息的提取正確率,也即提高了音頻文件標簽的正確率,在實現(xiàn)標簽自動獲取的同時保障了標簽的正確率,提升了用戶體驗。
[0257]進一步的,參照圖12,本發(fā)明音頻管理方法第五實施例提供一種音頻管理方法,可通過上述音頻管理裝置第五實施例具體實現(xiàn)。基于上述圖11所示的實施例,所述步驟S50包括:
[0258]步驟S51、對預先配置的訓練語料進行預處理,獲取所述訓練語料正確的標注信息。
[0259]在本發(fā)明音頻管理方法第四實施例的基礎(chǔ)上,本實施例通過預先配置訓練語料的正確標注信息,在訓練過程校正模型參數(shù),使得訓練得到的識別模型能夠更加準確的提取出符合用戶實際需求的標注信息。
[0260]具體的,作為一種實施方式,首先,對訓練語料進行預處理,進行訓練語料的主觀性檢測,去除無評價對象的中性語料,得到可用訓練語料。
[0261]然后,對可用訓練語料進行詞性標注、依存關(guān)系分析,分析可用訓練語料的語句結(jié)構(gòu),對可用訓練語料進行分詞。
[0262]同時,將各可用訓練語料反饋給測試人員,獲取測試人員輸入的各訓練語料的正確標注信息。
[0263]步驟S52、根據(jù)預先配置的特征模板和所述正確的標注信息,對所述預處理后的訓練語料進行特征提取訓練,得到模型參數(shù),建立識別模型。
[0264]在對訓練語料進行預處理,獲取訓練語料正確的標注信息后,根據(jù)預先配置的特征模板,對預處理后的訓練語料進行特征提取訓練,得到參數(shù)模型,根據(jù)模型參數(shù),建立識別豐旲型O
[0265]具體的,作為一種實施方式,預先配置的特征模板包括了多種語句結(jié)構(gòu)模板的特征,用于提取訓練語料的特征。
[0266]使用預先配置的特征模板和訓練模型,對預處理后的可用訓練語料進行特征提取訓練,根據(jù)可用訓練語料的正確標注信息對訓練過程進行校正。
[0267 ]由此,得到訓練模型的模型參數(shù),也即各特征的權(quán)重。
[0268]然后,根據(jù)訓練模型和模型參數(shù),建立得到識別模型。
[0269]參照圖15,以訓練提取評價對象的識別模型為應用場景,進行舉例說明。
[0270]首先,配置一定數(shù)量的原始語料。原始語料的數(shù)量規(guī)模越大,訓練得到的識別模型越準確。
[0271]然后,將原始語料進行預處理,包括主觀性檢測、詞性分析、依存關(guān)系分析等,得到可用訓練語料,和可用訓練語料的正確評價對象。
[0272]然后使用預先配置的特征模板和訓練模型,對可用訓練語料進行特征提取的訓練,在訓練過程中,使用可用訓練語料的正確評價對象進行校正,得到最優(yōu)的模型參數(shù)。
[0273]然后,根據(jù)訓練模型和模型參數(shù),建立識別模型。
[0274]然后,對識別模型進行性能測試。輸入一定數(shù)量的測試語料進行特征提取,得到測試語料的評價對象,也即標注信息。由于已經(jīng)預先獲取測試語料的正確評價對象,則根據(jù)提取得到的測試語料的評價對象和預先配置的正確的評價對象,獲取當前識別模型的識別正確率。
[0275]若當前識別模型的識別正確率不能夠達到預期值,則可以通過增加特征模板的形式,從新訓練識別模型,對識別模型進行修正,提升識別模型的識別正確率。
[0276]由此,實現(xiàn)了識別模型的配置。
[0277]在本實施例中,對預先配置的訓練語料進行預處理,獲取訓練語料正確的標注信息;根據(jù)預先配置的特征模板和訓練語料正確的標注信息,對預處理后的訓練語料進行特征提取訓練,得到模型參數(shù),建立識別模型。本實施例通過根據(jù)特征模板和訓練語料進行特征提取訓練,獲取最優(yōu)的模型參數(shù),建立識別模型,提升了識別模型識別標注信息的正確率。
[0278]需要說明的是,在本文中,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。
[0279]上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
[0280]通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實施例方法可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當然也可以通過硬件,但很多情況下前者是更佳的實施方式。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)(如ROM/RAM、磁碟、光盤)中,包括若干指令用以使得一臺終端設(shè)備(可以是手機,計算機,月艮務器,空調(diào)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述的方法。
[0281]以上僅為本發(fā)明的可選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護范圍內(nèi)。
【主權(quán)項】
1.一種音頻管理裝置,其特征在于,所述音頻管理裝置包括: 語音識別模塊,用于對音頻文件進行語音識別,獲取所述音頻文件對應的文本,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息; 信息提取模塊,用于根據(jù)預先配置的識別模型,提取所述文本的標注信息; 標簽獲取模塊,用于根據(jù)所述文本的標注信息,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息,獲取所述音頻文件的標簽。2.如權(quán)利要求1所述的音頻管理裝置,其特征在于,所述信息提取模塊包括: 信息提取單元,用于根據(jù)預先配置的識別模型,分別提取所述文本中各句文字信息對應的標注信息; 去重單元,用于對所述文字信息的標注信息進行去重處理; 整合單元,用于獲取去重處理后的標注信息為所述文本的標注信息。3.如權(quán)利要求1或2所述的音頻管理裝置,其特征在于,所述音頻管理裝置還包括: 關(guān)聯(lián)模塊,用于建立所述標簽和音頻文件的關(guān)聯(lián)關(guān)系,將所述標簽鏈接到所述音頻文件對應的時間段或時間點。4.如權(quán)利要求3所述的音頻管理裝置,其特征在于,所述音頻管理裝置還包括: 模型配置模塊,用于根據(jù)預先配置的訓練語料和特征模板,訓練得到所述識別模型。5.如權(quán)利要求4所述的音頻管理裝置,其特征在于,所述模型配置模塊包括: 預處理單元,用于對預先配置的訓練語料進行預處理,獲取所述訓練語料正確的標注信息; 配置單元,用于根據(jù)預先配置的特征模板和所述正確的標注信息,對所述預處理后的訓練語料進行特征提取訓練,得到模型參數(shù),建立識別模型。6.一種音頻管理方法,其特征在于,所述音頻管理方法包括以下步驟: 對音頻文件進行語音識別,獲取所述音頻文件對應的文本,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息; 根據(jù)預先配置的識別模型,提取所述文本的標注信息; 根據(jù)所述文本的標注信息,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息,獲取所述音頻文件的標簽。7.如權(quán)利要求6所述的音頻管理方法,其特征在于,所述根據(jù)預先配置的識別模型,提取所述文本的標注信息的步驟包括: 根據(jù)預先配置的識別模型,分別提取所述文本中各句文字信息對應的標注信息; 對所述文字信息的標注信息進行去重處理; 獲取去重處理后的標注信息為所述文本的標注信息。8.如權(quán)利要求6或7所述的音頻管理方法,其特征在于,所述根據(jù)所述文本的標注信息,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息,獲取所述音頻文件的標簽的步驟之后,還包括: 建立所述標簽和音頻文件的關(guān)聯(lián)關(guān)系,將所述標簽鏈接到所述音頻文件對應的時間段或時間點。9.如權(quán)利要求8所述的音頻管理方法,其特征在于,所述對音頻文件進行語音識別,獲取所述音頻文件對應的文本,以及所述音頻文件與所述文本的時間關(guān)聯(lián)信息的步驟之前,還包括: 根據(jù)預先配置的訓練語料和特征模板,訓練得到所述識別模型。10.如權(quán)利要求9所述的音頻管理方法,其特征在于,所述根據(jù)預先配置的訓練語料和特征模板,訓練得到所述識別模型的步驟包括: 對預先配置的訓練語料進行預處理,獲取所述訓練語料正確的標注信息; 根據(jù)預先配置的特征模板和所述正確的標注信息,對所述預處理后的訓練語料進行特征提取訓練,得到模型參數(shù),建立識別模型。
【文檔編號】G10L15/26GK105913838SQ201610339908
【公開日】2016年8月31日
【申請日】2016年5月19日
【發(fā)明人】王榮洋
【申請人】努比亞技術(shù)有限公司