一種音樂自動定位和注解系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻信號處理和多媒體信息檢索系統(tǒng)技術(shù)領(lǐng)域,特別是關(guān)于一種復(fù)雜音頻環(huán)境中基于音頻指紋特征的音樂自動定位和注解系統(tǒng)及方法。
【背景技術(shù)】
[0002]音樂是多媒體信息的重要呈現(xiàn)形式,在電視節(jié)目、電影、廣告等信息傳播形式中隨處可見,但在節(jié)目中使用未經(jīng)授權(quán)的音樂就使得版權(quán)所有人蒙受巨大的損失。如今音樂創(chuàng)作者們越來越注重音樂版權(quán)保護問題,因此嵌入到商業(yè)媒體中的音樂應(yīng)該有效的避免侵權(quán)問題。目前,一些音樂維權(quán)機構(gòu),如中國音樂著作權(quán)協(xié)會(MCSC)對電視節(jié)目等商業(yè)媒體中音樂使用的審查主要是借助人工方式。通過觀看電視節(jié)目找到其中的音樂位置和相關(guān)信息,進而進行版本保護工作。然而,人工方式審查存在諸多問題,如工作量大、效率低、易遺漏等。這些都增加了音樂維權(quán)的成本。
[0003]目前已公開的專利中,已有若干根據(jù)音頻指紋特征進行音樂檢索的專利技術(shù),采取的檢索方式也大同小異,如倒排索引、智能分類等技術(shù),有的甚至正是為探測音樂侵權(quán)行為設(shè)計的。但是這些專利技術(shù)都不能對復(fù)雜音頻環(huán)境中的音樂進行定位、檢索。如一些在線音樂盜版監(jiān)控系統(tǒng)雖然能夠在檢測出可能的侵權(quán)行為后,自動向侵權(quán)者發(fā)出警告,并同時完成對侵權(quán)行為的調(diào)查取證工作。但這類系統(tǒng)卻不能檢測出含有音樂作品的復(fù)雜音/視頻資料中的音樂作品侵權(quán)行為。另外,北京郵電大學(xué)模式識別實驗室圍繞“復(fù)雜音頻環(huán)境下的音頻事件探測”這一課題發(fā)表了多篇論文。但其相關(guān)研究并沒有對“音樂”這一分類做研究,甚至沒有將它作為若干種音頻分類中的一種。目前還沒有在像電視節(jié)目這種復(fù)雜的環(huán)境下對音樂的檢索的商業(yè)化系統(tǒng)。
【發(fā)明內(nèi)容】
[0004]針對上述問題,本發(fā)明的目的是提供一種可靠性高、效率高,可以在復(fù)雜音頻環(huán)境中對音樂進行準確定位和注解的音樂自動定位和注解系統(tǒng)及方法。
[0005]為實現(xiàn)上述目的,本發(fā)明采取以下技術(shù)方案:一種音樂自動定位和注解系統(tǒng),其特征在于:它包括數(shù)據(jù)預(yù)處理模塊、音樂定位模塊、音樂注解模塊、結(jié)果展示模塊和音樂信息數(shù)據(jù)庫;所述數(shù)據(jù)預(yù)處理模塊從待分類多媒體數(shù)據(jù)或帶標簽的音樂數(shù)據(jù)中分離出獨立的音頻文件進行切片處理后,從音頻切片中提取音頻片段的MFCC特征發(fā)送到所述音樂定位模塊;所述音樂定位模塊根據(jù)音頻MFCC特征對所有音頻切片進行分類,并得到所有音樂片段的起點和長度信息后發(fā)送到所述音樂注解模塊;所述音樂注解模塊從所述音樂信息數(shù)據(jù)庫中找到與所述音樂定位模塊所得到的音樂片段相似度最高的音樂數(shù)據(jù)和其相關(guān)注解信息,并發(fā)送到所述結(jié)果展示模塊;所述結(jié)果展示模塊通過用戶交互界面將接收到的注解信息呈現(xiàn)給用戶;所述用戶對得到的注解信息進行有效性驗證,并通過所述用戶交互界面將驗證結(jié)果反饋到所述音樂信息數(shù)據(jù)庫。
[0006]所述數(shù)據(jù)預(yù)處理模塊包括數(shù)據(jù)錄入模塊、音頻分離模塊、音頻切片模塊和音頻特征抽取模塊;所述數(shù)據(jù)錄入模塊將待分類多媒體數(shù)據(jù)或帶標簽的音樂數(shù)據(jù)發(fā)送到所述音頻分離模塊;所述音頻分離模塊從待分類多媒體數(shù)據(jù)或帶標簽的音樂數(shù)據(jù)中分離出獨立的音頻文件后發(fā)送到所述音頻切片模塊;所述音頻切片模塊對音頻文件進行切片處理,得到大量的音頻切片后發(fā)送到所述音頻特征抽取模塊;所述音頻特征抽取模塊從所有音頻切片中提取音頻片段的MFCC特征,并將待分類的音頻片段的MFCC特征發(fā)送到所述音樂定位模塊,將帶標簽的音頻片段的MFCC特征數(shù)據(jù)發(fā)送到所述音樂信息數(shù)據(jù)庫。
[0007]所述音樂定位模塊包括訓(xùn)練分類器、音頻片段分類模塊以及音樂起點和長度檢測模塊;所述訓(xùn)練分類器根據(jù)所述音樂信息數(shù)據(jù)庫中帶標簽的音頻片段的MFCC特征作為樣本進行訓(xùn)練;所述音頻片段分類模塊基于接收到的待分類的音頻片段的MFCC特征,使用所述訓(xùn)練分類器將所有音頻切片分為三類,并將分類結(jié)果發(fā)送到所述音樂起點和長度檢測模塊;所述音樂起點和長度檢測模塊根據(jù)分類結(jié)果確定對所有音樂片段進行定位,即確定每首音樂片段的音樂起點和長度信息。
[0008]所述音樂注解模塊包括音樂片段指紋提取模塊和檢索模塊;所述音樂片段指紋提取模塊從已定位的每首音樂片段中分別抽取兩片音頻指紋,并發(fā)送到所述檢索模塊;所述檢索模塊根據(jù)提取的音頻指紋從所述音樂信息數(shù)據(jù)庫中找到與各首音樂片段相似度最大的音樂數(shù)據(jù)和其注解信息,并發(fā)送到所述結(jié)果展示模塊。
[0009]—種音樂自動定位和注解方法,包括以下步驟:1)數(shù)據(jù)預(yù)處理模塊從錄入的待分類多媒體數(shù)據(jù)中分離出獨立的音頻文件進行切片處理得到音頻切片,從音頻切片中提取MFCC特征后發(fā)送到音樂定位模塊的音頻片段分類模塊;2)音頻片段分類模塊基于接收到的MFCC特征,使用訓(xùn)練分類器將所有音頻切片分為三類,并將分類結(jié)果發(fā)送到音樂起點和長度檢測模塊;3)基于上述分類結(jié)果,音樂起點和長度檢測模塊按照要求對音樂片段進行定位,找出步驟I)所分離出的音頻文件中所有音樂片段的音樂起點和音樂長度信息,并發(fā)送到音樂注解模塊的音頻片段指紋提取模塊;4)音樂注解模塊中的音頻片段指紋提取模塊從已被定位的每首音樂片段中分別抽取兩片音頻指紋,并發(fā)送到檢索模塊;5)檢索模塊根據(jù)音頻指紋從音樂信息數(shù)據(jù)庫中找到與音頻文件中的音樂片段相似度最大的音樂及其相關(guān)的注解信息,并將注解信息發(fā)送到結(jié)果展示模塊;6)結(jié)果展示模塊通過用戶交互界面將匹配到的注解信息呈現(xiàn)給用戶;7)用戶對得到的注解信息進行有效性驗證,當發(fā)現(xiàn)錯誤時,通過用戶交互界面對產(chǎn)生的錯誤進行更正,并上傳到音樂信息數(shù)據(jù)庫,音樂信息數(shù)據(jù)庫根據(jù)用戶反饋的信息進行修正。
[0010]所述步驟3)中,音樂起點是指音樂片段的起點,音樂起點用Xs表示,當音頻切片^滿足下面兩個條件中的任意一個時,即為音樂起點X s:
[0011]①Xi i= O 并且(X i+J= 2 或 X i+J= I) ; j = 0,1,2,...,M ;
[0012]②X1:= I 并且 X i+j= 2,j = 1,2,...,M ;或者滿足限定①;
[0013]式中,M表示所需查找音樂片段的長度閾值。
[0014]所述步驟3)中,音樂長度是指連續(xù)的音樂片段的大小,用I表示音頻切片序列的索引,則音樂長度L1ot表示有以下兩種情況:
[0015]①Llrai= Ixf3-1xs,其中Xf3= 0,且當前音樂的音樂起點Xs到最后一個音頻切片X^中間的任何一個音頻切片的分類都不為O ;
[0016]②L1ot= I3re-1xs,其中0,若當前音樂中出現(xiàn)同時滿足兩個音樂起點定義的音樂起點出現(xiàn)時,則選擇滿足音樂起點條件①的音樂起點Xs的索引;且當前音樂的音樂起點Xs到最后一個音頻切片X e中間任何一個音頻切片的分類都不為O。
[0017]本發(fā)明由于采取以上技術(shù)方案,其具有以下優(yōu)點:1、本發(fā)明由于設(shè)置有數(shù)據(jù)預(yù)處理模塊,其可以從待分類的多媒體數(shù)據(jù)中分離出獨立的音頻文件,進而對分離出的音頻文件進行定位和分類,有效的降低了在復(fù)雜的音頻環(huán)境中,對音樂審查的人工成本。2、本發(fā)明由于采用MFCC特征作為音頻特征,在無需抽取足夠多的數(shù)據(jù)條件下,可以很好的表示音頻文件的音頻特征,很好的平衡了復(fù)雜性和有效性問題。3、本發(fā)明由于設(shè)置有閉環(huán)自檢策略,用戶對返回的分類結(jié)果進行有效性驗證發(fā)現(xiàn)錯誤時,可以及時反饋回音樂信息數(shù)據(jù)庫中,提高了可靠性。4、本發(fā)明由于在使用和運行過程中,不斷的有新的帶標簽的音樂數(shù)據(jù)作為分類訓(xùn)練器的樣本數(shù)據(jù),可以有效提高訓(xùn)練分類器的精度,使得本發(fā)明可靠性進一步提高。本發(fā)明可以有效的在海量的多媒體數(shù)據(jù)中快速準確的對音樂進行定位和注解,進而為快速有效的開展音樂維權(quán)活動提供了保障,可以廣泛應(yīng)用于多媒體數(shù)據(jù)中音樂的快速檢索領(lǐng)域。
【附圖說明】
[0018]圖1是本發(fā)明結(jié)構(gòu)示意圖
[0019]圖2是本發(fā)明方法流程示意圖
[0020]圖3是本發(fā)明的用戶交互界面示例