半音音階音高(chromaticscaletones) [22]作為輸入。因 此M. 的分析方法在進入調(diào)性分析之前需先將音符音高無調(diào)性傾向地取整化(即 roundtoMIDIpitch),也就是說在調(diào)性分析之前"取整誤差"就已經(jīng)形成。而我們的方法 中對相鄰或"間鄰"哼唱音符的估算音程的取整化操作則與調(diào)性分析同時進行。因此我們 的算法最終可以選擇使估算音程的取整誤差積累最少并且能與選定的調(diào)性音級所構(gòu)成演 算音程序列相匹配的候選音程序列。
[0125]M.Ryyn&ixen的方法[16]與本發(fā)明分別分析38首人聲哼唱的1)算法估算的實際 哼唱旋律,2)算法估算的期望哼唱旋律以及,3)手工標注的Groundtruth的評估結(jié)果與比 較參見表4,其中TR為算法估算的期望哼唱旋律或算法估算的實際哼唱旋律,GR為手工標 注的Groundtruth。
[0126] 表4與圖3展示并比較了我們模擬M.Ryynanenetal[16]系統(tǒng)中的調(diào)性分析方法 以我們算法對38首人聲哼唱估算的實際哼唱旋律及手工標注的Groundtruth作為輸入樣 本的各種數(shù)據(jù)分析結(jié)果與用我們的調(diào)性分析方法對38首人聲哼唱估算的期望哼唱旋律及 手工標注的Groundtruth為輸入樣本的各種數(shù)據(jù)分析結(jié)果,其中:
[0136]表5為M.Ryyn&ien的方法[16]與本發(fā)明分別分析38首人聲哼唱的1)算法估算 的實際哼唱旋律,2)算法估算的期望哼唱旋律以及,3)手工標注的Groundtruth的平均評 估結(jié)果。表5為M.Ryyn&ften的方法[16]與本發(fā)明分別分析38首人聲哼唱的1)算法估算 的實際哼唱旋律,2)算法估算的期望哼唱旋律以及,3)手工標注的Groundtruth的平均評 估結(jié)果。其中TR為算法估算的期望哼唱旋律或算法估算的實際哼唱旋律,GR為手工標注 的Groundtruth〇
[0137]表 5
[0138]
[0139] 通過比較可以看出在多數(shù)情況下M.Ryyr^nen%的方法分析算法估算的實際哼唱 旋律與Groundtruth的音程正確率比我們的方法分析算法估算的期望哼唱旋律與Ground truth的演算音程正確率要低得多。表5所描述的M.Ryyninen.方法分析Groundtruth 的平均音程正確率為66. 13,而本發(fā)明分析Groundtruth的平均音程正確率為79. 44。二 者相差超過10個百分點。這說明若以手工標注的期望哼唱旋律的期望音程(參見定義1) 序列為正確哼唱旋律線的標準,通過本發(fā)明的調(diào)性分析算法對手工標注的Groundtruth所 估算的演算音程序列所描述的哼唱旋律線要比包括M.RyynEnen[i(']在內(nèi)的其它現(xiàn)有方法 按定義2中公式(F-6)對手工標注的Groundtruth所估算的Groundtruth音程序列所 描述的哼唱旋律線的準確率要超過10%。同樣地在算法估算的期望哼唱旋律的演算音程 正確率與算法估算的實際哼唱旋律的音程正確率的分析上也有類似的結(jié)果。即表5中分 析算法估算的期望哼唱旋律的演算音程的平均正確率、召回率及F-measure的結(jié)果分別為 30. 25 %,31. 91 %,30. 82 %,而分析算法估算的實際哼唱旋律的鄰近正確音符音程的平均 正確率、召回率及F-measure的結(jié)果分別為18. 98%,19. 99%,19. 31%。因此,二種哼唱旋 律線準確率(即音程正確率與演算音程正確率)分析結(jié)果上的差異反映出本發(fā)明比現(xiàn)有以 M. %的方法為代表的其他方法具有明顯的優(yōu)勢。通過播放器分別播放算法估算 的實際哼唱旋律與算法估算的期望哼唱旋律也可從聽覺上感受到更多的算法估算的期望 哼唱旋律比算法估算的實際哼唱旋律更接近心目中的結(jié)果。
[0140]除去4首含轉(zhuǎn)調(diào)或移調(diào)的哼唱childl.wav、childl2.wav、q61.wav與q63.wav以 及2首過度走音的哼唱child4.wav、childlO.wav,在余下的32首哼唱中,我們的調(diào)性分 析算法正確估算了其中27首的調(diào)性(調(diào)性估算正確率為84. 34%)以及26首手工標注的 Groundtruth的調(diào)性(估算Groundtruth的調(diào)性正確率為81. 25%)。而M.RyynSxie'n的 調(diào)性分析模型正確估算了 23首的調(diào)性(調(diào)性估算正確率為71. 88% )以及25首手工標注 的Groundtruth的調(diào)性(估算Groundtruth的調(diào)性正確率為78. 13% )。整體上看我們 的調(diào)性分析方法的結(jié)果也好于現(xiàn)有的M.Ryynanen的方法。
[0141]B.評估方法的比較與討論
[0142] 在此主要比較與討論現(xiàn)有的估算旋律評估中評估音符音高方法上的差異。在音符 音高的參照標準上,現(xiàn)有方法主要有2種。其一是使用以平均律為標準的MIDI音高為評 估參照標準(例如W.Keige[15]、M.Ryyniinen[ia].與Viitaniemi[17Mtl系統(tǒng)性能評估)。其二 是以對數(shù)頻率音高記法(精確到小數(shù)點后2位)的Groundtruthpitch為評估參照標準 (例如Molinaetal[ls]、G0mezandBonada[19]&及我們在對算法估算的實際哼唱旋律的評 估)。由于實際人聲哼唱音符的音高與以平均律為標準的MIDI音高常存在不同程度的偏 差,因此以對數(shù)頻率音高記法的Groundtruthpitch[ls'19]作為評估算法估算的實際哼唱旋 律的標準更具客觀性。然而音高不太準確的人聲哼唱卻蘊含著與哼唱者或聽者心目中調(diào)性 認知保持一致的期望哼唱旋律。期望哼唱旋律以調(diào)性音級作為音符的音高。同樣的Ground truthpitch在不同的上下文所對應(yīng)的調(diào)性音級可能是不同的MIDI音高。自動旋律識別系 統(tǒng)作為一個智能程序必須能在音高不太準確的人聲哼唱中以期望哼唱旋律作為系統(tǒng)的尋 求目標并將其視為輸入哼唱的正確旋律。特別地,表4和5所展示的校正音程正確率指出 了我們算法將Groundtruth或算法估算的實際哼唱旋律中不準確的相鄰音程自動校正為 正確音程的能力。需要指出的是,現(xiàn)有的評估法僅能反映算法估算實際哼唱旋律的性能,但 不能判斷實際哼唱旋律與期望哼唱旋律的關(guān)系,而期望哼唱旋律才是一個哼唱旋律自動識 別系統(tǒng)最終尋求的目標。
[0143] 以下通過圖示說明SingingTracker系統(tǒng)的使用方法。
[0144] 步驟1 (哼唱輸入):連接好麥克風(fēng)。打開SingingTracker系統(tǒng)。在系統(tǒng)主菜單 上選擇"錄音"一"打開錄音機",系統(tǒng)會彈出"錄音機"窗口。點擊其中的"開始錄音"按鈕, 開始哼唱,哼唱完畢,點擊"停止錄音"按鈕。
[0145] 步驟2 (導(dǎo)入哼唱信號):在系統(tǒng)主菜單上選擇"錄音"一"導(dǎo)入錄音",系統(tǒng)會自動 將采樣率為44kHz,16bit的哼唱信號導(dǎo)入系統(tǒng)。
[0146] 步驟3 (估算實際哼唱旋律與期望哼唱旋律):點擊主界面上的"旋律識別"按鈕, 系統(tǒng)會彈出"旋律識別"窗口。依次點擊"旋律識別"窗口中的"實際哼唱旋律"按鈕、"期望 哼唱旋律"按鈕,即可獲得實際哼唱旋律與期望哼唱旋律的結(jié)果。
[0147] 步驟4 (顯示調(diào)音功能):點擊主界面上的"顯示調(diào)音功能"按鈕,在系統(tǒng)主界面下 方會出現(xiàn)"音高調(diào)整"與"原音重現(xiàn)"面板。
[0148] 步驟5 (哼唱旋律播放、單音播放與多個相鄰音塊連續(xù)播放):在"原音重現(xiàn)"面板 上,點擊"播放全曲"按鈕,系統(tǒng)會播放導(dǎo)入到系統(tǒng)的整首人聲哼唱。選擇下拉菜單的音塊 號,再點擊"單音播放"按鈕,系統(tǒng)會播放指定音塊號所對應(yīng)的哼唱信號區(qū)域的人聲哼唱。還 可選擇從一個音塊號到另一個音塊號所對應(yīng)的信號區(qū)域,再點擊"連續(xù)播放"按鈕,系統(tǒng)會 播放這個信號區(qū)域的人聲哼唱片段。注意,這里的一個音塊所對應(yīng)的哼唱區(qū)域,就是一個哼 唱音符。
[0149] 步驟6 (播放算法估算的實際哼唱旋律與期望哼唱旋律):在點擊完"旋律識別"窗 口的"期望哼唱旋律"按鈕之后,系統(tǒng)會估算出期望哼唱旋律。此時,可在"音高調(diào)整"面板 上,點擊"播放全曲"按鈕,系統(tǒng)會用指定的合成音色播放系統(tǒng)估算的期望哼唱旋律。選擇下 拉菜單的音塊號,再點擊"單音播放"按鈕,系統(tǒng)會用指定的合成音色播放指定音塊號(即 相應(yīng)音符)所對應(yīng)的哼唱信號區(qū)域的音符音高。還可選擇從一個音塊號到另一個音塊號所 對應(yīng)的信號區(qū)域,再點擊"連續(xù)播放"按鈕,系統(tǒng)會用指定的合成音色播放這個信號區(qū)域所 對應(yīng)的相鄰音符構(gòu)成旋律片段。
【主權(quán)項】
1. 哼唱旋律到MIDI旋律的轉(zhuǎn)換方法,其特征在于包括以下步驟: 1) 估算信號幀的基頻; 2) 規(guī)?a哼唱首符的聽覺標準; 3) 估算哼唱音符切割與音符音高; 4) 估算基于哼唱旋律調(diào)性分析的期望哼唱旋律; 5) 建立系統(tǒng)性能評估方法。2. 如權(quán)利要求1所述哼唱旋律到MIDI旋律的轉(zhuǎn)換方法,其特征在于在步驟1)中,所述 估算信號幀的基頻的具體方法為:采用倍音分析與變采樣技術(shù)相結(jié)合,為每個信號幀估算 指定精度范圍內(nèi)的音高。3. 如權(quán)利要求1所述哼唱旋律到MIDI旋律的轉(zhuǎn)換方法,其特征在于在步驟2)中,所述 規(guī)范哼唱音符的聽覺標準的具體方法為:哼唱音符是哼唱旋律的基本組成單位,將一段實 際的哼唱片段視為由一個聽覺可辨識的聽覺成分序列所組成,每個聽覺成分在聽覺上可呈 現(xiàn)為首尚波動相對穩(wěn)定的穩(wěn)定首,或為具有$父大首尚上下波動性的顛首,或為首尚沿單一 方向變動的滑音,或為以氣流開始的氣音,以及換氣或停頓等等不同的聲學(xué)特性;在聽覺成 分序列上判定某一聽覺成分子串能否可認定為個哼唱首符,并由此規(guī)?E各種哼唱首符的 聽覺標準。4. 如權(quán)利要求1所述哼唱旋律到MIDI旋律的轉(zhuǎn)換方法,其特征在于在步驟3)中,所述 估算哼唱音符切割與音符音高的具體方法為:通過構(gòu)造ATN網(wǎng)絡(luò),在一個聽覺成分序列上 識別音高波動范圍在半音甚至全音音程內(nèi)變化且由不同聽覺成分構(gòu)成的哼唱音符從而實 現(xiàn)哼唱音符的自動切割,同時通過觀察與比較由聽覺確認的各種不同類型哼唱音符中各種 聽覺成分信號幀基頻與實際音高聽覺的關(guān)系,建立各種哼唱音符的音高估算模型,估算音 符音高。5. 如權(quán)利要求1所述哼唱旋律到MIDI旋律的轉(zhuǎn)換方法,其特征在于在步驟4)中,所 述估算基于哼唱旋律調(diào)性分析的期望哼唱旋律的具體方法為:先通過相鄰音程分析推導(dǎo)第 j+1個哼唱音符的音級,當相鄰音程最小取整誤差達到某個閾值(〇. 75)時,使用間鄰音程 分析并優(yōu)先匹配第一候選音級,同時允許匹配至多一個非調(diào)性音級,即算法所輸出的音級 序列中允許出現(xiàn)至多一種非調(diào)性音級,該非調(diào)性音級理解為實際哼唱的一個走音音符,或 為在自然調(diào)式體系下的一個臨時變化音級;算法在使用第j-1個哼唱音符的音級通過間鄰 音程分析推導(dǎo)第j+1個哼唱音符的音級時,要求第j-1個哼唱音符的音級必須是通過唯一 的第1候選推導(dǎo)出來的結(jié)果,并以此作為使用間鄰音程分析的條件;任意二個相鄰音符或 間鄰音符的估算音程不一定正好是整數(shù),每當算法根據(jù)二個相鄰音符或間鄰音符從當前音 符的音級推算下一個音符音級時,產(chǎn)生取整誤差,算法會累積這些取整誤差,并按累積的取 整誤差由小到大的次序排列輸出解的優(yōu)劣,累積取整誤差最小的解為最優(yōu)解。6. 如權(quán)利要求1所述哼唱旋律到MIDI旋律的轉(zhuǎn)換方法,其特征在于在步驟5)中,所述 建立系統(tǒng)性能評估方法的具體方法為:任意實際哼唱均具有二種旋律,即實際哼唱旋律與 期望哼唱旋律,將所述期望哼唱旋律作為哼唱旋律的正確旋律,通過比較音符"絕對音高" 及"調(diào)性音級"的主觀聽覺判定與系統(tǒng)客觀估算結(jié)果的差異,評估系統(tǒng)識譜能力。
【專利摘要】哼唱旋律到MIDI旋律的轉(zhuǎn)換方法,涉及數(shù)字音頻信號處理。1)估算信號幀的基頻;2)規(guī)范哼唱音符的聽覺標準;3)估算哼唱音符切割與音符音高;4)估算基于哼唱旋律調(diào)性分析的期望哼唱旋律;5)建立系統(tǒng)性能評估方法??梢詾檩斎牒叱盘柟浪恪皩嶋H哼唱旋律”與“期望哼唱旋律”的哼唱旋律自動識別。通過比較“實際哼唱旋律”與“期望哼唱旋律”的差異,可以鑒別輸入哼唱信號的“哼唱質(zhì)量”以及系統(tǒng)的自動校正能力。采用一種基于相鄰或間鄰哼唱音符音程分析的哼唱旋律的調(diào)性分析法。即先估算實際哼唱相鄰或間鄰哼唱音符的音程,而后再在音程序列上估算哼唱旋律的調(diào)性。并由此建立期望哼唱旋律的估算模型。
【IPC分類】G10L13/08, G10H7/00, G10L19/00
【公開號】CN105244021
【申請?zhí)枴緾N201510743017
【發(fā)明人】馮寅, 盤子圣
【申請人】廈門大學(xué)
【公開日】2016年1月13日
【申請日】2015年11月4日