ust1993.
[0032] [8]JudithC.Brown,"Frequencyratiosofspectralcomponentsofmusical sounds",J.Acoust.Soc.Amer.,vol. 99,Issue2,pp. 1210-1218,Sept. 1996.
[0033] [9]AdrianoMitre,MarceloQueiroz,RegisR.A.Faria,"Accurate andEfficientFundamentalFrequencyDeterminationfromPrecisePartial Estimates",inProc.ofthe4thAESBrazilConference,May2006,pp.113 - 118.
[0034] [10]Wei_HoTsaiandHsin-ChiehLee,"AutomaticEvaluationofKaraoke SingingBasedonPitch,Volume,andRhythmFeatures",IEEETransactionson Audio,Speech,AndLanguageProcessing,Vol. 20,No. 4,May2012,1233_1243.
[0035] [ll]YinFengandWentaoWang,"ResearchonhummingtoMIDIby man-machineinteraction'',J.ofComputationalInformationSystem,vol. 9,no. 10,May2013,pp. 3827-3835.
[0036] [12]A.StephenZahorianandHongbingHu,"Aspectral/temporalmethod forrobustfundamentalfrequencytracking^,J.Acoust.Soc.Amer. ,vol. 123. no. 6, 2008,pp. 4559-4571,
[0037] [13]A.Ghias,J.Logan,D.Chamberlin,andB.C.Smith,^Queryby humming:musicalinformationretrievalinanaudiodatabase",inProc.ofACM InternationalConferenceonMultimedia,1995,pp. 231-236.
[0038] [14]T.R.BlackandK.D.Donohue,"Pitchdeterminationofmusicsignals usingthegeneralizedspectrum",inProc.oftheIEEESoutheastConference,Nash ville,USA, 2000,pp. 104-109.
[0039] [15]W.Keige,T.Herbst,andT.Niesler,"Ecplicittransitionmodellingfor automaticsingingtranscription. "J.NewMusicRes.,vol. 37,no. 4,pp. 311-324, 2008.
[0040] [16]M.Ryynanen,A.P.Klapuri,^ModellingofNoteEventsforSinging Transcription,''inProc.ISCATutorialandRes.WorkshoponStatist.Percept.Audio Process.SAPA,Jeju,Korea,Oct. 2004.
[0041] [17]T.Viitaniemi,A.Klapuri,andA.Eronen,"Aprobabilisticmodelfor thetranscriptionofsingle-voicemelodies,''inProc.ofFinnishSignalProcess. Symp. (FINSIG' 03),2003,pp. 5963-5957.
[0042] [18]EmilioMolinaetal, "SiPTH:SingingTranscriptionBasedon HystreresisDefinedonthePitch-TimeCurve",IEEE/ACMTransactionson Audio,Speech,AndLanguageProcessing,Vol. 23,No. 2,Feb. 2015, 252-261.
[0043] [19]Emilia& 細(xì)andJordiBonada,"TowardsComputer-AssistedFlamenco Transcription:AnExperimentalComparisonofAutomaticTranscriptionAlgorithms asAppliedtoACappellaSinging",ComputerMusicJournal,Vol. 37,Issue 2, 2013, 73-90.
[0044] [20]Cheng-YuanLinandJyh-ShingRogerJang,"AutomaticPhonetic SegmentationbyScorePredictiveModelfortheCorporaofMandarinSinging Voices",IEEETransactionsonAudio,Speech,AndLanguageProcessing,Vol. 15,No. 7 Sept. 2007, 2151-2159.
[0045] [21]Chee-ChuanToh,BingjunZhang,YeWang,"Multiple-FeatureFusion BasedOnsetDecetionforSoloSingingVoice"inProc.ofISMIR,Philadelphia,PA. USA, 2008,pp. 515-520.
[0046] [22]C.L.Krumhansl,CognitiveFoundationsofMusicalPitch,Oxford PsychologySeriesNo. 17,NewYorkOxford,OxfordUniversityPress,1990.
[0047] [23]AndrewGuilloryetal. "User-SpecificLearningforRecognizing aSinger'sIntendedPitch'',inProc.oftheTwenty-FourthAAAIConferenceon ArtificialIntelligence,Atlanta,Georgia,USA,July11-15, 2010,pp. 960-966.
[0048][24]R.J.McNabetal·"SignalProcessingforMelodyTranscription",In Proc.ofthe19thAustralasianComputerScienceConference,vol. 18,no.4, pp. 301-307, 1996.
[0049] [25]G.HausandE.Pollastri,"Anaudiofrontendforqueryby-humming systems'',inProc.ofthe2ndInternationalSymposiumonMusicInformation RetrievalISMIR,pp. 65-72, 2001.
[0050] [26]L.P.Clarisseetal.^AnAuditoryModelBasedTranscriberofSinging Sequences",inProc.ofthe3rdInternationalConferenceonMusicInformation RetrievalISMIR,pp. 116-123, 2002.
[0051] [27]Τ·DeMulderetal."Recentimprovementsofanauditorymodel basedfront-endforthetranscriptionvocalqueries'',inProc.oftheIEEE InternationalConferenceonAcoustics,SpeechandSignalProcessing,(ICASSP 2004),Montreal,Quebec,Canada,May17-21,Vol.IV,pp. 257-260, 2004.
[0052] [28]P.Kumaretal·"SungNoteSegmentationforaQuery-by-Humming System'',InIntJointConferencesonArtificialIntelligence(IJCAI), 2007.
[0053] [29]P.M.Brossier."Automaticannotationofmusicalaudiofor interactiveapplications.,"Ph.D.dissertation,CentreforDigitalMusic,Queen Mary,Univ.ofLondon,London,U.K. , 2006.
【發(fā)明內(nèi)容】
[0054] 本發(fā)明的目的在于提供一種哼唱旋律到MIDI旋律的轉(zhuǎn)換方法。
[0055] 本發(fā)明包括以下步驟:
[0056] 1)估算信號幀的基頻:采用倍音分析與變采樣技術(shù)相結(jié)合,為每個信號幀估算指 定精度范圍內(nèi)的音高;
[0057] 2)規(guī)范哼唱音符的聽覺標(biāo)準(zhǔn):哼唱音符是哼唱旋律的基本組成單位,將一段實際 的哼唱片段視為由一個聽覺可辨識的聽覺成分序列所組成,每個聽覺成分在聽覺上可呈現(xiàn) 為音高波動相對穩(wěn)定的穩(wěn)定音,或為具有較大音高上下波動性的顫音,或為音高沿單一方 向變動的滑音,或為以氣流開始的氣音,以及換氣或停頓等等不同的聲學(xué)特性;在聽覺成分 序列上判定某一聽覺成分子串能否可認(rèn)定為個哼唱首符,并由此規(guī)??各種哼唱首符的聽 覺標(biāo)準(zhǔn);
[0058] 3)估算哼唱音符切割與音符音高:通過構(gòu)造ΑΤΝ網(wǎng)絡(luò),在一個聽覺成分序列上識 別音高波動范圍在半音甚至全音音程內(nèi)變化且由不同聽覺成分構(gòu)成的哼唱音符從而實現(xiàn) 哼唱音符的自動切割,同時通過觀察與比較由聽覺確認(rèn)的各種不同類型哼唱音符中各種聽 覺成分信號幀基頻與實際音高聽覺的關(guān)系,建立各種哼唱音符的音高估算模型,估算音符 音高;
[0059] 4)估算基于哼唱旋律調(diào)性分析的期望哼唱旋律:先通過相鄰音程分析推導(dǎo)第j+1 個哼唱音符的音級,當(dāng)相鄰音程最小取整誤差達(dá)到某個閾值(0.75)時,使用間鄰音程分析 并優(yōu)先匹配第一候選音級,同時允許匹配至多一個非調(diào)性音級,即算法所輸出的音級序列 中允許出現(xiàn)至多一種非調(diào)性音級,該非調(diào)性音級理解為實際哼唱的一個走音音符,或為在 自然調(diào)式體系下的一個臨時變化音級;算法在使用第j-Ι個哼唱音符的音級通過間鄰音程 分析推導(dǎo)第j+Ι個哼唱音符的音級時,要求第j-Ι個哼唱音符的音級必須是通過唯一的第1 候選推導(dǎo)出來的結(jié)果,并以此作為使用間鄰音程分析的條件;任意二個相鄰音符或間鄰音 符的估算音程不一定正好是整數(shù),每當(dāng)算法根據(jù)二個相鄰音符或間鄰音符從當(dāng)前音符的音 級推算下一個音符音級時,產(chǎn)生取整誤差,算法會累積這些取整誤差,并按累積的取整誤差 由小到大的次序排列輸出解的優(yōu)劣,累積取整誤差最小的解為最優(yōu)解;
[0060] 5)建立系統(tǒng)性能評估方法:任意實際哼唱均具有二種旋律,即實際哼唱旋律與期 望哼唱旋律,將所述期望哼唱旋律作為哼唱旋律的正確旋律,通過比較音符"絕對音高"及 "調(diào)性音級"的主觀聽覺判定與系統(tǒng)客觀估算結(jié)果的差異,評估系統(tǒng)識譜能力。
[0061] 本發(fā)明的優(yōu)點在于:
[0062] 1)提出一種可以為輸入哼唱信號估算"實際哼唱旋律"與"期望哼唱旋律"的哼唱 旋律自動識別(SingingTranscription)技術(shù)。任一哼唱片段都可以有二種旋律。其一稱 為實際哼唱旋律,另一個稱為期望哼唱旋律。二者區(qū)別在于前者以每個哼唱音符的絕對音 高作為哼唱旋律音符的音高,而后者則以調(diào)性音級(scalestep)作為音符的音高。申請人 把期望哼唱旋律視為哼唱片段的正確旋律,提出一種基于哼唱旋律調(diào)性分析的哼唱音符分 析法并以此設(shè)計與實現(xiàn)了一個哼唱旋律自動分析系統(tǒng)以及系統(tǒng)的性能評估方法。通過比較 "實際