從音頻比特流估計節(jié)奏度量的制作方法
【專利摘要】本發(fā)明涉及直接從編碼音頻信息的、優(yōu)選地為音樂的比特流估計節(jié)奏信息。所述節(jié)奏信息從至少一個周期性被得出,該至少一個周期性從音頻信息中包括的至少兩個起始點的檢測被得出。這樣的起始點通過檢測長塊到短塊的轉(zhuǎn)變(在比特流中)被檢測到,或/和通過檢測關(guān)于編碼/傳輸比特流中被編碼的變換系數(shù)的指數(shù)的比特分配改變(成本改變)被檢測到。
【專利說明】從音頻比特流估計節(jié)奏度量
[0001]對相關(guān)申請的交叉引用
[0002]本申請要求于2014年2月18日提交的美國臨時專利申請N0.61/941,283的優(yōu)先權(quán),該美國臨時申請整體通過引用被結(jié)合于此。
技術(shù)領(lǐng)域
[0003]此處描述的示例實施例總體涉及音頻信號處理,更具體地涉及從音頻比特流中估計節(jié)奏度量。
【背景技術(shù)】
[0004]便攜式手持設(shè)備(PDA)(例如智能手機,功能手機,便攜式媒體播放器等)通常包括訪問各種娛樂內(nèi)容以及支持社交媒體應(yīng)用的音頻和/或視頻呈現(xiàn)能力。這種PDA由于它們的計算能力受限及能量消耗受到約束而使用低復(fù)雜度算法。各種工具可以被低復(fù)雜度算法使用,例如音樂信息檢索(MRI)應(yīng)用,該應(yīng)用對媒體文件進行分組或分類。用于各種MIR應(yīng)用的重要音樂特征包括使用音樂相似性(例如音樂節(jié)奏)的流派和情感分類,音樂綜述,音頻縮略,自動播放列表產(chǎn)生和音樂推薦系統(tǒng)。因此,需要從來自音頻信號的被編碼比特流的音頻信號中提取節(jié)奏信息的過程。
【發(fā)明內(nèi)容】
[0005]鑒于上述內(nèi)容,此處公開的示例實施例提供了用于基于表示音頻信號的被編碼比特流估計與音頻信號相關(guān)的節(jié)奏度量的方法,其中比特流包括多個音頻塊。該方法包括,接收比特流,檢測比特流中音頻塊的塊大小的轉(zhuǎn)變,確定與被檢測的轉(zhuǎn)變的重現(xiàn)(r e -occurrence)相關(guān)的至少一個周期性,和基于被確定的周期性來確定被估計的節(jié)奏度量。
[0006]在另一個示例實施例中,提供用于基于表示音頻信號的被編碼比特流估計與音頻信號相關(guān)的節(jié)奏度量的設(shè)備,其中比特流包括多個音頻塊。該設(shè)備包括用于接收比特流的輸入單元,和計算單元,該計算單元用于檢測比特流中音頻塊的塊大小的轉(zhuǎn)變,確定與被檢測的轉(zhuǎn)變的重現(xiàn)相關(guān)的至少一個周期性,并基于被確定的周期性確定被估計的節(jié)奏度量。
[0007]在另一個示例實施例中,提供用于基于表示音頻信號的被編碼比特流估計與音頻信號相關(guān)的節(jié)奏度量的設(shè)備,比特流被以包括尾數(shù)和指數(shù)以表示變換系數(shù)的格式編碼。該設(shè)備包括用于接收比特流的輸入單元,和計算單元,該計算單元用于基于在比特流的元數(shù)據(jù)中包括的信息反復(fù)確定對指數(shù)進行編碼的成本,檢測成本的改變,確定與被檢測的成本改變的重現(xiàn)相關(guān)的至少一個周期性,及基于被確定的周期性確定被估計的節(jié)奏度量。
[0008]在另一個示例實施例中,提供非暫態(tài)計算機可讀存儲介質(zhì),該非暫態(tài)計算機可讀存儲介質(zhì)存儲可執(zhí)行的計算機程序指令,該指令用于執(zhí)行用于基于表示音頻信號的被編碼比特流估計與音頻信號相關(guān)的節(jié)奏度量的方法,其中,比特流包括多個音頻塊。該方法包括接收比特流,檢測比特流中音頻塊的塊大小的轉(zhuǎn)變,確定與被檢測的轉(zhuǎn)變的重現(xiàn)相關(guān)的至少一個周期性,和基于被確定的周期性確定被估計的節(jié)奏度量。
[0009]這些和其他示例實施例和方面在下面被具體地詳細描述。
[0010]本發(fā)明的示例實施例的前述和其他方面在結(jié)合附圖閱讀時,在下面的詳細描述中被進一步解釋。
【附圖說明】
[0011]圖1A示出根據(jù)本公開的示例實施例從音頻文件中估計節(jié)奏度量;
[0012]圖1B示出根據(jù)本公開的示例實施例的用于基于表示音頻信號的被編碼比特流估計與音頻信號相關(guān)的節(jié)奏度量的另一方法的另一示意圖;
[0013]圖2示出根據(jù)本公開的示例實施例的、音頻比特流中的指數(shù)和改進的離散余弦變換(MDCT)系數(shù)的曲線圖;
[0014]圖3示出根據(jù)本公開的示例實施例的在頻率上(例如,在作為平穩(wěn)信號(stat1nary s ignaI)的調(diào)音器信號上)共享指數(shù)的例子;
[0015]圖4A示出根據(jù)本公開的示例實施例的用于基于表示音頻信號的被編碼比特流估計與音頻信號相關(guān)的節(jié)奏度量的設(shè)備的簡化框圖;
[0016]圖4B示出根據(jù)本公開的示例實施例的用于基于表示音頻信號的被編碼比特流估計與音頻信號相關(guān)的節(jié)奏度量的另一個設(shè)備的簡化框圖;
[0017]圖5示出適合實現(xiàn)本公開的示例實施例的示例計算機系統(tǒng)的簡化框圖。在全部附圖中,相同或相應(yīng)的附圖標記指的是相同或相應(yīng)的部分。
【具體實施方式】
[0018]現(xiàn)在將參考圖中示出的各種示例實施例描述本公開的原理。應(yīng)當(dāng)認識到,這些實施例的描述只是為了使得本領(lǐng)域的技術(shù)人員能夠更好地理解和進一步實現(xiàn)本公開,不是為了以任何方式限制本公開的范圍。
[0019]正如已經(jīng)提到的,用于各種音樂信息檢索(MIR)應(yīng)用的重要音樂特征包括音樂節(jié)奏。通常使用以BPM(每分鐘節(jié)拍數(shù))記的在樂譜或活頁樂譜上譜寫的節(jié)奏來表征音樂,這個值往往并不與感知的節(jié)奏相對應(yīng)。例如,如果一組聽眾(包括熟練的音樂家)被要求注釋音樂選段的節(jié)奏,他們通常給出不同的答案,例如他們通常以不同的節(jié)律水平(metricIeve I)打拍子。對于一些音樂選段,所感知的節(jié)奏的歧義較少,所有聽眾通常以相同的節(jié)律水平打拍子,但是,對于另一些音樂選段,節(jié)奏可能是有歧義的,不同的聽眾識別出不同的節(jié)奏。也就是說,感知實驗顯示所感知的節(jié)奏可能與譜寫的節(jié)奏不同。一段音樂可能感覺快于或慢于它的譜寫節(jié)奏,這是因為占主導(dǎo)的感知脈沖可具有高于或低于譜寫節(jié)奏的節(jié)律水平。鑒于MIR應(yīng)用應(yīng)該優(yōu)選地考慮最有可能被用戶感知的節(jié)奏這一事實,自動節(jié)奏提取器應(yīng)該預(yù)測音頻信號的感知最顯著的節(jié)奏。
[0020]此處描述的示例實施例提供了用于基于表示音頻信號的被編碼比特流估計與音頻信號相關(guān)的節(jié)奏度量的方法,技術(shù)或算法,其中比特流包括多個音頻塊。該方法包括,接收比特流,檢測比特流中音頻塊的塊大小的轉(zhuǎn)變,確定與被檢測的轉(zhuǎn)變的重現(xiàn)相關(guān)的至少一個周期性,和基于被確定的周期性來確定被估計的節(jié)奏度量。這樣的方法具有許多優(yōu)點,例如它展示了低計算復(fù)雜度,例如因為它依賴檢測在音頻比特流上的音頻塊大小的改變。
[0021]節(jié)奏估計算法中的基本概念是起始點(onset)的理念。起始點是顯著韻律事件(例如高亢音符)或瞬時打擊事件發(fā)生時的時間位置。根據(jù)此處公開的示例實施例的節(jié)奏估計器使用起始點的連續(xù)表示,其中“軟”起始點強度值在有規(guī)律的時間位置被提供。由此產(chǎn)生的信號經(jīng)常被稱為起始點強度信號。應(yīng)當(dāng)認識到,在音頻文件中使用“起始點”(例如,鼓點)可以確定聽眾在聽音頻文件時感知的節(jié)奏。此外,此處公開的示例實施例可以依賴在比特流域出現(xiàn)的作為音頻塊大小的改變的起始點。在實施例中,被檢測的轉(zhuǎn)變是長音頻塊到短音頻塊的轉(zhuǎn)變。塊大小與表示變換系數(shù)塊所需的比特量有關(guān)。
[0022]在實施例中,比特流以包括尾數(shù)和指數(shù)以表示變換系數(shù)的格式被編碼,其中指數(shù)與變換系數(shù)的二進制表示中前導(dǎo)零的數(shù)目相關(guān)。根據(jù)示例實施例的、此處描述的這種編碼方案可以適用于許多不同的編解碼器(例如,杜比數(shù)字(AC-3))。
[0023]在進一步的實施例的另一方面,對指數(shù)進行編碼的成本被確定。該成本可以與編碼器處對當(dāng)前指數(shù)進行編碼的比特要求相關(guān)。應(yīng)當(dāng)認識到,成本的改變可以與塊大小的轉(zhuǎn)變相關(guān)。
[0024]因而,應(yīng)當(dāng)認識到,此處公開的示例實施例構(gòu)成了一種確定音頻塊大小的改變作為節(jié)奏信息(諸如“起始點”)的間接標識的簡單高效的方式。
[0025]根據(jù)此處的示例實施例,對指數(shù)進行編碼的成本可例如根據(jù)在編碼端使用的每個音頻塊的指數(shù)策略被確定。指數(shù)策略可以被用于優(yōu)化在編碼信號時的比特分配。因此,在考慮了在產(chǎn)生比特流時編碼器使用的指數(shù)策略的情況下,編碼成本可被更精確地計算。
[0026]在示例實施例的一個方面,指數(shù)策略可例如取決于音頻信號的信號條件。在另一個示例實施例中,指數(shù)策略可例如包括頻率指數(shù)共享,時間指數(shù)共享和指數(shù)的重復(fù)(recurring)傳輸/編碼中的任一者。
[0027]本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)認識到,例如,通過在至少兩個尾數(shù)中共享一個指數(shù),或?qū)⒅笖?shù)編碼在第一音頻塊中并重新使用該指數(shù)作為對于后續(xù)音頻塊編碼的指數(shù),或在第一音頻塊和一個或多個后續(xù)音頻塊中分布指數(shù),以上描述的策略將有助于優(yōu)化前述的在編碼音頻信號時的比特分配。
[0028]如前所述,應(yīng)當(dāng)認識到,對指數(shù)進行編碼的成本的第一增加可能表示包括在音頻信號中的第一起始點。因而,對指數(shù)進行編碼的成本的第二增加可能表示包括在音頻信號中的第二起始點。
[0029]在一個示例實施例中,至少一個周期性由第一和第二起始點確定。
[0030]此處描述的示例實施例可例如被應(yīng)用于音頻文件(例如,音樂文件),其中第一和第二起始點的檢測可能表示可從中得出節(jié)奏度量的重復(fù)圖案。
[0031 ]在另一個示例實施例中,成本的至少一個進一步增加被確定,其中成本的進一步增加表示進一步的起始點,且其中至少一個進一步周期性由第一、第二和進一個的起始點中的至少兩個確定。
[0032]本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)認識到,在考慮更多起始點以得出節(jié)奏度量的情況下,被估計的節(jié)奏度量會更精確。例如,音樂的節(jié)拍可以包括一些“較快”的起始點和一些“較慢”的起始點,例如鼓點。僅考慮較慢的鼓點可能展示節(jié)奏度量太慢(例如,一半,四分之一),且僅考慮較快的鼓點可能導(dǎo)致估計的節(jié)奏太高(例如,兩倍,三倍,四倍等)。因而,細化的周期性可例如從第一周期性和進一步周期性中的任一者被確定。所估計的(和更加細化的)節(jié)奏度量然后可以基于細化的周期性。
[0033]在另一個示例實施例中,被編碼比特流也可以包括數(shù)個被編碼通道,該被編碼通道包括數(shù)個單獨通道和至少一個耦合通道,對于用于該數(shù)個通道的指數(shù)進行編碼的成本通過計算對單獨通道和至少一個耦合通道的譜包絡(luò)進行編碼的成本之和被確定。
[0034]在另一個示例實施例中,公開了一種用于基于表示音頻信號的被編碼比特流估計與音頻信號相關(guān)的節(jié)奏度量的方法,該比特流以包括尾數(shù)和指數(shù)以表示變換系數(shù)的格式被編碼。這種方法可以包括接收比特流,基于在比特流的元數(shù)據(jù)中包括的信息反復(fù)確定對指數(shù)進行編碼的成本,檢測成本的改變,確定至少一個與所檢測的成本的改變的重現(xiàn)相關(guān)的周期性,和基于被確定的周期性確定被估計的節(jié)奏度量。
[0035]應(yīng)當(dāng)認識到,成本改變將反映聽眾在收聽時感知的節(jié)奏,這是因為在音頻文件中包括的起始點可能已經(jīng)在編碼端引起了成本改變。
[0036]在另一個實施例中,在元數(shù)據(jù)中包括的信息與編碼器端先前采用的用于將比特分配給指數(shù)的編碼的指數(shù)策略相關(guān)。
[0037]在另一個示例實施例中,依賴于所使用的指數(shù)策略,在編碼中,不同的比特量被分配給指數(shù)。在這樣的示例實施例中,對指數(shù)進行編碼的成本可以基于每個音頻塊的指數(shù)策略被確定。
[0038]在一方面,指數(shù)策略也可以依賴于例如音頻信號的信號條件。在另一方面,指數(shù)策略可以例如包括頻率指數(shù)共享,時間指數(shù)共享和指數(shù)的重復(fù)傳輸和/或編碼中的任一者。
[0039]本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)認識到,通過在至少兩個尾數(shù)中共享一個指數(shù),或?qū)⒅笖?shù)編碼在第一音頻塊中并重新使用該指數(shù)作為對于后續(xù)音頻塊編碼的指數(shù),或在第一音頻塊和一個或多個后續(xù)音頻塊中分布指數(shù),上面描述的策略可以有助于優(yōu)化前述在編碼音頻信號時的比特分配。
[0040]如前所述,應(yīng)當(dāng)認識到,對指數(shù)進行編碼的成本的第一增加可能表示包括在音頻信號中的第一起始點。因而,對指數(shù)進行編碼的成本的第二增加可能表示包括在音頻信號中的第二起始點。
[0041]在一個示例實施例中,至少一個周期性由第一和第二起始點確定。
[0042]在另一個實施例中,成本的至少一個進一步增加被確定,所述成本的進一步增加表示進一步的起始點,且其中至少一個進一步周期性由所述第一、第二和進一個的起始點中的至少兩個確定。
[0043]因此,細化的周期性可例如從第一周期性和進一步周期性中的任一者被確定。所估計的(和更加細化的)節(jié)奏度量然后可以基于所述細化的周期性。
[0044]在另一個實施例中,被編碼比特流也可以包括數(shù)個被編碼通道,該被編碼通道包括數(shù)個單獨通道和至少一個耦合通道,對于用于該數(shù)個通道的指數(shù)進行編碼的成本通過計算對單獨通道和至少一個耦合通道的譜包絡(luò)進行編碼的成本之和被確定。
[0045]圖1A示出根據(jù)本公開的示例實施例從音頻文件估計節(jié)奏度量。
[0046]如圖1A所示,音頻文件(例如,音樂文件)包括三個起始點3,5,7,這三個起始點可例如是以時間距離間隔開的鼓點的特征。音頻文件被編碼成包括長音頻塊11和短音頻塊13的編碼比特流9。
[0047]如圖1A所示,起始點3,5,7的出現(xiàn)導(dǎo)致音頻塊大小的轉(zhuǎn)變15(長塊11到短塊13) 一作為編碼策略改變的結(jié)果。結(jié)果,起始點3,5,7可通過檢測編碼比特流9中的音頻塊大小的改變被檢測到。正如圖1A中的示例實施例所示的,起始點3,5,7可以引起長到短音頻塊大小的轉(zhuǎn)變15。正如在整個本公開中使用的,塊大小是表示變換系數(shù)塊所需要的比特量。
[0048]音頻塊11,13的大小展示了比特流域中的被編碼音頻的下混表示。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)認識到,在一個幀的可用比特(例如,比特池)的分布中,包含具有高比特需求的信號的音頻塊可比其他音頻塊被更重地加權(quán)。
[0049]被編碼比特流9可以例如包括量化的頻率系數(shù)(例如,MDCT系數(shù))。
[0050]系數(shù)可以例如以浮點格式被遞送,由此每一個系數(shù)可包括指數(shù)和尾數(shù)。還參見圖
2。來自一個音頻塊中的指數(shù)提供了作為頻率的函數(shù)的整個譜內(nèi)容的估計。這種表示經(jīng)常被稱為譜包絡(luò)。在對編碼進行指數(shù)的過程中的比特分配可依賴于譜內(nèi)容的改變。
[0051 ]當(dāng)起始點3,5,7出現(xiàn)時,成本的改變(即,比特分配的改變)可在對比特流的指數(shù)編碼時被觀察到。指數(shù)的編碼依賴于用于當(dāng)前音頻塊的具體指數(shù)策略。當(dāng)起始點3,5,7出現(xiàn)時,關(guān)于后續(xù)塊的指數(shù)策略的改變可被應(yīng)用。
[0052]在起始點3,5,7中的至少兩個之間被確定的距離代表與音頻文件內(nèi)容(尤其是音樂)的節(jié)奏度量相關(guān)的周期17,18(例如,反復(fù)重復(fù)的鼓點)。周期可例如是起始點3,5,7中的兩個之間的時間。這樣的時間可從被編碼比特流的進一步的屬性(例如,在編碼時使用的采樣率)被得出。
[0053]然后,節(jié)奏估計可基于所述的周期17,18中的至少一個被得出。
[0054]例如,如果兩個起始點間隔0.25秒,則假定在另一個0.25秒之后會重復(fù)一一這樣就達到了 0.25秒的周期。
[OO55 ] 這與例如4Hz頻率相對應(yīng)--指不每秒4拍的節(jié)奏。
[0056]在節(jié)奏估計確定中的進一步細化可基于考慮周期17,18中的至少兩個(或更多),例如,通過在估計計算中對它們進行組合和加權(quán)和/或省略它們中的一個或多個。這種細化步驟適合于對于一半時間,兩倍時間或其他“八度”錯誤來校正節(jié)奏估計。
[0057]圖1b示出了根據(jù)本發(fā)明的進一步方法的另一個示意圖。
[0058]音頻文件包括例如展示了起始點3,5,7(例如,特征鼓點)的音樂,起始點3,5,7以時間距離被間隔開。
[0059]發(fā)明人檢測到,起始點3,5,7的出現(xiàn)通常導(dǎo)致成本19,21,23,25的改變一一作為編碼策略改變的結(jié)果。
[0060]基于在比特流的元數(shù)據(jù)中包括的信息,對指數(shù)進行編碼的成本可被確定。
[0061]當(dāng)起始點3,5,7出現(xiàn)時,成本改變(例如,比特分配改變)可在對比特流的指數(shù)進行編碼時被觀察到。
[0062]在起始點3,5,7中的至少兩個之間被確定的距離代表與音頻文件內(nèi)容(尤其是音樂)的節(jié)奏度量相關(guān)的周期17,18(例如,反復(fù)重復(fù)的鼓點)。周期可例如是兩個起始點之間的時間。這樣的時間可從被編碼比特流的進一步的屬性(例如,在編碼時使用的采樣率)被得出。
[0063]周期17,18被確定為與被檢測到的成本改變的重現(xiàn)相關(guān)。
[0064]節(jié)奏估計可基于所述的周期17,18中的至少一個被得出。
[0065]例如,如果兩個起始點間隔0.25秒,則假定在另一個0.25秒之后會重復(fù)一一這樣就達到了 0.25秒的周期。
[0066]這與例如4Hz頻率相對應(yīng)--其為每秒4拍。
[0067]在節(jié)奏估計確定中的進一步細化可基于考慮周期17,18中的至少兩個(或更多),例如,通過在估計計算中對它們進行組合和加權(quán)和/或省略它們中的一個或多個。這種細化步驟適合于對于一半時間,兩倍時間或其他“八度”錯誤來校正節(jié)奏估計。
[0068]對指數(shù)進行編碼的成本19,21,23,25的第一增加可表示在音頻信號中包括的第一起始點,且對指數(shù)進行編碼的成本19,21,23,25的第二增加可表示在音頻信號中包括的第二起始點。至少一個周期17,18從第一和第二起始點被確定。然后,所述成本的一個進一步增加可被確定,其中所述的成本的進一步增加表示進一步的起始點3,5,7。至少一個進一步周期可從所述的第一,第二和進一步的起始點中的至少兩個被確定。
[0069]圖2示出了音頻比特流中的指數(shù)和MDCT系數(shù)的曲線圖。MDCT系數(shù)的絕對值和指數(shù)的振幅在例如250個頻率區(qū)間上被示出(將頻率范圍劃分成250個子范圍)。
[0070]指數(shù)與變換系數(shù)的二進制表示中前導(dǎo)零的數(shù)目相關(guān)。關(guān)于背景信息請見下面的參考文南犬,Davidson,G.A“Digital Aud1 Coding:Dolby AC_3,,Digital Signal ProcessingHandbook,Ed Vijaj K Madisetti and Douglas B.Williams,Boca Raton CRC PressLLC,1999o
[0071]圖3示出了在頻率上共享指數(shù)的例子。圖3中的例子描述了可被視為平穩(wěn)信號的調(diào)音器信號。
[0072]在時間或頻率域的一個或兩者中共享指數(shù)可降低對于一個或多個幀的指數(shù)編碼的總成本。因此,使用指數(shù)共享允許更多比特用于尾數(shù)量化。如果指數(shù)將在不使用這種(或其他)共享策略的情況下被進行常規(guī)編碼,可用于尾數(shù)量化的比特會更少。此外,在該處指數(shù)被重編碼的塊位置可顯著地確定各個音頻塊中尾數(shù)分配的有效性。一般地,指數(shù)共享策略適合通過提供盡可能多的比特以用于對尾數(shù)進行量化/編碼來對于編碼優(yōu)化尾數(shù)和指數(shù)之間的比特分配,以改善整體編碼精確度。
[0073]在頻率域:指數(shù)可在至少兩個尾數(shù)之間被共享。
[0074]在時間域,來自一個幀的任何兩個或多個連續(xù)音頻塊可共享共同的指數(shù)組。由至少兩個尾數(shù)“重新使用”該相同指數(shù)通常將會使指數(shù)編碼的成本更低。于是,例如,依賴于描述信號更多地是平穩(wěn)信號還是非平穩(wěn)信號的信號條件,編碼器可決定是否以及何時使用頻率或時間指數(shù)共享,何時對指數(shù)重編碼。這個決策過程常常被稱為指數(shù)策略。
[0075]對于平穩(wěn)信號,信號譜從塊到塊保持基本不變。
[0076]Dolby Digital(簡稱AC_3)例如使用與6個音頻塊相關(guān)的指數(shù)策略。當(dāng)具有例如平穩(wěn)信號時,編碼器在音頻塊O(ABO)中對指數(shù)編碼一次,然后對于音頻塊AB1-AB5重新使用它們。所得到的比特分配對于所有六個塊將大致相同,這適合平穩(wěn)信號。
[0077]對于非平穩(wěn)信號,信號譜可從塊到塊顯著地改變。編碼器可例如在ABO中對指數(shù)編碼一次,并在一個或多個其他塊中也重編碼新指數(shù),這樣就增加了對指數(shù)進行編碼的成本。新指數(shù)的重編碼產(chǎn)生了更好地匹配原始信號的動態(tài)的被編碼譜包絡(luò)的時間曲線。
[0078]在例如AC-3中,編碼器在ABO中編碼指數(shù)。當(dāng)前幀可例如正在重新使用來自前一幀的最后一個塊的指數(shù)。在該處發(fā)生比特分配更新的一個(或多個)塊由數(shù)個參數(shù)支配,但是主要由指數(shù)策略支配一一如在各自的元數(shù)據(jù)字段中反映的。如果任何一個或多個策略標志的狀態(tài)為Dl 5,D25,或D45,則比特分配更新被觸發(fā)。
[0079]指示指數(shù)策略的標志D15可例如指示一個指數(shù)僅被一個尾數(shù)“共享”。D25意味著例如一個指數(shù)被兩個尾數(shù)共享。D45例如意味著一個指數(shù)被4個尾數(shù)共享。
[0080]未共享的指數(shù)需要例如5比特。
[0081]比特分配的更新指示信號的起始點。如果新的策略標志被檢測到,新的比特分配將要被使用,且如果它也與對指數(shù)編碼的成本的增加有關(guān),則它可指示信號中起始點的出現(xiàn)。
[0082]在多通道場景中,比特流可包括數(shù)個被編碼通道,包含數(shù)個單獨通道和至少一個耦合通道。
[0083]此處,耦合通道的頻率系數(shù)可被編碼,而不是對單獨通道的單獨通道譜進行編碼一一同時添加附加信息以使能夠稍后編碼。
[0084]然后,在所述多通道場景中對指數(shù)進行編碼的成本可被計算成對單獨通道和至少一個耦合通道的譜包絡(luò)進行編碼的成本之和。
[0085]圖4a和4b中的每一個展示了根據(jù)本發(fā)明的設(shè)備。
[0086]圖4a的設(shè)備30包含輸入單元32和計算單元34。
[0087]設(shè)備30的功能特性整合了如圖1a中描繪和描述的功能特性。
[0088]圖4b的設(shè)備35包含輸入單元37和計算單元39。
[0089]設(shè)備35的功能特性整合了如圖1b中描繪和描述的功能特性。
[0090]在圖1-4中顯示的實體使用一個或多個計算機被實現(xiàn)。圖5是示出示例計算機500的高級框圖。計算機500包括與芯片組504耦合的至少一個處理器502。芯片組504包括存儲器控制器集線器520和輸入/輸出(I/O)控制器集線器522。存儲器506和圖形適配器512與存儲器控制器集線器520耦合,且顯示器518與圖形適配器512耦合。儲存設(shè)備508,鍵盤510,定位設(shè)備514,和網(wǎng)絡(luò)適配器516與I/O控制器集線器522耦合。計算機500的其他實施例具有不同的架構(gòu)。
[0091]儲存設(shè)備508是非暫態(tài)計算機可讀存儲介質(zhì),例如硬盤驅(qū)動器,光盤只讀存儲器(⑶-ROM),DVD,或固態(tài)存儲設(shè)備。存儲器506保持由處理器502使用的指令和數(shù)據(jù)。定位設(shè)備514是鼠標,軌跡球,或其他種類的定位設(shè)備,且與鍵盤510結(jié)合使用,以將數(shù)據(jù)輸入計算機系統(tǒng)500。圖形適配器512在顯示器518上顯示圖像和其他信息。網(wǎng)絡(luò)適配器516將計算機系統(tǒng)500與一個或多個計算機網(wǎng)絡(luò)耦合。
[0092]計算機500適于執(zhí)行計算機程序模塊用以提供此處描述的功能特性。如在此處使用的,術(shù)語“模塊”指的是用于提供具體功能特性的計算機程序邏輯。這樣,模塊可在硬件,固件,和/或軟件中被實現(xiàn)。在一個實施例中,程序模塊被儲存在儲存設(shè)備508中,加載到存儲器506中,并由處理器502執(zhí)行。
[0093]由圖1-4的實體使用的計算機500的類型可根據(jù)實施例和實體需要的處理能力而變化。計算機500可能缺少上面描述的部件中的一些,例如鍵盤510,圖形適配器512,和顯示器 518。
[0094]此處公開的示例實施例可以例如提供從編碼音頻信息(例如,音樂)的比特流直接估計節(jié)奏信息。
[0095]如在本公開中描述的,節(jié)奏信息可以從至少一個周期被得出,該至少一個周期從音頻信息中包括的至少兩個起始點的檢測被得出。
[0096]這樣的起始點可以通過檢測長塊到短塊轉(zhuǎn)變(在比特流中)被檢測到,或/和通過檢測關(guān)于編碼/傳輸比特流中被編碼的變換系數(shù)的指數(shù)的比特分配改變(成本改變)被檢測到。
【主權(quán)項】
1.一種用于基于表示音頻信號的被編碼的比特流估計與音頻信號相關(guān)的節(jié)奏度量的方法,其中該比特流包括多個音頻塊,該方法包括: 接收比特流; 檢測比特流中所述音頻塊的塊大小的轉(zhuǎn)變; 確定與所檢測的轉(zhuǎn)變的重現(xiàn)相關(guān)的至少一個周期性;以及 基于所確定的周期性來確定估計的節(jié)奏度量。2.如權(quán)利要求1所述的方法,其中所檢測的轉(zhuǎn)變是從長音頻塊到短音頻塊的轉(zhuǎn)變。3.如權(quán)利要求1或權(quán)利要求2所述的方法,其中比特流被用包括尾數(shù)和指數(shù)以表示變換系數(shù)的格式編碼,其中指數(shù)與變換系數(shù)的二進制表示中前導(dǎo)零的數(shù)目相關(guān)。4.如前述權(quán)利要求中任一權(quán)利要求所述的方法,其中塊大小與表示變換系數(shù)的塊所需的比特量相關(guān)。5.如前述權(quán)利要求中任一權(quán)利要求所述的方法,其中對指數(shù)進行編碼的成本被確定。6.如權(quán)利要求5所述的方法,其中所述成本的改變與所述塊大小的轉(zhuǎn)變相關(guān)。7.如權(quán)利要求5所述的方法,其中對指數(shù)進行編碼的成本依賴于每個音頻塊的指數(shù)策略被確定。8.如權(quán)利要求7所述的方法,其中指數(shù)策略依賴于音頻信號的信號條件。9.如權(quán)利要求7所述的方法,其中指數(shù)策略包括頻率指數(shù)共享,時間指數(shù)共享和指數(shù)的重復(fù)傳輸和/或編碼中的任一者。10.如權(quán)利要求9所述的方法,其中頻率指數(shù)共享包括在至少兩個尾數(shù)中共享一個指數(shù)。11.如權(quán)利要求9所述的方法,其中時間指數(shù)共享包括在第一音頻塊中編碼指數(shù),并重新使用所述指數(shù)作為對于后續(xù)音頻塊編碼的指數(shù)。12.如權(quán)利要求9所述的方法,其中指數(shù)的重復(fù)傳輸和/或編碼包括在第一音頻塊和一個或多個后續(xù)音頻塊中分布指數(shù)。13.如權(quán)利要求5或從屬于權(quán)利要求5的權(quán)利要求6到12中任一權(quán)利要求所述的方法,其中對指數(shù)進行編碼的成本的第一增加表示音頻信號中包括的第一起始點。14.如權(quán)利要求13所述的方法,其中對指數(shù)進行編碼的成本的第二增加表示音頻信號中包括的第二起始點。15.如權(quán)利要求14所述的方法,其中所述至少一個周期性由第一起始點和第二起始點確定。16.如權(quán)利要求15所述的方法,其中所述成本的至少一個進一步增加被確定,成本的所述進一步增加表示進一步的起始點,且其中至少一個進一步周期性由所述第一起始點、第二起始點和進一步的起始點中的至少兩個確定。17.如權(quán)利要求16所述的方法,其中細化周期性由第一周期性和進一步周期性中的任一個確定。18.如權(quán)利要求17所述的方法,其中被估計的節(jié)奏度量基于所述細化周期性。19.如權(quán)利要求5或從屬于權(quán)利要求5的權(quán)利要求6到18中任一權(quán)利要求所述的方法,其中 比特流包括數(shù)個被編碼通道,該被編碼通道包含數(shù)個單獨通道和至少一個耦合通道,以及 對于用于所述數(shù)個通道的指數(shù)進行編碼的成本是通過計算編碼所述單獨通道和至少一個耦合通道的譜包絡(luò)的成本之和被確定的。20.—種用于基于表示音頻信號的被編碼的比特流來估計與音頻信號相關(guān)的節(jié)奏度量的方法,比特流被用包括尾數(shù)和指數(shù)以表示變換系數(shù)的格式編碼,該方法包含: 接收比特流, 基于比特流的元數(shù)據(jù)中包括的信息反復(fù)確定對指數(shù)進行編碼的成本, 檢測所述成本的改變; 確定與所檢測的成本的改變的重現(xiàn)相關(guān)的至少一個周期性;以及 基于被確定的周期性來確定被估計的節(jié)奏度量。21.如權(quán)利要求20所述的方法,其中在元數(shù)據(jù)中包括的信息與由編碼器端先前使用的用以將比特分配給所述指數(shù)的所述編碼的指數(shù)策略相關(guān)。22.如權(quán)利要求21所述的方法,其中對指數(shù)進行編碼的成本基于指數(shù)策略被確定。23.如權(quán)利要求21或權(quán)利要求22所述的方法,其中指數(shù)策略依賴于音頻信號的信號條件。24.如權(quán)利要求21到23中任一權(quán)利要求所述的方法,其中指數(shù)策略包括頻率指數(shù)共享、時間指數(shù)共享和指數(shù)的重復(fù)傳輸和/或編碼中的任一者。25.如權(quán)利要求24所述的方法,其中頻率指數(shù)共享包括在至少兩個尾數(shù)中共享一個指數(shù)。26.如權(quán)利要求24或權(quán)利要求25所述的方法,其中時間指數(shù)共享包括在第一音頻塊中編碼指數(shù)并重新使用所述指數(shù)作為對于比特流的后續(xù)音頻塊被編碼的指數(shù)。27.如權(quán)利要求24到26中任一權(quán)利要求所述的方法,其中指數(shù)的重復(fù)編碼包括在比特流的第一音頻塊和一個或多個后續(xù)音頻塊中分布指數(shù)。28.如權(quán)利要求21到27中任一權(quán)利要求所述的方法,其中對指數(shù)進行編碼的成本的第一增加表示音頻信號中包括的第一起始點。29.如權(quán)利要求28所述的方法,其中對指數(shù)進行編碼的成本的第二增加表示音頻信號中包括的第二起始點。30.如權(quán)利要求29所述的方法,其中所述至少一個周期性由第一起始點和第二起始點確定。31.如權(quán)利要求30所述的方法,其中所述成本的至少一個進一步增加被確定,所述成本的進一步增加表示進一步的起始點,且其中至少一個進一步周期性由所述第一起始點、第二起始點和進一步起始點中的至少兩個確定。32.如權(quán)利要求31所述的方法,其中細化周期性由第一周期性和進一步周期性中的任一個確定。33.如權(quán)利要求32所述的方法,其中被估計的節(jié)奏度量基于所述細化周期性。34.如權(quán)利要求20到33中任一權(quán)利要求所述的方法,其中 比特流包括數(shù)個被編碼通道,該數(shù)個被編碼通道包含數(shù)個單獨通道和至少一個耦合通道,以及對于用于所述數(shù)個通道的指數(shù)進行編碼的成本是通過計算編碼所述單獨通道和至少一個耦合通道的譜包絡(luò)的成本之和被確定的。35.—種用于基于表示音頻信號的被編碼比特流來估計與音頻信號相關(guān)的節(jié)奏度量的設(shè)備,其中比特流包括多個音頻塊,該設(shè)備包含: 用于接收比特流的輸入單元;以及 計算單元,用于: 檢測比特流中所述音頻塊塊大小的轉(zhuǎn)變, 確定與所檢測的轉(zhuǎn)變的重現(xiàn)相關(guān)的至少一個周期性, 基于被確定的周期性來確定被估計的節(jié)奏度量。36.—種用于基于表示音頻信號的被編碼比特流來估計與音頻信號相關(guān)的節(jié)奏度量的設(shè)備,比特流被用包括尾數(shù)和指數(shù)以表示變換系數(shù)的格式編碼,該設(shè)備包含: 用于接收比特流的輸入單元;以及 計算單元,用于: 基于在比特流的元數(shù)據(jù)中包括的信息反復(fù)確定對指數(shù)進行編碼的成本, 檢測所述成本的改變, 確定與所檢測的成本的改變的重現(xiàn)相關(guān)的至少一個周期性,以及, 基于所確定的周期性來確定被估計的節(jié)奏度量。37.—種非暫態(tài)計算機可讀存儲介質(zhì),存儲用于在計算機上運行時執(zhí)行如權(quán)利要求1-34中任一權(quán)利要求所述的方法的可執(zhí)行的計算機程序指令。38.—種包含被配置成執(zhí)行如權(quán)利要求1-34中任一權(quán)利要求所述的方法的裝置的設(shè)備。
【文檔編號】G10L19/008GK106030693SQ201580008921
【公開日】2016年10月12日
【申請日】2015年2月18日
【發(fā)明人】A·比斯沃斯
【申請人】杜比國際公司