專利名稱:音頻流的音樂(lè)部分的自動(dòng)提取的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及記錄具有音樂(lè)和非音樂(lè)成分的音頻傳輸?shù)囊魳?lè)部分。
背景技術(shù):
隨著計(jì)算機(jī)和其它電子技術(shù)的擴(kuò)展,可獲得的娛樂(lè)的類型和種類持續(xù)增長(zhǎng)。音樂(lè)也不例外。目前聽(tīng)眾可以從大量源接收音樂(lè),例如激光唱盤(CD)和其它數(shù)字記錄媒體,經(jīng)由因特網(wǎng)的音頻流,專用于音頻節(jié)目的有線頻道、衛(wèi)星廣播等。盡管有這些眾多的音樂(lè)源,但是對(duì)于許多人,傳統(tǒng)的無(wú)線廣播(例如,AM、FM、短波)仍是一種重要的音樂(lè)源。
盡管相對(duì)于音樂(lè)節(jié)目的其它源,無(wú)線廣播仍具有許多優(yōu)點(diǎn),但是它也有缺點(diǎn)。一個(gè)長(zhǎng)期的問(wèn)題涉及無(wú)線廣播中包含非音樂(lè)節(jié)目。特別地,大多數(shù)(至少播放音樂(lè)的電臺(tái))的無(wú)線廣播混合有音樂(lè)、語(yǔ)音(例如,通知、新聞廣播、廣告等)和“叮當(dāng)聲”(具有音樂(lè)品質(zhì)的短音帶,諸如可以用在商業(yè)廣告中)。許多用戶發(fā)現(xiàn)這些非音樂(lè)節(jié)目是煩人和/或討厭的。
解決這個(gè)問(wèn)題的一種方案是記錄沒(méi)有非音樂(lè)部分的廣播。然而,很多人沒(méi)有時(shí)間去手動(dòng)地執(zhí)行該記錄,即,在歌曲開(kāi)始時(shí)手動(dòng)地記錄廣播,然后在該歌曲結(jié)束時(shí)停止記錄。因此需要一種自動(dòng)記錄廣播音樂(lè)的方法。不幸的是,眾多的音樂(lè)類型(具有眾多的音質(zhì))以及不可預(yù)測(cè)的音樂(lè)和非音樂(lè)在廣播節(jié)目中結(jié)合的方式,使該方法案成為困難的任務(wù)。
圖1A和1B示出該問(wèn)題的例子。在某些情況下,如圖1A所示,一個(gè)音樂(lè)聲帶可朝著其結(jié)尾逐漸減弱,緊接著是非音樂(lè)(例如通知、廣告等),在這之后另一個(gè)音樂(lè)聲帶逐漸增強(qiáng)。圖1B示出了另一種常見(jiàn)情形。特別地,唱片音樂(lè)節(jié)目主持人(DJ)可在一首歌曲結(jié)束之前在該歌曲中說(shuō)話,然后該歌曲逐漸減弱而另一首歌曲逐漸增強(qiáng),而該DJ可在下一首歌曲的開(kāi)始講話。該問(wèn)題可以用許多其它方式混合背景音樂(lè)可加入DJ或其它通知中;DJ可以在音帶中間講話;叮當(dāng)聲(具有音樂(lè)品質(zhì))被包含在廣告或其它非音樂(lè)節(jié)目中;某些音樂(lè)包含語(yǔ)音和非傳統(tǒng)音效等。
已經(jīng)有多種現(xiàn)有成果來(lái)自動(dòng)對(duì)音頻或視頻流分類(即,自動(dòng)區(qū)別流內(nèi)的不同類型的內(nèi)容),包括語(yǔ)音-音樂(lè)區(qū)別。盡管在某些現(xiàn)有成果中所使用的算法和方法有相似之處,但是方法之間較小的差別可具有非常顯著的效果。在某些情況下,算法中非常小和不明顯的變化可在特定應(yīng)用中產(chǎn)生成功或失敗之間的差別。許多現(xiàn)有成果還使用非常復(fù)雜的需要大量處理的算法。根據(jù)這些和其它挑戰(zhàn),仍然需要用于區(qū)別音頻廣播的音樂(lè)和非音樂(lè)部分的系統(tǒng)和方法的不同實(shí)現(xiàn)。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供一種識(shí)別音頻流中音樂(lè)和非音樂(lè)部分的方法。在第一個(gè)實(shí)施例中,本發(fā)明包括一種用于有選擇地記錄音頻流的音樂(lè)部分的方法。該方法包括接收具有音樂(lè)和非音樂(lè)部分的音頻流;將該音頻流分段成連續(xù)的幀;以及使包含在多個(gè)幀的每一個(gè)中的信號(hào)通過(guò)具有不同頻率響應(yīng)的多個(gè)濾波器。對(duì)多個(gè)幀的至少一個(gè)子集計(jì)算被平滑過(guò)的譜通量(spectral flux),并在對(duì)應(yīng)于開(kāi)始幀的音頻流的點(diǎn)開(kāi)始記錄,該開(kāi)始幀是多個(gè)幀中具有低于閾值的被平滑過(guò)的譜通量值的幀。在對(duì)應(yīng)于停止幀的音頻流的點(diǎn)停止記錄,該停止幀是多個(gè)幀中具有高于上述閾值的被平滑過(guò)的譜通量值的幀。在另一個(gè)實(shí)施例中,本發(fā)明包括計(jì)算機(jī)可讀介質(zhì),其具有用于執(zhí)行與第一個(gè)實(shí)施例中的步驟類似的步驟。在又一個(gè)實(shí)施例中,本發(fā)明包括記錄設(shè)備,其被配置為執(zhí)行與第一個(gè)實(shí)施例中的步驟類似的步驟。
當(dāng)結(jié)合附圖閱讀時(shí),本發(fā)明的上述概括以及下面對(duì)最佳實(shí)施例的詳細(xì)描述更容易理解,這些是示例性的,而不是對(duì)所要求的發(fā)明的限制。
圖1A是示出音樂(lè)和非音樂(lè)節(jié)目的結(jié)合的例子的圖;圖1B是另一個(gè)示出音樂(lè)和非音樂(lè)節(jié)目的結(jié)合的例子的圖;圖2是根據(jù)本發(fā)明的至少一個(gè)實(shí)施例的用于自動(dòng)記錄音頻廣播的音樂(lè)部分的記錄設(shè)備的框圖;圖3是示出根據(jù)本發(fā)明的至少一個(gè)實(shí)施例的音頻信號(hào)分類器的圖;圖4是示出根據(jù)本發(fā)明的至少一個(gè)實(shí)施例的一系列濾波器的頻率響應(yīng)圖;圖5是根據(jù)本發(fā)明的至少一個(gè)實(shí)施例的差分方程的系數(shù)表;圖6A和6B是示出在譜通量上進(jìn)行平滑的效果的圖;圖7是示出散置有非音樂(lè)的兩個(gè)音樂(lè)聲帶的被平滑過(guò)的譜通量的例子的圖;圖8A-10B是示出根據(jù)本發(fā)明的各種實(shí)施例的分類器的操作的流程圖;圖11是根據(jù)本發(fā)明的至少一個(gè)實(shí)施例的用于遠(yuǎn)程記錄音頻廣播的體系結(jié)構(gòu)的圖;圖12是根據(jù)本發(fā)明的至少一個(gè)實(shí)施例的用于自動(dòng)記錄音頻廣播的音樂(lè)部分的記錄設(shè)備的框圖;圖13是根據(jù)本發(fā)明的至少一個(gè)實(shí)施例的移動(dòng)終端的框圖;圖14A-14F是說(shuō)明根據(jù)本發(fā)明的至少一個(gè)實(shí)施例的記錄廣播的音樂(lè)部分的圖。
具體實(shí)施例方式
本發(fā)明包括一種用于自動(dòng)記錄具有音樂(lè)和非音樂(lè)成分的音頻流的音樂(lè)部分的系統(tǒng)和方法。在許多應(yīng)用中,當(dāng)區(qū)別音樂(lè)和非音樂(lè)時(shí),準(zhǔn)確的分類不是所有時(shí)候都要求的。例如,為了避免商業(yè)廣告、新聞、通知和其它非音樂(lè)節(jié)目,聽(tīng)眾有時(shí)只希望記錄一首或者多首歌曲(或者其它音樂(lè)聲帶)。用戶可能很少關(guān)注在給定期間記錄每一首歌曲,而是避免盡可能多的非音樂(lè)。在許多情況下,成功地識(shí)別超過(guò)50%的在給定的時(shí)間間隔期間播放的音樂(lè)聲帶就足夠了。然而,當(dāng)音頻流的一部分被錯(cuò)誤分類時(shí),更好的是誤把音樂(lè)當(dāng)成非音樂(lè)。換句話說(shuō),用戶可能更愿意錯(cuò)過(guò)記錄某些音樂(lè),而不是記錄非音樂(lè)。
圖2是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的記錄設(shè)備10的組成的框圖。記錄設(shè)備10包括AM/FM接收器12、處理器14、緩沖(或臨時(shí))存儲(chǔ)器16和存儲(chǔ)(或長(zhǎng)期)存儲(chǔ)器18。在可選的實(shí)施例中,記錄設(shè)備10可包括通過(guò)電視頻率或者其它頻帶傳輸?shù)慕邮掌?。接收?2、處理器14、存儲(chǔ)器16和18以及其它組件通過(guò)一個(gè)或者多個(gè)數(shù)據(jù)總線26互連和通信。接收器12還包括調(diào)諧器20。調(diào)諧器20在處理器14的指導(dǎo)下,調(diào)諧到特定的無(wú)線頻帶和頻率,并向數(shù)字轉(zhuǎn)換器22提供模擬音頻輸出。調(diào)諧器20還可包括濾波器、放大器和其它組件以提高所接收的廣播的質(zhì)量。數(shù)字轉(zhuǎn)換器22通過(guò)對(duì)在調(diào)諧器20用于接收的電臺(tái)上的音頻流進(jìn)行采樣,接著把該音頻流轉(zhuǎn)換為數(shù)字值,從而將來(lái)自調(diào)諧器20的模擬輸出轉(zhuǎn)換為數(shù)字化數(shù)據(jù)。該數(shù)字化音頻被傳送到處理器14用于進(jìn)一步的處理,如下所述。在某些實(shí)施例中,該數(shù)字化音頻還被傳送到編解碼器CODEC 24。CODEC 24將該數(shù)字化音頻轉(zhuǎn)換為特定格式(例如MP3)。雖然CODEC 24在圖2中作為單獨(dú)的組件示出,但是將音頻轉(zhuǎn)換為MP3或者其它格式可以通過(guò)由處理器14執(zhí)行的CODEC軟件執(zhí)行。處理器14控制數(shù)字轉(zhuǎn)換器22的操作,訪問(wèn)緩沖存儲(chǔ)器16和訪問(wèn)存儲(chǔ)存儲(chǔ)器18。處理器14根據(jù)軟件指令操作,這些軟件指令可以存儲(chǔ)在存儲(chǔ)存儲(chǔ)器18中。來(lái)自記錄設(shè)備10的音樂(lè)(無(wú)論從存儲(chǔ)器中播放的或者通過(guò)調(diào)諧器電路20接收的)可以通過(guò)頭戴受話器和/或揚(yáng)聲器播放,和/或可通過(guò)輸出端口(未示出)傳送到另一個(gè)記錄媒體。
來(lái)自CODEC 24的轉(zhuǎn)換后的數(shù)字化音頻被存儲(chǔ)在緩沖存儲(chǔ)器16和/或存儲(chǔ)存儲(chǔ)器18中。在其它沒(méi)有CODEC的實(shí)施例中,存儲(chǔ)解壓縮的音頻。緩沖存儲(chǔ)器16用于臨時(shí)存儲(chǔ)近來(lái)的廣播(或者其中的部分)。在從處理器14接收到“記錄”控制信號(hào)后,緩沖存儲(chǔ)器16內(nèi)的音頻流的內(nèi)容被復(fù)制到存儲(chǔ)存儲(chǔ)器18中用于長(zhǎng)期存儲(chǔ)。在從處理器14接收到“停止記錄”控制信號(hào)后,停止音頻流從緩沖存儲(chǔ)器16到存儲(chǔ)存儲(chǔ)器18的傳送。存儲(chǔ)存儲(chǔ)器18可以是硬盤驅(qū)動(dòng)器。緩沖存儲(chǔ)器16可以是RAM或者其它易失性存儲(chǔ)器,可以是存儲(chǔ)存儲(chǔ)器18的單獨(dú)分區(qū)的部分,或者可以用其它方式實(shí)現(xiàn)。本發(fā)明并不受限于緩沖存儲(chǔ)器16和存儲(chǔ)存儲(chǔ)器18所體現(xiàn)的介質(zhì)的類型。在圖2中示出的特定體系結(jié)構(gòu)和組件的排列僅僅是根據(jù)本發(fā)明的記錄設(shè)備的一個(gè)例子??梢蕴砑悠渌M件,并且上述組件可以組合和/或執(zhí)行其它功能。
圖3是示出根據(jù)本發(fā)明的至少一個(gè)實(shí)施例的音頻信號(hào)分類器40的操作的框圖。雖然以單獨(dú)的功能模塊示出,但是信號(hào)分類器40的各種組件代表由處理器14根據(jù)存儲(chǔ)在存儲(chǔ)存儲(chǔ)器18中的指令執(zhí)行的功能和處理操作。
處理器14所接收的是數(shù)字化與合并的立體聲音頻廣播的左、右聲道。雖然本發(fā)明使用立體聲音頻流作為例子進(jìn)行描述,但是本發(fā)明也可以用具有單聲道的非立體聲音頻廣播或者具有多于兩個(gè)聲道的音頻廣播實(shí)現(xiàn)。左、右聲道信號(hào)首先通過(guò)數(shù)字化轉(zhuǎn)換器22內(nèi)的模數(shù)轉(zhuǎn)換器(ADC)進(jìn)行數(shù)字化(圖2)。在其它實(shí)施例中,音頻流可以作為數(shù)字輸入接收,不需要初始的A/D轉(zhuǎn)換。在其它實(shí)施例中,音頻信號(hào)可以以數(shù)字形式接收,但在輸入處理器14之前進(jìn)行處理以將該流轉(zhuǎn)換為不同的格式。在圖3的例子中,在數(shù)字轉(zhuǎn)換器22的ADC中進(jìn)行數(shù)字轉(zhuǎn)換后,數(shù)字化的左、右信號(hào)被分離。一組數(shù)字化的左、右信號(hào)傳送到放大器58中對(duì)每個(gè)信號(hào)的幅值減半。另一組左、右信號(hào)經(jīng)過(guò)CODEC 26,然后存儲(chǔ)在緩沖存儲(chǔ)器16中(圖2)。
來(lái)自放大器58的輸出信號(hào)接著在加法器60中進(jìn)行結(jié)合,并傳送到下采樣模塊62。因?yàn)檫m合于分類器40的操作的采樣頻率低于高音頻質(zhì)量所要求的頻率,并且因?yàn)檩^低的采樣頻率方便更快的處理,所以信號(hào)被下采樣到較低的采樣頻率。在某些實(shí)施例中,信號(hào)用因子4進(jìn)行下采樣。換句話說(shuō),如果所接收的模擬音頻信號(hào)被數(shù)字轉(zhuǎn)換器22的ADC以44.1KHz進(jìn)行采樣,則來(lái)自數(shù)字轉(zhuǎn)換器22的數(shù)字輸出被進(jìn)一步采樣,使得所產(chǎn)生的信號(hào)有效地是原始模擬輸入的11.025KHz樣本。雖然如果音頻信號(hào)被下采樣可以有助于處理,但是在某些實(shí)施例中,不執(zhí)行下采樣。
來(lái)自下采樣模塊62的輸出信號(hào)接著在模塊64中被分段成更短的幀。在一個(gè)實(shí)施例中,下采樣信號(hào)被分成表示大約100毫秒長(zhǎng)度的音頻輸入的部分的幀。在該實(shí)施例中,幀不相互重疊(即,與幀k的末端對(duì)應(yīng)的音頻流的部分不超過(guò)與隨后的幀k+1的開(kāi)始對(duì)應(yīng)的音頻流的部分)并且不進(jìn)行加權(quán)。相反,信號(hào)僅僅被分成100毫秒塊。每個(gè)100毫秒塊包含相結(jié)合的原始音頻流的N個(gè)數(shù)字化樣本,其中N=下采樣頻率(KHz)×幀大小(毫秒)。例如,對(duì)于8KHz下采樣率和100毫秒幀大小,N=8×100=800。在某些實(shí)施例中,可以根據(jù)下采樣率調(diào)整幀大小,以提供每幀的合適樣本數(shù)量。例如,如果模擬音頻流最初以44.1KHz采樣率進(jìn)行數(shù)字化,然后下采樣到11.025KHz,那么幀大小可以調(diào)整到大約93毫秒以提供N值1024。
接著,每個(gè)幀由特征提取模塊66處理。在模塊66中,每個(gè)幀首先并行地通過(guò)濾波器組,其包括帶寬與其中心頻率近似成比例的濾波器。在一個(gè)實(shí)施例中,濾波器組包括5個(gè)無(wú)限脈沖響應(yīng)(IIR)濾波器。在至少一個(gè)實(shí)施例中,這些濾波器中的每一個(gè)都對(duì)應(yīng)于幀內(nèi)可能的音頻頻率的不同頻帶,并具有如圖4所示的幅值響應(yīng)。特別地,第一濾波器IIR1對(duì)應(yīng)于頻帶1,是低通濾波器。幀內(nèi)具有非常低的頻率的樣本都以接近全幅地通過(guò),而高頻率樣本的幅值被衰減(在1000HZ大約-20dB,在2500HZ大約-30dB)。第二濾波器IIR2對(duì)應(yīng)于頻帶2。具有大約450Hz頻率的樣本幾乎沒(méi)有衰減地通過(guò),而頻率低于大約250Hz和高于大約1000Hz的樣本衰減-10dB。第三濾波器IIR3對(duì)應(yīng)于頻帶3,允許頻率大約為900Hz的樣本基本沒(méi)有衰減地通過(guò)。頻率大約為500Hz和1500Hz的樣本衰減-10dB。第四濾波器IIR4對(duì)應(yīng)于頻帶4,允許頻率大約為1500Hz的樣本基本沒(méi)有衰減地通過(guò)。濾波器IIR4對(duì)頻率為800Hz和2500Hz的樣本衰減大約-10dB。最后,第五濾波器IIR5對(duì)應(yīng)于頻帶5,允許頻率高于大約5000Hz的樣本基本沒(méi)有衰減地通過(guò)。
幀中的樣本首先通過(guò)濾波器IIR1至IIR5,每一個(gè)濾波器都具有傳遞函數(shù),該函數(shù)的Z變換為由等式1給出的類型。
等式1H(z)=b0+b1z-1+b2z-21+a1z-1+a2z-2]]>來(lái)自這種類型的濾波器的輸出可以通過(guò)使用由等式2給出的二階差分方程計(jì)算。
等式2 yi(n)=b0xi(n)+b1xi(n-1)+b2xi(n-2)-a1yi(n-1)-a2yi(n-2)在等式2中,xi(n)是幀的第n個(gè)樣本的數(shù)字化值,而yi(n)是來(lái)自第i個(gè)IIR的輸出,該濾波器用0初始化,使得x(-1)=x(-2)=y(tǒng)(-1)=y(tǒng)(-2)=0。
在其它實(shí)施例中,IIR濾波器不用0初始化,并被允許“溢出”幀邊界和使用過(guò)去的輸入和輸出。在圖5中,在至少一個(gè)實(shí)施例中,下采樣頻率為11.025KHz的等式2的系數(shù)被提供給濾波器IIR1到IIR5。對(duì)于一階濾波器(例如,諸如IIR1的低通濾波器或者諸如IIR5的高通濾波器),b2和a2是0。
如等式3所給出的,通過(guò)濾波器IIRi的幀的RMS能量估計(jì)的例子是幀中每個(gè)樣本n的yi(n)的絕對(duì)值的和。
等式3Ei=Σn=0N-1|yi(n)|]]>如等式4所給出的,根據(jù)該RMS能量估計(jì)Ei的對(duì)數(shù)計(jì)算每個(gè)幀的特征ei。
等式4ei=log10(Ei+CC)=log10(Ei+C)-log10(C)]]>包括偏移量C以避免靜態(tài)幀(quiet frame)的ei的大變化。該偏移量確保靜止幀(silent frame)的RMS估計(jì)等于0。對(duì)于16比特音頻,|x(n)|<32768,因此在至少一個(gè)實(shí)施例中,C被設(shè)置為100,000。
當(dāng)在特征提取模塊66(圖3)中計(jì)算出特征e1,e2,e3,e4和e5后,這些特征在模塊68中用于計(jì)算該幀的譜通量SF。該譜通量SF是基于等式5的,它是在連續(xù)的幀k和k-1之間ei變化多少的量度。
等式5SF=Σi=15|ei(k)-ei(k-1)|]]>對(duì)于諸如語(yǔ)音的簡(jiǎn)單和緩慢變化信號(hào),譜通量SF通常比較高,而對(duì)于諸如音樂(lè)的混亂的寬帶信號(hào),譜通量通常較低。然而,如果沒(méi)有平滑,則譜通量SF通常變化太快以至于沒(méi)有用。因此,在至少一個(gè)實(shí)施例中,SF在多個(gè)(K)以前的幀上進(jìn)行平均,如等式6所示。
等式6⟨SFK⟩=1KΣk=0K-1SF-k]]>在至少一個(gè)實(shí)施例中,K=40,對(duì)應(yīng)于大約4秒的音頻。圖6A和6B示出了在清楚地表示從音樂(lè)到語(yǔ)音的轉(zhuǎn)換的有利的情況下平滑的效果。平滑可以引起顯著的處理延遲。因?yàn)镾F通常變化緩慢,所以沒(méi)必要計(jì)算每個(gè)幀的SF。在某些實(shí)施例中,SF每秒計(jì)算2次或3次。這相當(dāng)于進(jìn)一步下采樣幀頻。對(duì)于長(zhǎng)度為93毫秒的幀,這大致相當(dāng)于進(jìn)一步用因子4下采樣。
使用由特征處理模塊68計(jì)算的被平滑過(guò)的譜通量(<SF>)的值,區(qū)別模塊70確定音頻流當(dāng)前是否包含音樂(lè)或非音樂(lè)。根據(jù)該確定,區(qū)別模塊70發(fā)出控制信號(hào),使音頻廣播的被緩沖部分存儲(chǔ)到存儲(chǔ)存儲(chǔ)器18中。因?yàn)榈偷?amp;lt;SF>值意味著音樂(lè),所以區(qū)別模塊70搜索音頻的長(zhǎng)的部分(即,多個(gè)幀),其中<SF>不超過(guò)決策閾值<SF>MAX。在一個(gè)實(shí)施例中,<SF>MAX被設(shè)定為1.0。圖7示出在清晰的情況下,散置有非音樂(lè)的兩個(gè)音樂(lè)聲帶的<SF>的值。
圖8A是示出諸如在圖7所示的情況下的檢測(cè)算法的一個(gè)實(shí)施例的流程圖。在分類器40的實(shí)例化(instantiation)后,處理器14首先確定<SF>是否高于<SF>MAX(步驟202)。如果是,則如所示地返回到步驟202的輸入,處理器14繼續(xù)等待直到<SF>低于<SF>MAX。如果在步驟202<SF>不高于<SF>MAX,則如步驟204所示,處理器14設(shè)置變量(“Est_Start”)等于<SF>降低到低于<SF>MAX的幀的時(shí)間戳。在步驟206,處理器14確定<SF>是否仍低于<SF>MAX。如果是,則如所示地返回到步驟206的輸入,處理器14繼續(xù)等待直到<SF>不再低于<SF>MAX。一旦<SF>升高到高于<SF>MAX,(即,步驟206的“否”輸出),則在步驟208將另一個(gè)變量(“Est_End”)設(shè)置為<SF>升高到高于<SF>MAX的幀的時(shí)間戳。
在步驟210,處理器14確定<SF>是否保持低于<SF>MAX最小時(shí)間量(Min_Dur)。通過(guò)這種方式,處理器14能夠排除包含叮當(dāng)聲的商業(yè)廣告和可包含音樂(lè)的音質(zhì)但用戶不希望記錄的其它類型的節(jié)目。如果Est_End-Est_start小于Min_Dur,則在步驟214決定不將該音帶存儲(chǔ)在存儲(chǔ)存儲(chǔ)器18中。緩沖存儲(chǔ)器16的對(duì)應(yīng)部分被釋放用于存儲(chǔ)隨后的音頻數(shù)據(jù),并且處理器14返回到步驟202以重新等待<SF>降低到低于<SF>MAX。然而,如果Est_End-Est_start大于或等于Min_Dur,則處理器14在步驟212決定將該音帶存儲(chǔ)到存儲(chǔ)存儲(chǔ)器18中。將該音帶從緩沖存儲(chǔ)器16復(fù)制到存儲(chǔ)存儲(chǔ)器18中,緩沖存儲(chǔ)器16的對(duì)應(yīng)部分被釋放用于存儲(chǔ)隨后的音頻數(shù)據(jù),并且處理器14返回到步驟202以重新等待<SF>降低到低于<SF>MAX。在一個(gè)實(shí)施例中,Min_Dur被設(shè)置為大約60秒。在其它實(shí)施例中,Min_Dur被設(shè)置為大約120秒。
在其它實(shí)施例中,Min_Dur由用戶調(diào)整和/或由處理器14自動(dòng)調(diào)整。例如,某些音樂(lè)聲帶可包含類似普通語(yǔ)音的簡(jiǎn)短部分。在這種情況下,<SF>可短暫地升高到高于<SF>MAX的預(yù)置值,使得該音帶不被分開(kāi)。作為一種解決方案,如圖9A所示,<SF>MAX被調(diào)整為時(shí)間的函數(shù)。圖9A的模塊220,222,224,230,232,234和236分別與圖8A的模塊202,204,206,208,210,212和214相似。
圖9A包括附加的步驟226和228。在步驟224,在確定<SF>仍然低于<SF>MAX后,處理器14在步驟226確定<SF>低于<SF>MAX已經(jīng)多長(zhǎng)時(shí)間。如果時(shí)間超過(guò)預(yù)定值(步驟226的“是”輸出),則在步驟228修正<SF>MAX。例如,如果<SF>低于<SF>MAX的時(shí)間已經(jīng)超過(guò)一分鐘,則在步驟228將<SF>MAX從1.0升高到1.2,處理器14返回到步驟224。如果在步驟226,時(shí)間不超過(guò)預(yù)定值(“否”輸出),則<SF>MAX保持不變,處理器14返回到步驟224。在至少一個(gè)實(shí)施例中,步驟226和228的邏輯被實(shí)現(xiàn)為查找表。如果<SF>低于<SF>MAX的時(shí)間量超過(guò)預(yù)定值(步驟226的“是”輸出),則在不同的時(shí)間量后,<SF>MAX增加或降低不同的量。例如,在<SF>低于<SF>MAX的一分鐘后,<SF>MAX從1.0升高到1.2。在<SF>低于<SF>MAX的四分鐘后,<SF>MAX從1.2降低到0.8。該特定實(shí)施方式使得很少的短歌曲被中斷,但使較長(zhǎng)的歌曲被分開(kāi)。
在某些情況下,用戶可能不希望特定記錄的音帶超過(guò)預(yù)定長(zhǎng)度。例如,廣播可連續(xù)地播放幾首歌曲,而沒(méi)有插入通知或其它非音樂(lè)部分,而用戶僅希望記錄短的音樂(lè)聲帶。在這種情況下,<SF>可保持低于<SF>MAX延長(zhǎng)的時(shí)間段(例如10分鐘或更長(zhǎng))。在其它實(shí)施例中,處理器14因此被配置為當(dāng)<SF>保持低于<SF>MAX已經(jīng)超過(guò)預(yù)定時(shí)間(Max Dur)時(shí)停止記錄。
該實(shí)施例的一個(gè)算法在圖10A中示出。圖10A的步驟240,242,244,248,250,252和254分別與圖8A的步驟202,204,206,208,210,212和214相似。然而,在圖10A的步驟246,處理器14確定<SF>保持低于<SF>MAX是否超過(guò)Max_Dur。如果是(步驟246的“是”輸出),則處理器14直接進(jìn)行到步驟252。自<SF>變得低于<SF>MAX以來(lái)播放的音帶被存儲(chǔ)到存儲(chǔ)存儲(chǔ)器18中,處理器14返回到步驟240。因?yàn)?amp;lt;SF>仍將低于<SF>MAX(假定連續(xù)播放幾首歌曲),所以Est_Start將被重新設(shè)置為當(dāng)前正播放的幀的時(shí)間戳,而當(dāng)前正播放的音帶將繼續(xù)作為單獨(dú)的音樂(lè)聲帶被記錄(假定當(dāng)前音帶繼續(xù)超過(guò)Min_Dur)。在其它實(shí)施例中,當(dāng)<SF>保持低于<SF>MAX超過(guò)Max_Dur時(shí),使用“第二最好”中斷點(diǎn)。例如,一旦<SF>保持低于<SF>MAX達(dá)到例如Max_Dur的80%時(shí),則分析當(dāng)前的音帶以確定自從該歌曲開(kāi)始以來(lái)<SF>是否已經(jīng)有相對(duì)大的增加或降低。例如,一旦自從該歌曲開(kāi)始以來(lái)<SF>降低到低于平均<SF>的百分?jǐn)?shù)(或自從該歌曲開(kāi)始以來(lái)<SF>增加到超過(guò)平均<SF>的百分?jǐn)?shù)),則處理器14停止記錄該音帶并開(kāi)始記錄新的音帶。
圖8A、9A和10A的流程圖表示這樣的算法,其中處理器14在檢測(cè)到歌曲的結(jié)尾時(shí)繼續(xù)搜索和記錄其它的歌曲。在其它實(shí)施例中,修改這些算法以在一定數(shù)量的歌曲已經(jīng)被記錄之后停止搜索。圖8B、9B和10B分別是圖8A、9A和10A的算法如何以這種方式被修改的例子。在圖8B、9B和10B的每一個(gè)中都添加新的步驟280。如果在步驟280中,處理器14檢測(cè)到所記錄的歌曲的總數(shù)超過(guò)所允許或期望的最大數(shù)量(“Max_songs”)時(shí),則算法結(jié)束。Max_songs可以設(shè)置為1、2、3或者任何其它值。
在其它應(yīng)用中,用戶可能希望當(dāng)他或她聽(tīng)見(jiàn)正在廣播的歌曲時(shí)記錄該特定的歌曲。然而,用戶可能直到該歌曲已經(jīng)開(kāi)始后才意識(shí)到他或/她希望記錄它。在這種情況下,本發(fā)明的實(shí)施例自動(dòng)“倒退”到剛播放的音頻的一部分并找到當(dāng)前歌曲的開(kāi)始??蛇x擇地(或者另外地),可以自動(dòng)地識(shí)別音樂(lè)聲帶的結(jié)尾,并且用戶不需要等到該音帶的結(jié)尾來(lái)手動(dòng)地停止記錄。在另外的其它情況下,用戶可能希望遠(yuǎn)程地記錄特定的歌曲。例如,用戶可能在備有AM/FM接收器的移動(dòng)終端上聽(tīng)音樂(lè)。然而,該終端可能缺乏記錄大量音樂(lè)所需要的存儲(chǔ)器和其它資源。在本發(fā)明的至少一個(gè)實(shí)施例中,通過(guò)移動(dòng)終端聽(tīng)音樂(lè)的用戶能夠在遠(yuǎn)程位置記錄音樂(lè)。
圖11是根據(jù)本發(fā)明的其它實(shí)施例的用于遠(yuǎn)程記錄音頻廣播的系統(tǒng)的結(jié)構(gòu)圖。雖然本發(fā)明以用于記錄來(lái)自AM或FM無(wú)線電臺(tái)的音頻廣播的系統(tǒng)為例進(jìn)行描述,但是本發(fā)明還適用于可包括視頻或其它成分的廣播。移動(dòng)終端310通過(guò)無(wú)線網(wǎng)絡(luò)300進(jìn)行通信。無(wú)線網(wǎng)絡(luò)300示意性的表示為一片云,但是包括發(fā)送和接收無(wú)線通信的基站,并可包括交換設(shè)備、到其它網(wǎng)絡(luò)的連接和其它組件。因?yàn)檫@些方面在本領(lǐng)域是已知的,所以在這里不需要作進(jìn)一步的描述。除了提供無(wú)線雙向通信外,移動(dòng)終端310還從一個(gè)或多個(gè)廣播站312接收廣播無(wú)線節(jié)目。移動(dòng)終端310通過(guò)調(diào)諧到分配給廣播站的廣播頻率,選擇廣播站。
在圖11中還示出記錄設(shè)備314。雖然記錄設(shè)備314也可以是便攜式的,但記錄設(shè)備314通常位于家中、辦公室或其它相對(duì)固定的位置。記錄設(shè)備314通過(guò)無(wú)線網(wǎng)絡(luò)300從移動(dòng)終端310接收通信。記錄設(shè)備314可以直接連接到無(wú)線網(wǎng)絡(luò)300,但在最佳實(shí)施例中,其可通過(guò)一個(gè)或者多個(gè)中間網(wǎng)絡(luò)與無(wú)線網(wǎng)絡(luò)300進(jìn)行通信。這種中間網(wǎng)絡(luò)可包括例如有線電話服務(wù)和/或因特網(wǎng)。在某些實(shí)施例中,記錄設(shè)備314還通過(guò)無(wú)線網(wǎng)絡(luò)300和一個(gè)或者多個(gè)中間網(wǎng)絡(luò)向移動(dòng)終端310傳輸通信。記錄設(shè)備314還從廣播站312接收廣播節(jié)目。在一個(gè)實(shí)施例中,記錄設(shè)備314通過(guò)到記錄設(shè)備314上的天線的射頻(RF)傳輸從廣播站312接收通信,但是在其它實(shí)施例中,其可以通過(guò)電纜或者其它有線連接接收這種廣播。網(wǎng)絡(luò)連接316可以是傳統(tǒng)的電話連接、因特網(wǎng)連接或其它通信網(wǎng)絡(luò)連接。
圖12是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的記錄設(shè)備314的組成的圖。記錄設(shè)備314與記錄設(shè)備10(圖2)類似,包括AM/FM接收器316(具有調(diào)諧器318和數(shù)字轉(zhuǎn)換器320)、處理器322、CODEC 324、緩沖存儲(chǔ)器328、存儲(chǔ)存儲(chǔ)器330和總線326。記錄設(shè)備314還包括網(wǎng)絡(luò)接口320。網(wǎng)絡(luò)接口320允許記錄設(shè)備314從移動(dòng)終端310接收通信,并可選擇地向該移動(dòng)終端310發(fā)送通信。網(wǎng)絡(luò)接口320可以是調(diào)制解調(diào)器、網(wǎng)絡(luò)接口卡或者其它網(wǎng)絡(luò)接入設(shè)備。圖12中所示的特定體系結(jié)構(gòu)和組件的排列僅僅是根據(jù)本發(fā)明的記錄設(shè)備的一個(gè)例子??梢栽黾悠渌慕M件,并且上述組件可以結(jié)合和/或執(zhí)行其它功能。
圖13是根據(jù)本發(fā)明的一個(gè)實(shí)施例的移動(dòng)終端310的框圖。如在這里所用的,“移動(dòng)終端”包括蜂窩電話和其它無(wú)線電話、通過(guò)通用分組無(wú)線業(yè)務(wù)(GPRS)通信以發(fā)送和接收數(shù)據(jù)的移動(dòng)設(shè)備、支持無(wú)線因特網(wǎng)電話的設(shè)備和任何其它方便設(shè)備的用戶與另一個(gè)位置之間的無(wú)線雙向通信的移動(dòng)通信設(shè)備。移動(dòng)終端310包括通信接口342、輸入(例如鍵盤344和音頻/視頻輸入346)、顯示器348、存儲(chǔ)器350、處理器352和廣播接收器354。通信接口342包括通過(guò)無(wú)線網(wǎng)絡(luò)300發(fā)送和接收信息(無(wú)論聲音、數(shù)據(jù)或其它信息)所需的組件。音頻/視頻輸入346可以包括例如麥克風(fēng)和/或照相機(jī)。
移動(dòng)終端310的用戶通過(guò)鍵盤344提供輸入以訪問(wèn)移動(dòng)終端310的特征。移動(dòng)終端310的操作由處理器352控制,該處理器352從存儲(chǔ)器350接收指令和數(shù)據(jù),并將數(shù)據(jù)存儲(chǔ)到存儲(chǔ)器350中。移動(dòng)終端310還包括廣播接收器354。廣播接收器354調(diào)諧到所希望的廣播站的頻率,并通過(guò)揚(yáng)聲器356或頭戴受話器358提供音頻輸出。在其它實(shí)施例中,廣播接收器354還可通過(guò)例如顯示器348提供視頻或其它類型的輸出。圖13所示的移動(dòng)終端僅僅是根據(jù)本發(fā)明的可能的移動(dòng)終端的一個(gè)例子。
圖11所示的系統(tǒng)允許移動(dòng)終端310的用戶在通過(guò)移動(dòng)終端310收聽(tīng)節(jié)目時(shí)存儲(chǔ)AM、FM或其它廣播節(jié)目傳輸。雖然該用戶可能正在通過(guò)移動(dòng)終端310收聽(tīng)廣播,但是該廣播可由遠(yuǎn)離移動(dòng)終端310的記錄設(shè)備314記錄。當(dāng)通過(guò)移動(dòng)終端310接收廣播傳輸時(shí),用戶可以通過(guò)無(wú)線網(wǎng)絡(luò)300向記錄設(shè)備314發(fā)送通知。該通知指示記錄設(shè)備存儲(chǔ)所指定的廣播頻率的當(dāng)前廣播傳輸。該廣播傳輸被存儲(chǔ)在記錄設(shè)備314中,并可以稍后重放或傳輸?shù)搅硪粋€(gè)設(shè)備上的存儲(chǔ)器。例如,記錄可以通過(guò)藍(lán)牙鏈接(如例如在2001年2月22日出版的“藍(lán)牙系統(tǒng)技術(shù)規(guī)范”版本1.1中所述的,其可以從藍(lán)牙SIG有限公司的網(wǎng)站http://www.bluetooth.com上獲得)傳輸?shù)組P3播放器或者其它設(shè)備。
在激活移動(dòng)終端310的廣播接收器354后,信號(hào)可以通過(guò)無(wú)線網(wǎng)絡(luò)300發(fā)送到記錄設(shè)備314。該信號(hào)通知記錄設(shè)備314移動(dòng)終端310已經(jīng)調(diào)諧到特定的廣播頻率。接著,記錄設(shè)備的處理器322使記錄設(shè)備的調(diào)諧器318調(diào)諧到相同的頻率。在一個(gè)最佳實(shí)施例中,在用戶將廣播接收器354調(diào)諧到特定電臺(tái)后,移動(dòng)終端的處理器352自動(dòng)向記錄設(shè)備314發(fā)送信號(hào)。例如,在廣播接收器354被調(diào)諧到特定電臺(tái)已經(jīng)某個(gè)時(shí)間段(例如10秒)后,移動(dòng)終端的處理器352確定用戶已經(jīng)選擇收聽(tīng)該電臺(tái)。接著,移動(dòng)終端的處理器352通過(guò)無(wú)線網(wǎng)絡(luò)300傳輸信號(hào),該信號(hào)包含記錄設(shè)備314的標(biāo)識(shí)符和所調(diào)諧的頻率的標(biāo)識(shí)符。當(dāng)用戶調(diào)諧到另一個(gè)不同的頻率時(shí),可以傳輸隨后的信號(hào),其包含新的頻率。在接收到該信號(hào)后,記錄設(shè)備314調(diào)諧到該新的頻率。
在至少一個(gè)實(shí)施例中,記錄設(shè)備314在最初接收到表示移動(dòng)終端310已經(jīng)調(diào)諧到特定頻率的通知信號(hào)后,開(kāi)始將廣播節(jié)目存儲(chǔ)在緩沖存儲(chǔ)器328中。在接收到該通知信號(hào)后,記錄設(shè)備314的處理器322將調(diào)諧器318調(diào)諧到所指定的頻率,并通過(guò)CODEC 324將數(shù)字轉(zhuǎn)換器320的輸出寫入緩沖存儲(chǔ)器328中。當(dāng)使用記錄設(shè)備10(圖2),CODEC可以被忽略并且解壓縮所存儲(chǔ)的音頻。在一個(gè)實(shí)施例中,緩沖存儲(chǔ)器328僅僅存儲(chǔ)最近一段時(shí)間(例如最后30分鐘)內(nèi)所接收的節(jié)目。如果在該時(shí)間段的結(jié)尾,沒(méi)有從移動(dòng)終端310接收用戶愿意記錄廣播節(jié)目的指示,則CODEC 324的輸出覆蓋緩沖存儲(chǔ)器328中最舊的節(jié)目部分。如果用戶確實(shí)希望記錄他或她正通過(guò)移動(dòng)終端310收聽(tīng)的節(jié)目,則該用戶可使移動(dòng)終端310通過(guò)無(wú)線網(wǎng)絡(luò)300向記錄設(shè)備314發(fā)送記錄信號(hào)。在接收到記錄信號(hào)后,記錄設(shè)備的處理器322可對(duì)緩沖處理器328中的內(nèi)容進(jìn)行標(biāo)記,用于以后存儲(chǔ)在存儲(chǔ)存儲(chǔ)器330中。如果用戶想要記錄的節(jié)目的長(zhǎng)度超過(guò)緩沖器的大小(即,從記錄信號(hào)到停止記錄信號(hào)之間的時(shí)間使得將被記錄的節(jié)目的一部分會(huì)覆蓋以前被緩沖的部分),則CODEC 324的輸出可以直接存儲(chǔ)在存儲(chǔ)存儲(chǔ)器330中??蛇x擇地,緩沖器時(shí)間段的長(zhǎng)度可以被延長(zhǎng)。
通過(guò)在接收記錄指令之前自動(dòng)緩沖數(shù)字轉(zhuǎn)換器的輸出,用戶能夠“偷取時(shí)間”,即,在節(jié)目已經(jīng)開(kāi)始后開(kāi)始記錄整個(gè)節(jié)目。例如,用戶可以將移動(dòng)終端310調(diào)諧到特定的無(wú)線電臺(tái),并開(kāi)始收聽(tīng)特定的歌曲。在歌曲開(kāi)始后,用戶可以決定他或她喜歡這首歌曲,并愿意記錄該歌曲用于將來(lái)的享受。然后,用戶在移動(dòng)終端的鍵盤344上按下適當(dāng)?shù)逆I(或鍵的組合),這使得處理器352通過(guò)無(wú)線網(wǎng)絡(luò)300向記錄設(shè)備314發(fā)送記錄信號(hào)。在接收到記錄信號(hào)后,使用先前所述的分類器40,處理器322識(shí)別緩沖存儲(chǔ)器328內(nèi)的音頻數(shù)據(jù)中的音樂(lè)聲帶的開(kāi)始和/停止點(diǎn),并將該音帶復(fù)制到存儲(chǔ)存儲(chǔ)器330中。
圖14A到14F示出了至少一個(gè)其它實(shí)施例的操作。在圖14A到14F中,正在廣播的兩個(gè)音樂(lè)節(jié)目(標(biāo)識(shí)為“歌曲A”和“歌曲B”)被表示為可變長(zhǎng)度水平條。當(dāng)歌曲播放時(shí),相應(yīng)的條向右移動(dòng)。當(dāng)前時(shí)間由最左邊的箭頭和垂直虛線示出。第一箭頭的右邊的歌曲A或歌曲B的條的部分表示已經(jīng)廣播的節(jié)目部分,而箭頭的左邊的條的部分表示將要廣播的節(jié)目部分。從左箭頭和垂直線到最右邊的箭頭和垂直線的距離表示已經(jīng)存儲(chǔ)在緩沖存儲(chǔ)器328中的廣播的時(shí)間段。緩沖器內(nèi)容以圖表的形式顯示為B2,B1,An,An-1等。特別地,B1是歌曲B的數(shù)字化第一部分,B2是歌曲B的數(shù)字化第二部分。An是歌曲A的數(shù)字化最后一部分,An-1是歌曲A的數(shù)字化倒數(shù)第二部分等。在圖14A中,歌曲B剛剛開(kāi)始。在圖14B中,記錄設(shè)備314從移動(dòng)終端310接收記錄信號(hào)。如圖14C和圖14D所示,從該時(shí)間點(diǎn)向前,歌曲B的數(shù)字化部分直接存儲(chǔ)在存儲(chǔ)存儲(chǔ)器330中。記錄設(shè)備314的處理器322繼續(xù)分析數(shù)字轉(zhuǎn)換器320的輸出。在檢測(cè)到歌曲B的結(jié)尾后(圖14E),處理器322在緩沖存儲(chǔ)器328中定位歌曲B的開(kāi)始,然后,將歌曲B的被緩沖部分附加到已經(jīng)存儲(chǔ)在存儲(chǔ)存儲(chǔ)器330中的部分(圖14F)。
在對(duì)如圖14A到14F所示的操作的一個(gè)變形中,處理器322可以立即在緩沖存儲(chǔ)器328中定位歌曲B的開(kāi)始,并在完成歌曲B的廣播之前將歌曲B的被緩沖部分傳送到存儲(chǔ)存儲(chǔ)器330中。在另一個(gè)變形中,處理器14在接收到記錄信號(hào)后假定歌曲正在播放,并尋找從<SF>低于<SF>Max到<SF>高于<SF>Max的下一個(gè)轉(zhuǎn)換。一旦發(fā)生該轉(zhuǎn)換,則在以前緩沖的部分中找到該歌曲的開(kāi)始,并且整個(gè)歌曲在該點(diǎn)被移到存儲(chǔ)存儲(chǔ)器330中。還可以修改圖8A到10B的算法以檢測(cè)已在播放中的歌曲的開(kāi)始和結(jié)尾。并非搜索從<SF>高于<SF>Max到<SF>低于<SF>Max的轉(zhuǎn)換(步驟202、220、240),而是接收記錄信號(hào)使得處理器向后查找歌曲的以前緩沖的部分以獲得從<SF>低于<SF>Max到<SF>高于<SF>Max的轉(zhuǎn)換。接著,處理器14從接收到記錄信號(hào)的那個(gè)點(diǎn)開(kāi)始向前查找從<SF>低于<SF>Max到<SF>高于<SF>Max的轉(zhuǎn)換。在另一個(gè)變形中,記錄設(shè)備可以自動(dòng)地確定歌曲的開(kāi)始點(diǎn),但由來(lái)自用戶的隨后的信號(hào)通知結(jié)束點(diǎn)。為了避免在分析或傳輸緩沖器內(nèi)容時(shí)丟失節(jié)目部分,記錄設(shè)備314可以用并行處理器和/或緩沖器實(shí)現(xiàn),使得當(dāng)其它部分被傳輸(或最初放置)到存儲(chǔ)存儲(chǔ)器330中時(shí)可以分析或緩沖廣播的部分。
在另外的其它實(shí)施例中,分類器40在后臺(tái)執(zhí)行并在音樂(lè)聲帶廣播時(shí)不斷地識(shí)別其開(kāi)始和停止點(diǎn)。當(dāng)用戶(經(jīng)由移動(dòng)終端、通過(guò)向記錄設(shè)備10手動(dòng)輸入記錄命令或者其它方式)發(fā)起“記錄”命令時(shí),處理器僅存儲(chǔ)具有帶有限定該記錄命令的時(shí)間戳的時(shí)間戳的開(kāi)始和停止點(diǎn)的音樂(lè)聲帶。如果當(dāng)當(dāng)前幀的被平滑過(guò)的譜通量沒(méi)有被識(shí)別為音樂(lè)(例如語(yǔ)音占主導(dǎo)的歌曲的一部分)時(shí)或者在播放小于最小時(shí)間段的音帶期間用戶發(fā)起記錄命令,則可以實(shí)施其它步驟。在一個(gè)變形中,處理器被配置為記錄最小音帶大小和/或在記錄命令之前或之后最小數(shù)量的音頻。在另一個(gè)變形中,處理器將記錄命令的時(shí)間視為在音樂(lè)聲帶內(nèi),然后如上所述地(根據(jù)被平滑過(guò)的譜通量與閾值之間的關(guān)系)搜尋該音帶的開(kāi)始和結(jié)束。有效地,被平滑過(guò)的譜通量在記錄命令時(shí)候的峰值被忽略。
盡管已經(jīng)描述了執(zhí)行本發(fā)明的特定實(shí)施例,但本領(lǐng)域的技術(shù)人員將知道,上述系統(tǒng)和方法可以有很多變化和改變,這些都包含在如隨后權(quán)利要求所述的本發(fā)明的精神和范圍內(nèi)。例如,記錄設(shè)備和/或移動(dòng)終端可被配置為使得用戶可以在手動(dòng)和自動(dòng)記錄模式之間選擇。各種緩沖器大小、時(shí)間段和上述的其它操作參數(shù)都可以由用戶配置。作為另一個(gè)可選的方案,一種計(jì)算機(jī)可讀介質(zhì)可以具有在其上存儲(chǔ)的計(jì)算機(jī)可執(zhí)行指令,使得當(dāng)這些指令由適當(dāng)?shù)脑O(shè)備(或設(shè)備組)讀出和執(zhí)行時(shí),可以執(zhí)行根據(jù)本發(fā)明的方法的步驟。這些和其它修改都在如所附的權(quán)利要求所述的本發(fā)明的范圍內(nèi)。
權(quán)利要求
1.一種用于有選擇地記錄音頻流的音樂(lè)部分的方法,包括接收具有音樂(lè)和非音樂(lè)部分的音頻流;將所述音頻流分段為連續(xù)的幀;使多個(gè)幀的每一個(gè)幀通過(guò)濾波器組,所述濾波器組包括帶寬與其中心頻率近似成比例的濾波器;對(duì)于所述多個(gè)幀的至少一個(gè)子集,計(jì)算修正譜通量值;識(shí)別開(kāi)始幀,所述開(kāi)始幀是所述多個(gè)幀中具有低于閾值的修正譜通量值的幀;識(shí)別停止幀,所述停止幀是所述多個(gè)幀中具有高于所述閾值的修正譜通量值的幀;以及記錄由所述開(kāi)始幀和停止幀限定的所述音頻流的一部分。
2.如權(quán)利要求1所述的方法,其中,所述使多個(gè)幀的每一個(gè)幀通過(guò)濾波器組包括使多個(gè)幀的每一個(gè)幀通過(guò)5個(gè)無(wú)限脈沖響應(yīng)(IIR)濾波器。
3.如權(quán)利要求2所述的方法,其中,所述5個(gè)IIR濾波器包括低通濾波器、中心位于大約450Hz的帶通濾波器、中心位于大約900Hz的帶通濾波器、中心位于大約1500Hz的帶通濾波器和高通濾波器。
4.如權(quán)利要求1所述的方法,還包括確定在所述開(kāi)始幀和所述停止幀之間經(jīng)過(guò)的時(shí)間是否超過(guò)最小時(shí)期,其中當(dāng)確定所經(jīng)過(guò)的時(shí)間超過(guò)所述最小時(shí)期間執(zhí)行所述記錄步驟。
5.如權(quán)利要求1所述的方法,還包括確定自所述開(kāi)始幀以來(lái)經(jīng)過(guò)的時(shí)間是否超過(guò)譜通量閾值重置時(shí)間;以及當(dāng)確定所經(jīng)過(guò)的時(shí)間間超過(guò)重置時(shí)間時(shí),重新設(shè)置譜通量閾值,其中所述識(shí)別停止幀包括識(shí)別所述多個(gè)幀中具有高于重新設(shè)置的譜通量閾值的修正譜通量值的幀。
6.如權(quán)利要求1所述的方法,還包括確定自所述開(kāi)始幀以來(lái)經(jīng)過(guò)的時(shí)間是否超過(guò)最大時(shí)期,其中基于所經(jīng)過(guò)的時(shí)間不超過(guò)所述最大時(shí)期,執(zhí)行所述識(shí)別停止幀和所述記錄步驟。
7.如權(quán)利要求1所述的方法,還包括接收從位于遠(yuǎn)程的移動(dòng)終端發(fā)起的記錄控制信號(hào),其中所述識(shí)別開(kāi)始幀包括在所述音頻流的被緩沖部分中定位所述開(kāi)始幀;所述記錄包括將自所述開(kāi)始幀以來(lái)所接收的所述音頻流的一部分復(fù)制到另一個(gè)存儲(chǔ)器中。
8.如權(quán)利要求1所述的方法,還包括數(shù)字化所述音頻流,其中所述分段步驟包括將所述數(shù)字化音頻流分段成連續(xù)的數(shù)字化幀;所述通過(guò)步驟包括使多個(gè)數(shù)字化幀的每一個(gè)幀通過(guò)多個(gè)濾波器;所述計(jì)算步驟包括對(duì)于所述多個(gè)數(shù)字化幀的至少一個(gè)子集,計(jì)算修正譜通量值。
9.如權(quán)利要求1所述的方法,其中,修正譜通量包括在K個(gè)以前的幀上平均的譜通量的值,其中K為整數(shù)。
10.一種用于有選擇地記錄無(wú)線廣播的音樂(lè)部分的方法,包括接收本質(zhì)上包含音頻傳輸?shù)臒o(wú)線廣播;對(duì)所述音頻傳輸?shù)亩鄠€(gè)幀的每一個(gè)幀,計(jì)算特征的值;識(shí)別開(kāi)始點(diǎn),所述開(kāi)始點(diǎn)是所述音頻傳輸中具有與所述特征的閾值有第一關(guān)系的特征值的幀;識(shí)別停止點(diǎn),所述停止點(diǎn)是所述音頻傳輸中具有與所述特征的閾值有第二關(guān)系的特征值的幀;以及記錄由所述開(kāi)始點(diǎn)和停止點(diǎn)限定的所述音頻傳輸?shù)囊徊糠帧?br>
11.如權(quán)利要求10所述的方法,其中,所述特征包括修正譜通量,所述方法還包括使所述多個(gè)幀的每一個(gè)幀通過(guò)濾波器組,所述濾波器組包括帶寬與其中心頻率近似成比例的濾波器,被濾波的幀用于對(duì)所述多個(gè)幀的至少一個(gè)子集計(jì)算修正譜通量值。
12.如權(quán)利要求10所述的方法,還包括接收從位于遠(yuǎn)程的移動(dòng)終端發(fā)起的記錄控制信號(hào),其中所述識(shí)別開(kāi)始點(diǎn)包括在所述音頻傳輸?shù)谋痪彌_部分中定位具有與所述閾值有第一關(guān)系的特征值的幀;所述記錄包括將自所述開(kāi)始點(diǎn)以來(lái)所接收的所述音頻傳輸?shù)囊徊糠謴?fù)制到另一個(gè)存儲(chǔ)器中。
13.一種具有計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),所述指令用于執(zhí)行以下步驟,包括接收具有音樂(lè)和非音樂(lè)部分的音頻流;將所述音頻流分段為連續(xù)的幀;使多個(gè)幀的每一個(gè)幀通過(guò)濾波器組,所述濾波器組包括帶寬與其中心頻率近似成比例的濾波器;對(duì)所述多個(gè)幀的至少一個(gè)子集,計(jì)算修正譜通量值;識(shí)別開(kāi)始幀,所述開(kāi)始幀是所述多個(gè)幀中具有低于閾值的修正譜通量值的幀;識(shí)別停止幀,所述停止幀是所述多個(gè)幀中具有高于所述閾值的修正譜通量值的幀;以及記錄由所述開(kāi)始幀和停止幀限定的所述音頻流的一部分。
14.如權(quán)利要求13所述的計(jì)算機(jī)可讀介質(zhì),其中,所述使多個(gè)幀的每一個(gè)幀通過(guò)濾波器組包括使多個(gè)幀的每一個(gè)幀通過(guò)5個(gè)無(wú)限脈沖響應(yīng)(IIR)濾波器。
15.如權(quán)利要求14所述的計(jì)算機(jī)可讀介質(zhì),其中,所述5個(gè)IIR濾波器包括低通濾波器、中心位于大約450Hz的帶通濾波器、中心位于大約900Hz的帶通濾波器、中心位于大約1500Hz的帶通濾波器和高通濾波器。
16.如權(quán)利要求13所述的計(jì)算機(jī)可讀介質(zhì),還包括用于執(zhí)行以下步驟的指令,包括確定在所述開(kāi)始幀和所述停止幀之間經(jīng)過(guò)的時(shí)間是否超過(guò)最小時(shí)期,其中當(dāng)確定所經(jīng)過(guò)的時(shí)間超過(guò)所述最小時(shí)期時(shí),執(zhí)行所述記錄步驟。
17.如權(quán)利要求13所述的計(jì)算機(jī)可讀介質(zhì),還包括用于執(zhí)行以下步驟的指令,包括確定自所述開(kāi)始幀以來(lái)經(jīng)過(guò)的時(shí)間是否超過(guò)譜通量閾值重置時(shí)間;以及當(dāng)確定所經(jīng)過(guò)的時(shí)間超過(guò)重置時(shí)間時(shí),重新設(shè)置譜通量閾值,其中所述識(shí)別停止幀包括識(shí)別所述多個(gè)幀中具有高于重新設(shè)置的譜通量閾值的修正譜通量值的幀。
18.如權(quán)利要求13所述的計(jì)算機(jī)可讀介質(zhì),還包括用于執(zhí)行以下步驟的指令,包括確定自所述開(kāi)始幀以來(lái)經(jīng)過(guò)的時(shí)間是否超過(guò)最大時(shí)期,其中基于所經(jīng)過(guò)的時(shí)間不超過(guò)所述最大時(shí)期,執(zhí)行所述識(shí)別停止幀和所述記錄步驟。
19.如權(quán)利要求13所述的計(jì)算機(jī)可讀介質(zhì),還包括用于執(zhí)行接收從位于遠(yuǎn)程的移動(dòng)終端發(fā)起的記錄控制信號(hào)的步驟的指令,其中所述識(shí)別開(kāi)始幀包括在所述音頻流的被緩沖部分中定位所述開(kāi)始幀;所述記錄包括將從所述開(kāi)始幀以來(lái)所接收的所述音頻流的一部分復(fù)制到另一個(gè)存儲(chǔ)器中。
20.如權(quán)利要求13所述的計(jì)算機(jī)可讀介質(zhì),其中,修正譜通量包括在K個(gè)以前的幀上平均的譜通量的值,其中K為整數(shù)。
21.一種帶有計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),所述指令執(zhí)行以下步驟,包括接收本質(zhì)上包括音頻傳輸?shù)臒o(wú)線廣播;對(duì)所述音頻傳輸?shù)亩鄠€(gè)幀的每一個(gè)幀,計(jì)算特征的值;識(shí)別開(kāi)始點(diǎn),所述開(kāi)始點(diǎn)是所述音頻傳輸中具有與所述特征的閾值有第一關(guān)系的特征值的幀;識(shí)別停止點(diǎn),所述停止點(diǎn)是所述音頻傳輸中具有與所述特征的閾值有第二關(guān)系的特征值的幀;以及記錄由所述開(kāi)始點(diǎn)和停止點(diǎn)限定的所述音頻傳輸?shù)囊徊糠帧?br>
22.如權(quán)利要求21所述的計(jì)算機(jī)可讀介質(zhì),其中,所述特征包括修正譜通量,所述計(jì)算機(jī)可讀介質(zhì)還包括用于執(zhí)行以下步驟的指令,包括使多個(gè)幀的每一個(gè)幀通過(guò)濾波器組,所述濾波器組包括帶寬與其中心頻率近似成比例的濾波器,被濾波的幀用于對(duì)所述多個(gè)幀的至少一個(gè)子集計(jì)算修正譜通量值。
23.如權(quán)利要求21所述的計(jì)算機(jī)可讀介質(zhì),還包括用于執(zhí)行接收從位于遠(yuǎn)程的移動(dòng)終端發(fā)起的記錄控制信號(hào)的步驟的指令,其中所述識(shí)別開(kāi)始點(diǎn)包括在所述音頻傳輸?shù)谋痪彌_部分中定位具有與所述閾值有第一關(guān)系的特征值的幀;所述記錄包括將自所述開(kāi)始點(diǎn)以來(lái)所接收的所述音頻傳輸?shù)囊徊糠謴?fù)制到另一個(gè)存儲(chǔ)器中。
24.一種用于記錄廣播節(jié)目的記錄設(shè)備,包括接收器,用于調(diào)諧到廣播無(wú)線頻率并接收廣播節(jié)目;存儲(chǔ)器,具有在其上存儲(chǔ)的指令;以及處理器,連接到所述接收器和所述存儲(chǔ)器,并被配置為執(zhí)行指令以接收具有音樂(lè)和非音樂(lè)部分的音頻流;將所述音頻流分段為連續(xù)的幀;使多個(gè)幀的每一個(gè)幀通過(guò)濾波器組,所述濾波器組包括帶寬與其中心頻率近似成比例的濾波器;對(duì)于所述多個(gè)幀的至少一個(gè)子集,計(jì)算修正譜通量值;識(shí)別開(kāi)始幀,所述開(kāi)始幀是所述多個(gè)幀中具有低于閾值的修正譜通量值的幀;識(shí)別停止幀,所述停止幀是所述多個(gè)幀中具有高于所述閾值的修正譜通量值的幀;以及記錄由所述開(kāi)始幀和停止幀限定的所述音頻流的一部分。
25.如權(quán)利要求24所述的記錄設(shè)備,其中,所述使多個(gè)幀的每一個(gè)幀通過(guò)濾波器組包括使多個(gè)幀的每一個(gè)幀通過(guò)5個(gè)無(wú)限脈沖響應(yīng)(IIR)濾波器。
26.如權(quán)利要求25所述的記錄設(shè)備,其中,所述5個(gè)IIR濾波器包括低通濾波器、中心位于大約450Hz的帶通濾波器、中心位于大約900Hz的帶通濾波器、中心位于大約1500Hz的帶通濾波器和高通濾波器。
27.如權(quán)利要求24所述的記錄設(shè)備,其中,所述處理器還被配置為執(zhí)行指令以確定在所述開(kāi)始幀和所述停止幀之間經(jīng)過(guò)的時(shí)間是否超過(guò)最小時(shí)期,其中當(dāng)確定所經(jīng)過(guò)的時(shí)間超過(guò)所述最小時(shí)期時(shí),執(zhí)行所述記錄步驟。
28.如權(quán)利要求24所述的記錄設(shè)備,其中,所述處理器還被配置為執(zhí)行指令以確定自所述開(kāi)始幀以來(lái)經(jīng)過(guò)的時(shí)間是否超過(guò)譜通量閾值重置時(shí)間;以及當(dāng)確定所經(jīng)過(guò)的時(shí)間超過(guò)重置時(shí)間時(shí),重新設(shè)置譜通量閾值,其中所述識(shí)別停止幀包括識(shí)別所述多個(gè)幀中具有高于重新設(shè)置的譜通量閾值的修正譜通量值的幀。
29.如權(quán)利要求24所述的記錄設(shè)備,其中,所述處理器還被配置為執(zhí)行指令以確定自所述開(kāi)始幀以來(lái)經(jīng)過(guò)的時(shí)間是否超過(guò)最大時(shí)期,其中基于所經(jīng)過(guò)的時(shí)間不超過(guò)所述最大時(shí)期,執(zhí)行所述識(shí)別停止幀和所述記錄步驟。
30.如權(quán)利要求24所述的記錄設(shè)備,其中,所述記錄設(shè)備是遠(yuǎn)程記錄設(shè)備,其中所述處理器還被配置為執(zhí)行指令以接收從位于遠(yuǎn)程的移動(dòng)終端發(fā)起的記錄控制信號(hào),其中所述識(shí)別開(kāi)始幀包括在所述音頻流的被緩沖部分中定位所述開(kāi)始幀;所述記錄包括將自所述開(kāi)始幀以來(lái)所接收的所述音頻流的一部分復(fù)制到另一個(gè)存儲(chǔ)器中。
31.一種記錄設(shè)備,用于遠(yuǎn)程記錄廣播節(jié)目,包括接收器,用于調(diào)諧到廣播無(wú)線頻率并接收廣播節(jié)目;存儲(chǔ)器,具有在其上存儲(chǔ)的指令;以及處理器,連接到所述接收器和所述存儲(chǔ)器,并被配置為執(zhí)行指令以接收本質(zhì)上包含音頻傳輸?shù)臒o(wú)線廣播;對(duì)所述音頻傳輸?shù)亩鄠€(gè)幀的每一個(gè)幀,計(jì)算特征的值;識(shí)別所述音頻傳輸中的開(kāi)始點(diǎn),所述開(kāi)始點(diǎn)是所述音頻傳輸中具有與所述特征的閾值有第一關(guān)系的特征值的幀;識(shí)別所述音頻傳輸中的停止點(diǎn),所述停止點(diǎn)是所述音頻傳輸中具有與所述特征的閾值有第二關(guān)系的特征值的幀;以及記錄由所述開(kāi)始點(diǎn)和停止點(diǎn)限定的所述音頻傳輸?shù)囊徊糠帧?br>
32.如權(quán)利要求31所述的記錄設(shè)備,其中,所述特征包括修正譜通量;所述處理器還被配置為執(zhí)行指令以使多個(gè)幀的每一個(gè)幀通過(guò)濾波器組,所述濾波器組包括帶寬與其中心頻率近似成比例的濾波器,被濾波的幀用于對(duì)所述多個(gè)幀的至少一個(gè)子集計(jì)算修正譜通量值。
33.如權(quán)利要求31所述的記錄設(shè)備,其中,所述記錄設(shè)備是遠(yuǎn)程記錄設(shè)備,其中所述處理器還被配置為執(zhí)行指令以接收從位于遠(yuǎn)程的移動(dòng)終端發(fā)起的記錄控制信號(hào),其中所述識(shí)別開(kāi)始點(diǎn)包括在所述音頻傳輸?shù)谋痪彌_部分中定位具有與所述閾值有第一關(guān)系的特征值的開(kāi)始點(diǎn);所述記錄包括將自所述開(kāi)始點(diǎn)以來(lái)所接收的所述音頻傳輸?shù)囊徊糠謴?fù)制到另一個(gè)存儲(chǔ)器中。
34.一種用于遠(yuǎn)程記錄廣播節(jié)目的記錄設(shè)備,包括接收器,用于調(diào)諧到廣播無(wú)線頻率并接收廣播節(jié)目;緩沖存儲(chǔ)器;存儲(chǔ)存儲(chǔ)器,具有在其上存儲(chǔ)的指令;網(wǎng)絡(luò)接口;以及處理器,連接到所述接收器、網(wǎng)絡(luò)接口和存儲(chǔ)器,并被配置為執(zhí)行指令以接收具有音樂(lè)和非音樂(lè)部分的音頻流;將所述音頻流分段為連續(xù)的幀;使多個(gè)幀的每一個(gè)幀通過(guò)低通無(wú)限脈沖響應(yīng)(IIR)濾波器、中心位于大約450Hz的帶通IIR濾波器、中心位于大約900Hz的帶通IIR濾波器、中心位于大約1500Hz的帶通IIR濾波器和高通IIR濾波器;基于所述濾波器的輸出,對(duì)所述多個(gè)幀的每一個(gè)幀計(jì)算修正譜通量值;通過(guò)網(wǎng)絡(luò)接口接收從位于遠(yuǎn)程的移動(dòng)終端發(fā)起的記錄控制信號(hào);在接收到所述記錄控制信號(hào)后,在存儲(chǔ)在所述緩沖存儲(chǔ)器中的所述音頻流的一部分中識(shí)別開(kāi)始幀,所述開(kāi)始幀是所述多個(gè)幀中具有低于閾值的修正譜通量值的幀;識(shí)別停止幀,所述停止幀是所述多個(gè)幀中具有高于所述閾值的修正譜通量值的幀;以及當(dāng)確定在所述開(kāi)始幀和停止幀之間經(jīng)過(guò)的時(shí)間超過(guò)最小值時(shí),在所述存儲(chǔ)存儲(chǔ)器中存儲(chǔ)由所述開(kāi)始幀和停止幀限定的所述音頻流的一部分,所述存儲(chǔ)包括從所述緩沖存儲(chǔ)器中復(fù)制在所述開(kāi)始幀之后緩沖的所述音頻流的一部分。
全文摘要
識(shí)別音頻流中的音樂(lè)和非音樂(lè)部分。該音頻流被數(shù)字化和分段成幀。所選擇的幀通過(guò)濾波器組,該濾波器組具有帶寬與其中心頻率近似成比例的濾波器。計(jì)算并平滑每個(gè)所選擇的幀的譜通量。具有低于閾值的被平滑過(guò)的譜通量的幀與音樂(lè)相關(guān)聯(lián),而具有高于閾值的被平滑過(guò)的譜通量的幀與非音樂(lè)相關(guān)聯(lián)。
文檔編號(hào)H04H1/00GK1977306SQ200480036748
公開(kāi)日2007年6月6日 申請(qǐng)日期2004年12月8日 優(yōu)先權(quán)日2003年12月12日
發(fā)明者O·柯克比, J·霍帕涅米, T·索爾薩 申請(qǐng)人:諾基亞公司