專利名稱:自適應(yīng)音頻代碼轉(zhuǎn)換的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及音頻/視頻托管系統(tǒng),并且更具體地涉及一種用于基于音頻流內(nèi)容特性的音頻流的自適應(yīng)代碼轉(zhuǎn)換的音頻代碼轉(zhuǎn)換系統(tǒng)。
背景技術(shù):
多媒體內(nèi)容托管服務(wù)諸如YOUTUBE允許用戶將視頻與它們的對應(yīng)音頻流一起發(fā)布。音頻流可以是壓縮或者未壓縮的、包括FLAC、WAV、MP3、AAC、OGG等的許多音頻文件格式之一。大多數(shù)媒體內(nèi)容托管服務(wù)將源音頻流從它的固有格式(例如,F(xiàn)LAC)代碼轉(zhuǎn)換成客戶端回放(playback)設(shè)備請求的文件格式(例如,WAV)。音頻流的音頻代碼轉(zhuǎn)換也可以包括減少音頻流的比特率、減少音頻流的采樣速率、壓縮音頻流、減少由音頻數(shù)據(jù)代表的音頻通道的數(shù)目或者這些過程的組合。代碼轉(zhuǎn)換可以用來減少存儲要求并且也減少用于向客戶端供應(yīng)音頻流的帶寬要求。在為具有數(shù)以百萬計音頻的多媒體托管服務(wù)設(shè)計音頻代碼轉(zhuǎn)換系統(tǒng)時的一個挑戰(zhàn)是在可接受的聲音質(zhì)量與減少的比特率之間的平衡折衷下代碼轉(zhuǎn)換并且存儲音頻。常規(guī)音頻代碼轉(zhuǎn)換系統(tǒng)無論音頻流的內(nèi)容特性如何改變都使用固定目標比特率和/或固定采樣速率以代碼轉(zhuǎn)換多個音頻流。然而,考慮大型音頻全集的情況,音頻流在比特率、采樣速率、通道的數(shù)目和內(nèi)容復雜性(例如,音樂或者話音)方面而有所不同。用相同目標比特率和采樣速率對每個音頻流編碼未必在每個情況下產(chǎn)生可接受的聲音質(zhì)量。向具有不同內(nèi)容特性的兩個音頻流應(yīng)用的相同目標比特率造成不同聲音質(zhì)量。使用固定目標比特率對具有變化的內(nèi)容特性的音頻流編碼劣化了用于多媒體托管服務(wù)的常規(guī)音頻代碼轉(zhuǎn)換系統(tǒng)所處理的聲音質(zhì)量。
發(fā)明內(nèi)容
一種方法、系統(tǒng)和計算機程序產(chǎn)品,提供音頻流的自適應(yīng)代碼轉(zhuǎn)換,該代碼轉(zhuǎn)換基于用于多媒體托管服務(wù)的音頻流的音頻內(nèi)容特性。在一個實施例中,自適應(yīng)音頻代碼轉(zhuǎn)換方法接收用于代碼轉(zhuǎn)換的源音頻流。自適應(yīng)音頻代碼轉(zhuǎn)換方法提取源音頻流的元數(shù)據(jù),其中源音頻流的元數(shù)據(jù)描述源音頻流的音頻內(nèi)容特性。自適應(yīng)音頻代碼轉(zhuǎn)換方法基于源音頻流的置信度得分將源音頻流分類為若干音頻內(nèi)容類別之一。音頻內(nèi)容類別使用諸如話音、音樂、電影或者甚至音樂流派之類的類別來代表音頻內(nèi)容的語義方面。源音頻流的更高置信度得分指示源音頻流是特定類型諸如話音音頻流的更高概率。自適應(yīng)音頻代碼轉(zhuǎn)換方法基于源音頻流的元數(shù)據(jù)和分類來確定源音頻流的代碼轉(zhuǎn)換參數(shù),例如,目標比特率和目標采樣速率。自適應(yīng)音頻代碼轉(zhuǎn)換方法使用代碼轉(zhuǎn)換參數(shù)來代碼轉(zhuǎn)換源音頻流并且輸出代碼轉(zhuǎn)換的音頻流。在另一實施例中,自適應(yīng)音頻代碼轉(zhuǎn)換系統(tǒng)包括音頻流元數(shù)據(jù)提取模塊、音頻流分類模塊、自適應(yīng)音頻編碼器和自適應(yīng)音頻代碼轉(zhuǎn)換器。音頻流元數(shù)據(jù)提取模塊被配置成提取音頻流的元數(shù)據(jù),并且元數(shù)據(jù)描述音頻流的音頻內(nèi)容特性。音頻流分類模塊被配置成基于提取的元數(shù)據(jù)對音頻流進行分類。自適應(yīng)音頻編碼器被配置成基于提取的元數(shù)據(jù)和分類來確定音頻代碼轉(zhuǎn)換參數(shù),例如,目標比特率和采樣速率。自適應(yīng)音頻代碼轉(zhuǎn)換器被配置成使用音頻代碼轉(zhuǎn)換參數(shù)來代碼轉(zhuǎn)換音頻流。在說明書中描述的特征和優(yōu)點并非囊括性的,并且特別是許多附加特征和優(yōu)點將按照附圖、說明書和權(quán)利要求書為本領(lǐng)域普通技術(shù)人員所清楚。因而,本說明書旨在于舉例說明而不是限制在所附權(quán)利要求中闡述的本發(fā)明的范圍。
圖1是圖示了具有自適應(yīng)音頻代碼轉(zhuǎn)換系統(tǒng)的音頻/視頻托管服務(wù)的系統(tǒng)視圖的框圖。圖2是自適應(yīng)音頻代碼轉(zhuǎn)換系統(tǒng)的功能模塊的框圖。圖3是使用圖2中所示功能模塊的自適應(yīng)地代碼轉(zhuǎn)換音頻流的流程圖。附圖僅出于示例的目的而描繪本發(fā)明的各種實施例,并且本發(fā)明不限于這些所示實施例。本領(lǐng)域技術(shù)人員根據(jù)下文討論將容易認識到可以運用這里所示結(jié)構(gòu)和方法的備選實施例而不脫離這里描述的本發(fā)明的原理。
具體實施例方式1.系統(tǒng)概況圖1是具有自適應(yīng)音頻代碼轉(zhuǎn)換系統(tǒng)200的音頻/視頻托管服務(wù)100的系統(tǒng)視圖的框圖。多個用戶/查看者使用客戶端110A-N向音頻/視頻托管服務(wù)100發(fā)送音頻/視頻托管請求、比如將視頻與它們的關(guān)聯(lián)音頻流一起向視頻托管網(wǎng)站上傳、并且從音頻/視頻托管服務(wù)100接收所請求的服務(wù)。音頻/視頻托管服務(wù)100經(jīng)由網(wǎng)絡(luò)130與一個或者多個客戶端110通信。音頻/視頻托管服務(wù)100從客戶端110接收音頻/視頻托管服務(wù)請求、通過自適應(yīng)音頻代碼轉(zhuǎn)換系統(tǒng)200代碼轉(zhuǎn)換源音頻流并且向客戶端110返回經(jīng)代碼轉(zhuǎn)換的源音頻流。轉(zhuǎn)向圖1上圖示的個體實體,每個客戶端110由用戶用來請求音頻/視頻托管服務(wù)。例如,用戶使用客戶端110以發(fā)送用于上傳視頻及其關(guān)聯(lián)音頻流,以用于共享或者用于將視頻與它的關(guān)聯(lián)音頻流一起播放的請求??蛻舳?10可以是任何類型的計算機設(shè)備,諸如個人計算機(例如,臺式、筆記本、膝上型)計算機以及諸如移動電話、個人數(shù)字助理、具有IP功能的視頻播放器之類的設(shè)備??蛻舳?0通常包括處理器、顯示設(shè)備(或者向顯示設(shè)備的輸出)、客戶端110將用戶在執(zhí)行任務(wù)時使用的數(shù)據(jù)存儲到的本地儲存器諸如硬驅(qū)動或者閃存設(shè)備和用于經(jīng)由網(wǎng)絡(luò)130耦合到系統(tǒng)100的網(wǎng)絡(luò)接口??蛻舳?10也具有用于將視頻流與它的關(guān)聯(lián)音頻流一起播放的音頻/視頻播放器120 (例如,來自Adobe Systems公司的FlashTM播放器或者專有播放器)。音頻/視頻播放器120可以是獨立應(yīng)用、向另一應(yīng)用諸如網(wǎng)絡(luò)瀏覽器的插件或者客戶端的操作系統(tǒng)/環(huán)境的固有支持的特征。當客戶端110是通用設(shè)備(例如,臺式計算機、移動電話)時,播放器120通常被實現(xiàn)為由計算機執(zhí)行的軟件。當客戶端110為專用設(shè)備(例如,專用音頻/視頻播放器)時,可以在硬件或者硬件與軟件的組合中實現(xiàn)播放器120。所有這些實現(xiàn)就本發(fā)明而言在功能上等效。播放器120包括用于選擇音頻饋送、開始、停止和倒回音頻饋送的用戶接口控件(和對應(yīng)應(yīng)用編程接口)。播放器120也可以在它的用戶接口中包括配置成指示多少音頻通道用來回放音頻流的音頻通道選擇(例如,單通道單聲道聲音或者多通道立體聲聲音)。其它類型的用戶接口控件(例如,按鈕、鍵盤控件)也可以用來控制播放器120的回放和音頻通道選擇功能。網(wǎng)絡(luò)130啟用在客戶端110與音頻/視頻托管服務(wù)100之間的通信。在一個實施例中,網(wǎng)絡(luò)130是因特網(wǎng)并且使用現(xiàn)在已知或者以后開發(fā)的標準化網(wǎng)際聯(lián)網(wǎng)通信技術(shù)和協(xié)議,這些技術(shù)和協(xié)議使客戶端110能夠與音頻/視頻托管服務(wù)100通信。音頻/視頻托管服務(wù)100包括自適應(yīng)音頻代碼轉(zhuǎn)換系統(tǒng)200、音頻/視頻服務(wù)器104和音頻/視頻數(shù)據(jù)庫106。音頻/視頻服務(wù)器104接收用戶上傳的音頻/視頻并且在音頻/視頻數(shù)據(jù)庫106中存儲音頻/視頻。音頻/視頻服務(wù)器104也響應(yīng)于用戶音頻/視頻托管服務(wù)請求來供應(yīng)來自音頻/視頻數(shù)據(jù)庫106的音頻/視頻。音頻/視頻數(shù)據(jù)庫106存儲用戶上傳的音頻文件和由自適應(yīng)音頻代碼轉(zhuǎn)換系統(tǒng)200代碼轉(zhuǎn)換的音頻文件??梢允褂脝蝹€計算機或者包括基于云的計算機實現(xiàn)的計算機網(wǎng)絡(luò)來實現(xiàn)服務(wù)100。計算機優(yōu)選地是服務(wù)器類計算機,這些計算機包括一個或者多個高性能CPU和IG或者更多主存儲器以及500Gb至2TB計算機可讀的持久儲存器,并且運行操作系統(tǒng)諸如LINUX或者其變體??梢酝ㄟ^硬件或者通過安裝于計算機儲存器中并且由這樣的服務(wù)器的處理器執(zhí)行的計算機程序控制如這里描述的服務(wù)100的操作以執(zhí)行這里描述的功能。服務(wù)100包括這里描述的操作所必需的其它硬件單元,這些硬件單元包括網(wǎng)絡(luò)接口和協(xié)議、用于數(shù)據(jù)錄入的輸入設(shè)備和用于數(shù)據(jù)的顯示、打印或者其它呈現(xiàn)的輸出設(shè)備。自適應(yīng)音頻代碼轉(zhuǎn)換系統(tǒng)200包括音頻流元數(shù)據(jù)提取模塊210、音頻流分類模塊220、自適應(yīng)音頻編碼器230和自適應(yīng)音頻代碼轉(zhuǎn)換器240。對于源音頻流,音頻流元數(shù)據(jù)提取模塊210提取音頻流信息。這一音頻流信息被稱為“源音頻流的元數(shù)據(jù)”,并且源音頻流的元數(shù)據(jù)描述源音頻流的音頻內(nèi)容特性,例如,音頻內(nèi)容的語義類型。音頻流分類模塊220基于源音頻流的元數(shù)據(jù)將源音頻流分類成若干音頻流內(nèi)容類別中的一個類別;音頻內(nèi)容類別例如可以包括話音和音樂或者其它在語義上令人感興趣的內(nèi)容類型。就這一點而言,音頻內(nèi)容類別繼而區(qū)別于描述音頻內(nèi)容的格式的其它元數(shù)據(jù),諸如其文件類型、編碼器類型等。自適應(yīng)音頻編碼器230基于源音頻流的元數(shù)據(jù)和分類確定音頻編碼參數(shù)。自適應(yīng)音頻代碼轉(zhuǎn)換器240使用確定的代碼轉(zhuǎn)換參數(shù)來代碼轉(zhuǎn)換源音頻流。作為有益結(jié)果,用減少的比特率代碼轉(zhuǎn)換每個源音頻流而又維持它的良好聲音質(zhì)量。在本說明書中,術(shù)語“模塊”指代用于提供指定功能的計算邏輯??梢栽谟布?、固件和/或軟件中實現(xiàn)模塊。將理解,這里描述的具名模塊代表本發(fā)明的一個實施例,并且其它實施例可以包括其它模塊。此外,其它實施例可以不存在這里描述的模塊和/或以不同方式在模塊之中分布所描述的功能。此外,從屬于多個模塊的功能可以并入于單個模塊中。當這里描述的模塊被實現(xiàn)為軟件時,模塊可以實現(xiàn)為獨立程序、但是也可以通過其它手段來實現(xiàn)、例如實現(xiàn)為更大程序的一部分、實現(xiàn)為多個單獨程序或者實現(xiàn)為一個或者多個靜態(tài)或者動態(tài)鏈接庫。在這些軟件實現(xiàn)中的任何軟件實現(xiàn)中,模塊存儲于服務(wù)100的計算機可讀持久存儲設(shè)備上、向存儲器中加載并且由服務(wù)的計算機的一個或者多個處理器執(zhí)行。下文將參照圖2和其余附圖進一步描述系統(tǒng)200及其模塊的操作。11·自適應(yīng)咅頻代碼轉(zhuǎn)換
音頻流中的可變內(nèi)容特性造成音頻流中包含的各種信息量。考慮音頻/視頻托管服務(wù)的大型音頻全集情況,用固定目標比特率和/或固定采樣速率對每個音頻流編碼未必在每個情況下產(chǎn)生可接受的聲音質(zhì)量。向具有不同內(nèi)容特性的音頻流應(yīng)用相同目標比特率造成不同聲音質(zhì)量。向話音音頻流應(yīng)用目標比特率可以產(chǎn)生良好聲音質(zhì)量。向音樂音頻流應(yīng)用相同目標比特率可能由于待編碼的復雜音頻內(nèi)容而造成不良聲音質(zhì)量。忽略音頻內(nèi)容特性和編碼復雜性對代碼轉(zhuǎn)換音頻流的影響劣化了經(jīng)代碼轉(zhuǎn)換的音頻的聲音質(zhì)量和用戶體驗。用可接受的聲音質(zhì)量代碼轉(zhuǎn)換音頻流需要基于源音頻流的內(nèi)容特性有效調(diào)整待使用的目標比特率和/或采樣速率。圖2是圖1中所示的自適應(yīng)音頻代碼轉(zhuǎn)換系統(tǒng)200的功能模塊的框圖。自適應(yīng)音頻代碼轉(zhuǎn)換系統(tǒng)200包括音頻流元數(shù)據(jù)提取模塊210、音頻流分類模塊220、自適應(yīng)音頻編碼器230和自適應(yīng)音頻代碼轉(zhuǎn)換器240。自適應(yīng)音頻代碼轉(zhuǎn)換系統(tǒng)200接收源音頻流202并且使用由代碼轉(zhuǎn)換系統(tǒng)200的功能模塊確定的目標比特率和采樣速率來代碼轉(zhuǎn)換源音頻 202。音頻流元數(shù)據(jù)提取模塊210被配置成提取源音頻流202的元數(shù)據(jù)并且是一種用于執(zhí)行這一功能的手段。源音頻流202的元數(shù)據(jù)描述源音頻流202的內(nèi)容特性。例如,源音頻流202的元數(shù)據(jù)可以包括源音頻流202的以下參數(shù)audio_codec_id :用來壓縮源音頻流的音頻編碼器/解碼器的標識;audio_bitrate :用來對源音頻流編碼的比特率;audio_sample_rate :用來對源音頻流編碼的采樣速率;audio_channels :用來代表源音頻流的通道的數(shù)目;audio_frame_size :源音頻流的音頻巾貞的大??;num_audio_stream :源音頻流中的嵌入音頻流的數(shù)目;audio_num_of_frames :源音頻流中的音頻巾貞的數(shù)目;audio_confidence_score :源音頻流的置信度得分。音頻流分類模塊220被配置成將源音頻流202分類成若干音頻內(nèi)容類別中的一個類別并且是一種用于執(zhí)行這一功能的手段。音頻流的分類除了音頻流的元數(shù)據(jù)之外還還指示它的內(nèi)容特性,并且音頻分類可以由自適應(yīng)音頻代碼轉(zhuǎn)換系統(tǒng)200用來調(diào)整用于代碼轉(zhuǎn)換音頻流的目標比特率和采樣速率。在一個實施例中,音頻內(nèi)容類別包括在語義上有用的類別,比如音樂和話音。音頻流分類模塊220基于音頻流的置信度得分對它進行分類。置信度得分范圍從O至1. 0,并且更高置信度得分指示音頻流更可能是話音音頻流。例如,用于音頻流的逼近I的置信度得分指示音頻流最可能是話音音頻流。在另一示例中,用于音頻流的逼近O的置信度得分指示音頻流最可能是音樂音頻流。當然,在其它實施例中,分類模塊的操作可以被配置成使分數(shù)I指示音樂而分數(shù)O指示話音。給定源音頻流202的置信度得分,音頻流分類模塊220將置信度得分與閾值進行比較。如果置信度得分大于或者等于閾值,則音頻流分類模塊220將源音頻流202分類為話音音頻流。將置信度得分小于閾值的源音頻流分類為音樂音頻流。在一個實施例中,閾值被設(shè)置成默認值O. 6。音頻內(nèi)容流類別可以包括其它音頻內(nèi)容類別,比如作為音樂與話音的組合的電影或者音樂流派諸如經(jīng)典、搖滾、爵士、非電聲(acoustic)等等。音樂與話音的組合還可以分類為重疊和非重疊。在重疊情況下,源音頻流的音樂優(yōu)先于用于音頻流的話音。在非重疊情況下,可以用更粒度化的方式擴展音樂-話音分類。例如,對于100秒持續(xù)時間的源音頻流,前50秒用于話音,51-75秒用于音樂,并且最后25秒再次用于話音。其它音頻流類別可以包括噪聲和靜默。為了進一步舉例說明音頻流分類模塊220的音頻流分類,以下偽代碼代表上文描述的音頻流分類的一個實施例//音頻流分類//
權(quán)利要求
1.一種用于自適應(yīng)地代碼轉(zhuǎn)換音頻/視頻托管服務(wù)的源音頻流的計算機系統(tǒng),所述系統(tǒng)包括 音頻流元數(shù)據(jù)提取模塊,被配置成提取所述源音頻流的元數(shù)據(jù),所述源音頻流的所述元數(shù)據(jù)描述所述源音頻流的音頻內(nèi)容特性; 音頻流分類模塊,被配置成基于所述源音頻流的所述元數(shù)據(jù)將所述源音頻流分類成多個音頻內(nèi)容類別之一,所述音頻流分類模塊耦合到所述音頻流元數(shù)據(jù)提取模塊; 自適應(yīng)音頻編碼器,被配置成基于所述源音頻流的所述元數(shù)據(jù)和分類來確定一個或者多個代碼轉(zhuǎn)換參數(shù),所述自適應(yīng)音頻編碼器耦合到所述音頻流元數(shù)據(jù)提取模塊和所述音頻流分類模塊;以及 自適應(yīng)音頻代碼轉(zhuǎn)換器,被配置成使用所述代碼轉(zhuǎn)換參數(shù)將所述源音頻流代碼轉(zhuǎn)換成輸出音頻流,并且所述自適應(yīng)音頻代碼轉(zhuǎn)換器耦合到所述自適應(yīng)音頻編碼器。
2.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述源音頻流的所述元數(shù)據(jù)包括輸入目標比特率、輸入采樣速率、音頻通道的數(shù)目和置信度得分。
3.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述多個音頻內(nèi)容類別包括話音和音樂。
4.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述音頻流分類模塊還被配置成基于所述源音頻流的置信度得分對所述源音頻流進行分類。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其中所述音頻流分類模塊還被配置成將所述源音頻流的所述置信度得分與預定置信度閾值進行比較。
6.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述自適應(yīng)音頻編碼器還被配置成基于所述源音頻流的所述輸入比特率和輸入采樣速率來確定目標比特率。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中所述自適應(yīng)音頻編碼器還被配置成線性縮放所述源音頻流的所述輸入比特率和輸入采樣速率以確定所述目標比特率。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中所述自適應(yīng)音頻編碼器還被配置成基于所述源音頻流的通道的數(shù)目來調(diào)整所述目標比特率。
9.根據(jù)權(quán)利要求7所述的系統(tǒng),其中所述自適應(yīng)音頻編碼器還被配置成基于所述源音頻流的所述分類來調(diào)整所述目標比特率。
10.根據(jù)權(quán)利要求7所述的系統(tǒng),其中所述自適應(yīng)音頻編碼器還被配置成基于所述源音頻流的所述通道的數(shù)目和所述分類來調(diào)整所述目標比特率。
11.一種用于自適應(yīng)地代碼轉(zhuǎn)換音頻/視頻托管服務(wù)的源音頻流的方法,所述方法由計算機系統(tǒng)執(zhí)行并且包括 接收所述源音頻流; 提取所述源音頻流的元數(shù)據(jù),所述源音頻流的所述元數(shù)據(jù)描述所述源音頻流的音頻內(nèi)容特性; 基于所述源音頻流的所述元數(shù)據(jù)將所述源音頻流分類成多個音頻內(nèi)容類別之一; 基于所述源音頻流的所述元數(shù)據(jù)和分類來確定一個或者多個代碼轉(zhuǎn)換參數(shù);以及 使用所述代碼轉(zhuǎn)換參數(shù)將所述源音頻流代碼轉(zhuǎn)換成輸出音頻流。
12.根據(jù)權(quán)利要求11所述的方法,其中所述源音頻流的所述元數(shù)據(jù)包括輸入目標比特率、輸入采樣速率、音頻通道的數(shù)目和置信度得分。
13.根據(jù)權(quán)利要求11所述的方法,其中所述多個音頻內(nèi)容類別至少包括話音和音樂。
14.根據(jù)權(quán)利要求11所述的方法,其中對所述源音頻流進行分類包括基于所述源音頻流的置信度得分對所述源音頻流進行分類。
15.根據(jù)權(quán)利要求14所述的方法,其中對所述源音頻流進行分類還包括將所述源音頻流的所述置信度得分與預定置信度閾值進行比較。
16.根據(jù)權(quán)利要求11所述的方法,其中確定一個或者多個代碼轉(zhuǎn)換參數(shù)包括基于所述源音頻流的所述輸入比特率和輸入采樣速率來確定目標比特率。
17.根據(jù)權(quán)利要求16所述的方法,其中確定一個或者多個代碼轉(zhuǎn)換參數(shù)還包括線性縮放所述源音頻流的所述輸入比特率和輸入采樣速率以確定所述目標比特率。
18.根據(jù)權(quán)利要求17所述的方法,其中確定一個或者多個代碼轉(zhuǎn)換參數(shù)還包括基于所述源音頻流的通道的數(shù)目來調(diào)整所述目標比特率。
19.根據(jù)權(quán)利要求17所述的方法,其中確定一個或者多個代碼轉(zhuǎn)換參數(shù)還包括基于所述源音頻流的所述分類來調(diào)整所述目標比特率。
20.根據(jù)權(quán)利要求17所述的方法,其中確定一個或者多個代碼轉(zhuǎn)換參數(shù)還包括基于所述源音頻流的所述通道的數(shù)目和所述分類來調(diào)整所述目標比特率。
21.一種具有計算機可讀存儲介質(zhì)的計算機程序產(chǎn)品,所述計算機可讀存儲介質(zhì)具有記錄于其上的可執(zhí)行計算機程序指令,所述可執(zhí)行計算機程序指令用于自適應(yīng)地代碼轉(zhuǎn)換音頻/視頻托管服務(wù)的源音頻流,所述計算機程序指令配置計算機系統(tǒng)以包括 音頻流元數(shù)據(jù)提取模塊,被配置成提取源音頻流的元數(shù)據(jù),所述源音頻流的所述元數(shù)據(jù)描述所述源音頻流的音頻內(nèi)容特性; 音頻流分類模塊,被配置成基于所述源音頻流的所述元數(shù)據(jù)將所述源音頻流分類成多個音頻內(nèi)容類別之一,所述音頻流分類模塊耦合到所述音頻流元數(shù)據(jù)提取模塊; 自適應(yīng)音頻編碼器,被配置成基于所述源音頻流的所述元數(shù)據(jù)和分類來確定一個或者多個代碼轉(zhuǎn)換參數(shù),所述自適應(yīng)音頻編碼器耦合到所述音頻流元數(shù)據(jù)提取模塊和所述音頻流分類模塊;以及 自適應(yīng)音頻代碼轉(zhuǎn)換器,被配置成使用所述代碼轉(zhuǎn)換參數(shù)將所述源音頻流代碼轉(zhuǎn)換成輸出音頻流,并且所述自適應(yīng)音頻代碼轉(zhuǎn)換器耦合到所述自適應(yīng)音頻編碼器。
22.根據(jù)權(quán)利要求21所述的計算機程序產(chǎn)品,其中所述自適應(yīng)音頻編碼器還被配置成基于所述源音頻流的輸入比特率和輸入采樣速率來確定目標比特率。
23.根據(jù)權(quán)利要求22所述的計算機程序產(chǎn)品,其中所述自適應(yīng)音頻編碼器還被配置成線性縮放所述源音頻流的所述輸入比特率和輸入采樣速率以確定所述目標比特率。
24.根據(jù)權(quán)利要求22所述的計算機程序產(chǎn)品,其中所述自適應(yīng)音頻編碼器還被配置成基于所述源音頻流的通道的數(shù)目調(diào)整所述目標比特率。
25.根據(jù)權(quán)利要求22所述的計算機程序產(chǎn)品,其中所述自適應(yīng)音頻編碼器還被配置成基于所述源音頻流的所述分類來調(diào)整所述目標比特率。
26.根據(jù)權(quán)利要求22所述的計算機程序產(chǎn)品,其中所述自適應(yīng)音頻編碼器還被配置成基于所述源音頻流的所述通道的數(shù)目和所述分類來調(diào)整所述目標比特率。
全文摘要
一種系統(tǒng)和方法,提供用于基于音頻流的內(nèi)容特性而自適應(yīng)地代碼轉(zhuǎn)換音頻流的音頻/視頻編碼系統(tǒng)。系統(tǒng)的音頻流元數(shù)據(jù)提取模塊被配置成提取源音頻流的元數(shù)據(jù)。系統(tǒng)的音頻流分類模塊被配置成基于源音頻流的元數(shù)據(jù)將源音頻流分類成若干音頻內(nèi)容類別之一。系統(tǒng)的自適應(yīng)音頻編碼器被配置成基于源音頻流的元數(shù)據(jù)和分類來確定包括目標比特率和采樣速率的一個或者多個代碼轉(zhuǎn)換參數(shù)。系統(tǒng)的自適應(yīng)音頻代碼轉(zhuǎn)換器被配置成使用代碼轉(zhuǎn)換參數(shù)將源音頻流代碼轉(zhuǎn)換成輸出音頻流。
文檔編號G10L19/16GK102985967SQ201180019611
公開日2013年3月20日 申請日期2011年11月1日 優(yōu)先權(quán)日2010年11月2日
發(fā)明者易小泉, 王會勝, V·沙斯特里 申請人:谷歌公司