分層音頻編碼和傳輸?shù)闹谱鞣椒?br>【專利說明】分層音頻編碼和傳輸
[0001] 相關(guān)申請交叉引用
[0002] 本申請要求2013年4月5日遞交的、題為"LAYERED AUDIO CODING AND TRANSMISSION"美國臨時申請No. 61/809, 251的優(yōu)先權(quán),其公開通過引用方式在此整體并 入。
【背景技術(shù)】
[0003] 通常來說,諸如服務(wù)器的計算設(shè)備可以存儲大量音頻數(shù)據(jù)。如果用戶具有合適許 可并連接到服務(wù)器,則他們可以訪問這些音頻數(shù)據(jù)。在一些情形中,具有許可并連接到服務(wù) 器的用戶可以下載音頻數(shù)據(jù)以存儲在本地計算設(shè)備上。下載完成后,用戶可以發(fā)起下載于 本地計算設(shè)備的音頻數(shù)據(jù)的回放。備選地,用戶可以流傳輸音頻數(shù)據(jù),以實時地在本地計算 設(shè)備上播放音頻數(shù)據(jù)(例如,音頻數(shù)據(jù)仍處于下載過程中)。除了流傳輸,用戶可以從包裝 介質(zhì)(例如,光盤,如DVD或藍光盤)訪問用于回放的音頻數(shù)據(jù)。
【發(fā)明內(nèi)容】
[0004] 本公開的一個方面提供生成分層音頻的方法。所述方法包括訪問第一音頻幀和第 二音頻幀。所述方法還包括將第一音頻幀與第二音頻幀相比較。所述方法還包括基于該比 較,識別第一音頻幀的第一部分和第二音頻幀的第二部分之間的相似性。所述方法還包括 用對與第一部分相對應的第一音頻幀中的位置的引用來替換第二音頻幀中的第二部分,以 創(chuàng)建修改的第二音頻幀。所述方法還包括基于第一音頻幀生成第一音頻層。所述方法還包 括基于修改的第二音頻幀生成第二音頻層。所述方法還包括使第一音頻層和第二音頻層可 用于在網(wǎng)絡(luò)上向客戶端設(shè)備傳輸。第一音頻層在網(wǎng)絡(luò)上的傳輸可以需要第一帶寬量,并且 第一音頻層和第二音頻層二者在網(wǎng)絡(luò)上的傳輸可以需要比第一帶寬量更大的第二帶寬量, 從而如果第二帶寬量對客戶端設(shè)備可用,則使客戶端設(shè)備能夠一并接收和輸出第一音頻層 和第二音頻層,與此同時如果第一帶寬量對客戶端設(shè)備可用,仍然使客戶端設(shè)備能夠獲取 和輸出第一音頻層。
[0005] 上一段的方法可以具有以下特征的任何子組合:其中所述方法還包括識別第一音 頻幀中的第三部分和第二音頻幀中的第四部分之間的第二相似性,以及用對與第三部分相 對應的第一音頻幀中的第二位置的第二引用來替換第二音頻幀中的第四部分;其中所述方 法還包括識別第一音頻幀中的第一部分和第二音頻幀中的第三部分之間的第二相似性,以 及用對與第一部分相對應的第一音頻幀中的位置的第二引用來替換第二音頻幀中的第三 部分;其中第一音頻層包括核心音頻層,并且第二音頻層包括對核心音頻層進行補充的擴 展音頻層;其中擴展音頻層包括以下至少一個:對核心音頻層的音頻聲道進行補充的附加 音頻聲道,比核心音頻層的比特率更高的比特率,大于核心音頻層中的比特個數(shù)的比特個 數(shù),或者對核心音頻層的音頻內(nèi)容進行補充的附加音頻內(nèi)容;以及其中所述方法還包括訪 問第三音頻幀,將第一音頻幀和修改的第二音頻幀與第三音頻幀相比較,識別修改的第二 音頻幀中的第三部分和第三音頻幀中的第四部分之間的第二相似性,用對與第三部分相對 應的修改的第二音頻幀中的位置的第二引用來替換第三音頻幀中的第四部分,以創(chuàng)建修改 的第三音頻幀,以及基于第三音頻幀生成第三音頻層。
[0006] 本公開的另一個方面提供一種用于生成分層音頻的系統(tǒng)。所述系統(tǒng)包括音頻幀比 較器,所述音頻幀比較器包括硬件處理器。所述硬件處理器可以被配置為訪問第一音頻幀 和第二音頻幀。所述硬件處理器還可以被配置為將第一音頻幀與第二音頻幀相比較。所 述硬件處理器還可以被配置為基于該比較,識別第一音頻幀的第一部分和第二音頻幀的第 二部分之間的相似性。所述硬件處理器還可以被配置為用對與第一音頻幀的第一部分相對 應的第一音頻幀中的位置的引用來替換第二音頻幀中的第二部分,以創(chuàng)建修改的第二音頻 幀。所述系統(tǒng)還包括層生成器,所述層生成器被配置為基于第一音頻幀生成第一音頻層以 及基于修改的第二音頻幀生成第二音頻層。
[0007] 上一段的系統(tǒng)可以具有以下特征的任何子組合:其中所述系統(tǒng)還包括被配置為在 網(wǎng)絡(luò)上向客戶端設(shè)備提供第一音頻層和第二音頻層的流傳輸模塊;其中所述系統(tǒng)還包括被 配置為將第一音頻層和第二音頻層存儲在計算機可讀存儲介質(zhì)中的記錄模塊;其中所述音 頻幀比較器還被配置為識別第一音頻幀中的第三部分和第二音頻幀中的第四部分之間的 第二相似性,以及用對與第一音頻幀中的第三部分相對應的第一音頻幀中的位置的引用來 替換第二音頻幀中的第四部分;其中第二音頻幀中的第二部分和第二音頻幀中的第四部分 不連續(xù);其中所述第二音頻幀包括第一音頻幀內(nèi)所不包括的第五部分,并且修改的第二音 頻幀中的所述引用和所述第二引用被所述第五部分相分隔;其中所述音頻幀比較器還被配 置為識別第一音頻幀中的第一部分和第二音頻幀中的第三部分之間的第二相似性,以及用 對與第一部分相對應的第一音頻幀中的位置的第二引用來替換第二音頻幀中的第三部分; 其中第一音頻層包括核心音頻層,并且第二音頻層包括對核心音頻層進行補充的擴展音頻 層;其中擴展音頻層包括以下至少一個:對核心音頻層的音頻聲道進行補充的附加音頻聲 道,比核心音頻層的比特率更高的比特率,大于核心音頻層中的比特個數(shù)的比特個數(shù),或者 對核心音頻層的音頻內(nèi)容進行補充的附加音頻內(nèi)容;其中所述音頻幀比較器還被配置為基 于第一音頻幀和修改的第二音頻幀生成散列值;其中所述音頻幀比較器還被配置為訪問第 三音頻幀,將第一音頻幀和修改的第二音頻幀與第三音頻幀相比較,以及識別修改的第二 音頻幀中的第三部分和第三音頻幀中的第四部分之間的第二相似性;其中所述音頻幀比較 器還被配置為,用對與第三部分相對應的修改的第二音頻幀中的位置的引用來替換第三音 頻幀中的第四部分,以創(chuàng)建修改的第三音頻幀;其中所述層生成器還被配置為基于修改的 第三音頻幀生成第三音頻層;以及其中所述流傳輸模塊還被配置為在網(wǎng)絡(luò)上向客戶端設(shè)備 提供第三音頻層,其中第一音頻層、第二音頻層以及第三音頻層在網(wǎng)絡(luò)上的傳輸需要第三 帶寬量。
[0008] 本公開的另一個方面提供一種非瞬態(tài)物理計算機存儲器,包括存儲在其上的可執(zhí) 行指令,所述可執(zhí)行指令在被硬件處理器執(zhí)行時被配置為至少訪問第一音頻幀和第二音頻 幀。所述可執(zhí)行指令還被配置為至少將第一音頻幀與第二音頻幀相比較。所述可執(zhí)行指令 還被配置為至少基于該比較識別第一音頻幀的第一部分和第二音頻幀的第二部分之間的 相似性。所述可執(zhí)行指令還被配置為至少用對與第一部分相對應的第一音頻幀中的位置的 引用來替換第二音頻幀中的第二部分,以創(chuàng)建修改的第二音頻幀。所述可執(zhí)行指令還被配 置為至少基于第一音頻幀生成第一音頻層。所述可執(zhí)行指令還被配置為至少基于修改的第 二音頻幀生成第二音頻層。
[0009] 上一段的非瞬態(tài)物理計算機存儲器可以具有以下特征的任何子組合:其中所述可 執(zhí)行指令還被配置為至少,識別第一音頻幀中的第三部分和第二音頻幀中的第四部分之間 的第二相似性,以及用對與第三部分相對應的第一音頻幀中的第二位置的第二引用來替換 第二音頻幀中的第四部分;其中所述可執(zhí)行指令還被配置為至少,識別第一音頻幀中的第 一部分和第二音頻幀中的第三部分之間的第二相似性,以及用對與第一部分相對應的第一 音頻幀中的位置的第二引用來替換第二音頻幀中的第三部分;其中第一音頻層包括核心音 頻層,并且第二音頻層包括對核心音頻層進行補充的擴展音頻層;其中擴展音頻層包括以 下至少一個:對核心音頻層的音頻聲道進行補充的附加音頻聲道,比核心音頻層的比特率 更高的比特率,大于核心音頻層中的比特個數(shù)的比特個數(shù),或者對核心音頻層的音頻內(nèi)容 進行補充的附加音頻內(nèi)容。
[0010] 本公開的另一個方面提供一種重建音頻流的方法。所述方法包括在網(wǎng)絡(luò)上訪問服 務(wù)器,以獲取第一音頻層和第二音頻層。所述方法還包括接收第一音頻層和第二音頻層,第 一和第二音頻層中每一個都包括多個音頻幀。第一音頻層可以包括基層并且第二音頻層可 以包括對基層的增強。所述方法還可以包括識別第二音頻層的第一音頻幀中的引用。所述 引用可以指示第一音頻層的第二音頻幀中的位置,所述引用是音頻數(shù)據(jù)的替換。所述方法 還包括用與引用所指示的位置相對應的第一音頻層的第二音頻幀中的音頻數(shù)據(jù)的第一部 分替換第二音頻層的第一音頻幀中的引用。所述方法還包括向解碼器或揚聲器輸出第二音 頻層,從而實現(xiàn)替代基層的、對要回放的基層的增強。
[0011] 上一段的方法可以具有以下特征的任何子組合:所述方法還包括在識別引用前, 從第一音頻幀中提取散列值,以及將所述散列值與第一音頻幀中的第二部分和第二音頻幀 中的第三部分相比較;所述方法還包括如果第一音頻幀中的第二部分和第二音頻幀中的第 三部分與所述散列值不匹配,輸出第一音頻層;其中第一音頻幀包括引用和不涉及另一個 音頻幀的數(shù)據(jù);以及所述方法還包括基于第二音頻幀中的第一部分和第一音頻幀中不涉及 另一個音頻幀的數(shù)據(jù),生成第三音頻幀。
[0012] 本公開的另一個方面提供一種用于重建音頻流的系統(tǒng)。所述系統(tǒng)包括包括硬件處 理器的層構(gòu)建器,所述硬件處理器被配置為訪問第一音頻層和第二音頻層。所述硬件處理 器還可以被配置為識別第二音頻層的第一音頻幀中的引用。所述引用可以指示第一音頻層 的第二音頻幀中的位置。所述硬件處理器還可以被配置為用與引用所指示的位置相對應的 第二音頻層中的第一部分替換第一音頻幀中的引用。所述硬件處理器還可以被配置為輸出 第二音頻層。
[0013] 上一段的系統(tǒng)可以具有以下特征的任何子組合:所述層構(gòu)建器還被配置為在識別 引用前從第一音頻幀中提取散列值,以及將所述散列值與第一音頻幀中的第二部分和第二 音頻幀中的第三部分相比較;所述層構(gòu)建器還被配置為如果第一音頻幀中的第二部分和第 二音頻幀中的第三部分與所述散列值不匹配,輸出第一音頻層;所述系統(tǒng)還包括被配置為 在網(wǎng)絡(luò)上訪問服務(wù)器以獲取第一音頻層和第二音頻層的網(wǎng)絡(luò)通信設(shè)備,其中所述處理器還 被配置為從所述網(wǎng)絡(luò)通信設(shè)備訪問第一音頻層和第二音頻層;所述系統(tǒng)還包括被配置為讀 取計算機可讀存儲介質(zhì)的計算機可讀存儲介質(zhì)讀取器,其中所述計算機可讀存儲介質(zhì)包括 第一音頻層和第二音頻層;所述處理器還被配置為經(jīng)由計算機可讀存儲介質(zhì)讀取器從計算 機可讀存儲介質(zhì)訪問第一音頻層和第二音頻層;第一音頻幀包括引用和不涉及另一個音頻 幀的數(shù)據(jù);所述層構(gòu)建器還被配置為基于第二音頻幀中的第一部分和第一音頻幀中不涉及 另一個音頻幀的數(shù)據(jù),生成第三音頻幀;所述層構(gòu)建器還被配置為按照引用和第一音頻幀 中不涉及另一個音頻幀的數(shù)據(jù)在第一音頻幀中出現(xiàn)的順序,生成第三音頻幀;所述系統(tǒng)還 包括被配置為對第三音頻幀進行解碼的解碼器,其中所述解碼器還被配置為向揚聲器輸出 已解碼的第三音頻幀。
[0014] 本公開的另一個方面提供一種非瞬態(tài)物理計算機存儲器,包括存儲在其上的可執(zhí) 行程序指令,所述可執(zhí)行程序指令在被硬件處理器執(zhí)行時被配置為至少訪問第一音頻層和 第二音頻層。所述可執(zhí)行程序指令還被配置為至少識別第二音頻層的第一音頻幀中的引 用。所述引用指示第一音頻層的第二音頻幀中的位置。所述可執(zhí)行程序指令還被配置為至 少用與引用所指示的位置相對應的第二音頻層中的第一部分替換第一音頻幀中的引用。所 述可執(zhí)行程序指令還被配置為至少輸出第二音頻層。
[0015] 上一段的非瞬態(tài)物理計算機存儲器可以具有以下特征的任何子組合:所述可執(zhí)行 指令還被配置為至少,在識別引用前從第一音頻幀中提取散列值,以及將所述散列值與第 一音頻幀中的第二部分和第二音頻幀中的第三部分相比較;所述可執(zhí)行指令還被配置為至 少如果第一音頻幀中的第二部分和第二音頻幀中的第三部分與所述散列值不匹配,輸出第 一音頻層;所述可執(zhí)行指令還被配置為至少在網(wǎng)絡(luò)上訪問服務(wù)器以獲取第一音頻層和第二 音頻層;所述可執(zhí)行指令還被配置為至少讀取計算機可讀存儲介質(zhì),并且所述計算機可讀 存儲介質(zhì)包括第一音頻層和第二音頻層。
[0016] 為概述本公開的目的,在此已描述本發(fā)明的某些方法、優(yōu)點和新穎特征。應當理 解,根據(jù)本公開的發(fā)明的任何實施例,其不必實現(xiàn)全部這些優(yōu)點。因此,本公開的發(fā)明可以 體現(xiàn)或執(zhí)行為實現(xiàn)或優(yōu)化本文所教導的一個優(yōu)點或一組優(yōu)點,而不必實現(xiàn)本文所教導或建 議的其他優(yōu)點。
【附圖說明】
[0017] 在全部附圖中,重復使用附圖標記以指示參照元件之間的對應關(guān)系。提供附圖以 示出本文所描述的發(fā)明的實施例,而不對其范圍進行限制。
[0018] 圖1示出了音頻分層環(huán)境的實施例。
[0019] 圖2A示出了基層段和增強層段的示例性框圖。
[0020] 圖2B示出了基層段和備選增強層段的示例性框圖。
[0021] 圖3示出了圖1的音頻分層環(huán)境的工作流的示例性框圖。
[0022] 圖4示出了示例性增強層音頻塊。
[0023] 圖5示出了分層音頻塊的示例性元數(shù)據(jù)結(jié)構(gòu)。
[0024] 圖6A-E示出了音頻層編碼處理的實施例。
[0025] 圖7A-C示出了用命令替換相同數(shù)據(jù)的示例性特征。
[0026] 圖8A-B示出了音頻層解構(gòu)處理的實施例。
[0027] 圖9示出了用于生成分層音頻的處理的實施例。
[0028] 圖10示出了用于重構(gòu)音頻流的處理的實施例。
[0029] 圖11示出了用于重構(gòu)音頻