專利名稱:立體聲編碼裝置、立體聲解碼裝置、及立體聲編碼方法
技術領域:
本發(fā)明涉及立體聲編碼裝置、立體聲解碼裝置、以及立體聲編碼方法,用于在諸如移動通信系統(tǒng)或使用因特網(wǎng)協(xié)議(IP: Internet Protocol)的分組通 信系統(tǒng)中,對立體聲話音(speech)信號或立體聲音頻信號進行編碼及解碼。
背景技術:
在諸如移動通信系統(tǒng)或使用IP的分組通信系統(tǒng)中,DSP (Digital Signal Processor:數(shù)字信號處理器)對于數(shù)字信號處理速度及帶寬的限制正逐漸變 得寬松。隨著傳輸速率更進一步的高比特率化,將能夠確保用于多信道傳輸 的頻帶,因此,即使在以單聲道方式為主流的話音通信中,也將可以期待基 于立體聲方式的通信(立體聲通信)的普及?,F(xiàn)在的移動電話已經(jīng)可以搭載具有立體聲功能的多媒體播放器或FM收 音機等功能。因此,向第四代的移動電話及IP電話等不僅追加立體聲音頻信 號的錄音及播放功能,并且追加立體聲話音信號的錄音及播放等功能將是很 自然的事情。以前,提起對立體聲信號進行編碼,存在多種方法,代表性的有非專利 文獻1所記載的MPEG-2 AAC (Moving Picture Experts Group-2 Advanced Audio Coding:活動圖像專家組-2高級音頻編碼)。MPEG-2 AAC能夠將信號 編碼成單聲道、立體聲、及多聲道。MPEG-2 AAC利用MDCT (Modified Discrete Cosine Transform:改進離散余弦變換)處理將時域信號變換為頻域 信號,并基于人類聽覺系統(tǒng)的原理,對編碼引起的噪聲進行掩蔽而將其抑制 在人類的可聽范圍以下的水平,由此實現(xiàn)高音質(zhì)。非專利文獻1 ISO/IEC 13818-7: 1997-MPEG-2 Advanced Audio Coding ( AAC )
發(fā)明內(nèi)容
發(fā)明要解決的課題然而,MPEG-2 AAC存在一個問題,即它更適合于音頻信號,而不適合于話音信號。MPEG-2 AAC通過抑制音頻信號通信中不重要的頻譜信息的量 化比特數(shù),由此在實現(xiàn)具有立體感的良好音質(zhì)的同時,將比特率向低抑制。 但是,由于比特率的減少引起的話音信號的音質(zhì)的惡化相比于音頻信號更大, 因此即使是在音頻信號的情況下能夠得非常良好的音質(zhì)的MPEG-2AAC,當 將其適用到話音信號時,則有可能得不到滿意的音質(zhì)。MPEG-2 AAC的另一個問題是起因于算法的延遲。用于MPEG-2AAC的 幀的大小為1024樣本/幀。例如,如果采樣頻率超過32kHz,則幀的延遲將為 32毫秒以下,這對實時語音通信系統(tǒng)來說是可以容許的延遲。但是,MPEG-2 AAC為了對編碼信號進行解碼,必須進行MDCT處理,而對相鄰的兩個幀 進行重疊相加(overlap and add ),因此必然產(chǎn)生此算法引起的處理延遲,而 不適合于實時通信系統(tǒng)。另夕卜,為了降低比特率,也可以進行AMR-WB ( Adaptive Multi-Rate Wide Band:自適應多速率寬帶)方式的編碼,根據(jù)此方法,較之于MPEG-2AAC 只需要二分之一以下的比特率即可。但是,AMR-WB方式的編碼存在一個問 題,即它只支持單聲道語音信號。本發(fā)明的目的在于提供一種能夠用低比特率對立體聲信號進行高精度的 編碼,并能夠抑制諸如語音通信等中的延遲的立體聲編碼裝置、立體聲解碼 裝置、及立體聲編碼方法。用于解決課題的手段本發(fā)明的立體聲編碼裝置所采用的結構包括時域評價(estimation)單 元,對立體聲信號的第一聲道信號進行時域上的評價,并對該評價結果進行 編碼;以及頻域評價單元,將所述第一聲道信號的頻帶分割成多個,對各頻 帶的所述第 一聲道信號進行頻域上的評價,并對該評價結果進行編碼。發(fā)明的效果根據(jù)本發(fā)明,能夠用低比特率對立體聲信號進行高精度的編碼,并能夠 抑制諸如語音通信等中的延遲。
圖1為表示本發(fā)明的實施方式的立體聲編碼裝置的主要結構的方框圖、 圖2為表示本發(fā)明的實施方式的時域評價單元的主要結構的方框圖、 圖3為表示本發(fā)明的實施方式的頻域評價單元的主要結構的方框圖、圖4為用于說明本發(fā)明的實施方式的比特分配控制單元的動作的流程 圖、以及圖5為表示本發(fā)明的實施方式的立體聲解碼裝置的主要結構的方框圖。
具體實施方式
下面,參照附圖詳細說明本發(fā)明的實施方式。圖1為表示本發(fā)明的實施方式的立體聲編碼裝置100的主要結構的方框圖。立體聲編碼裝置100采用分層結構,主要由第一層110及第二層120構成。在第一層110中,基于構成立體聲話音信號的左聲道信號L及右聲道信 號R生成單聲道信號M,并對此單聲道信號進行編碼生成編碼信息Pa及単 聲道驅動聲源信號eM。第一層110由單聲道合成單元101及單聲道編碼單元 102構成,各單元進行以下處理。單聲道合成單元101基于左聲道信號L及右聲道信號R合成單聲道信號 M。這里,通過求左聲道信號L及右聲道信號R的平均值而合成單聲道信號 M。用公式表示此方法,則為M二(L+R)/2。另外,作為單聲道信號的合成 方法,使用其它方法亦可,用公式表示其中一例,為MNw,L+w2r。在此公式 中,w, 、 w2為滿足w,+w產(chǎn)l .0關系的加權系數(shù)。單聲道編碼單元102采用AMR-WB方式的編碼裝置的結構。單聲道編 碼單元102對從單聲道合成單元101輸出的單聲道信號M以AMR-WB方式 進行編碼,求出編碼信息pa并輸出到復用單元108。另外,單聲道編碼單元 102將編碼過程中所得到的單聲道驅動聲源信號eM輸出到第二層120。在第二層120中,對立體聲話音信號進行時域及頻域上的評價及預測 (prediction and estimation),生成各種編碼信息。在此處理中,首先檢測并計 算出構成立體聲話音信號的左聲道信號L所具有的空間性信息。立體聲話音 信號基于此空間性信息產(chǎn)生現(xiàn)場感(擴音感)。接著,通過將此空間性信息賦 予單聲道信號,生成與左聲道信號L相似的評價信號。然后,將關于各個處 理的信息作為編碼信息輸出。第二層120由濾波單元103、時域評價單元104、 頻域評價單元105、殘差編碼單元106、及比特分配控制單元107構成,各單 元進行如下的動作。濾波單元103通過LPC ( Linear Predictive Coding:線性預測編碼)分析, 基于左聲道信號L生成LPC系數(shù),并作為編碼信息PF輸出到復用單元108。 另外,濾波單元103利用左聲道信號L及LPC系數(shù)生成左聲道驅動聲源信號 e^,并輸出到時域評價單元104。時域評價單元104對在第一層110的單聲道編碼單元102中生成的單聲 道驅動聲源信號eM及在濾波單元103中生成的左聲道驅動聲源信號e^進行時 域上的評價及預測,生成時域評價信號eestl,并輸出到頻域評價單元105。即, 時域評價單元104檢測并計算出單聲道驅動聲源信號eM與左聲道驅動聲源信 號et之間在時域上的空間性信息。頻域評價單元105對在濾波單元103中生成的左聲道驅動聲源信號&及 在時域評價單元104中生成的時域評價信號eestl進行頻域上的評價及預測, 生成頻域評價信號eest2,并輸出到殘差編碼單元106。即,頻域評價單元105 檢測并計算出時域評價信號eestl與左聲道驅動聲源信號eL之間在頻域上的空 間性信息。殘差編碼單元106求在頻域評價單元105中生成的頻域評價信號e^與 在濾波單元103中生成的左聲道驅動聲源信號ei之間的殘差信號,并對該信 號進行編碼,生成編碼信息PE,并輸出到復用單元108。比特分配控制單元107根據(jù)在單聲道編碼單元102中生成的單聲道驅動 聲源信號eM與在濾波單元103中生成的左聲道驅動聲源信號eL的相似情況, 向時域評價單元104、頻域評價單元105、及殘差編碼單元106分配編碼比特。 另夕卜,比特分配控制單元107對關于分配到各單元的比特數(shù)的信息進行編碼, 并輸出所得到的編碼信息PB。復用單元108將Pa到Pp的編碼信息進行復用,并輸出經(jīng)過復用的比特'、六與立體聲編碼裝置IOO相對應的立體聲解碼裝置取得在第一層110中生 成的單聲道信號的編碼信息PA、以及在第二層120中生成的左聲道信號的編 碼信息Pb至Pf,基于這些編碼信息能夠解碼出單聲道信號及左聲道信號。而 且,基于解碼出的單聲道信號及左聲道信號還能夠生成右聲道信號。圖2為表示時域評價單元104的主要結構的方框圖。時域評價單元104 輸入單聲道驅動聲源信號eM作為目標信號,并輸入左聲道驅動聲源信號eL 作為參照信號。時域評價單元104在話音信號處理的每一幀,;險測并計算一次單聲道驅動聲源信號eM與左聲道驅動聲源信號eL之間的空間性信息,并將 這些結果編碼,輸出編碼信息Pc。這里,時域上的空間性信息由振幅信息oc及延遲信息t構成。能量計算單元141-1輸入單聲道驅動聲源信號eM,計算該信號在時域上 的能量。能量計算單元141-2輸入左聲道驅動聲源信號eL,通過與能量計算單元 141-1同樣的處理,計算左聲道驅動聲源信號eL在時域上的能量。比率計算單元142輸入分別在能量計算單元141-1及141-2中算出的能量 值,計算單聲道驅動聲源信號eM與左聲道驅動聲源信號eL之間的能量比,作 為單聲道驅動聲源信號eM與左聲道驅動聲源信號eL之間的空間性信息(振幅 信息a )輸出。相關值計算單元143輸入單聲道驅動聲源信號eM及左聲道驅動聲源信號 eL,計算這兩個信號之間的互相關值(cross correlation )。延遲檢測單元144輸入在相關值計算單元143中算出的互相關值,檢測 出左聲道驅動聲源信號eL與單聲道驅動聲源信號eM之間的時間延遲,作為單 聲道驅動聲源信號eM與左聲道驅動聲源信號eL之間的空間性信息(延遲信息 t)輸出。評價信號生成單元145基于在比率計算單元142中算出的振幅信息a及 在延遲檢測單元144中算出的延遲信息t,從單聲道驅動聲源信號eM生成與 左聲道驅動聲源信號et相似的時域評價信號eestl。這樣,時域評價單元104在話音信號處理的每一幀,;險測并計算一次單 聲道驅動聲源信號eM與左聲道驅動聲源信號eL之間在時域上的空間性信息, 并輸出所得到的編碼信息Pc。這里,空間性信息由振幅信息a及延遲信息t 構成。另外,時域評價單元104將該空間性信息賦予單聲道驅動聲源信號eM, 而生成與左聲道驅動聲源信號eL相似的時域評價信號eestl。圖3為表示頻域評價單元105的主要結構的方框圖。頻域評價單元105 輸入由時域評價單元104生成的時域評價信號eestI作為目標信號,并輸入左 聲道驅動聲源信號e^作為參照信號,進行頻域上的評價及預測,并對這些結 果進行編碼,輸出編碼信息Po。這里,頻域上的空間性信息由頻譜的振幅信息卩及相位差信息e構成。FFT單元151-1通過高速傅立葉變換(FFT),將時域信號的左聲道驅動聲源信號et變換為頻域信號(頻譜)。分割單元152-1將在FFT單元151-1中生成的頻域信號的頻帶分割成多 個頻帶(子帶)。各子帶可以依循與人類聽覺系統(tǒng)相應的吼叫范圍(Bark Scale),也可以在頻寬內(nèi)進行等分。能量計算單元153-1按從分割單元152-1輸出的各子帶計算左聲道驅動聲 源信號eL的頻譜能量。FFT單元151-2通過與FFT單元151-1相同的處理,將時域評價信號eestl 變換為頻域信號。分割單元152-2通過與分割單元152-1相同的處理,將在FFT單元151-2 中生成的頻域信號的頻帶分割成多個子帶。能量計算單元153-2通過與能量計算單元153-1相同的處理,按從分割單 元152-2輸出的各子帶計算時域評價信號eestl的頻譜能量。比率計算單元154利用在能量計算單元153-1及能量計算單元153-2中算 出的各子帶的頻譜能量,按各子帶計算左聲道驅動聲源信號ei與時域評價信 號eestl之間的頻譜能量比,作為構成編碼信息PD的一部分的振幅信息卩輸出。相位計算單元155-1計算左聲道驅動聲源信號eL在各子帶上的各頻譜的 相位。相位選擇單元156為了削減編碼信息的信息量,從各子帶上的頻譜的相 位中,選擇一個適合于編碼的相位。相位計算單元155-2通過與相位計算單元155-1同樣的處理,計算時域評 價信號e^在各子帶上的各頻譜的相位。相位差計算單元157在由相位選擇單元156選擇的各子帶上的相位上, 計算左聲道驅動聲源信號e^與時域評價信號eesu之間的相位差,作為構成編 碼信息PD的一部分的相位差信息e輸出。評價信號生成單元158基于左聲道驅動聲源信號e^與時域評價信號eestl 之間的振幅信息(3,以及左聲道驅動聲源信號ei與時域評價信號eesu之間的 相位差信息e的兩方面,從時域評價信號eestl生成頻域評價信號eest2。這樣,頻域評價單元105將左聲道驅動聲源信號ei及在時域評價單元104 中生成的時域評價信號eestl分別分割成多個子帶,按各子帶計算時域評價信 號eestl與左聲道驅動聲源信號e^之間的頻譜能量比及相位差。由于時域上的 時間延遲等價于頻域上的相位差,通過計算出頻域上的相位差,并準確地調(diào)整及控制該相位差,能夠借助于頻域,對在時域沒能充分編碼的特征進行編 碼,從而進一步提高編碼精度。頻域評價單元105將通過頻域評價算出的細微的差異賦給通過時域評價得到的與左聲道驅動聲源信號相似的時域評價 信號eesu,而生成與左聲道驅動聲源信號eL更加相似的頻域評價信號eest2。另 外,頻域評價單元105將該空間性信息賦予時域評價信號eestl,而生成與左 聲道驅動聲源信號eL更加相似的頻域評價信號eest2。接著,詳細說明比特分配控制單元107的動作。對于話音信號的各個幀, 用于編碼所分配的比特數(shù)是事先預定好的。比特分配控制單元107為了以該 預定的比特率實現(xiàn)最優(yōu)的話音質(zhì)量,根據(jù)左聲道驅動聲源信號e^與單聲道驅 動聲源信號eM是否相似,自適應地決定分配給各處理單元的比特數(shù)。圖4為用于說明比特分配控制單元107的動作的流程圖。在ST (步驟)1071中,比特分配控制單元107將單聲道驅動聲源信號 eM與左聲道驅動聲源信號e^進行比較,判斷在時域上的這兩個信號的相似情 況。具體地,比特分配控制單元107計算單聲道驅動聲源信號eM與左聲道驅 動聲源信號et的均方誤差,將其與既定的閾值進行比較,如果為閾值以下, 則判斷這兩個信號相似。當單聲道驅動聲源信號eM與左聲道驅動聲源信號eL相似時(ST1072: 是),這兩個信號在時域上的差較小,而對較小的差進行編碼則只需要較少的 比特數(shù)。即,如果進行不均勻的比特分配,比如向時域評價單元104分配較 少的比特,而向其它各單元(頻域評價單元105、殘差編碼單元106),尤其 是頻域評價單元105分配較多的比特,則因為是高效的比特分配,所以編碼 效率將得到改善。因此,比特分配控制單元107當在ST1072中判斷為相似時, 則在ST1073中向時域評價分配較少數(shù)目的比特,而在ST1074中將其余的比 特均勻地分配給其它處理。另一方面,當單聲道驅動聲源信號eM與左聲道驅動聲源信號ei不相似時 (ST1072:否),兩個時域信號之間的差則較大,時域評價只能評價到一定程 度為止的相似性,而為了提高評價信號的精度,頻域上的信號評價也很重要。 因此,時域評價及頻域評價的兩方面同等地重要。另外,此時,即使在頻域 評價之后,評價信號與左聲道驅動聲源信號eL之間還有可能留有差異,因此 對殘差也進行編碼并得到編碼信息這一處理很重要。所以,比特分配控制單 元107當在ST1072中判斷出單聲道驅動聲源信號eM與左聲道驅動聲源信號e^不相似時,在ST1075中視所有的處理同等地重要,而向所有的處理均勻地分配比特。圖5為表示本實施方式的立體聲解碼裝置200的主要結構的方框圖。立體聲解碼裝置200也同立體聲編碼裝置IOO—樣采用分層結構,主要 由第一層210及第二層220構成。而且,立體聲解碼裝置200中的各種處理, 基本上與立體聲編碼裝置100中相應的各種處理相反。即立體聲解碼裝置200 利用從立體聲編碼裝置IOO發(fā)送來的編碼信息,從單聲道信號預測并生成左 聲道信號,進一步利用單聲道信號及左聲道信號生成右聲道信號。分離單元201將輸入的比特流分離為Pa至Pp的編碼信息。第一層210由單聲道解碼單元202構成。單聲道解碼單元202對編碼信 息PA進行解碼,生成單聲道信號M'及單聲道驅動聲源信號eM,。第二層220由比特分配信息解碼單元203、時域評^T單元204、頻域評價 單元205、及殘差解碼單元206構成,各單元進行以下動作。比特分配信息解碼單元203對編碼信息Ps進行解碼,輸出分別用于時域 評價單元204、頻域評價單元205、及殘差解碼單元206的比特數(shù)。時域評價單元204利用在單聲道解碼單元202中生成的單聲道驅動聲源 信號eM,、從分離單元201輸出的編碼信息Pc、及從比特分配信息解碼單元 203輸出的比特數(shù),進行時域上的評價及預測,生成時域評價信號eestl'。頻域評價單元205利用在時域評價單元204中生成的時域評價信號eestl'、 從分離單元201輸出的編碼信息PD、及從比特分配信息解碼單元203傳來的 比特數(shù),進行頻域上的評價及預測,生成頻域評價信號eest2,。頻域評價單元 205同立體聲編碼裝置100的頻域評價單元105 —樣,具有FFT單元,在進 行頻域上的評價及預測之前,進行頻率變換。殘差解碼單元206利用從分離單元201輸出的編碼信息PE、及從比特分 配信息解碼單元203傳來的比特數(shù)解碼出殘差信號。另外,殘差解碼單元206 將解碼出的該殘差信號賦給在頻域評價單元205中生成的頻域評價信號eest2' 而生成左聲道驅動聲源信號eL,。合成濾波單元207從編碼信息Pj:解碼出LPC系數(shù),并將該LPC系數(shù)與 在殘差解碼單元206中生成的左聲道驅動聲源信號eL,進行合成,從而生成 左聲道信號L,。立體聲變換單元208利用在單聲道解碼單元202中解碼出的單聲道信號M,、及在合成濾波單元207中生成的左聲道信號L,生成右聲道信號R,。這樣,根據(jù)本實施方式的立體聲編碼裝置,對作為編碼對象的立體聲話 音信號,首先在時域進行評價及預測之后,在頻域進行更詳細的評價及預測, 將有關于這兩個階段的評價及預測的信息作為編碼信息輸出。因此,對于利 用時域上的評價及預測沒能充分表達的信息,能夠在頻域進行補充性的評價 及預測,能夠用低比特率對立體聲信號進行高精度的編碼。又,根據(jù)本實施方式,在時域評價單元104中的時域評價相當于對全頻帶中的信號的空間性信息的平均水平進行評價。例如,作為空間性信息在時域評價單元104中求得的能量比及時間延遲,是將一個幀的編碼對象的信號 直接作為一個信號進行處理而求得的該信號整個的或平均的能量比及時間延 遲。另一方面,在頻域評價單元105中的頻域評價則將編碼對象信號的頻帶 分割成多個子帶,并對該該細化了的各個信號進行評價。換言之,根據(jù)本實 施方式,先在時域對立體聲話音信號進行大概的評價之后,再通過在頻域進 行更進一步的評價,進行評價信號的細微調(diào)整。因此,對于將編碼對象的信 號看作一個信號處理時沒能充分表達出來的信息,細分為多個信號,進行更 進一步的評價,從而能夠提高立體聲話音信號的編碼精度。又,在本實施方式中,根據(jù)單聲道信號與左聲道信號(或右聲道信號) 的相似情況,即根據(jù)立體聲信號的狀態(tài),在預定的比特率的范圍內(nèi),對時域 評價、頻域評價等各個處理自適應地分配比特。由此,能夠進行高效且高精 度的編碼,同時能夠實現(xiàn)比特率的可擴展(scalability )。又,根據(jù)本實施方式,因為不再需要對于MPEG-2 AAC來說必須的MDCT 處理,所以在諸如實時話音通信系統(tǒng)等中,能夠將時間延遲抑制在容許范圍 限度之內(nèi)。又,根據(jù)本實施方式,因為在時域評價中,利用如能量比及時間延遲這 樣的較少的參數(shù)進行編碼,所以能夠削減比特率。又,根據(jù)本實施方式,因為采用由兩.層構成的分層結構,所以能夠從單 聲道水平擴展(scaling)到立體聲水平。因此,即使在由于某種原因不能夠 解碼出有關于頻域評價的信息時,也能夠通過只解碼出有關于時域評價的信 息,來解碼出雖然質(zhì)量有所惡化但為預定質(zhì)量的立體聲話音信號,從而能夠 提高可擴展性。又,根據(jù)本實施方式,因為在第一層利用AMR-WB方式對單聲道信號進行編碼,所以能夠向低抑制比特率。另外,可以對本實施方式的立體聲編碼裝置、立體聲解碼裝置、及立體 聲編碼方法進行各種變更而進行實施。比如,雖然在本實施方式中以這樣一種情形為例進行了說明,即在立體 聲編碼裝置100中以單聲道信號及左聲道信號作為編碼對象,而立體聲解碼裝置200通過解碼出單聲道信號及左聲道信號并合成這些解碼信號,解碼出 右聲道信號,但立體聲編碼裝置IOO的編碼對象的信號并不限于此,也可以 在立體聲編碼裝置100中將單聲道信號及右聲道信號作為編碼對象,而立體 聲解碼裝置200通過合成解碼出的右聲道信號及單聲道信號,生成左聲道信號又,在本實施方式的濾波單元103中,作為LPC系數(shù)的編碼信息,也可 以使用將LPC系數(shù)進行變換而得的其它的等價的參數(shù)(例如LSP參數(shù))。又,雖然在本實施方式中,由比特分配控制單元107將預定數(shù)目的比特 分配給各個處理,^旦也可以不進行比特分配控制處理,而進行固定比特分配, 即事先定好各單元所使用的比特數(shù)。此時,立體聲編碼裝置100中將不再需 要比特分配控制單元107。另外,該固定的比特分配的比例對于立體聲編碼 裝置100及立體聲解碼裝置200是共同的,從而立體聲解碼裝置200中也將 不再需要比特分配信息解碼單元203。又,雖然本實施方式的比特分配控制單元107根據(jù)立體聲話音信號的情 況自適應地進行比特分配,但也可以根據(jù)網(wǎng)絡的情況自適應地進行比特分配。又,如果使本實施方式的殘差編碼單元106使用由比特分配控制單元107 所分配的預定數(shù)目的比特進行編碼,則可得到損耗(lossy)系統(tǒng)。作為使用 預定數(shù)目的比特的編碼,例如有矢量量化。 一般,殘差編碼單元根據(jù)編碼方 法的不同,可得到不同特性的所謂的損耗系統(tǒng)或無損耗(lossless)系統(tǒng)。較 之于損耗系統(tǒng),無損耗系統(tǒng)雖然具有在解碼裝置能夠更加準確地對信號進行 解碼的特性,但因壓縮率較低,所以比特率變高。例如,在殘差編碼單元106 中,如果使用霍夫曼(Huffman)編碼、賴斯(Rice )編碼等無噪聲(noiseless ) 編碼方法對殘差信號進行編碼,則可得到無損耗系統(tǒng)。又,雖然在本實施方式中,比率計算單元142計算出單聲道驅動聲源信 號eM與左聲道驅動聲源信號et之間的能量比作為振幅信息cc ,但也可以計算 出能量差來代替能量比作為振幅信息a 。又,雖然在本實施方式中,比率計算單元154計算出各子帶上的左聲道驅動聲源信號e^與時域評價信號e^之間的頻鐠能量比(3作為振幅信息卩, 但也可以計算出能量差來代替能量比作為振幅信息(3。又,雖然在本實施方式中,單聲道驅動聲源信號eM與左聲道驅動聲源信 號eL之間在時域上的空間性信息由振幅信息a及延遲信息i;構成,但該空間 性信息也可以進一步包含其它的信息,或者由完全不同于振幅信息a及延遲信息T等的其它信息構成。又,雖然在本實施方式中,左聲道驅動聲源信號eL與時域評價信號e^ 之間在頻域上的空間性信息由振幅信息(3及相位差信息e構成,但該空間性 信息也可以進一步包含其它的信息,也可以由完全不同于振幅信息卩及相位差信息e等的其它信息構成。又,雖然在本實施方式中,時域評價單元104按各個幀檢測并計算單聲 道驅動聲源信號eM與左聲道驅動聲源信號eL之間的空間性信息,但也可以在 一個幀內(nèi)多次進行該處理。又,雖然在本實施方式中,相位選擇單元156在各子帶中選擇一個頻譜 相位,但也可以選擇多個頻譜相位。此時,相位差計算單元157計算左聲道 驅動聲源信號e^與時域評價信號eest,之間在該多個相位上的相位差9的平均, 并輸出到評價信號生成單元158。又,雖然在本實施方式中,殘差編碼單元106對殘差信號進行時域編碼, 4旦也可以進4于頻域編碼。又,雖然在本實施方式中,以編碼對象是話音信號的情形為例進行了說 明,但本發(fā)明立體聲編碼裝置、立體聲解碼裝置、及立體聲編碼方法除了話 音信號以外,也可以適用于音頻信號。以上,對本發(fā)明的實施方式進行了說明。本發(fā)明的立體聲編碼裝置及立體聲解碼裝置可以搭載到移動通信系統(tǒng)中 的通信終端裝置及基站裝置上,由此可以提供具有與上述同樣的作用效果的 通信終端裝置、基站裝置、及移動通信系統(tǒng)。又,此處,雖然以用硬件實現(xiàn)本發(fā)明的情形為例進行了說明,但本發(fā)明 也可以用軟件實現(xiàn)。例如,可以用編程語言記述本發(fā)明的立體聲編碼方法及 立體聲解碼方法的算法,將此程序存儲于存儲器中,通過用信息處理單元執(zhí) 行,可以實現(xiàn)與本發(fā)明的立體聲編碼裝置及立體聲解碼裝置相同的功能。又,用來說明上述各實施方式的各功能模塊,典型地由集成電路LSI(大 規(guī)模集成電路)來實現(xiàn)。這些功能塊既可以分別實行單芯片化,也可以包括 其中 一部分或者全部而實行單芯片化。這里,雖然稱作LSI,但根據(jù)集成度的不同也可以稱為IC (集成電路)、 系統(tǒng)LSI (系統(tǒng)大規(guī)模集成電路)、超大LSI (超大規(guī)模集成電路)、極大LSI (極大規(guī)模集成電路)等。另外,集成電路化的技術不限于LSI,也可以使用專用電路或通用處理 器來實現(xiàn)。也可以利用制造LSI后能夠編程的FPGA(Field Programmable Gate Array,現(xiàn)場可編程門陣列),或可以利用能夠將LSI內(nèi)部的電路塊連接或設定 重新配置的可重構處理器(Reconfigurable Processor )。再有,如果隨著半導體技術的進步或者其他技術的派生,出現(xiàn)了替換LSI 集成電路的技術,當然,也可以利用該技術來實現(xiàn)功能塊的集成化。也有應 用生物工程學技術等的可能性。本說明書基于2005年8月31日申請的日本專利申請?zhí)卦傅?005 -252778號。該內(nèi)容全部包括此處。工業(yè)實用性本發(fā)明的立體聲編碼裝置、立體聲解碼裝置、及立體聲編碼方法適用于 移動電話、IP電話、電視會議等。
權利要求
1、一種立體聲編碼裝置,包括時域評價單元,對立體聲信號的第一聲道信號進行時域上的評價,并對該評價結果進行編碼;以及頻域評價單元,將所述第一聲道信號的頻帶分割成多個,對各頻帶的所述第一聲道信號進行頻域上的評價,并對該評價結果進行編碼。
2、 如權利要求1所述的立體聲編碼裝置,包括 第一層編碼單元,對基于所述立體聲信號生成的單聲道信號進行編碼;以及第二層編碼單元,包括所述時域評價單元及所述頻域評價單元;而 進行可擴展性編碼。
3、 如權利要求2所述的立體聲編碼裝置,其中,所述時域評價單元利用所述單聲道信號進行所述時域上的評價,生成與 所述第 一聲道信號相似的時域評價信號;所述頻域評價單元與所述第 一 聲道信號同樣地將所述時域評價信號的頻 帶也分割成多個,利用各頻帶的所述時域評價信號進行所述頻域上的評價, 生成與所述第 一 聲道信號相似的頻域評價信號。
4、 如權利要求2所述的立體聲編碼裝置,還包括 比特分配單元,根據(jù)所述第一聲道信號與所述單聲道信號的相似程度,對所述時域評價單元及所述頻域評價單元分配比特。
5、 如權利要求4所述的立體聲編碼裝置,其中,所述比特分配單元,當所述第一聲道信號與所述單聲道信號的相似度為 預定值以上時,將更多的比特分配給所述頻域評價單元。
6、 如權利要求4所述的立體聲編碼裝置,其中,所述比特分配單元,當所述第一聲道信號與所述單聲道信號的相似度不 足預定值時,對所述時域評價單元及所述頻域評價單元均勻地分配比特。
7、 如權利要求3所述的立體聲編碼裝置,還包括殘差編碼單元,對所述第一聲道信號及所述頻域評價信號之間的殘差進 行編碼。
8、 如權利要求3所述的立體聲編碼裝置,其中,所述時域評價單元在所述時域上的評價中,求所述第一聲道信號與所述 單聲道信號之間的空間性信息;所述頻域評價單元在所述頻域上的評價中,求所述第一聲道信號與所述 時域評價信號之間的空間性信息。
9、 一種立體聲解碼裝置,包括時域解碼單元,對編碼信息進行解碼,該編碼信息是對立體聲信號的第 一聲道信號進行時域上的評價,并對該評價的結果進行編碼而得到的;以及頻域解碼單元,對編碼信息進行解碼,該編碼信息是對評價結果進行編 碼而得到的,該評價結果是將所述第一聲道信號的頻帶分割成多個,并對各 頻帶的所述第 一聲道信號進行頻域上的評價而得到的。
10、 一種立體聲編碼方法,包括對立體聲信號的第 一 聲道信號進行時域上的評價的步驟;對所述時域上的評價結果進行編碼的步驟;將所述第 一 聲道信號的頻帶分割成多個的步驟;對分割后的各頻帶的所述第一聲道信號進行頻域上的評價的步驟;以及 將所述頻域上的評價結果進行編碼的步驟。
全文摘要
公開了立體聲編碼裝置,能夠以低比特率對立體聲信號進行高精度的編碼,抑制語音通信中的延遲。在此裝置的第一層(110)中,進行單聲道編碼。在第二層(120)中,濾波單元(103)生成LPC(Linear Predictive Coding線性預測編碼)系數(shù),并生成左聲道驅動聲源信號。時域評價單元(104)及頻域評價單元(105)在兩個域上進行信號的評價及預測,殘差編碼單元(106)對殘差信號進行編碼。比特分配控制單元(107)根據(jù)話音信號的條件,自適應地對時域評價單元(104)、頻域評價單元(105)、以及殘差編碼單元(106)分配比特。
文檔編號G10L19/008GK101253557SQ200680031948
公開日2008年8月27日 申請日期2006年8月30日 優(yōu)先權日2005年8月31日
發(fā)明者吉田幸司, 后藤道代, 張峻偉, 梁世豐 申請人:松下電器產(chǎn)業(yè)株式會社