音頻編碼中基音軌跡量化的方法和系統(tǒng)的制作方法

文檔序號：2819088閱讀：355來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：音頻編碼中基音軌跡量化的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明一般地涉及語音編碼器，更具體地，涉及一種允許足夠長的編碼延時(shí)的語音編碼器。
背景技術(shù)：
在美國，當(dāng)設(shè)計(jì)移動電話時(shí)，需要考慮到視覺上有缺陷的人。移動電話的制造商必須提供具有適用于視覺上有缺陷的用戶的用戶接口的電話。實(shí)踐中，這意味著菜單除了顯示在屏幕上以外還要“說出來”。將這些可以聽見的消息存儲在盡可能小的存儲器中顯然是有利的。通常，文字-語音(TTS)算法被考慮用于這種應(yīng)用。但是，為了獲得比較好的質(zhì)量的TTS輸出，需要寵大的數(shù)據(jù)庫，因此，TTS并不是可用于移動終端的方便的方案。由于低的存儲器使用率，所以不能接受當(dāng)前TTS算法所提供的質(zhì)量。
在TTS之外，語音編碼器可用于對預(yù)先記錄的消息進(jìn)行壓縮。在移動終端中對這個壓縮后的信息進(jìn)行保存和解碼以生成輸出語音。為了使得存儲器消耗最低，期望非常低比特率的編碼器。為了生成輸入語音信號到編碼系統(tǒng)，可以使用人工講話或高質(zhì)量(和高復(fù)雜度)的TTS算法。
在通常的語音編碼器中，輸入語音信號在稱為幀的固定長度的段中進(jìn)行處理。在當(dāng)前語音編碼器中，幀長通常為10-30ms，也可獲得距離后續(xù)幀大約5-15ms的先行段。幀可以被進(jìn)一步分為多個子幀。對于每個幀，編碼器確定輸入信號的參數(shù)表示。參數(shù)被量化，并且通過通信信道傳輸或存儲在存儲介質(zhì)中。在接收端，解碼器根據(jù)接收到的參數(shù)構(gòu)成合成信號，如圖1所示。
當(dāng)語音編碼的一個根本目的是在給定的編碼率上獲得可能的最佳質(zhì)量時(shí)，在為某個應(yīng)用開發(fā)語音編碼器中還必須考慮其它的性能方面。在語音質(zhì)量和比特率之外，下面詳細(xì)描述的主要屬性包括編碼器延時(shí)(主要由幀大小加上可能的先行來定義)、編碼器的復(fù)雜性和存儲器要求、信道誤差靈敏度、對有關(guān)聽覺的背景噪聲的魯棒性以及編碼語音的帶寬。還有，語音編碼器應(yīng)當(dāng)能夠有效地復(fù)制帶有不同能量電平和頻率特性的輸入信號。
基音軌跡(pitch contour)的量化是在幾乎所有實(shí)際語音編碼器中需要的任務(wù)?；魠?shù)與語音的基本頻率相關(guān)在有聲語音期間，基音對應(yīng)于基本頻率并且能夠作為語音基音接收。在純粹的無聲語音期間，從物理角度而言沒有基本頻率，并且語音的概念是模糊的。然而，在大部分語音編碼器中，在無聲語音期間還需要“基音信息”。例如，在基于已知的碼激勵線性預(yù)測(CELP)方法的編碼器中，在語音的無聲部分期間還傳輸長期的預(yù)測滯后(大約對應(yīng)于基音)在通常的語音編碼器中，以規(guī)則的間隔從信號估計(jì)基音參數(shù)。用于語音編碼器中的基音估計(jì)器能夠被粗略地分為以下類別(ii)使用語音的時(shí)域?qū)傩缘幕艄烙?jì)器，(ii)使用語音的頻域?qū)傩缘幕艄烙?jì)器，(iii)使用語音的時(shí)域?qū)傩院皖l域?qū)傩缘幕艄烙?jì)器。
現(xiàn)有技術(shù)中最普遍的基音軌跡量化(以規(guī)則間隔估計(jì)的基音值)方案是使用標(biāo)量量化。通常地，單個量化器用于所有的基音值，并且傳輸速率保持固定。還提供了可供選擇的方案。例如，可使用標(biāo)量量化器對每秒基音值進(jìn)行量化，并且這些值之間的值可以用差分量化器進(jìn)行編碼。在現(xiàn)有的一些編碼器中，量化器包括兩個模式，無記憶模式和預(yù)測模式。當(dāng)與基本方法比較時(shí)，這些技術(shù)具有一些優(yōu)勢，但是僅可以部分地使用冗余。
現(xiàn)有技術(shù)的主要缺陷是帶有固定更新速率的常規(guī)量化技術(shù)本身是效率低的，這是因?yàn)樵谒鶄鬏數(shù)幕糁抵写嬖诖罅康娜哂唷；魠?shù)量化中使用的固定更新速率通常很高(約為50到100Hz)，以便能夠處理基音快速改變的情況。但是，基音軌跡中發(fā)生快速改變是比較少見的。因此，在大部分情況下可使用非常低的更新速率。

發(fā)明內(nèi)容
本發(fā)明利用了這樣的事實(shí)，即通常的基音軌跡的展開相當(dāng)?shù)仄交前ㄅ既坏目焖僮兓?。因此，可以生成接近于初始軌跡的形狀但是包括較少的將要編碼的信息的片段基音軌跡。不用對基音軌跡的每個基音進(jìn)行編碼，僅對定義導(dǎo)數(shù)變化的片段基音軌跡的點(diǎn)進(jìn)行量化。在無聲語音期間，恒定的默認(rèn)基音值可以用于編碼器和解碼器。片段基音軌跡上的段可以是線性或非線性。
因此，根據(jù)本發(fā)明的第一方面，提供一種提高音頻編碼的編碼效率的方法，其中，對音頻信號進(jìn)行編碼以提供指示所述音頻信號的參數(shù)，所述參數(shù)包括基音軌跡數(shù)據(jù)，所述基音軌跡數(shù)據(jù)包括多個表示音頻時(shí)間段的基音值。該方法包括以下步驟根據(jù)所述基音軌跡數(shù)據(jù)生成多個簡化的基音軌跡段候選，每個候選對應(yīng)于所述音頻信號的子段；測量每個簡化的基音軌跡段候選和對應(yīng)子段中的所述基音值之間的偏差；根據(jù)所測量的偏差和一個或多個預(yù)選擇的標(biāo)準(zhǔn)，選擇一個所述候選；以及使用所選擇候選的特性對對應(yīng)于所選擇的候選的音頻信號的子段中的基音軌跡數(shù)據(jù)進(jìn)行編碼。
根據(jù)本發(fā)明的一個實(shí)施例，音頻時(shí)間段中的音頻軌跡數(shù)據(jù)由多個對應(yīng)于所述音頻段中多個連續(xù)子段的所選擇的候選進(jìn)行近似，所述多個選擇的候選中的每個候選由第一終點(diǎn)和第二終點(diǎn)定義，并且其中，所述編碼包括提供指示所述終點(diǎn)的信息的步驟，從而允許所述解碼器根據(jù)所述信息而非所述基音軌跡數(shù)據(jù)重新生成音頻段中的所述音頻信號。一些所述連續(xù)子段中的基音值的數(shù)量等于或大于3。
根據(jù)本發(fā)明的一個實(shí)施例，生成步驟受到預(yù)選擇條件的限制，從而每個所述簡化的基音軌跡段候選和相應(yīng)子段中的每個所述基音值之間的偏差小于或等于預(yù)定的最大值。
根據(jù)本發(fā)明的一個實(shí)施例，所生成的段候選具有各種長度，并且所述選擇基于段候選的長度，預(yù)選擇的標(biāo)準(zhǔn)包括所選擇的候選在段候選中具有最大長度。
根據(jù)本發(fā)明的一個實(shí)施例，選擇步驟基于所述段候選的長度，所述預(yù)選擇的標(biāo)準(zhǔn)包括所測量的偏差在一組具有相同長度的候選組中為最小。
根據(jù)本發(fā)明的一個實(shí)施例，每個簡化的基音軌跡段候選具有始點(diǎn)和終點(diǎn)，所述生成步驟通過調(diào)節(jié)所述段候選的終點(diǎn)而執(zhí)行。
音頻信號包括語音信號。
根據(jù)本發(fā)明的第二方面，提供一種用于對包括基音軌跡數(shù)據(jù)的音頻信號進(jìn)行編碼的編碼設(shè)備，該基音軌跡數(shù)據(jù)包括多個表示音頻時(shí)間段的基音值。該編碼設(shè)備包括用于接收基音軌跡數(shù)據(jù)的輸入端；數(shù)據(jù)處理模塊，響應(yīng)于基音軌跡數(shù)據(jù)，生成多個簡化的基音軌跡段候選，每個候選對應(yīng)于音頻信號的子段，其中處理模塊包括用于測量每個所述簡化的基音軌跡段候選和對應(yīng)子段中的基音值之間的偏差的算法；以及用于根據(jù)所測量的偏差和預(yù)選擇的標(biāo)準(zhǔn)選擇一個所述候選的算法；以及量化模塊，響應(yīng)于所選擇的候選，用于使用所選擇候選的特性對對應(yīng)于所選擇候選的音頻信號的子段中的基音軌跡數(shù)據(jù)進(jìn)行編碼。
根據(jù)本發(fā)明的一個實(shí)施例，所述量化模塊提供表示所述子段中編碼后的基音軌跡數(shù)據(jù)的音頻數(shù)據(jù)。該編碼設(shè)備還包括存儲設(shè)備，工作地連接到量化模塊以接收音頻數(shù)據(jù)，用于將音頻數(shù)據(jù)存儲到存儲介質(zhì)中。
根據(jù)本發(fā)明的另一個實(shí)施例，該編碼設(shè)備還包括輸出端，工作地連接到存儲介質(zhì)，用于將編碼后的基音軌跡數(shù)據(jù)提供給存儲介質(zhì)以便存儲。
根據(jù)本發(fā)明的另一個實(shí)施例，該編碼設(shè)備還包括輸出端，用于將編碼后的基音軌跡數(shù)據(jù)發(fā)送到解碼器，從而允許解碼器也根據(jù)編碼后的基音軌跡數(shù)據(jù)重新生成音頻信號。
根據(jù)本發(fā)明的第三方面，提供一種實(shí)施在電子可讀介質(zhì)中與音頻編碼設(shè)備一起使用的計(jì)算機(jī)軟件產(chǎn)品，該音頻編碼設(shè)備提供表示音頻信號的參數(shù)，該參數(shù)包括基音軌跡數(shù)據(jù)，基音軌跡數(shù)據(jù)包括多個表示音頻時(shí)間段的基音值。該軟件產(chǎn)品包括用于根據(jù)基音軌跡數(shù)據(jù)生成多個簡化基音軌跡段候選的代碼，每個候選對應(yīng)于音頻信號的子段；用于測量每個簡化的基音軌跡段候選和對應(yīng)子段中的所述基音值之間的偏差的代碼；以及用于根據(jù)所測量的偏差和預(yù)選擇的標(biāo)準(zhǔn)選擇一個所述候選的代碼，從而允許量化模化用所選擇候選的特性對對應(yīng)于所選擇候選的音頻信號的子段中的基音軌跡數(shù)據(jù)進(jìn)行編碼。
根據(jù)本發(fā)明的第四方面，提供一種用于重新生成音頻信號的解碼器，其中，對音頻信號進(jìn)行編碼以提供指示所述音頻信號的參數(shù)，該參數(shù)包括基音軌跡數(shù)據(jù)，基音軌跡數(shù)據(jù)包括多個表示音頻時(shí)間段的基音值，并且其中，所述音頻時(shí)間段中的所述基音軌跡數(shù)據(jù)由所述音頻段中的多個連續(xù)子段近似，每個子段由第一終點(diǎn)和第二終點(diǎn)定義。該解碼器包括輸入端，用于接收表示定義所述子段的終點(diǎn)的音頻數(shù)據(jù)；以及根據(jù)所接收的音頻數(shù)據(jù)重新生成音頻段。
根據(jù)本發(fā)明的一個實(shí)施例，音頻數(shù)據(jù)記錄在電子介質(zhì)上，并且解碼器的輸入端工作地連接到電子介質(zhì)以接收音頻數(shù)據(jù)。
根據(jù)本發(fā)明的另一個實(shí)施例，音頻數(shù)據(jù)通過通信信道傳輸，并且解碼器的輸入端工作地連接到通信信道以接收音頻數(shù)據(jù)。
根據(jù)本發(fā)明的第五方面，提供一種電子設(shè)備，包括用于重新生成音頻信號的解碼器，其中，對所述音頻信號進(jìn)行編碼以提供指示所述音頻信號的參數(shù)，所述參數(shù)包括基音軌跡數(shù)據(jù)，基音軌跡數(shù)據(jù)包括多個表示音頻時(shí)間段的基音值，并且其中，音頻時(shí)間段中的所述基音軌跡數(shù)據(jù)由音頻段中的多個連續(xù)子段近似，每個所述子段由第一終點(diǎn)和第二終點(diǎn)定義，從而能夠根據(jù)定義所述子段的終點(diǎn)生成所述音頻段；以及輸入端，用于接收指示終點(diǎn)的音頻數(shù)據(jù)并且將音頻數(shù)據(jù)提供給解碼器。
根據(jù)本發(fā)明的一個實(shí)施例，音頻數(shù)據(jù)被記錄在電子介質(zhì)中，并且輸入端工作地連接到電子介質(zhì)以接收音頻數(shù)據(jù)。
根據(jù)本發(fā)明的另一個實(shí)施例，音頻數(shù)據(jù)通過通信信道傳輸，輸入端工作地連接到通信信道以接收音頻數(shù)據(jù)。
該電子設(shè)備可以為移動終端或終端模塊。
根據(jù)本發(fā)明的第六方面，提供一種通信網(wǎng)絡(luò)，包括多個基站；以及多個與所述基站進(jìn)行通信的移動站，其中，至少一個移動站包括用于重新生成音頻信號的解碼器，其中，對所述音頻信號進(jìn)行編碼以提供指示音頻信號的參數(shù)，該參數(shù)包括基音軌跡數(shù)據(jù)，基音軌跡數(shù)據(jù)包括多個表示音頻時(shí)間段的基音值，并且其中，音頻時(shí)間段中的基音軌跡數(shù)據(jù)由音頻段中的多個連續(xù)子段近似，每個子段由第一終點(diǎn)和第二終點(diǎn)定義，從而能夠根據(jù)定義子段的所述終點(diǎn)生成所述音頻段；以及輸入端，用于從至少一個基站接收指示終點(diǎn)的音頻數(shù)據(jù)來將音頻數(shù)據(jù)提供給解碼器。
在結(jié)合附圖2到6閱讀說明之后本發(fā)明將變得明顯。

圖1為表示現(xiàn)有技術(shù)中語音編碼系統(tǒng)的方框圖；圖2為根據(jù)本發(fā)明的一個實(shí)施例的片段基音軌跡的示例；圖3為表示根據(jù)本發(fā)明的一個實(shí)施例的語音編碼系統(tǒng)的方框圖；圖4為描述用于生成片段基音軌跡的迭代處理示例的流程圖；圖5為描述用于根據(jù)優(yōu)選的簡化模式生成片段基音軌跡的迭代處理示例的流程圖；圖6為表示能夠?qū)嵤┍景l(fā)明的通信網(wǎng)絡(luò)的示意圖。
具體實(shí)施例方式
使用片段線性基音軌跡，僅將存在導(dǎo)數(shù)改變的基音軌跡的那些點(diǎn)傳輸給解碼器。因此，極大地降低了基音參數(shù)需要的更新速率。原則上，片段線性基音軌跡以這樣的方式構(gòu)成，即，使得導(dǎo)數(shù)改變的數(shù)量最小，而保持來自“真實(shí)基音軌跡”的導(dǎo)數(shù)低于預(yù)先規(guī)定的限制。為了獲得全局的優(yōu)化結(jié)果，預(yù)處理段應(yīng)當(dāng)非常長，并且優(yōu)化將需要大量的計(jì)算。但是，用這部分所描述的非常簡單的技術(shù)能夠獲得非常好的結(jié)果。該描述基于用于存儲預(yù)先記錄的音頻消息的語音編碼器中使用的實(shí)施。
用于構(gòu)成片段線性基音軌跡的簡單但有效的優(yōu)化技術(shù)可以通過在某個時(shí)間對一個線性段進(jìn)行處理獲得。對于每個線性段，搜索最大長度的線(可以使得離真軌跡的偏差足夠低)，而不用知道該線性段界限之外的軌跡。在這項(xiàng)優(yōu)化技術(shù)中，必須考慮兩種情況第一線性段和其它線性段。
第一線性段的情況出現(xiàn)在當(dāng)開始編碼處理時(shí)的開始。另外，如果對于非活動的或無聲的語音沒有傳送基音值，則在基音傳輸中的這些暫停之后第一段落入這個類別。在這兩種情況中，可以優(yōu)化該線的兩個末端。其它的情況落入第二類中，其中線的始點(diǎn)已經(jīng)固定，所以只能優(yōu)化終點(diǎn)的位置。
在第一線性段的情況中，通過為到當(dāng)時(shí)為止發(fā)現(xiàn)的線將第一個兩個基音值選擇為最佳終點(diǎn)開始處理。然后，通過考慮線的末端靠近第一和第三基音值的情況開始實(shí)際的迭代處理。線始點(diǎn)的候選為所有足夠靠近第一起始基音值的量化基音值，從而滿足所期望的準(zhǔn)確度標(biāo)準(zhǔn)。類似地，終點(diǎn)的候選為足夠靠近第三起始基音值的量化基音值。發(fā)現(xiàn)這些候選之后，對所有這些可能的始點(diǎn)和終點(diǎn)的組合進(jìn)行試驗(yàn)在每個起始基音位置上測量線性表示的準(zhǔn)確度，如果在所有這些位置上滿足準(zhǔn)確度標(biāo)準(zhǔn)，則將該線接受為片段線性軌跡的一部分。另外，如果在當(dāng)前線和起始基音軌跡之間的偏差小于與這個迭代處理步驟期間接受的其它線的任何一條線的偏差，則將當(dāng)前線選擇為到當(dāng)時(shí)為止的最佳線。如果接受了至少一個所試驗(yàn)的線，則通過在取另外一個基音值到該段之后重復(fù)處理而繼續(xù)迭代處理。如果沒有供選方案是可接受的，則終止優(yōu)化處理，并且將優(yōu)化期間發(fā)現(xiàn)的最佳終點(diǎn)選擇為片段線性基音軌跡的點(diǎn)。
在其它段的情況中，僅可以優(yōu)化終點(diǎn)的位置。通過將固定的始點(diǎn)之后的第一基音值選擇為到當(dāng)時(shí)為止發(fā)現(xiàn)的線的最佳終點(diǎn)而開始處理。然后，通過考慮再一個基音值開始迭代處理。線終點(diǎn)的候選為在該位置上足夠接近起始基音值的量化基音值，從而滿足所期望的準(zhǔn)確度標(biāo)準(zhǔn)。發(fā)現(xiàn)候選之后，所有這些候選都被作業(yè)終點(diǎn)進(jìn)行試驗(yàn)。在每個起始基音位置上測量線性表示的準(zhǔn)確度，如果在所有這些位置上滿足正確度標(biāo)準(zhǔn)，則可以將候選線接受為片段線性軌跡的一部分。另外，如果與起始基音軌跡的偏差小于與在這個迭代處理步驟期間所試驗(yàn)的其它線，則終點(diǎn)候選被選擇為到當(dāng)時(shí)為止發(fā)發(fā)現(xiàn)的最佳終點(diǎn)。如果接受了至少一個所試驗(yàn)的線，則通過在將再一個基音值給該段之后重復(fù)處理繼續(xù)迭代處理。如果沒有供選方案是可接受的，則終止優(yōu)化處理，并且將優(yōu)化期間發(fā)現(xiàn)的最佳終點(diǎn)選擇為片段線性基音軌跡的點(diǎn)。
在前面詳細(xì)描述的兩種情況中，迭代處理可以由于兩個原因而過早結(jié)束。第一，如果沒有更多的后續(xù)的基音值可用，則終止處理。這將發(fā)生在如果已經(jīng)使用了整個預(yù)處理段、如果已經(jīng)結(jié)束了語音編碼或者如果在非活動或無聲的語音期間基音傳輸已經(jīng)暫停的情況下。第二，可對單個線性部分的最大長度進(jìn)行限制，從而更加有效地對點(diǎn)位置進(jìn)行編碼。對于這兩種情況，可以通過根據(jù)可用的基音值的數(shù)量和線末端之間的最大時(shí)間距離將限制imax設(shè)置為迭代處理號i而考慮這個問題。迭代處理如圖4中所示。
在發(fā)現(xiàn)片段線性基音軌跡的新的點(diǎn)之后，該點(diǎn)可以被編碼進(jìn)比特流中。對于每個點(diǎn)必須給出兩個值該點(diǎn)上的基音值以及軌跡的新點(diǎn)和前一個點(diǎn)之間的時(shí)間距離。自然對于軌跡的第一個點(diǎn)不是必須對時(shí)間距離進(jìn)行編碼?？梢苑奖愕厥褂脴?biāo)量量化器對基音值進(jìn)行編碼。在用于存儲音頻菜單的編碼器中的實(shí)施中，使用比特對每個時(shí)間距離值進(jìn)行編碼。如果需要，也可對時(shí)間距離值使用例如霍夫曼編碼的某種無損失編碼?；糁凳褂脴?biāo)量量化進(jìn)行編碼。標(biāo)量量化器包括了使用以下等式獲得的32個層級(5比特) 其中，n從2到32，p(1)＝19個取樣。對于低基音頻率允許更多的失真，以考慮人的聽力的特征。還有，人的聽覺系統(tǒng)的已知特征通過在對數(shù)域中的基音量化期間執(zhí)行失真測量來進(jìn)行開發(fā)。
圖2中表示根據(jù)本發(fā)明的片段基音軌跡的一個例子以及初始的基音軌跡。如圖2所示，每個線性片段為連接兩個點(diǎn)的直線，這兩個點(diǎn)即為始點(diǎn)和終點(diǎn)。例如，圖2中所示的片段基音軌跡的第二個線片段為連接t＝1.22s的點(diǎn)和t＝1.29s的點(diǎn)的直線。從t＝1.22s到t＝1.29s的時(shí)間間隔中的基音值的數(shù)量為8，包括始點(diǎn)和終點(diǎn)。
為了實(shí)施本發(fā)明，語音編碼系統(tǒng)具有用于生成片段基音軌跡的附加模塊。如圖3所示，語音編碼系統(tǒng)1包括編碼模塊10，編碼模塊10具有用于對多個片段中的輸入語音信號進(jìn)行處理的參數(shù)語音編碼器12。對于每個片段，編碼器12確定輸入信號的參數(shù)表示112。根據(jù)該語音編碼系統(tǒng)，這些參數(shù)可以是初始參數(shù)的量化版本或非量化版本。響應(yīng)于該參數(shù)表示，壓縮模塊20使用例如軟件程序22將基音軌跡縮小為片段基音軌跡。然后由量化模塊24將片段軌跡上的點(diǎn)編碼為經(jīng)過通信信道或存儲在存儲介質(zhì)30中的比特流120。在接收器端，解碼器40用于根據(jù)所接收到的比特流130中表示片段基音軌跡和其它語音參數(shù)的信息生成合成語音信號140。
片段基音軌跡生成模塊20中的軟件程序22包括根據(jù)圖4中所示的流程圖500對基音軌跡中的基音值進(jìn)行處理的機(jī)器可讀代碼。流程圖500表示用于對表示片段軌跡的線性片段的直線(見圖2)進(jìn)行選擇的迭代處理過程。每個直線具有始點(diǎn)Q(p0)和終點(diǎn)Q(pi)。對于第一個線性片段，必須選擇始點(diǎn)Q(p0)和終點(diǎn)Q(pi)。對于所有其它的線性片段，僅需選擇終點(diǎn)Q(pi)。在迭代處理的開始，選擇覆蓋包括三個基音值的時(shí)間間隔的線性段。因此，如果始點(diǎn)位于第一個時(shí)間點(diǎn)上而終點(diǎn)位于第二個時(shí)間點(diǎn)上，則在從第一個時(shí)間點(diǎn)到第二個時(shí)間點(diǎn)的時(shí)間間隔中存在三個基音值。因此，在步驟502設(shè)置i＝2。在步驟504，終點(diǎn)被選擇為接近第二個時(shí)間點(diǎn)上的基音值的點(diǎn)或被選擇為第二個時(shí)間點(diǎn)上的基音值的點(diǎn)。對于第一個線性段，始點(diǎn)被選擇為接近第一個時(shí)間點(diǎn)上的基音值的點(diǎn)或被選擇為第二個時(shí)間點(diǎn)上的基音值的點(diǎn)。在步驟506，對在從第一個時(shí)間點(diǎn)到第二個時(shí)間點(diǎn)的時(shí)間間隔中的每個基音值之間的偏差以及連接始點(diǎn)和終點(diǎn)的直線進(jìn)行測量。可選擇地，該偏差可以用某些間隔進(jìn)行測量。在步驟508，將該偏差與預(yù)定的誤差值進(jìn)行比較，以便確定當(dāng)前的直線是否可被接受為候選。如果該時(shí)間間隔中的一些基音值的偏差超過預(yù)定的誤差值，則調(diào)整終點(diǎn)(如果該線性段是第一個片段，則一起調(diào)整始點(diǎn))，并且該迭代處理循環(huán)返回步驟506直到不能進(jìn)行調(diào)整為止。如果步驟508中確定當(dāng)前直線能夠被接受，則在步驟510中將其與稍早的結(jié)果進(jìn)行比較從而確定它是否為到當(dāng)時(shí)為止最好的直線。到當(dāng)時(shí)為止最好的直線是指在具有已經(jīng)獲得的相同的i的直線中具有最小的絕對偏差總和的直線。在步驟512對到當(dāng)時(shí)為止最好的線進(jìn)行存儲。在步驟520再次調(diào)整終點(diǎn)，直到不能進(jìn)行調(diào)整。
當(dāng)在步驟520中確定不再可能進(jìn)行調(diào)整時(shí)，判斷是否停止迭代處理并且使用在步驟512中存儲的最佳線作為當(dāng)前線的片段，或者進(jìn)一步通過在步驟526中將i加1對線的片段進(jìn)行擴(kuò)展(除非在步驟524判斷出當(dāng)前i已經(jīng)等于imax)。在將i加1之后可能在步驟522確定沒有擴(kuò)展的線能夠被接受。在這種情況下，具有先前i的最佳線被用作當(dāng)前片段的直線。候選的數(shù)量可以例如通過設(shè)置終點(diǎn)能夠與取樣值不同的程度的最大限制進(jìn)行限制。還可以對不同終點(diǎn)候選之間的間隔進(jìn)行設(shè)置以限制可能候選的數(shù)量。
應(yīng)當(dāng)注意，在圖2的片段基音軌跡中，第三個線性片段僅覆蓋兩個基音值，即在t＝1.29s和t＝1.30s處。這是因?yàn)閠＝1.30s為分隔兩個語音信號片段的時(shí)間點(diǎn)。
還應(yīng)當(dāng)注意，終點(diǎn)或始點(diǎn)的調(diào)整只能在步驟中執(zhí)行。例如，Q(pi)的調(diào)整可以通過由一個量化步驟增加或減少Q(mào)(pi)的值來執(zhí)行。但是，調(diào)整還可以在更小或更大的步驟中執(zhí)行。還有，最長的線或者imax的限制可以被設(shè)定為大數(shù)，例如64。在這種情況下，始點(diǎn)和終點(diǎn)之間的時(shí)間間隔(以及，i)變化很大。例如，第四個線段中的i等于5，而第五個線段中的i為23。但是，如果imax被設(shè)定為例如5，則大部分或所有的線性段中的時(shí)間間隔(以及i)都相同。因此，當(dāng)i為變量并且imax為變量或固定數(shù)時(shí)，本發(fā)明可以實(shí)施。還有，片段候選和步驟510中用于選擇到當(dāng)時(shí)為止的最佳候選的基音值之間的測量偏差可以是絕對差之和或其它的偏差測量。片段候選的生成可以由某個標(biāo)準(zhǔn)限制，例如，每個基音值和片段候選中的相應(yīng)點(diǎn)之間的預(yù)定的最大絕對差。例如，最大差可以為五個或十個量化步驟，但是它可以為更小或更大的數(shù)。
還有，可以對前面所述的本發(fā)明進(jìn)行修改而不會偏離修改的基音軌跡量化的基本概念。首先，可以使用不同的量化技術(shù)。第二，修改的基音軌跡不是必須為片段線性，只要要傳輸?shù)幕糁档臄?shù)量可以保持為低。第三，可以修改用于對基音值和時(shí)間距離進(jìn)行編碼的量化技術(shù)。第四，可以在基音估計(jì)期間構(gòu)成已存在基音軌跡的替代。
還有，前面所述的實(shí)施例并非唯一的可選擇的實(shí)施方式。例如，可以任意選擇用于確定新的基音軌跡的優(yōu)化技術(shù)。另外，新的基音軌跡不是必須為片段線性。例如，可以使用樣條函數(shù)(spline)、多項(xiàng)式、離散余弦變換等。例如，非線性軌跡可以具有以下的一般形式Q(p)＝Q(p0)+a1[(Q(pi)-Q(p0)/(ti-t0)](t-t0)+a2[(Q(pi)-Q(p0)/(ti-t0)]2(t-t0)2+... t1＞t≥t0
在這種情況下，雖然根據(jù)需要對終點(diǎn)進(jìn)行了更新，但是向解碼器提供一次該算法就已足夠。
一般討論尋找基音軌跡的優(yōu)選簡化模式可公式化為數(shù)學(xué)優(yōu)化問題。用f(t)表示描述從0到tmax的范圍中的初始基音軌跡的函數(shù)。還有，用g(t)表示簡化的基音軌跡，d(f(t)，g(t))表示在時(shí)刻t兩個軌跡之間的偏差?，F(xiàn)在，要解決的優(yōu)化問題是找到滿足兩個最優(yōu)性條件的簡化基音軌跡g(t)(I)使得描述軌跡g(t)所需的比特?cái)?shù)最小化。
(II)對于所有的0≤t≤tmax，d(f(t)，g(t))≤h(f(t))其中h(·)定義了與初始基音軌跡的最大允許偏差。使得總偏差最小化的軌跡函數(shù)作為最終簡化軌跡從滿足這兩個條件的軌跡集中被選擇，該軌跡函數(shù)為D=&Integral;t=0tmaxd(f(t),g(t)),----(1)]]>一般地，上述優(yōu)化問題是不能解決的。但是，如果通過固定基音軌跡模式降低它的一般性，則能夠解決該問題。例如，在片段線性模式中，函數(shù)g(t)可以使用其中g(shù)(t)的導(dǎo)數(shù)改變的點(diǎn)進(jìn)行描述。qn和tn表示第n個這種點(diǎn)的坐標(biāo)(1≤n≤N，其中N為片段線性模式中這些點(diǎn)的數(shù)量)。簡化的軌跡可以在N-1個線性片段中被定義為g(t)=qn+t-tntn+1-tn(qn+1-qn),tn≤t≤tn+1,----(2)]]>其中1≤n≤N-1。為了使得定義完整，要求tn＜tn+1，并且t1＝0，tN＝tmax。另外，要求所有qn的值落入qmin到qmax的范圍中。使用這種模式，優(yōu)化問題簡化為對描述滿足條件(I)和(II)的軌跡g(t)并且使方程(1)中的總偏差最小化的點(diǎn)(tn，qn)的集合進(jìn)行搜索?，F(xiàn)在，通過合理地假定點(diǎn)的坐標(biāo)可以僅用受限的分辨率表示，問題變得可解決，這是因?yàn)檫@些點(diǎn)位于具有有限數(shù)量的可能點(diǎn)位置的柵格中。這個假定沒有降低公式的一般性，因?yàn)橛邢薜恼_性直接來自最優(yōu)性條件(I)。
問題的解決方案最后部分中公式化的優(yōu)化問題能夠以許多種方式解決。這里描述兩個解決方案。第一個解決方案的計(jì)算負(fù)擔(dān)較重但是它總是能夠找到全局最佳條件，第二個解決方案非常簡單但是僅能產(chǎn)生次優(yōu)化的結(jié)果。在這兩種方案中，我們假定使用具有編碼簿C＝{c1，c2，...，cM}的標(biāo)量量化器將基音值qn編碼為比特，并且時(shí)標(biāo)tn為某個時(shí)間單T的整數(shù)倍。還有，我們假定C和T都以使得解決方案存在的方式被選擇，并且進(jìn)一步合理地假定，描述軌跡所需的比特?cái)?shù)能夠通過最小化N(定義簡化軌跡所需的點(diǎn)的數(shù)量)進(jìn)行最小化。
全局優(yōu)化方法全局優(yōu)化方案可以使用下面的前向窮舉(straightforward bruteforce algorithm)算法獲得步驟1初始化。設(shè)定N＝1。
步驟2設(shè)定N＝N+1。用當(dāng)前N是否能夠找到合適的片段線性模式？如果是，前進(jìn)到步驟3。否則，重復(fù)步驟2。
步驟3退出并對簡化軌跡進(jìn)行編碼。如果有幾個合適的軌跡候選，則選擇使得方程1中的總偏差最小化的一個。
步驟2中的測試可以對照最優(yōu)性條件(II)檢查所有合適的片段線性軌跡候選(用當(dāng)前N)來執(zhí)行。在第一次迭代中(N＝2)，候選是所有具有滿足下面條件的終點(diǎn)(t1，q1)和(t2，q2)d(f(tn)，qn)≤h(f(tn))。
(3)在這種情況下，時(shí)標(biāo)被固定為t1＝0和t2＝tmax。數(shù)值q1和q2從代碼簿C中選擇，因此只有限制數(shù)量的候選。在第二次迭代(N＝3)期間，軌跡候選具有兩個(N-1)線性片段。第一個時(shí)標(biāo)和第三個時(shí)標(biāo)(t1和t3)被固定為0和tmax，而時(shí)標(biāo)t2可以在具有間隔T的T到tmax-T的范圍中進(jìn)行調(diào)整。再次地，數(shù)值qn從代碼簿C選擇。同樣，使用某個任意N，簡化軌跡包括N-1個線性片段，并且N-2個時(shí)標(biāo)能夠被調(diào)整。
容易看出，上面的算法已經(jīng)找到了最優(yōu)化的軌跡候選，因?yàn)椴襟E2中的檢查考慮了條件(II)，迭代過程保證了條件(I)的滿足，并且總偏差在步驟3中最小化。但是，也容易看出，這個算法的復(fù)雜性隨著問題的大小變得特別的快。更準(zhǔn)確地，我們可以知道在最壞的狀態(tài)下該算法具有不同的軌跡候選。
g=Σj=0mbj+2m!j!(m-j)!----(4)]]>在上面的等式中，b表示能夠滿足等式3的條件的代碼簿條目的最大數(shù)，并且m＝(tmax/T)-1。
在實(shí)際的情形中，這些變量可以為例如b＝3，m＝62，在最壞的情況下具有大約1.9·1038個軌跡候選。因此，可以得出這樣的結(jié)論，即這個理論上的優(yōu)化方法只能用于b和m的值很小的情況(例如，其中b＝3，m＝8，最壞情況下的候選數(shù)為589824)，因此這個方法不適用于大部分實(shí)際的實(shí)施中。
簡單的次優(yōu)化方法正如前面所述的，如果目標(biāo)是找到全局優(yōu)化的片段線性軌跡，則優(yōu)化處理可能需要大量的計(jì)算。但是，用這部分所描述的非常簡單并且計(jì)算上有效率的技術(shù)(其中，復(fù)雜性僅隨問題大小的增加線性的增加)能夠取得非常好的結(jié)果。在簡單之外，這個方法的一個好處是并不立即處理整個基音軌跡，而是僅需要相對小的預(yù)處理。
該簡化方法中的主要思想是每次對一個線性片段進(jìn)行優(yōu)化處理。對于每個線性片段，對能夠保持與真軌跡的偏差足夠低的最大長度線進(jìn)行搜索而不用知道該線性片段邊界之外的軌跡。在這個優(yōu)化技術(shù)中，有兩種必須單獨(dú)考慮的情況第一個線性片段和其它線性片段。第一個線性片段的情況在當(dāng)開始編碼處理的開始出現(xiàn)。另外，如果對于非活動或無聲語音沒有基音值被傳輸，則第一個線性片段在其在基音傳輸中暫停之后落入這個類別。在關(guān)于第一個線性片段的兩種情況中，線的兩端都被優(yōu)化。其它的情況落入第二類別中，其中，線的始點(diǎn)已經(jīng)在先前線性片段的優(yōu)化中被固定，因此僅對終點(diǎn)的位置進(jìn)行優(yōu)化。
在第一個線性片段的情況中，處理通過將時(shí)標(biāo)0和T處的量化基音值選擇為到當(dāng)時(shí)為止找到的最佳終點(diǎn)而開始。然后，實(shí)際的迭代處理通過考慮線的末端足夠接近時(shí)標(biāo)0和2T處的初始基音值的情況而開始。換句話說，始點(diǎn)的候選都是足夠接近t1＝0處的初始基音值的量化基音值，從而滿足所期望的準(zhǔn)確度標(biāo)準(zhǔn)(等式3中給出)。類似地，終點(diǎn)的候選為足夠接近t2＝2T處初始基音值的量化基音值。在找到候選之后，對所有可能的始點(diǎn)和終點(diǎn)的組合進(jìn)行試驗(yàn)以t1和t2之間的時(shí)間間隔測量線性表示的準(zhǔn)確度，如果滿足準(zhǔn)確度標(biāo)準(zhǔn)，則候選線可以被接受為片段線性軌跡的一部分。另外，如果與初始基音軌跡的偏差小于在這個迭代處理步驟期間與其它線的偏差，則該線被選擇為到當(dāng)時(shí)為止的最佳線。如果接受了至少一個候選，則迭代處理通過對t2每步增加大小T之后重復(fù)處理而繼續(xù)。如果沒有線被接受，則優(yōu)化處理終止，并且先前迭代處理期間找到的最佳終點(diǎn)被選擇為片段線性基音軌跡的第一個點(diǎn)。
在其它線性片段的情況中，只能優(yōu)化終點(diǎn)位置，這是因?yàn)槭键c(diǎn)已經(jīng)在先前的線性片段優(yōu)化過程中被固定。處理通過將固定始點(diǎn)之后間隔T的量化基音值選擇為到當(dāng)時(shí)為止的線的最佳點(diǎn)而開始。((tn-1，qn-1)和(tn，qn)分別表示要優(yōu)化的固定始點(diǎn)和終點(diǎn)。)然后，迭代處理通過考慮一個或多個時(shí)間步驟而開始，即tn＝tn-1+2T。線的終點(diǎn)候選為新的tn處足夠接近初始基音值的量化基音值，從而滿足所期望的準(zhǔn)確度的標(biāo)準(zhǔn)。找到候選之后，剩余處理類似于第一個線性片段的情況。
在前面詳細(xì)描述的兩種情況中，迭代處理可能會由于兩個原因而過早結(jié)束。第一，如果tn由于初始基音軌跡在tn+T之前結(jié)束而不能增加，則處理終止。如果已經(jīng)使用了整個預(yù)處理緩沖器，或者要編碼的語音信號已經(jīng)結(jié)束，或者如果基音傳輸已經(jīng)在非活動語音或無聲語音期間暫停，則這可能會發(fā)生。第二，為了更有效地對點(diǎn)的時(shí)標(biāo)進(jìn)行編碼，可對單個線性部分的最大長度進(jìn)行限制。對于這兩種情況，通過基于可用基音軌跡的持續(xù)時(shí)間和線終端之間的最大時(shí)間距離設(shè)置限制tnmax，可以對這些問題進(jìn)行考慮。這個方法在圖5中的流程圖600中進(jìn)行了描述，圖5表示一個線性片段的優(yōu)化處理。
流程圖600表示用于選擇表示片段基音軌跡的一個線性段的直線的迭代處理。直線具有始點(diǎn)Q(f(tn-1))和終點(diǎn)Q(f(tn))。對于第一個線性段，始點(diǎn)Q(f(tn-1))和終點(diǎn)Q(f(tn))必須被選擇。對于所有其它的線性段，只有終點(diǎn)Q(f(tn))必須被選擇。在迭代處理開始，選擇在tn＝tn-1+T開始的線性段。始點(diǎn)Q(f(tn-1))和終點(diǎn)Q(f(tn))被認(rèn)為是到當(dāng)時(shí)為止的最佳終點(diǎn)。因此，在步驟602，設(shè)定tn＝tn+T。在步驟604，終點(diǎn)被選擇為接近f(fn)的點(diǎn)。對于第一個線性段，始點(diǎn)接近f(fn-1)。對于所有其它的段，始點(diǎn)是固定的。在步驟606，對tn-1到tn的時(shí)間段中的候選線和每個基音值之間的偏差進(jìn)行測量。在步驟608，為了確定當(dāng)前直線是否能夠被接受為候選，將該偏差與預(yù)定的誤差值進(jìn)行比較。如果該時(shí)間段中的某些基音值的偏差超過了預(yù)定的誤差值，則對終點(diǎn)(如果該線性段是第一個段，則和始點(diǎn)一起)進(jìn)行調(diào)整，并且迭代處理返回步驟606直至沒有可能調(diào)整。如果在步驟608中確定當(dāng)前直線是可接受的，則在步驟610中將它與稍早的結(jié)果進(jìn)行比較，從而確定它是否為到當(dāng)時(shí)為止的最佳直線。到當(dāng)時(shí)為止的最佳直線是到當(dāng)時(shí)為止已經(jīng)獲得的具有相同i的直線中具有最小絕對偏差的直線。在步驟612中存儲到當(dāng)時(shí)為止的最佳線。在步驟620中再次對終點(diǎn)進(jìn)行調(diào)整，直到不可能進(jìn)行調(diào)整。
當(dāng)步驟620中確定不再可能進(jìn)行調(diào)整時(shí)，確定是否停止迭代處理并且使用步驟612中存儲的最佳線作為當(dāng)前線段，或者是否通過在步驟626中將tn增加T以進(jìn)一步伸展線段(除非步驟624中確定當(dāng)前tn已經(jīng)等于tmax)?？赡艿那闆r是，在將tn增加T之后，在步驟622中確定沒有伸展的線可被接受。在這種情況下，具有先前tn的最佳線被用作當(dāng)前段的直線。候選的數(shù)量可以例如通過對終點(diǎn)能夠與取樣值不同的程度的最大限制進(jìn)行設(shè)置來限制。不同終點(diǎn)候選之間的間隔也可以被設(shè)置以限制可能候選的數(shù)量。
實(shí)踐中的實(shí)施本說明書中引入的基音軌跡量化技術(shù)包括在為存儲應(yīng)用設(shè)計(jì)的實(shí)踐中的語音編碼器中。編碼器以非常低的比特率(約為1kbps)工作，并且在可變持續(xù)時(shí)間(20ms到640ms之間)的段中對8kHz輸入語音進(jìn)行處理。在實(shí)踐中的實(shí)施中，使用簡單的次優(yōu)化方法，并且在優(yōu)化中只考慮位于當(dāng)前段中的基音軌跡。在無聲的或非活動段中，沒有基音信息被編碼。變量T被設(shè)置為10ms，等于基音估計(jì)間隔。另外，連續(xù)的基音軌跡使用估計(jì)的基音值pk形成的離散軌跡進(jìn)行近似(間隔為10ms)。因此，最優(yōu)性條件(II)變?yōu)閐(pk，g(kT))≤h(pk)，對于所有的0≤k≤tmax/T。
(5)另外，等式1中的總失真的最小化用下面等式的最小化來近似，即D~=Σk=0tmax/Td(pk,g(kT)),----(6)]]>其中，函數(shù)d被定義為絕對誤差，即d(x，y)＝|x-y|。
定義給定基音值的最大可允許編碼誤差的函數(shù)h確定為h(pk)＝max(2,480pk/8000)。
(7)同樣的函數(shù)也用于生成代碼簿C中，該代碼簿用于基音值qn的標(biāo)量量化中。32個層級(5比特)的條目使用cj＝cj-1+h(cj-1)計(jì)算，其中c1＝19。這個代碼簿覆蓋了用于編碼器中的基音周期范圍并且與實(shí)驗(yàn)發(fā)現(xiàn)相當(dāng)一致。還有，如果假定人耳的頻率分辨率隨頻率的增加而減小，則這個代碼簿和函數(shù)h近似地遵循臨界頻帶(critical band)理論。為了進(jìn)一步增強(qiáng)知覺性能，在對數(shù)域中進(jìn)行量化。
在某個時(shí)間使用差分量化對時(shí)標(biāo)進(jìn)行編碼，除非由于t1已經(jīng)是0所以該標(biāo)標(biāo)對于每個段的第一個點(diǎn)根據(jù)沒有被編碼。在差分編碼方案中，使用給定時(shí)標(biāo)和先前時(shí)標(biāo)之前的時(shí)間距離以大小為T的間隔對給定時(shí)標(biāo)進(jìn)行編碼。更準(zhǔn)確地，通過將((tn-tn-1)/T)-1轉(zhuǎn)換為包括比特的二進(jìn)制表達(dá)對給定值tn進(jìn)行編碼，其中，imax表示對于當(dāng)前線性片段所允許的最大長度。在我們的實(shí)施中使用一個附加的手段以提高編碼效率如果將要編碼的時(shí)標(biāo)數(shù)超過段中即刻的基音估計(jì)的半數(shù)，則對“空”時(shí)標(biāo)而不是時(shí)標(biāo)tn進(jìn)行編碼(一個比特用于指示使用了哪個編碼方案)。然而，應(yīng)當(dāng)注意到，存儲編碼器實(shí)施中使用的分段處理使得能夠使得這個手段有效。在連續(xù)的基于幀的處理的一般情況下，一種更好的方式將是直接在時(shí)標(biāo)值上使用某個無損耗編碼技術(shù)，例如霍夫曼編碼。
前面描述的實(shí)施能夠使用約為100bps的平均比特速率對基音軌跡進(jìn)行編碼，從而使得與初始軌跡的偏差保持在低于等式7中定義的最大允許偏差以下。盡管比特速率很低，但是編碼后的基音軌跡非常接近初始軌跡。在99bps上平均絕對編碼誤差和最大絕對編碼誤差分別為1.16和5.12個取樣。當(dāng)由聽測專家判斷時(shí)，編碼后的軌跡可以容易地從初始軌跡被辨別，但是編碼誤差并不是特別地?zé)┤?。還沒有明確地用自然聽測者對基音量化技術(shù)進(jìn)行檢測；但是，正式的聽測檢測顯示包括所提議的基音軌跡技術(shù)的存儲編碼器在很大程度上優(yōu)于1.2kbps現(xiàn)有技術(shù)參考編碼器，盡管平均比特速率降低了超過200bps(對于單獨(dú)的基音，降幅約為70bps)。
總之，本發(fā)明利用了這樣的事實(shí)，即通常的基音軌跡的展開相當(dāng)?shù)仄交前ㄅ既坏目焖僮兓?，以便生成接近于初始軌跡的形狀但是包括較少的將要編碼的信息的片段線性基音軌跡。例如，僅對其導(dǎo)數(shù)變化的片段線性基音軌跡的點(diǎn)進(jìn)行量化。在無聲語音期間，恒定的默認(rèn)基音值可以用于編碼器和解碼器。另外，在基音頻率低的情況中，通過允許在基音頻率低的情況下與真實(shí)基音軌跡之間較大的偏差來利用人聽覺的屬性。本發(fā)明實(shí)質(zhì)上降低了足夠的感性量化準(zhǔn)確度所需的比特速率使用合適的量化技術(shù)，可以在大約100bps的平均比特速率上達(dá)到接近在500bps(5比特量化器，每秒100基音值)上工作的常規(guī)的基音量化器的準(zhǔn)確度水平。如果無損耗壓縮被用于對本發(fā)明報(bào)告中所描述的方法進(jìn)行補(bǔ)充，則甚至可能進(jìn)一步將比特速率降低到例如大約80bps。
本發(fā)明的主要益處包括—可能使用比采用現(xiàn)有技術(shù)低得多的平均更新速率。
—能夠在解碼器上重新生成片段線性基音軌跡，從而使其非常接近真實(shí)基音軌跡。
—本發(fā)明考慮了這樣的事實(shí)，即當(dāng)基音頻率低的時(shí)候人耳對基音變化更加敏感。
—本技術(shù)能夠相當(dāng)大地降低比特速率。
—本發(fā)明能夠作為附加功能塊實(shí)施，該附加功能塊能夠與現(xiàn)有的語音編碼器使用。
本發(fā)明適于存儲應(yīng)用并且已經(jīng)成功地用在用于對音頻消息進(jìn)行預(yù)記錄的語音編碼器中。在目標(biāo)應(yīng)用中，音頻消息(音頻菜單)被記錄在計(jì)算機(jī)上并被離線編碼。然后，作為結(jié)果的低速率比特流能夠在移動終端中進(jìn)行存儲并在本地進(jìn)行解碼。低速率比特流能夠由如圖6所示的通信網(wǎng)絡(luò)中的元件提供。圖6為根據(jù)本發(fā)明的能夠用于預(yù)記錄音頻菜單和類似應(yīng)用的編碼器實(shí)施相關(guān)存儲的通信網(wǎng)絡(luò)的代表。如圖中所示，該網(wǎng)絡(luò)包括多個連接到交換子站(NSS)的基站(BS)，該交換子站還連接到其它網(wǎng)絡(luò)。該網(wǎng)絡(luò)還包括多個能夠和基站進(jìn)行通信的移動站(MS)。移動站可以是移動終端，通常稱之為完整終端。移動站還可以是沒有顯示器、鍵盤、電池、蓋子等的終端模塊。移動站還可以是用于從壓縮模塊20接收比特流120的解碼器40(見圖3)。壓縮模塊20可以位于基站、交換子站或在另一個網(wǎng)絡(luò)中。
雖然已經(jīng)針對其優(yōu)選實(shí)施例對本發(fā)明進(jìn)行了描述，但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解，可以進(jìn)行前面及各種其它的改變、省略和形式和細(xì)節(jié)中的改變，這不脫離本發(fā)明的范圍。
權(quán)利要求
1.一種提高音頻編碼的編碼效率的方法，其中，對音頻信號進(jìn)行編碼以提供指示所述音頻信號的參數(shù)，所述參數(shù)包括基音軌跡數(shù)據(jù)，所述基音軌跡數(shù)據(jù)包括多個表示音頻時(shí)間段的基音值，所述方法的特征在于根據(jù)所述基音軌跡數(shù)據(jù)生成多個簡化的基音軌跡段候選，每個候選對應(yīng)于所述音頻信號的子段；測量每個簡化的基音軌跡段候選和對應(yīng)子段中的所述基音值之間的偏差；根據(jù)所測量的偏差和一個或多個預(yù)選擇的標(biāo)準(zhǔn)，選擇一個所述候選；以及使用所選擇候選的特性對對應(yīng)于所選擇的候選的音頻信號的子段中的基音軌跡數(shù)據(jù)進(jìn)行編碼。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述音頻時(shí)間段中的所述音頻軌跡數(shù)據(jù)由多個對應(yīng)于所述音頻段中多個連續(xù)的子段的選擇的候選進(jìn)行近似，所述多個選擇的候選中的每個候選由第一終點(diǎn)和第二終點(diǎn)定義，并且其中，所述編碼包括提供指示所述終點(diǎn)的信息的步驟，從而允許所述解碼器根據(jù)所述信息而非所述基音軌跡數(shù)據(jù)重新生成音頻段中的所述音頻信號。
3.根據(jù)權(quán)利要求1和2所述的方法，其特征在于，一些所述連續(xù)子段中的基音值的數(shù)量等于或大于3。
4.根據(jù)權(quán)利要求1到3中任何權(quán)利要求所述的方法，其特征在于，所述生成受到預(yù)選擇的條件的限制，從而每個所述簡化的基音軌跡段候選和相應(yīng)子段中的每個所述基音值之間的偏差小于或等于預(yù)定的最大值。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述生成的段候選具有各種長度，并且所述選擇基于段候選的所述長度，所述預(yù)選擇的標(biāo)準(zhǔn)包括所選擇的候選在所述段候選中具有所述最大長度。
6.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述選擇基于所述段候選的長度，所述預(yù)選擇的標(biāo)準(zhǔn)包括所測量的偏差在一組具有相同長度的候選組中為最小。
7.根據(jù)權(quán)利要求1到6中任何權(quán)利要求所述的方法，其特征在于，每個簡化的基音軌跡段候選具有始點(diǎn)和終點(diǎn)，所述生成通過調(diào)節(jié)所述段候選的終點(diǎn)而執(zhí)行。
8.根據(jù)權(quán)利要求1到7中任何權(quán)利要求所述的方法，其特征在于所述音頻信號包括語音信號。
9.根據(jù)權(quán)利要求2所述的方法，其特征在于至少一個所選擇的候選為線性段。
10.根據(jù)權(quán)利要求2所述的方法，其特征在于至少一個所選擇的候選為非線性段。
11.一種用于對包括基音軌跡數(shù)據(jù)的音頻信號進(jìn)行編碼的編碼設(shè)備，所述基音軌跡數(shù)據(jù)包括多個表示音頻時(shí)間段的基音值，所述編碼設(shè)備的特征在于用于接收所述基音軌跡數(shù)據(jù)的輸入端；以及數(shù)據(jù)處理模塊，響應(yīng)于所述基音軌跡數(shù)據(jù)，用于生成多個簡化的基音軌跡段候選，每個候選對應(yīng)于所述音頻信號的子段，其中所述處理模塊包括用于測量每個所述簡化的基音軌跡段候選和對應(yīng)子段中的所述基音值之間的偏差的算法；以及用于根據(jù)所測量的偏差和預(yù)選擇的標(biāo)準(zhǔn)選擇一個所述候選的算法。
12.根據(jù)權(quán)利要求11所述的編碼設(shè)備，其進(jìn)一步的特征在于量化模塊，響應(yīng)于所選擇的候選，用于使用所選擇候選的特性對對應(yīng)于所選擇候選的音頻信號的子段中的基音軌跡數(shù)據(jù)進(jìn)行編碼。
13.根據(jù)權(quán)利要求12所述的編碼設(shè)備，其特征在于，所述量化模塊提供表示所述子段中編碼后的基音軌跡數(shù)據(jù)的音頻數(shù)據(jù)，所述編碼設(shè)備的進(jìn)一步的特征在于存儲設(shè)備，工作地連接到所述量化模塊以接收所述音頻數(shù)據(jù)，用于將所述音頻數(shù)據(jù)存儲到存儲介質(zhì)中。
14.根據(jù)權(quán)利要求12所述的編碼設(shè)備，其進(jìn)一步的特征在于輸出端，工作地連接到存儲介質(zhì)，用于將所述編碼后的基音軌跡數(shù)據(jù)提供給所述存儲介質(zhì)以便存儲。
15.根據(jù)權(quán)利要求12所述的編碼設(shè)備，其進(jìn)一步的特征在于輸出端，用于將所述編碼后的基音軌跡數(shù)據(jù)發(fā)送到所述解碼器，從而允許所述解碼器也根據(jù)所述編碼后的基音軌跡數(shù)據(jù)重新生成所述音頻信號。
16.一種包括在電子可讀介質(zhì)中與音頻編碼設(shè)備一起使用的計(jì)算機(jī)軟件產(chǎn)品，所述音頻編碼設(shè)備提供表示所述音頻信號的參數(shù)，所述參數(shù)包括基音軌跡數(shù)據(jù)，所述基音軌跡數(shù)據(jù)包括多個表示音頻時(shí)間段的基音值，所述軟件產(chǎn)品的特征在于用于根據(jù)所述基音軌跡數(shù)據(jù)生成多個簡化基音軌跡段候選的代碼，每個候選對應(yīng)于所述音頻信號的子段；用于測量每個簡化的基音軌跡段候選和對應(yīng)子段中的所述基音值之間的偏差的代碼；以及用于根據(jù)所測量的偏差和預(yù)選擇標(biāo)準(zhǔn)選擇一個所述候選的代碼，從而允許量化模塊用所選擇候選的特性對對應(yīng)于所選擇候選的音頻信號的子段中的基音軌跡數(shù)據(jù)進(jìn)行編碼。
17.一種用于重新生成音頻信號的解碼器，其中，對所述音頻信號進(jìn)行編碼以提供指示所述音頻信號的參數(shù)，所述參數(shù)包括基音軌跡數(shù)據(jù)，所述基音軌跡數(shù)據(jù)包括多個表示音頻時(shí)間段的基音值，并且其中，所述音頻時(shí)間段中的所述基音軌跡數(shù)據(jù)由所述音頻段中的多個連續(xù)子段近似，每個所述子段由第一終點(diǎn)和第二終點(diǎn)定義，所述解碼器的特征在于輸入端，用于接收表示定義所述子段的終點(diǎn)的音頻數(shù)據(jù)；以及重新生成模塊，用于根據(jù)所接收的音頻數(shù)據(jù)重新生成所述音頻段。
18.根據(jù)權(quán)利要求17所述的解碼器，其特征在于，所述音頻數(shù)據(jù)記錄在電子介質(zhì)上，并且其中，解碼器的所述輸入端工作地連接到電子介質(zhì)以接收所述音頻數(shù)據(jù)。
19.根據(jù)權(quán)利要求17所述的解碼器，其特征在于，所述音頻數(shù)據(jù)通過通信信道傳輸，并且解碼器的所述輸入端工作地連接到所述通信信道以接收所述音頻數(shù)據(jù)。
20.一種電子設(shè)備，其特征在于用于重新生成音頻信號的解碼器，其中，對所述音頻信號進(jìn)行編碼以提供指示所述音頻信號的參數(shù)，所述參數(shù)包括基音軌跡數(shù)據(jù)，所述基音軌跡數(shù)據(jù)包括多個表示音頻時(shí)間段的基音值，并且其中，所述音頻時(shí)間段中的所述基音軌跡數(shù)據(jù)由所述音頻段中的多個連續(xù)子段近似，每個所述子段由第一終點(diǎn)和第二終點(diǎn)定義，從而能夠根據(jù)定義所述子段的終點(diǎn)生成所述音頻段；以及輸入端，用于接收指示所述終點(diǎn)的音頻數(shù)據(jù)并且將所述音頻數(shù)據(jù)提供給解碼器。
21.根據(jù)權(quán)利要求20所述的電子設(shè)備，其特征在于，所述音頻數(shù)據(jù)被記錄在電子介質(zhì)中，并且所述輸入端工作地連接到電子介質(zhì)以接收所述音頻數(shù)據(jù)。
22.根據(jù)權(quán)利要求20所述的電子設(shè)備，其特征在于，所述音頻數(shù)據(jù)通過通信信道傳輸，所述輸入端工作地連接到所述通信信道以接收所述音頻數(shù)據(jù)。
23.根據(jù)權(quán)利要求20到22所述的電子設(shè)備，包括移動終端。
24.一種通信網(wǎng)絡(luò)，其特征在于多個基站；以及多個與所述基站進(jìn)行通信的移動站，其中，至少一個所述移動站包括用于重新生成音頻信號的解碼器，其中，對所述音頻信號進(jìn)行編碼以提供指示所述音頻信號的參數(shù)，所述參數(shù)包括基音軌跡數(shù)據(jù)，所述基音軌跡數(shù)據(jù)包括多個表示音頻時(shí)間段的基音值，并且其中，所述音頻時(shí)間段中的基音軌跡數(shù)據(jù)由音頻段中的多個連續(xù)子段近似，每個所述子段由第一終點(diǎn)和第二終點(diǎn)定義，從而能夠根據(jù)定義子段的所述終點(diǎn)生成所述音頻段；以及輸入端，用于從至少一個所述基站接收指示所述終點(diǎn)的音頻數(shù)據(jù)來將所述音頻數(shù)據(jù)提供給解碼器。
全文摘要
一種用于提供音頻編碼中的編碼效率的方法和設(shè)備。根據(jù)一個或多個預(yù)選擇標(biāo)準(zhǔn)，從音頻信號的基音軌跡的基音值生成多個簡化的基音軌跡段，從而近似基音軌跡。軌跡段可以是線性或非線性，每個軌跡段由第一終點(diǎn)和第二終點(diǎn)表示。如果該軌跡段是線性，則僅將關(guān)于終點(diǎn)的信息而不是基音值提供給解碼器來重新生成音頻信號。軌跡段可以具有固定的最大長度或可變長度，但是軌跡段和該段中的基音值之間的偏差受到最大值的限制。
文檔編號G10L19/00GK1882983SQ200480034310
公開日2006年12月20日申請日期2004年9月29日優(yōu)先權(quán)日2003年10月23日
發(fā)明者安西·拉莫, 雅尼·尼爾米南, 薩卡里·伊馬南, 阿里·?；?申請人:諾基亞公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：安西.拉莫;雅尼.尼爾米南;薩卡里.伊馬南;阿里.埃基南
技術(shù)所有人：諾基亞公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

基站軌跡定位相關(guān)技術(shù)

等量化音頻相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

音頻編碼中基音軌跡量化的方法和系統(tǒng)的制作方法