聲音再生裝置、聲音再生方法和程序的制作方法

文檔序號：7634790閱讀：428來源：國知局

專利名稱：聲音再生裝置、聲音再生方法和程序的制作方法
技術領域：
本發(fā)明涉及一種聲音再生裝置，對被壓縮編碼的數(shù)字聲音信號進行再生。
背景技術：
近年一種再生裝置廣泛普及，該再生裝置對被壓縮并記錄到CD-ROM或DVD-ROM、硬盤等各種記錄媒介的數(shù)字的音頻信號及視頻信號進行讀取并解壓，通過自身連接的顯示器和揚聲器等對解壓后的信號進行再生。
并且，對BS數(shù)字播放、CS數(shù)字播放、地面數(shù)字播放等被壓縮的數(shù)字的音頻信號和視頻信號進行記錄并再生的裝置也已經(jīng)普及。
作為用于將音頻信號和視頻信號編碼成數(shù)字信號并壓縮，然后解碼該信號的已知規(guī)格，已知MPEG。MPEG為了在對被多路化并壓縮編碼的音頻信號和視頻信號進行譯碼之后，使音頻信號和視頻信號同步并進行再生，分別在音頻信號和視頻信號中附加在編碼時執(zhí)行信號的再生及顯示的時刻的信息(以下稱為“時刻信息”)并進行壓縮。由此，在對被壓縮編碼的數(shù)字音頻信號和視頻信號進行解壓時，再生裝置以自身擁有的系統(tǒng)時鐘基準參數(shù)為基準，參照時刻信息使音頻信號和視頻信號同步并進行再生。
下面說明現(xiàn)有的再生方法。另外，申請人已知專利文獻1中公開的圖像及聲音的再生方法，為了明確本發(fā)明的目的，以專利文獻1所公開的再生方法作為現(xiàn)有例進行簡單說明。該方法為了再生拍攝時角度不同的第1和第2圖像，將與各角度對應的視頻信號分別輸入不同的動畫圖像解碼單元中進行解碼，將被分別解碼的圖像結合并顯示在一個畫面中。對于音頻信號也一樣，通過不同的聲音解碼單元同時解碼多個音頻信號并進行再生。
下面用圖1說明現(xiàn)有的聲音再生方法。圖1為表示進行該再生方法的雙通道音頻譯碼器183的結構的方框圖。參照圖1對雙通道音頻譯碼器183的具體結構進行說明。雙通道音頻譯碼器183中設置有第1音頻解碼器183a和第2音頻解碼器183b、以及第1聲音選擇電路183c和第2聲音選擇電路183d。例如，在同時對日語和英語的2個音頻信號進行再生時，作為日語聲音信號的第1音頻信號被輸入第1音頻解碼器183a，并在那里被譯碼。與此同時，作為英語聲音信號的第2音頻信號被輸入第2音頻解碼器183b，并在那里被譯碼。
這些被譯碼的第1和第2音頻信號由第1聲音選擇電路183c和第2聲音選擇電路183d進行處理。例如，在聲音的輸出通道為左右各一個通道時，第1和第2音頻信號被處理以便使其分別以單聲道一個通道一個信號地進行輸出。或者被處理以便使只有第1和第2之一的音頻信號以雙通道立體聲進行輸出。并且，在聲音的輸出通道比左右各一個通道多時，第1和第2音頻信號被處理以便以立體聲與單聲道的組合等進行輸出。
并且，對于杜比數(shù)字式的5+1通道結構的音頻數(shù)據(jù)，第1聲音選擇電路183c和第2聲音選擇電路183d對可以輸出的5+1通道，可以進行每個電路立體聲2通道的輸出，也可以只選擇一個音頻數(shù)據(jù)的5+1通道并進行輸出。
專利文獻1日本特開平10-145735號公報(第10-11頁，圖4、圖8、圖9)專利文獻1對通過多個動畫圖像解碼單元對來自多個角度的數(shù)據(jù)進行解碼，并通過圖像數(shù)據(jù)結合單元將這些數(shù)據(jù)進行結合并顯示的方法進行說明。并且，專利文獻1對在動畫數(shù)據(jù)中附加不同語言的多個聲音數(shù)據(jù)時，通過多個聲音解碼單元對各個聲音數(shù)據(jù)進行解碼，并將它們混合并再生的方法，以及選擇其中之一并進行再生的方法進行說明。
但是，專利文獻1對用于混合2種數(shù)據(jù)的詳細的實施方法、和確定再生的同步的方法未作具體的闡述。即使只限定于聲音，對再生的2種聲音數(shù)據(jù)的采樣速率不同時的混合方法、各聲音數(shù)據(jù)的混合比，如環(huán)繞聲音和立體聲這樣的通道數(shù)不同的聲音數(shù)據(jù)的混合方法、混合區(qū)間、使各聲音數(shù)據(jù)的同步一致的方法，都未作任何說明。
例如，即使想要再生的聲音為DVD的多重聲音，當?shù)?聲音通過杜比數(shù)據(jù)方式被壓縮編碼、第2聲音通過線性PCM被編碼時，為了用采樣速率為48KHz、5.1ch的環(huán)繞聲音混合第1聲音，用96KHz、2ch的立體聲混合第2聲音，需要進行使其與哪個采樣速率一致的處理、為了設定混合點的處理。
無論如何，在合成多個數(shù)據(jù)的聲音信號并再生時，需要使多個聲音信號同步并再生，但迄今為止不存在實現(xiàn)的方法。

發(fā)明內(nèi)容
本發(fā)明有鑒于上述問題，其目的是提供一種聲音再生裝置，使多個數(shù)據(jù)的聲音信號同步并再生。
本發(fā)明的第1聲音再生裝置為對聲音信號進行再生并輸出的裝置，具備同步單元，通過在將與每個聲音信號相鄰的音頻再生時刻信息分別表示的再生時刻的差保持的狀態(tài)下，將多個聲音信號各自的多個上述音頻再生時刻信息分配到一根時間軸上，由此使上述多個聲音信號同步；合成單元，利用分配到上述時間軸上的多個上述音頻再生時刻信息，對上述多個聲音信號進行合成。如此，由于本發(fā)明的聲音再生裝置將多個聲音信號各自的多個音頻再生時刻信息分配到一根時間軸上，因此能夠使多個數(shù)據(jù)的聲音信號同步并再生。
本發(fā)明的第2聲音再生裝置為如下的裝置上述時間軸為由上述多個聲音信號中的任一個聲音信號的多個上述音頻再生時刻信息所確定的時間軸，并且上述同步單元將另外的聲音信號的上述多個音頻再生時刻信息，分配到由上述任一個聲音信號的上述音頻再生時刻信息所確定的時間軸上。如此，通過使其他聲音信號的音頻再生時刻信息與主聲音信號的音頻再生時刻信息一致，能夠使多個聲音同步。
本發(fā)明的第3聲音再生裝置為如下的裝置上述時間軸為由被可變速度再生的上述任一個聲音信號的多個上述音頻再生時刻信息所確定的時間軸。其作用為即使在可變速度再生的情況下，通過利用可變速度再生的聲音信號的音頻再生時刻信息進行譯碼，能夠使多個聲音信號同步。
本發(fā)明的第4方案的聲音再生裝置為如下的裝置上述多個聲音信號與視頻信號被多路化，上述時間軸為由上述視頻信號的多個視頻再生時刻信息所確定的時間軸，并且上述同步單元將上述多個聲音信號各自的上述多個音頻再生時刻信息，分配到由上述視頻再生時刻信息所確定的時間軸上。其作用為使聲音與再生圖像的輸出一致，并實現(xiàn)聲音同步。
本發(fā)明的第5聲音再生裝置為如下的裝置上述時間軸為由可變速度再生的上述視頻信號的視頻再生時刻信息所確定的時間軸。其作用為使根據(jù)跳躍再生的圖像輸出，實現(xiàn)聲音相對于跳躍點的再生圖像的同步。
本發(fā)明的第6聲音再生裝置為如下的裝置上述時間軸為由可變速度的系統(tǒng)時鐘基準參照信號所確定的時間軸。其作用為通過使作為整個系統(tǒng)的基準的系統(tǒng)時鐘基準參照信號可變，并實現(xiàn)圖像和聲音的同步。
本發(fā)明的第7聲音再生裝置為如下的裝置還具備采樣速率改變單元，與上述多個聲音信號中的任一個聲音信號的采樣速率一致，并對其他聲音信號的采樣速率進行改變，上述合成單元將上述任一個聲音信號和被上述采樣速率改變單元改變后的上述其他聲音信號進行合成。由此，能夠進行使多個聲音與一個聲音的采樣速率一致的再生。在內(nèi)容本身中記錄了是主聲音、還是解說等副聲音的種類時，例如如果與主聲音的采樣速率一致地再生多個聲音，則不管是否有解說等副聲音，使用者能夠以一定的采樣速率聽取多個聲音。
本發(fā)明的第8聲音再生裝置為如下的裝置上述任一個聲音信號為上述多個聲音信號中連續(xù)的聲音再生區(qū)間最長的聲音信號。存在解說等副聲音以對特定的場景的解說等、主聲音進行輔助為目的被插入的情況，并假定聲音再生區(qū)間相對于主聲音短。因此，如果選擇再生區(qū)間長的聲音，則能夠減少在中途改變采樣速率的次數(shù)。
本發(fā)明的第9聲音再生裝置為如下的裝置上述任一個聲音信號為上述多個聲音信號中聲音再生區(qū)間的間斷最少的聲音信號。例如在將聲音再生區(qū)間的間斷最少的聲音作為主，對具有每個場景都間斷的解說再生區(qū)間的聲音進行再生時，如果進行速率改變以便使間斷的聲音信號的采樣速率與間隔最少的聲音信號(包括沒有間隔的聲音信號)一致，則能夠減少在中途改變采樣速率的次數(shù)。
本發(fā)明的第10聲音再生裝置為如下的裝置上述任一個聲音信號為上述多個聲音信號中的具有最高采樣速率的聲音信號。其作用為使高音質(zhì)的聲音保持不變、提高其他聲音的采樣速率，并盡量保持音質(zhì)。
本發(fā)明的第11聲音再生裝置為如下的裝置上述任一個聲音信號為上述多個聲音信號中具有最低采樣速率的聲音信號。其作用為在用于聲音輸出的傳送頻帶被限制等情況下，通過與低采樣速率一致并進行改變，來減少傳送聲音的數(shù)據(jù)量。
本發(fā)明的第12聲音再生裝置為如下的裝置上述任一個聲音信號為上述多個聲音信號中采樣速率不變的聲音信號。當在中途采樣速率被改變時，存在在速率再生的變化點需要聲音靜噪的情況。其作用為選擇速率沒有被改變的一個為主，并保持聲音的連續(xù)再生。
本發(fā)明的第13聲音再生裝置為如下的裝置還具備輸出電平調(diào)整單元，在通過將其他的聲音信號加到上述多個聲音信號中的任一個聲音信號中來對上述多個聲音信號進行合成時，將上述任一個聲音信號的再生輸出電平只減掉上述其他聲音信號加上的部分。由此，能夠強調(diào)并聽取被加側(cè)的聲音。例如，具有在想要集中注意力聽合成的解說聲音時等，提高解說聲音的再生聲音電平，降低主聲音的再生聲音電平的作用。
本發(fā)明的第14聲音再生裝置為如下的裝置在將上述其他的聲音信號合成到上述任一個聲音信號中時，當使用者將上述其他聲音信號的再生輸出電平設定得更高時，上述輸出電平調(diào)整單元將上述任一個聲音信號的再生輸出電平減掉上述其他聲音信號的再生輸出電平的增加量。其作用為防止當增加一個聲音并且另一個聲音以原樣的音量相加時，在加上的聲音的一部分產(chǎn)生聲音削波等的聲音失真，變成非常難聽取的聲音。
本發(fā)明的第15聲音再生裝置為如下的裝置還具備統(tǒng)合分配單元，根據(jù)上述多個聲音信號中的任一個聲音信號的再生信號通道數(shù)，對其他聲音信號的再生信號通道數(shù)進行統(tǒng)合或分配。其作用為即使相互的再生信號的再生通道數(shù)不同也不會引起聲音失真，并實現(xiàn)對特定的聲音信號的通道的相加。
本發(fā)明的第16聲音再生裝置為如下的裝置還具備統(tǒng)合分配單元，配合與上述聲音再生裝置連接的聲音輸出裝置的通道數(shù)，對上述各聲音信號的再生信號通道數(shù)進行統(tǒng)合或分配。其作用為根據(jù)使用者的聲音輸出裝置的通道數(shù)(例如連接的揚聲器的數(shù)量)，對再生信號的通道數(shù)進行統(tǒng)合或分配，并實現(xiàn)聲音合成。
本發(fā)明的第17聲音再生裝置為如下的裝置上述合并分配單元根據(jù)使用者的上述聲音輸出裝置的聲音輸出規(guī)定通道，對上述各聲音信號的再生信號通道數(shù)進行統(tǒng)合或分配。其作用為根據(jù)使用者的聲音輸出裝置中想要再生的通道數(shù)(例如連接揚聲器的數(shù)量)，對再生信號的通道數(shù)進行統(tǒng)合或分配，并實現(xiàn)合成。
并且，本發(fā)明能夠?qū)⒈景l(fā)明的聲音再生裝置的特征的構成單元，作為成為步驟的聲音再生方法來實現(xiàn)，還可以作為在計算機中執(zhí)行這些步驟的程序來實現(xiàn)。程序可以通過CD-ROM等記錄媒介或通信網(wǎng)絡等傳輸媒介進行流通。
本發(fā)明能夠提供一種聲音再生裝置，對多個數(shù)字的聲音信號進行同步并再生。即，本發(fā)明的聲音再生裝置，能夠進行采樣速率或編碼方式不同的多個聲音信號的混合、以及在可變速度再生過程中的多個聲音信號的同步再生。

圖1是進行現(xiàn)有的聲音再生方法的雙通道音頻譯碼器的結構圖。
圖2是表示實施方式1的圖像聲音再生裝置的結構的方框圖。
圖3是表示實施方式1的圖像和聲音的同步再生方法的流程圖。
圖4是用于說明實施方式的聲音再生數(shù)據(jù)的存儲方法的圖。
圖5是表示實施方式的疊加多個圖像的例的圖。
圖6是表示實施方式的主體圖像與解說圖像被放映的時間的關系的一例的圖。
圖7是表示實施方式1和4的將解說圖像疊加到主體圖像的圖像再生裝置的結構的方框圖。
圖8是各實施方式中疊加主聲音和副聲音的聲音再生裝置的結構圖。
圖9是表示主聲音的音頻再生時刻信息與副聲音的音頻再生時刻信息的關系的圖。
圖10是表示將音頻再生時刻信息附加到主聲音和副聲音的聲音流中的情況的圖。
圖11是表示用于說明實施方式1的聲音相加方法的相加輸出部的結構例的圖。
圖12是用于說明實施方式1的聲音再生裝置與外部連接設備的連接的圖。
圖13是用于說明聲音的合并的圖。
圖14是用于說明聲音的分配的圖。
圖15是用于說明實施方式1的聲音再生裝置與外部連接設備的連接的圖。
圖16是表示主聲音結束后副聲音仍未結束的情況的圖。
圖17是表示將效果音合成到主聲音中的情況的圖。
圖18是用于說明聲音的合成和統(tǒng)合的圖。
圖19是表示記錄了多個聲音信號的DVD的圖。
圖20是表示實施方式2中在可變速度處理前或后將副聲音加到主聲音中進行聲音合成的處理的流程圖。
圖21是用于說明實施方式2和3的通過音頻輸出處理單元進行可變速度控制的方法的方框圖。
圖22是用于說明實施方式2的音頻可變速度處理的原理的圖。
圖23是表示實施方式4的多個圖像的同步再生的方法的流程圖。
具體實施例方式
下面利用

實施本發(fā)明的最佳方式。
(實施方式1)首先，主要參照表示實施方式1的圖像聲音再生裝置的結構的方框圖的圖2，對實施方式1的圖像聲音再生裝置的結構以及圖像再生方法和聲音再生方法進行說明。另外，雖然本發(fā)明為關于使多個數(shù)字聲音信號同步并進行再生的技術的發(fā)明，但在詳細說明該技術之前，對將視頻信號和音頻信號被多路化后的信號進行再生的技術進行說明。
圖2為表示實施方式1的圖像聲音再生裝置的結構的方框圖。實施方式1的圖像聲音再生裝置為對視頻信號和音頻信號被多路化后的信號進行再生的裝置，如圖2所示，包括輸入部1、視頻緩沖部A102、視頻緩沖部B103、視頻譯碼部A104、視頻譯碼部B105、圖像合成部106、音頻緩沖部A2、音頻緩沖部B3、音頻譯碼部A4、音頻譯碼部B5和聲音合成部6。
視頻緩沖部A102、視頻緩沖部B103、視頻譯碼部A104、視頻譯碼部B105和圖像合成部106為處理視頻信號的構成部。音頻緩沖部A2、音頻緩沖部B3、音頻譯碼部A4、音頻譯碼部B5和聲音合成部6為處理音頻信號的構成部。
輸入部1是對從數(shù)據(jù)記錄裝置等(圖中未表示)供給的被多路化的音頻信號和視頻信號進行接受的構成部，該數(shù)據(jù)記錄裝置等是對通過各種編碼方式編碼后的內(nèi)容、或數(shù)字播放等的壓縮編碼后的數(shù)字的音頻信號和視頻信號進行存儲的光盤等。并且，輸入部1將被多路化的音頻信號和視頻信號分離成視頻信號和音頻信號，并從視頻信號中抽出視頻再生時刻信息、從音頻信號中抽出音頻再生時刻信息。在實施方式1中，假設輸入到輸入部1中的視頻信號和音頻信號分別為2通道信號。因此，輸入部1將被多路化的音頻信號和視頻信號對每個通道分離成視頻信號和音頻信號。
下面分別對處理視頻信號的視頻緩沖部A102、視頻緩沖部B103、視頻譯碼部A104、視頻譯碼部B105和圖像合成部106進行說明。
視頻緩沖部A102為存儲由輸入部1分離的第1通道的視頻信號的構成部。視頻緩沖部A102包括視頻再生時刻信息管理部A121，存儲第1通道的視頻信號中的視頻再生時刻信息；和壓縮視頻緩沖部A122，存儲第1通道的視頻信號中被壓縮的視頻數(shù)據(jù)。視頻再生時刻信息管理部A121具有將第1通道的壓縮視頻數(shù)據(jù)與視頻再生時刻信息建立關聯(lián)的表。
視頻緩沖部B103為存儲由輸入部1分離的第2通道的視頻信號的構成部。視頻緩沖部B103包括視頻再生時刻信息管理部B131，存儲第2通道的視頻信號中的視頻再生時刻信息；和壓縮視頻緩沖部B132，存儲第2通道的視頻信號中被壓縮的視頻數(shù)據(jù)。視頻再生時刻信息管理部B131具有將第2通道的壓縮視頻數(shù)據(jù)與視頻再生時刻信息建立關聯(lián)的表。
視頻譯碼部A104為對存儲在壓縮視頻緩沖部A122中的第1通道的壓縮視頻數(shù)據(jù)的屬性信息(視頻標題信息)進行解析，并根據(jù)存儲在視頻再生時刻信息管理部A121中的視頻再生時刻信息對壓縮視頻數(shù)據(jù)進行解壓的構成部。視頻譯碼部A104具有存儲解壓后的視頻數(shù)據(jù)的幀緩沖部A141。
視頻譯碼部B105為對存儲在壓縮視頻緩沖部B132中的第2通道的壓縮視頻數(shù)據(jù)的屬性信息(視頻標題信息)進行解析，并根據(jù)存儲在視頻再生時刻信息管理部B131中的視頻再生時刻信息對壓縮數(shù)據(jù)進行解壓的構成部。視頻譯碼部B105具有存儲解壓后的視頻數(shù)據(jù)的幀緩沖部B151。
圖像合成部106為將由視頻譯碼部A104和視頻譯碼部B105解壓的各視頻數(shù)據(jù)進行合成，并輸出給外部的顯示部的構成部。
下面分別說明處理音頻信號的音頻緩沖部A2、音頻緩沖部B3、音頻譯碼部A4、音頻譯碼部B5和聲音合成部6。
音頻緩沖部A2為存儲由輸入部1分離的第1通道的音頻信號的構成部。音頻緩沖部A2包括壓縮音頻緩沖部A21，存儲第1通道的音頻信號中被壓縮的音頻數(shù)據(jù)；和音頻再生時刻信息管理部A22，存儲第1通道的音頻信號中的音頻再生時刻信息。音頻再生時刻信息管理部A22具有將第1通道的壓縮音頻數(shù)據(jù)與音頻再生時刻信息建立關聯(lián)的表。
音頻緩沖部B3為存儲由輸入部1分離的第2通道的音頻信號的構成部。音頻緩沖部B3包括壓縮音頻緩沖部B31，存儲第2通道的音頻信號中被壓縮的音頻數(shù)據(jù)；和音頻再生時刻信息管理部B32，存儲第2通道的音頻信號中的音頻再生時刻信息。音頻再生時刻信息管理部B32具有將第2通道的壓縮音頻數(shù)據(jù)與音頻再生時刻信息建立關聯(lián)的表。
音頻譯碼部A4為對存儲在壓縮音頻緩沖部A21中的第1通道的壓縮音頻數(shù)據(jù)的屬性信息(視頻標題信息)進行解析，并根據(jù)存儲在音頻再生時刻信息管理部A22中的音頻再生時刻信息對壓縮音頻數(shù)據(jù)進行解壓的構成部。音頻譯碼部A4具有存儲解壓的音頻數(shù)據(jù)的PCM緩沖部A41。
音頻譯碼部B5為對存儲在壓縮音頻緩沖部B31中的第2通道的壓縮音頻數(shù)據(jù)的屬性信息(視頻標題信息)進行解析，并根據(jù)存儲在音頻再生時刻信息管理部B32中的音頻再生時刻信息對壓縮音頻數(shù)據(jù)進行解壓的構成部。音頻譯碼部B5具有存儲解壓的音頻數(shù)據(jù)的PCM緩沖部B51。
聲音合成部6為將由音頻譯碼部A4和音頻譯碼部B5解壓的各音頻數(shù)據(jù)進行合成，并輸出給外部的揚聲器的構成部。
MPEG為了使視頻數(shù)據(jù)和音頻數(shù)據(jù)同步并進行輸出，對視頻信號和音頻信號中的每個被稱為存取單元的解碼和再生的單位(視頻數(shù)據(jù)時為每幀，音頻數(shù)據(jù)時為每音頻幀)，附加表示何時應該對該單位進行解碼及再生的時間戳信息。該時間戳信息稱為Presentation TimeStamp(PTS，顯示時間戳)，視頻用的稱為Video PTS(以下稱為“VPTS”)，音頻用的稱為Audio PTS(以下稱為“APTS”)。它們表示各視頻幀和各音頻幀的輸出的時刻管理信息。
圖像聲音再生裝置中設置有圖2沒有表示的系統(tǒng)基準參照部。系統(tǒng)基準參照部為產(chǎn)生MPEG系統(tǒng)的基準解碼器內(nèi)部的系統(tǒng)時刻基準System Time Clock(STC)的構成部。為了制作系統(tǒng)時刻基準STC，系統(tǒng)基準參照部使用在DVD等中所使用的程序流(PS)中所使用的System Clock Reference(SCR系統(tǒng)時刻基準參數(shù))，或BS數(shù)字播放中所使用的傳送流(TS)中所使用的Program Clock Reference(PCR程序時刻基準參數(shù))。在各流的最終字節(jié)到達時(讀入時)，系統(tǒng)基準參照部將與SCR或PCR所表示的值相同的值設定為系統(tǒng)時刻基準STC，由此設定基準時刻。
另外，通過在圖像聲音再生裝置中設置鎖相環(huán)(PLL)電路，并使上述系統(tǒng)時刻基準STC值的設定與PLL電路組合，能夠使圖像聲音再生裝置具有時鐘的頻率與基準時刻用系統(tǒng)時鐘完全一致的系統(tǒng)時刻基準STC。系統(tǒng)時刻基準STC的系統(tǒng)時鐘由27MHz構成。通過用計數(shù)器等對系統(tǒng)時刻基準STC進行分頻，來被各PTS(90KHz周期)參照。當系統(tǒng)時刻基準STC，在視頻數(shù)據(jù)時與視頻再生時刻信息VPTS一致、在音頻數(shù)據(jù)時與音頻再生時刻信息APTS一致時，視頻譯碼部A104、視頻譯碼部B105、音頻譯碼部A4和音頻譯碼部B5的各譯碼器輸出各自的存取單元。系統(tǒng)時刻基準STC的精度為90KHz。因此，如果各譯碼器在該90KHz的精度范圍內(nèi)再生各再生單位，以便使系統(tǒng)時刻基準STC、視頻再生時刻信息VPTS和音頻再生時刻信息APTS得到同步，則進行得到了AV同步的輸出。
圖3為AV同步處理的流程圖。這里為了簡化說明，假定為1通道的視頻流和音頻流是被多路化的情況(2通道的視頻流和音頻流被多路化的情況在后面說明)。
在步驟301和步驟302，輸入部1將從數(shù)據(jù)記錄裝置等輸入的編碼數(shù)據(jù)分離成壓縮視頻數(shù)據(jù)、視頻再生時刻信息VPTS、壓縮音頻數(shù)據(jù)和音頻再生時刻信息APTS。
壓縮視頻緩沖部A122存儲壓縮視頻數(shù)據(jù)，視頻再生時刻信息管理部A121存儲視頻再生時刻信息VPTS(步驟301)。此時，視頻再生時刻信息管理部A121存儲壓縮視頻緩沖部A122中的各壓縮視頻數(shù)據(jù)的地址和視頻再生時刻信息VPTS。
壓縮音頻緩沖部A21存儲壓縮音頻數(shù)據(jù)，音頻再生時刻信息管理部A22存儲音頻再生時刻信息APTS(步驟302)。此時，如圖4所示，音頻再生時刻信息管理部A22以稱為時隙的單位對音頻再生時刻信息APTS進行分割，并將其與壓縮音頻緩沖部A21中的各音頻數(shù)據(jù)的地址一起存儲。因此，音頻再生時刻信息管理部A22中存儲有音頻再生時刻信息APTS的值、和存儲了與其相關的壓縮音頻數(shù)據(jù)的地址的指針。
另外，步驟301和步驟302對應于視頻信號和音頻信號向輸入部1輸入的先后，被適當改變順序。
壓縮音頻緩沖部A21具有在寫入數(shù)據(jù)的最終點之前最新的寫入位置移動的寫入指針。并且，壓縮音頻緩沖部A21也具有確定壓縮音頻數(shù)據(jù)的讀取位置的讀取指針，并通過由音頻譯碼部A4讀取壓縮音頻數(shù)據(jù)來更新讀取指針的位置。并且，壓縮音頻緩沖部A21為如果寫入數(shù)據(jù)一直到最終地址，則寫入位置返回最初的地址的環(huán)狀存儲部。因此，在數(shù)據(jù)被讀取的位置之前，能夠?qū)懭胂乱粋€數(shù)據(jù)，由輸入部1使寫入指針不超過讀取指針，并對壓縮音頻數(shù)據(jù)的寫入進行管理。
接著，視頻譯碼部A104從壓縮視頻緩沖部A122獲取壓縮視頻數(shù)據(jù)，并從視頻再生時刻信息管理部A121獲取視頻再生時刻信息VPTS(步驟303)。音頻譯碼部A4從壓縮音頻緩沖部A21獲取壓縮音頻數(shù)據(jù)，并從音頻再生時刻信息管理部A22獲取音頻再生時刻信息APTS(步驟304)。
然后，在視頻再生時刻信息VPTS到達系統(tǒng)時刻基準STC之前，視頻譯碼部A104實施視頻譯碼，將譯碼數(shù)據(jù)存儲到幀緩沖部A141中(步驟305)。同樣，在音頻再生時刻信息APTS到達系統(tǒng)時刻基準STC之前，音頻譯碼部A4實施音頻譯碼，將譯碼數(shù)據(jù)存儲到PCM緩沖部A41中(步驟306)。另外，雖然視頻譯碼部A104和音頻譯碼部A4對各數(shù)據(jù)進行譯碼，但在譯碼后不是立即輸出譯碼數(shù)據(jù)。
然后，音頻譯碼部A4參照系統(tǒng)時刻基準STC，并在音頻再生時刻信息APTS與系統(tǒng)時刻基準STC一致的時刻，或者音頻再生時刻信息APTS超過系統(tǒng)時刻基準STC的時刻，從PCM緩沖部A41輸出與該音頻再生時刻信息APTS相關聯(lián)的音頻譯碼數(shù)據(jù)(步驟307)。
并且，視頻譯碼部A104參照系統(tǒng)時刻基準STC，在視頻再生時刻信息VPTS與系統(tǒng)時鐘STC一致的時刻，或者視頻再生時刻信息VPTS超過系統(tǒng)時鐘STC的時刻，從幀緩沖部A141輸出與該視頻再生時刻信息VPTS相關聯(lián)的視頻譯碼數(shù)據(jù)(步驟308)。
另外，圖像聲音再生裝置也可以從光輸出端子將杜比數(shù)字等流原樣輸出。此時，流暫時被存儲在流緩沖器(圖中未表示)中，并在音頻再生時刻信息APTS與系統(tǒng)時刻基準STC一致或超過系統(tǒng)時刻基準STC的時刻，輸出與該音頻再生時刻信息APTS相關聯(lián)的音頻譯碼數(shù)據(jù)。
然后，如果當輸入的數(shù)據(jù)結束、或使用者發(fā)出停止再生的指示(步驟309中為Yes)，圖像聲音再生裝置結束譯碼。另一方面，如果有輸入的數(shù)據(jù)，使用者未發(fā)出停止再生的指示(步驟309中為No)，則返回到壓縮視頻緩沖部A122存儲壓縮視頻數(shù)據(jù)、并且視頻再生時刻信息管理部A121存儲視頻再生時刻信息VPTS的視頻信號存儲步驟(步驟301)。
如上所述，圖像聲音再生裝置使視頻再生時刻信息VPTS和音頻再生時刻信息APTS與系統(tǒng)時刻基準STC同步，并輸出視頻譯碼數(shù)據(jù)和音頻譯碼數(shù)據(jù)。尤其是如果視頻再生時刻信息VPTS在相對于音頻再生時刻信息APTS超前50毫秒到滯后30毫秒之間，輸出對應的視頻譯碼數(shù)據(jù)和音頻譯碼數(shù)據(jù)，則對口形(lip sync)的偏差為不被注意的程度。
至此，對音頻和視頻各為一個通道的流時的同步再生的方法進行了說明。下面對音頻和視頻各為2通道時的流的同步再生的方法進行說明。
這里如圖5所示，假設一個場景在同一畫面上，利用子畫面將內(nèi)容制作者的解說圖像疊加到作為通常的再生圖像的主圖像上，并將與解說圖像相對應的聲音(以下稱為“副聲音”)疊加到與主圖像相對應的聲音(以下稱為“主聲音”)上。另外，解說圖像為用于解說主圖像的圖像，例如，當放映作為主圖像的風景時，解說者對該風景的地名等進行解說的圖像為解說圖像。并且，副聲音為放映解說圖像時輸出的對主圖像進行解說的聲音，并隨著解說圖像輸出。
下面用圖6說明主圖像和解說圖像被放映的時間關系。圖6為表示主圖像和解說圖像被放映的時間關系的一例的圖。如圖6所示，例如主圖像從節(jié)目的開始一直被放映到最后，解說圖像在節(jié)目的途中、以比節(jié)目的長度短的規(guī)定的時間，被放映多次。并且，副聲音在如上所述的解說圖像被放映時輸出。另外，也存在解說圖像的放映時間比主圖像的放映時間長的情況。并且，還存在副聲音的輸出時間比主聲音的輸出時間長的情況。
下面對將解說圖像和副聲音疊加到主圖像和主聲音的方法進行說明。
首先用圖7對將解說圖像疊加到主圖像的方法進行說明。圖7為表示將解說圖像疊加到主圖像的圖像再生裝置的結構的方框圖。
視頻譯碼部A104對主圖像的視頻數(shù)據(jù)進行譯碼，視頻譯碼部B105對解說圖像的視頻數(shù)據(jù)進行譯碼。由視頻譯碼部A104和視頻譯碼部B105譯碼的各譯碼數(shù)據(jù)的同步，由各自的存在于視頻流內(nèi)的視頻再生時刻信息VPTS等進行管理。當各視頻再生時刻信息VPTS與系統(tǒng)時刻基準STC一致時，如果對由視頻譯碼部A104獲得的譯碼數(shù)據(jù)和由視頻譯碼部B105獲得的譯碼數(shù)據(jù)進行輸出，則能夠使這些譯碼數(shù)據(jù)同步并輸出。
但是，根據(jù)解說圖像的種類不同，存在不得不對主圖像與解說圖像的同步下功夫的情況。例如主圖像和解說圖像中的一個為從圖像素材中獲得的、每秒有24幀的圖像，另一個為每秒有30幀的圖像的情況。在將其用NTSC制式的顯像機放映時，圖像處理部160改變格式將從圖像素材中獲得的圖像格式改變成每秒有30幀后，放大或縮小2個圖像中的一個或兩個。然后幀同步部162進行2個圖像的幀同步。合成輸出部161將一個圖像疊加到另一個圖像并輸出2個圖像。由此，主圖像和解說圖像在獲得同步的基礎上被疊加顯示。
如上所述，由于主圖像存在主聲音，解說圖像存在副聲音，因此在將解說圖像疊加到主圖像時，需要將副聲音疊加到主聲音。下面用圖8對疊加主聲音和副聲音的聲音再生裝置進行說明。
圖8為表示疊加主聲音和副聲音的聲音再生裝置的結構的方框圖。在圖8所示的聲音再生裝置中，輸入部1將主聲音的壓縮音頻數(shù)據(jù)和音頻再生時刻信息APTS存儲到音頻緩沖部A2中，并將副聲音的壓縮音頻數(shù)據(jù)和音頻再生時刻信息APTS存儲到音頻緩沖部B3中。
如圖9所示，同步設定部11將副聲音的各音頻再生時刻信息APTS分配到由主聲音的各音頻再生時刻信息APTS確定的時間軸T上。主聲音的各音頻再生時刻信息APTS為附加了“M00”、“M11”、“M20”、“M29”、“M40”及“M52”……的各塊。即，同步設定部11將用附加了“S00”、“S09”、“S20”、“S31”或“S40”……的塊所表示的副聲音的各音頻再生時刻信息APTS分配到時間軸T上。此時，同步設定部11保持副聲音的相鄰的音頻再生時刻信息APTS各自的值的差，并將副聲音的各音頻再生時刻信息APTS分配到時間軸T上。
在圖9的例子中，主聲音的開頭的音頻再生時刻信息APTS“M00”與副聲音的開頭的音頻再生時刻信息APTS“S00”之差值為“11”。因此，同步設定部11將副聲音的各音頻再生時刻信息APTS分配給在副聲音的各音頻再生時刻信息APTS的值加上值“11”的值中。例如，在將副聲音的音頻再生時刻信息“S09”分配到時間軸T上時，同步設定部11將音頻再生時刻信息“S09”分配給將差值“11”加到該值“09”的值、即值“M20”。由此，在保持副聲音的相鄰的音頻再生時刻信息APTS的各值的差的狀態(tài)下，副聲音的各音頻再生時刻信息APTS被分配到時間軸T上。結果，如后所述的，當利用音頻再生時刻信息APTS使主聲音和副聲音被再生時，使主聲音和副聲音同步并被再生。
當同步設定部11的動作結束時，音頻譯碼部A4對存儲在音頻緩沖部A2中的主聲音壓縮音頻數(shù)據(jù)進行譯碼，并通過參照音頻再生時刻信息APTS，在與系統(tǒng)時刻基準STC同步的時間再生聲音。另一方面，音頻譯碼部B5對存儲在音頻緩沖部B3中的副聲音的壓縮音頻數(shù)據(jù)進行譯碼，并通過參照音頻再生時刻信息APTS，在與系統(tǒng)時刻基準STC同步的時間再生聲音。由此，使主聲音和副聲音同步并被再生。
另外，在圖9的例中，主聲音的開頭的音頻再生時刻信息“M00”與副聲音的開頭音頻再生時刻信息“S00”之差值為“11”，該差值被記錄在例如流的標題中，并由于解說圖像(副聲音)的開始時刻被預先規(guī)定而產(chǎn)生。上述差可以為“0”。即，主聲音和副聲音可以同時開始。并且，當由于使用者的遙控器操作等對副聲音的起動開始時刻進行了設定時，上述差成為起動開始時刻的主聲音的再生時刻信息與主聲音的再生時刻信息的差。
接著考慮以下情況。由主聲音和副聲音的壓縮音頻編碼數(shù)據(jù)構成的聲音流被存儲在一個記錄媒介(光盤等)中，識別主聲音和副聲音的標志信息被存儲在各音頻流的比特流的標題信息內(nèi)。并且，具有主聲音標志的聲音流有3種，具有副聲音標志的聲音流有1種。從杜比數(shù)字5.1ch的日語聲音、杜比數(shù)字5.1ch的英語聲音、線性PCM2ch聲音中選擇主聲音并再生。副聲音是作者的解說用杜比數(shù)字2ch的英語聲音被再生。各聲音流中存儲有音頻再生時刻信息APTS。利用者通過選擇主聲音并選擇稱為混合再生副聲音的菜單，來對主聲音和副聲音同時再生時的聲音進行選擇。
另外，可以假設主聲音為英語，副聲音為日語、法語和德語之一的、存在多個副聲音的情況，也可以假設同時存在多個主聲音和副聲音的情況。
無論哪種情況，使用者選擇再生的聲音。在對電影等的內(nèi)容進行再生時，預先將對再生的電影場景的主聲音進行識別的標識符、和對電影制作者在制作上的技巧進行解說的副聲音進行識別的標識符賦予內(nèi)容，并可以預先對主聲音和副聲音進行區(qū)別，且使兩者同步并再生。由此，使用者能夠使主聲音和副聲音同步并再生。
圖10表示主聲音為1ch、副聲音為3ch時將音頻再生時刻信息APTS附加到各聲音流的情況。副聲音例如為英語聲音、日語聲音和韓國語聲音的聲音流。如圖10所示，由于各聲音流中存儲有音頻再生時刻信息APTS，因此通過上述的同步設定部11的動作，能夠使任一個副聲音與主聲音同步并再生。
但是，在對多個音頻數(shù)據(jù)進行譯碼時，由于主聲音和副聲音的音頻編碼方式不同，存在各數(shù)據(jù)的音頻幀大小不同的情況。但是，如果在各音頻流被附加有音頻再生時刻信息APTS，則通過利用系統(tǒng)時刻基準STC和各音頻再生時刻信息APTS，能夠使主聲音和副聲音同步并再生。如果是多個音頻譯碼部具有處理的獨立性的結構，即使編碼方式的不同使音頻幀處理單位也不同，也能夠使各音頻流根據(jù)各音頻再生時刻信息APTS同步并再生。
并且，存在主聲音的采樣速率與副聲音的采樣速率不同的情況。在這種情況下，速率改變部7使一個再生聲音信號的采樣速率與另一個再生聲音信號的采樣速率一致的改變。由此，能夠使主聲音和副聲音的采樣速率一致并再生。在內(nèi)容本身中記錄有是主聲音、還是解說等副聲音的種類時，速率改變部7使副聲音的采樣速率與主聲音的采樣速率一致。由此，由于不管有無解說聲音，都能以一定的采樣速率對主聲音和副聲音進行再生，因此使用者能夠沒有不適感地聽到主聲音和副聲音。
作為采樣速率改變的方法，有利用將數(shù)字聲音改變成模擬聲音的DA變換器和進行相反動作的AD變換器，將數(shù)字聲音暫時變回模擬聲音的方法。并且，有通過使用構成采樣速率變換器的半導體電路來改變成希望的采樣速率的方法，以及易適用于彼此的采樣速率成倍數(shù)關系時，通過去掉中間部分或插值來生成速率改變聲音的方法等。
下面對在沒有記錄主聲音和副聲音的標識符時等，具有成為主要的采樣速率的聲音信號的選擇方法進行說明。作為具有成為主要的采樣速率的聲音信號的選擇方法，有選擇連續(xù)的聲音再生區(qū)間比較長的聲音信號，并使連續(xù)的聲音再生區(qū)間短的聲音信號的采樣速率與長的采樣速率一致的方法。如圖6所示，在作為解說插入以對特定場景的解說等、對主聲音進行輔助為目的的副聲音時，副聲音的聲音再生區(qū)間比主聲音的短。因此，選擇再生區(qū)間長者作為具有成為主要的采樣速率的聲音信號，并對再生區(qū)間短的信號的采樣速率進行改變使其與選擇的聲音信號的采樣速率一致。并且，如圖6所示，副聲音存在只有特定的場景被再生等、從節(jié)目的中途開始并在中途結束的情況。如果選擇聲音再生時間長者作為具有成為主要的采樣速率的聲音信號，則相同采樣速率的聲音被再生的時間變長，由于使用者感到不適的時間變短，因此很好。
作為另外的選擇方法，在選擇一個聲音信號時，選擇沒有間斷的聲音再生區(qū)間的聲音信號，并使具有間斷的再生區(qū)間的聲音信號的采樣速率，與沒有間斷的聲音再生區(qū)間的聲音信號的采樣速率一致。在對每個場景都具有間斷的解說再生區(qū)間的聲音信號進行再生時等，對具有間斷的聲音再生區(qū)間的聲音信號的采樣速率進行改變使其與沒有間斷的信號一致。
并且，作為其他的選擇方法，在選擇一個聲音信號時，選擇具有較高的采樣速率聲音信號，對具有低采樣速率的聲音信號的采樣速率進行改變使其與高的采樣速率一致。即，使高音質(zhì)的聲音信號保持不變，通過對其他聲音信號進行提高采樣速率等來進行速率改變并進行合成。此時，如果2個聲音信號的采樣速率比是一個為另一個的倍數(shù)關系，則能夠簡化在速率改變后合成聲音的電路。例如，如果一個聲音信號的采樣速率為96KHz、另一個聲音信號的采樣速率為48KHz時，或者一個為48KHz、另一個為24KHz時等，由于能夠?qū)⑦M行了頻率插值的聲音信號數(shù)據(jù)直接相加，因此容易合成。
反之，在選擇一個聲音信號時，也可以選擇具有低采樣速率的聲音信號，對具有高采樣速率的聲音信號的采樣速率進行改變使其與低采樣速率一致。在輸出聲音的傳送頻帶受限制的情況，或者不需要高音質(zhì)的再生聲音時等使用該方法。例如，當假定通過特定的傳送路徑傳送聲音數(shù)據(jù)的情況等時，通過與低采樣速率一致進行改變，可以預計到減少聲音數(shù)據(jù)的傳送量的效果。在這種情況下，如果2個聲音信號的采樣速率比是一個為另一個的倍數(shù)關系，則能夠簡化在速率改變后合成聲音的電路。例如，如果一個聲音信號的采樣速率為96KHz、另一個聲音信號的采樣速率為48KHz時，或者在一個為48KHz、另一個為24KHz時等，由于能夠?qū)⑦M行了頻率插值的聲音信號的數(shù)據(jù)直接相加，因此容易合成。
并且，在選擇一個聲音信號時，選擇由采樣速率在中途不變的連續(xù)的聲音再生區(qū)間構成的聲音信號，對采樣速率在中途改變的聲音信號的采樣速率進行改變使其與沒有改變的采樣速率一致。在有多個解說、或者主聲音也經(jīng)常改變采樣速率的情況下使用該方法。在對壓縮音頻數(shù)據(jù)進行譯碼時，存在在采樣速率的改變點需要進行聲音降噪(mute)的情況。因此，將速率沒有變化的聲音信號作為主進行選擇時，對聲音進行降噪的區(qū)間減少，并容易實現(xiàn)聲音的連續(xù)再生。
根據(jù)再生內(nèi)容的編碼方式在中途被改變、或采樣速率被變更時的音頻譯碼部的結構，存在必須對譯碼的編碼方式程序或硬件的運算電路的設定進行變更的情況。此時，需要進行音頻譯碼部的初始化處理，并且還需要對與其成對應的存儲在壓縮音頻緩沖部中的壓縮音頻數(shù)據(jù)、或讀取指針、寫入指針等信息進行清除。不僅需要對壓縮音頻緩沖部進行刪除，還需要對音頻再生時刻信息管理部的音頻再生時刻信息APTS、和保存地址指針的信息進行刪除。該音頻緩沖信息的清除可以只是改變了編碼方式或采樣速率。沒有被改變的信號通過繼續(xù)進行連續(xù)的壓縮音頻數(shù)據(jù)的譯碼和再生，使用者可以不意識到切換，來欣賞再生的聲音。
為了將這些由速率改變部7改變過采樣速率的音頻數(shù)據(jù)相加，相加比處理部A8和相加比處理部B9改變再生輸出電平。例如，在記錄媒介等中，表示對于主聲音的解說等副聲音的相加比的相加比信息，存儲在各音頻流或解說等副聲音的流的標題信息內(nèi)。在將解說等副聲音合成到主聲音內(nèi)時，相加比處理部A8和相加比處理部B9用根據(jù)該相加比信息的值，將主聲音和副聲音中的一個或兩個乘以相加比，將主聲音和副聲音進行合成。例如，相加比處理部A8和相加比處理部B9降低主聲音和副聲音雙方的輸出電平到原聲音的0.7倍等并相加。
通常，根據(jù)相加比信息，進行各聲音乘以相加比的聲音的再生，但也有想要強調(diào)解說等副聲音的情況。
作為第1方法，在被分別譯碼的聲音中的任意的一個聲音中合成另一個聲音時，將上述任意一個聲音的再生輸出電平只減去合成另一個聲音的部分并將兩聲音合成，在不合成另一個聲音的部分不減去上述任意一個聲音的再生輸出電平。例如，在將再生輸出電平設為一定值“1”并對2個聲音進行合成時，將被加數(shù)側(cè)的聲音的再生輸出電平從一定值“1”減至“0.6”，使加數(shù)側(cè)的聲音的再生輸出電平為“0.4”，確保整個再生輸出電平為一定值“1”。此時，能夠強調(diào)被加數(shù)側(cè)的聲音并聽取。例如，當想要合成的聲音為解說聲音時，在想要注意聽取解說時等，則提高解說聲音的再生聲音電平，并降低主聲音的再生聲音電平。
作為第2種方法，對應于使用者想要任意地設定再生聲音電平使其比規(guī)定值高或低的情況，當使用者想要將上述另一個聲音的電平設定得更高時，在任意一個原聲音合成另一個聲音的部分，將上述任意一個原聲音的輸出電平減掉與另一個聲音的增加量相對應的量。其原因是，使另一個聲音增加并直接將其音量加到一個聲音上時，相加后的聲音的一部分中產(chǎn)生超出再生動態(tài)范圍的信號成分，產(chǎn)生削波等聲音失真，有可能成為非常難聽到的聲音。相反，在降低副聲音的輸出電平時，只要相對地提高主聲音的相加比就可以。
當速率改變部7改變采樣速率、相加比處理部A8和相加比處理部B9進行相加比處理時，相加輸出部10合成聲音。此時，存在各聲音的再生通道數(shù)不同的情況。圖11表示相加輸出部10的結構例(為了簡化圖省略了速率改變部7)。在根據(jù)上述任意一個聲音的再生信號通道數(shù)并進行了相加比處理后，相加輸出部10對另一個聲音的再生信號通道數(shù)進行統(tǒng)合或分配來進行合成。
例如，將解說等副聲音加到主聲音中的相加通道信息，存儲到各音頻流或者解說流的標題信息內(nèi)，并將其記錄到記錄媒介等中。在將解說等副聲音合成到主聲音中時，相加輸出部10用根據(jù)該相加通道信息的值合成聲音。例如，相加輸出部10將副聲音合成到主聲音的中心通道中。
作為相加通道信息，可以假設有各相加通道的混合電平或通道匹配、對特定通道的相加限制信息等的相加通道信息、或者采樣速率、各通道的采樣字節(jié)數(shù)、壓縮流的數(shù)據(jù)率等。并且，如果有相加通道信息和相加音量系數(shù)表等詳細的相加比信息，則副聲音將輸出電平下降到0.7倍等加到主聲音的右前通道中，并將輸出電平下降到0.7倍等加到左前通道中。
并且，在具有相加通道信息能夠從多種模式中進行選擇的信息時，例如由音頻譯碼部A4再生的聲音為5.1ch、由音頻譯碼部B5再生的聲音為單聲道1ch時，將由音頻譯碼部B5再生的聲音作為被加入方，預先設置向使用者顯示選擇分支的界面，(第1)僅中央通道、(第2)右前通道和左前通道的2個通道、(第3)中央通道和超重低音(サブウ-ハ)通道、(第4)右前和左前以及超重低音通道等，讓使用者選擇被加入方。由此，能夠以對應于使用者所希望的通道的相加比，改變各通道的輸出增益后，實現(xiàn)規(guī)定通道的合成。當然，在主聲音和副聲音的通道數(shù)相同，使用者沒有指定相加通道時，可以將各通道相加。并且，在根據(jù)使用者的要求，想要進行對有相加通道的副聲音的音量進行增加等的改變時，必須調(diào)節(jié)的混合電平以便使主聲音不產(chǎn)生削波。此時，不僅要進行對相加通道的主聲音的增益進行減小等的改變，還要考慮到與其他的主聲音通道的平衡，根據(jù)需要改變其他通道的相加比。如果增大副聲音的音量，就降低主聲音的音量，如果降低副聲音的音量，就增大主聲音的音量，為此，優(yōu)選能夠根據(jù)使用者的要求靈活地設定相加比。
在現(xiàn)有例的專利文獻1中，對于再生通道不同時的同時再生有若干說明。對于將第1聲音作為單聲道輸出給右前通道，將第2聲音作為單聲道輸出給左前通道的錯開一個通道輸出，或者將第1和第2聲音之一的聲音以立體聲2ch輸出具有說明。并且在5.1ch的情況下，對將第1聲音以立體聲2ch、第2聲音以立體聲2ch輸出的設定，或者將第1和第2聲音之一的聲音以5.1ch輸出的情況有說明，但這些不是將第1聲音和第2聲音合成并輸出，而是同時從不同的揚聲器輸出的情況的說明。對于將多個聲音合成為從同一個揚聲器輸出的聲音的方法沒有詳細的說明。并且，對于多個聲音的同步方法也沒有詳細的說明。
并且在本發(fā)明中，在解說等副聲音的通道數(shù)多于主聲音的通道數(shù)時，向使用者顯示對將多個通道合并到主聲音的哪個通道中等進行設定的選擇分支，受理使用者的選擇，并根據(jù)該選擇對在相加部中執(zhí)行沒有削波的聲音的相加的相加比進行設定。相加比的設定通過如下實現(xiàn)首先將削波的通道設定為不進行削波的值，然后，根據(jù)與設定了相加比的通道的輸出相對的電平再次設定其他通道的相加比。當然，也可以設置使用者設定每個通道的相加比的結構。因此，各相加比處理部根據(jù)再生通道的數(shù)量進行相加。
當改變相加值是按使用者的指令進行時，如果暫停再生并將聲音降噪、并進行改變相加系數(shù)等處理，則能夠在改變途中不會產(chǎn)生異音等，并實現(xiàn)相加值的變更。如果設置檢測部，用于將相加比乘到譯碼聲音中并在合成并輸出之前檢查削波，則通過相加比處理部A8和相加比處理部B9自動地變更相加值，能夠再次變更相加比，并重新進行合成以便不引起削波，并防止異音的產(chǎn)生。并且，對應于上述檢測部發(fā)現(xiàn)削波時預先設置改變相加系數(shù)的處理部，以便使聲音輸出電平逐漸變小并成為不會引起削波的電平。
并且，操作聲音的合成有被與聲音再生裝置相連的外部連接設備的結構所決定的情況。例如假設圖12所示的外部音響設備92被連接在聲音再生裝置上的情況。由于外部音響設備92的結構，存在即使原來的再生內(nèi)容有5.1ch時，但連接的揚聲器只有3個通道的情況。在這樣的情況下，對應于外部音響設備92的通道數(shù)，對上述任意一個聲音信號的通道數(shù)進行統(tǒng)合或分配，并且對其他聲音信號的通道數(shù)進行統(tǒng)合或分配來進行合成。
并且，存在使用者改變再生輸出的通道數(shù)的情況。在這種情況下，如果采用如下的結構，使外部音響設備92或聲音再生裝置內(nèi)的輸出部的設定對應于使用者的聲音輸出規(guī)定通道，并對上述任意一個聲音的再生信號通道數(shù)進行統(tǒng)合或分配，并且對其他的聲音的再生信號通道數(shù)進行統(tǒng)合或分配并進行合成，則使用者通過對聲音輸出的全部或一部分進行設定，聲音再生裝置能夠自動地設定相加處理所必需的相加值。
下面用圖13對主聲音的再生內(nèi)容為5.1ch，副聲音的再生內(nèi)容為2ch，連接的揚聲器只有3個聲道時的聲音的合并的一例進行說明。在上述合并的一例中，如圖13所示，將主聲音的SL通道和副聲音的FL通道加到主聲音的L通道，并使其從第1揚聲器輸出。并且，將主聲音的SR通道和副聲音的FR通道加到主聲音的R通道，并使其從第2揚聲器輸出。并且，將主聲音的SL通道和主聲音的SR通道加到主聲音的C通道，并使其從第3揚聲器輸出?；蛘?，使主聲音的L通道從第1揚聲器輸出。并且，使主聲音的R通道從第2揚聲器輸出。并且，將副聲音的FL通道和副聲音的FR通道加到主聲音的C通道，并使其從第3揚聲器輸出。
并且，也可以使加上副聲音的通道進行時間的改變。例如，可以隨著時間的推移使相加的通道改變，以便將副聲音之一的通道或2個通道最初只加到主聲音的L通道中，然后加到主聲音的L通道和主聲音的C通道，接著只加到主聲音的C通道，再接著加到主聲音的C通道和主聲音的R通道，最后只加到主聲音的R通道。如此，疊加聲音成為聽起來是從視聽者的左方向右方進行空間移動。
下面用圖14對主聲音和副聲音的再生內(nèi)容分別為2ch，連接揚聲器為6通道時的聲音的分配的一例進行說明。如圖14所示，在上述分配的一例中，通過變換器將主聲音的L通道和R通道改變成6通道后，(1)將副聲音的L通道加到改變后的主聲音的FL通道，并使其從第1揚聲器輸出；(2)將副聲音的R通道加到改變后的主聲音的FR通道，并使其從第2揚聲器輸出；(3)將副聲音的L通道加到改變后的主聲音的SL通道，并使其從第三揚聲器輸出；(4)將副聲音的R通道加到改變后的主聲音的SR通道，并使其從第4揚聲器輸出；(5)從第5揚聲器輸出改變后的主聲音的C通道；(6)加上改變后的主聲音的SUB通道并使其從第6揚聲器輸出。
并且，如圖12所示，如果結構是，在聲音再生裝置上連接外部圖像設備91或外部音響設備92，聲音再生裝置通過對外部連接設備的設備ID等確定對方設備的信息進行識別，來獲得能夠輸出的揚聲器的數(shù)量的信息，并獲得合成主聲音和副聲音的通道的設定信息，并在可變速度再生時對各輸出處理前后的相加的選擇進行選擇，則更提高方便性。
例如，如果聲音再生裝置采用的結構是，接受識別對方側(cè)輸出設備的設備種類的ID編號等，并參照主體內(nèi)或條件設定用的存儲卡內(nèi)的表設定各種設定條件，則即使使用者不操作聲音再生裝置也能夠根據(jù)能夠輸出的通道數(shù)合成主聲音和副聲音。
為了獲得對方設備的信息，通過被稱為High-DefinitionMultimedia Interface(HDMI，高清晰多媒體接口)的規(guī)格等連接設備。圖15表示用HDMI連接的2個設備的結構。圖15中表示了信號源側(cè)設備81、接收側(cè)設備82、發(fā)送AV數(shù)據(jù)86的發(fā)送機83、接收AV數(shù)據(jù)的接收機84、發(fā)送稱為電源接通或通道控制的指令的命令總線88、交換設備固有信息的總線87、存儲設備固有信息的ROM85。在HDMI中，通過進行信號源(source)側(cè)的設備81與接收側(cè)(sink)設備82能夠互相連接的認證手續(xù)，信號源側(cè)設備81以適當?shù)腁V數(shù)據(jù)格式向接收側(cè)設備82發(fā)送AV數(shù)據(jù)。此時發(fā)送設備固有的信息數(shù)據(jù)。如果作為信號源側(cè)設備81的聲音再生裝置，通過該方法獲得外部圖像設備91或外部音響設備92的設備固有信息，則能夠獲取合成通道數(shù)的限制或合成圖像格式的限制等信息并改變設定。如果采用聲音再生裝置將這些獲得的信息作為缺省設定值保存的結構，則只要設備連接不變，在何時都能以相同的狀態(tài)欣賞AV。如果存在連接設備的ID等的改變，則只要接收此時對方設備的信息改變設定就可以。
通過對各PCM緩沖部中存儲的PCM數(shù)據(jù)進行合成并輸出來進行主聲音和副聲音的合成輸出。通過從聲音再生裝置中自帶的音頻DAC、或者根據(jù)IEC60958等數(shù)字音頻接口規(guī)格的光纖數(shù)字電纜輸出該PCM數(shù)據(jù)，能夠?qū)CM數(shù)據(jù)傳送給外部音響設備92并進行再生。并且，也可以通過對合成主聲音和副聲音并制作的PCM數(shù)據(jù)實施音頻編碼，改變成道比爾方式等的數(shù)字編碼數(shù)據(jù)，并用光纖數(shù)字電纜或HDMI電纜等、且按壓縮編碼流的IEC61937規(guī)格等的音頻數(shù)據(jù)接口規(guī)格，輸出給外部連接設備。
作為這些外部連接設備，假設為TV等監(jiān)視器輸出設備、音頻輸出放大器、具有AV選擇功能的AV放大器等接口設備、便攜式輸出設備、車載用AV再生設備等。
相加輸出部10對被各相加比處理部進行過相加比處理的音頻數(shù)據(jù)，以相同的采樣速率進行不會引起聲音削波的聲音輸出。并且，在改變采樣速率時或改變相加比時等不能保持聲音的連續(xù)性時，還分擔實施聲音的降噪處理等的處理。
如圖8所示，聲音合成部6由速率改變部7、相加比處理部A8、相加比處理部B9和相加輸出部10構成。對速率改變部7僅位于音頻譯碼部B5側(cè)時的情況進行了說明，但速率改變部7也可以位于音頻譯碼部A4側(cè)，或者位于音頻譯碼部A4側(cè)和音頻譯碼部B5側(cè)。并且，說明過合成2個聲音時的情況，但也可以是如下結構具有對3個以上的壓縮音頻數(shù)據(jù)進行譯碼的各譯碼部并進行合成。
并且，如果采用的結構是，使作為整個系統(tǒng)的基準的系統(tǒng)時刻基準本身可變，并使系統(tǒng)時刻基準參照信號的基準值的更新為可變，則通過對根據(jù)基準值信息進行同步再生的多個聲音信號的音頻再生時刻信息集中進行譯碼，能夠取得彼此的同步。
副聲音用的壓縮音頻數(shù)據(jù)的編碼數(shù)據(jù)流并不僅限于從一個記錄媒介提供，也存在從通過網(wǎng)絡連接的設備輸入的情況。并且，也存在從與記錄主聲音的記錄媒介不同的記錄媒介提供的情況。存在雙方從通過網(wǎng)絡連接的外部設備下載并再生的情況。并且，還存在預先記錄到設備固有的半導體或硬盤裝置等記錄裝置中、或者作為初始設定被記錄的情況。無論哪種情況，如果為了確保主聲音和副聲音的同步再生而將彼此的聲音再生時刻信息進行關聯(lián)，則能夠同步再生。如果沒有進行關聯(lián)，則即使同時進行再生也不需要將再生時刻信息集中進行再生。
并且，被輸入的流并不僅限于記錄到如DVD的記錄媒介的流、或接收數(shù)字播放信號并記錄的流。也可以是將來自外部的模擬信號進行數(shù)字編碼并編碼了的流。在編碼時，通過附加音頻再生時刻信息APTS或視頻再生時刻信息VPTS，可以在再生時分離AV同步。并且，對與最初的再生聲音同步了的其他的音頻流進行編碼，并參照最初存在的音頻流的音頻再生時刻信息附加音頻再生時刻信息，由此可以構成實現(xiàn)后期配音()再生的系統(tǒng)。
并且，在圖6中，解說圖像在比主圖像的長度短的規(guī)定的期間被放映多次。但是，如圖16所示，解說圖像存在從主圖像的中途開始，并在主圖像結束后還未結束的情況。隨之，副聲音在主聲音結束后也未結束(參照圖16的“SB”部分)。此時，在主圖像結束之前，副聲音按主聲音的音頻再生時刻信息APTS與主聲音同步并再生。當主聲音結束時，副聲音也可以(1)按系統(tǒng)時刻基準STC再生；(2)對主聲音結束后的音頻再生時刻信息APTS進行預測，并按預測的主聲音的音頻再生時刻信息APTS再生；或者(3)按副聲音的音頻再生時刻信息APTS再生。并且，當主圖像結束時，解說圖像也可以放大并顯示。
并且，如圖17所示，效果音(例如蜂鳴聲)也可以被合成到主聲音。當效果音的信號中包含音頻再生時刻信息APTS時，效果音也可以作為副聲音來處理，并通過利用該音頻再生時刻信息APTS，效果音與主聲音和副聲音進行同步并再生。當效果音的信號中不包含音頻再生時刻信息APTS時，如果將與效果音的開始再生時刻相應的主聲音的音頻再生時刻信息APTS定義為效果音的音頻再生時刻信息，則同樣能夠同步再生。
并且，如圖18所示，在將2ch的副聲音合成到6ch的主聲音中時，(1)將副聲音左前(FL)ch的信號加到主聲音的左(L)ch的信號和中央(C)ch的信號中；(2)將副聲音的右前(FR)ch的信號加到主聲音的右(R)ch的信號和中央(C)加到ch的信號中。由此，即使主聲音和副聲音的通道數(shù)不同，也能夠合成主聲音和副聲音。該合成時刻的聲音信號為5.1ch的信號。當由于輸出揚聲器的限制等必須將該5.1ch的信號合并成為3ch時，即在“TL”、“TR”和“TC”的3ch進行輸出時，主聲音的信號，例如將合成聲音的“L”和“SL”合并到合并聲音的“TL”，合成聲音的“R”和“SR”合并到合并聲音的“TR”，合成聲音的“C”和“SUB”合并到合并聲音的“TC”的3ch中。
并且，當能夠合成的多個聲音信號被記錄到DVD中時，如圖19所示，DVD500中也可以記錄多個聲音數(shù)據(jù)501和附屬數(shù)據(jù)501。附屬數(shù)據(jù)為確定各聲音信號的通道數(shù)、編碼方式、采樣速率、聲音再生區(qū)間等的信息。并且，附屬數(shù)據(jù)也可以包含相加比信號信息或相加通道信息。并且還可以包含確定副聲音的開始時間的信息。由此，聲音再生裝置能夠容易地進行合成或統(tǒng)合多個聲音。
即使當聲音數(shù)據(jù)501和附屬數(shù)據(jù)502被從網(wǎng)絡下載并存儲到裝置內(nèi)的硬盤等存儲部中時，也能夠與上述一樣對多個聲音信號進行合成并再生。
(實施方式2)下面主要參照表示實施方式2的聲音再生裝置的結構的方框圖的圖8對實施方式2的聲音再生裝置的結構及聲音再生方法進行說明。
實施方式1中對以系統(tǒng)時刻基準STC為基準來實現(xiàn)多個聲音和多個圖像的AV同步的方法進行了說明。在實施方式2中，作為AV同步的方法，聲音再生裝置從輸入的壓縮音頻數(shù)據(jù)中分離出多個聲音信號，并讀取各自的音頻再生時刻信息，根據(jù)一個聲音信號的音頻再生時刻信息實施主聲音信號的譯碼，并使另一個聲音信號的音頻再生時刻信息與上述主聲音信號的音頻再生時刻信息一致并進行譯碼，由此獲取互相的同步。
至此已對以正常再生速度的聲音合成、和同步的方法進行了說明，下面對高速再生(例如2倍速度再生)等的可變速度再生時的聲音合成、和同步方法進行說明。
當音頻譯碼器具有正常再生速度處理以上的處理能力時，并且具有進行可變速度的聲音輸出的再生處理的能力時，通過根據(jù)對一個聲音信號的音頻譯碼進行了可變速度處理的、再生時的音頻再生時刻信息，使另一個聲音信號的音頻再生時刻信息與基礎音頻再生時刻信息一致并進行譯碼，能夠得到互相的同步。
圖20為表示在音頻譯碼處理后對是在可變速度處理前還是在之后將副聲音加到主聲音中進行選擇、并進行聲音合成并再生的處理的流程圖。在步驟306將音頻譯碼的結果存儲到PCM緩沖部中。在步驟331選擇音頻合成處理的前或后。判斷基準將在后面說明。
選擇音頻合成處理前時(步驟331為Yes)，在步驟332中如果主聲音的音頻再生時刻信息與解說副聲音的音頻再生時刻信息一致(在允許輸出時刻差以內(nèi)，例如數(shù)十ms以內(nèi)為一致)，則將解說等副聲音加到主聲音中，并在步驟333中進行音頻可變速度處理。另一方面，選擇音頻合成處理后時(步驟331中為No)，在步驟334中對主聲音進行音頻可變速度處理，然后在步驟335中將副聲音加到主聲音中。在步驟307中使將副聲音加到主聲音中后的聲音與視頻的輸出的同步一致并進行輸出。
圖21為用于說明進行實施方式2的音頻輸出處理部61的可變速度控制的方法的方框圖。下面詳細對進行圖22所示的再生速度改變功能時的可變速度控制的例進行說明。
在圖21中，來自PCM緩沖部A41的聲音信號被輸入可變速度處理部62，實施以下說明的可變速度處理。然后，聲音信號暫時被存儲在輸出緩沖部63中，并被輸出給聲音合成部6。
實現(xiàn)可變速度再生的方法有幾種。第1，反復進行正常速度再生和跳躍再生的方法；第2，實際進行高速譯碼處理的方法。
首先對第1的反復進行正常再生和跳躍(skip)再生的方法進行說明。基本上為切除跳過了讀出位置的部分，并只進行沒有被跳躍的部分的再生的跳躍再生處理。例如，在實施2倍速度再生時，不是對所有的音頻幀進行再生，而是在音頻輸出部內(nèi)的可變速度處理部62中，制作跳過特定的音頻幀并再生的音頻數(shù)據(jù)，以便使在音頻輸出改變處理后的再生時間變?yōu)橐话耄⒈４娴捷敵鼍彌_部63中。然后，獲取與再生的音頻幀部分相應的音頻再生時刻信息APTS值。
另一方面，在視頻輸出部中，為了獲取同步信息、并對與該音頻再生時刻信息APTS相對應的視頻進行輸出，跳過特定幀的顯示并進行AV同步。即，通過對與以音頻幀處理單位跳躍再生時的音頻再生時刻信息APTS進行了同步的視頻顯示進行實施，實現(xiàn)可變速度再生時的AV同步。
并且，作為另外的方法還有在輸入部1預先跳躍并讀取的方法。由于向輸入部1中只輸入進行了跳躍的流，因此通過從被輸入的流中對系統(tǒng)時刻基準STC等的系統(tǒng)基準時刻信息、音頻再生時刻信息APTS和視頻再生時刻信息VPTS進行讀取，來實現(xiàn)同步。這與正常再生的AV同步方法相同。但是，通過在進行了0.5秒到數(shù)秒左右的再生后再進行跳躍，實現(xiàn)作為整體的高速的再生。
接著對為了進行可變速度處理通過正常再生速度處理以上的處理能力進行音頻譯碼處理時的情況進行說明。在上述音頻譯碼處理后加上另外的譯碼聲音，所有能夠?qū)嵤┥鲜隹勺兯俣忍幚怼＠纾捎谠趯⒔庹f等副聲音加到主聲音中以后，通過音頻輸出處理部61實施可變速度處理，所有加上的聲音也能夠進行與譯碼聲音的可變速度處理同步的聲音輸出。
另外，也可以在上述可變速度處理后將副聲音加到主聲音中。由于在通過音頻輸出處理部61實施可變速度處理后將副聲音加到主聲音中，因此即使譯碼聲音被可變速度處理，加上的副聲音也能夠以正常的聲音速度相加。
首先對高速譯碼處理時的同步再生方法進行說明。輸入部1讀取正常再生所需要的輸入速度以上的數(shù)據(jù)，并在分離成視頻流和音頻流后，將流存儲到各緩沖部中。由此，多個視頻譯碼部和多個音頻譯碼部起動。各譯碼器以正常的再生速度以上的高速(與再生速度無關，有效利用被給予的資源)實施譯碼，并將譯碼結果存儲到各幀緩沖部、各PCM緩沖部中。
為了進行可變速度處理，音頻譯碼器的處理能力需要正常再生速度處理能力以上的處理能力。例如，為了保持1.3倍左右的再生速度，優(yōu)選有比再生速度高的1.5倍左右的譯碼處理能力。這不單是譯碼處理性能，從再生媒介中讀出的處理性能、或傳輸處理性能也需要同樣的能力。
譯碼被高速進行，存儲在PCM緩沖部等中的音頻數(shù)據(jù)被如下處理。在圖22中，上側(cè)是表示可變速度處理前的正常速度的再生的數(shù)據(jù)，下側(cè)是表示可變速度處理后的高速再生的數(shù)據(jù)。上側(cè)是表示在T1時間對6音頻幀(1音頻幀為10多ms左右)進行正常再生的情況。而下側(cè)是表示將第1個和第2個音頻幀的再生疊加進行，并作為結果在T1的6分之5的時間的T2內(nèi)對6音頻幀進行了再生的情況。將壓縮比定義為處理后的時間長度除以處理前的時間長度的值時，則速度比為壓縮比的倒數(shù)。因此，此處成為以5分之6倍(1.2倍)的高速再生。
通過使此時疊加的音頻幀的再生的一個淡出，并使一個淡入來實現(xiàn)重合。設兩者是以正常再生速度的疊加。在除此以外的不疊加的音頻幀中為正常速度再生。由于稱為高速再生的也全部是以正常再生速度的再生，因此原音的音調(diào)沒有改變。因此，能夠?qū)崿F(xiàn)可以聽取自然的聲音的可變速度再生。
存在由于主聲音與副聲音之間音頻編碼方式或采樣速率不同等，使音頻幀的大小不同的情況。在可變速度再生時，當音頻幀的大小不同時，不需要完全地得到兩者的同步。如果進行再生以便使雙方具有相同的速度比，并在某個區(qū)分較好的一定再生時間內(nèi)取得同步，則作為結果能夠?qū)崿F(xiàn)兩者的同步。
如果對如此的在音頻輸出處理部61中的可變速度控制進行實施，并設置選擇部，該選擇部對在上述音頻譯碼處理后加上另外的譯碼聲音并實施上述可變速度處理，還是在上述可變速度處理后對另外的譯碼聲音進行相加處理進行選擇，則加上的數(shù)據(jù)聲音也能夠以與原來的聲音沒有區(qū)別的音調(diào)進行再生。
另外，主再生聲音與副聲音的同步是如此前已說明過。當相加之前獲取同步時，以最初對所有的音頻幀所算出的PTS為基準，參照其他聲音的PTS進行相加即可。另外當在可變速后進行附加聲音相加時，音頻幀的疊加部分的PTS可以預先確定疊加的哪個音頻幀的PTS為有效的規(guī)則。
并且，在對副聲音側(cè)提供了完全沒有音頻再生時刻信息的流時，或者在忽略再生時刻信息同時進行再生時，由于基本上沒有與主聲音的同步關系，因此聲音再生裝置只要進行再生以便保持當時再生的主聲音的再生的連續(xù)性就可以。此時的采樣速率的改變、相加值的改變和輸出通道的改變等用與以前的實施方式相同的方法實施就可以。
如本實施方式2，尤其是在音頻的可變速度再生中，如果使用作為音頻的再生基準時刻的音頻再生時刻信息APTS，則容易進行AV同步再生。
并且，關于多個圖像或多個聲音的同步，預先設置判斷再生流的內(nèi)容的判斷部，作為用于再生合成的相加的選擇單元。根據(jù)由上述判斷部所獲得的結果，能夠在再生時對音頻輸出處理的前或后進行選擇，作為加上從數(shù)據(jù)中抽出的聲音信息的時刻，或者對視頻輸出處理的前或后進行選擇，作為加上從數(shù)據(jù)中抽出的文本或文字信息的時刻并進行再生。
例如，能夠根據(jù)再生內(nèi)容進行如下選擇是如同卡拉OK字幕實施音頻和視頻同步的各輸出處理好，還是如同緊急臨時播放(沒有同步性)在實施了各輸出處理后輸出文字信息好。
預先設置作為相加選擇部的選擇部，該選擇部從使用者的指示內(nèi)容選擇內(nèi)容的再生處理內(nèi)容。根據(jù)由上述選擇部得到的結果，能夠?qū)σ纛l輸出處理的前或后進行選擇，作為加上從數(shù)據(jù)中抽出的聲音信息的時刻，或者對視頻輸出處理的前或后進行選擇，作為加上從數(shù)據(jù)中抽出的文本或文字信息的時刻并進行再生。
例如，能夠根據(jù)使用者的指示進行相加選擇，該相加指示是在可變速度處理前加上聲音信號和文字信息，還是在可變速度處理后加上聲音信號和文字信息。
為了決定進行相加的時刻，預先設置判斷部，對再生的流的內(nèi)容和使用者的使用用途進行判斷。根據(jù)由上述判斷部得到的結果，能夠在再生時對音頻輸出處理的前或后進行選擇，作為加上從數(shù)據(jù)中抽出的聲音信息的時刻，或者對視頻輸出處理的前或后進行選擇，作為加上從數(shù)據(jù)中抽出的文本或文字信息的時刻并進行再生。
例如，即使是卡拉OK內(nèi)容，也能夠根據(jù)使用者的指示對除內(nèi)容外再加上使用者的指示內(nèi)容的向各輸出處理的前后的相加進行選擇，該指示內(nèi)容為，是在可變速度處理中在可變速度處理前加上聲音信息和文字信息、還是在只使音調(diào)改變的音調(diào)變化處理中在音調(diào)變化處理之后加上聲音信息和文字信息。
(實施方式3)下面主要參照表示實施方式3的聲音再生裝置的結構的方框圖的圖8、和表示進行可變速度控制的音頻輸出處理部的結構的圖21，對實施方式3的聲音再生裝置的結構和聲音再生方法進行說明。
音頻輸出處理部61并不是限于進行可變速度再生處理。例如也可以進行對譯碼后的聲音的音高進行改變的處理。在接收數(shù)字播放信號并記錄，至少將音頻被編碼的流進行確保時刻同步并再生時，在音頻譯碼處理后，根據(jù)同步信息對在音頻合成處理之前或后進行選擇并加上從數(shù)據(jù)中抽出的聲音信息并進行再生。如此，例如在將副聲音加到主聲音中后，能夠通過音頻輸出處理使原聲音的音程高低改變，或是通過音頻合成處理在使原來的主聲音的音程高低改變后加上副聲音，由此來對被加上的聲音信號的輸出的方式進行改變。
并且，音頻輸出處理部61還能夠?qū)嵤┏艘酝獾募恿烁鞣N環(huán)繞效果的音響效果處理。能夠進行是在加了副聲音后實施環(huán)繞效果，或是在施加了環(huán)繞效果后加上副聲音的改變。結果，能夠改變副聲音的擴張感、及揚聲器的輸出處。此外，音頻輸出處理部61還可以進行考慮了圖像處理和音響處理之間的同步處理延遲的延遲設定效果等。為在通過聲音再生裝置能夠?qū)B接的圖像設備和音響設備的輸出延遲進行設定時，能夠?qū)κ窃趯嵤┭舆t之前加上副聲音、還是在延遲以后加上副聲音進行設定。
(實施方式4)下面主要參照表示實施方式4的圖像再生裝置和聲音再生裝置的結構的方框圖的圖7和圖8，以及表示實施方式4的多個圖像的同步再生方法的流程圖的圖23對實施方式4的圖像再生裝置和聲音再生裝置的結構、以及圖像再生方法和聲音再生方法進行說明。
此前已經(jīng)對根據(jù)音頻再生時刻信息APTS使多個聲音信號的同步一致的方法進行了說明。下面對根據(jù)視頻再生時刻信息VPTS使多個聲音信號的同步一致的方法進行說明。
該方法是使各聲音信號的音頻再生時刻信息，與主視頻信號的視頻再生時刻信息一致并進行譯碼，由此獲得彼此的同步。圖23為表示在視頻譯碼部A104進行譯碼處理后，視頻譯碼部B105根據(jù)同步信息對在視頻輸出處理的前和后進行選擇，并對譯碼后的圖像信息進行圖像合成并進行再生的處理的流程圖。在步驟305中，視頻譯碼的結果存儲到幀緩沖部A141中。在步驟351中，對是在視頻合成后跳躍還是在合成之前跳躍進行選擇。
在合成之后跳躍時(步驟351中為Yes)，視頻譯碼部B105將譯碼的結果存儲到幀緩沖部B151中(步驟405)。然后，在步驟352中，如果視頻譯碼部A104的再生時刻信息與視頻譯碼部B105的再生時刻信息一致(在允許輸出時刻差以內(nèi)，例如在33ms以內(nèi)為一致)，則在使譯碼圖像重合后，在步驟353中進行圖像跳躍輸出處理。
而在合成之前跳躍時(步驟351中為No)，在步驟354中，在通過圖像跳躍處理進行跳躍后，在步驟355中使與視頻譯碼部A104的再生時刻信息一致的視頻譯碼部B105的再生時刻信息的譯碼圖像重合。然后在步驟308中與音頻輸出進行同步并輸出圖像。
因此，在一個視頻譯碼處理后，根據(jù)另一個視頻譯碼時的同步信息對是在視頻輸出處理的前和后進行選擇并進行圖像合成且再生。例如，在將另一個圖像加到譯碼圖像中后，能夠?qū)由系膱D像的輸出的方式進行改變，上述方式為，是通過圖像跳躍處理使一個圖像和另一個圖像進行同步并輸出，還是在通過圖像跳躍處理進行跳躍后加上另一個譯碼圖像。
并且，也可以與圖23所示的處理不同，在對視頻合成處理的前和后進行判定后，暫時實施視頻跳躍處理，并將另一個譯碼圖像加到與顯示的視頻再生時刻信息VPTS一致的圖像中。即，視頻合成處理之前的時刻信息一致的相加為，實施視頻跳躍處理，并只選擇再生時刻信息與顯示的視頻的視頻再生時刻信息VPTS一致的譯碼圖像，并進行相加、顯示。而視頻合成處理后的時刻信息一致的相加為，在實施視頻跳躍處理之后，不依據(jù)顯示的視頻的視頻再生時刻信息VPTS，進行譯碼圖像的相加并顯示。此時，在實施了視頻跳躍處理后，能夠?qū)嵤┨幚恚撎幚頌榕c顯示的一個視頻譯碼再生時刻信息無關，使另一個視頻譯碼的再生圖像重合。
該跳躍處理與只再生I圖像、并對P圖像和B圖像進行跳躍處理的高速I再生，或者只跳過B圖像的IP再生等相當。這些處理通過是由輸入部1舍棄B圖像的數(shù)據(jù)、或者在譯碼后舍棄等，來使B圖像不進行再生。因此，不需要B圖像的圖像再生用的再生時刻信息。因此，在伴有跳躍等的高速再生時，最終輸出的圖像的再生時刻信息為有效。
在由圖像合成部106將來自各幀緩沖部的輸出進行相加后，視頻輸出相加結果。在跳躍處理中，當沒有與輸出的視頻幀的視頻再生時刻信息VPTS相對應的解說等的副圖像數(shù)據(jù)時，不進行相加處理，并等待直到位于下一個數(shù)據(jù)的同步的幀輸出時刻。在NTSC制式的情況下，由于1秒中輸出約30幅圖像，因此各PTS的時間差為33ms左右。當以視頻再生時刻信息VPTS為基準時，如果在正負16.5ms以內(nèi)，則判定為同步并進行圖像等的疊加處理。另外，主音頻數(shù)據(jù)與解說等副聲音的PCM緩沖部的聲音合成也可以用相同的原理實現(xiàn)同步。如果這些是1音頻幀單位十幾ms(根據(jù)音頻壓縮方式的不同幾ms到幾十ms)精度以內(nèi)的差，則判定為同步，并生成合成聲音即可。
另外，在沒有同步所需的圖像或聲音的時刻信息時，如果參照當時出現(xiàn)的畫面或發(fā)出的聲音的PTS值，將該PTS值換算成再生時刻信息，并作為使視頻數(shù)據(jù)與音頻數(shù)據(jù)同步的時間來設定，則能夠通過與正常的同步再生相同的方法進行數(shù)據(jù)合成。
這里假定為編輯了錄像節(jié)目時等，以圖像為主體進行了無間隙編輯的情況。此時，編輯后的圖像是連續(xù)無中斷的，但聲音有中斷的情況多。這是用MPEG進行編輯的特征，是圖像和聲音不是用完全相同的方式同時編碼而造成的。因此，如果以圖像為主體，則不保持聲音的連續(xù)性，如果以聲音為主體則不保持圖像的連續(xù)性。因此在進行以圖像為主體的無隙再生時，優(yōu)選以視頻再生時刻信息VPTS為基準，再生聲音以便使對應的音頻再生時刻信息APTS與該視頻再生時刻信息VPTS一致并進行同步。
而在進行以聲音為主體的無隙編輯時的無隙再生時，優(yōu)選以音頻再生時刻信息APTS為基準，進行同步以便使具有對應的視頻再生時刻信息VPTS的圖像的再生與該音頻再生時刻信息APTS一致。
在無隙再生時，為了盡可能保持兩者的連續(xù)性來進行無隙再生，有以下方法。首先，以圖像為主體進行無隙編輯。在一個音頻譯碼部A4，對連接點前的圖像進行聲音的再生，直到無隙連接點之前的最后的再生時刻。接著，在另外的音頻譯碼部B5，用與下一個無隙連接點的最初的圖像的再生時刻相對應的音頻進行譯碼，并進行準備以便能夠在同步的時刻輸出聲音。然后根據(jù)圖像的無隙再生的視頻再生時刻信息，進行切換兩個譯碼聲音的再生即可。根據(jù)需要對聲音實施衰減處理，不容易產(chǎn)生由于連接點前后的相位的不同產(chǎn)生的異音。在進行該無隙再生時，當只重視主聲音的連續(xù)再生時，如果采用禁止副聲音的合成并停止副聲音用的音頻譯碼處理的結構，則能夠?qū)⒍鄠€音頻譯碼部用于主聲音的無隙再生。如果設置3個音頻譯碼部，則預先確保一個為副聲音的譯碼用，其他的能夠作為主聲音的譯碼用和無隙處理用。如果再有一個音頻譯碼部，則能將副聲音也確保為無隙用，并且使副聲音也能進行無隙再生。
而當在視頻譯碼后用圖像合成部106合成圖像時，如果設置圖像處理部160，則在譯碼后對放大縮小合成畫面等的輸出大小的改變進行設定時，當合成子畫面時，能夠?qū)κ窃诳s小后合成子畫面、還是切出特定部分并進行放大進行選擇。還可以進行原畫面的局部放大或縮小等選擇。此外，還假定實施如下改變，從與輸出電視監(jiān)視器一致的高分辨率向低分辨率的改變、或者相反的分辨率格式改變(從480I標準分辨率向1080I高畫質(zhì)分辨率改變等)、信箱與側(cè)面板的輸出格式的改變、NTSC制式與PAL制式之間的頻率格式改變等的各種格式改變、從隔行掃描畫質(zhì)到逐行進畫質(zhì)的IP改變等。這些順序并不局限于該例的順序。并且，格式改變也有可能同時進行多種格式改變(分辨率格式和輸出格式等)。另外，在合成2個圖像時，當一個為NTSC制式的圖像、另一個為PAL制式的圖像，或者一個為標準畫質(zhì)圖像、另一個為高畫質(zhì)圖像時等，如果預先使兩者的格式一致，則容易進行合成。
并且，為了貼附并顯示有助于使用者操作該圖像的GUI畫面等，還希望這些重合的圖像以適合于GUI畫面的菜單配置的畫面大小進行合成的情況。例如，如果采用如下結構使主圖像顯示在背景畫面中，再通過子畫面將解說圖像疊加在其上，并在其上疊加各種畫面設定用的透明菜單畫面，則使用者容易對根據(jù)設定菜單的圖像效果進行確認。
并且，在美國的播放制式中，字幕稱為閉合字幕信號，通過使用者通過操作遙控器，可以用規(guī)格決定進行顯示或非顯示的切換。因此，在用于本發(fā)明的實施方式時，優(yōu)選根據(jù)使用者的指示進行各輸出處理的相加的選擇、和顯示的選擇。而且，即使在伴隨有使字幕文字等在縱向或橫向滾動、或者擦除等的各種顯示效果時，如果能夠?qū)Ω鞣N輸出處理的前后進行選擇，則即使在快放時也消除了漏掉重要的信息、或者當沒有確認字幕的全部顯示時就不放映下一幅畫面的顯示這樣的麻煩。作為這樣的字幕或字幕的類似例，不僅有美國的閉合字幕，還有歐洲的圖文電視等。
并且，當從衛(wèi)星數(shù)字播放的數(shù)據(jù)播放中，可以分別進行字幕數(shù)據(jù)和聲音數(shù)據(jù)的再生的選擇時，例如，能夠進行如下設定將從數(shù)據(jù)播放中的流數(shù)據(jù)中抽出的聲音信息在音頻輸出處理之前相加，并將文字信息在視頻輸出處理后相加等，可以對各信息進行分別相加。
如果設置判斷部，對這些流的再生內(nèi)容的種類或內(nèi)容進行判斷，則在再生時，能夠根據(jù)由上述判斷部得到的結果對音頻輸出處理之前或后進行選擇、并對從數(shù)據(jù)中抽出的聲音信息進行再生，或者對是在視頻輸出處理之前或后進行選擇、并對從數(shù)據(jù)中抽出的文本或文字信息進行再生。因此，不必確定輸入或再生媒介，就能夠用相同的再生方法應對。
如果采用的結構是能夠根據(jù)音頻和視頻輸出處理的功能的不同，進行相加的前后的選擇，則能夠應對在畫面放大后追加子畫面，并實施可變速度處理的多個輸出處理。
并且，如果采用的結構是，除了副聲音以外還能夠選擇是在音頻輸出處理之前或后加上蜂鳴等附加音、用于相加多個記錄聲音的后期配音、將卡拉OK等的麥克回聲加到伴奏音的麥克回聲聲音，則能夠獲得與上述相同的效果。此外，通過采用除子畫面外還能夠選擇在視頻輸出處理之前或后加上字幕或文字疊印、個人在編輯時想要插入的文字或圖像等這樣的結構，由此能夠獲得相同的效果。這一點能夠通過搭載專用的音頻運算元件或數(shù)字信號處理器(DSP)、或者使用高性能的CPU來實現(xiàn)。
另外，雖然對輸入數(shù)據(jù)為從外部輸入的數(shù)據(jù)、或從外部記錄媒介輸入的數(shù)據(jù)進行了說明，但也可以是預先存儲在設備內(nèi)的數(shù)據(jù)。
至此，對輸入部1將輸入數(shù)據(jù)分離成視頻信號和音頻信號時的情況進行了說明。但視頻信號和音頻信號也可以是預先分離的文件數(shù)據(jù)。如果采用的結構是，將與壓縮視頻數(shù)據(jù)關聯(lián)的再生時刻信息、壓縮音頻數(shù)據(jù)和再生時刻信息作為輸入，能夠利用各再生時刻信息使再生壓縮視頻數(shù)據(jù)和壓縮音頻數(shù)據(jù)同步并再生，則能夠構成實施本發(fā)明的聲音再生方法的聲音再生裝置。這一點作為在個人計算機上編輯攝像機等拍攝的信號的結果，無論是AV和數(shù)據(jù)混合的文件、還是AV數(shù)據(jù)獨立的文件，都能適用于得到將與壓縮視頻數(shù)據(jù)相關的再生時刻信息、壓縮音頻數(shù)據(jù)和再生時刻信息、文件上的數(shù)據(jù)信息互相建立關聯(lián)獲得同步并進行再生的所有情況。
作為該數(shù)據(jù)再生方法及裝置的應用例有機頂盒、數(shù)字衛(wèi)星播放接收機及其記錄設備、DVD播放器或DVD錄像機、VCD的相關設備、硬盤錄像機、個人計算機等。通過制作本發(fā)明的聲音再生方法產(chǎn)生的AV再生節(jié)目，能夠?qū)⑼獠康膭幼鞴?jié)目載入個人計算機等，合成聲音或圖像并執(zhí)行AV同步動作。
另外，圖2所示的各構成部的一部分或全部也可以通過一個集成電路(集成芯片)來實現(xiàn)。并且，圖7所示的各構成部的一部分或全部也可以通過一個集成電路(集成芯片)來實現(xiàn)。圖8所示的各構成部的一部分或全部也可以通過一個集成電路(集成芯片)來實現(xiàn)。圖12所示的各構成部的一部分或全部也可以通過一個集成電路(集成芯片)來實現(xiàn)。而且圖21所示的各構成部的一部分或全部也可以通過一個集成電路(集成芯片)來實現(xiàn)。
本發(fā)明的聲音再生方法和聲音再生裝置，通過使用根據(jù)編碼后的多個數(shù)字聲音信號的同步信號，即使編碼方式不同也改變采樣速率等、來混合多個聲音信號的單元，由此其可以用于，不停止主聲音和主圖像的再生、插入并再生補充主聲音和主圖像的內(nèi)容的解說等副聲音或副圖像。
權利要求
1.一種聲音再生裝置，對聲音信號進行再生并輸出，其特征在于，具備同步單元，通過在將與每個聲音信號相鄰的音頻再生時刻信息分別表示的再生時刻的差進行保持的狀態(tài)下，將多個聲音信號各自的多個上述音頻再生時刻信息分配到一根時間軸上，由此使上述多個聲音信號同步；合成單元，利用分配到上述時間軸上的多個上述音頻再生時刻信息，對上述多個聲音信號進行合成。
2.如權利要求1所述的聲音再生裝置，其特征在于，上述時間軸為根據(jù)上述多個聲音信號中的任一個聲音信號的多個上述音頻再生時刻信息所確定的時間軸，上述同步單元將另外的聲音信號的上述多個音頻再生時刻信息，分配到根據(jù)上述任一個聲音信號的上述音頻再生時刻信息所確定的時間軸上。
3.如權利要求2所述的聲音再生裝置，其特征在于，上述時間軸為根據(jù)被可變速度再生的上述任一個聲音信號的多個上述音頻再生時刻信息所確定的時間軸。
4.如權利要求1所述的聲音再生裝置，其特征在于，上述多個聲音信號與視頻信號被多路化，上述時間軸為根據(jù)上述視頻信號的多個視頻再生時刻信息所確定的時間軸，上述同步單元將上述多個聲音信號各自的上述多個音頻再生時刻信息分配到根據(jù)上述視頻再生時刻信息所確定的時間軸上。
5.如權利要求4所述的聲音再生裝置，其特征在于，上述時間軸為根據(jù)被可變速度再生的上述視頻信號的視頻再生時刻信息所確定的時間軸。
6.如權利要求1所述的聲音再生裝置，其特征在于，上述時間軸為根據(jù)可變速度的系統(tǒng)時刻基準參照信號所確定的時間軸。
7.如權利要求1所述的聲音再生裝置，其特征在于，還具備采樣速率改變單元，使其他聲音信號的采樣速率與上述多個聲音信號中的任一個聲音信號的采樣速率一致并對其進行改變，上述合成單元將上述任一個聲音信號和被上述采樣速率改變單元改變后的上述其他聲音信號進行合成。
8.如權利要求7所述的聲音再生裝置，其特征在于，上述任一個聲音信號為上述多個聲音信號中連續(xù)的聲音再生區(qū)間最長的聲音信號。
9.如權利要求7所述的聲音再生裝置，其特征在于，上述任一個聲音信號為上述多個聲音信號中聲音再生區(qū)間中的間斷最少的聲音信號。
10.如權利要求7所述的聲音再生裝置，其特征在于，上述任一個聲音信號為上述多個聲音信號中具有最高采樣速率的聲音信號。
11.如權利要求7所述的聲音再生裝置，其特征在于，上述任一個聲音信號為上述多個聲音信號中具有最低采樣速率的聲音信號。
12.如權利要求7所述的聲音再生裝置，其特征在于，上述任一個聲音信號為上述多個聲音信號中采樣速率不變的聲音信號。
13.如權利要求1所述的聲音再生裝置，其特征在于，還具備輸出電平調(diào)整單元，在通過將其他的聲音信號加到上述多個聲音信號中的任一個聲音信號中，對上述多個聲音信號進行合成時，將上述任一個聲音信號的再生輸出電平只減掉加上上述其他的聲音信號的部分。
14.如權利要求13所述的聲音再生裝置，其特征在于，在將上述其他的聲音信號合成到上述任一個聲音信號中時，當使用者將上述其他的聲音信號的再生輸出電平設定得較高時，上述輸出電平調(diào)整單元將上述任一個聲音信號的再生輸出電平，減掉上述其他的聲音信號的再生輸出電平的增加量。
15.如權利要求1所述的聲音再生裝置，其特征在于，還具備統(tǒng)合分配單元，根據(jù)上述多個聲音信號中的任一個聲音信號的再生信號通道數(shù)，對其他的聲音信號的再生信號通道數(shù)進行統(tǒng)合或分配。
16.如權利要求1所述的聲音再生裝置，其特征在于，還具備統(tǒng)合分配單元，根據(jù)與上述聲音再生裝置連接的聲音輸出裝置的通道數(shù)，對各上述聲音信號的再生信號通道數(shù)進行統(tǒng)合或分配。
17.如權利要求16所述的聲音再生裝置，其特征在于，上述合并分配單元根據(jù)使用者的上述聲音輸出裝置的聲音輸出指定通道，對上述各聲音信號的再生信號通道數(shù)進行統(tǒng)合或分配。
18.一種聲音再生方法，對聲音信號進行再生并輸出，其特征在于，包含同步步驟，通過在將與每個聲音信號相鄰的音頻再生時刻信息分別表示的再生時刻的差進行保持的狀態(tài)下，將多個聲音信號各自的多個上述音頻再生時刻信息分配到一根時間軸上，由此使上述多個聲音信號同步；合成步驟，利用分配到上述時間軸上的多個上述音頻再生時刻信息，對上述多個聲音信號進行合成。
19.一種程序，對聲音信號進行再生并輸出，其特征在于，在計算機中運行同步步驟，通過在將與每個聲音信號相鄰的音頻再生時刻信息分別表示的再生時刻的差進行保持的狀態(tài)下，將多個聲音信號各自的多個上述音頻再生時刻信息分配到一根時間軸上，由此使上述多個聲音信號同步；合成步驟，利用分配到上述時間軸上的多個上述音頻再生時刻信息，對上述多個聲音信號進行合成。
全文摘要
本發(fā)明提供將多個數(shù)字聲音信號同步再生的聲音再生裝置。聲音再生裝置具備同步設定部(11)和聲音合成部(6)，所述同步設定部(11)通過在將與每個聲音信號相鄰的音頻再生時刻信息分別表示的再生時刻的差進行保持的狀態(tài)下，將多個聲音信號各自的多個音頻再生時刻信息分配到一根時間軸上，來使多個聲音信號同步，所述聲音合成部(6)利用分配到上述時間軸上的多個音頻再生時刻信息對多個聲音信號進行合成。
文檔編號H04N7/62GK1942962SQ20058001197
公開日2007年4月4日申請日期2005年4月5日優(yōu)先權日2004年4月6日
發(fā)明者藤本和生, 岡田智之, 片山大朗申請人:松下電器產(chǎn)業(yè)株式會社

完整全部詳細技術資料下載