国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      自動(dòng)生成用于音頻占優(yōu)性效果的元數(shù)據(jù)的制作方法

      文檔序號(hào):2824876閱讀:333來源:國(guó)知局
      專利名稱:自動(dòng)生成用于音頻占優(yōu)性效果的元數(shù)據(jù)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明總體上涉及占優(yōu)性效果。更具體地說,本發(fā)明實(shí)施例涉及自動(dòng)生成用于音頻占優(yōu)性效果的元數(shù)據(jù)。
      背景技術(shù)
      常常要求廣播工作室傳送與音頻和/或視頻節(jié)目關(guān)聯(lián)的兩個(gè)或更多個(gè)音頻流。例如,主要音頻流可以包括節(jié)目的主要對(duì)話、音樂以及效果,輔助音頻流可以包括描述性音頻 (例如,將用于視覺受損觀眾的語音)。音頻流可以總是有效(active)或可以并非總是有效。例如,包括描述性音頻的輔助音頻流可以是在設(shè)置并且描述節(jié)目中的場(chǎng)景(或場(chǎng)景改變)的時(shí)段期間有效的。然而, 如果輔助音頻流在與主要音頻流相同的時(shí)間是有效的,則輔助音頻流可能位于主要音頻流上而用戶聽不清。此部分中描述的方法是可以實(shí)行的方法,但不一定是先前已經(jīng)構(gòu)思或?qū)嵭械姆椒?。因此,除非另外指示,否則不應(yīng)假設(shè)該部分中描述的任何方法僅由于它們被包括在該部分中而限制為現(xiàn)有技木。相似地,對(duì)于ー個(gè)或多個(gè)方法所指出的問題不應(yīng)基于該部分而假設(shè)在任何現(xiàn)有技術(shù)中已經(jīng)識(shí)別,除非另外指示。


      在附圖中通過示例的方式而不是限制的方式示出本發(fā)明,并且其中,相似標(biāo)號(hào)指代相似元件,并且其中圖1描述根據(jù)實(shí)施例的元數(shù)據(jù)生成単元的示例;圖2描述用于基于自動(dòng)生成的元數(shù)據(jù)而產(chǎn)生占優(yōu)性效果的示例方法;圖3A-圖加示出根據(jù)實(shí)施例的音頻流信號(hào)的示例;圖4描述示出在其上可以實(shí)現(xiàn)實(shí)施例的計(jì)算機(jī)系統(tǒng)的框圖;以及圖5描述根據(jù)實(shí)施例的示例IC設(shè)備。
      具體實(shí)施例方式在此描述的示例實(shí)施例涉及自動(dòng)生成音頻占優(yōu)性效果。在以下描述中,為了解釋, 闡述大量細(xì)節(jié)以提供本發(fā)明的透徹理解。然而,本領(lǐng)域技術(shù)人員應(yīng)理解,在沒有這些具體細(xì)節(jié)的情況下仍可以實(shí)現(xiàn)本發(fā)明。在其它情況下,以框圖形式示出公知結(jié)構(gòu)和設(shè)備,以免使本發(fā)明模糊。在此根據(jù)以下綱要描述示例實(shí)施例
      1.0普通概述2.0架構(gòu)和功能概述3.0示例流程圖4. 0實(shí)現(xiàn)機(jī)制-硬件概述5. 0等同物、擴(kuò)展、替代和其它1. 0普通概述在可能的實(shí)施例中,自動(dòng)生成包括用于ー個(gè)或多個(gè)音頻流以產(chǎn)生占優(yōu)性效果的增益值的元數(shù)據(jù)。自動(dòng)生成所述元數(shù)據(jù)可以包括接收第一音頻流和第二音頻流,計(jì)算用于所述第一音頻流和所述第二音頻流中的至少ー個(gè)以產(chǎn)生所述第二音頻流超過所述第一音頻流的占優(yōu)性效果的ー組增益,以及生成包括用于所述第一音頻流和所述第二音頻流中的至少ー個(gè)的該組增益的元數(shù)據(jù)。在可能的實(shí)施例中,基于所述第二音頻流超過所述第一音頻流的占優(yōu)性準(zhǔn)則而計(jì)算該組増益。所述占優(yōu)性準(zhǔn)則的示例包括所述第一音頻流與所述第二音頻流之間的響度比率、以及所述第一音頻流與所述第二音頻流之間的功率比率。計(jì)算該組增益可以包括推導(dǎo)所述第一音頻流和所述第二音頻流中的至少ー個(gè)的響度值。所述占優(yōu)性準(zhǔn)則可以包括所述第二音頻流的清晰度準(zhǔn)則,其中,對(duì)于ー個(gè)或多個(gè)音頻流計(jì)算該組增益,以滿足所述第二音頻流的清晰度準(zhǔn)則。所述清晰度準(zhǔn)則可以是語音清晰度值,例如語音清晰度指標(biāo)。所述占優(yōu)性準(zhǔn)則可以基于頻率子帶而變化。在可能實(shí)施例中,基于所述第一音頻流包括語音內(nèi)容還是非語音內(nèi)容而計(jì)算該組増益。該組增益可以根據(jù)與所述第一音頻流包括語音內(nèi)容還是非語音內(nèi)容相關(guān)聯(lián)的置信度水平而變化。可以對(duì)于不同頻率子帶計(jì)算不同的増益組。在實(shí)施例中,可以在如下這樣的約束下推導(dǎo)該組増益即在應(yīng)用對(duì)應(yīng)的一組增益之后,組合的第一音頻流和第二音頻流的響度不超過第一音頻流和第二音頻流的響度值中的較大者。在可能實(shí)施例中,當(dāng)多個(gè)音頻流有效時(shí),可以識(shí)別交疊信號(hào)時(shí)間間隔??梢詢H當(dāng)多個(gè)音頻流有效時(shí)計(jì)算該組増益??梢援?dāng)僅單個(gè)音頻流有效時(shí)使用中性或其它默認(rèn)増益值。本發(fā)明其它實(shí)施例可以包括具有用于執(zhí)行上述步驟的功能的系統(tǒng)、包括當(dāng)被執(zhí)行時(shí)實(shí)行上述步驟的指令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)、以及用于執(zhí)行上述步驟的裝置。2. 0架構(gòu)和功能概述在此描述與自動(dòng)生成音頻占優(yōu)性效果有關(guān)的可能實(shí)施例的示例。在以下描述中, 為了解釋,闡述大量細(xì)節(jié)以提供本發(fā)明的透徹理解。然而,應(yīng)理解,在沒有這些具體細(xì)節(jié)的情況下仍可以實(shí)現(xiàn)本發(fā)明。在其它情況下,不詳盡地描述公知結(jié)構(gòu)和設(shè)備,以避免使本發(fā)明閉塞、模糊或混亂。圖1示出根據(jù)ー個(gè)實(shí)施例的元數(shù)據(jù)生成単元(100)的示例。元數(shù)據(jù)生成単元(100) 包括用于自動(dòng)生成包括一組增益的元數(shù)據(jù)的硬件和/或軟件,該組增益將應(yīng)用于兩個(gè)或更多個(gè)音頻流中的至少ー個(gè)音頻流以產(chǎn)生占優(yōu)性效果。元數(shù)據(jù)生成単元(100)可以包括用于對(duì)數(shù)字?jǐn)?shù)據(jù)流或信號(hào)進(jìn)行編碼或解碼的編解碼器(壓縮器-解壓縮器/編碼器-解碼器)。 在實(shí)施例中,可以在從其可以廣播自動(dòng)生成的元數(shù)據(jù)和對(duì)應(yīng)音頻流的廣播工作室實(shí)現(xiàn)元數(shù)據(jù)生成単元(100)。在實(shí)施例中,元數(shù)據(jù)生成単元(100)包括信號(hào)檢測(cè)單元(104)、增益計(jì)算邏輯(110)、以及傳輸單元(116)。
      這些組件中的每ー個(gè)被描述如下,并且可以位于相同設(shè)備(例如服務(wù)器、主計(jì)算機(jī)、臺(tái)式PC、膝上型計(jì)算機(jī)、PDA、電視、分線盒、衛(wèi)星盒、機(jī)房(kiosk)、電話、移動(dòng)電話等) 上,或可以位于通過網(wǎng)絡(luò)(例如互聯(lián)網(wǎng)、內(nèi)聯(lián)網(wǎng)、外聯(lián)網(wǎng)、局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)等) 與有線和/或無線分段耦合的分離設(shè)備上。在一個(gè)或多個(gè)實(shí)施例中,可以使用客戶機(jī)-服務(wù)器拓?fù)鋪韺?shí)現(xiàn)元數(shù)據(jù)生成単元(100)。元數(shù)據(jù)生成単元(100)自身可以是在ー個(gè)或多個(gè)服務(wù)器上運(yùn)行的企業(yè)應(yīng)用,并且在一些實(shí)施例中,可以是對(duì)等系統(tǒng),或駐留在單個(gè)計(jì)算系統(tǒng)上。此外,可以使用ー個(gè)或多個(gè)接ロ、web門戶或任何另外工具從其它機(jī)器訪問元數(shù)據(jù)生成単元(100)。在一個(gè)或多個(gè)實(shí)施例中,一個(gè)或多個(gè)用戶可通過網(wǎng)絡(luò)連接(例如互聯(lián)網(wǎng))訪問元數(shù)據(jù)生成単元(100)。元數(shù)據(jù)生成単元(100)提供的信息和/或服務(wù)也可以被存儲(chǔ)并且通過網(wǎng)絡(luò)連接被訪問。在實(shí)施例中,音頻流(例如音頻流A(102)和音頻流B(106))通常表示作為元數(shù)據(jù)生成単元(100)的輸入而提供的包括音頻部分的任何信號(hào)。音頻流可以是壓縮的或未壓縮的信號(hào)。提供為輸入的音頻流可以是相同或不同的格式。未壓縮的格式的示例包括波形音頻格式(waveform audio format,WAV)、音頻互換文件格式(audio interchange file format,AIFF)、Au文件格式和脈沖碼調(diào)制(Pulse Code Modulation,PCM)。壓縮格式的示例包括有損格式(例如Dolby Digital (也稱為AC-3) J^SDolby Digital、高級(jí)音頻編碼 (AdvancedAudio Coding,AAC)、視窗媒體音頻(Windows Media Audio, WMA)MPEG-I 以及音頻層3 (Audio Layer 3,MP3))和無損格式(例如Dolby TrueHD)。在實(shí)施例中,音頻流可以與多通道節(jié)目流中的一個(gè)或多個(gè)通道對(duì)應(yīng)。例如,音頻流A(102)可以包括左通道和右通道,音頻流B(106)可以包括中央通道??梢詾榱撕?jiǎn)化和簡(jiǎn)明一致而在該說明書中進(jìn)行示例音頻流的選擇(例如格式、內(nèi)容、數(shù)量),除非明確地聲明相反,否則不應(yīng)理解為將實(shí)施例限制為特定音頻流,因?yàn)楸景l(fā)明實(shí)施例良好地適合于對(duì)于任何媒體格式/內(nèi)容而起作用。在實(shí)施例中,音頻流可以表示包括音樂、聲音效果、主要對(duì)話等的媒體內(nèi)容的主要音頻流。音頻流也可以僅表示與媒體內(nèi)容關(guān)聯(lián)的主要音頻(例如音樂、聲音效果、主要對(duì)話等中的ー個(gè)或多個(gè))的一部分。音頻流可以表示與媒體內(nèi)容關(guān)聯(lián)的任何附加和/或替換音頻內(nèi)容。例如,用于視覺受損觀眾的輔助音頻流可以表示描述場(chǎng)景、場(chǎng)景改變、動(dòng)作順序或與媒體內(nèi)容關(guān)聯(lián)的任何其它描述性信息的描述性音頻(例如語音)。音頻流A(l(^)和音頻流B(106)可以表示任何兩個(gè)音頻流,其中,應(yīng)用于至少ー個(gè)音頻流的増益組產(chǎn)生一個(gè)音頻流超過另一音頻流的占優(yōu)性效果。雖然圖1示出兩個(gè)音頻流,但實(shí)施例可應(yīng)用于任何數(shù)量的音頻流,其中,可以計(jì)算一組增益并且應(yīng)用于音頻流中的至少ー個(gè)以產(chǎn)生占優(yōu)性效果。在可能實(shí)施例中,信號(hào)檢測(cè)單元(104)與用于檢測(cè)一個(gè)或多個(gè)有效信號(hào)的軟件和 /或硬件對(duì)應(yīng)。例如,信號(hào)檢測(cè)單元(104)可以基于能量水平而確定信號(hào)是否有效。例如, 信號(hào)檢測(cè)單元(104)可以被配置為如果信號(hào)的能量水平滿足能量水平閾值,則確定信號(hào)有效。在實(shí)施例中,信號(hào)檢測(cè)單元可以包括用于識(shí)別在其期間兩個(gè)或更多個(gè)信號(hào)(例如音頻流A(102)、音頻流B(106)等)同時(shí)有效的交疊信號(hào)時(shí)間間隔(108)的功能。在實(shí)施例中,ー個(gè)信號(hào)(例如主要信號(hào))可以總是有效/0N,信號(hào)檢測(cè)單元(104)可以僅用于檢測(cè)附加信號(hào)的存在。信號(hào)檢測(cè)單元(104)可以指的是可以被配置為接受兩個(gè)或更多個(gè)電信號(hào)(例如音頻流A (10 和音頻流B (106))作為輸入的單個(gè)處理模塊或一組處理模塊。信號(hào)檢測(cè)單元 (104)可以包括用于確定對(duì)于任何給定幀的或在任何給定時(shí)間的電信號(hào)的頻率的功能。例如,信號(hào)檢測(cè)單元(104)可以確定對(duì)于給定音頻幀有效的頻率子帶。信號(hào)檢測(cè)單元(104)可以包括用于檢測(cè)信號(hào)對(duì)于任何給定幀是有效還是無效的功能。信號(hào)可以被定義為當(dāng)幀中的信號(hào)能量或幅度超過閾值時(shí)有效,當(dāng)幀中的信號(hào)能量或幅度不超過閾值時(shí)無效。替代地,信號(hào)幀可以被定義為僅當(dāng)信號(hào)是特定類型(例如語音)時(shí)有效,并且當(dāng)信號(hào)是不同類型(例如音樂)時(shí)無效。對(duì)于不同音頻信號(hào)可以使用用于確定信號(hào)是有效還是無效的不同準(zhǔn)則。 信號(hào)檢測(cè)單元(104)可以接收指示音頻流有效或無效時(shí)的時(shí)間間隔的元數(shù)據(jù)。例如,元數(shù)據(jù)可以標(biāo)記音頻信號(hào)從音頻幀120到音頻幀250是有效的。信號(hào)檢測(cè)單元(104)可以包括用于計(jì)算兩個(gè)或更多個(gè)音頻流有效時(shí)的交疊信號(hào)時(shí)間間隔(108)的功能。
      信號(hào)檢測(cè)單元(104)也可以產(chǎn)生在一個(gè)或多個(gè)音頻流中的信號(hào)是語音的似然率的量度。例如,分類器可以用于基于從輸入音頻提取的特征而檢測(cè)語音信號(hào),其中,使用對(duì)于語音信號(hào)收集的訓(xùn)練數(shù)據(jù)來訓(xùn)練分類器。在實(shí)施例中,可以計(jì)算基于音頻信號(hào)內(nèi)的特征的語音值,并且信號(hào)為語音的似然率基于語音值與指示語音的閾值的接近性。例如,高斯混合模型(Gaussian Mixture Model, GMM)可以用于對(duì)特定信號(hào)類型(例如語音)的特征的概率密度函數(shù)進(jìn)行建摸。在該示例中,可以使用m維隨機(jī)矢量Y來表示對(duì)于每一音頻幀提取的特征數(shù)量m??梢栽谟?xùn)練期間學(xué)習(xí)用于特定信號(hào)類型的高斯混合K、混合系數(shù)π、均值 μ以及方差R的數(shù)量,其中,θ = (π, y,R)。也可以使用期望最大算法來估計(jì)參數(shù)K和 θ。包括語音的整個(gè)序列= 1,2... N)的概率的對(duì)數(shù)于是可以由下式給出
      權(quán)利要求
      1.ー種方法,包括接收第一音頻流和第二音頻流;計(jì)算用于所述第一音頻流和所述第二音頻流中的至少ー個(gè)以產(chǎn)生所述第二音頻流超過所述第一音頻流的占優(yōu)性效果的ー組增益;生成包括用于所述第一音頻流和所述第二音頻流中的至少ー個(gè)的該組增益的元數(shù)據(jù);其中,通過包括處理器的計(jì)算設(shè)備來執(zhí)行所述方法。
      2.如權(quán)利要求1所述的方法,其中,計(jì)算該組增益包括 接收所述第二音頻流超過所述第一音頻流的占優(yōu)性準(zhǔn)則;其中,基于所述第二音頻流超過所述第一音頻流的所述占優(yōu)性準(zhǔn)則計(jì)算該組增益。
      3.如權(quán)利要求2所述的方法,其中,所述占優(yōu)性準(zhǔn)則包括所述第一音頻流與所述第二音頻流之間的響度比。
      4.如權(quán)利要求2所述的方法,其中,所述占優(yōu)性準(zhǔn)則包括所述第一音頻流與所述第二音頻流之間的功率比。
      5.如權(quán)利要求1所述的方法,其中,在以下約束下推導(dǎo)出該組增益在應(yīng)用該組增益之后,組合的所述第一音頻流和所述第二音頻流的響度不超過所述第一音頻流和所述第二音頻流的響度值的較大者。
      6.如權(quán)利要求1所述的方法,其中,計(jì)算該組增益包括 接收第二音頻的清晰度準(zhǔn)則;其中,計(jì)算該組增益以使得將所述第二音頻流的清晰度推進(jìn)到所述清晰度準(zhǔn)則之上。
      7.如權(quán)利要求6所述的方法,其中,計(jì)算該組增益包括推導(dǎo)出所述第二音頻流中的語音的語音清晰度的量度。
      8.如權(quán)利要求7所述的方法,其中,所述語音清晰度的量度是語音清晰度指標(biāo)。
      9.如權(quán)利要求1所述的方法,還包括 確定所述第一音頻流是否包括語音;其中,該組增益至少基于所述確定的結(jié)果。
      10.如權(quán)利要求1所述的方法,還包括確定在所述第一音頻流和所述第二音頻流兩者都有效的間隔期間所述第一音頻流包括語音內(nèi)容還是非語音內(nèi)容;其中,對(duì)于第一間隔的該組增益至少基于所述第一音頻流在所述間隔期間包括語音內(nèi)容還是非語音內(nèi)容。
      11.如權(quán)利要求1所述的方法,還包括確定在所述第一音頻流和所述第二音頻流兩者都有效的間隔期間所述第一音頻流包括語音的置信度水平;其中,對(duì)于所述間隔的該組增益至少基于所述第一音頻流在所述間隔期間包括語音的置信度水平。
      12.如權(quán)利要求1所述的方法,其中,基于頻率子帶而計(jì)算該組増益,其中,與第一頻率子帶關(guān)聯(lián)的第一組增益不同干與第二頻率子帶關(guān)聯(lián)的第二組增益。
      13.如權(quán)利要求12所述的方法,還包括接收用于所述第一頻率子帶的第一占優(yōu)性準(zhǔn)則,其中,基于所述第一占優(yōu)性準(zhǔn)則而計(jì)算所述第一組增益。接收用于所述第二頻率子帶的第二占優(yōu)性準(zhǔn)則,其中,基于所述第二占優(yōu)性準(zhǔn)則而計(jì)算所述第二組增益。
      14.如權(quán)利要求1所述的方法,還包括以下中的ー個(gè)或多個(gè) 發(fā)送所述第一音頻流、所述第二音頻流和所述元數(shù)據(jù);或基于所述元數(shù)據(jù)而混合所述第一音頻流以及所述第二音頻流。
      15.如權(quán)利要求1所述的方法,其中,僅當(dāng)所述第一音頻流和所述第二音頻流有效時(shí)計(jì)算該組増益。
      16.如權(quán)利要求1所述的方法,還包括檢測(cè)所述第一音頻流和所述第二音頻流兩者都有效時(shí)的交疊信號(hào)時(shí)間間隔。
      17.如權(quán)利要求1所述的方法,其中,所述第一音頻流包括與媒體內(nèi)容關(guān)聯(lián)的主要音頻,并且其中,所述第二音頻流包括與所述媒體內(nèi)容關(guān)聯(lián)的描述性音頻。
      18.如權(quán)利要求1所述的方法,其中,所述第一音頻流包括多通道節(jié)目中的ー個(gè)或多個(gè)通道的第一集合,其中,所述第二音頻流包括所述多通道節(jié)目中的一個(gè)或多個(gè)通道的第二朱ロ ο
      19.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),包括指令的集合,該指令在由計(jì)算設(shè)備執(zhí)行時(shí)使得執(zhí)行如權(quán)利要求1-18中的任一項(xiàng)所述的步驟。
      20.ー種裝置,包括處理器和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括指令的集合,該指令在由計(jì)算設(shè)備執(zhí)行時(shí)使得執(zhí)行如權(quán)利要求1-18中的任一項(xiàng)所述的步驟。
      全文摘要
      自動(dòng)生成包括用于產(chǎn)生占優(yōu)性效果的一組增益值的元數(shù)據(jù)。自動(dòng)生成所述元數(shù)據(jù)包括接收多個(gè)音頻流以及用于所述音頻流中的至少一個(gè)的占優(yōu)性準(zhǔn)則。基于用于所述至少一個(gè)音頻流的占優(yōu)性準(zhǔn)則而對(duì)于一個(gè)或多個(gè)音頻流計(jì)算一組增益,并且通過該組增益而生成元數(shù)據(jù)。
      文檔編號(hào)G10L19/00GK102576562SQ201080045292
      公開日2012年7月11日 申請(qǐng)日期2010年10月5日 優(yōu)先權(quán)日2009年10月9日
      發(fā)明者H·繆施, J·C·瑞德米勒, R·拉達(dá)克里希南 申請(qǐng)人:杜比實(shí)驗(yàn)室特許公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1