国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      配音的補錄方法、裝置、存儲介質以及電子設備與流程

      文檔序號:39978694發(fā)布日期:2024-11-15 14:27閱讀:37來源:國知局
      配音的補錄方法、裝置、存儲介質以及電子設備與流程

      本申請涉及智能分析,尤其涉及一種配音的補錄方法、裝置、存儲介質以及電子設備。


      背景技術:

      1、當前影視劇的配音分為人工配音和ai(artificia?l?i?nte?l?l?igence,人工智能)配音,這兩種配音模式都依賴于人工配音員的輸入。但是,在后期配音制作過程中存在很多漏配、臺詞潤稿等需要人工配音員重新配音的情況。統(tǒng)計發(fā)現(xiàn),從補錄反饋到人工配音員按照反饋完成補錄的時間周期平均為3天。對于上線時間很緊急的重點項目,這個等待時間不可接受。對于庫存的項目,長期大量的補錄累計不利于項目管理,降低了上線效率。傳統(tǒng)的tts(ext-to-speech,文本轉語音)算法模型只能接收文本輸入,輸出自然度尚可的語音,但是配音場景對語音自然度、語音情感、配音音色一致性要求相當高,傳統(tǒng)的tts算法模型無法達到此要求。


      技術實現(xiàn)思路

      1、本申請?zhí)峁┝艘环N配音的補錄方法、裝置、存儲介質以及電子設備,以解決在影視劇制作過程中的人工補錄配音的工作效率太低的技術問題。

      2、第一方面,本申請?zhí)峁┝艘环N配音的補錄方法,包括:獲取補錄臺詞和上述補錄臺詞的目標配音員;確定上述補錄臺詞的目標情緒,并根據(jù)上述目標情緒,在上述目標配音員的配音數(shù)據(jù)庫中獲取目標音頻,其中,上述目標音頻的情緒與上述目標情緒相同;獲取上述目標配音員的目標語音合成大模型;將上述補錄臺詞和上述目標音頻輸入至上述目標語音合成大模型,得到上述補錄臺詞的補錄音頻。

      3、第二方面,本申請?zhí)峁┝艘环N配音的補錄裝置,包括:第一獲取模塊,用于獲取補錄臺詞和上述補錄臺詞的目標配音員;確定模塊,用于確定上述補錄臺詞的目標情緒,并根據(jù)上述目標情緒,在上述目標配音員的配音數(shù)據(jù)庫中獲取目標音頻,其中,上述目標音頻的情緒與上述目標情緒相同;第二獲取模塊,用于獲取上述目標配音員的目標語音合成大模型;補錄模塊,用于將上述補錄臺詞和上述目標音頻輸入至上述目標語音合成大模型,得到上述補錄臺詞的補錄音頻。

      4、作為一種可選的示例,上述情緒包括情緒類別和情緒度,上述確定模塊包括:第一確定單元,用于確定上述補錄臺詞的目標情緒類別和目標情緒度;第二確定單元,用于確定上述配音數(shù)據(jù)庫中的每一個音頻的情緒類別和情緒度;第三確定單元,用于從上述配音數(shù)據(jù)庫中確定出第一音頻組,其中,上述第一音頻組中的每一個音頻的情緒類別都與上述目標情緒類別相同;第四確定單元,用于從上述第一音頻組中確定出上述目標音頻,其中,上述目標音頻的情緒度與上述目標情緒度的差異最小。

      5、作為一種可選的示例,上述第四確定單元包括:計算子單元,用于計算上述第一音頻組中的每一個音頻的情緒度與上述目標情緒度的差異值,其中,上述差異值為每一個情緒度與上述目標情緒度的差值的絕對值;確定子單元,用于將上述第一音頻數(shù)據(jù)組中的上述差異值最小的音頻確定為上述目標音頻。

      6、作為一種可選的示例,上述目標語音合成大模型包括第一目標生成模型和第二目標生成模型,上述裝置還包括:第三獲取模塊,用于在獲取上述目標配音員的目標語音合成大模型之前,獲取上述目標配音員的第一訓練數(shù)據(jù)集和第一驗證數(shù)據(jù)集,其中上述第一訓練數(shù)據(jù)集包括多個數(shù)據(jù)對,一個上述數(shù)據(jù)對由一對情緒相同的臺詞和音頻構成,上述第一驗證數(shù)據(jù)集包括每一個上述數(shù)據(jù)對的綜合語義表示;第一轉換模塊,用于將上述第一訓練數(shù)據(jù)集輸入至第一生成模型,得到上述第一訓練數(shù)據(jù)集的第一生成結果數(shù)據(jù)集;第一計算模塊,用于使用損失函數(shù)計算上述第一生成結果數(shù)據(jù)集與上述第一驗證數(shù)據(jù)集之間的差異,得到第一損失值;第一調(diào)整模塊,用于根據(jù)上述第一損失值調(diào)整上述第一生成模型的模型參數(shù),并重新計算上述第一損失值,直到重新計算的上述第一損失值小于目標閾值,得到上述第一目標生成模型。

      7、作為一種可選的示例,上述裝置還包括:第二轉換模塊,用于在根據(jù)上述損失值調(diào)整上述第一生成模型的模型參數(shù),直到上述第一損失值小于第一閾值,得到上述第一目標生成模型之后,將上述第一訓練數(shù)據(jù)集輸入至上述第一目標生成模型,得到第二訓練數(shù)據(jù)集;第四獲取模塊,用于獲取上述目標配音員的第二驗證數(shù)據(jù)集,其中,上述第二驗證數(shù)據(jù)集包括上述第一訓練數(shù)據(jù)集中的每一段臺詞對應的音頻;第三轉換模塊,用于將上述第二訓練數(shù)據(jù)集輸入至第二生成模型,得到上述第二訓練數(shù)據(jù)集的第二生成結果數(shù)據(jù)集;第二計算模塊,用于使用上述損失函數(shù)計算上述第二生成結果數(shù)據(jù)集與上述第二驗證數(shù)據(jù)集之間的差異,得到第二損失值;第二調(diào)整模塊,用于根據(jù)上述第二損失值調(diào)整上述第二生成模型的模型參數(shù),并重新計算上述第二損失值,直到重新計算的上述第二損失值小于上述目標閾值,得到上述第二目標生成模型。

      8、作為一種可選的示例,上述補錄模塊包括:第一轉換單元,用于將上述補錄臺詞和上述目標音頻輸入至上述目標語音合成大模型的第一目標生成模型,以將上述補錄臺詞和上述目標音頻轉換為綜合語義表示;第二轉換單元,用于將上述綜合語義表示輸入至上述目標語音合成大模型的第二目標生成模型,以將上述綜合語義表示轉換為上述補錄音頻。

      9、作為一種可選的示例,上述第一轉換單元包括:第一編碼子單元,用于將上述補錄臺詞編碼為一組文本語義表示;第二編碼子單元,用于將上述目標音頻編碼為一組音頻語義表示;第三編碼子單元,用于結合上述文本語義表示和上述音頻語義表示,生成上述綜合語義表示。

      10、第三方面,本申請?zhí)峁┝艘环N存儲介質,該存儲介質中存儲有計算機程序,其中,該計算機程序被處理器運行時執(zhí)行上述配音的補錄方法。

      11、第四方面,本申請還提供了一種電子設備,包括存儲器和處理器,上述存儲器中存儲有計算機程序,上述處理器被設置為通過所述計算機程序執(zhí)行上述的配音的補錄方法。

      12、在本申請實施例中,采用了獲取補錄臺詞和上述補錄臺詞的目標配音員;確定上述補錄臺詞的目標情緒,并根據(jù)上述目標情緒,在上述目標配音員的配音數(shù)據(jù)庫中獲取目標音頻,其中,上述目標音頻的情緒與上述目標情緒相同;獲取上述目標配音員的目標語音合成大模型;將上述補錄臺詞和上述目標音頻輸入至上述目標語音合成大模型,得到上述補錄臺詞的補錄音頻的方法,由于在上述方法中,通過確定補錄臺詞對應的配音員和情緒,并匹配相應情緒的音頻片段,獲取此配音員的預訓練語音合成大模型,并將補錄臺詞和音頻片段輸入至此語音合成大模型中,生成補錄音頻,確保生成的補錄音頻在情感和聲音特征上與原聲一致,從而實現(xiàn)了保證自然流暢的高質量補錄效果的同時提高了補錄配音的工作效率的目的,進而解決了在影視劇制作過程中的人工補錄配音的工作效率太低的技術問題。



      技術特征:

      1.一種配音的補錄方法,其特征在于,包括:

      2.根據(jù)權利要求1所述的方法,其特征在于,所述情緒包括情緒類別和情緒度,所述根據(jù)所述目標情緒在所述目標配音員的配音數(shù)據(jù)庫中獲取目標音頻包括:

      3.根據(jù)權利要求2所述的方法,其特征在于,所述從所述第一音頻組中確定出所述目標音頻包括:

      4.根據(jù)權利要求1所述的方法,其特征在于,所述目標語音合成大模型包括第一目標生成模型和第二目標生成模型,在獲取所述目標配音員的目標語音合成大模型之前,所述方法還包括:

      5.根據(jù)權利要求4所述的方法,其特征在于,在根據(jù)所述損失值調(diào)整所述第一生成模型的模型參數(shù),直到所述第一損失值小于第一閾值,得到所述第一目標生成模型之后,所述方法還包括:

      6.根據(jù)權利要求1所述的方法,其特征在于,所述將所述補錄臺詞和所述目標音頻輸入至所述目標語音合成大模型,得到所述補錄臺詞的補錄音頻包括:

      7.根據(jù)權利要求6所述的方法,其特征在于,所述將所述補錄臺詞和所述目標音頻輸入至所述目標語音合成大模型的第一目標生成模型,以將所述補錄臺詞和所述目標音頻轉換為綜合語義表示包括:

      8.一種配音的補錄裝置,其特征在于,包括:

      9.一種計算機可讀的存儲介質,所述計算機可讀的存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器運行時執(zhí)行所述權利要求1至7任一項中所述的方法。

      10.一種電子設備,包括存儲器和處理器,其特征在于,所述存儲器中存儲有計算機程序,所述處理器被設置為通過所述計算機程序執(zhí)行所述權利要求1至7任一項中所述的方法。


      技術總結
      本申請涉及一種配音的補錄方法、裝置、存儲介質以及電子設備。該方法包括:獲取補錄臺詞和補錄臺詞的目標配音員;確定補錄臺詞的目標情緒,并根據(jù)目標情緒,在目標配音員的配音數(shù)據(jù)庫中獲取目標音頻,其中,目標音頻的情緒與目標情緒相同;獲取目標配音員的目標語音合成大模型;將補錄臺詞和目標音頻輸入至目標語音合成大模型,得到補錄臺詞的補錄音頻。本申請解決了在影視劇制作過程中的人工補錄配音的工作效率太低的技術問題。

      技術研發(fā)人員:文博龍,李海,陳海濤,閆影,李娜
      受保護的技術使用者:成都愛奇藝智能創(chuàng)新科技有限公司
      技術研發(fā)日:
      技術公布日:2024/11/14
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1