国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種隱私保護的深度語音數(shù)字水印流式嵌入與檢測方法

      文檔序號:40396387發(fā)布日期:2024-12-20 12:19閱讀:14來源:國知局
      一種隱私保護的深度語音數(shù)字水印流式嵌入與檢測方法

      本發(fā)明屬于語音信息處理,涉及一種語音數(shù)字水印嵌入與提取技術(shù),具體地說,是一種隱私保護的深度語音數(shù)字水印流式嵌入與檢測方法。


      背景技術(shù):

      1、語音數(shù)字水印技術(shù)是一種驗證語音內(nèi)容來源真實性的有效手段,用于音頻版權(quán)保護、隱蔽內(nèi)容通信、合成內(nèi)容檢測等領(lǐng)域。尤其是隨著生成式ai技術(shù)的快速發(fā)展,語音合成內(nèi)容真?zhèn)坞y辨,給社會帶來了嚴重的負面影響,數(shù)字水印技術(shù)能夠在不影響語音聽感的前提下,為語音內(nèi)容提供魯棒的主動標識,為ai生成內(nèi)容的統(tǒng)一備案與監(jiān)管提供有力的技術(shù)支撐。

      2、第三方語音數(shù)字水印服務(wù)商提供數(shù)字水印嵌入和檢測服務(wù)時,存在以下方面的局限性:(1)隱私泄露風險:數(shù)字水印服務(wù)過程中需傳輸完整的語音文件,該過程存在用戶隱私等敏感信息(如密碼)泄露的風險,降低了用戶對服務(wù)提供商的信任。(2)魯棒性較弱:傳統(tǒng)數(shù)字信號處理技術(shù)下的水印方法,如最低有效位(least?significant?bit,?lsb)與量化索引調(diào)制(quantization?index?modulation,?qim)等,其在傳輸過程中對抗噪聲與惡意攻擊的能力較弱,無法有效保障水印信息在經(jīng)歷有損信道后的完整性。(3)流式應(yīng)用場景限制:現(xiàn)有數(shù)字水印技術(shù)主要適用于處理靜態(tài)音頻文件,難以直接應(yīng)用于實時通信環(huán)境(如直播、電話會議及網(wǎng)絡(luò)會議)中的動態(tài)音頻流。鑒于此,本發(fā)明旨在克服上述技術(shù)瓶頸,開發(fā)一種更為穩(wěn)健且廣泛適用的語音數(shù)字水印方法。


      技術(shù)實現(xiàn)思路

      1、本技術(shù)提供一種隱私保護的深度語音數(shù)字水印流式嵌入與檢測方法,實現(xiàn)在不接觸原始語音數(shù)據(jù)的前提下,由第三方服務(wù)提供商負責在語音信號中嵌入隱蔽的語音數(shù)字水印,同時基于深度神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)增強技術(shù)增強數(shù)字水印魯棒性,并擴展了傳統(tǒng)語音數(shù)字水印技術(shù)的應(yīng)用范圍至實時流式通訊場景。本發(fā)明是通過以下技術(shù)方案來實現(xiàn)的:

      2、本發(fā)明公開了一種隱私保護的深度語音數(shù)字水印流式嵌入與檢測方法,依賴以下裝置實現(xiàn):

      3、服務(wù)器端:一種計算設(shè)備,用于生成語音輸入無關(guān)的通用語音數(shù)字水印,以及從用戶脫敏數(shù)據(jù)中檢測水?。?/p>

      4、發(fā)送端用戶端:一種計算設(shè)備,用于根據(jù)通用語音水印,向用戶語音輸入中注入水印,制作水印語音數(shù)據(jù);

      5、接收端用戶端:一種計算設(shè)備,用于對水印語音數(shù)據(jù)進行脫敏處理,獲取保留水印信息的用戶脫敏數(shù)據(jù);

      6、通信網(wǎng)絡(luò):提供服務(wù)器端、發(fā)送端用戶端、接收端用戶端之間的互聯(lián)網(wǎng)通信能力。

      7、方法包括:

      8、發(fā)送端用戶終端指定待嵌入的固定長度為的二進制水印信息,并將該信息通過通信網(wǎng)絡(luò)發(fā)送至服務(wù)器端;

      9、服務(wù)器端接收水印信息后,對水印信息進行編碼,并通過第一深度神經(jīng)網(wǎng)絡(luò)模型將其轉(zhuǎn)換為固定長度為通用音頻水印數(shù)據(jù),通過通信網(wǎng)絡(luò)發(fā)送至發(fā)送端用戶終端;

      10、發(fā)送端用戶終端接收通用音頻水印數(shù)據(jù),建立語音通話,獲取用戶語音數(shù)據(jù),使用輕量化的第二深度神經(jīng)網(wǎng)絡(luò)模型對通用音頻水印數(shù)據(jù)進行自適應(yīng)調(diào)整并嵌入到用戶語音數(shù)據(jù)的特定區(qū)間上,獲得水印語音數(shù)據(jù),通過通信網(wǎng)絡(luò)發(fā)送至接收端用戶終端;

      11、接收端用戶終端接收水印語音數(shù)據(jù),使用第三深度神經(jīng)網(wǎng)絡(luò)模型對水印語音數(shù)據(jù)進行數(shù)據(jù)脫敏,獲得用戶脫敏數(shù)據(jù),通過通信網(wǎng)絡(luò)發(fā)送至服務(wù)器端;

      12、服務(wù)器端接收用戶脫敏數(shù)據(jù),通過第四深度神經(jīng)網(wǎng)絡(luò)模型將其轉(zhuǎn)換成為采樣點級別的水印檢測結(jié)果,通過對水印檢測結(jié)果計算平均值,解析數(shù)字水印信息,通過通信網(wǎng)絡(luò)發(fā)送至接收端用戶終端。

      13、作為進一步地改進,本發(fā)明所述的對水印信息進行編碼,并通過第一深度神經(jīng)網(wǎng)絡(luò)模型將其轉(zhuǎn)換為固定長度為通用音頻水印數(shù)據(jù),具體為:

      14、將二進制水印信息通過一個可訓練的嵌入矩陣,生成水印嵌入向量,水印嵌入向量通過以下公式生成:

      15、

      16、再將水印嵌入向量?在時間軸上重復??次后輸入第一深度神經(jīng)網(wǎng)絡(luò)模型中,生成針對通用水印數(shù)據(jù)二進制水印信息的通用水印數(shù)據(jù)。

      17、作為進一步地改進,本發(fā)明所述的接收通用音頻水印數(shù)據(jù),建立語音通話,獲取用戶語音數(shù)據(jù),使用輕量化的第二深度神經(jīng)網(wǎng)絡(luò)模型對通用音頻水印數(shù)據(jù)進行自適應(yīng)調(diào)整并嵌入到用戶語音數(shù)據(jù)的特定區(qū)間上,獲得水印語音數(shù)據(jù),具體為:支持分別對一次性輸入的靜態(tài)語音和持續(xù)輸入的流式語音進行水印注入;

      18、當輸入語音為提前錄制好的靜態(tài)語音數(shù)據(jù)時,按隨機插入的方式嵌入水印,生成一個與等長的空白語音數(shù)據(jù),在空白語音數(shù)據(jù)上隨機選擇個互不重疊的水印注入?yún)^(qū)間注入通用數(shù)字水印,得到,為輸入語音長度,,再將與輸入自適應(yīng)函數(shù)中生成適配特定語音輸入的自適應(yīng)數(shù)字水印,將直接疊加到上,得到水印語音數(shù)據(jù),即,為權(quán)重系數(shù);自適應(yīng)函數(shù)為融合兩個時序?qū)R的一維向量數(shù)據(jù),采用卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)或交叉注意力機制;當需要對語音的指定位置嵌入水印時,將隨機插入的起始位置修改為需要插入水印的特定位置;

      19、當輸入語音為持續(xù)輸入的流式語音時,按所需的時間間隔注入水印,自適應(yīng)函數(shù)采用支持流式緩存上下文的自回歸式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),是因果卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)或帶掩碼和kv緩存的交叉注意力機制。

      20、作為進一步地改進,本發(fā)明所述的使用第三深度神經(jīng)網(wǎng)絡(luò)模型對水印語音數(shù)據(jù)進行數(shù)據(jù)脫敏,獲得用戶脫敏數(shù)據(jù),具體為:

      21、第三深度神經(jīng)網(wǎng)絡(luò)模型包括編碼器、解碼器和殘差向量量化器(rvq)三個部分;語音經(jīng)過編碼器后,通過rvq被映射都n個碼本上,再通過解碼器還原,n個編碼中,第一個編碼為予以高度相關(guān)的內(nèi)容,取2~n個編碼作為用戶脫敏數(shù)據(jù)源。

      22、作為進一步地改進,本發(fā)明所述的通過第四深度神經(jīng)網(wǎng)絡(luò)模型將其轉(zhuǎn)換成為采樣點級別的水印檢測結(jié)果,通過對水印檢測結(jié)果計算平均值,解析數(shù)字水印信息,具體為:

      23、將脫敏后的水印語音數(shù)據(jù)輸入低四深度神經(jīng)網(wǎng)絡(luò)模型中,模型對每一個時間采樣點輸出維判別結(jié)果;

      24、通過對結(jié)果求均值確定最終結(jié)果,若某維度均值大于設(shè)定的閾值,則表示該位信息為1,否則為0;其中第0維表示是否含有水印,第b維為水印信息每一比特位的具體數(shù)值,當且僅當?shù)?維位1時,第b維信息有效。

      25、作為進一步地改進,本發(fā)明所述的發(fā)送端用戶終端指定待嵌入的固定長度為的二進制水印信息,并將該信息通過通信網(wǎng)絡(luò)發(fā)送至服務(wù)器端之前,還包括以下步驟:

      26、對第一、第二、第三、第四深度神經(jīng)網(wǎng)絡(luò)模型進行訓練:

      27、第三深度神經(jīng)網(wǎng)絡(luò)模型單獨在大規(guī)模語音數(shù)據(jù)集上預(yù)訓練,在與第一、第二、第四深度神經(jīng)網(wǎng)絡(luò)模型聯(lián)合訓練的過程中保持參數(shù)凍結(jié);

      28、第一、第二、第四深度神經(jīng)網(wǎng)絡(luò)模型采用端到端方法訓練,訓練過程過程采用多尺度重建損失和檢測結(jié)果一致性損失,以及通過人工信道模擬技術(shù)對第三深度神經(jīng)網(wǎng)絡(luò)的輸入進行主動干擾實現(xiàn)水印魯棒性增強。

      29、作為進一步地改進,本發(fā)明所述的多尺度重建損失為:

      30、

      31、其中,表示從語音中提取梅爾頻譜操作,滑動窗口長度為,窗口滑動步長為,梅爾濾波器維度設(shè)置為40,表示范數(shù);

      32、檢測結(jié)果一致性損失為通過二分類交叉上損失函數(shù)(bce)約束檢測結(jié)果的一致性,確保生成的水印語音數(shù)據(jù)在檢測時能正確識別出水印信息,

      33、

      34、其中,,表示采樣點級別的檢測結(jié)果,表示采樣點的時間戳,表示水印信息中的數(shù)據(jù)位置,?表示在當時,取0,否則取1。

      35、本發(fā)明提出了一種用戶隱私保護的深度語音數(shù)字水印流式嵌入與檢測方法,基于端云協(xié)同處理環(huán)境,有效隔離語音內(nèi)容中的用戶敏感信息與水印信息,同時實現(xiàn)流式嵌入、區(qū)間標注、防水印偽造、信道魯棒等有益效果,支持語音內(nèi)容版權(quán)聲明、偽造樣本標識等場景,服務(wù)第三方水印嵌入和檢測應(yīng)用,具體包括以下有益效果:

      36、(1)用戶隱私保護:本發(fā)明設(shè)置了一種無需上傳用戶敏感的語音數(shù)據(jù)即可完成水印嵌入與檢測的方法。在整個水印嵌入階段,服務(wù)器端僅根據(jù)水印信息生成通用水印數(shù)據(jù),而將最終的水印嵌入操作交由發(fā)送端用戶端自主完成,從而避免了用戶隱私信息的泄露風險。在檢測環(huán)節(jié),接收端用戶端采用rvq技術(shù)(第三深度神經(jīng)網(wǎng)絡(luò))對音頻內(nèi)容進行脫敏處理,使得服務(wù)器端僅能通過處理后的脫敏數(shù)據(jù)來推斷水印的存在,有效隔絕了用戶原始語音數(shù)據(jù)與服務(wù)器端的直接接觸。因此,本發(fā)明在確保水印嵌入與檢測高效性的同時,顯著提升了用戶隱私保護水平,提高用戶與第三方檢測平臺之間的信任感。

      37、(2)實時流式水印嵌入:本發(fā)明設(shè)置“使用輕量化的第二深度神經(jīng)網(wǎng)絡(luò)模型對通用音頻水印數(shù)據(jù)進行自適應(yīng)調(diào)整并嵌入到用戶語音數(shù)據(jù)的特定區(qū)間上”,由服務(wù)器端承載更多的計算復雜性更高的通用水印數(shù)據(jù)生成,發(fā)送端用戶端僅需運行輕量化的第二深度神經(jīng)網(wǎng)絡(luò)向語音數(shù)據(jù)中嵌入通用水印數(shù)據(jù),顯著減輕用戶端計算開銷,實現(xiàn)低資源的設(shè)備上的實時性能,在apple?macbook?air?m2上達到實時率為0.04,在thinkpad?x13上達到實時率為0.13。同時,本方案設(shè)置“當輸入語音為持續(xù)輸入的流式語音時,按所需的時間間隔嵌入水印,所述的自適應(yīng)函數(shù)采用支持流式緩存上下文的自回歸式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)”,采用支持流式緩存的自回歸式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠在apple?macbook?air?m2、thinkpad?x13等移動筆記本平臺上實現(xiàn)流式推理,整體首保延遲僅為103.5ms,為直播、電話通訊等場景提供了高效的語音版權(quán)保護。

      38、(3)水印信息防偽造:本發(fā)明設(shè)置了“使用輕量化的第二深度神經(jīng)網(wǎng)絡(luò)模型對通用音頻水印數(shù)據(jù)進行自適應(yīng)調(diào)整并嵌入到用戶語音數(shù)據(jù)的特定區(qū)間上”,在嵌入水印的過程中,通過第二深度神經(jīng)網(wǎng)絡(luò)模型對通用音頻水印數(shù)據(jù)進行自適應(yīng)調(diào)整,并將其精確嵌入到用戶語音數(shù)據(jù)的特定區(qū)間,而不是直接使用由服務(wù)器生成的通用水印數(shù)據(jù)。這不僅實現(xiàn)了水印內(nèi)容對具體語音的自適應(yīng),增強了水印的魯棒性和隱蔽性,而且有效防止了通用水印數(shù)據(jù)被非法獲取后用于偽造帶有水印的語音,大大提升了系統(tǒng)的安全性。

      39、(4)區(qū)間標識與定位檢測:本發(fā)明設(shè)置了“服務(wù)器端接收用戶脫敏數(shù)據(jù),通過第四深度神經(jīng)網(wǎng)絡(luò)模型將其轉(zhuǎn)換成為采樣點級別的水印檢測結(jié)果,通過對水印檢測結(jié)果計算平均值,解析數(shù)字水印信息”,通過第四深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)了采樣點級別的水印檢測,一次推理即可獲取所有采樣點的水印信息,省去了傳統(tǒng)的水印區(qū)間搜索步驟,大幅提高了檢測效率和速度,確保了水印信息的快速、準確定位。在librispeech數(shù)據(jù)集上通過隨機插入1s水印數(shù)據(jù),實測區(qū)間定位誤差僅為5.8%。

      40、(5)兼顧水印的有效性和隱蔽性:本發(fā)明設(shè)有“所述的第一、第二、第四深度神經(jīng)網(wǎng)絡(luò)模型采用端到端方法訓練,訓練過程采用多尺度重建損失和檢測結(jié)果一致性損失”。水印一致性損失函數(shù)和多尺度重建損失函數(shù),確保了檢測結(jié)果與嵌入的水印信息一致,同時使嵌入水印后的語音在聽感上與原始語音保持一致,兼顧了水印的有效性和隱蔽性。在librispeech數(shù)據(jù)集上實測水印檢測準確率達到99.7%,同時在30人的關(guān)于音質(zhì)的主觀mos測試中取得4.3分,表示該發(fā)明所提出的水印方法能夠同時達到高有效性和高隱蔽性。

      41、(6)抗信道干擾:本發(fā)明設(shè)置了“通過人工信道模擬技術(shù)對第三深度神經(jīng)網(wǎng)絡(luò)的輸入進行主動干擾實現(xiàn)水印魯棒性增強”。在第一、第二、第四深度神經(jīng)網(wǎng)絡(luò)模型的端到端聯(lián)合訓練過程中,本發(fā)明引入了信道增強措施,通過模擬常見的人工信道破壞,增強了模型對信道干擾的魯棒性。在librispeech數(shù)據(jù)集上實測經(jīng)過高混響的嘈雜物理信道傳輸?shù)那闆r下,水印檢出準確率仍然高達94.8%,說明該水印能夠有效抵抗信道干擾。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1