本發(fā)明屬于智能語音系統(tǒng)中的語音識別模型安全,具體涉及一種測量對抗音頻共性特征的方法。
背景技術(shù):
1、語音識別系統(tǒng)是一種將人類語音轉(zhuǎn)換為文本的智能系統(tǒng)。隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,語音識別系統(tǒng)識別語音的準(zhǔn)確性大幅提升,目前已在智能手機(jī)、汽車、工業(yè)控制終端等設(shè)備中廣泛應(yīng)用。然而,研究界發(fā)現(xiàn)語音識別模型易受到對抗音頻的攻擊。攻擊者在實(shí)施這種攻擊時(shí),會惡意構(gòu)造一段對抗噪聲,將它們與語音疊加,形成對抗樣本,對抗樣本聽起來與正常的語音相似。對抗噪聲和對抗樣本可以統(tǒng)稱為對抗音頻。對抗音頻嚴(yán)重威脅智能語音系統(tǒng)的安全,下面以一個(gè)典型的攻擊案例為例進(jìn)行說明。
2、在智能家居場景中,攻擊者可以在廣播節(jié)目的對話中疊加對抗噪聲,使得聽起來是正常對話的廣播節(jié)目會被語音識別系統(tǒng)識別為“撥打電話”、“購買商品”、“下載軟件”、“打開電器”、“打開房門”等惡意指令。當(dāng)用戶播放廣播節(jié)目時(shí),智能音箱、手機(jī)、智能門鎖等設(shè)備的語音識別系統(tǒng)會識別到惡意指令,并依據(jù)指令進(jìn)行操作,可能導(dǎo)致購買用戶不需要的商品、下載安裝惡意軟件、在房屋無人的情況下開啟電器、打開房門等攻擊后果,威脅用戶的人身財(cái)產(chǎn)安全。
3、對抗攻擊的核心部分是生成對抗音頻,現(xiàn)有研究一般將對抗音頻生成作為優(yōu)化問題來求解。在此優(yōu)化問題中,優(yōu)化目標(biāo)是讓文本距離和可聽性的加權(quán)和最小。其中文本距離是指加上對抗噪聲之后音頻的識別結(jié)果與目標(biāo)文本在模型中的距離,可聽性是指擾動被人類察覺的程度。目前,研究界提出了多種衡量距離和可聽性的指標(biāo),形成了多種對抗攻擊方式。這些對抗攻擊生成的對抗音頻各有不同,但卻能實(shí)現(xiàn)類似的攻擊效果。因此探究不同攻擊下對抗音頻的共性特征,有助于發(fā)現(xiàn)對抗攻擊成果實(shí)施的本質(zhì)原因,幫助語音識別系統(tǒng)識別和防御對抗攻擊。
4、目前已有部分工作從頻譜和模型可解釋性的方面探究了對抗樣本的特性,其中大部分的研究對象為圖像識別領(lǐng)域的對抗攻擊,對對抗語音的研究較少。
5、dong?yin等人在2019年的《advances?in?neural?information?processingsystems》上發(fā)表《a?fourier?perspective?on?model?robustness?in?computer?vision》,研究針對普通圖像識別模型和經(jīng)過對抗訓(xùn)練的圖像識別模型,生成的對抗擾動在頻域分布上的區(qū)別。此研究發(fā)現(xiàn)普通模型的對抗擾動主要為高頻擾動,而經(jīng)過對抗訓(xùn)練的模型的對抗擾動中中低頻成分會增加。
6、sicong?han等人在2021年的《proceedings?of?the?international?conferencepf?information?and?communications?security》上發(fā)表《rethinking?adversarialexamples?exploiting?frequency-based?analysis》,研究針對圖像識別模型的不同對抗攻擊下對抗擾動分布頻段的區(qū)別。此研究發(fā)現(xiàn)對抗擾動的分布頻段并不固定,它與攻擊采用的數(shù)據(jù)集和方法相關(guān)。
7、chuan?guo等人在2018年的《conference?on?uncertainty?in?artificialintelligence》上發(fā)表的《low?frequency?adversarial?perturbation》,研究對抗擾動中不同頻段在攻擊中發(fā)揮的作用。此研究發(fā)現(xiàn)將對抗生成時(shí)的搜索方向固定在低頻空間內(nèi),生成僅包含低頻噪聲的對抗擾動能夠提高對抗樣本生成的效率。
8、yash?sharma等人在2019年的《international?joint?conference?onartificial?intelligence》上發(fā)表的《on?the?effectiveness?of?low?frequencyperturbations》,研究對抗擾動中不同頻段在攻擊中發(fā)揮的作用。此研究發(fā)現(xiàn)低頻段的對抗擾動對于普通模型和經(jīng)過對抗訓(xùn)練的模型都有較好的攻擊效果,而高頻段的對抗擾動難以攻擊經(jīng)過對抗訓(xùn)練的模型。
9、verena?praher等人在2021年的《international?society?for?musicinformation?retrieval?conference》上發(fā)表的《on?the?veracity?of?local,model-agnostic?explanations?in?audio?classification:targeted?investigations?withadversarial?examples》,研究對抗擾動分布與模型可解釋性結(jié)果之間的關(guān)聯(lián)。此研究發(fā)現(xiàn)基于可解釋性工具發(fā)現(xiàn)的重要樣本片段,與對抗擾動的分布片段無關(guān)。
10、這些工作主要回答了不同頻段的對抗樣本對對抗攻擊的作用、針對普通模型和對抗訓(xùn)練模型生成的對抗樣本中的頻譜分布區(qū)別、模型可解釋性結(jié)果與對抗樣本之間關(guān)聯(lián)性等問題。此類工作僅從頻譜等單個(gè)方面分析了對抗音頻的特性,未從語音信號的角度對對抗音頻進(jìn)行全面刻畫,未考慮多種攻擊下對抗音頻的共性特點(diǎn),也未將對抗音頻與正常語音進(jìn)行對比,難以發(fā)現(xiàn)對抗音頻的獨(dú)特的屬性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對不同對抗攻擊下語音對抗音頻共性未知的問題,提出了一種測量對抗音頻共性特征的方法。首先設(shè)計(jì)了用于表征語音信息的聲學(xué)特征,并在此基礎(chǔ)上設(shè)計(jì)了統(tǒng)計(jì)特征,兩者組合形成聲學(xué)-統(tǒng)計(jì)特征的特征庫。接著利用多種不同的對抗攻擊方式,針對大量不同的良性音頻和對抗目標(biāo)文本生成對抗噪聲和對抗樣本,共稱為對抗音頻,計(jì)算對抗音頻、良性音頻和白噪聲的聲學(xué)-統(tǒng)計(jì)特征。對聲學(xué)-統(tǒng)計(jì)特征進(jìn)行一致性檢驗(yàn),提取對抗音頻特性,即在對抗噪聲或?qū)箻颖局袕V泛存在且在良性音頻或白噪聲中不存在的特性,完成對抗音頻共性特征的測量。
2、本發(fā)明是通過以下技術(shù)方案得以實(shí)現(xiàn)的:
3、一種測量對抗音頻共性特征的方法,包括以下步驟:
4、步驟s01,確定測量實(shí)施對象,所述測量實(shí)施對象包括對抗噪聲、對抗樣本、白噪聲和良性樣本;所述的對抗噪聲和對抗樣本共同作為對抗音頻,白噪聲和良性樣本共同作為對比音頻;
5、步驟s02,基于不同的對抗攻擊方式生成大量對抗噪聲和對抗樣本,所述的對抗攻擊方式聯(lián)合距離指標(biāo)和可聽性指標(biāo)作為生成優(yōu)化目標(biāo),所述對抗樣本是將對抗噪聲添加到良性樣本上得到的;
6、步驟s03,計(jì)算對抗噪聲、對抗樣本、白噪聲和良性樣本的聲學(xué)特征,形成聲學(xué)特征向量;
7、步驟s04,計(jì)算所述聲學(xué)特征向量的統(tǒng)計(jì)特征,形成聲學(xué)-統(tǒng)計(jì)特征向量;所述統(tǒng)計(jì)特征用于描述聲學(xué)特征向量的整體分布和峰值分布,包含連續(xù)性、規(guī)律性和分布趨勢三方面;
8、步驟s05,計(jì)算對抗噪聲、對抗樣本、白噪聲和良性樣本的聲學(xué)-統(tǒng)計(jì)特征向量的若干種統(tǒng)計(jì)量,基于不同對抗攻擊方式對應(yīng)的統(tǒng)計(jì)量進(jìn)行差異顯著性檢驗(yàn),若差異顯著性檢驗(yàn)通過,篩選具有顯著差異的統(tǒng)計(jì)量類型,繼續(xù)執(zhí)行符號一致性檢驗(yàn),若全部對抗攻擊方式的對抗音頻和對比音頻在具有顯著差異的統(tǒng)計(jì)量類型下的差異符號相同,則測量得到對抗音頻的共性特征;若差異顯著性檢驗(yàn)未通過,則結(jié)束測量過程,對抗音頻不存在共性特征。
9、進(jìn)一步地,所述的步驟s02包括:
10、(2.1)采用對抗攻擊方式生成對抗噪聲,將所述對抗噪聲添加到良性樣本中,生成對應(yīng)所述良性樣本的對抗樣本,所述對抗樣本會被語音識別模型識別為攻擊目標(biāo)文本,所述攻擊目標(biāo)文本與良性樣本的真實(shí)文本不同;所述對抗樣本的模型識別結(jié)果與攻擊目標(biāo)文本之間的距離指標(biāo)和對抗噪聲的可聽性指標(biāo)的加權(quán)和最??;
11、(2.2)多次改變對抗攻擊方式并重復(fù)步驟(2.1),生成不同的對抗攻擊方式對應(yīng)的對抗噪聲和對抗樣本;所述的不同的對抗攻擊方式均聯(lián)合距離指標(biāo)和可聽性指標(biāo)作為生成優(yōu)化目標(biāo),且能夠覆蓋多種不同的語音識別模型。
12、進(jìn)一步地,所述的良性樣本隨機(jī)選取,且良性樣本對應(yīng)不同的攻擊目標(biāo)文本。
13、進(jìn)一步地,所述的聲學(xué)特征包括時(shí)域特征和頻域特征,所述的時(shí)域特征,包括短時(shí)功率、聲壓級、短時(shí)自相關(guān)率、短時(shí)平均振幅差、短時(shí)平均過零率、音素持續(xù)時(shí)間、字符間隔時(shí)間;所述的頻域特征,包括頻譜質(zhì)心、基頻、能熵比、頻譜圖、梅爾頻譜圖、梅爾倒譜系數(shù)、頻譜包絡(luò)、線性預(yù)測編碼(linear?predictive?coding,lpc)。
14、進(jìn)一步地,所述的步驟s04包括:
15、(4.1)確定統(tǒng)計(jì)特征類型,所述統(tǒng)計(jì)特征類型包括聲學(xué)特征向量的整體分布和局部分布,所述的局部分布是指在聲學(xué)特征向量中峰值周圍的數(shù)據(jù)分布;
16、(4.2)從連續(xù)性、規(guī)律性和分布趨勢三方面設(shè)計(jì)整體分布統(tǒng)計(jì)特征,所述的整體分布統(tǒng)計(jì)特征包括差值、二階差值、余弦距離、歐氏距離、自相關(guān)率、周期、過零率、過零點(diǎn)距離、特征的歸一化值;
17、(4.3)從連續(xù)性、規(guī)律性和分布趨勢三方面設(shè)計(jì)局部分布統(tǒng)計(jì)特征,所述的局部分布統(tǒng)計(jì)特征針對聲學(xué)特征向量中峰值,包括峰間距離、峰的自相關(guān)率、峰的周期、峰的數(shù)量、峰的位置、峰的寬度、峰的高度、峰的峰度;
18、(4.4)根據(jù)步驟(4.2)和步驟(4.3)設(shè)計(jì)的整體分布統(tǒng)計(jì)特征和局部分布統(tǒng)計(jì)特征,計(jì)算所述聲學(xué)特征向量的聲學(xué)-統(tǒng)計(jì)特征向量。
19、進(jìn)一步地,所述的步驟s05包括:
20、(5.1)定義對抗特性,所述對抗特性是指對抗噪聲或?qū)箻颖镜穆晫W(xué)-統(tǒng)計(jì)特征向量的統(tǒng)計(jì)量與對應(yīng)的白噪聲或良性樣本的聲學(xué)-統(tǒng)計(jì)特征向量的統(tǒng)計(jì)量之間存在顯著差異;
21、(5.2)計(jì)算對抗噪聲、對抗樣本、白噪聲和良性樣本的聲學(xué)-統(tǒng)計(jì)特征向量的若干種統(tǒng)計(jì)量;
22、(5.3)基于不同攻擊方式對應(yīng)的統(tǒng)計(jì)量進(jìn)行差異顯著性檢驗(yàn),所述的差異顯著性檢驗(yàn)為:采用假設(shè)檢驗(yàn)判斷由不同攻擊方式下生成的對抗噪聲和白噪聲構(gòu)成的噪音組合對應(yīng)的統(tǒng)計(jì)量是否存在顯著差異,和/或采用假設(shè)檢驗(yàn)判斷由不同攻擊方式下生成的對抗樣本和良性樣本構(gòu)成的樣本組合對應(yīng)的統(tǒng)計(jì)量是否存在顯著差異,當(dāng)噪音組合和樣本組合中的任一組合存在顯著差異時(shí),即通過差異顯著性檢驗(yàn);否則不通過,結(jié)束測量過程;
23、(5.4)若通過差異顯著性檢驗(yàn),則篩選具有顯著差異的統(tǒng)計(jì)量類型,執(zhí)行符號一致性檢驗(yàn):當(dāng)全部對抗攻擊方式對應(yīng)的對抗音頻與對比音頻在聲學(xué)-統(tǒng)計(jì)特征m的第j種具有顯著差異的統(tǒng)計(jì)量下的概率密度函數(shù)的差值符號相同,則對抗音頻的聲學(xué)-統(tǒng)計(jì)特征m在第j種具有顯著差異的統(tǒng)計(jì)量類型下具有共有特性,根據(jù)差值符號的正負(fù)生成一條共性特征;遍歷全部聲學(xué)-統(tǒng)計(jì)特征m和全部具有顯著差異的統(tǒng)計(jì)量類型,生成對抗音頻的全部對抗特征。
24、進(jìn)一步地,所述的聲學(xué)-統(tǒng)計(jì)特征向量的統(tǒng)計(jì)量類型包括平均值、最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)、最大值。
25、進(jìn)一步地,所述的步驟(5.3)中,在進(jìn)行任一組合的差異顯著性檢驗(yàn)時(shí),針對第n種對抗攻擊方式,對該對抗攻擊方式下生成的對抗噪聲δ的每個(gè)統(tǒng)計(jì)量si(m(δ))與相應(yīng)的白噪聲統(tǒng)計(jì)量si(m(δw))進(jìn)行kruskal-wallis?h檢驗(yàn),得到p值;其中,si(m(δ))表示對抗音頻δ的聲學(xué)-統(tǒng)計(jì)特征m在第i種統(tǒng)計(jì)量類型下的統(tǒng)計(jì)量結(jié)果,si(m(δw))表示對比音頻δw的聲學(xué)-統(tǒng)計(jì)特征m在第i種統(tǒng)計(jì)量類型下的統(tǒng)計(jì)量結(jié)果;
26、遍歷全部統(tǒng)計(jì)量類型,保留最低p值以及最低p值對應(yīng)的統(tǒng)計(jì)量類型;
27、遍歷全部的對抗攻擊方式,得到pmin,1,pmin,2,…,pmin,n,其中pmin,n表示第n種對抗攻擊方式對應(yīng)的最小p值,n表示全部對抗攻擊方式的數(shù)量;
28、若pmin,1,pmin,2,…,pmin,n均不超過0.05/m,其中m為全部統(tǒng)計(jì)量類型的數(shù)量,則pmin,1,pmin,2,…,pmin,n對應(yīng)的統(tǒng)計(jì)量類型為具有顯著差異的統(tǒng)計(jì)量類型。
29、進(jìn)一步地,所述的步驟(5.4)具體為:
30、計(jì)算每種對抗攻擊方式下的對抗音頻與對比音頻的聲學(xué)-統(tǒng)計(jì)特征的統(tǒng)計(jì)量sj(m(δ))、sj(m(δw))的概率密度函數(shù),其中sj(m(δ))表示對抗音頻δ的聲學(xué)-統(tǒng)計(jì)特征m在第j種具有顯著差異的統(tǒng)計(jì)量類型下的統(tǒng)計(jì)量結(jié)果,sj(m(δw))表示對比音頻δw的聲學(xué)-統(tǒng)計(jì)特征m在第j種具有顯著差異的統(tǒng)計(jì)量類型下的統(tǒng)計(jì)量結(jié)果;將sj(m(δ))、sj(m(δw))的概率密度函數(shù)做差,記錄差值的正負(fù)符號;
31、遍歷全部對抗攻擊方式,將對抗噪聲和白噪聲作為第一組合進(jìn)行對比,將對抗樣本和良性樣本作為第二組合進(jìn)行對比,當(dāng)任一組合中全部攻擊方式下對應(yīng)的差值的正負(fù)符號相同時(shí),說明該組合中的對抗噪聲或?qū)箻颖镜穆晫W(xué)-統(tǒng)計(jì)特征m在第j種具有顯著差異的統(tǒng)計(jì)量類型下具有共有特性,根據(jù)差值符號生成共性特征;
32、遍歷全部聲學(xué)-統(tǒng)計(jì)特征及其全部具有顯著差異的統(tǒng)計(jì)量類型,得到對抗噪聲和對抗樣本的全部共性特征。
33、進(jìn)一步地,所述的根據(jù)差值符號生成共性特征,包括:
34、當(dāng)對應(yīng)的差值符號為正時(shí),將共性特征記為sj(m(δ))>sj(m(δw)),表示對抗噪聲/對抗樣本的聲學(xué)-統(tǒng)計(jì)特征m在第j種具有顯著差異的統(tǒng)計(jì)量類型下的統(tǒng)計(jì)量結(jié)果大于白噪聲/良性樣本的聲學(xué)-統(tǒng)計(jì)特征m在第j種具有顯著差異的統(tǒng)計(jì)量類型下的統(tǒng)計(jì)量結(jié)果;
35、當(dāng)對應(yīng)的差值符號為負(fù)時(shí),共性特征記為sj(m(δ))<sj(m(δw)),表示對抗噪聲/對抗樣本的聲學(xué)-統(tǒng)計(jì)特征m在第j種具有顯著差異的統(tǒng)計(jì)量類型下的統(tǒng)計(jì)量結(jié)果小于白噪聲/良性樣本的聲學(xué)-統(tǒng)計(jì)特征m在第j種具有顯著差異的統(tǒng)計(jì)量類型下的統(tǒng)計(jì)量結(jié)果。
36、本發(fā)明具有以下有益效果:
37、(1)本發(fā)明提出了對抗攻擊下語音在信號特征層面共性特征的測量方法,彌補(bǔ)了目前對于語音識別模型對抗音頻信號分析的不足,在多個(gè)層次上填補(bǔ)了對抗音頻特性研究的缺失。本發(fā)明首先利用多種聲學(xué)特征描述音頻,接著利用多種統(tǒng)計(jì)特征細(xì)粒度地描述了聲學(xué)特征向量在整體和峰值部分的連續(xù)性、規(guī)律性和分布趨勢。區(qū)別于現(xiàn)有方法僅從頻譜分布層面對對抗樣本的特性進(jìn)行分析,本發(fā)明利用多種聲學(xué)特征從強(qiáng)度、節(jié)奏、音高、音色等多個(gè)方面提取音頻的特性,實(shí)現(xiàn)了對抗音頻特性的較為完備的探索。
38、(2)本發(fā)明通過對抗音頻與對比音頻之間的差異檢驗(yàn),確保測量的共性特征由對抗攻擊導(dǎo)致,補(bǔ)充了現(xiàn)有工作在此類研究上的空白。本發(fā)明的測量對象為多種對抗攻擊下的大量對抗音頻,在提取音頻的聲學(xué)-統(tǒng)計(jì)特征后,將對抗音頻的特征和對比音頻的特征進(jìn)行了一致性檢驗(yàn),可以驗(yàn)證兩者在某些特征上具有明顯差異。將對抗噪聲與白噪聲對比可以確保發(fā)現(xiàn)的對抗特性不是簡單加噪導(dǎo)致的,將對抗樣本與原始音頻對比可以確保發(fā)現(xiàn)的音頻特性不是原始語音本身所具備。因此,通過本發(fā)明獲得的對抗音頻特性是對抗攻擊疊加特殊噪聲導(dǎo)致的,可以反映對抗音頻的本質(zhì)特性,可用于對抗攻擊的成因分析和檢測防護(hù)。
39、(3)本發(fā)明的測量對象需通過不同方式生成,其中包括不同的對抗攻擊方式、不同的語音識別模型、不同的原始良性語音樣本、不同的攻擊目標(biāo)文本。在此基礎(chǔ)上測量得到的共性特征具有通用性,不與特定的攻擊、識別模型或音頻樣本相關(guān)。因此,通過本發(fā)明獲得的對抗音頻共性特征適用于多種攻擊,具有較高的可信度和應(yīng)用價(jià)值。