經由間歇采樣的低功率音頻觸發(fā)器的制造方法
【專利摘要】本發(fā)明涉及經由間歇采樣的低功率音頻觸發(fā)器。系統(tǒng)和方法可提供在定期檢測窗口的第一部分期間使用移動裝置的音頻前端從音頻信號獲得采樣音頻,并且在該定期檢測窗口的第二部分期間降低音頻前端的一個或多個部件的功耗。另外,可至少部分基于采樣音頻做出關于在音頻信號中是否存在語音活動的確定。在一個示例中,第一部分的長度和第二部分的長度由定期檢測窗口的占空比限定。
【專利說明】經由間歇采樣的低功率音頻觸發(fā)器
【技術領域】
[0001]實施例大體上涉及移動裝置。更特定地,實施例涉及使用低功率語音觸發(fā)器來發(fā)起與移動裝置的交互。
【背景技術】
[0002]移動裝置的免提操作在例如車載操作和與殘疾相關的使用場景等多種背景下可有關。然而,在免提設置中發(fā)起移動裝置交互可提出許多挑戰(zhàn)。例如,常規(guī)技術方案可指定預先設置的激活短語(例如,“喂計算機”),其實現基于話語的用戶界面用于進一步交互,其中可對音頻連續(xù)采樣以供短語識別器分析直到檢測到激活短語。這樣的方法可增加功耗并且對電池壽命具有負面影響。
【專利附圖】
【附圖說明】
[0003]實施例的各種優(yōu)勢將通過閱讀下列說明書和附上的權利要求并且通過參考下列圖而對本領域內技術人員變得明顯,其中:
圖1是根據實施例的語音觸發(fā)器架構的示例的框圖;
圖2是根據實施例對于多種幀大小的語音觸發(fā)器準確性vs.語音活動檢測器始發(fā)持續(xù)時間的示例的標繪圖;
圖3是根據實施例發(fā)起與移動裝置的交互的方法的示例的流程圖;
圖4是根據實施例的移動裝置的示例的框圖。
【具體實施方式】
[0004]現在轉向圖1,示出低功率語音觸發(fā)器架構24。該架構24大體上可用于在免提設置中(例如,在用戶不按壓按鈕或用別的方式觸碰移動裝置的情況下)實現與移動裝置的語音交互始發(fā)的檢測。在圖示的示例中,音頻前端10包括麥克風12、模數(A/D)轉換器14、存儲器16、語音活動檢測器(VAD) 18和短語識別器20。如將更詳細論述的,例如定期檢測窗口等窗口可由對于架構24的功率管理模塊22 (例如,其包括功率管理邏輯)建立,其中該定期檢測窗口具有占空比,其限定定期檢測窗口的活躍部分(例如,采樣幀)和定期檢測窗口的不活躍部分(例如,丟棄幀)。特別要注意的是,不活躍部分可對移動裝置實現很大的功率節(jié)省和延長的電池壽命。
[0005]更特定地,在定期檢測窗口的活躍部分期間,音頻前端10可用于從麥克風12捕獲的音頻信號獲得采樣音頻。在這樣的情況下,A/D轉換器14可以特定采樣速率(例如,每秒X個樣本)對音頻信號采樣來獲得對于定期檢測窗口的每個活躍部分/采樣幀的采樣音頻(例如,N毫秒的音頻數據)。
[0006]另一方面,在定期檢測窗口的不活躍部分期間,音頻前端10可放棄音頻信號的任何采樣并且功率管理模塊22可降低音頻前端10的一個或多個部件的功耗。例如,在定期檢測窗口的不活躍部分期間,功率管理模塊22可對麥克風12、A/D轉換器14、語音活動檢測器18和/或短語識別器20斷電,使存儲器16處于自刷新模式,等。從而,前端10可持續(xù)奇數N毫秒地對音頻信號采樣,然后持續(xù)偶數N毫秒地“睡眠”(在每個定期檢測窗口期間)。特別要注意的是,降低在定期檢測窗口的不活躍部分期間音頻前端10的部件的功耗可明顯延長移動裝置的電池壽命。
[0007]在一個示例中,可在確定采樣幀(S卩,定期檢測窗口的活躍部分)和丟棄幀(S卩,定期檢測窗口的不活躍部分)的長度時考慮與加電和掉電操作關聯(lián)的開銷。例如,采樣幀的長度(例如,采樣幀長度)可選為充分地大于與音頻前端10的加電操作關聯(lián)的任何開銷持續(xù)時間以便確保能量節(jié)省不被本文描述的占空循環(huán)方法所無效。相似地,丟棄幀的長度(例如,丟棄幀長度)可選為充分大于與音頻前端10的掉電操作關聯(lián)的任何開銷持續(xù)時間。在這方面,根據情況,定期檢測窗口的占空比可以是50%,或某其他值。例如,如果掉電開銷相對于加電開銷是低的,占空比可能增加到大于50%的值以便增加采樣幀長度并且進一步優(yōu)化功率節(jié)省。
[0008]采樣音頻可在存儲器16中緩沖,其中圖示的語音活動檢測器18至少部分基于采樣音頻來確定在音頻信號中是否存在語音活動。從而,圖示的語音活動檢測器18可基于在定期檢測窗口的活躍部分期間獲得的奇數N毫秒幀來做出活動決策。如果檢測到語音活動,短語識別器20可分析采樣音頻來確定在音頻信號中是否存在預先設置的激活短語。
[0009]圖2示出對于多種采樣幀大小的語音觸發(fā)器準確性vs.VAD始發(fā)持續(xù)時間的標繪圖26。VAD始發(fā)持續(xù)時間可對應于緩沖存儲器的大小,例如用于存儲根據如本文描述的占空比獲得的采樣音頻的存儲器16 (例如,緩沖量)。在圖示的示例中,標繪圖26證明對于多至40毫秒的采樣幀大小以及多至160毫秒的始發(fā)持續(xù)時間,準確性下降可以是能接受的(例如,在2%內)。
[0010]現在轉向圖3,示出發(fā)起與移動裝置交互的方法30。該方法30可在移動裝置中實現為一組邏輯指令,其存儲在例如隨機存取存儲器(RAM)、只讀存儲器(ROM)、可編程ROM(PR0M)、固件、閃速存儲器等機器或計算機可讀存儲介質中,在例如可編程邏輯陣列(PLA)、現場可編程門陣列(FPGA)、復雜可編程邏輯裝置(CPLD)等可配置邏輯中,在使用例如專用集成電路(ASIC)、互補金屬氧化物半導體(CMOS)或晶體管-晶體管邏輯(TTL)技術等電路技術的固定功能性邏輯硬件中,或其任何組合。例如,用于實施在方法30中示出的操作的計算機程序代碼可用一個或多個編程語言的任何組合來編寫,包括例如Java、Smalltalk、C++或類似物等面向對象編程語言以及例如“C”編程語言或相似的編程語言等常規(guī)的程序化編程語目。
[0011]圖示的處理框32在定期檢測窗口的第一部分期間使用移動裝置的音頻前端從音頻信號獲得采樣音頻。音頻前端的一個或多個部件的功耗可在框34在定期檢測窗口的第二部分期間降低,其中可在框36至少部分基于采樣音頻做出關于在音頻信號中是否存在語音活動的確定。如果是這樣的話,圖示的框38繼續(xù)對音頻信號采樣(例如,中止占空比采樣)以便提高短語檢測目的的準確性。否則,過程可重復直到檢測到語音活動。
[0012]圖4示出移動裝置40。該移動裝置40可以是具有計算功能性(例如,個人數字助理/PDA、膝上型電腦、智能平板電腦)、通信功能性(例如,無線智能電話)、成像功能性、媒體播放功能性(例如,智能電視/TV)或其任何組合(例如,移動互聯(lián)網裝置/MID)的平臺的部分。在圖示的示例中,裝置40包括用于向裝置40提供電力的電池58和具有集成存儲器控制器aMC) 44的處理器42,該集成存儲器控制器aMC) 44可與系統(tǒng)存儲器46通信。系統(tǒng)存儲器46可包括例如動態(tài)隨機存取存儲器(DRAM),其配置為一個或多個存儲器模塊,例如雙直列存儲器模塊(DIMM)、小型DIMM (SODIMM),等。
[0013]圖示的裝置40還包括輸入輸出(1)模塊48,有時稱為芯片集的南橋,其起到主機裝置的作用并且可與例如音頻編解碼器50、麥克風52、一個或多個揚聲器54以及大容量存儲56 (例如,硬盤驅動器/HDD、光盤、閃速存儲器,等)通信。音頻編解碼器50、麥克風52、1模塊48等可以是例如已經論述的音頻前端10(圖1)等音頻前端的部分。圖示的處理器62 (其可起到與例如功率管理模塊22 (圖1)等功率管理模塊相似的作用)可執(zhí)行邏輯60,其配置成在定期檢測窗口的第一部分期間使用音頻前端從音頻信號獲得采樣音頻。該邏輯60還可在定期檢測窗口的第二部分期間降低音頻前端的一個或多個部件的功耗,并且至少部分基于采樣音頻確定在音頻信號中是否存在語音活動。邏輯60可備選地在處理器42外部實現。另外,處理器42和1模塊48可共同在相同的半導體晶片上實現為芯片上系統(tǒng)(SoC)。
[0014]額外的注意和示例:
示例一可包括移動裝置,其具有用于對該移動裝置供電的電池、音頻前端和用于在定期檢測窗口的第一部分期間使用該音頻前端從音頻信號獲得采樣音頻的邏輯。該邏輯還可在定期檢測窗口的第二部分期間降低音頻前端的一個或多個部件的功耗,并且至少部分基于采樣音頻確定在音頻信號中是否存在語音活動。
[0015]另外,示例一的移動裝置可包括功率管理模塊,其至少部分包括該邏輯。
[0016]示例二可包括這樣的設備,其具有在定期檢測窗口的第一部分期間使用移動裝置的音頻前端從音頻信號獲得采樣音頻的邏輯。該邏輯還可在定期檢測窗口的第二部分期間降低音頻前端的一個或多個部件的功耗,并且至少部分基于采樣音頻確定在音頻信號中是否存在語音活動。
[0017]另外,第一部分的長度和第二部分長度要由示例一或二中的窗口的占空比限定。另外,第一部分大于與音頻前端的一個或多個加電操作關聯(lián)的第一開銷持續(xù)時間并且第二部分大于與音頻前端的一個或多個掉電操作關聯(lián)的第二開銷持續(xù)時間。另外,示例一或二的邏輯可以一定采樣速率對音頻信號采樣來獲得采樣音頻。另外,示例一或二的邏輯可將采樣音頻存儲到音頻前端的存儲器。另外,如果在音頻信號中存在語音活動,示例一或二的邏輯可持續(xù)對音頻信號采樣。另外,在示例一或二中,可在窗口的第二部分期間降低麥克風、語音活動檢測器、模數轉換器、存儲器和短語識別器中的一個或多個的功耗。
[0018]示例三可包括非暫時性計算機可讀存儲介質,其具有指令集,指令如果被處理器執(zhí)行則促使移動裝置在定期檢測窗口的第一部分期間使用移動裝置的音頻前端從音頻信號獲得采樣音頻。指令如果被執(zhí)行還可促使移動裝置在定期檢測窗口的第二部分期間降低音頻前端的一個或多個部件的功耗,并且至少部分基于采樣音頻確定在音頻信號中是否存在語音活動。
[0019]另外,第一部分的長度和第二部分的長度可由示例三中的窗口的占空比限定。另夕卜,示例三的第一部分可大于與音頻前端的一個或多個加電操作關聯(lián)的第一開銷持續(xù)時間并且示例三的第二部分可大于與音頻前端的一個或多個掉電操作關聯(lián)的第二開銷持續(xù)時間。另外,示例三的指令如果被執(zhí)行則可促使移動裝置以一定采樣速率對音頻信號采樣來獲得采樣音頻。另外,示例三的指令如果被執(zhí)行則可促使移動裝置將采樣音頻存儲到音頻前端的存儲器。另外,如果在音頻信號中存在語音活動,示例三的指令如果被執(zhí)行則可促使移動裝置持續(xù)對音頻信號采樣。另外,在示例三中,麥克風、語音活動檢測器、模數轉換器、存儲器和短語識別器中的一個或多個的功耗可在窗口的第二部分期間被降低。
[0020]示例四可牽涉計算機實現的方法,其中移動裝置的音頻前端用于在定期檢測窗口的第一部分期間從音頻信號對音頻采樣。該方法還可提供在定期檢測窗口的第二部分期間降低音頻前端的一個或多個部件的功耗,并且至少部分基于采樣音頻確定在音頻信號中是否存在語音活動。
[0021]另外,在示例四的方法中,第一部分的長度和第二部分的長度可由窗口的占空比限定。另外,在示例四的方法中,第一部分可大于與音頻前端的一個或多個加電操作關聯(lián)的第一開銷持續(xù)時間并且第二部分可大于與音頻前端的一個或多個掉電操作關聯(lián)的第二開銷持續(xù)時間。另外,示例四的方法可進一步包括以一定采樣速率對音頻信號采樣來獲得采樣音頻。另外,在示例四的方法中,麥克風、語音活動檢測器、模數轉換器、存儲器和短語識別器中的一個或多個的功耗可在窗口的第二部分期間降低。
[0022]從而,本文描述的技術可對針對語音觸發(fā)檢測采用待命模式操作的移動裝置實現更長的電池壽命。因此,免提操作在例如車載操作(例如,更大的安全性)和與殘疾相關的使用場景等多種背景下得到明顯增強。
[0023]實施例能適用于與所有類型的半導體集成電路(“1C”)芯片一起使用。這些IC芯片的示例包括但不限于處理器、控制器、芯片集部件、可編程邏輯陣列(PLA)、存儲器芯片、網絡芯片/芯片上系統(tǒng)(SoC)、SSD/NAND控制器ASIC及類似物。另外,在圖中的一些中,信號導線用線表示。一些可以不同來指示更多的組成信號路徑、具有數字標簽來指示許多組成信號路徑和/或在一個或多個端處具有箭頭來指示主要的信息流方向。然而,這不應以限制性的方式解釋。相反,這樣的附加細節(jié)可連同一個或多個示范性實施例一起使用以便于更容易地理解電路。任何表示的信號線,無論是否具有額外的信息,實際上可包括可在多個方向上行進并且可用任何適合類型的信號方案(例如用差分對、光纖線和/或單端線實現的數字或模擬線)實現的一個或多個信號。
[0024]可已經給出示例尺寸/模型/值/范圍,但本發(fā)明的實施例不限于此。當制造技術(例如光刻)隨時間而成熟時,預期可以制造具有較小尺寸的設備。另外,為了簡化說明和論述,并且為了不掩蓋實施例的某些方面,眾所周知的到IC芯片和其他部件的電力/接地連接可在或可不在圖內示出。此外,設置可采用框圖形式示出以便避免掩蓋實施例,并且還基于的事實是,關于這樣的框圖設置的實現的細節(jié)高度取決于實現實施例所在平臺(即,這樣的細節(jié)應該完全在本領域內技術人員的視野內)。在闡述特定細節(jié)(例如,電路)以便描述示例實施例的情況下,可以在沒有這些特定細節(jié)或具有這些特定細節(jié)的變化形式的情況下實踐實施例,這對本領域內技術人員應該是明顯的。從而本描述被視為說明性而非限制性的。
[0025]術語“耦合”可在本文中用于指談論的部件之間的任何類型的關系(直接或間接),并可適用于電、機械、流體、光、電磁、機電或其他連接。另外,術語“第一”、“第二”等在本文中僅用于便于論述,并且不具有特定時間或時間順序的意義,除非另外指出。
[0026]本領域內技術人員將從前面的描述意識到實施例的廣泛技術可以以多種形式實現。因此,盡管實施例已經連同其特定示例描述,實施例的真正范圍不應這樣受限制,因為當研究圖、說明書和下面的權利要求時其他修改將對技術人員變得明顯。
【權利要求】
1.一種用于發(fā)起交互的移動裝置,其包括: 電池,用于對所述移動裝置供電; 音頻前端;以及 邏輯,用于 在窗口的第一部分期間使用所述音頻前端從音頻信號獲得采樣音頻; 在所述窗口的第二部分期間降低所述音頻前端的一個或多個部件的功耗;以及 至少部分基于采樣音頻確定在所述音頻信號中是否存在語音活動。
2.如權利要求1所述的移動裝置,其中所述第一部分的長度和所述第二部分的長度由所述窗口的占空比限定。
3.如權利要求1所述的移動裝置,其中所述第一部分大于與所述音頻前端的一個或多個加電操作關聯(lián)的第一開銷持續(xù)時間,并且所述第二部分大于與所述音頻前端的一個或多個掉電操作關聯(lián)的第二開銷持續(xù)時間。
4.如權利要求1所述的移動裝置,其中所述邏輯用于以一定采樣速率對所述音頻信號采樣來獲得采樣音頻。
5.如權利要求1-4中任一項所述的移動裝置,其中所述音頻前端包括麥克風、語音活動檢測器、模數轉換器、存儲器和短語識別器中的一個或多個。
6.一種用于發(fā)起交互的設備,其包括: 邏輯,用于 在窗口的第一部分期間使用移動裝置的音頻前端從音頻信號獲得采樣音頻; 在所述窗口的第二部分期間降低所述音頻前端的一個或多個部件的功耗;以及 至少部分基于采樣音頻確定在所述音頻信號中是否存在語音活動。
7.如權利要求6所述的設備,其中所述第一部分的長度和所述第二部分的長度由所述窗口的占空比限定。
8.如權利要求6所述的設備,其中所述第一部分大于與所述音頻前端的一個或多個加電操作關聯(lián)的第一開銷持續(xù)時間,并且所述第二部分大于與所述音頻前端的一個或多個掉電操作關聯(lián)的第二開銷持續(xù)時間。
9.如權利要求6所述的設備,其中所述邏輯用于以一定采樣速率對所述音頻信號采樣來獲得采樣音頻。
10.如權利要求6所述的設備,其中所述邏輯用于將所述采樣音頻存儲到所述音頻前端的存儲器。
11.如權利要求6所述的設備,其中如果在所述音頻信號中存在語音活動則所述邏輯連續(xù)對所述音頻信號采樣。
12.如權利要求6-11中任一項所述的設備,其中在所述窗口的第二部分期間降低麥克風、語音活動檢測器、模數轉換器、存儲器和短語識別器中的一個或多個的功耗。
13.一種用于發(fā)起交互的移動裝置,其包括: 用于在窗口的第一部分期間使用所述移動裝置的音頻前端從音頻信號獲得采樣音頻的部件; 用于在所述窗口的第二部分期間降低所述音頻前端的一個或多個部件的功耗的部件;以及用于至少部分基于采樣音頻確定在所述音頻信號中是否存在語音活動的部件。
14.如權利要求13所述的移動裝置,其中所述第一部分的長度和所述第二部分的長度由所述窗口的占空比限定。
15.如權利要求13所述的移動裝置,其中所述第一部分大于與所述音頻前端的一個或多個加電操作關聯(lián)的第一開銷持續(xù)時間,并且所述第二部分大于與所述音頻前端的一個或多個掉電操作關聯(lián)的第二開銷持續(xù)時間。
16.如權利要求13所述的移動裝置,其進一步包括用于以一定采樣速率對所述音頻信號采樣來獲得采樣音頻的部件。
17.如權利要求13所述的移動裝置,其進一步包括用于將所述采樣音頻存儲到所述音頻前端的存儲器的部件。
18.如權利要求13所述的移動裝置,其進一步包括用于如果在所述音頻信號中存在語音活動則連續(xù)對所述音頻信號采樣的部件。
19.如權利要求13-18中任一項所述的移動裝置,其中在所述窗口的第二部分期間降低麥克風、語音活動檢測器、模數轉換器、存儲器和短語識別器中的一個或多個的功耗。
20.一種用于發(fā)起交互的計算機實現的方法,其包括: 在窗口的第一部分期間使用移動裝置的音頻前端從音頻信號對音頻采樣; 在所述窗口的第二部分期間降低音頻前端的一個或多個部件的功耗;以及 至少部分基于采樣音頻確定在所述音頻信號中是否存在語音活動。
21.如權利要求20所述的方法,其中所述第一部分的長度和所述第二部分的長度由所述窗口的占空比限定。
22.如權利要求20所述的方法,其中所述第一部分大于與所述音頻前端的一個或多個加電操作關聯(lián)的第一開銷持續(xù)時間,并且所述第二部分大于與所述音頻前端的一個或多個掉電操作關聯(lián)的第二開銷持續(xù)時間。
23.如權利要求20所述的方法,其進一步包括以一定采樣速率對所述音頻信號采樣來獲得采樣音頻。
24.如權利要求20-23中任一項所述的方法,其中在所述窗口的第二部分期間降低麥克風、語音活動檢測器、模數轉換器、存儲器和短語識別器中的一個或多個的功耗。
【文檔編號】H04M1/60GK104050973SQ201410096722
【公開日】2014年9月17日 申請日期:2014年3月17日 優(yōu)先權日:2013年3月15日
【發(fā)明者】L.克里斯納默斯, M.E.戴舍爾, F.M.塔拉佩, P.R.達特塔 申請人:英特爾公司