傳聲器和通信接口系統(tǒng)的制作方法

文檔序號：2821100閱讀：281來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：傳聲器和通信接口系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種傳聲器和通信接口系統(tǒng)，特別地，本發(fā)明涉及一種對包含了經(jīng)由內(nèi)部軟組織(在下文中將其稱為“人體傳導(dǎo)”)傳送的不可聽(non-audible)呼吸音的振動音(在下文中將其簡稱為“不可聽雜音(non-audible murmur)”)進行采樣的傳聲器，以及一種使用該傳聲器的通信接口系統(tǒng)，其中呼吸音是由關(guān)聯(lián)于發(fā)聲器官運動的共振濾波器特征變化表示的，并且呼吸音中不包含規(guī)則聲帶振動，此外，呼吸音指的并不是周圍的人聽到的聲音，而是包含一個很小的呼吸流速(呼氣流速和吸氣流速)。
背景技術(shù)：
蜂窩電話的迅速普及為在火車或公共汽車之類的公共交通設(shè)施中交談的方式帶來了問題。蜂窩電話與先前模擬電話結(jié)構(gòu)使用的是基本相同的接口；并且蜂窩電話獲取的是通過空氣傳送的聲音。因此，非常不利的是，當(dāng)某個被他人圍繞的用戶使用蜂窩電話交談的時候，在他周圍的人可能會受到打擾。很多人應(yīng)該都曾經(jīng)有過在火車上聽到某些人用蜂窩電話交談時的不愉快感受。
此外，作為空氣傳導(dǎo)的本質(zhì)缺陷，交談內(nèi)容會被周圍的人聽到，因此信息有可能會被泄漏，并且很難對這種公開進行控制。
另外，如果與使用蜂窩電話的用戶交談的人在一個背景噪聲嘈雜的地方說話，那么用戶可能無法很好地接聽這個人說出的話語，其中在所述話語中混雜了背景噪聲。
另一方面，語音識別是一種具有大約三十年歷史的技術(shù)。現(xiàn)在，借助于大詞匯表連續(xù)語音識別等技術(shù)，在聽寫方面，語音識別展示出了至少90％的字識別率。語音識別是一種將數(shù)據(jù)輸入諸如可穿戴計算機之類的個人便攜信息終端或是機器人的方法，這種方法不需要任何特殊的學(xué)習(xí)技術(shù)，因此任何人都可以使用這種方法。此外，當(dāng)前還期待語音識別成為一種使用音標(biāo)語言的方法，這種方法長期作為一種直接傳送信息的人類文化而被人們所熟悉。
然而，從模擬電話時代以來或者從開始開發(fā)語音識別技術(shù)以來，語音輸入技術(shù)長期并且始終處理的是由遠(yuǎn)離口腔的外部傳聲器所采樣的聲音。盡管使用了方向性很強的傳聲器并且為了減少噪聲而對硬件和軟件進行了改進，但是分析目標(biāo)始終是一個從口腔發(fā)出并經(jīng)由空氣傳送到外部傳聲器的聲音。
那些對經(jīng)由空氣傳送的常規(guī)聲音進行分析的語音識別具有非常久遠(yuǎn)的發(fā)展歷史。此外，目前還開發(fā)了易于操縱的語音識別產(chǎn)品。事實上，通過與命令識別以及聽寫相聯(lián)系，這些產(chǎn)品足以精確到能在實踐中恰當(dāng)?shù)貞?yīng)用于無聲環(huán)境。但是，實際上很少會使用這些產(chǎn)品來將數(shù)據(jù)輸入計算機或機器人；并且這些產(chǎn)品僅僅用在某些車輛導(dǎo)航系統(tǒng)中。
這是因為空氣傳導(dǎo)存在一個本質(zhì)缺陷，那就是不可避免地混雜了外部背景噪聲。即使在寂靜的辦公室中，也還是會在意料不到的場合中出現(xiàn)各種噪聲，由此將會導(dǎo)致出現(xiàn)錯誤識別。如果在機器人體表提供聲音采樣設(shè)備，那么作為聲音提供的信息有可能會因為背景噪聲而被錯誤識別。這種聲音可能會轉(zhuǎn)變成一個非常危險的命令。
與此相反，在無聲環(huán)境中使用語音識別技術(shù)所存在的問題是對周圍的人來說，所發(fā)出的聲音與噪聲是一樣的。除非將房間分割成很多個部分，否則多數(shù)人是很難在辦公室使用語音識別技術(shù)的。在實踐中，使用語音識別技術(shù)同樣是非常困難的。
與此相關(guān)的是，“以說話謹(jǐn)慎為美”和“怯于說話”這種日本人的舉止是日本文化的特征，這同樣是抑制語音識別普及的因素。
這個缺陷是非常嚴(yán)重的，這是因為在將來，在戶外或交通工具中使用個人便攜信息終端的機會將會顯著增加。
目前尚未開始在假定全球網(wǎng)絡(luò)環(huán)境或個人便攜終端可用的情況下研究和開發(fā)語音識別技術(shù)。由于無線和可穿戴產(chǎn)品將會逐漸普及，因此在通過有線或無線方式發(fā)送信息之前，使用個人便攜信息終端而從視覺上檢查并校正語音識別結(jié)果，這樣做將會更為安全。
如上所述，對蜂窩電話和語音識別而言，由于分析目標(biāo)可能混雜或出現(xiàn)噪聲，因此目標(biāo)本身就存在缺陷，并且還可能會泄漏信息，另外，校正也是非常困難的；對蜂窩電話和語音識別而言，通過空氣傳送并用外部傳聲器采樣的正常語音信號都轉(zhuǎn)換成了用于分析的參數(shù)。
目前較為理想的是從根本上消除這些缺陷，以便提供一種能向那些在當(dāng)前或不遠(yuǎn)的將來使用的個人便攜信息終端中輸入數(shù)據(jù)的新的方法。這種方法非常簡單，它不需要訓(xùn)練，并且是以長久的人類文化實踐為基礎(chǔ)的。此外，較為理想的是提供一種使用該方法的設(shè)備。
目前已知的是，基于骨傳導(dǎo)的方法使用了與空氣傳導(dǎo)不同的裝置來采樣正常的語音信號。骨傳導(dǎo)的原理在于當(dāng)振動聲帶而發(fā)出聲音時，聲帶振動將會傳送到顱骨中，并且進一步傳送到螺旋形蝸形輪(內(nèi)耳)，在這里將會振動淋巴，以便產(chǎn)生一個電信號，該信號被發(fā)送到聽覺神經(jīng)，以使大腦識別聲音。
骨傳導(dǎo)揚聲器使用的是聲音經(jīng)由顱骨傳送這個骨傳導(dǎo)原理。骨傳導(dǎo)揚聲器將聲音轉(zhuǎn)換成振動器振動，并且將振動器與耳朵、耳周圍的骨骼、太陽穴或乳突骨相接觸，以便將聲音傳送到顱骨。相應(yīng)地，在這里還使用了骨傳導(dǎo)揚聲器，以使那些耳膜或聽小骨不適而在聽覺上存在障礙的人或是高齡的人易于在背景噪聲嘈雜的環(huán)境中聽到聲音。
例如，JP59-191996A公開了一種使用了骨傳導(dǎo)和空氣傳導(dǎo)而將振動器與顱骨的乳突骨相接觸的接聽儀器技術(shù)。然而，在這份出版物中公開的技術(shù)并未描述一種用于對人的語音進行采樣的方法。
JP50-113217A公開了一種允許用戶使用耳機和裝在顱骨的乳突骨上的振動器來接聽通過傳聲器采樣的聲音以及通過喉結(jié)上安裝的傳聲器采樣的聲音的聲音再現(xiàn)設(shè)備技術(shù)，這兩種聲音都是從口腔發(fā)出并且通過空氣傳送的。然而，在這份出版物所公開的技術(shù)并未描述一種在乳突骨緊下方安裝傳聲器來對人的語音進行采樣的方法。
JP4-316300A公開了一種耳機式傳聲器和一種使用該傳聲器的語音識別技術(shù)。在這份出版物所公開的技術(shù)中，其中對規(guī)則振動聲帶所發(fā)出的聲音或是咬牙音之類的內(nèi)部聲音進行采樣；所述振動則從口腔通過鼻子并經(jīng)由耳咽管以及耳膜傳送到外耳，外耳包含了外耳道和外耳空腔。該出版物堅持認(rèn)為，即使對低語這種很小的聲音而言，該技術(shù)也能夠避免出現(xiàn)或混雜噪聲、并且能夠避免出現(xiàn)信息泄漏以及校正與采樣方面的困難。然而，這份出版物所公開的技術(shù)并未清楚顯示可以對在沒有規(guī)則振動聲帶時發(fā)出的不可聽雜音進行采樣。
JP5-333894A公開了一種耳機式傳聲器以及使用該傳聲器的語音識別技術(shù)，其中包含了一個振動傳感器，它對規(guī)則振動聲帶發(fā)出的聲音以及咬牙音之類的身體信號進行檢測。在這份出版物所公開的技術(shù)中，其中清楚顯示將耳孔、耳外圍、頭部表面或是臉部表面作為振動傳感器所在位置。振動傳感器所采樣的身體振動僅僅用于以可分類方式而從傳聲器采樣的全部信號中提取那些在說話者說話的時間間隔得到的信息，并且將那些以可分類的方式提取的信號輸入到語音識別設(shè)備中。然而，這份出版物所公開的技術(shù)并未清楚顯示可以將身體振動用作語音識別設(shè)備的輸入，或是將其用于經(jīng)由蜂窩電話的交談。此外，這種技術(shù)也沒有清楚顯示可以將那些在沒有規(guī)則振動聲帶的情況下發(fā)出的不可聽雜音用作語音識別設(shè)備的輸入，或是將其用于經(jīng)由蜂窩電話的交談。
JP60-22193A公開了一種只對經(jīng)過采樣并通過空氣傳送的傳聲器信號中的某個與時間間隔相對應(yīng)的信息進行分類和提取的技術(shù)，其中該時間間隔是喉結(jié)上安裝的喉式傳聲器或耳機式骨傳導(dǎo)傳聲器檢測身體振動以及將所分類和提取的信號輸入語音識別設(shè)備的時間間隔。然而，這份出版物公開的技術(shù)并未清楚顯示可以將身體振動用作語音識別設(shè)備輸入，或者將其用于經(jīng)由蜂窩電話的交談。另外這種技術(shù)也沒有清楚顯示可以將那些在沒有規(guī)則振動聲帶的情況下發(fā)出的不可聽雜音用作語音識別設(shè)備輸入，或者將其用于經(jīng)由蜂窩電話的交談。
JP2-5099A公開了一種通過結(jié)合一個對正常空氣傳導(dǎo)進行采樣的傳聲器信號來判定咽喉上安裝的喉式傳聲器或振動傳感器檢測規(guī)則的聲帶振動的發(fā)聲時間間隔、并且還判定不檢測聲帶常規(guī)振動而能量卻處于預(yù)定電平或更高電平時的不發(fā)聲時間間隔，以及能量處于預(yù)定電平或更低電平時的無聲時間間隔。然而，這份出版物公開的技術(shù)并未清楚顯示可以將身體振動用作語音識別設(shè)備輸入或者將其用于經(jīng)由蜂窩電話的交談。此外，這種技術(shù)也沒有清楚顯示可以使用在沒有規(guī)則振動聲帶的情況下發(fā)出的無法聽到的雜音作為語音識別設(shè)備輸入，或者將其用于經(jīng)由蜂窩電話的交談。
本發(fā)明的一個目的是提供一種傳聲器和通信接口系統(tǒng)，所述傳聲器和系統(tǒng)能夠避免混雜聲學(xué)背景噪聲，并且使用了不可聽聲音來防止周圍的人聽到說話內(nèi)容，由此可以控制信息泄漏，此外，所述傳聲器和通信接口系統(tǒng)能夠避免影響到辦公室或類似環(huán)境中的無聲環(huán)境，并且傳聲器和通信接口系統(tǒng)能夠傳送和輸入聲音信息，以便為計算機、蜂窩電話或可穿戴計算機之類的個人便攜信息終端提供一個新的輸入接口。

發(fā)明內(nèi)容
本發(fā)明涉及的是經(jīng)由蜂窩電話之類的遠(yuǎn)程對話介質(zhì)來進行交談的領(lǐng)域，并且還涉及了基于語音識別的命令控制的領(lǐng)域以及字符和數(shù)據(jù)之類的信息輸入的領(lǐng)域。與通過使用遠(yuǎn)離口腔的傳聲器來采樣通過空氣傳導(dǎo)傳送的聲音的處理(這其中包括通過規(guī)則振動聲帶發(fā)出的并為周圍的人所聽到的包含了較高呼氣流速的正常聲音，通過規(guī)則振動聲帶發(fā)出并且沒有被周圍的人聽到的包含了較低呼氣流速的雜音，以及通過規(guī)則振動聲帶時發(fā)出并為周圍的人所聽到的包含了較低呼氣流速的耳語)所不同，本發(fā)明改為使用一個安裝在顱骨乳突骨(耳后凸骨)緊下方的胸鎖乳突肌(sternocleidomastoid)皮膚上的傳聲器，也就是說，傳聲器安裝在外耳之后的皮膚底部上(在下文中將這個安裝位置稱為“乳突骨緊下方”的位置)，其中傳聲器對包含了經(jīng)由內(nèi)部軟組織傳送的不可聽呼吸音在內(nèi)的振動音(在下文中將其稱為“不可聽雜音”)進行采樣，并且呼吸音是由關(guān)聯(lián)于發(fā)聲器官運動的共振濾波器特性變化表示的，所述呼吸音并不包含規(guī)則聲帶振動，并且在這里不希望呼吸音被周圍的人聽到，此外，所述呼吸音包括一個很小的呼吸流速(呼氣的流速和吸氣流速)。這樣可以避免混雜背景噪聲，并且可以使用一個不可聽音來防止周圍的人聽到談話內(nèi)容，由此可以控制信息泄漏。此外，在這里還可以避免破壞到辦公室等等的無聲環(huán)境，并且可以傳送和輸入語音信息，以便為諸如計算機、蜂窩電話或可穿戴計算機之類的個人便攜信息終端提供新的輸入接口。
因此，對依照本發(fā)明第一方面的傳聲器而言，對由關(guān)聯(lián)于發(fā)聲器官運動的共振濾波器特性變化表達的不可聽雜音之一進行采樣，所述不可聽雜音不包含規(guī)則聲帶振動，并且所述不可聽雜音是在通過內(nèi)部軟組織傳送外部無法聽到的呼吸音時產(chǎn)生的振動音、在沒有規(guī)則振動聲帶時發(fā)出的可聽耳語、通過規(guī)則振動聲帶發(fā)出并且包含了低音或雜音的聲音、以及諸如咬牙聲和用舌頭發(fā)出的嘖嘖聲之類的不同聲音，此外，所述傳聲器的特征還在于該傳聲器安裝在顱骨乳突骨緊下方的胸鎖乳突肌的皮膚表面上，也就是安裝在外耳后的皮膚下部。由此可以對用于經(jīng)由蜂窩電話之類設(shè)備傳送的語音等等的不可聽雜音或是用于語音識別處理的不可聽雜音進行采樣。此外，在這里還可以用單個設(shè)備來對不可聽雜音之外的可聽音進行采樣。
本發(fā)明第二方面是依照第一方面的傳聲器，包含了一個安裝在皮膚表面的膜片以及粘在膜片上的吸盤。這種結(jié)構(gòu)允許膜片固定吸盤并且在一個微小的封閉空間中引發(fā)回聲。此外，通過將單獨的膜片粘在體表，可以在任何時候安裝和取下吸盤。
本發(fā)明第三方面是依照第一或第二方面的傳聲器，它與一個裝在頭部的物體整合，例如眼鏡、頭戴式耳機、耳掛式耳機、帽子或戴在人的頭部的頭盔。在這里可以通過整合傳聲器與戴在頭上的物體來安裝傳聲器，以免看上去過于奇怪。
依照本發(fā)明第四方面的通信接口系統(tǒng)，它包含了依照第一至第三方面中任何一個的傳聲器，以及一個信號處理設(shè)備，其中所述信號處理設(shè)備對傳聲器采樣的信號進行處理，并且信號處理設(shè)備所處理的結(jié)果將被用于通信。此外它還可以為那些與傳聲器所采樣的不可聽雜音相對應(yīng)的信號執(zhí)行諸如放大或調(diào)制之類的處理，然后由便攜終端照現(xiàn)在的樣子而將這些經(jīng)過處理的振動音用于通信，或者在將振動音轉(zhuǎn)換成參數(shù)之后而將其用于通信。如果將處理結(jié)果用于蜂窩電話，那么，被他人圍繞的用戶可以進行交談，而不使周圍的人聽到交談內(nèi)容。
本發(fā)明第五方面是依照第四方面的通信接口系統(tǒng)，信號處理設(shè)備包含了一個對經(jīng)由傳聲器采樣的信號進行量化的模數(shù)轉(zhuǎn)換部分，一個對模數(shù)轉(zhuǎn)換部分的量化結(jié)果進行處理的處理器部分，以及一個將處理器部分的處理結(jié)果傳送到外部設(shè)備的發(fā)射部分。舉例來說，對這種結(jié)構(gòu)而言，移動電話網(wǎng)絡(luò)中的設(shè)備可以按照原樣而對經(jīng)過處理的振動音進行處理，也可以在將聲音轉(zhuǎn)換成參數(shù)化信號之后再對其進行處理。并且這種處理可以簡化信號處理設(shè)備的結(jié)構(gòu)。
本發(fā)明第六方面是依照第四方面的通信接口系統(tǒng)，信號處理設(shè)備包括一個對傳聲器所采樣的信號進行量化的模數(shù)轉(zhuǎn)換部分，以及一個將模數(shù)轉(zhuǎn)換部分的量化結(jié)果傳送到外部設(shè)備的發(fā)射部分，并且其特征還在于由外部設(shè)備來對量化結(jié)果進行處理。舉例來說，對這種結(jié)構(gòu)而言，移動電話網(wǎng)絡(luò)中的設(shè)備可以對量化結(jié)果進行處理。并且這種處理可用于簡化信號處理設(shè)備的結(jié)構(gòu)。
本發(fā)明第七方面是依照第五方面的通信接口系統(tǒng)，信號處理設(shè)備包括一個對傳聲器所采樣的信號進行量化的模數(shù)轉(zhuǎn)換部分，一個對模數(shù)轉(zhuǎn)換部分的量化結(jié)果進行處理的處理器部分，以及一個對處理器部分的處理結(jié)果執(zhí)行語音識別處理的語音識別部分。對不可聽雜音而言，借助于以這種方式配置的信號處理設(shè)備，可以照原樣對相應(yīng)于已處理振動音的信號進行語音識別處理，也可以在將其轉(zhuǎn)換成參數(shù)之后對其進行語音識別處理。
本發(fā)明第八方面是依照第七方面的通信接口系統(tǒng)，它還包括一個將語音識別部分的語音識別結(jié)果傳送到外部設(shè)備的發(fā)射部分。其中通過將語音識別結(jié)果傳送到例如移動電話網(wǎng)絡(luò)，可以將語音識別結(jié)果用于不同的處理。
本發(fā)明第九方面是依照第五方面的通信接口系統(tǒng)，移動電話網(wǎng)絡(luò)中的設(shè)備對處理器部分的處理結(jié)果執(zhí)行語音識別處理，其中該結(jié)果由發(fā)射部分傳送。在移動電話網(wǎng)絡(luò)中的設(shè)備由此執(zhí)行語音識別處理時，可以對信號處理設(shè)備的結(jié)構(gòu)進行簡化。
本發(fā)明第十方面是依照第五方面的通信接口系統(tǒng)，信號處理設(shè)備所執(zhí)行的信號處理是一個調(diào)制處理，其中處理部分將信號調(diào)制成一個可聽音。這種調(diào)制處理允許進行借助于蜂窩電話或是類似設(shè)備的交談。
本發(fā)明第十一方面是依照第十方面的通信接口系統(tǒng)，調(diào)制處理將聲帶基頻應(yīng)用于不可聽雜音，以便將不可聽雜音轉(zhuǎn)換成包含了聲帶規(guī)則振動的可聽音。變形處理或類似處理允許進行經(jīng)由蜂窩電話的交談。并且可以使用共振峰頻率與基頻之間的公知關(guān)系來計算聲帶基頻。也就是說，可以根據(jù)不可聽雜音的共振峰頻率來設(shè)想聲帶基頻。
本發(fā)明第十二方面是依照第十方面的通信接口系統(tǒng)，調(diào)制處理將不包含規(guī)則聲帶振動的不可聽雜音頻譜轉(zhuǎn)換成使用規(guī)則聲帶振動發(fā)出的可聽音頻譜。這種轉(zhuǎn)換為可聽音頻譜的處理允許使用信號來進行經(jīng)由蜂窩電話的交談。
本發(fā)明第十三方面是依照第十二方面的通信接口系統(tǒng)，調(diào)制處理使用不可聽雜音頻譜和一個語音識別設(shè)備來識別諸如音節(jié)、半音節(jié)、音素、雙連接音素(two juncturte phoneme)以及三連接音素之類的語音單元，此外還使用了語音合成技術(shù)而將所識別的音標(biāo)單元轉(zhuǎn)換成使用規(guī)則聲帶振動發(fā)出的可聽音。由此可以使用合成語音來進行交談。
本發(fā)明第十四方面是依照第四至第十三方面中任何一個的通信接口系統(tǒng)，輸入增益是依照通過傳聲器采樣的動態(tài)聲音范圍的大小而被控制的。由此可以依照動態(tài)范圍大小來對信號進行恰當(dāng)處理。輸入增益可以用基于公知的自動增益控制的模擬電路或軟件來加以控制。
本發(fā)明第十五方面是依照第七或第八方面的通信接口系統(tǒng)，語音識別部分使用了以下聲音中的至少一種聲音的聲學(xué)模型來恰當(dāng)執(zhí)行語音識別，其中所述聲音包括不可聽雜音、可以聽到但卻是在沒有規(guī)則振動聲帶時說出的耳語、規(guī)則振動聲帶并且包含了低音或雜音的聲音，以及諸如咬牙聲和用舌頭發(fā)出的嘖嘖聲之類的不同聲音。由此可以為不可聽雜音之外的可聽音執(zhí)行恰當(dāng)?shù)恼Z音識別。本領(lǐng)域技術(shù)人員很容易依照隱式馬爾可夫模型來構(gòu)造這些不同聲音中的任何一種聲音的聲學(xué)模型。
總而言之，本發(fā)明使用了不可聽雜音(NAM)來進行通信。與使用舌頭，嘴唇、下巴以及軟腭之類的發(fā)音器官以及規(guī)則振動聲帶所發(fā)出的正常的聲音幾乎相同的是，不可聽雜音是由其共振濾波器的特性變化表示的，并且是經(jīng)由人體傳送的。
依照本發(fā)明，使用微小封閉空間中的回聲的聽診器式傳聲器安裝在乳突骨緊下方并與之緊密接觸。當(dāng)放大和接聽那些在通過人體傳送傳聲器所采樣的不可聽雜音時得到的振動音的時候，可以將所述振動音判定成類似耳語的人的聲音。此外，在正常環(huán)境中，1米半徑以內(nèi)的人是不會聽到這個聲音的。此外，在這里還對那些經(jīng)由人體而不是空氣傳送并由傳聲器采樣的不可聽雜音的時候獲取的振動音進行分析，并且將其轉(zhuǎn)換成參數(shù)。
在經(jīng)過放大之后，從人體傳送中產(chǎn)生的振動音可以為人們所接聽和理解。因此，振動音可以按照原樣用于經(jīng)由蜂窩電話的交談。此外也為該聲音執(zhí)行變形處理，以便將其轉(zhuǎn)換成可聽音，從而將其用于經(jīng)由蜂窩電話的交談。
另外，語音識別可以通過使用常用于語音識別的隱式馬爾可夫模型(在下文中有時候?qū)⑵浜喎Q為“HMM”)來加以執(zhí)行，以便用那些在經(jīng)由人體傳送不可聽雜音時獲取的振動音的聲學(xué)模型來替換正常聲音的聲學(xué)模型。由此可以識別無聲狀態(tài)。并且這樣一來，本發(fā)明可被用作一種將數(shù)據(jù)輸入個人便攜信息終端的全新方法。
如上所述，本發(fā)明建議將不可聽雜音用作人與人或人與計算機之間的通信接口。

圖1是顯示將依照本發(fā)明的通信接口系統(tǒng)應(yīng)用于蜂窩電話系統(tǒng)的結(jié)構(gòu)的框圖；圖2是顯示將依照本發(fā)明的通信接口系統(tǒng)應(yīng)用于語音識別系統(tǒng)的結(jié)構(gòu)的框圖；圖3A和3B是顯示依照本發(fā)明的傳聲器實例的外形的視圖；圖4是顯示依照本發(fā)明的傳聲器實例的外形的垂直截面圖；圖5是顯示安裝了依照本發(fā)明的傳聲器的位置的視圖；圖6是顯示在甲狀軟骨(喉結(jié))上安裝傳聲器時采樣得到的振動音波形的視圖；圖7是顯示在甲狀軟骨(喉結(jié))上安裝傳聲器時采樣得到的振動音頻譜的視圖；圖8是顯示在顎底面安裝傳聲器時采樣得到的振動音波形的視圖；圖9是顯示在顎底面安裝傳聲器時采樣得到的振動音頻譜的視圖；圖10是顯示在耳旁部分(或下頜骨拐角)安裝傳聲器時采樣得到的振動音波形的視圖；圖11是顯示在耳旁部分(或下頜骨拐角)安裝傳聲器時采樣得到的振動音頻譜的視圖；圖12是顯示在脖頸部分側(cè)面安裝傳聲器時采樣得到的振動音波形的視圖；圖13是顯示在脖頸部分側(cè)面安裝傳聲器時采樣得到的振動音頻譜的視圖；圖14是顯示在乳突骨緊下方安裝傳聲器時采樣得到的振動音波形的視圖；圖15是顯示在乳突骨緊下方安裝傳聲器時采樣得到的振動音頻譜的視圖；圖16是顯示在乳突骨上安裝傳聲器時采樣得到的振動音波形的視圖；圖17是顯示在乳突骨上安裝傳聲器時采樣得到的振動音頻譜的視圖；圖18是顯示在顴骨(耳前側(cè)面頭部)上安裝傳聲器時采樣得到的振動音波形的視圖；圖19是顯示在顴骨(耳前側(cè)面頭部)上安裝傳聲器時采樣得到的振動音頻譜的視圖；圖20是顯示在面頰部分(口腔側(cè))安裝傳聲器時采樣得到的振動音波形的視圖；圖21是顯示在面頰部分(口腔側(cè))安裝傳聲器時采樣得到的振動音頻譜的視圖；圖22是顯示標(biāo)準(zhǔn)的外部傳聲器所采樣的正常聲音、標(biāo)準(zhǔn)的外部揚聲器所采樣的耳語以及依照本發(fā)明并安裝在耳旁位置的體表安裝類型的聽診器式傳聲器所采樣的不可聽雜音的聲音波形和頻譜的比較關(guān)系的視圖，其中所述耳旁位置并不是依照本發(fā)明的位置；圖23是顯示在依照本發(fā)明的安裝位置使用體表安裝的聽診器式傳聲器所采樣的不可聽雜音的聲音波形、頻譜和FO(從聲帶常規(guī)振動中產(chǎn)生的基頻)的視圖；圖24是顯示在依照本發(fā)明的安裝位置使用體表安裝的聽診器式傳聲器所采樣的不可聽雜音頻譜的自動標(biāo)記結(jié)果以及使用了不可聽雜音模型的HMM語音識別結(jié)果的視圖；圖25是顯示用于根據(jù)不可聽雜音所創(chuàng)建的HMM聲學(xué)模型的送受話器(混和正態(tài)分布中的混和數(shù)目為16)定義文件初始部分的視圖；圖26是顯示使用了引入到大詞匯表連續(xù)語音識別系統(tǒng)中的聲學(xué)模型的不可聽雜音識別結(jié)果的視圖；圖27是顯示自動分配音段結(jié)果的圖示；圖28是顯示字識別性能的表格；圖29是顯示整合到眼鏡中的傳聲器的視圖；圖30是顯示整合到頭戴式耳機中的傳聲器的視圖；
圖31是顯示整合到耳掛式耳機中的傳聲器的視圖；圖32是顯示整合到帽子中的耳機的視圖；圖33是顯示整合到頭盔中的耳機的視圖；圖34是顯示通信接口系統(tǒng)變體的框圖；圖35是顯示另一種通信接口系統(tǒng)變體的框圖；圖36是顯示具有語音識別處理功能的通信接口系統(tǒng)的變體的框圖；圖37是顯示圖36中的通信接口系統(tǒng)的變體的框圖。
具體實施例方式
現(xiàn)在將參考附圖來對本發(fā)明實施例進行描述。在以下描述所引用的各個圖中，與其他圖中的部件相類似的部件是用相同附圖標(biāo)記表示的。
日語發(fā)音大部分是使用呼吸作用的呼氣來完成的。以下將對使用呼氣發(fā)出的不可聽雜音進行描述。然而，本發(fā)明也可以結(jié)合使用吸氣發(fā)出的不可聽雜音而被加以實施。
此外，不可聽雜音不必被周圍的人聽到。關(guān)于這一點，不可聽雜音與意圖被周圍的人聽到的耳語存在差別。本發(fā)明的特征在于不可聽雜音是用一個使用人體傳導(dǎo)而不是空氣傳導(dǎo)的傳聲器來采樣的。
(蜂窩電話系統(tǒng))圖1是顯示將依照本發(fā)明的通信接口系統(tǒng)應(yīng)用于蜂窩電話系統(tǒng)的結(jié)構(gòu)的示意圖。
聽診器式傳聲器1-1是通過將其粘在乳突骨1-2緊下方而被安裝的。耳機或揚聲器1-3安裝在耳孔處。
聽診器式傳聲器1-1和耳機1-3使用了有線或無線通信裝置與蜂窩電話1-4相連。并且在這里也可以使用揚聲器而不是耳機1-3。
舉例來說，無線網(wǎng)絡(luò)1-5包括無線基站51a和51b、基站控制設(shè)備52a和52b、交換局53a和53b以及通信網(wǎng)絡(luò)50。在本實例中，蜂窩電話1-4與無線基站51a進行通信。蜂窩電話1-6與無線基站51b進行通信。由此可以在蜂窩電話1-4與1-6之間進行通信。
與通過使用舌頭、嘴唇、顎和軟腭的發(fā)音器官的說話運動來規(guī)則振動聲帶而發(fā)出的正常聲音幾乎相同的是，用戶在沒有規(guī)則振動聲帶的情況下發(fā)出的不可聽雜音是由它的共振濾波器特性變化來表示的。然后，不可聽雜音經(jīng)由人體傳送并且到達乳突骨1-2緊下方的位置。
聽診器式傳聲器1-1安裝在乳突骨1-2緊下方，它對到達乳突骨1-2緊下方位置的不可聽雜音1-7的振動音進行采樣。電容式傳聲器則將振動音轉(zhuǎn)換成電信號。而有線或無線通信裝置則將該信號傳送到蜂窩電話1-4。
傳送到蜂窩電話1-4的不可聽雜音的振動音經(jīng)由無線網(wǎng)絡(luò)1-5傳送到與蜂窩電話1-4的用戶交談的某個人所攜帶的蜂窩電話1-6。
另一方面，與蜂窩電話1-4的用戶交談的人的聲音是使用有線或無線通信裝置并且經(jīng)由蜂窩電話1-6、無線網(wǎng)絡(luò)1-5以及蜂窩電話1-4傳送到耳機或揚聲器1-3的。如果用戶直接通過蜂窩電話1-4接聽該人的聲音，則不需要耳機1-3。
這樣一來，用戶可以與攜帶蜂窩電話1-6的人進行交談。在這種情況下，由于發(fā)出的是不可聽雜音1-7，因此舉例來說，這種雜音不會被站在半徑1米以內(nèi)的人聽到。此外，這種對話也不會干擾到那些站在半徑1米以內(nèi)的人。
簡言之，在本實例中，通信接口系統(tǒng)包括充當(dāng)信號處理設(shè)備的傳聲器與蜂窩電話的組合。
(語音識別系統(tǒng))圖2是顯示將依照本發(fā)明的通信接口系統(tǒng)應(yīng)用于語音識別系統(tǒng)的結(jié)構(gòu)的示意圖。
與圖1的情況一樣，聽診器式傳聲器1-1是通過粘在乳突骨1-2緊下方而被安裝的，也就是說，該傳聲器安裝在顱骨后面的體表部分的下部。
與通過使用舌頭、嘴唇、顎以及軟腭的發(fā)音器官的說話運動來規(guī)則振動聲帶所發(fā)出的正常聲音幾乎相同的是，用戶在發(fā)出“konnichiwa”時獲取的不可聽雜音1-7是由它的共振濾波器特性變化表示的。然后，不可聽雜音1-7經(jīng)由人體傳送并且到達乳突骨1-2緊下方的位置。
聽診器式傳聲器1-1對到達乳突骨1-2緊下方位置的不可聽雜音“konnichiwa”1-7的振動音進行采樣。然后，有線或無線通信裝置將信號傳送到個人便攜信息終端2-3。
引入個人便攜信息終端2-3的語音識別功能對傳送到個人便攜信息終端2-3的不可聽雜音“konnichiwa”的振動音進行識別，以此作為語音“konnichiwa”。
作為語音識別結(jié)果的字串“konnichiwa”則經(jīng)由有線或無線網(wǎng)絡(luò)2-4傳送到計算機2-5或機器人2-6。
計算機2-5或機器人2-6產(chǎn)生一個與字串對應(yīng)并由聲音或圖像構(gòu)成的響應(yīng)。并且計算機2-5或機器人2-6經(jīng)由有線或無線網(wǎng)絡(luò)2-4而將響應(yīng)返回給個人便攜信息終端2-3。
個人便攜信息終端2-3使用語音合成或圖像顯示功能而向用戶輸出該信息。
在這種情況下，由于發(fā)出的是不可聽雜音，因此它不會被站在半徑1米以內(nèi)的人所聽到。
簡言之，在本實例中，通信接口系統(tǒng)包括充當(dāng)信號處理設(shè)備的傳聲器和蜂窩電話的組合。
(傳聲器的結(jié)構(gòu))圖3A和3B是聽診器式傳聲器1-1的截面圖，這也是本發(fā)明的重點所在。為了根據(jù)人體傳導(dǎo)來感測體表傳播的微弱振動，首先絕對有必要改進作為聲音收集器的傳聲器。使用醫(yī)學(xué)膜片式聽診器的實驗結(jié)果表明，通過將聽診器應(yīng)用于頭部某個位置，可以聽到呼吸音。該結(jié)果還顯示，與規(guī)則振動聲帶發(fā)出聲音的情況一樣，說話運動的增加將會允許用聲域共振濾波器特性來表示不可聽雜音的呼吸音；由此可以聽到與耳語相類似的聲音。因此，發(fā)明人認(rèn)為在這種膜片式聽診器的微小封閉空間中應(yīng)用回聲的方法是非常有效的。
為了實現(xiàn)將聽診器與體表緊密接觸的方法以及終日將其安裝在體表的結(jié)構(gòu)，發(fā)明人使用了圖3A和3B所示的結(jié)構(gòu)。也就是說，由聚酯構(gòu)成并具有粘合面的環(huán)形膜片3-3(與聽診器薄膜相對應(yīng)的膜片)與吸盤部分3-9相結(jié)合，其中所述吸盤部分3-9粘在膜片3-3上。合成樹脂吸盤(合成橡膠樹脂)3-2是在吸盤部分3-9中提供的。并且在這里使用了粘在膜片3-3表面的合成樹脂吸盤3-2作為傳聲器。
膜片3-3既起到了固定吸盤部分3-9和傳送振動的作用，又起到了固定吸盤和在微小封閉空間中產(chǎn)生回聲的作用。由此始終能夠通過將單個可處理膜片粘在體表來安裝或取下吸盤部分3-9。此外，電容式傳聲器3-1內(nèi)嵌在吸盤部分3-9的把手部分中。并且周圍的合成樹脂還提供了隔音功能。把手部分則是用特殊合成橡膠所構(gòu)成的隔音絕緣膠部分3-6覆蓋的，由此可以防止AV(視聽)設(shè)備振動。間隙部分3-8是用環(huán)氧樹脂膠填充的，由此提高了隔音效果和密封性。
以這種方式配置的傳聲器對從外部直接噪聲中脫離的身體中的微弱振動進行檢測。相應(yīng)地，傳聲器始終與體表緊密接觸。此外，傳聲器還在醫(yī)學(xué)膜片式聽診器中的微小封閉空間中利用回聲原理。由此，在這里可以使用膜片和吸盤來構(gòu)成一個微小的封閉空間。
聽診器式傳聲器很輕并且非常廉價。發(fā)明人進行了終日佩戴傳聲器的實驗。傳聲器并未離開過體表。而且，與便攜式音樂設(shè)備的頭戴式耳機相比，傳聲器只覆蓋了一個很小的區(qū)域，因此所述傳聲器并沒有使發(fā)明人覺得不愉快。
(傳聲器放大器)驅(qū)動電容式傳聲器3-1所需要的傳聲器放大器是使用一個可以買到的單耳傳聲器放大器工具生產(chǎn)的。發(fā)明人生產(chǎn)了作為分離設(shè)備的傳聲器放大器，其大小與香煙盒一樣。數(shù)據(jù)經(jīng)由傳聲器放大器輸入到計算機的數(shù)字采樣音源卡中。這些組件可以縮小尺寸并且可以由芯片構(gòu)成，此外在這里也可以用無線方式來進行操作。并且可以將這些組件嵌入到間隙部分3-8以及聲音絕緣膠部分3-6中。
通過將傳聲器放大器的輸出端直接連接到音頻設(shè)備主放大器的外部輸入端，可以接聽到不可聽雜音。在這里可以將談話內(nèi)容判定并理解成與耳語相類似的聲音。發(fā)明人還發(fā)現(xiàn)，通過在胸部安裝傳聲器，可以用傳聲器來代替聽診器；此外還可以聽到呼吸音、心跳以及心臟噪聲。而不可聽雜音的聲音信號則包含了聲域共振濾波器的特性。相應(yīng)地，即使在用當(dāng)前蜂窩電話所使用的聲音混合編碼技術(shù)PSI-CELP(基音同步更新-碼激勵線性預(yù)測編碼)壓縮之后，也可以通過為信號提供一個處于基頻的聲源波形來使用該信號。此外，該信號還可以轉(zhuǎn)換成一個與正常聲音相類似的聲音。
(傳聲器的安裝位置)聽診器式傳聲器安裝在圖4和5所示的位置。以下將會相對于傳聲器在其他位置的安裝而對此進行描述。
在很多位置都可以聽到不可聽雜音，這些位置包括下頜、耳旁部分以及頸部側(cè)面。圖6～21顯示的是用安裝在甲狀軟骨(喉結(jié))、顎底面、耳旁部分(下頜骨拐角)、頸部側(cè)面、乳突骨緊下方或乳突骨上、顴骨(耳前頭部)或面頰部分(口腔側(cè))的聽診器式傳聲器而以不可聽雜音形式發(fā)出的聲音“kakikukekotachitsutetopapipupepobabibubebo”。
(安裝在甲狀軟骨上)圖6和圖7分別顯示的是在甲狀軟骨(喉結(jié))上安裝聽診器式傳聲器時獲取的不可聽雜音的波形和頻譜。
如圖6所示，在這里可以用更高的功率來對不可聽雜音的振動音進行采樣。然而，與元音相比，輔音具有過高的功率并且在大多數(shù)情況下都會溢出(圖7中垂線)。溢出的輔音聽起來就像是爆炸并且無法得到接聽。而減小傳聲器放大器增益則可以避免溢出。然而如圖7所示，這將會阻止在元音頻譜中觀察到只有在五元音情形(quintphthong)中固有的共振峰中的差別，并且在集中于這種聲音的時候是不能清楚識別音素的。
(安裝在顎、耳旁部分或側(cè)面頸部的下面)圖8和9分別顯示的是在顎底面安裝聽診器式傳聲器時獲取的不可聽雜音的波形和頻譜。圖10和11分別顯示的是在耳旁部分(下頜骨拐角)安裝聽診器式傳聲器時獲取的不可聽雜音的波形和頻譜。圖12和13分別顯示的是在頸部側(cè)面安裝聽診器式傳聲器時獲取的不可聽雜音的波形和頻譜。
如圖8、10和12所示，當(dāng)在顎、耳旁部分或側(cè)面頸部底面安裝聽診器式傳聲器時，聲音波形往往會溢出。這樣則很難通過調(diào)整傳聲器放大器增益來阻止溢出。并且輔音的幅度有可能會溢出。相應(yīng)地，傳聲器放大器增益必須急劇減少，以免溢出所有輔音幅度。如圖9、11和13所示，增益下降將會減弱元音的共振峰能量，由此很難對元音進行區(qū)分。在用戶仔細(xì)接聽語音時，幅度溢出的輔音聽起來就像是爆炸。用戶可以聽到已知的語句，但卻無法聽到未知的語句。
(安裝在乳突骨緊下方)圖14和15分別顯示的是在乳突骨緊下方安裝聽診器式傳聲器時獲取的聲音波形和頻譜。
如圖14所示，與其他位置相比，顯著增加增益不會導(dǎo)致輔音溢出。相應(yīng)地，用戶在調(diào)整傳聲器放大器增益方面是沒有困難的。此外，與其他位置相比，在這里，元音和輔音都是發(fā)音清晰的。
(安裝在乳突骨上)圖16和17分別顯示的是在乳突骨上安裝聽診器式傳聲器時獲取的不可聽雜音的波形和頻譜。
如圖16所示，與圖14相比，輔音清晰度與元音幾乎是相同的，但是功率則明顯很低。偶爾觀察到的噪聲是從頭發(fā)中產(chǎn)生的。由于聽診器式傳聲器的膜片與頭發(fā)相接觸，因此很可能會獲取到來自頭發(fā)的噪聲。
(安裝在顴骨上)圖18和19分別顯示的是在顴骨部分(耳前側(cè)頭部)安裝聽診器式傳聲器時獲取的不可聽雜音的波形和頻譜。
如圖18和19所示，與處于乳突骨緊下方的情況一樣，元音與輔音的清晰度以及功率比都是非常好的。然而，信號中包含了從顎的運動中產(chǎn)生的噪聲。如果可以降低噪聲效應(yīng)，那么顴骨部分(耳前側(cè)頭部)將會是次于乳突骨緊下方位置的最佳安裝位置。
(安裝在面頰部分)圖20和21分別顯示的是在面頰部分(口腔側(cè))安裝聽診器式傳聲器時獲取的不可聽雜音的波形和頻譜。
如圖20所示，由口腔運動產(chǎn)生的噪聲很容易包含在信號中。因此，很多輔音幅度都是溢出的。然而，在這個位置有可能會出現(xiàn)第三個(很少會出現(xiàn)第四個)共振峰。
(關(guān)于安裝位置的結(jié)果論述)如上所述，在將聽診器式傳聲器安裝在甲狀軟骨(喉結(jié))、顎底面、耳旁部分(下頜骨拐角)、頸部側(cè)面或面頰部分(口腔側(cè))的時候，與人體傳導(dǎo)相關(guān)聯(lián)的是，諸如摩擦音和爆破音之類的輔音具有很高的功率并且聽起來就像是爆炸一樣。與此相反，元音和半元音是根據(jù)聲域中的空氣共振結(jié)構(gòu)差值來對彼此進行區(qū)分的。因此，元音和半元音具有很低的功率。但實際上，當(dāng)使用通過在這些位置之一安裝聽診器式傳聲器采樣的聲音而創(chuàng)建聲學(xué)模型時，所得到的系統(tǒng)相對容易識別元音，但卻無法對輔音進行區(qū)分。
另一方面，在將聽診器式傳聲器安裝在乳突骨或顴骨部分(耳前側(cè)頭部的一部分)時，輔音幅度并未溢出，但是與人體傳導(dǎo)相比，骨傳導(dǎo)通常不易于傳送振動。此外，所獲取的聲音很小，并且信噪比也很低。
在這里為在乳突骨緊下方安裝聽診器式傳聲器所采樣的圖14的波形以及在乳突骨上安裝聽診器式傳聲器所采樣的圖26的波形測量了信噪比。對前一種波形來說，測量結(jié)果是19分貝，對后一種波形來說，測量結(jié)果則是11分貝。因此，在這些波形之間存在一個8分貝的很大差別。在語音識別引擎Julius(二萬字等級)中，這個差值對應(yīng)于在性能方面提升30％(60到90％)，其中所述引擎是一個用于日語聽寫的免費基本軟件。
因此，作為不同位置獲取的語音識別速率的比較結(jié)果，在這里確定乳突骨緊下方位置的元音峰值功率與輔音峰值功率之比最接近值“1”。
(乳突骨緊下方的位置)以下參考圖4來對所述位置的所在之處進行詳細(xì)描述。
在聽診器式傳聲器1-1的膜片中心處于顱骨乳突骨4-12緊下方位置4-13時，可以得到元音-輔音功率比的最佳位置。
同樣，圖5顯示的是雙圓周中的乳突骨緊下方位置，并且該位置是安裝聽診器式傳聲器的最佳位置。
這個最佳安裝位置沒有頭發(fā)、髭或胡須。如果用戶頭發(fā)很長，那么傳聲器完全隱藏在外耳和頭發(fā)之間。此外，與其他位置相比，最佳安裝位置具有很厚的軟組織(肌肉等等)。在這個位置，信號不會與通過舌頭、嘴唇、顎、軟腭之類的發(fā)音器官的說話運動所產(chǎn)生的噪聲混雜。此外，該位置處于軀體內(nèi)部的一個沒有骨骼的間隙中。由此可以以很高的增益來獲取不可聽雜音的振動音。
在將聽診器應(yīng)用于體表來偵聽內(nèi)部聲音時，由于骨骼會將內(nèi)部聲音反射到身體內(nèi)部這一事實，醫(yī)生通常會努力避免將聽診器放在骨骼上。因此，發(fā)明人得出一個結(jié)論，那就是對安裝聽診器式傳聲器而言，圖4和5所示的位置是最優(yōu)的。
(正常聲音、耳語以及不可聽雜音的波形和頻譜)圖22顯示的(使用外部傳聲器采樣的)正常聲音、耳語以及在不同于依照本發(fā)明的安裝位置上得到的(通過使用與體表緊密接觸的原始傳聲器而被采樣的)常規(guī)不可聽雜音的聲音信號和頻譜。在這種情況下，不可聽雜音是通過將傳聲器安裝在耳旁位置而被采樣的。當(dāng)音量增加直至將共振峰拉至達元音時，用于輔音的聲音信號功率往往會溢出。
圖23和24顯示的是在圖4所示的最佳位置安裝的傳聲器所采樣的不可聽雜音的聲音信號和頻譜。圖23顯示的是從規(guī)則聲帶振動中產(chǎn)生的基頻F0，但所述基頻實際并未出現(xiàn)在不可聽雜音中。該圖還顯示，在這里相對恰當(dāng)?shù)乇３至税羲靥匦缘牡皖l區(qū)域共振峰結(jié)構(gòu)。
在這里使用了如上采樣并無法被人們聽到的低語，并且在這里將保持了音素平衡的說明性語句全都朗讀了四次。所獲取的聲音是用數(shù)字方式而在16kHz頻率上進行16位采樣的。作為說明性語句，在這里使用的是那些能夠從ATR Sound Translation CommunicationResearch Center獲取的503 ATR(高級電信研究)音素平衡語句以及附加的22個語句。
在本實例中使用了總共具有2100個采樣的原始文件數(shù)據(jù)，并且還使用了一個作為隱式馬爾可夫模型工具的HTK(HMM工具包)。然后，與正常語音識別的情況一樣，在大小為10ms的幀周期中提取了包含12維梅爾-倒頻譜(Mel-cepstrum)及其12個主要微分的25個參數(shù)，此外還提取了一個主功率微分，以便為單聲語音識別創(chuàng)建一個聲學(xué)模型。圖25顯示了由此創(chuàng)建的單聲語音識別聲學(xué)模型的一個實例。
雖然這是一個單聲模型，但是通過將混和正態(tài)分布中的混和數(shù)增至16，則可以極大提高識別率。當(dāng)用它替換作為日文聽寫方面的免費基礎(chǔ)軟件的語音識別引擎Julius的聲學(xué)模型(http//julius.sourceforge.jp/)的時候，通過使用所記錄的不可聽雜音，所獲取的字識別率可以與使用與性別無關(guān)的正常聲音單聲模型所獲取的字識別率相比。
(語音識別結(jié)果的實例)圖26顯示的是所記錄的聲音的識別結(jié)果。此外，圖27顯示的是一個自動音素校準(zhǔn)實例。在圖24中，頻譜底部的音素標(biāo)簽是基于自動校準(zhǔn)音段結(jié)果顯示的。
非常相似的是，發(fā)明人具有一個大約有4600個語句的男性讀音，其中包含了采用不可聽雜音形式的音素平衡語句、來自報紙文章的語句以及所獲取的采樣聲音。然后，在這里可以使用一個未指定男性說話者的聲音單聲模型(具有5種狀態(tài)和混和數(shù)目為16的正態(tài)分布)來執(zhí)行連接學(xué)習(xí)(juncture learning)，并且以此作為一個初始模型。圖28顯示的是在將未指定的男性說話者的正常聲音送受話器并入Julius的時候展現(xiàn)的字識別性能，然后，所述Julius是在除聲學(xué)模型之外未曾改變?nèi)魏螚l件的情況下使用的。在圖中，第一行的“CLEAN”顯示的是在無聲房間中的識別結(jié)果。第二行中的“MUSIC”顯示的是在房間中以正常音量播放古典音樂并以此作為BGM的情況下的識別結(jié)果。第三行中的“TV-NEW”顯示的是房間中以正常收聽音量提供電視新聞的情況下的識別結(jié)果。
在無聲房間中，字識別性能是94％，這可以與正常語音的字識別性能相比。此外，即使在具有音樂或電視伴音的情況下，字識別性能也是非常好的，并且分別是91或90％。這表明與基于空氣傳導(dǎo)的正常聲音相比，通過人體傳導(dǎo)的不可聽雜音能夠更好地抵抗背景噪聲。
在上述安裝位置，通過密封聽診器式傳聲器1-1的吸盤上的洞或是精確調(diào)整音量等等操作，可以獲取正常的聲音。在這種情況下，如果第三個人給出了緊接著說話者的復(fù)述或類似，那么只記錄說話者的聲音，因為說話者的聲音經(jīng)歷的是人體傳導(dǎo)而不是空氣傳導(dǎo)。
非常有利的是，借助聽診器式傳聲器獲取的不可聽雜音或正常聲音都僅僅需要對傳聲器的個人的聲學(xué)模型進行學(xué)習(xí)。因此，聽診器式傳聲器可被用作一個無噪傳聲器，以便進行正常的語音識別。
在這里已經(jīng)對將聽診器式傳聲器安裝在乳突骨緊下方來采樣不可聽雜音，以及使用傳聲器放大器放大聲音并且隨后使用放大的聲音來進行經(jīng)由蜂窩電話的交談的方法進行了描述，此外，在這里還描述了一種使用經(jīng)過放大的聲音來實施語音識別設(shè)備的語音識別的方法。
(聲音調(diào)制)現(xiàn)在將對聲音調(diào)制進行描述。聲音調(diào)制指的是改變聲音的聽覺音調(diào)，即改變音質(zhì)。在最新的語音研究中，術(shù)語“變形(morphing)”常被用于指調(diào)制。例如，術(shù)語“變形”被用作增加和減少聲音的基頻、增加和減少共振峰頻率、連續(xù)將男聲改為女聲或?qū)⑴暩臑槟新暤募夹g(shù)、以及連續(xù)地將某個人的聲音改為另一個人的聲音的技術(shù)的通用術(shù)語。
目前建議將不同的方法用作變形技術(shù)。Kawahara(Kawahara等人，ShingakuGiho、EA96-28，1996)提出的STRAIGHT被認(rèn)為是一種典型的方法。這種方法的特征在于通過精確分離聲源信息與聲域信息，可以獨立改變諸如基頻(F0)、頻譜包絡(luò)和說話速度之類的參數(shù)。
依照本發(fā)明，如圖22到24所示，在這里可以對不可聽雜音的頻譜進行計算，以便從所獲取的頻譜中確定頻譜包絡(luò)。
如圖22所示，使用規(guī)則聲帶振動的正?？陕犚粢约安豢陕犽s音都是為同一個語句記錄的。然后，用于轉(zhuǎn)換成正常聲音頻譜的功能是從不可聽雜音中預(yù)先確定的。這可以由本領(lǐng)域技術(shù)人員執(zhí)行。
此外，通過恰當(dāng)使用基頻并且使用例如前述的STRAIGHT方法，可以將不可聽雜音調(diào)制成更易于聽到的聲音。
另外，依照本發(fā)明，不可聽雜音可以經(jīng)歷圖28所示的語音識別。因此，根據(jù)不可聽雜音的語音識別結(jié)果，可以對音節(jié)、半音節(jié)、音素、雙連接音素以及三連接音素之類的音標(biāo)單元進行識別。此外，根據(jù)語音識別結(jié)果以及使用公知文本中描述的語音合成技術(shù)，可以將不可聽雜音調(diào)制成一種更容易聽到的聲音。
(適用實例)在這里對只在乳突骨緊下方安裝傳聲器的情況進行了描述。在這種情況下，傳聲器是暴露的并且是臨時的。因此，傳聲器可以與戴在頭部的物體整合，例如眼鏡、頭戴式耳機、耳掛式耳機、帽子或戴在用戶頭上的頭盔。
舉例來說，如圖29所示，可以在眼鏡31的弓架部分31a端部上提供傳聲器1-1，其中所述弓架圍繞在耳朵周圍。
作為選擇，如圖30所示，可以在頭戴式耳機32的耳套部分32a提供傳聲器1-1。同樣，如圖31所示，也可以在耳掛式耳機33的弓架部分33a的端部提供傳聲器1-1，該位置同樣處于耳朵周圍。
此外，如圖32所示，帽子34和傳聲器1-1可以整合在一起。同樣，如圖33所示，頭盔35和傳聲器1-1也可以整合在一起。通過將這些設(shè)備與傳聲器相整合，可以在工作現(xiàn)場或工地上使用傳聲器，由此傳聲器不會顯得多余。即使在說話者周圍存在很大噪聲，也還是可以進行令人滿意的交談。
如上所述，通過將傳聲器與任何不同的頭戴物體相整合，可以安裝傳聲器，而不會使之看上去顯得多余。另外，通過改進傳聲器位置，可以將傳聲器安裝在乳突骨緊下方。
(變體)以下將對依照本發(fā)明的通信接口系統(tǒng)的變體進行描述。
圖34是顯示在傳聲器與便攜式終端之間提供信號處理設(shè)備的變體的框圖。在該圖中，信號處理設(shè)備19-2由整合在一起的模數(shù)轉(zhuǎn)換器19-3、處理器19-4以及發(fā)射機19-5組成。
對這種結(jié)構(gòu)而言，其中模數(shù)轉(zhuǎn)換器19-3獲取并量化傳聲器1-1所采樣的不可聽雜音的振動音，以便將聲音轉(zhuǎn)換成數(shù)字信號。作為量化結(jié)果的數(shù)字信號被發(fā)送到處理器19-4。處理器19-4為模數(shù)轉(zhuǎn)換器19-3所發(fā)送的數(shù)字信號執(zhí)行放大或轉(zhuǎn)換之類的處理。而處理結(jié)果則發(fā)送到發(fā)射機19-5。發(fā)射機19-5以有線或無線方式將經(jīng)過處理器19-4處理的數(shù)字信號傳送到蜂窩電話19-6。并且本領(lǐng)域技術(shù)人員很容易生產(chǎn)信號處理設(shè)備19-2。因此，舉例來說，移動電話網(wǎng)絡(luò)中的設(shè)備可以按原樣處理這種經(jīng)過處理的振動音，也可以對轉(zhuǎn)換成參數(shù)的信號進行處理。這樣可以簡化信號處理設(shè)備的結(jié)構(gòu)。
圖35也是顯示在傳聲器與便攜終端之間提供信號處理設(shè)備的變體的框圖。在該圖中，信號處理設(shè)備19-2是由整合在一起的模數(shù)轉(zhuǎn)換器19-3和發(fā)射機19-5組成的。
對這種結(jié)構(gòu)而言，模數(shù)轉(zhuǎn)換器19-3獲取并量化傳聲器1-1所采樣的不可聽雜音的振動音，以便將聲音轉(zhuǎn)換成數(shù)字信號。作為量化結(jié)果的數(shù)字信號則被發(fā)送到發(fā)射機19-5。發(fā)射機19-5以有線或無線方式將經(jīng)由模數(shù)轉(zhuǎn)換器19-3轉(zhuǎn)換所獲取的數(shù)字信號傳送到蜂窩電話1-4。這種結(jié)構(gòu)使得蜂窩電話或用于蜂窩電話的基站能對經(jīng)過采樣的振動音進行處理。由此可以簡化信號處理設(shè)備19-2的結(jié)構(gòu)。并且本領(lǐng)域技術(shù)人員很容易生產(chǎn)信號處理設(shè)備19-2。因此，舉例來說，移動電話網(wǎng)絡(luò)中的設(shè)備可以對量化結(jié)果進行處理。這樣可以簡化信號處理設(shè)備的結(jié)構(gòu)。
如圖36所示，在這里還可以使用由整合在一起的模數(shù)轉(zhuǎn)換器19-3、處理器19-4以及語音識別部分19-6所組成的信號處理設(shè)備19-2。
對這種結(jié)構(gòu)而言，模數(shù)轉(zhuǎn)換器19-3獲取并量化傳聲器1-1所采樣的不可聽雜音的振動音，以便將聲音轉(zhuǎn)換成數(shù)字信號。作為量化結(jié)果的數(shù)字信號被發(fā)送到處理器19-4。處理器19-4對模數(shù)轉(zhuǎn)換器19-3發(fā)送的數(shù)字信號執(zhí)行放大或轉(zhuǎn)換之類的處理。語音識別部分19-6則對處理結(jié)果執(zhí)行語音識別處理。并且本領(lǐng)域技術(shù)人員很容易生產(chǎn)信號處理設(shè)備19-2。通過使用如上配置的信號處理設(shè)備并與不可聽雜音相結(jié)合，可以按原樣對相應(yīng)于已處理振動音的信號執(zhí)行語音識別處理，或是對轉(zhuǎn)換成參數(shù)的信號執(zhí)行語音識別處理。
作為選擇，如圖37所示，在圖36所示的結(jié)構(gòu)中可以添加發(fā)射機19-5。對這種結(jié)構(gòu)而言，發(fā)射機19-5將語音識別部分19-6的語音識別結(jié)果傳送到外部設(shè)備。并且本領(lǐng)域技術(shù)人員很容易生產(chǎn)信號處理設(shè)備19-2。其中舉例來說，通過將語音識別結(jié)果傳送到移動電話網(wǎng)絡(luò)，可以使用語音識別結(jié)果來進行不同的處理。
依照本發(fā)明的傳聲器可以內(nèi)嵌在蜂窩電話或類似設(shè)備內(nèi)部。在這種情況下，通過按下乳突骨緊下方胸鎖乳突肌皮膚表面的傳聲器部分，可以使用不可聽雜音來進行交談。
工業(yè)實用性本發(fā)明可以借助于蜂窩電話以及無聲語音識別設(shè)備來實現(xiàn)無聲交談應(yīng)用。
也就是說，只要使用發(fā)音器官的說話運動，就可以通過蜂窩電話進行交談，或可以將信息輸入到計算機或個人便攜信息終端中，其中所述發(fā)音器官運動本質(zhì)上是通過音標(biāo)語言文化獲取和培養(yǎng)的，這其中并不需要學(xué)習(xí)新技術(shù)。
此外，本發(fā)明可以避免混雜背景噪聲和防止破壞無聲環(huán)境。特別地，這其中可以對音標(biāo)語言的公開加以控制。用戶不必?fù)?dān)心將信息泄漏給周圍的人。
另外，對正常的語音識別而言，這種聲音采樣方法能夠極大地減少噪聲混雜。
本發(fā)明消除了在眼睛前方或嘴唇周圍安裝傳聲器的需要、以免傳聲器干擾到用戶。本發(fā)明還消除了用一只手將蜂窩電話放在耳朵上的需要。在這里只需要將傳聲器安裝在外耳后部皮膚的下方。非常有利的是，傳聲器也可以隱藏在頭發(fā)下面。
本發(fā)明可以創(chuàng)建一種新的語言通信文化，這種文化不需要任何正常的聲音。本發(fā)明明顯促進了將全部語音識別技術(shù)擴展至實際壽命。此外，對沒有聲帶或者在使用規(guī)則聲帶振動交談方面存在困難的人來說，本發(fā)明是最優(yōu)的。
權(quán)利要求
1.一種傳聲器，對關(guān)聯(lián)于發(fā)聲器官運動的共振濾波器特性變化所表達的不可聽雜音之一進行采樣，所述不可聽雜音不包括規(guī)則聲帶振動，并且所述不可聽雜音是在通過內(nèi)部軟組織傳送外部不可聽到的呼吸音時產(chǎn)生的振動音、在沒有規(guī)則振動聲帶時發(fā)出的可聽耳語、通過規(guī)則振動聲帶發(fā)出并包含了低音或雜音的聲音、以及咬牙聲和用舌頭發(fā)出的嘖嘖聲之類的不同聲音，而傳聲器則安裝在顱骨的乳突骨緊下方的胸鎖乳突肌的皮膚表面上，也就是安裝在外耳后面的皮膚下方。
2.根據(jù)權(quán)利要求1的傳聲器，包括一個安裝在皮膚表面的膜片和一個粘在膜片上的吸盤。
3.根據(jù)權(quán)利要求1或2的傳聲器，該傳聲器與戴在頭部的物體相整合，例如眼鏡、頭戴式耳機、耳掛式耳機、帽子或戴在人的頭部的頭盔。
4.一種通信接口系統(tǒng)，包括依照權(quán)利要求1～3中任何一個權(quán)利要求的傳聲器，以及一個對傳聲器所采樣的信號進行處理的信號處理設(shè)備，其中信號處理設(shè)備所處理的結(jié)果將被用于通信。
5.根據(jù)權(quán)利要求4的通信接口系統(tǒng)，其中信號處理設(shè)備包括一個對通過傳聲器采樣的信號進行量化的模數(shù)轉(zhuǎn)換部分，一個對模數(shù)轉(zhuǎn)換部分的量化結(jié)果進行處理的處理器部分，以及一個將處理器部分的處理結(jié)果傳送到外部設(shè)備的發(fā)射部分。
6.根據(jù)權(quán)利要求4的通信接口系統(tǒng)，其中信號處理設(shè)備包括一個對通過傳聲器采樣的信號進行量化的模數(shù)轉(zhuǎn)換部分，以及一個將模數(shù)轉(zhuǎn)換部分的量化結(jié)果傳送到外部設(shè)備的發(fā)射部分，其中由外部設(shè)備來對量化結(jié)果進行處理。
7.根據(jù)權(quán)利要求5的通信接口系統(tǒng)，其中信號處理設(shè)備包括一個對通過傳聲器采樣的信號進行量化的模數(shù)轉(zhuǎn)換部分，一個對模數(shù)轉(zhuǎn)換部分的量化結(jié)果進行處理的處理器部分，以及一個對處理器部分的處理結(jié)果執(zhí)行語音識別處理的語音識別部分。
8.根據(jù)權(quán)利要求7的通信接口系統(tǒng)，還包括一個將語音識別部分的語音識別結(jié)果傳送到外部設(shè)備的發(fā)射部分。
9.根據(jù)權(quán)利要求5的通信接口系統(tǒng)，其中移動電話網(wǎng)絡(luò)中的設(shè)備對處理器部分的處理結(jié)果執(zhí)行語音識別處理，該結(jié)果由發(fā)射部分傳送。
10.根據(jù)權(quán)利要求5的通信接口系統(tǒng)，其中信號處理設(shè)備所執(zhí)行的信號處理是一個調(diào)制處理，在該調(diào)制處理中，所述處理部分將信號調(diào)制成一個可聽音。
11.根據(jù)權(quán)利要求10的通信接口系統(tǒng)，其中調(diào)制處理將聲帶基頻應(yīng)用于不可聽雜音，以便將不可聽雜音轉(zhuǎn)換成包含了聲帶規(guī)則振動的可聽音。
12.根據(jù)權(quán)利要求10的通信接口系統(tǒng)，其中調(diào)制處理將不包含規(guī)則聲帶振動的不可聽雜音頻譜轉(zhuǎn)換成使用規(guī)則聲帶振動發(fā)出的可聽音頻譜。
13.根據(jù)權(quán)利要求12的通信接口系統(tǒng)，其中調(diào)制處理使用不可聽雜音頻譜和一個語音識別設(shè)備來識別音節(jié)、半音節(jié)、音素、雙連接音素以及三連接音素之類的語音單元，此外還使用了語音合成技術(shù)將所識別的語音單元轉(zhuǎn)換成使用規(guī)則聲帶振動發(fā)出的可聽音。
14.根據(jù)權(quán)利要求4～13中任何一個權(quán)利要求的通信接口系統(tǒng)，其中輸入增益是依照通過傳聲器采樣的動態(tài)聲音范圍的大小而被控制的。
15.根據(jù)權(quán)利要求7或8的通信接口系統(tǒng)，其中語音識別部分使用了以下聲音中的至少一種聲音的聲學(xué)模型來恰當(dāng)執(zhí)行語音識別，其中所述聲音包括不可聽雜音、可以聽到但卻是在沒有規(guī)則振動聲帶時說出的耳語、規(guī)則振動聲帶并且包含了低音或雜音的聲音，以及咬牙聲和用舌頭發(fā)出的嘖嘖聲之類的不同聲音。
全文摘要
本發(fā)明消除了蜂窩電話和語音識別的分析目標(biāo)本身的缺陷，其中所述目標(biāo)是通過傳聲器從外部采樣得到的經(jīng)由空氣傳送的正常語音。本發(fā)明還實現(xiàn)了一種在個人移動信息終端中基于人類文化行為而不需要進行訓(xùn)練的新的移動終端通信。聽診器式傳聲器安裝在人體皮膚表面以獲取由交談活動(口腔運動)但卻沒有使用規(guī)則聲帶振動來表達的不可聽雜音的經(jīng)人體傳播的振動音。在通過人體傳送的經(jīng)過放大的不可聽雜音的振動音與一個耳語相類似并且耳語本身可以被人們聽到并得到理解。相應(yīng)地，振動音可以用于經(jīng)由蜂窩電話的通信。此外，通過將由人體傳送的不可聽雜音的振動音作為分析和參數(shù)化的目標(biāo)，可以實現(xiàn)一種作為個人移動信息終端的新的輸入方法的無聲識別。
文檔編號G10L21/06GK1679371SQ0382016
公開日2005年10月5日申請日期2003年9月1日優(yōu)先權(quán)日2002年8月30日
發(fā)明者中島淑貴, 莊境誠申請人:中島淑貴, 旭化成株式會社

完整全部詳細(xì)技術(shù)資料下載