專利名稱:基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法與裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及人機(jī)交互技術(shù),具體涉及計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)和計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)技術(shù),即一種利用計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)模擬人機(jī)對(duì)話情景、技巧性利用現(xiàn)有語(yǔ)音識(shí)別技術(shù)水平,以使用者的真實(shí)語(yǔ)音與計(jì)算機(jī)互動(dòng)的人機(jī)交互方法及裝置。
背景技術(shù):
語(yǔ)言知識(shí)的學(xué)習(xí)過(guò)程,從語(yǔ)言信息學(xué)的角度來(lái)看是以語(yǔ)言作為信息載體,進(jìn)行采集、吸收、處理、儲(chǔ)存的過(guò)程。在語(yǔ)言的學(xué)習(xí)中,對(duì)話情景,特別是對(duì)確定情景下特定問(wèn)題的準(zhǔn)確應(yīng)答并反復(fù)訓(xùn)練的過(guò)程,是語(yǔ)言學(xué)習(xí)(包括母語(yǔ)學(xué)習(xí)在內(nèi))的基本機(jī)理,也是最直接有效的學(xué)習(xí)過(guò)程。自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition),簡(jiǎn)稱ASR,即對(duì)一位發(fā)音者發(fā)出的語(yǔ)音進(jìn)行判別確定的過(guò)程,是以計(jì)算機(jī)實(shí)現(xiàn)“聲音”到“文字或指令”轉(zhuǎn)換的技術(shù)。一個(gè)語(yǔ)音識(shí)別系統(tǒng)工作時(shí),首先將話筒(MIC)輸入的標(biāo)準(zhǔn)語(yǔ)音信號(hào)進(jìn)行放大,帶通濾波,A/D變換后,存入RAM區(qū)內(nèi),這形成該語(yǔ)音的模板。這個(gè)過(guò)程稱為系統(tǒng)的”學(xué)習(xí)”或”訓(xùn)練”,多個(gè)這種存入RAM的模板組成模板庫(kù)。一個(gè)未知的語(yǔ)音信號(hào)也經(jīng)上述各電路,由CPU將此信號(hào)的數(shù)據(jù)存入RAM區(qū)內(nèi)某一特定區(qū),然后將此未知信號(hào)與區(qū)內(nèi)各目標(biāo)模板逐一比對(duì),按某一種識(shí)別算法,進(jìn)行計(jì)算測(cè)度,再經(jīng)識(shí)別決策,將識(shí)別測(cè)度失真最小的1個(gè)模板輸出做為識(shí)別結(jié)果,或同時(shí)按業(yè)務(wù)邏輯要求,執(zhí)行某個(gè)動(dòng)作。以計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)為基礎(chǔ),以人機(jī)對(duì)話方式建構(gòu)模擬情景對(duì)話的學(xué)習(xí)模式是語(yǔ)言學(xué)習(xí)機(jī)器輔助方法的重要發(fā)展方向。這種方式包括對(duì)話情景設(shè)計(jì)、視聽(tīng)輸出、人機(jī)交互過(guò)程、智能判斷以及評(píng)價(jià)和改善建議,通過(guò)虛擬現(xiàn)實(shí)技術(shù)來(lái)營(yíng)造一種接近于真實(shí)對(duì)話情景的環(huán)境與氣氛,培養(yǎng)學(xué)習(xí)者以該語(yǔ)言進(jìn)行實(shí)際會(huì)話的能力。這就需要一種模擬自然語(yǔ)言學(xué)習(xí)機(jī)理的最佳技術(shù)解決方案,而到目前為止尚未有類似方法與裝置能得以實(shí)現(xiàn)。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是,如何提供一種能模擬真實(shí)對(duì)話情景的人機(jī)交互方法,并利用現(xiàn)有的計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)和計(jì)算機(jī)硬件,實(shí)現(xiàn)一種具有實(shí)用意義的語(yǔ)言學(xué)習(xí)與訓(xùn)練裝置。換言之,本發(fā)明的目的是構(gòu)造一種實(shí)用的語(yǔ)音識(shí)別系統(tǒng),能夠解決以下主要問(wèn)題1)控制噪聲對(duì)識(shí)別過(guò)程時(shí)的干擾;2)對(duì)提問(wèn)句和識(shí)別目標(biāo)句(答句)的設(shè)計(jì),即編制腳本,使之可經(jīng)濟(jì)地被實(shí)現(xiàn);3)一個(gè)其成本可以支持廣泛應(yīng)用的語(yǔ)音識(shí)別系統(tǒng)的硬件方案的實(shí)現(xiàn)??傊粋€(gè)具有商業(yè)價(jià)值且實(shí)用的語(yǔ)音識(shí)別產(chǎn)品,是能全面兼顧以上3者的完整解決方案。本發(fā)明另一要解決的技術(shù)問(wèn)題是如何提供實(shí)現(xiàn)該方法的計(jì)算機(jī)裝置,在該裝置中,實(shí)現(xiàn)本發(fā)明所述的人機(jī)對(duì)話過(guò)程。
本發(fā)明上述技術(shù)問(wèn)題這樣解決,構(gòu)造一種基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法,其特征在于,以預(yù)先設(shè)定的問(wèn)句和有限集答句結(jié)合計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)來(lái)達(dá)到人機(jī)交互,包括以下步驟1.1)計(jì)算機(jī)裝置輸出一個(gè)提問(wèn);1.2)計(jì)算機(jī)以聲音或顯示方式中的至少一種,提示2-20個(gè)句子組成的與上述提問(wèn)關(guān)聯(lián)的有限集目標(biāo)答句,使用者擇其一,對(duì)計(jì)算機(jī)語(yǔ)音輸入設(shè)備,念出這個(gè)回答的讀音;1.3)計(jì)算機(jī)對(duì)輸入的使用者語(yǔ)音,與1.2)中的有限集目標(biāo)答句模板逐個(gè)進(jìn)行失真測(cè)度,以比對(duì)確定此輸入語(yǔ)音為上述有限集目標(biāo)答句中的某一個(gè);1.4)在確定這個(gè)識(shí)別結(jié)果之后,計(jì)算機(jī)程序按所預(yù)定上下邏輯關(guān)系,發(fā)出語(yǔ)意向下連貫的新問(wèn)題,進(jìn)入新一輪對(duì)話場(chǎng)景,即再重復(fù)步驟1.1),1.2)與1.3),而使對(duì)話不斷向前延續(xù),直至某一訓(xùn)練單元結(jié)束。
在上述方法中,所述提問(wèn)與有限集目標(biāo)答句的全體為預(yù)先編撰的腳本,是一個(gè)多路徑可選樹(shù)形結(jié)構(gòu),其中一個(gè)提問(wèn)句與一組有限集目標(biāo)答句對(duì)應(yīng),任一回答句與一個(gè)新提問(wèn)句唯一對(duì)應(yīng),依此確定人機(jī)對(duì)話發(fā)展的邏輯關(guān)系。
在上述方法中,所述提問(wèn)句是指裝置自動(dòng)發(fā)出的一個(gè)引導(dǎo)性語(yǔ)音,由發(fā)出預(yù)定的第一個(gè)語(yǔ)音作為對(duì)話過(guò)程的開(kāi)始,在對(duì)話過(guò)程之中,由上一輪對(duì)話中裝置語(yǔ)音識(shí)別出的回答句確定下一個(gè)新的問(wèn)句。
在上述方法中,預(yù)先編撰腳本中對(duì)一個(gè)問(wèn)題的2-20個(gè)回答句時(shí),使其互相之間的語(yǔ)音數(shù)字特征區(qū)別足夠大以便于語(yǔ)音識(shí)別。
在上述方法中,在所述步驟1.3)中,根據(jù)得到的失真測(cè)度,提供對(duì)用戶發(fā)音的評(píng)價(jià)。
在上述方法中,也可設(shè)定其中的提問(wèn)句與答句均為唯一確定對(duì)應(yīng),人機(jī)對(duì)話的流程沿一預(yù)先設(shè)定的固定路徑進(jìn)行;語(yǔ)音識(shí)別技術(shù)僅用于根據(jù)得到的失真測(cè)度對(duì)使用者的發(fā)音質(zhì)量給予評(píng)價(jià)。
本發(fā)明技術(shù)問(wèn)題解決的另一方面是構(gòu)造一種基于有限集語(yǔ)音識(shí)別的人機(jī)交互裝置,包括計(jì)算機(jī)、插在計(jì)算機(jī)擴(kuò)展槽內(nèi)的語(yǔ)音卡,以及與語(yǔ)音卡連接的耳機(jī)及麥克風(fēng),所述語(yǔ)音卡包括連接麥克風(fēng)的語(yǔ)音輸入信號(hào)處理單元、連接耳機(jī)的語(yǔ)音輸出單元以及連接在語(yǔ)音輸入信號(hào)處理單元與語(yǔ)音輸出單元之間的語(yǔ)音數(shù)字信號(hào)處理單元,還包括內(nèi)含有限目標(biāo)語(yǔ)音模板庫(kù)、提問(wèn)語(yǔ)音資料庫(kù)、主控程序以及語(yǔ)音識(shí)別程序的控制程序,用于執(zhí)行以下步驟7.1)通過(guò)顯示器或耳機(jī)輸出一個(gè)提問(wèn);7.2)通過(guò)耳機(jī)或顯示器輸出提示2-20個(gè)有限集目標(biāo)答句,使用者擇一,對(duì)麥克風(fēng)發(fā)聲念出這個(gè)回答的讀音;7.3)通過(guò)麥克風(fēng)輸入使用者語(yǔ)音,與1.2)中2-20個(gè)有限集目標(biāo)答句的模板進(jìn)行識(shí)別比對(duì),確定此輸入語(yǔ)音歸屬于這2-20個(gè)某一個(gè);7.4)在確定這個(gè)識(shí)別結(jié)果之后,計(jì)算機(jī)程序按所編制的腳本,發(fā)出語(yǔ)意向下連貫的新一問(wèn)題,進(jìn)入新一輪對(duì)話場(chǎng)景,即再重復(fù)步驟7.1),7.2)與7.3),而使對(duì)話不斷向前延續(xù),直至結(jié)束某一訓(xùn)練單元結(jié)束。
在上述裝置中,所述麥克風(fēng)為專業(yè)定向麥克風(fēng),所述耳機(jī)是頭戴式附專業(yè)定向麥克風(fēng)的耳機(jī),采用頭戴式耳機(jī)與定向話筒為一體結(jié)構(gòu)以保證較高的輸入語(yǔ)音信噪比。
在上述裝置中,采用雙聲道系統(tǒng)分別輸出提問(wèn)句與提示待識(shí)別的目標(biāo)答句,所述雙聲道系統(tǒng)包括雙通道的語(yǔ)音信號(hào)輸出放大單元,外接的頭戴式雙聲道耳機(jī)。
在上述裝置中,還包括自動(dòng)偵測(cè)外界噪聲程序,用于在檢測(cè)到較大外部噪音時(shí)以文字與聲音提示使用者使用時(shí)離開(kāi)高噪聲環(huán)境。
實(shí)施本發(fā)明提供的基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法與裝置,將腳本設(shè)計(jì)、計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)與相關(guān)計(jì)算機(jī)硬件三者有機(jī)結(jié)合,組成一個(gè)人機(jī)語(yǔ)音互動(dòng)系統(tǒng)裝置,能重構(gòu)教學(xué)與訓(xùn)練意義上的對(duì)話情景,用于語(yǔ)言訓(xùn)練與學(xué)習(xí)之目的。
圖1是實(shí)現(xiàn)本發(fā)明基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法的流程示意圖;圖2是實(shí)現(xiàn)本發(fā)明基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法的語(yǔ)音資料庫(kù)示例,僅列出二級(jí)流程流程示意圖;圖3是實(shí)現(xiàn)本發(fā)明基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法的腳本的對(duì)話流程樹(shù)形結(jié)構(gòu)示意圖。
圖4是實(shí)施例中人機(jī)對(duì)話過(guò)程示意圖;圖5是本發(fā)明基于有限集語(yǔ)音識(shí)別的人機(jī)交互裝置的邏輯結(jié)構(gòu)示意圖;圖6是圖5裝置中語(yǔ)音卡的電路原理示意圖。
具體實(shí)施例方式
為實(shí)現(xiàn)本發(fā)明,首先要編制出一套對(duì)話流程腳本,對(duì)話腳本由問(wèn)句與答句組成,其中,每一問(wèn)句有多個(gè)答句(2-20個(gè))對(duì)應(yīng),每一答句僅與下級(jí)一個(gè)新的問(wèn)句對(duì)應(yīng),這樣的問(wèn)句與答句的全體構(gòu)成了一個(gè)樹(shù)形結(jié)構(gòu)的腳本。這些問(wèn)句與答句包含有擬傳授的語(yǔ)言學(xué)知識(shí)如發(fā)音、語(yǔ)法、句型、表達(dá)法及詞匯等,又設(shè)計(jì)得貼近真實(shí)對(duì)話情景,語(yǔ)意連貫。通過(guò)設(shè)計(jì)軟件,可以產(chǎn)生以一個(gè)問(wèn)句與一組有限個(gè)答句構(gòu)成對(duì)話情景,以計(jì)算機(jī)裝置首先輸出問(wèn)句,使用者選擇上述有限個(gè)答句之一,發(fā)音回答,本發(fā)明裝置對(duì)其發(fā)音進(jìn)行識(shí)別,判斷的范圍僅在預(yù)先給定的這有限個(gè)答句之中。識(shí)別出的某答句對(duì)應(yīng)了一個(gè)新的問(wèn)句,所輸出的這個(gè)新問(wèn)句與一組新的答句又構(gòu)成下一對(duì)話場(chǎng)景,從而不斷人機(jī)延續(xù)對(duì)話過(guò)程。本發(fā)明由于預(yù)先設(shè)定的小數(shù)量答句反向限定使用者的發(fā)音選擇范圍,同時(shí)借助預(yù)編對(duì)話腳本的語(yǔ)意聯(lián)貫性,完成語(yǔ)言訓(xùn)練意義上的人機(jī)對(duì)話過(guò)程。換言之,在本發(fā)明的方法中,有限集目標(biāo)答句是指對(duì)每次提問(wèn),使用者僅需在2-20個(gè)即定的答句中選擇一個(gè)念出,相應(yīng)的,計(jì)算機(jī)裝置也僅需在這2-20個(gè)即定句范圍內(nèi),就使用者語(yǔ)音進(jìn)行識(shí)別判斷;而失真測(cè)度是指本計(jì)算機(jī)裝置將輸入的使用者語(yǔ)音數(shù)字信號(hào)進(jìn)行數(shù)字化處理,提取該語(yǔ)音的特征參數(shù),然后將該特征參數(shù)與預(yù)先存儲(chǔ)的2-20個(gè)識(shí)別目標(biāo)模板的特征參數(shù)進(jìn)行失真比對(duì)。為增加不同回答的識(shí)別精度,要求預(yù)先編制腳本,使每組擬識(shí)別的目標(biāo)句互相之間的語(yǔ)音特征參數(shù)有足夠大的區(qū)別。
如1示出了本發(fā)明方法一個(gè)實(shí)施例的流程圖,它需要一臺(tái)普通個(gè)人計(jì)算機(jī)(PC機(jī)),一塊插在PC機(jī)擴(kuò)展槽內(nèi)的語(yǔ)音卡,及與語(yǔ)音卡連接的一體式耳機(jī)與麥克風(fēng)系統(tǒng)。其中,PC機(jī)配置為PENTIUM3中央處理器;64M內(nèi)存;10G硬盤;1024×768顯示器,操作系統(tǒng)為WINDOW98。語(yǔ)音卡由語(yǔ)音輸入電路與A/D轉(zhuǎn)換電路;數(shù)字電路;及D/A轉(zhuǎn)換與雙通道輸出電路三部分組成。其細(xì)節(jié)將結(jié)合圖5與圖6作進(jìn)一步說(shuō)明。
下面,簡(jiǎn)要說(shuō)明應(yīng)用本發(fā)明方法的具體語(yǔ)音識(shí)別過(guò)程以頭戴式附麥克風(fēng)耳機(jī)所附的專業(yè)定向麥克風(fēng)用于采集使用者發(fā)音;耳機(jī)之左邊送話器(左聲道)輸出計(jì)算機(jī)提問(wèn)句發(fā)音;耳機(jī)之右邊送話器(右聲道)輸出提示識(shí)別目標(biāo)答句發(fā)音。
計(jì)算機(jī)裝置自耳機(jī)左聲道發(fā)出一個(gè)提問(wèn),之后,計(jì)算機(jī)屏幕文字顯示2-20個(gè)可能的答案,同時(shí)耳機(jī)右聲道也輸出這些答案的發(fā)音做為提示。使用者選擇其中一個(gè)作為答案并發(fā)音,計(jì)算機(jī)根據(jù)識(shí)別出的使用者語(yǔ)音,發(fā)出下一個(gè)新的問(wèn)題,這一新的問(wèn)題與上一識(shí)別出的答案有語(yǔ)意關(guān)聯(lián),并由腳本所確定其二者為唯一對(duì)應(yīng)關(guān)系。所有的提問(wèn)與所有可能的答案組成本系統(tǒng)的語(yǔ)音數(shù)據(jù)資料庫(kù)。計(jì)算機(jī)按程序不斷發(fā)出提問(wèn),輸入使用者語(yǔ)音,進(jìn)行識(shí)別,由識(shí)別結(jié)果導(dǎo)出相關(guān)的下一問(wèn)題,從而使此人機(jī)交互過(guò)程延續(xù)向前。
本發(fā)明裝置在實(shí)際操作過(guò)程中1)如果輸入的使用者語(yǔ)音經(jīng)識(shí)別過(guò)程后,與擬識(shí)別目標(biāo)句之一匹配(失真測(cè)度≤80%),則計(jì)算機(jī)發(fā)出該匹配答句相關(guān)的下一問(wèn)題;2)如果使用者語(yǔ)音經(jīng)識(shí)別,與目標(biāo)句中任何一個(gè)的失真測(cè)度均>80%,失去識(shí)別匹配意義,則計(jì)算機(jī)提示建議選擇規(guī)定路徑方式。3)規(guī)定路徑方式,即不再提供使用者多種答案選擇,而僅按預(yù)先設(shè)定的單一固定對(duì)話路徑向下進(jìn)行。4)最后進(jìn)入“訓(xùn)練結(jié)束”狀態(tài)。
進(jìn)一步,說(shuō)明構(gòu)成本發(fā)明基礎(chǔ)的關(guān)鍵點(diǎn),包括內(nèi)置的與硬件配合的對(duì)話流程主控程序以及它所調(diào)用的語(yǔ)音識(shí)別程序,在主控程序中,將每個(gè)問(wèn)題與其后的數(shù)個(gè)答案定義為二維數(shù)組,在如圖2示出的語(yǔ)音資料庫(kù)中,所示各語(yǔ)句關(guān)系下,二維數(shù)組如下{1,1};{2,6};{3,8};{4,12};{5,15}......
表示某問(wèn)句與其后數(shù)答句的關(guān)系,為說(shuō)明,也可按語(yǔ)音資料庫(kù)中代碼表示方法改寫如下{Q0001,A0001};{Q0002,A0006};{Q0003,A0008};{Q0004,A0012};{Q0005,A0015}......
如第二組表示Q0002所對(duì)應(yīng)的從A0006開(kāi)始的數(shù)個(gè)答句,其個(gè)數(shù)如此確定由第三組數(shù)組的第二維A0008減本組的第二維A0006=2,即本組有N=2個(gè)答句,同樣,第三組有N=12-8=4個(gè)答句,第四組有N=15-12=3個(gè)答句。如前所述一般N=2-20,但也可以是1..
這樣每次識(shí)別語(yǔ)音時(shí),將由上列二維數(shù)組確定的數(shù)個(gè)答句語(yǔ)音參考樣本,自緩沖區(qū)中釋放出來(lái)。
而主控程序調(diào)用的語(yǔ)音識(shí)別程序用于將輸入的待測(cè)語(yǔ)音特征參數(shù)與前述數(shù)個(gè)原先數(shù)據(jù)庫(kù)內(nèi)的語(yǔ)音樣本特征參數(shù)比對(duì),其結(jié)果是給出一個(gè)傳回值,此值為n=0-N,這個(gè)n加到這個(gè)二維數(shù)組的第二維上,即確定了輸入語(yǔ)音對(duì)應(yīng)的答句ID。其語(yǔ)音識(shí)別函數(shù)中的DIST給出輸入語(yǔ)音與樣本語(yǔ)音比對(duì)后的失真值,當(dāng)其值大于80時(shí),則裝置不再識(shí)別判斷,并建議用戶使用固定路徑方式;當(dāng)其值小于80時(shí),即為所要的識(shí)別結(jié)果,同時(shí)輸出一個(gè)滿分為100的數(shù)值,作為對(duì)使用者語(yǔ)音的評(píng)估結(jié)果。
可以看出,一個(gè)同號(hào)的問(wèn)句與答句在程序中是等價(jià)的,即Q0006在程序中與A0006等價(jià),因其二者的關(guān)系為唯一對(duì)應(yīng)。在二者語(yǔ)音的播放上也是一同放出的,僅有次序的不同而已。
圖2給出了語(yǔ)音資料庫(kù)示例,僅列出二級(jí)流程。流程腳本規(guī)定的句子關(guān)系所構(gòu)成的語(yǔ)音文件數(shù)據(jù)庫(kù),內(nèi)置在本機(jī)的存儲(chǔ)器中,主控程序按此圖表確定的邏輯關(guān)系進(jìn)行調(diào)用。(僅列出一個(gè)單元的二級(jí)循環(huán))。圖中,“ID”前綴“Q”表示提問(wèn)句,包括對(duì)應(yīng)的問(wèn)題句子“Qnnnn”;前綴“A”表示答案句,為待識(shí)別目標(biāo)句,也即答句“Ammmm”. Qnnnn與Ammmm表示各句子的數(shù)據(jù)庫(kù)編號(hào)ID。例如A0002的“上行ID”是Q0001,此關(guān)系由語(yǔ)音識(shí)別程序確定,表示與A0002向上對(duì)應(yīng)的問(wèn)句;A0002的“下行ID”是Q0002,亦即下一問(wèn)題句。此關(guān)系由腳本預(yù)先確定,且唯一對(duì)應(yīng)。對(duì)每一問(wèn)句,本表中為方便說(shuō)明,僅列出3-4個(gè)下行ID數(shù)(一般為2-20個(gè),也可以是1個(gè))。表中每一級(jí)流程對(duì)應(yīng)一個(gè)完整的語(yǔ)音交互步驟,多個(gè)路徑可選;表中僅列兩級(jí)循環(huán)“S001”和“S002”,它們都屬于同一個(gè)課程單元“T001”。
圖3給出了腳本的對(duì)話流程的樹(shù)形結(jié)構(gòu)示意圖。該圖列出一個(gè)二級(jí)對(duì)話流程樹(shù)形圖(腳本),以”餐館對(duì)話”為例,說(shuō)明本發(fā)明的對(duì)話流程。參照附圖,所舉例的對(duì)話流程路徑以粗體黑字與箭頭指出。
1A.首先由計(jì)算機(jī)提問(wèn)(顯示文字并發(fā)聲)Q0001What would you like to drink?你要喝什么?1B.計(jì)算機(jī)顯(提)示出即定目標(biāo)答句為以下4個(gè)A0002Orange juice(我喝)橙汁A0003I like beer 我要啤酒
A0004 Apple juice 蘋果汁A0005 Mineral water礦泉水1C.用戶發(fā)音I like beer(即A0003)后,裝置以語(yǔ)音識(shí)別技術(shù)判別,確定為A0003,輸出(顯示)此句,并對(duì)使用者發(fā)音質(zhì)量評(píng)估(打分)。第一級(jí)對(duì)話與識(shí)別結(jié)束。
2A.裝置輸出與A0003對(duì)應(yīng)的下一問(wèn)題(顯示文字并發(fā)聲)Q0003 OK,We have several beer brands好的,我們有好幾種牌子的啤酒2B.提示四種啤酒(屏幕顯示文字并發(fā)聲)A0008Tsingdao Beer青島啤酒A0009Blue Ribbon 藍(lán)帶啤酒A0010Heineken 喜力啤酒A0011Draft扎啤2C.用戶再次選擇其中之一發(fā)音(如“Heineken”)后,在A0008-A0011四個(gè)識(shí)別目標(biāo)內(nèi),計(jì)算機(jī)進(jìn)行語(yǔ)音識(shí)別,判定使用者發(fā)音為A0010。裝置單獨(dú)顯示此句,并對(duì)使用者發(fā)音質(zhì)量打分。
3A計(jì)算機(jī)再次給出與A0010相關(guān)的新一個(gè)問(wèn)題Q0010,等等。本發(fā)明裝置的內(nèi)置軟件程序,包括學(xué)習(xí)課程單元選擇,學(xué)習(xí)路徑方式選擇,以及功能選擇與自我測(cè)試等用戶學(xué)習(xí)界面。人機(jī)界面清晰大方,包括屏幕左邊的記分欄,語(yǔ)音輸入提示杠等,富有特色。隨著學(xué)習(xí)進(jìn)度向前,屏幕上所顯示的文字不斷逐行向上翻滾,并由文字的閃爍或反白等變化提示用戶當(dāng)前的狀態(tài),如以反白文字指示識(shí)別的結(jié)果等,
如圖4人機(jī)界面圖所示。
圖4示出了本發(fā)明實(shí)施例在使用過(guò)程中的一系列人機(jī)界面,每個(gè)界面包括提問(wèn)與提示輸出界面及語(yǔ)音識(shí)別界面。一開(kāi)始出現(xiàn)如圖4(a)所示的開(kāi)始界面,如按鍵或其它方式選擇方框1,則從第一單元開(kāi)始學(xué)習(xí),如選擇方框2,從任一單元開(kāi)始學(xué)習(xí);當(dāng)選擇方框1時(shí),顯示如圖4(b),下屏出現(xiàn)單元目錄,使用按鍵,翻查并確定所要進(jìn)入的單元。圖4(c)示出裝置先顯示并朗讀Q0001(從耳機(jī)左聲道發(fā)出),再顯示(或朗讀)Q0001所對(duì)應(yīng)的4個(gè)目標(biāo)集句子A0002,A0003,A0004,A0005(從耳機(jī)右聲道發(fā)出;熟練者可選擇免去提示朗讀Ammmm目標(biāo)集句子,以節(jié)省時(shí)間);圖4(d)顯示“請(qǐng)回答”并開(kāi)始閃爍,進(jìn)入聲音輸入和識(shí)別過(guò)程,狀態(tài)行下的黑色計(jì)時(shí)條按自上而下次序變白,使用者選擇一個(gè)答案,如I like beer(我要啤酒),對(duì)麥克風(fēng)發(fā)音。系統(tǒng)識(shí)別后,判定結(jié)果為A0003,并在屏幕上反白顯示,同時(shí)在左邊狀態(tài)欄內(nèi)打出評(píng)分。圖4(e)屏幕文字自動(dòng)向上翻滾,顯示出第二級(jí)提問(wèn)句,即A0003所對(duì)應(yīng)的下行句Q0003。并朗讀Q0003(從耳機(jī)左聲道發(fā)出);圖4(f)本屏文字隨即向上翻滾,并顯示出第二級(jí)對(duì)話的目標(biāo)集句子。裝置提示朗讀A0008,A0009,A0010,A0011。(從耳機(jī)右聲道發(fā)出),重復(fù)4(a),4(b),4(c)和4(d)的同樣過(guò)程。圖4(g)固定匹配路徑在4a中按框3,以固定匹配路徑學(xué)習(xí)。,使用者不能任選答案,提問(wèn)與答案,以及答案與下一個(gè)提問(wèn),均為事先確定并唯一對(duì)應(yīng)。其發(fā)聲,提示方式與圖4(a);4(b);4(c);4(d)同。圖4(h)接續(xù)學(xué)習(xí)本機(jī)可自動(dòng)存儲(chǔ)上一次學(xué)習(xí)界面,以直接接續(xù)上次學(xué)習(xí)進(jìn)度學(xué)習(xí)。在圖4(a)中按框4;圖4(I)功能選擇在4(a)中按框5,功能簡(jiǎn)列如圖。圖4(j)自我測(cè)試在4(a)按框6。實(shí)際過(guò)程與4(g)按固定匹配路徑學(xué)習(xí)方式相同。數(shù)據(jù)庫(kù)使用測(cè)試資料。圖同4(g)。
如圖5和圖6所示,語(yǔ)音輸入與輸出設(shè)備是一個(gè)頭戴式耳機(jī)并附有一個(gè)麥克風(fēng)的裝置,麥克風(fēng)為定向?qū)I(yè)式,其對(duì)使用者口部附近的15度以內(nèi)聲音信號(hào)有極好響應(yīng),但對(duì)此角度以外的噪聲則產(chǎn)生極大衰減。從而排除周圍噪聲干擾。本發(fā)明所述語(yǔ)音輸入設(shè)備為專業(yè)定向麥克風(fēng),所述耳機(jī)是頭戴式附專業(yè)定向麥克風(fēng)的耳機(jī),采用頭戴式耳機(jī)與定向話筒一體結(jié)構(gòu)以保證較高的輸入語(yǔ)音信噪比,這個(gè)結(jié)構(gòu)設(shè)計(jì)同時(shí)排除了提問(wèn)發(fā)音、提示發(fā)音、用戶發(fā)音三者之間可能產(chǎn)生的聲音互相干擾與自激效應(yīng)。還可設(shè)置了噪聲偵測(cè)程序,提醒使用者主動(dòng)規(guī)避噪聲。本發(fā)明提供的裝置可對(duì)使用者的發(fā)音質(zhì)量輸出評(píng)價(jià)結(jié)果,評(píng)價(jià)結(jié)果包括以100為滿分的分值和語(yǔ)音輸出的建議性語(yǔ)言。由于這種技術(shù)解決方案是僅為語(yǔ)言學(xué)習(xí)與訓(xùn)練之目的,本發(fā)明已預(yù)先假設(shè),使用者應(yīng)以本裝置提示音為學(xué)習(xí)訓(xùn)練的標(biāo)準(zhǔn)。對(duì)于使用者本人因口音、年齡、性別等因素產(chǎn)生的較大發(fā)音差異,可能造成的與用戶選擇本意不一致的誤識(shí)別,本裝置建議選用固定路徑方式,作為一種預(yù)訓(xùn)練方法,以符合初級(jí)用戶的學(xué)習(xí)能力。所謂固定路徑指按預(yù)先設(shè)定的固定問(wèn)答對(duì)應(yīng)關(guān)系向前延續(xù)的對(duì)話流程。圖5給出了本發(fā)明裝置的結(jié)構(gòu)示意圖。圖6給出了圖5裝置中使用的語(yǔ)音卡的電路原理圖。語(yǔ)音卡做為本發(fā)明裝置的主要器件,由語(yǔ)音信號(hào)前置放大,低通濾波,以及模數(shù)轉(zhuǎn)換,與PC機(jī)相聯(lián)的數(shù)字接口,數(shù)模轉(zhuǎn)換功率放大與語(yǔ)音輸出幾個(gè)部分組成。
6.1模數(shù)轉(zhuǎn)換電路由U2B之前置放大器,U2D4KHz之低通濾波器,U2C之電位調(diào)整電路及ADC0801模數(shù)轉(zhuǎn)換電路構(gòu)成。
以增益約100倍的前置放大器U2B(LM124)放大語(yǔ)音信號(hào);由U2D(LM124)及相關(guān)電阻電容構(gòu)成的低通濾波器之截止頻率為4KHz,按8KHz的采樣頻率采集語(yǔ)音數(shù)據(jù);經(jīng)U2C構(gòu)成的電位調(diào)整電路,將雙極性語(yǔ)音信號(hào)轉(zhuǎn)換為0-5V范圍,以符合數(shù)模轉(zhuǎn)換芯片ADC0801的接口信號(hào)要求。ADC0801將模擬信號(hào)轉(zhuǎn)換為8位數(shù)字?jǐn)?shù)據(jù)。
6.2數(shù)字接口電路由U4接口控制芯片8255做數(shù)字接口,信號(hào)至PC機(jī)的譯碼由由U7(74LS138),U6A(74LS00),U12A(74LS04)及U12B(74LS04)完成。,通過(guò)DIP開(kāi)關(guān)選擇地址,DIP開(kāi)關(guān)只有一位ON。
8255芯片的I/O端口中,PA用于A/D語(yǔ)音輸入采樣,PB用于D/A信號(hào)數(shù)字放音。
6.3數(shù)模轉(zhuǎn)換與濾波放大電路擔(dān)任數(shù)模轉(zhuǎn)換任務(wù)的芯片是U9(DAC0800),用于將數(shù)字信號(hào)轉(zhuǎn)換為雙極性音頻信號(hào)。按本發(fā)明所設(shè)定程序,提問(wèn)信號(hào)入耳機(jī)左聲道,答案提示信號(hào)發(fā)音入耳機(jī)右聲道,在此以一個(gè)模擬開(kāi)關(guān)UI0(4052)轉(zhuǎn)換以上兩種信號(hào),分別進(jìn)入二路濾波放大電路。即U4(8255)之PC0,PC1入U(xiǎn)10的A,B兩引腳,當(dāng)A(PC0)與B(PC1)均為0時(shí),信號(hào)從U10的X引腳輸出,入U(xiǎn)5一路為左聲道;當(dāng)A(PC0)為1,B(PC1)為0時(shí),信號(hào)從U10的Y引腳輸出至U11一路,為右聲道,最后分別由耳機(jī)插孔輸出至雙聲道耳機(jī)
權(quán)利要求
1.一種基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法,其特征在于,以預(yù)先設(shè)定的問(wèn)句和有限集答句結(jié)合計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)來(lái)達(dá)到人機(jī)交互,包括以下步驟1.1)計(jì)算機(jī)裝置輸出一個(gè)提問(wèn);1.2)計(jì)算機(jī)以聲音或顯示方式中的至少一種,提示2-20個(gè)句子組成的與上述提問(wèn)關(guān)聯(lián)的有限集目標(biāo)答句,使用者擇其一,對(duì)計(jì)算機(jī)語(yǔ)音輸入設(shè)備,念出這個(gè)回答的讀音;1.3)計(jì)算機(jī)對(duì)輸入的使用者語(yǔ)音,與1.2)中的有限集目標(biāo)答句模板逐個(gè)進(jìn)行失真測(cè)度,以比對(duì)確定此輸入語(yǔ)音為上述有限集目標(biāo)答句中的某一個(gè);1.4)在確定這個(gè)識(shí)別結(jié)果之后,計(jì)算機(jī)程序按所預(yù)定上下邏輯關(guān)系,發(fā)出語(yǔ)意向下連貫的新問(wèn)題,進(jìn)入新一輪對(duì)話場(chǎng)景,即再重復(fù)步驟1.1),1.2)與1.3),而使對(duì)話不斷向前延續(xù),直至某一訓(xùn)練單元結(jié)束。
2.根據(jù)權(quán)利要求1所述方法,其特征在于,所述提問(wèn)與有限集目標(biāo)答句的全體為預(yù)先編撰的腳本,是一個(gè)多路徑可選樹(shù)形結(jié)構(gòu),其中一個(gè)提問(wèn)句與一組有限集目標(biāo)答句對(duì)應(yīng),任一回答句與一個(gè)新提問(wèn)句唯一對(duì)應(yīng),依此確定人機(jī)對(duì)話發(fā)展的邏輯關(guān)系。
3.根據(jù)權(quán)利要求1或2所述方法,其特征在于,所述提問(wèn)句是指裝置自動(dòng)發(fā)出的一個(gè)引導(dǎo)性語(yǔ)音,由發(fā)出預(yù)定的第一個(gè)語(yǔ)音作為對(duì)話過(guò)程的開(kāi)始,在對(duì)話過(guò)程之中,由上一輪對(duì)話中裝置語(yǔ)音識(shí)別出的回答句確定下一個(gè)新的問(wèn)句。
4.根據(jù)權(quán)利要求2所述方法,其特征還在于,預(yù)先編撰腳本中對(duì)一個(gè)問(wèn)題的2-20個(gè)回答句時(shí),使這些回答句互相之間的語(yǔ)音數(shù)字特征區(qū)別足夠大以便于語(yǔ)音識(shí)別。
5.根據(jù)權(quán)利要求1-4中任何一項(xiàng)所述方法,其特征還在于,在所述步驟1.3)中,根據(jù)得到的失真測(cè)度,提供對(duì)用戶發(fā)音的評(píng)價(jià)。
6.根據(jù)權(quán)利要求1所述方法,其特征在于,可設(shè)定其中的提問(wèn)句與答句均為唯一確定對(duì)應(yīng),人機(jī)對(duì)話的流程沿一預(yù)先設(shè)定的固定路徑進(jìn)行;語(yǔ)音識(shí)別技術(shù)僅用于根據(jù)得到的失真測(cè)度對(duì)使用者的發(fā)音質(zhì)量給予評(píng)價(jià)。
7.一種基于有限集語(yǔ)音識(shí)別的人機(jī)交互裝置,其特征在于,包括計(jì)算機(jī)、插在計(jì)算機(jī)擴(kuò)展槽內(nèi)的語(yǔ)音卡,以及與語(yǔ)音卡連接的耳機(jī)及麥克風(fēng),所述語(yǔ)音卡包括連接麥克風(fēng)的語(yǔ)音輸入信號(hào)處理單元、連接耳機(jī)的語(yǔ)音輸出單元以及連接在語(yǔ)音輸入信號(hào)處理單元與語(yǔ)音輸出單元之間的語(yǔ)音數(shù)字信號(hào)處理單元,還包括內(nèi)含有限目標(biāo)語(yǔ)音模板庫(kù)、提問(wèn)語(yǔ)音資料庫(kù)、主控程序以及語(yǔ)音識(shí)別程序的控制程序,用于執(zhí)行以下步驟7.1)通過(guò)顯示器或耳機(jī)輸出一個(gè)提問(wèn);7.2)通過(guò)耳機(jī)或顯示器輸出提示2-20個(gè)有限集目標(biāo)答句,使用者擇一,對(duì)麥克風(fēng)發(fā)聲念出這個(gè)回答的讀音;7.3)通過(guò)麥克風(fēng)輸入使用者語(yǔ)音,與1.2)中2-20個(gè)有限集目標(biāo)答句的模板進(jìn)行識(shí)別比對(duì),確定此輸入語(yǔ)音歸屬于這2-20個(gè)某一個(gè);7.4)在確定這個(gè)識(shí)別結(jié)果之后,計(jì)算機(jī)程序按所編制的腳本,發(fā)出語(yǔ)意向下連貫的新一問(wèn)題,進(jìn)入新一輪對(duì)話場(chǎng)景,即再重復(fù)步驟7.1),7.2)與7.3),而使對(duì)話不斷向前延續(xù),直至結(jié)束某一訓(xùn)練單元結(jié)束。
8.根據(jù)權(quán)利要求7所述裝置,其特征在于,所述麥克風(fēng)為專業(yè)定向麥克風(fēng),所述耳機(jī)是頭戴式附專業(yè)定向麥克風(fēng)的耳機(jī),采用頭戴式耳機(jī)與定向話筒為一體結(jié)構(gòu)以保證較高的輸入語(yǔ)音信噪比。
9.根據(jù)權(quán)利要求7所述裝置,其特征在于,采用雙聲道系統(tǒng)分別輸出提問(wèn)句與提示待識(shí)別的目標(biāo)答句,所述雙聲道系統(tǒng)包括雙通道的語(yǔ)音信號(hào)輸出放大單元,以及外接的頭戴式雙聲道耳機(jī)。
10.根據(jù)權(quán)利要求7-9中任何一項(xiàng)所述裝置,其特征還在于,具有自動(dòng)偵測(cè)外界噪聲程序,用于在檢測(cè)到較大外部噪音時(shí)以文字與聲音提示使用者使用時(shí)離開(kāi)高噪聲環(huán)境。
全文摘要
一種建構(gòu)人機(jī)語(yǔ)音連續(xù)交互的方法及其實(shí)施其方法的裝置,由機(jī)器構(gòu)造出一個(gè)場(chǎng)景(給出一提問(wèn)),利用現(xiàn)有語(yǔ)音識(shí)別技術(shù),對(duì)輸入的用戶應(yīng)答語(yǔ)音以有限數(shù)目標(biāo)為基準(zhǔn),進(jìn)行判別,以在數(shù)個(gè)目標(biāo)狀態(tài)中轉(zhuǎn)換,并同時(shí)產(chǎn)生新的場(chǎng)景,從而不斷延續(xù)語(yǔ)音交互過(guò)程。其中的預(yù)定有限目標(biāo),與每個(gè)答案關(guān)聯(lián)的提問(wèn)共同構(gòu)成一樹(shù)形結(jié)構(gòu)的文本。實(shí)現(xiàn)上述方法的裝置包括計(jì)算機(jī)、語(yǔ)音輸入與處理設(shè)備、語(yǔ)音輸出設(shè)備、語(yǔ)音數(shù)字信號(hào)處理電路,及處理軟件包括預(yù)定有限目標(biāo)語(yǔ)音模板庫(kù)、提問(wèn)語(yǔ)音資料庫(kù)、主控程序以及語(yǔ)音識(shí)別程序。利用本發(fā)明方法及裝置能以較低成本實(shí)現(xiàn)有限但有效的語(yǔ)音交互,通過(guò)模仿真實(shí)對(duì)話情景的全過(guò)程,重構(gòu)流暢的對(duì)話情景,可用于語(yǔ)言訓(xùn)練等。
文檔編號(hào)G10L15/00GK1581293SQ0314012
公開(kāi)日2005年2月16日 申請(qǐng)日期2003年8月7日 優(yōu)先權(quán)日2003年8月7日
發(fā)明者王東籬 申請(qǐng)人:王東籬