基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法與裝置的制作方法

文檔序號(hào)：2822083閱讀：295來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法與裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及人機(jī)交互技術(shù)，具體涉及計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)和計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)技術(shù)，即一種利用計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)模擬人機(jī)對(duì)話情景、技巧性利用現(xiàn)有語(yǔ)音識(shí)別技術(shù)水平，以使用者的真實(shí)語(yǔ)音與計(jì)算機(jī)互動(dòng)的人機(jī)交互方法及裝置。
背景技術(shù)：
語(yǔ)言知識(shí)的學(xué)習(xí)過(guò)程，從語(yǔ)言信息學(xué)的角度來(lái)看是以語(yǔ)言作為信息載體，進(jìn)行采集、吸收、處理、儲(chǔ)存的過(guò)程。在語(yǔ)言的學(xué)習(xí)中，對(duì)話情景，特別是對(duì)確定情景下特定問(wèn)題的準(zhǔn)確應(yīng)答并反復(fù)訓(xùn)練的過(guò)程，是語(yǔ)言學(xué)習(xí)(包括母語(yǔ)學(xué)習(xí)在內(nèi))的基本機(jī)理，也是最直接有效的學(xué)習(xí)過(guò)程。自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition)，簡(jiǎn)稱ASR，即對(duì)一位發(fā)音者發(fā)出的語(yǔ)音進(jìn)行判別確定的過(guò)程，是以計(jì)算機(jī)實(shí)現(xiàn)“聲音”到“文字或指令”轉(zhuǎn)換的技術(shù)。一個(gè)語(yǔ)音識(shí)別系統(tǒng)工作時(shí)，首先將話筒(MIC)輸入的標(biāo)準(zhǔn)語(yǔ)音信號(hào)進(jìn)行放大，帶通濾波，A/D變換后，存入RAM區(qū)內(nèi)，這形成該語(yǔ)音的模板。這個(gè)過(guò)程稱為系統(tǒng)的”學(xué)習(xí)”或”訓(xùn)練”，多個(gè)這種存入RAM的模板組成模板庫(kù)。一個(gè)未知的語(yǔ)音信號(hào)也經(jīng)上述各電路，由CPU將此信號(hào)的數(shù)據(jù)存入RAM區(qū)內(nèi)某一特定區(qū)，然后將此未知信號(hào)與區(qū)內(nèi)各目標(biāo)模板逐一比對(duì)，按某一種識(shí)別算法，進(jìn)行計(jì)算測(cè)度，再經(jīng)識(shí)別決策，將識(shí)別測(cè)度失真最小的1個(gè)模板輸出做為識(shí)別結(jié)果，或同時(shí)按業(yè)務(wù)邏輯要求，執(zhí)行某個(gè)動(dòng)作。以計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)為基礎(chǔ)，以人機(jī)對(duì)話方式建構(gòu)模擬情景對(duì)話的學(xué)習(xí)模式是語(yǔ)言學(xué)習(xí)機(jī)器輔助方法的重要發(fā)展方向。這種方式包括對(duì)話情景設(shè)計(jì)、視聽(tīng)輸出、人機(jī)交互過(guò)程、智能判斷以及評(píng)價(jià)和改善建議，通過(guò)虛擬現(xiàn)實(shí)技術(shù)來(lái)營(yíng)造一種接近于真實(shí)對(duì)話情景的環(huán)境與氣氛，培養(yǎng)學(xué)習(xí)者以該語(yǔ)言進(jìn)行實(shí)際會(huì)話的能力。這就需要一種模擬自然語(yǔ)言學(xué)習(xí)機(jī)理的最佳技術(shù)解決方案，而到目前為止尚未有類似方法與裝置能得以實(shí)現(xiàn)。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是，如何提供一種能模擬真實(shí)對(duì)話情景的人機(jī)交互方法，并利用現(xiàn)有的計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)和計(jì)算機(jī)硬件，實(shí)現(xiàn)一種具有實(shí)用意義的語(yǔ)言學(xué)習(xí)與訓(xùn)練裝置。換言之，本發(fā)明的目的是構(gòu)造一種實(shí)用的語(yǔ)音識(shí)別系統(tǒng)，能夠解決以下主要問(wèn)題1)控制噪聲對(duì)識(shí)別過(guò)程時(shí)的干擾；2)對(duì)提問(wèn)句和識(shí)別目標(biāo)句(答句)的設(shè)計(jì)，即編制腳本，使之可經(jīng)濟(jì)地被實(shí)現(xiàn)；3)一個(gè)其成本可以支持廣泛應(yīng)用的語(yǔ)音識(shí)別系統(tǒng)的硬件方案的實(shí)現(xiàn)?？傊粋€(gè)具有商業(yè)價(jià)值且實(shí)用的語(yǔ)音識(shí)別產(chǎn)品，是能全面兼顧以上3者的完整解決方案。本發(fā)明另一要解決的技術(shù)問(wèn)題是如何提供實(shí)現(xiàn)該方法的計(jì)算機(jī)裝置，在該裝置中，實(shí)現(xiàn)本發(fā)明所述的人機(jī)對(duì)話過(guò)程。
本發(fā)明上述技術(shù)問(wèn)題這樣解決，構(gòu)造一種基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法，其特征在于，以預(yù)先設(shè)定的問(wèn)句和有限集答句結(jié)合計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)來(lái)達(dá)到人機(jī)交互，包括以下步驟1.1)計(jì)算機(jī)裝置輸出一個(gè)提問(wèn)；1.2)計(jì)算機(jī)以聲音或顯示方式中的至少一種，提示2-20個(gè)句子組成的與上述提問(wèn)關(guān)聯(lián)的有限集目標(biāo)答句，使用者擇其一，對(duì)計(jì)算機(jī)語(yǔ)音輸入設(shè)備，念出這個(gè)回答的讀音；1.3)計(jì)算機(jī)對(duì)輸入的使用者語(yǔ)音，與1.2)中的有限集目標(biāo)答句模板逐個(gè)進(jìn)行失真測(cè)度，以比對(duì)確定此輸入語(yǔ)音為上述有限集目標(biāo)答句中的某一個(gè)；1.4)在確定這個(gè)識(shí)別結(jié)果之后，計(jì)算機(jī)程序按所預(yù)定上下邏輯關(guān)系，發(fā)出語(yǔ)意向下連貫的新問(wèn)題，進(jìn)入新一輪對(duì)話場(chǎng)景，即再重復(fù)步驟1.1)，1.2)與1.3)，而使對(duì)話不斷向前延續(xù)，直至某一訓(xùn)練單元結(jié)束。
在上述方法中，所述提問(wèn)與有限集目標(biāo)答句的全體為預(yù)先編撰的腳本，是一個(gè)多路徑可選樹(shù)形結(jié)構(gòu)，其中一個(gè)提問(wèn)句與一組有限集目標(biāo)答句對(duì)應(yīng)，任一回答句與一個(gè)新提問(wèn)句唯一對(duì)應(yīng)，依此確定人機(jī)對(duì)話發(fā)展的邏輯關(guān)系。
在上述方法中，所述提問(wèn)句是指裝置自動(dòng)發(fā)出的一個(gè)引導(dǎo)性語(yǔ)音，由發(fā)出預(yù)定的第一個(gè)語(yǔ)音作為對(duì)話過(guò)程的開(kāi)始，在對(duì)話過(guò)程之中，由上一輪對(duì)話中裝置語(yǔ)音識(shí)別出的回答句確定下一個(gè)新的問(wèn)句。
在上述方法中，預(yù)先編撰腳本中對(duì)一個(gè)問(wèn)題的2-20個(gè)回答句時(shí)，使其互相之間的語(yǔ)音數(shù)字特征區(qū)別足夠大以便于語(yǔ)音識(shí)別。
在上述方法中，在所述步驟1.3)中，根據(jù)得到的失真測(cè)度，提供對(duì)用戶發(fā)音的評(píng)價(jià)。
在上述方法中，也可設(shè)定其中的提問(wèn)句與答句均為唯一確定對(duì)應(yīng)，人機(jī)對(duì)話的流程沿一預(yù)先設(shè)定的固定路徑進(jìn)行；語(yǔ)音識(shí)別技術(shù)僅用于根據(jù)得到的失真測(cè)度對(duì)使用者的發(fā)音質(zhì)量給予評(píng)價(jià)。
本發(fā)明技術(shù)問(wèn)題解決的另一方面是構(gòu)造一種基于有限集語(yǔ)音識(shí)別的人機(jī)交互裝置，包括計(jì)算機(jī)、插在計(jì)算機(jī)擴(kuò)展槽內(nèi)的語(yǔ)音卡，以及與語(yǔ)音卡連接的耳機(jī)及麥克風(fēng)，所述語(yǔ)音卡包括連接麥克風(fēng)的語(yǔ)音輸入信號(hào)處理單元、連接耳機(jī)的語(yǔ)音輸出單元以及連接在語(yǔ)音輸入信號(hào)處理單元與語(yǔ)音輸出單元之間的語(yǔ)音數(shù)字信號(hào)處理單元，還包括內(nèi)含有限目標(biāo)語(yǔ)音模板庫(kù)、提問(wèn)語(yǔ)音資料庫(kù)、主控程序以及語(yǔ)音識(shí)別程序的控制程序，用于執(zhí)行以下步驟7.1)通過(guò)顯示器或耳機(jī)輸出一個(gè)提問(wèn)；7.2)通過(guò)耳機(jī)或顯示器輸出提示2-20個(gè)有限集目標(biāo)答句，使用者擇一，對(duì)麥克風(fēng)發(fā)聲念出這個(gè)回答的讀音；7.3)通過(guò)麥克風(fēng)輸入使用者語(yǔ)音，與1.2)中2-20個(gè)有限集目標(biāo)答句的模板進(jìn)行識(shí)別比對(duì)，確定此輸入語(yǔ)音歸屬于這2-20個(gè)某一個(gè)；7.4)在確定這個(gè)識(shí)別結(jié)果之后，計(jì)算機(jī)程序按所編制的腳本，發(fā)出語(yǔ)意向下連貫的新一問(wèn)題，進(jìn)入新一輪對(duì)話場(chǎng)景，即再重復(fù)步驟7.1)，7.2)與7.3)，而使對(duì)話不斷向前延續(xù)，直至結(jié)束某一訓(xùn)練單元結(jié)束。
在上述裝置中，所述麥克風(fēng)為專業(yè)定向麥克風(fēng)，所述耳機(jī)是頭戴式附專業(yè)定向麥克風(fēng)的耳機(jī)，采用頭戴式耳機(jī)與定向話筒為一體結(jié)構(gòu)以保證較高的輸入語(yǔ)音信噪比。
在上述裝置中，采用雙聲道系統(tǒng)分別輸出提問(wèn)句與提示待識(shí)別的目標(biāo)答句，所述雙聲道系統(tǒng)包括雙通道的語(yǔ)音信號(hào)輸出放大單元，外接的頭戴式雙聲道耳機(jī)。
在上述裝置中，還包括自動(dòng)偵測(cè)外界噪聲程序，用于在檢測(cè)到較大外部噪音時(shí)以文字與聲音提示使用者使用時(shí)離開(kāi)高噪聲環(huán)境。
實(shí)施本發(fā)明提供的基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法與裝置，將腳本設(shè)計(jì)、計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)與相關(guān)計(jì)算機(jī)硬件三者有機(jī)結(jié)合，組成一個(gè)人機(jī)語(yǔ)音互動(dòng)系統(tǒng)裝置，能重構(gòu)教學(xué)與訓(xùn)練意義上的對(duì)話情景，用于語(yǔ)言訓(xùn)練與學(xué)習(xí)之目的。

圖1是實(shí)現(xiàn)本發(fā)明基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法的流程示意圖；圖2是實(shí)現(xiàn)本發(fā)明基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法的語(yǔ)音資料庫(kù)示例，僅列出二級(jí)流程流程示意圖；圖3是實(shí)現(xiàn)本發(fā)明基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法的腳本的對(duì)話流程樹(shù)形結(jié)構(gòu)示意圖。
圖4是實(shí)施例中人機(jī)對(duì)話過(guò)程示意圖；圖5是本發(fā)明基于有限集語(yǔ)音識(shí)別的人機(jī)交互裝置的邏輯結(jié)構(gòu)示意圖；圖6是圖5裝置中語(yǔ)音卡的電路原理示意圖。
具體實(shí)施例方式
為實(shí)現(xiàn)本發(fā)明，首先要編制出一套對(duì)話流程腳本，對(duì)話腳本由問(wèn)句與答句組成，其中，每一問(wèn)句有多個(gè)答句(2-20個(gè))對(duì)應(yīng)，每一答句僅與下級(jí)一個(gè)新的問(wèn)句對(duì)應(yīng)，這樣的問(wèn)句與答句的全體構(gòu)成了一個(gè)樹(shù)形結(jié)構(gòu)的腳本。這些問(wèn)句與答句包含有擬傳授的語(yǔ)言學(xué)知識(shí)如發(fā)音、語(yǔ)法、句型、表達(dá)法及詞匯等，又設(shè)計(jì)得貼近真實(shí)對(duì)話情景，語(yǔ)意連貫。通過(guò)設(shè)計(jì)軟件，可以產(chǎn)生以一個(gè)問(wèn)句與一組有限個(gè)答句構(gòu)成對(duì)話情景，以計(jì)算機(jī)裝置首先輸出問(wèn)句，使用者選擇上述有限個(gè)答句之一，發(fā)音回答，本發(fā)明裝置對(duì)其發(fā)音進(jìn)行識(shí)別，判斷的范圍僅在預(yù)先給定的這有限個(gè)答句之中。識(shí)別出的某答句對(duì)應(yīng)了一個(gè)新的問(wèn)句，所輸出的這個(gè)新問(wèn)句與一組新的答句又構(gòu)成下一對(duì)話場(chǎng)景，從而不斷人機(jī)延續(xù)對(duì)話過(guò)程。本發(fā)明由于預(yù)先設(shè)定的小數(shù)量答句反向限定使用者的發(fā)音選擇范圍，同時(shí)借助預(yù)編對(duì)話腳本的語(yǔ)意聯(lián)貫性，完成語(yǔ)言訓(xùn)練意義上的人機(jī)對(duì)話過(guò)程。換言之，在本發(fā)明的方法中，有限集目標(biāo)答句是指對(duì)每次提問(wèn)，使用者僅需在2-20個(gè)即定的答句中選擇一個(gè)念出，相應(yīng)的，計(jì)算機(jī)裝置也僅需在這2-20個(gè)即定句范圍內(nèi)，就使用者語(yǔ)音進(jìn)行識(shí)別判斷；而失真測(cè)度是指本計(jì)算機(jī)裝置將輸入的使用者語(yǔ)音數(shù)字信號(hào)進(jìn)行數(shù)字化處理，提取該語(yǔ)音的特征參數(shù)，然后將該特征參數(shù)與預(yù)先存儲(chǔ)的2-20個(gè)識(shí)別目標(biāo)模板的特征參數(shù)進(jìn)行失真比對(duì)。為增加不同回答的識(shí)別精度，要求預(yù)先編制腳本，使每組擬識(shí)別的目標(biāo)句互相之間的語(yǔ)音特征參數(shù)有足夠大的區(qū)別。
如1示出了本發(fā)明方法一個(gè)實(shí)施例的流程圖，它需要一臺(tái)普通個(gè)人計(jì)算機(jī)(PC機(jī))，一塊插在PC機(jī)擴(kuò)展槽內(nèi)的語(yǔ)音卡，及與語(yǔ)音卡連接的一體式耳機(jī)與麥克風(fēng)系統(tǒng)。其中，PC機(jī)配置為PENTIUM3中央處理器；64M內(nèi)存；10G硬盤；1024×768顯示器，操作系統(tǒng)為WINDOW98。語(yǔ)音卡由語(yǔ)音輸入電路與A/D轉(zhuǎn)換電路；數(shù)字電路；及D/A轉(zhuǎn)換與雙通道輸出電路三部分組成。其細(xì)節(jié)將結(jié)合圖5與圖6作進(jìn)一步說(shuō)明。
下面，簡(jiǎn)要說(shuō)明應(yīng)用本發(fā)明方法的具體語(yǔ)音識(shí)別過(guò)程以頭戴式附麥克風(fēng)耳機(jī)所附的專業(yè)定向麥克風(fēng)用于采集使用者發(fā)音；耳機(jī)之左邊送話器(左聲道)輸出計(jì)算機(jī)提問(wèn)句發(fā)音；耳機(jī)之右邊送話器(右聲道)輸出提示識(shí)別目標(biāo)答句發(fā)音。
計(jì)算機(jī)裝置自耳機(jī)左聲道發(fā)出一個(gè)提問(wèn)，之后，計(jì)算機(jī)屏幕文字顯示2-20個(gè)可能的答案，同時(shí)耳機(jī)右聲道也輸出這些答案的發(fā)音做為提示。使用者選擇其中一個(gè)作為答案并發(fā)音，計(jì)算機(jī)根據(jù)識(shí)別出的使用者語(yǔ)音，發(fā)出下一個(gè)新的問(wèn)題，這一新的問(wèn)題與上一識(shí)別出的答案有語(yǔ)意關(guān)聯(lián)，并由腳本所確定其二者為唯一對(duì)應(yīng)關(guān)系。所有的提問(wèn)與所有可能的答案組成本系統(tǒng)的語(yǔ)音數(shù)據(jù)資料庫(kù)。計(jì)算機(jī)按程序不斷發(fā)出提問(wèn)，輸入使用者語(yǔ)音，進(jìn)行識(shí)別，由識(shí)別結(jié)果導(dǎo)出相關(guān)的下一問(wèn)題，從而使此人機(jī)交互過(guò)程延續(xù)向前。
本發(fā)明裝置在實(shí)際操作過(guò)程中1)如果輸入的使用者語(yǔ)音經(jīng)識(shí)別過(guò)程后，與擬識(shí)別目標(biāo)句之一匹配(失真測(cè)度≤80％)，則計(jì)算機(jī)發(fā)出該匹配答句相關(guān)的下一問(wèn)題；2)如果使用者語(yǔ)音經(jīng)識(shí)別，與目標(biāo)句中任何一個(gè)的失真測(cè)度均＞80％，失去識(shí)別匹配意義，則計(jì)算機(jī)提示建議選擇規(guī)定路徑方式。3)規(guī)定路徑方式，即不再提供使用者多種答案選擇，而僅按預(yù)先設(shè)定的單一固定對(duì)話路徑向下進(jìn)行。4)最后進(jìn)入“訓(xùn)練結(jié)束”狀態(tài)。
進(jìn)一步，說(shuō)明構(gòu)成本發(fā)明基礎(chǔ)的關(guān)鍵點(diǎn)，包括內(nèi)置的與硬件配合的對(duì)話流程主控程序以及它所調(diào)用的語(yǔ)音識(shí)別程序，在主控程序中，將每個(gè)問(wèn)題與其后的數(shù)個(gè)答案定義為二維數(shù)組，在如圖2示出的語(yǔ)音資料庫(kù)中，所示各語(yǔ)句關(guān)系下，二維數(shù)組如下{1，1}；{2，6}；{3，8}；{4，12}；{5，15}......
表示某問(wèn)句與其后數(shù)答句的關(guān)系，為說(shuō)明，也可按語(yǔ)音資料庫(kù)中代碼表示方法改寫如下{Q0001，A0001}；{Q0002，A0006}；{Q0003，A0008}；{Q0004，A0012}；{Q0005，A0015}......
如第二組表示Q0002所對(duì)應(yīng)的從A0006開(kāi)始的數(shù)個(gè)答句，其個(gè)數(shù)如此確定由第三組數(shù)組的第二維A0008減本組的第二維A0006＝2，即本組有N＝2個(gè)答句，同樣，第三組有N＝12-8＝4個(gè)答句，第四組有N＝15-12＝3個(gè)答句。如前所述一般N＝2-20，但也可以是1..
這樣每次識(shí)別語(yǔ)音時(shí)，將由上列二維數(shù)組確定的數(shù)個(gè)答句語(yǔ)音參考樣本，自緩沖區(qū)中釋放出來(lái)。
而主控程序調(diào)用的語(yǔ)音識(shí)別程序用于將輸入的待測(cè)語(yǔ)音特征參數(shù)與前述數(shù)個(gè)原先數(shù)據(jù)庫(kù)內(nèi)的語(yǔ)音樣本特征參數(shù)比對(duì)，其結(jié)果是給出一個(gè)傳回值，此值為n＝0-N，這個(gè)n加到這個(gè)二維數(shù)組的第二維上，即確定了輸入語(yǔ)音對(duì)應(yīng)的答句ID。其語(yǔ)音識(shí)別函數(shù)中的DIST給出輸入語(yǔ)音與樣本語(yǔ)音比對(duì)后的失真值，當(dāng)其值大于80時(shí)，則裝置不再識(shí)別判斷，并建議用戶使用固定路徑方式；當(dāng)其值小于80時(shí)，即為所要的識(shí)別結(jié)果，同時(shí)輸出一個(gè)滿分為100的數(shù)值，作為對(duì)使用者語(yǔ)音的評(píng)估結(jié)果。
可以看出，一個(gè)同號(hào)的問(wèn)句與答句在程序中是等價(jià)的，即Q0006在程序中與A0006等價(jià)，因其二者的關(guān)系為唯一對(duì)應(yīng)。在二者語(yǔ)音的播放上也是一同放出的，僅有次序的不同而已。
圖2給出了語(yǔ)音資料庫(kù)示例，僅列出二級(jí)流程。流程腳本規(guī)定的句子關(guān)系所構(gòu)成的語(yǔ)音文件數(shù)據(jù)庫(kù)，內(nèi)置在本機(jī)的存儲(chǔ)器中，主控程序按此圖表確定的邏輯關(guān)系進(jìn)行調(diào)用。(僅列出一個(gè)單元的二級(jí)循環(huán))。圖中，“ID”前綴“Q”表示提問(wèn)句，包括對(duì)應(yīng)的問(wèn)題句子“Qnnnn”；前綴“A”表示答案句，為待識(shí)別目標(biāo)句，也即答句“Ammmm”. Qnnnn與Ammmm表示各句子的數(shù)據(jù)庫(kù)編號(hào)ID。例如A0002的“上行ID”是Q0001，此關(guān)系由語(yǔ)音識(shí)別程序確定，表示與A0002向上對(duì)應(yīng)的問(wèn)句；A0002的“下行ID”是Q0002，亦即下一問(wèn)題句。此關(guān)系由腳本預(yù)先確定，且唯一對(duì)應(yīng)。對(duì)每一問(wèn)句，本表中為方便說(shuō)明，僅列出3-4個(gè)下行ID數(shù)(一般為2-20個(gè)，也可以是1個(gè))。表中每一級(jí)流程對(duì)應(yīng)一個(gè)完整的語(yǔ)音交互步驟，多個(gè)路徑可選；表中僅列兩級(jí)循環(huán)“S001”和“S002”，它們都屬于同一個(gè)課程單元“T001”。
圖3給出了腳本的對(duì)話流程的樹(shù)形結(jié)構(gòu)示意圖。該圖列出一個(gè)二級(jí)對(duì)話流程樹(shù)形圖(腳本)，以”餐館對(duì)話”為例，說(shuō)明本發(fā)明的對(duì)話流程。參照附圖，所舉例的對(duì)話流程路徑以粗體黑字與箭頭指出。
1A.首先由計(jì)算機(jī)提問(wèn)(顯示文字并發(fā)聲)Q0001What would you like to drink？你要喝什么？1B.計(jì)算機(jī)顯(提)示出即定目標(biāo)答句為以下4個(gè)A0002Orange juice(我喝)橙汁A0003I like beer 我要啤酒
A0004 Apple juice 蘋果汁A0005 Mineral water礦泉水1C.用戶發(fā)音I like beer(即A0003)后，裝置以語(yǔ)音識(shí)別技術(shù)判別，確定為A0003，輸出(顯示)此句，并對(duì)使用者發(fā)音質(zhì)量評(píng)估(打分)。第一級(jí)對(duì)話與識(shí)別結(jié)束。
2A.裝置輸出與A0003對(duì)應(yīng)的下一問(wèn)題(顯示文字并發(fā)聲)Q0003 OK，We have several beer brands好的，我們有好幾種牌子的啤酒2B.提示四種啤酒(屏幕顯示文字并發(fā)聲)A0008Tsingdao Beer青島啤酒A0009Blue Ribbon 藍(lán)帶啤酒A0010Heineken 喜力啤酒A0011Draft扎啤2C.用戶再次選擇其中之一發(fā)音(如“Heineken”)后，在A0008-A0011四個(gè)識(shí)別目標(biāo)內(nèi)，計(jì)算機(jī)進(jìn)行語(yǔ)音識(shí)別，判定使用者發(fā)音為A0010。裝置單獨(dú)顯示此句，并對(duì)使用者發(fā)音質(zhì)量打分。
3A計(jì)算機(jī)再次給出與A0010相關(guān)的新一個(gè)問(wèn)題Q0010，等等。本發(fā)明裝置的內(nèi)置軟件程序，包括學(xué)習(xí)課程單元選擇，學(xué)習(xí)路徑方式選擇，以及功能選擇與自我測(cè)試等用戶學(xué)習(xí)界面。人機(jī)界面清晰大方，包括屏幕左邊的記分欄，語(yǔ)音輸入提示杠等，富有特色。隨著學(xué)習(xí)進(jìn)度向前，屏幕上所顯示的文字不斷逐行向上翻滾，并由文字的閃爍或反白等變化提示用戶當(dāng)前的狀態(tài)，如以反白文字指示識(shí)別的結(jié)果等，
如圖4人機(jī)界面圖所示。
圖4示出了本發(fā)明實(shí)施例在使用過(guò)程中的一系列人機(jī)界面，每個(gè)界面包括提問(wèn)與提示輸出界面及語(yǔ)音識(shí)別界面。一開(kāi)始出現(xiàn)如圖4(a)所示的開(kāi)始界面，如按鍵或其它方式選擇方框1，則從第一單元開(kāi)始學(xué)習(xí)，如選擇方框2，從任一單元開(kāi)始學(xué)習(xí)；當(dāng)選擇方框1時(shí)，顯示如圖4(b)，下屏出現(xiàn)單元目錄，使用按鍵，翻查并確定所要進(jìn)入的單元。圖4(c)示出裝置先顯示并朗讀Q0001(從耳機(jī)左聲道發(fā)出)，再顯示(或朗讀)Q0001所對(duì)應(yīng)的4個(gè)目標(biāo)集句子A0002，A0003，A0004，A0005(從耳機(jī)右聲道發(fā)出；熟練者可選擇免去提示朗讀Ammmm目標(biāo)集句子，以節(jié)省時(shí)間)；圖4(d)顯示“請(qǐng)回答”并開(kāi)始閃爍，進(jìn)入聲音輸入和識(shí)別過(guò)程，狀態(tài)行下的黑色計(jì)時(shí)條按自上而下次序變白，使用者選擇一個(gè)答案，如I like beer(我要啤酒)，對(duì)麥克風(fēng)發(fā)音。系統(tǒng)識(shí)別后，判定結(jié)果為A0003，并在屏幕上反白顯示，同時(shí)在左邊狀態(tài)欄內(nèi)打出評(píng)分。圖4(e)屏幕文字自動(dòng)向上翻滾，顯示出第二級(jí)提問(wèn)句，即A0003所對(duì)應(yīng)的下行句Q0003。并朗讀Q0003(從耳機(jī)左聲道發(fā)出)；圖4(f)本屏文字隨即向上翻滾，并顯示出第二級(jí)對(duì)話的目標(biāo)集句子。裝置提示朗讀A0008，A0009，A0010，A0011。(從耳機(jī)右聲道發(fā)出)，重復(fù)4(a)，4(b)，4(c)和4(d)的同樣過(guò)程。圖4(g)固定匹配路徑在4a中按框3，以固定匹配路徑學(xué)習(xí)。，使用者不能任選答案，提問(wèn)與答案，以及答案與下一個(gè)提問(wèn)，均為事先確定并唯一對(duì)應(yīng)。其發(fā)聲，提示方式與圖4(a)；4(b)；4(c)；4(d)同。圖4(h)接續(xù)學(xué)習(xí)本機(jī)可自動(dòng)存儲(chǔ)上一次學(xué)習(xí)界面，以直接接續(xù)上次學(xué)習(xí)進(jìn)度學(xué)習(xí)。在圖4(a)中按框4；圖4(I)功能選擇在4(a)中按框5，功能簡(jiǎn)列如圖。圖4(j)自我測(cè)試在4(a)按框6。實(shí)際過(guò)程與4(g)按固定匹配路徑學(xué)習(xí)方式相同。數(shù)據(jù)庫(kù)使用測(cè)試資料。圖同4(g)。
如圖5和圖6所示，語(yǔ)音輸入與輸出設(shè)備是一個(gè)頭戴式耳機(jī)并附有一個(gè)麥克風(fēng)的裝置，麥克風(fēng)為定向?qū)I(yè)式，其對(duì)使用者口部附近的15度以內(nèi)聲音信號(hào)有極好響應(yīng)，但對(duì)此角度以外的噪聲則產(chǎn)生極大衰減。從而排除周圍噪聲干擾。本發(fā)明所述語(yǔ)音輸入設(shè)備為專業(yè)定向麥克風(fēng)，所述耳機(jī)是頭戴式附專業(yè)定向麥克風(fēng)的耳機(jī)，采用頭戴式耳機(jī)與定向話筒一體結(jié)構(gòu)以保證較高的輸入語(yǔ)音信噪比，這個(gè)結(jié)構(gòu)設(shè)計(jì)同時(shí)排除了提問(wèn)發(fā)音、提示發(fā)音、用戶發(fā)音三者之間可能產(chǎn)生的聲音互相干擾與自激效應(yīng)。還可設(shè)置了噪聲偵測(cè)程序，提醒使用者主動(dòng)規(guī)避噪聲。本發(fā)明提供的裝置可對(duì)使用者的發(fā)音質(zhì)量輸出評(píng)價(jià)結(jié)果，評(píng)價(jià)結(jié)果包括以100為滿分的分值和語(yǔ)音輸出的建議性語(yǔ)言。由于這種技術(shù)解決方案是僅為語(yǔ)言學(xué)習(xí)與訓(xùn)練之目的，本發(fā)明已預(yù)先假設(shè)，使用者應(yīng)以本裝置提示音為學(xué)習(xí)訓(xùn)練的標(biāo)準(zhǔn)。對(duì)于使用者本人因口音、年齡、性別等因素產(chǎn)生的較大發(fā)音差異，可能造成的與用戶選擇本意不一致的誤識(shí)別，本裝置建議選用固定路徑方式，作為一種預(yù)訓(xùn)練方法，以符合初級(jí)用戶的學(xué)習(xí)能力。所謂固定路徑指按預(yù)先設(shè)定的固定問(wèn)答對(duì)應(yīng)關(guān)系向前延續(xù)的對(duì)話流程。圖5給出了本發(fā)明裝置的結(jié)構(gòu)示意圖。圖6給出了圖5裝置中使用的語(yǔ)音卡的電路原理圖。語(yǔ)音卡做為本發(fā)明裝置的主要器件，由語(yǔ)音信號(hào)前置放大，低通濾波，以及模數(shù)轉(zhuǎn)換，與PC機(jī)相聯(lián)的數(shù)字接口，數(shù)模轉(zhuǎn)換功率放大與語(yǔ)音輸出幾個(gè)部分組成。
6.1模數(shù)轉(zhuǎn)換電路由U2B之前置放大器，U2D4KHz之低通濾波器，U2C之電位調(diào)整電路及ADC0801模數(shù)轉(zhuǎn)換電路構(gòu)成。
以增益約100倍的前置放大器U2B(LM124)放大語(yǔ)音信號(hào)；由U2D(LM124)及相關(guān)電阻電容構(gòu)成的低通濾波器之截止頻率為4KHz，按8KHz的采樣頻率采集語(yǔ)音數(shù)據(jù)；經(jīng)U2C構(gòu)成的電位調(diào)整電路，將雙極性語(yǔ)音信號(hào)轉(zhuǎn)換為0-5V范圍，以符合數(shù)模轉(zhuǎn)換芯片ADC0801的接口信號(hào)要求。ADC0801將模擬信號(hào)轉(zhuǎn)換為8位數(shù)字?jǐn)?shù)據(jù)。
6.2數(shù)字接口電路由U4接口控制芯片8255做數(shù)字接口，信號(hào)至PC機(jī)的譯碼由由U7(74LS138)，U6A(74LS00)，U12A(74LS04)及U12B(74LS04)完成。，通過(guò)DIP開(kāi)關(guān)選擇地址，DIP開(kāi)關(guān)只有一位ON。
8255芯片的I/O端口中，PA用于A/D語(yǔ)音輸入采樣，PB用于D/A信號(hào)數(shù)字放音。
6.3數(shù)模轉(zhuǎn)換與濾波放大電路擔(dān)任數(shù)模轉(zhuǎn)換任務(wù)的芯片是U9(DAC0800)，用于將數(shù)字信號(hào)轉(zhuǎn)換為雙極性音頻信號(hào)。按本發(fā)明所設(shè)定程序，提問(wèn)信號(hào)入耳機(jī)左聲道，答案提示信號(hào)發(fā)音入耳機(jī)右聲道，在此以一個(gè)模擬開(kāi)關(guān)UI0(4052)轉(zhuǎn)換以上兩種信號(hào)，分別進(jìn)入二路濾波放大電路。即U4(8255)之PC0，PC1入U(xiǎn)10的A，B兩引腳，當(dāng)A(PC0)與B(PC1)均為0時(shí)，信號(hào)從U10的X引腳輸出，入U(xiǎn)5一路為左聲道；當(dāng)A(PC0)為1，B(PC1)為0時(shí)，信號(hào)從U10的Y引腳輸出至U11一路，為右聲道，最后分別由耳機(jī)插孔輸出至雙聲道耳機(jī)
權(quán)利要求
1.一種基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法，其特征在于，以預(yù)先設(shè)定的問(wèn)句和有限集答句結(jié)合計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)來(lái)達(dá)到人機(jī)交互，包括以下步驟1.1)計(jì)算機(jī)裝置輸出一個(gè)提問(wèn)；1.2)計(jì)算機(jī)以聲音或顯示方式中的至少一種，提示2-20個(gè)句子組成的與上述提問(wèn)關(guān)聯(lián)的有限集目標(biāo)答句，使用者擇其一，對(duì)計(jì)算機(jī)語(yǔ)音輸入設(shè)備，念出這個(gè)回答的讀音；1.3)計(jì)算機(jī)對(duì)輸入的使用者語(yǔ)音，與1.2)中的有限集目標(biāo)答句模板逐個(gè)進(jìn)行失真測(cè)度，以比對(duì)確定此輸入語(yǔ)音為上述有限集目標(biāo)答句中的某一個(gè)；1.4)在確定這個(gè)識(shí)別結(jié)果之后，計(jì)算機(jī)程序按所預(yù)定上下邏輯關(guān)系，發(fā)出語(yǔ)意向下連貫的新問(wèn)題，進(jìn)入新一輪對(duì)話場(chǎng)景，即再重復(fù)步驟1.1)，1.2)與1.3)，而使對(duì)話不斷向前延續(xù)，直至某一訓(xùn)練單元結(jié)束。
2.根據(jù)權(quán)利要求1所述方法，其特征在于，所述提問(wèn)與有限集目標(biāo)答句的全體為預(yù)先編撰的腳本，是一個(gè)多路徑可選樹(shù)形結(jié)構(gòu)，其中一個(gè)提問(wèn)句與一組有限集目標(biāo)答句對(duì)應(yīng)，任一回答句與一個(gè)新提問(wèn)句唯一對(duì)應(yīng)，依此確定人機(jī)對(duì)話發(fā)展的邏輯關(guān)系。
3.根據(jù)權(quán)利要求1或2所述方法，其特征在于，所述提問(wèn)句是指裝置自動(dòng)發(fā)出的一個(gè)引導(dǎo)性語(yǔ)音，由發(fā)出預(yù)定的第一個(gè)語(yǔ)音作為對(duì)話過(guò)程的開(kāi)始，在對(duì)話過(guò)程之中，由上一輪對(duì)話中裝置語(yǔ)音識(shí)別出的回答句確定下一個(gè)新的問(wèn)句。
4.根據(jù)權(quán)利要求2所述方法，其特征還在于，預(yù)先編撰腳本中對(duì)一個(gè)問(wèn)題的2-20個(gè)回答句時(shí)，使這些回答句互相之間的語(yǔ)音數(shù)字特征區(qū)別足夠大以便于語(yǔ)音識(shí)別。
5.根據(jù)權(quán)利要求1-4中任何一項(xiàng)所述方法，其特征還在于，在所述步驟1.3)中，根據(jù)得到的失真測(cè)度，提供對(duì)用戶發(fā)音的評(píng)價(jià)。
6.根據(jù)權(quán)利要求1所述方法，其特征在于，可設(shè)定其中的提問(wèn)句與答句均為唯一確定對(duì)應(yīng)，人機(jī)對(duì)話的流程沿一預(yù)先設(shè)定的固定路徑進(jìn)行；語(yǔ)音識(shí)別技術(shù)僅用于根據(jù)得到的失真測(cè)度對(duì)使用者的發(fā)音質(zhì)量給予評(píng)價(jià)。
7.一種基于有限集語(yǔ)音識(shí)別的人機(jī)交互裝置，其特征在于，包括計(jì)算機(jī)、插在計(jì)算機(jī)擴(kuò)展槽內(nèi)的語(yǔ)音卡，以及與語(yǔ)音卡連接的耳機(jī)及麥克風(fēng)，所述語(yǔ)音卡包括連接麥克風(fēng)的語(yǔ)音輸入信號(hào)處理單元、連接耳機(jī)的語(yǔ)音輸出單元以及連接在語(yǔ)音輸入信號(hào)處理單元與語(yǔ)音輸出單元之間的語(yǔ)音數(shù)字信號(hào)處理單元，還包括內(nèi)含有限目標(biāo)語(yǔ)音模板庫(kù)、提問(wèn)語(yǔ)音資料庫(kù)、主控程序以及語(yǔ)音識(shí)別程序的控制程序，用于執(zhí)行以下步驟7.1)通過(guò)顯示器或耳機(jī)輸出一個(gè)提問(wèn)；7.2)通過(guò)耳機(jī)或顯示器輸出提示2-20個(gè)有限集目標(biāo)答句，使用者擇一，對(duì)麥克風(fēng)發(fā)聲念出這個(gè)回答的讀音；7.3)通過(guò)麥克風(fēng)輸入使用者語(yǔ)音，與1.2)中2-20個(gè)有限集目標(biāo)答句的模板進(jìn)行識(shí)別比對(duì)，確定此輸入語(yǔ)音歸屬于這2-20個(gè)某一個(gè)；7.4)在確定這個(gè)識(shí)別結(jié)果之后，計(jì)算機(jī)程序按所編制的腳本，發(fā)出語(yǔ)意向下連貫的新一問(wèn)題，進(jìn)入新一輪對(duì)話場(chǎng)景，即再重復(fù)步驟7.1)，7.2)與7.3)，而使對(duì)話不斷向前延續(xù)，直至結(jié)束某一訓(xùn)練單元結(jié)束。
8.根據(jù)權(quán)利要求7所述裝置，其特征在于，所述麥克風(fēng)為專業(yè)定向麥克風(fēng)，所述耳機(jī)是頭戴式附專業(yè)定向麥克風(fēng)的耳機(jī)，采用頭戴式耳機(jī)與定向話筒為一體結(jié)構(gòu)以保證較高的輸入語(yǔ)音信噪比。
9.根據(jù)權(quán)利要求7所述裝置，其特征在于，采用雙聲道系統(tǒng)分別輸出提問(wèn)句與提示待識(shí)別的目標(biāo)答句，所述雙聲道系統(tǒng)包括雙通道的語(yǔ)音信號(hào)輸出放大單元，以及外接的頭戴式雙聲道耳機(jī)。
10.根據(jù)權(quán)利要求7-9中任何一項(xiàng)所述裝置，其特征還在于，具有自動(dòng)偵測(cè)外界噪聲程序，用于在檢測(cè)到較大外部噪音時(shí)以文字與聲音提示使用者使用時(shí)離開(kāi)高噪聲環(huán)境。
全文摘要
一種建構(gòu)人機(jī)語(yǔ)音連續(xù)交互的方法及其實(shí)施其方法的裝置，由機(jī)器構(gòu)造出一個(gè)場(chǎng)景(給出一提問(wèn))，利用現(xiàn)有語(yǔ)音識(shí)別技術(shù)，對(duì)輸入的用戶應(yīng)答語(yǔ)音以有限數(shù)目標(biāo)為基準(zhǔn)，進(jìn)行判別，以在數(shù)個(gè)目標(biāo)狀態(tài)中轉(zhuǎn)換，并同時(shí)產(chǎn)生新的場(chǎng)景，從而不斷延續(xù)語(yǔ)音交互過(guò)程。其中的預(yù)定有限目標(biāo)，與每個(gè)答案關(guān)聯(lián)的提問(wèn)共同構(gòu)成一樹(shù)形結(jié)構(gòu)的文本。實(shí)現(xiàn)上述方法的裝置包括計(jì)算機(jī)、語(yǔ)音輸入與處理設(shè)備、語(yǔ)音輸出設(shè)備、語(yǔ)音數(shù)字信號(hào)處理電路，及處理軟件包括預(yù)定有限目標(biāo)語(yǔ)音模板庫(kù)、提問(wèn)語(yǔ)音資料庫(kù)、主控程序以及語(yǔ)音識(shí)別程序。利用本發(fā)明方法及裝置能以較低成本實(shí)現(xiàn)有限但有效的語(yǔ)音交互，通過(guò)模仿真實(shí)對(duì)話情景的全過(guò)程，重構(gòu)流暢的對(duì)話情景，可用于語(yǔ)言訓(xùn)練等。
文檔編號(hào)G10L15/00GK1581293SQ0314012
公開(kāi)日2005年2月16日申請(qǐng)日期2003年8月7日優(yōu)先權(quán)日2003年8月7日
發(fā)明者王東籬申請(qǐng)人:王東籬

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王東籬
技術(shù)所有人：王東籬
我是此專利的發(fā)明人

上一篇：無(wú)線網(wǎng)絡(luò)樂(lè)器及一種控制樂(lè)器自動(dòng)演奏的方法
上一篇：改良的吉他及其制造方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

人機(jī)交互裝置相關(guān)技術(shù)

語(yǔ)音識(shí)別數(shù)據(jù)集相關(guān)技術(shù)

百度語(yǔ)音識(shí)別集成相關(guān)技術(shù)

語(yǔ)音識(shí)別相關(guān)技術(shù)

百度語(yǔ)音識(shí)別相關(guān)技術(shù)

語(yǔ)音識(shí)別軟件相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于有限集語(yǔ)音識(shí)別的人機(jī)交互方法與裝置的制作方法