專利名稱:語音教學計算機化系統(tǒng)的制作方法
技術領域:
本發(fā)明一般地涉及教學系統(tǒng)并且更特別地涉及用于語音教學的計算機化系統(tǒng)。
近年來在計算機化語音教學領域已有了許多進展。將例如預錄制的聲音和單詞的提示和插入信號提供給學生并錄制或監(jiān)聽學生們的發(fā)音的語音實驗室是眾所周知的。
由IBM公司投放市場的語音觀察器Ⅱ(Speech Viewer Ⅱ)是一種語音療法(speech therapy)產品,它提供學生發(fā)聲的視聽反饋。
在下列出版物中描述了用于計算機化語音識別的公知方法和裝置,其公開的內容在這里參考引用Flanagan,J.L.“聽說計算機通過話音的人機通信”,Proc IEEE,64卷,1976年,405-415頁;
Itakura,F(xiàn).“應用于語音識別的最小預測殘差原理”,IEEE Trans,Acoustics,speech and Signal Processing,1975年2月一描述了一種時間校準算法和一種計算距離量度的方法;
Le Roux,J.和Gueguen,C.“一種部分相關系數(shù)的定點計算”,IEEE ASSP,1977年6月;
Peacocke,R.D.和Graf,D.H,“一種語音及說話者識別介紹”,IEEE Computer,23(8)卷,1990年8月,26-33頁;
L.R.Rabiner等,“采用群集技術的孤立單詞的非特定人識別”,IEEE Trans,Acoustics,Speech and Signal Processing,ASSP-27卷,第4期,1979年8月,336-349頁;
Rabiner,L.R,Levison,S.E.和Sondhi,M.M,“向量量化和隱式馬爾可夫模型應用于非特定人、孤立單詞識別”,Bell Systems Tech J.,62(4)卷,1983年4月,1075-1105頁;
Rabiner L.R.,和Sanbur M.R,“一種確定孤立發(fā)音終點的算法”,Bell Systems Tech J,1975年2月;
Rabiner,L.R和Wilpon,J.G.,“一種用于說話者訓練的孤立單詞識別系統(tǒng)的簡化的魯棒訓練程序”,J.Acoustical Society of America,1980年11月。
所有上述出版物公開的內容在這里參考引用。
本發(fā)明試圖提供一種改進的用于語音和發(fā)音教學的計算機化系統(tǒng),其中已錄制的參考語音樣本提供給學生并且將學生的重復與原來提供的參考語音樣本之間的相似度的量化顯示給使用者。
本發(fā)明也試圖提供一種語音和發(fā)音教學系統(tǒng),它特別適合于非特定人語音學習并且無需經過訓練的人的語音和發(fā)音專家的參與。本發(fā)明的系統(tǒng)最好包括口頭提示,它指導使用者通過一個教學系統(tǒng)而無需依靠一個教師而進行學習。最好對學生的表現(xiàn)進行監(jiān)視并且口頭提示序列的轉移應考慮學生的表現(xiàn)。例如,預定類型的學生錯誤(例如一個特定語音的重復錯誤發(fā)音)可以從學生語音響應中抽取出來,并且口頭提示序列可以轉移到考慮每一種類型學生錯誤的出現(xiàn)或不出現(xiàn)的情形。
本發(fā)明也試圖提供一種語音和發(fā)音教學系統(tǒng),它特別適合于本國語說話者學習外語的優(yōu)選發(fā)音的教學。最好,本發(fā)明的系統(tǒng)包括一個以多種語言和一個多語言信息提供的初始菜單,它提示使用者選擇代表其本國語的菜單。根據(jù)使用者的本國語的選擇,系統(tǒng)最好以其本國語操作目前的連續(xù)口頭信息給使用者,和/或轉移口頭信息序列以考慮公知的使用者的本國語的說話者頻繁發(fā)生的語言特征(例如發(fā)音錯誤)。例如,當以日語為本國語的說話者說英語時,常常混淆L和R聲以及短I和長E聲(例如在單詞“ship”和“sheep”中)。以阿拉伯語和德語為本國語的說話者沒有這些問題。
因此根據(jù)本發(fā)明的一個優(yōu)選實施例,提供了交互式語音訓練的裝置,它包括一個聲音樣本發(fā)生器和一個聲音樣本記分器,聲音樣本發(fā)生器給使用者播放預先錄制好的參考聲音樣本從而讓使用者嘗試著重發(fā),聲音樣本記分器對使用者的重發(fā)聲音樣本進行記分。
此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,聲音樣本記分器包括一個參考/響應比較單元和一個相似度指示器,參考/響應比較單元將使用者的重發(fā)聲音樣本的至少一個特征與參考聲音樣本的至少一個特征進行比較,相似度指示器提供重發(fā)聲音樣本的至少一個特征與參考聲音樣本的至少一個特征之間的相似度的輸出指示。
此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,本裝置還包括一個使用者響應存儲器,它用于存儲參考聲音樣本的使用者的重發(fā),參考/響應比較單元可以利用使用者響應存儲器。
另外,根據(jù)本發(fā)明的一個優(yōu)選實施例,參考/響應比較單元包括一個音量/持續(xù)時間校正器,它將參考和重發(fā)聲音樣本的間量和持續(xù)時間校正。
此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,參考/響應比較單元包括一個參數(shù)化單元,它從參考和重發(fā)聲音樣品中抽取聲音信號參數(shù)。
另外,根據(jù)本發(fā)明的一個優(yōu)選實施例,參考/響應比較單元還包括將參考聲音樣本參數(shù)與重發(fā)聲音樣本參數(shù)進行比較的裝置。
此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,用于比較的裝置包括一個參數(shù)分數(shù)發(fā)生器,它提供一個表示參考與重發(fā)聲音樣本的聲音信號參數(shù)之間的相似度的分數(shù)。
此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,輸出指示包括分數(shù)的顯示。
根據(jù)本發(fā)明的另一個實施例,輸出指示包括至少一個聲音波形的顯示。
此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,交互式語音訓練裝置包括一個提示序列發(fā)生器,它產生給使用者的提示序列。
此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,交互式語音訓練裝置還包括一個參考聲音樣本庫,其中存儲著參考聲音樣本并且聲音樣本發(fā)生器可以利用參考聲音樣本庫。
另外,根據(jù)本發(fā)明的一個優(yōu)選實施例,參考聲音樣本庫包括由多個語音模型產生的許多聲音樣本的錄音。
此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,多個語音模型在以下特征性別、年齡和方言中的至少一項是相互不同的。
根據(jù)本發(fā)明的又一個優(yōu)選實施例,還提供了用于交互式語音訓練的裝置,它包括一個提示序列發(fā)生器和一個參考/響應比較單元,提示序列發(fā)生器產生給使用者的提示序列并提示使用者產生相應的聲音樣本序列,參考/響應比較單元將由使用者產生的每一個聲音樣本序列的至少一個特征與一個參考信號進行比較。
此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,將單個使用者產生的聲音樣本與參考信號比較的參考信號包括一個相應的存儲參考聲音樣本。
此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,提示序列根據(jù)使用者的表現(xiàn)而轉移。
另外,根據(jù)本發(fā)明的一個優(yōu)選實施例,提示序列至少部分地由使用者指定的本國語確定。
此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,提示序列發(fā)生器包括一個多語言提示序列庫,其中存儲著以多種語言表示的多個提示序列,并且提示序列發(fā)生器根據(jù)使用者指定的其本國語的單一語言產生多種語言中的一種單一語言的提示序列。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了用于交互式語音訓練的裝置,它包括一個聲音樣本錄音機和一個參考/響應比較單元,聲音樣本錄音機用于錄制由使用者產生的聲音樣本,參考/響應比較單元將使用者產生的聲音樣本的至少一個特征與一個參考信號進行比較。比較單元包括一個聲音樣本分段器和一個段比較單元,聲音樣本分段器用于將使用者產生的聲音樣本分成多個段,段比較單元用于將多個段中的至少一個中的至少一個特征與一個參考信號進行比較。
此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,聲音樣本分段器包括一個語音分段器,它將使用者產生的聲音樣本分成多個語音段。
另外,根據(jù)本發(fā)明的一個優(yōu)選實施例,至少一個語音段包括一個語音(例如一個元音或輔音)。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,至少一個語音段可以包括一個音節(jié)。
根據(jù)本發(fā)明的又一個實施例,提供了用于交互式語音訓練的裝置,它包括一個聲音樣本錄音機和一個非特定人聲音樣本記分器,聲音樣本錄音機用于錄制使用者產生的聲音樣本,非特定人聲音樣本記分器根據(jù)至少一個非特定人參數(shù)對使用者產生的聲音樣本進行記分。
此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,至少一個非特定人參數(shù)包括一個用于一個預定頻率上的能量數(shù)值的閥值。
此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,本裝置還包括一個常規(guī)的個人計算機。
從以下結合附圖的詳細描述將理解和欣賞本發(fā)明,其中
圖1是根據(jù)本發(fā)明的一個優(yōu)選實施例構造和操作的一個交互式語音教學系統(tǒng)的一般圖示的示意圖;
圖2是圖1系統(tǒng)的一個簡化框圖;
圖3是圖1系統(tǒng)中的一個部件的簡化框圖;
圖4是顯示用于本發(fā)明的預錄制材料制備的一個簡化流程圖;
圖5A與5B合起來是顯示圖1和圖2裝置的操作的一個簡化流程圖;
圖6是一個語音模型重發(fā)單詞“CAT”0.5秒的一個曲線圖(聲音幅度對時間(秒));
圖7是一個語音模型重發(fā)元音“A”0.128秒的由圖6導出的一個曲線圖(聲音幅度對時間(秒));
圖8是一個學生嘗試著重發(fā)單詞“CAT”0.5秒的曲線圖(聲音幅度對時間(秒));
圖9是一個學生嘗試著重發(fā)元音“A”0.128秒的由圖8導出的曲線圖(聲音幅度對時間(秒));
圖10是一個學生嘗試著重發(fā)單詞“CAT”0.35秒的曲線圖(聲音幅度對時間(秒));
圖11是一個學生嘗試著重發(fā)元音“A”0.128秒的由圖10導出的曲線圖(聲音幅度對時間(秒))。
現(xiàn)在參看圖1和圖2,它們顯示了根據(jù)本發(fā)明的一個優(yōu)選實施例構造和操作的一個交互式語音教學系統(tǒng)。圖1和圖2的系統(tǒng)最好基于一個常規(guī)個人計算機10,例如一臺IBM PC-AT,并且最好配備有一個輔助聲音組件12。例如,一個合適的聲音組件12是由美國加利福尼亞州帕洛阿爾托的Digispeech公司制造的DS201并且在商業(yè)上可從IBM教學系統(tǒng)中獲得。一個耳機14最好與聲音組件12相連接。
正如可以從圖1看到,可選擇地設有一臺顯示器30,它顯示預錄制的參考聲音樣本32和學生嘗試重發(fā)34的校正聲音波形。典型地顯示有定量表示重發(fā)與參考聲音樣本之間的隨時間的相似度的分數(shù)40,以給學生提供反饋。
可以采用任何合適的方法來產生相似度分數(shù)40,例如常規(guī)的相關法。在由Itakura所著的上述參考文獻中描述了一種合適的方法,其公開的內容在這里參考引用。為了采用Itakura描述的距離量度,從語音信號中抽取一階線性預測系數(shù)。然后采用一種動態(tài)規(guī)劃算法來計算學生的重復與一組模型之間的距離,即學生的重復與這些模型的相關程度。
最好,在圖1的計算機10中裝入合適的軟件以執(zhí)行圖2的功能框圖中提出的操作。另外,圖2的結構也可以包括在一個常規(guī)的硬連線電路中。
現(xiàn)在參考圖2的框圖。圖2的裝置包括一個參考聲音樣本放音機100,可操作它給學生110播放參考聲音樣本。典型地通過多個語音模型的每一個預錄制許多語音、單詞和/或短語的每一個參考聲音樣本并且被存儲在一個參考語音樣本庫120中。參考聲音樣本放音機100可以利用參考聲音樣本庫120。
學生110嘗試著重發(fā)每一個參考聲音樣本。他的口頭嘗試由學生響應樣本接收機130接收并且最好由一個數(shù)字化轉換器140數(shù)字化并存儲在一個學生響應樣本存儲器150中。來自存儲器150的每一個存儲的學生響應在一個學生響應樣本放音機154上可選擇地放音給學生。當然,放音機100和154不必是分離的部件,圖中所示的分離的方框只是為了清楚起見。
一個學生響應樣本記分單元160通過利用學生響應樣本接收機130用來評價參考聲音樣本。通過將學生的響應與由庫120存取的相應參考聲音樣本進行比較來計算分數(shù)。
根據(jù)一個參考樣本的學生響應來評價有時比最佳結果差一些,這是因為由一個單一語音模型產生的單一參考樣本不能精確地表示該樣本的最佳發(fā)音。因此,可選擇地或者另外,通過根據(jù)一個非特定人參考信號(例如存儲在一個非特定人參數(shù)數(shù)據(jù)庫170中的一組非特定人參數(shù))評價學生響應,可以計算學生響應的分數(shù)。
根據(jù)本發(fā)明的一個優(yōu)選實施例,數(shù)據(jù)庫170中的非特定人參數(shù)對于說話者的年齡、性別和/或方言是特定的。換句話說,在每一個單獨類型的特定的年齡、性別和/或方言的個人范圍內,這些參數(shù)是與說話者無關的。
一個非特定人參數(shù)的例子是在一個取決于聲音樣本的特定頻率上高能量的出現(xiàn)。例如在圖6中,“貓”(CAT)波形包括第一和第三高頻率、低能量部分和一個介于第一和第三部之間的且中頻率、高能量的第二部分。第一和第三部分相應于CAT中的C和T聲。第二部分相應于A聲。
可以采用頻率分析來評價響應樣本??梢杂嬎闾囟ㄈ藚?shù)(例如共振頻率或線性預測系數(shù)),因而計算的數(shù)值可以與已知的正常范圍進行比較。
學生響應樣本記分單元160將參照圖3進行更詳細的描述。
由記分單元160導出的學生響應分數(shù)或評價在一個顯示器(例如一個電視屏幕)180上顯示給學生。最好,分數(shù)或評價也存儲在一個學生跟蹤數(shù)據(jù)庫190中,數(shù)據(jù)庫190累積有關每一個單獨的學生為了跟蹤目的的進展的信息。
系統(tǒng)與學生的接口最好由一個提示序列發(fā)生器200間接,可以操作提示序列發(fā)生器200給學生產生提示(例如語言提示),它既可以顯示在顯示器180上也可以可聽地提供給學生。最好,提示序列發(fā)生器從記分單元160接收學生的分數(shù),并可操作之將提示序列分支并將參考聲音要樣本提供給由其分數(shù)表明的相應的學生的進展。
根據(jù)本發(fā)明的一個優(yōu)選實施例,提示序列發(fā)生器初始時給學生提供一個菜單,通過這個菜單學生可以指定其本國語。提示序列發(fā)生器最好以下列方式中的至少一種考慮學生的本國語(a)語言提示以其本國語提供給使用者。每一個提示以由系統(tǒng)支持的多個本國語的每一種語言存儲在一個多語言提示庫210中,提示序列發(fā)生器200可以利用多語言提示庫210。
(b)提示序列和參考聲音樣本部分地由本國語指定而確定。例如,以希伯來語為本國語的說話者難以發(fā)英語的R聲。因此,對于說希伯來語的人來說,提示序列和參考聲音樣本可能包括R聲的基本訓練。
現(xiàn)在參看圖3,它是圖2中的學生樣本記分器160的一個優(yōu)選實現(xiàn)的一個簡化框圖。
如上所述,作為輸入記分單元160既可以直接從學生響應樣本接收機130也可以間接地通過學生響應樣本存儲器150接收學生響應樣本。響應的音量和持續(xù)時間最好由一個音量/持續(xù)時間校正器單元250用常規(guī)方法校正。如果采用這里描述的參數(shù)抽取的線性預測編碼方法,那么音量校正就不是必需的,因為在參數(shù)抽取期間音量是與其它參數(shù)相分離的。
可以采用由Itakura所著的上述參考文獻中所描述的時間卷積方法校正持續(xù)時間。
如果希望只分析一個響應樣本的一部分,或者希望分別分析響應樣本的多個部分,那么一個分段單元260將每一個響應樣本進行分段。每一段或每一部分可以包括一個語音單元(例如一個音節(jié)或語音)。例如,輔音C和T可以從一個學生的單詞CAT的發(fā)音中除去,以允許單獨地分析語音A。此外,每一段或每一部分可以包括一個記時單元。如果短的話,采用固定長度的段,那么持續(xù)時間校正就不是必需的了。
為了對一個響應樣本進行分段,首先把靜音邊界(silence-speech boundary)識別為能量增高幾倍于背景聲級并保持高的點??梢圆捎萌魏魏线m的技術識別靜音邊界,例如在由Rabiner和Sambur所著的上述參考文獻中所描述的技術,其公開的內容在這里參考引用。
接著,通過識別能量保持高但在主音頻率降低至大約100至200赫茲的點,而識別輔音/元音邊界。主頻率可以由一個過零記數(shù)器進行測量,可操作過零記數(shù)器記數(shù)波形穿過橫軸的次數(shù)。
此外,可以繞過或省去樣本分段單元260,并且每一個響應樣本可以作為一個單一的單元整體地進行分析。
通過根據(jù)存儲在圖2中非特定人參數(shù)數(shù)據(jù)庫170中的非特定人參數(shù)評價學生響應,可以操作參數(shù)比較單元280對學生響應進行記分。一個單個學生響應的分數(shù)最好代表由參數(shù)化單元270導出的單個學生響應的參數(shù)與存儲在數(shù)據(jù)庫170中的相應非特定人參數(shù)之間的相似度。
例如,系統(tǒng)可以將學生的響應樣本與相應的多個存儲參考樣本進行比較,從而獲得多個相似度數(shù)值,并且可以用這些相似度數(shù)值中的指示最大相似度的最高值作為學生響應的分數(shù)。
由參數(shù)比較單元280計算的學生響應分數(shù)最好提供給圖1中的下列單元(a)顯示器180,它用于顯示給學生。可選擇地,可以給學生提供一個指示分數(shù)的聲音信息;
(b)學生跟蹤數(shù)據(jù)庫190,它用于存儲;
(c)提示序列發(fā)生器200,以使提示序列發(fā)生器能適合于提示的連續(xù)順序并使已錄制的參考聲音樣本能適合于作為由分數(shù)表明的使用者的進展。
現(xiàn)在參看圖4描述系統(tǒng)建立期間用于存儲在參考聲音樣本庫120中的預錄制材料制備的一種優(yōu)選方法。
如上所述,在系統(tǒng)建立期間,對要學習的每一個單詞、語音或其它語音單元都要錄制一個參考聲音樣本。在步驟300中,選擇一組單詞、語音、短語或其它聲音樣本。
最好,采用多個語音模型,以使之能代表多個性別、年齡和地方或民族的方言。例如,在一個設計用于英語發(fā)音教學系統(tǒng)中的多個語音模型可以包括以下六個語音模型男人-英國方言女人-英國方言兒童-英國方言男人-美國方言女人-美國方言兒童-美國方言在步驟310中,選擇多個語音模型。由每一個語音模型產生在步驟300中選擇的每一個聲音樣本。
在步驟320中,系統(tǒng)對每一個錄制的聲音樣本進行錄制、數(shù)字化并且存儲在存儲器中。
在步驟330中,對每一個錄制的聲音樣本的幅度進行校正。
在步驟340中,最好將每一個錄制的聲音樣本劃分成時間段或語音段。
在步驟350中,通過從中抽取至少一個參數(shù)而將每一個錄制的聲音樣本特征化。
現(xiàn)在參看照圖5A-5B的流程圖描述使用圖1-3系統(tǒng)的一個典型使用者對話。
在步驟400中,給使用者提供一個語言菜單并提示他指定其本國語。此外,可以提示使用者用其本國語說一些單詞,并且系統(tǒng)可以分析所說的單詞并識別其本國語。
在步驟405中,給使用者提供一個語音模型菜單,其選擇對應于上述的多個語音模型,并且菜單提示使用者選擇最適合他的語音模型。
在步驟410中,提示使用者選擇一個初始參考聲音樣本(例如一個語音、單詞或短語)以用于練習。此外,用于練習的樣本可以由系統(tǒng)選擇,最好部分地根據(jù)在步驟400中使用者指定的其本國語。
步驟420-給使用者播放參考聲音樣本,并且可選擇地,其波形同時顯示給使用者。
步驟430-使用者嘗試著對參考聲音樣本的重發(fā)由系統(tǒng)接收、數(shù)字化并存儲在存儲器中。
步驟450-系統(tǒng)對聲音電平和重發(fā)聲音樣本的持續(xù)時間進行校正。
步驟460-可選擇地,重放重發(fā)聲音樣本并將重發(fā)聲音樣本的校正波形顯示給使用者。
步驟490-系統(tǒng)通過樣本的參數(shù)化從重發(fā)聲音樣本中抽取聲音特征(例如線性預測系數(shù))。合適的聲音特征抽取方法在由Itakura聽著的上述參考文獻以及其中所引用的參考文獻中進行了描述,其公開的內容在這里參考引用。
步驟500-系統(tǒng)將步驟490中抽取的參數(shù)與參考聲音樣本的存儲特征進行比較并計算相似度分數(shù)。
步驟510-系統(tǒng)顯示相似度分數(shù)。
步驟520-系統(tǒng)最好重放參考和重發(fā)樣本,以供使用者進行聲音比較。
步驟530-可選擇地,系統(tǒng)存儲相似度分數(shù)和/或重發(fā)樣本本身,以用于隨后的跟蹤。
步驟540-除非系統(tǒng)或學生決定對話終止,否則系統(tǒng)返回步驟410。參考樣本的系統(tǒng)選擇最好考慮學生的表現(xiàn)。例如,如果對于一個特定的參考聲音樣本的相似度的分數(shù)低(表明學生的表現(xiàn)差),那么可以重復參考聲音樣本直到獲得一個最低線為止。接著,可以采用一個相似的參考聲音樣本以確保獲得的表現(xiàn)水平推廣到相似的語音任務。
例如,如果使用者在重發(fā)CAT中的A時有困難,那么可以重復地出現(xiàn)樣本CAT并且可以跟隨著包括A的其它樣本(例如BAD)。
圖6-11是多個語音模型和學生產生的語音樣本的波形曲線圖。
圖6表示一個語音模型重發(fā)單詞“CAT”0.5秒的情形。因不是從圖6所示的單詞“CAT”的語音模型的重發(fā)中除去輔音獲得一個語音模型重發(fā)元音“A”0.128秒的曲線圖。如上所述,通過尋找“CAT”中的輔音元音邊界,識別元音“A”的起點。根據(jù)本發(fā)明的實施例,每一個元音的持續(xù)時間預定的。已經發(fā)現(xiàn)0.128秒的預定元音持續(xù)時間能提供滿意的結果,然而這個數(shù)值并不打算是限制性的。
根據(jù)本發(fā)明的另一個實施例,每一個元音的持續(xù)時間不是預定的。取爾代之的是,通過對語音樣本的合適的分析,識別元音/輔音邊界。
圖8是一個學生嘗試著重發(fā)單詞“CAT”0.5秒的曲線圖。
圖9是從圖8所示的單詞“CAT”的語音模型的重發(fā)中除去輔音獲得的一個語音模型重發(fā)元音“A”0.128秒的曲線圖。
圖10是一個學生嘗試著重發(fā)單詞“CAT”0.35秒的曲線圖。圖11是從圖9所示的單詞“CAT”的語音模型的重發(fā)中除去輔音獲得的一個語音模型重發(fā)元音“A”0.128秒的曲線圖。
熟知本領域的技術人員應當理解的是本發(fā)明并不限于以上所特別圖示和描述的內容。相反地,本發(fā)明的范圍只由隨后的權利要求書所限定。
權利要求
1.交互式語音訓練裝置,它包括一個聲音樣本發(fā)生器,它用于給使用者播放預錄制的參考聲音樣本,從而使用者嘗試著重發(fā);一個聲音樣本記分器,它用于對使用者的重發(fā)聲音樣本進行記分。
2.根據(jù)權利要求1所述的裝置,其特征在于,所述聲音樣本記分器包括一個參考/響應比較單元,它用于將使用者的重發(fā)聲音樣本的至少一個特征與所述聲音樣本的至少一個特征進行比較;一個相似度指示器,它用于提供一個至少一個重發(fā)聲音樣本的特征與至少一個參考聲音樣本的特征之間的相似度的輸出指示。
3.根據(jù)權利要求2所述的裝置,其特征在于,還包括一個使用者響應存儲器,它用于存儲參考聲音樣本的使用者的重發(fā),所述參考/響應比較單元可以利用該使用者響應存儲器。
4.根據(jù)權利要求2所述的裝置,其特征在于,所述參考/響應比較單元包括一個音量/持續(xù)時間校正器,它用于將參考和重發(fā)聲音樣本的音量和持續(xù)時間校正。
5.根據(jù)權利要求2所述的裝置,其特征在于,所述參考/響應比較單元包括一個參數(shù)化單元,它用于從所述參考和重發(fā)聲音樣本中抽取聲音信號參數(shù)。
6.根據(jù)權利要求5所述的裝置,其特征在于,所述參考/響應比較單元還包括用于將所述聲音樣本參數(shù)與所述重發(fā)聲音樣本參數(shù)進行比較的裝置。
7.根據(jù)權利要求6所述的裝置,其特征在于,所述用于比較的裝置包括一個參數(shù)分數(shù)發(fā)生器,它提供一個表示所述參考與重發(fā)聲音樣本的聲音信號參數(shù)之間的相似度的分數(shù)。
8.根據(jù)權利要求7所述的裝置,其特征在于,所述輸出指示包括所述分數(shù)的顯示。
9.根據(jù)權利要求2所述的裝置,其特征在于,所述輸出指示包括至少一個聲音波形的顯示。
10.根據(jù)權利要求1所述的裝置,其特征在于,還包括一個提示序列發(fā)生器,它給使用者產生提示序列。
11.根據(jù)權利要求1所述的交互式語音訓練裝置,其特征在于,還包括一個參考聲音樣本庫,其中存儲著參考聲音樣本,并且所述聲音樣本發(fā)生器可以利用該參考聲音樣本庫。
12.根據(jù)權利要求11所述的裝置,其特征在于,所述參考聲音樣本庫包括由多個語音模型產生的聲音樣本的大量錄音。
13.根據(jù)權利要求12所述的裝置,其特征在于,所述多個語音模型以下特征中的至少一項中是相互不同的性別;年齡;方言。
14.交互式語音訓練裝置,它包括一個提示序列發(fā)生器,它給使用者產生提示序列并提示使用者產生相應的聲音樣本序列,一個參考/響應比較單元,它將該使用者產生的每一個聲音樣本的至少一個特征與一個參考進行比較。
15.根據(jù)權利要求14所述裝置,其特征在于,所述與單個使用者產生的聲音樣本比較的參考包括一個相應的存儲的參考聲音樣本。
16.根據(jù)權利要求14所述的裝置,其特征在于,所述提示序列根據(jù)使用者的表現(xiàn)轉移。
17.根據(jù)權利要求14所述的裝置,其特征在于,所述提示序列至少部分地由使用者指定的本國語確定。
18.根據(jù)權利要求14所述的裝置,其特征在于,所述提示序列發(fā)生器包括一個多語言提示序列庫,其中存儲著以多種語言表示的多個提示序列,并且該提示序列發(fā)生器根據(jù)使用者指定的基本國語的單一語言操作產生多種語言中的一種單一語言的提示序列。
19.交互式語音訓練裝置,它包括一個聲音樣本錄音機,它錄制使用者產生的聲音樣本;一個參考/響應比較單元,它將使用者產生的聲音樣本的至少一個特征與一個參考進行比較,該比較單元包括一個聲音樣本分段器,它將使用者產生的聲音樣本分段成多個段;一個段比較單元,它將多個段中的至少一個中的至少一個特征與一個參考進行比較。
20.根據(jù)權利要求19所述的裝置,其特征在于,所述聲音樣本分段器包括一個語音分段器,它將使用者產生的聲音樣本分段成多個語音段。
21.根據(jù)權利要求20所述的裝置,其特征在于,至少一個所述語音段包括一個語音。
22.根據(jù)權利要求20所述的裝置,其特征在于,至少一個所述語音段包括一個音節(jié)。
23.根據(jù)權利要求21所述的裝置,其特征在于,所述語音包括一個元音。
24.根據(jù)權利要求21所述的裝置,其特征在于,所述語音包括一個輔音。
25.交互式語音訓練裝置,它包括一個聲音樣本錄音機,它錄制由使用者產生的聲音樣本;一個非特定人聲音樣本記分器,它基于至少一個非特定人參數(shù)對使用者產生的聲音樣本進行記分。
26.根據(jù)權利要求25所述的裝置,其特征在于,所述至少一個非特定人參數(shù)包括一個用于一個預定頻率上的能量數(shù)值的閥值。
27.根據(jù)權利要求1所述的裝置,其特征在于,還包括一個常規(guī)個人計算機。
全文摘要
一種用于語音和發(fā)音訓練的改進的計算機化系統(tǒng),它將錄制的參考語音樣本提供給學生,并且將學生的重發(fā)與原來提供的參考語音樣本之間的相似度的量化顯示給使用者。
文檔編號G09B7/04GK1101446SQ9410264
公開日1995年4月12日 申請日期1994年1月20日 優(yōu)先權日1993年1月21日
發(fā)明者齊夫·施皮羅, 加布里埃爾·F·格羅尼爾, 埃里克·奧登特里齊 申請人:Dsp颯露神思國際公司