語音辨識方法及系統(tǒng)的制作方法

文檔序號：2821273閱讀：248來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音辨識方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語音辨識方法及系統(tǒng)，尤其是指一種可確認或更正辨識結(jié)果的語音辨識方法及系統(tǒng)。
(2)背景技術(shù)語音辨識的結(jié)果常常包含部分的錯誤，處理這些錯誤的方法，除了重新輸入外，往往是一個一個地采用語音辨識的方法來進行確認，如此一來，除了花費大量的時間于確認及更正的對話過程外，以不能保證正確的語音辨識來進行確認，更是容易造成其他的錯誤，而導(dǎo)致對話過程的發(fā)散。
請參閱圖1，其系習(xí)知語音辨識方法的流程圖。
步驟11，首先，系統(tǒng)對使用者進行提問。
步驟12，而使用者在接收系統(tǒng)提問后即進行語音輸入。
步驟13，接著，系統(tǒng)會對使用者所輸入的語音進行辨識。
步驟14，判斷辨識結(jié)果是否正確，當辨識結(jié)果不正確時，則跳回步驟12，以重新進行語音輸入。
步驟15，當辨識結(jié)果正確時，系統(tǒng)會將該辨識結(jié)果作為已知值，并將已知值儲存于一儲存裝置中，例如一暫存器。
步驟16，最后，系統(tǒng)會判定已知值是否充足，當已知值充足時，結(jié)束該流程；而當已知值不充足時，則跳回步驟11，以重新進行系統(tǒng)提問。
圖1系為現(xiàn)行的語音辨識方法的流程，然而，其又分為有顯示介面與無顯示介面兩種。
沒有顯示介面時，在系統(tǒng)提問(步驟11)時，乃是由系統(tǒng)利用語音的方式來提問，除了可能因為使用者聽錯而造成錯誤外，語音提問所需的時間是超過使用顯示介面的。此外，在判斷辨識結(jié)果是否正確時，同樣沒有顯示的介面，除了上述問題外，如果系統(tǒng)容許使用者同時輸入一個以上的值，而在辨識時發(fā)生部分結(jié)果誤判的情況，使用者除了以全部重講一次的方法進行更正之外，只能以語音指定的方法來進行修改，例如，《歌名不是愛像大海，而是愛如潮水》。這兩個方法除了耗時之外，尚不能保證一定正確，因此往往造成對話的發(fā)散，使得整個對話無法完成。
有顯示介面時，在顯示介面的幫助下，系統(tǒng)不再只能依靠語音介面，因此可以避免語音介面的延遲和不準確性。但是在語音辨識發(fā)生錯誤時，使用者雖然能夠清楚的分辨出錯誤所在，但是仍然只能依靠語音辨識的介面來進行更正，此缺點和沒有顯示介面的語音辨識系統(tǒng)是完全相同的。
此外，先進的電子影音資料儲存及播放裝置日新月異，儲存的資料或觀看收聽的節(jié)目越來越多，因而查詢檢索的使用越來越困難。
目前常見的裝置上的資料或節(jié)目檢索搜尋方法，以按鍵式的選單檢索方式為主，包含直接在裝置上用按鍵輸入，或是利用遙控器上的按鍵輸入。例如，錄音機或電視機的功能控制，或是選臺控制。由于受限于按鍵的數(shù)目有限，常常需要階層選單式的屏幕顯示介面作為輔助，選單的復(fù)雜階層也常令使用者感到步驟繁瑣冗長，不夠有效率。
越來越小且越來越聰明的電子消費裝置，如雨后春筍的速度冒出頭來。一臺個人數(shù)位助理(Personal Digital Assistant，PDA)可以紀錄許多個人的資料，例如名片電話地址、個人行事簡歷、個人記事本、MP3個人收錄音樂、收音機選臺等等。功能指令越來越多，但是裝置上的按鍵數(shù)目因為體積小而有所限制，而且屏幕很小，可能越來越不夠顯示所有的功能指令于一頁屏幕上，更別提繁多指令帶給消費者記憶背頌上的困難。所以使用語音作為自然的輸入介面，就帶給人們普遍的期待。
然而，使用語音辨識做為輸入介面的系統(tǒng)，雖然較為自然，但是辨識錯誤的情況仍較頻繁，造成錯誤的輸入更令使用者感到不習(xí)慣，而更正錯誤的方法也可能沒有好的效率，因而令消費者卻步。所以設(shè)計更簡單方便、好用、易更正的先進智慧型語音理解互動式搜尋系統(tǒng)，刻不容緩。
(3)發(fā)明內(nèi)容申請人有鑒于現(xiàn)有技術(shù)的缺點，提出一種語音辨識方法及系統(tǒng)，用以改善上述現(xiàn)有技術(shù)存在的缺點。
本發(fā)明的主要目的在于提供一種語音辨識方法及系統(tǒng)，系采用一顯示裝置來顯示辨識的結(jié)果，并配合一鎖定裝置來進行確認動作，以取代現(xiàn)有技術(shù)使用語音對話來進行確認的方法。
本發(fā)明的另一目的在于提供一種語音辨識方法及系統(tǒng)，系使用小部分的屏幕來作為語言理解的溝通介面，并配合一小型鍵盤來進行確認/更正動作，以取代現(xiàn)有技術(shù)使用語音對話來進行確認的方法。
本發(fā)明的目的是這樣實現(xiàn)的，本發(fā)明提供一種語音辨識的方法，其步驟包含(a)接收一使用者的語音，并進行該語音的辨識，以產(chǎn)生復(fù)數(shù)個辨識結(jié)果；(b)顯示上述復(fù)數(shù)個辨識結(jié)果，以供該使用者鎖定上述復(fù)數(shù)個辨識結(jié)果中的正確值；(c)判斷該正確值是否充足；(d)當該正確值不充足時，將該正確值儲存為已知值，縮小辨識范圍并重復(fù)步驟(a)至步驟(c)；以及(e)當該正確值充足時，根據(jù)該正確值來搜尋一資料。
如所述的語音辨識的方法，上述復(fù)數(shù)個辨識結(jié)果系顯示于一顯示裝置上。
如所述的語音辨識的方法，上述顯示裝置為一觸摸式屏幕(touchscreen)。
如所述的語音辨識的方法，步驟(b)中，該使用者是經(jīng)由一鎖定裝置來鎖定上述復(fù)數(shù)個辨識結(jié)果中之正確值。如所述的語音辨識的方法，上述鎖定裝置為一按鍵、或觸摸式屏幕、或一遙控器。
如所述的語音辨識的方法，上述已知值儲存于一儲存裝置。
如所述的語音辨識的方法，上述儲存裝置為一暫存器。
如所述的語音辨識的方法，步驟(e)中，當上述正確值充足時，是根據(jù)該正確值來搜尋一資料庫，以找出該資料。
如所述的語音辨識的方法，上述資料庫為一記憶體(memory)、或一快閃磁盤(flash disk)、或一硬盤(hard disk)、或一遠端伺服器(server)。
如所述的語音辨識的方法，還包含在部分正確值已知的狀態(tài)下，重新進行語音辨識之前該使用者所輸入的該語音的步驟。
本發(fā)明的目的是這樣實現(xiàn)的，本發(fā)明另提供一種語音辨識的方法，其步驟包含(a)于一顯示裝置上顯示復(fù)數(shù)個欄位，其中每一欄位是對應(yīng)于一類別；(b)使用者根據(jù)復(fù)數(shù)個類別而輸入一語音；(c)辨識該輸入的語音，以產(chǎn)生復(fù)數(shù)個辨識結(jié)果；(d)顯示這些復(fù)數(shù)個辨識結(jié)果于其對應(yīng)的欄位，以供該使用者經(jīng)由一鎖定裝置來鎖定復(fù)數(shù)個辨識結(jié)果中的正確值；(e)判斷該正確值是否充足；(f)當該正確值不充足時，將該正確值儲存為已知值，縮小辨識范圍并重復(fù)步驟(b)至步驟(e)；以及(g)當該正確值充足時，根據(jù)該正確值來搜尋一資料。
如所述的語音辨識的方法，還包含在部分正確值已知的狀態(tài)下，重新辨識之前該使用者所輸入的該語音的步驟。
如所述的語音辨識的方法，還包含在上述復(fù)數(shù)個欄位尚未全部填滿前，徑行搜尋該未填滿資料的步驟。
本發(fā)明的目的是這樣實現(xiàn)的，本發(fā)明又提供一種語音辨識系統(tǒng)，其包含一語音輸入裝置，用以接收一使用者的一語音；一語音辨識裝置，連結(jié)于該語音輸入裝置，用以辨識該語音，以產(chǎn)生復(fù)數(shù)個辨識結(jié)果；一顯示裝置，連結(jié)于該語音辨識裝置，用以顯示上述復(fù)數(shù)個辨識結(jié)果；一鎖定裝置，連結(jié)于該顯示裝置，用以供該使用者鎖定上述復(fù)數(shù)個辨識結(jié)果中的正確值；一儲存裝置，連結(jié)于鎖定裝置，用以將該正確值儲存為已知值；以及一資料庫，連結(jié)于鎖定裝置，用以存放一資料，以供系統(tǒng)根據(jù)該正確值來搜尋該資料。
如所述的語音辨識系統(tǒng)，該顯示裝置為一觸摸式屏幕。
如所述的語音辨識系統(tǒng)，該鎖定裝置為一按鍵、或觸摸式屏幕、或一遙控器。
如所述的語音辨識系統(tǒng)，該儲存裝置為一暫存器。
如所述的語音辨識系統(tǒng)，所述的正確值不充足時，經(jīng)由該儲存裝置將該正確值儲存為已知值。
如所述的語音辨識系統(tǒng)，該資料庫系為一記憶體、或一快閃磁盤、或一硬盤、或一遠端伺服器。
如所述的語音辨識系統(tǒng)，所述的正確值充足時，根據(jù)該正確值來搜尋該資料庫，以找出資料。
本發(fā)明的目的是這樣實現(xiàn)的，本發(fā)明再提供一種語音辨識的方法，其步驟包含(a)接收一使用者的語音，并進行該語音的辨識，以產(chǎn)生復(fù)數(shù)個辨識結(jié)果；(b)顯示上述復(fù)數(shù)個辨識結(jié)果其中之一，以供該使用者進行確認/更正；(c)重復(fù)步驟(b)，直到該使用者完成所有辨識結(jié)果的確認/更正；以及(d)根據(jù)該確認/更正后的辨識結(jié)果來搜尋一資料。
如所述的語音辨識的方法，上述復(fù)數(shù)個辨識結(jié)果系逐一顯示于一顯示裝置的一特定區(qū)域。
如所述的語音辨識的方法，上述復(fù)數(shù)個辨識結(jié)果系依照類別-內(nèi)容值的格式來顯示。
如所述的語音辨識的方法，其中步驟(b)中，該使用者系經(jīng)由一控制裝置來逐一確認/更正該類別-內(nèi)容值。
如所述的語音辨識的方法，該控制裝置系為一小型鍵盤、或一遙控器、或一個人數(shù)位助理(personal digital assistant)。
如所述的語音辨識的方法，該小型鍵盤包含一錄音/播音鍵、一接受鍵、一拒絕鍵、一類別更正鍵、及一內(nèi)容值更正鍵。
如所述的語音辨識的方法，還包含于任一類別-內(nèi)容值的確認/更正完成后，即根據(jù)該確認/更正后的類別-內(nèi)容值來搜尋該資料的步驟。
如所述的語音辨識的方法，還包含判斷其他尚未完成確認/更正的類別-內(nèi)容值是否還要繼續(xù)進行確認/更正的步驟。
本發(fā)明的目的是這樣實現(xiàn)的，本發(fā)明再提供一種語音辨識系統(tǒng)，其包含一輸入裝置，用以接收一使用者的一語音；一語音辨識理解器，連結(jié)于該輸入裝置，用以因應(yīng)該語音而產(chǎn)生復(fù)數(shù)個辨識結(jié)果；一互動式語義確認/更正軟件元件，連結(jié)于該語音辨識理解器，用以確認/更正該等辨識結(jié)果；一顯示裝置，連結(jié)于該互動式語義確認/更正軟件元件，用以逐一顯示上述復(fù)數(shù)個辨識結(jié)果于其上的一特定區(qū)域；一控制裝置，連結(jié)于該互動式語義確認/更正軟件元件，用以供該使用者進行該等辨識結(jié)果的確認/更正；以及一搜尋軟件元件，連結(jié)于該互動式語義確認/更正軟件元件，用以根據(jù)該確認/更正后的辨識結(jié)果來搜尋一資料。
如所述的語音辨識系統(tǒng)，和包含一儲存/接收裝置，用以存放資料。
如所述的語音辨識系統(tǒng)，該資料為數(shù)位資料或影音節(jié)目。
如所述的語音辨識系統(tǒng)，該輸入裝置為一麥克風。
如所述的語音辨識系統(tǒng)，該語音辨識理解器包含一語音辨識器及一語言理解器。
如所述的語音辨識系統(tǒng)，該語音辨識器系根據(jù)一語匯來進行語音辨識。
如所述的語音辨識系統(tǒng)，該語言理解器系根據(jù)一文法來進行語言理解。
如所述的語音辨識系統(tǒng)，復(fù)數(shù)個辨識結(jié)果為類別-內(nèi)容值對。
如所述的語音辨識系統(tǒng)，該控制裝置系為一小型鍵盤、或一遙控器、或一個人數(shù)位助理。
如所述的語音辨識系統(tǒng)，該小型鍵盤包含一錄音/播音鍵、一接受鍵、一拒絕鍵、一類別更正鍵、及一內(nèi)容值更正鍵。
本發(fā)明的目的是這樣實現(xiàn)的，本發(fā)明再提供一種語音辨識的方法，其步驟包含(a)接收一使用者的語音，并進行該語音的辨識，以產(chǎn)生復(fù)數(shù)個辨識結(jié)果；(b)顯示上述復(fù)數(shù)個辨識結(jié)果，以供該使用者進行確認/更正；(c)根據(jù)該確認/更正后的辨識結(jié)果來搜尋一資料。
如所述的語音辨識的方法，上述復(fù)數(shù)個辨識結(jié)果是同時顯示。
如所述的語音辨識的方法，上述復(fù)數(shù)個辨識結(jié)果是逐一顯示。
如所述的語音辨識的方法，在步驟(b)中，是經(jīng)由該使用者重新輸入的語音來進行更正。
如所述的語音辨識的方法，在步驟(b)中，是經(jīng)由一控制裝置來進行更正。
本發(fā)明的效果本發(fā)明的語音辨識方法及系統(tǒng)的互動語音理解元件提供了主要的人機介面功能，能夠快速有效的達成大量資訊的檢索。適合應(yīng)用的范圍包括屏幕較小的裝置，例如小型的數(shù)位影音儲存及播放裝置，如MP3播放器，智慧型行動電話(Smart Phone)等等。也可以應(yīng)用在具有大型屏幕的裝置上，其特殊的處為只使用屏幕的一小部分區(qū)域來作為語音理解的溝通介面，而不會影響到節(jié)目的觀看，例如電視機的控制，節(jié)目選擇，或影音品質(zhì)調(diào)整等等；或是錄影機的控制，如錄影時間設(shè)定，預(yù)錄節(jié)目的播放等等。
綜上所述，本發(fā)明能有效改善現(xiàn)有技術(shù)的缺點，具有產(chǎn)業(yè)價值。
為進一步說明本發(fā)明的上述目的、結(jié)構(gòu)特點和效果，以下將結(jié)合附圖對本發(fā)明進行詳細的描述。
(4)

圖1其是現(xiàn)有技術(shù)的語音辨識方法的流程圖。
圖2其是本發(fā)明一實施例的語音辨識系統(tǒng)的架構(gòu)圖。
圖3其是本發(fā)明一實施例的語音辨識方法的流程圖。
圖4其是本發(fā)明一實施例的語音辨識系統(tǒng)應(yīng)用于一手持隨身裝置的示意圖。
圖5其是本發(fā)明另一實施例的語音辨識系統(tǒng)的架構(gòu)圖。
圖6其是本發(fā)明另一實施例的小型鍵盤的按鍵功能示意圖。
圖7其是本發(fā)明另一實施例的語音辨識系統(tǒng)應(yīng)用于一MP3隨身聽的示意圖。
圖8其是本發(fā)明另一實施例的語音辨識系統(tǒng)應(yīng)用于一電視機的示意圖。
附圖中主要元件的符號說明15儲存裝置21語音輸入裝置22語音辨識裝置23顯示裝置24鎖定裝置25儲存裝置26資料庫 41手持隨身裝置51儲存接收裝置53輸入裝置54語音辨識器 55語言理解器56互動式語義確認/更正軟件元件57搜尋軟件元件58顯示裝置59小型鍵盤(5)具體實施方式
下面，參見附圖，對本發(fā)明的語音辨識方法及系統(tǒng)的實施方式進行詳細說明。
請參閱圖2，其是本發(fā)明一實施例的語音辨識系統(tǒng)的架構(gòu)圖。該語音辨識系統(tǒng)包含一語音輸入裝置21、一語音辨識裝置22，連結(jié)于語音輸入裝置21、一顯示裝置23，連結(jié)于語音辨識裝置22、一鎖定裝置24，連結(jié)于顯示裝置23、一儲存裝置25，連結(jié)于鎖定裝置24、及一資料庫26，連結(jié)于鎖定裝置24。其中，該語音輸入裝置21是用以接收一使用者的一語音。該語音辨識裝置22是用以辨識輸入裝置21輸出的該語音，以產(chǎn)生復(fù)數(shù)個辨識結(jié)果。該顯示裝置23是用以顯示該語音辨識裝置22的復(fù)數(shù)個辨識結(jié)果。該鎖定裝置24是用以供該使用者鎖定顯示裝置23顯示的復(fù)數(shù)個辨識結(jié)果中的正確值。該儲存裝置25是在鎖定裝置24中鎖定的該正確值不充足時，將該正確值儲存為已知值。而該資料庫26系用以存放一資料，以供系統(tǒng)中鎖定裝置24中鎖定的該正確值充足時，根據(jù)該正確值來搜尋該資料。
上述的鎖定裝置24可為一按鍵、或一觸摸式屏幕、或一遙控器，而當該鎖定裝置24為一觸摸式屏幕時，該觸摸式屏幕可同時作為該顯示裝置23來使用；該儲存裝置25為一暫存器；該資料庫26可為一記憶體、或一快閃磁盤、或一硬盤、或一遠端伺服器；任何資料均可使用上述系統(tǒng)來進行搜尋，如飛機時刻、股票資訊等等。
請同時參閱圖2與圖3，圖3系為本發(fā)明一實施例的語音辨識方法的流程圖。
步驟31，使用者在看到該顯示裝置上所提示的復(fù)數(shù)個欄位后，即可輸入語音。
步驟32，接著，系統(tǒng)會進行語音辨識，產(chǎn)生復(fù)數(shù)個辨識結(jié)果。
步驟33，將辨識后的結(jié)果顯示于對應(yīng)的欄位，顯示裝置輸出復(fù)數(shù)個辨識結(jié)果，此時使用者可依此進行挑選，并經(jīng)由該鎖定裝置24來鎖定復(fù)數(shù)個辨識結(jié)果中的正確值。
步驟34，在正確值鎖定后，系統(tǒng)會判斷正確值是否充足，當正確值不充足時，系統(tǒng)會經(jīng)由該儲存裝置25將正確值儲存為已知值，并回到步驟31，如此直到獲得足夠的資料為止；而當正確值充足時，便可完成對話流程，此時系統(tǒng)會根據(jù)正確值來搜尋該資料庫26，以找出該資料。
此外，圖3中還表示，在部分正確值已知的狀態(tài)下，重新進行語音辨識之前，使用者所輸入的該語音的步驟。
圖4系為本發(fā)明的語音辨識系統(tǒng)應(yīng)用于一手持隨身裝置41的示意圖，其中該手持隨身裝置為一歌曲搜尋裝置。如圖4所示，顯示裝置23中顯示《歌手》這個類別的值為《孫燕姿》，《歌名》這個類別的值為《天黑黑，而《專輯》這個類別的欄位為空白，代表其值為未知，在鎖定裝置24中需要使用者的語音輸入來填滿這個欄位，以進行搜尋。
上述的語音辨識方法及系統(tǒng)具有下列優(yōu)點1.采用《類別-內(nèi)容值(Attribute-Value)》的方式，將辨識后的結(jié)果顯示于該顯示裝置23上，因此使用者只需一眼就可看出有哪些欄位還是空的，亦即，不需要系統(tǒng)提問，使用者便能知道接下來該提供哪些資訊。
2.采用《已知值鎖定》的方法來去除辨識錯誤的結(jié)果。在使用者進行語音輸入后，系統(tǒng)便會將辨識結(jié)果顯示于對應(yīng)的欄位，此時使用者可以采用保留正確答案，或是刪除錯誤答案的方法來篩選正確的結(jié)果。之后，被保留下來的正確值將進入《鎖定》的狀態(tài)，其值將被視為《已知值》而不會改變，使用者接下來的輸入僅能改變未被鎖定的部分。因此，已經(jīng)鎖定的類別不會被改變，故系統(tǒng)可依此縮小辨識的范圍，除了提高辨識率外，也可以減少辨識所需的時間。
3.使用者可以自然語言方式一次輸入一個以上的類別。
4.在部分類別已知的狀態(tài)下，系統(tǒng)可以依此縮小辨識的范圍。
5.系統(tǒng)可以在部分類別已知的狀態(tài)下，重新辨識之前使用者所輸入的語音。
6.系統(tǒng)可在類別尚未全部填滿前，進行搜尋。
請參閱圖5，其是本發(fā)明另一實施例的語音辨識系統(tǒng)的架構(gòu)圖。該語音辨識系統(tǒng)包含一數(shù)位資料和影音節(jié)目的儲存/接收裝置51(例如MP 3播放器、收音機、和電視機)，一互動式智慧型語音辨識理解單元(以下簡稱“互動語音理解單元”)，及一搜尋軟件元件57。該互動語音理解單元包含一輸入裝置53(例如麥克風)，一可顯示字元的顯示裝置58(例如屏幕)，一小型鍵盤59，一語音辨識器54(連接于輸入裝置53)，一語言理解器55(連接于語音辨識器54)，及一互動式語義確認/更正軟件元件56(連接于語言理解器55、小型鍵盤59，并與顯示裝置58連接)。
其中，該輸入裝置53系用以接收一使用者的一語音。該語音辨識器54是根據(jù)一語匯來對該輸入裝置53的輸出進行語音辨識，而該語言理解器55是根據(jù)一文法來對語音辨識器54的輸出進行語言理解，以產(chǎn)生復(fù)數(shù)個辨識結(jié)果。該互動式語義確認/更正軟件元件56是用以確認/更正該該語言理解器55的辨識結(jié)果。該顯示裝置58是用以逐一顯示該互動式語義確認/更正軟件元件56的辨識結(jié)果于其上的一特定區(qū)域。該小型鍵盤59是用以供該使用者進行該確認/更正該該語言理解器55的辨識結(jié)果的確認/更正的控制裝置，其亦可以一遙控器或一個人數(shù)位助理來替代。而該搜尋軟件元件57是用以根據(jù)該確認/更正該該語言理解器55的確認/更正后的辨識結(jié)果來搜尋該儲存/接收裝置51，以找出對應(yīng)的數(shù)位資料或影音節(jié)目。
數(shù)位資料和影音節(jié)目的儲存/接收裝置51中，被儲存或可供接收的數(shù)位資料和影音節(jié)目，其供做檢索的名稱，須依其類別或性質(zhì)事先分門別類。例如張惠妹的歌曲“Bad boy″”被歸類為“歌曲”類別，其“演唱者”類別的內(nèi)容值為“張惠妹”。又一例節(jié)目“華視晚間新聞”是它的“節(jié)目名稱”類別的內(nèi)容值，它的“節(jié)目類別”類別的內(nèi)容值是“新聞節(jié)目”，它的“電臺”類別的內(nèi)容值是“華視”，它的“撥出時間”類別的內(nèi)容值是“PM7-8”。
檢索時自然的使用日常語句提出搜尋，例如“轉(zhuǎn)華視晚間新聞”，或是“張惠妹的Bad boy”，而不用僵硬的使用階層式的選單指令，例如先說“電視”，再說“新聞節(jié)目”，最后才能說出節(jié)目名稱是“華視晚間新聞”。
依類別或性質(zhì)分門別類的檢索項目，經(jīng)過資料處理52后所對應(yīng)產(chǎn)生的語匯和文法，會作為語音辨識和語言理解的根據(jù)。此外，該語音辨識器54和該語言理解器55可以合成單一元件。
該互動語音理解單元接收了使用者的語音后，會經(jīng)由該語音辨識器54和該語言理解器55，將語音理解出成對的“類別-內(nèi)容值”對(attribute-value pair)，雖然使用者并不一定說出類別。例如，使用者說出“張惠妹的Bad boy”，但并未說出“歌手”兩字，但是該顯示裝置會顯示出“歌手-張惠妹”這樣的“類別-內(nèi)容值”對。同一句話可以產(chǎn)生多個類別-內(nèi)容值對。最后通過該互動式語義確認/更正軟件元件56來完成錯誤的更正，或是正確語義的確認。該互動方法詳述如下。
1.本實施例的方法系專為一次一個“類別-內(nèi)容值”對的確認或更正所設(shè)計。第一，是為了能夠顯示“類別-內(nèi)容值”對在該顯示裝置58上，或是在不影響節(jié)目觀看功能下，只占用該顯示裝置58的一特定區(qū)域來顯示“類別-內(nèi)容值”對。第二，是為了只使用一包含五個按鍵的小型鍵盤59，就可以進行簡易的互動式確認/更正步驟。
2.一次顯示一個“類別-內(nèi)容值”對在該顯示裝置58上，且提供一包含五個按鍵的小型鍵盤59與使用者所錄的語音進行互動。
3.請參閱圖6，其是本發(fā)明的小型鍵盤59的按鍵功能示意圖。該五個按鍵分別代表以下五個主要功能錄/播音鍵、接受鍵、拒絕鍵、類別更正鍵、及內(nèi)容值更正鍵。
錄/播音鍵輕按錄/播音鍵為播放“類別-內(nèi)容值”對所對應(yīng)的使用者聲音段落。重(久)按錄/播音鍵為重新錄音，以重新依次進行“類別-內(nèi)容值”對的確認或更正步驟。
接受鍵輕按接受鍵為接受“類別-內(nèi)容值”對，并進行下一個動作。如果還有尚未完成確認或更正的“類別-內(nèi)容值”對時，下一個動作就是顯示出下一個未完成確認或更正的“類別-內(nèi)容值”對，并進行互動。
拒絕鍵輕按拒絕鍵為拒絕“類別-內(nèi)容值”對，并進行下一個動作。如果還有尚未完成確認或更正的“類別-內(nèi)容值”對時，下一個動作就是顯示出下一個未完成確認或更正的“類別-內(nèi)容值”對，并進行互動。
類別更正鍵輕按類別更正鍵為更正選取另一個Top-N候選的“類別-內(nèi)容值”對中的“類別”。重(久)按類別更正鍵為重新錄音及辨識另一個可能的“類別-內(nèi)容值”對中的“類別”。
內(nèi)容值更正鍵輕按內(nèi)容值更正鍵為更正選取另一個Top-N候選的“類別-內(nèi)容值”對中的“內(nèi)容值”。重(久)按內(nèi)容值更正鍵為重新錄音及辨識另一個可能的“類別-內(nèi)容值”對中的“內(nèi)容值”。
4.如果有多個“類別-內(nèi)容值”對，顯示的順序由系統(tǒng)經(jīng)由智慧判斷而決定，并非依照說話的順序而決定。決定的方法，主要考量對使用者的便利，例如互動的親切自然度要高，按鍵的總次數(shù)要少等等。
5.任一個“類別-內(nèi)容值”對的確認或更正完成的后，都可以進行搜尋的動作，并智慧的判斷其他尚未完成確認或更正的“類別-內(nèi)容值”對是否還要繼繼進行確認或更正，或是直接將搜尋的結(jié)果(數(shù)量或各個項目)顯示于該顯示裝置58，以供使用者直接查閱。
請同時參閱圖6及圖7，圖7是為本發(fā)明另一較佳實施例的語音辨識系統(tǒng)應(yīng)用于一MP3隨身聽的示意圖。首先，使用者說出《張信哲的愛如潮水》后，系統(tǒng)開始進行語音辨識。接著，該顯示裝置58上出現(xiàn)《歌手/張信哲》這樣的《類別/內(nèi)容值》對，此時使用者按接受鍵。在按下接受鍵后，該顯示裝置58上出現(xiàn)《歌曲/愛已成風》這樣的《類別/內(nèi)容值》對，此時使用者使用《內(nèi)容值更正鍵》來進行更正。最后，該顯示裝置58上出現(xiàn)《歌曲/愛如潮水》這樣的《類別/內(nèi)容值》對，在使用者按下接受鍵后，系統(tǒng)即會根據(jù)確認/更正后的辨識結(jié)果來搜尋該儲存/接收裝置51，以找出《愛如潮水》的歌曲檔案。
本實施例的互動語音理解元件提供了主要的人機介面功能，能夠快速有效的達成大量資訊的檢索。適合應(yīng)用的范圍包括屏幕較小的裝置，例如小型的數(shù)位影音儲存及播放裝置，如MP3播放器，智慧型移動電話(Smart Phone)等等。也可以應(yīng)用在具有大型屏幕的裝置上，其特殊的處為只使用屏幕的一小部分區(qū)域來作為語音理解的溝通介面，而不會影響到節(jié)目的觀看，例如電視機的控制，節(jié)目選擇，或影音品質(zhì)調(diào)整等等；或是錄影機的控制，如錄影時間設(shè)定，預(yù)錄節(jié)目的播放等等，如圖8所示。
缺點本技術(shù)領(lǐng)域中的普通技術(shù)人員應(yīng)當認識到，以上的實施例僅是用來說明本發(fā)明，而并非用作為對本發(fā)明的限定，只要在本發(fā)明的實質(zhì)精神范圍內(nèi)，對以上所述實施例的變化、變型都將落在本發(fā)明權(quán)利要求書的范圍內(nèi)。
權(quán)利要求
1.一種語音辨識的方法，其特征在于包含下列步驟(a)接收一使用者的語音，并進行該語音的辨識，以產(chǎn)生復(fù)數(shù)個辨識結(jié)果；(b)顯示上述產(chǎn)生的復(fù)數(shù)個辨識結(jié)果，以供使用者鎖定所述的復(fù)數(shù)個辨識結(jié)果中的正確值；(c)判斷所述的正確值是否充足；(d)當所述的正確值不充足時，將所述的正確值儲存為已知值，縮小辨識范圍并重復(fù)步驟(a)至步驟(c)；以及(e)當所述的正確值充足時，根據(jù)所述的正確值來搜尋一資料。
2.如權(quán)利要求1所述的語音辨識的方法，其特征在于所述的復(fù)數(shù)個辨識結(jié)果是顯示于一顯示裝置上；及/或所述的顯示裝置為一觸摸式屏幕。
3.如權(quán)利要求1所述的語音辨識的方法，其特征在于所述的步驟(b)中，使用者是經(jīng)由一鎖定裝置來鎖定所述的復(fù)數(shù)個辨識結(jié)果中的正確值；及/或所述的鎖定裝置是為一按鍵、或觸摸式屏幕、或一遙控器。
4.如權(quán)利要求1所述的語音辨識的方法，其特征在于所述的已知值是儲存于一儲存裝置；及/或所述的一儲存裝置是為一暫存器。
5.如權(quán)利要求1所述的語音辨識的方法，其特征在于所述的步驟(e)中，當所述的正確值充足時，是根據(jù)所述的正確值來搜尋一資料庫；及/或所述的資料庫是為一記憶體、或一快閃磁盤、或一硬盤、或一遠端伺服器。
6.如權(quán)利要求1所述的語音辨識的方法，其特征在于還包含在部分正確值已知的狀態(tài)下，重新進行語音辨識之前所述的使用者所輸入的該語音的步驟。
7.一種語音辨識的方法，其特征在于包含以下步驟(a)于一顯示裝置上顯示復(fù)數(shù)個欄位，其中每一欄位是對應(yīng)于一類別；(b)使用者根據(jù)所述的復(fù)數(shù)個類別而輸入一語音；(c)辨識上述輸入的語音，以產(chǎn)生復(fù)數(shù)個辨識結(jié)果；(d)顯示所述的復(fù)數(shù)個辨識結(jié)果于其對應(yīng)的欄位，以供使用者經(jīng)由一鎖定裝置來鎖定所述的復(fù)數(shù)個辨識結(jié)果中的正確值；(e)判斷所述的正確值是否充足；(f)當所述的正確值不充足時，將所述的正確值儲存為已知值，縮小辨識范圍并重復(fù)步驟(b)至步驟(e)；以及(g)當所述的正確值充足時，根據(jù)所述的正確值來搜尋一資料。
8.如權(quán)利要求7所述的語音辨識的方法，其特征在于還包含在部分正確值已知的狀態(tài)下，重新辨識之前所述的使用者所輸入的語音的步驟；及/或在所述的復(fù)數(shù)個欄位尚未全部填滿前，徑行搜尋未填滿的資料的步驟。
9.一種語音辨識系統(tǒng)，其特征在于包含一語音輸入裝置，用以接收一使用者的一語音；一語音辨識裝置，連結(jié)于所述的語音輸入裝置，用以辨識所述的語音，以產(chǎn)生復(fù)數(shù)個辨識結(jié)果；一顯示裝置，連結(jié)于所述的語音辨識裝置，用以顯示所述的復(fù)數(shù)個辨識結(jié)果；一鎖定裝置，連結(jié)于所述的顯示裝置，用以供使用者鎖定所述的辨識結(jié)果中的正確值；一儲存裝置，連結(jié)于鎖定裝置24，用以將所述的正確值儲存為已知值；以及一資料庫，連結(jié)于鎖定裝置24，用以存放一資料，以供系統(tǒng)根據(jù)所述的正確值來搜尋資料。
10.一種語音辨識的方法，其特征在于包含以下步驟(a)接收一使用者的語音，并進行所述的語音的辨識，以產(chǎn)生復(fù)數(shù)個辨識結(jié)果；(b)顯示該上述復(fù)數(shù)個辨識結(jié)果其中之一，以供使用者進行確認/更正；(c)重復(fù)步驟(b)，直到該使用者完成所有辨識結(jié)果的確認/更正；以及(d)根據(jù)所述的確認/更正后的辨識結(jié)果來搜尋一資料。
11.如權(quán)利要求10所述的語音辨識的方法，其特征在于所述的復(fù)數(shù)個辨識結(jié)果是逐一顯示于一顯示裝置的一特定區(qū)域。
12.如權(quán)利要求10所述的語音辨識的方法，其特征在于所述的復(fù)數(shù)個辨識結(jié)果是依照類別-內(nèi)容值的格式來顯示；在所述的步驟(b)中，所述的使用者是經(jīng)由一控制裝置來逐一確認/更正所述的類別-內(nèi)容值；所述的控制裝置系為一小型鍵盤、或一遙控器、或一個人數(shù)位助理，其中該小型鍵盤包含一錄音/播音鍵、一接受鍵、一拒絕鍵、一類別更正鍵、及一內(nèi)容值更正鍵；及/或所述的語音辨識的方法還包含于任一類別-內(nèi)容值的確認/更正完成后，即根據(jù)所述的確認/更正后的類別-內(nèi)容值來搜尋資料的步驟。
13.如權(quán)利要求10項所述的語音辨識的方法，其特征在于還包含判斷其他尚未完成確認/更正的類別-內(nèi)容值是否還要繼續(xù)進行確認/更正的步驟。
14.一種語音辨識系統(tǒng)，其特征在于包含一輸入裝置，用以接收一使用者的一語音；一語音辨識理解器，連結(jié)于所述的輸入裝置，用以因應(yīng)所述的語音而產(chǎn)生復(fù)數(shù)個辨識結(jié)果；一互動式語義確認/更正軟件元件，連結(jié)于所述的語音辨識理解器，用以確認/更正該等辨識結(jié)果；一顯示裝置，連結(jié)于所述的互動式語義確認/更正軟件元件，用以逐一顯示該等辨識結(jié)果于其上的一特定區(qū)域；一控制裝置，連結(jié)于所述的互動式語義確認/更正軟件元件，用以供使用者進行所述的復(fù)數(shù)個辨識結(jié)果辨識結(jié)果的確認/更正；以及一搜尋軟件元件，連結(jié)于所述的互動式語義確認/更正軟件元件，用以根據(jù)確認/更正后的辨識結(jié)果來搜尋一資料。
15.如權(quán)利要求14所述的語音辨識系統(tǒng)，其特征在于還包含一儲存/接收裝置，用以存放資料；及/或所述的資料為數(shù)位資料或影音節(jié)目。
16.如權(quán)利要求14所述的語音辨識系統(tǒng)，其特征在于所述的輸入裝置為一麥克風；所述的復(fù)數(shù)個辨識結(jié)果為類別-內(nèi)容值對；
17.如權(quán)利要求14所述的語音辨識系統(tǒng)，其特征在于所述的語音辨識理解器包含一語音辨識器及一語言理解器，其中所述的語音辨識器系根據(jù)一語匯來進行語音辨識；及/或所述的語言理解器系根據(jù)一文法來進行語言理解。
18.一種語音辨識的方法，其特征在于包含以下步驟(a)接收一使用者的語音，并進行所述的語音的辨識，以產(chǎn)生復(fù)數(shù)個辨識結(jié)果；(b)顯示所述的復(fù)數(shù)個辨識結(jié)果，以供使用者進行確認/更正；(c)根據(jù)所述的確認/更正后的辨識結(jié)果來搜尋一資料。
19.如權(quán)利要求18所述的語音辨識的方法，其特征在于所述的復(fù)數(shù)個辨識結(jié)果是同時顯示或逐一顯示。
20.如權(quán)利要求18所述的語音辨識的方法，其特征在于在步驟(b)中，是經(jīng)由使用者重新輸入的語音來進行更正或是經(jīng)由一控制裝置來進行更正。
全文摘要
本發(fā)明系為一種語音辨識方法及系統(tǒng)，包括(a)接收一使用者的語音，并進行該語音的辨識，以產(chǎn)生復(fù)數(shù)個辨識結(jié)果；(b)顯示上述產(chǎn)生的復(fù)數(shù)個辨識結(jié)果，以供使用者鎖定所述的復(fù)數(shù)個辨識結(jié)果中的正確值；(c)判斷所述的正確值是否充足；(d)當所述的正確值不充足時，將所述的正確值儲存為已知值，縮小辨識范圍并重復(fù)步驟(a)至步驟(c)；(e)當所述的正確值充足時，根據(jù)所述的正確值來搜尋一資料。本發(fā)明的語音辨識方法及系統(tǒng)的互動語音理解元件提供了主要的人機介面功能，能夠快速有效的達成大量資訊的檢索。適合應(yīng)用的范圍包括屏幕較小的裝置，例如小型的數(shù)位影音儲存及播放裝置，如MP3播放器，智慧型行動電話等。
文檔編號G10L15/28GK1825431SQ20051005256
公開日2006年8月30日申請日期2005年2月23日優(yōu)先權(quán)日2005年2月23日
發(fā)明者蔡錦和, 王瑞璋申請人:臺達電子工業(yè)股份有限公司

完整全部詳細技術(shù)資料下載