專利名稱:通過對話回合間上下文關(guān)系來減少辨識錯誤的裝置與方法
技術(shù)領(lǐng)域:
本發(fā)明關(guān)于一種通過對話回合(dialogue tum)間上下文(context)關(guān)系來減 少辨識錯誤的裝置與方法。
背景技術(shù):
自動語音辨識(Automatic Speech Recognition, ASR)中,如何減少辨識錯 誤(recognition error)是一個很重要的問題。歷來的研究發(fā)現(xiàn),利用更多的信息,作為辨識的參考,可有效地降低辨識錯誤率??衫玫男畔Z音 (speech utterance)信息、語意(speech semantics)信息、還有對話上下文(dialogue context)相關(guān)信息。傳統(tǒng)語音辨識主要是采取關(guān)鍵詞辨識(keyword spotting)。如果關(guān)鍵詞的 辨識正確,那么便可以正確地繼續(xù)對話,完成所需的任務(wù)。對于傳統(tǒng)的信息 存取對話系統(tǒng)(例如査詢天氣、查詢?nèi)藛T信息、語音訂票等系統(tǒng))來說,只要 能將關(guān)鍵詞的辨識率提高,結(jié)合其它相關(guān)技術(shù)(例如不同的對話狀態(tài)采取不同 的子對話系統(tǒng)),即可實現(xiàn)一個可用的系統(tǒng)。較新的對話系統(tǒng)中,系統(tǒng)和使用者之間的關(guān)系不同于以往的由固定一方 問,另一方答,其更復(fù)雜的互動,導(dǎo)致單靠關(guān)鍵詞辨識的技術(shù)無法實現(xiàn)一個 可行的對話系統(tǒng)。例如,在一個語言學(xué)習(xí)系統(tǒng)中,使用者和系統(tǒng)會互相問對 方問題,并回答問題, 一同完成某一個任務(wù),或達到雙方共有的任務(wù)。圖1 是這種對話系統(tǒng)的一個例子。參考圖1,使用者(以U表示)和系統(tǒng)(以S表示) 進行對話,雙方要共同協(xié)調(diào)出一個時間,還有雙方都可以接受的活動來進行。在該例子中,雙方不再設(shè)定是一問一答,因此可能出現(xiàn)的辨識錯誤會如 下所示-"Do you like dancing "有可能被錯誤辨識成"I do like dancing."; "Would you like to…?"有可能被錯誤辨識成"What do you like to.. "從上述的例子當(dāng)中,可以知道僅通過關(guān)鍵詞辨識來進行錯誤辨識,可能無法解決這樣的錯誤。如果可以參考對話上下文的相關(guān)信息,那么對于辨識 率的提升,會有相當(dāng)大的幫助。現(xiàn)今技術(shù)中,有利用對話的歷史內(nèi)容,來提高辨識率。例如,Rebecca Jonson等人在IEEE SLT 2006所提出的論文"Dialogue Context-based Re-ranking of ASR Hypotheses"中,其利用語音特征(utterance feature)、實時 上下文特征(immediate context feature)、最近上下文f寺征(close-context feature)、對話上下文特征(dialogue context feature)和可能者清單特征(list feature)等不同方面的特征,作為判定辨識錯誤的參考。而在實時上下文特征、 最近上下文特征中,該論文只考慮了最近的前兩次對話回合的對話上下文信 息,作為辨識的基礎(chǔ)。另一種參照對話歷史內(nèi)容的作法,則是計算出之前對話的相關(guān)統(tǒng)計信息 (例如,對話進行中的取消率(cancel percentage)、錯誤率(error percentage)、系 統(tǒng)回合數(shù)(number of system turns)、使用者回合數(shù)(number of user turns)等概括 的信息,沒有詳細和精確地參照到之前每一回合對話內(nèi)容的相關(guān)信息,也沒 有精確地描述對話回合之間可能存在的關(guān)系目前的技術(shù)大多是根據(jù)上一個對話句子(通常是系統(tǒng)所發(fā)出的句子),作 為判定目前句子的主要依據(jù)。然而,在真實的對話中,目前的句子可能會跟 前幾個句子相關(guān),而非僅與前一個句子相關(guān)。在現(xiàn)有的技術(shù)當(dāng)中,對于這樣 的情況,尚無有效的表示。例如,現(xiàn)有的例子當(dāng)中,采用類似N連文法(N-gmm) 的作法。如果要考慮n〉3的情況,那么其頻率的分布會非常稀疏(sparse)。在語音辨識系統(tǒng)中,利用N-最佳可能者清單(N-Best List)的重新評分方 法來提高語音的辨識率,也是一個廣泛應(yīng)用的概念。N-最佳可能者清單的方 法中,大多著重于如何利用N-最佳可能者清單信息來測量信心度(confidence measure),與如何在辨識過程中,產(chǎn)生N-最佳可能者清單的方法,以及N-最佳可能者清單如何進行調(diào)適性學(xué)習(xí)(adaptive learning)。發(fā)明內(nèi)容本發(fā)明的目的是提供一種通過對話回合間上下文關(guān)系來減少辨識錯誤 的裝置與方法。本發(fā)明將一個或多個對話回合間上下文關(guān)系納入語音辨識時 尋找最佳答案的考慮,可降低自動語音辨識系統(tǒng)的辨識錯誤率。本發(fā)明可幫助新一代或是較復(fù)雜的對話系統(tǒng)的語音辨識。本發(fā)明分析現(xiàn)有的對話內(nèi)容,找出多條描述對話上下文關(guān)系的規(guī)則組成的一規(guī)則組(rule set)。每一條規(guī)則所描述的信息是以對話回合(dialogue turn) 為單位,并可描述多個對話回合之間的上下文關(guān)系。經(jīng)過訓(xùn)練后的規(guī)則組, 可用來根據(jù)對話的歷史記錄,決定目前對話回合中,每一種上下文關(guān)系出現(xiàn) 的機率。以該機率可對語音辨識所產(chǎn)生的N-最佳可能者清單進行重算分?jǐn)?shù), 由此來降低辨識錯誤率。本發(fā)明的通過對話回合間上下文關(guān)系來減少辨識錯誤的裝置包含一規(guī) 則儲存單元(rule storage unit)、 一演化式規(guī)則產(chǎn)生模塊(evolutionary rule generation module)、和一規(guī)則觸發(fā)器(rule trigger)。規(guī)則儲存單元備有一條或 多條規(guī)則組成的一規(guī)則組,每一條規(guī)則描述一組對話回合間的關(guān)系。演化式 規(guī)則產(chǎn)生模塊從一對話記錄(dialogue log)中進行演化調(diào)適,訓(xùn)練出該規(guī)則組。 規(guī)則觸發(fā)器根據(jù)訓(xùn)練出的規(guī)則組與前面多個對話回合的對話歷史記錄 (dialogue history),從訓(xùn)練出的規(guī)則組中選出至少一條規(guī)則及其相對應(yīng)的信心 度測量(confidence measure),供一 ASR系統(tǒng)對其語音辨識進行重新評估。重新評估后的辨識結(jié)果回饋至對話記錄中,該裝置可再通過一酬賞/懲罰 元件進一步調(diào)整該規(guī)則組。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的裝置,其中該 規(guī)則組的每一條所述規(guī)則的表示中至少包括該對話回合之間的上下文關(guān)系。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的裝置,其中該 規(guī)則組的每一條所述規(guī)則所描述的信息包括一序列的前面多個對話回合的 上下文類別、當(dāng)次對話回合的上下文類別、以及該條規(guī)則相對應(yīng)的信心度測根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的裝置,其中該 規(guī)則組的每一條所述規(guī)則所描述的信息中具有一種或多種不同的對話上下 文類別。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的裝置,其中該 條規(guī)則相對應(yīng)的信心度測量為該條規(guī)則的信心分?jǐn)?shù)。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的裝置,其中該 規(guī)則組的每一條所述規(guī)則所描述的信息中還享有一種萬用類別的表示方式,該萬用類別代表所述一種或多種不同的上下文類別中的任何一種上下文類 別。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的裝置,其中該 演化式規(guī)則產(chǎn)生模塊包括三個操作元,分別為規(guī)則變異、規(guī)則評估和規(guī)則篩 選。本發(fā)明還提供一種通過對話回合間上下文關(guān)系來減少辨識錯誤的方法, 該方法包含下列步驟通過一大量平行的演化式計算方法分析對話歷史記 錄,以訓(xùn)練出一規(guī)則組,該規(guī)則組描述一個或多個對話回合之間的上下文關(guān) 系;根據(jù)該規(guī)則組和一自動語音辨識系統(tǒng)原本產(chǎn)生的辨識結(jié)果進行重新評 估,并測量該重新評估的語音辨識的信心度;以及對于每一成功的對話回合, 動態(tài)調(diào)適該規(guī)則組。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的方法,其中所 述訓(xùn)練出該規(guī)則組的步驟還包括隨機產(chǎn)生一隨機規(guī)則集合;以及將該隨機 規(guī)則集合通過一演化式計算的三個操作元,包括規(guī)則變異、規(guī)則評估和規(guī)則 篩選,經(jīng)過逐代的演化調(diào)適而訓(xùn)練出該規(guī)則組。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的方法,其中該 規(guī)則組由一或多條規(guī)則組成,并以對話回合為單位來表示每一條該規(guī)則所描 述的信息。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的方法,其中該 規(guī)則組通過下列步驟來描述一個或多個對話回合之間的上下文關(guān)系將所述一個或多個對話回合的對話內(nèi)容當(dāng)中的屬性定義成一種或多種對話上下文類另lj;以及每一所述規(guī)則以符號M,M2M3…Mn: R,I來表示,其中M,M2M3…Mn 代表前n個對話回合的上下文類別,R代表當(dāng)次對話回合的上下文類別,I 代表該條規(guī)則相對應(yīng)的信心度測量。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的方法,其中該 規(guī)則變異是指每一所述規(guī)則會有一機率,通過變異、或組合中的一種方式而 成為另一新的規(guī)則。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的方法,其中該 規(guī)則評估是指評估每一所述規(guī)則的信心度。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的方法,其中該規(guī)則篩選包括下列步驟保留一預(yù)定比例的規(guī)則;隨機或從現(xiàn)有規(guī)則中通過 規(guī)則變異來產(chǎn)生新的規(guī)則;找出等價規(guī)則,并從中刪除較一般性的規(guī)則;以 及如果有規(guī)則被刪除時,則返回至所述產(chǎn)生新規(guī)則的步驟。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的方法,其中所 述進行重新評估,并測量該重新評估的語音辨識的信心度的步驟還包括下列 步驟將前面多次的對話記錄套用在該規(guī)則組中的每一條規(guī)則,以找出前面 多次對話回合的上下文類別符合所述前面多次對話記錄的規(guī)則;以及在所有 所述符合的規(guī)則中,根據(jù)所有所述符合的規(guī)則的當(dāng)次對話回合的上下文類別 來進行分類,并計算出每一種對話上下文類別的信心分?jǐn)?shù)信息。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的方法,其中在 所述動態(tài)調(diào)適該規(guī)則組后,將該信心分?jǐn)?shù)信息提供給該自動語音辨識系統(tǒng)。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的方法,其中該 信心分?jǐn)?shù)信息使該自動語音辨識系統(tǒng)有更多的信息,以產(chǎn)生一精確的最佳可 能者清單。根據(jù)所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的方法,其中該 信心分?jǐn)?shù)信息是提供給該自動語音辨識系統(tǒng)作為后處理,通過該信心分?jǐn)?shù)信 息來調(diào)整該自動語音辨識系統(tǒng)原本的最佳可能者清單的分?jǐn)?shù)。本發(fā)明將對話內(nèi)容當(dāng)中的屬性,定義成一種或多種類別,也即對話上下 文類別。每一句對話,根據(jù)其信息,都可以歸屬到一個特定的對話上下文類 別。然后,每一規(guī)則所描述的信息包括一序列的前面多個對話回合的上下文 類別、當(dāng)次對話回合的上下文類別,以及該條規(guī)則相對應(yīng)的信心度測量。每 一規(guī)則還享有一種萬用類別的表示方式,代表所述一種或多種不同的上下文 類別中的任何一種上下文類別。根據(jù)本發(fā)明的裝置的結(jié)構(gòu)與該規(guī)則組的每一條規(guī)則的定義和表示法,本 發(fā)明首先通過一大量平行的演化式計算方法(evolutionary massive parallelismapproach),分析對話歷史記錄,以訓(xùn)練出一規(guī)則組。然后,根據(jù)該規(guī)則組和 自動語音辨識系統(tǒng)原本產(chǎn)生的辨識結(jié)果進行重新評估,并測量重新評估的語 音辨識的信心度。最后,對于每一成功的對話回合,動態(tài)調(diào)適該規(guī)則組。該大量平行的演化式計算方法從對話記錄中訓(xùn)練出該規(guī)則組。首先,隨 機產(chǎn)生一隨機規(guī)則集合。然后,將該隨機規(guī)則集合通過該演化式計算的三個操作元,包括規(guī)則變異(rule variation)、規(guī)則評估(rule evaluation)與規(guī)則篩選 (rule selection),經(jīng)過逐代的演化調(diào)適而訓(xùn)練出該規(guī)則組。而經(jīng)過規(guī)則篩選產(chǎn)生的規(guī)則組經(jīng)過逐代調(diào)適之后,所產(chǎn)生的規(guī)則的信心 分?jǐn)?shù)會較高,更能表示對話回合之間的對話上下文的關(guān)系。利用這種關(guān)系, 可在現(xiàn)有的語音辨識基礎(chǔ)上,更進一步提高辨識的準(zhǔn)確度。同時,本發(fā)明所 使用的學(xué)習(xí)方法,其訓(xùn)練所耗費的成本較低,有助于設(shè)計一個可動態(tài)調(diào)整辨 識規(guī)則的語音辨識系統(tǒng)。這樣的機制對于未來處理更復(fù)雜互動的對話系統(tǒng), 也會有相當(dāng)大的幫助。結(jié)合下列附圖、實施例的詳細說明及權(quán)利要求書,將上述及本發(fā)明的其 它目的與優(yōu)點詳述于后。
圖1為一個傳統(tǒng)對話系統(tǒng)的例子。圖2A為本發(fā)明的通過對話回合間上下文關(guān)系來減少辨識錯誤的裝置的 一個示意圖。圖2B說明自動語音辨識系統(tǒng)應(yīng)用本發(fā)明進行重新評估,且本發(fā)明可通 過一酬賞/懲罰元件,調(diào)整圖2A中的規(guī)則組。圖3為一個流程圖,說明本發(fā)明的通過對話回合間上下文關(guān)系來減少辨 識錯誤的方法的操作。圖4說明通過一演化式計算,從對話記錄中,訓(xùn)練出規(guī)則組。圖5以圖1的對話記錄為一范例,說明本發(fā)明將該對話記錄定義出的9 種不同的對話上下文類別。圖6說明規(guī)則篩選的步驟流程。圖7進一步說明本發(fā)明如何進行重新評估,并測量目前對話回合中各種 對話上下文類別的可能性的機率。圖8為對話記錄內(nèi)的一段對話與其對應(yīng)的對話上下文類別型態(tài)的一個示 意圖。圖9A為圖8的對話記錄通過隨機方式產(chǎn)生的規(guī)則集合的一個范例。 圖9B至圖9D分別是經(jīng)過100代、200代與10000代的演化調(diào)適后,訓(xùn) 練出的規(guī)則組,其中均只列出其規(guī)則組中的前30條規(guī)則。圖10說明規(guī)則觸發(fā)器將對話歷史記錄套用在規(guī)則組中,并算出目前對話回合中每一種對話上下文類別的機率。其中,附圖標(biāo)記說明如下-s 系統(tǒng) u 使用者200利用對話回合間上下文關(guān)系來減少辨識錯誤的裝置201規(guī)則儲存單元203演化式規(guī)則產(chǎn)生模塊205規(guī)則觸發(fā)器211規(guī)則組215a至少一條規(guī)則215b信心度測量221對話記錄N自然數(shù)223前N個對話回合的狀態(tài)的對話歷史記錄 225自動語音辨識系統(tǒng) 225a語音辨識的結(jié)果 237酬賞/懲罰元件301通過一大量平行的演化式計算方法,分析對話歷史記錄,以訓(xùn)練出 一規(guī)則組,此規(guī)則組描述著一或多個對話回合之間的上下文關(guān)系302根據(jù)此規(guī)則組和自動語音辨識系統(tǒng)原本產(chǎn)生的辨識結(jié)果進行重新 評估,并測量重新評估的語音辨識的信心度303對于每一成功的對話回合,動態(tài)調(diào)適該規(guī)則組401隨機產(chǎn)生一隨機規(guī)則集合402規(guī)則變異403規(guī)則評估404規(guī)則篩選M, M2 M3... Mn : R , I規(guī)則表示方式 601保留一預(yù)定比例的規(guī)則602隨機或從現(xiàn)有規(guī)則中通過規(guī)則變異來產(chǎn)生新的規(guī)則603找出等價規(guī)則,并從中刪除較一般性的規(guī)則 604有規(guī)則被刪除?701將前n次的對話記錄套用在該規(guī)則組中的逐條規(guī)則 702在所有符合的規(guī)則中,根據(jù)這些規(guī)則的當(dāng)次對話回合的上下文類別 (也就是R)來進行分類,并計算出每一種對話上下文類別的信心分?jǐn)?shù)具體實施方式
圖2A為本發(fā)明的通過對話回合間上下文關(guān)系來減少辨識錯誤的裝置的 一個示意圖。參考圖2,該通過對話回合間上下文關(guān)系來減少辨識錯誤的裝 置200包含一規(guī)則儲存單元201、 一演化式規(guī)則產(chǎn)生模塊203、和一規(guī)則觸 發(fā)器205。規(guī)則儲存單元201備有一規(guī)則組211,該規(guī)則組211由一條或多 條規(guī)則組成,并以對話回合為單位來表示每一條規(guī)則。演化式規(guī)則產(chǎn)生模塊 203與該規(guī)則儲存單元相互連接,并從一對話記錄(dialogue log) 221中進行 演化調(diào)適,而訓(xùn)練出該規(guī)則組211。規(guī)則觸發(fā)器205與規(guī)則儲存單元201連 接,并根據(jù)訓(xùn)練出的規(guī)則組211與前N個對話回合的對話歷史記錄223,從 訓(xùn)練出的規(guī)則組211中選出至少一條規(guī)則215a及其相對應(yīng)的信心度測量 215b,供一自動語音辨識系統(tǒng)225對其語音辨識進行重新評估,其中N為一 自然數(shù)(natural number)。該重新評估后的語音辨識結(jié)果225a回饋至對話記錄221中。本發(fā)明的 裝置200可通過一酬賞/懲罰元件(reward/punishment element)237,進一步調(diào) 整該規(guī)則組211,如圖2B所示。參考圖2B,當(dāng)使用者語音輸入自動語音辨識系統(tǒng)225時,該自動語音 辨識系統(tǒng)225可根據(jù)規(guī)則觸發(fā)器205所選出的至少一條規(guī)則215a及其相對 應(yīng)的信心度測量215b,將自動語音辨識系統(tǒng)225原本產(chǎn)生的N-最佳可能者 清單進行重新評估,與N-最佳可能者清單的分?jǐn)?shù)再進行權(quán)重加總,重估分?jǐn)?shù) (rescoring)即考慮到對話回合間上下文信息的關(guān)系。由此來減少語音辨識錯 誤,即可增加N-最佳可能者清單的分?jǐn)?shù)評估的可靠度,從該N-最佳可能者 清單中找到更適合的解答,并回饋至對話記錄221中。通過酬賞/懲罰元件 237,可進一步調(diào)整規(guī)則組211內(nèi)的規(guī)則。根據(jù)本發(fā)明,演化式規(guī)則產(chǎn)生模塊203從一個現(xiàn)有的對話記錄中訓(xùn)練出規(guī)則組211。例如,先隨機產(chǎn)生一隨機規(guī)則集合,然后將該隨機規(guī)則集合通過該演化式規(guī)則產(chǎn)生模塊的三個操作元,包括規(guī)則變異、規(guī)則評估與規(guī)則篩選,而訓(xùn)練出該規(guī)則組211。依此,本發(fā)明的裝置應(yīng)用在自動語音辨識系統(tǒng)時,將一個或多個對話回 合間上下文關(guān)系,演化調(diào)適而訓(xùn)練出多條描述該對話上下文關(guān)系的一組規(guī) 貝U,其中每一條規(guī)則所描述的信息是以對話回合為單位。經(jīng)過訓(xùn)練后的規(guī)則 組,可用來根據(jù)對話回合的歷史記錄,決定目前對話回合中,每一種上下文 關(guān)系出現(xiàn)的機率。以該機率可對語音辨識原本產(chǎn)生的N-最佳可能者清單進行 重新評估,由此來減少辨識錯誤,提高該自動語音辨識系統(tǒng)對辨識結(jié)果的信 心度。規(guī)則組的每一條規(guī)則所描述的信息包括一序列的前一個或多個對話回 合的上下文類別、當(dāng)次對話回合的上下文類別,以及該條規(guī)則相對應(yīng)的信心 度測量。每一條規(guī)則所描述的信息中并具有一種或多種不同的對話上下文類 別。每一條規(guī)則相對應(yīng)的信心度測量為該條規(guī)則的信心分?jǐn)?shù)。每個對話回合 的對話上下文除了所屬的對話上下文類別之外,每一條規(guī)則所描述的信息中 還可享有一種萬用類別的表示方式,該萬用類別代表所述一種或多種不同的上下文類別中的任何一種上下文類別。結(jié)合圖2A與圖2B的根據(jù)本發(fā)明的結(jié)構(gòu)特征,以下進一步說明本發(fā)明的 操作、每一條規(guī)則的表示方式,以及其所描述信息的定義。圖3為一個流程圖,說明本發(fā)明的通過對話回合間上下文關(guān)系來減少辨 識錯誤的方法的操作。首先,如步驟301所示,通過一大量平行的演化式計 算方法,分析對話歷史記錄,以訓(xùn)練出一規(guī)則組,該規(guī)則組描述著一個或多 個對話回合之間的上下文關(guān)系。然后,如步驟302所示,根據(jù)該規(guī)則組和自 動語音辨識系統(tǒng)原本產(chǎn)生的辨識結(jié)果進行重新評估,并測量重新評估的語音 辨識的信心度。最后,如步驟303所示,對于每一成功的對話回合,動態(tài)調(diào) 適該規(guī)則組。以下進一步說明步驟301至303。在步驟301中,該大量平行的演化式計算方法從對話記錄中訓(xùn)練出該規(guī) 則組。如圖4所示,首先,如標(biāo)號401所示,隨機產(chǎn)生一隨機規(guī)則集合。然 后,將該隨機規(guī)則集合通過該演化式計算的三個操作元,包括規(guī)則變異402、 規(guī)則評估403與規(guī)則篩選404,經(jīng)過逐代的演化調(diào)適而訓(xùn)練出該規(guī)則組。接下來,說明該規(guī)則組如何描述一個或多個對話回合之間的上下文關(guān) 系。如前所述,該規(guī)則組由一條或多條規(guī)則組成,并以對話回合為單位來表 示每一條規(guī)則。首先,將對話內(nèi)容當(dāng)中的屬性,定義成一種或多種類別,也 即對話上下文類別。每一句對話,根據(jù)其信息,都可以歸屬到一個特定的對話上下文類別。然后, 一個規(guī)則以符號M,M2M3…Mn :R,I來表示,其中 1^1]^12]^3...]^11代表前11次對話回合的上下文類別,R代表當(dāng)次對話回合的上 下文類別,以及I代表該條規(guī)則相對應(yīng)的信心度測量。I的范例如該條規(guī)則的 評估分?jǐn)?shù),或是該條規(guī)則出現(xiàn)的次數(shù)或機率等。不失一般性,圖5以圖1的對話記錄為一范例,說明該對話記錄被定義 出的9種不同的對話上下文類別。例如,對話"I do not like to go swimming." 被定義為n型態(tài)、對話"Do you like dancing "被定義為V型態(tài)、對話"Good bye now."被定義為X型態(tài)。值得一提的是,對話上下文類別型態(tài)的定義不限于上述的9種型態(tài),可 依照對話句型定義出更多不同型態(tài)的對話上下文類別。在規(guī)則表示方式的設(shè)定上,每個對話回合的對話上下文除了所屬的對話 上下文類別型態(tài)外,本發(fā)明也提供一種萬用類別型態(tài),記為"# ,,。在M,M2 M3…Mn中,若某一對話回合使用類別型態(tài)"#",則代表該次對話回合允許任 何一種的對話上下文類別。例如,假設(shè)對話上下文類別可能的種類有{V, Y, N,Q,S},該條規(guī)則的評估分?jǐn)?shù)為50,那么"VY^N:S,50"當(dāng)中,#位置可以是 任何一種對話上下文類別。也就是說"VYVN : S,50,,、"VYYN : S,50,,、"VYNN : S,50"、 "VYQN : S,50"以及"VYSN : S,50',均符合該條規(guī)則所描述。通過演化式規(guī)則產(chǎn)生模塊的三個操作元進行規(guī)則調(diào)適,并經(jīng)過多個世代 的調(diào)適之后所產(chǎn)生出來的規(guī)則,其信心分?jǐn)?shù)會較高。換句話說,該規(guī)則組內(nèi) 的每條規(guī)則可以描述出對話上下文當(dāng)中,回合和回合之間的上下文關(guān)系。值 得一提的是,該上下文關(guān)系不會受限于對話回合的個數(shù)。以下進一步說明演 化式規(guī)則產(chǎn)生模塊的三個操作元,規(guī)則變異402、規(guī)則評估403與規(guī)則篩選 404。規(guī)則變異402:現(xiàn)有規(guī)則集合中,每一條規(guī)則會有一個機率來變異(variation)或組合成其它的規(guī)則。變異的方式是其中某一次的對話上下文類別 型態(tài)從Mi變成Mj,或者從Mi變成"薩,或者從"r,變成Mj,也可以是其規(guī)則的結(jié)果從R變成R',其中Mj、 Mj、 R、 R'均代表不同的對話上下文類別。 例如,VS^Q變異成VS弁L組合的方式是將規(guī)則集合中不同的規(guī)則組合成一 新的規(guī)則。例如,VS絲+絲SQ組合成VSSQ。規(guī)則評估403:是指評估規(guī)則的信心度測量I,可依照該規(guī)則在現(xiàn)有對話 記錄中出現(xiàn)的次數(shù)或機率來決定。例如,出現(xiàn)次數(shù)愈多,評估分?jǐn)?shù)愈高。規(guī)則篩選404:是根據(jù)以下四個步驟來進行規(guī)則的篩選,以圖6來說明 該規(guī)則篩選的步驟流程。在步驟601中,保留一預(yù)定比例的規(guī)則,例如300 條規(guī)則。每條規(guī)則被保留下來的機率和其信心度成正比。在步驟602中,隨 機或從現(xiàn)有規(guī)則中通過規(guī)則變異來產(chǎn)生新的規(guī)則。在步驟603中,找出等價 規(guī)則(equivalence rule),并從中刪除較一般性的規(guī)則。例如,規(guī)則VS#:R和 規(guī)則VS弁弁:R如果評估分?jǐn)?shù)相同,則這兩條規(guī)則視為等價,刪除較一般性的 規(guī)則(VS##:R)。另一種情況例如,假設(shè)發(fā)現(xiàn)兩個評估分?jǐn)?shù)相同且類似的規(guī) 則MiMj弁M,:Mr,23以及MiMjMmM1: Mr,23,則這兩條規(guī)則實際上是描述同一 種情況。也就是說MiMj弁N^:M"23當(dāng)中的"#",只有可能是Mm。本發(fā)明會刪 除規(guī)則MiMj#M1:Mr,23,來提高規(guī)則描述的正確率。如步驟604所示,若有規(guī)則被刪除時,則回至步驟602,否則結(jié)束該規(guī) 則篩選。經(jīng)過逐代的演化調(diào)適而訓(xùn)練出規(guī)則組后,其規(guī)則的評估分?jǐn)?shù)會愈來愈 高,而整個規(guī)則組所描述的規(guī)則,即愈能代表不同對話之間對話上下文類別 的關(guān)系。因此,可用來計算出目前所辨識的對話中出現(xiàn)各式對話上下文類別 的機率。該信息可以重新對N-最佳可能者清單進行評分,以提高辨識結(jié)果的 信心度。有了訓(xùn)練出的規(guī)則組后,在步驟302中,本發(fā)明還包括下列步驟來進行 重新評估,并測量目前對話回合中各種對話上下文類別的可能性的機率。參 考圖7,首先,如步驟701所示,將前n次的對話記錄套用在該規(guī)則組中的 逐條規(guī)則。也就是說,在該規(guī)則組中的每一條規(guī)則中,找出其前n次對話回 合的上下文類別(也即M,M2M3…Mn)符合前n次對話記錄的規(guī)則。然后,如步驟702所示,在所有符合的規(guī)則中,根據(jù)這些規(guī)則的當(dāng)次對 話回合的上下文類別(也就是R)來進行分類,并計算出每一種對話上下文類 別的信心分?jǐn)?shù)。該信心分?jǐn)?shù)的計算為,結(jié)果是該類別并且符合前n次對話記錄的所有規(guī)則的信心分?jǐn)?shù)總和。根據(jù)每種對話類別的信心分?jǐn)?shù),就可看出這 種對話類別的機率。信心分?jǐn)?shù)愈高,其機率就愈高。將該信心分?jǐn)?shù)信息輸入自動語音辨識系統(tǒng)中,即可用來降低語音辨識的 錯誤率。其方法有二第一種方式是將信心分?jǐn)?shù)信息提供給自動語音辨識系 統(tǒng),讓其利用更多的信息,來產(chǎn)生更精確的N-最佳可能者清單。第二種方式 是作自動語音辨識的后處理,通過信心分?jǐn)?shù)信息或機率較高的規(guī)則來調(diào)整自 動語音辨識系統(tǒng)原本的N-最佳可能者清單的分?jǐn)?shù),由此提高辨識的準(zhǔn)確率。在步驟303中,自動語音辨識系統(tǒng)輸出的辨識結(jié)果回饋至對話記錄,可 再通過酬賞/懲罰元件237動態(tài)調(diào)整規(guī)則組內(nèi)的規(guī)則。以對話記錄內(nèi)的一段對話為范例,以及對話上下文類別型態(tài)定義如圖5, 以下說明本發(fā)明的實際操作流程。不失一般性,該范例中,本發(fā)明的規(guī)則表 示是以前4次對話回合的上下文類別來作說明,換句話說,每一規(guī)則表示為M,M2M3M4 : R,I。圖8是上述該段對話及其對應(yīng)的對話上下文類別型態(tài)的一個示意圖,其 中U代表使用者,S代表一語音辨識系統(tǒng)。接收圖8的對話記錄后,圖9A至圖9D說明以大量平行的演化式計算 方法來產(chǎn)生規(guī)則組。圖9A是通過隨機方式產(chǎn)生的規(guī)則集合的一個范例。圖 9B至圖9D分別是經(jīng)過100代、200代與10000代的演化調(diào)適后,訓(xùn)練出的 規(guī)則組,其中均只列出其規(guī)則組300條規(guī)則中的前30條規(guī)則。然后,則將前面多個對話回合的狀態(tài)的對話歷史記錄套用在圖9D中的 規(guī)則組的逐條規(guī)則,并分析目前對話中目前對話回合中每一種對話上下文類 別的信心分?jǐn)?shù)與機率,結(jié)果如圖10所示。不失一般性,第39個對話回合的狀態(tài)的對話歷史記錄如下所示"f吏用者"What did you do yesterday morning "系統(tǒng)"what did nothing yesterday morning"根據(jù)上述的第39個回合的對話歷史記錄,可看出系統(tǒng)的回答有問題。 通過規(guī)則觸發(fā)器205,將上述的前4次對話回合的狀態(tài)的對話歷史記錄 套用規(guī)則組中的逐條規(guī)則,并找出規(guī)則的前4次對話回合的上下文類別,即 M,M2M3M4。在該范例,找出規(guī)則組中某一符合規(guī)則的M,M2M3M4為XXXQ。 然后,根據(jù)該上下文類別XXXQ的當(dāng)次對話回合的上下文類別(也就是R)來進行分類,并計算出目前對話回合中每一種對話上下文類別的分?jǐn)?shù)或機率。在該范例中,以圖5中定義出的9種對話上下文類別型態(tài)分別計算其機 率。如圖IO所示,上下文類別"Q"的機率為0.32、上下文類別"Y"的機率為 0.12、上下文類別"N"的機率為0.03、上下文類別"y"的機率為0.21、上下文 類別"n"的機率為0.04、上下文類別"S"的機率為0.89、上下文類別"V"的機率 為0.31、上下文類別"C"的機率為0.25、上下文類別"X"的機率為0。由于上下文類別"S"的機率最高,因此,這條XXXQ:S規(guī)則出現(xiàn)的機率 最高,換句話說,系統(tǒng)回答的句型應(yīng)為直述句。最后,該規(guī)則XXXQ:S可與自動語音辨識系統(tǒng)原本的最佳可能者清單進 行權(quán)重加總,從最佳可能者清單中找最符合的句型回答,例如"I did nothing yesterday morning.",由此提高最佳可能者清單的分?jǐn)?shù)評估的可靠度。當(dāng)然該 規(guī)則XXXQ:S也可以在自動語音辨識系統(tǒng)內(nèi)作后處理,也即直接調(diào)整最佳可 能者清單的分?jǐn)?shù),來提高辨識率。本發(fā)明調(diào)適過的規(guī)則組與自動語音辨識系統(tǒng)原本的最佳可能者清單的 分?jǐn)?shù)再進行權(quán)重加總,即考慮到對話回合間上下文類別的關(guān)系,如此可增加 最佳可能者清單分?jǐn)?shù)評估的可靠度。以上所述,僅為發(fā)明的優(yōu)選實施例,應(yīng)當(dāng)不能以此限定本發(fā)明實施的范 圍。即但凡根據(jù)本發(fā)明權(quán)利要求所作的均等變化與修飾,均應(yīng)仍屬于本發(fā)明 專利涵蓋的范圍內(nèi)。
權(quán)利要求
1. 一種通過對話回合間上下文關(guān)系來減少辨識錯誤的裝置,該裝置包含一規(guī)則儲存單元,備有一規(guī)則組,該規(guī)則組由一條或多條規(guī)則組成,并以對話回合為單位來表示每一條所述規(guī)則所描述的信息;一演化式規(guī)則產(chǎn)生模塊,與該規(guī)則儲存單元相互連接,并從一對話記錄中進行演化調(diào)適,以訓(xùn)練出該規(guī)則組;以及一規(guī)則觸發(fā)器,與該規(guī)則儲存單元連接,并根據(jù)該訓(xùn)練出的規(guī)則組和先前一個或多個對話回合的對話歷史記錄,從該訓(xùn)練出的規(guī)則組中選出至少一條規(guī)則及其相對應(yīng)的信心度測量,供一自動語音辨識系統(tǒng)對其語音辨識重新評估。
2. 如權(quán)利要求1所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的 裝置,其中,該重新評估后的結(jié)果回饋至該對話記錄中,該裝置還通過一酬 賞/懲罰元件來調(diào)整該規(guī)則組。
3. 如權(quán)利要求1所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的 裝置,其中該規(guī)則組的每一條所述規(guī)則的表示中至少包括該對話回合之間的 上下文關(guān)系。
4. 如權(quán)利要求1所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的 裝置,其中該規(guī)則組的每一條所述規(guī)則所描述的信息包括一序列的前面多個 對話回合的上下文類別、當(dāng)次對話回合的上下文類別、以及該條規(guī)則相對應(yīng) 的信心度測量。
5. 如權(quán)利要求4所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的 裝置,其中該規(guī)則組的每一條所述規(guī)則所描述的信息中具有一種或多種不同 的對話上下文類別。
6. 如權(quán)利要求4所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的 裝置,其中該條規(guī)則相對應(yīng)的信心度測量為該條規(guī)則的信心分?jǐn)?shù)。
7. 如權(quán)利要求5所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的 裝置,其中該規(guī)則組的每一條所述規(guī)則所描述的信息中還享有一種萬用類別 的表示方式,該萬用類別代表所述一種或多種不同的上下文類別中的任何一種上下文類別。
8. 如權(quán)利要求1所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的 裝置,其中該演化式規(guī)則產(chǎn)生模塊包括三個操作元,分別為規(guī)則變異、規(guī)則 評估和規(guī)則篩選。
9. 一種通過對話回合間上下文關(guān)系來減少辨識錯誤的方法,該方法包含下列步驟通過一大量平行的演化式計算方法分析對話歷史記錄,以訓(xùn)練出一規(guī)則組,該規(guī)則組描述一個或多個對話回合之間的上下文關(guān)系;根據(jù)該規(guī)則組和一自動語音辨識系統(tǒng)原本產(chǎn)生的辨識結(jié)果進行重新評估,并測量該重新評估的語音辨識的信心度;以及 對于每一成功的對話回合,動態(tài)調(diào)適該規(guī)則組。
10. 如權(quán)利要求9所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的 方法,其中所述訓(xùn)練出該規(guī)則組的步驟還包括隨機產(chǎn)生一隨機規(guī)則集合;以及將該隨機規(guī)則集合通過一演化式計算的三個操作元,包括規(guī)則變異、規(guī) 則評估和規(guī)則篩選,經(jīng)過逐代的演化調(diào)適而訓(xùn)練出該規(guī)則組。
11. 如權(quán)利要求9所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的方法,其中該規(guī)則組由一或多條規(guī)則組成,并以對話回合為單位來表示每一 條該規(guī)則所描述的信息。
12. 如權(quán)利要求11所述的通過對話回合間上下文關(guān)系來減少辨識錯誤 的方法,其中該規(guī)則組通過下列步驟來描述一個或多個對話回合之間的上下 文關(guān)系將所述一個或多個對話回合的對話內(nèi)容當(dāng)中的屬性定義成一種或多種 對話上下文類別;以及每一所述規(guī)則以符號M,M2M3…M。
R , I來表示,其中M,M2M3.,.Mn代 表前n個對話回合的上下文類別,R代表當(dāng)次對話回合的上下文類別,I代 表該條規(guī)則相對應(yīng)的信心度測量。
13. 如權(quán)利要求10所述的通過對話回合間上下文關(guān)系來減少辨識錯誤 的方法,其中該規(guī)則變異是指每一所述規(guī)則會有一機率,通過變異、或組合 中的一種方式而成為另一新的規(guī)則。
14. 如權(quán)利要求10所述的通過對話回合間上下文關(guān)系來減少辨識錯誤 的方法,其中該規(guī)則評估是指評估每一所述規(guī)則的信心度。
15. 如權(quán)利要求10所述的通過對話回合間上下文關(guān)系來減少辨識錯誤 的方法,其中該規(guī)則篩選包括下列步驟-保留一預(yù)定比例的規(guī)則;隨機或從現(xiàn)有規(guī)則中通過規(guī)則變異來產(chǎn)生新的規(guī)則; 找出等價規(guī)則,并從中刪除較一般性的規(guī)則;以及 如果有規(guī)則被刪除時,則返回至所述產(chǎn)生新規(guī)則的步驟。
16. 如權(quán)利要求9所述的通過對話回合間上下文關(guān)系來減少辨識錯誤的 方法,其中所述進行重新評估,并測量該重新評估的語音辨識的信心度的步 驟還包括下列步驟將前面多次的對話記錄套用在該規(guī)則組中的每一條規(guī)則,以找出前面多 次對話回合的上下文類別符合所述前面多次對話記錄的規(guī)則;以及在所有所述符合的規(guī)則中,根據(jù)所有所述符合的規(guī)則的當(dāng)次對話回合的 上下文類別來進行分類,并計算出每一種對話上下文類別的信心分?jǐn)?shù)信息。
17. 如權(quán)利要求16所述的通過對話回合間上下文關(guān)系來減少辨識錯誤 的方法,其中在所述動態(tài)調(diào)適該規(guī)則組后,將該信心分?jǐn)?shù)信息提供給該自動 語音辨識系統(tǒng)。
18. 如權(quán)利要求17所述的通過對話回合間上下文關(guān)系來減少辨識錯誤 的方法,其中該信心分?jǐn)?shù)信息使該自動語音辨識系統(tǒng)有更多的信息,以產(chǎn)生 一精確的最佳可能者清單。
19. 如權(quán)利要求17所述的通過對話回合間上下文關(guān)系來減少辨識錯誤 的方法,其中該信心分?jǐn)?shù)信息是提供給該自動語音辨識系統(tǒng)作為后處理,通 過該信心分?jǐn)?shù)信息來調(diào)整該自動語音辨識系統(tǒng)原本的最佳可能者清單的分 數(shù)。
全文摘要
本發(fā)明揭示一種通過對話回合間上下文關(guān)系來減少辨識錯誤的裝置與方法。該裝置包含一規(guī)則儲存單元、一演化式規(guī)則產(chǎn)生模塊、和一規(guī)則觸發(fā)器。本發(fā)明先通過一大量平行的演化式計算方法,分析對話歷史記錄,訓(xùn)練出一規(guī)則組,該規(guī)則組描述對話回合間的上下文關(guān)系。根據(jù)該規(guī)則組作為語音辨識模塊所參考的額外信息,或者針對現(xiàn)有的語音辨識所產(chǎn)生的結(jié)果進行重新評估,并測量重新評估后的語音辨識信心度。最后,利用每一成功的對話回合,動態(tài)調(diào)適該規(guī)則組。本發(fā)明可在現(xiàn)有的語音辨識基礎(chǔ)上,提高辨識的準(zhǔn)確度,可幫助新一代或是較復(fù)雜的對話系統(tǒng)的語音辨識。本發(fā)明所使用的規(guī)則組學(xué)習(xí)方法,其訓(xùn)練所耗費的成本也較低。
文檔編號G10L15/06GK101266793SQ20071008702
公開日2008年9月17日 申請日期2007年3月14日 優(yōu)先權(quán)日2007年3月14日
發(fā)明者吳旭智, 李青憲 申請人:財團法人工業(yè)技術(shù)研究院