專利名稱:一種電話連續(xù)語音識別系統(tǒng)性能的評測方法及其系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及對電話連續(xù)語音識別系統(tǒng)性能進行評測的方法及系統(tǒng)。
背景技術:
電話連續(xù)語音識別是指用計算機來識別經(jīng)電話通道傳來的人的連續(xù)語音,將其轉化為相應的文本信息。與PC上的聽寫機式連續(xù)語音識別系統(tǒng)不同的是,電話連續(xù)語音識別系統(tǒng)并非用于文本錄入,而是多用于智能電話查詢系統(tǒng)和語音服務器等,其目的在于根據(jù)連續(xù)語音的語義給出相應的回答或做出相應的動作。
電話連續(xù)語音識別系統(tǒng)的性能評測,是指設計測試數(shù)據(jù),以測試數(shù)據(jù)為輸入運行被測系統(tǒng),根據(jù)系統(tǒng)的輸出結果計算事先設計的評測指標,以此來評價一個電話連續(xù)語音識別系統(tǒng)的性能。目前常見的評測方法是仿照PC上的連續(xù)語音識別系統(tǒng)的評測方法,測試數(shù)據(jù)為連續(xù)語音,輸出結果為該連續(xù)語音對應的文本,評測指標為文字識別的錯誤率或正確率。
但是,如上所說,大多數(shù)電話連續(xù)語音識別系統(tǒng)并非用于文字錄入,而是更多地用于理解語義并做出相應動作,所以,單純從文字識別的正確率角度并不能真正衡量一個電話連續(xù)語音識別系統(tǒng)的性能。目前,還沒有一種評測方法及系統(tǒng)能夠針對電話語音識別系統(tǒng)的應用特點,從語義角度設計評測語料和評測指標,客觀、準確地評價系統(tǒng)性能。
發(fā)明內(nèi)容
本發(fā)明要解決的技術問題是提供一種電話連續(xù)語音識別系統(tǒng)性能的評測方法,可以針對電話連續(xù)語音識別系統(tǒng)的應用特點,客觀、準確地評價電話連續(xù)語音識別系統(tǒng)的性能。本發(fā)明還要提供一種實現(xiàn)該方法的系統(tǒng)。
為了解決上述技術問題,本發(fā)明提供了一種電話連續(xù)語音識別系統(tǒng)性能的評測方法,包括以下步驟(a)對電話查詢的若干領域,為每一領域制定一套語法,每個領域中,根據(jù)語法定義若干可以單獨表達一定語義的槽;(b)在各個領域按其語法展開,從生成的句子中選擇出作為評測語料的句子,并錄制選定的文本語料的測試語音;(c)將測試語音輸入要評測的電話連續(xù)語音識別系統(tǒng),運行被測系統(tǒng),并將每個句子的語音識別結果解析為所包含的槽后輸出;(d)將系統(tǒng)輸出的識別結果與標準答案對照,計算槽識別正確率,得到系統(tǒng)性能的評判指標。
進一步地,上述評測方法還可具有以下特點所述步驟(a)中,采用的語法基于有限狀態(tài)網(wǎng)。
進一步地,上述評測方法還可具有以下特點所述步驟(a)中,是將電話查詢的領域分為公交、餐飲、體育、旅游、天氣中的一個或任意組合。
進一步地,上述評測方法還可具有以下特點所述步驟(a)中,每一領域定義的槽的個數(shù)為6~13個。
進一步地,上述評測方法還可具有以下特點所述步驟(b)從生成的大量句子中選擇作為語料的句子時,是選擇符合正常人說話習慣的句子,并使所選句子盡可能多地覆蓋各種韻律學特征,在數(shù)量上盡可能地平均覆蓋各個槽。
進一步地,上述評測方法還可具有以下特點所述步驟(d)中,將正確識別的槽的個數(shù)在槽的總數(shù)中所占的比率作為槽的識別正確率,只有作為槽的識別結果的字符串和答案完全一致才認為槽識別正確。
進一步地,上述評測方法還可具有以下特點所述定義的槽可以相互嵌套,相互嵌套的槽應分別進行正確識別與否的判斷和數(shù)量的統(tǒng)計。
進一步地,上述評測方法還可具有以下特點所述步驟(d)中,還根據(jù)正確識別的句子個數(shù)在句子總數(shù)中所占的比率計算句子的識別正確率,作為系統(tǒng)的另一個評測指標,其中句子識別正確是指句子中的所有槽都識別正確。
進一步地,上述評測方法還可具有以下特點在計算槽的個數(shù)時,空槽不計入總數(shù),如果識別結果中將本應為空的槽填充,則在評判槽識別正確率時將被忽略。
進一步地,上述評測方法還可具有以下特點所述步驟(a)定義槽時,每一領域的槽只需生成或組合生成該領域常用查詢句子的有效內(nèi)容。
本發(fā)明提供的電話連續(xù)語音識別系統(tǒng)性能的評測系統(tǒng)包括錄音模塊和被測的電話連續(xù)語音識別系統(tǒng),其特點是,還包括語法庫、語法展開模塊、語料篩選模塊、槽解析模塊以及自動評測模塊,其中所述語法庫,包括為電話查詢?nèi)舾深I域分別制定的一套語法,并在每個領域中根據(jù)語法定義了若干可以單獨表達一定語義的槽;所述語法展開模塊,用于將語法庫中的詞按其語法自動展開,得到大量的句子;所述語料篩選模塊,用于將展開后得到的句子按設定策略篩選出用作測試語料的句子;所述槽解析模塊,用于將句子的識別結果按槽進行解析,得到該句子中所包含的槽的識別結果;所述自動評測模塊,用于比較槽的識別結果與標準答案,計算出槽識別正確率。
由上可知,本發(fā)明將評測限定在電話連續(xù)語音識別系統(tǒng)常用的幾個領域,通過使用給定語法限定了評測用的句子,通過引入槽的概念表示語義信息,并用槽識別正確率作為主要的評判指標,比目前常用的聽寫機式的評測方法更符合電話連續(xù)語音識別系統(tǒng)的特點,能夠更準確地評價電話連續(xù)語音識別系統(tǒng)性能。
圖1為本發(fā)明評測方法的示意圖。
圖2為本發(fā)明實施例評測系統(tǒng)的功能框圖。
圖3為本發(fā)明實施例評測方法的流程圖。
具體實施例方式
如圖1所示,本發(fā)明首先確定電話連續(xù)語音識別系統(tǒng)所針對的領域和所用語法,規(guī)定基于語義槽的評判指標(任務規(guī)定階段),然后生成并選擇文本語料,在真實環(huán)境錄制語音文件(語料準備階段),運行被測連續(xù)語音識別系統(tǒng)產(chǎn)生識別結果(現(xiàn)場測試階段),最后根據(jù)識別結果計算基于語義的評價指標(結果評判階段)。
下面結合一個應用實例來說明本實施例的評測方法,如圖2所示,該方法包括以下步驟步驟110,定義一個語法庫,為電話查詢常用的每一個領域制定一套語法,并在每個領域中根據(jù)語法定義若干可以單獨表達一定語義的槽(Slot),每一領域的槽只需生成或組合生成該領域常用查詢句子的有效內(nèi)容;任何評測都要首先規(guī)定被測系統(tǒng)所要完成的任務,當前的電話連續(xù)語音識別評測一般將任務規(guī)定為由語音識別出其對應的文本。但這并不符合電話連續(xù)語音識別系統(tǒng)針對特定領域、注重語義的特點。
因此,本實施例提出了一種基于語法和語義的任務,針對所要評測的系統(tǒng)的應用環(huán)境和特點選定針對的領域,將測試語料限于電話查詢較常用的領域,如公交、餐飲、體育、旅游、天氣等領域,為每一領域定義一套語法組成語法庫,所用的語法基于FSN(有限狀態(tài)網(wǎng)),每個領域用其語法定義若干(6-13)槽,每個槽都可以單獨表達一定的語義。槽其實就是語法中的非終結符,或稱Token,每個Token對應一條或多條規(guī)則,每條規(guī)則都能推導出若干字符串,這些字符串就都稱作是該槽所產(chǎn)生的字符串。語法中有大量的Token,我們只選取其中若干個有完整語義的成分作為槽。
例如,語法庫可以根據(jù)北京市奧運相關領域的真實問詢,經(jīng)人工抽象、形式化編寫而成,其中涉及的地名、公交站名、公交車次名、旅游景點名、飯店名等均為北京市真實存在的相應名稱,其中涉及的體育賽事均為奧運會中的真實賽事。
其中,公交領域可定義以下六個槽[departloc],表示出發(fā)地點;[arriveloc],表示目的地;[Route],表示路線查詢;[bus_line],表示公交車次;[query_bus],表示公交車查詢;[Location],表示地點。
槽之間可以嵌套,如上例中,[departloc]和[arriveloc]槽中都可以包含[Location]槽,[query_bus]槽中包含[bus_line]槽,[Route]槽中包含[departloc]和[arriveloc]槽。
由于實踐中,查詢者在開始和結束時經(jīng)常會說一些與查詢內(nèi)容無關的話,例如“你好,我問一下”,“您知道嗎”,“能不能查”,“謝謝”等。為了更符合真實應用的要求,本實施例規(guī)定句子的前后可以有符合語境的無關內(nèi)容,句子的結構為[無關內(nèi)容]語法生成的部分[無關內(nèi)容]方括號中的內(nèi)容可有可無。而中間的語法生成部分是查詢時的有效內(nèi)容,即真正涉及查詢內(nèi)容的有效部分,如公交領域的“從天安門到中關村怎么乘車?”。這樣限制了評測語料的范圍,更符合電話連續(xù)語音識別系統(tǒng)的真實應用要求。
通過適當?shù)囟x各領域的槽,可以使得各領域常見的查詢語句(例如詢問乘車路線,餐館地址,體育賽事時間,旅游景點簡介,天氣情況等)的有效部分可分解為由該領域所定義的一個或多個槽。反之,在為每個槽定義了若干的詞后,就可以將其按語法中規(guī)定的約束條件展開得到大量的句子。
步驟120,將被測系統(tǒng)的輸出定義為識別出的每個句子所含的槽,用槽識別正確率和句子識別正確率作為評價被測系統(tǒng)的性能的指標。具體計算方法將在后面的步驟中再介紹。
步驟130,用語法展開模塊將各個領域的詞按其語法展開,采用人工和語料篩選模塊和人工從生成的大量句子中選擇出作為評測語料的句子;測試語料的準備主要分為兩步文本語料的準備和測試語音的錄制。在文本語料的準備階段,使用語法展開模塊將各領域的語法展開(主要是將各個包括槽在內(nèi)的Token展開),獲得大量的字符串,即句子,然后在這些句子中選擇一部分作為測試數(shù)據(jù)。選擇的原則如下A,所選的句子應是符合正常人說話習慣的真實問訊。出于語法復雜度的考慮,由語法產(chǎn)生的句子中可能存在不符合真實應用的句子,如“中國跳水隊和日本足球隊的比賽”等,為了貼近應用,這些句子都不應使用。這一工作由人工完成。
B,所選的句子應盡可能多的覆蓋漢語的一些韻律學特征,如音節(jié),二音子(Biphone),三音子(Triphone)和音聯(lián)關系等。這是為了盡可能全面地考查被測系統(tǒng)對語音的處理性能。這一工作由語料篩選模塊完成。
C,每個領域所選的句子應盡可能平均地覆蓋各個槽。這一工作由語料篩選模塊完成。
在應用實例中,最終選出的句子數(shù)量為每個領域40句,共200句。
步驟140,在真實環(huán)境由錄音模塊錄制選定的文本語料的測試語音;在測試語音的錄制階段,要組織人員按照文本語料錄制語音數(shù)據(jù)。和多數(shù)評測方法一樣,錄音采用固定電話和插入PC機的Dialogic語音采集卡。錄音人男、女各半,錄音環(huán)境為辦公室等真實的噪音環(huán)境。在本應用實例中,每句錄成一個wav文件,采用16KHz采樣,16Bit編碼。
步驟150,將測試語音輸入要評測的電話連續(xù)語音識別系統(tǒng),運行被測系統(tǒng),并使用槽解析模塊對每個句子的語音識別結果按槽進行解析,將得到的槽的識別結果作為系統(tǒng)輸出的識別結果;步驟160,用自動評判模塊將系統(tǒng)輸出的識別結果與標準答案對照,計算槽識別正確率和句子識別正確率,得到系統(tǒng)性能的評判指標。
計算公式如下槽識別正確率=正確識別的槽的個數(shù)/槽的總數(shù)×100%;
句子識別正確率=正確識別的句子的個數(shù)/句子總數(shù)×100%。
其中,正確識別的槽的個數(shù)指所有句子中被正確識別的槽的個數(shù)的和,槽的總數(shù)指所有句子中槽的個數(shù)的和。本發(fā)明也可以只計算槽識別的正確率指標。
具體地說,每個槽的識別結果是一個字符串,只有這個字符串完全和答案一致時才認為槽識別正確。而句子識別正確并非指識別出的該句對應的字符串和標準答案的字符串完全一致,而是指句子中的所有槽都識別正確,這是與現(xiàn)有評測方法不同的。
槽與槽之間可能有嵌套,對于這種情況,所有存在的槽的識別結果都必須在輸出文件中給出。在統(tǒng)計槽的個數(shù)時,相互嵌套的槽應累計。在統(tǒng)計槽識別正確率時,相互嵌套的每個槽正確與否都將被統(tǒng)計在內(nèi)。
在計算槽的個數(shù)時,空槽(為NULL的槽)并不計入總數(shù)。如果在識別結果中將本應為空的槽填充,則在評判槽識別正確率時將被忽略,但在計算句子識別正確率時認為該句識別錯誤。
例如,輸入的測試語音為“查一下特五路上到的地方”時,識別結果為每個句子的槽解析結果,如下PHONE_C_B_001 Traffic查一下特五路上到的地方。
NULL[arriveloc]NULL[Route]NULL[bus_line] 特五[query_bus]特五路上到的地方[Location] NULL上述結果包括兩個槽(有嵌套關系),通過比較每個槽的輸出文本串和標準答案,就可以判斷該槽是否識別正確。
又如,輸入的測試語音為“從天安門到中關村怎么乘車?”時,槽解析后的識別結果如下
PHONE_C_B_002 Traffic從天安門到中關村怎么乘車。從天安門[arriveloc] 到中關村[Route] 從天安門到中關村[bus_line] NULL[query_bus] NULL[Location] 天安門[Location] 中關村上述結果包括5個槽(有嵌套關系),通過比較每個槽的輸出文本串和標準答案,就可以判斷該槽是否識別正確。
如圖3所示,本實施例的評測系統(tǒng)包括語法庫、語法展開模塊、語料篩選模塊、錄音模塊、被測的電話連續(xù)語音識別系統(tǒng)、槽解析模塊以及自動評測模塊。其中語法庫,包括對電話查詢常用的每一個領域制定的一套語法,并在每個領域中根據(jù)語法定義若干可以單獨表達一定語義的槽;語法展開模塊,用于將語法庫中的詞按其語法自動展開,得到大量的句子。
語料篩選模塊,用于將展開后得到的句子按設定策略篩選出用作測試語料的句子,所用策略可以是使覆蓋的漢語韻律學特征多,能平均地覆蓋各個槽等。
錄音模塊,用于完成基于測試語料的測試語音的錄制。
被測的電話連續(xù)語音識別系統(tǒng),用于接收輸入的測試語音信號得到句子的識別結果。
槽解析模塊,用于將句子的識別結果按槽進行解析,得到該句子中所包含的槽的識別結果。
自動評測模塊,用于比較槽的識別結果與標準答案,計算槽識別正確率和句子識別正確率。
上述的語法展開模塊、語料篩選模塊、錄音模塊、槽解析模塊和自動評測模塊均可在計算機上用軟件實現(xiàn)。
綜上所述,本發(fā)明的方法將評測限定在電話連續(xù)語音識別系統(tǒng)常用的幾個領域,通過使用給定語法限定了評測用的句子,通過引入槽的概念表示語義信息,并用槽識別正確率作為主要的評判指標,從而比目前常用的聽寫機式的評測方法更符合電話連續(xù)語音識別系統(tǒng)的特點,能夠更準確地評價系統(tǒng)性能。
權利要求
1.一種電話連續(xù)語音識別系統(tǒng)性能的評測方法,包括以下步驟(a)對電話查詢的若干領域,為每一領域制定一套語法,每個領域中,根據(jù)語法定義若干可以單獨表達一定語義的槽;(b)在各個領域按其語法展開,從生成的句子中選擇出作為評測語料的句子,并錄制選定的文本語料的測試語音;(c)將測試語音輸入要評測的電話連續(xù)語音識別系統(tǒng),運行被測系統(tǒng),并將每個句子的語音識別結果解析為所包含的槽后輸出;(d)將系統(tǒng)輸出的識別結果與標準答案對照,計算槽識別正確率,得到系統(tǒng)性能的評判指標。
2.如權利要求1所述的評測方法,其特征在于,所述步驟(a)中,采用的語法基于有限狀態(tài)網(wǎng)。
3.如權利要求1所述的評測方法,其特征在于,所述步驟(a)中的電話查詢領域為公交、餐飲、體育、旅游、天氣中的一個或任意組合。
4.如權利要求3所述的評測方法,其特征在于,所述步驟(a)中,每一領域定義的槽的個數(shù)為6~13個。
5.如權利要求1所述的評測方法,其特征在于,所述步驟(b)從生成的大量句子中選擇作為語料的句子時,是選擇符合正常人說話習慣的句子,并使所選句子盡可能多地覆蓋各種韻律學特征,在數(shù)量上盡可能地平均覆蓋各個槽。
6.如權利要求1所述的評測方法,其特征在于,所述步驟(d)中,將正確識別的槽的個數(shù)在槽的總數(shù)中所占的比率作為槽的識別正確率,只有作為槽的識別結果的字符串和答案完全一致才認為槽識別正確。
7.如權利要求1所述的評測方法,其特征在于,所述定義的槽可以相互嵌套,相互嵌套的槽應分別進行正確識別與否的判斷和數(shù)量的統(tǒng)計。
8.如權利要求1所述的評測方法,其特征在于,所述步驟(d)中,還根據(jù)正確識別的句子個數(shù)在句子總數(shù)中所占的比率計算句子的識別正確率,作為系統(tǒng)的另一個評測指標,其中句子識別正確是指句子中的所有槽都識別正確。
9.如權利要求6所述的評測方法,其特征在于,在計算槽的個數(shù)時,空槽不計入總數(shù),如果識別結果中將本應為空的槽填充,則在評判槽識別正確率時將被忽略。
10.如權利要求1所述的評測方法,其特征在于,所述步驟(a)定義槽時,每一領域的槽只需生成或組合生成該領域常用查詢句子的有效內(nèi)容。
11.一種電話連續(xù)語音識別系統(tǒng)性能的評測系統(tǒng),包括錄音模塊和被測的電話連續(xù)語音識別系統(tǒng),其特征在于,還包括語法庫、語法展開模塊、語料篩選模塊、槽解析模塊以及自動評測模塊,其中所述語法庫,包括為電話查詢?nèi)舾深I域分別制定的一套語法,并在每個領域中根據(jù)語法定義了若干可以單獨表達一定語義的槽;所述語法展開模塊,用于將語法庫中的詞按其語法自動展開,得到大量的句子;所述語料篩選模塊,用于將展開后得到的句子按設定策略篩選出用作測試語料的句子;所述槽解析模塊,用于將句子的識別結果按槽進行解析,得到該句子中所包含的槽的識別結果;所述自動評測模塊,用于比較槽的識別結果與標準答案,計算出槽識別正確率。
全文摘要
本發(fā)明公開一種電話連續(xù)語音識別系統(tǒng)性能的評測方法及系統(tǒng),該系統(tǒng)包括錄音模塊、被測的電話連續(xù)語音識別系統(tǒng)、語法庫、語法展開模塊、語料篩選模塊、槽解析模塊以及自動評測模塊。先對電話查詢的若干領域,按其語法定義若干槽;在各個領域按其語法展開,從生成的句子中選擇出作為評測語料的句子并錄制測試語音;將測試語音輸入要評測的電話連續(xù)語音識別系統(tǒng),將每個句子的語音識別結果解析為所包含的槽后輸出;將系統(tǒng)輸出的識別結果與標準答案對照,計算槽識別正確率,得到系統(tǒng)性能的評判指標。本發(fā)明方法比目前常用的聽寫機式的評測方法更符合電話連續(xù)語音識別系統(tǒng)的特點,能夠更準確地評價電話連續(xù)語音識別系統(tǒng)性能。
文檔編號G10L15/00GK1811915SQ20051001128
公開日2006年8月2日 申請日期2005年1月28日 優(yōu)先權日2005年1月28日
發(fā)明者王向東, 欒煥博, 林守勛, 錢躍良, 劉宏, 張勇東 申請人:中國科學院計算技術研究所