本發(fā)明涉及語音訓(xùn)練和語音識別技術(shù)領(lǐng)域,尤其涉及一種用于電力終端的語音客服系統(tǒng)。
背景技術(shù):
如今,電力客服運行系統(tǒng)為廣大的電力用戶提供了許多便利。2002年以來,全國統(tǒng)一的特服號“95598”服務(wù)全國電力用戶,24小時全天候受理電力故障報修、用電業(yè)務(wù)咨詢、供電服務(wù)質(zhì)量投訴、用電業(yè)務(wù)申請、電費業(yè)務(wù)查詢和發(fā)布計劃檢修停電預(yù)報。95598呼叫中心具備上萬路進線,每小時接聽能力達到幾十萬次,為全國電力客戶提供各種電力服務(wù)。
對于電力客服運行系統(tǒng)而言,目前主要是靠接線員人工接聽電力用戶來電,根據(jù)與電力用戶通話交流給予用戶幫助和服務(wù)。
在電力客服運行系統(tǒng)中,接線員對于維持電力客服的正常運行至關(guān)重要。在實際工作中,接線員的工作任務(wù)往往異常繁重。接線員和用戶的理解難免會出現(xiàn)偏差,一旦發(fā)生錯誤,其后果往往是嚴重的。目前接線員的語音通話的訓(xùn)練不足,導(dǎo)致系統(tǒng)服務(wù)質(zhì)量下降。
技術(shù)實現(xiàn)要素:
為克服現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種可用于電力終端的語音客服系統(tǒng),具有接線員語音訓(xùn)練裝置,該接線員語音訓(xùn)練裝置能為接線員提供語音訓(xùn)練,通過語音訓(xùn)練建立接線員的個人聲學(xué)模型,利用個人聲學(xué)模型識別接線員的指令語音,并且對識別后的指令語音進行糾錯和規(guī)范,來提高語音識別的正確率,從而提高系統(tǒng)服務(wù)質(zhì)量。
根據(jù)本發(fā)明的實施例的第一方面,提供了一種用于電力終端的語音客服系統(tǒng),包括:接線員語音訓(xùn)練裝置,接線員語音訓(xùn)練裝置包括語音訓(xùn)練器、語音識別器、識別后處理器和模擬機服務(wù)器,其中,語音訓(xùn)練器與語音識別器連接,語音訓(xùn)練器用于通過對接線員輸入的語音進行訓(xùn)練,建立個人聲學(xué)模型;語音識別器與識別后處理器連接,語音識別器用于基于個人聲學(xué)模型,對接線員輸入的指令語音進行識別,將識別的結(jié)果輸出為文本信息;識別后處理器與語音訓(xùn)練器和模擬機服務(wù)器連接,識別后處理器用于將文本信息與個人聲學(xué)模型進行動態(tài)匹配容錯處理,輸出XML形式的文本信息;模擬機服務(wù)器用于對XML形式的文本信息進行指令分析和應(yīng)答。
根據(jù)本發(fā)明的一個實施例,模擬機服務(wù)器包括語音生成器,用于根據(jù)XML形式的文本信息生成語音提示來應(yīng)答。
根據(jù)本發(fā)明的一個實施例,語音訓(xùn)練器通過對接線員輸入的語音進行訓(xùn)練以提取聲學(xué)特征信息、獲取統(tǒng)計信息,生成具有個人語音特征的個人聲學(xué)模型。
根據(jù)本發(fā)明的一個實施例,語音訓(xùn)練器包括專用名詞語音訓(xùn)練模塊、數(shù)字語音訓(xùn)練模塊、字母語音訓(xùn)練模塊,專用名詞語音訓(xùn)練模塊、數(shù)字語音訓(xùn)練模塊和字母語音訓(xùn)練模塊分別通過對接線員輸入的專用名詞語音、數(shù)字語音和字母語音進行訓(xùn)練,生成具有個人語音特征的專用名詞聲學(xué)模型、數(shù)字聲學(xué)模型和字母聲學(xué)模型。
根據(jù)本發(fā)明的一個實施例,語音識別器包括特殊發(fā)音識別模塊,用于基于專用名詞聲學(xué)模型、數(shù)字聲學(xué)模型和字母聲學(xué)模型,來識別接線員輸入的指令語音中的專用名詞語音、數(shù)字語音和字母語音。
根據(jù)本發(fā)明的一個實施例,接線員語音訓(xùn)練裝置還包括語音信息采集器和存儲緩沖區(qū),語音信息采集器與語音訓(xùn)練器連接,語音信息采集器還與語音識別器連接,用于采集接線員要輸入語音訓(xùn)練器或語音識別器的語音,按照預(yù)定的采樣率、單/立體聲道、單位比特數(shù)將語音處理成語音信息并將語音信息保存在存儲緩沖區(qū)內(nèi)。
根據(jù)本發(fā)明的一個實施例,預(yù)定的采樣率為16KHz,單位比特數(shù)為16比特,存儲緩沖區(qū)的大小為6400字節(jié)。
根據(jù)本發(fā)明的一個實施例,接線員語音訓(xùn)練裝置還包括語音模型配置器,語音模型配置器與語音訓(xùn)練器連接,語音模型配置器用于設(shè)計和配置不同客服階段的語音模型文法,以供語音訓(xùn)練器選擇語音模型文法進行加載,進行不同客服階段的訓(xùn)練。
根據(jù)本發(fā)明的一個實施例,接線員語音訓(xùn)練裝置還包括初始化信息配置器,初始化信息配置器與語音識別器連接,初始化信息配置器用于為語音識別器配置初始化信息,初始化信息包括輸入輸出初始化信息、發(fā)音字典、個人聲學(xué)模型和/或運行初始化信息。
根據(jù)本發(fā)明的一個實施例,用于電力終端的語音客服系統(tǒng)還可以包括客服語音生成裝置,用于生成播放給電力用戶的客服語音。
由上可見,本發(fā)明實施例提供了一種用于電力終端的語音客服系統(tǒng),包括:接線員語音訓(xùn)練裝置,接線員語音訓(xùn)練裝置包括語音訓(xùn)練器、語音識別器、識別后處理器和模擬機服務(wù)器,其中,語音訓(xùn)練器與語音識別器連接,語音訓(xùn)練器用于通過對接線員輸入的語音進行訓(xùn)練,建立個人聲學(xué)模型;語音識別器與識別后處理器連接,語音識別器用于基于個人聲學(xué)模型,對接線員輸入的指令語音進行識別,將識別的結(jié)果輸出為文本信息;識別后處理器與語音訓(xùn)練器和模擬機服務(wù)器連接,用于將文本信息與個人聲學(xué)模型進行動態(tài)匹配容錯處理,輸出XML形式的文本信息;模擬機服務(wù)器用于對XML形式的文本信息進行指令分析和應(yīng)答。由此可知,本發(fā)明的用于電力終端的語音客服系統(tǒng)具有接線員語音訓(xùn)練裝置,該接線員語音訓(xùn)練裝置能為接線員提供語音訓(xùn)練,通過語音訓(xùn)練建立接線員的個人聲學(xué)模型,利用個人聲學(xué)模型識別接線員的指令語音,并且對識別后的指令語音進行糾錯和規(guī)范,來提高語音識別的正確率,從而提高系統(tǒng)服務(wù)質(zhì)量。
應(yīng)當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本發(fā)明。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實施例,并與說明書一起用于解釋本發(fā)明的原理。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,對于本領(lǐng)域普通技術(shù)人員而言,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是根據(jù)本發(fā)明的一個實施例的用于電力終端的語音客服系統(tǒng)的結(jié)構(gòu)示意框圖。
圖2是根據(jù)本發(fā)明的一個實施例的描述接線員訓(xùn)練裝置進行指令語音識別的工作原理圖。
圖3是根據(jù)本發(fā)明的一個實施例的接線員訓(xùn)練裝置的工作流程圖。
具體實施方式
這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
圖1是根據(jù)本發(fā)明的一個實施例的用于電力終端的語音客服系統(tǒng)的結(jié)構(gòu)示意框圖。語音客服系統(tǒng)可以集成在電力終端(例如,智能電能表)上,為電力用戶提供更優(yōu)質(zhì)的服務(wù)。如圖1所示,用于電力終端的語音客服系統(tǒng)包括接線員語音訓(xùn)練裝置。接線員語音訓(xùn)練裝置的目的在于,為電力語音客服系統(tǒng)的接線員提供日常語音學(xué)習(xí)和訓(xùn)練,以便提高接線員在實際工作時的服務(wù)質(zhì)量。根據(jù)本發(fā)明的一個實施例,語音訓(xùn)練裝置為接線員提供語音訓(xùn)練,通過語音訓(xùn)練建立個人聲學(xué)模型,利用個人聲學(xué)模型識別接線員的指令語音,并將個人聲學(xué)模型與識別的指令語音進行動態(tài)匹配容錯處理,以糾正和規(guī)范接線員的指令語音,后續(xù)對指令進行分析和應(yīng)答。如圖1所示,接線員語音訓(xùn)練裝置可以包括語音訓(xùn)練器1、語音識別器2、識別后處理器3和模擬機服務(wù)器4。語音訓(xùn)練器1與語音識別器2連接,語音識別器2與識別后處理器3連接,識別后處理器3與語音訓(xùn)練器1和模擬機服務(wù)器4連接。語音訓(xùn)練器1通過對接線員輸入的語音進行訓(xùn)練,建立個人聲學(xué)模型。語音識別器2基于個人聲學(xué)模型,對接線員輸入的指令語音進行識別,將識別的結(jié)果輸出為文本信息。識別后處理器3將文本信息與個人聲學(xué)模型進行動態(tài)匹配容錯處理,輸出XML形式的文本信息。模擬機服務(wù)器4對XML形式的文本信息進行指令分析和應(yīng)答。
根據(jù)本發(fā)明的一個實施例,接線員可以通過麥克風(fēng)輸入語音。接線員可以通過語音訓(xùn)練器1訓(xùn)練個人特色的聲學(xué)模型。訓(xùn)練后,語音識別器2可以使用接線員的個人聲學(xué)模型進行語音識別。關(guān)于訓(xùn)練,可以根據(jù)實際情況設(shè)定個人聲學(xué)模型訓(xùn)練和建立計劃。個人聲學(xué)模型訓(xùn)練和建立計劃可以特別包括指令語音訓(xùn)練計劃。在指令語音訓(xùn)練計劃下,接線員可以逐步訓(xùn)練,熟練掌握指令語音的發(fā)音規(guī)范和發(fā)布流程。通過個人聲學(xué)模型訓(xùn)練和建立計劃,接線員可以建立具備個人特色的個人聲學(xué)模型。個人聲學(xué)模型為后續(xù)的接線員語音識別提供識別基礎(chǔ),基于接線員自己的個人特色的個人聲學(xué)模型來識別接線員自己的語音,可以大大提高語音識別率。根據(jù)本發(fā)明的實施例,經(jīng)過訓(xùn)練的聲學(xué)模型的識別效果明顯比未訓(xùn)練時的識別率要高。
根據(jù)本發(fā)明的一個實施例,語音訓(xùn)練器1可以通過對接線員輸入的語音進行訓(xùn)練以提取聲學(xué)特征信息、獲取統(tǒng)計信息,生成具有個人語音特征的個人聲學(xué)模型。在電力客服領(lǐng)域,服務(wù)內(nèi)容經(jīng)常會涉及到專用名詞、地址、數(shù)字等重要的信息。因此,根據(jù)本發(fā)明的一個實施例,語音訓(xùn)練器1可以包括專用名詞語音訓(xùn)練模塊、數(shù)字語音訓(xùn)練模塊、字母語音訓(xùn)練模塊(未示出),專用名詞語音訓(xùn)練模塊、數(shù)字語音訓(xùn)練模塊和字母語音訓(xùn)練模塊分別通過對接線員輸入的指令語音中的專用名詞語音、數(shù)字語音和字母語音進行訓(xùn)練,生成具有個人語音特征的專用名詞聲學(xué)模型、數(shù)字聲學(xué)模型和字母聲學(xué)模型。相應(yīng)地,根據(jù)本發(fā)明的一個實施例,語音識別器2可以包括特殊發(fā)音識別模塊,特殊發(fā)音識別模塊根據(jù)上述的數(shù)字聲學(xué)模型、字母聲學(xué)模型和專用名詞聲學(xué)模型,識別接線員輸入的指令語音中的數(shù)字特殊發(fā)音、字母特殊發(fā)音和專用名詞發(fā)音,以便提高識別正確率和效率。
如上所述,語音訓(xùn)練器1通過對接線員輸入的語音進行訓(xùn)練,建立個人聲學(xué)模型。語音識別器2基于個人聲學(xué)模型,對接線員輸入的指令語音進行識別,將識別的結(jié)果輸出為文本信息。具體地,文本信息可以是字符串形式。識別后處理器3將文本信息與個人聲學(xué)模型進行動態(tài)匹配容錯處理,輸出XML形式的文本信息。具體地,識別后處理器3主要是將識別出的字符串形式的文本信息進行解析重組(例如,將信息中的公司名、業(yè)務(wù)編號等具有特定含義的單詞替換成相應(yīng)的數(shù)字或字母形式),基于個人聲學(xué)模型對解析重組后的文本信息進行動態(tài)匹配容錯處理后,輸出XML形式的文本信息,交給模擬機服務(wù)器4進行指令的分析、應(yīng)答等處理。
如上所述,語音客服系統(tǒng)經(jīng)過訓(xùn)練后對指令語音的語音識別效率和正確率可以大大提高,再通過動態(tài)容錯匹配處理可以進一步有效地提高語音識別正確率。根據(jù)本發(fā)明的一個實施例,為了更進一步提高語音識別正確率,可以采用鼠標/鍵盤輔助輸入來進一步提高識別效率。
模擬機服務(wù)器4通過對XML形式的文本信息進行指令分析和應(yīng)答,來為接線員模擬日常的指令發(fā)布環(huán)境。根據(jù)本發(fā)明的一個實施例,模擬機服務(wù)器4的指令應(yīng)答可以是回饋給接線員語音提示,例如,類似于日常電力服務(wù)中電力終端上提示電力用戶操作的語音提示。為了回饋給接線員語音提示,如圖1所示,模擬機服務(wù)器4可以包括語音生成器41,用于根據(jù)所述XML形式的文本信息生成語音提示來應(yīng)答。生成的語音提示可以播放給接線員,接線員可以及時地獲知語音指令發(fā)布是否正確,進而獲知自己的語音指令發(fā)音是否正確,以達到語音指令訓(xùn)練和學(xué)習(xí)的目的。根據(jù)本發(fā)明的一個實施例,用于電力終端的語音客服系統(tǒng)還可以包括客服語音生成裝置,生成播放給電力用戶的客服語音。
根據(jù)本發(fā)明的一個實施例,如圖1所示,用于電力終端的語音客服系統(tǒng)還可以包括語音信息采集器5和存儲緩沖區(qū)(未示出),語音信息采集器5可以與語音訓(xùn)練器1和語音識別器2連接。語音信息采集器5采集接線員要輸入語音訓(xùn)練器1或語音識別器2的語音,按照預(yù)定的采樣率、單/立體聲道、單位比特數(shù)將語音處理成語音信息并將語音信息保存在存儲緩沖區(qū)內(nèi)。根據(jù)本發(fā)明的一個實施例,預(yù)定的采樣率可以為16KHz,單位比特數(shù)可以為16比特,存儲緩沖區(qū)的大小可以為6400字節(jié)。
根據(jù)本發(fā)明的一個實施例,如圖1所示,接線員語音訓(xùn)練裝置還可以包括初始化信息配置器6,初始化信息配置器6與語音識別器2連接,初始化信息配置器6為語音識別器2配置初始化信息,初始化信息可以包括輸入輸出初始化信息、發(fā)音字典、聲學(xué)模型和/或運行初始化信息等。
根據(jù)本發(fā)明的一個實施例,用于電力終端的語音客服系統(tǒng)還可以包括語音模型配置器7,語音模型配置器7可以與語音訓(xùn)練器1連接,語音模型配置器7用于設(shè)計和配置不同客服階段的語音模型文法,以供語音訓(xùn)練器1選擇語音模型文法進行加載,完成不同客服階段的訓(xùn)練。
根據(jù)本發(fā)明的一個實施例,接線員通過指令語音來發(fā)布指令,以進行管制,涵蓋了維護、報警、收費、投訴等等多個不同業(yè)務(wù)管制場景。下面結(jié)合圖2描述接線員語音訓(xùn)練裝置進行指令語音識別的工作原理圖。
根據(jù)本發(fā)明的一個實施例,如圖2所示,可以采用Sphinx-4語音識別引擎來配置語音識別器2,Sphinx-4語音識別引擎利用基于深度學(xué)習(xí)和隱馬爾可夫模型的語音識別技術(shù)來實施語音識別。當接線員選擇指令語音識別時,語音客服系統(tǒng)啟動時需要完成一系列的初始化操作,主要包括麥克風(fēng)和耳機的檢測,訓(xùn)練計劃的選擇,語音識別引擎初始化的連接等。尤其地,在Sphinx-4語音識別引擎開始工作前,要對Sphinx-4語音識別引擎實施初始化,具體地,為Sphinx-4語音識別引擎加載初始化配置信息,配置語音模型,選擇聲學(xué)模型,主要實現(xiàn)識別引擎初始化時,輸入輸出、發(fā)音字典、聲學(xué)模型和系統(tǒng)運行等配置信息的設(shè)計、管理、分析、動態(tài)加載及處理。初始化完成后,接線員可以自由控制麥克風(fēng)的打開和關(guān)閉,通過麥克風(fēng)輸入指令語音。語音信息采集器采集指令語音,輸出語音信息到Sphinx-4語音識別引擎。此時,Sphinx-4語音識別引擎接收并識別語音信息,輸出字符串形式的指令文本信息。識別后處理器3將識別后的文本信息與個人聲學(xué)模型進行動態(tài)匹配容錯處理,輸出XML形式的文本信息,交給模擬機服務(wù)器4進行指令的分析、應(yīng)答等處理。模擬機服務(wù)器4可以生成語音提示來應(yīng)答,接線員收到語音提示,可以及時地了解自己訓(xùn)練的效果,做到取長補短,提高日常服務(wù)質(zhì)量。
圖3是根據(jù)本發(fā)明的一個實施例的語音訓(xùn)練裝置的工作流程圖。
如圖3所示,系統(tǒng)啟動后,接線員以自己注冊的賬號、密碼或游客的身份登陸接線員語音訓(xùn)練裝置的系統(tǒng),此時,接線員可以選擇語音訓(xùn)練或指令語音識別。如果接線員首次使用語音訓(xùn)練裝置的系統(tǒng),建議先完成語音訓(xùn)練以獲得具有個人語音特征的聲學(xué)模型,再選擇指令語音識別。如果接線員非首次登陸,可以二次訓(xùn)練聲學(xué)模型,也可以直接進行語音識別。
如果接線員選擇語音訓(xùn)練,系統(tǒng)啟動時將完成一系列的初始化操作,包括語音訓(xùn)練計劃的選擇、聲學(xué)模型更新過程中數(shù)據(jù)的重置等。語音訓(xùn)練初始化完成后,系統(tǒng)會自動顯示語音訓(xùn)練的內(nèi)容并加載上次訓(xùn)練的記錄,接線員依據(jù)系統(tǒng)的提示決定是否繼續(xù)上次的訓(xùn)練,之后通過麥克風(fēng)錄入具有個人特色的語音信息。錄用過程中,為便于語音錄入錯誤信息后的調(diào)整,每次麥克風(fēng)錄入一句話長度的語音信息。當前語句錄入完成后,接線員可以選擇當前訓(xùn)練語句的重新錄音、暫停當前錄音或結(jié)束訓(xùn)練。訓(xùn)練結(jié)束后,會根據(jù)麥克風(fēng)采集的多條語音信息提取聲學(xué)特征文件、獲取統(tǒng)計信息并最終生成具有個人語音特征的新的聲學(xué)模型,此時,整個語音訓(xùn)練過程完成,同時新的聲學(xué)模型將作為指令語音識別的資源文件,存放在存儲緩沖區(qū)中的系統(tǒng)資源文件夾下。
訓(xùn)練過程如下:接線員首先根據(jù)本次訓(xùn)練的需要,選擇具體的訓(xùn)練內(nèi)容,例如,指令訓(xùn)練、專用名詞訓(xùn)練、數(shù)字訓(xùn)練或字母訓(xùn)練,然后,點擊開始當前指令錄音按鈕,接線員將當前行的內(nèi)容按照發(fā)音要求通過麥克風(fēng)語音錄入,再點擊當前指令錄音完畢按鈕,這樣,該行的語音信息錄入完成。接線員可以自己決定本次訓(xùn)練語句的數(shù)量,也可以重新錄入之前一行的語音信息。最后,接線員點擊聲學(xué)模型更新按鈕,系統(tǒng)將自動完成聲學(xué)模型的訓(xùn)練和更新。
如果接線員選擇語音識別,系統(tǒng)啟動時也需要完成一系列的初始化操作,主要包括麥克風(fēng)和耳機的檢測,訓(xùn)練計劃的選擇,語音識別引擎初始化的連接等。初始化完成后,接線員可以自由控制麥克風(fēng)的打開和關(guān)閉??展苣M訓(xùn)練過程中,接線員打開麥克風(fēng)語音輸入一條完整的指令后,關(guān)閉麥克風(fēng)。此時,系統(tǒng)調(diào)用語音識別引擎Sphinx-4接收并識別語音,并輸出文本信息。之后,識別后處理器3對識別后的文本信息進行符合模擬機服務(wù)器4處理所需格式的替換處理,最后,對替換后的文本信息進行合法性的判斷,即,將替換后的文本信息與個人聲學(xué)模型進行動態(tài)匹配容錯處理,輸出XML形式的文本信息。之后,模擬機服務(wù)器4將XML形式的文本信息按照JavaCC編寫的詞法和語法規(guī)則解析成結(jié)構(gòu)化的指令,以便模擬機服務(wù)器4對指令進行應(yīng)答。至此,一次完整的人機模擬陸空通話的過程完成,而對于判斷不合法的,則會要求接線員重新發(fā)布指令語音。
綜上所述,本發(fā)明的用于電力終端的語音客服系統(tǒng)具有接線員語音訓(xùn)練裝置,該接線員語音訓(xùn)練裝置能為接線員提供語音訓(xùn)練,通過語音訓(xùn)練建立接線員的個人聲學(xué)模型,利用個人聲學(xué)模型識別接線員的指令語音,并且對識別后的指令語音進行糾錯和規(guī)范,來提高語音識別的正確率,從而提高系統(tǒng)服務(wù)質(zhì)量。
本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里發(fā)明的公開后,將容易想到本發(fā)明的其它實施方案。本申請旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本發(fā)明未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本發(fā)明的真正范圍和精神由下面的權(quán)利要求指出。