中文語音識(shí)別系統(tǒng)的制作方法
【專利摘要】本發(fā)明是一種智能化的中文語音識(shí)別軟件系統(tǒng),屬于電子信息【技術(shù)領(lǐng)域】,包括了聲學(xué)、語言學(xué)、統(tǒng)計(jì)學(xué)、人工智能、云計(jì)算等多項(xiàng)【背景技術(shù)】。語音(講話)是最為方便、快捷、自然的人際交流手段,采用自然語音作為人與計(jì)算機(jī)交互的手段,使計(jì)算機(jī)能像人一樣,具有聽、說和理解的能力,是智能語音技術(shù)應(yīng)用發(fā)展的基礎(chǔ)。本發(fā)明在多年的中文語音識(shí)別系統(tǒng)研發(fā)基礎(chǔ)上,推出了多項(xiàng)創(chuàng)新,主要集中在語音識(shí)別系統(tǒng)結(jié)構(gòu)上,以及具體的語音識(shí)別功能與智能化特性,能夠讓用戶高效、便捷的開展與應(yīng)用各種語音識(shí)別服務(wù)。
【專利說明】中文語音識(shí)別系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明是一種智能化的中文語音識(shí)別軟件系統(tǒng),屬于電子信息【技術(shù)領(lǐng)域】,包括了聲學(xué)、語言學(xué)、統(tǒng)計(jì)學(xué)、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、云計(jì)算等多項(xiàng)【背景技術(shù)】。
【背景技術(shù)】
[0002]語音(講話)是最為方便、快捷、自然的人際交流手段,采用自然語音作為人與計(jì)算機(jī)交互的手段,使計(jì)算機(jī)能像人一樣,具有聽、說和理解的能力,是智能語音技術(shù)應(yīng)用發(fā)展的基礎(chǔ)。在其中所需的各種技術(shù)中,以語音識(shí)別技術(shù)最具挑戰(zhàn)性,因而被國外眾多媒體和專家評(píng)為21世紀(jì)前十年將對(duì)人類生活方式產(chǎn)生重大影響的十大科技進(jìn)展之一。
[0003]語音識(shí)別技術(shù)相當(dāng)復(fù)雜,包括了聲學(xué)、語言學(xué)、數(shù)字信號(hào)處理、統(tǒng)計(jì)模式、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等多學(xué)科技術(shù)的一項(xiàng)綜合性技術(shù),研究所投入的人力、物力等非常大,所需時(shí)間相對(duì)也比較長。
[0004]語音識(shí)別屬于多維模式識(shí)別和智能計(jì)算機(jī)接口的范疇,語音識(shí)別研究的根本目的是研究出一種具有聽覺功能的機(jī)器,能直接接受人的語音命令,理解人的意圖并作出相應(yīng)的反應(yīng)。事實(shí)上,讓機(jī)器聽懂人的語言,一直是人類長期追求的理想,有著廣泛的應(yīng)用需求。例如,帶有語音接口的計(jì)算機(jī)可以改變?nèi)藗兡壳皩?duì)電腦的操作方式,引起操作系統(tǒng)的革命;實(shí)現(xiàn)兩種語言間的直接通信,即通過“語音識(shí)別-機(jī)器翻譯-文本合成”將一種語言直接轉(zhuǎn)換成另一種語言;語音世界可以使用戶通過語音直接檢索數(shù)據(jù)庫,也就是類似互聯(lián)網(wǎng)搜索引擎的語音搜索,獲取所需的信息,或者語音電話撥號(hào),這在特定環(huán)境中,如汽車駕駛過程中將顯得非常重要和便捷。
[0005]以上這些應(yīng)用需求來源于語音信號(hào)的本質(zhì)特點(diǎn):一方面它是人們最自然、最便捷的界湖工具,不需要再做專門訓(xùn)練,而且反應(yīng)速度特別快,可以達(dá)到毫秒量級(jí);另一方面語音信號(hào)無嚴(yán)格方向限制,且可以在黑暗中傳播,是圖片、文字或按鈕等其它視、觸覺信息所無法替代的。
[0006]但是,要讓計(jì)算機(jī)聽懂人的語言卻面臨著諸多困難,主要體現(xiàn)以下幾個(gè)方面:
1.語音信號(hào)的聲學(xué)特征隨其前后與之相連的語音不同而產(chǎn)生很大的變異,且連續(xù)語流中各語音單位之間不存在明顯的邊界;2.語音特征會(huì)隨發(fā)音人的不同、發(fā)音人心理或生理狀態(tài)的變化而產(chǎn)生很大的差異;3.傳聲設(shè)備的差異及環(huán)境噪聲干擾也將直接影響語音特征的準(zhǔn)確提?。?.一個(gè)語句所表達(dá)的意思,是與上下文內(nèi)容、說話時(shí)的環(huán)境條件以及背景等因素有關(guān)的,而語句的語法結(jié)構(gòu)又是多變化的,并且語境信息幾乎是計(jì)算機(jī)自動(dòng)語音識(shí)別無法利用的;5.語音識(shí)別在具體應(yīng)用中不能只是單純的識(shí)別技術(shù),而要形成一個(gè)分布式的系統(tǒng),來滿足大量并發(fā)的語音識(shí)別服務(wù)。
[0007]本發(fā)明是一個(gè)智能化的連續(xù)中文語音識(shí)別系統(tǒng),除了語音識(shí)別技術(shù)自身外,重點(diǎn)在語音識(shí)別系統(tǒng)結(jié)構(gòu)上做出了多項(xiàng)創(chuàng)新,其中系統(tǒng)結(jié)構(gòu)準(zhǔn)確度高、伸縮空間大、質(zhì)量穩(wěn)定可靠,可創(chuàng)建高質(zhì)量的語音識(shí)別系統(tǒng)應(yīng)用。
【發(fā)明內(nèi)容】
[0008]說明書【專利附圖】
【附圖說明】:圖1為語音識(shí)別系統(tǒng)結(jié)構(gòu)圖;圖2為語音識(shí)別過程圖;圖3為語音識(shí)別步驟示意圖;圖4為語音識(shí)別結(jié)構(gòu)示意圖;圖5為相似音識(shí)別示意圖。
[0009]本發(fā)明的是一種智能化的語音識(shí)別系統(tǒng),主要
【發(fā)明內(nèi)容】
如下:
語音識(shí)別系統(tǒng)結(jié)構(gòu)
語音識(shí)別系統(tǒng)是基于分布式結(jié)構(gòu),系統(tǒng)靈活、可靠,成本效率高。系統(tǒng)結(jié)構(gòu)圖1所示。下面將分別描述系統(tǒng)各組成部分。
[0010]識(shí)別客戶端
識(shí)別客戶端是處理應(yīng)用程序和語音識(shí)別系統(tǒng)間交互的過程。它處理音頻輸入和輸出,并支持有限的電話控制。音頻輸入可選擇取消回音然后作斷句。音頻輸出支持預(yù)錄音提示回放,為第三方的文本到語音轉(zhuǎn)換(TTS)系統(tǒng)提供了一個(gè)框架。在特定配置下,呼叫控制和提示回放由系統(tǒng)外的組件控制。最后,識(shí)別客戶端將音頻傳給語音識(shí)別服務(wù)器,并將事件和結(jié)果回傳給應(yīng)用程序。
[0011]識(shí)別服務(wù)器
識(shí)別服務(wù)器對(duì)從識(shí)別客戶端接收來的終端音頻進(jìn)行語音識(shí)別和自然語言理解。如果為識(shí)別語音并為表達(dá)內(nèi)容返回自然語言的解釋,識(shí)別服務(wù)器需要一系列的聲學(xué)模型和語法。聲學(xué)模型和語法幫助識(shí)別服務(wù)器確定說話內(nèi)容。語法也用于解釋口頭詞匯的意思。應(yīng)用程序?qū)ψR(shí)別服務(wù)器加載包中的聲學(xué)模型和語法進(jìn)行指定。
[0012]資源管理器
資源管理器執(zhí)行實(shí)時(shí)載入平衡功能,以保證識(shí)別任務(wù)平均分配到可用的識(shí)別服務(wù)器,從而降低硬件需求,改善服務(wù)質(zhì)量。
[0013]數(shù)據(jù)庫
語音識(shí)別系統(tǒng)采用數(shù)據(jù)庫(支持文本、ODBC等關(guān)系型數(shù)據(jù)庫)來保存動(dòng)態(tài)語法和用戶資料。對(duì)于某些語音識(shí)別應(yīng)用,視其應(yīng)用程序情況,可能不需要數(shù)據(jù)庫。
[0014]語音識(shí)別過程
為了理解語音識(shí)別系統(tǒng)的結(jié)構(gòu),最重要的是大致了解其識(shí)別過程,重點(diǎn)在客戶端、服務(wù)器和應(yīng)用程序。圖2和圖3為語音識(shí)別過程的示意圖和步驟,隨后是每個(gè)步驟的說明。
[0015]語音識(shí)別系統(tǒng)識(shí)別的過程,大致包括以下若干個(gè)步驟:
1.識(shí)別客戶端有電話到達(dá),識(shí)別客戶端通知應(yīng)用程序,系統(tǒng)接電話;
2.系統(tǒng)要求識(shí)別客戶端播放第一個(gè)提示,呼叫者作出反應(yīng)。對(duì)文本到語音轉(zhuǎn)換提示,識(shí)別客戶端將要合成文本通過一個(gè)套接字發(fā)送到TTS服務(wù)器,并接收回傳的樣本;
3.為識(shí)別呼叫方的反應(yīng),識(shí)別客戶端向資源管理器發(fā)送服務(wù)器請(qǐng)求(同時(shí)緩存音頻數(shù)據(jù)),資源管理器將識(shí)別客戶端指向最合適的識(shí)別服務(wù)器;
4.識(shí)別客戶端向識(shí)別服務(wù)器發(fā)送一條識(shí)別請(qǐng)求。每個(gè)請(qǐng)求由音頻流和在應(yīng)用中的語法條目組成。該語法條目暗含了聲學(xué)模型,因?yàn)閮烧弑粌?nèi)置于識(shí)別服務(wù)器加載的識(shí)別包里;
5.識(shí)別服務(wù)器接收到請(qǐng)求后,執(zhí)行識(shí)別任務(wù),然后將識(shí)別結(jié)果返回給識(shí)別客戶端;
6.在此期間,資源管理器對(duì)識(shí)別服務(wù)器的當(dāng)前載入的內(nèi)容進(jìn)行監(jiān)視;
7.識(shí)別客戶端將識(shí)別結(jié)果發(fā)送給應(yīng)用程序;
8.應(yīng)用程序做出相應(yīng)的響應(yīng),例如,進(jìn)行數(shù)據(jù)庫查詢或請(qǐng)求識(shí)別客戶端播放另一個(gè)提示,作為對(duì)用戶的響應(yīng);
9.呼叫者做出反應(yīng);識(shí)別客戶端發(fā)送下一個(gè)識(shí)別請(qǐng)求(見步驟4);
以上是一個(gè)簡單的識(shí)別過程,如果針對(duì)大量的語音識(shí)別應(yīng)用,識(shí)別服務(wù)端可以啟用多個(gè),并通過資源管理,合理分配識(shí)別服務(wù)處理。
[0016]語首識(shí)別結(jié)果
每個(gè)語音識(shí)別完成后,系統(tǒng)將識(shí)別結(jié)果傳給應(yīng)用程序,應(yīng)用程序根據(jù)結(jié)果相應(yīng)做出響應(yīng)。識(shí)別結(jié)果包含豐富的信息供應(yīng)用程序使用,包括:
1.經(jīng)識(shí)別的講話副本及其置信度
2.自然語言結(jié)果、每一檔的值及對(duì)應(yīng)的置信度分值
3.校驗(yàn)分值
圖4是識(shí)別結(jié)果的示意圖,包括被識(shí)別的文本、置信級(jí)別及自然語言解釋。
[0017]相似音識(shí)別
對(duì)于相似音,尤其中文發(fā)音,相似音會(huì)經(jīng)常遇到。舉個(gè)自動(dòng)語音總機(jī)應(yīng)用的例子,一個(gè)公司有多個(gè)員工名字發(fā)音相近或接近的情況,如有位男員工叫“李響”,女員工叫“李湘”,還有其他如李強(qiáng)、李祥等。如果用戶找李響,系統(tǒng)發(fā)現(xiàn)李湘、李響的識(shí)別結(jié)果非常接近,都超過了經(jīng)驗(yàn)值(如85),基于這種情況,應(yīng)用流程收到結(jié)果后,不能確定用戶的選擇,但會(huì)進(jìn)一步提示用戶,男的李響還是女的李湘,如果用戶說男的李響,系統(tǒng)將很容易判定識(shí)別結(jié)果,完成用戶的操作,如圖5所示。
[0018]容錯(cuò)處理
在語音識(shí)別應(yīng)用過程中,很少的時(shí)候,如用戶的語音輸入略不清楚或者輕重不同,難免造成識(shí)別結(jié)果有誤,會(huì)給用戶帶來不便。
[0019]用戶電話簿里面存放李響和李湘兩個(gè)聯(lián)系人,用戶為了快速便捷,沒有進(jìn)行相似音處理,如果電話轉(zhuǎn)接時(shí)聽到不是用戶說的名字,此時(shí),用戶無需掛斷電話,只需說出“回來”或者“錯(cuò)了”,系統(tǒng)會(huì)自動(dòng)返回上一級(jí),讓用戶重新選擇。既避免了誤轉(zhuǎn)接,也讓用戶方便的重新輸入。以上只是簡單的例子,在語音搜索等應(yīng)用中,這種容錯(cuò)處理將體現(xiàn)出非常重要的價(jià)值。
[0020]語音識(shí)別系統(tǒng)主要特性
1.云計(jì)算(分布式)結(jié)構(gòu)。資源管理器在識(shí)別服務(wù)器間進(jìn)行載入均衡,從而保證硬件的利用效率。對(duì)CPU強(qiáng)度大的識(shí)別可以由非運(yùn)行應(yīng)用程序和音頻接口的遠(yuǎn)程機(jī)器來執(zhí)行;
2.高密度接口。將客戶端的少量處理從CPU密集型的服務(wù)器處理隔離,允許客戶端有高密度的接口又能提高服務(wù)器端CPU的使用效率;
3.容錯(cuò)和可靠性。即使個(gè)別服務(wù)器失效,也不會(huì)使系統(tǒng)崩潰,甚至不會(huì)錯(cuò)過一個(gè)識(shí)別請(qǐng)求。當(dāng)一個(gè)識(shí)別服務(wù)器失效時(shí),資源管理器自動(dòng)停止向其發(fā)送請(qǐng)求,當(dāng)服務(wù)器恢復(fù)時(shí),自動(dòng)開始向它發(fā)送請(qǐng)求;
4.維護(hù)方便??梢躁P(guān)閉一個(gè)識(shí)別服務(wù)器進(jìn)行維修,而對(duì)整個(gè)系統(tǒng)的性能沒有影響,或者影響很小。一些類型的維護(hù)甚至可以不關(guān)閉識(shí)別服務(wù)器進(jìn)行;
5.可伸縮性。隨著客戶端識(shí)別請(qǐng)求的增加,可增加識(shí)別服務(wù)器、識(shí)別客戶端和應(yīng)用的實(shí)例,無須停止任何運(yùn)行著的應(yīng)用程序或關(guān)閉識(shí)別系統(tǒng);
6.多渠道請(qǐng)求。系統(tǒng)支持來自互聯(lián)網(wǎng)(TCP/IP和SIP協(xié)議)和電話網(wǎng)(固話和移動(dòng))等不同網(wǎng)絡(luò)的識(shí)別服務(wù)請(qǐng)求;
7.算法優(yōu)化,單臺(tái)識(shí)別服務(wù)器識(shí)別并發(fā)處理能力大于300個(gè)(Intel CPU Xeon E5,RAMRDIMM 8GB, RAID5),單個(gè)識(shí)別處理過程所需時(shí)間〈0.1秒。
[0021]語音識(shí)別系統(tǒng)主要功能
1.海量詞匯、獨(dú)立于講話者的強(qiáng)大識(shí)別功能
語音識(shí)別系統(tǒng)能可靠地對(duì)多種語言進(jìn)行大詞匯量的識(shí)別,并可提供識(shí)別結(jié)果的置信度。該系統(tǒng)對(duì)大量詞匯提供最準(zhǔn)確的語音識(shí)別技術(shù)。利用語音識(shí)別系統(tǒng)開發(fā)的應(yīng)用程序經(jīng)測試,準(zhǔn)確性超過96%;
2.內(nèi)建的自然語言理解
通過語音識(shí)別系統(tǒng)可以開發(fā)自然語言理解系統(tǒng),它以句子為輸入,返回句子意義的解釋性表達(dá)。應(yīng)用程序可以根據(jù)用戶的請(qǐng)求采取相應(yīng)的動(dòng)作。本系統(tǒng)也提供基于檔次的置信評(píng)分,它能更加接近地判別可能準(zhǔn)確(或不準(zhǔn)確)識(shí)別的短語各部分。然后可更加自然和有效地修改應(yīng)用程序,處理錯(cuò)誤檢查或重新提示;
3.基于主機(jī)的客戶/服務(wù)機(jī)結(jié)構(gòu)
語音識(shí)別系統(tǒng)基于開放式客戶/服務(wù)機(jī)結(jié)構(gòu),特別為大型應(yīng)用程序所需的穩(wěn)定性和可伸縮性而設(shè)計(jì)。呼叫者的講話由客戶端收集,而識(shí)別處理的負(fù)載被平均分配到網(wǎng)絡(luò)上的多個(gè)分開的服務(wù)器上;
4.單個(gè)詞匯校正
也叫按檔置信評(píng)分,如果一個(gè)長句中的一個(gè)詞語未被識(shí)別,應(yīng)用程序可提示用戶重復(fù)該片段,而不是整個(gè)句子;
5.熱詞識(shí)別
熱詞識(shí)別使系統(tǒng)能對(duì)講話者進(jìn)監(jiān)聽,等待特定的詞匯或短語,將控制交還該應(yīng)用程序??稍趹?yīng)用程序使用該功能,使識(shí)別器能夠靜靜傾聽,直到用戶說出特定的短語進(jìn)行請(qǐng)求時(shí)才與用戶交互;
6.智能斷句
斷句是對(duì)進(jìn)來的樣本流確定語句的起始和終止的處理過程。當(dāng)找到語句的起始和終止點(diǎn)后,語句區(qū)向前后分別延伸預(yù)先確定的長度。一旦檢測到語句的起始點(diǎn),樣本開始流向識(shí)別服務(wù)器,直到發(fā)現(xiàn)語句的終止點(diǎn)。通過這種方式,識(shí)別服務(wù)器在用戶仍在講話的同時(shí),實(shí)際上已經(jīng)開始處理講話的內(nèi)容,而又不處理講話的起止處多余的空白,從而節(jié)約CPU時(shí)間和網(wǎng)絡(luò)帶寬;
7.打斷功能
打斷功能使用戶可以打斷 提示、做出響應(yīng),無需等到提示結(jié)束播放。打斷功能使用戶和系統(tǒng)間的交流更加快捷、自然,特別是系統(tǒng)的經(jīng)常用戶;
8.N-Best 處理
對(duì)于有些應(yīng)用程序,可能需要識(shí)別引擎產(chǎn)生可能的識(shí)別結(jié)果集,而不是一個(gè)最好的結(jié)果。本系統(tǒng)的N-best識(shí)別處理方法便有這個(gè)功能,它提供了可能的識(shí)別結(jié)果列表,并按可能性從高到低排列;
9.語法概率
本系統(tǒng)允許對(duì)呼叫者所講的特定詞語或短語的在語法中的概率進(jìn)行指定。當(dāng)被講的詞語或短語的概率可根據(jù)實(shí)際使用進(jìn)行估計(jì)時(shí),非常有用。對(duì)語法增加概率可提高識(shí)別的準(zhǔn)確率和速度;
10.降低噪音
當(dāng)進(jìn)來的呼叫包含穩(wěn)定的背景噪音時(shí),本系統(tǒng)通過一種機(jī)制,使識(shí)別服務(wù)器更準(zhǔn)確地進(jìn)行識(shí)別。識(shí)別服務(wù)器將進(jìn)來的話語進(jìn)行增強(qiáng),以有效地將語氣、嗡嗡聲、哼叫聲、噓噓聲等噪聲過濾。如果相當(dāng)數(shù)量的電話均含有穩(wěn)定的背景噪聲,比如在汽車上免提打電話時(shí),這個(gè)機(jī)制效果較理想;
11.提示回放
本系統(tǒng)允許播放預(yù)先錄好的提示和由文本到語音轉(zhuǎn)換系統(tǒng)產(chǎn)生的提示。如果應(yīng)用程序使用多個(gè)文本到語音轉(zhuǎn)換服務(wù)器,資源管理器將對(duì)這些服務(wù)器的轉(zhuǎn)換負(fù)載進(jìn)行平衡,以提高硬件效率;
12.SNMP 支持
本系統(tǒng)為遠(yuǎn)程監(jiān)控提供了簡單網(wǎng)絡(luò)管理協(xié)議(SNMP)支持,獨(dú)具可視化工具,便于進(jìn)行配置、管理和操作。`
【權(quán)利要求】
1.一種智能化的中文語音識(shí)別系統(tǒng),其特征是基于分布式的可識(shí)別中文語音的計(jì)算機(jī)系統(tǒng),能夠?qū)⒅形恼Z音音頻輸入,經(jīng)過各種系列算法處理,能夠?qū)⒄Z音計(jì)算出所需要的文字信息,實(shí)現(xiàn)計(jì)算機(jī)能夠理解人類的自然語音。
2.根據(jù)權(quán)利要求1所描述的中文語音識(shí)別系統(tǒng),其特征是語音預(yù)處理和多結(jié)果匹配,特點(diǎn)是提升識(shí)別執(zhí)行效率和識(shí)別準(zhǔn)確性。
3.根據(jù)權(quán)利要求1所描述的中文語音識(shí)別系統(tǒng),其特征是關(guān)鍵字匹配和識(shí)別結(jié)果的流程再造,進(jìn)一步判斷用戶的真實(shí)輸入。
4.根據(jù)權(quán)利要求1所描述的中文語音識(shí)別系統(tǒng),其特征是即使個(gè)別服務(wù)器失效,也不會(huì)使系統(tǒng)崩潰,甚至不會(huì)錯(cuò)過一個(gè)識(shí)別請(qǐng)求,當(dāng)一個(gè)識(shí)別服務(wù)器失效時(shí),資源管理器自動(dòng)停止向其發(fā)送請(qǐng)求,當(dāng)服務(wù)器恢復(fù)時(shí),自動(dòng)開始向它發(fā)送請(qǐng)求。
5.根據(jù)權(quán)利要求1所描述的中文語音識(shí)別系統(tǒng),其特征是系統(tǒng)恢復(fù)結(jié)果過程中,可接受用戶的重新輸入。
6.根據(jù)權(quán)利要求1所描述的中文語音識(shí)別系統(tǒng),其特征是斷句是對(duì)進(jìn)來的樣本流確定語句的起始和終止的處理過程。
7.根據(jù)權(quán)利要求1所描述的中文語音識(shí)別系統(tǒng),其特征是使識(shí)別服務(wù)器能夠靜靜傾聽,直到用戶說出特定的短語進(jìn)行請(qǐng)求時(shí)才與用戶交互。
8.根據(jù)權(quán)利要求1所描述的中文語音識(shí)別系統(tǒng),其特征是用戶可以打斷語音提示、作出響應(yīng),無需等到提示結(jié)束播放,打斷功能使用戶和系統(tǒng)間的交流更加快捷、自然,特別是系統(tǒng)的經(jīng)常用戶。
【文檔編號(hào)】G10L15/30GK103824560SQ201410099005
【公開日】2014年5月28日 申請(qǐng)日期:2014年3月18日 優(yōu)先權(quán)日:2014年3月18日
【發(fā)明者】陳洪林, 蔡潮力, 安楓 申請(qǐng)人:上海言海網(wǎng)絡(luò)信息技術(shù)有限公司