基于語音識別的智能應(yīng)急指揮系統(tǒng)及其語音識別方法
【專利摘要】本發(fā)明涉及綜合應(yīng)急管理【技術(shù)領(lǐng)域】,具體涉及一種基于語音識別的智能應(yīng)急指揮系統(tǒng)及其語音識別方法。本發(fā)明保持現(xiàn)有系統(tǒng)功能前提下,加入語音識別系統(tǒng);語音識別系統(tǒng)通過硬件采集系統(tǒng)的音頻數(shù)據(jù),通過解析生成指令來實(shí)現(xiàn)與其他服務(wù)器的信息交互,達(dá)到將語音指令轉(zhuǎn)換成數(shù)字指令,最后通過大屏展示出來。本發(fā)明解決了智能應(yīng)急指揮系統(tǒng)的指揮信息說到即做到的問題;可以用于智能應(yīng)急指揮系統(tǒng)中。
【專利說明】基于語音識別的智能應(yīng)急指揮系統(tǒng)及其語音識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及綜合應(yīng)急管理【技術(shù)領(lǐng)域】,具體涉及一種基于語音識別的智能應(yīng)急指揮系統(tǒng)及其語音識別方法。
【背景技術(shù)】
[0002]隨著社會的高速發(fā)展,現(xiàn)代城市事故及災(zāi)害類型也隨著城市化發(fā)展而變化和增力口,成為危及城市安全及社會的隱患。而近來自然災(zāi)害、公共衛(wèi)生、生產(chǎn)安全、恐怖事件等應(yīng)急事件頻繁出現(xiàn)更是迫使政府重視各類應(yīng)急系統(tǒng)的建設(shè),各種規(guī)模、各種行業(yè)的應(yīng)急系統(tǒng)正在建設(shè)之中。城市綜合應(yīng)急指揮系統(tǒng)就是其中一類重要的應(yīng)急系統(tǒng)。在發(fā)達(dá)國家的許多城市中,城市綜合應(yīng)急系統(tǒng)已經(jīng)成為顯示基礎(chǔ)設(shè)施水平和城市管理水平的標(biāo)志性工程,并且在關(guān)鍵時刻發(fā)揮了重要作用。城市綜合應(yīng)急系統(tǒng)建設(shè)在我國還處于初期階段,不同城市對系統(tǒng)的建設(shè)和運(yùn)用各有特點(diǎn)。因此,對城市綜合應(yīng)急系統(tǒng)設(shè)計、構(gòu)成和建設(shè)技術(shù)的研究,具有重要意義,可以為將來大規(guī)模的城市綜合應(yīng)急系統(tǒng)建設(shè)提供良好的思路和一定的參考作用。
[0003]目前應(yīng)急指揮系統(tǒng),都是采用領(lǐng)導(dǎo)說后臺人員操作的模式,這種模式即使要完成一次像樣的演練都需要相關(guān)人員進(jìn)行至少三次的預(yù)演,熟悉自己角色的任務(wù),由于整個應(yīng)急系統(tǒng)非常龐大跨越交通、通訊、電力、水利、醫(yī)療、安防、傳媒等諸多領(lǐng)域,功能點(diǎn)多達(dá)2500個,所以至少需要4名有一定經(jīng)驗的系統(tǒng)操作人員,并且經(jīng)過至少三次的預(yù)演才能配合的比較理想。而實(shí)際應(yīng)用中情況更加復(fù)雜,沒有像演練那樣的執(zhí)行腳本按部就班,這樣后臺操作人員和領(lǐng)導(dǎo)需求就很難同步,難以達(dá)到理想效果,難以發(fā)揮現(xiàn)代應(yīng)急指揮系統(tǒng)的優(yōu)勢。
【發(fā)明內(nèi)容】
[0004]本發(fā)明解決的技術(shù)問題之一在于提供一種基于語音識別的智能應(yīng)急指揮系統(tǒng),針對綜合應(yīng)急模擬演練實(shí)際,對突發(fā)事件在模擬演練仿真情景中的指揮人員的實(shí)際應(yīng)用進(jìn)行深化設(shè)計;加入語音識別系統(tǒng),無需操作人員直接參與;系統(tǒng)將自動切換到指揮人員想看到的頁面;實(shí)現(xiàn)說到即做到的智能綜合應(yīng)急指揮系統(tǒng),使其更加符合實(shí)際應(yīng)用。
[0005]本發(fā)明解決的技術(shù)問題之二在于提供一種基于語音識別的智能應(yīng)急指揮系統(tǒng)的語音識別方法,在現(xiàn)有系統(tǒng)中加入語音識別系統(tǒng),無需操作人員直接參與;系統(tǒng)將自動切換到指揮人員想看到的頁面;實(shí)現(xiàn)說到即做到的智能綜合應(yīng)急指揮系統(tǒng),使其更加符合實(shí)際應(yīng)用。
[0006]本發(fā)明解決上述技術(shù)問題之一的技術(shù)方案是:
[0007]所述的系統(tǒng)由基礎(chǔ)支撐平臺、綜合應(yīng)用系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、應(yīng)急指揮場所、移動應(yīng)急平臺構(gòu)成;
[0008]所述的基礎(chǔ)支撐平臺為應(yīng)急平臺的正常運(yùn)行提供基礎(chǔ)保障,主要包括WEB服務(wù)器、計算機(jī)網(wǎng)絡(luò)、電話服務(wù)器、視頻監(jiān)控服務(wù)器、視頻會議服務(wù)器、數(shù)字大屏矩陣服務(wù)器、主機(jī)存儲、數(shù)據(jù)交換與共享、語音識別系統(tǒng)、錄音錄像服務(wù)器及應(yīng)急地理信息系統(tǒng);所述的語音識別系統(tǒng)通過硬件采集系統(tǒng)的音頻數(shù)據(jù),通過解析生成指令來實(shí)現(xiàn)與其他服務(wù)器的信息交互,達(dá)到將語音指令轉(zhuǎn)換成數(shù)字指令,最后通過大屏展示出來;
[0009]所述的應(yīng)急指揮場所由一系列獨(dú)立的視、音頻系統(tǒng),以及對它們進(jìn)行控制的集中控制系統(tǒng)和場所保障環(huán)境組成的安全的、智能化應(yīng)急指揮環(huán)境;包括顯示系統(tǒng)、會議系統(tǒng)、擴(kuò)聲系統(tǒng)、集中控制、智能燈光照明、綜合布線、供電系統(tǒng)等系統(tǒng);從功能區(qū)域上,應(yīng)急指揮場所可劃分為應(yīng)急指揮廳、值班室、會商室等場所區(qū)域;總體上采用以集中控制為中心的網(wǎng)絡(luò)化多媒體指揮環(huán)境,通過綜合布線設(shè)連接指揮大廳、應(yīng)急值班室、會商室等相關(guān)的指揮場所,通過對各種音視頻信號的集中交換與處理,并對投影、矩陣、功放等多媒體設(shè)備進(jìn)行必要的集成,實(shí)現(xiàn)本地、遠(yuǎn)程分散/集中的應(yīng)急指揮應(yīng)用對音視頻的需要,從而達(dá)到實(shí)現(xiàn)網(wǎng)絡(luò)化、一體化管理,智能化應(yīng)急指揮環(huán)境的整體目標(biāo);
[0010]所述的綜合應(yīng)用系統(tǒng)是應(yīng)急平臺的核心和靈魂,提供強(qiáng)大的應(yīng)急業(yè)務(wù)管理和應(yīng)急智能決策能力,主要包括信息資源、應(yīng)急預(yù)案、監(jiān)測預(yù)警、值班值守、事件管理、研判決策、指揮調(diào)度、模擬演練、知識庫、系統(tǒng)設(shè)置等功能模塊;
[0011]所述的數(shù)據(jù)庫系統(tǒng)采用集中式和分布式兩種存儲方式,常用基礎(chǔ)數(shù)據(jù)和區(qū)縣、部門的部分關(guān)鍵數(shù)據(jù)存儲于應(yīng)急平臺的中心數(shù)據(jù)庫中,其它數(shù)據(jù)分布式存儲于相關(guān)單位數(shù)據(jù)庫中;應(yīng)急平臺中心數(shù)據(jù)庫主要包括基礎(chǔ)信息數(shù)據(jù)庫、空間信息數(shù)據(jù)庫、事件信息數(shù)據(jù)庫、預(yù)案庫、案例庫、模型庫、知識庫和文檔庫等
[0012]所述的移動應(yīng)急平臺滿足現(xiàn)場應(yīng)急通信、現(xiàn)場會商、指揮調(diào)度、移動辦公、現(xiàn)場圖像視頻采集等功能,主要通過衛(wèi)星、公眾通信網(wǎng)等通信手段與相關(guān)應(yīng)急平臺以及有關(guān)方面進(jìn)行聯(lián)通。
[0013]所述基礎(chǔ)支撐平臺的WEB服務(wù)器是應(yīng)急平臺聯(lián)系個模塊將結(jié)果展示出來的服務(wù)系統(tǒng),是人機(jī)交互的接口,包括信息資源、應(yīng)急預(yù)案、監(jiān)測預(yù)警、值班值守、時間管理、研判決策、調(diào)度指揮、模擬演練、知識庫和系統(tǒng)管理;
[0014]計算機(jī)網(wǎng)絡(luò)主要用于內(nèi)、外網(wǎng)應(yīng)用系統(tǒng)的承載和數(shù)據(jù)交換的承載,主要包含相應(yīng)的廣域網(wǎng)接入和局域網(wǎng)網(wǎng)絡(luò)設(shè)備;
[0015]視頻會議服務(wù)器主要用于在重大突發(fā)公共事件發(fā)生時各級應(yīng)急平臺之間的協(xié)調(diào)溝通,會議會商;主要由MCU、視頻會議終端、視頻會議服務(wù)器等組成;
[0016]視頻監(jiān)控服務(wù)器主要用于接入個部門、包括公安、消防、三防辦、電信、林業(yè)局、水利局、公園等的攝像頭進(jìn)行統(tǒng)一管理和隨時查看實(shí)時圖像;實(shí)時圖像數(shù)據(jù)依托有關(guān)部門現(xiàn)有圖像監(jiān)控系統(tǒng),采用數(shù)字方式,由各部門應(yīng)急平臺負(fù)責(zé)將本系統(tǒng)的圖像轉(zhuǎn)換后上傳,主要由圖像接入服務(wù)器、編解碼器等組成;
[0017]數(shù)字大屏屏矩陣服務(wù)器主要用于將應(yīng)急系統(tǒng)投放到指揮大廳,展示給所有參會人員;大屏可以自定義分割成若干部分,每部分顯示不同的內(nèi)容;還包括大廳音箱系統(tǒng);
[0018]主機(jī)存儲,實(shí)現(xiàn)應(yīng)急平臺服務(wù)器與存儲系統(tǒng)的完整配置,建立應(yīng)急平臺各項業(yè)務(wù)應(yīng)用系統(tǒng)的運(yùn)行服務(wù)器環(huán)境,建立應(yīng)急平臺各類系統(tǒng)、各類數(shù)據(jù)的數(shù)據(jù)存儲與備份環(huán)境;主要包含各類應(yīng)用和數(shù)據(jù)庫服務(wù)器、磁盤陣列、光纖交換機(jī)、存儲管理軟件等設(shè)備;
[0019]數(shù)據(jù)交換與共享是應(yīng)急平臺管理應(yīng)急信息資源目錄、支撐應(yīng)急信息資源共享交換的基礎(chǔ)系統(tǒng);
[0020]錄音錄像服務(wù)器用于存儲電話錄音文件的音頻文件和視頻監(jiān)控的視頻文件,在應(yīng)急系統(tǒng)中可以通過條件查詢、預(yù)覽和下載音頻和視頻文件;
[0021]應(yīng)急地理信息系統(tǒng)提供對應(yīng)急基礎(chǔ)數(shù)據(jù)的可視化表現(xiàn),直觀地反映了突發(fā)事件周邊的地形地貌、保護(hù)目標(biāo)和危險源以及救援隊伍的分布,便于領(lǐng)導(dǎo)在應(yīng)急中掌握事發(fā)態(tài)勢,優(yōu)化資源配置,制定救援方案。
[0022]所述的語音識別系統(tǒng)采用嵌入式語音的設(shè)備;由語音檢測模塊、特征提取模塊、識別搜索模塊和語義分析模塊幾部分構(gòu)成;
[0023]所述的語音識別模塊是對送入的原始語音數(shù)據(jù)進(jìn)行預(yù)處理和檢測,將原始語音信號數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)數(shù)據(jù)格式,并通過高效的語音信號檢測算法檢測到語音的起始點(diǎn)和中止占.
[0024]特征提取模塊接收語音識別模塊送入的語音數(shù)據(jù)流,提取得到語音信號的特征矢量;在這個模塊中需要對語音信號進(jìn)行預(yù)加重、分幀、加窗、頻域變換、倒譜變換、差分等處理;最終得到40維左右的特征矢量;
[0025]識別搜索模塊接收特征提取模塊送入的語音特征矢量;對未知語音信號的特征與引擎內(nèi)含的聲學(xué)模型庫、字典/詞典和識別語法信息進(jìn)行匹配得到最適合未知語音特征的詞序列;可提供多個識別結(jié)果的候選供用戶進(jìn)行選擇,方便設(shè)計靈活的人機(jī)界面;
[0026]語義分析模塊基于識別任務(wù)的語法信息通過對識別搜索模塊得到的詞序列結(jié)果進(jìn)行語法、語義分析得到識別結(jié)果的語義信息。
[0027]本發(fā)明解決上述技術(shù)問題之二的技術(shù)方案是:
[0028]所述的方法是對輸入的原始語音流進(jìn)行語音檢測,然后進(jìn)行特征提取;再結(jié)合特征碼本進(jìn)行量化編碼;量化編碼后的信號,結(jié)合聲學(xué)模型、字典詞典、識別語法進(jìn)行識別搜索、語義分析;然后,輸入到系統(tǒng)相應(yīng)部分。
[0029]所述的識別搜索包括:
[0030]A.識別語法
[0031]首先需要定義識別語法;識別語法包含了對于識別任務(wù)的描述;其中包含各種符合說話語法和任務(wù)場景的句子信息;
[0032]B.字典詞典
[0033]字典詞典包含了各種單字/單詞的發(fā)音信息,一個詞或者字的發(fā)音由音素組成;
[0034]C.聲學(xué)模型
[0035]聲學(xué)模型是語音識別引擎最核心的引擎資源文件,包含了對于語音信號頻譜和時間序列特征的精確描述;
[0036]D.識別搜索
[0037]是在未知句子或者詞序列候選空間中搜索得到具有最佳匹配結(jié)果的候選句子;識別過程是:通過檢索字典/詞典可以將句子由詞序列分解成音素的序列;這種音素的序列與聲學(xué)模型相結(jié)合就得到更反映其本質(zhì)屬性的聲學(xué)模型單元序列;然后,將原始語音的特征矢量與所有可能的句子候選的聲學(xué)模型單元序列的信息相互匹配計算得到其匹配概率;從中挑選出具有最大后驗概率的聲學(xué)模型單元序列;通過該單元序列可以得到與之對應(yīng)的詞序列;作為輸出結(jié)果。
[0038]所述的語義分析是:
[0039]A.應(yīng)用程序啟動錄音程序開始錄音,同時應(yīng)用程序會通過識別引擎API語音識別引擎申請一個識別資源;
[0040]B.識別引擎根據(jù)系統(tǒng)資源情況創(chuàng)建并分配一個空閑的識別句柄給該次任務(wù);
[0041]C.應(yīng)用程序獲得該識別會話控制權(quán)后;根據(jù)當(dāng)前系統(tǒng)的任務(wù)通過API通知識別引擎加載相應(yīng)語法;
[0042]D.應(yīng)用程序通過API函數(shù)把錄取的語音數(shù)據(jù)發(fā)送給該會話;該會話根據(jù)系統(tǒng)的模型和加載的語法對送入的語音進(jìn)行識別;
[0043]E.如果有識別結(jié)果;系統(tǒng)會通過回調(diào)函數(shù)來通知應(yīng)用程序;應(yīng)用程序此時可以通過引擎的API來獲取識別結(jié)果;
[0044]F.應(yīng)用程序卸載加載的語法;
[0045]G.應(yīng)用程序斷開該會話連接;
[0046]H.應(yīng)用程序釋放會話;此時應(yīng)用程序應(yīng)該根據(jù)識別結(jié)果做相應(yīng)的動作,如繼續(xù)播放提示音,提示用戶繼續(xù)提供信息或做其他的動作。
[0047]本發(fā)明的智能語音識別應(yīng)急指揮系統(tǒng)是在傳統(tǒng)應(yīng)急指揮系統(tǒng)基礎(chǔ)上保持原有系統(tǒng)功能不變,加入了新的功能服務(wù)器實(shí)現(xiàn)語音識別的功能,將傳統(tǒng)應(yīng)急指揮系統(tǒng)有人工操作變?yōu)槟苈牰酥v話的智能系統(tǒng);無需操作人員直接參與系統(tǒng)將自動切換到指揮人員想看到的頁面,實(shí)現(xiàn)說到即做到的智能綜合應(yīng)急指揮系統(tǒng),使其更加符合實(shí)際應(yīng)用。
【專利附圖】
【附圖說明】
[0048]下面結(jié)合附圖對本發(fā)明進(jìn)一步說明:
[0049]圖1是本發(fā)明系統(tǒng)結(jié)構(gòu)框圖;
[0050]圖2是本發(fā)明語音識別流程圖;
[0051]圖3是本發(fā)明語音聲學(xué)特征壓縮后的流程圖。
【具體實(shí)施方式】
[0052]見圖1所示,本發(fā)明系統(tǒng)建設(shè)由基礎(chǔ)支撐平臺、數(shù)據(jù)庫系統(tǒng)、綜合應(yīng)用系統(tǒng)、應(yīng)急指揮場所、移動應(yīng)急平臺構(gòu)成,基礎(chǔ)支撐平臺為應(yīng)急平臺的正常運(yùn)行提供基礎(chǔ)保障,主要包括WEB服務(wù)器、計算機(jī)網(wǎng)絡(luò)、電話服務(wù)器、視頻監(jiān)控服務(wù)器、視頻會議服務(wù)器、數(shù)字大屏矩陣服務(wù)器、主機(jī)存儲、數(shù)據(jù)交換與共享、語音識別系統(tǒng)、錄音錄像服務(wù)器及應(yīng)急地理信息系統(tǒng)坐寸ο
[0053]WEB服務(wù)器是應(yīng)急平臺聯(lián)系個模塊將結(jié)果展示出來的服務(wù)系統(tǒng),是人機(jī)交互的接口,包括信息資源、應(yīng)急預(yù)案、監(jiān)測預(yù)警、值班值守、時間管理、研判決策、調(diào)度指揮、模擬演練、知識庫和系統(tǒng)管理。
[0054]計算機(jī)網(wǎng)絡(luò)主要用于內(nèi)、外網(wǎng)應(yīng)用系統(tǒng)的承載和數(shù)據(jù)交換的承載,主要包含相應(yīng)的廣域網(wǎng)接入和局域網(wǎng)網(wǎng)絡(luò)設(shè)備。
[0055]視頻會議服務(wù)器主要用于在重大突發(fā)公共事件發(fā)生時各級應(yīng)急平臺之間的協(xié)調(diào)溝通,會議會商。主要由MCU、視頻會議終端、視頻會議服務(wù)器等組成。
[0056]視頻監(jiān)控服務(wù)器主要用于接入個部門、包括公安、消防、三防辦、電信、林業(yè)局、水利局、公園等的攝像頭進(jìn)行統(tǒng)一管理和隨時查看實(shí)時圖像。實(shí)時圖像數(shù)據(jù)依托有關(guān)部門現(xiàn)有圖像監(jiān)控系統(tǒng),采用數(shù)字方式,由各部門應(yīng)急平臺負(fù)責(zé)將本系統(tǒng)的圖像轉(zhuǎn)換后上傳,圖像接入系統(tǒng)主要由圖像接入服務(wù)器、編解碼器等組成。
[0057]數(shù)字大屏矩陣服務(wù)器主要用于將應(yīng)急系統(tǒng)投放到指揮大廳,展示給所有參會人員。大屏可以自定義分割成若干部分,每部分顯示不同的內(nèi)容還包括大廳音箱系統(tǒng)。
[0058]主機(jī)存儲,實(shí)現(xiàn)應(yīng)急平臺服務(wù)器與存儲系統(tǒng)的完整配置,建立應(yīng)急平臺各項業(yè)務(wù)應(yīng)用系統(tǒng)的運(yùn)行服務(wù)器環(huán)境,建立應(yīng)急平臺各類系統(tǒng)、各類數(shù)據(jù)的數(shù)據(jù)存儲與備份環(huán)境。主要包含各類應(yīng)用和數(shù)據(jù)庫服務(wù)器、磁盤陣列、光纖交換機(jī)、存儲管理軟件等設(shè)備。
[0059]數(shù)據(jù)交換與共享應(yīng)急平臺管理應(yīng)急信息資源目錄、支撐應(yīng)急信息資源共享交換的基礎(chǔ)系統(tǒng)。
[0060]錄音錄像服務(wù)器用于存儲電話錄音文件的音頻文件和視頻監(jiān)控的視頻文件,在應(yīng)急系統(tǒng)中可以通過條件查詢、預(yù)覽和下載音頻和視頻文件。
[0061]應(yīng)急地理信息系統(tǒng)提供對應(yīng)急基礎(chǔ)數(shù)據(jù)的可視化表現(xiàn),直觀地反映了突發(fā)事件周邊的地形地貌、保護(hù)目標(biāo)和危險源以及救援隊伍的分布,便于領(lǐng)導(dǎo)在應(yīng)急中掌握事發(fā)態(tài)勢,優(yōu)化資源配置,制定救援方案。
[0062]應(yīng)急指揮場所是由一系列獨(dú)立的視、音頻系統(tǒng),以及對它們進(jìn)行控制的集中控制系統(tǒng)和場所保障環(huán)境組成的安全的、智能化應(yīng)急指揮環(huán)境,包括顯示系統(tǒng)、會議系統(tǒng)、擴(kuò)聲系統(tǒng)、集中控制、智能燈光照明、綜合布線、供電系統(tǒng)等系統(tǒng)。從功能區(qū)域上,應(yīng)急指揮場所可劃分為應(yīng)急指揮廳、值班室、會商室等場所區(qū)域。總體設(shè)計上采用以集中控制為中心的網(wǎng)絡(luò)化多媒體指揮環(huán)境的整體設(shè)計思想,通過綜合布線設(shè)連接指揮大廳、應(yīng)急值班室、會商室等相關(guān)的指揮場所,通過對各種音視頻信號的集中交換與處理,并對投影、矩陣、功放等多媒體設(shè)備進(jìn)行必要的集成,實(shí)現(xiàn)本地、遠(yuǎn)程分散/集中的應(yīng)急指揮應(yīng)用對音視頻的需要,從而達(dá)到實(shí)現(xiàn)網(wǎng)絡(luò)化、一體化管理,智能化應(yīng)急指揮環(huán)境的整體目標(biāo)。
[0063]綜合應(yīng)用系統(tǒng)是應(yīng)急平臺的核心和靈魂,提供強(qiáng)大的應(yīng)急業(yè)務(wù)管理和應(yīng)急智能決策能力,主要包括信息資源、應(yīng)急預(yù)案、監(jiān)測預(yù)警、值班值守、事件管理、研判決策、指揮調(diào)度、模擬演練、知識庫、系統(tǒng)設(shè)置等功能模塊。
[0064]數(shù)據(jù)庫系統(tǒng)采用集中式和分布式兩種存儲方式,常用基礎(chǔ)數(shù)據(jù)和區(qū)縣、部門的部分關(guān)鍵數(shù)據(jù)存儲于應(yīng)急平臺的中心數(shù)據(jù)庫中,其它數(shù)據(jù)分布式存儲于相關(guān)單位數(shù)據(jù)庫中。應(yīng)急平臺中心數(shù)據(jù)庫主要包括基礎(chǔ)信息數(shù)據(jù)庫、空間信息數(shù)據(jù)庫、事件信息數(shù)據(jù)庫、預(yù)案庫、案例庫、模型庫、知識庫和文檔庫等。
[0065]移動應(yīng)急平臺滿足現(xiàn)場應(yīng)急通信、現(xiàn)場會商、指揮調(diào)度、移動辦公、現(xiàn)場圖像視頻采集等功能,主要通過衛(wèi)星、公眾通信網(wǎng)等通信手段與相關(guān)應(yīng)急平臺以及有關(guān)方面進(jìn)行聯(lián)通。
[0066]目前國內(nèi)和國際現(xiàn)有應(yīng)急系統(tǒng)沒有語音識別功能,不能對語音做出任何反應(yīng)。智能語音識別系統(tǒng),是將語音識別做成一個功能子模塊(即語音識別服務(wù)器)作為后臺服務(wù),來響應(yīng)指揮人員的語音命令。例如在一次應(yīng)急指揮中指揮員對著話筒說:“顯示傷員救援情況! “,而傳統(tǒng)的應(yīng)急指揮系統(tǒng)是后臺操作人員聽見領(lǐng)導(dǎo)說要看傷員的救援的視頻先打開視頻再將屏幕切換到大屏中央,智能語音識別應(yīng)急指揮系統(tǒng)能聽懂指揮員說的話,在沒有任何后臺操作人員的參與下將人們醫(yī)院救援傷員的視頻自動顯示在大屏中央。
[0067]智能語音識別應(yīng)急指揮系統(tǒng)是在傳統(tǒng)應(yīng)急指揮系統(tǒng)基礎(chǔ)上那個保持原有系統(tǒng)功能不變,加入了新的功能服務(wù)器實(shí)現(xiàn)語音識別的功能,將傳統(tǒng)應(yīng)急指揮系統(tǒng)有人工操作變?yōu)槟苈牰酥v話的智能系統(tǒng)。
[0068]語音識系統(tǒng)是一個獨(dú)立的服務(wù)器,通過硬件連接到指揮臺采集音頻數(shù)據(jù),服務(wù)器通過解析生成指令通過軟件編程來實(shí)現(xiàn)與其他服務(wù)器的信息交互,達(dá)到將語音指令轉(zhuǎn)換成數(shù)字指令,最后通過大屏展示出來。
[0069]語音識別系統(tǒng)采用嵌入式語音的設(shè)備;由語音檢測模塊、特征提取模塊、識別搜索模塊和語義分析模塊幾部分構(gòu)成。
[0070]引擎采集的原始語音數(shù)據(jù)被送入語音檢測模塊,該模塊進(jìn)行語音信號的預(yù)處理和檢測,將原始語音信號數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)數(shù)據(jù)格式如:8k,16bit并通過高效的語音信號檢測算法,檢測到語音的起始點(diǎn)和中止點(diǎn)。
[0071]檢測后的語音數(shù)據(jù)流被送入特征提取模塊,提取得到語音信號的特征矢量流語音識別芯片引擎中采用MFCC(Mel_scale FreqUency CepStrum Coefficient)特征。語音特征是利用數(shù)字信號處理技術(shù)從語音信號中提取最反應(yīng)其本質(zhì)屬性的信息。在這個模塊中需要對語音信號進(jìn)行預(yù)加重、分幀、加窗、頻域變換、倒譜變換、差分等處理最終得到40維左右的特征矢量。
[0072]語音特征矢量被送入識別搜索模塊;在這個模塊中未知語音信號的特征與引擎內(nèi)含的聲學(xué)模型庫、字典/詞典和識別語法信息進(jìn)行匹配得到最適合未知語音特征的詞序列。這個模塊是識別引擎的核心。下面對該模塊進(jìn)行具體的說明:
[0073]A.識別語法
[0074]用戶在開發(fā)一個語音識別系統(tǒng)時首先需要定義識別語法識別語法包含了對于識別任務(wù)的描述。簡單的說就是其中包含各種符合說話語法和任務(wù)場景的句子信息。
[0075]B.詞典
[0076]詞典包含了各種單字/單詞的發(fā)音信息一個詞或者字的發(fā)音由音素組成。
[0077]C.聲學(xué)模型
[0078]聲學(xué)模型是語音識別引擎最核心的引擎資源文件包含了對于語音信號頻譜和時間序列特征的精確描述。華鎮(zhèn)電子識別引擎采用了 HMM(隱含馬爾科夫模型)聲學(xué)模型來描述語音信號這個模型是通過對大量說話人在不同場景的語音數(shù)據(jù)庫進(jìn)行訓(xùn)練得到的。
[0079]D.識別搜索
[0080]所謂搜索算法就是在未知句子或者詞序列候選空間中搜索得到具有最佳匹配結(jié)果的候選句子。這個過程可以簡單的描述如下:通過檢索字典/詞典可以將句子由詞序列分解成音素的序列。這種音素的序列與聲學(xué)模型相結(jié)合就得到更反映其本質(zhì)屬性的聲學(xué)模型單元序列;如狀態(tài)序列信息。然后將原始語音的特征矢量與所有可能的句子候選的聲學(xué)模型單元序列的信息相互匹配計算得到其匹配概率;從中挑選出具有最大后驗概率的聲學(xué)模型單元序列。通過該單元序列可以得到與之對應(yīng)的詞序列;就是這個模塊的輸出結(jié)果。在這個過程中涉及到各種信息的綜合利用;計算量非常巨大。本發(fā)明方案對識別空間進(jìn)行有效的裁剪使識別過程占用的計算資源和內(nèi)存資源大大降低;能夠快速有效地獲取精確的識別結(jié)果。
[0081]在語義分析模塊中,基于識別任務(wù)的語法信息通過對搜索模塊得到的詞序列結(jié)果進(jìn)行語法、語義分析;得到識別結(jié)果的語義信息。識別引擎還能夠提供多個識別結(jié)果的候選供用戶進(jìn)行選擇;方便設(shè)計靈活的人機(jī)界面。
[0082]應(yīng)用程序通過調(diào)用語音識別引擎的一系列API函數(shù)來實(shí)現(xiàn)語音識別功能其基本過程如下:
[0083]1.應(yīng)用程序啟動錄音程序開始錄音,同時應(yīng)用程序會通過識別引擎API語音識別引擎申請一個識別資源。
[0084]2.識別引擎的會根據(jù)系統(tǒng)資源情況創(chuàng)建并分配一個空閑的識別句柄給該次任務(wù)。
[0085]3.應(yīng)用程序獲得該識別會話控制權(quán)后根據(jù)當(dāng)前系統(tǒng)的任務(wù)^SAPI通知識別引擎加載相應(yīng)語法。
[0086]4.應(yīng)用程序通過API函數(shù)把錄取的語音數(shù)據(jù)發(fā)送給該會話該會話會根據(jù)系統(tǒng)的模型和加載的語法對送入的語音進(jìn)行識別。
[0087]5.如果有識別結(jié)果系統(tǒng)會通過回調(diào)函數(shù)來通知應(yīng)用程序;應(yīng)用程序此時可以通過引擎的API來獲取識別結(jié)果。
[0088]6.應(yīng)用程序卸載加載的語法。
[0089]7.應(yīng)用程序斷開該會話連接。
[0090]8.應(yīng)用程序釋放會話。此時應(yīng)用程序應(yīng)該根據(jù)識別結(jié)果做相應(yīng)的動作,如繼續(xù)播放提示音,提示用戶繼續(xù)提供信息或做其他的動作。
[0091]本系統(tǒng)采用的語音解決方案的語音識別引擎提供的應(yīng)用模式是,通過識別引擎API直接訪問語音識別引擎。這種方法或者用于需要應(yīng)用程序和識別引擎緊密結(jié)合或者是應(yīng)用在已有軟件平臺中直接使用識別引擎的場合。MSR API包含兩部分語音檢測API和語音識別API。在使用MSR API時應(yīng)用程序需要直接訪問語音檢測API和語音識別API ;并負(fù)責(zé)將語音檢測API檢測出的語音數(shù)據(jù)送給語音識別API進(jìn)行語音識別。
[0092]語音識別系統(tǒng)中需要將語音輸入的時域聲波轉(zhuǎn)換成一種數(shù)字化的矢量特征來描述區(qū)分不同的發(fā)音,我們稱之為語音特征,基于該特征對所有的發(fā)音建立一個聲音模型,這在語音識別領(lǐng)域我們通常稱之為聲學(xué)模型所有的語音識別系統(tǒng)都必須要有一個聲學(xué)模型,同時對于大詞表連續(xù)語音識別系統(tǒng)來說還需要一個語言模型在我們解決方案的語音識別引擎中語言模型為自定義的語法。語音識別的目的就是要在給定一串聲音特征序列為輸入條件,利用聲學(xué)模型和語言模型采用搜索算法輸出識別結(jié)果字、詞或句子。換言之,語音識別系統(tǒng)就是要在巨大的句子或字、詞空間中找出與給定輸入特征序列相匹配具有最大概率的句子或字、詞。在當(dāng)今流行的語音識別系統(tǒng)中聲學(xué)模型都是用隱含馬爾可夫模型HMM來描述由于基于連續(xù)概率密度的HMM,CDHMM與基于離散概率密度的HMM相比更能精確地描述人的發(fā)音,因此在大多數(shù)的語音識別系統(tǒng)中聲學(xué)模型的建立都采用CDHMM。在CDHMM中在某一狀態(tài)下特征矢量的概率分布函數(shù)是用多個高斯分布函數(shù)的加權(quán)和來描述,這樣能比較精確地描述特征矢量空間分布。然而在大詞表連續(xù)語音識別系統(tǒng)中如果采用⑶HMM那么在解碼,識別過程需要多次計算高斯概率這需要大量的計算量,通常在解碼過程中所需要的計算量都集中在高斯概率計算上,同時也需要大量的存儲量來存儲CDHMM的聲學(xué)模型。
[0093]我們的語音處理芯片的語音特征及聲學(xué)模型壓縮方法后的流程如圖2、3所示,是對輸入的原始語音流進(jìn)行語音檢測,然后進(jìn)行特征提??;再結(jié)合特征碼本進(jìn)行量化編碼;量化編碼后的信號,結(jié)合聲學(xué)模型、字典詞典、識別語法進(jìn)行識別搜索、語義分析;然后,輸入到系統(tǒng)相應(yīng)部分。
[0094]語音識別芯片接口
[0095]語音識別引擎需要用戶輸入的是:
[0096]識別詞表:在引擎初始化時輸入。
[0097]A.8K或16KHz采樣16Bits的線性PCM語音數(shù)據(jù)。
[0098]B.識別消息表示識別引擎的識別狀態(tài)。
[0099]C.識別結(jié)果。
[0100]識別弓I擎根據(jù)用戶輸入語音數(shù)據(jù)送出語音數(shù)據(jù)的識別結(jié)果。
[0101]識別引擎為一獨(dú)立線程與控制線程通過消息通信。
[0102]識別引擎消息:
[0103]MSR_EVENT_RESULT
[0104]正常識別,有識別結(jié)果時識別引擎發(fā)送出該消息。收到此消息后就可以獲取識別結(jié)果,可以顯示識別結(jié)果或執(zhí)行識別結(jié)果規(guī)定的動作。
[0105]MSR_EVENT_SPEECHT00SH0RT
[0106]語音太短時識別引擎發(fā)送出該消息。語音太短的原因,通常是此段錄音為不正常的語音。
[0107]MSR_EVENT_NOSPEECH
[0108]識別引擎發(fā)送出該消息通常是引擎開始工作后用戶沒有說話識別引擎超時。
[0109]MSR_EVENT_STARTPOINTDETECTED
[0110]識別引擎檢測到語音起始點(diǎn)時送出此消息,程序在收到此消息時可以在圖形界面上提示用戶。
[0111]MSR_EVENT_ENDPOINTDETECTED
[0112]識別引擎檢測到語音終止點(diǎn)時送出此消息,程序在收到此消息時可以在圖形界面上提示用戶。
[0113]語音識別弓I擎性能指標(biāo)
[0114]軟件響應(yīng)時間< 1.2倍實(shí)時,在測試詞表不超過1000命令詞匯的情況下,實(shí)際應(yīng)用環(huán)境中達(dá)到96%以上的識別精度。
【權(quán)利要求】
1.一種基于語音識別的智能應(yīng)急指揮系統(tǒng),其特征在于:所述的系統(tǒng)由基礎(chǔ)支撐平臺、綜合應(yīng)用系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、應(yīng)急指揮場所、移動應(yīng)急平臺構(gòu)成; 所述的基礎(chǔ)支撐平臺為應(yīng)急平臺的正常運(yùn)行提供基礎(chǔ)保障,主要包括WEB服務(wù)器、計算機(jī)網(wǎng)絡(luò)、電話服務(wù)器、視頻監(jiān)控服務(wù)器、視頻會議服務(wù)器、數(shù)字大屏矩陣服務(wù)器、主機(jī)存儲、數(shù)據(jù)交換與共享、語音識別系統(tǒng)、錄音錄像服務(wù)器及應(yīng)急地理信息系統(tǒng);所述的語音識別系統(tǒng)通過硬件采集系統(tǒng)的音頻數(shù)據(jù),通過解析生成指令來實(shí)現(xiàn)與其他服務(wù)器的信息交互,達(dá)到將語音指令轉(zhuǎn)換成數(shù)字指令,最后通過大屏展示出來; 所述的應(yīng)急指揮場所由一系列獨(dú)立的視、音頻系統(tǒng),以及對它們進(jìn)行控制的集中控制系統(tǒng)和場所保障環(huán)境組成的安全的、智能化應(yīng)急指揮環(huán)境;包括顯示系統(tǒng)、會議系統(tǒng)、擴(kuò)聲系統(tǒng)、集中控制、智能燈光照明、綜合布線、供電系統(tǒng)等系統(tǒng);從功能區(qū)域上,應(yīng)急指揮場所可劃分為應(yīng)急指揮廳、值班室、會商室等場所區(qū)域;總體上采用以集中控制為中心的網(wǎng)絡(luò)化多媒體指揮環(huán)境,通過綜合布線設(shè)連接指揮大廳、應(yīng)急值班室、會商室等相關(guān)的指揮場所,通過對各種音視頻信號的集中交換與處理,并對投影、矩陣、功放等多媒體設(shè)備進(jìn)行必要的集成,實(shí)現(xiàn)本地、遠(yuǎn)程分散/集中的應(yīng)急指揮應(yīng)用對音視頻的需要,從而達(dá)到實(shí)現(xiàn)網(wǎng)絡(luò)化、一體化管理,智能化應(yīng)急指揮環(huán)境的整體目標(biāo); 所述的綜合應(yīng)用系統(tǒng)是應(yīng)急平臺的核心和靈魂,提供強(qiáng)大的應(yīng)急業(yè)務(wù)管理和應(yīng)急智能決策能力,主要包括信息資源、應(yīng)急預(yù)案、監(jiān)測預(yù)警、值班值守、事件管理、研判決策、指揮調(diào)度、模擬演練、知識庫、系統(tǒng)設(shè)置等功能模塊; 所述的數(shù)據(jù)庫系統(tǒng)采用集中式和分布式兩種存儲方式,常用基礎(chǔ)數(shù)據(jù)和區(qū)縣、部門的部分關(guān)鍵數(shù)據(jù)存儲于應(yīng)急平臺的中心數(shù)據(jù)庫中,其它數(shù)據(jù)分布式存儲于相關(guān)單位數(shù)據(jù)庫中;應(yīng)急平臺中心數(shù)據(jù)庫主要包括基礎(chǔ)信息數(shù)據(jù)庫、空間信息數(shù)據(jù)庫、事件信息數(shù)據(jù)庫、預(yù)案庫、案例庫、模型庫、知識庫和文檔庫等 所述的移動應(yīng)急平臺滿足現(xiàn)場應(yīng)急通信、現(xiàn)場會商、指揮調(diào)度、移動辦公、現(xiàn)場圖像視頻采集等功能,主要通過衛(wèi)星、公眾通信網(wǎng)等通信手段與相關(guān)應(yīng)急平臺以及有關(guān)方面進(jìn)行聯(lián)通。
2.根據(jù)權(quán)利要求1所述的基于語音識別的智能應(yīng)急指揮系統(tǒng),其特征在于:所述基礎(chǔ)支撐平臺的WEB服務(wù)器是應(yīng)急平臺聯(lián)系個模塊將結(jié)果展示出來的服務(wù)系統(tǒng),是人機(jī)交互的接口,包括信息資源、應(yīng)急預(yù)案、監(jiān)測預(yù)警、值班值守、時間管理、研判決策、調(diào)度指揮、模擬演練、知識庫和系統(tǒng)管理; 計算機(jī)網(wǎng)絡(luò)主要用于內(nèi)、外網(wǎng)應(yīng)用系統(tǒng)的承載和數(shù)據(jù)交換的承載,主要包含相應(yīng)的廣域網(wǎng)接入和局域網(wǎng)網(wǎng)絡(luò)設(shè)備; 視頻會議服務(wù)器主要用于在重大突發(fā)公共事件發(fā)生時各級應(yīng)急平臺之間的協(xié)調(diào)溝通,會議會商;主要由MCU、視頻會議終端、視頻會議服務(wù)器等組成; 視頻監(jiān)控服務(wù)器主要用于接入個部門、包括公安、消防、三防辦、電信、林業(yè)局、水利局、公園等的攝像頭進(jìn)行統(tǒng)一管理和隨時查看實(shí)時圖像;實(shí)時圖像數(shù)據(jù)依托有關(guān)部門現(xiàn)有圖像監(jiān)控系統(tǒng),采用數(shù)字方式,由各部門應(yīng)急平臺負(fù)責(zé)將本系統(tǒng)的圖像轉(zhuǎn)換后上傳,主要由圖像接入服務(wù)器、編解碼器等組成; 數(shù)字大屏屏矩陣服務(wù)器主要用于將應(yīng)急系統(tǒng)投放到指揮大廳,展示給所有參會人員;大屏可以自定義分割成若干部分,每部分顯示不同的內(nèi)容;還包括大廳音箱系統(tǒng); 主機(jī)存儲,實(shí)現(xiàn)應(yīng)急平臺服務(wù)器與存儲系統(tǒng)的完整配置,建立應(yīng)急平臺各項業(yè)務(wù)應(yīng)用系統(tǒng)的運(yùn)行服務(wù)器環(huán)境,建立應(yīng)急平臺各類系統(tǒng)、各類數(shù)據(jù)的數(shù)據(jù)存儲與備份環(huán)境;主要包含各類應(yīng)用和數(shù)據(jù)庫服務(wù)器、磁盤陣列、光纖交換機(jī)、存儲管理軟件等設(shè)備; 數(shù)據(jù)交換與共享是應(yīng)急平臺管理應(yīng)急信息資源目錄、支撐應(yīng)急信息資源共享交換的基礎(chǔ)系統(tǒng); 錄音錄像服務(wù)器用于存儲電話錄音文件的音頻文件和視頻監(jiān)控的視頻文件,在應(yīng)急系統(tǒng)中可以通過條件查詢、預(yù)覽和下載音頻和視頻文件; 應(yīng)急地理信息系統(tǒng)提供對應(yīng)急基礎(chǔ)數(shù)據(jù)的可視化表現(xiàn),直觀地反映了突發(fā)事件周邊的地形地貌、保護(hù)目標(biāo)和危險源以及救援隊伍的分布,便于領(lǐng)導(dǎo)在應(yīng)急中掌握事發(fā)態(tài)勢,優(yōu)化資源配置,制定救援方案。
3.根據(jù)權(quán)利要求1所述的基于語音識別的智能應(yīng)急指揮系統(tǒng),其特征在于:所述的語音識別系統(tǒng)采用嵌入式語音的設(shè)備;由語音檢測模塊、特征提取模塊、識別搜索模塊和語義分析模塊幾部分構(gòu)成;所述的語音識別模塊是對送入的原始語音數(shù)據(jù)進(jìn)行預(yù)處理和檢測,將原始語音信號數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)數(shù)據(jù)格式,并通過高效的語音信號檢測算法檢測到語音的起始點(diǎn)和中止點(diǎn);特征提取模塊接收語音識別模塊送入的語音數(shù)據(jù)流,提取得到語音信號的特征矢量;在這個模塊中需要對語音信號進(jìn)行預(yù)加重、分幀、加窗、頻域變換、倒譜變換、差分等處理;最終得到40維左右的特征矢量; 識別搜索模塊接收特征提取模塊送入的語音特征矢量;對未知語音信號的特征與引擎內(nèi)含的聲學(xué)模型庫、字典/詞典和識別語法信息進(jìn)行匹配得到最適合未知語音特征的詞序列;可提供多個識別結(jié)果的候選供用戶進(jìn)行選擇,方便設(shè)計靈活的人機(jī)界面; 語義分析模塊基于識別任務(wù)的語法信息通過對識別搜索模塊得到的詞序列結(jié)果進(jìn)行語法、語義分析得到識別結(jié)果的語義信息。
4.根據(jù)權(quán)利要求2所述的基于語音識別的智能應(yīng)急指揮系統(tǒng),其特征在于:所述的語音識別系統(tǒng)采用嵌入式語音的設(shè)備;由語音檢測模塊、特征提取模塊、識別搜索模塊和語義分析模塊幾部分構(gòu)成;所述的語音識別模塊是對送入的原始語音數(shù)據(jù)進(jìn)行預(yù)處理和檢測,將原始語音信號數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)數(shù)據(jù)格式,并通過高效的語音信號檢測算法檢測到語音的起始點(diǎn)和中止點(diǎn);特征提取模塊接收語音識別模塊送入的語音數(shù)據(jù)流,提取得到語音信號的特征矢量;在這個模塊中需要對語音信號進(jìn)行預(yù)加重、分幀、加窗、頻域變換、倒譜變換、差分等處理;最終得到40維左右的特征矢量; 識別搜索模塊接收特征提取模塊送入的語音特征矢量;對未知語音信號的特征與引擎內(nèi)含的聲學(xué)模型庫、字典/詞典和識別語法信息進(jìn)行匹配得到最適合未知語音特征的詞序列;可提供多個識別結(jié)果的候選供用戶進(jìn)行選擇,方便設(shè)計靈活的人機(jī)界面; 語義分析模塊基于識別任務(wù)的語法信息通過對識別搜索模塊得到的詞序列結(jié)果進(jìn)行語法、語義分析得到識別結(jié)果的語義信息。
5.一種權(quán)利要求1至4任一項所述的基于語音識別的智能應(yīng)急指揮系統(tǒng)的語音識別方法,其特征在于:所述的方法是對輸入的原始語音流進(jìn)行語音檢測,然后進(jìn)行特征提?。辉俳Y(jié)合特征碼本進(jìn)行量化編碼;量化編碼后的信號,結(jié)合聲學(xué)模型、字典詞典、識別語法進(jìn)行識別搜索、語義分析;然后,輸入到系統(tǒng)相應(yīng)部分。
6.根據(jù)權(quán)利要求5所述的基于語音識別的智能應(yīng)急指揮系統(tǒng)的語音識別方法,其特征在于:所述的識別搜索包括: A.識別語法 首先需要定義識別語法;識別語法包含了對于識別任務(wù)的描述;其中包含各種符合說話語法和任務(wù)場景的句子信息; B.字典詞典 字典詞典包含了各種單字/單詞的發(fā)音信息,一個詞或者字的發(fā)音由音素組成; C.聲學(xué)模型 聲學(xué)模型是語音識別引擎最核心的引擎資源文件,包含了對于語音信號頻譜和時間序列特征的精確描述; D.識別搜索 是在未知句子或者詞序列候選空間中搜索得到具有最佳匹配結(jié)果的候選句子;識別過程是:通過檢索字典/詞典可以將句子由詞序列分解成音素的序列;這種音素的序列與聲學(xué)模型相結(jié)合就得到更反映其本質(zhì)屬性的聲學(xué)模型單元序列;然后,將原始語音的特征矢量與所有可能的句子候選的聲學(xué)模型單元序列的信息相互匹配計算得到其匹配概率;從中挑選出具有最大后驗概率的聲學(xué)模型單元序列;通過該單元序列可以得到與之對應(yīng)的詞序列;作為輸出結(jié)果。
7.根據(jù)權(quán)利要求5所述的基于語音識別的智能應(yīng)急指揮系統(tǒng)的語音識別方法,其特征在于:所述的語義分析是: A.應(yīng)用程序啟動錄音程序開始錄音,同時應(yīng)用程序會通過識別引擎API語音識別引擎申請一個識別資源; B.識別引擎根據(jù)系統(tǒng)資源情況創(chuàng)建并分配一個空閑的識別句柄給該次任務(wù); C.應(yīng)用程序獲得該識別會話控制權(quán)后;根據(jù)當(dāng)前系統(tǒng)的任務(wù)通過API通知識別引擎加載相應(yīng)語法; D.應(yīng)用程序通過API函數(shù)把錄取的語音數(shù)據(jù)發(fā)送給該會話;該會話根據(jù)系統(tǒng)的模型和加載的語法對送入的語音進(jìn)行識別; E.如果有識別結(jié)果;系統(tǒng)會通過回調(diào)函數(shù)來通知應(yīng)用程序;應(yīng)用程序此時可以通過引擎的API來獲取識別結(jié)果; F.應(yīng)用程序卸載加載的語法; G.應(yīng)用程序斷開該會話連接; H.應(yīng)用程序釋放會話;此時應(yīng)用程序應(yīng)該根據(jù)識別結(jié)果做相應(yīng)的動作,如繼續(xù)播放提示音,提示用戶繼續(xù)提供信息或做其他的動作。
8.根據(jù)權(quán)利要求6所述的基于語音識別的智能應(yīng)急指揮系統(tǒng)的語音識別方法,其特征在于:所述的語義分析是: A.應(yīng)用程序啟動錄音程序開始錄音,同時應(yīng)用程序會通過識別引擎API語音識別引擎申請一個識別資源; B.識別引擎根據(jù)系統(tǒng)資源情況創(chuàng)建并分配一個空閑的識別句柄給該次任務(wù); C.應(yīng)用程序獲得該識別會話控制權(quán)后;根據(jù)當(dāng)前系統(tǒng)的任務(wù)通過API通知識別引擎加載相應(yīng)語法; D.應(yīng)用程序通過API函數(shù)把錄取的語音數(shù)據(jù)發(fā)送給該會話;該會話根據(jù)系統(tǒng)的模型和加載的語法對送入的語音進(jìn)行識別; E.如果有識別結(jié)果;系統(tǒng)會通過回調(diào)函數(shù)來通知應(yīng)用程序;應(yīng)用程序此時可以通過引擎的API來獲取識別結(jié)果; F.應(yīng)用程序卸載加載的語法; G.應(yīng)用程序斷開該會話連接; H.應(yīng)用程序釋放會話;此時應(yīng)用程序應(yīng)該根據(jù)識別結(jié)果做相應(yīng)的動作,如繼續(xù)播放提示音,提示用戶繼續(xù)提供信息或做其他的動作。
【文檔編號】H04L29/08GK104392721SQ201410720018
【公開日】2015年3月4日 申請日期:2014年11月28日 優(yōu)先權(quán)日:2014年11月28日
【發(fā)明者】賀忠堂, 陳才平, 李智勇, 呂維安, 李新安 申請人:東莞中國科學(xué)院云計算產(chǎn)業(yè)技術(shù)創(chuàng)新與育成中心