基于車載應用的語音處理系統(tǒng)的制作方法

文檔序號：2836169閱讀：204來源：國知局

專利名稱：基于車載應用的語音處理系統(tǒng)的制作方法
技術領域：
本發(fā)明涉及信息處理技術領域，尤其涉及一種基于車載應用的語音處理系統(tǒng)。
背景技術：
隨著經(jīng)濟的發(fā)展及社會的進步，汽車已逐漸成為大眾化的消費品。汽車的消費群體在不斷擴張，消費者對汽車的要求也越來越高。近年來，除經(jīng)濟性、動力性外，在行車過程中的駕駛體驗也成為了消費者關注的焦點。車載設備的技術發(fā)展也隨之越來越深而被入。目前，汽車上大都搭載有具有例如音樂播放、廣播收聽、電子書閱讀等功能的車載設備。這些車載設備在行車過程中為用戶提供了多種娛樂及應用功能的體驗。而隨著液晶觸摸技術的發(fā)展，車載設備的控制面板也從傳統(tǒng)的按鍵面板轉換為液晶觸摸顯示屏，這些都進一步提高了用戶使用的便利性，并且提供了更為直觀的用戶操作界面。此外，隨著移動通信技術的發(fā)展，車載設備的技術也越來越像功能集成化發(fā)展。目前，有些車載設備已能通過最新的3G網(wǎng)絡實現(xiàn)語音通話、網(wǎng)絡瀏覽等功能，使得車載設備真正成為了一種能提供全方位功能體驗的移動應用系統(tǒng)。然而，即使由于液晶觸摸技術的引入，用戶在行車過程中的操作方式仍未發(fā)生改變，任何的功能應用仍需用戶通過手動輸入操作指令來實現(xiàn)。對于一些復雜的功能應用，這無疑增加了操作的復雜度。此外，行車過程中的安全性歷來是需要考慮的重要因素，頻繁的手動操作也必然會分散駕駛者的注意力，由此為行車過程增加了很多安全隱患。

發(fā)明內(nèi)容
本發(fā)明解決的問題是提供一種基于車載應用的語音處理系統(tǒng)，簡化車載功能應用的操作復雜度，并且增強行車的安全性。為了解決上述問題，本發(fā)明提供了一種基于車載應用的語音處理系統(tǒng)，包括:車載端和服務器；所述車載端包括車載語音處理裝置和車載應用處理裝置；所述車載語音處理裝置接收用戶的語音輸入，并形成語音請求發(fā)送至服務器；所述服務器在獲得所述語音請求后，基于所述語音請求形成錄音文件，并將所述錄音文件轉換成文本文件進行識別，并基于識別結果形成語音特征信息，從所述語音特征信息中識別出所述語音請求包含的指令信息，并基于所述指令信息向所述應用處理裝置提供應用處理參數(shù)；所述車載應用處理裝置基于所述應用處理參數(shù)執(zhí)行相應車載應用。與現(xiàn)有技術相比，上述方案具有以下優(yōu)點:所述基于車載應用的語音處理系統(tǒng)在實現(xiàn)車載功能應用時，僅需用戶通過語音方式輸入指令，車載語音處理裝置就會將所述語音轉換成語音請求發(fā)送至服務器，并由服務器基于所述語音請求反饋應用處理參數(shù)，從而車載應用處理裝置就可基于所述應用處理參數(shù)執(zhí)行相應車載應用。由于整個過程中，無需用戶進行任何手動操作，從而大大降低了用戶在實現(xiàn)車載應用時的操作復雜度。此外，由于無需手動操作，對于駕駛者而言，其在駕駛過程中就無需分散注意力進行車載應用操作，即，駕駛者可以在雙手不離開方向盤、視線不離開路面的情況下控制車載設備，從而提高駕駛者駕駛集中度，提高駕車安全性以及駕車體驗。

圖1是本發(fā)明基于車載應用的語音處理系統(tǒng)的一種實施方式的結構示意圖；圖2是本發(fā)明基于車載應用的語音處理系統(tǒng)的一種實施例中車載語音處理裝置的結構不意圖；圖3是本發(fā)明基于車載應用的語音處理系統(tǒng)的一種實施例中服務器的結構示意圖；圖4是圖3所示系統(tǒng)中語音轉換單元及指令識別單元的一種細化結構示意圖；圖5是圖3中語音轉換單元的一種實現(xiàn)結構示意圖；圖6是本發(fā)明基于車載應用的語音處理系統(tǒng)的另一種實施例中車載端及服務器的結構不意圖；圖7是本發(fā)明基于車載應用的語音處理系統(tǒng)的又一種實施例中車載端的結構示意圖。
具體實施例方式正如背景技術部分所述，現(xiàn)有車載設備中，任何的功能應用仍需用戶通過手動輸入操作指令來實現(xiàn)。從而，對于一些復雜的功能應用，這無疑增加了操作的復雜度。并且，為行車過程增加了很多安全隱患。有鑒于此，本發(fā)明提供的基于車載應用的語音處理系統(tǒng)通過對用戶發(fā)出的語音指令進行轉換，獲得所述語音指令中包含的指令信息，根據(jù)所述指令信息啟動并執(zhí)行應用，以實現(xiàn)通過語音指令進行車載應用操作。下面結合附圖進一步闡述本發(fā)明的基于車載應用的語音處理系統(tǒng)。參照圖1所示，本發(fā)明基于車載應用的語音處理系統(tǒng)的一種實施方式包括:車載端I和服務器2 ;所述車載端I包括車載語音處理裝置10和車載應用處理裝置11 ;所述車載語音處理裝置10接收用戶的語音輸入，并形成語音請求發(fā)送至服務器2 ;所述服務器2在獲得所述語音請求后，基于所述語音請求形成錄音文件，并將所述錄音文件轉換成文本文件進行識別，并基于識別結果形成語音特征信息，從所述語音特征信息中識別出所述語音請求包含的指令信息，并基于所述指令信息向所述應用處理裝置11提供應用處理參數(shù)；所述車載應用處理裝置11基于所述應用處理參數(shù)執(zhí)行相應車載應用。上述實施方式中，在用戶通過語音方式輸入指令后，車載語音處理裝置10就會將所述語音轉換成語音請求發(fā)送至服務器2，并由服務器2基于所述語音請求反饋應用處理參數(shù)，從而車載應用處理裝置11就可基于所述應用處理參數(shù)執(zhí)行相應車載應用。由于整個過程中，無需用戶進行任何手動操作，從而大大降低了用戶在實現(xiàn)車載應用時的操作復雜度。此外，由于無需手動操作，對于駕駛者而言，其在駕駛過程中就無需分散注意力進行車載應用操作，即，駕駛者可以在雙手不離開方向盤、視線不離開路面的情況下控制車載設備，從而提高駕駛者駕駛集中度，提高駕車安全性以及駕車體驗。參照圖2所示，根據(jù)本發(fā)明基于車載應用的語音處理系統(tǒng)的一種實施例，所述車載語音處理裝置10可以包括:
語音輸入單元101，用于接收語音；請求處理單元102，在語音輸入單元接收到語音時，基于所述語音形成語音請求發(fā)送至服務器。其中，所述語音輸入單元101可以為麥克風。參照圖3所示，根據(jù)本發(fā)明基于車載應用的語音處理系統(tǒng)的一種實施例，所述服務器2可以包括:語音轉換單元20，在獲得所述車載語音處理裝置10發(fā)送的所述語音請求后，基于所述語音請求形成錄音文件，并將所述錄音文件轉換成文本文件進行識別，并基于識別結果形成語音特征信息；存儲單元22，用于存儲各種車載應用的場景所對應的場景指令文本，以及各種場景下的應用操作所對應的操作指令文本；指令識別單元21，從存儲單元22中搜索與語音轉換單元20轉換的語音特征信息匹配的場景指令文本，在搜索到匹配的場景指令文本時，形成對應的場景啟動指令；以及從存儲單元22中搜索與語音轉換單元20轉換的語音特征信息匹配的操作指令文本，在搜索到匹配的操作指令文本時，形成對應的應用操作指令；預處理單元23，在獲得對應的場景啟動指令后啟動，并在獲得對應的應用操作指令后，執(zhí)行預處理操作，并將預處理操作形成的應用處理參數(shù)發(fā)送至所述車載應用處理裝置11。參照圖4所示，所述語音轉換單元20可以包括:文本識別庫201，用于存儲基準詞條；錄音單元202，用于接收所述車載端發(fā)送的語音請求，并形成錄音文件；語音識別單元203，將所述錄音文件轉換成文本文件，并將所述文本文件中的詞條與所述文本識別庫201中的基準詞條進行比對，在從所述文本識別庫201中獲得匹配的基準詞條時，基于所述匹配的基準詞條形成語音特征信息。所述指令識別單元21可以包括:場景識別單元211，從存儲單元22中搜索與語音轉換單元20轉換的語音特征信息匹配的場景指令文本，在搜索到匹配的場景指令文本時，形成對應的場景啟動指令；應用操作識別單元212，從存儲單元22中搜索與語音轉換單元20轉換的語音特征信息匹配的操作指令文本，在搜索到匹配的操作指令文本時，形成對應的應用操作指令。結合圖4和圖5所示，所述語音識別單元203可以包括:文本識別單元203a、詞條比對單元203b及語音特征信息形成單元203c ；所述文本識別單元203a，用于將所述錄音文件轉換成文本文件；所述詞條比對單元203b將所述文本文件中的詞條與所述文本識別庫201中的基準詞條進行比對，獲得相應的比對結果；所述語音特征信息形成單元203c，在比對結果的置信度大于預設置信度時，確定所述文本文件中的詞條與所述文本識別庫201中的相應基準詞條匹配，并基于所述匹配的基準詞條形成語音特征信息。所述車載應用可以包括:短信應用、網(wǎng)絡音樂應用及導航應用。以網(wǎng)絡音樂應用為例，駕駛者可以通過麥克風輸入語音指令“播放網(wǎng)絡音樂”。所述請求處理單元102會基于所述“播放網(wǎng)絡音樂”的語音指令形成語音請求發(fā)送至語音轉換單元20。所述錄音單元202會將所述語音請求錄音，并形成錄音文件后發(fā)送至所述文本識別單元203a。所述文本識別單元203a在獲得所述錄音文件后，會識別所述錄音文件中語音對應的文本，從而將所述錄音文件轉換成文本文件。例如，所述文本識別單元203a會將所述錄音文件轉換成內(nèi)容為“播放網(wǎng)絡音樂”的文本文件。通常，為了增加轉換的準確性，還會對所述錄音文件先進行去噪處理，以濾除人聲音頻率外的其他頻段的聲音波形。所述文本識別庫201可以預先存入一些常用的詞條作為基準詞條。例如，可以存入日常用語、包括車載應用操作的一些會話用語所對應的詞條。這些日常用語及會話用語所對應的詞條通常以各自獨立的文本文件存入所述文本識別庫201，以方便后續(xù)比對時分別調用。所述詞條比對單元203b在從所述文本識別單元203a處獲得轉換的文本文件后，就會將所述文本文件中的詞條與所述文本識別庫201中的基準詞條進行比對，并且在比對后將比對結果發(fā)送至所述語音特征信息形成單元203c。例如，所述詞條比對單元203b會將
所述文本識別庫201中與車載應用操作的會話用語所對應的文本文件--打開，并將其中
的基準詞條與所述轉換的文本文件中的詞條一一進行比對，獲得多個比對結果。所述比對結果中包含所轉換的文本文件中的詞條與所述文本識別庫201中的基準詞條匹配的置信度。所述語音特征信息形成單元203c在獲得所述比對結果后，會解析所述比對結果獲得所述置信度，在比對結果的置信度大于預設置信度時，確定轉換的文本文件中的詞條與所述文本識別庫201中的相應基準詞條匹配。例如，當轉換的文本文件中的詞條與所述文本識別庫201中“播放網(wǎng)絡音樂”這個基準詞條的比對結果對應的置信度都大于預設置信度時，所述語音特征信息形成單元203c就會認為轉換的文本文件中的詞條與“播放網(wǎng)絡音樂”這個基準詞條匹配，則所述語音特征信息形成單元203c可就此確定轉換的文本文件對應的語音請求中包含“播放網(wǎng)絡音樂”的詞條，則所述語音特征信息形成單元203c會將所述詞條“播放網(wǎng)絡音樂”轉換為包括網(wǎng)絡音樂的語音特征信息。接下來，所述場景識別單元211和應用操作識別單元212就會對所述語音識別單元202轉換的語音特征信息進行識別。類似于語音特征庫201，存儲單元22中也預先存入了對應各種車載應用場景的場景指令文本，以及對應所述車載應用場景下各種應用操作的操作指令文本。所述場景識別單元211根據(jù)所述網(wǎng)絡音樂的語音特征信息形成網(wǎng)絡音樂應用場景啟動指令。所述應用操作識別單元212根據(jù)所述網(wǎng)絡音樂的語音特征信息形成打開某一網(wǎng)絡電臺的電臺開啟指令。然后，在獲得網(wǎng)絡音樂應用場景啟動指令，作為預處理單元的網(wǎng)絡電臺搜索單元啟動，并且依據(jù)打開某一網(wǎng)絡電臺的電臺開啟指令搜索相應的網(wǎng)絡電臺，并且獲取所述網(wǎng)絡電臺的鏈接信息，將所述鏈接信息作為網(wǎng)絡音樂應用的應用處理參數(shù)發(fā)送至車載應用處理裝置11。而所述車載應用處理裝置11在獲得所述網(wǎng)絡電臺的鏈接信息后，就會依據(jù)所述鏈接信息鏈接至所述網(wǎng)絡電臺，獲取所述網(wǎng)絡電臺的頁面文件，以向用戶呈現(xiàn)所述網(wǎng)絡電臺的界面，并向用戶播放網(wǎng)絡電臺的歌曲。在其他應用場景下，所述基于車載應用的語音處理系統(tǒng)也可進行類似的處理，通過識別出用戶語音中包含的指令類型及指令內(nèi)容，以啟動并執(zhí)行相應的車載應用。參照圖6所示，根據(jù)本發(fā)明基于車載應用的語音處理系統(tǒng)的另一種實施例，所述服務器2除包括上述實施例的各部件外，還可以包括提示信息形成單元24，在指令識別單元21識別出所述場景指令文本或所述操作指令文本時，形成對應所述場景指令文本或所述操作指令文本的提示信息，并發(fā)送至所述車載端。所述車載端還包括提示裝置12，在獲得所述提示信息后，向用戶進行提示。所述提示裝置12可以為語音播報單元，例如車載音響。仍以前述“播放網(wǎng)絡音樂”的語音指令為例，則在指令識別單元21形成網(wǎng)絡音樂應用場景啟動指令及電臺開啟指令時，所述提示信息形成單元24就形成提示信息:正在打開網(wǎng)絡電臺。而所述提示裝置12在獲得所述提示信息后，就通過語音播放的方式向用戶進行提示。由于用戶可以通過所述提示信息獲知應用操作的執(zhí)行過程，因而提高了用戶的使用體驗。所述提示裝置12也可以為顯示單元，例如液晶觸摸屏。仍以前述“播放網(wǎng)絡音樂”的語音指令為例，則在指令識別單元21形成網(wǎng)絡音樂應用場景啟動指令及電臺開啟指令時，所述提示信息形成單元24就形成提示信息:正在打開網(wǎng)絡電臺。而所述提示裝置12在獲得所述提示信息后，就通過顯示的方式向用戶進行提示。。同樣地，由于用戶可以通過所述提示信息獲知應用操作的執(zhí)行過程，因而提高了用戶的使用體驗。此外，所述服務器還可以包括應答信息存儲單元25，所述提示信息形成單元24還根據(jù)用戶基于所述提示信息反饋的確認信息，從所述應答信息存儲單元25中搜索與所述場景指令文本或所述操作指令文本對應的應答信息，并發(fā)送至所述車載端。例如，用戶基于前述提供的提示信息:正在打開網(wǎng)絡電臺，通過麥克風發(fā)送“確認”的語音后，所述提示信息形成單元24就會從所述應答信息存儲單元25中搜索與網(wǎng)絡音樂應用場景對應的應答信息，例如，所述應答信息可以為:很高興為您提供網(wǎng)絡音樂應用服務。通過所述應答信息，可以增強用戶與車載端的互動，進一步提高用戶的使用體驗。對應地，在所述指令識別單元21未能搜索到匹配的場景指令文本或操作指令文本時，所述提示信息形成單元24也可以向用戶提示識別失敗的信息?？梢缘弥?，所述應答信息及所述識別失敗的信息也可以通過顯示或語音播報的方式呈現(xiàn)給用戶。參照圖7所示，在本發(fā)明基于車載應用的語音處理系統(tǒng)的其他實施例中，所述車載端還可以包括觸發(fā)裝置13，用于基于用戶的請求啟動所述車載語音處理裝置10。例如，設置觸發(fā)按鍵，當用戶按下所述觸發(fā)按鍵時，啟動所述車載語音處理裝置10。此外，所述車載端還可以包括計時裝置14，在所述車載語音處理裝置10啟動后計時，在計時時間達到時間閾值且此期間車載語音處理裝置未接收到語音時，關閉所述車載語音處理裝置。由此，在所述車載語音處理裝置啟動后，但用戶長時間未發(fā)出語音指令時，可以通過關閉所述車載語音處理裝置以節(jié)省能源消耗，節(jié)省了使用成本。雖然本發(fā)明已以較佳實施例披露如上，但本發(fā)明并非限定于此。任何本領域技術人員，在不脫離本發(fā)明的精神和范圍內(nèi)，均可作各種更動與修改，因此本發(fā)明的保護范圍應當以權利要求所限定的范圍為準。
權利要求
1.一種基于車載應用的語音處理系統(tǒng)，其特征在于，包括:車載端和服務器；所述車載端包括車載語音處理裝置和車載應用處理裝置；所述車載語音處理裝置接收用戶的語音輸入，并形成語音請求發(fā)送至服務器；所述服務器在獲得所述語音請求后，基于所述語音請求形成錄音文件，并將所述錄音文件轉換成文本文件進行識別，并基于識別結果形成語音特征信息，從所述語音特征信息中識別出所述語音請求包含的指令信息，并基于所述指令信息向所述應用處理裝置提供應用處理參數(shù)；所述車載應用處理裝置基于所述應用處理參數(shù)執(zhí)行相應車載應用。
2.如權利要求1所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述車載語音處理裝置包括: 語音輸入單元，用于接收語音；請求處理單元，在語音輸入單元接收到語音時，基于所述語音形成語音請求發(fā)送至服務器。
3.如權利要求2所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述語音輸入單元為麥克風。
4.如權利要求1所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述服務器包括: 語音轉換單元，在獲得所述車載語音處理裝置發(fā)送的所述語音請求后，基于所述語音請求形成錄音文件，并將所述錄音文件轉換成文本文件進行識別，并基于識別結果形成語首特征目息；存儲單元，用于存儲各種車載應用的場景所對應的場景指令文本，以及各種場景下的應用操作所對應的操作指令文本；指令識別單元，從存儲單元中搜索與語音轉換單元轉換的語音特征信息匹配的場景指令文本，在搜索到匹配的場景指令文本時，形成對應的場景啟動指令；以及從存儲單元中搜索與語音轉換單元轉換的語音特征信息匹配的操作指令文本，在搜索到匹配的操作指令文本時，形成對應的應用操作指令；預處理單元，在獲得對應的場景啟動指令后啟動，并在獲得對應的應用操作指令后，執(zhí)行預處理操作，并將預處理操作形成的應用處理參數(shù)發(fā)送至所述車載應用處理裝置。
5.如權利要求4所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述語音轉換單元包括: 文本識別庫，用于存儲基準詞條；錄音單元，用于接收所述車載端發(fā)送的語音請求，并形成錄音文件；語音識別單元，將所述錄音文件轉換成文本文件，并將所述文本文件中的詞條與所述文本識別庫中的基準詞條進行比對，在從所述文本識別庫中獲得匹配的基準詞條時，基于所述匹配的基準詞條形成語音特征信息。
6.如權利要求5所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述語音識別單元包括:文本識別單元、詞條比對單元及語音特征信息形成單元；所述文本識別單元，用于將所述錄音文件轉換成文本文件；所述詞條比對單元將所述文本文件中的詞條與所述文本識別庫中的基準詞條進行比對，獲得相應的比對結果；所述語音特征信息形成單元，在比對結果的置信度大于預設置信度時，確定所述文本文件中的詞條與所述文本識別庫中的相應基準詞條匹配，并基于所述匹配的基準詞條形成語音特征信息。
7.如權利要求4所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述指令識別單元包括:場景識別單元及應用操作識別單元；場景識別單元，從存儲單元中搜索與語音轉換單元轉換的語音特征信息匹配的場景指令文本，在搜索到匹配的場景指令文本時，形成對應的場景啟動指令；應用操作識別單元，從存儲單元中搜索與語音轉換單元轉換的語音特征信息匹配的操作指令文本，在搜索到匹配的操作指令文本時，形成對應的應用操作指令。
8.如權利要求4所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述服務器還包括提示信息形成單元，在指令識別單元識別出所述場景指令文本或所述操作指令文本時，形成對應所述場景指令文本或所述操作指令文本的提示信息，并發(fā)送至所述車載端；所述車載端還包括提示裝置，在獲得所述提示信息后，向用戶進行提示。
9.如權利要求8所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述服務器還包括應答信息存儲單元，所述提示信息形成單元還根據(jù)用戶基于所述提示信息反饋的確認信息，從所述應答信息存儲單元中搜索與所述場景指令文本或所述操作指令文本對應的應答信息，并發(fā)送至所述車載端；所述提示裝置在獲得所述應答信息后，向用戶進行提示。
10.如權利要求8所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述提示信息形成單元在指令識別單元未能搜索到匹配的場景指令文本或操作指令文本時，形成識別失敗的提示信息，并發(fā)送至所述車載端；所述提示裝置在獲得所述識別失敗的提示信息后，向用戶進行提示。
11.如權利要求8至10任一項所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述提示裝置為語音播報單元。
12.如權利要求8至10任一項所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述提示裝置為顯示單元。
13.如權利要求1所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述車載端還包括觸發(fā)裝置，用于基于用戶的請求啟動所述車載語音處理裝置。
14.如權利要求13所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述觸發(fā)裝置為觸發(fā)按鍵。
15.如權利要求13所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述車載端還包括計時裝置，在所述車載語音處理裝置啟動后計時，在計時時間達到時間閾值且此期間車載語音處理裝置未接收到語音時，關閉所述車載語音處理裝置。
16.如權利要求1所述的基于車載應用的語音處理系統(tǒng)，其特征在于，所述車載應用包括:短信應用、網(wǎng)絡音樂應用及導航應用。
全文摘要
一種基于車載應用的語音處理系統(tǒng)，包括車載端和服務器；所述車載端包括車載語音處理裝置和車載應用處理裝置；所述車載語音處理裝置接收用戶的語音輸入，并形成語音請求發(fā)送至服務器；所述服務器在獲得所述語音請求后，基于所述語音請求形成錄音文件，并將所述錄音文件轉換成文本文件進行識別，并基于識別結果形成語音特征信息，從所述語音特征信息中識別出所述語音請求包含的指令信息，并基于所述指令信息向所述應用處理裝置提供應用處理參數(shù)；所述車載應用處理裝置基于所述應用處理參數(shù)執(zhí)行相應車載應用。所述基于車載應用的語音處理系統(tǒng)簡化了用戶操作，提高了行車安全性。
文檔編號G10L15/26GK103187059SQ20111045000
公開日2013年7月3日申請日期2011年12月28日優(yōu)先權日2011年12月28日
發(fā)明者楊建 , 張曉海申請人:上海博泰悅臻電子設備制造有限公司

完整全部詳細技術資料下載