專利名稱:用于網(wǎng)絡(luò)瀏覽器的語音式交互方法
技術(shù)領(lǐng)域:
本發(fā)明涉及人機交互領(lǐng)域,具體涉及一種用于網(wǎng)絡(luò)瀏覽器的語音式交互方法。
背景技術(shù):
我國的語音識別研究起始于1958年,由中國科學院聲學所利用電子管電路識別 10個元音。直至1973年才由中國科學院聲學所開始計算機語音識別。由于當時條件的限制,我國的語音識別研究工作一直處于緩慢發(fā)展的階段。 進入80年代以后,隨著計算機應(yīng)用技術(shù)在我國逐漸普及和應(yīng)用以及數(shù)字信號技術(shù)的進一步發(fā)展,國內(nèi)許多單位具備了研究語音技術(shù)的基本條件。與此同時,國際上語音識別技術(shù)在經(jīng)過了多年的沉寂之后重又成為研究的熱點,發(fā)展迅速。就在這種形式下,國內(nèi)許多單位紛紛投入到這項研究工作中去。1986年3月我國高科技發(fā)展計劃(863計劃)啟動,語音識別作為智能計算機系統(tǒng)研究的一個重要組成部分而被專門列為研究課題。在863計劃的支持下,我國開始了有組織的語音識別技術(shù)的研究,并決定了每隔兩年召開一次語音識別的專題會議。從此我國的語音識別技術(shù)進入了一個前所未有的發(fā)展階段。尤其隨著最近些年來,國家以及各種商業(yè)機構(gòu)對語音識別的重視,目前語音識別技術(shù)已經(jīng)基本成熟,并且已經(jīng)在商業(yè)應(yīng)用中得到了廣泛的應(yīng)用。目前網(wǎng)絡(luò)瀏覽器已經(jīng)成為操作系統(tǒng)以及各類應(yīng)用平臺的主要入口,已經(jīng)漸漸成為操作系統(tǒng)中主要的應(yīng)用軟件之一,因此如何提高網(wǎng)絡(luò)瀏覽器的用戶體驗已經(jīng)成為網(wǎng)絡(luò)瀏覽器吸引用戶的主要手段之一。而網(wǎng)絡(luò)瀏覽器相對而言由于識別的內(nèi)容相對單一,尤其適用于語音識別技術(shù)。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種能夠充分利用瀏覽器本身的網(wǎng)絡(luò)功能實現(xiàn)服務(wù)端語音識別引擎的調(diào)用、實現(xiàn)網(wǎng)絡(luò)瀏覽器的語音式交互、用戶體驗好、使用簡單方便的用于網(wǎng)絡(luò)瀏覽器的語音式交互方法。為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為 一種用于網(wǎng)絡(luò)瀏覽器的語音式交互方法,其實施步驟如下
1)服務(wù)端建立語音識別引擎;
2)客戶端在打開網(wǎng)絡(luò)瀏覽器后,通過麥克風采集用戶語音,提取采集得到的用戶語音中的語音特征信息,并將所述語音特征信息發(fā)送給服務(wù)端;
3)所述服務(wù)端接收客戶端發(fā)送的語音特征信息,調(diào)用語音識別引擎將語音特征信息轉(zhuǎn)換為瀏覽器控制命令,并將所述瀏覽器控制命令發(fā)送給客戶端;
4)客戶端接收所述服務(wù)端發(fā)送的瀏覽器控制命令,并執(zhí)行所述瀏覽器控制命令實現(xiàn)與網(wǎng)絡(luò)瀏覽器的交互。作為上述技術(shù)方案的進一步改進
所述步驟3)中服務(wù)器調(diào)用語音識別引擎將語音特征信息轉(zhuǎn)換為瀏覽器控制命令的具
3體步驟包括調(diào)用語音識別引擎將語音特征信息轉(zhuǎn)換為文字信息,將所述文字信息分割為控制模式信息和控制命令信息,所述控制模式信息包括網(wǎng)址輸入、當前頁面以及標簽控制、 瀏覽器程序控制三種,所述控制命令信息包括用于在所述控制模式信息下對應(yīng)的快捷鍵。所述步驟4)中客戶端執(zhí)行所述瀏覽器控制命令的具體步驟包括客戶端讀取瀏覽器控制命令的控制模式信息,如果控制模式信息為網(wǎng)址輸入,則將操作系統(tǒng)的當前焦點定位網(wǎng)絡(luò)瀏覽器的地址輸入欄,然后向操作系統(tǒng)發(fā)送控制命令信息包含快捷鍵的按鍵事件;如果控制模式信息為當前頁面以及標簽控制,則將操作系統(tǒng)的當前焦點定位網(wǎng)絡(luò)瀏覽器的頁面或者標簽,然后向操作系統(tǒng)發(fā)送控制命令信息包含快捷鍵的按鍵事件;如果控制模式信息為瀏覽器程序控制,則將操作系統(tǒng)的當前焦點定位網(wǎng)絡(luò)瀏覽器的窗口,然后向操作系統(tǒng)發(fā)送控制命令信息包含快捷鍵的按鍵事件。所述客戶端讀取瀏覽器控制命令的控制模式信息時如果讀取控制模式信息失敗, 則將網(wǎng)絡(luò)瀏覽器的當前標簽頁或者當前頁導(dǎo)航至預(yù)設(shè)網(wǎng)址。本發(fā)明具有下述優(yōu)點
本發(fā)明通過服務(wù)端建立語音識別引擎、客戶端在打開網(wǎng)絡(luò)瀏覽器后,通過麥克風采集用戶語音,提取采集得到的用戶語音中的語音特征信息,并將語音特征信息發(fā)送給服務(wù)端、 服務(wù)端接收客戶端發(fā)送的語音特征信息,調(diào)用語音識別引擎將語音特征信息轉(zhuǎn)換為瀏覽器控制命令,并將瀏覽器控制命令發(fā)送給客戶端、客戶端接收服務(wù)端發(fā)送的瀏覽器控制命令, 并執(zhí)行瀏覽器控制命令實現(xiàn)與網(wǎng)絡(luò)瀏覽器的交互,能夠充分利用瀏覽器本身的網(wǎng)絡(luò)功能實現(xiàn)服務(wù)端語音識別引擎的調(diào)用,而且語音識別引擎設(shè)置在服務(wù)端可以隨時方便更新語音識別引擎而客戶端無需任何改動即可提高語音識別性能,具有用戶體驗好、使用簡單方便的優(yōu)點。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實施例的主要流程示意圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明的優(yōu)選實施例進行詳細闡述,以使本發(fā)明的優(yōu)點和特征能更易于被本領(lǐng)域技術(shù)人員理解,從而對本發(fā)明的保護范圍做出更為清楚明確的界定。如圖1所示,本實施例用于網(wǎng)絡(luò)瀏覽器的語音式交互方法的實施步驟如下
1)服務(wù)端建立語音識別引擎;
2)客戶端在打開網(wǎng)絡(luò)瀏覽器后,通過麥克風采集用戶語音,提取采集得到的用戶語音中的語音特征信息,并將語音特征信息發(fā)送給服務(wù)端;
3)服務(wù)端接收客戶端發(fā)送的語音特征信息,調(diào)用語音識別引擎將語音特征信息轉(zhuǎn)換為瀏覽器控制命令,并將瀏覽器控制命令發(fā)送給客戶端;
4)客戶端接收服務(wù)端發(fā)送的瀏覽器控制命令,并執(zhí)行瀏覽器控制命令實現(xiàn)與網(wǎng)絡(luò)瀏覽器的交互。本實施例步驟3)中服務(wù)器調(diào)用語音識別引擎將語音特征信息轉(zhuǎn)換為瀏覽器控制命令的具體步驟包括調(diào)用語音識別引擎將語音特征信息轉(zhuǎn)換為文字信息,將文字信息分割為控制模式信息和控制命令信息,控制模式信息包括網(wǎng)址輸入、當前頁面以及標簽控制、 瀏覽器程序控制三種,控制命令信息包括用于在控制模式信息下對應(yīng)的快捷鍵。本實施例步驟4)中客戶端執(zhí)行瀏覽器控制命令的具體步驟包括客戶端讀取瀏覽器控制命令的控制模式信息,如果控制模式信息為網(wǎng)址輸入,則將操作系統(tǒng)的當前焦點定位網(wǎng)絡(luò)瀏覽器的地址輸入欄,然后向操作系統(tǒng)發(fā)送控制命令信息包含快捷鍵的按鍵事件;如果控制模式信息為當前頁面以及標簽控制,則將操作系統(tǒng)的當前焦點定位網(wǎng)絡(luò)瀏覽器的頁面或者標簽,然后向操作系統(tǒng)發(fā)送控制命令信息包含快捷鍵的按鍵事件;如果控制模式信息為瀏覽器程序控制,則將操作系統(tǒng)的當前焦點定位網(wǎng)絡(luò)瀏覽器的窗口,然后向操作系統(tǒng)發(fā)送控制命令信息包含快捷鍵的按鍵事件。本實施例客戶端讀取瀏覽器控制命令的控制模式信息時如果讀取控制模式信息失敗,則將網(wǎng)絡(luò)瀏覽器的當前標簽頁或者當前頁導(dǎo)航至預(yù)設(shè)網(wǎng)址。
以上所述僅是本發(fā)明的優(yōu)選實施方式,本發(fā)明的保護范圍并不僅局限于上述實施例, 凡屬于本發(fā)明思路下的技術(shù)方案均屬于本發(fā)明的保護范圍。應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理前提下的若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。
權(quán)利要求
1.一種用于網(wǎng)絡(luò)瀏覽器的語音式交互方法,其特征在于其實施步驟如下1)服務(wù)端建立語音識別引擎;2)客戶端在打開網(wǎng)絡(luò)瀏覽器后,通過麥克風采集用戶語音,提取采集得到的用戶語音中的語音特征信息,并將所述語音特征信息發(fā)送給服務(wù)端;3)所述服務(wù)端接收客戶端發(fā)送的語音特征信息,調(diào)用語音識別引擎將語音特征信息轉(zhuǎn)換為瀏覽器控制命令,并將所述瀏覽器控制命令發(fā)送給客戶端;4)客戶端接收所述服務(wù)端發(fā)送的瀏覽器控制命令,并執(zhí)行所述瀏覽器控制命令實現(xiàn)與網(wǎng)絡(luò)瀏覽器的交互。
2.根據(jù)權(quán)利要求1所述的用于網(wǎng)絡(luò)瀏覽器的語音式交互方法,其特征在于所述步驟3)中服務(wù)器調(diào)用語音識別引擎將語音特征信息轉(zhuǎn)換為瀏覽器控制命令的具體步驟包括調(diào)用語音識別引擎將語音特征信息轉(zhuǎn)換為文字信息,將所述文字信息分割為控制模式信息和控制命令信息,所述控制模式信息包括網(wǎng)址輸入、當前頁面以及標簽控制、瀏覽器程序控制三種,所述控制命令信息包括用于在所述控制模式信息下對應(yīng)的快捷鍵。
3.根據(jù)權(quán)利要求2所述的用于網(wǎng)絡(luò)瀏覽器的語音式交互方法,其特征在于所述步驟4)中客戶端執(zhí)行所述瀏覽器控制命令的具體步驟包括客戶端讀取瀏覽器控制命令的控制模式信息,如果控制模式信息為網(wǎng)址輸入,則將操作系統(tǒng)的當前焦點定位網(wǎng)絡(luò)瀏覽器的地址輸入欄,然后向操作系統(tǒng)發(fā)送控制命令信息包含快捷鍵的按鍵事件;如果控制模式信息為當前頁面以及標簽控制,則將操作系統(tǒng)的當前焦點定位網(wǎng)絡(luò)瀏覽器的頁面或者標簽,然后向操作系統(tǒng)發(fā)送控制命令信息包含快捷鍵的按鍵事件;如果控制模式信息為瀏覽器程序控制,則將操作系統(tǒng)的當前焦點定位網(wǎng)絡(luò)瀏覽器的窗口,然后向操作系統(tǒng)發(fā)送控制命令信息包含快捷鍵的按鍵事件。
4.根據(jù)權(quán)利要求3所述的用于網(wǎng)絡(luò)瀏覽器的語音式交互方法,其特征在于所述客戶端讀取瀏覽器控制命令的控制模式信息時如果讀取控制模式信息失敗,則將網(wǎng)絡(luò)瀏覽器的當前標簽頁或者當前頁導(dǎo)航至預(yù)設(shè)網(wǎng)址。
全文摘要
本發(fā)明公開了一種用于網(wǎng)絡(luò)瀏覽器的語音式交互方法,其實施步驟如下1)服務(wù)端建立語音識別引擎;2)客戶端在打開網(wǎng)絡(luò)瀏覽器后,通過麥克風采集用戶語音,提取采集得到的用戶語音中的語音特征信息,并將所述語音特征信息發(fā)送給服務(wù)端;3)所述服務(wù)端接收客戶端發(fā)送的語音特征信息,調(diào)用語音識別引擎將語音特征信息轉(zhuǎn)換為瀏覽器控制命令,并將所述瀏覽器控制命令發(fā)送給客戶端;4)客戶端接收所述服務(wù)端發(fā)送的瀏覽器控制命令,并執(zhí)行所述瀏覽器控制命令實現(xiàn)與網(wǎng)絡(luò)瀏覽器的交互。本發(fā)明具有能夠充分利用瀏覽器本身的網(wǎng)絡(luò)功能實現(xiàn)服務(wù)端語音識別引擎的調(diào)用、實現(xiàn)網(wǎng)絡(luò)瀏覽器的語音式交互、用戶體驗好、使用簡單方便的優(yōu)點。
文檔編號G06F17/30GK102520792SQ20111038877
公開日2012年6月27日 申請日期2011年11月30日 優(yōu)先權(quán)日2011年11月30日
發(fā)明者林云 申請人:江蘇奇異點網(wǎng)絡(luò)有限公司