專利名稱:識(shí)別瀏覽器語音命令的服務(wù)器及瀏覽器語音命令識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音處理領(lǐng)域,更具體地,涉及一種用于識(shí)別瀏覽器語音命令的服務(wù)器及其方法,以及涉及一種瀏覽器語音命令識(shí)別系統(tǒng)及其方法,可以對(duì)用戶輸入的瀏覽器語音命令進(jìn)行智能識(shí)別,實(shí)現(xiàn)了用戶通過語音對(duì)用戶終端瀏覽的網(wǎng)頁(yè)進(jìn)行語音控制。
背景技術(shù):
最近幾年,隨著語音識(shí)別技術(shù)的快速發(fā)展與廣泛應(yīng)用,采用語音作為人機(jī)交互的方式為用戶提供了便利。語音識(shí)別是將人的語音中的詞匯內(nèi)容轉(zhuǎn)換為文字,即,語音到文字的轉(zhuǎn)換(Speech to text),從而用戶采用說話的方式來完成文字的輸入。在手機(jī)上采用語 音識(shí)別技術(shù)可以方便人與手機(jī)的交流,比如語音的自動(dòng)撥號(hào)功能,只用說出被叫者姓名,電話即自動(dòng)撥向被叫者,節(jié)省了用戶查詢電話的時(shí)間。語義識(shí)別是對(duì)文字的語義進(jìn)行智能的分析和判斷,語義識(shí)別技術(shù)往往構(gòu)建在準(zhǔn)確的語音識(shí)別基礎(chǔ)之上,比如蘋果的Iphone所采用的Siri語音助理功能。Siri可以讓手機(jī)用戶通過語音來實(shí)現(xiàn)對(duì)手機(jī)的控制,通過對(duì)自然語言理解和學(xué)習(xí)并結(jié)合上下文來提供問答式服務(wù)。語音和語義識(shí)別技術(shù)開始逐漸應(yīng)用在瀏覽器中,比如Google谷歌就已經(jīng)在Chrome瀏覽器里加入了語音搜索的功能,騰訊和UC優(yōu)視也相繼推出了各自的手機(jī)瀏覽器語音版。但上述應(yīng)用在人機(jī)交互過程中仍然存在不令人滿意的地方。這主要表現(xiàn)在以下兩點(diǎn)I.現(xiàn)有的瀏覽器語音上網(wǎng)過程只能簡(jiǎn)單地完成一個(gè)識(shí)別出的文字到網(wǎng)址的映射,用戶在使用瀏覽器語音上網(wǎng)時(shí)的操作僅限于瀏覽某個(gè)用戶已知的網(wǎng)站,比如用戶說“打開新浪”,瀏覽器則通過查找文字-網(wǎng)站映射表,打開“WWW. sina. com”。2.此外,絕大多數(shù)的網(wǎng)頁(yè)都沒有提供語音交互的接口,Google提供了語音搜索的功能,但其應(yīng)用范圍局限于Google的搜索框輸入。當(dāng)用戶想在網(wǎng)頁(yè)上點(diǎn)擊按鈕、鏈接,提交表單等時(shí)候,還是需要鼠標(biāo)和鍵盤設(shè)備的輔助。
發(fā)明內(nèi)容
為了實(shí)現(xiàn)用戶與用戶終端的自由交互與智能語音網(wǎng)頁(yè)瀏覽,實(shí)現(xiàn)了本發(fā)明。本發(fā)明的目的是提出一種用于識(shí)別瀏覽器語音命令的服務(wù)器以及瀏覽器語音命令識(shí)別方法,以及一種瀏覽器語音命令識(shí)別系統(tǒng)及其方法,其中可以對(duì)用戶的瀏覽器語音命令進(jìn)行語音識(shí)別與語義識(shí)別。實(shí)現(xiàn)用戶通過語音對(duì)用戶終端瀏覽的網(wǎng)頁(yè)進(jìn)行語音控制,通過語音就可以直接打開網(wǎng)頁(yè)瀏覽,獲取搜索結(jié)果。從而,用戶終端更智能化、人性化,用戶與用戶終端之間的“溝通”變得更加方便、及時(shí)。以及無需使用鼠標(biāo),鍵盤之類的輔助設(shè)備。根據(jù)本發(fā)明第一方面,提出一種用于識(shí)別瀏覽器語音命令的服務(wù)器,包括通信裝置,用于接收用戶終端發(fā)送的瀏覽器語音命令;語音識(shí)別裝置,用于將所述瀏覽器語音命令語音識(shí)別為文本;和語義識(shí)別裝置,用于對(duì)所述語音識(shí)別的文本進(jìn)行語義識(shí)別,以轉(zhuǎn)換為瀏覽器命令。根據(jù)本發(fā)明第二方面,提出一種瀏覽器語音命令識(shí)別方法,包括通信步驟,接收用戶終端發(fā)送的瀏覽器語音命令;語音識(shí)別步驟,將所述瀏覽器語音命令語音識(shí)別為文本;和語義識(shí)別步驟,對(duì)所述語音識(shí)別的文本進(jìn)行語義識(shí)別,以轉(zhuǎn)換為瀏覽器命令。根據(jù)本發(fā)明的第三方面,提出一種瀏覽器語音命令識(shí)別系統(tǒng),包括用戶終端以及與用戶終端通過網(wǎng)絡(luò)連接的服務(wù)器,其中所述用戶終端包括輸入裝置,用于接收用戶輸入的瀏覽器語音命令;語音識(shí)別裝置,用于將所述瀏覽器語音命令語音識(shí)別為文本;第一通信裝置,用于將語音識(shí)別的文本發(fā)送給所述服務(wù)器;所述服務(wù)器包括第二通信裝置,用于接收所述語音識(shí)別的文本;和語義識(shí)別裝置,用于對(duì)所述語音識(shí)別的文本進(jìn)行語義識(shí)別,以轉(zhuǎn)換為瀏覽器命令。根據(jù)本發(fā)明的第四方面,提出一種瀏覽器語音命令識(shí)別方法,包括輸入步驟,用戶終端接收用戶輸入的瀏覽器語音命令;語音識(shí)別步驟,用戶終端將所述瀏覽器語音命令語音識(shí)別為文本;第一通信步驟,用戶終端將語音識(shí)別的文本發(fā)送給所述服務(wù)器;第二通信步驟,服務(wù)器接收所述語音識(shí)別的文本;和語義識(shí)別步驟,服務(wù)器對(duì)所述語音識(shí)別的文本進(jìn)行語義識(shí)別,以轉(zhuǎn)換為瀏覽器命令。
從下面結(jié)合附圖的詳細(xì)描述中,本發(fā)明的上述特征和優(yōu)點(diǎn)將更明顯,其中圖Ia示出根據(jù)本發(fā)明第一實(shí)施例的瀏覽器語音命令識(shí)別系統(tǒng)的示意圖;圖Ib示出根據(jù)本發(fā)明第二實(shí)施例的瀏覽器語音命令識(shí)別系統(tǒng)的示意圖;圖2示出瀏覽器語音命令識(shí)別系統(tǒng)的語義識(shí)別裝置的示意圖;圖3是語義識(shí)別裝置其詞性標(biāo)注單元采用的標(biāo)注器順序的一個(gè)示例;圖4示出根據(jù)本發(fā)明第一實(shí)施例的瀏覽器語音命令識(shí)別系統(tǒng)執(zhí)行瀏覽器語音命令識(shí)別方法的流程圖;圖5示出了語義識(shí)別方法的流程圖;圖6示出根據(jù)本發(fā)明第三實(shí)施例的瀏覽器語音命令識(shí)別系統(tǒng)的示意圖;圖7是基于關(guān)鍵字的瀏覽器語音命令的一個(gè)示例;圖8a是瀏覽器語音命令互動(dòng)操作的當(dāng)前網(wǎng)頁(yè)的示例;圖Sb是本發(fā)明互動(dòng)操作數(shù)據(jù)庫(kù)匹配表的一個(gè)示例;圖9是識(shí)別瀏覽器語音命令的一個(gè)示例。
具體實(shí)施例方式下面,將參考附圖描述本發(fā)明的優(yōu)選實(shí)施例。在附圖中,相同的元件將由相同的參考符號(hào)或數(shù)字表示。此外,在本發(fā)明的下列描述中,將省略對(duì)已知功能和配置的具體描述,以避免使本發(fā)明的主題不清楚。
圖Ia示出了根據(jù)本發(fā)明第一實(shí)施例的瀏覽器語音命令識(shí)別系統(tǒng)。瀏覽器語音命令識(shí)別系統(tǒng)包括用戶終端I以及與用戶終端通過通信網(wǎng)絡(luò)(未示出)連接的服務(wù)器2。用戶終端I包括用于利用模型庫(kù)將用戶輸入的語音識(shí)別為文本(自然語言文本)的語音識(shí)別裝置10 ;用于將語音識(shí)別的文本與存儲(chǔ)的映射表子集進(jìn)行匹配的第一匹配裝置12和用于根據(jù)匹配結(jié)果判斷是在用戶終端執(zhí)行與語音識(shí)別的文本匹配的瀏覽器命令還是將該語音識(shí)別的文本發(fā)送給服務(wù)器的第一判斷裝置14。此外,用戶終端I還包括輸入輸出裝置、通信裝置、存儲(chǔ)裝置等,出于清楚的目的,在此并未示出。所述服務(wù)器2包括用于將接收到的語音識(shí)別的文本與存儲(chǔ)的映射表進(jìn)行匹配的第二匹配裝置22 ;用于根據(jù)匹配結(jié)果判斷是否對(duì)語音識(shí)別的文本執(zhí)行語義識(shí)別的第二判斷裝置24,如果完全匹配,則第二判斷裝置24根據(jù)映射表查找出對(duì)應(yīng)命令并發(fā)送至用戶終端,否則判斷執(zhí)行語義識(shí)別;和用于對(duì)語音識(shí)別的文本執(zhí)行語義識(shí)別的語義識(shí)別裝置20。服務(wù)器還包括通信裝置以及存儲(chǔ)有詞庫(kù),語料庫(kù),網(wǎng)址庫(kù)、參數(shù)庫(kù)、關(guān)系庫(kù)、互動(dòng)操作數(shù)據(jù)庫(kù)等數(shù)據(jù)庫(kù)的存儲(chǔ)裝置(未示出)。其中,所述用戶終端I包括但不限于有線和無線通信裝置,例如移動(dòng)電話,PDA (個(gè)人數(shù)字助理),計(jì)算機(jī)等。對(duì)于本領(lǐng)域的技術(shù)人員很明顯地,第一匹配裝置20與第一判斷裝置14,第二匹配裝置22與第二判斷裝置24為可選裝置。圖2是瀏覽器語音命令識(shí)別系統(tǒng)的語義識(shí)別裝置的示意圖。語義識(shí)別裝置20將文本轉(zhuǎn)換成瀏覽器能夠理解的具體命令。語義識(shí)別裝置20包括數(shù)據(jù)預(yù)處理單元201,分 詞單元202,詞性標(biāo)注單元203,分析單元204,抽取單元205以及轉(zhuǎn)換單元206。下面將結(jié)合圖2-5具體描述瀏覽器語音命令識(shí)別系統(tǒng)如何識(shí)別用戶輸入的瀏覽器語首命令。首先參考圖4,瀏覽器語音命令識(shí)別系統(tǒng)的識(shí)別過程包括語音識(shí)別和語義識(shí)別兩個(gè)階段。在接收到用戶的瀏覽器語音命令之后,語音識(shí)別階段完成從語音到文本的轉(zhuǎn)換過程,語義識(shí)別階段將文本轉(zhuǎn)換成瀏覽器能夠理解的具體命令。語義識(shí)別過程中將用戶終端用作本地緩存,如果匹配成功則直接在用戶終端執(zhí)行,否則由服務(wù)器執(zhí)行語義分析過程。從而加快響應(yīng)速度,縮減了用戶的流量消耗??梢岳斫?,語音識(shí)別階段可以在用戶終端執(zhí)行,也可以在服務(wù)器端執(zhí)行。具體地,在步驟S401,用戶終端I接收用戶輸入的瀏覽器語音命令。在步驟S402,語音識(shí)別裝置10將用戶輸入的瀏覽器語音命令進(jìn)行特征提取并與模型庫(kù)進(jìn)行匹配,以轉(zhuǎn)換為文本。所采用的識(shí)別技術(shù)為已知技術(shù),在此不予贅述。在步驟S403,第一匹配裝置12將轉(zhuǎn)換的文本與從文本到瀏覽器命令的映射表子集做完全匹配。映射表子集為從文本到瀏覽器命令映射表的一個(gè)子集,其中瀏覽器命令包括添加,打開書簽等。在S404,第一判斷裝置14在匹配成功時(shí),將與文本對(duì)應(yīng)的命令交由客戶端的瀏覽器直接執(zhí)行(S408),在匹配不成功時(shí),將文本發(fā)送給服務(wù)器2做處理。在步驟S405,服務(wù)器2的第二匹配裝置22先將語音識(shí)別的文本與映射表進(jìn)行完全匹配,映射表為從文本到瀏覽器命令的映射,瀏覽器命令包括,例如,刷新頁(yè)面,前進(jìn),后退,查詢歷史,打開書簽等。在步驟S406,第二判斷裝置24在匹配成功時(shí),將與文本對(duì)應(yīng)的命令發(fā)送給客戶端的瀏覽器執(zhí)行,在匹配不成功時(shí),將文本傳送給語義識(shí)別裝置20。在步驟S407,該語義識(shí)別裝置20對(duì)文本執(zhí)行語義識(shí)別,根據(jù)語義識(shí)別結(jié)果與數(shù)據(jù)庫(kù)進(jìn)行匹配。之后,服務(wù)器2將匹配得到的命令發(fā)送到客戶端瀏覽器執(zhí)行。下面將結(jié)合圖5具體描述語義識(shí)別裝置20如何執(zhí)行語義識(shí)別的過程。雖然本發(fā)明示出可以對(duì)中文與英文執(zhí)行語義識(shí)別,但是對(duì)于本領(lǐng)域技術(shù)人員可以理解的是,本發(fā)明不僅對(duì)中文與英文進(jìn)行語義識(shí)別,還能對(duì)其它的語言進(jìn)行語義識(shí)別。首先,在步驟S501,數(shù)據(jù)預(yù)處理單元利用同音詞庫(kù)201對(duì)語音識(shí)別的文本做數(shù)據(jù)清理和糾錯(cuò)。其原因如下1.由于語言本身、說話人口音、背景噪音等干擾,語音識(shí)別的準(zhǔn)確率不可能達(dá)到100%,有可以糾錯(cuò)的空間。2.從語音轉(zhuǎn)換過來的文本由于受到各種因素的影響,比如說話的語氣,一些無意義的感嘆等,并不能在語法上保證是一個(gè)標(biāo)準(zhǔn)規(guī)范的語句,由此在保證不損傷現(xiàn)有數(shù)據(jù)的情況下,需要對(duì)文本預(yù)處理,一方面去除語氣助詞等與識(shí)別文本不相關(guān)的詞語的影響,另一方面通過同音詞的統(tǒng)計(jì)學(xué)模糊匹配來糾正文本中的一些數(shù)據(jù),提高置信度。接著在步驟S502,分詞單元202對(duì)預(yù)處理的文本做分詞。對(duì)文本做語義識(shí)別所依賴的最小語言單位是詞而不是單字。分詞的準(zhǔn)確率取決于兩方面算法與詞庫(kù)。本發(fā)明采用的詞庫(kù)包括所有瀏覽器支持的命令,從而提高對(duì)瀏覽器命令的分詞準(zhǔn)確率。不同的語言由于構(gòu)成不同需要采用不同的分詞技術(shù)。比如,英文是以詞為單位的,詞和詞之間靠空格隔開,而中文是以字為單位,相鄰的字連接起來構(gòu)成一個(gè)詞,沒有顯示的分割符。因此本發(fā)明的分詞單元202采用的是簡(jiǎn)單的正則分詞與基于詞典的分詞算法 MMSEG(A Word Identification System for Mandarin Chinese Text Based on TwoVariants of the Maximum Matching Algorithm)算法,從而實(shí)現(xiàn)對(duì)英文,中文的分詞。在步驟S503,詞性標(biāo)注單元203對(duì)分詞結(jié)果進(jìn)行詞性標(biāo)注。同一個(gè)詞在不同的語境下(即語句的前后文)可能會(huì)有不同的詞性。詞性標(biāo)注的過程是一個(gè)對(duì)大量的語料進(jìn)行統(tǒng)計(jì)學(xué)和訓(xùn)練的過程。本發(fā)明采用的語料庫(kù)收集有大量測(cè)試用戶使用瀏覽器命令的數(shù)據(jù),然后對(duì)瀏覽器相關(guān)命令在標(biāo)注上做訓(xùn)練。詞性標(biāo)注單元203采用多個(gè)標(biāo)注器進(jìn)行N元(N-gram)鏈?zhǔn)綐?biāo)注法。標(biāo)注器(tagger)的順序設(shè)定如圖3所示。其中特殊標(biāo)注器人工可調(diào),用于糾正詞性標(biāo)注的錯(cuò)誤或者強(qiáng)行指定詞性。默認(rèn)標(biāo)注器將所有未成功標(biāo)注的詞打上特殊的記號(hào),記入服務(wù)器日志供事后分析和處理。在步驟S504,分析單元204對(duì)標(biāo)注過的詞做解析(parsing)和分組處理(chunking)。步驟S501-S503完成了細(xì)粒度的詞的信息處理,分析單元204進(jìn)行語言結(jié)構(gòu)層次上的解析和分組,也就是在句法層面上對(duì)文本做分析和歧義消除。分析單元204采用算法是Earley Chart解析。本發(fā)明的瀏覽器語音命令識(shí)別系統(tǒng)針對(duì)不同語言的瀏覽器命令,分別定義一系列可動(dòng)態(tài)調(diào)整的規(guī)則進(jìn)行解析,例如,上下文無關(guān)語法(context freegrammar)。利用規(guī)則分析得到的最終結(jié)果是一個(gè)句法解析樹。在步驟S505,抽取單元205對(duì)句法解析樹做實(shí)體抽取。抽取單元205所抽取的實(shí)體都是瀏覽器語音命令需要關(guān)注的對(duì)象。實(shí)體抽取鏈?zhǔn)竭M(jìn)行,即,將與瀏覽器語音命令對(duì)應(yīng)的文本按照優(yōu)先級(jí)順序依次做實(shí)體抽取,其中,抽取單元205利用關(guān)鍵字庫(kù)對(duì)與瀏覽器語音命令對(duì)應(yīng)的文本執(zhí)行關(guān)鍵字提取,如果沒有匹配的關(guān)鍵字,則抽取出相應(yīng)的動(dòng)作(action)和參數(shù)(arguments),一旦抽取成功則返回結(jié)果,如果到最后都無法完成實(shí)體抽取,則以該文本為搜索的參數(shù),對(duì)整個(gè)文本執(zhí)行搜索命令。例如,用戶的語音輸入對(duì)應(yīng)的文本為“蝴蝶”,關(guān)鍵字庫(kù)沒有與之匹配的關(guān)鍵字,則用戶的瀏覽器自動(dòng)打開百度并且搜索"蝴蝶"的結(jié)果頁(yè)面。至于是用百度、谷歌還是別的搜索引擎,取決于用戶瀏覽器的設(shè)置。其中該關(guān)鍵字庫(kù)包括了社交網(wǎng)站(facebook,人人等)、電子商務(wù)網(wǎng)站(amazon,淘寶等)和服務(wù)器通過后臺(tái)數(shù)據(jù)分析得到的用戶上網(wǎng)常用的搜索詞(比如“看電影”,“小說”等)。關(guān)鍵字庫(kù)也可以是收錄了網(wǎng)絡(luò)上搜索最多的詞的數(shù)據(jù)庫(kù)。 最后,在步驟S506,轉(zhuǎn)換單元206利用網(wǎng)址庫(kù)與參數(shù)庫(kù)對(duì)抽取后的實(shí)體做轉(zhuǎn)換。抽取得到的實(shí)體依然是比較抽象的,例如,“新浪首頁(yè)”,只有經(jīng)過一定的轉(zhuǎn)換才能將實(shí)體轉(zhuǎn)變成具體的、可直接被瀏覽器識(shí)別的對(duì)象(比如“http://www. sina. com. cn”)。如果抽取單元205提取出關(guān)鍵詞,則轉(zhuǎn)換單元206通過查找關(guān)系庫(kù)分析出哪些實(shí)體作為所述關(guān)鍵詞的上下文,最后利用關(guān)鍵詞以及其上下文查找網(wǎng)址庫(kù),獲取用戶需要瀏覽的網(wǎng)頁(yè)信息。其中關(guān)系庫(kù)包括關(guān)鍵字與其上下文的嵌套或漸進(jìn)關(guān)系等關(guān)系。網(wǎng)址庫(kù)收錄了海量的網(wǎng)址。圖Ib是根據(jù)本發(fā)明第二實(shí)施例的瀏覽器語音命令識(shí)別系統(tǒng)。相比于第一實(shí)施例的瀏覽器語音命令識(shí)別系統(tǒng),不同于圖Ia在用戶終端執(zhí)行語音識(shí)別,該示例的瀏覽器語音命令識(shí)別系統(tǒng)在服務(wù)器端執(zhí)行語音識(shí)別。將省略圖Ib中與圖Ia中對(duì)相同的組成部分的描述,以避免使本發(fā)明不清楚。服務(wù)器2的語音識(shí)別裝置10利用模型庫(kù)將用戶輸入的語音識(shí)別為文本并通過通信裝置發(fā)送至用戶終端I。用戶終端I的第一匹配裝置12將語音識(shí)別的 文本與存儲(chǔ)的映射表子集進(jìn)行匹配。第一判斷裝置14判斷出結(jié)果完全匹配時(shí),用戶終端I執(zhí)行與語音識(shí)別的文本對(duì)應(yīng)的瀏覽器命令。第一判斷裝置14判斷出結(jié)果不匹配時(shí),用戶終端I將該語音識(shí)別的文本發(fā)送給服務(wù)器。第二匹配裝置22將接收到的語音識(shí)別的文本與存儲(chǔ)的映射表進(jìn)行匹配。如果完全匹配,則第二判斷裝置24根據(jù)映射表查找出對(duì)應(yīng)命令并發(fā)送至用戶終端,否則判斷執(zhí)行語義識(shí)別。語義識(shí)別裝置20對(duì)語音識(shí)別的文本執(zhí)行語義識(shí)另IJ。其過程與上述描述相同,在此不予重復(fù)敘述。可選地,服務(wù)器2的語音識(shí)別裝置10利用模型庫(kù)將用戶輸入的語音識(shí)別為文本后傳送至第二匹配裝置22執(zhí)行處理。圖7是基于關(guān)鍵字的瀏覽器語音命令的一個(gè)示例。用戶通過瀏覽器語音搜尋信息時(shí)會(huì)說出一系列的關(guān)鍵字,這些關(guān)鍵字在上下文中通常有著比較明確的嵌套或漸進(jìn)關(guān)系,本發(fā)明的服務(wù)器會(huì)在這種情況下,對(duì)這樣的一個(gè)上下文中的關(guān)鍵字做識(shí)別和匹配。當(dāng)用戶說出“Facebook John Doe graduated from Harvard”時(shí),服務(wù)器的語義識(shí)別裝置20識(shí)別出這些關(guān)鍵字和上下文信息“FaCeb00k”(關(guān)鍵字),“ John Doe”(上下文)和“Harvard”(上下文),并且根據(jù)關(guān)鍵字與其上下文關(guān)系通過查找關(guān)系庫(kù)可以判別出用戶想瀏覽John Doe這個(gè)人的Facebook主頁(yè),并且John Doe曾經(jīng)是Harvard大學(xué)的學(xué)生。在此基礎(chǔ)上,瀏覽器會(huì)直接打開這個(gè)人的主頁(yè) URL http: //www. facebook. com/paRes/JohnDoeHarvard。圖6是根據(jù)本發(fā)明第三實(shí)施例的瀏覽器語音命令識(shí)別系統(tǒng)。相比于第二實(shí)施例的瀏覽器語音命令識(shí)別系統(tǒng),不同之處在于圖6所示瀏覽器語音命令識(shí)別系統(tǒng)中的用戶終端還包括上下文獲取裝置16以及命令執(zhí)行接口 18,服務(wù)器還包括命令注入裝置26。將省略圖6中與圖Ib中對(duì)相同的組成部分的描述,以避免使本發(fā)明不清楚。用戶通過瀏覽器訪問網(wǎng)頁(yè)時(shí)經(jīng)常需要和網(wǎng)頁(yè)內(nèi)容進(jìn)行互動(dòng),通常這種互動(dòng)在PC上多是以鼠標(biāo)點(diǎn)擊的觸發(fā)方式進(jìn)行,根據(jù)本發(fā)明第三實(shí)施例的瀏覽器語音命令識(shí)別系統(tǒng)實(shí)現(xiàn)了語音互動(dòng)操作,用戶無需點(diǎn)擊鼠標(biāo)即可瀏覽所需網(wǎng)頁(yè)。其中,用戶終端I的上下文獲取裝置16獲取上下文信息通過通信裝置19發(fā)送到服務(wù)器2??蛇x地,上下文信息可以包括用戶當(dāng)前瀏覽網(wǎng)頁(yè)信息或者用戶說話的分貝數(shù)。服務(wù)器2的語義識(shí)別裝置20利用接收到的上下文信息基于互動(dòng)操作數(shù)據(jù)庫(kù)匹配表對(duì)文本執(zhí)行語義識(shí)別,將實(shí)體抽取獲得的命令通過查找互動(dòng)數(shù)據(jù)庫(kù)匹配表得到JavaScript內(nèi)容,從而命令注入裝置26將語音命令的內(nèi)容以動(dòng)態(tài)JavaScript腳本的方式從服務(wù)器端返回并注入在當(dāng)前用戶瀏覽的網(wǎng)頁(yè)中執(zhí)行,以達(dá)到觸發(fā)的效果,用戶終端的命令執(zhí)行接口 18在當(dāng)前網(wǎng)頁(yè)上自動(dòng)執(zhí)行所述腳本,從而實(shí)現(xiàn)了用戶無需點(diǎn)擊鼠標(biāo)即可打開所需網(wǎng)頁(yè)瀏覽。參考圖8a,用戶在瀏覽淘寶某商品網(wǎng)頁(yè)時(shí)說“我要買”。該語音通過上瀏覽器語音命令識(shí)別系統(tǒng)語義處理后會(huì)轉(zhuǎn)換為成“購(gòu)買”指令,之后該指令通過在數(shù)據(jù)庫(kù)的上下文匹配后,得到圖8b所示的JavaScript腳本內(nèi)容,服務(wù)器2將所述腳本內(nèi)容從服務(wù)器端返回并注入在當(dāng)前用戶瀏覽的網(wǎng)頁(yè)中,用戶終端則通過瀏覽器提供的腳本執(zhí)行接口直接在商品網(wǎng)頁(yè)上執(zhí)行,打開購(gòu)買鏈接,效果和用戶點(diǎn)擊“立即購(gòu)買”按鈕的效果一樣。圖Sb可以包括用戶說話的分貝數(shù)作為上下文,從而服務(wù)器可以依據(jù)上下文中不同的分貝數(shù)匹配不同的JavaScript腳本返回給用戶終端。要理解,圖6所示框圖只是示例性的瀏覽器語音命令識(shí)別系統(tǒng)。在本發(fā)明中,上下文獲取裝置16、命令執(zhí)行接口 18以及命令注入裝置26可以是可選裝置。圖9是識(shí)別瀏覽器語音命令的一個(gè)示例,以用戶在淘寶移動(dòng)版首頁(yè)啟動(dòng)語音命令說“嗯,買一件羽絨服吧”為例子,描述了瀏覽器語音命令識(shí)別系統(tǒng)執(zhí)行語音命令識(shí)別的過 程。通過本發(fā)明的瀏覽器語音命令識(shí)別系統(tǒng)與方法,實(shí)現(xiàn)了智能語音網(wǎng)頁(yè)瀏覽,從而用戶僅需通過語音即可對(duì)需要瀏覽的網(wǎng)頁(yè)進(jìn)行控制,而無需使用鼠標(biāo),鍵盤之類的輔助設(shè)備,增強(qiáng)了用戶與用戶終端的交互性。應(yīng)該指出,本發(fā)明不局限于上面所描述的實(shí)施例,還可以擴(kuò)展到其它技術(shù)領(lǐng)域,涉及語音信號(hào)處理的領(lǐng)域均可考慮本發(fā)明,或者可以將本發(fā)明的技術(shù)方案應(yīng)用到其它相關(guān)產(chǎn)品或者方法。雖然已經(jīng)結(jié)合優(yōu)選實(shí)施例對(duì)本發(fā)明進(jìn)行了描述。但是這樣的描述僅出于說明的目的,應(yīng)該理解,本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的精神和范圍的情況下可以進(jìn)行其它的修改、替換和變化。
權(quán)利要求
1.一種用于識(shí)別瀏覽器語音命令的服務(wù)器,包括通信裝置,用于接收用戶終端發(fā)送的瀏覽器語音命令;語音識(shí)別裝置,用于將所述瀏覽器語音命令語音識(shí)別為文本;和語義識(shí)別裝置,用于對(duì)所述語音識(shí)別的文本進(jìn)行語義識(shí)別,以轉(zhuǎn)換為瀏覽器命令。
2.如權(quán)利要求I所述的用于識(shí)別瀏覽器語音命令的服務(wù)器,其中所述服務(wù)器還包括命令注入裝置,用于將轉(zhuǎn)換的瀏覽器命令發(fā)送至所述用戶終端并注入在用戶當(dāng)前瀏覽的網(wǎng)頁(yè)。
3.如權(quán)利要求I或2所述的用于識(shí)別瀏覽器語音命令的服務(wù)器,其中通信裝置還接收用戶終端發(fā)送的上下文信息以提供給語義識(shí)別裝置。
4.如權(quán)利要求3所述的用于識(shí)別瀏覽器語音命令的服務(wù)器,其中上下文信息包括用戶瀏覽的當(dāng)前網(wǎng)頁(yè)或者用戶說話的分貝數(shù)。
5.如權(quán)利要求I至4之一所述的用于識(shí)別瀏覽器語音命令的服務(wù)器,其中所述服務(wù)器還包括匹配裝置,用于將接收到的所述語音識(shí)別的文本與映射表進(jìn)行匹配;和判斷裝置,用于根據(jù)匹配結(jié)果判斷是將與所述語音識(shí)別的文本對(duì)應(yīng)的瀏覽器命令發(fā)送給用戶終端還是對(duì)所述語音識(shí)別的文本執(zhí)行語義識(shí)別。
6.如權(quán)利要求I至5之一所述的用于識(shí)別瀏覽器語音命令的服務(wù)器,其中所述語義識(shí)別裝置包括數(shù)據(jù)預(yù)處理單元,用于對(duì)所述語音識(shí)別的文本進(jìn)行數(shù)據(jù)清理與糾錯(cuò);分詞單元,用于對(duì)預(yù)處理的文本進(jìn)行分詞;詞性標(biāo)注單元,用于對(duì)分詞的文本進(jìn)行詞性標(biāo)注;分析單元,用于對(duì)詞性標(biāo)注的詞進(jìn)行解析與分組;抽取單元,用于對(duì)分析的詞進(jìn)行實(shí)體抽??;和轉(zhuǎn)換單元,用于基于數(shù)據(jù)庫(kù)將抽取的實(shí)體轉(zhuǎn)換為瀏覽器命令。
7.如權(quán)利要求I至4之一所述的用于識(shí)別瀏覽器語音命令的服務(wù)器,其中所述語音識(shí)別裝置從識(shí)別的文本中獲取關(guān)鍵字,以及基于關(guān)系庫(kù)分析關(guān)鍵詞的上下文并利用關(guān)鍵詞以及其上下文查找數(shù)據(jù)庫(kù)以將識(shí)別的文本轉(zhuǎn)換為瀏覽器命令。
8.—種瀏覽器語音命令識(shí)別方法,包括通信步驟,接收用戶終端發(fā)送的瀏覽器語音命令;語音識(shí)別步驟,將所述瀏覽器語音命令語音識(shí)別為文本;和語義識(shí)別步驟,對(duì)所述語音識(shí)別的文本進(jìn)行語義識(shí)別,以轉(zhuǎn)換為瀏覽器命令。
9.如權(quán)利要求8所述的瀏覽器語音命令識(shí)別方法,還包括命令注入步驟,用于將轉(zhuǎn)換的瀏覽器命令發(fā)送至所述用戶終端并注入在用戶當(dāng)前瀏覽的網(wǎng)頁(yè)。
10.如權(quán)利要求8或9所述的瀏覽器語音命令識(shí)別方法,其中通信步驟還包括接收用戶終端發(fā)送的上下文信息的步驟;以及語義識(shí)別步驟還包括基于上下文信息對(duì)所述語音識(shí)別的文本進(jìn)行語義識(shí)別的步驟。
11.如權(quán)利要求10所述的瀏覽器語音命令識(shí)別方法,其中上下文信息包括用戶瀏覽的當(dāng)前網(wǎng)頁(yè)或者用戶說話的分貝數(shù)。
12.如權(quán)利要求8至11之一所述的瀏覽器語音命令識(shí)別方法,還包括匹配步驟,將接收到的所述語音識(shí)別的文本與映射表進(jìn)行匹配;和判斷步驟,根據(jù)匹配結(jié)果判斷是將與所述語音識(shí)別的文本對(duì)應(yīng)的瀏覽器命令發(fā)送給用戶終端還是對(duì)所述語音識(shí)別的文本執(zhí)行語義識(shí)別。
13.如權(quán)利要求8至12之一所述的瀏覽器語音命令識(shí)別方法,其中所述語義識(shí)別步驟包括數(shù)據(jù)預(yù)處理步驟,對(duì)所述語音識(shí)別的文本進(jìn)行數(shù)據(jù)清理與糾錯(cuò);分詞步驟,對(duì)預(yù)處理的文本進(jìn)行分詞;詞性標(biāo)注步驟,對(duì)分詞的文本進(jìn)行詞性標(biāo)注;分析步驟,對(duì)詞性標(biāo)注的詞進(jìn)行解析與分組;抽取步驟,對(duì)分析的詞進(jìn)行實(shí)體抽?。缓娃D(zhuǎn)換步驟,基于數(shù)據(jù)庫(kù)將抽取的實(shí)體轉(zhuǎn)換為瀏覽器命令。
14.如權(quán)利要求8至11之一所述的瀏覽器語音命令識(shí)別方法,其中語義識(shí)別步驟包括從識(shí)別的文本中獲取關(guān)鍵字,以及基于關(guān)系庫(kù)分析關(guān)鍵詞的上下文并利用關(guān)鍵詞以及其上下文查找數(shù)據(jù)庫(kù)以將識(shí)別的文本轉(zhuǎn)換為瀏覽器命令的步驟。
15.一種瀏覽器語音命令識(shí)別系統(tǒng),包括用戶終端以及與用戶終端通過網(wǎng)絡(luò)連接的服務(wù)器,其中所述用戶終端包括輸入裝置,用于接收用戶輸入的瀏覽器語音命令;語音識(shí)別裝置,用于將所述瀏覽器語音命令語音識(shí)別為文本;第一通信裝置,用于將語音識(shí)別的文本發(fā)送給所述服務(wù)器;所述服務(wù)器包括第二通信裝置,用于接收所述語音識(shí)別的文本;和語義識(shí)別裝置,用于對(duì)所述語音識(shí)別的文本進(jìn)行語義識(shí)別,以轉(zhuǎn)換為瀏覽器命令。
16.如權(quán)利要求15所述的瀏覽器語音命令識(shí)別系統(tǒng),其中所述用戶終端還包括上下文獲取裝置,用于獲取上下文信息發(fā)送給服務(wù)器。
17.如權(quán)利要求15或16所述的瀏覽器語音命令識(shí)別系統(tǒng),其中所述服務(wù)器還包括命令注入裝置,用于將轉(zhuǎn)換的瀏覽器命令發(fā)送至用戶終端并注入在所述用戶當(dāng)前瀏覽的網(wǎng)頁(yè);和所述用戶終端還包括命令執(zhí)行接口,在所述用戶當(dāng)前瀏覽的網(wǎng)頁(yè)上觸發(fā)執(zhí)行所述瀏覽器命令。
18.—種瀏覽器語音命令識(shí)別方法,包括輸入步驟,用戶終端接收用戶輸入的瀏覽器語音命令;語音識(shí)別步驟,用戶終端將所述瀏覽器語音命令語音識(shí)別為文本;第一通信步驟,用戶終端將語音識(shí)別的文本發(fā)送給所述服務(wù)器;第二通信步驟,服務(wù)器接收所述語音識(shí)別的文本;和語義識(shí)別步驟,服務(wù)器對(duì)所述語音識(shí)別的文本進(jìn)行語義識(shí)別,以轉(zhuǎn)換為瀏覽器命令。
19.如權(quán)利要求18所述的瀏覽器語音命令識(shí)別方法,其中還包括上下文獲取步驟,獲取上下文信息作為上下文發(fā)送給服務(wù)器。
20.如權(quán)利要求18或19所述的瀏覽器語音命令識(shí)別方法,還包括命令注入步驟,將轉(zhuǎn)換的瀏覽器命令發(fā)送至用戶終端并注入在所述用戶當(dāng)前瀏覽的網(wǎng)頁(yè);和命令執(zhí)行步驟,在所述用戶當(dāng)前瀏覽的網(wǎng)頁(yè)上觸發(fā)執(zhí)行所述瀏覽器命令。
全文摘要
本發(fā)明提出一種用于識(shí)別瀏覽器語音命令的服務(wù)器以及一種瀏覽器語音命令識(shí)別系統(tǒng),實(shí)現(xiàn)了用戶通過語音對(duì)用戶終端瀏覽的網(wǎng)頁(yè)進(jìn)行語音控制,通過語音就可以直接打開網(wǎng)頁(yè)瀏覽,獲取搜索結(jié)果。所述服務(wù)器包括通信裝置,用于接收用戶終端發(fā)送的瀏覽器語音命令;語音識(shí)別裝置,用于將所述瀏覽器語音命令語音識(shí)別為文本;和語義識(shí)別裝置,用于對(duì)所述語音識(shí)別的文本進(jìn)行語義識(shí)別,以轉(zhuǎn)換為瀏覽器命令。本發(fā)明還提出一種瀏覽器語音命令識(shí)別方法。
文檔編號(hào)G06F17/30GK102629246SQ20121002979
公開日2012年8月8日 申請(qǐng)日期2012年2月10日 優(yōu)先權(quán)日2012年2月10日
發(fā)明者劉鐵鋒, 喻儼, 楊永智, 王瑜 申請(qǐng)人:北京百納信息技術(shù)有限公司