手勢到漢藏雙語語音轉(zhuǎn)換方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及人機(jī)交互技術(shù)領(lǐng)域,尤其設(shè)及手勢到漢藏雙語語音轉(zhuǎn)換方法及裝置。
【背景技術(shù)】
[0002] 近年來,基于視覺的手勢識別技術(shù)和多語種語音合成技術(shù)成為了人機(jī)交互領(lǐng)域的 研究重點(diǎn)和人工智能發(fā)展的熱點(diǎn)。將該兩種技術(shù)相結(jié)合就能夠在同一個(gè)系統(tǒng)中實(shí)現(xiàn)手勢到 多語種語音的轉(zhuǎn)換,該對于我國存在著數(shù)量眾多的言語障礙者具有重要的應(yīng)用價(jià)值。聾啞 人作為社會的弱勢群體,在生活、學(xué)習(xí)、娛樂方面由于受到溝通語言的限制,可使用的資源 非常少,該就使得該系統(tǒng)的研究有了重要的意義,例如在主要說普通話、藏語和方言的聾啞 人中,如果能有一個(gè)轉(zhuǎn)換系統(tǒng)實(shí)現(xiàn)手勢到跨語言的多語種語音合成的轉(zhuǎn)換,將對促進(jìn)健全 人與聾啞人的正常交流具有重要的作用和廣闊的應(yīng)用前景。
[0003] 在國內(nèi)外有運(yùn)用嵌入式便攜手語識別手套的設(shè)計(jì)和一種手語語音互譯系統(tǒng)及手 語語音互譯方法來實(shí)現(xiàn)手勢到語音的翻譯系統(tǒng)。嵌入式便攜手語識別手套的設(shè)計(jì)的基本原 理是利用裝載在手套上的14組=軸加速度傳感器一共42通道加速度傳感量,運(yùn)用串口 W 及藍(lán)牙方式傳輸?shù)角度胧较到y(tǒng)上,通過對該42組變量的實(shí)時(shí)采集及時(shí)域分析,獲取有效參 數(shù),通過對有效參數(shù)的識別,實(shí)現(xiàn)手勢向語義的轉(zhuǎn)換,最后通過語義轉(zhuǎn)化為語音,實(shí)時(shí)播放, 實(shí)現(xiàn)手勢到語音的實(shí)時(shí)轉(zhuǎn)換。優(yōu)點(diǎn)是該系統(tǒng)采用便攜式設(shè)備,保證系統(tǒng)可W為用戶隨時(shí)隨 地的提供服務(wù)。缺點(diǎn)是操作者要穿戴復(fù)雜的數(shù)據(jù)手套和位置跟蹤器,給操作者帶來很大不 便,而且,輸入設(shè)備比較昂貴,需要花費(fèi)的成本高,難W將W上的系統(tǒng)在實(shí)際生活中得到推 廣和應(yīng)用。一種手語語音互譯系統(tǒng)及手語語音互譯方法的基本思想是對采集手勢的視頻數(shù) 據(jù)進(jìn)行平滑預(yù)處理和自適應(yīng)闊值的二值化預(yù)處理,然后將經(jīng)圖像預(yù)處理后的視頻數(shù)據(jù)進(jìn)行 圖像特征提取后輸出56維特征向量構(gòu)建手語模型,輸出識別結(jié)果,最后識別結(jié)果經(jīng)中文發(fā) 聲模塊轉(zhuǎn)化為中文語音;聲音信號采集裝置采集的聲音信號輸入語音識別編程接口轉(zhuǎn)換為 文字輸出,通過=維建模軟件建立=維模型和=維動(dòng)畫,最后輸出手語動(dòng)畫。該種方法能夠 實(shí)現(xiàn)手語語音的互譯,使用方便,采用的設(shè)備經(jīng)濟(jì)便宜,直接由中文發(fā)聲模塊就可轉(zhuǎn)化為中 文語音。但并沒有考慮到對方言、民族語言、W及語音資源不易獲取的語言的短缺W及強(qiáng)光 和弱光環(huán)境下的手勢識別情況,在實(shí)際應(yīng)用中往往伴隨光線的變化問題,旋轉(zhuǎn)及復(fù)雜背景 下的識別問題,該些使得該系統(tǒng)只能在特定的場景下進(jìn)行。
[0004] 由于基于深度圖像技術(shù)的手勢識別方法可避免物體自身的顏色、紋理特征W及背 景環(huán)境光線強(qiáng)弱的影響,受到了越來越多的關(guān)注;此外,基于HMM的統(tǒng)計(jì)參數(shù)語音合成方法 可通過說話人自適應(yīng)變換合成不同說話人的語音,成為了跨語言的多語種語音合成中的研 究熱點(diǎn)。然而,現(xiàn)有的研究大都只是單純地針對手勢識別或是具有大語料庫并且語音合成 技術(shù)相對成熟的語言展開研究,并沒有考慮到將該兩種技術(shù)相結(jié)合在同一系統(tǒng)中實(shí)現(xiàn)手勢 到語音的轉(zhuǎn)換,W及在方言、民族語言、W及語音資源不易獲取的語言的匿乏情況,缺少對 手勢到漢藏雙語語音轉(zhuǎn)換的研究。目前國內(nèi)外的研究中,并沒有實(shí)現(xiàn)手勢到普通話/少數(shù) 民族語言或者普通話/方言的多語種的轉(zhuǎn)換系統(tǒng)。
[0005] 因此,本領(lǐng)域的技術(shù)人員致力于開發(fā)一種新型的面向語言障礙者的手勢到漢藏雙 語語音轉(zhuǎn)換的實(shí)現(xiàn)方法和裝置。
【發(fā)明內(nèi)容】
[0006] 有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明要解決【背景技術(shù)】中提出的缺少對手勢到多語 種語音轉(zhuǎn)換的研究,例如藏語,不能實(shí)現(xiàn)手勢到普通話/藏語的轉(zhuǎn)換,提供一種面向語言障 礙者的手勢到漢藏雙語語音轉(zhuǎn)換的實(shí)現(xiàn)方法和裝置。
[0007] 為解決上述技術(shù)問題,本發(fā)明提供了一種手勢到漢藏雙語語音轉(zhuǎn)換方法,包括步 驟:
[000引 A、獲取深度圖像,并基于深度圖像進(jìn)行手勢分割;基于深度圖像的手勢分割主要 取決于手和攝像頭之間的距離,在通過Kinect傳感器獲得深度圖像后,圖像可劃分為手像 素區(qū)域和背景像素區(qū)域,進(jìn)行二值化處理后,就能將手勢形狀分割出來用于進(jìn)行特征提取 和匹配;
[0009] B、利用改進(jìn)的SURF算法對分割出的手勢圖像進(jìn)行快速魯椿特征的匹配,得出手 勢的匹配結(jié)果;
[0010] C、根據(jù)啞語的手勢含義,對各個(gè)靜態(tài)手勢,設(shè)計(jì)了一個(gè)手勢的語義詞典,然后供語 音合成系統(tǒng)根據(jù)識別出的手勢合成出相應(yīng)的語音;
[0011] D、利用漢藏多說話人的語音數(shù)據(jù),基于HMM模型,通過說話人自適應(yīng)訓(xùn)練,訓(xùn)練得 到混合語言平均音模型;
[0012] E、用待合成目標(biāo)語言藏語或漢語語音少量說話人的語料,通過說話人自適應(yīng)變 換,得到說話人自適應(yīng)模型,并對自適應(yīng)模型進(jìn)行修正和更新;
[0013] F、利用基于HMM的漢藏雙語語音合成系統(tǒng)合成藏語或漢語語音。
[0014] 進(jìn)一步,所述步驟A中所述基于深度圖像的手勢分割包括如下步驟:
[0015] 首先由用戶輸入手勢,通過Kinect攝像頭獲得640X480像素的場景深度圖像,圖 像劃分為手像素區(qū)域和背景像素區(qū)域,然后根據(jù)深度圖像成像原理,將場景深度信息值轉(zhuǎn) 換到灰度值空間,計(jì)算出灰度直方圖,再進(jìn)行二值化處理后,就能將手勢形狀分割出來用于 進(jìn)行特征提取。
[0016] 進(jìn)一步,所述步驟B中的SURF算法包括如下步驟:
[0017] 首先對實(shí)時(shí)圖像與模板圖像的積分圖進(jìn)行計(jì)算分析,然后提取兩者的SURF關(guān)鍵 點(diǎn)描述符,通過采用最近鄰匹配算法對SURF算法自有的快速索引匹配的結(jié)果進(jìn)行優(yōu)化,最 后比較實(shí)時(shí)圖像與不同模板圖像的關(guān)鍵點(diǎn)匹配對數(shù),對數(shù)最多的那一組即為匹配的結(jié)果。
[0018] 進(jìn)一步,所述步驟C中的手勢的語義詞典的獲取包括如下步驟:
[0019] 為了獲得手勢的語義,根據(jù)啞語的手勢含義,對各個(gè)靜態(tài)手勢,設(shè)計(jì)了一個(gè)手勢的 語義詞典。首先將手勢的語義用漢藏雙語進(jìn)行表達(dá),然后利用一個(gè)漢藏雙語的文本分析程 序,獲得手勢的語義表達(dá)的聲韻母、音節(jié)、詞、韻律詞和韻律短語、語句的上下文相關(guān)信息。
[0020] 然后利用該些上下文信息產(chǎn)生語義的上下文相關(guān)標(biāo)注,產(chǎn)生的上下文相關(guān)標(biāo)注連 同手勢及其語義定義保存到一個(gè)手勢的語義詞典中,供語音合成系統(tǒng)根據(jù)識別出的手勢合 成出相應(yīng)的語音。
[0021] 其中,設(shè)計(jì)漢語和藏語通用的標(biāo)音系統(tǒng)和問題集包括如下步驟:
[0022] 首先,根據(jù)普通話和藏語拉薩方言在發(fā)音上的異同,選取普通話和藏語的所有聲 韻母W及靜音和停頓作為上下文相關(guān)的MSD-HSMMs的合成基元,設(shè)計(jì)了一套普通話和藏語 拉薩方言通用的上下文標(biāo)注格式,用來標(biāo)注合成基元的讀音、聲調(diào)、韻律結(jié)構(gòu)、位置等上下 文相關(guān)的信息。上下文相關(guān)的標(biāo)注格式分為6層,描述如下:
[0023] 1)聲韻母層;(前前、之前、當(dāng)前、之后、后后)聲韻母的信息;當(dāng)前聲韻母在當(dāng)前 音節(jié)中的位置信息。
[0024] 2)音節(jié)層;(之前、當(dāng)前、之后)音節(jié)的(聲母、韻母、聲調(diào)、聲韻母個(gè)數(shù))的信息; 當(dāng)前音節(jié)在當(dāng)前(詞、韻律詞、短語)中的位置信息。
[0025] 3)詞層:(之前、當(dāng)前、之后)詞的(位置、音節(jié)數(shù))信息;當(dāng)前詞在當(dāng)前(韻律詞、 短語)中的位置信息。
[0026] 4)韻律詞層;(之前,當(dāng)前、之后)韻律詞的(音節(jié)數(shù)、詞數(shù))信息;在當(dāng)前短語中 當(dāng)前韻律詞的位置信息。
[0027] 5)短語層:當(dāng)前短語的語調(diào)信息;(之前、當(dāng)前、之后)短語中(音節(jié)數(shù)、詞數(shù)、韻律 詞數(shù))的信息。
[002引 6)語句層;語句是否為疑問句,語句中(音節(jié)數(shù)、詞數(shù)、韻律詞數(shù)、短語數(shù))的信 息。
[0029] 然后,通過增加語言相關(guān)的問題,擴(kuò)充一個(gè)已經(jīng)設(shè)計(jì)好的普通話上下文相關(guān)問題 集,設(shè)計(jì)了一個(gè)面向HMM語音合成的漢藏雙語通用的問題集。在模型的訓(xùn)練階段,該問題集 用于根據(jù)上下文相關(guān)的標(biāo)注,建立上下文相關(guān)的模型的決策樹。在語音合成階段,該問題集 用于利用輸入的上下文相關(guān)的標(biāo)注,獲得各個(gè)基元的模型狀態(tài),并將基元的模型拼接得到 語句的模型,然后利用語音參數(shù)生成算法,合成出語音。該問題集中擴(kuò)充了藏語特有的合成 基元的相關(guān)問題,W反映藏語的特殊發(fā)音。問題集包含3000多個(gè)上下文相關(guān)的問題,覆蓋 了上下文相關(guān)標(biāo)注的所有特征。
[0030] 進(jìn)一步,所述步D中的通過說話人自適應(yīng)訓(xùn)練,訓(xùn)練得到混合語言平均音模型包 括如下步驟:
[0031] a、對多說話人的漢語語料庫和單說話人的藏語語料庫數(shù)據(jù)進(jìn)行語音分析,提取其 聲學(xué)參數(shù);基頻、時(shí)長和mel倒譜系數(shù),并計(jì)算基頻和mel倒譜系數(shù)的一階差分和二階差 分;
[0032] b、結(jié)合上下文屬性集,進(jìn)行HMM模型訓(xùn)練,訓(xùn)練頻譜和基頻參數(shù)的HMM模型W及狀 態(tài)時(shí)長參數(shù)的時(shí)長模型;
[0033] C、利用少量單說話人漢語語音庫和單說話人藏語語音庫