一種文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人臉動(dòng)畫領(lǐng)域,尤其涉及一種文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法及系 統(tǒng)。
【背景技術(shù)】
[0002] 可視語音合成技術(shù),旨在為輸入語音生成同步的唇形動(dòng)畫和表情動(dòng)畫,從而使應(yīng) 用具有更友好的交互體驗(yàn),具有重要的應(yīng)用前景和應(yīng)用價(jià)值,互聯(lián)網(wǎng)尤其是移動(dòng)互聯(lián)網(wǎng)的 發(fā)展和普及,為可視語音合成提供了更為廣闊的應(yīng)用空間,在面向互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的 交互式社交應(yīng)用開發(fā)中,可視語音合成具有重要的應(yīng)用價(jià)值:可用于開發(fā)游戲中的虛擬說 話角色,使得角色的唇形和表情更加真實(shí)自然;可用于開發(fā)在線虛擬聊天室,使用戶能夠通 過虛擬化身進(jìn)行網(wǎng)絡(luò)社交;還可用于開發(fā)虛擬解說員,用于提升導(dǎo)航系統(tǒng)和電子書閱讀器 等應(yīng)用的交互體驗(yàn),但是,以上這些交互性和面向互聯(lián)網(wǎng)的特性,也為可視語音合成提出了 新的挑戰(zhàn),一個(gè)重要的性能方面的考量是可視語音合成的時(shí)效性,為了使得系統(tǒng)具有較好 的使用體驗(yàn),用戶等待動(dòng)畫合成結(jié)果輸出的時(shí)間應(yīng)控制在可接受的范圍之內(nèi),另一個(gè)值得 關(guān)注的點(diǎn)是可視語音合成的真實(shí)度,人眼對可視語音的感知十分靈敏,任何微小的偏差都 可能會(huì)給用戶帶來不自然的感覺,因此,在進(jìn)行可視語音合成時(shí),需要考慮這兩者之間的平 衡。
[0003] 基于負(fù)指數(shù)形式的控制函數(shù)(Dominance Function)插值的可視語音合成方法是 基于規(guī)則合成方法中的經(jīng)典方法,但是該訓(xùn)練方法采用的無約束優(yōu)化策略存在某些參數(shù)會(huì) 被優(yōu)化到與其物理含義沖突的區(qū)間以及某些音素會(huì)被過度優(yōu)化的情況,在實(shí)際觀察中發(fā) 現(xiàn),每個(gè)音素持續(xù)時(shí)間中點(diǎn)處對應(yīng)的唇形并不完全相同,甚至像雙唇塞音([P],[b],[m])這 樣發(fā)音時(shí)需要閉合雙唇且受周圍音影響較小的音,其音素持續(xù)時(shí)間中點(diǎn)處的唇形也并非總 是閉合的,如圖4所示(其中,"均值"圖顯示的全部實(shí)例的平均形狀,其它圖的為一些具體實(shí) 例的唇形??梢钥吹剑骄螤畹拇叫慰傮w是閉合的,說明大部分實(shí)例的持續(xù)時(shí)間中點(diǎn)處的 唇形是閉合的(如形狀6所示),這與音素[b]的唇形特性是一致的,但是也存在部分實(shí)例的 唇形完全沒有閉合甚至張開十分明顯,如形狀16/24/69所示)。
[0004] 發(fā)明專利"一種語音和文本聯(lián)合驅(qū)動(dòng)的卡通人臉動(dòng)畫生成方法"包括建立語音視 位映射庫、文本分析、語音切分及語音合并、視位參數(shù)拼接步驟;本發(fā)明的優(yōu)點(diǎn)在于:能夠自 定義音節(jié)一視位映射,從而實(shí)現(xiàn)各種具有夸張表情效果的唇型和臉形,最終合成卡通人臉 動(dòng)畫;不需要大規(guī)模數(shù)據(jù)庫進(jìn)行訓(xùn)練;能夠在文本的指導(dǎo)下,進(jìn)行語音切分,提取音節(jié)時(shí)長 信息,從而合成具有唇型和表情同步的人臉動(dòng)畫。但是該發(fā)明在視位拼接平滑的過程中采 用三階埃爾米特函數(shù)進(jìn)行處理的,而本發(fā)明的方法中控制函數(shù)采用自動(dòng)訓(xùn)練的方法,采用 AAM方法跟蹤訓(xùn)練數(shù)據(jù)的特征點(diǎn),從而計(jì)算出平滑函數(shù)的參數(shù),從而生成出較高真實(shí)度和實(shí) 時(shí)性的人臉動(dòng)畫。
【發(fā)明內(nèi)容】
[0005] 針對現(xiàn)有技術(shù)的不足,本發(fā)明提出一種文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法及系 統(tǒng)。
[0006] 本發(fā)明提出一種文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法,包括:
[0007] 步驟1,采集文本語音信息,所述文本語音信息包括語音信息與人臉圖像信息,對 所述文本語音信息進(jìn)行預(yù)處理操作,獲取所述語音信息中每個(gè)音素的時(shí)間信息,及獲取所 述人臉圖像信息中人臉特征參數(shù);
[0008] 步驟2,根據(jù)所述時(shí)間信息與所述人臉特征參數(shù),進(jìn)行參數(shù)自動(dòng)訓(xùn)練操作,獲取控 制函數(shù)參數(shù),其中根據(jù)所述時(shí)間信息與所述人臉特征參數(shù),設(shè)置控制函數(shù)參數(shù)初始值,并計(jì) 算擬合曲線,及所述擬合曲線與真實(shí)曲線之間的擬合誤差,根據(jù)所述時(shí)間信息、所述人臉特 征參數(shù)、所述控制函數(shù)參數(shù)初始值,計(jì)算Jacobian矩陣,并根據(jù)梯度下降法,計(jì)算所述時(shí)間 信息、所述人臉特征參數(shù)的變化值,根據(jù)所述變化值更新所述時(shí)間信息、所述人臉特征參 數(shù),重復(fù)步驟2,直到所述擬合誤差達(dá)到穩(wěn)定狀態(tài);
[0009] 步驟3,獲取新輸入的語音信息,結(jié)合所述控制參數(shù)函數(shù),計(jì)算擬合曲線,并生成2D 人臉特征點(diǎn)向量,將所述2D人臉特征點(diǎn)向量重定向到三維人頭模型上,以完成人臉動(dòng)畫生 成。
[0010] 所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法,所述步驟1中預(yù)處理操作包括對所述 語音信息進(jìn)行音素標(biāo)注,標(biāo)出所述語音信息中每個(gè)句子的每個(gè)音素的時(shí)間信息;
[0011]獲取所述人臉圖像信息中人臉特征點(diǎn)的位置,并以正臉圖像的人臉特征點(diǎn)的位置 為模板,對每幀的人臉特征點(diǎn)進(jìn)行對齊,并對人臉特征點(diǎn)的位置坐標(biāo)組成的向量進(jìn)行降維。
[0012]所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法,所述步驟2中計(jì)算擬合曲線的公式為
[0014] 其中z(t)為擬合曲線,T為所述語音信息中音素的目標(biāo)值T,N為所述語音信息中音 素的個(gè)數(shù),Di (t)為控制函數(shù)參數(shù),t為時(shí)間,i為所述語音信息中的音素。
[0015] 所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法,所述步驟2中計(jì)算擬合誤差的公式為
[0016] e(x)=(z-y)T(z-y)
[0018] 其中x為待優(yōu)化的所述語音信息與所述人臉圖像信息,所述擬合曲線,y為所述真 實(shí)曲線,e(x)為擬合誤差。
[0019] 所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法,所述步驟3包括根據(jù)包含中性表情的 2D人臉特征點(diǎn)向量與中性稀疏表情基,訓(xùn)練RBF映射,根據(jù)所述RBF映射,獲取用戶稀疏表情 基;對于新輸入的2D人臉特征點(diǎn)向量,獲取稀疏表情基權(quán)值,并通過計(jì)算獲取的權(quán)值加權(quán)對 應(yīng)稠密表情基生成人臉動(dòng)畫。
[0020] 本發(fā)明還提出一種文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成系統(tǒng),包括:
[0021] 預(yù)處理模塊,用于采集文本語音信息,所述文本語音信息包括語音信息與人臉圖 像信息,對所述文本語音信息進(jìn)行預(yù)處理操作,獲取所述語音信息中每個(gè)音素的時(shí)間信息, 及獲取所述人臉圖像信息中人臉特征參數(shù);
[0022] 計(jì)算擬合誤差模塊,用于根據(jù)所述時(shí)間信息與所述人臉特征參數(shù),進(jìn)行參數(shù)自動(dòng) 訓(xùn)練操作,獲取控制函數(shù)參數(shù),其中根據(jù)所述時(shí)間信息與所述人臉特征參數(shù),設(shè)置控制函數(shù) 參數(shù)初始值,并計(jì)算擬合曲線,及所述擬合曲線與真實(shí)曲線之間的擬合誤差,根據(jù)所述時(shí)間 信息、所述人臉特征參數(shù)、所述控制函數(shù)參數(shù)初始值,計(jì)算Jacobian矩陣,并根據(jù)梯度下降 法,計(jì)算所述時(shí)間信息、所述人臉特征參數(shù)的變化值,根據(jù)所述變化值更新所述時(shí)間信息、 所述人臉特征參數(shù),重復(fù)步驟2,直到所述擬合誤差達(dá)到穩(wěn)定狀態(tài);
[0023]生成人臉動(dòng)畫模塊,用于獲取新輸入的語音信息,結(jié)合所述控制參數(shù)函數(shù),計(jì)算擬 合曲線,并生成2D人臉特征點(diǎn)向量,將所述2D人臉特征點(diǎn)向量重定向到三維人頭模型上,以 完成人臉動(dòng)畫生成。
[0024]所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成系統(tǒng),所述預(yù)處理模塊中預(yù)處理操作包括對 所述語音信息進(jìn)行音素標(biāo)注,標(biāo)出所述語音信息中每個(gè)句子的每個(gè)音素的時(shí)間信息;
[0025] 獲取所述人臉圖像信息中人臉特征點(diǎn)的位置,并以正臉圖像的人臉特征點(diǎn)的位置 為模板,對每幀的人臉特征點(diǎn)進(jìn)行對齊,并對人臉特征點(diǎn)的位置坐標(biāo)組成的向量進(jìn)行降維。
[0026] 所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成系統(tǒng),所述計(jì)算擬合誤差模塊中計(jì)算擬合曲 線的公式為
[0028] 其中z(t)為擬合曲線,T為所述語音信息中音素的目標(biāo)值T,N為所述語音信息中音 素的個(gè)數(shù),Di (t)為控制函數(shù)參數(shù),t為時(shí)間,i為所述語音信息中的音素。
[0029] 所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成系統(tǒng),所述計(jì)算擬合誤差模塊中計(jì)算擬合誤 差的公式為
[0030] e(x)=(z-y)T(z-y)
[0032] 其中x為待優(yōu)化的所述語音信息與所述人臉圖像信息,所述擬合曲線,y為所述真 實(shí)曲線,e(x)為擬合誤差。
[0033] 所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成系統(tǒng),所述生成人臉動(dòng)畫模塊包括根據(jù)包含 中性表情的2D人臉特征點(diǎn)向量與中性稀疏表情基,訓(xùn)練RBF映射,根據(jù)所述RBF映射,獲取用 戶稀疏表情基;對于新輸入的2D人臉特征點(diǎn)向量,獲取稀疏表情基權(quán)值,并通過計(jì)算獲取的 權(quán)值加權(quán)對應(yīng)稠密表情基生成人臉動(dòng)畫。
[0034] 由以上發(fā)明可知,本發(fā)明的優(yōu)點(diǎn)在于:
[0035] 如圖6所述為本發(fā)明系統(tǒng)運(yùn)行效果圖,本發(fā)明為輸入語音生成同步的唇形動(dòng)畫和 表情動(dòng)畫,具有較高的可視語音合成的真實(shí)度和時(shí)效性,從而使應(yīng)用具有更友好的交互體 驗(yàn)。
【附圖說明】
[0036]圖