一種文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法及系統(tǒng)的制作方法

文檔序號：9788195閱讀：970來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人臉動(dòng)畫領(lǐng)域，尤其涉及一種文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法及系統(tǒng)。
【背景技術(shù)】
[0002] 可視語音合成技術(shù)，旨在為輸入語音生成同步的唇形動(dòng)畫和表情動(dòng)畫，從而使應(yīng) 用具有更友好的交互體驗(yàn)，具有重要的應(yīng)用前景和應(yīng)用價(jià)值，互聯(lián)網(wǎng)尤其是移動(dòng)互聯(lián)網(wǎng)的發(fā)展和普及，為可視語音合成提供了更為廣闊的應(yīng)用空間，在面向互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的交互式社交應(yīng)用開發(fā)中，可視語音合成具有重要的應(yīng)用價(jià)值:可用于開發(fā)游戲中的虛擬說話角色，使得角色的唇形和表情更加真實(shí)自然;可用于開發(fā)在線虛擬聊天室，使用戶能夠通過虛擬化身進(jìn)行網(wǎng)絡(luò)社交;還可用于開發(fā)虛擬解說員，用于提升導(dǎo)航系統(tǒng)和電子書閱讀器等應(yīng)用的交互體驗(yàn)，但是，以上這些交互性和面向互聯(lián)網(wǎng)的特性，也為可視語音合成提出了新的挑戰(zhàn)，一個(gè)重要的性能方面的考量是可視語音合成的時(shí)效性，為了使得系統(tǒng)具有較好的使用體驗(yàn)，用戶等待動(dòng)畫合成結(jié)果輸出的時(shí)間應(yīng)控制在可接受的范圍之內(nèi)，另一個(gè)值得關(guān)注的點(diǎn)是可視語音合成的真實(shí)度，人眼對可視語音的感知十分靈敏，任何微小的偏差都可能會(huì)給用戶帶來不自然的感覺，因此，在進(jìn)行可視語音合成時(shí)，需要考慮這兩者之間的平衡。
[0003] 基于負(fù)指數(shù)形式的控制函數(shù)(Dominance Function)插值的可視語音合成方法是基于規(guī)則合成方法中的經(jīng)典方法，但是該訓(xùn)練方法采用的無約束優(yōu)化策略存在某些參數(shù)會(huì) 被優(yōu)化到與其物理含義沖突的區(qū)間以及某些音素會(huì)被過度優(yōu)化的情況，在實(shí)際觀察中發(fā) 現(xiàn)，每個(gè)音素持續(xù)時(shí)間中點(diǎn)處對應(yīng)的唇形并不完全相同，甚至像雙唇塞音（[P]，[b]，[m])這樣發(fā)音時(shí)需要閉合雙唇且受周圍音影響較小的音，其音素持續(xù)時(shí)間中點(diǎn)處的唇形也并非總是閉合的，如圖4所示(其中，"均值"圖顯示的全部實(shí)例的平均形狀，其它圖的為一些具體實(shí) 例的唇形?？梢钥吹剑骄螤畹拇叫慰傮w是閉合的，說明大部分實(shí)例的持續(xù)時(shí)間中點(diǎn)處的唇形是閉合的（如形狀6所示），這與音素[b]的唇形特性是一致的，但是也存在部分實(shí)例的唇形完全沒有閉合甚至張開十分明顯，如形狀16/24/69所示）。
[0004] 發(fā)明專利"一種語音和文本聯(lián)合驅(qū)動(dòng)的卡通人臉動(dòng)畫生成方法"包括建立語音視位映射庫、文本分析、語音切分及語音合并、視位參數(shù)拼接步驟;本發(fā)明的優(yōu)點(diǎn)在于:能夠自定義音節(jié)一視位映射，從而實(shí)現(xiàn)各種具有夸張表情效果的唇型和臉形，最終合成卡通人臉動(dòng)畫；不需要大規(guī)模數(shù)據(jù)庫進(jìn)行訓(xùn)練;能夠在文本的指導(dǎo)下，進(jìn)行語音切分，提取音節(jié)時(shí)長信息，從而合成具有唇型和表情同步的人臉動(dòng)畫。但是該發(fā)明在視位拼接平滑的過程中采用三階埃爾米特函數(shù)進(jìn)行處理的，而本發(fā)明的方法中控制函數(shù)采用自動(dòng)訓(xùn)練的方法，采用 AAM方法跟蹤訓(xùn)練數(shù)據(jù)的特征點(diǎn)，從而計(jì)算出平滑函數(shù)的參數(shù)，從而生成出較高真實(shí)度和實(shí) 時(shí)性的人臉動(dòng)畫。

【發(fā)明內(nèi)容】

[0005] 針對現(xiàn)有技術(shù)的不足，本發(fā)明提出一種文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法及系統(tǒng)。
[0006] 本發(fā)明提出一種文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法，包括：
[0007] 步驟1，采集文本語音信息，所述文本語音信息包括語音信息與人臉圖像信息，對所述文本語音信息進(jìn)行預(yù)處理操作，獲取所述語音信息中每個(gè)音素的時(shí)間信息，及獲取所述人臉圖像信息中人臉特征參數(shù)；
[0008] 步驟2,根據(jù)所述時(shí)間信息與所述人臉特征參數(shù)，進(jìn)行參數(shù)自動(dòng)訓(xùn)練操作，獲取控制函數(shù)參數(shù)，其中根據(jù)所述時(shí)間信息與所述人臉特征參數(shù)，設(shè)置控制函數(shù)參數(shù)初始值，并計(jì) 算擬合曲線，及所述擬合曲線與真實(shí)曲線之間的擬合誤差，根據(jù)所述時(shí)間信息、所述人臉特征參數(shù)、所述控制函數(shù)參數(shù)初始值，計(jì)算Jacobian矩陣，并根據(jù)梯度下降法，計(jì)算所述時(shí)間信息、所述人臉特征參數(shù)的變化值，根據(jù)所述變化值更新所述時(shí)間信息、所述人臉特征參數(shù)，重復(fù)步驟2，直到所述擬合誤差達(dá)到穩(wěn)定狀態(tài)；
[0009] 步驟3,獲取新輸入的語音信息，結(jié)合所述控制參數(shù)函數(shù)，計(jì)算擬合曲線，并生成2D 人臉特征點(diǎn)向量，將所述2D人臉特征點(diǎn)向量重定向到三維人頭模型上，以完成人臉動(dòng)畫生成。
[0010] 所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法，所述步驟1中預(yù)處理操作包括對所述語音信息進(jìn)行音素標(biāo)注，標(biāo)出所述語音信息中每個(gè)句子的每個(gè)音素的時(shí)間信息；
[0011]獲取所述人臉圖像信息中人臉特征點(diǎn)的位置，并以正臉圖像的人臉特征點(diǎn)的位置為模板，對每幀的人臉特征點(diǎn)進(jìn)行對齊，并對人臉特征點(diǎn)的位置坐標(biāo)組成的向量進(jìn)行降維。
[0012]所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法，所述步驟2中計(jì)算擬合曲線的公式為
[0014] 其中z(t)為擬合曲線，T為所述語音信息中音素的目標(biāo)值T，N為所述語音信息中音素的個(gè)數(shù)，Di (t)為控制函數(shù)參數(shù)，t為時(shí)間，i為所述語音信息中的音素。
[0015] 所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法，所述步驟2中計(jì)算擬合誤差的公式為
[0016] e(x)=(z-y)T(z-y)
[0018] 其中x為待優(yōu)化的所述語音信息與所述人臉圖像信息，所述擬合曲線，y為所述真實(shí)曲線，e(x)為擬合誤差。
[0019] 所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法，所述步驟3包括根據(jù)包含中性表情的 2D人臉特征點(diǎn)向量與中性稀疏表情基，訓(xùn)練RBF映射，根據(jù)所述RBF映射，獲取用戶稀疏表情基;對于新輸入的2D人臉特征點(diǎn)向量，獲取稀疏表情基權(quán)值，并通過計(jì)算獲取的權(quán)值加權(quán)對應(yīng)稠密表情基生成人臉動(dòng)畫。
[0020] 本發(fā)明還提出一種文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成系統(tǒng)，包括：
[0021] 預(yù)處理模塊，用于采集文本語音信息，所述文本語音信息包括語音信息與人臉圖像信息，對所述文本語音信息進(jìn)行預(yù)處理操作，獲取所述語音信息中每個(gè)音素的時(shí)間信息，及獲取所述人臉圖像信息中人臉特征參數(shù)；
[0022] 計(jì)算擬合誤差模塊，用于根據(jù)所述時(shí)間信息與所述人臉特征參數(shù)，進(jìn)行參數(shù)自動(dòng) 訓(xùn)練操作，獲取控制函數(shù)參數(shù)，其中根據(jù)所述時(shí)間信息與所述人臉特征參數(shù)，設(shè)置控制函數(shù) 參數(shù)初始值，并計(jì)算擬合曲線，及所述擬合曲線與真實(shí)曲線之間的擬合誤差，根據(jù)所述時(shí)間信息、所述人臉特征參數(shù)、所述控制函數(shù)參數(shù)初始值，計(jì)算Jacobian矩陣，并根據(jù)梯度下降法，計(jì)算所述時(shí)間信息、所述人臉特征參數(shù)的變化值，根據(jù)所述變化值更新所述時(shí)間信息、所述人臉特征參數(shù)，重復(fù)步驟2，直到所述擬合誤差達(dá)到穩(wěn)定狀態(tài)；
[0023]生成人臉動(dòng)畫模塊，用于獲取新輸入的語音信息，結(jié)合所述控制參數(shù)函數(shù)，計(jì)算擬合曲線，并生成2D人臉特征點(diǎn)向量，將所述2D人臉特征點(diǎn)向量重定向到三維人頭模型上，以完成人臉動(dòng)畫生成。
[0024]所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成系統(tǒng)，所述預(yù)處理模塊中預(yù)處理操作包括對所述語音信息進(jìn)行音素標(biāo)注，標(biāo)出所述語音信息中每個(gè)句子的每個(gè)音素的時(shí)間信息；
[0025] 獲取所述人臉圖像信息中人臉特征點(diǎn)的位置，并以正臉圖像的人臉特征點(diǎn)的位置為模板，對每幀的人臉特征點(diǎn)進(jìn)行對齊，并對人臉特征點(diǎn)的位置坐標(biāo)組成的向量進(jìn)行降維。
[0026] 所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成系統(tǒng)，所述計(jì)算擬合誤差模塊中計(jì)算擬合曲線的公式為
[0028] 其中z(t)為擬合曲線，T為所述語音信息中音素的目標(biāo)值T，N為所述語音信息中音素的個(gè)數(shù)，Di (t)為控制函數(shù)參數(shù)，t為時(shí)間，i為所述語音信息中的音素。
[0029] 所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成系統(tǒng)，所述計(jì)算擬合誤差模塊中計(jì)算擬合誤差的公式為
[0030] e(x)=(z-y)T(z-y)
[0032] 其中x為待優(yōu)化的所述語音信息與所述人臉圖像信息，所述擬合曲線，y為所述真實(shí)曲線，e(x)為擬合誤差。
[0033] 所述的文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成系統(tǒng)，所述生成人臉動(dòng)畫模塊包括根據(jù)包含中性表情的2D人臉特征點(diǎn)向量與中性稀疏表情基，訓(xùn)練RBF映射，根據(jù)所述RBF映射，獲取用戶稀疏表情基;對于新輸入的2D人臉特征點(diǎn)向量，獲取稀疏表情基權(quán)值，并通過計(jì)算獲取的權(quán)值加權(quán)對應(yīng)稠密表情基生成人臉動(dòng)畫。
[0034] 由以上發(fā)明可知，本發(fā)明的優(yōu)點(diǎn)在于：
[0035] 如圖6所述為本發(fā)明系統(tǒng)運(yùn)行效果圖，本發(fā)明為輸入語音生成同步的唇形動(dòng)畫和表情動(dòng)畫，具有較高的可視語音合成的真實(shí)度和時(shí)效性，從而使應(yīng)用具有更友好的交互體驗(yàn)。
【附圖說明】
[0036]圖

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：夏時(shí)洪;楊理;袁銘擇;
技術(shù)所有人：中國科學(xué)院計(jì)算技術(shù)研究所;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

照片生成3d人臉軟件相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種文本語音驅(qū)動(dòng)的人臉動(dòng)畫生成方法及系統(tǒng)的制作方法