一種基于唇部動(dòng)作的政務(wù)場(chǎng)景多模態(tài)語(yǔ)音交互方法與流程

文檔序號(hào)：40238934發(fā)布日期：2024-12-06 17:03閱讀：21來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于唇部動(dòng)作的政務(wù)場(chǎng)景多模態(tài)語(yǔ)音交互方法與流程

本發(fā)明屬于政務(wù)服務(wù)，具體為一種基于唇部動(dòng)作的政務(wù)場(chǎng)景多模態(tài)語(yǔ)音交互方法。

背景技術(shù)：

1、政務(wù)“數(shù)字人”以一體機(jī)的形式出現(xiàn)在公眾面前，保稅區(qū)政務(wù)辦將企業(yè)和群眾辦理的高頻事項(xiàng)統(tǒng)一集成到政務(wù)“數(shù)字人”，實(shí)現(xiàn)了“數(shù)字人”與政務(wù)服務(wù)事項(xiàng)的咨詢、受理、辦理等應(yīng)用場(chǎng)景無(wú)縫融合，促進(jìn)政務(wù)服務(wù)由傳統(tǒng)政務(wù)服務(wù)大廳模式向規(guī)范、高效、穩(wěn)定的數(shù)字智能化方向轉(zhuǎn)變，并且創(chuàng)新政務(wù)服務(wù)“數(shù)字人”全程導(dǎo)辦、幫辦等模式，為企業(yè)和群眾提供“一對(duì)一”沉浸式咨詢導(dǎo)辦服務(wù)。

2、現(xiàn)有的政務(wù)場(chǎng)景的自助辦理語(yǔ)音交互的過(guò)程中，在復(fù)雜噪音環(huán)境下，尤其是當(dāng)噪音為周圍人聲的情況下，識(shí)別效果通常較差，識(shí)別結(jié)果的準(zhǔn)確性不高。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)的不足，本發(fā)明提供了一種基于唇部動(dòng)作的政務(wù)場(chǎng)景多模態(tài)語(yǔ)音交互方法，具有能在復(fù)雜的噪音環(huán)境下高效地進(jìn)行識(shí)別，準(zhǔn)確性高的優(yōu)點(diǎn)。

2、為實(shí)現(xiàn)上述目的，本發(fā)明提供如下技術(shù)方案：一種基于唇部動(dòng)作的政務(wù)場(chǎng)景多模態(tài)語(yǔ)音交互方法，交互方法包括：通過(guò)雙目攝像頭采集人臉信息，自動(dòng)喚醒設(shè)備，數(shù)字人進(jìn)行語(yǔ)音提示讓用戶進(jìn)行交互；利用窄波束算法對(duì)陣列麥音頻信號(hào)進(jìn)行增強(qiáng)和定位，進(jìn)行定向接收，屏蔽其他方向的聲音；使用高靈敏度麥克風(fēng)實(shí)時(shí)采集用戶的語(yǔ)音輸入，利用語(yǔ)音處理算法提取語(yǔ)音特征；利用高清攝像設(shè)備捕獲用戶的唇部動(dòng)作視頻，應(yīng)用計(jì)算機(jī)視覺(jué)技術(shù)，實(shí)時(shí)分析唇部的形態(tài)變化和口型輪廓；將語(yǔ)音特征和唇部運(yùn)動(dòng)特征進(jìn)行綜合分析，形成綜合的用戶交互信息，利用深度學(xué)習(xí)算法進(jìn)行多模態(tài)信息融合；基于多模態(tài)信息進(jìn)行語(yǔ)音和唇部動(dòng)作進(jìn)行協(xié)同分析與識(shí)別；基于采集到的音頻信號(hào)，傳輸?shù)絥lp大模型，從海量數(shù)據(jù)和知識(shí)中進(jìn)行客戶的需求匹配；建立高精度的數(shù)字人模型，利用nlp大模型對(duì)用戶的問(wèn)題進(jìn)行理解和分析，通過(guò)數(shù)字人播報(bào)給出回答。

3、優(yōu)選地，s1的步驟為：

4、使用雙目攝像頭采集人臉信息，觸發(fā)設(shè)備自動(dòng)喚醒功能，將主屏的數(shù)字人、背屏的事項(xiàng)列表和觸控屏的操作界面進(jìn)行喚醒，啟動(dòng)觸控屏上的操作界面，用戶可以進(jìn)行交互，顯示用戶可以進(jìn)行的操作選項(xiàng)，數(shù)字人通過(guò)語(yǔ)音功能對(duì)用戶進(jìn)行語(yǔ)音提升交互，用戶進(jìn)行交互，提示用戶可以通過(guò)觸控屏與語(yǔ)音指令執(zhí)行特定操作。

5、優(yōu)選地，s2的步驟為：安排10—20個(gè)麥克風(fēng)按照矩形的幾何形狀，布置在陣列中，陣列中的每個(gè)麥克風(fēng)在位置上保持3厘米的間距，麥克風(fēng)同時(shí)采集環(huán)境中的聲音信號(hào)，對(duì)采集到的音頻信號(hào)進(jìn)行預(yù)處理；

6、應(yīng)用窄波束形成算法，來(lái)合成和處理各個(gè)麥克風(fēng)的信號(hào)，計(jì)算每個(gè)麥克風(fēng)信號(hào)的時(shí)延和權(quán)重，合成的波束在特定方向上增強(qiáng)目標(biāo)信號(hào)，抑制其他方向上的信號(hào)；

7、波束形成權(quán)重向量：

8、其中w是權(quán)重向量，a|θ|是指向角為θ)時(shí)的方向性向量，而|·|表示向量的歐幾里得范數(shù)；

9、輸出經(jīng)過(guò)波束形成處理后的音頻信號(hào)，在輸出中反映出主波束和副波束的特性；

10、使用波束形成輸出來(lái)實(shí)現(xiàn)對(duì)特定方向上聲音的定向接收。

11、優(yōu)選地，s3的步驟為：使用高靈敏度麥克風(fēng)捕捉用戶的連續(xù)語(yǔ)音信號(hào)，消除背景噪聲和其他非語(yǔ)言聲音干擾，增強(qiáng)高頻部分，補(bǔ)償在錄音過(guò)程中丟失的高頻成分，將連續(xù)的音頻流分割成25ms-40ms一幀的時(shí)間幀，對(duì)每一幀數(shù)據(jù)應(yīng)用窗函數(shù)以減少頻譜泄露效應(yīng)，對(duì)每幀數(shù)據(jù)進(jìn)行快速傅里葉變換以轉(zhuǎn)換到頻率域分析其頻譜特性；

12、對(duì)于特定的聲學(xué)參數(shù)，使用倒譜法進(jìn)行提取基音周期，提取步驟為：

13、傅里葉變換：首先對(duì)原始時(shí)域信號(hào)x(t)進(jìn)行快速傅里葉變換ff得到其頻域表示x(f)：

14、[x(f)＝fx(t)]

15、計(jì)算幅值的對(duì)數(shù)：然后取x(f)得幅度并計(jì)算其自然對(duì)數(shù)：

16、

17、其中t0,tf,k,f/0是相關(guān)參數(shù)或常量；

18、最后，將上述結(jié)果進(jìn)行逆快速傅里葉變換回到時(shí)域空間，并得到“倒譜”：

19、

20、將處理好的數(shù)據(jù)進(jìn)行編碼，發(fā)送給下一個(gè)接收系統(tǒng)與存儲(chǔ)設(shè)備。

21、優(yōu)選地，s4的步驟為：

22、使用高清攝像機(jī)捕捉用戶面部的視頻，對(duì)視頻進(jìn)行去噪、增強(qiáng)對(duì)比度的操作來(lái)改善圖像質(zhì)量，通過(guò)特征點(diǎn)確定人臉的方向和位置，并將圖像標(biāo)準(zhǔn)化到統(tǒng)一的大小和方向，在嘴唇區(qū)域內(nèi)識(shí)別重要的面部特征點(diǎn)，包括嘴角與唇峰，使用閾值化分割技術(shù)將嘴唇從背景中分離出來(lái)；

23、閾值化分割技術(shù)公式為：

24、[i0(x,y)＝{0ifi(x，y)<t1ifi(x,y)≥t}]

25、其中，i(x，y)是原始圖像在(x，y)的強(qiáng)度，而t是預(yù)設(shè)的全局亮度或顏色的界限；

26、對(duì)提取的唇部區(qū)域進(jìn)一步處理以消除噪聲，在連續(xù)幀之間跟蹤關(guān)鍵點(diǎn)的變化，以理解說(shuō)話時(shí)嘴唇的運(yùn)動(dòng)模式。

27、優(yōu)選地，s5的步驟為：將語(yǔ)音特征和唇部運(yùn)動(dòng)特征進(jìn)行綜合分析，形成綜合的用戶交互信息，提取聲音的特征，識(shí)別并追蹤嘴唇的運(yùn)動(dòng)，提取關(guān)鍵點(diǎn)位置和口型變化的特征；

28、使用卷積神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)來(lái)分別學(xué)習(xí)和編碼音頻及視覺(jué)模態(tài)的特征表示；

29、早期融合，在輸入階段就合并兩種模態(tài)，晚期融合，在決策階段結(jié)合兩個(gè)獨(dú)立模型的結(jié)果。

30、優(yōu)選地，s6的步驟為：

31、同時(shí)收集用戶的音頻信號(hào)和視頻信號(hào)對(duì)音頻數(shù)據(jù)進(jìn)行預(yù)處理從音頻中提取聲學(xué)特征，從視頻中提取視覺(jué)特征，包括嘴唇的運(yùn)動(dòng)軌跡和形狀變化；

32、使用時(shí)間戳確保音頻和視頻數(shù)據(jù)在時(shí)間上的一致性，在視頻中識(shí)別并追蹤嘴唇的關(guān)鍵點(diǎn)；

33、使用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練模型學(xué)習(xí)從原始音頻輸入到目標(biāo)輸出之間的映射關(guān)系；

34、建立一個(gè)完整的系統(tǒng)流程，能夠直接接收原始的音視頻輸入并產(chǎn)生最終的識(shí)別結(jié)果或用戶交互指令。

35、優(yōu)選地，s7的步驟為：

36、根據(jù)解析出的意圖和關(guān)鍵信息，在數(shù)據(jù)庫(kù)或知識(shí)庫(kù)中搜索相關(guān)的服務(wù)與產(chǎn)品選項(xiàng)，在對(duì)話過(guò)程中保持對(duì)用戶歷史交互內(nèi)容的記憶；

37、訓(xùn)練深度學(xué)習(xí)模型以優(yōu)化語(yǔ)義理解能力，并不斷調(diào)整參數(shù)以適應(yīng)不同領(lǐng)域和用例的需求變化；

38、根據(jù)分析結(jié)果為用戶生成個(gè)性化的服務(wù)或產(chǎn)品推薦列表，并按相關(guān)性排序展示給用戶選擇；

39、用戶對(duì)推薦的服務(wù)或產(chǎn)品的反饋被用于進(jìn)一步訓(xùn)練和優(yōu)化系統(tǒng)的性能。

40、優(yōu)選地，s8的步驟為：

41、使用nlp技術(shù)分析文本內(nèi)容，提取關(guān)鍵信息，構(gòu)建包含大量信息的知識(shí)庫(kù)，根據(jù)從用戶輸入中解析出的意圖和關(guān)鍵字，在知識(shí)庫(kù)中搜索最相關(guān)的信息與答案，設(shè)計(jì)數(shù)字人的面部表情與肢體動(dòng)作的非語(yǔ)言行為，實(shí)現(xiàn)一個(gè)系統(tǒng)來(lái)管理用戶與數(shù)字人之間的交互流程，包括問(wèn)題的回答和反饋循環(huán)，結(jié)合nlp大模型的分析結(jié)果生成回答腳本。

42、優(yōu)選地，驗(yàn)證所有組件協(xié)同工作的效果，將完成測(cè)試的系統(tǒng)部署到生產(chǎn)環(huán)境，并持續(xù)監(jiān)控其性能表現(xiàn)及時(shí)響應(yīng)問(wèn)題。

43、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果如下：

44、本技術(shù)通過(guò)對(duì)面部表情細(xì)節(jié)的捕捉，能實(shí)現(xiàn)在復(fù)雜環(huán)境下高效地進(jìn)行識(shí)別，且識(shí)別準(zhǔn)確性高，帶來(lái)更好的使用前景與商業(yè)價(jià)值。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳嘉,王斌,劉方勇,王丁,查亞?wèn)|,劉陽(yáng)楨,方穎,劉好蔓,林宏煒,毛送軍,張嘉誠(chéng),汪文,王娟,魏薇
技術(shù)所有人：深圳廣電數(shù)字科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于唇部動(dòng)作的政務(wù)場(chǎng)景多模態(tài)語(yǔ)音交互方法與流程