国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于唇部動(dòng)作的政務(wù)場(chǎng)景多模態(tài)語(yǔ)音交互方法與流程

      文檔序號(hào):40238934發(fā)布日期:2024-12-06 17:03閱讀:21來(lái)源:國(guó)知局
      一種基于唇部動(dòng)作的政務(wù)場(chǎng)景多模態(tài)語(yǔ)音交互方法與流程

      本發(fā)明屬于政務(wù)服務(wù),具體為一種基于唇部動(dòng)作的政務(wù)場(chǎng)景多模態(tài)語(yǔ)音交互方法。


      背景技術(shù):

      1、政務(wù)“數(shù)字人”以一體機(jī)的形式出現(xiàn)在公眾面前,保稅區(qū)政務(wù)辦將企業(yè)和群眾辦理的高頻事項(xiàng)統(tǒng)一集成到政務(wù)“數(shù)字人”,實(shí)現(xiàn)了“數(shù)字人”與政務(wù)服務(wù)事項(xiàng)的咨詢、受理、辦理等應(yīng)用場(chǎng)景無(wú)縫融合,促進(jìn)政務(wù)服務(wù)由傳統(tǒng)政務(wù)服務(wù)大廳模式向規(guī)范、高效、穩(wěn)定的數(shù)字智能化方向轉(zhuǎn)變,并且創(chuàng)新政務(wù)服務(wù)“數(shù)字人”全程導(dǎo)辦、幫辦等模式,為企業(yè)和群眾提供“一對(duì)一”沉浸式咨詢導(dǎo)辦服務(wù)。

      2、現(xiàn)有的政務(wù)場(chǎng)景的自助辦理語(yǔ)音交互的過(guò)程中,在復(fù)雜噪音環(huán)境下,尤其是當(dāng)噪音為周圍人聲的情況下,識(shí)別效果通常較差,識(shí)別結(jié)果的準(zhǔn)確性不高。


      技術(shù)實(shí)現(xiàn)思路

      1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于唇部動(dòng)作的政務(wù)場(chǎng)景多模態(tài)語(yǔ)音交互方法,具有能在復(fù)雜的噪音環(huán)境下高效地進(jìn)行識(shí)別,準(zhǔn)確性高的優(yōu)點(diǎn)。

      2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于唇部動(dòng)作的政務(wù)場(chǎng)景多模態(tài)語(yǔ)音交互方法,交互方法包括:通過(guò)雙目攝像頭采集人臉信息,自動(dòng)喚醒設(shè)備,數(shù)字人進(jìn)行語(yǔ)音提示讓用戶進(jìn)行交互;利用窄波束算法對(duì)陣列麥音頻信號(hào)進(jìn)行增強(qiáng)和定位,進(jìn)行定向接收,屏蔽其他方向的聲音;使用高靈敏度麥克風(fēng)實(shí)時(shí)采集用戶的語(yǔ)音輸入,利用語(yǔ)音處理算法提取語(yǔ)音特征;利用高清攝像設(shè)備捕獲用戶的唇部動(dòng)作視頻,應(yīng)用計(jì)算機(jī)視覺(jué)技術(shù),實(shí)時(shí)分析唇部的形態(tài)變化和口型輪廓;將語(yǔ)音特征和唇部運(yùn)動(dòng)特征進(jìn)行綜合分析,形成綜合的用戶交互信息,利用深度學(xué)習(xí)算法進(jìn)行多模態(tài)信息融合;基于多模態(tài)信息進(jìn)行語(yǔ)音和唇部動(dòng)作進(jìn)行協(xié)同分析與識(shí)別;基于采集到的音頻信號(hào),傳輸?shù)絥lp大模型,從海量數(shù)據(jù)和知識(shí)中進(jìn)行客戶的需求匹配;建立高精度的數(shù)字人模型,利用nlp大模型對(duì)用戶的問(wèn)題進(jìn)行理解和分析,通過(guò)數(shù)字人播報(bào)給出回答。

      3、優(yōu)選地,s1的步驟為:

      4、使用雙目攝像頭采集人臉信息,觸發(fā)設(shè)備自動(dòng)喚醒功能,將主屏的數(shù)字人、背屏的事項(xiàng)列表和觸控屏的操作界面進(jìn)行喚醒,啟動(dòng)觸控屏上的操作界面,用戶可以進(jìn)行交互,顯示用戶可以進(jìn)行的操作選項(xiàng),數(shù)字人通過(guò)語(yǔ)音功能對(duì)用戶進(jìn)行語(yǔ)音提升交互,用戶進(jìn)行交互,提示用戶可以通過(guò)觸控屏與語(yǔ)音指令執(zhí)行特定操作。

      5、優(yōu)選地,s2的步驟為:安排10—20個(gè)麥克風(fēng)按照矩形的幾何形狀,布置在陣列中,陣列中的每個(gè)麥克風(fēng)在位置上保持3厘米的間距,麥克風(fēng)同時(shí)采集環(huán)境中的聲音信號(hào),對(duì)采集到的音頻信號(hào)進(jìn)行預(yù)處理;

      6、應(yīng)用窄波束形成算法,來(lái)合成和處理各個(gè)麥克風(fēng)的信號(hào),計(jì)算每個(gè)麥克風(fēng)信號(hào)的時(shí)延和權(quán)重,合成的波束在特定方向上增強(qiáng)目標(biāo)信號(hào),抑制其他方向上的信號(hào);

      7、波束形成權(quán)重向量:

      8、其中w是權(quán)重向量,a|θ|是指向角為θ)時(shí)的方向性向量,而|·|表示向量的歐幾里得范數(shù);

      9、輸出經(jīng)過(guò)波束形成處理后的音頻信號(hào),在輸出中反映出主波束和副波束的特性;

      10、使用波束形成輸出來(lái)實(shí)現(xiàn)對(duì)特定方向上聲音的定向接收。

      11、優(yōu)選地,s3的步驟為:使用高靈敏度麥克風(fēng)捕捉用戶的連續(xù)語(yǔ)音信號(hào),消除背景噪聲和其他非語(yǔ)言聲音干擾,增強(qiáng)高頻部分,補(bǔ)償在錄音過(guò)程中丟失的高頻成分,將連續(xù)的音頻流分割成25ms-40ms一幀的時(shí)間幀,對(duì)每一幀數(shù)據(jù)應(yīng)用窗函數(shù)以減少頻譜泄露效應(yīng),對(duì)每幀數(shù)據(jù)進(jìn)行快速傅里葉變換以轉(zhuǎn)換到頻率域分析其頻譜特性;

      12、對(duì)于特定的聲學(xué)參數(shù),使用倒譜法進(jìn)行提取基音周期,提取步驟為:

      13、傅里葉變換:首先對(duì)原始時(shí)域信號(hào)x(t)進(jìn)行快速傅里葉變換ff得到其頻域表示x(f):

      14、[x(f)=fx(t)]

      15、計(jì)算幅值的對(duì)數(shù):然后取x(f)得幅度并計(jì)算其自然對(duì)數(shù):

      16、

      17、其中t0,tf,k,f/0是相關(guān)參數(shù)或常量;

      18、最后,將上述結(jié)果進(jìn)行逆快速傅里葉變換回到時(shí)域空間,并得到“倒譜”:

      19、

      20、將處理好的數(shù)據(jù)進(jìn)行編碼,發(fā)送給下一個(gè)接收系統(tǒng)與存儲(chǔ)設(shè)備。

      21、優(yōu)選地,s4的步驟為:

      22、使用高清攝像機(jī)捕捉用戶面部的視頻,對(duì)視頻進(jìn)行去噪、增強(qiáng)對(duì)比度的操作來(lái)改善圖像質(zhì)量,通過(guò)特征點(diǎn)確定人臉的方向和位置,并將圖像標(biāo)準(zhǔn)化到統(tǒng)一的大小和方向,在嘴唇區(qū)域內(nèi)識(shí)別重要的面部特征點(diǎn),包括嘴角與唇峰,使用閾值化分割技術(shù)將嘴唇從背景中分離出來(lái);

      23、閾值化分割技術(shù)公式為:

      24、[i0(x,y)={0ifi(x,y)<t1ifi(x,y)≥t}]

      25、其中,i(x,y)是原始圖像在(x,y)的強(qiáng)度,而t是預(yù)設(shè)的全局亮度或顏色的界限;

      26、對(duì)提取的唇部區(qū)域進(jìn)一步處理以消除噪聲,在連續(xù)幀之間跟蹤關(guān)鍵點(diǎn)的變化,以理解說(shuō)話時(shí)嘴唇的運(yùn)動(dòng)模式。

      27、優(yōu)選地,s5的步驟為:將語(yǔ)音特征和唇部運(yùn)動(dòng)特征進(jìn)行綜合分析,形成綜合的用戶交互信息,提取聲音的特征,識(shí)別并追蹤嘴唇的運(yùn)動(dòng),提取關(guān)鍵點(diǎn)位置和口型變化的特征;

      28、使用卷積神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)來(lái)分別學(xué)習(xí)和編碼音頻及視覺(jué)模態(tài)的特征表示;

      29、早期融合,在輸入階段就合并兩種模態(tài),晚期融合,在決策階段結(jié)合兩個(gè)獨(dú)立模型的結(jié)果。

      30、優(yōu)選地,s6的步驟為:

      31、同時(shí)收集用戶的音頻信號(hào)和視頻信號(hào)對(duì)音頻數(shù)據(jù)進(jìn)行預(yù)處理從音頻中提取聲學(xué)特征,從視頻中提取視覺(jué)特征,包括嘴唇的運(yùn)動(dòng)軌跡和形狀變化;

      32、使用時(shí)間戳確保音頻和視頻數(shù)據(jù)在時(shí)間上的一致性,在視頻中識(shí)別并追蹤嘴唇的關(guān)鍵點(diǎn);

      33、使用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練模型學(xué)習(xí)從原始音頻輸入到目標(biāo)輸出之間的映射關(guān)系;

      34、建立一個(gè)完整的系統(tǒng)流程,能夠直接接收原始的音視頻輸入并產(chǎn)生最終的識(shí)別結(jié)果或用戶交互指令。

      35、優(yōu)選地,s7的步驟為:

      36、根據(jù)解析出的意圖和關(guān)鍵信息,在數(shù)據(jù)庫(kù)或知識(shí)庫(kù)中搜索相關(guān)的服務(wù)與產(chǎn)品選項(xiàng),在對(duì)話過(guò)程中保持對(duì)用戶歷史交互內(nèi)容的記憶;

      37、訓(xùn)練深度學(xué)習(xí)模型以優(yōu)化語(yǔ)義理解能力,并不斷調(diào)整參數(shù)以適應(yīng)不同領(lǐng)域和用例的需求變化;

      38、根據(jù)分析結(jié)果為用戶生成個(gè)性化的服務(wù)或產(chǎn)品推薦列表,并按相關(guān)性排序展示給用戶選擇;

      39、用戶對(duì)推薦的服務(wù)或產(chǎn)品的反饋被用于進(jìn)一步訓(xùn)練和優(yōu)化系統(tǒng)的性能。

      40、優(yōu)選地,s8的步驟為:

      41、使用nlp技術(shù)分析文本內(nèi)容,提取關(guān)鍵信息,構(gòu)建包含大量信息的知識(shí)庫(kù),根據(jù)從用戶輸入中解析出的意圖和關(guān)鍵字,在知識(shí)庫(kù)中搜索最相關(guān)的信息與答案,設(shè)計(jì)數(shù)字人的面部表情與肢體動(dòng)作的非語(yǔ)言行為,實(shí)現(xiàn)一個(gè)系統(tǒng)來(lái)管理用戶與數(shù)字人之間的交互流程,包括問(wèn)題的回答和反饋循環(huán),結(jié)合nlp大模型的分析結(jié)果生成回答腳本。

      42、優(yōu)選地,驗(yàn)證所有組件協(xié)同工作的效果,將完成測(cè)試的系統(tǒng)部署到生產(chǎn)環(huán)境,并持續(xù)監(jiān)控其性能表現(xiàn)及時(shí)響應(yīng)問(wèn)題。

      43、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果如下:

      44、本技術(shù)通過(guò)對(duì)面部表情細(xì)節(jié)的捕捉,能實(shí)現(xiàn)在復(fù)雜環(huán)境下高效地進(jìn)行識(shí)別,且識(shí)別準(zhǔn)確性高,帶來(lái)更好的使用前景與商業(yè)價(jià)值。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1