本發(fā)明涉及人機(jī)交互,涉及一種多媒體內(nèi)容生成方法,更為具體地,涉及一種對話式多媒體內(nèi)容生成方法、系統(tǒng)。
背景技術(shù):
1、現(xiàn)有的媒體編輯平臺或軟件存在面向?qū)ο髥握{(diào)的問題,往往只傾向于提供單一媒體類型,也就是視頻、音頻或圖片等其中一種媒體類型的編輯功能,而無法有效地將不同類型的媒體素材融合在一起,這導(dǎo)致編輯內(nèi)容的多樣性受限,難以實(shí)現(xiàn)跨媒體內(nèi)容的創(chuàng)作,限制了用戶創(chuàng)意的表達(dá)方式。
2、其次,現(xiàn)有平臺提供的編輯服務(wù)功能較為局限,例如視頻編輯平臺主要提供視頻拼接,播放設(shè)置,特效設(shè)置等剪輯方面的服務(wù);圖像編輯平臺主要提供濾鏡設(shè)置,人像美顏等美化方面的服務(wù);音頻編輯平臺主要提供音頻提取,合并等方面的服務(wù),以上服務(wù)無法滿足用戶對于視頻/圖像畫面內(nèi)容以及音頻制作方面的復(fù)雜需求。
3、同時,現(xiàn)有平臺與軟件通常功能模塊使用起來較為復(fù)雜,初學(xué)者需要花費(fèi)大量時間學(xué)習(xí)和熟悉操作,學(xué)習(xí)曲線陡峭難以快速上手,使用門檻較高。操作通常需要用戶手動完成,這種手動操作方式不僅增加了用戶的操作負(fù)擔(dān),還限制了編輯的靈活性和效率。用戶需要逐幀進(jìn)行編輯,并反復(fù)調(diào)整參數(shù),這不僅費(fèi)時費(fèi)力,還容易導(dǎo)致操作失誤和編輯不穩(wěn)定。
4、因此,亟需一種實(shí)現(xiàn)文本到多媒體素材的檢索以及文本到aigc工具庫的調(diào)用,并實(shí)現(xiàn)多模態(tài)內(nèi)容的融合編輯,使得多媒體內(nèi)容編輯變得智能化,大大降低多媒體編輯的門檻,為用戶提供更加便捷、高效的編輯體驗的對話式多媒體內(nèi)容生成方法、系統(tǒng)。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問題,本發(fā)明的目的是提供一種對話式多媒體內(nèi)容生成方法、系統(tǒng),以解決現(xiàn)有平臺與軟件通常功能模塊使用起來較為復(fù)雜,初學(xué)者制作或改變多媒體內(nèi)容需要花費(fèi)大量時間學(xué)習(xí)和熟悉操作,學(xué)習(xí)曲線陡峭難以快速上手,使用門檻較高的問題。
2、本發(fā)明提供的一種對話式多媒體內(nèi)容生成方法,其中,包括:
3、通過后臺將前置用戶對話框內(nèi)的輸入指令轉(zhuǎn)換為標(biāo)準(zhǔn)文本;
4、通過預(yù)訓(xùn)練的大語言模型對所述標(biāo)準(zhǔn)文本進(jìn)行語義理解和意圖分析,以判斷所述輸入指令為檢索指令還是編輯指令;其中,
5、若所述輸入指令為檢索指令,則對所述標(biāo)準(zhǔn)文本進(jìn)行5w1h分析以獲取文本單元,并將所述文本單元輸入至預(yù)設(shè)的視頻檢索模型中,以使所述視頻檢索模型反饋出與所述文本單元相適配的目標(biāo)視頻;
6、若所述輸入指令為編輯指令,則對所述標(biāo)準(zhǔn)文本進(jìn)行相似度匹配,以獲取編輯模式,并采用所述編輯模式依次對用戶預(yù)選定的待編輯視頻進(jìn)行編輯處理以獲取多媒體生成內(nèi)容;其中,所述編輯模式包括視頻摳像、視頻調(diào)和、視頻分割、視頻修復(fù)、音頻生成和口型生成。
7、優(yōu)選地,通過后臺將前置用戶對話框內(nèi)的輸入指令轉(zhuǎn)換為標(biāo)準(zhǔn)文本,包括:
8、通過預(yù)設(shè)的前端應(yīng)用程序捕獲所述前置用戶對話框內(nèi)的輸入指令;
9、對所述輸入指令進(jìn)行預(yù)處理以獲取關(guān)鍵指令;
10、將所述關(guān)鍵指令轉(zhuǎn)換成標(biāo)準(zhǔn)格式的標(biāo)準(zhǔn)文本,并基于ssl或tls加密技術(shù)將所述標(biāo)準(zhǔn)文本通過網(wǎng)絡(luò)協(xié)議傳輸至后端服務(wù)器;其中,所述標(biāo)準(zhǔn)格式為json格式或xml格式。
11、優(yōu)選地,預(yù)訓(xùn)練大語言模型的過程,包括:
12、基于transformer架構(gòu)構(gòu)建語言基礎(chǔ)模型;
13、通過預(yù)先采集的文本集對所述語言基礎(chǔ)模型進(jìn)行預(yù)先訓(xùn)練以形成具備對語言的基礎(chǔ)理解的初始語言模型;
14、通過對所述初始語言模型進(jìn)行反復(fù)微調(diào)和精調(diào)以形成大語言模型。
15、優(yōu)選地,預(yù)先訓(xùn)練所述語言基礎(chǔ)模型的過程,包括:
16、將給定的所述文本集中的輸入文本轉(zhuǎn)換為文本序列,將所述文本序列中的詞匯轉(zhuǎn)換為向量表示,并通過位置編碼保留每個詞匯在序列中的位置信息;基于所述語言基礎(chǔ)模型的窗口大小和預(yù)先訓(xùn)練過程中的關(guān)于每個詞匯的歷史詞獲取所述文本序列中優(yōu)化詞向量x=x1...xn的最大似然估計lpt:
17、lpt(x)=∑ilogp(xi|xi-k,...,xi-1;θ)
18、其中,k表示語言模型窗口大?。沪缺硎旧窠?jīng)網(wǎng)絡(luò)模型的參數(shù);p代表概率分布函數(shù);x=x1...xn代表構(gòu)成長度為n的文本序列;
19、微調(diào)和精調(diào)所述初始語言模型的過程包括:
20、將所述文本序列輸入至所述初始語言模型中,并提取在所述初始語言模型中最后一層的最后一個詞對應(yīng)的隱含層輸出并通過預(yù)設(shè)的一層全連接層變換以所述隱含層輸出來獲取預(yù)測標(biāo)簽;應(yīng)用交叉熵?fù)p失函數(shù)來計算所述預(yù)測標(biāo)簽與實(shí)際標(biāo)簽之間的差異,直至所述交叉熵?fù)p失函數(shù)達(dá)到預(yù)設(shè)的交叉熵閾值,則停止微調(diào);其中,所述交叉熵?fù)p失函數(shù)為:
21、l(y|x1,...,xn)=softmax(h[l]wy);其中,wy代表詞向量矩陣;y代表所述文本序列的實(shí)際標(biāo)簽;
22、通過優(yōu)化目標(biāo)優(yōu)化損失函數(shù)對所述初始語言模型的下游任務(wù)進(jìn)行精調(diào),最小化所述目標(biāo)優(yōu)化損失函數(shù),直至所述目標(biāo)優(yōu)化損失函數(shù)小于預(yù)設(shè)的優(yōu)化閾值方停止精調(diào);其中,所述目標(biāo)優(yōu)化損失函數(shù)為:
23、lft(c)=∑logp(y|x1,...,xn);
24、其中,c代表下游任務(wù)的標(biāo)注數(shù)據(jù);x=x1...xn代表構(gòu)成長度為n的文本序列;y代表所述文本序列的實(shí)際標(biāo)簽。
25、優(yōu)選地,對所述標(biāo)準(zhǔn)文本進(jìn)行5w1h分析以獲取文本單元,并將所述文本單元輸入至預(yù)設(shè)的視頻檢索模型中,以使所述視頻檢索模型反饋出與所述文本單元相適配的目標(biāo)視頻的過程,包括:
26、對所述標(biāo)準(zhǔn)文本進(jìn)行5w1h分析以生成5w1h結(jié)構(gòu)化文本模板;
27、將所述5w1h結(jié)構(gòu)化文本模板輸入至預(yù)設(shè)的視頻檢索模型,使所述5w1h結(jié)構(gòu)化文本模板與所述視頻檢索模型的視頻庫中的視頻素材元數(shù)據(jù)相對比以獲取預(yù)設(shè)數(shù)據(jù)量個待定視頻;
28、通過所述視頻檢索模型中的相似度對比模塊對所述預(yù)設(shè)數(shù)量個待定視頻分別與所述5w1h結(jié)構(gòu)化文本模板的相似度以獲取相似度值;
29、按照相似度值的大小從大到小排列與所述相似度值相對應(yīng)的待定視頻,并將排名靠前的待定視頻作為預(yù)設(shè)數(shù)量個目標(biāo)視頻。
30、優(yōu)選地,通過所述視頻檢索模型中的相似度對比模塊對所述預(yù)設(shè)數(shù)量個待定視頻分別與所述5w1h結(jié)構(gòu)化文本模板的相似度以獲取相似度值的過程,包括:
31、將所述待定視頻的幀圖像調(diào)整為預(yù)設(shè)大小,以作為規(guī)格視頻輸入至所述相似度對比模塊中;
32、使所述相似度對比模塊中的timesformer層對所述規(guī)格視頻進(jìn)行特征提取以獲取所述規(guī)格視頻中每一幀圖像的圖像特征vsst,對所述圖像特征進(jìn)行聚合以獲取視覺嵌入序列使所述相似度對比模塊中transformer的bert模型對所述5w1h結(jié)構(gòu)化文本模板進(jìn)行特征提取以獲取文本特征lsst,并在所述文本特征中添加位置信息以獲取文本嵌入序列
33、基于所述視覺嵌入序列和所述文本嵌入序列獲取相似度值;其中,相似度值為:
34、
35、其中,gv(·)和gt(·)為預(yù)設(shè)的線性投影。
36、優(yōu)選地,若所述輸入指令為編輯指令,則對所述標(biāo)準(zhǔn)文本進(jìn)行相似度匹配,以獲取編輯模式,包括:
37、對所述標(biāo)準(zhǔn)文本進(jìn)行5w1h分析以獲取文本單元;
38、對所述文本單元進(jìn)行特征提取以獲取對比文本特征;
39、將所述對比文本特征與對比庫中的編輯文本特征進(jìn)行相似度比較以獲取相似度值排名在前的編輯文本;并獲取與所述相似度值排名在前的編輯文本相對應(yīng)的編輯模式。
40、優(yōu)選地,若所述編輯模式為視頻摳像,則將所述待編輯視頻發(fā)送至預(yù)設(shè)的視頻摳像模塊,使所述視頻摳像模塊進(jìn)行視頻摳像;其中,
41、所述視頻摳像模塊包括編碼器模塊、循環(huán)解碼器模塊、深度引導(dǎo)濾波器模塊和分割模塊;
42、通過所述編碼器模塊對所述待編輯視頻的單個視頻幀進(jìn)行特征提取操作,以獲取多尺度特征;其中,所述編碼器模塊采用mobilenetv3-large作為主干網(wǎng)絡(luò),并在所述主干網(wǎng)絡(luò)后方使用lr-aspp模塊用于語義分割任務(wù);并且在mobilenetv3最后一層采用沒有下采樣步長的空洞卷積;
43、通過所述遞歸解碼器模塊采用循環(huán)機(jī)制基于所述多尺度特征對所述待編輯視頻進(jìn)行自主學(xué)習(xí)以獲取有效信息,以確定摳像信息和時間連貫性信息,并通過預(yù)設(shè)的解碼器獲取所述待編輯視頻的隱藏特征;
44、通過所述深度引導(dǎo)濾波器模塊基于所述隱藏特征和所述多尺度特征對所述待編輯視頻進(jìn)行高分辨率上采樣,以獲取高低分辨率采樣幀;
45、通過所述分割模塊基于所述高低分辨率采樣幀生成高分辨率的透明度和前景,并根據(jù)所述高分辨率的透明度和前景進(jìn)行分割以獲取摳像視頻;其中,所述摳像視頻包括單通道透明度蒙版預(yù)測視頻、三通道前景預(yù)測視頻和單通道分割預(yù)測視頻。
46、優(yōu)選地,若編輯模式為口型生成,則將所述待編輯視頻發(fā)送至預(yù)訓(xùn)練好的口型匹配模塊,使所述口型匹配模塊基于與訓(xùn)練好的syncnet模型和殘差跳躍連接對所述待編輯視頻中的音頻匹配口型;其中,
47、通過計算所匹配的口型和語音嵌入之間的點(diǎn)積來評估音頻-視頻對的同步概率:
48、
49、其中,v和s分別代表所述待編輯視頻中的口型視頻和所述待編輯視頻中的語音嵌入向量,∈是預(yù)設(shè)的參數(shù),且為正數(shù);所述同步概率的輸出值介于[0,1]之間,表示所述待編輯視頻中音頻和視頻同步的概率。
50、本發(fā)明還提供一種對話式多媒體內(nèi)容生成系統(tǒng),實(shí)現(xiàn)如上所述的對話式多媒體內(nèi)容生成方法,包括:
51、前置用戶對話框,用于接收用戶輸入的輸入指令,并使后臺將所述輸入指令轉(zhuǎn)換為標(biāo)準(zhǔn)文本;
52、大語言模型,用于對所述標(biāo)準(zhǔn)文本進(jìn)行語義理解和意圖分析,以判斷所述輸入指令為檢索指令還是編輯指令;
53、視頻檢索模型,用于若所述輸入指令為檢索指令,則對所述標(biāo)準(zhǔn)文本進(jìn)行5w1?h分析以獲取文本單元,并反饋出與所述文本單元相適配的目標(biāo)視頻;
54、視頻編輯模型,用于若所述輸入指令為編輯指令,則對所述標(biāo)準(zhǔn)文本進(jìn)行相似度匹配,以獲取編輯模式,并采用所述編輯模式依次對用戶預(yù)選定的待編輯視頻進(jìn)行編輯處理以獲取多媒體生成內(nèi)容;其中,所述編輯模式包括視頻摳像、視頻調(diào)和、視頻分割、視頻修復(fù)、音頻生成和口型生成。
55、從上面的技術(shù)方案可知,本發(fā)明提供的對話式多媒體內(nèi)容生成方法,首先將輸入指令輸入值前置用戶對話框內(nèi),使后臺將輸入指令轉(zhuǎn)換為標(biāo)準(zhǔn)文本,再通過預(yù)訓(xùn)練的大語言模型對標(biāo)準(zhǔn)文本進(jìn)行語義理解和意圖分析,以判斷輸入指令為檢索指令還是編輯指令;若輸入指令為檢索指令,則對標(biāo)準(zhǔn)文本進(jìn)行5w1?h分析以獲取文本單元,并將文本單元輸入至預(yù)設(shè)的視頻檢索模型中,以使視頻檢索模型反饋出與所述文本單元相適配的目標(biāo)視頻;若輸入指令為編輯指令,則對標(biāo)準(zhǔn)文本進(jìn)行相似度匹配,以獲取編輯模式,并采用編輯模式依次對用戶預(yù)選定的待編輯視頻進(jìn)行視頻摳像、視頻調(diào)和、視頻分割、視頻修復(fù)、音頻生成和口型生成等類型的編輯處理以獲取多媒體生成內(nèi)容,如此,以先進(jìn)的現(xiàn)代大語言模型為基礎(chǔ),通過5w1?h要素提取技術(shù),能夠?qū)τ脩糨斎胫噶钸M(jìn)行精準(zhǔn)的語義提取和意圖分析,使用戶僅需輸入文字指令即可實(shí)現(xiàn)對應(yīng)的檢索或編輯需求,同時,引入最先進(jìn)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),通過訓(xùn)練模型識別各模態(tài)素材中的關(guān)鍵多維度信息,從而實(shí)現(xiàn)文本到多媒體素材的檢索以及文本到工具庫的調(diào)用,并實(shí)現(xiàn)多模態(tài)內(nèi)容的融合編輯,該方法、系統(tǒng)采用對話的形式進(jìn)行多輪迭代運(yùn)行,使得多媒體內(nèi)容編輯變得智能化,大大降低了多媒體編輯的門檻,為用戶提供更加便捷、高效的編輯體驗。