国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種適用于文本查詢的視頻摘要生成方法與流程

      文檔序號:11691139閱讀:1513來源:國知局
      一種適用于文本查詢的視頻摘要生成方法與流程

      本發(fā)明涉及視頻摘要領(lǐng)域,尤其是涉及了一種適用于文本查詢的視頻摘要生成方法。



      背景技術(shù):

      視頻摘要技術(shù)建立在基于內(nèi)容的多媒體分析技術(shù)基礎(chǔ)上,多年以來一直是國內(nèi)外多媒體研究的熱點(diǎn)之一。隨著對視頻數(shù)據(jù)處理要求的不斷提高和視頻數(shù)據(jù)量的不斷增多,人們需要為一長段視頻建立一段摘要來快速瀏覽,以便更好地利用它。人們可以通過對視頻內(nèi)容的分析來減小視頻存儲,方便分類和索引,提高視頻的使用效率、可用性和可訪問性。視頻摘要技術(shù)目前已經(jīng)廣泛地應(yīng)用于大量使用視頻監(jiān)控的行業(yè),如關(guān)鍵道路視頻智能摘要、重點(diǎn)路段和收費(fèi)閘口視頻智能摘要、重點(diǎn)監(jiān)舍或人員交接班視頻智能摘要以及場館、出入口視頻智能摘要。然而,傳統(tǒng)的視頻摘要技術(shù)只能實(shí)現(xiàn)重要視頻摘要的創(chuàng)建,不能實(shí)現(xiàn)文本查詢功能,給查找和調(diào)取相關(guān)視頻、跨視頻搜索等帶來了麻煩。

      本發(fā)明提出了一種適用于文本查詢的視頻摘要生成方法,先給定訓(xùn)練目標(biāo),將視頻幀和文本查詢投影到相同的嵌入空間中,接著評估幀相關(guān)性,計(jì)算質(zhì)量分?jǐn)?shù)、多樣性分?jǐn)?shù)和代表性分?jǐn)?shù),再計(jì)算最終相關(guān)性,并對其進(jìn)行建模,最后使用子模型優(yōu)化的幀創(chuàng)建視頻摘要。本發(fā)明運(yùn)用子模型優(yōu)化幀,創(chuàng)建多個(gè)目標(biāo)的摘要,使子模型目標(biāo)函數(shù)的線性組合最大化,創(chuàng)建出的摘要能更加準(zhǔn)確地傳達(dá)視頻的主要信息,大大節(jié)省了人力和時(shí)間;同時(shí)在創(chuàng)建視頻摘要的基礎(chǔ)上,實(shí)現(xiàn)了文本查詢功能,提高了實(shí)用性。



      技術(shù)實(shí)現(xiàn)要素:

      針對不能實(shí)現(xiàn)文本查詢功能的問題,本發(fā)明的目的在于提供一種適用于文本查詢的視頻摘要生成方法,先給定訓(xùn)練目標(biāo),將視頻幀和文本查詢投影到相同的嵌入空間中,接著評估幀相關(guān)性,計(jì)算質(zhì)量分?jǐn)?shù)、多樣性分?jǐn)?shù)和代表性分?jǐn)?shù),再計(jì)算最終相關(guān)性,并對其進(jìn)行建模,最后使用子模型優(yōu)化的幀創(chuàng)建視頻摘要。

      為解決上述問題,本發(fā)明提供一種適用于文本查詢的視頻摘要生成方法,其主要內(nèi)容包括:

      (一)給定訓(xùn)練目標(biāo);

      (二)評估幀相關(guān)性;

      (三)使用子模型優(yōu)化的幀創(chuàng)建視頻摘要。

      其中,所述的給定訓(xùn)練目標(biāo),給定查詢t的排名約束,相關(guān)幀v+的相關(guān)性分?jǐn)?shù)高于不相關(guān)幀v-的相關(guān)性分?jǐn)?shù):

      r(t,v+)>r(t,v-)(1)

      可以使相關(guān)幀的相似度分?jǐn)?shù)和質(zhì)量分?jǐn)?shù)高于不相關(guān)幀,從而開始訓(xùn)練模型;

      在這種情況下,強(qiáng)加以上兩個(gè)限制條件。

      進(jìn)一步地,所述的約束,為了強(qiáng)加這些約束并訓(xùn)練模型,將損失函數(shù)定義為:

      其中,lp是成本函數(shù),γ是間隔參數(shù);使用huber損失函數(shù)lp。

      其中,所述的評估幀相關(guān)性,將視頻幀v和文本查詢t投影到相同的嵌入空間中;將t和v的投影分別表示為t和v;一旦被訓(xùn)練,給定查詢t的幀v的相關(guān)性可以通過一些相似性度量來估計(jì);使用余弦相似性:

      這可以評估關(guān)于查詢的幀的語義相關(guān)性,也可以基于幀質(zhì)量、構(gòu)圖等對先前的縮略圖做出預(yù)測;計(jì)算最終相關(guān)性,即嵌入相似度和與查詢無關(guān)的幀質(zhì)量項(xiàng)的總和,并對其進(jìn)行建模:

      r(t,v)=s(t,v)+qv(5)

      其中,qv是基于幀v的質(zhì)量作為縮略圖的查詢分?jǐn)?shù)。

      進(jìn)一步地,所述的文本和幀的表示,使用卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測v和qv,通過循環(huán)神經(jīng)網(wǎng)絡(luò)獲得t;為了共同學(xué)習(xí)這些網(wǎng)絡(luò)的參數(shù),用(t,v+,v-)三元組訓(xùn)練。

      進(jìn)一步地,所述的文字表示,首先將查詢的每個(gè)單詞投影到一個(gè)300個(gè)維度的語義空間中,使用長短期記憶(lstm)模型將單個(gè)詞的表示編碼作為單個(gè)固定長度的嵌入,這樣能夠強(qiáng)調(diào)視覺上的信息詞和處理短語。

      進(jìn)一步地,所述的圖像表示,為了表示圖像,利用預(yù)先訓(xùn)練的vgg-19網(wǎng)絡(luò)的特征表征;用301個(gè)維度的線性層m代替softmax層;前300個(gè)維度作為嵌入v,而最后一個(gè)維度代表質(zhì)量分?jǐn)?shù)qv。

      其中,所述的使用子模型優(yōu)化的幀創(chuàng)建視頻摘要,使用子模型優(yōu)化的幀創(chuàng)建多個(gè)目標(biāo)的摘要;在這個(gè)幀中,摘要作為選擇子集y*,其使子模型目標(biāo)函數(shù)的線性組合最大化:

      其中,表示視頻的特征的所有可能解y和的集合;對于非負(fù)權(quán)重w,公式(6)是子模型,意味著可以使用貪婪算法進(jìn)行貪婪評估和近似優(yōu)化。

      進(jìn)一步地,所述的目標(biāo)函數(shù),選擇一小組目標(biāo)函數(shù),每一個(gè)函數(shù)獲取不同方面的摘要:

      1)查詢相似度f(·,·)=∑v∈ys(t,v),其中,t是查詢嵌入,v是幀嵌入,s(·,·)表示公式(4)中定義的余弦相似度;

      2)質(zhì)量分?jǐn)?shù)其中,qv表示基于v的質(zhì)量作為縮略圖的分?jǐn)?shù);

      3)根據(jù)不相似的度量d,為摘要中的元素的多樣性。

      進(jìn)一步地,所述的權(quán)重學(xué)習(xí),學(xué)習(xí)公式(6)中的權(quán)重w,需要查詢視頻對中標(biāo)記的真實(shí)數(shù)據(jù)摘要;如果相關(guān)性和多樣性標(biāo)簽是已知的,可以通過子梯度下降來估計(jì)子模態(tài)函數(shù)的最優(yōu)混合權(quán)重。

      附圖說明

      圖1是本發(fā)明一種適用于文本查詢的視頻摘要生成方法的系統(tǒng)流程圖。

      圖2是本發(fā)明一種適用于文本查詢的視頻摘要生成方法的創(chuàng)建視頻摘要的示例圖。

      具體實(shí)施方式

      需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明作進(jìn)一步詳細(xì)說明。

      圖1是本發(fā)明一種適用于文本查詢的視頻摘要生成方法的系統(tǒng)流程圖。主要包括給定訓(xùn)練目標(biāo),評估幀相關(guān)性,使用子模型優(yōu)化的幀創(chuàng)建視頻摘要。

      給定訓(xùn)練目標(biāo),給定查詢t的排名約束,相關(guān)幀v+的相關(guān)性分?jǐn)?shù)高于不相關(guān)幀v-的相關(guān)性分?jǐn)?shù):

      r(t,v+)>r(t,v-)(1)

      可以使相關(guān)幀的相似度分?jǐn)?shù)和質(zhì)量分?jǐn)?shù)高于不相關(guān)幀,從而開始訓(xùn)練模型;

      在這種情況下,強(qiáng)加以上兩個(gè)限制條件。

      為了強(qiáng)加這些約束并訓(xùn)練模型,將損失函數(shù)定義為:

      其中,lp是成本函數(shù),γ是間隔參數(shù);使用huber損失函數(shù)lp。

      評估幀相關(guān)性,將視頻幀v和文本查詢t投影到相同的嵌入空間中;將t和v的投影分別表示為t和v;一旦被訓(xùn)練,給定查詢t的幀v的相關(guān)性可以通過一些相似性度量來估計(jì);使用余弦相似性:

      這可以評估關(guān)于查詢的幀的語義相關(guān)性,也可以基于幀質(zhì)量、構(gòu)圖等對先前的縮略圖做出預(yù)測;計(jì)算最終相關(guān)性,即嵌入相似度和與查詢無關(guān)的幀質(zhì)量項(xiàng)的總和,并對其進(jìn)行建模:

      r(t,v)=s(t,v)+qv(5)

      其中,qv是基于幀v的質(zhì)量作為縮略圖的查詢分?jǐn)?shù)。

      文本和幀的表示,使用卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測v和qv,通過循環(huán)神經(jīng)網(wǎng)絡(luò)獲得t;為了共同學(xué)習(xí)這些網(wǎng)絡(luò)的參數(shù),用(t,v+,v-)三元組訓(xùn)練。

      文字表示,首先將查詢的每個(gè)單詞投影到一個(gè)300個(gè)維度的語義空間中,使用長短期記憶(lstm)模型將單個(gè)詞的表示編碼作為單個(gè)固定長度的嵌入,這樣能夠強(qiáng)調(diào)視覺上的信息詞和處理短語。

      圖像表示,為了表示圖像,利用預(yù)先訓(xùn)練的vgg-19網(wǎng)絡(luò)的特征表征;用301個(gè)維度的線性層m代替softmax層;前300個(gè)維度作為嵌入v,而最后一個(gè)維度代表質(zhì)量分?jǐn)?shù)qv。

      圖2是本發(fā)明一種適用于文本查詢的視頻摘要生成方法的創(chuàng)建視頻摘要的示例圖。使用子模型優(yōu)化的幀創(chuàng)建多個(gè)目標(biāo)的摘要;在這個(gè)幀中,摘要作為選擇子集y*,其使子模型目標(biāo)函數(shù)的線性組合最大化:

      其中,表示視頻的特征的所有可能解y和的集合;對于非負(fù)權(quán)重w,公式(6)是子模型,意味著可以使用貪婪算法進(jìn)行貪婪評估和近似優(yōu)化。

      選擇一小組目標(biāo)函數(shù),每一個(gè)函數(shù)獲取不同方面的摘要:

      1)查詢相似度f(·,·)=∑v∈ys(t,v),其中,t是查詢嵌入,v是幀嵌入,s(·,·)表示公式(4)中定義的余弦相似度;

      2)質(zhì)量分?jǐn)?shù)其中,qv表示基于v的質(zhì)量作為縮略圖的分?jǐn)?shù);

      3)根據(jù)不相似的度量d,為摘要中的元素的多樣性。

      學(xué)習(xí)公式(6)中的權(quán)重w,需要查詢視頻對中標(biāo)記的真實(shí)數(shù)據(jù)摘要;如果相關(guān)性和多樣性標(biāo)簽是已知的,可以通過子梯度下降來估計(jì)子模態(tài)函數(shù)的最優(yōu)混合權(quán)重。

      對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實(shí)施例的細(xì)節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實(shí)現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1