国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于AI智慧視頻分析方法及系統(tǒng)與流程

      文檔序號:40378935發(fā)布日期:2024-12-20 12:01閱讀:9來源:國知局
      一種基于AI智慧視頻分析方法及系統(tǒng)與流程

      本發(fā)明涉及視頻分析,具體是一種基于ai智慧視頻分析方法及系統(tǒng)。


      背景技術:

      1、視頻(video)泛指將一系列靜態(tài)影像以電信號的方式加以捕捉、記錄、處理、儲存、傳送與重現(xiàn)的各種技術。連續(xù)的圖像變化每秒超過24幀(frame)畫面以上時,根據(jù)視覺暫留原理,人眼無法辨別單幅的靜態(tài)畫面;看上去是平滑連續(xù)的視覺效果,這樣連續(xù)的畫面被稱為視頻。

      2、現(xiàn)有的已普及的計算機設備的性能很高,這使得視頻逐漸成為了主流媒體數(shù)據(jù),但量,由于視頻內(nèi)容很大,閱讀者很難提前初步了解視頻內(nèi)容,只能通過簡介,對于一些沒有簡介或簡介很簡短的視頻,閱讀者只能自行查閱,在需要進行視頻篩選的場合,篩選過程很困難,如果能夠提供一種視頻內(nèi)容分析方案,使得閱讀者能夠提前了解視頻內(nèi)容,那么可以極大地簡化篩選難度,提高篩選效率。


      技術實現(xiàn)思路

      1、本發(fā)明的目的在于提供一種基于ai智慧視頻分析方法及系統(tǒng),以解決上述背景技術中提出的問題。

      2、為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:

      3、一種基于ai智慧視頻分析方法,所述方法包括:

      4、開放視頻接收端口,接收待識別視頻;

      5、對所述待識別視頻進行切分,得到基于同一時間軸的音頻信息和圖像序列;

      6、對所述音頻信息進行識別,對圖像序列進行初次分組,對初次分組后的每一組圖像進行組內(nèi)比對,根據(jù)比對結果進行二次分組,得到最終的圖像組;所述圖像組是圖像的集合,圖像組中含有基于時間軸生成的時間標簽;

      7、在每個圖像組中抽取至少一張圖像,對該圖像進行識別,生成評價文本;

      8、其中,對圖像進行識別的過程包括固定識別方案和動態(tài)識別方案,所述動態(tài)識別方案是基于神經(jīng)網(wǎng)絡模型的識別方案。

      9、作為本發(fā)明進一步的方案:所述對所述待識別視頻進行切分,得到基于同一時間軸的音頻信息和圖像序列的步驟包括:

      10、獲取待識別視頻的時間跨度,創(chuàng)建時間軸;

      11、基于時間軸在待識別視頻的音頻軌道上提取音頻信息;

      12、獲取視頻的幀率,基于幀率在時間軸上選取圖像點,在待識別視頻的圖像軌道上讀取圖像,建立與圖像點的對應關系;

      13、基于圖像點的排序順序統(tǒng)計對應的圖像,得到圖像序列。

      14、作為本發(fā)明進一步的方案:所述對所述音頻信息進行識別,對圖像序列進行初次分組,對初次分組后的每一組圖像進行組內(nèi)比對,根據(jù)比對結果進行二次分組,得到最終的圖像組的步驟包括:

      15、根據(jù)時間順序讀取音頻信息的幅值,基于所述幅值對音頻信息進行分段;

      16、讀取每一段音頻信息對應的所有圖像,保留圖像順序,得到初次分組結果;

      17、在初次分組后的每一組圖像中依次圖像,將圖像與相鄰的預設數(shù)量的圖像進行比對,確定圖像的普遍度;

      18、根據(jù)所述普遍度對同一組圖像進行二次分組,得到最終的圖像組。

      19、作為本發(fā)明進一步的方案:對音頻信息進行分段的過程為:

      20、根據(jù)時間順序讀取音頻幅值,根據(jù)音頻幅值生成分段點;

      21、;表示第個分段點,表示的前一個分段點,表示時間差,,表示時長范圍內(nèi)的幅值標準差,為預設的閾值;表示符合條件的取值的最大值;

      22、圖像的普遍度的確定過程為:

      23、;表示圖像的普遍度,表示預設的圖像選取半徑,其值為正值;表示在圖像選取半徑范圍內(nèi)的第個圖像與當前圖像的相似度,相似度的取值為零到一;為預設的調(diào)節(jié)常數(shù)。

      24、作為本發(fā)明進一步的方案:所述在每個圖像組中抽取至少一張圖像,對該圖像進行識別,生成評價文本的步驟包括:

      25、對于每個圖像組,讀取每張圖像的普遍度,根據(jù)所述普遍度抽取至少一張圖像;

      26、對抽取到的圖像進行主體識別,得到主體詞組;

      27、根據(jù)圖像序列的圖像順序排列每張圖像的主體詞組,基于統(tǒng)計語言模型將主體詞組轉(zhuǎn)換為語句;

      28、統(tǒng)計所有語句,得到評價文本。

      29、作為本發(fā)明進一步的方案:所述在每個圖像組中抽取至少一張圖像,對該圖像進行識別,生成評價文本的步驟還包括:

      30、預先構建圖像至描述語句的樣本集,基于所述樣本集訓練神經(jīng)網(wǎng)絡模型;

      31、在圖像進行識別時,將圖像及其對應的語句作為新的樣本,更新樣本集;

      32、根據(jù)新的樣本實時判斷神經(jīng)網(wǎng)絡模型的誤差率,根據(jù)所述誤差率調(diào)節(jié)固定識別方案的應用頻率;

      33、定時將新的樣本向驗證端發(fā)送,接收驗證端反饋的樣本修正指令。

      34、本發(fā)明技術方案還提供了一種基于ai智慧視頻分析系統(tǒng),所述系統(tǒng)包括:

      35、視頻接收模塊,用于開放視頻接收端口,接收待識別視頻;

      36、成分提取模塊,用于對所述待識別視頻進行切分,得到基于同一時間軸的音頻信息和圖像序列;

      37、視頻分組模塊,用于對所述音頻信息進行識別,對圖像序列進行初次分組,對初次分組后的每一組圖像進行組內(nèi)比對,根據(jù)比對結果進行二次分組,得到最終的圖像組;所述圖像組是圖像的集合,圖像組中含有基于時間軸生成的時間標簽;

      38、圖像識別模塊,用于在每個圖像組中抽取至少一張圖像,對該圖像進行識別,生成評價文本;

      39、其中,對圖像進行識別的過程包括固定識別方案和動態(tài)識別方案,所述動態(tài)識別方案是基于神經(jīng)網(wǎng)絡模型的識別方案。

      40、作為本發(fā)明進一步的方案:所述成分提取模塊包括:

      41、時間軸創(chuàng)建單元,用于獲取待識別視頻的時間跨度,創(chuàng)建時間軸;

      42、音頻信息提取單元,用于基于時間軸在待識別視頻的音頻軌道上提取音頻信息;

      43、圖像插入單元,用于獲取視頻的幀率,基于幀率在時間軸上選取圖像點,在待識別視頻的圖像軌道上讀取圖像,建立與圖像點的對應關系;

      44、圖像排列單元,用于基于圖像點的排序順序統(tǒng)計對應的圖像,得到圖像序列。

      45、作為本發(fā)明進一步的方案:所述視頻分組模塊包括:

      46、音頻信息分析單元,用于根據(jù)時間順序讀取音頻信息的幅值,基于所述幅值對音頻信息進行分段;

      47、圖像讀取單元,用于讀取每一段音頻信息對應的所有圖像,保留圖像順序,得到初次分組結果;

      48、普遍度計算單元,用于在初次分組后的每一組圖像中依次圖像,將圖像與相鄰的預設數(shù)量的圖像進行比對,確定圖像的普遍度;

      49、二次分組單元,用于根據(jù)所述普遍度對同一組圖像進行二次分組,得到最終的圖像組。

      50、作為本發(fā)明進一步的方案:所述圖像識別模塊包括:

      51、抽取執(zhí)行單元,用于對于每個圖像組,讀取每張圖像的普遍度,根據(jù)所述普遍度抽取至少一張圖像;

      52、主體識別單元,用于對抽取到的圖像進行主體識別,得到主體詞組;

      53、語句生成單元,用于根據(jù)圖像序列的圖像順序排列每張圖像的主體詞組,基于統(tǒng)計語言模型將主體詞組轉(zhuǎn)換為語句;

      54、語句統(tǒng)計單元,用于統(tǒng)計所有語句,得到評價文本。

      55、與現(xiàn)有技術相比,本發(fā)明的有益效果是:本發(fā)明在視頻文件中抽取部分圖像,借助基于ai的固定識別方案和基于本地模型的動態(tài)識別方案對圖像進行分析,在生成分析內(nèi)容的基礎上,訓練了本地模型,最終得到一個效率極高的本地模型,在接收到分析請求時,可以極快地將視頻轉(zhuǎn)換為文本,便于用戶快速了解視頻內(nèi)容。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1