一種基于AI智慧視頻分析方法及系統(tǒng)與流程

文檔序號：40378935發(fā)布日期：2024-12-20 12:01閱讀：9來源：國知局

本發(fā)明涉及視頻分析，具體是一種基于ai智慧視頻分析方法及系統(tǒng)。

背景技術：

1、視頻（video）泛指將一系列靜態(tài)影像以電信號的方式加以捕捉、記錄、處理、儲存、傳送與重現(xiàn)的各種技術。連續(xù)的圖像變化每秒超過24幀（frame）畫面以上時，根據(jù)視覺暫留原理，人眼無法辨別單幅的靜態(tài)畫面；看上去是平滑連續(xù)的視覺效果，這樣連續(xù)的畫面被稱為視頻。

2、現(xiàn)有的已普及的計算機設備的性能很高，這使得視頻逐漸成為了主流媒體數(shù)據(jù)，但量，由于視頻內(nèi)容很大，閱讀者很難提前初步了解視頻內(nèi)容，只能通過簡介，對于一些沒有簡介或簡介很簡短的視頻，閱讀者只能自行查閱，在需要進行視頻篩選的場合，篩選過程很困難，如果能夠提供一種視頻內(nèi)容分析方案，使得閱讀者能夠提前了解視頻內(nèi)容，那么可以極大地簡化篩選難度，提高篩選效率。

技術實現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于ai智慧視頻分析方法及系統(tǒng)，以解決上述背景技術中提出的問題。

2、為實現(xiàn)上述目的，本發(fā)明提供如下技術方案：

3、一種基于ai智慧視頻分析方法，所述方法包括：

4、開放視頻接收端口，接收待識別視頻；

5、對所述待識別視頻進行切分，得到基于同一時間軸的音頻信息和圖像序列；

6、對所述音頻信息進行識別，對圖像序列進行初次分組，對初次分組后的每一組圖像進行組內(nèi)比對，根據(jù)比對結果進行二次分組，得到最終的圖像組；所述圖像組是圖像的集合，圖像組中含有基于時間軸生成的時間標簽；

7、在每個圖像組中抽取至少一張圖像，對該圖像進行識別，生成評價文本；

8、其中，對圖像進行識別的過程包括固定識別方案和動態(tài)識別方案，所述動態(tài)識別方案是基于神經(jīng)網(wǎng)絡模型的識別方案。

9、作為本發(fā)明進一步的方案：所述對所述待識別視頻進行切分，得到基于同一時間軸的音頻信息和圖像序列的步驟包括：

10、獲取待識別視頻的時間跨度，創(chuàng)建時間軸；

11、基于時間軸在待識別視頻的音頻軌道上提取音頻信息；

12、獲取視頻的幀率，基于幀率在時間軸上選取圖像點，在待識別視頻的圖像軌道上讀取圖像，建立與圖像點的對應關系；

13、基于圖像點的排序順序統(tǒng)計對應的圖像，得到圖像序列。

14、作為本發(fā)明進一步的方案：所述對所述音頻信息進行識別，對圖像序列進行初次分組，對初次分組后的每一組圖像進行組內(nèi)比對，根據(jù)比對結果進行二次分組，得到最終的圖像組的步驟包括：

15、根據(jù)時間順序讀取音頻信息的幅值，基于所述幅值對音頻信息進行分段；

16、讀取每一段音頻信息對應的所有圖像，保留圖像順序，得到初次分組結果；

17、在初次分組后的每一組圖像中依次圖像，將圖像與相鄰的預設數(shù)量的圖像進行比對，確定圖像的普遍度；

18、根據(jù)所述普遍度對同一組圖像進行二次分組，得到最終的圖像組。

19、作為本發(fā)明進一步的方案：對音頻信息進行分段的過程為：

20、根據(jù)時間順序讀取音頻幅值，根據(jù)音頻幅值生成分段點；

21、；表示第個分段點，表示的前一個分段點，表示時間差，，表示時長范圍內(nèi)的幅值標準差，為預設的閾值；表示符合條件的取值的最大值；

22、圖像的普遍度的確定過程為：

23、；表示圖像的普遍度，表示預設的圖像選取半徑，其值為正值；表示在圖像選取半徑范圍內(nèi)的第個圖像與當前圖像的相似度，相似度的取值為零到一；為預設的調(diào)節(jié)常數(shù)。

24、作為本發(fā)明進一步的方案：所述在每個圖像組中抽取至少一張圖像，對該圖像進行識別，生成評價文本的步驟包括：

25、對于每個圖像組，讀取每張圖像的普遍度，根據(jù)所述普遍度抽取至少一張圖像；

26、對抽取到的圖像進行主體識別，得到主體詞組；

27、根據(jù)圖像序列的圖像順序排列每張圖像的主體詞組，基于統(tǒng)計語言模型將主體詞組轉(zhuǎn)換為語句；

28、統(tǒng)計所有語句，得到評價文本。

29、作為本發(fā)明進一步的方案：所述在每個圖像組中抽取至少一張圖像，對該圖像進行識別，生成評價文本的步驟還包括：

30、預先構建圖像至描述語句的樣本集，基于所述樣本集訓練神經(jīng)網(wǎng)絡模型；

31、在圖像進行識別時，將圖像及其對應的語句作為新的樣本，更新樣本集；

32、根據(jù)新的樣本實時判斷神經(jīng)網(wǎng)絡模型的誤差率，根據(jù)所述誤差率調(diào)節(jié)固定識別方案的應用頻率；

33、定時將新的樣本向驗證端發(fā)送，接收驗證端反饋的樣本修正指令。

34、本發(fā)明技術方案還提供了一種基于ai智慧視頻分析系統(tǒng)，所述系統(tǒng)包括：

35、視頻接收模塊，用于開放視頻接收端口，接收待識別視頻；

36、成分提取模塊，用于對所述待識別視頻進行切分，得到基于同一時間軸的音頻信息和圖像序列；

37、視頻分組模塊，用于對所述音頻信息進行識別，對圖像序列進行初次分組，對初次分組后的每一組圖像進行組內(nèi)比對，根據(jù)比對結果進行二次分組，得到最終的圖像組；所述圖像組是圖像的集合，圖像組中含有基于時間軸生成的時間標簽；

38、圖像識別模塊，用于在每個圖像組中抽取至少一張圖像，對該圖像進行識別，生成評價文本；

39、其中，對圖像進行識別的過程包括固定識別方案和動態(tài)識別方案，所述動態(tài)識別方案是基于神經(jīng)網(wǎng)絡模型的識別方案。

40、作為本發(fā)明進一步的方案：所述成分提取模塊包括：

41、時間軸創(chuàng)建單元，用于獲取待識別視頻的時間跨度，創(chuàng)建時間軸；

42、音頻信息提取單元，用于基于時間軸在待識別視頻的音頻軌道上提取音頻信息；

43、圖像插入單元，用于獲取視頻的幀率，基于幀率在時間軸上選取圖像點，在待識別視頻的圖像軌道上讀取圖像，建立與圖像點的對應關系；

44、圖像排列單元，用于基于圖像點的排序順序統(tǒng)計對應的圖像，得到圖像序列。

45、作為本發(fā)明進一步的方案：所述視頻分組模塊包括：

46、音頻信息分析單元，用于根據(jù)時間順序讀取音頻信息的幅值，基于所述幅值對音頻信息進行分段；

47、圖像讀取單元，用于讀取每一段音頻信息對應的所有圖像，保留圖像順序，得到初次分組結果；

48、普遍度計算單元，用于在初次分組后的每一組圖像中依次圖像，將圖像與相鄰的預設數(shù)量的圖像進行比對，確定圖像的普遍度；

49、二次分組單元，用于根據(jù)所述普遍度對同一組圖像進行二次分組，得到最終的圖像組。

50、作為本發(fā)明進一步的方案：所述圖像識別模塊包括：

51、抽取執(zhí)行單元，用于對于每個圖像組，讀取每張圖像的普遍度，根據(jù)所述普遍度抽取至少一張圖像；

52、主體識別單元，用于對抽取到的圖像進行主體識別，得到主體詞組；

53、語句生成單元，用于根據(jù)圖像序列的圖像順序排列每張圖像的主體詞組，基于統(tǒng)計語言模型將主體詞組轉(zhuǎn)換為語句；

54、語句統(tǒng)計單元，用于統(tǒng)計所有語句，得到評價文本。

55、與現(xiàn)有技術相比，本發(fā)明的有益效果是：本發(fā)明在視頻文件中抽取部分圖像，借助基于ai的固定識別方案和基于本地模型的動態(tài)識別方案對圖像進行分析，在生成分析內(nèi)容的基礎上，訓練了本地模型，最終得到一個效率極高的本地模型，在接收到分析請求時，可以極快地將視頻轉(zhuǎn)換為文本，便于用戶快速了解視頻內(nèi)容。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：寧汝明,周良臣,王文偉,王悅
技術所有人：山東恒邁信息科技有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于AI智慧視頻分析方法及系統(tǒng)與流程