本發(fā)明涉及視頻分析,具體是一種基于ai智慧視頻分析方法及系統(tǒng)。
背景技術:
1、視頻(video)泛指將一系列靜態(tài)影像以電信號的方式加以捕捉、記錄、處理、儲存、傳送與重現(xiàn)的各種技術。連續(xù)的圖像變化每秒超過24幀(frame)畫面以上時,根據(jù)視覺暫留原理,人眼無法辨別單幅的靜態(tài)畫面;看上去是平滑連續(xù)的視覺效果,這樣連續(xù)的畫面被稱為視頻。
2、現(xiàn)有的已普及的計算機設備的性能很高,這使得視頻逐漸成為了主流媒體數(shù)據(jù),但量,由于視頻內(nèi)容很大,閱讀者很難提前初步了解視頻內(nèi)容,只能通過簡介,對于一些沒有簡介或簡介很簡短的視頻,閱讀者只能自行查閱,在需要進行視頻篩選的場合,篩選過程很困難,如果能夠提供一種視頻內(nèi)容分析方案,使得閱讀者能夠提前了解視頻內(nèi)容,那么可以極大地簡化篩選難度,提高篩選效率。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于ai智慧視頻分析方法及系統(tǒng),以解決上述背景技術中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:
3、一種基于ai智慧視頻分析方法,所述方法包括:
4、開放視頻接收端口,接收待識別視頻;
5、對所述待識別視頻進行切分,得到基于同一時間軸的音頻信息和圖像序列;
6、對所述音頻信息進行識別,對圖像序列進行初次分組,對初次分組后的每一組圖像進行組內(nèi)比對,根據(jù)比對結果進行二次分組,得到最終的圖像組;所述圖像組是圖像的集合,圖像組中含有基于時間軸生成的時間標簽;
7、在每個圖像組中抽取至少一張圖像,對該圖像進行識別,生成評價文本;
8、其中,對圖像進行識別的過程包括固定識別方案和動態(tài)識別方案,所述動態(tài)識別方案是基于神經(jīng)網(wǎng)絡模型的識別方案。
9、作為本發(fā)明進一步的方案:所述對所述待識別視頻進行切分,得到基于同一時間軸的音頻信息和圖像序列的步驟包括:
10、獲取待識別視頻的時間跨度,創(chuàng)建時間軸;
11、基于時間軸在待識別視頻的音頻軌道上提取音頻信息;
12、獲取視頻的幀率,基于幀率在時間軸上選取圖像點,在待識別視頻的圖像軌道上讀取圖像,建立與圖像點的對應關系;
13、基于圖像點的排序順序統(tǒng)計對應的圖像,得到圖像序列。
14、作為本發(fā)明進一步的方案:所述對所述音頻信息進行識別,對圖像序列進行初次分組,對初次分組后的每一組圖像進行組內(nèi)比對,根據(jù)比對結果進行二次分組,得到最終的圖像組的步驟包括:
15、根據(jù)時間順序讀取音頻信息的幅值,基于所述幅值對音頻信息進行分段;
16、讀取每一段音頻信息對應的所有圖像,保留圖像順序,得到初次分組結果;
17、在初次分組后的每一組圖像中依次圖像,將圖像與相鄰的預設數(shù)量的圖像進行比對,確定圖像的普遍度;
18、根據(jù)所述普遍度對同一組圖像進行二次分組,得到最終的圖像組。
19、作為本發(fā)明進一步的方案:對音頻信息進行分段的過程為:
20、根據(jù)時間順序讀取音頻幅值,根據(jù)音頻幅值生成分段點;
21、;表示第個分段點,表示的前一個分段點,表示時間差,,表示時長范圍內(nèi)的幅值標準差,為預設的閾值;表示符合條件的取值的最大值;
22、圖像的普遍度的確定過程為:
23、;表示圖像的普遍度,表示預設的圖像選取半徑,其值為正值;表示在圖像選取半徑范圍內(nèi)的第個圖像與當前圖像的相似度,相似度的取值為零到一;為預設的調(diào)節(jié)常數(shù)。
24、作為本發(fā)明進一步的方案:所述在每個圖像組中抽取至少一張圖像,對該圖像進行識別,生成評價文本的步驟包括:
25、對于每個圖像組,讀取每張圖像的普遍度,根據(jù)所述普遍度抽取至少一張圖像;
26、對抽取到的圖像進行主體識別,得到主體詞組;
27、根據(jù)圖像序列的圖像順序排列每張圖像的主體詞組,基于統(tǒng)計語言模型將主體詞組轉(zhuǎn)換為語句;
28、統(tǒng)計所有語句,得到評價文本。
29、作為本發(fā)明進一步的方案:所述在每個圖像組中抽取至少一張圖像,對該圖像進行識別,生成評價文本的步驟還包括:
30、預先構建圖像至描述語句的樣本集,基于所述樣本集訓練神經(jīng)網(wǎng)絡模型;
31、在圖像進行識別時,將圖像及其對應的語句作為新的樣本,更新樣本集;
32、根據(jù)新的樣本實時判斷神經(jīng)網(wǎng)絡模型的誤差率,根據(jù)所述誤差率調(diào)節(jié)固定識別方案的應用頻率;
33、定時將新的樣本向驗證端發(fā)送,接收驗證端反饋的樣本修正指令。
34、本發(fā)明技術方案還提供了一種基于ai智慧視頻分析系統(tǒng),所述系統(tǒng)包括:
35、視頻接收模塊,用于開放視頻接收端口,接收待識別視頻;
36、成分提取模塊,用于對所述待識別視頻進行切分,得到基于同一時間軸的音頻信息和圖像序列;
37、視頻分組模塊,用于對所述音頻信息進行識別,對圖像序列進行初次分組,對初次分組后的每一組圖像進行組內(nèi)比對,根據(jù)比對結果進行二次分組,得到最終的圖像組;所述圖像組是圖像的集合,圖像組中含有基于時間軸生成的時間標簽;
38、圖像識別模塊,用于在每個圖像組中抽取至少一張圖像,對該圖像進行識別,生成評價文本;
39、其中,對圖像進行識別的過程包括固定識別方案和動態(tài)識別方案,所述動態(tài)識別方案是基于神經(jīng)網(wǎng)絡模型的識別方案。
40、作為本發(fā)明進一步的方案:所述成分提取模塊包括:
41、時間軸創(chuàng)建單元,用于獲取待識別視頻的時間跨度,創(chuàng)建時間軸;
42、音頻信息提取單元,用于基于時間軸在待識別視頻的音頻軌道上提取音頻信息;
43、圖像插入單元,用于獲取視頻的幀率,基于幀率在時間軸上選取圖像點,在待識別視頻的圖像軌道上讀取圖像,建立與圖像點的對應關系;
44、圖像排列單元,用于基于圖像點的排序順序統(tǒng)計對應的圖像,得到圖像序列。
45、作為本發(fā)明進一步的方案:所述視頻分組模塊包括:
46、音頻信息分析單元,用于根據(jù)時間順序讀取音頻信息的幅值,基于所述幅值對音頻信息進行分段;
47、圖像讀取單元,用于讀取每一段音頻信息對應的所有圖像,保留圖像順序,得到初次分組結果;
48、普遍度計算單元,用于在初次分組后的每一組圖像中依次圖像,將圖像與相鄰的預設數(shù)量的圖像進行比對,確定圖像的普遍度;
49、二次分組單元,用于根據(jù)所述普遍度對同一組圖像進行二次分組,得到最終的圖像組。
50、作為本發(fā)明進一步的方案:所述圖像識別模塊包括:
51、抽取執(zhí)行單元,用于對于每個圖像組,讀取每張圖像的普遍度,根據(jù)所述普遍度抽取至少一張圖像;
52、主體識別單元,用于對抽取到的圖像進行主體識別,得到主體詞組;
53、語句生成單元,用于根據(jù)圖像序列的圖像順序排列每張圖像的主體詞組,基于統(tǒng)計語言模型將主體詞組轉(zhuǎn)換為語句;
54、語句統(tǒng)計單元,用于統(tǒng)計所有語句,得到評價文本。
55、與現(xiàn)有技術相比,本發(fā)明的有益效果是:本發(fā)明在視頻文件中抽取部分圖像,借助基于ai的固定識別方案和基于本地模型的動態(tài)識別方案對圖像進行分析,在生成分析內(nèi)容的基礎上,訓練了本地模型,最終得到一個效率極高的本地模型,在接收到分析請求時,可以極快地將視頻轉(zhuǎn)換為文本,便于用戶快速了解視頻內(nèi)容。