国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      音視頻文件的索引建立和檢索方法、裝置及系統(tǒng)的制作方法

      文檔序號:6354994閱讀:143來源:國知局
      專利名稱:音視頻文件的索引建立和檢索方法、裝置及系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及音視頻技術(shù)領(lǐng)域,尤其涉及一種音視頻文件的索引建立和檢索方法、裝置及系統(tǒng)。
      背景技術(shù)
      隨著廣播電視技術(shù)的迅猛發(fā)展,音視頻節(jié)目的套數(shù)、播出時間及產(chǎn)量也大幅度地増加。與此同時,用戶對廣播電視的需求也變得多祥化。面對音視頻節(jié)目不斷増加和多祥化的現(xiàn)狀,如何在海量的音視頻節(jié)目中實(shí)現(xiàn)快速檢索和定位所需要的音視頻節(jié)目也逐漸成為廣播電視技術(shù)領(lǐng)域中亟待解決的問題。現(xiàn)有技術(shù)在實(shí)現(xiàn)音視頻節(jié)目的檢索和定位吋,首先由工作人員通過素材標(biāo)題查找到符合該素材標(biāo)題的音視頻文件,然后,對整個的音視頻文件進(jìn)行人エ瀏覽,并由工作人員來確定是否有需要的音視頻內(nèi)容。因而,當(dāng)采用現(xiàn)有技術(shù)在海量的音視頻文件中檢索所需要的音視頻內(nèi)容時,花費(fèi)的工作量較大,耗時較長,從而使得音視頻文件的檢索效率和成功率也較低。

      發(fā)明內(nèi)容
      本發(fā)明的實(shí)施例提供一種音視頻文件的索引建立和檢索方法、裝置及系統(tǒng),提高音視頻文件的檢索效率和成功率。為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案一種音視頻文件的索引建立方法,包括從音視頻文件中提取關(guān)鍵信息并記錄所述關(guān)鍵信息在所述音視頻文件中的所處位置,所述關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字;將所述關(guān)鍵信息、所述音視頻文件的標(biāo)識及所述音視頻文件的存儲位置之間的關(guān)聯(lián)關(guān)系保存為索引記錄。一種音視頻文件的檢索方法,包括從待檢索音視頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字中的至少ー種信息;將所述待檢索關(guān)鍵信息與索引記錄中的關(guān)鍵信息進(jìn)行匹配,并將與所述待檢索關(guān)鍵信息完全匹配的關(guān)鍵信息作為目標(biāo)關(guān)鍵信息;獲取與所述目標(biāo)關(guān)鍵信息相關(guān)聯(lián)的目標(biāo)音視頻文件的標(biāo)識、目標(biāo)音視頻文件的存儲地址,從所述目標(biāo)音視頻文件的存儲地址中獲取所述目標(biāo)音視頻文件的標(biāo)識所表示的目標(biāo)音視頻文件,并在所述目標(biāo)音視頻文件中定位所述目標(biāo)關(guān)鍵信息的所處位置。本發(fā)明實(shí)施例還提供ー種索引建立裝置,包括提取單元,用于從音視頻文件中提取關(guān)鍵信息并記錄所述關(guān)鍵信息在所述音視頻文件中的所處位置,所述關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字;、
      保存単元,用于將所述關(guān)鍵信息、所述音視頻文件的標(biāo)識及所述音視頻文件的存儲位置之間的關(guān)聯(lián)關(guān)系保存為索引記錄。一種檢索裝置,包括提取單元,用于從待檢索音視頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字中的至少ー種信息;匹配単元,用于將所述待檢索關(guān)鍵信息與索引記錄中的關(guān)鍵信息進(jìn)行匹配,并將與所述待檢索關(guān)鍵信息完全匹配的關(guān)鍵信息作為目標(biāo)關(guān)鍵信息;獲取單元,用于獲取與所述目標(biāo)關(guān)鍵信息相關(guān)聯(lián)的目標(biāo)音視頻文件的標(biāo)識、目標(biāo)音視頻文件的存儲地址,從所述目標(biāo)音視頻文件的存儲地址中獲取所述目標(biāo)音視頻文件的標(biāo)識所表示的目標(biāo)音視頻文件,并在所述目標(biāo)音視頻文件中定位所述目標(biāo)關(guān)鍵信息的所處
      位置。 本發(fā)明實(shí)施例還提供ー種音視頻文件的檢索系統(tǒng),包括索引建立裝置,用于從音視頻文件中提取關(guān)鍵信息并記錄所述關(guān)鍵信息在所述音視頻文件中的所處位置,所述關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字;將所述關(guān)鍵信息、所述音視頻文件的標(biāo)識及所述音視頻文件的存儲位置之間的關(guān)聯(lián)關(guān)系保存為索引記錄;檢索裝置,用于從待檢索音視頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字中的至少ー種信息;將所述待檢索關(guān)鍵信息與索引記錄中的關(guān)鍵信息進(jìn)行匹配,并將與所述待檢索關(guān)鍵信息完全匹配的關(guān)鍵信息作為目標(biāo)關(guān)鍵信息;獲取與所述目標(biāo)關(guān)鍵信息相關(guān)聯(lián)的目標(biāo)音視頻文件的標(biāo)識、目標(biāo)音視頻文件的存儲地址,從所述目標(biāo)音視頻文件的存儲地址中獲取所述目標(biāo)音視頻文件的標(biāo)識所表示的目標(biāo)音視頻文件,并在所述目標(biāo)音視頻文件中定位所述目標(biāo)關(guān)鍵信息的所處位置;索引數(shù)據(jù)庫,用于保存所述索引記錄。由上述技術(shù)方案所描述的本發(fā)明實(shí)施例,在進(jìn)行索引建立時,提取音視頻文件本身具有的關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字等信息,并將所述提取出來的信息、音視頻文件的標(biāo)識和存儲位置作為索引記錄。在進(jìn)行檢索時,首先提取出待檢索音視頻文件的待檢索關(guān)鍵信息,并利用上述待檢索關(guān)鍵信息作為檢索條件,即可從素材庫中查找出與上述待檢索音視頻文件完全匹配的目標(biāo)音視頻文件,并根據(jù)索引建立時所記錄的關(guān)鍵信息的所處位置,可以在查找出的目標(biāo)音視頻文件中快速定位待檢索關(guān)鍵信息所處位置。與現(xiàn)有技術(shù)需要通過人工瀏覽來查找出目標(biāo)音視頻文件相比,本發(fā)明實(shí)施例在海量音視頻文件中進(jìn)行檢索時,可以利用音視頻文件本身的關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字等信息快速定位到對應(yīng)目標(biāo)音視頻文件中的位置,可以節(jié)省大量的人力資源,提高音視頻文件的檢索效率和成功率。


      為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I為本發(fā)明實(shí)施例提供的一種音視頻文件的索引建立方法的流程圖;圖2為本發(fā)明實(shí)施例提供的一種音視頻文件的檢索方法的流程圖;圖3為本發(fā)明實(shí)施例提供的一種音視頻文件的索引建立裝置的結(jié)構(gòu)圖;圖4為本發(fā)明實(shí)施例提供的一種音視頻文件的檢索裝置的結(jié)構(gòu)圖;圖5為本發(fā)明實(shí)施例提供的一種音視頻文件的檢索系統(tǒng)的結(jié)構(gòu)圖。
      具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。實(shí)施例I :本發(fā)明實(shí)施例提供一種音視頻文件的索引建立方法,如圖I所示,包括如下步驟101、從音視頻文件中提取關(guān)鍵信息并記錄所述關(guān)鍵信息在所述音視頻文件中的所處位置,所述關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字。具體應(yīng)用時,素材庫中的每ー個音視頻文件都需要進(jìn)行關(guān)鍵信息的提取,可選的,本步驟可以通過如下方式實(shí)現(xiàn)在提取關(guān)鍵幀圖像時,首先檢測音視頻文件中的轉(zhuǎn)場鏡頭點(diǎn),在檢測出的轉(zhuǎn)場鏡頭點(diǎn)處對音視頻文件進(jìn)行轉(zhuǎn)場鏡頭切割,獲取鏡頭分割點(diǎn)的圖像。將每ー個所述鏡頭分割點(diǎn)的圖像作為ー個關(guān)鍵幀圖像,并記錄所述關(guān)鍵幀圖像在所述音視頻文件中的播放位置。例如,采用開源Opencv實(shí)現(xiàn)關(guān)鍵幀圖像的提取,提取出的關(guān)鍵幀圖像用來表示一個片段的鏡頭內(nèi)容。之后,記錄所述關(guān)鍵幀圖像在所述音視頻文件中的播放位置,以便于在檢索時可以實(shí)現(xiàn)所述關(guān)鍵幀圖像在上述音視頻文件中的快速定位。在提取字幕文字吋,將相鄰的兩個所述關(guān)鍵幀圖像作為起點(diǎn)和終點(diǎn),從位于起點(diǎn)和終點(diǎn)之間的每一個圖像幀中提取字幕文字。例如,采用開源Opencv實(shí)現(xiàn)字幕文字的提取。然后,記錄所述字幕文字在所述音視頻文件中的播放位置,以便于在檢索時可以快速定位所述字幕文字在上述音視頻文件中的播放位置。在提取音頻特征值時,將相鄰的兩個所述關(guān)鍵幀圖像作為起點(diǎn)和終點(diǎn),從位于起點(diǎn)和終點(diǎn)之間的音視頻片段中提取音頻特征值,并將其序列化成一串?dāng)?shù)字,采用這一串?dāng)?shù)字來表示音頻特征值。不同的音視頻片段具有不同的音頻特征值。提取所述音視頻文件中每個音視頻片段的音頻特征值之后,記錄所述音頻特征值對應(yīng)的音視頻片段在所述音視頻 文件中的播放位置,以便于在檢索時可以快速定位所述音頻特征值對應(yīng)的音視頻片段在上述音視頻文件中的播放位置。在提取語音識別文字吋,將相鄰的兩個所述關(guān)鍵幀圖像作為起點(diǎn)和終點(diǎn),從位于起點(diǎn)和終點(diǎn)之間的音視頻片段進(jìn)行語音識別,將進(jìn)行語音識別得出的文字作為語音識別文字。例如,采用開源Opencv將音視頻文件中的標(biāo)準(zhǔn)普通話識別并轉(zhuǎn)化為文字。之后,記錄所述語音識別文字對應(yīng)的音視頻片段在所述音視頻文件中的播放位置,以便于在檢索時可以快速定位所述語音識別文字對應(yīng)的音視頻片段在上述音視頻文件中的播放位置。需要說明的是,本發(fā)明實(shí)施例將利用語音識別技術(shù)從音視頻文件中的音頻識別出的文字稱之為語音識別文字。102、將所述關(guān)鍵信息、所述音視頻文件的標(biāo)識及所述音視頻文件的存儲位置之間的關(guān)聯(lián)關(guān)系保存為索引記錄。以便于在檢索時,可以根據(jù)上述音視頻文件的關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字中的至少ー種信息檢索出對應(yīng)的音視頻文件。相應(yīng)地,本發(fā)明實(shí)施例還ー種音視頻文件的檢索方法,如圖2所示,包括如下步驟201、從待檢索音視頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字中的至少ー種信息。在進(jìn)行音視頻文件檢索時,如果用戶希望從素材庫中檢索出與某段音視頻文件相匹配的素材時,可以將該段音視頻文件作為檢索條件,并從該段音視頻文件中提取待檢索 關(guān)鍵信息,具體提取過程可以參照圖I所示的音視頻文件的索引建立方法中的步驟101。202、將所述待檢索關(guān)鍵信息與索引記錄中的關(guān)鍵信息進(jìn)行匹配,并將與所述待檢索關(guān)鍵信息完全匹配的關(guān)鍵信息作為目標(biāo)關(guān)鍵信息;203、獲取與所述目標(biāo)關(guān)鍵信息相關(guān)聯(lián)的目標(biāo)音視頻文件的標(biāo)識、目標(biāo)音視頻文件的存儲地址,從所述目標(biāo)音視頻文件的存儲地址中獲取所述目標(biāo)音視頻文件的標(biāo)識所表示的目標(biāo)音視頻文件,并在所述目標(biāo)音視頻文件中定位所述目標(biāo)關(guān)鍵信息的所處位置。需要說明的是,由于在索引建立的過程中,執(zhí)行102之后,在索引數(shù)據(jù)庫的每一條索引記錄中保存有關(guān)鍵信息、所述音視頻文件的標(biāo)識及所述音視頻文件的存儲位置之間的關(guān)聯(lián)關(guān)系。因而,在步驟202從索引數(shù)據(jù)庫查找出與所述待檢索關(guān)鍵信息完全匹配的關(guān)鍵信息后,可以從所述目標(biāo)音視頻文件的存儲位置獲取目標(biāo)音視頻文件,并在目標(biāo)音視頻文件中快速定位到關(guān)鍵信息所在位置,例如在目標(biāo)音視頻文件中定位待檢索音視頻文件對應(yīng)的字幕文字、音頻所在的位置等。實(shí)際應(yīng)用時,如果采用上述圖I所示的索引建立方法對音視頻文件進(jìn)行索引建立,那么在檢索吋,需要采用上述圖2所示的檢索方法來實(shí)現(xiàn)對所需要的音視頻文件的檢索。由上述圖I和圖2所描述的本發(fā)明實(shí)施例中,在進(jìn)行索引建立時,提取音視頻文件本身具有的關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字等信息,并將所述提取出來的信息、音視頻文件的標(biāo)識和存儲位置作為索引記錄。在對音視頻文件進(jìn)行檢索吋,首先提取出待檢索音視頻文件的待檢索關(guān)鍵信息,并利用上述待檢索關(guān)鍵信息作為檢索條件,即可從素材庫中查找出與上述待檢索音視頻文件完全匹配的目標(biāo)音視頻文件,并根據(jù)索引建立時所記錄的關(guān)鍵信息的所處位置,可以在查找出的目標(biāo)音視頻文件中快速定位待檢索關(guān)鍵信息所處位置。與現(xiàn)有技術(shù)需要通過人工瀏覽來查找出目標(biāo)音視頻文件相比,本發(fā)明實(shí)施例可以節(jié)省大量的人力資源,提高音視頻文件的檢索效率和成功率。進(jìn)ー步地,上述待檢索音視頻文件可以為視頻文件,也可以為音頻文件。具體地,當(dāng)上述待檢索音視頻文件為視頻文件吋,首先對該視頻文件進(jìn)行待檢索關(guān)鍵信息的提取,可以利用圖I所示的方法中步驟101從視頻文件中提取出關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字。之后,將所述提取出的待檢索關(guān)鍵信息與索引數(shù)據(jù)庫中保存的索引記錄中的關(guān)鍵信息進(jìn)行匹配,如果存在完全匹配的目標(biāo)關(guān)鍵信息,則結(jié)束匹配過程,并獲取與所述目標(biāo)關(guān)鍵信息相關(guān)聯(lián)的目標(biāo)音視頻文件的標(biāo)識、目標(biāo)音視頻文件的存儲地址,從所述目標(biāo)音視頻文件的存儲地址中獲取所述目標(biāo)音視頻文件的標(biāo)識所表示的目標(biāo)音視頻文件,并在所述目標(biāo)音視頻文件中定位所述目標(biāo)關(guān)鍵信息的所處位置。如果不是完全匹配,但是存在與所述待檢索關(guān)鍵信息在一定程度上相似的候選關(guān)鍵信息(比如通過設(shè)定相似度值來判斷匹配的相似程度),則獲取所述候選關(guān)鍵信息在與所述候選關(guān)鍵信息關(guān)聯(lián)的音視頻文件中的所處位置;將所述待檢索關(guān)鍵信息重新與所述獲取到的位置上的關(guān)鍵幀相鄰圖像的關(guān)鍵信息進(jìn)行匹配,比如,將所述待檢索關(guān)鍵信息重新與所述獲取到的位置上的關(guān)鍵幀的相鄰的上一幀或者下一幀圖像的關(guān)鍵信息進(jìn)行匹配,如果完全匹配,則將與所述待檢索關(guān)鍵信息完全匹配的關(guān)鍵信息作為目標(biāo)關(guān)鍵信息,否則,結(jié)束匹配過程。具體地,當(dāng)上述待檢索音視頻文件為音頻文件時,首先提取該音頻文件對應(yīng)的音頻特征值,也即是將這段音頻文件的序列提取出來形成一串由O和I組成的數(shù)字序列,并作為該音頻文件的音頻模板。利用所述音頻模板和索引記錄中的音頻特征值進(jìn)行匹配,如果完全匹配,則返回與所述音頻模板完全匹配的音頻特征值關(guān)聯(lián)的音視頻文件;如果不是完全匹配,亦即部分匹配,但是在一定程度的范圍內(nèi)相似(比如通過設(shè)定相似度值來判斷 匹配的相似程度),則對該音頻文件進(jìn)行分拆,分拆成更小的一段段音頻片段序列,依次使用所述每個音頻片段各自的音頻特征值與索引記錄中的音頻特征值進(jìn)行匹配,如果完全匹配,則將與所述每個音頻片段各自的音頻特征值完全匹配的各個音頻特征值作為目標(biāo)關(guān)鍵信息,否則,結(jié)束匹配過程。需要說明的是,將上述音頻文件分拆成更小的一段段音頻片段序列的原則是以音頻轉(zhuǎn)折點(diǎn)進(jìn)行分拆,也就是聲音相鄰高低音最明顯的點(diǎn)。需要說明的是,在檢索時,用戶也可以直接輸入上述關(guān)鍵幀圖像、字幕文字、語音特征值、語音識別文字中的一種信息或者幾種信息的組合,此時,可以在索引數(shù)據(jù)庫中對這些輸入的信息進(jìn)行直接匹配查詢。另外,可選的,在實(shí)際應(yīng)用時,還可以將通過101提取出來的關(guān)鍵信息顯示給用戶,便于用戶快速瀏覽到音視頻文件的關(guān)鍵字圖像、字幕文字、語音識別文字,音頻特征值等信息。實(shí)施例2 本發(fā)明實(shí)施例提供一種音視頻文件的索引建立裝置,如圖3所示,包括提取單元11和保存單元12。提取單元11用于從音視頻文件中提取關(guān)鍵信息并記錄所述關(guān)鍵信息在所述音視頻文件中的所處位置,所述關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字;保存單元12用于將所述關(guān)鍵信息、所述音視頻文件的標(biāo)識及所述音視頻文件的存儲位置之間的關(guān)聯(lián)關(guān)系保存為索引記錄。進(jìn)一步地,(圖未示)所述索引建立裝置中的提取單元11包括鏡頭分割模塊,第一提取模塊,第二提取模塊,第三提取模塊和第四提取模塊。其中,鏡頭分割模塊,用于對所述音視頻文件進(jìn)行鏡頭分割,獲取鏡頭分割點(diǎn)的圖像;第一提取模塊,用于將每一個所述鏡頭分割點(diǎn)的圖像作為一個圖像幀,并記錄所述關(guān)鍵幀圖像在所述音視頻文件中的播放位置;第二提取模塊,用于從位于相鄰的兩個所述關(guān)鍵幀圖像之間的每一個關(guān)鍵幀圖像中提取字幕文字,并記錄所述字幕文字在所述音視頻文件中的播放位置;第三提取模塊,用于從位于相鄰的兩個所述關(guān)鍵幀圖像之間的音視頻片段中提取音頻特征值,并記錄所述音頻特征值對應(yīng)的音視頻片段在所述音視頻文件中的播放位置;第四提取模塊,用于對位于相鄰的兩個所述關(guān)鍵幀圖像之間的音視頻片段進(jìn)行語音識別,將進(jìn)行語音識別得出的文字作為語音識別文字,并記錄所述語音識別文字對應(yīng)的音視頻片段在所述音視頻文件中的播放位置。相應(yīng)地,本發(fā)明實(shí)施例還提供一種音視頻文件的檢索裝置,如圖4所示,包括提取單元21,匹配單元22和獲取單元23。其中,提取單元21用于從待檢索音視頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字中的至少一種信息;匹配單元22用于將所述待檢索關(guān)鍵信息與索引記錄中的關(guān)鍵信息進(jìn)行匹配,并將與所述待檢索關(guān)鍵信息完全匹配的關(guān)鍵信息作為目標(biāo)關(guān)鍵信息;獲取單元23用于獲取與所述目標(biāo)關(guān)鍵信息相關(guān)聯(lián)的目標(biāo)音視頻文件的標(biāo)識、目標(biāo)音視頻文件的存儲地址,從所述目標(biāo)音視頻文件的存儲地址中獲取所述目標(biāo)音視頻文件的標(biāo)識所表示的目標(biāo)音視頻文件,并在所述目標(biāo)音視頻文件中定位所述目標(biāo)關(guān)鍵信息的所處位置。由上述圖3和圖4所描述的本發(fā)明實(shí)施例中,在進(jìn)行索引建立時,通過索引建立裝置提取音視頻文件本身具有的關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字等信息,將所述提取出來的關(guān)鍵信息和音視頻文件的標(biāo)識、存儲地址保存為索引記錄。在進(jìn)行檢索時,首先提取出待檢索音視頻文件的待檢索關(guān)鍵信息,并利用上述待檢索關(guān)鍵信息作為檢索條件,即可從素材庫中查找出與上述待檢索音視頻文件完全匹配的目標(biāo)音視頻文件,并根據(jù)索引建立時所記錄的關(guān)鍵信息的所處位置,可以在查找出的目標(biāo)音視頻文件中快速定位待檢索關(guān)鍵信息所處位置。與現(xiàn)有技術(shù)需要通過人工瀏覽來查找出目標(biāo)音視頻文件相t匕,本發(fā)明實(shí)施例可以利用音視頻文件本身的關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字等信息快速定位到對應(yīng)目標(biāo)音視頻文件中的位置,可以節(jié)省大量的人力資源,提高音視頻文件的檢索效率和成功率。進(jìn)一步地,當(dāng)待檢索音視頻文件為視頻文件時,所述檢索裝置中的提取單元21用于從視頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字??蛇x的,(圖未示)所述檢索裝置還包括第一處理單元和第一重匹配單元。第一處理單元,用于若從索引記錄中查找出與所述待檢索關(guān)鍵信息部分匹配的候選關(guān)鍵信息時,獲取所述候選關(guān)鍵信息在與所述候選關(guān)鍵信息關(guān)聯(lián)的音視頻文件中的所處位置;第一重匹配單元,用于將所述待檢索關(guān)鍵信息重新與所述獲取到的位置上的關(guān)鍵幀相鄰圖像的關(guān)鍵信息進(jìn)行匹配,如果完全匹配,則將與所述待檢索關(guān)鍵信息完全匹配的關(guān)鍵信息作為目標(biāo)關(guān)鍵信息,否則,結(jié)束匹配過程。進(jìn)一步地,當(dāng)待檢索音視頻文件為音頻文件時,所述檢索裝置中的提取單元21用于從音頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括音頻特征值??蛇x的,(圖未示)所述檢索裝置還包括第二處理單元和第二重匹配單元。第二處理單元,用于若從索引記錄中查找出與所述待檢索關(guān)鍵信息部分匹配的音、頻特征值時,將所述音頻文件進(jìn)行分拆成預(yù)設(shè)個數(shù)的音頻片段,依次提取所述每個音頻片段各自的音頻特征值;第二重匹配単元,用于依次使用所述每個音頻片段各自的音頻特征值與索引記錄中的音頻特征值進(jìn)行匹配,如果完全匹配,則將與所述每個音頻片段各自的音頻特征值完全匹配的各個音頻特征值作為目標(biāo)關(guān)鍵信息,否則,結(jié)束匹配過程。相應(yīng)地,本發(fā)明實(shí)施例還提供ー種音視頻文件的檢索系統(tǒng),如圖5所示,包括索引建立裝置31、檢索裝置32和索引數(shù)據(jù)庫33。索引建立裝置31用于從音視頻文件中提取關(guān)鍵信息并記錄所述關(guān)鍵信息在所述音視頻文件中的所處位置,所述關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字;將所述關(guān)鍵信息、所述音視頻文件的標(biāo)識及所述音視頻文件的存儲位置之間的關(guān)聯(lián)關(guān)系保存為索引記錄。檢索裝置32用于從待檢索音視頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字中的至少ー種信息;將所述待檢索關(guān)鍵信息與索引記錄中的關(guān)鍵信息進(jìn)行匹配,并將與所述待檢索關(guān)鍵信息完全匹配的關(guān)鍵信息作為目標(biāo)關(guān)鍵信息;獲取與所述目標(biāo)關(guān)鍵信息相關(guān)聯(lián)的目標(biāo)音視頻文件的標(biāo)識、目標(biāo)音視頻文件的存儲地址,從所述目標(biāo)音視頻文件的存儲地址中獲取所述目標(biāo)音視頻文件的標(biāo)識所表示的目標(biāo)音視頻文件,并在所述目標(biāo)音視頻文件中定位所述目標(biāo)關(guān)鍵信息的所處位置。索引數(shù)據(jù)庫33用于保存索引記錄。利用本發(fā)明實(shí)施例提供的檢索系統(tǒng)在進(jìn)行檢索時,利用上述待檢索音視頻文件的待檢索關(guān)鍵信息作為檢索條件,即可從素材庫中查找出與上述待檢索音視頻文件完全匹配的目標(biāo)音視頻文件,并根據(jù)索引建立時所記錄的關(guān)鍵信息的所處位置,可以在查找出的目標(biāo)音視頻文件中快速定位待檢索關(guān)鍵信息所處位置。與現(xiàn)有技術(shù)需要通過人工瀏覽來查找出目標(biāo)音視頻文件相比,本發(fā)明實(shí)施例可以節(jié)省大量的人力資源,提高音視頻文件的檢索效率和成功率。本發(fā)明實(shí)施例主要應(yīng)用于廣播電視內(nèi)容管理技術(shù)領(lǐng)域,特別在海量音視頻文件中對首視頻文件進(jìn)行檢索時,可以提聞檢索的效率和成功率。以上所述,僅為本發(fā)明的具體實(shí)施方式
      ,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
      權(quán)利要求
      1.一種音視頻文件的索引建立方法,其特征在于,包括 從音視頻文件中提取關(guān)鍵信息并記錄所述關(guān)鍵信息在所述音視頻文件中的所處位置,所述關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字; 將所述關(guān)鍵信息、所述音視頻文件的標(biāo)識及所述音視頻文件的存儲位置之間的關(guān)聯(lián)關(guān)系保存為索引記錄。
      2.根據(jù)權(quán)利要求I所述的音視頻文件的索引建立方法,其特征在于,所述從音視頻文件中提取關(guān)鍵信息并記錄所述關(guān)鍵信息在所述音視頻文件中的所處位置包括 對所述音視頻文件進(jìn)行鏡頭分割,獲取鏡頭分割點(diǎn)的圖像; 將每ー個所述鏡頭分割點(diǎn)的圖像作為ー個關(guān)鍵幀圖像,并記錄所述關(guān)鍵幀圖像在所述音視頻文件中的播放位置; 從位于相鄰的兩個所述關(guān)鍵幀圖像之間的每一個圖像幀中提取字幕文字,并記錄所述字幕文字在所述音視頻文件中的播放位置; 從位于相鄰的兩個所述關(guān)鍵幀圖像之間的音視頻片段中提取音頻特征值,并記錄所述音頻特征值對應(yīng)的音視頻片段在所述音視頻文件中的播放位置; 對位于相鄰的兩個所述關(guān)鍵幀圖像之間的音視頻片段進(jìn)行語音識別,將進(jìn)行語音識別得出的文字作為語音識別文字,并記錄所述語音識別文字對應(yīng)的音視頻片段在所述音視頻文件中的播放位置。
      3.一種音視頻文件的檢索方法,其特征在于,包括 從待檢索音視頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字中的至少ー種信息; 將所述待檢索關(guān)鍵信息與索引記錄中的關(guān)鍵信息進(jìn)行匹配,并將與所述待檢索關(guān)鍵信息完全匹配的關(guān)鍵信息作為目標(biāo)關(guān)鍵信息; 獲取與所述目標(biāo)關(guān)鍵信息相關(guān)聯(lián)的目標(biāo)音視頻文件的標(biāo)識、目標(biāo)音視頻文件的存儲地址,從所述目標(biāo)音視頻文件的存儲地址中獲取所述目標(biāo)音視頻文件的標(biāo)識所表示的目標(biāo)音視頻文件,并在所述目標(biāo)音視頻文件中定位所述目標(biāo)關(guān)鍵信息的所處位置。
      4.根據(jù)權(quán)利要求3所述的音視頻文件的檢索方法,其特征在于,當(dāng)待檢索音視頻文件為視頻文件時,從待檢索首視頻文件中提取待檢索關(guān)鍵信息包括 從視頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字。
      5.根據(jù)權(quán)利要求4所述的音視頻文件的檢索方法,其特征在于,還包括 若從索引記錄中查找出與所述待檢索關(guān)鍵信息部分匹配的候選關(guān)鍵信息時,獲取所述候選關(guān)鍵信息在與所述候選關(guān)鍵信息關(guān)聯(lián)的音視頻文件中的所處位置; 將所述待檢索關(guān)鍵信息重新與所述獲取到的位置上的關(guān)鍵幀相鄰圖像的關(guān)鍵信息進(jìn)行匹配,如果完全匹配,則將與所述待檢索關(guān)鍵信息完全匹配的關(guān)鍵信息作為目標(biāo)關(guān)鍵信息,否則,結(jié)束匹配過程。
      6.根據(jù)權(quán)利要求3所述的音視頻文件的檢索方法,其特征在于,當(dāng)待檢索音視頻文件為音頻文件吋,從待檢索音視頻文件中提取待檢索關(guān)鍵信息包括 從音頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括音頻特征值。
      7.根據(jù)權(quán)利要求6所述的音視頻文件的檢索方法,其特征在于,還包括若從索引記錄中查找出與所述待檢索關(guān)鍵信息部分匹配的音頻特征值時,將所述音頻文件進(jìn)行分拆成預(yù)設(shè)個數(shù)的音頻片段,依次提取所述每個音頻片段各自的音頻特征值; 依次使用所述每個音頻片段各自的音頻特征值與索引記錄中的音頻特征值進(jìn)行匹配,如果完全匹配,則將與所述每個音頻片段各自的音頻特征值完全匹配的各個音頻特征值作為目標(biāo)關(guān)鍵信息,否則,結(jié)束匹配過程。
      8.ー種索引建立裝置,其特征在于,包括 提取單元,用于從音視頻文件中提取關(guān)鍵信息并記錄所述關(guān)鍵信息在所述音視頻文件中的所處位置,所述關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字; 保存単元,用于將所述關(guān)鍵信息、所述音視頻文件的標(biāo)識及所述音視頻文件的存儲位置之間的關(guān)聯(lián)關(guān)系保存為索引記錄。
      9.根據(jù)權(quán)利要求8所述的索引建立裝置,其特征在于,所述提取単元包括 鏡頭分割模塊,用于對所述音視頻文件進(jìn)行鏡頭分割,獲取鏡頭分割點(diǎn)的圖像; 第一提取模塊,用于將每ー個所述鏡頭分割點(diǎn)的圖像作為ー個圖像幀,并記錄所述關(guān)鍵幀圖像在所述音視頻文件中的播放位置; 第二提取模塊,用于從位于相鄰的兩個所述關(guān)鍵幀圖像之間的每ー個關(guān)鍵幀圖像中提取字幕文字,并記錄所述字幕文字在所述音視頻文件中的播放位置; 第三提取模塊,用于從位于相鄰的兩個所述關(guān)鍵幀圖像之間的音視頻片段中提取音頻特征值,并記錄所述音頻特征值對應(yīng)的音視頻片段在所述音視頻文件中的播放位置; 第四提取模塊,用于對位于相鄰的兩個所述關(guān)鍵幀圖像之間的音視頻片段進(jìn)行語音識另IJ,將進(jìn)行語音識別得出的文字作為語音識別文字,并記錄所述語音識別文字對應(yīng)的音視頻片段在所述音視頻文件中的播放位置。
      10.一種檢索裝置,其特征在于,包括 提取單元,用于從待檢索音視頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字中的至少ー種信息; 匹配単元,用于將所述待檢索關(guān)鍵信息與索引記錄中的關(guān)鍵信息進(jìn)行匹配,并將與所述待檢索關(guān)鍵信息完全匹配的關(guān)鍵信息作為目標(biāo)關(guān)鍵信息; 獲取單元,用于獲取與所述目標(biāo)關(guān)鍵信息相關(guān)聯(lián)的目標(biāo)音視頻文件的標(biāo)識、目標(biāo)音視頻文件的存儲地址,從所述目標(biāo)音視頻文件的存儲地址中獲取所述目標(biāo)音視頻文件的標(biāo)識所表示的目標(biāo)音視頻文件,并在所述目標(biāo)音視頻文件中定位所述目標(biāo)關(guān)鍵信息的所處位置。
      11.根據(jù)權(quán)利要求10所述的檢索裝置,其特征在于,所述提取単元用于當(dāng)待檢索音視頻文件為視頻文件吋,從視頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字。
      12.根據(jù)權(quán)利要求11所述的檢索裝置,其特征在于,還包括 第一處理單元,用于若從索引記錄中查找出與所述待檢索關(guān)鍵信息部分匹配的候選關(guān)鍵信息吋,獲取所述候選關(guān)鍵信息在與所述候選關(guān)鍵信息關(guān)聯(lián)的音視頻文件中的所處位置; 第一重匹配単元,用于將所述待檢索關(guān)鍵信息重新與所述獲取到的位置上的關(guān)鍵幀相鄰圖像的關(guān)鍵信息進(jìn)行匹配,如果完全匹配,則將與所述待檢索關(guān)鍵信息完全匹配的關(guān)鍵信息作為目標(biāo)關(guān)鍵信息,否則,結(jié)束匹配過程。
      13.根據(jù)權(quán)利要求10所述的檢索裝置,其特征在于,所述提取単元用于當(dāng)待檢索音視頻文件為音頻文件吋,從音頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括音頻特征值。
      14.根據(jù)權(quán)利要求13所述的檢索裝置,其特征在于,還包括 第二處理單元,用于若從索引記錄中查找出與所述待檢索關(guān)鍵信息部分匹配的音頻特征值吋,將所述音頻文件進(jìn)行分拆成預(yù)設(shè)個數(shù)的音頻片段,依次提取所述每個音頻片段各自的音頻特征值; 第二重匹配単元,用于依次使用所述每個音頻片段各自的音頻特征值與索引記錄中的音頻特征值進(jìn)行匹配,如果完全匹配,則將與所述每個音頻片段各自的音頻特征值完全匹配的各個音頻特征值作為目標(biāo)關(guān)鍵信息,否則,結(jié)束匹配過程。
      15.—種檢索系統(tǒng),其特征在于,包括 索引建立裝置,用于從音視頻文件中提取關(guān)鍵信息并記錄所述關(guān)鍵信息在所述音視頻文件中的所處位置,所述關(guān)鍵信息包括關(guān)鍵巾貞圖像、字幕文字、音頻特征值、語音識別文字;將所述關(guān)鍵信息、所述音視頻文件的標(biāo)識及所述音視頻文件的存儲位置之間的關(guān)聯(lián)關(guān)系保存為索引記錄; 檢索裝置,用于從待檢索音視頻文件中提取待檢索關(guān)鍵信息,所述待檢索關(guān)鍵信息包括關(guān)鍵幀圖像、字幕文字、音頻特征值、語音識別文字中的至少ー種信息;將所述待檢索關(guān)鍵信息與索引記錄中的關(guān)鍵信息進(jìn)行匹配,并將與所述待檢索關(guān)鍵信息完全匹配的關(guān)鍵信息作為目標(biāo)關(guān)鍵信息;獲取與所述目標(biāo)關(guān)鍵信息相關(guān)聯(lián)的目標(biāo)音視頻文件的標(biāo)識、目標(biāo)音視頻文件的存儲地址,從所述目標(biāo)音視頻文件的存儲地址中獲取所述目標(biāo)音視頻文件的標(biāo)識所表示的目標(biāo)音視頻文件,并在所述目標(biāo)音視頻文件中定位所述目標(biāo)關(guān)鍵信息的所處位置; 索引數(shù)據(jù)庫,用于保存所述索引記錄。
      全文摘要
      本發(fā)明實(shí)施例公開一種音視頻文件的索引建立和檢索方法、裝置及系統(tǒng),涉及音視頻技術(shù)領(lǐng)域,可以提高音視頻文件的檢索效率和成功率。包括索引建立時,從音視頻文件中提取關(guān)鍵信息,將所述關(guān)鍵信息、所述音視頻文件及所述音視頻文件的存儲位置之間的關(guān)聯(lián)關(guān)系保存為索引記錄。檢索時,從索引記錄中查找出與所述待檢索關(guān)鍵信息相匹配的目標(biāo)音視頻文件的標(biāo)識;從與所述目標(biāo)音視頻文件的標(biāo)識關(guān)聯(lián)的存儲地址中獲取所述目標(biāo)音視頻文件,在所述目標(biāo)音視頻文件中定位所述待檢索關(guān)鍵信息的所處位置。本發(fā)明實(shí)施例主要應(yīng)用于廣播電視內(nèi)容管理技術(shù)領(lǐng)域,特別在海量音視頻文件中進(jìn)行檢索時,可以提高檢索的效率和成功率。
      文檔編號G06F17/30GK102650993SQ20111004683
      公開日2012年8月29日 申請日期2011年2月25日 優(yōu)先權(quán)日2011年2月25日
      發(fā)明者孟犁, 張魯平, 杜希鵬, 董全武 申請人:北京北大方正電子有限公司, 北京大學(xué), 北大方正集團(tuán)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1