專利名稱:面向海量廣播電視節(jié)目的新一代智能編目系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明屬于廣播 電視媒體資產(chǎn)管理領(lǐng)域和面向三網(wǎng)融合的新媒體內(nèi)容管理與分 發(fā)領(lǐng)域,特別涉及一種面向海量廣播電視節(jié)目自動編目和檢索的方法,該方法將音視頻智 能處理技術(shù)綜合應用于各類廣播電視節(jié)目的自動時間打點和內(nèi)容編目,并提供基于文本和 音視頻樣例的多媒體檢索。
背景技術(shù):
我國擁有世界上最為豐富的廣播電視內(nèi)容資源,目前廣播電視傳播途徑主要包括 國內(nèi)廣播電視、境外衛(wèi)星電視、互聯(lián)網(wǎng)視聽節(jié)目及其他新媒體等,總量已經(jīng)達到3000套,其 所包含資訊具有豐富性、全面性和權(quán)威性,在廣播電視媒體資產(chǎn)管理和面向三網(wǎng)融合的新 媒體內(nèi)容管理與分發(fā)領(lǐng)域具有非常巨大的社會效益和商業(yè)價值。對這些資訊的充分利用必須通過分類編目、添加標題、關(guān)鍵詞或標簽等方式進行, 目前主要由電視臺和一些面向新媒體服務的廣播電視內(nèi)容編目機構(gòu),以人工標注方式為主 進行。現(xiàn)行工作方式主要包括廣播電視節(jié)目收錄、采集轉(zhuǎn)碼、存儲入庫,之后采用人工方式 進行節(jié)目開始結(jié)束時間的標注、添加標題、節(jié)目描述、檢索關(guān)鍵詞和標簽,通過媒資系統(tǒng)的 管理完成內(nèi)容的再利用。在編目標準方面,各機構(gòu)都是以2004年發(fā)布的廣電行業(yè)標準《廣 播電視音像資料編目規(guī)范》為基礎(chǔ),進行針對性修訂而來。上述方式存在主要問題如下1.效率低下,無法滿足千套級以上的廣播電視編目要求。現(xiàn)有工作模式下,各單位 的編目人員規(guī)模通常在100人以上,且日處理能力在60-70路廣播電視。如果以這樣的比 例估算,以1000路廣播電視節(jié)目處理為例,至少需要1500人以上,無論從運營效率還是成 本考慮,都是無法接受的。2.主觀性強,編目粒度較粗?,F(xiàn)有模式下,標題、節(jié)目描述沒有統(tǒng)一標準,以人工 定義為準,且視頻幀、話音內(nèi)容與編目內(nèi)容沒有對應關(guān)系,無法完成幀和語音級的細粒度檢 索,導致大量有效信息被淹沒在海量存儲中,無法滿足人們對廣播電視內(nèi)容檢索的多方面需求。在電視內(nèi)容自動處理方面,文獻提出了一種通過人工對語音識別和字幕識別結(jié)果 校對的方法,實現(xiàn)對電視新聞節(jié)目進行標引的方法;美國的BBN公司面向中、英、阿拉伯語 開發(fā)了廣播電視內(nèi)容監(jiān)測系統(tǒng),提供了語音識別、文字翻譯、基于檢索的內(nèi)容推送系統(tǒng)。在 電視視頻內(nèi)容檢索方面,國外部分公司和科研機構(gòu)進行了電視視頻檢索相關(guān)方面的研究工 作,如IBM的QBIC和CueVideo項目、卡內(nèi)基梅隆大學的Informedia項目等等。綜上所述,面向大規(guī)模、全頻道、廣播、電視節(jié)目的內(nèi)容挖掘和利用,必須采用以計 算機音視頻智能處理技術(shù)為主,輔以少量人工校對的工作方式進行。而從現(xiàn)有國內(nèi)外范圍 來看,全面實現(xiàn)大規(guī)模、全頻道、廣播電視節(jié)目的打點、編目和檢索的系統(tǒng)未見報道。
發(fā)明內(nèi)容
本發(fā) 明的目的在于提供一種面向海量廣播電視節(jié)目的新一代智能編目系統(tǒng)和方 法,充分利用現(xiàn)代計算機音視頻內(nèi)容自動識別分類算法對海量廣播電視節(jié)目進行自動分割 打點、編目和索引。本發(fā)明以模板和參數(shù)知識庫為核心,通過良好的人機交互界面在對廣播 電視節(jié)目進行主動、高效的管理的同時,實現(xiàn)模板和參數(shù)知識庫自動發(fā)現(xiàn)、學習和更新,為 海量廣播電視內(nèi)容的深入開發(fā)利用、全面監(jiān)測監(jiān)管提供了有效技術(shù)方案。為實現(xiàn)本發(fā)明的目的,本發(fā)明第一方面是提供面向海量廣播電視節(jié)目的新一代智 能編目系統(tǒng)和方法,所述系統(tǒng)是由以下技術(shù)方案實現(xiàn)該系統(tǒng)利用計算機實現(xiàn)初始化模塊、節(jié)目打點模塊、新聞拆條模塊、廣告抽取模 塊、節(jié)目編目模塊、多媒體檢索模塊和知識庫管理與學習模塊;初始化模塊是從某頻道廣播電視節(jié)目歷史數(shù)據(jù)提取的音頻波形和視頻圖像中自 動發(fā)現(xiàn)廣播電視節(jié)目片頭曲、片尾曲以及廣告片段,系統(tǒng)初始化操作界面提供人工審核、編 輯以及入庫操作;節(jié)目打點模塊對給定廣播電視節(jié)目進行打點處理,能對廣播電視節(jié)目的起止點進 行自動標記,節(jié)目打點操作界面對新發(fā)現(xiàn)的廣播電視節(jié)目提供人工審核、編輯以及入庫操 作;新聞拆條模塊對給定廣播電視新聞節(jié)目進行拆條處理,能對廣播電視中的新聞節(jié) 目的條目起止點進行自動標記,新聞拆條操作界面提供人工審核、編輯以及入庫操作;廣告抽取模塊對給定廣播電視節(jié)目進行處理,能對廣播電視節(jié)目中播放廣告的 起止點進行自動標記,廣告抽取操作界面對新發(fā)現(xiàn)的廣告提供人工審核、編輯以及入庫操 作;節(jié)目編目模塊對給定廣播電視節(jié)目進行編目處理,能對廣播電視節(jié)目以及新聞條 目的內(nèi)容進行自動標記,對置信度較低的編目內(nèi)容,節(jié)目編目操作界面提供人工審核、編輯 以及入庫操作;多媒體檢索模塊對給定廣播電視節(jié)目進行索引處理,為用戶提供經(jīng)過編目和索引 的廣播電視節(jié)目數(shù)據(jù)的多媒體檢索能力,多媒體檢索操作界面實現(xiàn)基于多媒體檢索;初始化模塊、節(jié)目打點模塊、新聞拆條模塊、廣告抽取模塊、節(jié)目編目模塊提供的 處理結(jié)果,經(jīng)知識庫管理與學習操作界面人工確認后,輸入知識庫管理與學習模塊的知識 庫,進行學習并更新上述各模塊的模型參數(shù),以確保系統(tǒng)在不同應用環(huán)境下的適應性和可 用性。為實現(xiàn)本發(fā)明的目的,本發(fā)明第二方面是提供使用向海量廣播電視節(jié)目的智能編 目系統(tǒng)的面向海量廣播電視節(jié)目智能編目的方法,所述方法是由以下技術(shù)方案實現(xiàn)步驟Sl 利用計算機對各類廣播電視通道采集的音視頻數(shù)據(jù)做音視頻解碼處理, 得到音頻波形和視頻圖像;步驟S2 通過初始化模塊對廣播電視節(jié)目中的音頻波形和視頻圖像信息同時進 行自動處理,發(fā)現(xiàn)廣播電視片頭模板、片尾模板及廣告模板,并經(jīng)過系統(tǒng)初始化操作界面人 工審核、編輯后,輸入知識庫管理與學習模塊的知識庫,供后續(xù)步驟S8處理使用;初始化過 程只在系統(tǒng)運行初期進行一次;步驟S3 系統(tǒng)日常運行開始后,執(zhí)行步驟Sl的各類廣播電視通道采集的音視頻數(shù)據(jù)經(jīng)過采集、解碼處理,節(jié)目打點模塊對廣播電視節(jié)目中的音頻波形和視頻圖像信息同時 進行自動處理,使用知識庫管理與學習模塊的知識庫提供的片頭、片尾模板信息以及疑似 節(jié)目片頭、片尾自動發(fā)現(xiàn)模型實現(xiàn)對廣播電視節(jié)目開始和結(jié)束點的定位;對于發(fā)現(xiàn)的疑似 節(jié)目片頭、片尾自動提供置信度信息,經(jīng)過節(jié)目打點操作界面人工操作審核、編輯后,結(jié)果 入庫,同時輸入知識庫管理與學習模塊的知識庫,供后續(xù)步驟S8處理使用;步驟S4:廣告抽取模塊對廣播電視節(jié)目中的音頻波形和視頻圖像信息同時進行 自動處理,使用知識庫管理與學習模塊的知識庫提供的廣告模板信息以及疑似廣告自動發(fā) 現(xiàn)模型,廣告抽取模塊實現(xiàn)對廣播電視廣告開始和結(jié)束點的定位;對于發(fā)現(xiàn)的疑似廣告自 動提供置信度信息,經(jīng)過廣告抽取操作界面人工審核、編輯后,結(jié)果入庫,同時進入知識庫 管理與學習模塊的知識庫,供后續(xù)步驟S8處理使用; 步驟S5 根據(jù)上述步驟S3得到的廣播電視節(jié)目開始和結(jié)束點信息,新聞拆條模塊 能對其中的新聞類節(jié)目進行進一步打點,通過對音頻波形和視頻圖像信息的自動處理,使 用知識庫管理與學習模塊的知識庫提供的新聞拆條自動發(fā)現(xiàn)模型實現(xiàn)對新聞節(jié)目的條目 開始、結(jié)束點的定位,節(jié)目編目模塊對于發(fā)現(xiàn)的新聞條目邊界自動提供置信度信息,經(jīng)過新 聞拆條操作界面人工審核、編輯后結(jié)果入庫,同時進入知識庫管理與學習模塊的知識庫,供 后續(xù)步驟S8處理使用;步驟S6 根據(jù)上述步驟S3得到的廣播電視節(jié)目開始結(jié)束點信息和步驟S5得到的 新聞類節(jié)目新聞條目開始結(jié)束點信息,使用知識庫管理與學習模塊的知識庫提供的語音、 字幕識別模型,通過對音頻波形和視頻圖像信息的自動處理,實現(xiàn)對廣播電視節(jié)目和新聞 條目中字幕、語音內(nèi)容的自動識別,融合語音、字幕識別結(jié)果文本,生成編目關(guān)鍵詞和摘要; 對編目自動提供置信度信息,經(jīng)過節(jié)目編目操作界面人工審核、編輯后結(jié)果入庫;審核、編 輯后的語音、字幕識別結(jié)果文本同時進入知識庫管理與學習模塊的知識庫,供后續(xù)步驟S8 處理使用;步驟S7 多媒體檢索模塊對廣播電視節(jié)目中的音頻波形和視頻圖像信息同時進 行自動處理,使用知識庫管理與學習模塊的知識庫提供與語音內(nèi)容、視頻內(nèi)容、說話人、人 臉和徽標相對應的識別模型,實現(xiàn)對語音內(nèi)容、視頻內(nèi)容、說話人、人臉和徽標的索引,索引 結(jié)果入索引庫,從而實現(xiàn)了基于搜索的編目方式;索引包括結(jié)果置信度信息;步驟S8 根據(jù)上述步驟S2至步驟S6得到的含有置信度信息的各類信息,經(jīng)過知 識庫管理與學習操作界面人工編輯、審核、修正后,輸入知識庫管理與學習模塊,更新知識 庫管理與學習模塊的知識庫中各模型參數(shù)。本發(fā)明的有益效果是本發(fā)明提出了一種全新的、面向各類廣播電視節(jié)目的全時段、全媒體的自動打點、 編目、檢索的系統(tǒng)和方法。利用現(xiàn)代計算機音視頻智能處理技術(shù),對多頻道、全天的海量廣 播、電視節(jié)目進行自動打點、編目和索引處理,并通過置信度技術(shù)將低可靠度的結(jié)果輸出各 類人工坐席,校對并輸出最后結(jié)果。這種人機有機融合交互的方式,可以結(jié)合計算機處理的 高效性和人工處理的準確性優(yōu)點,解決現(xiàn)有以人工方式為主的廣播電視節(jié)目編目過程中的 高投入、低效率問題,為海量廣播電視節(jié)目內(nèi)容的有效利用和深入挖掘提供有效技術(shù)手段。
圖1為本發(fā)明的流程框圖;圖2為本發(fā)明的系統(tǒng)架構(gòu)圖;圖3為本發(fā)明系統(tǒng)初始化步驟流程圖;圖4為本發(fā)明節(jié)目打點步驟流程5為本發(fā)明廣告抽取步驟流程圖;圖6為本發(fā)明新聞拆條步驟流程圖;圖7為本發(fā)明節(jié)目編目步驟流程圖;圖8為本發(fā)明多媒體檢索步驟流程圖;圖9為本發(fā)明知識庫的管理與學習步驟流程圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照 附圖,對本發(fā)明進一步詳細說明。如圖1和圖2示出本發(fā)明的流程框圖和本發(fā)明的系統(tǒng)架構(gòu)圖,該系統(tǒng)是由計算機 實現(xiàn)應用層、服務層和數(shù)據(jù)層架構(gòu),應用層軟件體系采用客戶端軟件、服務層為內(nèi)容服務中 間件平臺、數(shù)據(jù)層為數(shù)據(jù)計算管理平臺的三層體系架構(gòu),三層體系架構(gòu)采用瀏覽器/服務 器,或客戶端/服務器模式實現(xiàn);初始化模塊包括疑似片頭/片尾發(fā)現(xiàn)子模塊、疑似廣告發(fā)現(xiàn)子模塊、疑似片頭/片 尾審核編輯入庫子模塊和疑似廣告審核編輯入庫子模塊。疑似片頭/片尾發(fā)現(xiàn)子模塊和疑 似廣告發(fā)現(xiàn)子模塊是從某頻道廣播電視節(jié)目歷史數(shù)據(jù)提取的音頻波形和視頻圖像中自動 發(fā)現(xiàn)廣播電視節(jié)目片頭曲、片尾曲以及廣告片段,疑似片頭/片尾審核編輯入庫子模塊和 疑似廣告審核編輯入庫子模塊提供人工審核、編輯以及入庫操作;節(jié)目打點模塊包括已知節(jié)目打點子模塊、已知節(jié)目瀏覽子模塊、疑似節(jié)目發(fā)現(xiàn)子 模塊和疑似節(jié)目審核編輯子模塊。已知節(jié)目打點子模塊對給定廣播電視節(jié)目進行打點處 理,能對廣播電視節(jié)目的起止點進行自動標記,疑似節(jié)目發(fā)現(xiàn)子模塊能發(fā)現(xiàn)新出現(xiàn)的廣播 電視節(jié)目,已知節(jié)目瀏覽子模塊和疑似節(jié)目審核編輯子模塊提供人工審核、編輯以及入庫 操作功能;新聞拆條模塊包括新聞拆條子模塊、新聞條目瀏覽子模塊和新聞條目審核編輯子 模塊。新聞拆條子模塊對給定廣播電視新聞節(jié)目進行拆條處理,能對廣播電視中的新聞節(jié) 目的條目起止點進行自動標記,新聞條目瀏覽子模塊和新聞條目審核編輯子模塊提供人工 審核、編輯以及入庫操作功能;廣告抽取模塊包括已知廣告打點子模塊、已知廣告瀏覽子模塊和疑似廣告發(fā)現(xiàn)子 模塊、疑似廣告審核編輯子模塊。已知廣告打點子模塊對給定廣播電視節(jié)目進行處理,能對 廣播電視節(jié)目中播放廣告的起止點進行自動標記,疑似廣告發(fā)現(xiàn)子模塊能發(fā)現(xiàn)新出現(xiàn)的廣 告,已知廣告瀏覽子模塊和疑似廣告審核編輯子模塊提供人工審核、編輯以及入庫操作功 能;節(jié)目編目模塊包括自動編目子模塊、編目結(jié)果審核編輯子模塊。自動編目子模塊 對給定廣播電視節(jié)目進行編目處理,能對廣播電視節(jié)目以及新聞條目的內(nèi)容進行自動標記,編目結(jié)果審核編輯子模塊能對對置信度較低的編目內(nèi)容提供人工審核、編輯以及入庫 操作。多媒體檢索模塊包括語音檢索子模塊、視頻檢索子模塊、人臉檢索子模塊、徽標檢 索子模塊、字幕檢索子模塊、多媒體索引管理子模塊。對給定廣播電視節(jié)目中出現(xiàn)的語音、 視頻、人臉、徽標和字幕進行索引處理,為用戶提供經(jīng)過編目和索引的廣播電視節(jié)目數(shù)據(jù)的 多媒體檢索能力,實現(xiàn)基于檢索的新型編目方式; 節(jié)目打點模塊、新聞拆條模塊、廣告抽取模塊、節(jié)目編目模塊提供相應處理結(jié)果, 經(jīng)人工確認后,輸入知識庫管理與學習模塊的知識庫。該模塊包括疑似片頭/片尾發(fā)現(xiàn)模 型參數(shù)學習子模塊,疑似廣告發(fā)現(xiàn)模型參數(shù)學習子模塊、新聞拆條模型參數(shù)學習子模塊、語 音識別模型參數(shù)學習子模塊、字幕識別模型參數(shù)學習子模塊進行學習,并更新系統(tǒng)初始化 模塊、節(jié)目打點模塊、廣告抽取模塊、新聞拆條模塊、節(jié)目編目模塊的模型參數(shù),以確保系統(tǒng) 在不同應用環(huán)境下的適應性和可用性;下面結(jié)合附圖1和圖2對本發(fā)明的方法進行說明步驟Sl 利用計算機對各類廣播電視通道采集的音視頻數(shù)據(jù)做音視頻解碼處理, 得到音頻波形和視頻圖像;本發(fā)明可接受經(jīng)過采集收錄系統(tǒng)進行數(shù)字化的各類傳輸形式的廣播電視數(shù)據(jù)信 號,目前常見的廣播電視信號包括模擬、衛(wèi)星(DVB-S)、CATV、直播星、數(shù)字(DVB-C)、地面數(shù) 字多媒體廣播(TDMB)等等。經(jīng)過與不同信號類型相應的接收設備,將廣播電視信號經(jīng)過轉(zhuǎn)碼轉(zhuǎn)為數(shù)字文件存 儲到大容量存儲設備或以音視頻流的形式傳輸?shù)胶罄m(xù)處理系統(tǒng)中。數(shù)字化文件或音視頻流 可能以各類常見的音視頻編碼方式存在,如MPEG2、MPEG3、MPEG4、H. 263,H. 264等。程序讀 入文件或音視頻流,調(diào)用相應解碼器將聲音和圖像進行分離。完成后,將分離聲音和圖像文件存儲到計算機的臨時存儲區(qū)。步驟S2 系統(tǒng)初始化,通過初始化模塊對廣播電視節(jié)目中的音頻波形和視頻圖像 信息同時進行自動處理,計算機自動發(fā)現(xiàn)廣播電視片頭模板、片尾模板及廣告模板,并經(jīng)過 初始化操作界面人工審核、編輯后,輸入知識庫管理與學習模塊的知識庫,供后續(xù)處理使 用;本操作只在系統(tǒng)開始運行前進行一次,其功能為通過局域網(wǎng)從步驟Sl處理得到 的臨時存儲區(qū)獲得聲音和圖像文件并進行處理,發(fā)現(xiàn)與節(jié)目片頭、片尾、廣告、片花的結(jié)構(gòu)、 特征相似的音視頻片段,作為節(jié)目片頭、片尾、廣告、片花的候選,并自動生成各類節(jié)目、片 段、廣告的切分點樣例,供后續(xù)處理使用,如附圖3所示本發(fā)明系統(tǒng)初始化步驟的流程圖。具體方法為首先應用某頻道連續(xù)數(shù)天的音視頻數(shù)據(jù),通過初始化模塊的疑似片頭 /片尾發(fā)現(xiàn)引擎和疑似廣告發(fā)現(xiàn)引擎,自動發(fā)現(xiàn)具有片頭/片尾/廣告音視頻特性的片段。 記錄音視頻片段時間點,作為節(jié)目片頭、片尾、廣告、片花的候選。人工審核節(jié)目片頭、片尾、 廣告、片花后,疑似廣告審核編輯入庫子模塊和疑似片頭/片尾審核編輯入庫子模塊分別 根據(jù)時間點信息,自動提取節(jié)目片頭、片尾和廣告附近的視頻片段信息,作為后續(xù)邊界分割 切分樣例,自動提取各類分類及邊界音頻、視頻學習樣例并輸入知識庫管理與學習模塊的 知識庫。步驟S3:節(jié)目打點。
節(jié)目打點模塊中的已知節(jié)目打點子模塊通過局域網(wǎng)從步驟S2處理得到的臨時存 儲區(qū)獲得聲音和圖像文件并進行處理,同時從知識庫管理與學習模塊的知識庫讀入已經(jīng)存 儲的節(jié)目片頭、片尾模板,應用音視頻指紋搜索技術(shù),在聲音圖像文件中查找已知的節(jié)目, 并標記發(fā)現(xiàn)的模板出現(xiàn)的時間,如附圖4所示本發(fā)明節(jié)目打點步驟流程圖。疑似節(jié)目發(fā)現(xiàn)子模塊讀入知識庫管理與學習模塊的知識庫中已經(jīng)建立的節(jié)目片 頭、片尾的分類模型和邊界切分模型,應用節(jié)目片頭、片尾自動發(fā)現(xiàn)技術(shù),在聲音圖像文件 中查找新出現(xiàn)、未知的節(jié)目,并標記發(fā)現(xiàn)的模板出現(xiàn)的時間。通過節(jié)目打點操作界面進行人工審核,將某頻道全天播出的廣播電視節(jié)目的節(jié)目 片頭、片尾的開始和結(jié)束點結(jié)果入庫。通過節(jié)目打點操作界面進行人工審核,將某頻道全天出現(xiàn)的新節(jié)目片頭、片尾模 板以及分類和邊界學習樣例輸入知識庫管理與學習模塊的知識庫。步驟S4:廣告抽取。廣告抽取模塊中的已知廣告打點子模塊通過局域網(wǎng)從步驟S2處理得到的臨時存 儲區(qū)獲得聲音和圖像文件并進行處理,同時從知識庫管理與學習模塊的知識庫讀入已經(jīng)存 儲的廣告模板,應用音視頻指紋搜索與匹配技術(shù),在聲音圖像文件中查找已知的廣告,并標 記發(fā)現(xiàn) 的模板出現(xiàn)的時間,如附圖5所示本發(fā)明廣告抽取步驟流程圖。疑似廣告發(fā)現(xiàn)子模塊讀入知識庫管理與學習模塊的知識庫中已經(jīng)建立的廣告分 類模型和邊界切分模型,應用廣告自動發(fā)現(xiàn)技術(shù)在聲音圖像文件中查找新出現(xiàn)、未知的廣 告,并標記發(fā)現(xiàn)的模板出現(xiàn)的時間。通過廣告抽取操作界面進行人工審核,將某頻道全天播出的廣播電視節(jié)目的廣告 的開始和結(jié)束點結(jié)果入庫。通過廣告抽取操作界面進行人工審核,將某頻道全天出現(xiàn)的新廣告模板以及分類 和邊界學習樣例輸入知識庫管理與學習模塊的知識庫。步驟S5:新聞拆條。其功能為通過局域網(wǎng)從步驟S2處理得到的臨時存儲區(qū)獲得聲音和圖像文件以及 步驟S4獲得的新聞類節(jié)目時段進行處理,如附圖6所示為本發(fā)明新聞拆條步驟流程圖。新聞拆條子模塊首先提取用于新聞拆條所需的各類音視頻特征,包括鏡頭切變、 音頻切變、說話人切變、字幕檢測、人臉檢測與識別等。繼而從知識庫管理與學習模塊的知識庫讀入新聞拆條模型,應用新聞自動拆條算 法,在聲音圖像文件中新聞條目的切分點,并標記發(fā)現(xiàn)的新聞切分時間。操作人員通過通過新聞拆條操作界面調(diào)用新聞條目瀏覽子模塊和新聞條目審核 編輯子模塊瀏覽和審核新聞條目切分點,將審核結(jié)果入庫,并將錯分結(jié)果輸入知識庫管理 與學習模塊的知識庫。步驟S6:節(jié)目編目。其功能為通過局域網(wǎng)從步驟S2處理得到的臨時存儲區(qū)獲得聲音和圖像文件以及 步驟S4和步驟S5獲得的節(jié)目打點和新聞條目打點時段信息,進行處理。如附圖7所示為本發(fā)明廣播電視內(nèi)容編目步驟流程圖。自動編目子模塊首先對聲 音數(shù)據(jù)進行語音檢測,去除音樂和其它非語音信息。系統(tǒng)綜合應用了多種刻畫語音和非語 音差異性特征,如LPCC、LSP、RMS, MFCC, SS、ZCR、BP、HZCRR、SS等,經(jīng)過基于支持向量機模型的語音檢測器檢 測語音。通過計算機內(nèi)存交換,將檢測到的語音信號輸入語音識別器輸 出文字及相對應的詞匯級置信度。自動編目子模塊對圖像數(shù)據(jù)進行字幕檢測,去除不包含字幕的圖像部分。系統(tǒng)綜 合應用多種刻畫圖像字幕信息的特征,如文字區(qū)域特征、連通性特征、紋理特征等,經(jīng)過基 于支持向量機和人工神經(jīng)網(wǎng)絡分類器的字幕檢測器檢測字幕。通過計算機內(nèi)存交換,將檢 測到的字幕區(qū)域輸入字幕識別器輸出文字及相對應的詞匯級置信度。自動編目子模塊繼而通過結(jié)果融合器融合語音識別和字幕識別結(jié)果,具體方法是 通過時間標簽,將語音識別結(jié)果與字幕識別結(jié)果進行句子級對齊。以最大匹配為目標函數(shù) 進行動態(tài)規(guī)劃(DP),將對齊后的句子進一步對齊到詞匯級。對齊后的詞匯,選擇語音識別與 字幕識別結(jié)果的詞置信度高的作為融合后的結(jié)果,并存入大容量存儲設備。自動編目子模塊將上述步驟生成的融合文本,進行句子、詞分析和統(tǒng)計量提 取。首先輸入融合文本,提取句、詞及統(tǒng)計量特征,包括句子依存關(guān)系和骨干詞、句子長 度、相鄰句子長度、命名實體詞)、命名實體詞出現(xiàn)的句子、單獨出現(xiàn)的命名實體詞比例、 TFIDF(termfrequency-inverse document frequency)特征、句子間的余弦距離等。繼而確 定編目關(guān)鍵詞和摘要句子。將上述特征輸入預先訓練好的支持向量機分類器,確定重要度 較高的關(guān)鍵詞和句子作為編目關(guān)鍵詞和摘要句。在互聯(lián)網(wǎng)接入的前提下,將編目關(guān)鍵詞作為搜索詞在預先確定的專業(yè)網(wǎng)站上搜索 相關(guān)內(nèi)容,通過與上述步驟生成的融合文本的相似性比對確定是否滿足內(nèi)容相關(guān)性條件, 如網(wǎng)絡搜索內(nèi)容適合,則對其進行摘要并作為編目結(jié)果輸出。操作人員通過編目操作界面調(diào)用編目結(jié)果審核編輯子模塊瀏覽和審核編目結(jié)果, 將適合的網(wǎng)絡搜索內(nèi)容送入知識庫管理與學習模塊的知識庫,供調(diào)節(jié)語音和字幕識別模型 參數(shù)使用。步驟S7 多媒體索引的生成。其功能為通過局域網(wǎng)從步驟S2處理得到的臨時存儲區(qū)獲得聲音和圖像文件以及 步驟S4和步驟S5獲得的節(jié)目層和片段層時段信息,進行處理,如附圖8所示為本發(fā)明多媒 體索引的生成步驟流程圖。語音檢索子模塊對音頻數(shù)據(jù)進行語音檢測,將語音部分進行說話人和語音內(nèi)容索 弓丨。視頻檢索子模塊對對圖像數(shù)據(jù)進行特征提取和索引,提取特征包括視覺色彩、紋理、輪 廓和關(guān)鍵特征點,并進行索引。人臉檢索子模塊和徽標檢索子模塊分別對圖像數(shù)據(jù)進行人 臉和徽標檢測,對人臉和徽標部分進行索引。字幕檢索子模塊將步驟S6生成的字幕和步驟 S7生成的編目關(guān)鍵詞和摘要進行文本索引。通過多媒體索引管理子模塊,形成對以文本、語音和圖像內(nèi)容的綜合視頻檢索能 力。步驟S8 知識庫的管理與學習。在上述步驟S2至步驟S6中,計算機以預設的結(jié)果置信度閾值為依據(jù),將不可靠的 結(jié)果輸出給相應的人工操作界面,如操作人員發(fā)現(xiàn)結(jié)果有誤,通過鍵盤或鼠標操作完成修 訂并將結(jié)果入庫,具體如下所述;系統(tǒng)初始化操作界面面向步驟S2,對系統(tǒng)初始化自動處理結(jié)果進行人工分類和審核。
節(jié)目打點操作界面面向步驟S3提供的廣播電視欄目結(jié)果,進行人工校對和新節(jié) 目標注入庫。廣告抽取操作界面面向步驟S4提供的廣播電視廣告結(jié)果,進行人工校對和新廣 告標注入庫。新聞拆條操作界面面向步驟S5,對新聞拆條自動處理結(jié)果進行人工校對。節(jié)目編目操作界面面向步驟S6,對節(jié)目和新聞條目自動編目結(jié)果進行人工校 對。各操作界面確認后的樣例數(shù)據(jù),系統(tǒng)自動將其導入知識庫管理與學習模塊的知識 庫。樣例數(shù)據(jù)包括新發(fā)現(xiàn)的節(jié)目、廣告、節(jié)目/廣告邊界樣例、新聞條目邊界樣例以及適合 的網(wǎng)絡搜索內(nèi)容等,如附圖9所示為本發(fā)明知識庫的管理與自動學習步驟流程圖。采用上述樣例,通過相應的模型參數(shù)學習方法,分別對步驟S2至步驟S6所述的識 別模型參數(shù)進行調(diào)整,以提高自動處理引擎的準確性和適用性。
以上所述,僅為本發(fā)明中的具體實施方式
,但本發(fā)明的保護范圍并不局限于此,任 何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應涵蓋在 本發(fā)明的權(quán)利要求書的保護范圍之內(nèi)。
權(quán)利要求
1.一種面向海量廣播電視節(jié)目的智能編目系統(tǒng),其特征在于該系統(tǒng)利用計算機實現(xiàn) 初始化模塊、節(jié)目打點模塊、新聞拆條模塊、廣告抽取模塊、節(jié)目編目模塊、多媒體檢索模塊 和知識庫管理與學習模塊;初始化模塊是從某頻道廣播電視節(jié)目歷史數(shù)據(jù)提取的音頻波形和視頻圖像中自動發(fā) 現(xiàn)廣播電視節(jié)目片頭曲、片尾曲以及廣告片段,系統(tǒng)初始化操作界面提供人工審核、編輯以 及入庫操作;節(jié)目打點模塊對給定廣播電視節(jié)目進行打點處理,能對廣播電視節(jié)目的起止點進行自 動標記,節(jié)目打點操作界面對新發(fā)現(xiàn)的廣播電視節(jié)目提供人工審核、編輯以及入庫操作;新聞拆條模塊對給定廣播電視新聞節(jié)目進行拆條處理,能對廣播電視中的新聞節(jié)目的 條目起止點進行自動標記,新聞拆條操作界面提供人工審核、編輯以及入庫操作;廣告抽取模塊對給定廣播電視節(jié)目進行處理,能對廣播電視節(jié)目中播放廣告的起止點 進行自動標記,廣告抽取操作界面對新發(fā)現(xiàn)的廣告提供人工審核、編輯以及入庫操作;節(jié)目編目模塊對給定廣播電視節(jié)目進行編目處理,能對廣播電視節(jié)目以及新聞條目的 內(nèi)容進行自動標記,對置信度較低的編目內(nèi)容,節(jié)目編目操作界面提供人工審核、編輯以及 入庫操作;多媒體檢索模塊對給定廣播電視節(jié)目進行索引處理,為用戶提供經(jīng)過編目和索引的廣 播電視節(jié)目數(shù)據(jù)的多媒體檢索能力,多媒體檢索操作界面實現(xiàn)基于多媒體檢索;初始化模塊、節(jié)目打點模塊、新聞拆條模塊、廣告抽取模塊、節(jié)目編目模塊提供的處理 結(jié)果,經(jīng)知識庫管理與學習操作界面人工確認后,輸入知識庫管理與學習模塊的知識庫,進 行學習并更新上述各模塊的模型參數(shù),以確保系統(tǒng)在不同應用環(huán)境下的適應性和可用性。
2.一種使用權(quán)利要求1所述面向海量廣播電視節(jié)目的智能編目系統(tǒng)的面向海量廣播 電視節(jié)目智能編目的方法,其特征在于,實現(xiàn)所述方法的步驟如下步驟Sl 利用計算機對各類廣播電視通道采集的音視頻數(shù)據(jù)做音視頻解碼處理,得到 音頻波形和視頻圖像;步驟S2 通過初始化模塊對廣播電視節(jié)目中的音頻波形和視頻圖像信息同時進行自 動處理,發(fā)現(xiàn)廣播電視片頭模板、片尾模板及廣告模板,并經(jīng)過系統(tǒng)初始化操作界面人工審 核、編輯后,輸入知識庫管理與學習模塊的知識庫,供后續(xù)步驟S8處理使用;初始化過程只 在系統(tǒng)運行初期進行一次;步驟S3 系統(tǒng)日常運行開始后,執(zhí)行步驟Sl的各類廣播電視通道采集的音視頻數(shù)據(jù)經(jīng) 過采集、解碼處理,節(jié)目打點模塊對廣播電視節(jié)目中的音頻波形和視頻圖像信息同時進行 自動處理,使用知識庫管理與學習模塊的知識庫提供的片頭、片尾模板信息以及疑似節(jié)目 片頭、片尾自動發(fā)現(xiàn)模型實現(xiàn)對廣播電視節(jié)目開始和結(jié)束點的定位;對于發(fā)現(xiàn)的疑似節(jié)目 片頭、片尾自動提供置信度信息,經(jīng)過節(jié)目打點操作界面人工操作審核、編輯后,結(jié)果入庫, 同時輸入知識庫管理與學習模塊的知識庫,供后續(xù)步驟S8處理使用;步驟S4:廣告抽取模塊對廣播電視節(jié)目中的音頻波形和視頻圖像信息同時進行自動 處理,使用知識庫管理與學習模塊的知識庫提供的廣告模板信息以及疑似廣告自動發(fā)現(xiàn)模 型,廣告抽取模塊實現(xiàn)對廣播電視廣告開始和結(jié)束點的定位;對于發(fā)現(xiàn)的疑似廣告自動提 供置信度信息,經(jīng)過廣告抽取操作界面人工審核、編輯后,結(jié)果入庫,同時進入知識庫管理 與學習模塊的知識庫,供后續(xù)步驟S8處理使用;步驟S5 根據(jù)上述步驟S3得到的廣播電視節(jié)目開始和結(jié)束點信息,新聞拆條模塊能對 其中的新聞類節(jié)目進行進一步打點,通過對音頻波形和視頻圖像信息的自動處理,使用知 識庫管理與學習模塊的知識庫提供的新聞拆條自動發(fā)現(xiàn)模型實現(xiàn)對新聞節(jié)目的條目開始、 結(jié)束點的定位,節(jié)目編目模塊對于發(fā)現(xiàn)的新聞條目邊界自動提供置信度信息,經(jīng)過新聞拆 條操作界面人工審核、編輯后結(jié)果入庫,同時進入知識庫管理與學習模塊的知識庫,供后續(xù) 步驟S8處理使用;步驟S6 根據(jù)上述步驟S3得到的廣播電視節(jié)目開始結(jié)束點信息和步驟S5得到的新聞 類節(jié)目新聞條目開始結(jié)束點信息,使用知識庫管理與學習模塊的知識庫提供的語音、字幕 識別模型,通過對音頻波形和視頻圖像信息的自動處理,實現(xiàn)對廣播電視節(jié)目和新聞條目 中字幕、語音內(nèi)容的自動識別,融合語音、字幕識別結(jié)果文本,生成編目關(guān)鍵詞和摘要;對編 目自動提供置信度信息,經(jīng)過節(jié)目編目操作界面人工審核、編輯后結(jié)果入庫;審核、編輯后 的語音、字幕識別結(jié)果文本同時進入知識庫管理與學習模塊的知識庫,供后續(xù)步驟S8處理 使用;步驟S7 多媒體檢索模塊對廣播電視節(jié)目中的音頻波形和視頻圖像信息同時進行自 動處理,使用知識庫管理與學習模塊的知識庫提供與語音內(nèi)容、視頻內(nèi)容、說話人、人臉和 徽標相對應的識別模型,實現(xiàn)對語音內(nèi)容、視頻內(nèi)容、說話人、人臉和徽標的索引,索引結(jié)果 入索引庫,從而實現(xiàn)了基于搜索的編目方式;索引包括結(jié)果置信度信息;步驟S8 根據(jù)上述步驟S2至步驟S6得到的含有置信度信息的各類信息,經(jīng)過知識庫 管理與學習操作界面人工編輯、審核、修正后,輸入知識庫管理與學習模塊,更新知識庫管 理與學習模塊的知識庫中各模型參數(shù)。
全文摘要
本發(fā)明公開了一種面向海量廣播電視節(jié)目的新一代智能編目系統(tǒng)和方法,其初始化模塊可自動發(fā)現(xiàn)廣播電視節(jié)目片頭曲、片尾曲及廣告片段;節(jié)目打點模塊可對廣播電視節(jié)目的起止點進行自動標記,并發(fā)現(xiàn)新出現(xiàn)的廣播電視節(jié)目;新聞拆條模塊可對新聞節(jié)目的條目起止點進行自動標記;廣告抽取模塊可對廣播電視節(jié)目中播放廣告的起止點進行自動標記,并發(fā)現(xiàn)新出現(xiàn)的廣告;節(jié)目編目模塊可對廣播電視節(jié)目內(nèi)容進行自動標記;多媒體檢索模塊可為用戶提供經(jīng)過編目和索引的廣播電視節(jié)目數(shù)據(jù)的多媒體檢索能力;上述模塊提供的處理結(jié)果,經(jīng)人工確認后,輸入知識庫管理與學習模塊,進行學習并更新上述各模塊的模型參數(shù),以確保系統(tǒng)在不同應用環(huán)境下的適應性和可用性。
文檔編號H04N5/262GK102075695SQ20101061649
公開日2011年5月25日 申請日期2010年12月30日 優(yōu)先權(quán)日2010年12月30日
發(fā)明者丁鵬, 姜洪臣, 徐波, 韓寶 申請人:中國科學院自動化研究所