專利名稱::用于對視頻序列的場景進(jìn)行語義分段的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種允許在語義級別上對視頻場景進(jìn)行分段的視頻內(nèi)容分析和分段方法及系統(tǒng)。
背景技術(shù):
:類似于文本文檔,多媒體文檔尤其是面向視聽的視頻內(nèi)容既具有句法結(jié)構(gòu)又具有語義結(jié)構(gòu)。在后者中,語義內(nèi)容(通常被稱為場景、情景、情節(jié),并且在更細(xì)級別上稱為事件)的含義是由與鏡頭和幀(相當(dāng)于文本文檔中的句子、詞和字母)的低級內(nèi)容描述單位相對的視頻節(jié)目所傳遞的高級知識(可比作文本文檔中的章節(jié)和段落的含義)。隨著數(shù)字時代的到來以及更快速因特網(wǎng)連接的普及,可以按日益增加的速度獲得用于專業(yè)和家用消費(fèi)環(huán)境的數(shù)字視頻內(nèi)容。但是,這些巨大的、通常為非結(jié)構(gòu)化的數(shù)字檔案使得即使可能訪問和搜索到任何期望信息也難以在不耗時費(fèi)力的情況下就訪問和搜索到該信息。因此任何自動化的圖像和多媒體處理工具對這些文檔進(jìn)行的分析、編制索引以及檢索方面的輔助將是極受歡迎的。在工具除了能在句法級別上進(jìn)行分析之外還能解釋各文檔的語義含義的情況下尤為如此。這樣的工具將從內(nèi)容制作及處理到資產(chǎn)重用、合成、以及個性化傳輸方面極大地幫助內(nèi)容管理業(yè)界。為了進(jìn)一步了解背景,下面將描述關(guān)于視頻結(jié)構(gòu)的分級組織的各種概念,包括對于本文和本領(lǐng)域中使用的例如關(guān)于可計(jì)算的“邏輯故事單元”和視頻編輯技術(shù)的定義的總結(jié)。在說明書的最后列出了許多參考文獻(xiàn),在說明書中利用出現(xiàn)在方括號中的數(shù)字來對它們加以引用。通常可基于三級來組織影片結(jié)構(gòu)的分級模型,這三級包括(從低級至高級)鏡頭級、事件級、以及情景(場景)級。鏡頭是單次攝像機(jī)操作中拍攝的一段視聽數(shù)據(jù)。大多數(shù)多媒體內(nèi)容分析任務(wù)以將整個視頻分解為多個基本鏡頭為開始,這是提取視聽內(nèi)容描述符所必需的。事件是影片中最小的語義單元。它可以是對話、一幕場景、或通常為一組共享地點(diǎn)和時間的連續(xù)鏡頭。也可能出現(xiàn)如下情況,即多個事件彼此交替以使多個事件并行發(fā)生。情景(或場景)通常被定義為共享公共語義線索的鏡頭序列,并且可以包含一個或多個事件。通常地,僅僅使用自動檢測到的低級特征而沒有任何在先知識地執(zhí)行情景邊界檢測,。因此,通常的情況是,檢測到的場景邊界不能精確地與實(shí)際場景的邊界相對應(yīng)。為解決這個問題,研究人員提出了所謂的可計(jì)算場景[6]或邏輯故事單元(LSU)[1],它們揭示了對真實(shí)影片情景的最佳逼近。與按其語義內(nèi)容定義的實(shí)際場景相比,LSU是按照特定的時間空間特征(它們是所分析場景的特性)來定義的。假設(shè)在特定影片角色出現(xiàn)于其中的限定時間間隔內(nèi)發(fā)生的事件與特定的位置(稱為“布景”)相關(guān)聯(lián),我們可以說通常場景的特征在于其視覺內(nèi)容中的全局時間連貫性。于是,從[1]中摘選的對邏輯故事單元(LSU)的定義如下“以交疊利用類似視覺內(nèi)容元素連接鏡頭的鏈接為特征的一系列時間連續(xù)鏡頭”。現(xiàn)在轉(zhuǎn)向影片編輯技術(shù),我們下面說明的技術(shù)對說明本發(fā)明很有用。參考文獻(xiàn)[13]提供了對在視聽媒體創(chuàng)作中采用的某些通用慣例和技術(shù)的更為詳盡的分析。在這篇參考文獻(xiàn)中,關(guān)注點(diǎn)在于不同類型的鏡頭和場景,以及它們在影片的不同環(huán)境中的各種用途。鏡頭可以是事件的一部分,或者可以用作其“描述”[1]。這意味著鏡頭可以顯示正在發(fā)生的事件的特定方面(例如對話時的人臉),或者可以顯示隨后事件發(fā)生的布景。下文中,分別將這兩種鏡頭稱作“事件”鏡頭和“描述”鏡頭。通常,在情景開始時出現(xiàn)“描述”鏡頭,用來引入隨后“事件”鏡頭的布景。例如,在廣受歡迎的喜劇影片“諾丁山”中我們多次看到從外面展現(xiàn)書店的鏡頭,而隨后的鏡頭就詳細(xì)說明在書店內(nèi)發(fā)生了什么。顯然,該情景包括所有鏡頭(店外的鏡頭和店內(nèi)的鏡頭),但自動分析可能導(dǎo)致第一個鏡頭不被包括為書店LSU的一部分。在這種情況下,LSU邊界沒有準(zhǔn)確地與實(shí)際場景的邊界相對應(yīng),而是給出了最佳可能逼近。就場景而言,通常被分類成兩大類[6],即N型這種場景(標(biāo)準(zhǔn)場景)的特征在于色彩構(gòu)成、照明狀況、以及聲音的長時間連貫性;以及M型這種場景(剪輯場景)的特征在于視覺內(nèi)容差別極大(例如,不同地點(diǎn)、時間、照明狀況、角色等)并常常具有音頻內(nèi)容的長時間連貫性。許多后期制作視頻節(jié)目類型(例如,影片、記錄片、連續(xù)劇等等)除了它們的句法構(gòu)成外還具有隱含的情節(jié)和語義結(jié)構(gòu)。對這些邏輯視頻段的自動檢測可使得端用戶在寬帶連接或任何其他快速網(wǎng)絡(luò)媒體訪問的時代進(jìn)行交互性和個性化的多媒體傳送和消費(fèi)。由于這些潛在的好處,已經(jīng)對如下概述的這種自動檢測技術(shù)進(jìn)行了研究。現(xiàn)有技術(shù)近年來,為了搭接低級視聽特征(例如,色彩、紋理、動作等)與高級語義含義之間的可感知“語義間隔”,在按語義級對視頻數(shù)據(jù)庫(各種類屬的視頻數(shù)據(jù)庫)進(jìn)行構(gòu)建、索引以及檢索的領(lǐng)域中已經(jīng)進(jìn)行了大量的研究和開發(fā)活動。例如在[2]中,提出了一種基于時間約束聚類的方法。通過利用關(guān)鍵幀之間的色彩和像素相關(guān)度來測量鏡頭之間的視覺相似度,然后運(yùn)用預(yù)定的記憶模型來識別故事中的模式,得到了所關(guān)注的結(jié)果。但是,在這種情況下,對預(yù)定間隔(以幀為單位)的選擇為情景的持續(xù)時間設(shè)置了人為限制。在[3]中描述了另一所關(guān)注方法,其中利用鏈接鏡頭的概念來檢測LSU,使用按照預(yù)置幀間隔的多個幀之間的塊匹配來檢查鏡頭間的不相似度。另外,使用音頻信息[5]和混合視聽信息來檢測場景邊界[6,7,8]也引起了越來越多的研究興趣。但是,如何有效地結(jié)合音頻信息和視覺信息仍然是個難題,這是因?yàn)?,由于視頻類型的多樣性和內(nèi)容制作的風(fēng)格,導(dǎo)致了在音頻信息與視覺信息之間看似存在許多不同的關(guān)系。在[6]中,作者使用有限記憶模型來將音頻和視頻數(shù)據(jù)分段成各個場景,并且隨后應(yīng)用滑動窗來合并音頻和視頻場景的結(jié)果。在[7]中提出了一種使用音頻信息來去除由視覺場景分段所產(chǎn)生的偽邊界的音頻輔助場景分割技術(shù)。其他作者[8]首先關(guān)注用于視覺分段的目標(biāo)跟蹤方法,然后基于檢測到的視頻鏡頭來分析音頻特征,而不論音頻數(shù)據(jù)內(nèi)容實(shí)際如何。本發(fā)明旨在提供除上述技術(shù)之外的又一種視頻分段技術(shù)。
發(fā)明內(nèi)容根據(jù)本發(fā)明,提供了一種識別視頻序列中的語義相似的鏡頭的方法,該方法包括以下步驟a)識別所述視頻序列內(nèi)的鏡頭,各鏡頭是時間連續(xù)的視頻幀序列;b)計(jì)算各鏡頭與每一個其他鏡頭間的距離值;以及c)依據(jù)相應(yīng)計(jì)算出的其間距離值將鏡頭聚類成組;其中,在步驟c)中被聚類為一組的鏡頭具有語義相似的內(nèi)容。根據(jù)本發(fā)明的第二方面,提供了一種將視頻序列中的視頻鏡頭自動組織成具有相似語義內(nèi)容的組的方法,該方法包括以下步驟a)識別所述視頻序列中的鏡頭,各鏡頭包括連續(xù)的視頻幀序列;b)使用量化過程生成各鏡頭的碼本表示;c)依據(jù)鏡頭的相應(yīng)碼本表示來計(jì)算各鏡頭與每一個其他鏡頭間的距離值;以及d)依據(jù)相應(yīng)計(jì)算出的其間距離值將鏡頭聚類成組。在優(yōu)選實(shí)施例中,介紹了一種新的基于鏡頭的視頻內(nèi)容分析方法,其目標(biāo)在于自動識別(LSU),檢測場景變化、相似(重復(fù))場景以及/或者沿著視頻序列的事件。該方法包括鏡頭的基于矢量量化(VQ)的視覺內(nèi)容表示、使用自動確定合并及分割的高效鏡頭聚類算法、鏡頭類中的時間約束分析、使用場景轉(zhuǎn)換圖進(jìn)行場景檢測、鏡頭的基于VQ的音頻內(nèi)容表示、音頻特征變化檢測、以及通過啟發(fā)式規(guī)則對音頻和視覺分析結(jié)果的融合。目標(biāo)在于使得用于組織和索引日益增大的視頻數(shù)據(jù)庫的耗時費(fèi)力處理自動化,從而可使用接近人類概念的自然查詢結(jié)構(gòu)容易地對其進(jìn)行瀏覽和搜索。圖1(a)是本發(fā)明實(shí)施例的系統(tǒng)架構(gòu)的框圖;圖1(b)是圖1(a)中所示的系統(tǒng)架構(gòu)的一部分的框圖;圖2(a)至(c)是例示矢量量化(VQ)碼本生成的圖;圖3是例示如何在視頻鏡頭之間生成VQ碼本距離的圖;圖4是例示作為一個原始鏡頭圖(OSG)的鏡頭序列的圖;圖5是例示鏡頭類之間的距離的圖,稱作VQ距離圖;圖6是例示鏡頭類之間的距離的圖;圖7是例示用于首次迭代的鏡頭聚類的示例的圖;圖8是例示用新的類C2′來替代兩個類(C2,C4)的圖;圖9是例示對群集操作進(jìn)行校驗(yàn)的圖;圖10是例示對鏡頭進(jìn)行時間約束子聚類的圖;圖11是使用場景轉(zhuǎn)換圖的示例;圖12是例示對音頻數(shù)據(jù)進(jìn)行的處理的流程圖;圖13是例示使用堆土機(jī)距離(EMD)計(jì)算的圖;圖14是例示檢測音頻場景變化的EMD的測繪曲線圖;圖15是例示用于整合音頻和視頻場景邊界的第一方案的圖;圖16是例示用于整合音頻和視頻場景邊界的第二方案的圖;并且圖17是例示用于整合音頻和視頻場景邊界的第三方案的圖;具體實(shí)施方式現(xiàn)在將參照附圖來描述本發(fā)明的實(shí)施例。更具體地,首先參照圖1(a)和1(b)對本發(fā)明實(shí)施例所提供的語義視頻分析系統(tǒng)的架構(gòu)和操作處理進(jìn)行綜述。之后,將描述對各步驟的更為詳細(xì)的考察。操作綜述本發(fā)明實(shí)施例的方法和系統(tǒng)旨在對例如由MPEG視頻流等提供的視頻序列進(jìn)行操作。但是,應(yīng)該注意的是,不論編碼是否為MPEG,本實(shí)施例不涉及對任何編碼視頻序列進(jìn)行解碼。假設(shè)本發(fā)明實(shí)施例的輸入是已解碼視頻數(shù)據(jù)的形式。本實(shí)施例中的方法和系統(tǒng)通過被設(shè)置為在處理器(例如,個人計(jì)算機(jī))的控制下執(zhí)行的計(jì)算機(jī)程序來實(shí)現(xiàn)。可使得該計(jì)算機(jī)程序可在便攜式存儲介質(zhì)(例如,軟盤或光盤)上獲得,之后可在計(jì)算機(jī)上存儲并且/或者執(zhí)行該計(jì)算機(jī)程序。在第一步驟1中,首先使用已知的自動方法將整個視頻流分解為基本攝像鏡頭。將視頻序列分解為單個鏡頭的技術(shù)是本領(lǐng)域中公知的,例如在L-Q.Xu,J.Zhu和F.W.M.Stentiford的“Videosummarisationandsemanticeditingtools”,StorageandRetrievalforMediaDatabases,Proc.ofSPIE,Vol.4315,SanJose,USA,21-26Jan.2001中所描述的技術(shù)。通過引用將該文獻(xiàn)中的內(nèi)容并入于此。在后續(xù)的步驟3中,對于各基本鏡頭,利用某些特征性“標(biāo)記”提取一個或更多個關(guān)鍵幀來代表該鏡頭的視覺內(nèi)容。在這種情況下,由在后續(xù)的步驟7中生成的矢量量化(VQ)碼本來提供所述標(biāo)記。VQ碼本是從低級視覺特征(例如色彩、紋理等)中導(dǎo)出的。鏡頭關(guān)鍵幀的選擇在本領(lǐng)域中是公知的,如在Y.Zhuang,Y.Rui,T.Huang,S.Mehrotra的“Adaptivekeyframeextractionusingunsupervisedclustering”,Proc.ofIEEEInt’lConf.onImageProcessing,pp.866-870,Chicago,October1998中所描述的。矢量量化碼本技術(shù)在本領(lǐng)域中也是公知的,正如R.M.Gray在“Vectorquantization”,IEEEASSPMagazine,Vol.1,pp.4-29,April1984中所描述的。在對視頻序列進(jìn)行上述分解的同時,還可以定義音頻鏡頭。音頻鏡頭的長度通常被選擇為與視覺鏡頭的長度相對應(yīng),但是如果視覺鏡頭太短,則音頻鏡頭的長度可以是幾個相鄰視覺鏡頭的串接。在初始階段9,各音頻鏡頭的特征在于短時間的頻譜特性,例如Mel頻率倒譜系數(shù)(MFCC)。然后,如稍后要描述的,在后續(xù)的階段11基于在整個鏡頭中聚集的短時間音頻特性計(jì)算可包括VQ碼本的音頻鏡頭的內(nèi)容“標(biāo)記”。返回到視頻分解處理,在步驟5中對關(guān)鍵幀進(jìn)行表征之后,在后續(xù)的步驟7中基于VQ碼本執(zhí)行對鏡頭的視覺聚類。這里,目標(biāo)是基于視頻流的所有鏡頭的視覺內(nèi)容標(biāo)記(即,VQ碼本)的相似度,將視頻流的所有鏡頭全局性分組成為大量所謂的類。最初,各類包含單個鏡頭。使用采用完美定義的距離度量(well-defineddistancemetric)的聚類算法,該算法在兩個類相似(根據(jù)它們之間的最小距離)到足以允許合并的情況下還具有糾錯能力。這將得到共享相似視覺表觀(根據(jù)它們的“外觀和感覺”)且在無需在先知曉內(nèi)容或人為設(shè)置的情況下自動確定的最終類集合。將視覺類輸出到視聽(A/V)框架(profile)分析階段15。在音頻分解處理中,在階段13使用與應(yīng)用于視頻流的矢量量化技術(shù)類似的矢量量化技術(shù)來執(zhí)行對伴音頻流的分段。如稍后將更詳細(xì)概述的,使用公知的堆土機(jī)距離(EMD)度量來計(jì)算連續(xù)鏡頭的音頻內(nèi)容標(biāo)記間的不相似度。EMD度量給出了音頻內(nèi)容變化在時域上的全局視圖。然后應(yīng)用基于對距離度量的統(tǒng)計(jì)分析的閾值操作來檢測高于特定閾值的局部峰值。落在兩個峰值內(nèi)的鏡頭被識別為共享相似音頻屬性,并由此被安排為分段在一起?,F(xiàn)在參照圖1(b),圖1(b)是A/V框架分析階段15的詳細(xì)框圖,對接收到的視頻類執(zhí)行時間約束類分析17。在先前的階段7中,類中的每個鏡頭都被標(biāo)記有時間。為了區(qū)別在節(jié)目中不同時間/階段發(fā)生的視覺上相似的場景(例如,在諸如特定酒吧、公寓等的相似物理環(huán)境中捕捉到的場景),時間約束類分析階段17被設(shè)置為使用滑動窗技術(shù)來執(zhí)行檢查場景的時域連貫性的任務(wù)。于是,生成了其中鏡頭不僅在表觀上彼此相似而且在時間上也相鄰的大量類。還生成了描述這些類之間的時間關(guān)系的圖形表示。在后續(xù)步驟17中,執(zhí)行所謂的基于場景轉(zhuǎn)換圖(STG)的分析。在給出上述鏡頭類集合的條件下,使用場景轉(zhuǎn)換圖(STG)的概念,執(zhí)行圖形分析以通過將較弱的類A與具有相同的語義標(biāo)記的第二類B關(guān)聯(lián)起來而導(dǎo)出最終的語義場景。雖然類A在視覺上可能與類B不同,但它在時間上夾在屬于B的鏡頭之間。然后基于STG的分析步驟19檢測語義不同的視頻段的轉(zhuǎn)換圖中的“切邊”。基于STG的分析步驟19的輸出提供場景級而不僅僅是鏡頭級的關(guān)于視頻序列的語義結(jié)構(gòu)的有用信息,并可按照若干方式加以使用。具體地,后續(xù)的自動場景變化檢測步驟21提供了朝向更好語義理解諸如影片的視頻序列的第一步驟,這是因?yàn)閷⒂捌纸鉃槎鄠€場景有助于創(chuàng)建內(nèi)容概要,這反過來也可被用來使得能夠在影片內(nèi)進(jìn)行非線性導(dǎo)航。此外,確定各場景內(nèi)的視覺結(jié)構(gòu)有助于可視化影片概覽中的各場景的處理。即使沒有后續(xù)的時間約束分析階段17,視覺聚類階段7本身也可提供有用的信息。這是因?yàn)橐曈X類階段7將具有相似語義內(nèi)容的所有鏡頭一并分組到同一類中。然后這可被用來方便地向用戶展示與該語義內(nèi)容相關(guān)的所有鏡頭。例如,用戶可能會要求觀看在特定場所拍攝的視頻序列中的每個鏡頭。然后,為了識別及隨后顯示給用戶,可以采用可視聚類來按照自動方式將在所述場所拍攝的所有鏡頭聚類在一起。最后,在又一階段23(其中,提供了視頻和音頻分段),可執(zhí)行對視頻和音頻結(jié)果的融合。這個階段23以上述兩個分組步驟的結(jié)果為輸入,并基于一套啟發(fā)式規(guī)則生成對視聽場景變化的三種不同解釋?,F(xiàn)在將更詳細(xì)地描述在上述步驟中涉及的處理。視覺信息處理首先具體參照圖2至11,將描述處理視頻信息中涉及的步驟。雖然對于理解本發(fā)明并非必需,但仍假設(shè)熟知技術(shù)的讀者了解用于執(zhí)行攝像分解檢測階段1和關(guān)鍵幀檢測階段3的公知技術(shù)。不論何種情況,都在上面提及的參考文獻(xiàn)中給出了詳盡描述。VQ碼本和VQ間失真度量在關(guān)鍵幀表征階段5,接收與各鏡頭相對應(yīng)的關(guān)鍵幀并對其進(jìn)行分析。參照圖2(a),對于每個鏡頭,將所選關(guān)鍵幀解碼為LUV格式的靜態(tài)352×288圖像。接下來,以2為因子對各關(guān)鍵幀進(jìn)行子采樣,并將圖像細(xì)分為4×4像素的塊。由于經(jīng)子采樣的圖像具有176×144的顯示格式,因此可以理解將會出現(xiàn)1584個4×4像素塊。這些像素塊用作對用于生成合適碼本(其用于表征該特定關(guān)鍵幀)的矢量量化器的輸入矢量(或“訓(xùn)練集”)。矢量量化(下文中稱為VQ)在視頻處理領(lǐng)域是眾所周知的。在上述R.M.Gray在IEEEASSP期刊上的參考文獻(xiàn)中對VQ的背景和使用提供了完整的介紹。簡言之,VQ是一種基于塊編碼原理的有損數(shù)據(jù)壓縮方法。它是一種用作逼近器的固定對固定長度算法。參照圖2(b),示出了一維矢量量化器的示例。這里,每個小于-2的數(shù)被近似為-3,介于-2與0之間的每個數(shù)被近似為-1,每個介于0與2之間的數(shù)被近似為+1,等等。近似值由兩位唯一地表示。這類矢量量化器被稱為比率為每維2位的1維2位矢量量化器。參照圖2(c),示出了兩維矢量量化器的示例。可見每對落入特定區(qū)域中的數(shù)被近似為由圓25表示的單個值。在這種情況下,有16個區(qū)域和16個圓,其中每一個都可由4位唯一地表示。因此,圖2(c)代表比率為每維2位的2維4位矢量量化器。在圖2(b)和2(c)的示例中,圓被稱為碼字,區(qū)域被稱為編碼區(qū)域。所有碼矢的集合被稱為碼本。在當(dāng)前的分析技術(shù)中,VQ處理包含用預(yù)定塊(其是從碼本矢量中選出的)替代各個輸入圖像塊,使得失真測量結(jié)果最小化。通過這種方式,僅僅使用屬于碼本的塊就可以重構(gòu)整個圖像。通常來說,圖像由一些不同大小的單色區(qū)域來表征,意味著隸屬相同塊的像素共享某些色彩屬性,使得在一個塊內(nèi)的相關(guān)性可能非常高。然而,塊尺寸越大,塊內(nèi)像素間可能存在的相關(guān)性就越小。此外,在各圖像中,始終存在與顏色分量的特定組合相對應(yīng)主導(dǎo)色。這意味著,如果我們在三維色彩空間中表示像素,則特定區(qū)域?qū)⒏芗@表示在顏色分量之間也存在很強(qiáng)的相關(guān)性。VQ自然地利用了關(guān)于要被量化的矢量的分量之間的相關(guān)性的信息——如果在標(biāo)量模式下對單一分量進(jìn)行量化,則將失去該信息。對于屬于特定4×4塊的所有像素,各像素的三個LUV分量被從左上至右下串接起來,形成48維的矢量,如圖2所示。各48維矢量構(gòu)成對VQ碼本生成處理的一個輸入。VQ碼本生成要針對各視覺鏡頭生成的碼本包含C個碼字,每個碼字都是D維。下文中,我們稱該VQ碼本為與其相關(guān)的關(guān)鍵幀的標(biāo)記(因此為視覺鏡頭的標(biāo)記)。該碼本包含以下元素i)C個碼字,它們分別為最終碼本中各類的質(zhì)心值。如圖2所示,各48維矢量被應(yīng)用到矢量量化器中,并且根據(jù)該矢量所在的區(qū)域,隨后將質(zhì)心值分配給那個矢量。如下獲得C個碼字(μ1,...,μD)c=Σi=1Mc(p1,...,ipDi)cMc]]>其中C代表在碼本中的碼字(或類)數(shù),例如C=100,而c代表第c個碼字。Mc是落入碼字c的分區(qū)中的4×4的塊的數(shù)量,pik是第i個D維矢量的第k個分量,并且D=48。第i個D維矢量被記為pi1,...,piD。ii)按照下式獲得碼字的方差(σ1,...,2σD2)c=Σi=1Mc[(μ1-p1i)2,...,(μD-pDi)2]cMc.]]>iii)碼字的權(quán)重,其考慮與各碼字c相關(guān)聯(lián)的4×4的塊的數(shù)量Mc。通常,使用介于0與1之間的歸一化的權(quán)重,即這里,分母是訓(xùn)練矢量的總數(shù)。如上所述,Mc是落入第c個類中的矢量數(shù)。需要注意,丟掉沒有或僅有一個相關(guān)聯(lián)塊的所有碼字。VQ碼本距離度量(VQCDM)如上所述,一旦獲得各視頻鏡頭的碼本,將使用采用完美定義的距離度量的聚類算法。具體地,在本實(shí)施例中,使用VQ碼本距離度量(VQCDM)。參照圖3,可在兩個步驟中計(jì)算任意兩個鏡頭之間的VQCDM。首先,將第一鏡頭中的各碼本矢量yi∈{y1,...,yN}與第二鏡頭中的各碼本矢量zj∈{z1...,ZN}相比較,以根據(jù)下式來計(jì)算距離矩陣di,j=d(yi,zi)對于i=1,...,N,且j=1,...,N,di,j=1DΣh=1D[α(μih-μjh)2+(1-α)(σih-σjh)2]]]>其中D是碼本矢量的維度,i表示在碼本Y(關(guān)于鏡頭Y)中的第i個碼字,j表示在碼本Z(關(guān)于鏡頭Z)中的第j個碼字。α是是權(quán)重因子,其中0<α<1.0。正如將要理解的,這生成了表示針對各可能組合的各個碼本矢量之間的相對距離的矩陣集合。第二,在給出上式結(jié)果的條件下,在兩個給定鏡頭Y與Z之間的VQCDM被定義為由于i是固定的,所以對于所有的j值,我們尋找第一項(xiàng)的最大值和第二項(xiàng)的最小值。注意,進(jìn)行比較的兩個碼本可能具有不同的有效尺寸,也就是說,第一個鏡頭的碼本的尺寸為N并且第二個鏡頭的碼本的尺寸為M,其中M≠N。如前所述的,這并非不常見,因?yàn)楫?dāng)一些碼本矢量不具有相關(guān)聯(lián)塊時簡單地丟掉它們以減小碼本的尺寸。聚類過程在初始分段為單個鏡頭之后,根據(jù)視覺相似性對視頻鏡頭進(jìn)行分組給出了對視頻序列的下一分級描述。為實(shí)現(xiàn)這種分組,在接下來的步驟7中,我們在聚類算法中使用基于VQ的鏡頭級視覺內(nèi)容描述以及上述的VQCDM。注意,這種方案既與視頻的類型無關(guān),也無需具體了解下層故事結(jié)構(gòu)。聚類處理假設(shè)沿著該序列出現(xiàn)重復(fù)(或者至少相似的)鏡頭結(jié)構(gòu)。這對于包括題材影片的廣類型范圍內(nèi)的高度結(jié)構(gòu)化的節(jié)目(它們可以是喜劇和/或舞臺劇、情景喜劇和卡通片)來說是合理的假設(shè)。然而例如當(dāng)導(dǎo)演使用連續(xù)快速的鏡頭來突出懸疑時刻或僅僅使用一系列鏡頭來展開影片的情節(jié)時,故事結(jié)構(gòu)也可能被部分丟失。在這種情況下,然而,由于屬于相同場景的鏡頭通常至少共享該場景的相似的色彩構(gòu)成或者環(huán)境照明狀況,所以如果處理N個場景,則基于VQCDM的聚類算法能提供良好的性能。聚類過程被為兩部分無時間約束過程和時間約束過程。無時間約束聚類過程首先,我們假定有M個類Ci...CM,每一個代表相應(yīng)鏡頭Si...SM。參照圖4,以簡單的圖來表示這種狀況,該圖被稱為原始鏡頭圖(OSG),其中節(jié)點(diǎn)對應(yīng)于類(或鏡頭),邊/箭頭表示類間的轉(zhuǎn)換。如前所述,沿著時間軸對所有鏡頭組合計(jì)算VCDM,以便在整個視頻序列中窮盡探察視覺相似性。在各步驟處,將類與代表所述類與所有其他類的距離的VQCDM一起在稱作VQ距離圖的更新圖上表示為節(jié)點(diǎn)。圖5中例示了示例VQ距離圖。參照圖5,VQ距離圖包含4個類C1...C4,其中的一些包括一個以上的鏡頭。例如,類C1包括兩個鏡頭。由于一對類的VQCDM是對稱的,所以為了便于說明,圖6針對各對僅示出一個距離值。在每次迭代中,上述的過程旨在將基準(zhǔn)類R與其視覺上最相似的測試類T合并,其中在最小VQCDM的意義上R<T,由此在時間線上形成新的單個類R’替代類R的位置。根據(jù)這種合并操作,屬于基準(zhǔn)類R和測試類T的所有鏡頭都成為屬于新類R’的鏡頭。此外,更新向R和T/從R和T開始的所有轉(zhuǎn)換,以便保持故事的正確時間流。圖7示出了第一次合并操作的示例(其中各類只包括一個鏡頭),合并發(fā)生在類C’2(即,基準(zhǔn)類R)與C4(即,測試類T)之間。對于所得組合的類R’,需要新的VQ碼本來代表或表征其視覺內(nèi)容。采用與前述相同的處理來生成碼本,不過存在如下差別屬于R’的所有鏡頭的關(guān)鍵幀均將被用于生成碼本。最后,計(jì)算類R’與所有其他類之間的VQCDM以用于下一步驟。對類誤差的在線統(tǒng)計(jì)分析在開始下一聚類迭代之前,執(zhí)行檢查來確定上述聚類操作實(shí)際上是否應(yīng)該已被執(zhí)行。具體地,當(dāng)形成新類R’時,相對于原始鏡頭圖(OSG),在鏡頭圖中引入了VQ誤差。應(yīng)當(dāng)注意的是,盡管針對特定鏡頭生成的VQ碼本完全專用于該鏡頭,但是當(dāng)類包含一個以上的鏡頭時,代表類中所有鏡頭的內(nèi)容的經(jīng)更新VQ碼本通常要比針對任何特定鏡頭的VQ碼本的專用性都要弱。這意味著,對于每個鏡頭,最佳VQ碼本是在首次合并步驟之前給出的VQ碼本。從那時起,在后續(xù)聚類迭代中,對于給定的類,VQ碼本中的鏡頭表示誤差可能會增多。在圖8中,我們示出了在首次合并類C2和C4之后相對于OSG誤差是如何產(chǎn)生的??扇菀椎厥褂肰QCDM來計(jì)算以新的類VQ碼本來表示鏡頭所造成的誤差。在每次迭代后,通過對類R’的VQ與屬于R’的所有鏡頭的OSGVQ之間的距離進(jìn)行求和來給出誤差。在我們的示例中,在首次合并步驟之后,誤差由下式給出VQ_err(first_step)=VQ_Dist(C2,C2′)+VQ_Dist(C4,C2′)=VQ_Dist(S2,C2′)+VQ_Dist(S4,C2′)在一般情況下,誤差由下式給出,VQ_err(step)=ΣSi∈R′VQ_Dist(Si,R′)]]>其中R’是新形成的類,對所有相關(guān)聯(lián)的鏡頭來說Si∈R’。由于我們在將相似的鏡頭分為類,所以隨著類尺寸的增加,特定類的VQ碼本有在代表其各個鏡頭的視覺內(nèi)容方面丟失專用性和準(zhǔn)確性的危險(xiǎn)。為了防止這種退化過程,在每次迭代之后,對最新合并步驟中產(chǎn)生的誤差進(jìn)行統(tǒng)計(jì)分析,以評估新的VQ碼本在代表類中的鏡頭方面如何普適,并且因此確定該合并步驟應(yīng)予保留還是使其無效。為此,在迭代步驟k中,我們計(jì)算了如下的所引入誤差變化(Delta_VQ_err)Delta_VQ_err(k)=[VQ_err(k)-VQ_err(k-1)]另外,計(jì)算先前迭代中的平均值(Mean(Delta_VQ_err))以及標(biāo)準(zhǔn)偏差(Std(Delta_VQ_err))。此外,還如下計(jì)算相對于前一合并步驟的平均值和標(biāo)準(zhǔn)偏差的所有差異Mean(Delta_VQ_err(k))-Mean(Delta_VQ_err(k-1)),Std(Delta_VQ_err(k))-Std(Delta_VQ_err(k-1))然后,通過監(jiān)視這些值,并對它們中的一個或更多個應(yīng)用閾值,可以評估新形成的類相對于原始鏡頭圖是否引入了太多的誤差,并因此可使合并步驟無效。圖9中表示了該處理。如果情況不是如此(即,不滿足閾值),則不采取任何行為,且執(zhí)行下一聚類迭代。然而,如果情況如此,則進(jìn)行前一聚類操作的逆操作(即,將合并后的類分為該聚類操作之前存在的鏡頭/類)。此外,基準(zhǔn)類被鎖定為不參與以后的聚類處理,并且利用最小的VQCDM選擇針對下一類迭代的新的基準(zhǔn)和測試類(它們當(dāng)前被分類為非鎖定)。重復(fù)該迭代過程,直到?jīng)]有非鎖定的類可用于合并。再次注意,隨著合并后類尺寸的增加,視覺上不相似的鏡頭可能進(jìn)入類,更加惡化VQ碼本的代表性。盡管上述的分析和后續(xù)的逆聚類操作可用于防止這種退化過程,但是當(dāng)類的尺寸超過特定閾值(例如,12至15個鏡頭)時將其鎖定也是有用的。也可使用另外的類鎖定準(zhǔn)則。時間約束分析因?yàn)樯鲜龅臒o時間約束分析方法僅僅基于鏡頭的視覺內(nèi)容而不考慮環(huán)境的定時地將鏡頭分組到相同的類,所以該方法對于諸如影片的許多類型的視頻節(jié)目都非常有用。這種方法沒有為場景的持續(xù)時間設(shè)定在先時間限制(這是例如[2]中的一個問題),此外該方法可被用于特定的檢索目的,例如用戶定義的查詢,譬如搜索重播。例如,當(dāng)觀看影片“諾丁山”時,觀看者可能希望按照出現(xiàn)的順序來觀看設(shè)定在“書店”周圍的所有場景。如果將所有相似鏡頭都分組到同一類(利用無時間約束方法這是可能實(shí)現(xiàn)的),這就很簡單了。然而,為了將一個邏輯故事單元與其他邏輯故事單元分開,需要進(jìn)一步的分析來考慮分組到各類中的鏡頭的時間局部性。換言之,應(yīng)該對每個類執(zhí)行時間約束分析。時間約束分析的目的在于根據(jù)時間局部性準(zhǔn)則將類分為一個或更多個時間連貫的子類(參見圖10)。時間約束分裂準(zhǔn)則如下∀xh∈Ci,j,∃xk∈Ci,j:|h-k|≤TW]]>其中TW是表示用戶所選時間窗的持續(xù)時間(按照鏡頭數(shù))的時間窗,Ci是第i個類,Ci,j是Ci的一個時間局限的子類,x1,x2,...,xn是屬于Ci,j的鏡頭。簡單來說,沿著時間線移動時落入時間窗TW內(nèi)的每對鏡頭屬于同一類。當(dāng)僅有一個鏡頭落入TW內(nèi)時,在TW的端部有一個裂口(split)。參照圖10,可以看到,當(dāng)TW自左向右移動移動時,建立了包括S1和S3(S5緊隨其后)的類。正如所示,存在其中TW僅包括S5的點(diǎn),因此在TW的端部進(jìn)行一次分裂。第一子類被標(biāo)記為Ci1,0。新的TW開始,并且按照同樣的方式,鏡頭S9、S10(在時間線上未示出)以及S11被一起分組到新的類Ci,1。顯然,如果所有鏡頭都包含在同一個時間窗TW中,則類本身就成為時間局限的子類。這個條件可被應(yīng)用于各類中的鏡頭,以根據(jù)類中所包含的鏡頭代表的場景將類分為一個或更多個時間局限的子類。在各子聚類操作中保留表示子類之間的時間流的轉(zhuǎn)換信息,使得獲得包括大量時間局限的子類以及子類之間的轉(zhuǎn)換/邊的有向圖。各子類包含視覺上相似且時間上相鄰的鏡頭,各轉(zhuǎn)換代表情節(jié)的時間演變。如前所述,圖10中示出了將類分為時間局限子類的示例,在圖11中示出了如此獲得的有向圖的示例。在下一階段19,對該有向圖進(jìn)行場景轉(zhuǎn)換圖(STG)分析,以自動地提取其結(jié)構(gòu),從而說明隱含視頻節(jié)目的語義結(jié)構(gòu)和時間流。場景轉(zhuǎn)換圖(STG)如前所述,邏輯故事單元(LSU)被看作是通過公共語義視覺內(nèi)容來統(tǒng)一的相關(guān)鏡頭的有序集合。在給定先前視覺相似度和時間分析步驟的輸出的條件下,我們在這一節(jié)展示最初在[16]中提出的STG概念如何被有效地用于尋找LSU的邊,以提供對視頻節(jié)目中的故事結(jié)構(gòu)的緊湊表示。正如已經(jīng)提到的,來自前一處理步驟的輸出是包括大量節(jié)點(diǎn)和節(jié)點(diǎn)之間的轉(zhuǎn)換/邊的所謂有向圖。各節(jié)點(diǎn)可包含一些視覺上相似且時間上相鄰的鏡頭,各轉(zhuǎn)換代表情節(jié)的時間演變。在下面的描述中,我們首先概述STG的思想,然后討論如何在沒有在先了解視頻節(jié)目的語義結(jié)構(gòu)和時間流的情況下自動地提取STG的結(jié)構(gòu)。STG的定義如下——有向圖G,這里G=(V,E,F(xiàn)),其中V={Vi}為節(jié)點(diǎn)集,E是邊(或轉(zhuǎn)換)集,F(xiàn)是將鏡頭集{Si}劃分為作為V的成員的節(jié)點(diǎn)V1,V2...等的映射。將各Vi中的鏡頭聚類為如在使用視覺VQCDM和時間約束分析之前一樣。這意味著各Vi是時間局限的子類。給定一對節(jié)點(diǎn)(U,W)∈V,如果在m=l+1的情況下存在S1∈U且Sm∈W,則邊/轉(zhuǎn)換(U→W)是E的成員。這意味著如果存在在由節(jié)點(diǎn)W代表的鏡頭緊前的由節(jié)點(diǎn)U代表的鏡頭,則(U→W)是E的成員。一個示例狀況可能是兩個角色之間的對話,攝像機(jī)鏡頭在他們之間交替。在這種情況下,圖G由兩個節(jié)點(diǎn)V1和V2組成,且有向邊(V1→V2)和(V2→V1)是E的成員。這里,我們將各有向圖G與無向圖G’=(V,E’)相關(guān)聯(lián)。G和G’具有相同的節(jié)點(diǎn)集,并且對于各邊e∈G,存在具有相同端的對應(yīng)邊e∈G’。如接下來要描述的,在給定了這些預(yù)備定義的條件下,然后可以使用STG來檢測LSU。用于LSU檢測的STG切邊一種重要類型的兩個節(jié)點(diǎn)間轉(zhuǎn)換被稱為“切邊”。在無向圖中,轉(zhuǎn)換被看作是“切邊”,如果當(dāng)轉(zhuǎn)換被去除時,該圖得到兩個不連通的圖。G,中的切邊集將G’分為n個不相交的子圖G’1,G’2,...,G’n,其中各G’i=(Vi,E’i)。此外,切邊對應(yīng)地對G進(jìn)行相同的劃分,從而有n個不相交的STG,G1,G2,...,Gn,其中Gi=(Vi,Ei,F(xiàn))。從G的映射F在劃分圖G之后在各Gi中被保留。因此如果對應(yīng)邊e∈G’是G’的切邊,則我們稱有向邊e為G中的切邊,。如圖11所示,在去除切邊后的各連通子圖將代表LSU,而STG中所有切邊的集合代表從一個LSU到下一個的所有轉(zhuǎn)換,由此反映了視頻流的自然演變,并允許對故事結(jié)構(gòu)進(jìn)行分級組織。通過使用從時間約束分析輸出的有向圖作為STG并且檢測其中的切邊,可在視頻序列中檢測LSU及其間的轉(zhuǎn)換。正如前面所討論的,這些LSU(或場景)在語義上比鏡頭更高級地代表視頻序列,并且具有多種用途。音頻信號處理現(xiàn)在將具體參照圖12至17來描述處理音頻信息中所涉及的步驟,這些步驟可與上述的視頻處理步驟并行執(zhí)行。當(dāng)前對于語義視頻分析的方法相比相關(guān)聯(lián)的音頻暗示,對于視覺暗示給予了更多的關(guān)注。然而,音頻數(shù)據(jù)中包含了大量信息,這些信息通常比視覺部分的信息更為重要或者作為其補(bǔ)充。在諸如題材影片的許多視頻節(jié)目中,導(dǎo)演通常使用創(chuàng)造性的剪輯技術(shù),其中短但視覺上不同的連續(xù)鏡頭共享相同的音頻特性(通常是一段音樂旋律)。因此在這種意義下,這些鏡頭屬于同一語義主題。在這種情況下,可以說音頻暗示實(shí)際上在對視頻數(shù)據(jù)進(jìn)行解析和分段時起到主要的作用。通常,結(jié)合音頻和視覺數(shù)據(jù)會提供更可靠和準(zhǔn)確的場景分析結(jié)果。在這里描述的本發(fā)明實(shí)施例中,我們提供了兩個單獨(dú)的視覺和音頻數(shù)據(jù)處理鏈/分支,并由此產(chǎn)生單獨(dú)的視覺和音頻分析結(jié)果,然后啟發(fā)式地結(jié)合這些分析結(jié)果(如稍后描述)以提供對節(jié)目結(jié)構(gòu)的更具邏輯和分級的描述。通常,音頻數(shù)據(jù)被認(rèn)為相對于視覺處理結(jié)果起到支持的作用,視覺部分仍然是檢測實(shí)際場景變化的主要基準(zhǔn)。然而,在一些情況中,音頻分段可能更為重要。在這種情況下,視頻分段支持音頻分段。在下文中,我們描述了使用一組低級音頻特征和時間分段方法來對音頻數(shù)據(jù)的語義內(nèi)容進(jìn)行表征。以經(jīng)分段的音頻鏡頭(它們可以被拍攝為具有在初始步驟1中生成的對應(yīng)視覺鏡頭的長度)開始,可根據(jù)兩個連續(xù)鏡頭之間的距離測量結(jié)果來識別音頻場景變化。對于各音頻鏡頭,我們基于頻譜特征計(jì)算“標(biāo)記”(其是以與先前對于視覺標(biāo)記描述的方法類似的方式從VQ碼本中導(dǎo)出的)。在這種情況下,頻譜特征以Mel頻率倒譜系數(shù)(MFCC)的形式給出。然后,采用被稱為堆土機(jī)距離(EMD)的距離測量方法,來計(jì)算音頻鏡頭之間的距離,或者計(jì)算它們的“標(biāo)記”。最后,采用簡單的閾值方法來檢測音頻場景變化并分離音頻數(shù)據(jù)的連貫分段。圖12和13分別代表用于音頻場景變化檢測的音頻鏡頭標(biāo)記提取步驟和對連續(xù)音頻鏡頭的距離計(jì)算步驟。下面給出了對各階段的進(jìn)一步解釋。音頻鏡頭數(shù)據(jù)制備如上所述,音頻流首先被分為任意的段。在本實(shí)施例中,我們將音頻流分為與已被分段的視頻鏡頭相對應(yīng)的段。由于在視頻序列中可能出現(xiàn)的漸變效應(yīng)(例如漸隱和溶解),一些視頻鏡頭在時間上可能非常短。為了避免與這種效應(yīng)相關(guān)聯(lián)的問題,如果鏡頭短于特定持續(xù)時間(例如,2秒),則在處理該鏡頭前就將其與前一鏡頭合并。按照這種方式,我們試圖避免分析較短的無聲鏡頭,并且確保只對包括相對大量的音頻信息的段執(zhí)行分析。根據(jù)對應(yīng)的視頻鏡頭段來處理音頻數(shù)據(jù)的優(yōu)點(diǎn)在于使得更加容易結(jié)合音頻和視覺數(shù)據(jù)分析的結(jié)果。此外,在音頻處理部分,無需關(guān)注音頻數(shù)據(jù)內(nèi)容,而是關(guān)注特征集值的變化。在此方面,處理的目標(biāo)不是為了分類(即確定音頻是否為音樂、語音、無聲、噪聲等等),而是為了識別音頻特性的變化(其可能與音頻屬性的重大變化隱含的場景變化或者故事演變中的重要事件相對應(yīng))。短時頻譜分析在將音頻流分為基于鏡頭的段之后,在下一步驟9中,對各音頻鏡頭執(zhí)行短時頻譜分析以生成表征鏡頭的特征矢量。這是通過首先將音頻鏡頭劃分為多個音頻幀來實(shí)現(xiàn)的,各音頻幀是局部穩(wěn)定的并且持續(xù)幾十毫秒。然后,針對各音頻幀,我們進(jìn)行頻譜分析,該頻譜分析包括提取19Mel頻率倒譜系數(shù)(MFCC)加上一個聲音能量分量。正如本領(lǐng)域技術(shù)人員所理解的,MFCC被廣泛用于在語音識別應(yīng)用中,另外還被用于對音樂的建模中[10]。在我們的實(shí)施例中,優(yōu)選地,以22.050KHz對音頻數(shù)據(jù)進(jìn)行采樣,各采樣由16比特來表示。然后將采樣劃分為20ms長并以Hamming窗加權(quán)的多個音頻幀;滑動窗交疊10ms,從而每10ms獲得輸出特征矢量或19MFCC的集合。對音頻鏡頭的矢量量化在后續(xù)的步驟11中,采用如此獲得的MFCC來導(dǎo)出各音頻鏡頭的標(biāo)記。為了導(dǎo)出各音頻鏡頭的標(biāo)記,我們使用與先前關(guān)于視覺數(shù)據(jù)分析描述的矢量量化技術(shù)相同的矢量量化技術(shù)。更具體地,在頻譜分析之后,整個音頻鏡頭由一序列19維實(shí)矢量(MFCC)(其代表鏡頭的10ms音頻幀)來表示。因此,例如,如果音頻鏡頭持續(xù)2.3秒,則將有230個矢量可用于碼本生成處理。注意,由于高能量的音頻幀對人耳具有更大的影響,所以當(dāng)我們計(jì)算幀級別特征時,采用這些MFCC的加權(quán)形式。加權(quán)因子和幀的能量成正比。該處理在鏡頭中有許多無聲幀的時候尤為有用,這是因?yàn)闊o聲幀中的頻率特征近似為隨機(jī)。通過使用基于能量的加權(quán),消除了有害效應(yīng)。使用幀能量值和對音頻文件(剪輯99%重合)計(jì)算出的最高能的一秒剪輯的值的比率,獲得各音頻幀的相對權(quán)重。一旦選擇了碼本的維數(shù)K,就通過將K個種子(它們將形成類的中心)隨機(jī)定位到包含所有頻譜音頻幀的19維超立方體中而開始用于VQ碼本生成的算法。各幀根據(jù)其頻譜坐標(biāo)(即,其MFCC值)而定位在該超立方體中。VQ結(jié)構(gòu)由其單元的重心(質(zhì)心)的最終位置來定義,質(zhì)心與描述音頻鏡頭的內(nèi)容的特征的統(tǒng)計(jì)密度直接相關(guān)。測量音頻鏡頭標(biāo)記之間的距離針對各音頻鏡頭生成的碼本由此包含C個碼字,各碼字具有D維。該VQ碼本成為與其相關(guān)的音頻鏡頭的“標(biāo)記”,該碼本包含以下信息。i)C個碼字,它們分別為最終碼本中各類的質(zhì)心,利用以下公式獲得這些碼字(μ1,...,μD)c=Σi=1Mc(f1,...,ifDi)cMc]]>其中Mc是與碼字c相關(guān)聯(lián)的鏡頭中的音頻幀數(shù),fid是音頻幀i的第d個MFCC;ii)碼字的方差,其由下式獲得(σ1,...,σD2)c=Σi=1Mc[(μ1-f1i)2,...,(μD-fDi)2]cMc]]>iii)碼字的權(quán)重,其考慮了與各碼字c相關(guān)聯(lián)的音頻幀數(shù)Mc。通常,使用介于0與1之間的歸一化權(quán)重,即注意,沒有相關(guān)聯(lián)的音頻幀的任何碼字都是可忽略的。另外,如果只有一幀與碼字相關(guān)聯(lián),則其對應(yīng)類將具有零方差,并根據(jù)下面討論的距離度量而距每個其他碼字具有無窮遠(yuǎn)距離。因此丟掉這些碼字。堆土機(jī)距離(EMD)一旦得到各音頻鏡頭的特征標(biāo)記或VQ碼本,我們使用公知的堆土機(jī)距離(EMD)來測量任意兩個音頻鏡頭之間的非相似度。這種距離度量由Rubner,Tomasi和Guibas在“TheEarthMover’sDistanceasaMetricforImageRetrival”,TechnicalReportSTAN-CS-TN-98-86,CSDepartment,StanfordUniversity,September1998中描述為一種改進(jìn)從大型圖像數(shù)據(jù)庫進(jìn)行基于內(nèi)容的圖像檢索的度量,并且在[10]中用于比較音頻數(shù)據(jù)庫中的歌曲來自動創(chuàng)建音頻播放列表。在[18]和[19]中可找到基于計(jì)算機(jī)的實(shí)現(xiàn)細(xì)節(jié)。簡言之,EMD是一種評價(jià)兩個標(biāo)記之間的不相似度的方法。直觀地說,給定兩個標(biāo)記,一個標(biāo)記可被看作空間中適當(dāng)散布的大量土,并且另一個標(biāo)記是同一空間中的洞的集合。EMD提供一種將土填到洞中所需的最小工作量的測量。這里,單位工作對應(yīng)于將單位土運(yùn)送單位地面距離。在各對連續(xù)音頻鏡頭之間應(yīng)用EMD來確定其間的距離,并且存儲結(jié)果以用于下一階段。圖13中示出了音頻鏡頭之間的EMD計(jì)算??梢钥吹?,可關(guān)于時間軸來繪制EMD值的圖形表示。這被稱為音頻鏡頭距離曲線。用于音頻場景檢測的分段過程。計(jì)算了連續(xù)音頻鏡頭對之間的EMD值之后,采用所得的距離測量結(jié)果來將音頻流分段為多個場景。此處的目標(biāo)是檢測空間相近(在頻譜屬性意義上的空間相近)且時間相鄰的音頻鏡頭的邊界,以識別可能的音頻場景變化。通常,音頻場景變化可能發(fā)生在聲音中大多數(shù)主導(dǎo)音頻特征改變的時候[9]。這可發(fā)生新的視覺場景正好開始之前(或正好開始之后)。然而,這也可表示故事中的重要事件,甚至在場景中間的重要事件。例如,聲音中的主導(dǎo)音頻特征可以改變以表示兩個主角之間的接吻,或者用以在某種恐怖事情發(fā)生之前增加懸念。由于EMD提供了一種兩個相鄰音頻鏡頭之間的標(biāo)記的距離度量,所以我們通??梢哉f,如果EMD較大,則這兩個連續(xù)的音頻鏡頭在它們與低級描述特征的定義集或標(biāo)記相關(guān)的隱含屬性方面有很大不同。相反,如果EMD值較小,音頻在兩個鄰近鏡頭之間不會有可感知的變化。在步驟13中(參見圖1(a)),執(zhí)行一種統(tǒng)計(jì)分析來計(jì)算所有連續(xù)音頻鏡頭對的距離的平均值μ和標(biāo)準(zhǔn)偏差σ。然后采用乘以了標(biāo)準(zhǔn)偏差σ的經(jīng)驗(yàn)選取閾值來檢測音頻鏡頭距離曲線中的峰值并且來將音頻鏡頭分為不同段,如圖14所示。因此,通過分析EMD結(jié)果中的峰值,可檢測到音頻場景變化,并可實(shí)現(xiàn)音頻場景分段。音頻輔助的視頻場景分級分段將本實(shí)施例中的最后階段23設(shè)置用于整合經(jīng)分段的音頻場景信息與經(jīng)分段的視頻場景信息。盡管結(jié)合使用視覺和音頻分析結(jié)果仍然是一個具有挑戰(zhàn)性的問題,但是音頻在視頻分段中的重要性已被許多研究人員所認(rèn)識到,并近期出現(xiàn)在參考文獻(xiàn)[20]中。這里,我們說明如何將根據(jù)先前的基于鏡頭的分析所分別導(dǎo)出的音頻和視覺分析結(jié)果結(jié)合起來,以實(shí)現(xiàn)最終的對視頻結(jié)構(gòu)的高級描述。與只使用音頻暗示來刪除視覺分析中錯誤檢測到的場景邊界的許多方法[7]不同,這里我們首先將視頻流分段為視覺和音頻鏡頭(在先前章節(jié)中進(jìn)行了描述),然后在單獨(dú)的分支中執(zhí)行各種處理和分析步驟之后,我們將兩組結(jié)果結(jié)合起來以導(dǎo)出最終的場景邊界。針對音頻和視覺處理兩者的基于鏡頭的分析方法避免了許多影響本領(lǐng)域的提出聯(lián)合視聽分析的一些解決方案的對準(zhǔn)問題,并提供了一種使結(jié)果同步的簡單方法。下面,我們提出啟發(fā)式規(guī)則以指導(dǎo)如何結(jié)合視聽分析結(jié)果?;旧希瑢τ跈z測到的各視覺場景變化,在與所述視覺變化相關(guān)聯(lián)的鏡頭的相鄰鏡頭中搜索最可能的音頻場景變化。同樣地,對于檢測到的各音頻場景變化,在與所述音頻變化相關(guān)聯(lián)的鏡頭的相鄰鏡頭中搜索最可能的視頻場景變化。當(dāng)我們通常將視覺輸出作為檢測真實(shí)場景變化的主要基準(zhǔn)時,采用音頻輸出來支持、或補(bǔ)充視覺處理結(jié)果。然后我們能夠?yàn)椴煌愋偷囊暵犨吔缃Y(jié)合分配不同的分級含義。視聽結(jié)果結(jié)合規(guī)則我們識別出如下所述的三種可能的場景分段邊界情形。i)檢測到視頻場景邊界,但是不存在具有相同時間標(biāo)記的音頻場景邊界。這是一種其中故事改變地點(diǎn)和/或時間但是音頻線實(shí)際上沒有改變的常見情形。例如,這是在“說話”情形期間視覺場景改變了但是基礎(chǔ)的音頻場景仍然還是“說話”時的情況。有時這也可能發(fā)生在當(dāng)一序列音頻鏡頭具有相同隱含語義含義的時候。例如,可能提供伴有相同的歌曲或音軌的一系列不同視頻鏡頭,例如在對長時期的事件(例如一次旅行)進(jìn)行快速描述的情況下,或者在描述按順序發(fā)生但共享一完美定義的語義含義的特定序列事件(例如季節(jié)的更替)的情況下。ii)檢測到音頻場景邊界,但是不存在具有相同時間標(biāo)記的視頻場景邊界。這通常發(fā)生在當(dāng)作者希望強(qiáng)調(diào)序列中的一個重要時刻的時候,或者,更簡單地,發(fā)生在當(dāng)場景的情緒變?yōu)楸瘋?喜悅/浪漫/恐怖/驚嚇時刻的時候。例如,在“諾丁山”影片中,當(dāng)在博物館處向朱麗亞·羅伯茨扮演的角色求婚時的場景的中間有音頻場景變化。iii)檢測到視頻場景邊界,并且在相同時間標(biāo)記處存在音頻場景邊界在假定音頻和視覺特征同時改變的條件下,這是檢測的最簡單的情況。這可能是音頻變化正好在對應(yīng)視覺場景變化之前(作為引子)或者正好在其之后。當(dāng)定義要使用的規(guī)則時考慮這些情形。如前所述,檢測到的場景邊界并不總是與場景的實(shí)際開始和/或結(jié)束相對應(yīng),這是為什么LSU被認(rèn)為是對真實(shí)電影情景的最佳逼近的原因之一。然而,在這種情況下,由于音頻和視覺特征兩者同時改變,所以我們可以較為肯定檢測到的LSU邊界也是真實(shí)場景轉(zhuǎn)折(break)。在給出不同場景邊界情形之后,我們現(xiàn)在著眼于發(fā)現(xiàn)情節(jié)中的適當(dāng)結(jié)構(gòu)來定義多個規(guī)則。在下面的描述中,我們使用VC(si)和AC(si)來分別表示在鏡頭i中發(fā)生的視覺變化和音頻變化。邏輯故事單元(LSU)邊界因?yàn)殓R頭序列共享鏡頭任一側(cè)上的相似視覺內(nèi)容,所以如果發(fā)生視覺變化但是沒有檢測到音頻變化,則根據(jù)上述定義其可被看作為“LSU邊界”。規(guī)則i)當(dāng)且僅當(dāng)如下條件下,在鏡頭i處檢測到LSU邊界VC(si)AND(NOT((AC(si-N))OR(AC(si-N+1))OR...OR(AC(si+N-1))OR(AC(si+N))))其中N是在各VC周圍的時間模糊窗。N是圖15中示出的示例中的一個鏡頭。LSU內(nèi)的音頻模式暗示如果發(fā)生音頻變化但是之后沒有視覺變化,則根據(jù)LSU的定義,我們無法對最終場景轉(zhuǎn)折作任何的斷言。然而我們確實(shí)知道,出于某種原因,音頻相對于前一鏡頭發(fā)生了變化——可能強(qiáng)調(diào)正在發(fā)生的重要事件、影片中情緒的變化、或者浪漫的時刻。出于這個原因,并且因?yàn)槲覀兊募夹g(shù)主要依賴于檢測場景變化的視覺分析,所以我們將這些音頻變化稱為“音頻模式暗示”,視頻節(jié)目創(chuàng)作者希望其對于情節(jié)的演變至關(guān)重要。規(guī)則ii)因此,當(dāng)且僅當(dāng)如下條件下,在鏡頭i處檢測到音頻模式暗示AC(si)AND(NOT((VC(si-N))OR(VC(si-N+1))OR...OR(VC(si+N-1))OR(VC(si+N))))其中N是在各AC周圍的時間模糊窗,并且在本示例中具有一個鏡頭的值。這種情形示于圖16中。視聽場景變化如果在鏡頭i處發(fā)生的音頻變化與為該鏡頭中或周圍的視頻變化一致,則我們檢測到“視聽場景變化”。在這種情況下,檢測到的LSU邊界很可能是真實(shí)場景轉(zhuǎn)折。長度為N的模糊窗考慮了音頻變化預(yù)示(正好在之前發(fā)生)或跟隨(正好在之后發(fā)生)視覺場景變化的情況。因此,第三個規(guī)則定義如下。規(guī)則iii)當(dāng)且僅當(dāng)如下條件,在鏡頭i處檢測到視聽場景變化VC(si)AND((VC(si-N))OR(VC(si-N+1))OR...OR(VC(si+N-1))OR(VC(si+N)))其中N是各VC周圍的時間模糊窗,且在本示例中,N具有一個鏡頭的值。這種情形示于圖17中。利用這些類型的語義內(nèi)容信息(其包括視聽場景變化、新的LSU、以及在LSU中的音頻暗示),就可能創(chuàng)建情節(jié)結(jié)構(gòu)的更精確的分級組織,使得朝向?qū)σ曨l媒體的自動語義理解更進(jìn)一步。本發(fā)明可發(fā)現(xiàn)許多不同的工業(yè)應(yīng)用??梢詷?gòu)想主要但非排他地利用處理器上運(yùn)行的軟件程序來實(shí)現(xiàn)本發(fā)明,盡管還可等同地構(gòu)想專有硬件實(shí)現(xiàn)。作為一個應(yīng)用示例,個人計(jì)算機(jī)、DVD記錄器、或能夠再現(xiàn)視聽序列的其他視聽設(shè)備可安裝有被設(shè)置為在執(zhí)行時實(shí)現(xiàn)本發(fā)明的軟件。在用戶的控制下,例如通過用戶按壓DVD等的遙控器上的“尋找類似物”控制按鈕,來進(jìn)行對該軟件的執(zhí)行。在視聽序列回放過程中,用戶在他希望DVD播放器搜索整個序列以尋找語義類似的場景的場景處按壓“尋找類似物”按鈕。然后DVD播放器執(zhí)行實(shí)現(xiàn)本發(fā)明的軟件直到執(zhí)行無時間約束聚類的階段,之后向用戶顯示在與他啟動“尋找類似物”功能時所觀看的場景相同的類中找到的所有場景。按照這種方式,用戶通過觸摸按鈕就能夠?yàn)g覽視聽序列中所有語義類似的場景。在另一應(yīng)用中,本發(fā)明可被用于自動生成關(guān)于音頻場景變化、視頻場景變化、以及邏輯故事單元邊界的章節(jié)標(biāo)記。再次地,諸如個人計(jì)算機(jī)、DVD記錄器、或能夠再現(xiàn)視聽序列的其他視聽設(shè)備可安裝有被設(shè)置為在執(zhí)行時實(shí)現(xiàn)本發(fā)明的軟件。用戶將視聽序列(可存儲在DVD盤上、從因特網(wǎng)下載、或以其他方式輸入)加載到該設(shè)備中,然后命令該設(shè)備執(zhí)行實(shí)現(xiàn)本發(fā)明的軟件(例如通過按壓適當(dāng)?shù)陌粹o或使用圖形用戶界面來控制該設(shè)備)。然后該軟件運(yùn)轉(zhuǎn)以如所描述地確定視頻和音頻場景邊界以及邏輯故事單元邊界,并且與不同類型的邊界相關(guān)的標(biāo)記可被存儲于內(nèi)容中或?qū)ζ涞乃饕?。生成這種標(biāo)記之后,用戶可使用這些標(biāo)記對視聽內(nèi)容進(jìn)行導(dǎo)航。不同類型的標(biāo)記提供了不同類型的導(dǎo)航,并且因此豐富了用戶對于內(nèi)容的體驗(yàn)。本發(fā)明的其他應(yīng)用對于有意的讀者將是非常明顯的。除非上下文明確要求,否則在整個說明書和權(quán)利要求書中,按照與排他和窮盡相反的包含意義來解釋術(shù)語“包括”、“包含”等;也就是說,是“包括,但不限于”的意義。此外,為了避免起疑,給出了對于現(xiàn)有技術(shù)文檔和公開物的引用,其內(nèi)容(無論是全部還是部分)對于作為本領(lǐng)域技術(shù)人員的有意讀者理解本發(fā)明任意實(shí)施例的操作或?qū)崿F(xiàn)是必要的,則通過對其的所述引用將所述內(nèi)容并入于此??偨Y(jié)總結(jié)上文,優(yōu)選實(shí)施例提供了一種用于在語義級別上導(dǎo)出內(nèi)容信息以便提供與視頻序列(例如,電影或電視節(jié)目)的內(nèi)容相關(guān)的有意義信息的技術(shù)。該技術(shù)最初將視頻序列分為單獨(dú)的鏡頭。還可根據(jù)基于鏡頭的視頻劃分將伴音序列分為多個音頻鏡頭。這之后,采用了兩個分支分析階段來分別處理視頻和音頻鏡頭。在視頻分析分支中,為各鏡頭提供了代表性的關(guān)鍵幀。將該關(guān)鍵幀分為構(gòu)成VQ碼本學(xué)習(xí)處理的訓(xùn)練矢量的像素塊,碼本之后表征該關(guān)鍵幀,由此表征鏡頭。采用了公知的距離度量來計(jì)算各碼本(鏡頭)對之間的距離(表示視覺相似度),這之后通過將鏡頭間距離落在預(yù)定范圍內(nèi)的鏡頭分組在一起來執(zhí)行聚類。接下來,執(zhí)行時間約束聚類,其中考慮分在同一類中的鏡頭的時間局部性。所得子類代表具有視覺上相似且時間上相鄰的內(nèi)容的視頻鏡頭。然后采取多個步驟以從子群集中識別邏輯故事單元(LSU)。在音頻分支中,可對各音頻鏡頭執(zhí)行短時頻譜分析以導(dǎo)出形成用于進(jìn)一步VQ碼本學(xué)習(xí)處理的訓(xùn)練矢量的一組Mel頻率倒譜分量(MFCC)??刹捎枚淹翙C(jī)距離(EMD)測量方法來計(jì)算各音頻碼本對之間的距離(其表示音頻相似度),根據(jù)該距離,可以通過沿著序列時間線識別EMD測量結(jié)果中的峰值來定位音頻鏡頭邊界。最后,可以將一組啟發(fā)式規(guī)則應(yīng)用于所得LSU和音頻鏡頭場景,以在語義級別上識別關(guān)于視聽序列的信息。這采用了LSU和音頻鏡頭場景的各個邊界之間的比較。參考文獻(xiàn)1、A.Hanjalic,“Visual-ContentAnalysisforMultimediaRetrievalSystems”,PhDThesis,DelftUniversityofTechnology,TheNetherlands,1999.2、M.M.YeungandB.L.Yeo,“Time-constrainedclusteringforsegmentationofvideointostoryunits,”ProceedingsofICPR’96.3、A.Hanjalic,R.LLagendijk,“Automatedhigh-levelmoviesegmentationforadvancedvideoretrievalsystems,”IEEETrans.OnCircuitsandSystemsforVideoTechnology,9(4),June1999.4、B.Adams“Wheredoescomputationalmediaaestheticsfit?”IEEEMultimedia,April-June2003,pp.18-26.5、Z.Liu,Y.WangandT.Chen,“Audiofeatureextractionandanalysisforscenesegmentationandclassification”,Vol.20,No.1,JournalofVLSISignalProcessingSystemsforSignal,Image,andVideoTechnology.6、H.SundaramandS.F.Chang,“Determiningcomputablescenesinfilmsandtheirstructuresusingaudio-visualmemorymodels,”ACMMultimedia2000,pp.95-104.7、Y.Chao,W.Tavanapon,K.KimandJ.Oh,“Audio-assistedscenesegmentationforstorybrowsing,”Proc.ofInt’lconf.onImageandVideoRetrieval(CIVR’03),pp.446-455,Urbana-Champaign,IL,USA,July2003.8、S.-C.Chen,M.-L.Shyu,W.Liao,andC.Zhang,“Scenechangedetectionbyaudioandvideoclues,”Proc.ofIEEEICME’2002,pp.365-368,2002,Lausanne,Switzerland.9、H.SundaramandS.F.Chang,“Audioscenesegmentationusingmultiplefeatures,modelsandtimescales,”Proc.ofICASSP’2000,Istanbul,Turkey,June2000.10、B.Logan,A.Salomon,“Acontent-basedmusicsimilarityfunction,”CompaqTechnicalReport(CRL-2001-2),June2001.11、Y.Rubner,C.Tomasi,andL.Guibas,“TheEarthMover’sDistanceasametricforimageretrieval,”TechnicalReportSTAN-CS-TN-98-86,CSDepartment,StanfordUniversity,Sept1998.12、J.G.R.C.GomesM.Carli,S.K.MitraandA.Neri,“Vectorquantization-basedautomaticshotboundarydetection,”Proc.ofIEEEWorkshoponMultimediaSignalProcessing(MMSP’02),pp.216-219,2002.13、http://www.aber.ac.uk/media/Documents/short/gramtv.html14、http://www.alphaworks.ibm.com/tech/videoannex15、B.L.YeoandB.Liu,“Rapidsceneanalysisoncompressedvideos,”IEEETrans.onC.S.V.T.,December1995.16、M.M.Yeung,B.Yeo,W.Wolf,B.Liu,“Videobrowsingusingclusteringandscenetransitionsoncompressedsequences,”inProc.ofMultimediaComputingandNetworking,Vol.SPIE2417,pp.399-413,F(xiàn)eb1995.17、A.Gersho,R.M.Gray,“VectorQuantizationandSignalCompression”,KluwerAcademicPublishers,January1992.18、F.Archetti,E.Fagioliea.Scimachen,“Metodidellaricercaoperativa,”Giappichelli1989.19、W.H.Press,B.P.Flannery,S.A.Teukolsky,andW.T.Vetterling,“NumericalRecipesinC”,CambridgeUniv.Press,1988.20、Y.Wang,Z.Liu,J.-C.Huang,“Multimediacontentanalysisusingbothaudioandvisualcues,”IEEESignalProcessingMagazine,2001.權(quán)利要求1.一種識別視頻序列中的語義相似的鏡頭的方法,該方法包括以下步驟a)識別所述視頻序列中的鏡頭,各鏡頭是時間連續(xù)的視頻幀序列;b)計(jì)算各鏡頭與每一個其他鏡頭間的距離值;以及c)依據(jù)相應(yīng)計(jì)算出的其間距離值將鏡頭聚類成組;其中在步驟c)中被聚類為一組的鏡頭具有語義相似的內(nèi)容。2.根據(jù)權(quán)利要求1所述的方法,其中,所述計(jì)算步驟包括i)生成各識別出的鏡頭的碼本表示,該碼本表示至少將各鏡頭的關(guān)鍵幀表示為多個碼;ii)依據(jù)鏡頭的相應(yīng)碼本表示來計(jì)算各鏡頭與各個其他鏡頭之間的距離值。3.根據(jù)權(quán)利要求2所述的方法,其中,所述生成步驟包括i)將所述幀分為x×y像素的塊;ii)在選定的顏色空間中,將各塊的相應(yīng)像素值(p1,...,pD)排列成一特征向量;以及iii)識別能夠根據(jù)其生成碼本表示的特征向量的類。4.根據(jù)權(quán)利要求3所述的方法,其中,所述生成的碼本表示包括i)C個碼字,其分別是各特征向量類的質(zhì)心,按照下式而獲得(μ1,...,μD)c=Σi=1Mc(p1i,...,pDi)cMc]]>其中Mc是落入碼字c的分區(qū)中的x×y的塊的數(shù)量;ii)碼字的方差,按照下式而獲得(σ12,...,σD2)c=Σi=1Mc[(μ1-p1i)2,...,(μD-pDi)2]cMc;]]>以及iii)碼字的權(quán)重,其考慮與各碼字c相關(guān)聯(lián)的x×y的塊的數(shù)量Mc。5.根據(jù)權(quán)利要求4所述的方法,其中,采用介于0與1之間的歸一化權(quán)重,并將其計(jì)算為6.根據(jù)權(quán)利要求4或5中任一項(xiàng)所述的方法,其中,計(jì)算任意兩個鏡頭之間的距離值包括以下步驟i)將第一鏡頭(A)的各碼本矢量yi∈{y1,...,yN}與第二鏡頭(B)的各碼本矢量zj∈{z1,...,zN}進(jìn)行比較,以根據(jù)下式來計(jì)算距離矩陣di,j=d(yi,zj)對于i=1,...,N,且j=1,...,N,di,j=1DΣh=0D[α(μih-μjh)2+(1-α)(σih-σjh)2],]]>其中D是碼本矢量的維數(shù),0<α<1.0是加權(quán)因子;ii)根據(jù)下式確定所述兩個鏡頭(A和B)之間的距離值(VQd(A,B))7.根據(jù)前述權(quán)利要求中的任一項(xiàng)所述的方法,其中,所述聚類步驟包括迭代地應(yīng)用以下步驟i)選擇相互間具有較短距離的第一鏡頭或鏡頭類以及第二鏡頭或鏡頭類;以及ii)將所選鏡頭和/或鏡頭類聚類為新的類;其中隨后執(zhí)行所述距離計(jì)算步驟b)以確定在其余的鏡頭和類與新的單個類之間的距離。8.根據(jù)權(quán)利要求7所述的方法,該方法進(jìn)一步包括以下步驟iii)計(jì)算所述新的單個類的至少一個誤差值,所述至少一個誤差值表示所述類的碼表示表示該類中鏡頭的程度;iv)依據(jù)所述至少一個誤差值,使所述新類無效并保留所選鏡頭和/或鏡頭類。9.根據(jù)權(quán)利要求8的方法,該方法進(jìn)一步包括如下步驟v)防止所選鏡頭和/或鏡頭類在后續(xù)迭代中被選擇用于聚類。10.根據(jù)權(quán)利要求7至9中任一項(xiàng)所述的方法,該方法進(jìn)一步包括如下步驟如果鏡頭類中的鏡頭數(shù)等于或大于閾值數(shù),則防止所述類在后續(xù)的迭代中被選擇用于聚類。11.一種自動地將視頻序列中的視頻鏡頭組織成具有相似語義內(nèi)容的組的方法,該方法包括以下步驟a)識別所述視頻序列中的鏡頭,各鏡頭包括連續(xù)的視頻幀序列;b)使用量化過程生成各鏡頭的碼本表示;c)依據(jù)鏡頭的相應(yīng)碼本表示,計(jì)算各鏡頭與每一個其他鏡頭間的距離值;以及d)依據(jù)相應(yīng)計(jì)算出的其間距離值將鏡頭聚類成組。12.一種識別視頻序列中的語義相似的場景的方法,該方法包括根據(jù)前述權(quán)利要求中的任一項(xiàng)所述的識別語義相似的鏡頭的方法;并且進(jìn)一步包括以下步驟對于各鏡頭類,識別包含在其中的時間連續(xù)的鏡頭;并將該類分成多個子類,每個子類都包含一組時間連續(xù)鏡頭;其中特定子類中的各鏡頭與同一子類中的其他鏡頭在語義上相似并在時間上相鄰。13.一種識別視頻序列中的邏輯故事單元的方法,該方法包括根據(jù)權(quán)利要求12所述的識別語義相似的場景的方法;并且進(jìn)一步包括以下步驟對子類以及定義鏡頭子類間的視頻序列的時間流的時間轉(zhuǎn)換執(zhí)行圖形分析,以識別時間流在其中按順序移動的子類組;其中所述識別出的子類組對應(yīng)于所述視頻序列的邏輯故事單元。14.根據(jù)前述權(quán)利要求中的任一項(xiàng)所述的方法,該方法還進(jìn)一步包括以下步驟i)將所述視頻序列的伴音音軌分段為與所述識別出的視頻鏡頭相對應(yīng)的段;ii)計(jì)算連續(xù)音頻段之間的距離值;以及iii)依據(jù)計(jì)算出的距離值來檢測音頻場景邊界。15.根據(jù)權(quán)利要求14所述的方法,其中,所述計(jì)算步驟包括以下步驟i)生成各音頻段的碼本表示,該碼本表示將各段表示為多個碼;ii)依據(jù)音頻段的相應(yīng)碼本表示來計(jì)算連續(xù)段之間的距離值。16.根據(jù)權(quán)利要求15所述的方法,其中,所述生成步驟包括以下步驟i)將各段分為多個幀;ii)對各幀進(jìn)行頻譜分析以提取D頻譜系數(shù),并且確定幀能量;iii)至少依據(jù)幀能量對D頻譜系數(shù)進(jìn)行歸一化;iv)將相應(yīng)頻譜系數(shù)(f1,...,fD)排列為一特征向量;以及v)識別根據(jù)其可生成碼本表示的特征向量類。17.根據(jù)權(quán)利要求16所述的方法,其中所述生成的碼本表示包括i)C個碼字,其分別是各識別出的類的質(zhì)心,按照下式而獲得(μ1,...,μD)c=Σi=1Mc(f1i,...,fDi)cMc]]>其中Mc是與碼字c相關(guān)聯(lián)的鏡頭中的音頻幀數(shù);ii)碼字的方差,按照下式而獲得(σ12,...,σD2)c=Σi=1Mc[(μ1-f1i)2,...,(μD-fDi)2]cMc]]>iii)碼字的權(quán)重,其考慮與各碼字c相關(guān)聯(lián)的音頻幀數(shù)Mc。18.根據(jù)權(quán)利要求17所述的方法,其中使用介于0與1之間的歸一化權(quán)重,其由下式給出ωc=Mc/Σc=1CMc.]]>19.根據(jù)權(quán)利要求15至18中任一項(xiàng)所述的方法,其中,連續(xù)音頻段之間計(jì)算出的距離值為堆土機(jī)距離值。20.根據(jù)權(quán)利要求14至19中任一項(xiàng)所述的方法,該方法進(jìn)一步包括如下步驟使用預(yù)定義的啟發(fā)式準(zhǔn)則將所述音頻場景邊界與所述視頻場景邊界進(jìn)行整合。21.根據(jù)權(quán)利要求20所述的方法,其中,當(dāng)與視頻場景邊界基本同時檢測到音頻場景邊界時,確定檢測到了視聽邊界。22.根據(jù)權(quán)利要求20或21所述的方法,其中,當(dāng)檢測到視頻場景邊界,但沒有與其基本同時地檢測到音頻場景邊界時,確定檢測到了邏輯故事單元邊界。23.根據(jù)權(quán)利要求20、21或22中任一項(xiàng)所述的方法,其中,當(dāng)檢測到音頻場景邊界,但沒有與其基本同時地檢測到視頻場景邊界時,確定在邏輯故事單元內(nèi)已經(jīng)發(fā)生了在語義上重要的事件。24.一種計(jì)算機(jī)程序或一組計(jì)算機(jī)程序,該計(jì)算機(jī)程序或該計(jì)算機(jī)程序組被設(shè)置為使得當(dāng)由計(jì)算機(jī)系統(tǒng)執(zhí)行時其使得該計(jì)算機(jī)系統(tǒng)執(zhí)行根據(jù)前述權(quán)利要求中的任一項(xiàng)所述的方法。25.一種計(jì)算機(jī)可讀存儲介質(zhì),該計(jì)算機(jī)可讀存儲介質(zhì)存儲有根據(jù)權(quán)利要求24所述的計(jì)算機(jī)程序或計(jì)算機(jī)程序組中的至少一個計(jì)算機(jī)程序。26.一種系統(tǒng),該系統(tǒng)包括通用處理器,所述處理器被設(shè)置為用于執(zhí)行根據(jù)權(quán)利要求1至23中的任一項(xiàng)所述的方法。全文摘要本發(fā)明提供了用于對視頻序列中的場景進(jìn)行語義分段的方法和系統(tǒng)。描述了一種基于鏡頭的視頻內(nèi)容分析方法和系統(tǒng),用于提供對邏輯故事單元(LSU)的自動識別。該方法采用矢量量化(VQ)來表示鏡頭的視覺內(nèi)容,隨后采用鏡頭聚類算法,以及自動確定合并和分割事件。該方法提供用于組織和索引日益增大的視頻數(shù)據(jù)庫的耗時費(fèi)力處理的自動方式,從而可使用自然查詢結(jié)構(gòu)容易地對其進(jìn)行瀏覽和搜索。文檔編號G06K9/62GK1938714SQ200580009646公開日2007年3月28日申請日期2005年3月17日優(yōu)先權(quán)日2004年3月23日發(fā)明者許利群,塞爾希奧·貝尼尼申請人:英國電訊有限公司