專利名稱:用于使用基于內(nèi)容的視頻時間線索來識別視頻中的位置的過程和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及視頻處理,更具體地說,涉及用于使用基于內(nèi)容的視頻時間線索來可靠地識別視頻中的位置的一種過程和系統(tǒng)。這些時間線索由視頻內(nèi)容的有序的一連串視頻“指紋”或“簽名”組成,它們利用該視頻的幀圖像中的這些空間特征并可靠地識別位置,即使已修改該視頻(例如,利用插入或刪除),也是如此。
背景技術(shù):
視頻是一種流行、普及的媒介。幾乎在每間起居室中,并在日益增多的最終用戶個人計算機(jī)(PCs)上可以發(fā)現(xiàn)視頻。視頻采用難以置信的各種形式、格式和壓縮,并且,這種多樣性每年繼續(xù)呈增長趨勢。這種多樣性對需要可靠地識別視頻流中的位置的視頻軟件應(yīng)用程序提出了巨大的挑戰(zhàn)。舉例來講,這些視頻軟件應(yīng)用程序包括摘要、數(shù)據(jù)庫索引、內(nèi)容同步和視頻流的注釋。很難可靠地識別視頻流中的位置,這是因為該視頻流中的“相同的”視頻內(nèi)容在其存在期間可能會經(jīng)歷合適的修改。這樣,則不可能使用幀序號或嵌入時間碼來可靠地識別位置。對于商業(yè)電視(TV)節(jié)目而言,尤其如此,關(guān)于這些節(jié)目的修改可以包括簡短選錄的插入和刪除。例如,同一部電影的不同播放包括各組不同的商業(yè)廣告節(jié)目。此外,其他普通的修改包括格式轉(zhuǎn)換(例如,從美國使用的格式“全國電視標(biāo)準(zhǔn)委員會制式”(NTSC)轉(zhuǎn)換為在歐洲占支配地位的標(biāo)準(zhǔn)“逐行倒相制式”(PAL))。另外,其他修改可以包括存儲變化(例如,對壓縮格式、壓縮參數(shù)或?qū)@兩者的改變)和可能會有選擇地丟失幀的時間壓縮。
一種應(yīng)用程序(其中,需要可靠地識別視頻流中的位置)在web啟用電視系統(tǒng)中。一般而言,web啟用電視系統(tǒng)指的是允許用戶使用電視來進(jìn)行“萬維網(wǎng)”(或“Web”)沖浪的一組產(chǎn)品和技術(shù)。這允許將與視頻(或TV廣播)關(guān)聯(lián)的內(nèi)容(或信息)放置在該電視屏幕上,同時允許使用該Web。這樣,用戶可以觀看籃球游戲,并可以在該游戲下面看見超鏈接,以獲得關(guān)于某個球員的更多信息。同樣,該用戶可以看見超鏈接,以獲得關(guān)于購買其喜歡的球隊運動衫或帽子的信息。該內(nèi)容與某個視頻關(guān)聯(lián)。
但是,有關(guān)使該內(nèi)容與該視頻廣播相關(guān)聯(lián)的一個問題是在該國和世界的不同地區(qū),通常有該視頻廣播的不同版本。根據(jù)以上所描述的這些普通的修改,這些不同的版本可能會不一致。這要求為該視頻廣播的每個版本手動注釋該視頻廣播(例如,插入超鏈接)。關(guān)于該視頻廣播的每個版本的手動注釋很耗時、花費昂貴且容易出錯。
為了避免視頻廣播的每個版本的手動注釋,可以將該內(nèi)容直接嵌入該視頻廣播中。嵌入涉及在該視頻廣播中或該相同的數(shù)字視頻文件內(nèi)的同步流中的所需位置處附上該內(nèi)容。但是,一個問題是該嵌入技術(shù)十分固定,不可變更。如果有幾個來源想要將其內(nèi)容嵌入該視頻廣播,則該視頻文件迅速變得很大。關(guān)于該嵌入技術(shù)的其他問題包括在所需內(nèi)容的過濾和搜索過程中存在安全危險和困難。
所以,需要一種過程和系統(tǒng),該過程和系統(tǒng)提供對視頻中的位置的可靠識別,以便不需要幀序號和嵌入時間碼。另外,需要一種過程和系統(tǒng),該過程和系統(tǒng)提供一種使視頻的不同版本之間的內(nèi)容同步的靈活的方法。而且,還需要一種過程和系統(tǒng),該過程和系統(tǒng)可以堅定地識別視頻中的位置,并可以經(jīng)受得住由于增加和刪除幀、不同類型的壓縮和不同的廣播格式而產(chǎn)生的該視頻的修改。
發(fā)明內(nèi)容
這里所揭示的本發(fā)明包括一種用于可靠地識別不同版本的視頻內(nèi)容中的這些相同位置的過程和系統(tǒng)。該過程和系統(tǒng)依靠每一幀基于內(nèi)容的視頻“簽名”。這些視頻簽名構(gòu)成關(guān)于該視頻的基于內(nèi)容的視頻時間線索?;趦?nèi)容的視頻時間線索是一種機(jī)制,用于堅定地識別視頻流中的位置,而無須依靠幀序號或嵌入時間碼?;趦?nèi)容的視頻時間線索由有序的一連串視頻簽名組成。根據(jù)該視頻中的幀的這個內(nèi)容,基于內(nèi)容的視頻時間線索使用這些視頻簽名來識別一個特定的幀或特定的一連串幀。這些基于內(nèi)容的視頻時間線索簡潔緊湊、可迅速生成和搜索,并且,它們對于對視頻的普通修改而言是魯棒性的,該視頻會使幀序號和嵌入時間碼變得不可靠。這些普通的修改包括插入、刪除、時間壓縮、數(shù)據(jù)壓縮(例如,Indeo、Cinepak和MPEG IV壓縮)、廣播格式(例如,NTSC和PAL)、sentilations(例如,白噪聲和黑噪聲)、3:2下拉錯誤(例如,電視上所放映的電影)和顏色移位。該視頻位置識別過程和系統(tǒng)提供對視頻中的位置的可靠識別,以便不需要幀序號和嵌入時間碼。此外,這里所描述的該過程和系統(tǒng)很具魯棒性,并且可以經(jīng)受得住由于以上所列出的這些修改而產(chǎn)生的該視頻的修改。
基于內(nèi)容的視頻時間線索提出了一個重要類別的問題。例如,在視頻摘要和數(shù)據(jù)庫索引中,基于內(nèi)容的視頻時間線索提供了一種有效率的機(jī)制,用于標(biāo)明和恢復(fù)該視頻流中的重要對象和事件的位置。而且,由于這些時間線索很具魯棒性,因此,可以與該視頻流本身分開地存儲它們。這意味著可以使用基于內(nèi)容的視頻時間線索來支持對第三方內(nèi)容的同步化和對注釋的定位。
例如,考慮以下這個問題。紐約市的用戶對電視節(jié)目的本地版本進(jìn)行注釋,以指出這些重要的部分。換言之,該紐約市用戶使用注釋來創(chuàng)建該節(jié)目的概要。以后,該紐約市用戶想要與芝加哥的朋友分享這些注釋。但是,這位朋友只可以使用該節(jié)目的本地芝加哥版本。這個版本(包括一組不同的商業(yè)廣告節(jié)目)幾分鐘后在該節(jié)目中開始,因為它在體育消息廣播之后被加入“已在進(jìn)展中”。芝加哥的這位用戶如何能夠看見這位紐約用戶在該節(jié)目的其本地版本中的這些正確位置處的注釋呢?如果使用這里所描述的該視頻位置識別過程和系統(tǒng),這位芝加哥用戶可以將這位紐約市用戶所創(chuàng)建的這些注釋放置在該節(jié)目的本地芝加哥版本中的這些正確的位置。通過生成基于內(nèi)容的視頻時間線索,該紐約用戶可以按高度精確、魯棒性的方式來識別該節(jié)目的這些重要部分。他可以將其注釋連同該時間線索的這些有關(guān)的部分或片段一起經(jīng)由電子郵件發(fā)送給他的朋友。該芝加哥用戶的機(jī)器上的軟件可以使用這些視頻時間線索片段來確定該節(jié)目的本地芝加哥版本中的這些正確的位置。即使該芝加哥版本與該紐約版本截然不同,也是如此。
通過參考下文和展示本發(fā)明的各個方面的附圖,可以進(jìn)一步理解本發(fā)明。通過本發(fā)明的以下詳細(xì)的描述并結(jié)合這些附圖(舉例來講,它們展示了本發(fā)明的各種原則),其他特點和優(yōu)點將會一目了然。
現(xiàn)在參考這些附圖,在這些附圖中,相似的參考數(shù)字表示各處對應(yīng)的部分圖1是框圖,展示了被并入注釋系統(tǒng)的、這里所揭示的該視頻位置識別過程和系統(tǒng)的綜合縱覽,該圖只起說明作用。
圖2是框圖,展示了圖1中所示的該視頻位置識別過程和系統(tǒng)的綜合縱覽。
圖3A是框圖,展示了用于為視頻的第一個版本生成簽名的、圖1和圖2中所示的該視頻位置識別系統(tǒng)的縱覽。
圖3B是框圖,展示了用于為視頻的第二個版本生成簽名的、圖1和圖2中所示的該視頻位置識別系統(tǒng)的縱覽。
圖3C是框圖,展示了用于使圖3A和圖3B中所生成的這些簽名相匹配的該視頻位置識別系統(tǒng)的縱覽。
圖4是框圖,展示了圖3A和圖3B中所示的該簽名發(fā)生和提取模塊的細(xì)節(jié)。
圖5是圖4中所示的形態(tài)學(xué)上的清理模塊450的詳細(xì)框圖。
圖6A是詳細(xì)框圖,展示了圖4中所示的該短簽名模塊的第一個實施例。
圖6B是詳細(xì)框圖,展示了圖4中所示的該短簽名模塊的第二個實施例。
圖7是詳細(xì)框圖,展示了圖6B中所示的該修改過的PCA模塊的更多細(xì)節(jié)。
圖8是框圖,展示了圖3C中所示的該簽名匹配模塊的細(xì)節(jié)。
圖9是圖8中所示的該可靠性模塊的詳細(xì)框圖。
圖10是綜合流程圖,展示了圖3A-C中所示的該視頻位置識別系統(tǒng)的操作。
圖11是流程圖,展示了圖10中所示的該視頻位置識別系統(tǒng)方法的操作的額外細(xì)節(jié)。
圖12展示了工作例子中的被用來產(chǎn)生簽名的該簽名發(fā)生和提取(或特點提取)過程的細(xì)節(jié)。
圖13展示了該工作例子中的被用來恢復(fù)位置的該簽名匹配過程的細(xì)節(jié)。
圖14展示了該工作例子中所使用的該可靠性特點。
圖15展示了可以在其中執(zhí)行該視頻位置識別過程和系統(tǒng)的合適的計算系統(tǒng)環(huán)境的例子。
具體實施例方式
在本發(fā)明的下文中,參考這些附圖,這些附圖構(gòu)成本發(fā)明的一部分,并且,在這些附圖中用舉例說明的方式表現(xiàn)了一個特殊的例子,由此,可以實踐本發(fā)明。將會理解可以利用其他實施例,并且,在不脫離本發(fā)明的范圍的前提下,可以進(jìn)行結(jié)構(gòu)上的變更。
1.引言一大批多媒體應(yīng)用程序需要用于可靠地識別視頻流中的位置的魯棒性的技術(shù)。在一些情況中,諸如幀序號或嵌入時間碼的元數(shù)據(jù)足以確定位置。但是,對該視頻流的修改經(jīng)常改變該元數(shù)據(jù),從而使其變得無用。舉例來講,商業(yè)電視一般經(jīng)歷修改(例如,廣告的插入和刪除、格式轉(zhuǎn)換和時間壓縮)。
這里所描述的該視頻位置識別過程和系統(tǒng)包括一種魯棒性的技術(shù),該技術(shù)用于使用基于內(nèi)容的視頻時間線索來識別視頻流中的位置。這些基于內(nèi)容的視頻時間線索由從該視頻內(nèi)容中加以提取的有序的一連串低維數(shù)視頻簽名組成。這些簽名不基于統(tǒng)計技術(shù)(例如,彩色直方圖)。相反,這些簽名利用該視頻流的幀內(nèi)的空間特征。每個簽名是單一幀圖像的簡潔表示,選擇該單一幀圖像來最佳地將它與其他幀圖像區(qū)別開來。在從10到100個簽名的鄰接序列中,可以用獨特的方式來識別該視頻流中的位置。簽名具有高度的辨別力,并且對于可能在視頻上執(zhí)行的許多普通形式的修改而言很具魯棒性。這里所描述的該視頻位置識別過程和系統(tǒng)有效率,并可以被實時地加以執(zhí)行。
2.綜合縱覽作為可以如何執(zhí)行這里所描述的本發(fā)明的例子,提供了以下這個例子。應(yīng)該注意,以下的實施只是可以使用本發(fā)明的幾種方法中的一種方法。圖1是框圖,展示了被并入注釋系統(tǒng)的、這里所揭示的該視頻位置識別過程和系統(tǒng)的綜合縱覽;該圖只起說明作用。一般而言,注釋系統(tǒng)100允許第一位用戶根據(jù)第一視頻來創(chuàng)建注釋,將該注釋發(fā)送給第二位用戶,并將第一位用戶所創(chuàng)建的該注釋放置在第二視頻中。即使第一視頻可能與第二視頻截然不同,也是如此。
明確地說,參考圖1,源視頻105包含多個幀(幀(1)~幀(N))。這個源視頻正在兩個不同的分臺上被加以廣播,即,第一廣播分臺110按NTSC格式進(jìn)行廣播,第二廣播分臺115按PAL格式進(jìn)行廣播。例如,這兩個廣播分臺110、115可能是兩個不同的電視網(wǎng)絡(luò)——一個位于美國(使用該NTSC格式),一個位于歐洲(使用該PAL格式)。將不同的商業(yè)廣告節(jié)目加入源視頻105。NTSC格式廣播分臺110將第一組商業(yè)廣告節(jié)目120加入源視頻105。這第一組商業(yè)廣告節(jié)目120適合本地觀眾的標(biāo)準(zhǔn)和欣賞力。同樣,PAL格式廣播分臺115將第二組商業(yè)廣告節(jié)目125加入源視頻105。
如圖1所示,這產(chǎn)生了源視頻+第一組商業(yè)廣告節(jié)目130以及源視頻+第二組商業(yè)廣告節(jié)目135。應(yīng)該注意,通過增加這些商業(yè)廣告節(jié)目而獲得的合成視頻130、135可能具有不同的長度。另外,第一合成視頻130通過第一種類型的壓縮140來進(jìn)行壓縮,第二合成視頻145通過第二種類型的壓縮145來進(jìn)行壓縮。例如,這第一種類型的壓縮140可能是Indeo——視頻壓縮/解壓(編碼解碼器)技術(shù),并且,這第二種類型的壓縮145可能是MPEP IV——具有競爭性的編碼解碼器技術(shù)。
源視頻105的最后的廣播版本根據(jù)誰正在執(zhí)行該廣播而有所不同。換言之,由于所增加的不同的商業(yè)廣告節(jié)目、所使用的不同類型的壓縮、不同的廣播格式和不同的廣播噪聲,第一視頻廣播150不同于第二視頻廣播155。這樣,用戶#1在觀看由NTSC格式廣播分臺110傳送的第一視頻廣播150時所看到的內(nèi)容不同于用戶#2在觀看由PAL格式廣播分臺115傳送的第二視頻廣播155時所看到的內(nèi)容。
用戶#1使用其視頻位置識別系統(tǒng)160來產(chǎn)生對第一視頻廣播165的注釋。舉例來講,第一視頻廣播150可以包含背景中有房屋的海灘情景。用戶#1可以對第一視頻廣播150進(jìn)行注釋,以便在背景中的這些房屋之一的周圍畫圈,從而指出這是用戶#1在“海岸上的房屋”。通過狹窄信道,將這個注釋發(fā)送給用戶#2。舉例來講,這個狹窄信道包括電子郵件、手機(jī)、因特網(wǎng)和即時通信(IM)服務(wù)。用戶#2使用她的視頻位置識別系統(tǒng)170來將該注釋與源視頻105的第二視頻廣播155版本中的該正確位置相匹配。這創(chuàng)建了具有對應(yīng)的注釋175的第二視頻廣播。這樣,通過使用這里所描述的該視頻位置識別系統(tǒng)和過程,用戶#1能夠?qū)⒃匆曨l105的其版本的其注釋發(fā)送給用戶#2,用戶#2能夠使那個注釋與源視頻105的其版本中的該正確位置相符。
圖2是框圖,展示了圖1中所展示的該視頻位置識別方法和系統(tǒng)的綜合縱覽。這個綜合縱覽中所使用的該情節(jié)是在不同的市場中所放映的商業(yè)電視節(jié)目。在商業(yè)電視節(jié)目實際上被顯示在電視觀眾的電視機(jī)上之前,這些商業(yè)電視節(jié)目經(jīng)歷了數(shù)目驚人的微妙的修改。所以,幀序號和時間偏移量作為識別視頻流內(nèi)的位置的工具而言,經(jīng)常是不可靠的。
圖2中所示的視頻位置識別方法和系統(tǒng)200對于許多普通的修改而言很具魯棒性,然而卻無足輕重且花費不多。應(yīng)該注意,關(guān)于用戶#1的該視頻位置識別系統(tǒng)和關(guān)于用戶#2的該視頻位置識別系統(tǒng)是圖2中所示的視頻位置識別系統(tǒng)200的特殊實施。一般而言,視頻位置識別方法和系統(tǒng)200允許原始電視節(jié)目210的第一個版本205中的位置與原始電視節(jié)目210的第二個版本215中的位置相符。由于方法和系統(tǒng)200對于許多種類型的修改而言很具魯棒性,因此,如圖2中的情況,即使第一個版本205和第二個版本215彼此不同,也是如此。
尤其是,如圖2所示,通過采用原始電視節(jié)目210并增加第一組商業(yè)電視節(jié)目220,來創(chuàng)建第一個版本205。這第一個版本205由NBC 225按NTSC廣播格式來進(jìn)行廣播,并使用Indeo壓縮230來進(jìn)行壓縮。西雅圖的簡在她的電視機(jī)上接收到被廣播的第一個版本205。
其間,通過采用原始電視節(jié)目210并增加第二組商業(yè)電視節(jié)目235,來創(chuàng)建第二個版本215。這第二個版本215由CBS 240按PAL廣播格式來進(jìn)行廣播,并使用MPEG IV壓縮245來進(jìn)行壓縮。巴黎的約翰在他的電視機(jī)上接收到被廣播的第二個版本215。
當(dāng)簡接收第一個版本205時,她可以按需要來注釋第一個版本205。圖2展示簡已通過在第一個版本205的某個幀(在圖2中被表示為這個最后的幀)中的對象周圍畫一個圈250,來對第一個版本205進(jìn)行注釋。這個注釋創(chuàng)建被注釋的第一個版本255。應(yīng)該注意,雖然展示了單一注釋,但是,被注釋的第一個版本255中通常將會包含多個注釋。被注釋的第一個版本255中所包含的注釋260由西雅圖的簡通過電子郵件發(fā)送給巴黎的約翰。約翰接收注釋260,并且,通過使用這里所揭示的視頻位置識別方法和系統(tǒng)200,他能夠恢復(fù)其第二個版本215中的這些位置,在這些位置處,簡曾在其第一個版本205中作出注釋260。這生成了包含簡的注釋260的、關(guān)于巴黎的約翰的被注釋的第二個版本265,包括該各自的幀中的該對象周圍的圈250。
3.系統(tǒng)縱覽與部件細(xì)節(jié)現(xiàn)在將討論視頻位置識別方法和系統(tǒng)200允許簡創(chuàng)建注釋260的方式以及允許約翰恢復(fù)關(guān)于簡的注釋260的這些正確位置的縱覽。首先,將提供該系統(tǒng)的縱覽。接下來,將討論該系統(tǒng)中的每個部件的細(xì)節(jié)。
圖3A-C展示了圖2中的視頻位置識別系統(tǒng)200的縱覽。視頻位置識別系統(tǒng)200被設(shè)計成在計算設(shè)備上進(jìn)行操作,以下描述其細(xì)節(jié)。一般而言,視頻位置識別系統(tǒng)200允許用戶在視頻的第一個版本中創(chuàng)建注釋,根據(jù)該視頻的第一個版本和第二個版本的內(nèi)容來生成簽名,然后使這些簽名相匹配,以恢復(fù)曾在第一個版本中被加以注釋的、第二個版本中的位置。從該視頻本身的該內(nèi)容中生成簽名,并忽略元數(shù)據(jù)(例如,幀序號和時間偏移量)。視頻內(nèi)容包括基于內(nèi)容(舉例來講,例如,視頻幀中的視覺內(nèi)容、任何音頻跟蹤視頻幀內(nèi)容、與該視頻同步的音頻內(nèi)容,以及封閉的字幕信息)的任何信息。使用這些類型的視頻幀內(nèi)容來生成簽名。
圖3A是框圖,展示了用于為視頻320的第一個版本生成簽名的視頻位置識別系統(tǒng)200的縱覽。視頻位置識別系統(tǒng)200駐留在處于第一個位置的第一個計算設(shè)備300上。例如,使用圖2中的這個例子,該第一個位置將會在西雅圖的簡的計算機(jī)上。簡對視頻320的第一個版本進(jìn)行注釋,有關(guān)范圍330由這些注釋來定義。有關(guān)范圍330至少是第一個版本320的一個部分,并且至少包含一個幀。簽名發(fā)生和提取模塊310處理視頻320的第一個版本,并且,它根據(jù)該有關(guān)范圍以內(nèi)的這些視頻幀的內(nèi)容,來生成第一個簽名序列340。這第一個簽名序列340只是可以從第一個版本320中被生成和提取的所有這些簽名的一個部分。換言之,這第一個簽名序列所包含的簽名只表現(xiàn)有關(guān)范圍330中所包含的這些幀的內(nèi)容。在交替實施例中,可以使用預(yù)處理步驟來從第一個版本320中提取所有簽名,以便每當(dāng)識別有關(guān)范圍時,不一定要提取這些簽名。
圖3B是框圖,展示了用于為視頻350的第二個版本生成簽名的視頻位置識別系統(tǒng)200的縱覽。視頻位置識別系統(tǒng)200駐留在處于第二個位置的第二個計算設(shè)備305上。再次使用圖2中的這個例子,這第二個位置將會在巴黎的約翰的計算機(jī)上。約翰的計算機(jī)上的視頻位置識別系統(tǒng)200輸入約翰將會觀看的視頻350的第二個版本。簽名發(fā)生和提取模塊310處理第二個版本350,并且,它根據(jù)幀內(nèi)容來生成第二個簽名序列360。這第二個簽名序列包含可以從第二個版本350的該幀內(nèi)容中被生成和提取的所有簽名。
圖3C是框圖,展示了用于使在圖3A和3B中所生成的這些簽名相匹配的該視頻位置識別系統(tǒng)的縱覽。這種簽名匹配發(fā)生在第二個計算設(shè)備305上,或者,再次使用圖2中的這個例子,發(fā)生在巴黎的約翰的計算機(jī)上。約翰從簡那里接收第一個簽名序列340。然后,簽名匹配模塊370根據(jù)來自第一個版本320并在簡的計算機(jī)上被創(chuàng)建的視頻內(nèi)容,來處理這第一個簽名序列340;簽名匹配模塊370根據(jù)來自第二個版本350并在約翰的計算機(jī)上被創(chuàng)建的視頻內(nèi)容,來處理這第二個簽名序列360。該結(jié)果是被恢復(fù)的有關(guān)范圍380,有關(guān)范圍380恢復(fù)曾由簡在第一個版本320中作出的、約翰所看見的該視頻的第二個版本350中的這些注釋的位置。
視頻位置識別系統(tǒng)200提供一種可靠、魯棒性的系統(tǒng),用于識別視頻的不同版本之間的位置。實際上,該系統(tǒng)將任何資料(例如,注釋)“拋錨”到那些位置。這樣,允許在可能具有類似但并非完全相同的內(nèi)容的這些不同的版本之間傳遞該資料?,F(xiàn)在將詳細(xì)地討論圖3A-C中所示出的視頻位置識別系統(tǒng)200的這些部件。
視頻位置識別系統(tǒng)200包括簽名發(fā)生和提取模塊3100,以及簽名匹配模塊3700。簽名發(fā)生和提取模塊310輸入視頻幀,并根據(jù)那些幀的內(nèi)容來提取簽名。這些簽名表示這些視頻幀上所包含的內(nèi)容。
圖4是框圖,展示了簽名發(fā)生和提取模塊310的細(xì)節(jié)。一般而言,簽名發(fā)生和提取模塊310輸入視頻幀400,并處理視頻幀400,以生成簽名410,其中,該簽名表示該幀中所包含的內(nèi)容。簽名發(fā)生和提取模塊310包括灰度等級轉(zhuǎn)換器420、向下采樣(downsample)模塊430和中央門限位圖轉(zhuǎn)換器440。簽名發(fā)生和提取模塊310進(jìn)一步包括形態(tài)學(xué)上的清理模塊450、任選的(如這些虛線所表示的)短簽名模塊460和簽名包裝模塊470。
灰度等級轉(zhuǎn)換器420按每個幀當(dāng)前分辨率來將視頻幀400轉(zhuǎn)換成灰度等級,以產(chǎn)生灰度等級幀。使用向下采樣模塊430來對該灰度等級幀進(jìn)行向下采樣,直到創(chuàng)建該灰度等級幀的較低分辨率為止。在一個實施例中,向下采樣模塊430通過構(gòu)建高斯金字塔,來進(jìn)行從該標(biāo)準(zhǔn)SIFF視頻幀大小到30×40幀大小的向下采樣。該合成的低分辨率灰度等級幀被發(fā)送到中央門限位圖轉(zhuǎn)換器440。使用中央門限位圖轉(zhuǎn)換器440來將該低分辨率灰度等級幀轉(zhuǎn)換成包括0和1(或該幀的0/1位圖版本)的位圖。中央門限位圖轉(zhuǎn)換器440將該幀的中央灰度等級用作閾值,以確保關(guān)于每個幀的0和1的數(shù)目近似相等。這為簽名提供了最大的辨識力。
在中央門限位圖轉(zhuǎn)換器440進(jìn)行處理之后,留下一個簽名幀,該簽名幀包含近似相等數(shù)目的0和1。這個簽名幀由形態(tài)學(xué)上的清理模塊450來處理,以減少和消除可能存在于該簽名幀中的噪聲。形態(tài)學(xué)上的清理模塊450是迭代模塊,由此,可執(zhí)行核心調(diào)整,以維持0和1的平衡。形態(tài)學(xué)上的清理模塊450為每個幀生成初始簽名或“長”簽名。在一個實施例中,如果向下采樣模塊430的結(jié)果是30×40幀圖像,則該“長”簽名是30×40=1200個位。
在一些情況中,如以下所解釋的,不需要這個長簽名,短簽名將足夠了。使用短簽名可提高視頻位置識別系統(tǒng)200的速度。任選模塊是短簽名模塊460,它將該長簽名向下采樣為包含較少數(shù)量的位的短簽名。例如,該短簽名可以包含128個位,而不是長簽名中可以包含的這1200個位。如以下詳細(xì)的描述,短簽名模塊460可以使用兩種不同的技術(shù)來生成被應(yīng)用于該長簽名的掩碼。通常,短簽名模塊460執(zhí)行維數(shù)精簡,以減少該長簽名中的位數(shù),從而創(chuàng)建該短簽名。然后,將該長、短簽名傳送到所需位置,用于和該視頻的另一個版本相匹配。
舉例來講(不作限制),可以使用簽名包裝模塊470來傳送這些簽名。簽名包裝模塊470包裝這些簽名中的每個簽名連同其他項目(例如,有關(guān)范圍330或與有關(guān)范圍330關(guān)聯(lián)的任何注釋),并生成包含這些項目中的每個項目的單一文件。然后,可以將這個簽名文件傳送到另一個站點。例如,參考圖2,該簽名文件可以包含通過電子郵件而從西雅圖的簡那里被發(fā)送給巴黎的約翰的簽名序列和注釋。一旦被巴黎的約翰收到,這些所傳送的簽名序列就由約翰的計算設(shè)備305上的視頻位置識別系統(tǒng)200來進(jìn)行處理。
圖5是圖4中所示的形態(tài)學(xué)上的清理模塊450的詳細(xì)框圖。一般而言,形態(tài)學(xué)上的清理模塊450輸入幀500的0/1位圖版本,并輸出這些幀的長簽名510。形態(tài)學(xué)上的清理模塊450包括k濾波器發(fā)生器520、k濾波器應(yīng)用模塊530、二進(jìn)制平衡模塊540和更新像素評估模塊550。
k濾波器發(fā)生器520為處理幀500的該0/1位圖版本中的像素的k濾波器而生成合適的門限。k濾波器應(yīng)用模塊530將該k濾波器應(yīng)用于該幀簽名中的每個像素,并且,根據(jù)已經(jīng)等于1的鄰近像素的數(shù)目,來將其輸出值設(shè)置為“0”或“1”。二進(jìn)制平衡模塊540繼續(xù)保持迭代通過前兩個模塊520、530,向上或向下調(diào)整該k濾波器,直到0的數(shù)目和1的數(shù)目近似相等為止。更新像素評估模塊550連續(xù)不斷地監(jiān)控關(guān)于每次迭代的更新像素的數(shù)目,直到那個數(shù)目落到更新像素門限以下。一旦發(fā)生這種情況,更新像素評估模塊550就終止該迭代過程,并輸出長簽名510。形態(tài)學(xué)上的清理模塊450的基本效果是從該輸入位圖簽名中除去精細(xì)的細(xì)節(jié),并產(chǎn)生被修改的“長”簽名,該“長”簽名捕捉該原始幀圖像(從中產(chǎn)生過該簽名)的全部空間細(xì)節(jié)。
圖6A和圖6B展示了圖4中所示的短簽名模塊460的兩個實施例。一般而言,短簽名模塊460輸入長簽名510,創(chuàng)建用于對長簽名510進(jìn)行向下采樣的采樣掩碼,并應(yīng)用該采樣掩碼,以創(chuàng)建短簽名600。不管如何確定該采樣掩碼,都使用該采樣掩碼來從每個長簽名中選擇這些位,這些位將被用來組成該對應(yīng)的短簽名。
現(xiàn)在將討論用于創(chuàng)建采樣掩碼的兩個實施例。圖6A是詳細(xì)的框圖,展示了圖4中所示的短簽名模塊460的第一個實施例。在這第一個實施例中,短簽名模塊460包括隨機(jī)掩碼模塊610,該隨機(jī)掩碼模塊生成隨機(jī)掩碼,以便對所有這些簽名進(jìn)行采樣。短簽名模塊460輸入長簽名510,并且,隨機(jī)掩碼模塊610處理長簽名510,以創(chuàng)建短簽名600。圖6B是詳細(xì)的框圖,展示了圖4中所示的短簽名模塊460的第二個實施例。在這第二個實施例中,短簽名模塊460包括被修改的“主要部分分析”(PCA)模塊620,該“主要部分分析”(PCA)模塊620檢查長簽名510的直方圖,并確定最具辨別力的這些位。短簽名模塊460輸入長簽名510,其中,長簽名510由修改過的PCA模塊620來加以處理。該結(jié)果是短簽名600。
圖7是詳細(xì)的框圖,展示了圖6B中所示的修改過的PCA模塊630的更多細(xì)節(jié)。修改過的PCA模塊620包括直方圖發(fā)生器700、位計算模塊710、辨別確定模塊720和掩碼應(yīng)用模塊730。直方圖發(fā)生器700所生成的直方圖檢查長簽名510中所包含的每個位。然后,位計算模塊710檢查每個位,并計算在長簽名的這個序列中每個位是“0”的次數(shù)和每個位是“1”的次數(shù)。辨別確定模塊720選擇等于“0”的次數(shù)大約占50%、等于“1”的次數(shù)大約占50%的那些位。這些位被定義為最具辨別力的位。然后,使用這些最具辨別力的位來生成掩碼。然后,掩碼應(yīng)用模塊730將這個掩碼應(yīng)用于長簽名510,以生成短簽名600。
圖8是框圖,展示了圖3C中所示的簽名匹配模塊370的細(xì)節(jié)。通常,簽名匹配模塊370輸入兩個簽名序列,并使簽名與其正確的位置相符。明確地說,簽名匹配模塊370輸入第一個簽名序列340和第二個簽名序列370。第一個簽名序列340表示視頻的第一個版本中的某個唯一區(qū)域(或有關(guān)范圍)內(nèi)的內(nèi)容。第二個簽名序列370表示該視頻的整個第二個版本的內(nèi)容。
然后,將第一個簽名序列340的至少一個部分與第二個簽名序列370進(jìn)行比較,以確定是否有任何匹配。如果沒有,那么,這意味著已從該視頻的這第二個版本中除去有關(guān)范圍330。如果有匹配,那么,發(fā)送被恢復(fù)的有關(guān)范圍380,作為輸出。應(yīng)該注意,根據(jù)簽名匹配模塊370所執(zhí)行的這些匹配,被恢復(fù)的有關(guān)范圍380可能是原始的有關(guān)范圍330的全部或一個部分。例如,如果有關(guān)范圍330包括100個幀,并且,該視頻的這第二個版本具有被除去的原始的100個幀中的50個幀,那么,簽名匹配模塊370將能夠確定已除去這50個幀,剩余的50個幀被包括在被恢復(fù)的有關(guān)范圍380中。通過使第一個簽名序列340與第二個簽名序列360相符,視頻位置識別系統(tǒng)200可以確定第一個簽名序列340屬于該視頻的這第二個版本中的什么地方。這樣,視頻位置識別系統(tǒng)200在該視頻的這第二個版本中識別對應(yīng)于該視頻的這第一個版本中的有關(guān)范圍330的那個位置。
簽名匹配模塊370包括連續(xù)簽名模塊830、匹配門限模塊840、距離比較模塊850和可靠性模塊860。連續(xù)簽名模塊830采用一連串的連續(xù)簽名。匹配門限模塊840確定將要被使用的匹配門限。距離比較模塊850使用這一連串連續(xù)的簽名和該匹配門限,并比較兩個簽名。如果距離超過該匹配門限,那么,這兩個簽名不匹配。否則,這些簽名匹配??煽啃阅K860確定這些簽名是否可靠。如果不可靠,那么,該匹配(或缺乏匹配)是可疑的。
圖9是圖8中所示的可靠性模塊860的詳細(xì)框圖。通常,可靠性模塊860輸入簽名幀900,并輸出可靠結(jié)果910和幀可靠性915所要求的許多簽名。可靠性模塊860包括灰度值直方圖發(fā)生器920、直方圖分析模塊930和簽名序列確定模塊940?;叶戎抵狈綀D發(fā)生器920提供簽名幀900中的每個像素的灰度值,并生成這些值的直方圖。直方圖分析模塊930分析該直方圖,以確定簽名幀900的穩(wěn)定性。如果該直方圖的形狀是單一的“長釘”形狀,則簽名幀900不太可靠。該長釘形狀指出該圖像中的所有這些像素都具有類似的亮度;這意味著該圖像中沒有很多可識別的細(xì)節(jié)。
根據(jù)這些簽名的被計算的可靠性,簽名序列確定模塊940確定魯棒性匹配所需要的那個簽名序列的最能提供信息的那個部分。在較佳實施例中,使用這整個簽名。但是,在交替實施例中,簽名序列確定模塊940可以確定只需要該簽名(例如,該幀的右上側(cè)區(qū)域)的一個部分。一般而言,在較低可靠性的區(qū)域中,該簽名序列將需要包含更多數(shù)量的簽名,以提供魯棒性的匹配。如果該直方圖更加伸長,那么,該簽名包含更具對比性的細(xì)節(jié)。高度對比性的細(xì)節(jié)意味著該簽名更可靠地識別從中生成過該簽名的那個幀圖像。
4.操作縱覽以上所描述的視頻位置識別系統(tǒng)200使用視頻位置識別方法來可靠、魯棒性地識別視頻中的位置。圖10是綜合流程圖,展示了圖3A-C中所示的視頻位置識別系統(tǒng)200的操作。該方法始于選擇視頻的第一個版本內(nèi)的有關(guān)范圍(框1000)。這個有關(guān)范圍可以由作為人的用戶或由自動化系統(tǒng)來選擇。該有關(guān)范圍包含至少一個幀,但通常包含多得多。此外,在該有關(guān)范圍內(nèi)創(chuàng)建信息(例如,注釋)。接下來,從該有關(guān)范圍內(nèi)的這一個或多個幀的內(nèi)容中生成第一個簽名序列(框1010)。這第一個簽名序列(或視頻錨)的生成將注釋堅固地拋錨到該有關(guān)范圍。最后,使用這第一個簽名序列,以便以后從該視頻的第二個版本中恢復(fù)該有關(guān)范圍(框1020)。在一個實施例中,該視頻的這第一個版本和第二個版本是相同的視頻,并且,以后將為該相同的視頻恢復(fù)該有關(guān)范圍。在另一個更加典型的實施例中,該視頻的這兩個版本不同,并且,這個被恢復(fù)的有關(guān)范圍不在曾在那里生成過這第一個簽名序列的該視頻的這第一個版本上。這個視頻位置識別過程可以經(jīng)受得住對該視頻的修改(例如,除去或增加幀,以及正以某種方式改變該有關(guān)范圍內(nèi)的這些幀中的每個幀(例如,改變每個幀的色譜、改變壓縮參數(shù)或增加噪聲))。此外,該方法可以經(jīng)受得住這些幀的定標(biāo)和少量的剪切。
圖11是流程圖,展示了圖10中所示的該視頻位置識別系統(tǒng)方法的操作的額外細(xì)節(jié)。該方法始于從來自處于第一個位置的視頻的第一個版本的幀的一個部分的內(nèi)容中生成注釋和第一個簽名序列(框1100)。接下來,這第一個簽名序列和這些注釋被傳送到第二個位置(框1110)。應(yīng)該注意,如果這些注釋是關(guān)于該視頻的一個特定部分的,那么,只需要提取一些簽名。不需要生成或提取所有簽名。這是因為處于這第一個位置的用戶正在選擇該視頻的什么部分讓該用戶感興趣。然后,生成關(guān)于該視頻的那個部分的簽名,這用作對該視頻的那個部分的唯一標(biāo)識。
接下來,從處于這第二個位置的該視頻的第二個版本中的所有幀的內(nèi)容中生成第二個簽名序列(框1130)。在某種意義上,這個過程生成該視頻的這第二個版本的地形圖,因為這第二個簽名序列確定這第二個視頻版本的這些不同的特點。最后,這第一個簽名序列和第二個簽名序列在這第二個位置處相匹配。這恢復(fù)了該有關(guān)范圍和該視頻的這第二個版本中的這些注釋的這些位置(框1140)。這種匹配允許將這些注釋放置在這第二個視頻版本中的正確的位置。通過在這第二個視頻版本的開端處開始,并通過將這第一個簽名序列與這第二個簽名序列中的每個簽名進(jìn)行比較,來執(zhí)行匹配。利用這種方式,如果該所需簽名(和該所需位置)被包含在這第二個視頻版本中,則可以發(fā)現(xiàn)該所需簽名(和該所需位置)。
5.工作示例的實施細(xì)節(jié)現(xiàn)在將在工作示例的框架內(nèi)介紹該視頻位置識別方法的示范實施例的操作細(xì)節(jié)。應(yīng)該注意,以下的這個工作例子只是本發(fā)明的一個實施例,并且只起說明作用。該論述被分成該視頻位置識別方法的兩個主要過程(a)簽名發(fā)生和提取(或特點提取);以及(b)簽名匹配。
簽名發(fā)生和提取圖12展示了該工作例子中的被用來產(chǎn)生簽名的該簽名發(fā)生和提取(或特點提取)過程的細(xì)節(jié)。簽名是每個視頻幀中所包含的內(nèi)容的表示。簽名不基于統(tǒng)計技術(shù)(例如,彩色直方圖),而是利用該視頻幀中的空間特征。一般而言,該工作例子中的該簽名發(fā)生和提取過程連續(xù)不斷地簡化每個視頻幀,如下所述從全長的彩色圖像簡化為黑白圖像;從黑白實際尺寸簡化為小尺寸圖像;從該小尺寸圖像簡化為1和0的位圖;從具有噪聲的這個小0/1位圖簡化為無噪聲的平滑小0/1位圖。
更明確地說,參考圖12,該工作例子的該簽名發(fā)生和提取過程通過將幀序列中的每個幀規(guī)格化為4∶3縱橫比來開始進(jìn)行,并且放棄任何彩色信息(圈1)。接下來,對該合成圖像進(jìn)行向下采樣,以產(chǎn)生30×40灰度等級圖像(圈2)。選擇尺寸30×40,這是因為它是從標(biāo)準(zhǔn)尺寸視頻進(jìn)行向下采樣的終點。
接下來,執(zhí)行中央定限,以產(chǎn)生0/1位圖(圈3)。在這個工作例子中,像素值“1”=白色,“0”=黑色。但是,這種像素值分配不是很關(guān)鍵,這些像素值可以被容易地加以顛倒。通過確定這個被向下采樣的圖像的該中央灰度值,來執(zhí)行中央定限。這個中央灰度值被定義為該門限。這樣,該門限(即該中央灰度值)以上的每件事物是“1”,該門限(即該中央灰度值)以下的每件事物是“0”。應(yīng)該注意,為每個幀選擇該中央灰度值。這樣,該門限對于每個幀而言會有所不同。
為每個幀選擇門限中央灰度值很重要,這是因為如果為所有這些幀選擇單一門限,那么,這些幀中的部分幀的辨別力會較差,其他幀的辨別力會較強(qiáng)。通常,當(dāng)1和0的數(shù)目近似相等時,可產(chǎn)生最強(qiáng)的辨別力。這樣,幀越接近具有相等數(shù)目的1和0,該幀就越接近具有最大的辨別力。這是因為幀內(nèi)的1和0的平衡提供了該幀的最多變的信息。例如,如果該幀主要包含0,則該幀將會主要是黑色的(假設(shè)“0”被設(shè)置成等同于黑色),并且,該幀將會包含很少的信息。同樣,如果該幀主要包含1,則該幀將會主要是白色的,并且將會包含很少的信息。
留下的是包含近似相等數(shù)目的1和0的簽名幀。但是,通常的情況是,也存在對該幀的許多干擾方面。例如,具有被黑色像素包圍的白色像素,這提供了“細(xì)密的黑白混合(salt and pepper)”效果。這是有區(qū)別的,但區(qū)別太大。換言之,該圖像提供了關(guān)于特定幀中正在發(fā)生的情況的太多細(xì)節(jié)。
為了消除該噪聲,使用形態(tài)學(xué)上的清理來“清理”該圖像并除去線路細(xì)節(jié)假象(圈4)。由于定限可能會引入非典型噪聲,因此,對該0/1位圖執(zhí)行形態(tài)學(xué)上的清理(“核心過濾”或簡稱為“k過濾”)。在這個工作例子中,應(yīng)用3×3“k濾波器”。如果多于k個的像素是1,則這個3×3k濾波器將該像素輸出設(shè)置為1,否則設(shè)置為0。跨越這整個0/1位圖反復(fù)幾次執(zhí)行這一點。在每次迭代之后,調(diào)整被用于該形態(tài)學(xué)上的清理的該核心(k)。最初,k=4.5,這意味著該迭代始于3×3中央濾波器。如果在這些迭代期間,1的數(shù)目減少,那么,k的值減小,以便在下一次迭代中產(chǎn)生更多的1。同樣,如果1的數(shù)目增加,那么,k的值增大。這確保維持1和0的平衡,從而維持了關(guān)于每個簽名的最大辨別力。
當(dāng)在給定迭代中所更新的像素數(shù)目落到某個厄普西隆以下時,終止k過濾。在這個工作例子中,厄普西隆的這個值是5。在實踐中,這個終止通常在5~8次迭代之后發(fā)生。該結(jié)果是1200-位0/1位圖,該位圖是“長”簽名。
該工作例子使用兩種不同的技術(shù)來對該長簽名進(jìn)行向下采樣并創(chuàng)建短簽名。在這個工作例子中,該長簽名包含1200個位,該短簽名包含128個位。所使用的這第一種向下采樣技術(shù)是該隨機(jī)掩碼技術(shù)。所使用的單一隨機(jī)掩碼是對所有這些簽名進(jìn)行采樣。應(yīng)該注意,該隨機(jī)掩碼技術(shù)不涉及為這些不同的簽名中的每個簽名使用位的不同的隨意收集。相反,采用來自這些不同簽名中的每個簽名的位的相同的隨意收集。例如,如果該隨機(jī)掩碼采用第一個、第五個和第七個位,那么,從所有這些簽名中采用第一個、第五個和第七個位。
該工作例子中所使用的這第二種向下采樣技術(shù)是修改過的“主要部分分析”(PCA)。該PCA技術(shù)獲得大量數(shù)據(jù)點(在這種情況下,是視頻簽名),并確定表現(xiàn)該數(shù)據(jù)的特征的這些主要維數(shù)。明確地說,通過確定關(guān)于該數(shù)據(jù)的這些特征矢量和這些對應(yīng)的特征值,來執(zhí)行PCA。無論哪些特征矢量具有最高的特征值,它們都被選為用于表現(xiàn)該數(shù)據(jù)的特征的這些主要維數(shù)或主要部分。這些特征矢量是定義該數(shù)據(jù)的平面的線路。這樣,將這個問題從三維(3D)問題簡化為二維(2D)問題。這也被稱作“維數(shù)精簡”。在這個工作例子中,將維數(shù)從1200個位(長簽名中的位數(shù))減少到這128個位(短簽名中的位數(shù))。
執(zhí)行PCA的傳統(tǒng)方法是從該視頻中采用長指紋的所有這些例子并在其上運行PCA,識別所有這些特征矢量和所有這些特征值,然后選擇它們中的最上面的128個。于是,這些是應(yīng)該從這1200個位中被選作該短簽名的這128個位。但是,執(zhí)行PCA的這種傳統(tǒng)方法在計算上花費很多。
相反,該工作例子使用在本發(fā)明中所使用的該修改過的PCA,其中,檢查該長簽名的所有1200個位,并生成1200-箱柜直方圖。接下來,記錄每個位是“1”的次數(shù)和每個位是“0”的次數(shù)。該長簽名中的這些位被定義為最具辨別力,該長簽名的值最接近于是“1”次數(shù)的一半和“0”次數(shù)的一半(即50-50)?!白罹弑鎰e力”意味著那個特定的位將產(chǎn)生最多的信息,更多的信息是辨別力較差的位。
在建立該直方圖之后,根據(jù)以上標(biāo)準(zhǔn)來確定這128個最具辨別力的位。使用這128個位來為該短簽名生成掩碼。然后,將該掩碼應(yīng)用于該長簽名,以便對該長簽名的這些位進(jìn)行采樣,并生成短簽名。
應(yīng)該注意,其他實施例可以包括關(guān)于每個位的“變化頻率”標(biāo)準(zhǔn)。變化頻率意味著該長簽名的這些位中的每個位一定隨某個頻率而變化。例如,這個變化頻率特點將不允許位對于該視頻的前500個幀而言是“1”、對于接下來的500個幀而言是“0”。
簽名匹配一旦已在視頻的第一個版本中和該視頻的第二個版本中生成簽名,這些簽名就必須相符,以識別該視頻的這第二個版本中的所需位置。假如給出識別這第一個版本視頻中的某個唯一區(qū)域(或有關(guān)范圍)的第一個簽名序列,并且,假如給出這第二個版本視頻的第二個簽名序列,則該視頻位置識別方法恢復(fù)來源于這第一個版本視頻的這第二個版本視頻中的該有關(guān)范圍內(nèi)的這些位置。
圖13展示了該工作例子中的被用來恢復(fù)位置的該簽名匹配過程的細(xì)節(jié)。在這個工作例子中,用戶最初根據(jù)該視頻的第一個版本中的局部有關(guān)范圍來創(chuàng)建注釋(由圈1300示出)。然后,如以上所描述的那樣來生成和提取第一個簽名序列(圈1)。然后,將該注釋信息連同這第一個簽名序列一起傳送給注釋消費者(圈2)。如以上所描述的那樣,從這全長的第二個版本視頻或該視頻的消費者的版本中生成并提取第二個簽名序列(圈3)。使用該簽名匹配過程來將這第一個簽名序列與這第二個簽名序列中的這些簽名中的每個簽名進(jìn)行比較,直到發(fā)現(xiàn)這個最接近的匹配為止(圈4)。
通過采用這第一個簽名序列、沿從起初開始的這第二個版本視頻而行并對它們進(jìn)行比較,來執(zhí)行簽名匹配。在這個工作例子中,從這第一個簽名序列中獲得10個連續(xù)的簽名,并將這10個簽名與這第二個簽名序列中的每個簽名進(jìn)行比較(從這第二個版本視頻的開端開始)。如以下的詳細(xì)解釋,當(dāng)這兩個簽名近似地在匹配門限以下時,進(jìn)行匹配。當(dāng)發(fā)生這種情況時,這些序列簽名被定義為匹配。對應(yīng)于進(jìn)行過該匹配的地方的這第二個簽名序列中的這個位置是這第二個版本視頻中的該所需位置。換言之,這第二個版本視頻中的該所需位置對應(yīng)于這第一個版本視頻中的、由該用戶選擇的這個位置或有關(guān)范圍。
雖然該工作例子中的簽名序列內(nèi)的連續(xù)簽名的數(shù)目等于10,但是,在其他實施中,該數(shù)目會有所不同。例如,該序號可以大于10(例如,100或1000)。該序號確定正在加以搜索的信息量。例如,如果選擇一連串的10個簽名并搜索這第二個視頻,那么,若選擇100的序號,則正在加以搜索的信息量比預(yù)期的要少。利用正在加以搜索的較少數(shù)量的簽名,該搜索可更加靈活,但幾乎沒有可用的細(xì)節(jié)信息。另一方面,如果該序號等于1000,以便使用一批1000個簽名,那么,具有數(shù)量更多的信息和更多的細(xì)節(jié)。
匹配和可靠性如以上的解釋,當(dāng)匹配的可靠性很高時,該序號會很低,以便在該簽名匹配過程中使用數(shù)量較少的各批簽名。這提供很少的細(xì)節(jié),但提供了更大的靈活性。但是,如果該匹配的可靠性很低,則該序號會更高,以提供更多的細(xì)節(jié)并提高該匹配的可靠性。
在該工作例子中,為了確定兩個簽名是否匹配,計算在每個幀的各個長簽名之間有所不同的位數(shù)。這被稱作“加重平均距離”。如果該加重平均距離在該匹配門限以上,那么,這些簽名不匹配。另一方面,如果該加重平均距離在該匹配門限以下,那么,這兩個簽名匹配。經(jīng)驗性測試示出相隔小于125個位的幀相同,而相隔多于125個位的幀不同。
除了執(zhí)行該匹配以外,該工作例子還使用本發(fā)明的可靠性特點來為每個幀計算可靠性得分。這個可靠性得分反映該幀中的變化量。如果有很大的變化,則涉及該幀的簽名過程中的匹配更加可靠。
圖14展示了該工作例子中所使用的該可靠性特點。參考圖14,使用兩個視頻,人將會把這兩個視頻識別為相同的視頻,但它們有一些微妙的不同(例如,包含不同的商業(yè)廣告節(jié)目和不同的壓縮技術(shù))。該視頻的這第一個版本(是棒球游戲)只包含該視頻。該視頻的這第二個版本是該棒球游戲,但具有被一連串商業(yè)廣告節(jié)目取代的這第一部分。這第一和第二視頻的總長度相同。前N個幀不匹配,但這N個幀后面的所有這些幀相同,并且彼此對應(yīng)。來自這第一個版本視頻的這第一個簽名序列和來自這第二個版本視頻的這第二個簽名序列被加以并行化(parallized),并且成對。關(guān)于大約這前1200個幀,該成對距離線路(該黑暗的實線,它是對應(yīng)的各對幀之間的距離)是該門限線路(該明亮的實線或加重平均距離門限)以上的長距離。在這種情況下,當(dāng)該成對距離線路在該門限線路以上時,這些簽名對不匹配。同樣,當(dāng)該成對距離線路在該門限線路以下時,這些簽名對匹配。應(yīng)該注意,當(dāng)對應(yīng)的各對匹配時,它們的距離不會始終是零。這是因為這些視頻的這兩個版本在某個壓縮比或其他增加的噪聲方面有所不同。
圖14中的該圖表上的虛線是可靠性線路。該可靠性線路是可靠的簽名的測量和指示符。參考圖14,在該圖表的這些開端幀處,該可靠性線路下降。同樣,近似在幀5100和5300處,該可靠性線路顯著下降。這些下降指出這些簽名不可靠。正是在這些點處存在錯誤的匹配或非匹配。例如,近似在幀1處,有假的正匹配——其中,當(dāng)這兩個簽名實際上不匹配時,指出匹配。這個錯誤的造成是因為如該可靠性線路所指出的,該可靠性很低。在幀5100和5300處,有假的負(fù)數(shù)。這里,即使通過該實驗的設(shè)計而知道這兩個簽名不匹配,也指出它們之間的匹配。這個錯誤的造成是因為那些幀的這些簽名的可靠性很低。
這樣,可靠性是一種測量,通過該測量,可以說,需要該鄰域(即更多的簽名)中的相對更多的信息,來制定關(guān)于在該視頻中該區(qū)域?qū)儆谀睦锏臎Q定。換言之,如果你所擁有的該序列中的這些簽名的可靠性很低,那么,要求相對較長的序列,以便將它定位在該視頻中。如果這些簽名都具有高度的可靠性,那么,可以使用相對較短的簽名序列,并且,將仍然能夠精確地識別匹配。這樣,在可靠性較低的區(qū)域中,可以使用更大的鄰接簽名序列(例如,比方說使用100個鄰接的簽名,而不是10個鄰接的簽名)。
6.示范操作環(huán)境以上所描述的該視頻位置識別過程和系統(tǒng)被設(shè)計成在計算環(huán)境中進(jìn)行操作。下文意在簡要、概括地描述一種合適的計算環(huán)境,在該計算環(huán)境中,可以執(zhí)行該視頻位置識別過程和系統(tǒng)。
圖15展示了合適的計算系統(tǒng)環(huán)境1500的例子,在計算系統(tǒng)環(huán)境1500中,可以執(zhí)行該視頻位置識別過程和系統(tǒng)。計算系統(tǒng)環(huán)境1500只是合適的計算環(huán)境的一個例子,它并不意在對本發(fā)明的使用或功能性的范圍提出任何限制。也不應(yīng)該將計算環(huán)境1500解釋為具有涉及示范操作環(huán)境1500中所展示的任何一個部件或部件組合的任何從屬性或要求。
該視頻位置識別過程和系統(tǒng)可用于眾多其他的通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置??赡苓m用于該視頻位置識別過程和系統(tǒng)的眾所周知的計算系統(tǒng)、環(huán)境和/或配置的例子包括(但不局限于)個人計算機(jī)、服務(wù)器計算機(jī)、手持計算機(jī)、膝上型計算機(jī)或移動計算機(jī)或通信設(shè)備(例如,手機(jī)和PDA)、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂盒、可編程的消費電子設(shè)備、網(wǎng)絡(luò)PC、小型計算機(jī)、大型計算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計算環(huán)境,以及類似物。
可以在正由計算機(jī)執(zhí)行的計算機(jī)可執(zhí)行指令(例如,程序模塊)的一般上下文中描述該視頻位置識別過程。通常,程序模塊包括執(zhí)行特殊任務(wù)或?qū)嵤┨厥獾某橄髷?shù)據(jù)類型的例行程序、程序、對象、部件、數(shù)據(jù)結(jié)構(gòu)等。也可以在分布式計算環(huán)境中實踐本發(fā)明,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以位于包括記憶存儲設(shè)備的本地計算機(jī)存儲介質(zhì)和遠(yuǎn)程計算機(jī)存儲介質(zhì)中。參照圖15,用于執(zhí)行該視頻位置識別過程和系統(tǒng)的示范系統(tǒng)包括采取計算機(jī)1510的形式的通用計算設(shè)備。
計算機(jī)1510的部件可以包括(但不局限于)處理單元1520、系統(tǒng)存儲器1530和系統(tǒng)總線1521,系統(tǒng)總線1521將包括該系統(tǒng)存儲器的各種系統(tǒng)部件耦合到處理單元1520。系統(tǒng)總線1521可以是幾種類型的總線結(jié)構(gòu)(包括存儲總線或存儲控制器、外圍總線和使用各種總線構(gòu)造中的任何總線構(gòu)造的局域總線)中的任何總線結(jié)構(gòu)。舉例來講(不作限制),這類結(jié)構(gòu)包括“工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)”(ISA)總線、“微通道結(jié)構(gòu)”(MCA)總線、“增強(qiáng)的ISA”(EISA)總線、“視頻電子標(biāo)準(zhǔn)協(xié)會”(VESA)局域總線和也被稱作“中層樓(Mezzanine)總線”的“外圍部件互連”(PCI)總線。
計算機(jī)1510通常包括各種計算機(jī)可讀介質(zhì)。計算機(jī)可讀介質(zhì)可以是可由計算機(jī)1510存取的任何可用介質(zhì),它包括易失和非易失介質(zhì)、可移動和不可移動的介質(zhì)。舉例來講(不作限制),計算機(jī)可讀介質(zhì)可以包括計算機(jī)存儲介質(zhì)和通信介質(zhì)。計算機(jī)存儲介質(zhì)包括易失和非易失的可移動和不可移動的介質(zhì),這些介質(zhì)用關(guān)于信息(例如,計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù))存儲的任何方法或技術(shù)來加以執(zhí)行。
計算機(jī)存儲介質(zhì)包括(但不局限于)RAM、ROM、EEPROM、快閃存儲器或其他存儲技術(shù)、CD-ROM、數(shù)字通用光盤(DVD)或其他光盤存儲器、盒式磁帶、磁帶、磁盤存儲器或其他磁性存儲設(shè)備、或可以被用來存儲該所需信息并可以由計算機(jī)1510來進(jìn)行存取的其他任何介質(zhì)。通信介質(zhì)通常具體表現(xiàn)計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或調(diào)制數(shù)據(jù)信號(例如,載波或其他傳送機(jī)制)中的其他數(shù)據(jù),它包括任何信息傳遞介質(zhì)。
注意,術(shù)語“調(diào)制數(shù)據(jù)信號”意味著一種信號,該信號的一個或多個特征按這樣的方式來加以設(shè)置或更改,以便為該信號中的信息編碼。舉例來講(不作限制),通信介質(zhì)包括有線介質(zhì)(例如,有線網(wǎng)絡(luò)或直線連接)和無線介質(zhì)(例如,聲音、RF、紅外線和其他無線介質(zhì))。以上任何內(nèi)容的組合也應(yīng)該被包括在計算機(jī)可讀介質(zhì)的范圍以內(nèi)。
系統(tǒng)存儲器1530包括采取易失和/或非易失存儲器(例如,只讀存儲器(ROM)1531和隨機(jī)存取存儲器(RAM)1532)的形式的計算機(jī)存儲介質(zhì)?;据斎?輸出系統(tǒng)1533(BIOS)通常被存儲在ROM 1531中,該基本輸入/輸出系統(tǒng)包含有助于在計算機(jī)1510內(nèi)的各個元件之間傳送信息(例如,在啟動期間)的這些基本例行程序。RAM 1532通常包含可立即由處理單元1520存取并且/或者目前正由處理單元1520進(jìn)行操作的數(shù)據(jù)和/或程序模塊。舉例來講(不作限制),圖15展示了操作系統(tǒng)1534、應(yīng)用程序1535、其他程序模塊1536和程序數(shù)據(jù)1537。
計算機(jī)1510也可以包括其他可移動/不可移動的易失/非易失計算機(jī)存儲介質(zhì)。只舉例來講,圖15展示了從不可移動的非易失磁性介質(zhì)讀取或?qū)ζ鋵懭氲挠脖P驅(qū)動器1541、從可移動的非易失磁盤1552讀取或?qū)ζ鋵懭氲拇疟P驅(qū)動器1551,以及從可移動的非易失光盤1556(例如,CD ROM或其他光學(xué)介質(zhì))讀取或?qū)ζ鋵懭氲墓獗P驅(qū)動器1555。
可以被用于該示范操作環(huán)境中的其他可移動/不可移動的易失/非易失計算機(jī)存儲介質(zhì)包括(但不局限于)卡型盒式磁帶機(jī)、快閃存儲卡、數(shù)字通用光盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM和類似的存儲介質(zhì)。硬盤驅(qū)動器1541通常通過不可移動的存儲接口(例如,接口1540)而被連接到系統(tǒng)總線1521,磁盤驅(qū)動器1551和光盤驅(qū)動器1555通常由可移動的存儲接口(例如,接口1550)連接到系統(tǒng)總線1521。
以上所討論的和圖15中所展示的這些驅(qū)動器及其關(guān)聯(lián)的計算機(jī)存儲介質(zhì)為計算機(jī)1510提供計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)的存儲。在圖15中,例如,硬盤驅(qū)動器1541被展示為存儲操作系統(tǒng)1544、應(yīng)用程序1545、其他程序模塊1546和程序數(shù)據(jù)1547。注意,這些部件可以等同于或不同于操作系統(tǒng)1534、應(yīng)用程序1535、其他程序模塊1536和程序數(shù)據(jù)1537。這里為操作系統(tǒng)1544、應(yīng)用程序1545、其他程序模塊1546和程序數(shù)據(jù)1547提供不同的號碼,以展示它們至少是不同的副本。用戶可以通過輸入設(shè)備(例如,鍵盤1562)和定點設(shè)備1561(通常被稱作“鼠標(biāo)”、“跟蹤球”或“觸墊”),來將命令和信息輸入計算機(jī)1510。
其他輸入設(shè)備(未示出)可以包括話筒、操縱桿、游戲墊、圓盤式衛(wèi)星電視天線、掃描儀、無線電接收器、或電視或廣播視頻接收器、或類似的輸入設(shè)備。這些和其他的輸入設(shè)備經(jīng)常通過被耦合到系統(tǒng)總線1521的用戶輸入接口1560而被連接到處理單元1520,但也可以由其他接口和總線結(jié)構(gòu)(例如,并行端口、游戲端口或通用串行總線(USB))來加以連接。監(jiān)視器1591或其他類型的顯示設(shè)備也經(jīng)由接口(例如,視頻接口1590)而被連接到系統(tǒng)總線1521。除監(jiān)視器1591以外,計算機(jī)也可以包括其他外圍輸出設(shè)備(例如,揚聲器1597和打印機(jī)1596),這些外圍輸出設(shè)備可以通過輸出外圍接口1595來加以連接。
計算機(jī)1510可以在使用與一臺或多臺遠(yuǎn)程計算機(jī)(例如,遠(yuǎn)程計算機(jī)1580)的邏輯連接的聯(lián)網(wǎng)環(huán)境中進(jìn)行操作。遠(yuǎn)程計算機(jī)1580可以是個人計算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等設(shè)備或其他共同的網(wǎng)絡(luò)節(jié)點,它通常包括以上相對于計算機(jī)1510而描述的許多或所有這些元件,盡管圖15中只展示了記憶存儲設(shè)備1581。圖15中所描繪的這些邏輯連接包括局域網(wǎng)(LAN)1571和廣域網(wǎng)(WAN)1573,但也可以包括其他網(wǎng)絡(luò)。這類聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍的計算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中很普遍。
當(dāng)被用于LAN聯(lián)網(wǎng)環(huán)境中時,計算機(jī)1510通過網(wǎng)絡(luò)接口或適配器1570而被連接到LAN 1571。當(dāng)被用于WAN聯(lián)網(wǎng)環(huán)境中時,計算機(jī)1510通常包括調(diào)制解調(diào)器1572或用于在WAN 1573(例如,因特網(wǎng))上建立通信的其他裝置。調(diào)制解調(diào)器1572(可能是內(nèi)置的,也可能是外置的)可以經(jīng)由用戶輸入接口1560或其他合適的機(jī)制而被連接到系統(tǒng)總線1521。在聯(lián)網(wǎng)環(huán)境中,相對于計算機(jī)1510或其各個部分而描繪的程序模塊可以被存儲在該遠(yuǎn)程記憶存儲設(shè)備中。舉例來講(不作限制),圖15將遠(yuǎn)程應(yīng)用程序1585展示為駐留在存儲設(shè)備1581上。將會理解所示的這些網(wǎng)絡(luò)連接起示范的作用,可以使用在各臺計算機(jī)之間建立通信鏈路的其他裝置。
已出于說明和描述的目的而呈現(xiàn)了本發(fā)明的前述說明。并不意在使論述毫無遺漏或?qū)⒈景l(fā)明局限于所揭示的精確形式。按照以上的講授,可以進(jìn)行許多修改和變更。意在使本發(fā)明的范圍不由本發(fā)明的該詳細(xì)說明來限制,而由本發(fā)明所附的權(quán)利要求書來加以限制。
權(quán)利要求
1.一種用于處理視頻的方法,其特征在于,包括從該視頻的第一個版本的內(nèi)容中生成第一個簽名序列;從該視頻的第二個版本的內(nèi)容中生成第二個簽名;以及,比較這第一個和第二個簽名序列,以確定匹配。
2.如權(quán)利要求1中所述的方法,其特征在于,內(nèi)容包括以下的至少一項(a)視頻幀中的視覺內(nèi)容;(b)音頻跟蹤視頻幀內(nèi)容;(c)已與該視頻同步的音頻;(d)封閉的字幕信息。
3.如權(quán)利要求1中所述的方法,其特征在于,生成第一個簽名序列進(jìn)一步包括在該視頻的這第一個版本中的有關(guān)范圍內(nèi)的位置處生成注釋。
4.如權(quán)利要求3中所述的方法,其特征在于,該有關(guān)范圍包含至少一個視頻幀。
5.如權(quán)利要求4中所述的方法,其特征在于,這第一個簽名序列包含表示該有關(guān)范圍內(nèi)的幀的內(nèi)容的簽名。
6.如權(quán)利要求1中所述的方法,其特征在于,從該視頻的這第二個版本的整個長度的內(nèi)容中生成這第二個簽名序列。
7.如權(quán)利要求3中所述的方法,其特征在于,比較這第一個和第二個簽名序列進(jìn)一步包括恢復(fù)與該視頻的這第一個版本中的這些注釋的這些位置相對應(yīng)的該視頻的這第二個版本中的這些注釋的位置。
8.一種計算機(jī)可讀介質(zhì),具有用于執(zhí)行權(quán)利要求1中所述的方法的計算機(jī)可執(zhí)行指令。
9.一種用于處理視頻的方法,其特征在于,包括選擇包含至少一個視頻幀的該視頻內(nèi)的有關(guān)范圍;從這至少一個視頻幀的內(nèi)容中生成第一個簽名序列;以及,使用這第一個簽名序列,以便以后恢復(fù)該有關(guān)范圍的至少一個部分。
10.如權(quán)利要求9中所述的方法,其特征在于,從該視頻的第一個版本的內(nèi)容中生成這第一個簽名序列。
11.如權(quán)利要求10中所述的方法,其特征在于進(jìn)一步包括從該視頻的第二個版本的該內(nèi)容中生成第二個簽名序列。
12.如權(quán)利要求11中所述的方法,其特征在于進(jìn)一步包括使這第一個簽名序列和這第二個簽名序列相匹配。
13.一種用于識別視頻中的位置的方法,其特征在于,包括對位于該視頻的第一個版本中的位置的視頻幀進(jìn)行注釋,以生成視頻注釋;根據(jù)該視頻幀的內(nèi)容來生成視頻注釋錨,以便堅固地錨定該視頻注釋;以及,使用該視頻注釋錨來恢復(fù)在其處放置該視頻注釋的、該視頻的第二個版本中的該位置。
14.如權(quán)利要求13中所述的方法,其特征在于,使用基于內(nèi)容的視頻時間線索來生成該視頻注釋錨。
15.如權(quán)利要求13中所述的方法,其特征在于,生成該視頻錨進(jìn)一步包括定義與該視頻的這第一個版本中的一組視頻幀相對應(yīng)的臨時有關(guān)范圍;以及,從該有關(guān)范圍內(nèi)的內(nèi)容中生成第一個簽名序列。
16.一個或多個其上具有計算機(jī)可讀指令的計算機(jī)可讀介質(zhì),其特征在于當(dāng)被一個或多個處理器執(zhí)行時,這些計算機(jī)可讀指令使這一個或多個處理器執(zhí)行權(quán)利要求13的方法。
17.一種過程,用于在第一個位置創(chuàng)建視頻的第一個版本中的注釋,并用于在第二個位置觀看該視頻的第二個版本中的該注釋,包括在該視頻的這第一個版本中的位置創(chuàng)建視頻幀的注釋;從這些視頻幀內(nèi)的內(nèi)容中生成第一個簽名序列;從該視頻的這第二個版本內(nèi)的所有視頻幀中生成并提取第二個簽名序列;將該注釋和這第一個簽名序列從這第一個位置傳送到這第二個位置;以及,將這第一個簽名序列與這第二個簽名序列進(jìn)行匹配,以恢復(fù)該視頻的這第二個版本中的該注釋的該位置。
18.如權(quán)利要求17中所述的方法,其特征在于,該注釋和這第一個簽名序列通過狹窄信道從這第一個位置被傳送到這第二個位置。
19.如權(quán)利要求18中所述的方法,其特征在于,該狹窄信道是以下至少一項(a)電子郵件;(b)便攜式電話;(c)因特網(wǎng);(d)即時通信服務(wù)。
20.如權(quán)利要求17中所述的方法,其特征在于,由用戶來將該注釋和這第一個簽名序列從這第一個位置傳送到這第二個位置。
21.如權(quán)利要求17中所述的方法,其特征在于,自動將該注釋和這第一個簽名序列從這第一個位置傳送到這第二個位置。
22.一種用于識別視頻中的視頻幀的位置的過程,其特征在于,包括在該視頻的第一個版本中的位置標(biāo)明視頻幀,以創(chuàng)建有記號的視頻幀;從這些視頻幀中的每個視頻幀的內(nèi)容中生成簽名,以創(chuàng)建第一個簽名序列;從該視頻的第二個版本的全部內(nèi)容中生成第二個簽名序列;以及,使這第一個和第二個簽名序列相匹配,以恢復(fù)該視頻的這第二個版本中的這些有記號的視頻幀的該位置。
23.如權(quán)利要求22中所述的過程,其特征在于,進(jìn)一步包括從該視頻的這第二個版本中排除這些有記號的視頻幀,以創(chuàng)建視頻摘要。
24.如權(quán)利要求22中所述的過程,其特征在于,進(jìn)一步包括將第三方內(nèi)容加入這些有記號的幀;以及,使用這些有記號的視頻幀的這個被恢復(fù)的位置,來使該第三方內(nèi)容與該視頻的這第二個版本同步。
25.如權(quán)利要求22中所述的過程,其特征在于,進(jìn)一步包括從該視頻的這第二個版本中排除這些有記號的視頻幀,其中,這些有記號的幀包含諸如商業(yè)廣告節(jié)目等有關(guān)商業(yè)的內(nèi)容。
26.如權(quán)利要求22中所述的過程,其特征在于,該過程被用于以下至少一項(a)該視頻的索引;(b)視頻數(shù)字權(quán)利管理;(c)視頻數(shù)據(jù)庫查詢。
27.一種具有計算機(jī)可執(zhí)行指令的計算機(jī)可讀介質(zhì),這些計算機(jī)可執(zhí)行指令用于獲得視頻的視頻幀中所包含的內(nèi)容表示,包括放棄該視頻幀中的任何彩色信息,以產(chǎn)生合成圖像;對該合成圖像進(jìn)行向下采樣,以產(chǎn)生灰度等級圖像;對該灰度等級圖像執(zhí)行中央定限,以產(chǎn)生該視頻幀的0/1位圖版本;以及,使用形態(tài)學(xué)上的清理來清理該視頻幀的該0/1位圖版本,以產(chǎn)生該視頻幀的長簽名。
28.權(quán)利要求27的計算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括將該視頻幀規(guī)格化為4∶3縱橫比。
29.權(quán)利要求27的計算機(jī)可讀介質(zhì),其特征在于,該灰度等級圖像長40個像素、寬30個像素。
30.權(quán)利要求27的計算機(jī)可讀介質(zhì),其特征在于,該0/1位圖中的每個像素具有以下的一個值(a)0;(b)1。
31.權(quán)利要求27的計算機(jī)可讀介質(zhì),其特征在于,執(zhí)行中央定限進(jìn)一步包括確定該灰度等級圖像的中央灰度值;以及,將該中央灰度值定義為門限。
32.權(quán)利要求31的計算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括將具有該門限以上的亮度值的該視頻幀中的像素定義為“1”,以及,將具有該門限以下的亮度值的該視頻幀中的像素定義為“0”。
33.權(quán)利要求27的計算機(jī)可讀介質(zhì),其特征在于,形態(tài)學(xué)上的清理包括核心過濾(k過濾),以便從該視頻幀的該0/1位圖版本中除去線路細(xì)節(jié)假象和其他噪聲。
34.權(quán)利要求33的計算機(jī)可讀介質(zhì),其特征在于,使用形態(tài)學(xué)上的清理來清理該視頻幀的該0/1位圖版本進(jìn)一步包括將3×3k濾波器應(yīng)用于該視頻幀的該0/1位圖版本,以便如果該視頻幀中多于k數(shù)目的像素是1,則該濾波器的輸出等于1,否則,則該濾波器的輸出等于0。
35.權(quán)利要求34的計算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括在每次迭代之后,調(diào)整k的值。
36.權(quán)利要求35的計算機(jī)可讀介質(zhì),其特征在于,調(diào)整k的值進(jìn)一步包括減小k的值,以便如果1的數(shù)目減少,則在下一次迭代中產(chǎn)生更多的1;以及,增加k的值,以便如果1的數(shù)目增加,則在接下來的迭代中產(chǎn)生較少的1。
37.權(quán)利要求35的計算機(jī)可讀介質(zhì),其特征在于,第一次迭代處的k的值等于4.5。
38.權(quán)利要求35的計算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括當(dāng)給定迭代中的像素數(shù)目落到厄普西隆以下時,終止k過濾。
39.權(quán)利要求38的計算機(jī)可讀介質(zhì),其特征在于,厄普西隆的值等于5。
40.一種用于減少包含許多位的長簽名的維數(shù)的方法,這許多位表示視頻幀的內(nèi)容,包括為該長簽名確定特征矢量和這些對應(yīng)的特征值;從表現(xiàn)該長簽名的特征的這些特征值中選擇主要部分;以及,根據(jù)這些主要部分來產(chǎn)生短簽名,該短簽名具有比該長簽名中要少的位數(shù)。
41.如權(quán)利要求40中所述的方法,其特征在于,選擇主要部分進(jìn)一步包括發(fā)現(xiàn)具有最高值的特征值,并將那些最高值特征值定義為這些主要部分。
42.一種過程,用于將具有n個位的長簽名向下采樣為具有少于n個位的短簽名,包括生成包含n個箱柜的直方圖,每個箱柜表示一個位;計算每個位等于1的次數(shù)和每個位等于0的次數(shù);確定該直方圖中最具辨別力的位,以生成掩碼;以及,使用該掩碼來對該長簽名進(jìn)行向下采樣,以生成該短簽名。
43.如權(quán)利要求42中所述的過程,其特征在于,確定最具辨別力的位進(jìn)一步包括發(fā)現(xiàn)哪些位最接近于是一半次數(shù)等于1、一半次數(shù)等于0。
44.一種用于使從視頻的第一個版本中生成的第一個簽名序列和從該視頻的第二個版本中生成的第二個簽名序列的各個簽名相匹配的方法,包括確定連續(xù)的簽名號碼,該簽名號碼表示待比較的連續(xù)簽名的數(shù)目;發(fā)現(xiàn)該視頻的這第二個版本的開端;以及,通過將這第一個簽名序列的連續(xù)的簽名號碼與這第二個簽名序列的連續(xù)的簽名號碼進(jìn)行比較,來確定匹配。
45.如權(quán)利要求44中所述的方法,其特征在于,較小的連續(xù)的簽名號碼指出較少數(shù)量的信息和很少的細(xì)節(jié),較大的連續(xù)的簽名號碼指出較多數(shù)量的信息和更多的細(xì)節(jié)。
46.如權(quán)利要求44中所述的方法,其特征在于,該連續(xù)的簽名號碼等于10。
47.如權(quán)利要求44中所述的方法,其特征在于,確定匹配進(jìn)一步包括計算在這第一個與第二個簽名序列之間有所不同的位數(shù);以及,當(dāng)該位數(shù)在匹配門限以下時,發(fā)現(xiàn)匹配。
48.如權(quán)利要求47中所述的方法,其特征在于,該匹配門限大約是125個位。
49.如權(quán)利要求44中所述的方法,其特征在于,進(jìn)一步包括為該視頻中的每個幀計算可靠性得分。
50.如權(quán)利要求49中所述的方法,其特征在于,該可靠性得分表示每個幀中的變化量,并且進(jìn)一步包括確定如果該可靠性得分很高,并且該匹配中所使用的每個幀中的該變化很大,則該匹配更加可靠;以及,確定如果該可靠性得分很低,并且該匹配中所使用的每個幀中的該變化很小,則該匹配不太可靠。
51.一種視頻位置識別系統(tǒng),其特征在于,包括簽名發(fā)生和提取模塊,該模塊根據(jù)來自視頻的第一個版本的內(nèi)容來生成第一個簽名序列,并根據(jù)來自該視頻的第二個版本的內(nèi)容來生成第二個簽名序列;以及,簽名匹配模塊,該模塊使這第一個簽名序列和這第二個簽名序列相匹配,以恢復(fù)有關(guān)范圍。
52.如權(quán)利要求51中所述的視頻位置識別系統(tǒng),其特征在于,該簽名發(fā)生和提取模塊進(jìn)一步包括灰度等級轉(zhuǎn)換器,該灰度等級轉(zhuǎn)換器按當(dāng)前分辨率來將該視頻的視頻幀轉(zhuǎn)換成灰度等級,以產(chǎn)生灰度等級視頻幀。
53.如權(quán)利要求52的視頻位置識別系統(tǒng),其特征在于,該簽名發(fā)生和提取模塊進(jìn)一步包括向下采樣模塊,該向下采樣模塊對該灰度等級視頻幀進(jìn)行向下采樣,以創(chuàng)建低分辨率灰度等級視頻幀。
54.如權(quán)利要求53中所述的視頻位置識別系統(tǒng),其特征在于,向下采樣模塊構(gòu)建高斯金字塔。
55.如權(quán)利要求53中所述的視頻位置識別系統(tǒng),其特征在于,該簽名發(fā)生和提取模塊進(jìn)一步包括中央門限位圖轉(zhuǎn)換器,該中央門限位圖轉(zhuǎn)換器將該低分辨率灰度等級視頻幀轉(zhuǎn)換成0/1位圖。
56.如權(quán)利要求55中所述的視頻位置識別系統(tǒng),其特征在于,該簽名發(fā)生和提取模塊進(jìn)一步包括形態(tài)學(xué)上的清理模塊,該形態(tài)學(xué)上的清理模塊通過將視頻幀的中央灰度用作閾值來生成長簽名,以確保對于該視頻幀而言,具有0和1的值的像素數(shù)目近似相等。
57.如權(quán)利要求56中所述的視頻位置識別系統(tǒng),其特征在于,該簽名發(fā)生和提取模塊進(jìn)一步包括短簽名模塊,該短簽名模塊對該長簽名進(jìn)行向下采樣,以生成包含比該長簽名要少的位的短簽名。
58.如權(quán)利要求51中所述的視頻位置識別系統(tǒng),其特征在于,該簽名匹配模塊進(jìn)一步包括連續(xù)簽名模塊,該連續(xù)簽名模塊從這第一個和第二個簽名序列中獲得一連串連續(xù)的簽名。
59.如權(quán)利要求58中所述的視頻位置識別系統(tǒng),其特征在于,該簽名匹配模塊進(jìn)一步包括確定匹配門限的匹配門限模塊。
60.如權(quán)利要求59中所述的視頻位置識別系統(tǒng),其特征在于,該簽名匹配模塊進(jìn)一步包括距離比較模塊,該距離比較模塊使用這一連串連續(xù)的簽名和該匹配門限來比較各個簽名之間的距離。
61.如權(quán)利要求58中所述的視頻位置識別系統(tǒng),其特征在于,該簽名匹配模塊進(jìn)一步包括可靠性模塊,該可靠性模塊確定這第一個和第二個簽名序列中的每個簽名的可靠性。
全文摘要
一種過程和系統(tǒng),用于處理視頻,以便可靠地識別該視頻中的位置。該視頻位置識別過程和系統(tǒng)使用基于內(nèi)容的視頻時間線索。這些時間線索由視頻內(nèi)容的有序的一連串視頻“指紋”或“簽名”組成,它們利用該視頻的幀圖像中的這些空間特征,并可靠地識別位置,即使已修改該視頻(例如,利用插入或刪除),也是如此。
文檔編號H04N7/16GK1574953SQ200410047439
公開日2005年2月2日 申請日期2004年5月25日 優(yōu)先權(quán)日2003年5月28日
發(fā)明者D·M·巴杰倫, Y·卡斯皮 申請人:微軟公司