專利名稱:用于音頻辨識(shí)的擴(kuò)展的視頻鏡頭媒體引擎的制作方法
技術(shù)領(lǐng)域:
本專利申請(qǐng)一般地涉及管理多媒體數(shù)據(jù),并且更具體地涉及基于所選擇的多媒體音頻內(nèi)容來(lái)收集、分類、總結(jié)、編輯、標(biāo)記、共享以及執(zhí)行定向(directed)搜索和廣告。
背景技術(shù):
在線視頻的發(fā)展的確是顯著的。Comscore公司估計(jì)超過(guò)75%的美國(guó)因特網(wǎng)用戶觀看在線視頻。他們平均每月花235分鐘來(lái)觀看總計(jì)達(dá)50億份視頻。內(nèi)容類型通常決定了觀看體驗(yàn)。例如,優(yōu)質(zhì)內(nèi)容向用戶提供豐富且交互式的觀看體驗(yàn)。諸如故事概要、演員表和導(dǎo)演簡(jiǎn)檔(profile)、評(píng)級(jí)、用戶評(píng)論和章節(jié)劃分之類的伴隨內(nèi)容的元數(shù)據(jù)也對(duì)整體體驗(yàn)有所貢獻(xiàn)。在web上可獲得的優(yōu)質(zhì)內(nèi)容通常是收費(fèi)的并且通常持續(xù)30分鐘或更長(zhǎng)。 相反,免費(fèi)內(nèi)容大多是用戶生成的并且提供“無(wú)裝飾的(no frills)”觀看體驗(yàn)。文本、特殊場(chǎng)合的縮略圖、用戶評(píng)級(jí)以及鏈接是此觀看體驗(yàn)的一部分。觀看通常被限制為通過(guò)“盲目”搜尋的“開(kāi)始到結(jié)束”回放(沒(méi)有對(duì)內(nèi)容的可視指南)。免費(fèi)內(nèi)容流的平均長(zhǎng)度為1-5分鐘,Comscore公司估計(jì)在線視頻的平均持續(xù)時(shí)間為2. 9分鐘。假設(shè)海量在線內(nèi)容的大多數(shù)是免費(fèi)的(且是用戶生成的),那么存在如下的不斷增長(zhǎng)的需求需要改進(jìn)免費(fèi)內(nèi)容的目前“無(wú)裝飾的”觀看體驗(yàn)。在線視頻體驗(yàn)的增強(qiáng)是許多人和機(jī)構(gòu)共有的目標(biāo)。結(jié)果,開(kāi)發(fā)出了許多解決方案。針對(duì)優(yōu)質(zhì)內(nèi)容的選擇的解決方案是元數(shù)據(jù)。元數(shù)據(jù)是與如下內(nèi)容有關(guān)的信息,該內(nèi)容可表現(xiàn)為用以提供故事概要、演員和導(dǎo)演簡(jiǎn)檔、刪除了的場(chǎng)景以及章節(jié)劃分的文本、圖像、視頻或音頻,此信息允許定制的回放。此外,元數(shù)據(jù)通過(guò)相關(guān)鏈接、用戶評(píng)論和評(píng)級(jí)被補(bǔ)充。元數(shù)據(jù)將描述性和交互性層添加到內(nèi)容回放。內(nèi)容創(chuàng)建者、發(fā)行者以及其間的公司已認(rèn)識(shí)到它的價(jià)值,并且已經(jīng)使元數(shù)據(jù)成為優(yōu)質(zhì)內(nèi)容供應(yīng)的整體所需部分。遺憾的是,針對(duì)優(yōu)質(zhì)內(nèi)容的元數(shù)據(jù)創(chuàng)建處理因其依賴于手動(dòng)創(chuàng)建而并未擴(kuò)展到免費(fèi)內(nèi)容。手動(dòng)處理用戶生成的免費(fèi)內(nèi)容是經(jīng)濟(jì)上不切實(shí)際的提議,因此需要自動(dòng)的方法。這些方法可作用于內(nèi)容的音頻和視頻方面以提取有意義的信息。它們可被認(rèn)為是制作機(jī)器生成的元數(shù)據(jù)。自動(dòng)方法落入以下三個(gè)類別中的一個(gè)音頻/視頻分析、編解碼器技術(shù)和產(chǎn)業(yè)標(biāo)準(zhǔn)。受到學(xué)術(shù)界最多關(guān)注的類別是音頻/視頻分析。這些方法分析內(nèi)容的音頻和視頻數(shù)據(jù)并且試圖提取對(duì)用戶而言有意義的關(guān)鍵信息。壓縮域(compressed domain)視頻分析、運(yùn)動(dòng)分析、物體分割、文本檢測(cè)、譜分析以及話音到文本轉(zhuǎn)換是用于提取關(guān)鍵信息的一些技術(shù)。大多數(shù)方法提供良好的準(zhǔn)確性,然而它們的復(fù)雜性限制了在實(shí)時(shí)應(yīng)用中的使用以及在資源受限消費(fèi)類設(shè)備上的使用。因此,大多數(shù)音頻/視頻分析是離線執(zhí)行的。編解碼器技術(shù)為免費(fèi)內(nèi)容提供了替代的自動(dòng)元數(shù)據(jù)生成處理。在這種情況下,關(guān)于內(nèi)容的關(guān)鍵信息在編碼處理期間被封裝在壓縮的流中?;胤盘幚硖崛∷鼈儾⑺鼈兣c內(nèi)容一起呈現(xiàn)。諸如MPEG2、MPEG4-Part2、AVC(H. 264)、VCI和其他先進(jìn)的編解碼器之類的編解碼器標(biāo)準(zhǔn)定義了特別的簡(jiǎn)檔以支持此能力。遺憾的是,該方法將高復(fù)雜度加至編碼和解碼處理,這限制了它的廣泛使用。第三種方法是工業(yè)標(biāo)準(zhǔn)的使用。諸如MPEG-7、MPEG-21和HTML-5之類的標(biāo)準(zhǔn)試圖通過(guò)實(shí)現(xiàn)對(duì)內(nèi)容中關(guān)鍵信息的搜索、共享和增強(qiáng)顯示來(lái)豐富在線視頻體驗(yàn)。MPEG-7和MPEG-21的流行性一直受限,因?yàn)樗鼈儾唤鉀Q從內(nèi)容中提取關(guān)鍵信息的根本問(wèn)題。而是,這些標(biāo)準(zhǔn)提供在設(shè)備間查詢和共享信息的機(jī)制。HTML-5最近在媒體報(bào)道中獲得了顯著的關(guān)注。它提出針對(duì)視頻標(biāo)簽的主要修正,該視頻標(biāo)簽實(shí)現(xiàn)對(duì)顯示在瀏覽器上的回放內(nèi)容的動(dòng)態(tài)且交互式的訪問(wèn)。視頻窗定位、著色、邊緣效果和技巧模式控制是由該標(biāo)準(zhǔn)提出的效果中的一些。HTML-5可能是卓越的,因?yàn)槠涑兄Z通過(guò)其豐富的圖形操作和音頻/視頻效果來(lái)增強(qiáng)在線視頻體驗(yàn)。總之,免費(fèi)內(nèi)容需要添加諸如關(guān)鍵幀、場(chǎng)景分類和概要等之類的元數(shù)據(jù)以反映出像優(yōu)質(zhì)內(nèi)容所提供的那樣的豐富視頻體驗(yàn)。然而,與優(yōu)質(zhì)內(nèi)容不同,預(yù)期該數(shù)據(jù)由用戶來(lái)生成并標(biāo)記到流上是不切實(shí)際的。為了成為一個(gè)可行的選擇,數(shù)據(jù)需要被實(shí)時(shí)地生成,同時(shí)僅·需要適度的計(jì)算資源。以上討論的目前方法因各種因素而不能滿足此要求。音頻和視頻分析技術(shù)可能有能力創(chuàng)建元數(shù)據(jù),然而因其復(fù)雜性,需要遠(yuǎn)超出消費(fèi)類媒體設(shè)備的能力的計(jì)算資源。此外,這些技術(shù)不是實(shí)時(shí)性的,因此最適合用于離線創(chuàng)建。編解碼器技術(shù)已經(jīng)證明了其在編碼處理期間將關(guān)鍵信息嵌入到流中的能力。然而,編碼復(fù)雜度和缺乏對(duì)解碼器/播放器的支持限制了其使用。包括HTML-5在內(nèi)的工業(yè)標(biāo)準(zhǔn)也不提供全面的解決方案,因?yàn)樗鼈兾茨芙鉀Q元數(shù)據(jù)創(chuàng)建的核心問(wèn)題。本專利申請(qǐng)描述了針對(duì)這些挑戰(zhàn)的解決方案。
發(fā)明內(nèi)容
用于執(zhí)行多媒體數(shù)據(jù)自動(dòng)分析的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品被公開(kāi)并在此被要求保護(hù)。下載的或流傳輸?shù)碾娪盎蛞曨l剪輯(video clip)可被分析以像人們可能做的那樣基于音頻響度和視頻運(yùn)動(dòng)水平來(lái)識(shí)別動(dòng)作場(chǎng)景、安靜場(chǎng)景和可能的跳變點(diǎn)。索引或菜單可然后基于消費(fèi)者偏好被創(chuàng)建,并被用于播放感興趣的場(chǎng)景、產(chǎn)生定制的宣傳片或者按需用元數(shù)據(jù)編輯和標(biāo)記電影。結(jié)果可被發(fā)送到可視化搜索引擎用于進(jìn)一步的搜索,用于替換商業(yè)消息,或者經(jīng)由社交網(wǎng)絡(luò)共享。實(shí)施例還可以通過(guò)內(nèi)容特征來(lái)分類并群聚(cluster)用戶選擇的輸入。示例性實(shí)施例接收多媒體數(shù)據(jù),識(shí)別具有指定內(nèi)容特征的至少一個(gè)多媒體數(shù)據(jù)部分,并且響應(yīng)性地輸出至少一個(gè)所識(shí)別的多媒體數(shù)據(jù)部分。針對(duì)多媒體數(shù)據(jù),元數(shù)據(jù)也被生成。分析優(yōu)選地是實(shí)時(shí)發(fā)生的,并且可以由資源受限消費(fèi)類應(yīng)用(比如媒體播放器插件工具)來(lái)執(zhí)行。分析可包括基于人類感知來(lái)執(zhí)行啟發(fā)式算法。在一個(gè)實(shí)施例中,分析基于時(shí)間劃分或圖片組邊界對(duì)幀子集進(jìn)行操作。分析可包括將話音轉(zhuǎn)換為文本和/或執(zhí)行面部識(shí)別。分析可對(duì)如下視頻特征進(jìn)行操作,這些視頻特征包括(a)壓縮域運(yùn)動(dòng)向量和位置分布,(b)壓縮域宏塊大小和相應(yīng)分布以及塊類型和相應(yīng)位置,(C)壓縮域幀類型,和/或(d)原始顏色直方圖和相關(guān)聯(lián)的統(tǒng)計(jì)特性。分析還可以對(duì)如下的音頻特征進(jìn)行操作,這些音頻特征包括(a)采樣的音頻幀的RMS功率,(b)經(jīng)由短期傅里葉變換計(jì)算出的譜質(zhì)心,和/或(C)非線性梅爾測(cè)度(Mel scale)頻率上的短期MFC功率譜表示。分析可將動(dòng)作場(chǎng)景識(shí)別為具有提高的音頻水平和/或提高的運(yùn)動(dòng)向量大小(magnitude)的多媒體數(shù)據(jù)部分。動(dòng)作場(chǎng)景識(shí)別還可包括選擇具有提高的運(yùn)動(dòng)向量大小的P幀子集,然后針對(duì)每個(gè)所選P幀,解碼相應(yīng)的音頻幀、針對(duì)相應(yīng)的音頻幀計(jì)算RMS功率值并且最終選擇具有最高RMS功率值的音頻幀。分析還可將低運(yùn)動(dòng)場(chǎng)景識(shí)別為既具有最大相鄰宏塊又具有最小運(yùn)動(dòng)向量大小的多媒體數(shù)據(jù)部分。低運(yùn)動(dòng)場(chǎng)景識(shí)別還可包括選擇P幀子集,然后針對(duì)每個(gè)所選P幀,提取宏塊和運(yùn)動(dòng)向量、確定宏塊大小和運(yùn)動(dòng)向量大小并且最終選擇具有最大相鄰宏塊和最小運(yùn)動(dòng)向量大小的P幀。分析還可將預(yù)覽點(diǎn)識(shí)別為具有較寬顏色分布的多媒體數(shù)據(jù)部分。預(yù)覽點(diǎn)識(shí)別還可包括將多媒體數(shù)據(jù)劃分為不重疊的部分,然后針對(duì)每個(gè)部分,提取三個(gè)均等分隔的候選幀、·計(jì)算每個(gè)候選幀的顏色直方圖并且最終選擇具有最大標(biāo)準(zhǔn)偏差的候選幀。分析還可將MFCC視為特征向量并且響應(yīng)性地識(shí)別具有人的對(duì)話和音樂(lè)的至少一個(gè)的多媒體數(shù)據(jù)部分。多媒體數(shù)據(jù)可包括音頻內(nèi)容、視頻內(nèi)容、壓縮的多媒體數(shù)據(jù)、未壓縮的多媒體數(shù)據(jù)、下載的數(shù)據(jù)、流傳輸?shù)臄?shù)據(jù)、在線數(shù)據(jù)和/或免費(fèi)數(shù)據(jù)。所識(shí)別部分可包括音頻剪輯、視頻圖像和/或視頻剪輯。本發(fā)明的實(shí)施例還生成與分析相對(duì)應(yīng)的元數(shù)據(jù)。替代實(shí)施例可輸出所識(shí)別多媒體數(shù)據(jù)部分的集合,其中該集合可包括索引、視頻剪輯集、視頻圖像集和/或音頻剪輯集。實(shí)施例還可用元數(shù)據(jù)標(biāo)記該集合,并且在諸如DVD菜單之類的圖形用戶界面中顯示該集合。實(shí)施例還可以通過(guò)內(nèi)容特征來(lái)分類和/或群聚用戶選擇的多媒體數(shù)據(jù)部分集合。與用戶定義的內(nèi)容特征序列相對(duì)應(yīng)的回放序列也可被創(chuàng)建、標(biāo)記、剪切、混合和保存?;胤判蛄锌杀挥糜谔鎿Q至少一個(gè)廣告,可產(chǎn)生監(jiān)視視頻的概要,并且可包括用戶定制的電影宣傳片?;胤判蛄锌稍贒VD上被用作介紹、菜單跳變序列、章節(jié)和/或特定特征。進(jìn)一步的實(shí)施例可將所識(shí)別多媒體數(shù)據(jù)部分輸出到社交網(wǎng)絡(luò)和/或可視化搜索引擎。諸如索引、視頻剪輯集、視頻圖像集、音頻剪輯集之類的多媒體數(shù)據(jù)部分的集合可通過(guò)社交網(wǎng)絡(luò)共享。具有指定內(nèi)容特征的更多多媒體數(shù)據(jù)項(xiàng)可被可視化搜索引擎識(shí)別并輸出和/或添加到集合中。用于進(jìn)一步的多媒體數(shù)據(jù)自動(dòng)分析的增強(qiáng)實(shí)施例包括接收多媒體數(shù)據(jù);識(shí)別具有目標(biāo)音頻內(nèi)容特征的至少一個(gè)多媒體數(shù)據(jù)部分;辨識(shí)所識(shí)別特征的至少一個(gè)方面;以及響應(yīng)性地輸出對(duì)所述方面的指示。通過(guò)其他實(shí)施例,分析可基本上實(shí)時(shí)地發(fā)生,可由資源受限消費(fèi)類應(yīng)用執(zhí)行,并且可對(duì)包括采樣的音頻幀的RMS功率和/或非線性梅爾測(cè)度頻率上的短期MFC功率譜表示的音頻特征進(jìn)行操作。再一次地,多媒體數(shù)據(jù)可包括音頻內(nèi)容、視頻內(nèi)容、壓縮的多媒體數(shù)據(jù)、未壓縮的多媒體數(shù)據(jù)、下載的數(shù)據(jù)、流傳輸?shù)臄?shù)據(jù)、在線數(shù)據(jù)和/或免費(fèi)數(shù)據(jù),并且所識(shí)別部分可包括音頻剪輯、視頻圖像和/或視頻剪輯。還可生成與分析相對(duì)應(yīng)的元數(shù)據(jù)。在增強(qiáng)的實(shí)施例中,目標(biāo)音頻內(nèi)容特征可包括人的對(duì)話、笑聲、動(dòng)物的聲音和/或依地點(diǎn)而定的聲音。對(duì)于人的對(duì)話,所述方面可以是正在說(shuō)話的演員的名字和/或正在說(shuō)話的角色的名字??赏ㄟ^(guò)以下步驟來(lái)辨識(shí)所述方面將所識(shí)別部分與語(yǔ)音樣本集進(jìn)行比較來(lái)找出至少一個(gè)最佳匹配樣本;然后輸出說(shuō)話者姓名和/或角色姓名。比較可包括將語(yǔ)音樣本表示為MFC系數(shù)向量和特征向量中的一個(gè),然后從所述表示計(jì)算歐幾里得距離或相關(guān)量度,并且按概率的次序輸出至少一個(gè)最佳匹配樣本,該最佳匹配樣本具有低歐幾里得距離和/或高相關(guān)量度。還可應(yīng)用最小差異閾值來(lái)排除不匹配樣本。另外,增強(qiáng)的實(shí)施例可將人的對(duì)話作為目標(biāo)并辨識(shí)諸如字詞和相應(yīng)的時(shí)間戳之類的方面,通過(guò)以下步驟來(lái)辨識(shí)所述方面在所述字詞不是文本形式的情況下選擇性地將話音轉(zhuǎn)換為文本;選擇最有意義的內(nèi)容字詞;以及輸出所選字詞和相應(yīng)的時(shí)間戳。增強(qiáng)的實(shí)施例還可通過(guò)定向搜索找到與所述指示有關(guān)的更多多媒體數(shù)據(jù)。可按照對(duì)用戶興趣的預(yù)期預(yù)先取得所述更多多媒體數(shù)據(jù)。更多多 媒體數(shù)據(jù)可包括相關(guān)電影、正上映的電影、電影預(yù)覽、正發(fā)生的事件、檔案、影片集錦、相關(guān)廣告、有關(guān)辨識(shí)出的地點(diǎn)的信息和/或場(chǎng)景特性??纱鎯?chǔ)對(duì)所述指示的用戶確認(rèn)并且用其來(lái)通過(guò)合并在先辨識(shí)改進(jìn)辨識(shí)準(zhǔn)確性。如以下更充分地描述的,所公開(kāi)的實(shí)施例的裝置和處理允許多媒體數(shù)據(jù)的自動(dòng)分析??紤]了詳細(xì)描述和其后的附圖之后,這里公開(kāi)的裝置和方法的更多方面、目的、希望的特征和優(yōu)點(diǎn)將被相應(yīng)領(lǐng)域技術(shù)人員更好地理解并變得顯而易見(jiàn),在附圖中各個(gè)實(shí)施例作為示例被圖示。然而,將清楚地理解,附圖僅用于說(shuō)明的目的而非意欲限定對(duì)所主張發(fā)明的限制。
圖I示出本發(fā)明實(shí)施例的軟件體系架構(gòu)的框圖;圖2A示出根據(jù)一個(gè)實(shí)施例的對(duì)動(dòng)作幀的檢測(cè);圖2B示出根據(jù)一個(gè)實(shí)施例的對(duì)低運(yùn)動(dòng)幀的檢測(cè);圖2C示出根據(jù)一個(gè)實(shí)施例的對(duì)預(yù)覽幀的檢測(cè);圖3A不出根據(jù)一個(gè)實(shí)施例的具有覆蓋的運(yùn)動(dòng)向量的巾貞;圖3B示出根據(jù)一個(gè)實(shí)施例的被映射到幀的運(yùn)動(dòng)向量和宏塊大?。粓D3C示出根據(jù)一個(gè)實(shí)施例的基于顏色分布的預(yù)覽幀選擇;圖4A示出根據(jù)一個(gè)實(shí)施例的實(shí)用原型媒體播放器的畫(huà)面捕捉;圖4B示出根據(jù)一個(gè)實(shí)施例的所生成的幀;圖4C示出根據(jù)一個(gè)實(shí)施例的另一所生成的幀;圖5示出根據(jù)一個(gè)實(shí)施例的流程圖;圖6示出根據(jù)一個(gè)實(shí)施例的流程圖;以及圖7示出根據(jù)一個(gè)實(shí)施例的流程圖。
具體實(shí)施例方式本專利申請(qǐng)?zhí)岢隽艘曨l鏡頭(VideoLens)媒體引擎,一種遞送能夠豐富在線觀看體驗(yàn)的有意義的可視信息的實(shí)時(shí)場(chǎng)景搜索引擎。視頻鏡頭引擎例如可在索尼SNAP框架的交互式媒體播放器應(yīng)用中實(shí)現(xiàn)。開(kāi)發(fā)者可優(yōu)化引擎以將新的且令人激動(dòng)的在線視頻特征加入到他們的在視聽(tīng)設(shè)備上運(yùn)行的應(yīng)用中。引擎通過(guò)識(shí)別并輸出具有指定內(nèi)容特征的部分來(lái)執(zhí)行對(duì)所接收多媒體數(shù)據(jù)的自動(dòng)分析。內(nèi)容特征因此使得輸入數(shù)據(jù)能夠被分類或群聚。本發(fā)明的實(shí)施例包括以下主要設(shè)計(jì)選擇I.基于人類感知的算法設(shè)計(jì)的啟發(fā)式方法。例如,喧鬧的聲音通常伴隨著動(dòng)作場(chǎng)景。具有較大色彩分布的幀通常比其他幀更有吸引力。2.對(duì)音頻和視頻數(shù)據(jù)的組合分析或多模態(tài)分析。人類大腦共同地使用視覺(jué)和聽(tīng)覺(jué)。注意,此技術(shù)領(lǐng)域中的大部分學(xué)術(shù)工作或者使用視頻或者使用音頻,而非同時(shí)使用二者。3.在所生成元數(shù)據(jù)的嚴(yán)格的準(zhǔn)確度之上強(qiáng)調(diào)算法速度和簡(jiǎn)單性。算法應(yīng)當(dāng)能夠在資源受限的消費(fèi)類媒體設(shè)備上運(yùn)行,尤其是實(shí)時(shí)地運(yùn)行?,F(xiàn)參考圖1,示出了本發(fā)明實(shí)施例的軟件體系架構(gòu)的框圖。視頻鏡頭媒體引擎100是在FFMPEG開(kāi)源軟件包上構(gòu)建的。FFMPEG是支持視聽(tīng)記錄、編碼、解碼和流傳輸功能的交叉平臺(tái)包。諸如媒體編碼器和解碼器之類的超過(guò)一百種軟件應(yīng)用110以及上千種流傳輸服務(wù)器是基于FFMPEG的。 定制的支持流傳輸和音頻/視頻解碼功能的“輕(Iite) ”版FFMPEG形成基本層160。此“輕”定制實(shí)現(xiàn)了將包大小減至2MB以下(對(duì)標(biāo)準(zhǔn)包的90%的縮減)并且使其適用于閃存和存儲(chǔ)器受限的消費(fèi)類媒體設(shè)備。此層形成了系統(tǒng)的數(shù)據(jù)層。視頻和音頻算法庫(kù)140和150存在于FFMPEG層160之上。這些庫(kù)包含被開(kāi)發(fā)來(lái)支持引擎的場(chǎng)景搜索能力的算法。這些算法對(duì)由FFMPEG層提供的數(shù)據(jù)進(jìn)行操作并且受控制層130的控制。這些算法的細(xì)節(jié)將在下文中提供??刂茖影l(fā)起并管理FFMPEG層和音頻/視頻算法庫(kù)的并行操作?;?經(jīng)由應(yīng)用程序接口或API120)從應(yīng)用接收的請(qǐng)求,它指示FFMPEG層執(zhí)行流傳輸操作以獲得流。此外,控制層選擇適當(dāng)?shù)囊纛l和視頻算法來(lái)執(zhí)行API任務(wù)。它將解碼的或者壓縮的數(shù)據(jù)按其類型提供給算法。音頻和視頻算法的組合輸出被作為與搜索查詢相對(duì)應(yīng)的視頻幀陣列傳回給所請(qǐng)求的API。引擎因形成其基本層的FFMPEG層的輕便性而在許多硬件平臺(tái)之中是便攜式的。經(jīng)由將新的搜索方法添加到其算法庫(kù),其能力能夠隨時(shí)間過(guò)去而增強(qiáng)。場(chǎng)景搜索能力以下提供從視頻鏡頭引擎獲得的場(chǎng)景搜索結(jié)果示例。I.動(dòng)作場(chǎng)景(圖2A示出在“現(xiàn)實(shí)的創(chuàng)痛(realitybites) ”mp4流中檢測(cè)到的動(dòng)作幀。這些幀包含運(yùn)動(dòng)中的物體。)2.低運(yùn)動(dòng)場(chǎng)景(圖2B示出在“公主和青娃(princess-and-frog) ”mp4流中檢測(cè)到的低運(yùn)動(dòng)幀。這些幀具有很少的運(yùn)動(dòng)。)3.預(yù)覽/章節(jié)劃分(圖2C示出“飛屋環(huán)游記(Up) ”mp4流的預(yù)覽幀。幀在流中均等間隔,并且具有超出閾值的直方圖標(biāo)準(zhǔn)偏差。)4.人的對(duì)話和音樂(lè)場(chǎng)景算法細(xì)節(jié)視頻鏡頭媒體引擎的場(chǎng)景搜索能力是通過(guò)其核心音頻和視頻算法來(lái)驅(qū)動(dòng)的。這些算法是基于人類感知屬性啟發(fā)式地設(shè)計(jì)的。引擎的輸入通常是視頻文件,并且經(jīng)常是經(jīng)由下載或流傳輸在線可得的免費(fèi)視頻;然而,音頻文件也可被處理。壓縮的或未壓縮的多媒體數(shù)據(jù)可被輸入。輸出通常是與各搜索查詢相對(duì)應(yīng)的一系列幀,然而也可包括音頻剪輯或視頻圖像。視頻算法可對(duì)壓縮的和解碼的視頻特征進(jìn)行操作,具體而言I.壓縮域運(yùn)動(dòng)向量和分布-運(yùn)動(dòng)向量大小和位置。2.壓縮域宏塊大小和分布-塊類型和位置。3.壓縮域幀類型-幀內(nèi)(I)、預(yù)測(cè)(P)和雙向(B)。4.原始顏色直方圖和相關(guān)聯(lián)的統(tǒng)計(jì)數(shù)據(jù)。注意,運(yùn)動(dòng)向量和宏塊類型是壓縮域信息。對(duì)它們的利用為視頻鏡頭引擎提供了許多明顯的優(yōu)點(diǎn)。首先,這些特征在編碼處理期間被生成。因此,獲取它們的計(jì)算成本很小(限于解析壓縮流)。其次,這些特征直接涉及視頻的物理特性并因此傳達(dá)出對(duì)于提取算法 而言重要的信息。與視頻配對(duì)物類似,音頻算法對(duì)能夠以高效且輕資源(resource-1 ite)方式從音頻數(shù)據(jù)中計(jì)算出的簡(jiǎn)單特征集進(jìn)行操作I.功率-512個(gè)樣本的音頻幀的RMS值。2.譜質(zhì)心-經(jīng)由短期傅里葉變換計(jì)算出的譜的質(zhì)量中心。3.梅爾頻率倒頻譜(MFC)譜系數(shù)-非線性梅爾測(cè)度頻率上聲音的短期功率譜的表示。梅爾測(cè)度比線性分隔的頻帶更緊密地接近人類聽(tīng)覺(jué)系統(tǒng)的響應(yīng)。MFC是話音辨識(shí)系統(tǒng)中的常用特征。(隨后關(guān)于圖6和7來(lái)提供基于音頻的多媒體分析的增強(qiáng)實(shí)施例的進(jìn)一步細(xì)節(jié))。以下算法具有預(yù)分析成分,其從流中提取候選幀子集。為了滿足實(shí)時(shí)操作要求,通過(guò)幀子集進(jìn)行工作是重要的。這些幀基于時(shí)間劃分或者圖片組(GOP)邊界來(lái)選擇?;顒?dòng)場(chǎng)景檢測(cè)活動(dòng)場(chǎng)景是基于音頻信號(hào)振幅和運(yùn)動(dòng)向量大小來(lái)檢測(cè)的。相應(yīng)前提是大多數(shù)運(yùn)動(dòng)場(chǎng)景通常伴隨有提聞的聲首基于時(shí)間或GOP邊界從流中選擇預(yù)測(cè)(P)幀子集。針對(duì)每個(gè)所選幀一解碼相應(yīng)音頻幀。音頻幀經(jīng)由其到所選幀的PTS值而被關(guān)聯(lián)。—計(jì)算每個(gè)音頻幀的RMS值。—選擇具有最高RMS值的幀。針對(duì)每個(gè)所選幀—提取運(yùn)動(dòng)向量?!?jiǎng)幼鲙瑢⑹蔷哂凶畲蠊仓?co-located)運(yùn)動(dòng)向量大小的那些幀。此算法可被修改為通過(guò)僅考慮運(yùn)動(dòng)向量來(lái)作用于不具有音頻的流。圖3A示出具有覆蓋的運(yùn)動(dòng)向量的一些巾貞。運(yùn)動(dòng)向量被映射在動(dòng)作巾貞上。注意,運(yùn)動(dòng)向量位于飛機(jī)和云周圍。飛機(jī)的聲首伴隨著巾貞序列。低運(yùn)動(dòng)場(chǎng)景檢測(cè)低運(yùn)動(dòng)場(chǎng)景是通過(guò)分析宏塊大小和運(yùn)動(dòng)向量大小來(lái)檢測(cè)的。(圖3B示出被映射到中貞上的運(yùn)動(dòng)向量和宏塊大小。矩形對(duì)應(yīng)于16X 16、16X8和8X 16的宏塊。注意不存在運(yùn)動(dòng)向量。)相應(yīng)前提是低運(yùn)動(dòng)場(chǎng)景包含具有小運(yùn)動(dòng)的圖片的較大相鄰區(qū)域(宏塊)基于時(shí)間或GOP邊界從流中選擇預(yù)測(cè)⑵幀子集。
針對(duì)每個(gè)所選幀—提取宏塊和運(yùn)動(dòng)向量?!_定宏塊的大小、運(yùn)動(dòng)向量的大小?!瓦\(yùn)動(dòng)幀將是具有有著最小運(yùn)動(dòng)向量大小的最大相鄰宏塊的那些幀。預(yù)覽/章節(jié)分割創(chuàng)建此方法從流中選擇表示內(nèi)容預(yù)覽的關(guān)鍵幀。這基于如下前提具有(如通過(guò)直方圖測(cè)得的)較寬顏色分布的幀比具有窄分布的那些包含更多信息(并因此是更有吸引力的)
將流劃分為不重疊的部分。針對(duì)每個(gè)部分-提取均等地分隔開(kāi)的三個(gè)候選幀?!?jì)算每個(gè)候選幀的直方圖。—選擇具有最大標(biāo)準(zhǔn)偏差的中貞。不重疊的部分被示出在圖3C中(持續(xù)時(shí)間/N),其中N是預(yù)覽幀的數(shù)目。針對(duì)每個(gè)部分,三個(gè)均等地分隔開(kāi)的候選幀被選擇。按部分獲得的候選的圖被示出。產(chǎn)生內(nèi)容的四個(gè)不重疊的部分(n-2到n+1)。每一部分得到三個(gè)候選幀。人的對(duì)話和音樂(lè)場(chǎng)景檢測(cè)這些算法是基于利用其梅爾頻率倒頻譜系數(shù)(MFCC)的音頻樣本分析和分類的。MFCC提供了人類聽(tīng)覺(jué)系統(tǒng)的良好模型。MFCC被廣泛地應(yīng)用于音頻辨識(shí)系統(tǒng)中。MFCC系數(shù)可被用作特征向量來(lái)檢測(cè)人的對(duì)話和/或音樂(lè)的存在。示例性實(shí)現(xiàn)方式-SNAP媒體播放器視頻鏡頭媒體引擎使得多媒體應(yīng)用能夠向用戶提供豐富的在線視頻體驗(yàn)。就免費(fèi)在線內(nèi)容而言,這尤其真實(shí)且有價(jià)值。應(yīng)用通過(guò)使用引擎的實(shí)時(shí)場(chǎng)景搜索能力來(lái)創(chuàng)建幀的快照(snapshot)實(shí)現(xiàn)了這樣的效果。這些幀能夠以新的且交互式的方式被使用并呈現(xiàn)給用戶。SNAP或索尼聯(lián)網(wǎng)應(yīng)用平臺(tái)是用于索尼設(shè)備的應(yīng)用框架。它為第三方應(yīng)用開(kāi)發(fā)者提供了完全生態(tài)的系統(tǒng),以在運(yùn)行SNAP的索尼設(shè)備上開(kāi)發(fā)并部署(并且貨幣化)它們的應(yīng)用。假設(shè)大多數(shù)索尼設(shè)備是視聽(tīng)相關(guān)的,則SNAP提供了展示視頻鏡頭媒體引擎的優(yōu)點(diǎn)的理想環(huán)境。SNAP系統(tǒng)內(nèi)的媒體播放器被選擇作為使用視頻鏡頭媒體引擎的應(yīng)用。視頻鏡頭引擎被提供為用于播放器的基于C的對(duì)象庫(kù)。使用引擎使得SNAP媒體播放器能夠提供超出傳統(tǒng)媒體播放器的豐富的交互式媒體體驗(yàn)。例如,通過(guò)選項(xiàng)面板,用戶能夠查詢播放器來(lái)提供與動(dòng)作、靜止、預(yù)覽、人的對(duì)話或音樂(lè)場(chǎng)景相對(duì)應(yīng)的場(chǎng)景的快照(根據(jù)視頻中的幀)。與單個(gè)場(chǎng)景類別相對(duì)應(yīng)的框被水平地顯示在播放器的下部部分。用戶可使用例如觸摸揮擊(swip)手勢(shì)來(lái)滑動(dòng)這些框。另外,用戶可通過(guò)選擇播放一個(gè)或多個(gè)幀來(lái)定制回放場(chǎng)景。這些幀將以選擇的次序被媒體播放器引擎回放。總的來(lái)說(shuō),這些實(shí)時(shí)功能增強(qiáng)了對(duì)內(nèi)容的觀看體驗(yàn),對(duì)于免費(fèi)內(nèi)容而言尤其如此。例如,用戶可產(chǎn)生具有所選幀或由引擎找到的部分的定制DVD,從而例如產(chǎn)生DVD菜單、介紹性的DVD視頻剪輯、DVD菜單跳變序列、DVD章節(jié)以及DVD特有特征(例如訪談或紀(jì)錄片)。根據(jù)所選特征回放序列,可組合成定制的電影宣傳片。另外,所選回放序列可替代廣告或產(chǎn)生監(jiān)視視頻的概要。圖4A示出用于SNAP的實(shí)用原型媒體播放器的畫(huà)面捕捉。垂直的列提供了選項(xiàng)的列表。水平的行示出與(在垂直的列中的)所選選項(xiàng)相對(duì)應(yīng)的選擇。畫(huà)面捕捉顯示了可用于視頻鏡頭選項(xiàng)的場(chǎng)景搜索選擇。注意,播放器的最終的外觀和感覺(jué)將由所采用的圖形用戶界面決定。圖4B和4C示出由視頻鏡頭引擎生成的幀,這些幀被顯示在播放器的底部。用戶可通過(guò)揮擊或高亮一個(gè)或多個(gè)幀來(lái)開(kāi)始對(duì)這些特定高亮部分的定制回放,從而瀏覽這些幀。注意,主回放序列不被引擎中斷。所實(shí)現(xiàn)的應(yīng)用視頻鏡頭可被利用來(lái)開(kāi)發(fā)許多與在線視頻交互的令人激動(dòng)的多媒體應(yīng)用。一些示例是 I.媒體播放器增強(qiáng)-畫(huà)面搜索和顯示、可視化搜尋和回放、跨社交網(wǎng)絡(luò)進(jìn)行共享。2.社交網(wǎng)絡(luò)應(yīng)用一對(duì)內(nèi)容的快速瀏覽、標(biāo)記和共享。3.可視化搜索-找到的關(guān)鍵幀可被轉(zhuǎn)發(fā)到像谷歌Goggles 應(yīng)用那樣的可視化搜索引擎來(lái)生成與幀有關(guān)的搜索結(jié)果。(Goggles是谷歌公司的注冊(cè)商標(biāo))。4.視頻編輯-由幀定義的視頻部分集合能夠被剪切、混合、用元數(shù)據(jù)標(biāo)記并且保存。5.自動(dòng)元數(shù)據(jù)生成-基于所找到的匹配內(nèi)容?,F(xiàn)參考圖5,示出了完整實(shí)施例500的一般操作的流程圖。在此實(shí)施例中,示出了大量?jī)?nèi)容特征目標(biāo)方面,如可能從一復(fù)雜用戶查詢產(chǎn)生的那樣。然而,可以理解,并不是所示出的每一步針對(duì)較簡(jiǎn)單的用戶查詢也被需要,因此實(shí)施例可更快速地完成其任務(wù)。在步驟510,用戶查詢和多媒體數(shù)據(jù)被輸入。用戶查詢可以指定希望找到動(dòng)作場(chǎng)景、低運(yùn)動(dòng)場(chǎng)景、預(yù)覽幀、對(duì)話/音樂(lè)場(chǎng)景,和/或希望自動(dòng)生成有關(guān)于每個(gè)內(nèi)容特征方面的元數(shù)據(jù)。一旦輸出生成,用戶還可以指定要采取的進(jìn)一步動(dòng)作。在步驟520,如果用戶查詢指示出對(duì)動(dòng)作場(chǎng)景感興趣,則實(shí)施例選擇性地基于高音頻水平(如果音頻可用)和高大小運(yùn)動(dòng)向量來(lái)找到動(dòng)作場(chǎng)景。在步驟530,實(shí)施例可以選擇性地基于大相鄰宏塊和低大小運(yùn)動(dòng)向量來(lái)找到低運(yùn)動(dòng)場(chǎng)景。在步驟540,實(shí)施例可以選擇性地基于從采樣的候選幀得到的顏色直方圖的標(biāo)準(zhǔn)偏差來(lái)找到預(yù)覽幀。在步驟550,實(shí)施例可以選擇性地基于用作特征向量的MFCC系數(shù)來(lái)找到對(duì)話和音樂(lè)場(chǎng)景。在步驟560,多媒體數(shù)據(jù)的匹配用戶查詢的部分如所指定的那樣被與自動(dòng)生成的元數(shù)據(jù)一起輸出。實(shí)施例可以在此時(shí)停止、回放輸出部分、將其轉(zhuǎn)發(fā)到可視化搜索引擎以找到進(jìn)一步匹配素材和/或共享輸出部分以及更多匹配素材以及元數(shù)據(jù),如上所述?,F(xiàn)針對(duì)圖6和7來(lái)描述用于基于音頻內(nèi)容進(jìn)一步自動(dòng)分析多媒體數(shù)據(jù)的增強(qiáng)實(shí)施例。圖6示出致力于特定語(yǔ)音辨識(shí)的實(shí)施例,而圖7示出致力于決定進(jìn)一步處理的特定字詞的辨識(shí)的實(shí)施例。如圖6所示,實(shí)施例600在步驟602接收多媒體數(shù)據(jù)(通常是PCM格式的音頻樣本)。如步驟604所示,音頻內(nèi)容可被表示為使背景噪聲影響和音頻功率水平最小化的MFC系數(shù)向量或類似音頻特征向量表示。接下來(lái),目標(biāo)音頻內(nèi)容特征(其例如可包括人的話音或?qū)υ?被識(shí)別;例如,在步驟606,作為語(yǔ)音片段的多媒體數(shù)據(jù)部分被定位并且在步驟608被分離用于進(jìn)一步處理。在步驟612,語(yǔ)音片段然后被呈現(xiàn)給語(yǔ)音ID服務(wù)器用于對(duì)感興趣的至少一方面進(jìn)行可能的辨識(shí)。在增強(qiáng)的實(shí)施例中,目標(biāo)音頻內(nèi)容特征通常是人的對(duì)話,然而也可以包括笑聲、動(dòng)物的聲音和/或依地點(diǎn)而定的聲音。與其他實(shí)施例一樣,分析可基本上實(shí)時(shí)地發(fā)生,可由資源受限消費(fèi)類應(yīng)用來(lái)執(zhí)行,并且可對(duì)包括采樣的音頻幀的RMS功率和/或非線性梅爾尺度頻率上的短期MFC功率譜表示在內(nèi)的音頻特征進(jìn)行操作。再一次地,多媒體數(shù)據(jù)可包括音頻內(nèi)容、視頻內(nèi)容、壓縮的多媒體數(shù)據(jù)、未壓縮的多媒體數(shù)據(jù)、下載的數(shù)據(jù)、流傳輸?shù)臄?shù)據(jù)、在線數(shù)據(jù)和/或免費(fèi)數(shù)據(jù),并且所識(shí)別的部分可以是音頻剪輯、視頻圖像和/或視頻剪輯。與分析對(duì)應(yīng)的元數(shù)據(jù)也可被生成。就人的對(duì)話而言,所述方面可以是例如正在說(shuō)話的演員的名字和/或正在說(shuō)話的角色的名字。通過(guò)將識(shí)別出的部分(例如語(yǔ)音片段)與語(yǔ)音樣本數(shù)據(jù)庫(kù)614中的語(yǔ)音樣本集進(jìn)行比較來(lái)找到至少一個(gè)最佳匹配樣本,可辨識(shí)所述方面。在步驟610中,所述方面然后·在匹配被找到的情況下被輸出。比較可包括將語(yǔ)音樣本表示為MFC系數(shù)向量或其他特征向量,然后從該表示計(jì)算歐幾里得距離和/或相關(guān)量度,并且輸出至少一個(gè)最佳匹配樣本。許多最佳匹配樣本可按概率次序被列出,其中最佳匹配樣本被定義為基于低歐幾里得距離和/或高相關(guān)量度而具有高辨識(shí)概率的那些樣本。最小差異閾值也可被應(yīng)用來(lái)幫助排除不匹配的樣本。因此,僅基于音頻分析,用戶就可快速且容易地識(shí)別多媒體內(nèi)容中的特定演員或說(shuō)話者或角色??蓪?duì)來(lái)自各種多媒體數(shù)據(jù)源的動(dòng)物的聲音或依地點(diǎn)而定的聲音執(zhí)行類似的分析。例如,紀(jì)錄片、真實(shí)TV表演或海灘假期的假日旅行視頻可各自包括海鷗和撞擊的海浪的可辨識(shí)的聲音。對(duì)于如可能發(fā)生在打斗場(chǎng)景中的喧鬧的、快速的、猛烈的聲音的辨識(shí)或者對(duì)于如可能發(fā)生在浪漫的餐館場(chǎng)景中的安靜然而可辨識(shí)的聲音的辨識(shí)可進(jìn)一步幫助分析場(chǎng)景特性,如之前描述過(guò)的。另外,現(xiàn)參考圖7,增強(qiáng)的實(shí)施例700可具體地將人的對(duì)話作為目標(biāo),并且辨識(shí)多媒體數(shù)據(jù)中的諸如字詞和它們相應(yīng)的時(shí)間戳之類的方面。步驟702中的傳入多媒體數(shù)據(jù)(再一次地,通常是PCM格式的音頻樣本,然而還包括隱藏字幕(closed caption)文本和如前所述的其他數(shù)據(jù))在步驟704中在傳入數(shù)據(jù)尚不是文本形式的情況下被從話音轉(zhuǎn)換到文本。文本流被發(fā)送到web服務(wù)器706用于選擇最有意義的內(nèi)容字詞。幫助索引到傳入文件或流的所選字詞及其相應(yīng)的時(shí)間戳可幫助標(biāo)識(shí)多媒體數(shù)據(jù)中的多媒體信息內(nèi)容從而使得后續(xù)處理更容易。例如,在步驟708,廣告服務(wù)器可找到并輸出與所標(biāo)識(shí)內(nèi)容最佳相關(guān)的廣告 710。增強(qiáng)的實(shí)施例還可以使用辨識(shí)出的方面來(lái)通過(guò)定向搜索找到與所述方面指示有關(guān)的更多多媒體數(shù)據(jù)。更多多媒體數(shù)據(jù)可包括相關(guān)的電影、正上映的電影、電影預(yù)覽、正發(fā)生的事件、所辨識(shí)的演員的檔案、影片集錦、有關(guān)辨識(shí)出的地點(diǎn)的信息和/或場(chǎng)景特性。與所找到的更多多媒體數(shù)據(jù)有關(guān)的商品和服務(wù)廣告也可呈現(xiàn)給用戶。更多多媒體數(shù)據(jù)可按需提供,例如當(dāng)用戶在細(xì)讀多媒體數(shù)據(jù)時(shí)選擇“更多”菜單時(shí)提供或者根據(jù)對(duì)用戶興趣的預(yù)期來(lái)預(yù)先取得,從而用戶可獲得想要細(xì)讀的數(shù)據(jù)而無(wú)需特別地對(duì)其進(jìn)行請(qǐng)求并等待其到達(dá)。
增強(qiáng)的實(shí)施例也可以通過(guò)經(jīng)驗(yàn)來(lái)學(xué)習(xí)。對(duì)辨識(shí)出的方面指示的用戶確認(rèn)可被存儲(chǔ)并用來(lái)通過(guò)合并并選擇性地加強(qiáng)在先辨識(shí)來(lái)改進(jìn)辨識(shí)準(zhǔn)確性。因此,通過(guò)提供更新相應(yīng)數(shù)據(jù)庫(kù)和實(shí)施例的決定引擎的指導(dǎo),一個(gè)用戶可有效地輔助其他用戶。如在此使用的術(shù)語(yǔ)“一”或“一個(gè)”應(yīng)意味著一個(gè)或多于一個(gè)。術(shù)語(yǔ)“多個(gè)”應(yīng)意味著兩個(gè)或多于兩個(gè)。術(shù)語(yǔ)“另一個(gè)”被定義為第二個(gè)或更多個(gè)。數(shù)據(jù)“包含”和/或“具有”是開(kāi)放式的(例如包括)。貫穿此文檔提到的“一個(gè)實(shí)施例”、“某些實(shí)施例”、“實(shí)施例”或類似術(shù)語(yǔ)意味著聯(lián)系實(shí)施例描述的具體特征、結(jié)構(gòu)或特性被包括在至少一個(gè)實(shí)施例中。因此,在此說(shuō)明書(shū)中各處出現(xiàn)的這些短語(yǔ)不一定都是指同一個(gè)實(shí)施例。另外,具體特征、結(jié)構(gòu)或特性可基于一個(gè)或多個(gè)實(shí)施例被以任意合適的 方式組合而不受限制。如在此使用的術(shù)語(yǔ)“或者”應(yīng)被解釋為包含的或者意味著任一個(gè)或任意組合。因此,“A、B或C”意味著“以下中的任一個(gè)A ;B ;C ;A和B ;A和C ;B和C ;A、B和C”。對(duì)此定義的例外將僅在要素、功能、步驟或行為的組合以某種方式固有地互斥時(shí)發(fā)生。根據(jù)計(jì)算機(jī)編程領(lǐng)域的技術(shù)人員的實(shí)踐,以下參考由計(jì)算機(jī)系統(tǒng)或類似電子系統(tǒng)執(zhí)行的操作來(lái)描述實(shí)施例。這些操作有時(shí)被稱作計(jì)算機(jī)運(yùn)行的。應(yīng)理解,符號(hào)化表示的操作包括諸如中央處理單元之類的處理器對(duì)表示存儲(chǔ)器位置處(比如在系統(tǒng)存儲(chǔ)器中)的數(shù)據(jù)比特以及數(shù)據(jù)比特的維護(hù)的電子信號(hào)的操縱以及其他的信號(hào)處理。數(shù)據(jù)比特被維護(hù)的存儲(chǔ)器位置是具有與數(shù)據(jù)比特相對(duì)應(yīng)的具體電、磁、光或有機(jī)屬性的物理位置。當(dāng)以軟件實(shí)現(xiàn)時(shí),實(shí)施例的要素實(shí)質(zhì)上是用于執(zhí)行必要任務(wù)的代碼段。非瞬時(shí)性的代碼段可被存儲(chǔ)在處理器可讀介質(zhì)或計(jì)算機(jī)可讀介質(zhì)中,其可包括能存儲(chǔ)或傳送信息的任意介質(zhì)。這樣的介質(zhì)的示例包括電子電路、半導(dǎo)體存儲(chǔ)器件、只讀存儲(chǔ)器(ROM)、閃存或其他非易失性存儲(chǔ)器、軟盤、CD-ROM、光盤、硬盤、光纖介質(zhì)、射頻(RF)鏈路等等。用戶輸入可包括鍵盤、鼠標(biāo)、觸摸屏、語(yǔ)音命令輸入等的任意組合。用戶輸入可類似地被用于將在用戶計(jì)算設(shè)備上運(yùn)行的瀏覽器應(yīng)用引至一個(gè)或多個(gè)從其可訪問(wèn)計(jì)算資源的網(wǎng)絡(luò)資源,比如web頁(yè)面。雖然聯(lián)系具體示例和各種實(shí)施例描述了本發(fā)明,但是本領(lǐng)域技術(shù)人員應(yīng)該容易理解,這里描述的發(fā)明的許多修正和修改是可能的而不會(huì)背離如在權(quán)利要求書(shū)中主張的本發(fā)明的精神和范圍。因此,要清楚理解,僅作為示例而非作為對(duì)在權(quán)利要求書(shū)中主張的本發(fā)明的范圍的限制而做出本申請(qǐng)。描述意欲覆蓋本發(fā)明的任意變體、使用或修改,本發(fā)明一般地遵循本發(fā)明的原理并且包括從本公開(kāi)的出發(fā)的落入本領(lǐng)域中本發(fā)明所涉及的已知和習(xí)慣實(shí)踐范圍內(nèi)的變更。相關(guān)申請(qǐng)的交叉引用本申請(qǐng)與以下三個(gè)其他申請(qǐng)相關(guān),代理人案號(hào)為SI 162. 1100US-1的題為“視頻鏡頭媒體引擎”的申請(qǐng)、代理人案號(hào)為S1162. 1100US-2的題為“可修改的視頻鏡頭媒體引擎”的申請(qǐng)以及代理人案號(hào)為S1162. 1100US-3的題為“用于特征選擇的視頻鏡頭媒體系統(tǒng)”的申請(qǐng),這三個(gè)申請(qǐng)中的每個(gè)申請(qǐng)的全部?jī)?nèi)容都通過(guò)引用被結(jié)合于此。
權(quán)利要求
1.一種用于自動(dòng)分析多媒體數(shù)據(jù)的方法,包括 接收多媒體數(shù)據(jù); 識(shí)別具有目標(biāo)音頻內(nèi)容特征的至少一個(gè)多媒體數(shù)據(jù)部分; 辨識(shí)所識(shí)別特征的至少一個(gè)方面;以及 響應(yīng)性地輸出對(duì)所述方面的指示。
2.根據(jù)權(quán)利要求I所述的方法,其中所述分析實(shí)時(shí)地發(fā)生,由資源受限消費(fèi)類應(yīng)用來(lái)執(zhí)行,并對(duì)包括采樣的音頻幀的RMS功率和非線性梅爾測(cè)度頻率上的短期MFC功率譜表示中的至少一個(gè)的音頻特征進(jìn)行操作。
3.根據(jù)權(quán)利要求I所述的方法,其中所述多媒體數(shù)據(jù)包括音頻內(nèi)容、視頻內(nèi)容、壓縮的多媒體數(shù)據(jù)、未壓縮的多媒體數(shù)據(jù)、下載的數(shù)據(jù)、流傳輸?shù)臄?shù)據(jù)、在線數(shù)據(jù)和免費(fèi)數(shù)據(jù)中的至少一個(gè),并且其中所識(shí)別部分是音頻剪輯、視頻圖像和視頻剪輯中的至少一個(gè)。
4.根據(jù)權(quán)利要求I所述的方法,還包括生成與所述分析相對(duì)應(yīng)的元數(shù)據(jù)。
5.根據(jù)權(quán)利要求I所述的方法,其中所述目標(biāo)音頻內(nèi)容特征是人的對(duì)話、笑聲、動(dòng)物的聲音和依地點(diǎn)而定的聲音中的至少一個(gè)。
6.根據(jù)權(quán)利要求I所述的方法,其中所述目標(biāo)音頻內(nèi)容特征是人的對(duì)話并且所述方面是正在說(shuō)話的演員的名字和正在說(shuō)話的角色的名字中的至少一個(gè), 其中,所述方法還包括通過(guò)以下步驟來(lái)辨識(shí)所述方面 將所識(shí)別部分與語(yǔ)音樣本集進(jìn)行比較來(lái)找出至少一個(gè)最佳匹配樣本;以及 輸出說(shuō)話者姓名和角色姓名中的至少一個(gè)。
7.根據(jù)權(quán)利要求6所述的方法,其中所述比較步驟包括 將語(yǔ)音樣本表不為MFC系數(shù)向量和特征向量中的一個(gè); 從所述表示計(jì)算歐幾里得距離和相關(guān)量度中的至少一個(gè);以及 按概率的次序輸出至少一個(gè)最佳匹配樣本,該最佳匹配樣本具有低歐幾里得距離和高相關(guān)量度中的至少一個(gè), 其中,所述方法還包括應(yīng)用最小差異閾值來(lái)排除不匹配樣本。
8.根據(jù)權(quán)利要求I所述的方法,其中所述目標(biāo)音頻內(nèi)容特征是人的對(duì)話并且所述方面包括字詞和相應(yīng)的時(shí)間戳, 其中,所述方法還包括通過(guò)以下步驟來(lái)辨識(shí)所述方面 在所述字詞不是文本形式的情況下選擇性地將話音轉(zhuǎn)換為文本; 選擇最有意義的內(nèi)容字詞;以及 輸出所選字詞和相應(yīng)的時(shí)間戳。
9.根據(jù)權(quán)利要求I所述的方法,還包括 通過(guò)定向搜索找到與所述指示有關(guān)的更多多媒體數(shù)據(jù); 存儲(chǔ)對(duì)所述指示的用戶確認(rèn);以及 通過(guò)合并在先辨識(shí)來(lái)改進(jìn)辨識(shí)準(zhǔn)確性, 其中,所述更多多媒體數(shù)據(jù)按照對(duì)用戶興趣的預(yù)期被預(yù)先取得,并且其中,所述更多多媒體數(shù)據(jù)包括相關(guān)電影、正上映的電影、電影預(yù)覽、正發(fā)生的事件、檔案、影片集錦、相關(guān)廣告、有關(guān)辨識(shí)出的地點(diǎn)的信息和場(chǎng)景特性中的至少一個(gè)。
10.一種用于自動(dòng)分析多媒體數(shù)據(jù)的系統(tǒng),包括用于接收多媒體數(shù)據(jù)的裝置;用于識(shí)別具有目標(biāo)音頻內(nèi)容特征的至少一個(gè)多媒體數(shù)據(jù)部分的裝置;用于辨識(shí)所識(shí)別特征的至少一個(gè)方面的裝置;以及用于響應(yīng)性地輸出對(duì)所述方面的指示的裝置?!?br>
全文摘要
本發(fā)明公開(kāi)了用于音頻辨識(shí)的擴(kuò)展的視頻鏡頭媒體引擎。用于自動(dòng)分析多媒體數(shù)據(jù)的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品被公開(kāi)。實(shí)施例接收多媒體數(shù)據(jù);檢測(cè)具有指定的音頻特征的部分;并且輸出多媒體數(shù)據(jù)的相應(yīng)子集和生成的元數(shù)據(jù)。包括下載的或流傳輸?shù)碾娪爸械恼Z(yǔ)音、非語(yǔ)音的聲音和隱藏字幕在內(nèi)的音頻內(nèi)容特征像人們可能做的那樣被識(shí)別,然而實(shí)質(zhì)上是實(shí)時(shí)的。特定說(shuō)話者、最有意義的內(nèi)容聲音以及字詞和相應(yīng)的時(shí)間戳經(jīng)由數(shù)據(jù)庫(kù)比較被辨識(shí),并且可按照匹配概率的次序被呈現(xiàn)。實(shí)施例響應(yīng)性地預(yù)先取得相關(guān)數(shù)據(jù)、辨識(shí)地點(diǎn)并且提供相關(guān)廣告。內(nèi)容特征也可被發(fā)送給搜索引擎從而進(jìn)一步的相關(guān)內(nèi)容可被識(shí)別。用戶反饋和確認(rèn)可隨時(shí)間過(guò)去而改進(jìn)實(shí)施例。
文檔編號(hào)G06F17/30GK102915320SQ20121020600
公開(kāi)日2013年2月6日 申請(qǐng)日期2012年6月14日 優(yōu)先權(quán)日2011年6月28日
發(fā)明者普里彥·甘塔堤雷克, 董·恩古因, 阿布希舍克·帕提爾, 迪鵬杜·薩哈 申請(qǐng)人:索尼公司