專利名稱:信息處理設(shè)備、信息處理方法和程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理設(shè)備、信息處理方法和程序,并且特別涉及例如能夠容易地向內(nèi)容附加注釋并且能夠提供利用注釋的應(yīng)用的信息處理設(shè)備、信息處理方法和程序。
背景技術(shù):
存在顯示內(nèi)容的概要的方法作為用戶用來識別包括廣播節(jié)目等的圖像的內(nèi)容的總結(jié)的方法(例如,專利文獻(xiàn)1、2和3)。引用列表專利文獻(xiàn)專利文獻(xiàn)1:日本專利申請公開第2007-163568號專利文獻(xiàn)2 :日本專利申請公開第2008-175994號專利文獻(xiàn)3 :日本專利申請公開第2010-093461號
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題作為用戶用來識別內(nèi)容的總結(jié)的方法,除了顯示內(nèi)容的概要的方法之外,存在向內(nèi)容附加注釋的方法。現(xiàn)在,需要提出容易地向內(nèi)容附加注釋的技術(shù)。考慮到這樣的情形而實(shí)現(xiàn)了本發(fā)明,并且其目標(biāo)是容易地向內(nèi)容附加注釋并且提供利用了注釋的應(yīng)用。針對問題的方案根據(jù)本發(fā)明的一個方面的信息處理設(shè)備或程序是如下信息處理設(shè)備或者允許計算機(jī)用作該信息處理設(shè)備的程序,該信息處理設(shè)備包括學(xué)習(xí)部件,其用于提取學(xué)習(xí)內(nèi)容的圖像的每個幀的圖像特征量,并且提取與描述了學(xué)習(xí)內(nèi)容的圖像的內(nèi)容的描述文本中每個詞的出現(xiàn)頻率有關(guān)的詞頻信息作為描述文本的文本特征量,并且通過使用用于注釋的注釋序列來學(xué)習(xí)作為多流HMM (隱馬爾可夫模型)注釋模型,所述注釋序列是包括圖像特征量和文本特征量的多流;以及瀏覽控制部件,其用于通過使用注釋模型,從將要根據(jù)其來提取作為具有一個或更多個時間連續(xù)幀的組的場景的目標(biāo)內(nèi)容中提取場景,并且顯示場景的代表性圖像以便于按時間順序來布置。根據(jù)本發(fā)明的一個方面的信息處理方法是將由信息處理設(shè)備來執(zhí)行的信息處理方法,其包括以下步驟提取學(xué)習(xí)內(nèi)容的圖像的每個幀的圖像特征量,并且提取與描述文本中每個詞的出現(xiàn)頻率有關(guān)的詞頻信息作為描述文本的文本特征量,所述描述文本描述了學(xué)習(xí)內(nèi)容的圖像的內(nèi)容;通過使用用于注釋的注釋序列來學(xué)習(xí)作為多流HMM (隱馬爾可夫模型)的注釋模型,所述注釋序列是包括圖像特征量和文本特征量的多流;通過使用注釋模型,從將要根據(jù)其來提取場景的目標(biāo)內(nèi)容中提取場景,所述場景是具有一個或更多個時間連續(xù)幀的組,并且顯示場景的代表性圖像以便于按時間順序來布置。
在如上所述的本發(fā)明的一個方面中,提取學(xué)習(xí)內(nèi)容的圖像的每個幀的圖像特征量,并且提取與描述文本中每個詞的出現(xiàn)頻率有關(guān)的詞頻信息作為描述文本的文本特征量,所述描述文本描述了學(xué)習(xí)內(nèi)容的圖像的內(nèi)容;通過使用用于注釋的注釋序列來學(xué)習(xí)作為多流HMM (隱馬爾可夫模型)的注釋模型,所述注釋序列是包括圖像特征量和文本特征量的多流。隨后,通過使用注釋模型,從將要根據(jù)其來提取場景的目標(biāo)內(nèi)容中提取場景,所述場景是具有一個或更多個時間連續(xù)幀的組;并且顯示場景的代表性圖像以便于按時間順序來布置。同時,信息處理設(shè)備可以是獨(dú)立的設(shè)備或者可以是構(gòu)成一個設(shè)備的內(nèi)部塊。而且,可以通過經(jīng)由傳輸介質(zhì)來傳輸或者提供記錄在記錄介質(zhì)中來提供程序。本發(fā)明的效果根據(jù)本發(fā)明的一個方面,有可能容易地向內(nèi)容附加注釋并且提供利用注釋的應(yīng)用。
圖1是圖示了應(yīng)用了本發(fā)明的信息處理設(shè)備的記錄器的一個實(shí)施例的配置示例的框圖。圖2是圖示了學(xué)習(xí)設(shè)備12的框圖。圖3是圖示了特征量提取單元21的第一配置示例的框圖。圖4是圖示了字幕CSV數(shù)據(jù)和中間數(shù)據(jù)的示例的視圖。圖5是圖示了將中間數(shù)據(jù)轉(zhuǎn)換為頻率數(shù)據(jù)的方法的視圖。圖6是圖示了文本特征量的示例的視圖。圖7是圖示了學(xué)習(xí)設(shè)備12學(xué)習(xí)注釋模型的學(xué)習(xí)處理的流程圖。圖8是圖示了注釋附加設(shè)備14的配置示例的框圖。圖9是圖示了注釋附加設(shè)備14將注釋附加到目標(biāo)內(nèi)容的注釋附加處理的流程圖。圖10是圖示了幀搜索設(shè)備15的配置示例的框圖。圖11是圖示了幀搜索設(shè)備15從目標(biāo)內(nèi)容中搜索關(guān)鍵詞幀以生成關(guān)鍵詞摘要的幀搜索處理的流程圖。圖12是圖示了針對關(guān)鍵詞KW#1、KW#2、KW#3和KW#4中的每個獲取的目標(biāo)內(nèi)容的每個幀的關(guān)鍵詞符合度的示例的視圖。圖13是圖示了作為AND搜索式的運(yùn)算的數(shù)字min運(yùn)算的視圖。圖14是圖示了作為OR搜索式的運(yùn)算的數(shù)字max運(yùn)算的視圖。圖15是圖示了顯示控制設(shè)備16的配置示例的框圖。圖16是圖示了由顯示控制器63繪制的模型映射的數(shù)量的視圖。圖17是圖示了通過使用校正的誤差函數(shù)E來獲取的模型映射的顯示示例的視圖。圖18是圖示了由顯示控制器63顯示的、其上布置有代表性圖像和注釋的模型映射的顯示示例的視圖。圖19是模型映射的部分放大的視圖。圖20是圖示了顯示控制設(shè)備16顯示模型映射的顯示控制處理的流程圖。圖21是圖示了特征量提取單元21的第二配置示例的框圖。
圖22是圖示了特征量提取單元21的第三配置示例的框圖。圖23是圖示了對LDA的學(xué)習(xí)的視圖,在對LDA的學(xué)習(xí)中,基礎(chǔ)空間學(xué)習(xí)單元161獲取LDA的參數(shù)作為用于文本的基礎(chǔ)空間的基礎(chǔ)空間數(shù)據(jù)。圖24是圖示了通過使用用于文本的基礎(chǔ)空間的基礎(chǔ)空間數(shù)據(jù)來由降維單元163執(zhí)行的文本特征量的降維的視圖。圖25是圖示了注釋附加設(shè)備14的特征量提取單元41的配置示例的框圖。圖26是圖示了注釋附加設(shè)備14的注釋附加處理的流程圖。圖27是圖示了搜索設(shè)備15的幀搜索處理的流程圖。圖28是圖示了顯示控制設(shè)備16對模型映射的顯示控制處理的流程圖。圖29是圖示了針對每個潛在主題來顯示附加到目標(biāo)內(nèi)容的注釋的顯示示例的視圖。圖30是圖示了顯示控制設(shè)備16對主題列表的顯示控制處理的流程圖。圖31是圖示了使用主題列表的注釋的顯示格式的示例的視圖。圖32是圖示了使用模型映射的注釋的顯示格式的示例的視圖。圖33是圖示了特征量提取單元21的第四配置示例的框圖。圖34是圖示了注釋附加設(shè)備14的特征量提取單元41的配置示例的框圖。圖35是圖示了應(yīng)用了本發(fā)明的信息處理設(shè)備的記錄器的另一實(shí)施例的配置示例的框圖。圖36是圖示了瀏覽記錄器對注釋模型的學(xué)習(xí)的概要的視圖。圖37是圖示了通過由瀏覽記錄器使用注釋模型來從目標(biāo)內(nèi)容中提取場景的概要的視圖。圖38是圖示了顯示控制的概要的視圖,在顯示控制中,瀏覽記錄器顯示場景的代表性圖像以便按顯示時刻的順序來布置。圖39是圖示了其中顯示了時間順序概要顯示圖像的顯示控制的概要的視圖,在時間順序概要顯示圖像中,按顯示時刻的順序來布置僅僅角(場景)的代表性圖像,角的內(nèi)容是由用戶輸入的關(guān)鍵詞來代表的。圖40是圖示了瀏覽控制設(shè)備314的配置示例的框圖。圖41是圖示了由瀏覽記錄器執(zhí)行的設(shè)定成立的流程圖。圖42是圖示了由瀏覽記錄器執(zhí)行的內(nèi)容獲取相關(guān)處理的流程圖。圖43是圖示了通過瀏覽控制設(shè)備314使用注釋模型來執(zhí)行的處理(瀏覽控制處理)的流程圖。圖44是圖示了當(dāng)用戶輸入關(guān)鍵詞時由瀏覽控制設(shè)備314執(zhí)行的處理的流程圖。圖45是圖示了應(yīng)用了本發(fā)明的計算機(jī)的一個實(shí)施例的配置示例的框圖。
具體實(shí)施例方式<第一實(shí)施例>[應(yīng)用了本發(fā)明的信息處理設(shè)備的記錄器的一個實(shí)施例]圖1是圖示了應(yīng)用了本發(fā)明的信息處理設(shè)備的記錄器的一個實(shí)施例的配置示例的框圖。
圖1中的記錄器是HD (硬盤)記錄器等,例如,其可以記錄(存儲)各種內(nèi)容,諸如電視廣播、通過諸如因特網(wǎng)的網(wǎng)絡(luò)提供的內(nèi)容、以及由攝像機(jī)等拍攝的內(nèi)容。就是說,在圖1中,記錄器包括內(nèi)容存儲單元11、學(xué)習(xí)設(shè)備12、注釋模型存儲單元
13、注釋附加設(shè)備14、幀搜索設(shè)備15和顯示控制設(shè)備16。同時,內(nèi)容存儲單元11、學(xué)習(xí)設(shè)備12、注釋模型存儲單元13、注釋附加設(shè)備14、幀搜索設(shè)備15和顯控制設(shè)備16可以構(gòu)成一個設(shè)備(殼體)或者多個設(shè)備。就是說,例如,有可能將內(nèi)容存儲單元U、學(xué)習(xí)設(shè)備12和注釋模型存儲單元13構(gòu)成為一個設(shè)備,諸如家庭網(wǎng)絡(luò)上的服務(wù)器或者因特網(wǎng)上的服務(wù)器,并且將注釋附加設(shè)備14、幀搜索設(shè)備15和顯示控制設(shè)備16中的每個構(gòu)成為另一設(shè)備,諸如客戶端。例如,內(nèi)容存儲單元11存儲(記錄)包括圖像的內(nèi)容,諸如電視節(jié)目。例如,在內(nèi)容存儲單元11中存儲內(nèi)容就是記錄內(nèi)容,并且根據(jù)用戶的操作來再現(xiàn)所記錄的內(nèi)容(存儲在內(nèi)容存儲單元11中的內(nèi)容)。同時,除此之外,由攝像機(jī)等拍攝的內(nèi)容、從網(wǎng)絡(luò)服務(wù)器下載的內(nèi)容等也可以存儲在內(nèi)容存儲單元11中。例如,學(xué)習(xí)設(shè)備12以自組織的方式來組織存儲在內(nèi)容存儲單元11中的內(nèi)容,并且執(zhí)行學(xué)習(xí)(統(tǒng)計學(xué)習(xí))以獲取代表了內(nèi)容結(jié)構(gòu)(時間空間結(jié)構(gòu))的模型。就是說,學(xué)習(xí)設(shè)備12從存儲在內(nèi)容存儲單元11中的內(nèi)容當(dāng)中選擇可以獲取其描述文本的內(nèi)容作為用于稍后將描述的學(xué)習(xí)注釋模型的學(xué)習(xí)內(nèi)容,其中描述文本描述了該內(nèi)容的圖像的內(nèi)容。此外,學(xué)習(xí)設(shè)備12提取學(xué)習(xí)內(nèi)容的圖像的每個幀的圖像特征量,并且提取與描述了學(xué)習(xí)內(nèi)容的圖像的內(nèi)容的描述文本中每個詞的出現(xiàn)頻率有關(guān)的詞頻信息作為描述文本的文本特征量。隨后,學(xué)習(xí)設(shè)備12通過使用作為用于注釋的注釋序列來學(xué)習(xí)作為多流HMM (隱馬爾可夫模型)的注釋模型,并且將所學(xué)習(xí)的注釋模型提供給注釋模型存儲單元13,其中注釋序列是包括從學(xué)習(xí)內(nèi)容提取的圖像特征量和文本特征量的多流。注釋模型存儲單元13存儲從學(xué)習(xí)設(shè)備12提供的注釋模型。注釋附加設(shè)備14通過使用注釋模型存儲單元13中存儲的注釋模型,將注釋附加到存儲在內(nèi)容存儲單元11中的內(nèi)容當(dāng)中要附加注釋的目標(biāo)內(nèi)容。幀搜索設(shè)備15通過使用注釋模型存儲單元13中存儲的注釋模型,從存儲在內(nèi)容存儲單元11中的內(nèi)容當(dāng)中的、將從中搜索到關(guān)鍵詞幀的目標(biāo)內(nèi)容中搜索關(guān)鍵詞幀,其中關(guān)鍵詞幀是其內(nèi)容與預(yù)定關(guān)鍵詞相符合的幀。顯示控制設(shè)備16通過使用注釋模型存儲單元13中存儲的注釋模型來執(zhí)行顯示控制,以顯示要附加到存儲在內(nèi)容存儲單元11中的內(nèi)容當(dāng)中要附加注釋的目標(biāo)內(nèi)容的幀的注釋。同時,此處存儲在內(nèi)容存儲單元11中的內(nèi)容的數(shù)據(jù)包括圖像、音頻和所需要的字幕的文本的數(shù)據(jù)(流)。然而,僅僅需要的是學(xué)習(xí)內(nèi)容是至少包括圖像并且其描述文本(諸如字幕的文本)可以通過特定方法獲取的內(nèi)容,并且需要的是將由注釋附加設(shè)備14、幀搜索設(shè)備15和顯示控制設(shè)備16處理的目標(biāo)內(nèi)容是至少包括圖像的內(nèi)容。
學(xué)習(xí)內(nèi)容和目標(biāo)內(nèi)容也可以是不包括圖像但是包括音頻的內(nèi)容。[學(xué)習(xí)設(shè)備12的配置示例]圖2是圖示了圖1中的學(xué)習(xí)設(shè)備12的配置示例的框圖。學(xué)習(xí)設(shè)備12包括特征量提取單元21和模型學(xué)習(xí)單元22。特征量提取單元21從存儲在內(nèi)容存儲單元11中的內(nèi)容當(dāng)中選擇要與學(xué)習(xí)注釋的內(nèi)容作為學(xué)習(xí)內(nèi)容,并且從內(nèi)容存儲單元11中將其獲取(讀取)。此處,例如,特征量提取單元21從存儲在內(nèi)容存儲單元11中的內(nèi)容當(dāng)中選擇可以獲取其描述了內(nèi)容的圖像的內(nèi)容的描述文本的內(nèi)容(諸如包括字幕的文本的內(nèi)容)作為學(xué)習(xí)內(nèi)容。在內(nèi)容中包括的字幕的文本之外,可以采用由用來在廣播節(jié)目結(jié)束后發(fā)布元數(shù)據(jù)(諸如廣播開始時刻、廣播結(jié)束時刻、表演者、以及針對廣播節(jié)目的每個角的角的內(nèi)容的概要)的付費(fèi)服務(wù)(以下,也稱為節(jié)目元數(shù)據(jù)服務(wù))的服務(wù)提供者提供的元數(shù)據(jù)、由用戶通過鍵盤的操作等來輸入的描述了內(nèi)容等的文本等作為描述文本。而且,例如,特征量提取單元21選擇屬于預(yù)定分類的一條或更多條內(nèi)容作為用于學(xué)習(xí)一個注釋模型的學(xué)習(xí)內(nèi)容。例如,屬于預(yù)定分類的內(nèi)容旨在意味著具有潛在于內(nèi)容中的共同內(nèi)容結(jié)構(gòu)的內(nèi)容,諸如相同類別的節(jié)目、系列、以及每周、每天或者定期廣播的節(jié)目(所謂的具有相同標(biāo)題的節(jié)目的系列)。作為成為分類的類別,盡管可以采用例如諸如運(yùn)動節(jié)目、新聞節(jié)目和音樂節(jié)目的所謂類別劃分,但是想要的是如足球比賽節(jié)目和籃球比賽節(jié)目的所謂精細(xì)劃分。而且,例如,足球比賽節(jié)目可以根據(jù)頻道(廣播站)劃分為屬于不同分類的內(nèi)容。同時,例如,預(yù)先在圖1中的記錄器中設(shè)定要采用作為內(nèi)容的分類的分類。而且,例如,存儲在內(nèi)容存儲單元11中的內(nèi)容的分類可以通過元數(shù)據(jù)來識別,諸如與節(jié)目一起經(jīng)由電視廣播發(fā)送的節(jié)目的標(biāo)題和類別以及由因特網(wǎng)上的站點(diǎn)提供的節(jié)目的格式等。此處,學(xué)習(xí)設(shè)備11學(xué)習(xí)用于每個分類的注釋模型。圖1中的注釋附加設(shè)備14、幀搜索設(shè)備15和顯示控制設(shè)備16也通過使用具有與目標(biāo)內(nèi)容的分類相同的分類的注釋模型來處理目標(biāo)內(nèi)容。然而,以下適當(dāng)?shù)厥÷粤藢Ψ诸惖拿枋?。特征量提取單?1提取來自內(nèi)容存儲單元11的學(xué)習(xí)內(nèi)容中包括的圖像的每個幀的特征量,并且將其提供給模型學(xué)習(xí)單元22。此處,例如,特征量提取單元21依次將學(xué)習(xí)內(nèi)容的幀設(shè)定為所關(guān)注的幀,并且將所關(guān)注的幀劃分成作為多個小區(qū)域的子區(qū)域。此外,例如,特征量提取單元21提取每個子區(qū)域的字區(qū)域特征量,并且其分量是所關(guān)注的幀的子區(qū)域特征量的向量提供給模型學(xué)習(xí)單元22作為所關(guān)注的幀的圖像特征量。作為子區(qū)域特征量,通過使用子區(qū)域的像素值(例如,RGB分量、YUV分量等)來獲取子區(qū)域的全局特征量。此處,子區(qū)域的全局特征量旨在意味著作為例如通過僅僅使用像素值而不使用構(gòu)成子區(qū)域的像素的位置的信息來以附加方式計算的直方圖的特征量。
例如,可以采用稱為GIST的特征量來作為全局特征量。例如,在A. Torralba、K.Freeman 和 Μ·Rubin 的“Context-based vision system for place and objectrecognition” (IEEE 國際大會,Computer Vision,第 I 卷,第 I 號,273-280 頁,2003 年)中詳細(xì)描述了 GIST。同時,全局特征量不限于GIST。就是說,僅需要全局特征量是對于視覺中的局部改變(諸如位置、亮度和視點(diǎn))魯棒的特征量(使得吸收該改變)。這樣的特征量包括例如HLCA(高階局部自動相關(guān)性)、LBP (局部二值模式)、顏色直方圖等。例如,在 N. Otsu、T. Kurita 的 “A new scheme for practical flexible andintelligent vision systems” (Proc.1APR Workshop on Computer Vision,431-435頁,1988 年)中詳細(xì)描述了 HLCA。例如,在 Ojala T.、Pietikainen Μ.和 Maenpaa Τ.的“Multiresolution gray-scale and rotation invariant texture classification withLocal Binary Patterns,,(IEEE Transactions on Pattern Analysis and MachineIntelligence24 (7) :971-987) (Pietikainen 和 Maenpaa 中的“a”準(zhǔn)確地說是“a 的變音”)中詳細(xì)描述了 LBP。
作為其分量是子區(qū)域特征量的向量的上述圖像特征量是對于局部改變(在子區(qū)域中出現(xiàn)的改變)魯棒但是對于作為整個幀的模式的布置中的改變有辨別力(具有敏銳地辨別改變的屬性)的特征量。根據(jù)這樣的圖像特征量,可以適當(dāng)?shù)嘏袛鄨鼍?內(nèi)容)之間的相似度。例如,在“海岸”的場景中,“天空”在幀的上側(cè),“?!痹谄渲醒耄吧碁痹谄聊坏南聜?cè)即可,并且人在“沙灘”中的位置和云在“天空”中的位置等于場景是否是“海岸”場景沒有關(guān)系。根據(jù)這樣的觀點(diǎn),作為其分量是子區(qū)域特征量的向量的圖像特征量適于判斷場景之間的相似度(劃分場景),并且以下也被適當(dāng)?shù)胤Q為場景特征量。在提取來自內(nèi)容存儲單元11的學(xué)習(xí)內(nèi)容中包括的圖像的每個幀的圖像特征量(場景特征量)之外,圖像特征量提取單元21提取與學(xué)習(xí)內(nèi)容的描述文本中的每個詞的出現(xiàn)頻率有關(guān)的詞頻信息作為描述文本的文本特征量,并且將其提供給模型學(xué)習(xí)單元22。同時,當(dāng)字幕的文本包括在學(xué)習(xí)內(nèi)容中時,特征量提取單元21采用字幕的文本作為描述文本。例如,當(dāng)從外部輸入了描述文本時,就是說,當(dāng)從節(jié)目元數(shù)據(jù)服務(wù)的服務(wù)提供者提供了節(jié)目的元數(shù)據(jù)時或者當(dāng)由用戶通過操作鍵盤輸入了描述了學(xué)習(xí)內(nèi)容的文本等時,特征量提取單元21可以采用來自服務(wù)提供者的元數(shù)據(jù)和來自用戶的文本作為描述文本。在此之外,特征量提取單元21可以執(zhí)行對學(xué)習(xí)內(nèi)容中包括的音頻的語音識別,并且采用作為語音識別的結(jié)果的文本作為描述文本。以下,采用內(nèi)容中包括的字幕的文本作為描述文本,以便簡化描述。模型學(xué)習(xí)單元22將包括從特征量提取單元21提供的學(xué)習(xí)內(nèi)容的圖像特征量和文本特征量的多流制成用于將注釋附加到內(nèi)容的、用于注釋的注釋序列,并且通過使用注釋序列來學(xué)習(xí)作為多流HMM的注釋模型。隨后,模型學(xué)習(xí)單元22將所學(xué)習(xí)的注釋模型提供給注釋模型存儲單元13用于存儲。此處,HMM由首先位于狀態(tài)Si中的初始概率i,從狀態(tài)Si轉(zhuǎn)移到狀態(tài)Sj的狀態(tài)轉(zhuǎn)移的狀態(tài)轉(zhuǎn)移概率au、以及從狀態(tài)Si觀察到預(yù)定觀察值ο的輸出概率分布匕(O)來定義。盡管在觀察值O是尚散值時使用成為概率的尚散值(的分布)作為輸出概率分布bjo)(多項(xiàng)分布),但是當(dāng)觀察值O是連續(xù)值時使用概率分布函數(shù)。例如,可以采用由平均值(平均向量)和方差(協(xié)方差矩陣)等定義的高斯分布作為概率分布函數(shù)。例如,有可能通過作為基于EM (期望最大)算法的參數(shù)估計方法的Baum-Welch重估方法來學(xué)習(xí)HMM。同時,在采用遍歷HMM (在狀態(tài)轉(zhuǎn)移中沒有限制的HMM)作為注釋模型的情況下,當(dāng)HMM的狀態(tài)的數(shù)目大時,可能出到局部最小的收斂,使得無法根據(jù)HMM的參數(shù)的初始值(初始概率n1、狀態(tài)轉(zhuǎn)移概率au和輸出概率分布匕(ο))來獲取適當(dāng)?shù)膮?shù)。因此,采用假設(shè)“大多數(shù)自然現(xiàn)象、創(chuàng)建視頻內(nèi)容的照相技巧和節(jié)目構(gòu)成可以由諸如小世界網(wǎng)絡(luò)的稀疏結(jié)合來代表”,并且采用其狀態(tài)轉(zhuǎn)移被限于稀疏結(jié)構(gòu)的HMM作為注釋模型。此處,稀疏結(jié)構(gòu)是其中來自特定狀態(tài)的狀態(tài)轉(zhuǎn)移有可能轉(zhuǎn)移到的狀態(tài)是非常有限的(狀態(tài)轉(zhuǎn)移是稀疏的)結(jié)構(gòu),不像其中狀態(tài)轉(zhuǎn)移稠密使得狀態(tài)轉(zhuǎn)移有可能從特定狀態(tài)到任意狀態(tài)的遍歷HMM。同時,此處,存在到另一狀態(tài)的至少一個狀態(tài)轉(zhuǎn)移,并且即使在稀疏結(jié)構(gòu)中也存在自轉(zhuǎn)移。如上所述,例如,模型學(xué)習(xí)單元22通過使用作為包括從特征量提取單元21提供的學(xué)習(xí)內(nèi)容的圖像特征量和文本特征量的多流的注釋序列,通過Baum-Welch重估方法來學(xué)習(xí)作為多流HMM的注釋模型。在多流HMM中觀察到作為觀察值的多個序列(流)的多流。隨后,在多流HMM中,有可能針對構(gòu)成多流的每個序列(流)(以下也稱為分量序列)設(shè)定作為該分量序列對多流HMM的影響程度的權(quán)重(以下也稱為序列權(quán)重)。對于序列權(quán)重,通過在學(xué)習(xí)多流HMM時針對被認(rèn)為是重要的分量序列設(shè)定大的權(quán)重,有可能提供先驗(yàn)知識,使得對多流HMM的學(xué)習(xí)結(jié)果不落入局部解中。而且,通過在通過使用多流HMM來進(jìn)行識別時(當(dāng)獲取最大似然狀態(tài)序列時)針對不被認(rèn)為是重要的分量序列設(shè)定小的序列權(quán)重,有可能獲取(基本上)不受分量序列的影響的識別結(jié)果。同時,例如,在田村哲嗣、巖野公司、古井貞熙的“Multimodal speechrecognition using optical-flow analysis,,(Acoustical Societyof Japan, Annals ofAutumn Meeting2001, 1-1-14,27-28 頁(2001 年 10 月))等中詳細(xì)描述了多流 HMM。在上述文獻(xiàn)中,介紹了在音頻視頻語音識別領(lǐng)域中使用多流HMM的示例。就是說,描述了當(dāng)音頻的SN比(信噪比)低時,使針對音頻特征量的序列的序列權(quán)重低,使得圖像的影響變得大于音頻的影響以執(zhí)行學(xué)習(xí)和識別。多流HMM與其中使用不是多流的單序列的HMM的區(qū)別在于,考慮針對構(gòu)成多流的每個分量序列Om的輸出概率分布b[mh_(0[m])而預(yù)先設(shè)定的序列權(quán)重Wm來計算整個多流的輸出概率分布bj (Of1]、o[2]、......、0M),如式(I)所不。[式I]
權(quán)利要求
1.一種信息處理設(shè)備,其包括 學(xué)習(xí)部件,其用于 提取學(xué)習(xí)內(nèi)容的圖像的每個幀的圖像特征量,并且提取與描述文本中每個詞的出現(xiàn)頻率有關(guān)的詞頻信息作為描述文本的文本特征量,所述描述文本描述了學(xué)習(xí)內(nèi)容的圖像的內(nèi)容,并且 通過使用用于注釋的注釋序列來學(xué)習(xí)作為多流隱馬爾可夫模型HMM的注釋模型,所述注釋序列是包括圖像特征量和文本特征量的多流;以及瀏覽控制部件,其用于 通過使用注釋模型,從將要根據(jù)其來提取場景的目標(biāo)內(nèi)容中提取場景,所述場景是具有一個或更多個時間連續(xù)幀的組,并且 顯示場景的代表性圖像以便于按時間順序來布置。
2.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,其中 學(xué)習(xí)內(nèi)容包括字幕的文本,并且 描述文本是學(xué)習(xí)內(nèi)容中所包括的字幕的文本。
3.根據(jù)權(quán)利要求2所述的信息處理設(shè)備,其中 所述學(xué)習(xí)部件 在以規(guī)律的間隔來移動預(yù)定時間長度的窗口的同時,提取窗口中顯示的字幕的文本中所包括的詞作為一個文檔,并且 提取代表了文檔中每個詞的出現(xiàn)頻率的多項(xiàng)分布作為文本特征量。
4.根據(jù)權(quán)利要求2所述的信息處理設(shè)備,其中 所述學(xué)習(xí)部件 在以規(guī)律的間隔來移動預(yù)定時間長度的窗口的同時,提取窗口中顯示的字幕的文本中所包括的詞作為一個文檔,并且 提取代表了文檔中每個詞的出現(xiàn)頻率的多項(xiàng)分布作為文本特征量,并且 所述瀏覽控制部件 提取目標(biāo)內(nèi)容的圖像的每個幀的圖像特征量,并且通過使用圖像特征量來構(gòu)成注釋序列, 獲取在注釋模型中觀察到注釋序列的最大似然狀態(tài)序列, 選擇在最大似然狀態(tài)序列的狀態(tài)當(dāng)中的、與所關(guān)注的關(guān)注幀相對應(yīng)的狀態(tài)中所觀察到的多項(xiàng)分布中具有高頻率的詞,作為要附加到關(guān)注幀的注釋, 從目標(biāo)內(nèi)容中提取具有要附加相同注釋的一個或更多個時間連續(xù)幀的組作為場景,并且 顯示場景的代表性圖像以便于按時間順序來布置。
5.根據(jù)權(quán)利要求4所述的信息處理設(shè)備,其中 目標(biāo)內(nèi)容是廣播節(jié)目的內(nèi)容,并且 所述瀏覽控制部件顯示廣播節(jié)目的場景的代表性圖像,以便于按電子節(jié)目指南EPG上的廣播節(jié)目的節(jié)目列表中的時間順序來布置。
6.根據(jù)權(quán)利要求4所述的信息處理設(shè)備,其中 所述瀏覽控制部件還將附加到構(gòu)成場景的幀的注釋與場景的代表性圖像一起顯示。
7.根據(jù)權(quán)利要求2所述的信息處理設(shè)備,其中 所述學(xué)習(xí)部件 在以規(guī)律的間隔來移動預(yù)定時間長度的窗口的同時,提取窗口中顯示的字幕的文本中所包括的詞作為一個文檔,并且 提取代表了文檔中每個詞的出現(xiàn)頻率的多項(xiàng)分布作為文本特征量,并且 所述瀏覽控制部件 提取目標(biāo)內(nèi)容的圖像的每個幀的圖像特征量,并且通過使用圖像特征量來構(gòu)成注釋序列, 獲取在注釋模型中觀察到注釋序列的最大似然狀態(tài)序列, 選擇在最大似然狀態(tài)序列的狀態(tài)當(dāng)中的、與所關(guān)注的關(guān)注幀相對應(yīng)的狀態(tài)中所觀察到的多項(xiàng)分布中的預(yù)定關(guān)鍵詞的頻率聞時的關(guān)注巾貞作為關(guān)鍵詞巾貞,所述關(guān)鍵詞巾貞是其內(nèi)容與預(yù)定關(guān)鍵詞相符合的幀, 從關(guān)鍵詞幀中提取具有一個或更多個時間連續(xù)幀的組作為場景,并且 顯示場景的代表性圖像以便于按時間順序來布置。
8.根據(jù)權(quán)利要求7所述的信息處理設(shè)備,其中 目標(biāo)內(nèi)容是廣播節(jié)目的內(nèi)容,并且 所述瀏覽控制部件顯示廣播節(jié)目的場景的代表性圖像,以便于按電子節(jié)目指南EPG上的廣播節(jié)目的節(jié)目列表中的時間順序來布置。
9.根據(jù)權(quán)利要求2所述的信息處理設(shè)備,其中 所述學(xué)習(xí)部件 執(zhí)行降維以降低圖像特征量和文本特征量的維度,并且 通過使用包括降維之后的圖像特征量和文本特征量的多流作為注釋序列來學(xué)習(xí)注釋模型。
10.根據(jù)權(quán)利要求9所述的信息處理設(shè)備,其中所述學(xué)習(xí)部件 通過使用圖像特征量,獲取用于映射圖像特征量的、其維度低于圖像特征量的維度的用于圖像的基礎(chǔ)空間的基礎(chǔ)空間數(shù)據(jù), 基于用于圖像的基礎(chǔ)空間的基礎(chǔ)空間數(shù)據(jù)來執(zhí)行圖像特征量的降維, 通過使用文本特征量,獲取用于映射文本特征量的、其維度低于文本特征量的維度的用于文本的基礎(chǔ)空間的基礎(chǔ)空間數(shù)據(jù),并且 基于用于文本的基礎(chǔ)空間的基礎(chǔ)空間數(shù)據(jù)來執(zhí)行文本特征量的降維。
11.根據(jù)權(quán)利要求10所述的信息處理設(shè)備,其中 所述學(xué)習(xí)部件 通過使用圖像特征量,獲取用于向量量化的碼書來作為用于圖像的基礎(chǔ)空間的基礎(chǔ)空間數(shù)據(jù),并且 通過使用碼書來執(zhí)行圖像特征量的向量量化,獲取代表了質(zhì)心向量的碼作為降維之后的圖像特征量。
12.根據(jù)權(quán)利要求10所述的信息處理設(shè)備,其中 所述學(xué)習(xí)部件 在以規(guī)律的間隔來移動預(yù)定時間長度的窗口的同時,提取窗口中顯示的字幕的文本中所包括的詞作為一個文檔, 提取文檔中每個詞的出現(xiàn)頻率作為文本特征量, 通過使用從學(xué)習(xí)內(nèi)容中獲取的文檔來學(xué)習(xí)潛在狄利克雷分配LDA,獲取LDA的參數(shù)作為用于文本的基礎(chǔ)空間的基礎(chǔ)空間數(shù)據(jù),并且 通過使用LDA的參數(shù),將從所述文檔中獲取的文本特征量轉(zhuǎn)換為主題似然,以獲取代表了主題似然最大的潛在主題的主題標(biāo)簽作為降維之后的文本特征量,所述主題似然是針對文檔的LDA的每個潛在主題的似然。
13.根據(jù)權(quán)利要求12所述的信息處理設(shè)備,其中 所述學(xué)習(xí)部件 通過使用從學(xué)習(xí)內(nèi)容中獲取的文檔來生成出現(xiàn)在文檔中的詞的詞字典,并且通過使用在對LDA進(jìn)行學(xué)習(xí)而獲取的LDA的每個潛在主題中每個詞在詞字典中的出現(xiàn)概率,創(chuàng)建LDA的潛在主題中具有高的出現(xiàn)頻率的詞和詞的出現(xiàn)頻率的主題對頻繁出現(xiàn)詞表格,并且所述瀏覽控制部件 提取目標(biāo)內(nèi)容的圖像的每個幀的圖像特征量,執(zhí)行降維,并且通過使用降維之后的圖像特征量來構(gòu)成注釋序列, 獲取在注釋模型中觀察到注釋序列的最大似然狀態(tài)序列, 在最大似然狀態(tài)序列的狀態(tài)當(dāng)中的、與所關(guān)注的關(guān)注幀相對應(yīng)的狀態(tài)中,選擇由具有高輸出概率的主題標(biāo)簽所代表的潛在主題作為代表了關(guān)注幀的內(nèi)容的幀主題, 基于主題對頻繁出現(xiàn)詞表格,選擇幀主題中具有高出現(xiàn)頻率的詞作為要附加到關(guān)注幀的注釋, 從目標(biāo)內(nèi)容中提取具有要附加相同注釋的一個或更多個時間連續(xù)幀的組作為場景,并且 顯示場景的代表性圖像以便于按時間順序來布置。
14.根據(jù)權(quán)利要求13所述的信息處理設(shè)備,其中 目標(biāo)內(nèi)容是廣播節(jié)目的內(nèi)容,并且 所述瀏覽控制部件顯示廣播節(jié)目的場景的代表性圖像,以便于按電子節(jié)目指南EPG上的廣播節(jié)目的節(jié)目列表中的時間順序來布置。
15.根據(jù)權(quán)利要求13所述的信息處理設(shè)備,其中 所述瀏覽控制部件還將附加到構(gòu)成場景的幀的注釋與場景的代表性圖像一起顯示。
16.根據(jù)權(quán)利要求12所述的信息處理設(shè)備,其中 所述學(xué)習(xí)部件 通過使用從學(xué)習(xí)內(nèi)容中獲取的文檔來生成出現(xiàn)在文檔中的詞的詞字典,并且通過使用通過對LDA進(jìn)行學(xué)習(xí)而獲取的LDA的每個潛在主題中每個詞在詞字典中的出現(xiàn)概率,創(chuàng)建LDA的潛在主題中具有高的出現(xiàn)頻率的詞和詞的出現(xiàn)頻率的主題對頻繁出現(xiàn)詞表格,并且所述瀏覽控制部件 提取目標(biāo)內(nèi)容的圖像的每個幀的圖像特征量,執(zhí)行降維,并且通過使用降維之后的圖像特征量來構(gòu)成注釋序列, 獲取在注釋模型中觀察到注釋序列的最大似然狀態(tài)序列, 選擇在最大似然狀態(tài)序列的狀態(tài)當(dāng)中的、與所關(guān)注的關(guān)注幀相對應(yīng)的狀態(tài)中由具有高輸出概率的主題標(biāo)簽所代表的潛在主題,作為代表了關(guān)注幀的內(nèi)容的幀主題, 基于主題對頻繁出現(xiàn)詞表格來獲取幀主題中預(yù)定關(guān)鍵詞的出現(xiàn)頻率,并且在預(yù)定關(guān)鍵詞的出現(xiàn)頻率高時選擇關(guān)注幀作為關(guān)鍵詞幀,所述關(guān)鍵詞幀是其內(nèi)容與預(yù)定關(guān)鍵詞相符合的幀, 從關(guān)鍵詞幀中提取具有一個或更多個時間連續(xù)幀的組作為場景,并且 顯示場景的代表性圖像以便于按時間順序來布置。
17.根據(jù)權(quán)利要求16所述的信息處理設(shè)備,其中 目標(biāo)內(nèi)容是廣播節(jié)目的內(nèi)容,并且 所述瀏覽控制部件顯示廣播節(jié)目的場景的代表性圖像,以便于按電子節(jié)目指南EPG上的廣播節(jié)目的節(jié)目列表中的時間順序來布置。
18.一種要由信息處理設(shè)備來執(zhí)行的信息處理方法,其包括以下步驟 提取學(xué)習(xí)內(nèi)容的圖像的每個幀的圖像特征量,并且提取與描述文本中每個詞的出現(xiàn)頻率有關(guān)的詞頻信息作為描述文本的文本特征量,所述描述文本描述了學(xué)習(xí)內(nèi)容的圖像的內(nèi)容; 通過使用用于注釋的注釋序列來學(xué)習(xí)作為多流隱馬爾可夫模型HMM的注釋模型,所述注釋序列是包括圖像特征量和文本特征量的多流; 通過使用注釋模型,從將要根據(jù)其來提取場景的目標(biāo)內(nèi)容中提取場景,所述場景是具有一個或更多個時間連續(xù)幀的組;并且 顯示場景的代表性圖像以便于按時間順序來布置。
19.一種允許計算機(jī)用作以下部件的程序 學(xué)習(xí)部件,其用于 提取學(xué)習(xí)內(nèi)容的圖像的每個幀的圖像特征量,并且提取與描述文本中每個詞的出現(xiàn)頻率有關(guān)的詞頻信息作為描述文本的文本特征量,所述描述文本描述了學(xué)習(xí)內(nèi)容的圖像的內(nèi)容,并且 通過使用用于注釋的注釋序列來學(xué)習(xí)作為多流隱馬爾可夫模型HMM的注釋模型,所述注釋序列是包括圖像特征量和文本特征量的多流;以及瀏覽控制部件,其用于 通過使用注釋模型,從將要根據(jù)其來提取場景的目標(biāo)內(nèi)容中提取場景,所述場景是具有一個或更多個時間連續(xù)幀的組,并且 顯示場景的代表性圖像以便于按時間順序來布置。
全文摘要
本發(fā)明公開了信息處理設(shè)備、信息處理方法和程序,從而容易地向內(nèi)容附加注釋并且提供了使用注釋的應(yīng)用。學(xué)習(xí)部件(312)從學(xué)習(xí)內(nèi)容的圖像中的每個幀中提取圖像特征量,同時提取與描述了學(xué)習(xí)內(nèi)容的圖像的內(nèi)容的描述文本中每個詞出現(xiàn)的頻率有關(guān)的詞頻信息作為描述文本的文本特征量,并且通過使用包括圖像特征量和文本特征量的多流來學(xué)習(xí)作為多流HMM的注釋模型。瀏覽控制部件(314)通過使用注釋模型,從目標(biāo)內(nèi)容中提取作為具有一個或更多個時間連續(xù)幀的組的場景,并且將場景的代表性圖像顯示為按時間順序來布置。本發(fā)明可以應(yīng)用于例如向內(nèi)容附加注釋時。
文檔編號G06N3/00GK103052953SQ20118003830
公開日2013年4月17日 申請日期2011年8月2日 優(yōu)先權(quán)日2010年8月11日
發(fā)明者鈴木洋貴, 伊藤真人 申請人:索尼公司