專利名稱:概念模型空間中的內(nèi)容表示和檢索的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及使用模型向量來索引多媒體文檔,更具體地說,涉及產(chǎn)生模型向量表示,使模型向量與多媒體文檔相聯(lián)系從而提供索引,并使用模型向量搜索、分類和群集多媒體文檔的方法和設(shè)備。本發(fā)明還涉及把模型向量用于信息發(fā)現(xiàn),使多媒體內(nèi)容個(gè)人化,和查詢多媒體信息儲(chǔ)存庫(kù)。
背景技術(shù):
隨著視頻、圖像、文本和其它多媒體文檔形式的數(shù)字信息的數(shù)量不斷增長(zhǎng),越來越需要索引、搜索、分類和組織所述信息的更有效方法。內(nèi)容分析、特征抽取和分類方面的最新進(jìn)展正在提高有效地搜索和過濾多媒體文檔的能力。但是,在能夠從多媒體內(nèi)容中自動(dòng)抽取的低級(jí)特征描述,例如顏色、紋理、形狀、動(dòng)作等,和對(duì)多媒體系統(tǒng)的用戶有用的語義描述,例如對(duì)象、事件、場(chǎng)景和人物之間仍然存在顯著的差距。
多媒體索引的問題可由需要手工、半自動(dòng)或者全自動(dòng)處理的許多方法解決。一種方法使用允許人們手工把標(biāo)記、類別或描述賦予多媒體文檔的注釋或編目工具。例如,M.Naphade,C.-Y.Lin,J.R.Smith,B.Tseng和S.Basu在論文“Learning to Annotate Video Databases”,IS&T/SPIESymposium on Electronic ImagingScience and Technology-Storage&Retrieval for Image and Video Databases X,San Jose,CA,Jan.2002中描述一種允許把標(biāo)記分配給視頻鏡頭的視頻注釋工具。他們還公開一種基于主動(dòng)學(xué)習(xí)分配標(biāo)記的半自動(dòng)方法。全自動(dòng)方法也是可能的。例如,M.Naphade,S.Basu和J.R.Smith在“A Statistical Modeling Approach toContent-based Video Retrieval”,IEEE International Conference onAcoustics,Speech and Signal Processing(ICASSP-2002),May,2002中公開根據(jù)低級(jí)可視特征的統(tǒng)計(jì)建模,自動(dòng)向視頻內(nèi)容分配標(biāo)記的方法。自動(dòng)標(biāo)記技術(shù)可用于允許根據(jù)自動(dòng)分配的標(biāo)記搜索視頻,但是,索引局限于匹配少量詞匯的值,從而如果用戶輸入和標(biāo)記項(xiàng)之一不相符的搜索項(xiàng),那么搜索不會(huì)找到任何目標(biāo)多媒體文檔。
在自動(dòng)化系統(tǒng)正在提高向多媒體文檔賦予標(biāo)記、類別和描述的能力的條件下,需要促進(jìn)這些描述,以提供更有意義的利用所述描述索引、搜索、分類和群集這些文檔的方式。此外,系統(tǒng)應(yīng)考慮到自動(dòng)化系統(tǒng)的不確定性或可靠性,以及賦予多媒體文檔的任意標(biāo)記、類別或描述的關(guān)聯(lián)性,以便提供有效的索引。
于是,本發(fā)明的一個(gè)目的是提供一種利用捕捉任何自動(dòng)標(biāo)記的結(jié)果及其對(duì)應(yīng)的得分,例如置信度、可靠性和關(guān)聯(lián)性的模型向量表示法,索引多媒體文檔的方法和設(shè)備。
本發(fā)明的另一目的是在信息發(fā)現(xiàn),多媒體內(nèi)容個(gè)人化和多媒體信息儲(chǔ)存庫(kù)的查詢的應(yīng)用中使用模型向量表示法。
發(fā)明內(nèi)容
本發(fā)明實(shí)現(xiàn)了上述及其它目的,本發(fā)明提供一種利用模型向量表示法索引多媒體文檔的設(shè)備和方法,所述模型向量表示法把多媒體文檔的分類或標(biāo)記結(jié)果以及任何對(duì)應(yīng)的不確定性,可靠性或關(guān)聯(lián)性得分封裝到多維向量中,所述多維向量可被用于多媒體文檔的搜索、分類和群集。模型向量表示法涉及詞匯實(shí)體到多維向量空間中的各維的映射,多維向量空間允許文檔在多維空間中被表現(xiàn)和索引。
模型向量表示法的優(yōu)點(diǎn)在于它在整個(gè)詞典內(nèi)廣泛地捕捉標(biāo)記。它還提供捕捉標(biāo)記或分類結(jié)果的不確定性的緊湊表現(xiàn)。模型向量表示法還具有索引方面的優(yōu)點(diǎn),因?yàn)槠鋵?shí)值多維本質(zhì)便于度量空間中的有效索引,允許模型向量表示法的距離或相似性的直接計(jì)算。這為有效方法使用模型向量進(jìn)行多媒體文檔的相似性搜索,基于關(guān)聯(lián)性反饋的搜索,分類,群集,過濾等創(chuàng)造了條件。
下面將參考附圖,更詳細(xì)地說明本發(fā)明,其中圖1表示其中查詢處理器把模型向量索引用于搜索的多媒體信息檢索系統(tǒng);圖2表示在給定詞典和一組受過訓(xùn)練的檢測(cè)器的情況下,多媒體文檔的模型向量的產(chǎn)生;圖3表示產(chǎn)生多媒體文檔的模型向量的檢測(cè)、評(píng)分和映射過程;圖4表示根據(jù)檢測(cè)器評(píng)分而產(chǎn)生的模型向量的例子;圖5表示利用模型向量索引多媒體文檔的過程;圖6表示使用模型向量的查詢過程;圖7表示使用模型向量的多媒體文檔的修改。
具體實(shí)施例方式
圖1描述了具有本發(fā)明的特征的多媒體信息檢索系統(tǒng)的一個(gè)例子。如圖所示,用戶通過用戶界面(100)在步驟(105)中向多媒體信息檢索系統(tǒng)發(fā)出查詢。查詢由查詢處理器(101)處理。查詢處理器在步驟(106)中搜索保存的一組索引值(104),找出與用戶查詢的匹配物。就呈模型向量形式的索引值來說,索引值對(duì)應(yīng)于與每個(gè)被索引多媒體文檔的語義維相關(guān)的多維向量。匹配物在步驟(107)中被傳送給檢索引擎,在步驟(108)中,從多媒體儲(chǔ)存庫(kù)(103)取回匹配的多媒體文檔。根據(jù)模型向量與儲(chǔ)存庫(kù)的特定多媒體文檔的聯(lián)系(110),確定對(duì)應(yīng)的多媒體文檔。多媒體文檔隨后在步驟(109)中被返回給用戶,并顯示在用戶界面(100)上。模型向量表示法提供一種表現(xiàn)可被用于找出用戶查詢的匹配物的一組保存的索引值(103)的方式。
模型向量表示法封裝對(duì)多媒體文檔應(yīng)用一系列的檢測(cè)器或分類器的結(jié)果。例如,考慮通過檢測(cè)在多媒體文檔中是否描述了這些概念,從下述詞典(lexicon){“car”,“boat”,“train”}分配詞匯實(shí)體的一組分類器。檢測(cè)問題可被看作通過賦予反映每個(gè)概念存在的確定性的得分,檢測(cè)每個(gè)概念的存在與否的一組二進(jìn)制分類器。例如,系統(tǒng)可對(duì)“car”給出0.75的得分,它可被理解為賦予“car”標(biāo)記的置信度為75%的含義。另一方面,對(duì)于“train”,系統(tǒng)可給出0.25的得分,它可被理解為賦予“train”標(biāo)記的置信度為25%的含義??偟恼f來,系統(tǒng)產(chǎn)生這些多個(gè)檢測(cè)器的得分,模型向量把這些得分記錄在單一表示中,所述單一表示隨后可被用作多媒體文檔的索引。
圖2描述了產(chǎn)生多媒體文檔或查詢的模型向量的過程。首先利用多個(gè)檢測(cè)器(201)處理多媒體文檔(200),并關(guān)于成為每個(gè)檢測(cè)器的基礎(chǔ)的概念對(duì)多媒體文檔(200)評(píng)分。檢測(cè)器本身可對(duì)應(yīng)于固定詞典(204)或者固定的一組類別、對(duì)象、事件、場(chǎng)景或人物。例如,分類辭典圖形材料詞庫(kù)(TGM)提供一組用于對(duì)照片和其它類型的圖形文檔分類的類別。檢測(cè)器可被建立和使用,使得每個(gè)檢測(cè)器對(duì)應(yīng)于TGM類別之一。詞典(204)的概念也可是類屬的,特定的或者抽象的。例如,概念可對(duì)應(yīng)于類屬實(shí)體,例如“顯示橋梁的場(chǎng)景”。另一方面,概念可對(duì)應(yīng)于特定實(shí)體,例如“顯示金門大橋的場(chǎng)景”。最后,概念可對(duì)應(yīng)于抽象實(shí)體,例如“現(xiàn)代文明”。檢測(cè)器(201)中對(duì)應(yīng)于受過訓(xùn)練的模型或者其它類型的統(tǒng)計(jì)分類器。就訓(xùn)練(205)來說,被標(biāo)記的多媒體文檔的例子可在學(xué)習(xí)過程中被用于定義檢測(cè)器(201)模型和它們的參數(shù)。檢測(cè)器(201)的輸出隨后在映射過程(202)中被變換,從而產(chǎn)生模型向量(203)。模型向量提供關(guān)于詞典(204)的概念的多媒體文檔(200)的一種累積評(píng)分。此外,模型向量(203)允許通過考慮其相對(duì)于詞典的評(píng)分,推理(reason)多媒體文檔(200)。
圖3描述了產(chǎn)生多媒體文檔的模型向量的一種實(shí)現(xiàn),其中利用一組檢測(cè)器對(duì)多媒體文檔進(jìn)行分析和評(píng)分。通過應(yīng)用N個(gè)檢測(cè)器(301-303)對(duì)每個(gè)多媒體文檔(300)分類。檢測(cè)器可采取多種形式,包括支持向量機(jī),高斯混合模型,隱馬可夫模型,神經(jīng)網(wǎng)絡(luò),Bayes(貝葉斯)網(wǎng)絡(luò),線性判別分析等。每個(gè)檢測(cè)器可代表特定的語義概念。例如,考慮詞典{“car”,“boat”,“train”},檢測(cè)器可如下表示概念檢測(cè)器1=“car”,檢測(cè)器2=“boat”,和檢測(cè)器3=“train”。即,檢測(cè)器1確定“car”概念是否與多媒體文檔相關(guān),其它檢測(cè)器類似地工作。檢測(cè)器可能先前已被訓(xùn)練,從而通過使用根據(jù)供給的地面實(shí)況標(biāo)記例子,學(xué)習(xí)或建立模型的技術(shù),檢測(cè)它們相應(yīng)的概念。
檢測(cè)器(301-303)可使用與多媒體文檔(300)相關(guān)的各種信息來進(jìn)行各個(gè)檢測(cè)。例如,檢測(cè)器(301-303)可使用構(gòu)成多媒體文檔(300)的一種或多種形態(tài)的信息(視覺、音頻、語音、文本)。檢測(cè)器(301-303)還可使用從來自多媒體文檔(300)的不同形態(tài)的信息中抽取的特征,例如顏色、紋理、形狀、運(yùn)動(dòng)、聲音頻率、空間或時(shí)間布局的基于內(nèi)容的描述符。例證的描述符包括顏色直方圖,邊緣直方圖,運(yùn)動(dòng)向量,形狀邊界描述符等。檢測(cè)器(301-303)還可使用與多媒體文檔(300)相關(guān)的元數(shù)據(jù)。例如,可以使用諸如標(biāo)題、作者、創(chuàng)建日期、類型之類的信息。另外,可以使用其它語境(contextual)信息,例如多媒體文檔(300)與其它文檔的關(guān)系。檢測(cè)器(301-303)還可使用知識(shí)庫(kù)或語義網(wǎng),知識(shí)庫(kù)或語義網(wǎng)允許基于與詞典或多媒體信息儲(chǔ)存庫(kù)相關(guān)的信息和知識(shí)的組織的推斷和推論。
對(duì)于每個(gè)檢測(cè)器,關(guān)于每個(gè)多媒體文檔產(chǎn)生得分(305)。得分提供和檢測(cè)器相對(duì)于多媒體文檔(300)對(duì)其相應(yīng)概念建模相關(guān)的信息。得分可反映許多內(nèi)容,例如檢測(cè)器依據(jù)其檢測(cè)文檔中的概念的置信度或不確定性(統(tǒng)稱為“置信度”),概念與文檔的關(guān)聯(lián)性,或者檢測(cè)器在檢測(cè)概念方面的可靠性。例如,考慮如上所述的檢測(cè)器1,得分可指示該檢測(cè)器能夠檢測(cè)多媒體文檔中“car”的描述的置信度。置信度和與決策邊界或閾值的接近度相關(guān)。例如,如果對(duì)于檢測(cè)“car”來說,多媒體文檔遠(yuǎn)離決策邊界,那么可以斷定高的置信度。但是,如果多媒體文檔接近決策邊界,那么可斷定低的置信度。關(guān)聯(lián)性得分可指示概念與多媒體文檔多么相關(guān)。例如,如果“car”只被局部描述或者并不構(gòu)成多媒體文檔的重要部分,那么可確定低的關(guān)聯(lián)性得分。另一方面,可靠性得分可指示對(duì)檢測(cè)其相應(yīng)概念來說,檢測(cè)器有多可靠。例如,如果只利用“cars”的少數(shù)幾個(gè)例子訓(xùn)練了檢測(cè)器1,那么可確定低的可靠性得分。但是,如果利用許多例子訓(xùn)練了檢測(cè)器1,那么可確定高的可靠性得分。得分本身可能只反映這些屬性之一,例如產(chǎn)生一個(gè)一維值。但是,通過提供關(guān)于多個(gè)屬性的信息,得分也可以是多維的。
一旦關(guān)于每個(gè)檢測(cè)器產(chǎn)生了得分,那么這些得分被映射(304),從而產(chǎn)生模型向量(306)。在一些情況下,為每個(gè)多媒體文檔(300)產(chǎn)生單個(gè)模型向量(306),例如當(dāng)每個(gè)檢測(cè)器(301-303)使用多個(gè)形態(tài)(例如圖像、視頻、音頻、文本、語音)來進(jìn)行它們的分類時(shí)。另一方面,對(duì)于每個(gè)多媒體文檔,可以產(chǎn)生多個(gè)模型向量(306),例如當(dāng)每個(gè)檢測(cè)器只使用一種形態(tài)時(shí)。這種情況下,對(duì)于每個(gè)多媒體文檔可產(chǎn)生多個(gè)模型向量,以反映多個(gè)得分,例如一個(gè)與音頻形態(tài)相關(guān),另一個(gè)與圖像形態(tài)相關(guān),等等。
產(chǎn)生一個(gè)或多個(gè)模型向量的映射(304)提供產(chǎn)生自檢測(cè)器的得分的組合或累積。在一些情況下,映射提供級(jí)聯(lián)N個(gè)得分,從而產(chǎn)生一個(gè)N維向量的簡(jiǎn)單操作。例如,考慮上面的三元素詞典{“car”,“boat”,“train”},其中每個(gè)檢測(cè)器產(chǎn)生一個(gè)一維置信度得分(即,分類器1產(chǎn)生得分C1,分類器2產(chǎn)生得分C2,分類器3產(chǎn)生得分C3),隨后級(jí)聯(lián)操作產(chǎn)生三維模型向量M=[C1,C2,C3]。另一方面,映射(304)可產(chǎn)生置信度得分的線性加權(quán)或變換。
置信度得分可由檢測(cè)器的可靠性或分類結(jié)果的關(guān)聯(lián)性加權(quán)。分別考慮三個(gè)檢測(cè)器中的每一個(gè)的可靠性得分R1、R2、R3。借助加權(quán),通過把可靠性得分Ri乘以置信度得分Ci,映射(304)可產(chǎn)生三維模型向量M=[R1*C1,R2*C2,R3*C3]。另一方面,分別考慮三個(gè)檢測(cè)器中的每一個(gè)的關(guān)聯(lián)性得分L1、L2、L3,從而,通過把關(guān)聯(lián)性得分Li乘以置信度得分Ci,映射(304)可產(chǎn)生三維模型向量M=[L1*C1,L2*C2,L3*C3]。其它映射(304)可提供線性變換和/或維數(shù)減縮,例如在主成分分析,奇異值分解,小波變換,離散余弦變換等的情況下。另一方面,映射(304)可提供非線性信息,例如在支持向量機(jī),神經(jīng)網(wǎng)絡(luò)等的情況下。映射(304)還可涉及對(duì)離散空間或二進(jìn)制取值空間的量化。例如,通過在映射階段(304)對(duì)來自檢測(cè)器的置信度得分(305)設(shè)置閾值,可產(chǎn)生指示每個(gè)概念是否存在于多媒體文檔(300)中的二進(jìn)制模型向量。
總的說來,映射(304)可產(chǎn)生從各個(gè)概念或者檢測(cè)器(301-303)到模型向量(306)的各維的各種特定映射。在一些情況下,例如就級(jí)聯(lián)得分(305)的映射(304)來說,產(chǎn)生概念到模型向量維的一對(duì)一映射。但是,在其它情況下,可取的是產(chǎn)生多對(duì)一映射,以便相對(duì)于原始概念空間,縮減模型向量(306)的維數(shù)。在其它情況下,映射(304)可以是一對(duì)多或多對(duì)多,以允許模型向量(306)中一定程度的冗余。
圖4表示根據(jù)檢測(cè)器評(píng)分,產(chǎn)生的模型向量的例子。在已知關(guān)于固定詞典={“Cityscape”,“Face”,“Indoors”,“Landscape”,“Monologue”,“Outdoors”,“People”,“Text Overlay”}的經(jīng)評(píng)分的一組檢測(cè)器結(jié)果(400)的條件下,通過把每個(gè)檢測(cè)器得分(400)映射到多維模型向量(401)的獨(dú)特雛上,產(chǎn)生模型向量(401)。本例中,“Cityscape”的得分(它為0.35)被映射到模型向量的第一維。“Face”的得分(它為0.87)被映射到第二維,諸如此類。為了簡(jiǎn)化對(duì)應(yīng)于不同多媒體文檔的模型向量之間的匹配,可使用檢測(cè)器得分到模型向量維的一致映射。類似地,更大詞典的例證檢測(cè)器得分(402)可被映射到模型向量維(403)。這種情況下,“Animal”的得分被映射到模型向量的第一維?!癇each”的得分被映射到第二維,諸如此類。
圖5表示了利用模型向量索引多媒體文檔的過程。首先,在模型向量產(chǎn)生過程(501)中分析一批K個(gè)多媒體文檔(500),從而產(chǎn)生一組M個(gè)模型向量(502)。模型向量產(chǎn)生過程(501)可在所有多媒體文檔(500)內(nèi)使用固定詞典(505)和對(duì)應(yīng)的一組檢測(cè)器,以便允許產(chǎn)生模型向量(502)方面的一致性。此外,出于相同原因,模型向量產(chǎn)生過程(501)還可在所有多媒體文檔(500)內(nèi)把固定的一組參數(shù)用于評(píng)分(305)和映射(304)。一旦產(chǎn)生了模型向量(502),就可使它們與它們的對(duì)應(yīng)多媒體文檔(500)相聯(lián)系。例如,可利用數(shù)據(jù)庫(kù)關(guān)鍵字值表示所述聯(lián)系,所述數(shù)據(jù)庫(kù)關(guān)鍵字值陳述每個(gè)模型向量(502)和每個(gè)多媒體文檔(500)之間的主關(guān)鍵字-外部關(guān)鍵字關(guān)系。另一方面,可通過使給出其對(duì)應(yīng)的多媒體文檔(500)的地址的媒體定位符與每個(gè)模型向量(502)相關(guān)聯(lián),表示所述聯(lián)系。另一方面,可使用唯一地識(shí)別每個(gè)多媒體文檔(500)的標(biāo)識(shí)符來允許表現(xiàn)每個(gè)模型向量(502)的聯(lián)系。還可通過在每個(gè)多媒體文檔(500)的報(bào)頭或者元數(shù)據(jù)字段中表示模型向量的值,或者通過借助用水印作標(biāo)記或者一些其它持久聯(lián)系方法,持久地使模型向量(502)的值與每個(gè)多媒體文檔(500)相聯(lián)系,直接把模型向量(502)和每個(gè)多媒體文檔(500)聯(lián)系起來。
一旦產(chǎn)生了模型向量(502),并且表示了它們與多媒體文檔(500)的聯(lián)系,就建立允許根據(jù)模型向量(502)的值對(duì)多媒體文檔(500)的訪問(504)的索引。索引可允許基于接近度的訪問,以便允許相似性搜索法或者最近鄰居搜索法。這些情況下,通過提供查詢模型向量完成訪問,并且根據(jù)索引找到相似模型向量或者固定大小的一組最近目標(biāo)模型向量。索引還可支持基于范圍的訪問,這種情況下,提供查詢模型向量,根據(jù)索引找到在離查詢模型向量固定距離內(nèi)的所有目標(biāo)模型向量。
圖6表示了利用模型向量的查詢過程。使模型向量的值與用戶的查詢相匹配,以便檢索多媒體文檔。用戶(600)向多媒體文檔搜索系統(tǒng)(609)發(fā)出查詢(601)。查詢可以采取用戶提供的例證模型向量的形式??蛇x的是,例如通過提供允許用戶識(shí)別與查詢相關(guān)的語義概念,并對(duì)用于構(gòu)成模型向量表示的得分賦值,搜索界面可允許用戶創(chuàng)建查詢模型向量。另一方面,可選的是,搜索界面可向用戶顯示多媒體文檔,并允許用戶選擇對(duì)于所述查詢來說,哪些多媒體文檔是相關(guān)的。系統(tǒng)隨后會(huì)把預(yù)先計(jì)算的相關(guān)模型向量用于所述查詢,或者會(huì)在查詢時(shí)產(chǎn)生模型向量。另一方面,查詢可采取用戶提供的多媒體文檔的例子的形式,這種情況下,通過使用模型向量產(chǎn)生過程來創(chuàng)建查詢模型向量,可分析和處理查詢多媒體文檔。
一旦查詢模型向量可用,就在步驟(602)中把它們與保存的模型向量值(606)進(jìn)行匹配。匹配過程可涉及使用索引結(jié)構(gòu)來識(shí)別目標(biāo)模型向量匹配物。匹配可涉及如上所述的相似性搜索,最近鄰居搜索,或者范圍查詢。匹配過程(602)產(chǎn)生匹配物列表(603),它識(shí)別和查詢模型向量相符的保存的模型向量(606)。隨后可選地在步驟(604)中對(duì)匹配物列表(603)評(píng)分??筛鶕?jù)利用模型向量值的度量空間計(jì)算確定匹配評(píng)分。例如,考慮單個(gè)查詢模型向量,匹配評(píng)分可以在利用距離函數(shù),例如歐幾里德距離或曼哈頓距離的多維模型向量空間中測(cè)量的接近度為基礎(chǔ)。另一方面,匹配過程可以只使用一些模型向量維數(shù)。例如,考慮(400-401)中的模型向量,如果用戶只關(guān)心“human-related”概念,那么這種情況下,可有選擇地使用第二維(“face”)和第七維(“people”)。在提供多個(gè)查詢模型向量的情況下,通過組合自單個(gè)模型向量的距離的得分,可獲得匹配評(píng)分。其它選擇是可能的,例如計(jì)算查詢模型向量的質(zhì)心,并使用質(zhì)心模型向量作為查詢。
可選的是隨后在步驟(605)中,對(duì)評(píng)分的匹配物列表排序,以便把最佳匹配物移動(dòng)到列表的頂部??蛇x的是隨后在步驟(606)中截短排序列表,例如在列表上保持10個(gè)最佳匹配物(match)。結(jié)果(607)隨后被提供給用戶。可選的是,搜索系統(tǒng)可從多媒體儲(chǔ)存庫(kù)(610)中取回與結(jié)果列表(607)中的模型向量相關(guān)的那些多媒體文檔,并向用戶顯示這些文檔。
一旦結(jié)果被顯示給用戶,用戶就可改進(jìn)搜索,例如通過使用關(guān)聯(lián)性反饋技術(shù)從結(jié)果列表(607)中識(shí)別正面例子和負(fù)面例子。搜索系統(tǒng)(609)可使用該信息和查詢處理一起來根據(jù)模型向量得分檢索匹配物。
雖然模型向量可被用于多媒體文檔的檢索,不過它們還可被用于對(duì)多媒體文檔進(jìn)行群集和分類。例如,可在多維度量空間中分析模型向量,以便利用各種技術(shù),例如聚集群集法識(shí)別群集。還可利用各種有指導(dǎo)的學(xué)習(xí)方法,例如基于判別建?;蛏山5哪切┯兄笇?dǎo)學(xué)習(xí)方法,對(duì)模型向量分類。例證的分類器包括支持向量機(jī)和高斯混合模型。諸如主動(dòng)學(xué)習(xí)和推動(dòng)(boosting)之類的其它技術(shù)也可被應(yīng)用于模型向量值以便分類。
模型向量還可被用于多媒體儲(chǔ)存庫(kù)的信息發(fā)現(xiàn)和挖掘。例如,可檢查一批模型向量的維數(shù)的相關(guān)性,以揭示當(dāng)概念出現(xiàn)在多媒體文檔中時(shí)概念的同現(xiàn)信息。
圖7表示了使用模型向量對(duì)多媒體文檔的修改。模型向量可被用于過濾、總結(jié)或使來自多媒體儲(chǔ)存庫(kù)的多媒體文檔或信息個(gè)人化。用戶(700)向多媒體信息系統(tǒng)發(fā)出請(qǐng)求(708)。所述請(qǐng)求在步驟(701)中處理。請(qǐng)求可包含特定的用戶查詢,例如(601)中的查詢,其中用戶供給例證的模型向量或者多媒體文檔,或者識(shí)別語義概念。另一方面,請(qǐng)求可以采取注冊(cè)(login)的形式,其中已保存了用戶簡(jiǎn)表以及用戶偏愛信息。這種情況下,用戶偏愛信息可選擇地在步驟(702)中被檢查。偏愛信息也可以例證的模型向量,多媒體文檔或者識(shí)別的語義概念的形式被保存。用戶查詢和用戶偏愛信息隨后可被累積和處理,從而產(chǎn)生查詢模型向量,查詢模型向量隨后被用于匹配和檢索保存的模型向量(704),保存的模型向量再被用作在步驟(706)中從多媒體儲(chǔ)存庫(kù)(705)中有選擇地取回(retrieve)多媒體文檔的索引。這提供基于模型向量值的多媒體文檔的過濾。
可選的是,可結(jié)合查詢模型向量使用與多媒體文檔相關(guān)的模型向量,以便在步驟(707)中修改(adapt)多媒體文檔的內(nèi)容。所述修改可根據(jù)關(guān)于特定查詢的用戶偏愛使多媒體內(nèi)容個(gè)性化。例如,用戶偏愛可指示“sports”概念重要。這種情況下,取回的多媒體文檔,例如“news”視頻可被處理,以便只抽取“sports”片段。另一方面,所述修改可總結(jié)內(nèi)容,例如通過壓縮“non-sports”片段,并從“sports”片段抽取精彩場(chǎng)面。
參考優(yōu)選實(shí)施例說明了本發(fā)明。顯然在不脫離附加權(quán)利要求中限定的本發(fā)明的精神和范圍的情況下,本領(lǐng)域的技術(shù)人員可做出多種修改。
權(quán)利要求
1.一種產(chǎn)生用于表示多媒體文檔的至少一個(gè)模型向量的方法,包括下述步驟對(duì)多媒體文檔應(yīng)用多個(gè)概念檢測(cè)器;相對(duì)于每個(gè)檢測(cè)器,對(duì)所述多媒體文檔評(píng)分;和把所述得分映射到多維空間中,從而產(chǎn)生至少一個(gè)向量表示。
2.按照權(quán)利要求1所述的方法,其中所述多個(gè)概念檢測(cè)器對(duì)應(yīng)于類別、對(duì)象、事件、場(chǎng)景和人物的固定詞典。
3.按照權(quán)利要求1所述的方法,其中所述文檔包含多種形態(tài),例如音頻、視覺、文本和語音,其中所述概念檢測(cè)器處理存在于所述多媒體文檔中的單個(gè)或多個(gè)形態(tài)。
4.按照權(quán)利要求1所述的方法,其中所述概念檢測(cè)器處理從所述多媒體文檔抽取的文檔特征的基于內(nèi)容的描述符。
5.按照權(quán)利要求1所述的方法,其中所述概念檢測(cè)器處理與所述多媒體文檔相關(guān)的元數(shù)據(jù)。
6.按照權(quán)利要求1所述的方法,其中所述概念檢測(cè)器處理與所述多媒體文檔相關(guān)的語境信息。
7.按照權(quán)利要求1所述的方法,其中所述概念檢測(cè)器處理知識(shí)庫(kù)。
8.按照權(quán)利要求1所述的方法,其中所述檢測(cè)器對(duì)應(yīng)于受過訓(xùn)練的模型統(tǒng)計(jì)分類器。
9.按照權(quán)利要求1所述的方法,其中所述評(píng)分基于下述至少之一檢測(cè)多媒體文檔中的概念的置信度,概念與多媒體文檔的關(guān)聯(lián)性,以及就該概念來說檢測(cè)器的可靠性。
10.按照權(quán)利要求1所述的方法,其中所述映射對(duì)應(yīng)于下述至少之一級(jí)聯(lián)所述得分,進(jìn)行線性變換,進(jìn)行非線性變換,進(jìn)行量化,和通過設(shè)置閾值的維數(shù)縮減。
11.按照權(quán)利要求10所述的方法,其中所述得分到模型向量維的所述映射可以是一對(duì)一,一對(duì)多,多對(duì)一或者多對(duì)多。
12.按照權(quán)利要求1所述的方法,其中對(duì)于多媒體文檔的所述索引來說,所述多個(gè)檢測(cè)器是固定的。
13.按照權(quán)利要求1所述的方法,其中對(duì)于多媒體文檔的所述索引來說,所述評(píng)分和映射方法是固定的。
14.一種利用模型向量索引多媒體文檔的方法,包括下述步驟產(chǎn)生每個(gè)多媒體文檔的一個(gè)或多個(gè)模型向量;使所述模型向量與對(duì)應(yīng)的多媒體文檔相聯(lián)系;和根據(jù)所述相關(guān)模型向量的值,建立用于訪問所述多媒體文檔的索引。
15.按照權(quán)利要求14所述的方法,其中所述產(chǎn)生用于表示多媒體文檔的至少一個(gè)模型向量包括下述步驟對(duì)多媒體文檔應(yīng)用多個(gè)概念檢測(cè)器;相對(duì)于每個(gè)檢測(cè)器對(duì)所述多媒體文檔評(píng)分;和把所述得分映射到多維空間中,從而產(chǎn)生至少一個(gè)向量表示。
16.按照權(quán)利要求15所述的方法,其中對(duì)于多媒體文檔的所述索引來說,所述多個(gè)檢測(cè)器是固定的。
17.按照權(quán)利要求15所述的方法,其中對(duì)于多媒體文檔的所述索引來說,所述評(píng)分和映射方法是固定的。
18.按照權(quán)利要求14所述的方法,其中根據(jù)多個(gè)形態(tài),特征,描述符或模型中的每一個(gè),關(guān)于每個(gè)多媒體文檔產(chǎn)生多個(gè)模型向量。
19.按照權(quán)利要求14所述的方法,其中所述聯(lián)系以數(shù)據(jù)庫(kù)關(guān)鍵字值,媒體定位符或者其它類型的標(biāo)識(shí)符為基礎(chǔ)。
20.按照權(quán)利要求14所述的方法,其中所述索引允許基于所述模型向量值的相似性搜索,最近鄰居訪問,或者范圍搜索。
21.一種在關(guān)于多媒體文檔的應(yīng)用中使用模型向量的方法,包括下述步驟利用下述步驟產(chǎn)生用于表示每個(gè)多媒體文檔的至少一個(gè)模型向量對(duì)多媒體文檔應(yīng)用多個(gè)概念檢測(cè)器;相對(duì)于每個(gè)檢測(cè)器對(duì)所述多媒體文檔評(píng)分;和把所述得分映射到多維空間中,從而產(chǎn)生至少一個(gè)向量表示;和根據(jù)所述至少一個(gè)向量表示的值,對(duì)所述多媒體文檔進(jìn)行至少一種操作。
22.按照權(quán)利要求21所述的方法,其中所述至少一種操作包含使用所述模型向量從多媒體信息儲(chǔ)存庫(kù)搜索和取回文檔。
23.按照權(quán)利要求21所述的方法,其中所述至少一種操作包括下述至少之一過濾多媒體信息,總結(jié)多媒體信息和使多媒體信息個(gè)人化。
24.按照權(quán)利要求21所述的方法,其中所述至少一種操作包括數(shù)據(jù)挖掘。
25.按照權(quán)利要求21所述的方法,其中所述至少一種操作包括群集所述文檔。
26.按照權(quán)利要求21所述的方法,其中所述至少一種操作包括對(duì)所述文檔分類。
27.一種確實(shí)包含可由機(jī)器執(zhí)行,以便實(shí)現(xiàn)產(chǎn)生用于表示多媒體文檔的至少一個(gè)模型向量的方法的指令程序的機(jī)器可讀程序存儲(chǔ)裝置,所述方法包括下述步驟對(duì)多媒體文檔應(yīng)用多個(gè)概念檢測(cè)器;相對(duì)于每個(gè)檢測(cè)器對(duì)所述多媒體文檔評(píng)分;和把所述得分映射到多維空間中,從而產(chǎn)生至少一個(gè)向量表示。
28.一種確實(shí)包含可由機(jī)器執(zhí)行,以便實(shí)現(xiàn)在關(guān)于多媒體文檔的應(yīng)用中使用模型向量的方法的指令程序的機(jī)器可讀程序存儲(chǔ)裝置,所述方法包括下述步驟利用下述步驟產(chǎn)生用于表示每個(gè)多媒體文檔的至少一個(gè)模型向量對(duì)多媒體文檔應(yīng)用多個(gè)概念檢測(cè)器;相對(duì)于每個(gè)檢測(cè)器對(duì)所述多媒體文檔評(píng)分;和把所述得分映射到多維空間中,從而產(chǎn)生至少一個(gè)向量表示;和根據(jù)所述至少一個(gè)向量表示的值,對(duì)所述多媒體文檔進(jìn)行至少一種操作。
29.一種在關(guān)于多媒體文檔的應(yīng)用中使用模型向量的系統(tǒng),包括產(chǎn)生用于表示每個(gè)多媒體文檔的至少一個(gè)模型向量的至少一個(gè)模型向量產(chǎn)生組件;和根據(jù)所述至少一個(gè)向量表示的值,對(duì)所述多媒體文檔執(zhí)行至少一種操作的至少一個(gè)文檔處理組件。
30.按照權(quán)利要求29所述的系統(tǒng),其中所述至少一個(gè)模型向量產(chǎn)生組件包括對(duì)多媒體文檔應(yīng)用多個(gè)概念檢測(cè)器的至少一個(gè)概念檢測(cè)器應(yīng)用組件;相對(duì)于每個(gè)檢測(cè)器,對(duì)所述多媒體文檔評(píng)分的評(píng)分組件;和把所述得分映射到多維空間,從而產(chǎn)生至少一個(gè)向量表示的映射組件;根據(jù)所述至少一個(gè)向量表示的值,對(duì)所述多媒體文檔執(zhí)行至少一種操作。
全文摘要
一種從多媒體文檔(104)抽取模型向量表示的方法和設(shè)備。模型向量提供多媒體文檔屬于一組類別,或者一組詞義概念與該文檔相關(guān)的置信度的多維表示。模型向量可與多媒體文檔相聯(lián)系,從而提供其內(nèi)容或分類的索引,并且可被用于比較,搜索,分類或群集多媒體文檔。模型向量可被用于信息發(fā)現(xiàn),使多媒體內(nèi)容個(gè)人化,以及查詢多媒體信息儲(chǔ)存庫(kù)(103)。
文檔編號(hào)G06F17/30GK1748213SQ200380109658
公開日2006年3月15日 申請(qǐng)日期2003年12月12日 優(yōu)先權(quán)日2002年12月13日
發(fā)明者約翰·史密斯, 米林德·納法德, 阿波斯塔爾·納特塞夫 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司