專利名稱:多媒體數(shù)據(jù)檢索裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明是關(guān)于一被置于存儲(chǔ)多種表述圖象、聲音等等的內(nèi)容的服務(wù)器與希望檢索內(nèi)容的客戶機(jī)之間的多媒體數(shù)據(jù)檢索裝置,此裝置用于搜索其內(nèi)容以檢取客戶機(jī)所希望的內(nèi)容并將檢取的內(nèi)容提供給客戶機(jī),以及用于這樣的檢索裝置的檢索方法。
通常的用于搜索多媒體內(nèi)容的系統(tǒng)是生成表述各內(nèi)容的輪廓的微縮圖形。連同這樣的微縮圖形一起,表述內(nèi)容的特征例如圖象大小和主要色彩信息的數(shù)據(jù)被產(chǎn)生來作為特征數(shù)據(jù)。這樣的特征數(shù)據(jù)被直接選下來檢索對(duì)應(yīng)于此選定特征數(shù)據(jù)的內(nèi)容。
圖17為一說明通常的多媒體內(nèi)容檢索系統(tǒng)的結(jié)構(gòu)的視圖。參看圖17,多媒體內(nèi)容被存儲(chǔ)在安裝在盤驅(qū)動(dòng)器101的盤103上。此內(nèi)容在文件服務(wù)器102的控制下由盤103進(jìn)行讀取,通過通信線路106傳送到客戶機(jī)方,并在一計(jì)算機(jī)105的顯示器104上顯示。
客戶機(jī)輸入一如圖18中所示的對(duì)一所希望內(nèi)容的特征關(guān)鍵詞以簡化所希望內(nèi)容的檢索。予先在盤103中以如圖18中所示的表的形式存放表述盤103中所存的多種內(nèi)容的特征的特性數(shù)據(jù)。計(jì)算機(jī)105將由客戶機(jī)輸入的特征關(guān)鍵詞與存放在盤103中的特征數(shù)據(jù)相比較,選擇一定數(shù)量的、按最近似到較欠近似的順序接近此特征關(guān)鍵詞的特征數(shù)據(jù),和在顯示器104上顯示具有被選擇特征數(shù)據(jù)的內(nèi)容的微縮圖形。客戶機(jī)通過參照所顯示的微縮圖形來選擇一合適的內(nèi)容,由此來獲取所希望的內(nèi)容。
例如US專利No.5761655 “圖形文件存儲(chǔ)和檢索系統(tǒng)”中即揭示有上述檢索技術(shù)。
上面的通常的檢索技術(shù)具有這樣的缺點(diǎn),即,在內(nèi)容于存儲(chǔ)之前被以一編碼方法壓縮的情況下,必須首先對(duì)壓縮數(shù)據(jù)進(jìn)行去壓縮以生成非壓縮內(nèi)容,再根據(jù)此非壓縮內(nèi)容生成特征數(shù)據(jù)。另一缺點(diǎn)是如果未予先生成特征數(shù)據(jù)就不可能進(jìn)行高速度檢索。
在上述通常的檢索技術(shù)中,要求用戶以低級(jí)關(guān)鍵詞如顏色、寬度和高度來表達(dá)所希望內(nèi)容的特征。當(dāng)希望作高級(jí)檢索時(shí),客戶機(jī)就不可能利用高級(jí)表達(dá)式,例如說采用“一個(gè)人在黃昏落日下奔跑的情景”。
本發(fā)明的多媒體數(shù)據(jù)檢索裝置包括有內(nèi)容存儲(chǔ)部分,用于存放多種壓縮內(nèi)容;用于輸入特征數(shù)據(jù)的客戶機(jī)終端;特征數(shù)據(jù)存儲(chǔ)部分,用于從內(nèi)容存儲(chǔ)部分讀取由至少一個(gè)壓縮內(nèi)容提取的特征數(shù)據(jù)和存儲(chǔ)此至少一壓縮內(nèi)容的特征數(shù)據(jù);和內(nèi)容檢索部分,用于在存儲(chǔ)于特征數(shù)據(jù)存儲(chǔ)部分中的特征數(shù)據(jù)中選擇接近于由客戶機(jī)終端輸入的特征數(shù)據(jù)的特征數(shù)據(jù),和從內(nèi)容存儲(chǔ)部分檢索具有所選定的特征數(shù)據(jù)的內(nèi)容。
在本發(fā)明一實(shí)施例中,每一壓縮內(nèi)容均包括有表述一圖形形狀的宏塊,由此宏塊所表述的圖形形狀被變換成至少由一比特(位)構(gòu)成的值,和此比特被用作為由此內(nèi)容所表述形狀的特征數(shù)據(jù)。
本發(fā)明的另一實(shí)施例中,每一壓縮內(nèi)容包括有表述圖形形狀的網(wǎng)格編碼數(shù)據(jù),和此網(wǎng)格編碼數(shù)據(jù)被用作為由內(nèi)容所表述形狀的特征數(shù)據(jù)。
本發(fā)明的再一實(shí)施例中,每一壓縮內(nèi)容包括有多個(gè)表述圖形形狀的宏塊,對(duì)每一宏塊得到輝度成分(Y)的DC成分與每個(gè)色度成分(Pb,Pr)的DC成分的平均,和此平均及DC成分被用作為由內(nèi)容所表述的顏色信息和亮度信息特征數(shù)據(jù)。
本發(fā)明的又一實(shí)施例中,每一壓縮內(nèi)容包括有多個(gè)表述圖形形狀的宏塊,讀取由宏塊運(yùn)動(dòng)信息所表述的對(duì)象的運(yùn)動(dòng)以得到對(duì)象的運(yùn)動(dòng)的平均,和此平均被用作為由內(nèi)容所表述對(duì)象的運(yùn)動(dòng)信息的特征數(shù)據(jù)。
本發(fā)明的另一實(shí)施例中,每一壓縮內(nèi)容包括有多個(gè)表述圖形形狀的宏塊,讀取由宏塊所表述的對(duì)象的輝度成分的DC成分和AC成分及色度的DC成分和AC成分,和得到各自成分的平均用作為由內(nèi)容所表述的對(duì)象的結(jié)構(gòu)信息的特征數(shù)據(jù)。
本發(fā)明的又一實(shí)施例中,每一壓縮內(nèi)容包括表述聲音的幀,讀取為各幀所記錄的LPC系數(shù),和得到LPC系數(shù)的平均用作為由多媒體內(nèi)容所表述的音調(diào)信息的特征數(shù)據(jù)。
本發(fā)明的再一實(shí)施例中,每一壓縮內(nèi)容包括有表述聲音的幀,讀取為各幀所記錄的頻譜標(biāo)準(zhǔn)化系數(shù),和得到對(duì)各予定時(shí)間周期的頻譜標(biāo)準(zhǔn)化系數(shù)的平均并用作為音調(diào)信息的特征數(shù)據(jù)。
本發(fā)明的另一實(shí)施例中,每一壓縮內(nèi)容包括有表述聲音的幀,讀取為每幀所記錄的予測(cè)殘留,和將此予測(cè)殘留用作為韻律信息的特征數(shù)據(jù)。
本發(fā)明的又一實(shí)施例中,每一壓縮內(nèi)容包括有表述聲音的幀,讀取在對(duì)各幀進(jìn)行頻譜標(biāo)準(zhǔn)化之后的頻率成分,和此頻率成分被用作為韻律信息的特征數(shù)據(jù)。
本發(fā)明的再一實(shí)施例中,每一壓縮內(nèi)容包括有表述聲音的幀,讀取對(duì)各幀所記錄的LPC系數(shù),和LPC系數(shù)的瞬時(shí)變化被用作為旋律信息的特征數(shù)據(jù)。
本發(fā)明的另一實(shí)施例中,每一壓縮內(nèi)容包括有表述聲音的幀,讀取為各幀所記錄的頻譜標(biāo)準(zhǔn)化系數(shù),和將頻譜標(biāo)準(zhǔn)化系數(shù)的瞬時(shí)變化用作為旋律信息的特征數(shù)據(jù)。
本發(fā)明的又一實(shí)施例中,每一壓縮內(nèi)容包括有多個(gè)對(duì)象,讀取為各對(duì)象所記錄的對(duì)象說明,和此對(duì)象說明中所用的一單詞的出現(xiàn)概率以及一單詞與其前面或后面單詞的組合的出現(xiàn)頻率被用作單詞信息的特征數(shù)據(jù)。
按照本發(fā)明的另一方面,提出一種多媒體數(shù)據(jù)檢索方法。此方法包括有步驟存儲(chǔ)多種壓縮內(nèi)容;經(jīng)客戶機(jī)終端輸入特征數(shù)據(jù);讀取由壓縮內(nèi)容提取的特征數(shù)據(jù)和存儲(chǔ)壓縮內(nèi)容的特征數(shù)據(jù);和在所存儲(chǔ)的特征數(shù)據(jù)中選擇接近于由客戶機(jī)終端輸入的特征數(shù)據(jù)的特征數(shù)據(jù),和由所存儲(chǔ)內(nèi)容檢索具有所選特征數(shù)據(jù)的內(nèi)容。
另一方面,本發(fā)明的多媒體檢測(cè)裝置包括有用于存儲(chǔ)多種內(nèi)容的內(nèi)容存儲(chǔ)部分;用于輸入特征說明文本的客戶機(jī)終端;用于從內(nèi)容存儲(chǔ)部分讀取內(nèi)容的特征數(shù)據(jù)和存儲(chǔ)內(nèi)容的特征數(shù)據(jù)的特征數(shù)據(jù)存儲(chǔ)部分;和內(nèi)容檢索部分,由通過客戶機(jī)終端輸入的特征說明文本提取一關(guān)鍵詞,將此關(guān)鍵詞變換成特征數(shù)據(jù),在存儲(chǔ)于特征數(shù)據(jù)存儲(chǔ)部分中的特征數(shù)據(jù)中選擇近似于關(guān)鍵詞的特征數(shù)據(jù)的特征數(shù)據(jù),和由內(nèi)容存儲(chǔ)部分檢索具有所選特征數(shù)據(jù)的內(nèi)容。
在本發(fā)明的一實(shí)施例中,內(nèi)容檢索部分包括有為將關(guān)鍵詞變換成特征數(shù)據(jù)的關(guān)鍵詞詞典,和利用關(guān)鍵詞詞典把由特征說明文本提取的關(guān)鍵詞變換成特征數(shù)據(jù)。
在本發(fā)明的另一實(shí)施例中,內(nèi)容檢索部分由特征說明文本提取要被用作關(guān)鍵詞的語言的主要部分。
在本發(fā)明的再一實(shí)施例中,內(nèi)容檢索部分利用內(nèi)容的形狀信息作為特征數(shù)據(jù)。
本發(fā)明的又一實(shí)施例中,內(nèi)容檢索部分利用內(nèi)容的顏色信息和亮度信息作為特征數(shù)據(jù)。
本發(fā)明的另一實(shí)施例中,內(nèi)容檢索部分利用內(nèi)容的運(yùn)動(dòng)信息作為特征數(shù)據(jù)。
本發(fā)明的再一實(shí)施例中,內(nèi)容檢索部分利用壓縮內(nèi)容的結(jié)構(gòu)信息作為特征數(shù)據(jù)。
另一方面,本發(fā)明的多媒體數(shù)據(jù)檢索方法包括步驟存儲(chǔ)多種內(nèi)容;通過客戶機(jī)終端輸入特征說明文本;讀取內(nèi)容的特征數(shù)據(jù)并存儲(chǔ)此特征數(shù)據(jù);和從通過客戶機(jī)輸入終端輸入的特征說明文本提取關(guān)鍵詞,將關(guān)鍵詞變換成特征數(shù)據(jù),在所存儲(chǔ)的特征數(shù)據(jù)中選擇近似于關(guān)鍵詞的特征數(shù)據(jù)的特征數(shù)據(jù),和由所存儲(chǔ)內(nèi)容檢索具有所選特征數(shù)據(jù)的內(nèi)容。
這樣,此處描述的發(fā)明即能夠具有優(yōu)點(diǎn)(1)提供能采用高級(jí)表達(dá)式高速度檢索內(nèi)容的多媒體數(shù)據(jù)檢索裝置;和(2)提供適用于這樣一裝置的檢索方法。
參照所列附圖閱讀和理解下述詳細(xì)說明之后熟悉本技術(shù)領(lǐng)域的人員將完全清楚本發(fā)明的這些和其他優(yōu)點(diǎn)。
圖1為說明按照本發(fā)明的示例1的多媒體內(nèi)容檢索裝置的結(jié)構(gòu)的視圖;圖2表示示例1中存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器內(nèi)的對(duì)象的特征數(shù)據(jù)項(xiàng)目;圖3表示示例1中壓縮內(nèi)容的數(shù)據(jù)結(jié)構(gòu);圖4為說明提取對(duì)象的形狀作為特征數(shù)據(jù)的處理的視圖;圖5為說明提取對(duì)象的形狀作為特征數(shù)據(jù)的另一替代處理的視圖;圖6為說明提取對(duì)象的亮度作為特征數(shù)據(jù)的處理的視圖;圖7為說明提取對(duì)象的色彩作為特征數(shù)據(jù)的處理的視圖;圖8為說明提取對(duì)象的運(yùn)動(dòng)信息作為特征數(shù)據(jù)的處理的視圖;圖9為說明提取對(duì)象的結(jié)構(gòu)信息作為特征數(shù)據(jù)的處理的視圖;圖10為說明示例1中壓縮音頻內(nèi)容的數(shù)據(jù)結(jié)構(gòu)的視圖;圖11為說明示例1中壓縮音頻內(nèi)容的數(shù)據(jù)結(jié)構(gòu)的視圖;圖12為說明示例1中壓縮多媒體內(nèi)容的數(shù)據(jù)結(jié)構(gòu)的視圖13為說明按照本發(fā)明示例2的多媒體內(nèi)容檢索裝置的結(jié)構(gòu)的視圖;圖14為示例2中存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器中的數(shù)據(jù)表;圖15為較詳細(xì)說明示例2中內(nèi)容檢索部分的結(jié)構(gòu)的視圖;圖16為示例2中存儲(chǔ)在關(guān)鍵詞詞典中的數(shù)據(jù)表;圖17為說明通常的多媒體內(nèi)容檢索系統(tǒng)的結(jié)構(gòu)的視圖;圖18為通常的系統(tǒng)中的數(shù)據(jù)表。
(示例1)圖1為說明按照本發(fā)明示例1的多媒體內(nèi)容檢索裝置,參看圖1,多媒體內(nèi)容檢索裝置10包括有內(nèi)容存儲(chǔ)部分1,內(nèi)容檢索部分2,客戶機(jī)終端3,和通信線路41和42。內(nèi)容存儲(chǔ)部分1存儲(chǔ)表述圖象、聲音等的多種編碼壓縮內(nèi)容。內(nèi)容檢索部分2為檢索內(nèi)容訪問內(nèi)容存儲(chǔ)部分1??蛻魴C(jī)終端3請(qǐng)求內(nèi)容檢索部分2檢索內(nèi)容。正常情況,將多個(gè)內(nèi)容存儲(chǔ)部分1和多個(gè)客戶機(jī)終端3通過通信線路連接以使得每一客房機(jī)終端3能通過內(nèi)容檢索部分2訪問任一內(nèi)容存儲(chǔ)部分1。
內(nèi)容存儲(chǔ)部分1包括有一文件服務(wù)器12和一盤驅(qū)動(dòng)器13。盤驅(qū)動(dòng)器13在和由盤11上記錄和再現(xiàn)多個(gè)編碼壓縮內(nèi)容。文件服務(wù)器12控制盤驅(qū)動(dòng)器13以控制在和由盤11上記錄和再現(xiàn)內(nèi)容,和通過通信線路41進(jìn)行與外部終端的數(shù)據(jù)通信。
內(nèi)容檢索部分2包括有特征數(shù)據(jù)存儲(chǔ)器21,特征提取/檢索引擎22,和數(shù)據(jù)變換部分23。特征提取/檢索引擎22通過通信線路41訪問內(nèi)容存儲(chǔ)部分1,以便為各內(nèi)容由每一個(gè)存放在盤11中的多個(gè)內(nèi)容中所包括的多個(gè)對(duì)象提取特征數(shù)據(jù),和將所提取的對(duì)象的特征數(shù)據(jù)存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中。數(shù)據(jù)變換部分23通過通信線路42由客戶機(jī)終端3接收數(shù)據(jù)和將所接收數(shù)據(jù)變換成特征數(shù)據(jù)。
圖2表示要被存放進(jìn)特征數(shù)據(jù)存儲(chǔ)器21的對(duì)象的特征數(shù)據(jù)的示范項(xiàng)目。此示范性特征數(shù)據(jù)項(xiàng)包括有對(duì)象的形狀,顏色和亮度,運(yùn)動(dòng),結(jié)構(gòu),音調(diào),韻律,弦律,單字,等等。圖2僅表示應(yīng)以各自的格式表示的各個(gè)特征數(shù)據(jù)項(xiàng)的意義。至少一個(gè)特征數(shù)據(jù)項(xiàng)被按照對(duì)象的類型選作為用來作為對(duì)象的特征數(shù)據(jù)。
客戶機(jī)終端3包括有計(jì)算機(jī),鍵盤,存儲(chǔ)器,顯示器等。在由客戶機(jī)操作鍵盤等接收到數(shù)據(jù)后,客戶機(jī)終端3通過通信線路42將數(shù)據(jù)傳送到內(nèi)容檢索部分2的數(shù)據(jù)變換部分23。數(shù)據(jù)變換部分23將數(shù)據(jù)變換成與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)相同的格式,并將最后所得特征數(shù)據(jù)傳送到特征提取/檢索引擎22。特征提取/檢索引擎22搜索特征數(shù)據(jù)存儲(chǔ)器21以選擇最近似于所傳送的特征數(shù)據(jù)的特征數(shù)據(jù)和因而具有所選擇特征數(shù)據(jù)的對(duì)象,從而能確定包括有此對(duì)象的內(nèi)容。特征提取/檢索引擎22指示內(nèi)容存儲(chǔ)部分1的文件服務(wù)器12通過通信線路41檢索所確定內(nèi)容。文件服務(wù)器12由盤11讀取內(nèi)容,和通過內(nèi)容檢索部分2將內(nèi)容提供給客戶機(jī)終端3??蛻魴C(jī)終端3顯示、再生、或記錄所檢索內(nèi)容。
圖3為此例中一壓縮內(nèi)容的數(shù)據(jù)結(jié)構(gòu)的視圖。這一例中的內(nèi)容為表述圖象形狀、聲音等的多媒體內(nèi)容,它經(jīng)一壓縮編碼方法如MPEG壓縮。在內(nèi)容表述圖象時(shí),內(nèi)容的數(shù)據(jù)結(jié)構(gòu)包括有含有例如圖象的大小和壓縮方法的信息的標(biāo)題,去壓縮后的數(shù)據(jù)讀取比特率和數(shù)據(jù)顯示的幀率,和每次讀取的數(shù)據(jù)量。
在MPEG方法中,對(duì)于以8×8象素作為一單位的每一數(shù)據(jù)塊對(duì)圖象的各幀作離散余弦變換(DCT)。由DCT得的系數(shù)被順序編碼成按由DC成分到AC較高頻率成分的次序排列的可變長碼。在顏色圖象的情況下。采用4個(gè)相鄰的數(shù)據(jù)塊,以獲得4個(gè)指示輝度成分(Y)數(shù)據(jù)塊和每塊指示色度成分(Pb,Pr),它們?cè)跀?shù)據(jù)結(jié)構(gòu)中順序排列并被稱之為作為一單元的宏塊??墒勾撕陦K進(jìn)行運(yùn)動(dòng)補(bǔ)償予測(cè)偏碼以便能對(duì)幀之間的運(yùn)動(dòng)進(jìn)行補(bǔ)償。在這種情況下,在一用于運(yùn)動(dòng)補(bǔ)償?shù)倪\(yùn)動(dòng)向量上的數(shù)據(jù)被插入在數(shù)據(jù)結(jié)構(gòu)中各宏塊的頭部。
在MPEG4壓縮方法中,幀中的圖象被分成為一表述例如說在前景中的人物的層和一表述例如說在背景中的山之類的層。各層圖象的最重要部分稱之為對(duì)象,而且僅僅對(duì)應(yīng)于此最重要部分的宏塊才被加以記錄。對(duì)象的形狀可以由包括此對(duì)象的區(qū)域中象素的透明性加以鑒別的。對(duì)各宏塊這樣的形狀數(shù)據(jù)被加以編碼和被插入在運(yùn)動(dòng)向量數(shù)據(jù)前一位置上。
MPEG4的細(xì)節(jié)說明在ISO/IEC 14496-1,-2,-3,國際標(biāo)準(zhǔn)的最后委員會(huì)草案(May 1998)中。
下面將詳細(xì)說明從經(jīng)上述MPEG方法壓縮的內(nèi)容提取特征數(shù)據(jù)和利用特征數(shù)據(jù)檢索內(nèi)容的方法。
在提取一對(duì)象的形狀作為特征數(shù)據(jù)的情況下,內(nèi)容檢索部分2的特征提取/檢索引擎22順序掃描存放在內(nèi)容存儲(chǔ)部分1的盤11中的壓縮內(nèi)容,以讀取對(duì)應(yīng)宏塊中所表述對(duì)象的形狀。同時(shí),特征提取/檢索引擎22為存儲(chǔ)特征數(shù)據(jù)在特征數(shù)據(jù)存儲(chǔ)器21中固定一個(gè)由與一幀中的宏塊數(shù)相同的比特?cái)?shù)組成的存儲(chǔ)器區(qū)。例如,參看圖4,如果一宏塊MB中的所有象素都指示“0”(透明),則對(duì)應(yīng)于這一宏塊MB的特征數(shù)據(jù)位CB被設(shè)定在“0”。同樣,如果宏塊MB包括有指示“1”(不透明)的象素,亦即,如果宏塊MB表述的一個(gè)對(duì)象,則將對(duì)應(yīng)于這一宏塊MB的特征數(shù)據(jù)位CB設(shè)定為“1”。就這樣得到指明對(duì)象形狀的特征數(shù)據(jù)。從而對(duì)所有存儲(chǔ)在盤11中的多媒體內(nèi)容提取對(duì)象的形狀,并將指明對(duì)象的形狀的特征數(shù)據(jù)被順序存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中。
當(dāng)客戶企圖檢索含有所希望形狀的對(duì)象的內(nèi)容時(shí),客戶輸入指明所希望形狀的數(shù)據(jù)到客戶機(jī)終端3??蛻魴C(jī)終端3將此指明形狀的數(shù)據(jù)發(fā)送給內(nèi)容檢索部分2的數(shù)據(jù)據(jù)變換部分23。指明形狀的數(shù)據(jù)可以是手寫數(shù)據(jù)或者與存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)相同格式的數(shù)據(jù)。如果由客戶機(jī)終端3發(fā)送的數(shù)據(jù)為手寫數(shù)據(jù),數(shù)據(jù)變換部分23判斷由此數(shù)據(jù)指明的形狀,將此被判定出的形狀變換成特征數(shù)據(jù),和將此經(jīng)變換的特征數(shù)據(jù)傳送到特征提取/檢索引擎22。如果由客戶機(jī)終端3發(fā)送的數(shù)據(jù)與存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)格式相同,數(shù)據(jù)變換部分23即將此特征數(shù)據(jù)傳送到特征提取/檢索引擎22。特征提取/檢索引擎22搜索特征數(shù)據(jù)存儲(chǔ)器21以選擇一具有最接近由客戶機(jī)終端3所發(fā)送的特征數(shù)據(jù)的特征數(shù)據(jù)的對(duì)象,從而確定包括有此對(duì)象的內(nèi)容。特征提取/檢索引擎22指示內(nèi)容存儲(chǔ)部分1的文件服務(wù)器12檢索被確定的內(nèi)容。文件服務(wù)器12由盤11讀取內(nèi)容,并通過內(nèi)容檢索部分2將內(nèi)容提供給客戶機(jī)終端3。
用于取得最近似的特征數(shù)據(jù)的方法如下述。將由客戶機(jī)終端3所發(fā)送的特征數(shù)據(jù)的各比特與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)的對(duì)應(yīng)比特相比較,以獲得對(duì)所有比特位的對(duì)應(yīng)二比特值之間的差的絕對(duì)值,然后計(jì)算機(jī)絕對(duì)值(差)的總和。這種計(jì)算對(duì)所有存放在特征數(shù)據(jù)存儲(chǔ)器21中的形狀特征數(shù)據(jù)進(jìn)行,而將具有最小總和的特征數(shù)據(jù)指定作為最接近的特征數(shù)據(jù)。
在內(nèi)容的形狀由如圖5中所示的計(jì)算機(jī)圖形線—框模式的頂點(diǎn)的座標(biāo)指明和該內(nèi)容由MPEG4的網(wǎng)格編碼方法壓縮的情況下,內(nèi)容檢索部分2的特征提取/檢索引擎22提取存儲(chǔ)在內(nèi)容存儲(chǔ)部分1的盤11中的所有壓縮內(nèi)容的網(wǎng)格編碼數(shù)據(jù)作為各自的特征數(shù)據(jù),和將被提取的特征數(shù)據(jù)存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中。
在由客戶機(jī)終端3接收到網(wǎng)格編碼數(shù)據(jù)作為特征數(shù)據(jù)后,特征提取/檢索引擎22搜索特征數(shù)據(jù)存儲(chǔ)器21以選擇具有與由客戶機(jī)終端3所發(fā)送的特征數(shù)據(jù)差別最小的特征數(shù)據(jù)和確定具有被選擇特征數(shù)據(jù)的內(nèi)容。特征提取/檢索引擎22指示內(nèi)容存儲(chǔ)部分1的文件服務(wù)器12檢索所確定的內(nèi)容。文件服務(wù)器12由盤11讀取內(nèi)容,和將內(nèi)容通過內(nèi)容檢索部分2提供給客戶機(jī)終端3。
在提取對(duì)象的顏色和亮度作為特征數(shù)據(jù)的情況下,內(nèi)容檢索部分2的特征提取/檢索引擎22掃描存放在內(nèi)容存儲(chǔ)部分1的盤11中的壓縮內(nèi)容,以對(duì)各宏塊順序地讀取輝度成分(Y)的DC成分以及色度成分(Pb,Pr)的DC成分。同時(shí),特征提取/檢索引擎22為存放特征數(shù)據(jù)在特征數(shù)據(jù)存儲(chǔ)器21中固定一個(gè)由三倍于對(duì)象中的宏塊數(shù)量的位數(shù)所組成的區(qū)域。然后如圖6中所示,計(jì)算例如對(duì)各宏塊MB的各輝度成分(Y)的DC成分的平均,和將最后得的宏塊MB的平均作為特征數(shù)據(jù)存儲(chǔ)在存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中。也如圖7中所示,例如得到對(duì)各宏塊MB的各色度(Pb,Pr)的DC成分作為特征數(shù)據(jù)并存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中。這樣,得到作為一對(duì)象的特征數(shù)據(jù)關(guān)于亮度和顏色的信息。以這種方式,對(duì)存儲(chǔ)在盤11中的所有多媒體內(nèi)容提取顏色和亮度信息,和順次存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中。
當(dāng)客戶企圖檢索一包括有所希望亮度和色彩的對(duì)象的內(nèi)容時(shí),客戶輸入指明所希望亮度和顏色的數(shù)據(jù)到客戶終端3??蛻艚K端3發(fā)送指明此亮度和顏色的數(shù)據(jù)到內(nèi)容檢索部分2的數(shù)據(jù)變換部分23。此指明亮度和顏色的數(shù)據(jù)可以是手寫數(shù)據(jù)或者是與存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)相同格式的數(shù)據(jù)。如果由客戶終端3發(fā)送的數(shù)據(jù)是手寫數(shù)據(jù),數(shù)據(jù)變換部分23判別被數(shù)據(jù)指明的亮度和顏色,將經(jīng)判斷的亮度和顏色變換成特征數(shù)據(jù),和傳送經(jīng)變換的特征數(shù)據(jù)到特征提取/檢索引擎22。如果由客戶終端3發(fā)送的數(shù)據(jù)為與特征數(shù)據(jù)存儲(chǔ)器21中存儲(chǔ)的特征數(shù)據(jù)相同格式,數(shù)據(jù)變換部分23傳送特征數(shù)據(jù)到特征提取/檢索引擎22。特征提取/檢索引擎22搜索特征數(shù)據(jù)存儲(chǔ)器21以選擇具有最近似于由客戶終端3發(fā)送的指明亮度和顏色的特征數(shù)據(jù)的特征數(shù)據(jù)的對(duì)象來確定包括有此對(duì)象的內(nèi)容。特征提取/檢索引擎22指示內(nèi)容存儲(chǔ)部分1的文件服務(wù)器12檢索所確定的內(nèi)容。文件服務(wù)器12由盤11讀取內(nèi)容,并通過內(nèi)容檢索部分2將內(nèi)容提供給客戶終端3。
用于獲取此最近似特征的方法如下。將由客戶終端3發(fā)射的特征數(shù)據(jù)的各個(gè)比特與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)的對(duì)應(yīng)比特加以比較,以得到對(duì)所有比特的對(duì)應(yīng)二比特間的差的絕對(duì)值,然后計(jì)算此絕對(duì)值的總和。對(duì)存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中的所有特征數(shù)據(jù)進(jìn)行這一計(jì)算,而將提供最小總和值的特征數(shù)據(jù)指定作為最接近特征數(shù)據(jù)。
在提取對(duì)象的運(yùn)動(dòng)作為特征數(shù)據(jù)的情況下,內(nèi)容檢索部分2的特征提取/檢索引擎22順序掃描存儲(chǔ)在內(nèi)容存儲(chǔ)部分1的盤11中的壓縮內(nèi)容,以讀取對(duì)各宏塊MB的對(duì)象的運(yùn)動(dòng)的值,然后計(jì)算此值的平均,如圖8中所示,如此來將暫時(shí)變化平均值存入特征數(shù)據(jù)存儲(chǔ)器21作為運(yùn)動(dòng)信息的特征數(shù)據(jù)。
當(dāng)客戶企圖檢索含有所希望運(yùn)動(dòng)的對(duì)象的內(nèi)容時(shí),客戶輸入指明所希望運(yùn)動(dòng)的數(shù)據(jù)到客戶終端3??蛻艚K端3發(fā)送指明此運(yùn)動(dòng)的數(shù)據(jù)到內(nèi)容檢索部分2的數(shù)據(jù)變換部分23。此指明運(yùn)動(dòng)的數(shù)據(jù)可以是手寫數(shù)據(jù)或者是與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)相同格式的數(shù)據(jù)。如果由客戶終端3發(fā)射的數(shù)據(jù)是手寫數(shù)據(jù),數(shù)據(jù)變換部分23判別由數(shù)據(jù)指明的運(yùn)動(dòng),將被判斷的運(yùn)動(dòng)變換成特征數(shù)據(jù),并將變換的特征數(shù)據(jù)傳送到特征提取/檢索引擎22。如果由客戶終端3發(fā)送的數(shù)據(jù)與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)格式相同,數(shù)據(jù)變換部分23將此特征數(shù)據(jù)傳送到特征提取/檢索引擎22。特征提取/檢索引擎搜索特征數(shù)據(jù)存儲(chǔ)器21以選擇具有最接近由客戶終端3發(fā)送的指明運(yùn)動(dòng)的特征數(shù)據(jù)的特征數(shù)據(jù)的對(duì)象和確定含有此對(duì)象的內(nèi)容。特征提取/檢索引擎22指示內(nèi)容存儲(chǔ)部分1的文件服務(wù)器12檢索此內(nèi)容。文件服務(wù)器12由盤11讀取內(nèi)容,并將內(nèi)容通過內(nèi)容檢索部分2提供到客戶終端3。
用于獲取此最近似特征數(shù)據(jù)的方法如下。將由客戶終端3發(fā)送的特征數(shù)據(jù)的各比特(位)與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)的對(duì)應(yīng)比特加以比較,以得到對(duì)所有比特的對(duì)應(yīng)二比特值之間的差的絕對(duì)值,然后計(jì)算此絕對(duì)值的總和。以這種方式對(duì)存放在特征數(shù)據(jù)存儲(chǔ)器21中的所有特征數(shù)據(jù)進(jìn)行這種絕對(duì)值總和的計(jì)算,并將提供最小總和值的特征數(shù)據(jù)指定作為最近似的特征數(shù)據(jù)。
在提取對(duì)象的結(jié)構(gòu)信息作為特征數(shù)據(jù)的情況下,內(nèi)容檢索部分2的特征提取/檢索引擎22順序掃描存放在內(nèi)容存放部分1的盤11中的壓縮內(nèi)容以讀取如圖9所示的各宏塊的輝度成分的DC成分和AC成分以及色度成分的DC成分和AC成分,來得到對(duì)整個(gè)對(duì)象的輝度成分的DC成分平均值和AC成分的平均值以及色度成分的DC成分平均值和AC成分平均值。所得結(jié)果平均值被作為結(jié)構(gòu)信息的特征數(shù)據(jù)存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中。以這種方式,對(duì)存放在盤11中的所有多媒體內(nèi)容提取結(jié)構(gòu)信息,順序存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中。
當(dāng)客戶企圖檢索包含具有所希望結(jié)構(gòu)的對(duì)象的內(nèi)容時(shí),客戶輸入指明所希望結(jié)構(gòu)的數(shù)據(jù)到客戶機(jī)終端3。客戶機(jī)終端3將指明結(jié)構(gòu)的數(shù)據(jù)傳送到內(nèi)容檢索部分2的數(shù)據(jù)變換部分23。此指明結(jié)構(gòu)的數(shù)據(jù)可以是手寫數(shù)據(jù)或者是與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)相同格式的數(shù)據(jù)。如果由客戶機(jī)終端3所發(fā)送的數(shù)據(jù)是手寫數(shù)據(jù),數(shù)據(jù)變換部分23判別由此數(shù)據(jù)指明的結(jié)構(gòu),將經(jīng)判斷的結(jié)構(gòu)變換成特征數(shù)據(jù),和傳送變換的特征數(shù)據(jù)給特征提取/檢索引擎22。如果由客戶機(jī)終端3所發(fā)送數(shù)據(jù)與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)格式相同,數(shù)據(jù)變換部分23將此特征數(shù)據(jù)傳送給特征提取/檢索引擎22。特征提取/檢索引擎22搜索特征數(shù)據(jù)存儲(chǔ)器21以選擇具有最接近由客戶機(jī)終端3發(fā)送的指明此結(jié)構(gòu)的特征數(shù)據(jù)的特征數(shù)據(jù)的對(duì)象并確定含有對(duì)象的內(nèi)容。特征提取/檢索引擎22指示內(nèi)容存儲(chǔ)部分1的文件服務(wù)器12檢索此內(nèi)容。文件服務(wù)器12由盤11讀取此內(nèi)容,并將此內(nèi)容通過內(nèi)容檢索部分2提供給客戶機(jī)終端3。
用于獲取最近似特征數(shù)據(jù)的方法如下。將由客戶機(jī)終端3所發(fā)送特征數(shù)據(jù)的各比特與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)的對(duì)應(yīng)比特相比較,以得到對(duì)所有比特的對(duì)應(yīng)二比特值之間的差的絕對(duì)值然后計(jì)算絕對(duì)值的總和。對(duì)全部存放在特征數(shù)據(jù)存儲(chǔ)器21中的所有特征數(shù)據(jù)進(jìn)行這一計(jì)算,和指定提供最小總和值的特征數(shù)據(jù)作為最近似的特征數(shù)據(jù)。
圖10為此例中一壓縮音頻內(nèi)容的數(shù)據(jù)結(jié)構(gòu)視圖。音頻數(shù)據(jù)結(jié)構(gòu)包括有一包含如聲音的長度和壓縮方法的信息的標(biāo)題,去壓縮后數(shù)據(jù)讀取比特率和再生數(shù)據(jù)的速度,和一次要讀取的數(shù)據(jù)(幀)的量。在MPEG4受激線性予測(cè)音頻編碼(CELD)的代碼中,在聲音由線性予測(cè)編碼(LPC)予測(cè)時(shí)所得到的予測(cè)系數(shù)被作為音調(diào)信息編碼。予測(cè)誤差被分開地作為聲源信息(幅值信息)進(jìn)行編碼,并以予定的時(shí)間間隔(對(duì)各幀)與音調(diào)信息成對(duì)地配置。
現(xiàn)在說明由具有上述結(jié)構(gòu)的壓縮音頻內(nèi)容的數(shù)據(jù)提取特征數(shù)據(jù)的方法。
在提取一對(duì)象的音調(diào)信息作為特征數(shù)據(jù)的情況下,內(nèi)容檢索部分2順序掃描存放在內(nèi)容存儲(chǔ)部分1的盤11中的壓縮內(nèi)容以讀取針對(duì)各幀的每一內(nèi)容的LPC系數(shù),與取得對(duì)各幀的LPC系數(shù)的平均值和將此平均值作為音調(diào)信息的特征數(shù)據(jù)存入特征數(shù)據(jù)存儲(chǔ)器21。以這種方式,對(duì)存儲(chǔ)在盤11中的所有多媒體內(nèi)容提取音調(diào)信息,順序存放進(jìn)特征數(shù)據(jù)存儲(chǔ)器21。
當(dāng)客戶企圖檢索包含具有所希望音調(diào)的對(duì)象的內(nèi)容時(shí),客戶輸入指明所希望音調(diào)的數(shù)據(jù)到客戶機(jī)終端3??蛻魴C(jī)終端3將此指明音調(diào)的數(shù)據(jù)發(fā)送給內(nèi)容檢索部分2的數(shù)據(jù)變換部分23。此指明音調(diào)的數(shù)據(jù)可以是指明作蜂鳴音的音調(diào)或者是與存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)的相同格式的數(shù)據(jù)。如果由客戶機(jī)終端3所發(fā)送數(shù)據(jù)為指明該音調(diào)的數(shù)據(jù),數(shù)據(jù)變換部分23將此指明該音調(diào)的數(shù)據(jù)變換成特征數(shù)據(jù),并傳送經(jīng)變換的特征數(shù)據(jù)到特征提取/檢索引擎22。如果由客戶機(jī)張端3發(fā)送的數(shù)據(jù)為與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)格式相同,數(shù)據(jù)變換部分23將此特征數(shù)據(jù)傳送到特征提取/檢索引擎22。特征提取/檢索引擎22搜索特征數(shù)據(jù)存儲(chǔ)器21以選擇具有最接近由客戶機(jī)終端3所發(fā)送的指明該音調(diào)的特征數(shù)據(jù)的特征數(shù)據(jù)的對(duì)象并確定包含此對(duì)象的內(nèi)容。特征提取/檢索引擎22指示內(nèi)容存儲(chǔ)部分1的文件服務(wù)器12檢索所確定的內(nèi)容。文件服務(wù)器12由盤11讀取此內(nèi)容,并通過內(nèi)容檢索部分2將此內(nèi)容提供給客戶機(jī)終端3。
用于獲得此最近似的特征數(shù)據(jù)的方法如下。將由客戶機(jī)終端3所發(fā)送的作為特征數(shù)據(jù)的各幀的LPC系數(shù)的平均值與作為特征數(shù)據(jù)存放在特征數(shù)據(jù)存儲(chǔ)器21中的各幀的LPC系數(shù)的平均值加以比較,以得到對(duì)應(yīng)二平均值之間的差的絕對(duì)值然后計(jì)算此絕對(duì)值的總和。對(duì)所有存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)進(jìn)行這種計(jì)算,而指定提供最小總和(差值)的特征數(shù)據(jù)作為最近似的特征數(shù)據(jù)。
在提取對(duì)象的韻律信息作為特征數(shù)據(jù)的情況下,內(nèi)容檢索部分2順序掃描存放在內(nèi)容存儲(chǔ)部分1的盤11中的壓縮內(nèi)容以讀取對(duì)各幀的每一內(nèi)容的予測(cè)殘留值(幅度中的變化)和將此值作為韻律信息的特征值存儲(chǔ)進(jìn)特征存儲(chǔ)器21。這樣,對(duì)盤11中存儲(chǔ)的所有多媒體內(nèi)容提取韻律信息,順次存儲(chǔ)進(jìn)特征數(shù)據(jù)存儲(chǔ)器21。
當(dāng)客戶企圖檢索包含一具有所希望的韻律的對(duì)象的內(nèi)容時(shí),客戶輸入韻律信息到客戶機(jī)終端3??蛻魴C(jī)終端3發(fā)送此韻律信息到內(nèi)容檢索部分2的數(shù)據(jù)變換部分23。此韻律信息可以是指明一作蜂鳴韻律的數(shù)據(jù)或者是與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)相同格式的數(shù)據(jù)。如果由客戶機(jī)終端3發(fā)送的數(shù)據(jù)是指明韻律的數(shù)據(jù),數(shù)據(jù)變換部分23將指明韻律的數(shù)據(jù)變換成特征數(shù)據(jù),和將變換的特征數(shù)據(jù)傳送到特征提取/檢索引擎22。如果由客戶機(jī)終端3發(fā)送的數(shù)據(jù)與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)格式相同,數(shù)據(jù)變換部分23傳送此特征數(shù)據(jù)到特征提取/檢索部分22。特征提取/檢索引擎22搜索特征數(shù)據(jù)存儲(chǔ)器21以選擇具有最接近由客戶機(jī)終端3所發(fā)送的指明韻律的特征數(shù)據(jù)的特征數(shù)據(jù)的對(duì)象并確定含有此對(duì)象的內(nèi)容。特征提取/檢索引擎22指示內(nèi)容存儲(chǔ)部分1的文件服務(wù)器12檢索此內(nèi)容。文件服務(wù)器12由盤11讀取此內(nèi)容,并將此內(nèi)容通過內(nèi)容檢索部分2提供給客戶機(jī)終端3。
用于獲取此最接近特征數(shù)據(jù)的方法如下。將由客戶機(jī)終端3所發(fā)送的作為特征數(shù)據(jù)的針對(duì)各幀的予測(cè)殘留值(幅度中的變化)與作為特征數(shù)據(jù)存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中的針對(duì)各幀的予測(cè)殘留值(幅度中的變化)相比較,以得到對(duì)應(yīng)二值間的差的絕對(duì)值然后計(jì)算此絕對(duì)值的總和。對(duì)所有存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)進(jìn)行這種計(jì)算,而指定提供最小總和(差值)的特征數(shù)據(jù)作為最接近特征數(shù)據(jù)。
在提取一對(duì)象的旋律信息作為特征數(shù)據(jù)的情況下,內(nèi)容檢索部分2順序掃描存放在內(nèi)容存儲(chǔ)部分1的盤11中的壓縮內(nèi)容以讀取對(duì)各幀的內(nèi)容的LPC系數(shù),由此來取得對(duì)各幀的LPC系數(shù)的瞬時(shí)變化并將此瞬時(shí)變化作為旋律信息的特征數(shù)據(jù)存入特征數(shù)據(jù)存儲(chǔ)器21。這樣對(duì)所有存放在盤11中的多媒體內(nèi)容提取旋律信息,并順序存儲(chǔ)進(jìn)特征數(shù)據(jù)存儲(chǔ)器21。
當(dāng)客戶企圖檢索含有具有一所希望旋律的對(duì)象的內(nèi)容時(shí),客戶輸入指明此旋律的數(shù)據(jù)到客戶終端3??蛻艚K端3將指明此旋律的數(shù)據(jù)發(fā)送到內(nèi)容檢索部分2的數(shù)據(jù)變換部分23。此指明旋律的數(shù)據(jù)可以是指明一作蜂鳴聲旋律的數(shù)據(jù)或者是與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)相同格式的數(shù)據(jù)。如果客戶終端3所發(fā)送的數(shù)據(jù)是指明一旋律的數(shù)據(jù),數(shù)據(jù)變換部分23將此指明旋律的數(shù)據(jù)變換成特征數(shù)據(jù),并將變換的特征數(shù)據(jù)傳送到特征提取/檢索引擎22。如果由客戶終端3發(fā)送的數(shù)據(jù)與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)為格式相同,數(shù)據(jù)變換部分23將此特征數(shù)據(jù)傳送到特征提取/檢索引擎22。特征提取/檢索引擎22搜索特征數(shù)據(jù)存儲(chǔ)器21以選擇具有最接近由客戶終端3所發(fā)送的指明旋律的特征數(shù)據(jù)的特征數(shù)據(jù)的對(duì)象和確定包含此對(duì)象的內(nèi)容。特征提取/檢索引擎22指示內(nèi)容存儲(chǔ)部分1的文件服務(wù)器12檢索所確定的內(nèi)容。文件服務(wù)器12由盤11讀取此內(nèi)容,并通過內(nèi)容檢索部分2將此內(nèi)容提供給客戶終端3。
用于獲取此最接近特征數(shù)據(jù)的方法如下。將作為特征數(shù)據(jù)由客戶終端3所發(fā)送的對(duì)各幀的LPC系數(shù)的瞬時(shí)變化與作為特征數(shù)據(jù)被存放在特征數(shù)據(jù)存儲(chǔ)器21中的對(duì)各幀的LPC系數(shù)的瞬時(shí)變化加以比較以得到對(duì)應(yīng)二值間的差的絕對(duì)值,然后計(jì)算此絕對(duì)值的總和。對(duì)存放在特征數(shù)據(jù)存儲(chǔ)器21中的所有特征數(shù)據(jù)進(jìn)行這種計(jì)算,而指定提供最小總和(差值)的特征數(shù)據(jù)作為最接近特征數(shù)據(jù)。
圖11說明此例中的壓縮音頻內(nèi)容的數(shù)據(jù)結(jié)構(gòu)。音頻數(shù)據(jù)結(jié)構(gòu)包括有包含如音頻信號(hào)的采樣頻率和壓縮方法等信息的標(biāo)題,在去壓縮后數(shù)據(jù)的讀取的比特率和數(shù)據(jù)的再生速度,和一次要讀取的數(shù)據(jù)量(幀)。在MPEG4的時(shí)間/頻率變換編碼中,音頻信號(hào)的頻譜由頻率分析等進(jìn)行分析以提取其頻譜包絡(luò)值。將此被提取的值加以編碼作為頻譜標(biāo)準(zhǔn)化系數(shù)。此所提取的值還被用來標(biāo)準(zhǔn)化頻率成分。較具體說,通過對(duì)音頻信號(hào)進(jìn)行修正離散余弦變換(MDCT)得到一頻率成分,以這一所提取值相除來標(biāo)準(zhǔn)化頻率成分的幅值。以予測(cè)編碼來降低標(biāo)準(zhǔn)化頻率成分的瞬時(shí)冗余度,而在通道之間它們的冗余度則由通道間的予測(cè)編碼來降低。經(jīng)這樣處理的頻率成分被加以量化和可變長編碼,而所得值被對(duì)各個(gè)時(shí)間周期(幀)連同頻譜標(biāo)準(zhǔn)化系數(shù)作順序排列。
現(xiàn)在說明從具有上述結(jié)構(gòu)的壓縮音頻內(nèi)容提取特征數(shù)據(jù)的方法。
在提取一對(duì)象的音調(diào)信息作為特征數(shù)據(jù)的情況下,內(nèi)容檢索部分2順序掃描存放在內(nèi)容存儲(chǔ)部分1的盤11中的壓縮內(nèi)容以讀取對(duì)各幀的每一個(gè)內(nèi)容的頻譜標(biāo)準(zhǔn)化系數(shù),由此來得到對(duì)各予定時(shí)間期間的頻譜標(biāo)準(zhǔn)化系數(shù)的平均值并將此平均值存儲(chǔ)進(jìn)特征數(shù)據(jù)存儲(chǔ)器21作為音調(diào)信息的特征數(shù)據(jù)。這樣,對(duì)盤11中存放的所有多媒體內(nèi)容提取音調(diào)信息,順序存儲(chǔ)進(jìn)特征數(shù)據(jù)存儲(chǔ)器21。
當(dāng)客戶企圖檢索一包含具有所希望音調(diào)的對(duì)象的內(nèi)容時(shí),客戶輸入指明所希望音調(diào)的數(shù)據(jù)到客戶機(jī)終端3。客戶機(jī)終端3發(fā)送指明此音調(diào)的數(shù)據(jù)給內(nèi)容檢索部分2的數(shù)據(jù)變換部分23。此指明音調(diào)的數(shù)據(jù)可以是指明作蜂鳴的音調(diào)的數(shù)據(jù)或者是與存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)同一格式的數(shù)據(jù)。如果由客房機(jī)終端3所發(fā)送的數(shù)據(jù)是指明一音調(diào)的數(shù)據(jù),數(shù)據(jù)變換部分23將此指明一音調(diào)的數(shù)據(jù)變換成特征數(shù)據(jù),并將變換的特征數(shù)據(jù)傳送到特征提取/檢索引擎22。如果由客戶機(jī)終端3發(fā)送的數(shù)據(jù)與存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)格式相同,數(shù)據(jù)變換部分23傳送此特征數(shù)據(jù)給特征提取/檢索引擎22。特征提取/檢索引擎22搜索特征數(shù)據(jù)存儲(chǔ)器21以選擇一具有最接近由客戶機(jī)終端3所發(fā)送的指明音調(diào)的特征數(shù)據(jù)的特征數(shù)據(jù)的對(duì)象并確定包含此對(duì)象的內(nèi)容。特征提取/檢索引擎22指示內(nèi)容存儲(chǔ)部分1的文件服務(wù)器12檢索被確定的內(nèi)容。文件服務(wù)器12由盤11讀取此內(nèi)容,并將其通過內(nèi)容檢索部分2提供給客戶機(jī)終端3。
用于獲取最接近的特征數(shù)據(jù)方法如下。將作為特征數(shù)據(jù)由客戶機(jī)終端3發(fā)送的在各予定時(shí)間期間內(nèi)頻譜標(biāo)準(zhǔn)化系數(shù)的平均值與作為特征值存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器上的各預(yù)定時(shí)間期間的頻譜標(biāo)準(zhǔn)化系數(shù)的平均值進(jìn)行比較,以得到對(duì)應(yīng)二平均值之間的差的絕對(duì)值,然后計(jì)算此絕對(duì)值的總和。對(duì)所有存儲(chǔ)在此特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)進(jìn)行這一計(jì)算,而指定提供最小總和(差值)的特征數(shù)據(jù)作為最接近特征數(shù)據(jù)。
在提取一對(duì)象的韻律信息作為特征數(shù)據(jù)的情況下,內(nèi)容檢索部分2順序掃描存儲(chǔ)在內(nèi)容存儲(chǔ)部分1的盤11中的壓縮內(nèi)容以讀取對(duì)各幀的每一內(nèi)容的頻譜標(biāo)準(zhǔn)化后的頻率成分值(幅度中的變化)并將此頻率成分值存儲(chǔ)進(jìn)特征數(shù)據(jù)存儲(chǔ)器21作為韻律信息的特征數(shù)據(jù)。以這種方式,對(duì)所有存放在盤11中的多媒體內(nèi)容提取韻律信息,順序存儲(chǔ)進(jìn)特征數(shù)據(jù)存儲(chǔ)器21。
當(dāng)客戶企圖檢索包含具有所希望韻律的對(duì)象的內(nèi)容時(shí)客戶輸入韻律信息到客戶機(jī)終端3??蛻魴C(jī)終端3發(fā)送此韻律信息到內(nèi)容檢索部分2的數(shù)據(jù)變換部分23。此韻律信息可以是指明一作蜂鳴的韻律的數(shù)據(jù)或者是與存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)相同格式的的數(shù)據(jù)。如果由客戶機(jī)終端3發(fā)送的數(shù)據(jù)為指明一韻律的數(shù)據(jù),數(shù)據(jù)變換部分23將指明韻律的數(shù)據(jù)變換成特征數(shù)據(jù),和將變換的特征數(shù)據(jù)傳送給特征提取/檢索引擎22。如果由客戶機(jī)終端3發(fā)送的數(shù)據(jù)與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)格式相同,數(shù)據(jù)變換部分23傳送此特征數(shù)據(jù)到特征提取/檢索引擎22。特征提取/檢索引擎22搜索特征數(shù)據(jù)存儲(chǔ)器21以選擇具有最接近由客戶機(jī)終端3發(fā)送的指明韻律的特征數(shù)據(jù)的特征數(shù)據(jù)的對(duì)象并確定包含此對(duì)象的內(nèi)容。特征提取/檢索引擎22指示內(nèi)容存儲(chǔ)部分1的文件服務(wù)器12檢索此內(nèi)容。文件服務(wù)器12由盤11讀取此內(nèi)容,并通過內(nèi)容檢索部分2將此內(nèi)容提供給客戶機(jī)終端3。
用于獲得最接近特征數(shù)據(jù)的方法如下。將作為特征數(shù)據(jù)由客戶機(jī)終端3所發(fā)送的對(duì)各幀的頻譜標(biāo)準(zhǔn)化之后的頻率成分值(幅度中的變化)與作為特征數(shù)據(jù)被存放在特征數(shù)據(jù)存儲(chǔ)器21中的對(duì)各幀的頻譜標(biāo)準(zhǔn)化后的頻率成分值(幅度中的變化)加以比較,以得到對(duì)應(yīng)二值間的差的絕對(duì)值,然后計(jì)算此絕對(duì)值的總和。對(duì)存放在特征數(shù)據(jù)存儲(chǔ)器21中的所有特征數(shù)據(jù)進(jìn)行這一計(jì)算,而指定提供最小總和(差值)的特征數(shù)據(jù)作為最近似的特征數(shù)據(jù)。
在提取一對(duì)象的旋律信息作為特征數(shù)據(jù)的情況下,內(nèi)容檢索部分2順序掃描存放在內(nèi)容存儲(chǔ)部分1的盤11中的壓縮內(nèi)容以讀取對(duì)各幀的內(nèi)容的頻譜標(biāo)準(zhǔn)化系數(shù),由此來得到對(duì)各幀的頻譜標(biāo)準(zhǔn)化系數(shù)的瞬時(shí)變化和將此瞬時(shí)變化存儲(chǔ)進(jìn)特征數(shù)據(jù)存儲(chǔ)器21作為旋律信息的特征數(shù)據(jù)。這樣,對(duì)所有存放在盤11中的多媒體內(nèi)容提取旋律信息,順序存儲(chǔ)進(jìn)特征數(shù)據(jù)存儲(chǔ)器21。
當(dāng)客戶企圖檢索包含具有所希望旋律的對(duì)象的內(nèi)容時(shí),客戶輸入指明此旋律的數(shù)據(jù)到客戶機(jī)終端3??蛻魴C(jī)端3將此指明旋律的數(shù)據(jù)發(fā)送給內(nèi)容檢索部分2的數(shù)據(jù)變換部分23。此指明一旋律的數(shù)據(jù)可以是指明一作峰鳴的旋律的數(shù)據(jù)或者是與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)相同格式的數(shù)據(jù)。如果由客戶機(jī)終端3發(fā)送的數(shù)據(jù)是指明一旋律的數(shù)據(jù),數(shù)據(jù)變換部分23將此指明旋律的數(shù)據(jù)變換成特征數(shù)據(jù),并將變換的特征數(shù)據(jù)傳送到特征提取/檢索引擎22。如果由客戶機(jī)終端3發(fā)送的數(shù)據(jù)與存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)格式相同,數(shù)據(jù)變換部分23將此特征數(shù)據(jù)傳送給特征提取/檢索引擎22。特征提取/檢索引擎22搜索特征數(shù)據(jù)存儲(chǔ)器21以選擇具有最接近由客戶機(jī)終端3發(fā)送的指明旋律的特征數(shù)據(jù)的特征數(shù)據(jù)的對(duì)象和確定含有此對(duì)象的內(nèi)容。特征提取/檢索引擎22指示內(nèi)容存儲(chǔ)部分1的文件服務(wù)器12檢索所確定的內(nèi)容。文件服務(wù)器12由盤11讀取此內(nèi)容,并通過內(nèi)容檢索部分2將此內(nèi)容提供給客戶機(jī)終端3。
用于獲取最接近特征數(shù)據(jù)的方法如下。將作為特征數(shù)據(jù)由客戶機(jī)終端3所發(fā)送的對(duì)各幀的頻譜標(biāo)準(zhǔn)化系數(shù)的瞬時(shí)變化與作為特征數(shù)據(jù)存儲(chǔ)在特征數(shù)據(jù)數(shù)據(jù)存儲(chǔ)器21中的針對(duì)各幀的頻譜標(biāo)準(zhǔn)化系數(shù)的瞬時(shí)變化加以比較,以得到對(duì)應(yīng)二頻譜標(biāo)準(zhǔn)化系數(shù)間之差的絕對(duì)值,然后計(jì)算對(duì)各特征數(shù)據(jù)的此絕對(duì)值的總和。對(duì)所有存放在特征數(shù)據(jù)存儲(chǔ)器21中的特征數(shù)據(jù)進(jìn)行之一計(jì)算,而指定提供最小總和(差值)的特征數(shù)據(jù)作為最接近特征數(shù)據(jù)。
圖12說明這一示例中的壓縮多媒體內(nèi)容的數(shù)據(jù)結(jié)構(gòu)。在MPEG4編碼方法中,多媒體內(nèi)容由多個(gè)對(duì)象組成,和各對(duì)象在壓縮后加以記錄。每一壓縮對(duì)象數(shù)據(jù)均具有附著于它的對(duì)象說明,在此作為一文本說明對(duì)象的概要。
現(xiàn)在說明由具有上述結(jié)構(gòu)的壓縮內(nèi)容提取特征數(shù)據(jù)的方法。
這里將說明提取對(duì)象說明中發(fā)現(xiàn)的單詞信息作為特征數(shù)據(jù)的情況。內(nèi)容檢查部分2順序掃描內(nèi)容存儲(chǔ)部分1的盤11中存儲(chǔ)的壓縮內(nèi)容,讀取各對(duì)象的對(duì)象說明。更具體說,確定此對(duì)象說明中所用單詞的出現(xiàn)頻率以及一單詞與前面或隨后單詞的組合的出現(xiàn)頻率,將這些出現(xiàn)頻率作為單詞信息的特征數(shù)據(jù)存入特征數(shù)據(jù)存儲(chǔ)器21。這樣,對(duì)所有存儲(chǔ)在盤11中的多媒體內(nèi)容由對(duì)象說明提取單詞信息的特征數(shù)據(jù),順序存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器21中。
當(dāng)客戶企圖檢索具有包括一所希望單詞或單詞組合的對(duì)象說明的多媒體內(nèi)容時(shí),客戶輸入此單詞或單詞組合到客戶機(jī)終端3??蛻魴C(jī)終端3發(fā)送此單詞或單詞組合給內(nèi)容檢索部分2的數(shù)據(jù)變換部分23。內(nèi)容檢索部分2將單詞或單詞組合順序與存放在特征數(shù)據(jù)存儲(chǔ)器21中的單詞信息的特征數(shù)據(jù)相比較,以選擇具有客戶所希望的單詞或單詞組合的最高出現(xiàn)頻率的單詞信息的特征數(shù)據(jù),和確定具有所選擇特征數(shù)據(jù)的對(duì)象和因而包含此對(duì)象的內(nèi)容。內(nèi)容檢索部分2指示內(nèi)容存儲(chǔ)部分1的文件服務(wù)器12發(fā)送所確定的內(nèi)容。文件服務(wù)器12由盤11讀取此內(nèi)容,并通過內(nèi)容檢索部分2將此內(nèi)容提供給客戶機(jī)終端3。
上述的處理可以計(jì)算機(jī)程序的形式來實(shí)現(xiàn)。
這樣,在此例中,通過從每一壓縮內(nèi)容直接提取可預(yù)先生成作為檢索數(shù)據(jù)的特征數(shù)據(jù)。這使得容易檢索和提取具有所希望特征的內(nèi)容。
例如,可能根據(jù)形狀檢索一內(nèi)容,實(shí)現(xiàn)直觀檢索和提取所希望內(nèi)容。還能根據(jù)顏色和亮度檢索一內(nèi)容,實(shí)現(xiàn)難以用單詞表示的多媒體內(nèi)容的檢索和提取。而且可能按運(yùn)動(dòng)檢索一內(nèi)容,實(shí)現(xiàn)除靜止圖形信息外檢索和提取運(yùn)動(dòng)圖形的內(nèi)容。由結(jié)構(gòu)檢索一內(nèi)容也是可能的,實(shí)現(xiàn)具有復(fù)雜的形態(tài)的多媒體內(nèi)容的檢索和提取。例如,可能以音調(diào)來檢索一內(nèi)容,實(shí)現(xiàn)根據(jù)聲音檢索和提取音樂或語音內(nèi)容??赡芤皂嵚蓙頇z索內(nèi)容,實(shí)現(xiàn)直觀的音樂或語音內(nèi)容的檢索和提取。而且,可能以旋律來檢索內(nèi)容,實(shí)現(xiàn)語音或音樂內(nèi)容的直觀檢索和提取。而且,可通過內(nèi)容描述中使用的單詞進(jìn)行內(nèi)容的檢索,實(shí)現(xiàn)根據(jù)說明性的術(shù)語來提取和檢索多媒體內(nèi)容。
(示例2)圖13為說明按照本發(fā)明的示例2的多媒體內(nèi)容檢索裝置的結(jié)構(gòu)的視圖。參看圖13,多媒體內(nèi)容檢索裝置50包括有內(nèi)容存儲(chǔ)部分51,內(nèi)容檢索部分52,客戶機(jī)終端53,和通信線路91和92。內(nèi)容存儲(chǔ)部分51存儲(chǔ)表述圖象、聲音等多種壓縮內(nèi)容。內(nèi)容檢索部分52訪問內(nèi)容存儲(chǔ)部分51以檢索一內(nèi)容??蛻魴C(jī)終端53請(qǐng)求內(nèi)容檢索部分52檢索一內(nèi)容。正常情況,通過通信線路連接有多個(gè)內(nèi)容存儲(chǔ)部分51和多個(gè)客戶機(jī)終端53從而使得每一客戶機(jī)終端53能通過內(nèi)容檢索部分52訪問任一內(nèi)容存儲(chǔ)部分51。
內(nèi)容存儲(chǔ)部分51包括有一文件服務(wù)器62和一盤驅(qū)動(dòng)器63。盤驅(qū)動(dòng)器在和從盤61上記錄和再生多種壓縮內(nèi)容。文件服務(wù)器62控制盤驅(qū)動(dòng)器63以控制在和從盤61上記錄和再生內(nèi)容,并執(zhí)行通過通信線路91與外部終端的數(shù)據(jù)通信。
內(nèi)容檢索部分52通過通信線路91連接到內(nèi)容存儲(chǔ)部分51。內(nèi)容檢索部分52對(duì)存放在盤61中的所有內(nèi)容提取被包括在一內(nèi)容中的對(duì)象的特征,將將所提取的低級(jí)特征數(shù)據(jù)如形狀、顏色、亮度、和運(yùn)動(dòng)等存入特征數(shù)據(jù)存儲(chǔ)器71。
客戶機(jī)終端53包括有計(jì)算機(jī),鍵盤,存儲(chǔ)器,顯示器等。在接收到由客戶操作鍵盤之類描述一所希望內(nèi)容的特征的特征說明文本之后,客戶機(jī)終端53通過通信線路92將特征說明文本發(fā)送到內(nèi)容檢索部分52。
內(nèi)容檢索部分52從所接收的特征說明文本提取關(guān)鍵詞將其變換成低級(jí)特征數(shù)據(jù)。將所得的低級(jí)特征數(shù)據(jù)順序與存放在特征數(shù)據(jù)存儲(chǔ)器71中的特征數(shù)據(jù)相比較,以在特征數(shù)據(jù)存儲(chǔ)器71中所存儲(chǔ)的特征數(shù)據(jù)中選擇最接近被變換的特征數(shù)據(jù)的特征數(shù)據(jù),和確定具有所選特征數(shù)據(jù)的對(duì)象并因而包含此對(duì)象的內(nèi)容。內(nèi)容檢索部分52由內(nèi)容存儲(chǔ)部分51檢索所確定的內(nèi)容和將所檢索的內(nèi)容或此內(nèi)容在盤61上的記錄的地址送至客戶機(jī)終端53,從而實(shí)現(xiàn)為客戶所希望內(nèi)容的檢索。
圖5較詳細(xì)說明內(nèi)容檢索部分52的結(jié)構(gòu)。此內(nèi)容檢索部分52包括連接到通信線路91的特征提取/檢索引擎72;連接到特征提取/檢索引擎72的特征數(shù)據(jù)存儲(chǔ)器71;連接到通信線路92和特征提取/檢索引擎72的關(guān)鍵詞提取器/翻譯器74;和連接到關(guān)鍵詞提取器/翻譯器74的關(guān)鍵詞詞典73。
當(dāng)由客戶機(jī)終端53將特征說明文本提取給內(nèi)容檢索部分52時(shí),關(guān)鍵詞提取器/翻譯器74由特征說明文本提取關(guān)鍵詞。作為關(guān)鍵詞,由文本提取作為一名詞、動(dòng)作、形容詞、副詞等的單詞或單詞的組合。例如,當(dāng)一表達(dá)式“a scene where a person is running in the eveningsun(一個(gè)人在夕陽中跑步的情景)”被作為一特征說明文本輸入時(shí),由此特征說明文本中提取例如“Person(人)”、“running(跑)”和“evening sun(夕陽)”將所提取的單詞或單詞組合與如圖16中所示被注冊(cè)在關(guān)鍵詞詞典73中的關(guān)鍵詞相比較以查尋與每一個(gè)上述單詞和單詞組合相匹配的關(guān)鍵詞。假定關(guān)鍵詞“person”、“run”、“evening sun”等和如圖16中所示被注冊(cè)在關(guān)鍵詞詞典73中,與相應(yīng)單詞和單詞組合相符的關(guān)鍵即被檢索到。
關(guān)鍵詞提取器/翻譯器74將每一檢索得的關(guān)鍵詞利用關(guān)鍵詞詞典73變換成特征數(shù)據(jù)。例如,關(guān)鍵詞“evening sun”被變換成5個(gè)特征數(shù)據(jù)[形狀圓形;顏色紅;亮度192;運(yùn)動(dòng)(0,-1),結(jié)構(gòu)平滑]。關(guān)鍵詞“peson”被變換成4個(gè)特征數(shù)據(jù)[形狀象人的;顏色膚色;亮度128;結(jié)構(gòu)象皮膚]。關(guān)鍵詞“run”被變換成一個(gè)特征數(shù)據(jù)[運(yùn)動(dòng)(±10,0]。這些特征數(shù)據(jù)被送至特征提取/檢索引擎72。
特征提取/檢索引擎72將由關(guān)鍵詞提取器/翻譯器74提供的各關(guān)鍵詞的特征數(shù)據(jù)與如圖14中所示特征數(shù)據(jù)存儲(chǔ)器71中所存放的各對(duì)象的特征數(shù)據(jù)相比較,選擇具有最接近所提供的特征數(shù)據(jù)的特征數(shù)據(jù)的對(duì)象,確定包括有此對(duì)象的內(nèi)容,和指示內(nèi)容存儲(chǔ)部分51的文件服務(wù)器62檢索此內(nèi)容。文件服務(wù)器62由盤61讀取此內(nèi)容,并通過內(nèi)容檢索部分52將此內(nèi)容提供給客戶機(jī)終端53。另一方面,特征提取/檢索引擎72可提供此內(nèi)容在內(nèi)容存儲(chǔ)部分51的盤61上的地址給客戶機(jī)終端53。
對(duì)存放在特征數(shù)據(jù)存儲(chǔ)器71中的內(nèi)容的特征數(shù)據(jù)可以在產(chǎn)生此內(nèi)容期間生成,或者可以從內(nèi)容自動(dòng)地提取和加以存儲(chǔ)。
示例2中,如示例1那樣,由于表述圖象、聲音等的多媒體內(nèi)容的數(shù)據(jù)量極大,這些內(nèi)容正常情況在被記錄到內(nèi)容存儲(chǔ)部分51的盤61上之前均被如MPEG這樣的壓縮編碼方法加以壓縮。
因此,如在示例1中的特征提取/檢索引擎22中那樣,特征提取/檢索引擎72有可能順序掃描內(nèi)容存儲(chǔ)部分51的盤61中存儲(chǔ)的壓縮內(nèi)容,以提取對(duì)各對(duì)象的形狀、顏色和亮度、運(yùn)動(dòng)、結(jié)構(gòu)等作為對(duì)象的特征數(shù)據(jù)和將此特征數(shù)據(jù)存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器71中。以這種方式,可由所有存放在盤61中的多媒體內(nèi)容提取特征數(shù)據(jù)和順序存放進(jìn)特征數(shù)據(jù)存儲(chǔ)器71中,以便在特征數(shù)據(jù)存儲(chǔ)器71中建立如圖14中所示的數(shù)據(jù)存儲(chǔ)。在圖14和16中,對(duì)象項(xiàng)的形狀1表述由圖4中所示的宏塊提取的特征數(shù)據(jù)的形狀,和形狀2表述由圖5中所示的線一框模型提取的特征數(shù)據(jù)的形狀。
在如圖16中所示的關(guān)鍵詞詞典72中,為檢索多媒體內(nèi)容對(duì)所有予期會(huì)出現(xiàn)在特征說明文本中單詞和單詞組合予先注冊(cè)關(guān)鍵詞和特征數(shù)據(jù)。例如,對(duì)予期出現(xiàn)在特征說明文本中的單詞組合“eveningsun”,在關(guān)鍵詞詞典73中注冊(cè)關(guān)鍵詞“evening sun”、表述形狀的特征數(shù)據(jù)、表述顏色和亮度的特征數(shù)據(jù)、表述運(yùn)動(dòng)的特征數(shù)據(jù)、和表述結(jié)構(gòu)的特征數(shù)據(jù)。所有這些特?cái)?shù)據(jù)均以與存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器71中的特征數(shù)據(jù)同樣格式注冊(cè)。
特征提取/檢索引擎72,如在示例1中的特征提取/檢索引擎22中那樣,將由關(guān)鍵詞提取器/翻譯器74提供的特征數(shù)據(jù)與存放在特征數(shù)據(jù)存儲(chǔ)器71中的對(duì)象的特征數(shù)據(jù)相比較,選擇最接近所提供特征數(shù)據(jù)的特征數(shù)據(jù)。在示例2中,如示例1中那樣,以按照各對(duì)象的形狀、顏色和亮度、運(yùn)動(dòng)、結(jié)構(gòu)等確定的各種方式選擇存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器71中的所有特征數(shù)據(jù)中選擇最接近于所提供關(guān)鍵詞的特征數(shù)據(jù)的特征數(shù)據(jù)。
在由通過客戶機(jī)終端53輸入的特征說明文本提取多個(gè)關(guān)鍵詞的情況下,對(duì)各內(nèi)容檢索最接近關(guān)鍵詞的特征數(shù)據(jù)的各自的特征數(shù)據(jù),并對(duì)這些特征數(shù)據(jù)的差值進(jìn)行總和來得到此內(nèi)容與特征說明文本之間的整體差。通過檢查所有內(nèi)容的整體差,可檢索到最接近客戶所希望的特征說明的內(nèi)容。
在MPEG4編碼中,如上述,多媒體內(nèi)容由對(duì)象組成,在壓縮后各對(duì)象被加以記錄。每一壓縮對(duì)象數(shù)據(jù)包括有一對(duì)象說明,其中,對(duì)象的概要被作為一文本加以說明。
在上述MPEG4編碼中,以下過程是可行的。也就是,內(nèi)容檢索部分52順序掃描存放在內(nèi)容存儲(chǔ)部分51的盤61中的壓縮內(nèi)容,讀取各對(duì)象的對(duì)象說明。較具體說,對(duì)象說明中所用單詞的出現(xiàn)頻率,以及一單詞與其前一或隨后的單詞的出現(xiàn)頻率被作為單詞信息的特征數(shù)據(jù)存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)器71中。以這種方式,對(duì)所有存放在盤61的多媒體內(nèi)容由對(duì)象說明提取單詞信息的特征數(shù)據(jù),順序存放在特征數(shù)據(jù)存儲(chǔ)器71中。
當(dāng)客戶企圖根據(jù)一單詞或單詞的組合檢索一所希望內(nèi)容時(shí),內(nèi)容檢索部分52由輸入特征說明文本提取關(guān)鍵詞(單詞或單詞組合),并將所提取的關(guān)鍵詞與存放在特征數(shù)據(jù)存儲(chǔ)器71中的單詞信息順序地進(jìn)行比較而不查詢關(guān)鍵詞詞典73,以選擇對(duì)所提取關(guān)鍵詞具有最高出現(xiàn)頻率的單詞信息的特征數(shù)據(jù),和確定具有所選特征數(shù)據(jù)的對(duì)象而因此包括有此對(duì)象的內(nèi)容。然后內(nèi)容檢索部分52指示內(nèi)容存儲(chǔ)部分51的文件服務(wù)器62檢索確定的內(nèi)容。文件服務(wù)器62由盤61讀取此內(nèi)容,并通過內(nèi)容檢索部分52將此內(nèi)容提供給客戶機(jī)終端53。
當(dāng)由客戶機(jī)終端53所提供的特征說明文本提取多個(gè)關(guān)鍵詞時(shí),對(duì)各內(nèi)容計(jì)算各關(guān)鍵詞的出現(xiàn)頻率的總和,以選擇具有最大的頻率總和的內(nèi)容。這使得能檢索最接近由客戶機(jī)終端53所提供的所希望內(nèi)容的內(nèi)容。
以上所述的處理可以用計(jì)算機(jī)程序的形式來實(shí)現(xiàn)。
這樣,在此例中,即使在由客戶機(jī)輸入高級(jí)特征說明文本作為對(duì)內(nèi)容的檢索數(shù)據(jù)時(shí),也能依靠利用直接由一壓縮內(nèi)容提取的低級(jí)特征數(shù)據(jù)很容易地檢索和提取具有客戶所希望的特征的內(nèi)容。
例如,由特征說明文本提取的關(guān)鍵詞能容易地被變換成遵循存放在特征數(shù)據(jù)存儲(chǔ)器中的特征數(shù)據(jù)的格式的特征數(shù)據(jù),實(shí)現(xiàn)更精確的檢索和提取所希望的多媒體內(nèi)容。
由特征說明文本提取的關(guān)鍵詞能容易地被變換成遵循存放在特征數(shù)據(jù)存儲(chǔ)器中的特征數(shù)據(jù)的格式的特征數(shù)據(jù),實(shí)現(xiàn)更高成功概率的所希望多媒體內(nèi)容的檢索和提取。
在由特征說明文本提取形狀信息的情況下,以更高成功概率實(shí)現(xiàn)所希望的多媒體內(nèi)容的檢索和提取。
在由特征說明文本提取顏色和亮度信息的情況下,能夠根據(jù)顏色和亮度檢索內(nèi)容,實(shí)現(xiàn)更精確的檢索和提取所希望多媒體內(nèi)容。
在由特征說明文本提取運(yùn)動(dòng)信息的情況下,可根據(jù)運(yùn)動(dòng)檢索內(nèi)容,實(shí)現(xiàn)更精確的檢索和提取所希望的多媒體內(nèi)容。
在由特征說明文本提取有關(guān)一結(jié)構(gòu)的關(guān)鍵詞的情況下,可能根據(jù)結(jié)構(gòu)信息檢索內(nèi)容,實(shí)現(xiàn)具有復(fù)雜形態(tài)的多媒體內(nèi)容的較精確的檢索和提取。
有可能根據(jù)內(nèi)容說明中所用單詞檢索此內(nèi)容,實(shí)現(xiàn)根據(jù)說明術(shù)語來檢索和提取多媒體內(nèi)容。
熟悉本技術(shù)領(lǐng)域的人將會(huì)理解并容易地實(shí)現(xiàn)各種其他的變型而不致背離本發(fā)明的范疇和精神實(shí)質(zhì)。因而,不希望在此所附權(quán)利要求的范圍將局限于這里所作說明,而是更加廣泛地解釋權(quán)利要求。
權(quán)利要求
1.一種多媒體數(shù)據(jù)檢索裝置,包括內(nèi)容存儲(chǔ)部分,用于存放多種壓縮內(nèi)容;客戶機(jī)終端,用于輸入特征數(shù)據(jù);特征數(shù)據(jù)存儲(chǔ)部分,用于從內(nèi)容存儲(chǔ)部分讀取從至少一個(gè)壓縮內(nèi)容提取的特征數(shù)據(jù),并存儲(chǔ)此至少一個(gè)壓縮內(nèi)容的特征數(shù)據(jù);和內(nèi)容檢索部分,用于從存儲(chǔ)在特征數(shù)據(jù)存儲(chǔ)部分的特征數(shù)據(jù)中選擇近似于通過客戶終端輸入的特征數(shù)據(jù)的特征數(shù)據(jù),和從內(nèi)容存儲(chǔ)部分檢索具有所選擇特征數(shù)據(jù)的內(nèi)容。
2.按照權(quán)利要求1的多媒體數(shù)據(jù)檢索裝置,其特征在于每一壓縮內(nèi)容包括有表述圖象形狀的多個(gè)宏塊,由宏塊表述的圖象形狀被變換成由至少一比特(位)構(gòu)成的值,和此比特被用作為由內(nèi)容所表述形狀的特征數(shù)據(jù)。
3.按照權(quán)利要求1的多媒體數(shù)據(jù)檢索裝置,其特征是每一壓縮內(nèi)容包括有表述圖象形狀的網(wǎng)格編碼數(shù)據(jù),和此網(wǎng)格編碼數(shù)據(jù)被用作為由內(nèi)容所表述形狀的特征數(shù)據(jù)。
4.按照權(quán)利要求1的多媒體數(shù)據(jù)檢索裝置,其特征是每一壓縮內(nèi)容包括有表述圖象形狀的多個(gè)宏塊,對(duì)各宏塊取得輝度成分(Y)的DC成分平均值和每一色度成分(Pb,Pr)的DC成分,和此平均值和DC成分被用作為由內(nèi)容所表述的顏色信息和亮度信息的特征數(shù)據(jù)。
5.按照權(quán)利要求1的多媒體數(shù)據(jù)檢索裝置,其特征是每一壓縮內(nèi)容包括表述圖象形狀的多個(gè)宏塊,讀取由宏塊運(yùn)動(dòng)信息所表述的對(duì)象的運(yùn)動(dòng)以得到對(duì)象運(yùn)動(dòng)的平均值,和此平均值被用作由內(nèi)容所表述對(duì)象的運(yùn)動(dòng)信息的特征數(shù)據(jù)。
6.按照權(quán)利要求1的多媒體數(shù)據(jù)檢索裝置,其特征是每一壓縮內(nèi)容包括表述圖象形狀的多個(gè)宏塊,讀取由宏塊所表述的對(duì)象的輝度成分的DC成分和AC成分以及色度成分的DC成分和AC成分,并獲取各成分的平均值并且作為由內(nèi)容所表述對(duì)象的結(jié)構(gòu)信息的特征數(shù)據(jù)。
7.按照權(quán)利要求1的多媒體數(shù)據(jù)檢索裝置,其特征是每一壓縮內(nèi)容包括有表述聲音的幀,讀取對(duì)各幀所記錄的LPC系數(shù),和取得LPC系數(shù)的平均值并用作為由多媒體內(nèi)容所表述音調(diào)信息的特征數(shù)據(jù)。
8.按照權(quán)利要求1的多媒體數(shù)據(jù)檢索裝置,其特征是每一壓縮內(nèi)容包括有表述聲音的幀,讀取對(duì)各幀所記錄的頻譜標(biāo)準(zhǔn)化系數(shù),和得到各預(yù)定時(shí)間期間內(nèi)的頻譜標(biāo)準(zhǔn)化系數(shù)的平均值并用作為音調(diào)信息的特征數(shù)據(jù)。
9.按照權(quán)利要求1的多媒體數(shù)據(jù)檢索裝置,其特征是每一壓縮內(nèi)容包括有表述聲音的幀,讀取對(duì)各幀記錄的予測(cè)殘余,和將此予測(cè)殘余用作為韻律信息的特征數(shù)據(jù)。
10.按照權(quán)利要求1的多媒體數(shù)據(jù)檢索裝置,其特征是每一壓縮內(nèi)容包括有表述聲音的幀,讀取對(duì)各幀進(jìn)行的頻譜標(biāo)準(zhǔn)化后的頻率成分,和此頻率成分被用作為韻律信息的特征數(shù)據(jù)。
11.按照權(quán)利要求1的多媒體數(shù)據(jù)檢索裝置,其特征是每一壓縮內(nèi)容包括有表述聲音的幀,讀取對(duì)各幀所記錄的LPC系數(shù),和將LPC系數(shù)的瞬時(shí)變化用作為旋律信息的特征數(shù)據(jù)。
12.按照權(quán)利要求1的多媒體數(shù)據(jù)檢索裝置,其特征是每一壓縮內(nèi)容包括有表述聲音的幀,讀取對(duì)各幀所記錄的頻譜標(biāo)準(zhǔn)化系數(shù),和將頻譜標(biāo)準(zhǔn)化系數(shù)的瞬時(shí)變化作為旋律信息的特征數(shù)據(jù)。
13.按照權(quán)利要求1的多媒體數(shù)據(jù)檢索裝置,其特征是每一壓縮內(nèi)容包括有多個(gè)對(duì)象,讀取對(duì)各對(duì)象所記錄的對(duì)象說明,和將對(duì)象說明中所用的單詞的出現(xiàn)頻率以及單詞與其前面或后隨單詞的組合的出現(xiàn)頻率用作為單詞信息的特征數(shù)據(jù)。
14.一種多媒體數(shù)據(jù)檢索方法,包括步驟存儲(chǔ)多種壓縮內(nèi)容;通過客戶機(jī)終端輸入特征數(shù)據(jù);讀取由壓縮內(nèi)容提取的特征數(shù)據(jù)和存儲(chǔ)該壓縮內(nèi)容的特征數(shù)據(jù);和在所存儲(chǔ)的特征數(shù)據(jù)中選擇接近于通過客戶機(jī)終端輸入的特征數(shù)據(jù)的特征數(shù)據(jù),和由所存儲(chǔ)內(nèi)容檢索具有所選擇特征數(shù)據(jù)的內(nèi)容。
15.一種多媒體數(shù)據(jù)檢索裝置,包括內(nèi)容存儲(chǔ)部分,用于存儲(chǔ)多種內(nèi)容;客戶機(jī)終端,用于輸入特征說明文本;特征數(shù)據(jù)存儲(chǔ)部分,用于從內(nèi)容存儲(chǔ)部分讀取該內(nèi)容的特征數(shù)據(jù)和存儲(chǔ)該內(nèi)容的特征數(shù)據(jù);和內(nèi)容檢索部分,用于從通過客戶機(jī)終端輸入的特征說明文本提取關(guān)鍵詞,將該關(guān)鍵詞變換成特征數(shù)據(jù),在存儲(chǔ)于特征數(shù)據(jù)存儲(chǔ)部分的特征數(shù)據(jù)中選擇接近于關(guān)鍵詞的特征數(shù)據(jù)的特征數(shù)據(jù),和由內(nèi)容存儲(chǔ)部分檢索具有所選擇特征數(shù)據(jù)的內(nèi)容。
16.按照權(quán)利要求15的多媒體內(nèi)容檢索裝置,其特征是該內(nèi)容檢索部分包括有用于將關(guān)鍵詞變換成特征數(shù)據(jù)的關(guān)鍵詞詞典,和利用該關(guān)鍵詞詞典將由特征說明文本提取的關(guān)鍵詞變換成特征數(shù)據(jù)。
17.按照權(quán)利要求15的多媒體內(nèi)容檢索裝置,其特征是內(nèi)容檢索部分由特征說明文本提取要用作為關(guān)鍵詞的言語的主要部分。
18.按照權(quán)利要求15的多媒體內(nèi)容檢索裝置,其特征是內(nèi)容檢索部分利用內(nèi)容的形狀信息作為特征數(shù)據(jù)。
19.按照權(quán)利要求15的多媒體內(nèi)容檢索裝置,其特征是內(nèi)容檢索部分采用內(nèi)容的顏色信息和亮度信息作為特征數(shù)據(jù)。
20.按照權(quán)利要求15的多媒體內(nèi)容檢索裝置,其特征是內(nèi)容檢索部分采用內(nèi)容的運(yùn)動(dòng)信息作為特征數(shù)據(jù)。
21.按照權(quán)利要求15的多媒體內(nèi)容檢索裝置,其特征是內(nèi)容檢索部分采用壓縮內(nèi)容的結(jié)構(gòu)信息作為特征數(shù)據(jù)。
22.一種多媒體數(shù)據(jù)檢索方法,包括步驟存儲(chǔ)多種內(nèi)容;通過客戶機(jī)終端輸入特征說明文本;讀取該內(nèi)容的特征數(shù)據(jù)和存儲(chǔ)該特征數(shù)據(jù);和由通過客戶機(jī)終端輸入的特征說明文本提取關(guān)鍵詞,將此關(guān)鍵詞變換成特征數(shù)據(jù),在所存儲(chǔ)的特征數(shù)據(jù)中選擇接近于關(guān)鍵詞的特征數(shù)據(jù)的特征數(shù)據(jù),和由所存儲(chǔ)內(nèi)容檢索具有所選擇特征數(shù)據(jù)的內(nèi)容。
全文摘要
本發(fā)明的多媒體數(shù)據(jù)檢索裝置包括有:用于存儲(chǔ)多種壓縮內(nèi)容的內(nèi)容存儲(chǔ)部分;用于輸入特征數(shù)據(jù)的客戶機(jī)終端;用于由內(nèi)容存儲(chǔ)部分讀取從至少一個(gè)壓縮內(nèi)容提取的特征數(shù)據(jù)和存儲(chǔ)此至少一壓縮內(nèi)容的特征數(shù)據(jù)的特征數(shù)據(jù)存儲(chǔ)部分;和用于從存儲(chǔ)于特征數(shù)據(jù)存儲(chǔ)部分的特征數(shù)據(jù)中選擇接近于通過客戶機(jī)終端輸入的特征數(shù)據(jù)的特征數(shù)據(jù)和由該內(nèi)容存儲(chǔ)部分檢索具有所選特征數(shù)據(jù)的內(nèi)容的內(nèi)容檢索部分。
文檔編號(hào)G06F17/30GK1245317SQ9910971
公開日2000年2月23日 申請(qǐng)日期1999年7月8日 優(yōu)先權(quán)日1998年7月8日
發(fā)明者妹尾孝憲 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社