嵌入式多媒體基于內(nèi)容的查詢和檢索的實現(xiàn)方法

文檔序號：6556584閱讀：267來源：國知局

專利名稱：嵌入式多媒體基于內(nèi)容的查詢和檢索的實現(xiàn)方法
技術領域：
本發(fā)明涉及嵌入式多媒體技術領域，特別是涉及一種嵌入式多媒體基于內(nèi)容的查詢和檢索的實現(xiàn)方法。
背景技術：
隨著20世紀90年代多媒體技術的迅速發(fā)展，以及新的有效的多媒體編碼技術的不斷出現(xiàn)，大量的視頻、音頻和圖像等多媒體信息將成為網(wǎng)上不可缺少的重要資源，尤其是視頻數(shù)據(jù)在生活中的應用越來越廣泛，而且每天都在產(chǎn)生大量的視音頻信息，造成對這些多媒體資料的存儲、管理和再利用變得非常困難。多媒體技術和Internet的發(fā)展給人們帶來巨大的多媒體信息海洋，并進一步導致了超大型多媒體信息庫的產(chǎn)生，光憑關鍵詞是很難做到對多媒體信息的描述和檢索的，這就需要有一種針對多媒體的有效的檢索方式。如何有效的幫助人們快速、準確地找到所需要的多媒體信息，成了多媒體信息庫所要解決的核心問題，如何有效地按照多媒體數(shù)據(jù)的特性去管理和檢索海量的多媒體數(shù)據(jù)，就顯得至關重要。
傳統(tǒng)的數(shù)據(jù)類型主要是整型、實型、布爾型和字符型，其數(shù)據(jù)庫技術可采用基于關鍵詞的檢索方式。而多媒體數(shù)據(jù)處理中，除了上述常規(guī)的數(shù)據(jù)類型外，還要處理圖像、圖形、音頻及視頻流等數(shù)據(jù)類型。如果將這種基于關鍵詞的檢索方法用于多媒體信息就會有困難，因為多媒體信息同文本、數(shù)值信息有著本質的區(qū)別。
多媒體信息具有非結構化的特性。在傳統(tǒng)的數(shù)據(jù)庫中，記錄信息具有明顯的結構化特性，它是現(xiàn)實世界中對象之間相互關系的反映，可通過關系模型抽象得到。多媒體信息具有較強的非結構化特性，它都以流的形式存在(比如視頻流、音頻流)。這類信息如果要進行結構化處理，需要復雜的媒體分割和組織技術。
多媒體信息具有內(nèi)容的多義性。在傳統(tǒng)的數(shù)據(jù)庫中，每個記錄所包含的語義信息是確定而有限的，而多媒體信息中同樣的內(nèi)容在不同的應用中具有不同的解釋，即具有多義性的特點。為了解決在多媒體信息檢索方面的問題，ISO成立了一個工作組MPEG-7來專門研究多媒體信息的內(nèi)容描述問題，并期望通過制定相關的國際標準來規(guī)范多媒體信息內(nèi)容的描述。
MPEG-7是對不同類型的多媒體信息的標準化描述，這種描述只與多媒體信息本身的內(nèi)容有關，描述的目的是使用戶快速高效地搜索到自己需要的信息。MPEG-7的正式名稱是多媒體內(nèi)容的描述接口(Multimedia ContentDescription Inter-face)o。
MPEG-7是建立在信息分割與特征提取之上的，也就是說它只對信息特征進行描述，而并不關心這些特征是如何得到的。同時MPEG-7還與搜索引擎相連，搜索引擎可以利用MPEG-7描述的內(nèi)容來進行搜索并返回結果給用戶，MPEG-7本身并不直接參與信息的搜索過程。這樣，雖然特征提取的方式方法很多，搜索引擎的實現(xiàn)方式也不同，但MPEG-7在它們之同提供了標準的接口，于是搜索弓I擎可以不必關心實現(xiàn)特征提取的細節(jié)而只需就標準的信息描述進行信息搜索，所以MPEG-7在基于內(nèi)容的檢索中起著橋梁的作用。
MPEG-7在描述多媒體信息的內(nèi)容時要利用從媒體中提取出來的特征。在MPEG-7中特征的描述是由-系列描述符D(Descriptor)來完成的。描述符之間的相互關系由描述方案DS(Description Scheme)來規(guī)范。與此同時，MPEG-7還要制定一種描述定義語言DDL(Description definition Language)規(guī)范描述方案。
由于圖像、視頻等多媒體信息的內(nèi)容具有豐富的內(nèi)涵，而ISO定義的多媒體內(nèi)容描述接口MPEG-7將正式成為國際標準。于是，基于內(nèi)容檢索(Co ntentBased Image Retrieval，CBIR)的技術就應運而生。
基于內(nèi)容的檢索是一種新型的多媒體檢索技術。它是指根據(jù)媒體和媒體對象的內(nèi)容及上下文聯(lián)系在大規(guī)模多媒體數(shù)據(jù)庫中進行檢索，主要是利用媒體對象的語義、視覺和聽覺特征來進行檢索。它突破了傳統(tǒng)的基于文本檢索技術的局限，直接對圖像、視頻、音頻內(nèi)容進行分析、抽取特征，利用這些內(nèi)容特征建立索引并進行檢索，使得檢索更加接近媒體對象。如利用圖像中的顏色、紋理、形狀，視頻中的鏡頭、場景、鏡頭的運動，聲音中的音調、響度、音色等。它的研究目標是提供在沒有人類參與的情況下能自動識別或理解圖像重要特征的算法。由此可見，基于內(nèi)容的檢索是一門涉及面很廣的交叉學科，需要利用圖像處理、模式識別、計算機視覺、圖像理解等技術，是多種技術的合成，因而有著廣泛的應用前景。
由于嵌入式移動終端的顯示方式千差萬別，運算能力也有較大的差距，一般來說，其CPU的運算速度從幾MHz到幾百MHz，用戶對于檢索速度、視頻顯示的要求不同，此外，由于網(wǎng)絡帶寬的限制，嵌入式移動終端的視頻顯示要受到帶寬的影響，因此，相對于一般的基于內(nèi)容的視頻檢索的實現(xiàn)方法，應用于嵌入式多媒體基于內(nèi)容的視頻檢索的實現(xiàn)方法，其對媒體對象的語義、視覺和聽覺特征的提取和檢索有其不同的特點。對于嵌入式多媒體，內(nèi)容的提取需要按照不同的嵌入式移動終端的要求，進行分類性的特征提取，比如對于響應速度要求高的終端，其特征的提取就要簡化，以滿足實時性為第一要務，而對于要求能夠較快的進行精確匹配的終端，其特征的提取就要全面豐富，以便于能夠快速的找到請求的媒體片段。
本發(fā)明的目的在于提供一種嵌入式多媒體基于關鍵幀的視頻檢索的實現(xiàn)方法。
本發(fā)明解決其技術問題采用的技術方案包括以下步驟(1)對象標識使用視頻對象分割程序對存放于服務器端的視頻數(shù)據(jù)進行視頻分析和分割，標識出靜態(tài)圖像、視頻鏡頭代表幀的靜態(tài)對象或視頻序列中的動態(tài)對象；(2)對多媒體數(shù)據(jù)進行特征提取對靜態(tài)圖像、視頻鏡頭代表幀的靜態(tài)對象或視頻序列中的動態(tài)對象進行顏色、紋理和形狀的底層特征提取處理；(3)以提取的媒體特征建立索引選擇多個適應不同嵌入式設備終端特點，包括CPU速度，響應時間要求的特征集和利用新的特征表示方法建立索引；(4)輸入用戶描述在嵌入式設備終端，用戶通過瀏覽選擇系統(tǒng)提供的實例或用戶自行繪制的圖形進行查詢，傳送查詢請求和數(shù)據(jù)到服務器，通過不斷修改實例直至找到匹配目標；(5)用戶描述與庫中媒體的相似匹配服務器將嵌入式設備終端傳送來的查詢特征與庫中媒體按照匹配算法進行相似匹配，針對嵌入式設備終端的硬件和用戶要求，以及當前網(wǎng)絡帶寬，取出滿足閾值的記錄作為候選結果，按相似度大小排列后返回給用戶；(6)在相似匹配的結果中選擇最終結果用戶通過在嵌入式移動終端瀏覽來挑選系統(tǒng)返回的查詢結果，或者從候選結果中選擇一個示例，經(jīng)過特征調整后形成一個新的查詢，通過新的查詢最終得到滿意的結果。
本發(fā)明與背景技術相比，具有的有益的效果是本發(fā)明的方法是基于內(nèi)容的檢索，直接對文本、圖像、視頻、音頻等多媒體進行分析，將多媒體數(shù)據(jù)存入媒體庫，從中抽取內(nèi)容特征，將用戶輸入的特征和預處理自動提取的內(nèi)容特征放入特征庫，然后利用這些內(nèi)容特征建立索引并進行檢索，而這些專門和綜合性知識則存入知識庫。本發(fā)明突破了傳統(tǒng)的基于文本檢索技術的局限，直接對圖像、視頻、音頻內(nèi)容進行分析、抽取特征，利用這些內(nèi)容特征建立索引并進行檢索，使得檢索更加接近媒體對象。

圖1是本發(fā)明的實施過程示意圖。
具體實施例方式
本發(fā)明是一種嵌入式多媒體基于內(nèi)容的查詢和檢索的實現(xiàn)方法，下面結合圖1說明其具體實施過程。
1)對象標識基于內(nèi)容的多媒體檢索技術系統(tǒng)一般允許用戶以全自動或者半自動(需要用戶干預)的方式對媒體進行分割，標識出靜態(tài)圖像、視頻鏡頭的代表幀等媒體中用戶感興趣的區(qū)域(靜態(tài)對象)及視頻序列中的動態(tài)對象，以便有針對性地對目標進行特征提取、描述和查詢。
2)對多媒體數(shù)據(jù)進行特征提取對用戶或系統(tǒng)標明的對象進行特征提取處理。特征提取可以是全局性的，如針對整個圖像和視頻鏡頭，也可以是針對某個對象的，如圖像中的子區(qū)域、視頻中的運動對象等。
特征提取對于圖像可以提取顏色、紋理、形狀等特征。而對于視頻，由于視頻是動態(tài)圖像，因此基本圖像特征提取則有靜態(tài)特征提取和動態(tài)特征提取兩大類，有疊加字幕的視頻還可提取文本、關鍵字等語義內(nèi)容。
3)以提取的媒體特征建立索引由于相同的媒體對不同的人可能意味著不同的東西，因此作為多媒體數(shù)據(jù)的索引僅用一兩個特征是不夠的，應該選擇多個適應不同環(huán)境的特征集和利用新的特征表示方法，如基于分形或小波的特征數(shù)學表示。例如基于內(nèi)容的圖像檢索，它根據(jù)圖像所包含的顏色、紋理、形狀以及對象(圖像中子圖像)的空間關系等信息，建立圖像的特征矢量為其索引。
4)輸入用戶描述較準確地描述媒體是進行查詢的關鍵一步。對一些很難描述的特征進行查詢時，用戶一般是通過瀏覽選擇系統(tǒng)提供的實例或自己繪制圖形來查詢，然后再通過不斷修改實例，逐步求精，反復查詢，直至找到匹配目標。
5)用戶描述與庫中媒體的相似匹配將查詢特征與庫中媒體按照一定的匹配算法進行相似匹配(如利用圖像特征之間的距離函數(shù)來進行相似性匹配)，取出滿足閾值的記錄作為候選結果，按相似度大小排列后返回給用戶，對于用戶來講，最直觀和最方便的視頻檢索方法就是用戶向檢索系統(tǒng)提交一幅查詢圖像，然后檢索系統(tǒng)根據(jù)內(nèi)容上的相似性按順序向用戶返回視頻庫中的一組鏡頭，作為檢索結果。
6)在相似匹配的結果中選擇最終結果為了進一步提高檢索的準確性，許多系統(tǒng)結合相關反饋技術來收集用戶對檢索結果的反饋信息。這在基于內(nèi)容的多媒體檢索中顯得更為突出。因為基于內(nèi)容的檢索是一種相似度檢索，在檢索過程中，采用逐步求精的辦法，在同一次檢索過程中需要不斷地與用戶進行交互，對系統(tǒng)返回的查詢結果，用戶可以通過瀏覽來挑選，或者從候選結果中選擇一個示例，經(jīng)過特征調整后，形成一個新的查詢?；趦?nèi)容的檢索經(jīng)歷了一個特征調整、重新匹配的循環(huán)過程，這一點與常規(guī)數(shù)據(jù)庫檢索中的精確匹配方法有明顯的不同。
基于內(nèi)容的檢索簡單地說就是根據(jù)多媒體信息的內(nèi)容來檢索。它包含信息內(nèi)容和檢索兩方面內(nèi)容。信息內(nèi)容與信息的理解有關，比如圖像理解、視頻理解等檢索不僅與采用的搜索方法有關，還與匹配的判斷準則有關系。通常情況下，基于內(nèi)容的信息檢索首先要對媒體信息進行分割，使其成為單獨的檢索對象，然后再對每個媒體對象進行特征提取，特征的集合就構成了它的內(nèi)容描述。接下來，就可以根據(jù)要求從多媒體信息庫中返回一組與檢索要求的內(nèi)容描述最接近的對象。
最后，還需要注意的是，以上列舉的僅是本發(fā)明的具體實施例子。顯然，本發(fā)明不限于以上實施例子，還可以有許多變形。本領域的普通技術人員能從本發(fā)明公開的內(nèi)容直接導出或聯(lián)想到的所有變形，均應認為是本發(fā)明的保護范圍。
權利要求
1.嵌入式多媒體基于內(nèi)容的查詢和檢索的實現(xiàn)方法，其特征在于，包括以下步驟(1)對象標識使用視頻對象分割程序對存放于服務器端的視頻數(shù)據(jù)進行視頻分析和分割，標識出靜態(tài)圖像、視頻鏡頭代表幀的靜態(tài)對象或視頻序列中的動態(tài)對象；(2)對多媒體數(shù)據(jù)進行特征提取對靜態(tài)圖像、視頻鏡頭代表幀的靜態(tài)對象或視頻序列中的動態(tài)對象進行顏色、紋理和形狀的底層特征提取處理；(3)以提取的媒體特征建立索引選擇多個適應不同嵌入式設備終端特點，包括CPU速度，響應時間要求的特征集和利用新的特征表示方法建立索引；(4)輸入用戶描述在嵌入式設備終端，用戶通過瀏覽選擇系統(tǒng)提供的實例或用戶自行繪制的圖形進行查詢，傳送查詢請求和數(shù)據(jù)到服務器，通過不斷修改實例直至找到匹配目標；(5)用戶描述與庫中媒體的相似匹配服務器將嵌入式設備終端傳送來的查詢特征與庫中媒體按照匹配算法進行相似匹配，針對嵌入式設備終端的硬件和用戶要求，以及當前網(wǎng)絡帶寬，取出滿足閾值的記錄作為候選結果，按相似度大小排列后返回給用戶；(6)在相似匹配的結果中選擇最終結果用戶通過在嵌入式移動終端瀏覽來挑選系統(tǒng)返回的查詢結果，或者從候選結果中選擇一個示例，經(jīng)過特征調整后形成一個新的查詢，通過新的查詢最終得到滿意的結果。
全文摘要
本發(fā)明涉及嵌入式多媒體技術領域，旨在提供一種嵌入式多媒體基于內(nèi)容的查詢和檢索的實現(xiàn)方法。該方法包括對象標識、對多媒體數(shù)據(jù)進行特征提取、以提取的媒體特征建立索引、輸入用戶描述、用戶描述與庫中媒體的相似匹配和在相似匹配的結果中選擇最終結果的步驟。本發(fā)明突破了傳統(tǒng)的基于文本檢索技術的局限，直接對圖像、視頻、音頻內(nèi)容進行分析、抽取特征，利用這些內(nèi)容特征建立索引并進行檢索，使得檢索更加接近媒體對象。
文檔編號G06F17/30GK1851709SQ20061005162
公開日2006年10月25日申請日期2006年5月25日優(yōu)先權日2006年5月25日
發(fā)明者陳天洲, 趙懿, 胡威, 謝斌申請人:浙江大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：陳天洲;趙懿;胡威;謝斌
技術所有人：浙江大學
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

嵌入式多媒體基于內(nèi)容的查詢和檢索的實現(xiàn)方法