一種基于焦點(diǎn)對(duì)象識(shí)別和主題語(yǔ)義的圖像搜索方法及系統(tǒng)的制作方法
【專利摘要】一種基于焦點(diǎn)對(duì)象識(shí)別和主題語(yǔ)義的圖像搜索方法及系統(tǒng)。所述方法包括以下步驟。S1、對(duì)待搜索圖像進(jìn)行底層特征語(yǔ)義提取,并形成高維特征向量空間后,進(jìn)行圖像分割,獲得待搜索圖像的元素。S2、將待搜索圖像的元素進(jìn)行元素識(shí)別后抽象至語(yǔ)義概念層,并根據(jù)不同元素的相對(duì)距離及共現(xiàn)概率,判斷待搜索圖像中的不同元素是否相關(guān),若是,將相關(guān)元素組合成對(duì)象。S3、計(jì)算對(duì)象的相對(duì)空間位置及占比面積,并計(jì)算各對(duì)象的興趣指數(shù)及重要指數(shù),根據(jù)計(jì)算結(jié)果,從不同對(duì)象中識(shí)別出焦點(diǎn)對(duì)象。S4、根據(jù)焦點(diǎn)對(duì)象,構(gòu)建待搜索圖像的主題語(yǔ)義模型,并獲取具有焦點(diǎn)對(duì)象的現(xiàn)有圖像,通過(guò)KL距離度量待搜索圖像與現(xiàn)有圖像之間的相似度,并輸出相似度較高的現(xiàn)有圖像。
【專利說(shuō)明】一種基于焦點(diǎn)對(duì)象識(shí)別和主題語(yǔ)義的圖像搜索方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明本屬于圖像處理【技術(shù)領(lǐng)域】,具體涉及一種基于焦點(diǎn)對(duì)象識(shí)別和主題語(yǔ)義的圖像搜索方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著移動(dòng)互聯(lián)網(wǎng)的興起與蓬勃發(fā)展,各類智能終端設(shè)備迅速普及。移動(dòng)開(kāi)發(fā)者推出大量移動(dòng)場(chǎng)景下的應(yīng)用程序(app),如微信、來(lái)往、SnapChat> Instagram等客戶端社交應(yīng)用軟件,以及淘寶、天貓和京東等客戶端電子商務(wù)軟件。這類軟件不但會(huì)產(chǎn)生大量?jī)?nèi)容豐富的圖像數(shù)據(jù),而且會(huì)產(chǎn)生各種圖像搜索需求。尤其是隨著電子商務(wù)的發(fā)展,020(Online ToOffline)模式的快速布局,“手機(jī)拍照+以圖搜圖+比價(jià)購(gòu)物”的新興移動(dòng)搜索形式對(duì)傳統(tǒng)圖像檢索提出了巨大的挑戰(zhàn)。當(dāng)前,互聯(lián)網(wǎng)圖像數(shù)據(jù)規(guī)模已呈現(xiàn)指數(shù)級(jí)增長(zhǎng),面對(duì)海量的圖像數(shù)據(jù),如何有效管理龐大的圖像資源庫(kù),利用相似圖像檢索技術(shù),快速準(zhǔn)確的檢索出滿足用戶查詢意圖的圖像信息,仍然是當(dāng)前學(xué)術(shù)界、工業(yè)界亟需解決的難題。
[0003]縱觀圖像檢索技術(shù)的發(fā)展歷程,可分為兩個(gè)階段:基于文本的圖像檢索技術(shù)和基于內(nèi)容的圖像檢索技術(shù)。換一個(gè)角度,也就是關(guān)鍵詞搜圖和以圖搜圖。
[0004]其中,基于文本的圖像檢索(Text-based Image Retrieval, TBIR)技術(shù)是通過(guò)人工對(duì)圖像添加標(biāo)注,或通過(guò)網(wǎng)絡(luò)挖掘圖片的環(huán)繞文本,構(gòu)成圖片的描述性信息。然后對(duì)這些文本信息構(gòu)建索引,建立圖像與文本之間的映射關(guān)系,便于搜索引擎或系統(tǒng)采用關(guān)鍵詞匹配的方式進(jìn)行圖像檢索。這種圖像檢索方法簡(jiǎn)單、易于理解、選擇了簡(jiǎn)單的文本處理進(jìn)行替代,回避了深入圖像內(nèi)部處理的復(fù)雜過(guò)程。但該方法存在以下問(wèn)題:人工無(wú)法對(duì)海量的圖像數(shù)據(jù)進(jìn)行標(biāo)注,且主觀性強(qiáng);當(dāng)圖像內(nèi)容較豐富時(shí),很難準(zhǔn)確地用文字描述。
[0005]基于內(nèi)容的圖像檢索(Content-based Image Retrieval, CBIR)技術(shù)充分考慮了圖像自身蘊(yùn)含的豐富語(yǔ)義信息,其返回的檢索結(jié)果分為兩大類:一是基于精確匹配得到的包含匹配圖面的頁(yè)面及對(duì)應(yīng)的鏈接;二是基于模糊匹配得到的相似圖像。本發(fā)明僅適用于以圖搜圖方式下的相似圖像搜索。
[0006]CBIR技術(shù)可劃分為三個(gè)層次:基于特征語(yǔ)義(視覺(jué)特征)的圖像檢索技術(shù)、基于對(duì)象和空間關(guān)系語(yǔ)義的圖像檢索技術(shù)和基于高層語(yǔ)義(場(chǎng)景語(yǔ)義、行為語(yǔ)義、情感語(yǔ)義)的圖像檢索技術(shù)。其中,基于低層語(yǔ)義的圖像檢索技術(shù),提取了圖像的顏色、紋理、形狀等視覺(jué)特征,用以判斷圖像之間的相似性。但是這種方法僅僅考慮了簡(jiǎn)單的視覺(jué)特征,而忽略了圖片蘊(yùn)含的豐富語(yǔ)義,與人們對(duì)圖像的認(rèn)知存在差異,容易產(chǎn)生語(yǔ)義鴻溝(semantic gap)。
[0007]基于對(duì)象和空間關(guān)系語(yǔ)義的圖像檢索技術(shù),對(duì)圖像進(jìn)行分割并識(shí)別出圖像中的對(duì)象,度量對(duì)象之間的位置關(guān)系、朝向關(guān)系(如上、下、左、右等)、拓?fù)潢P(guān)系(如相鄰、覆蓋等)和結(jié)構(gòu)關(guān)系(如邊緣密度、邊緣方向等)。該方法也存在一定不足,其僅引入了圖像的部分語(yǔ)義信息,雖然考察了對(duì)象之間的空間位置關(guān)系,但這仍不足以表征圖像的語(yǔ)義信息。
[0008]基于高層語(yǔ)義的圖像檢索技術(shù),其進(jìn)一步對(duì)圖像中的語(yǔ)義要素進(jìn)行了抽象,不但要考慮場(chǎng)景語(yǔ)義(如藍(lán)天、白云、沙灘),還要進(jìn)一步考慮對(duì)象的行為語(yǔ)義(如唱歌、擊打、微笑)以及情感語(yǔ)義(如開(kāi)心、難過(guò)、沮喪)等。圖像語(yǔ)義的提取過(guò)程是由低層特征向高層語(yǔ)義轉(zhuǎn)化的過(guò)程。高層語(yǔ)義雖然能夠很好的刻畫圖像的語(yǔ)義信息,滿足用戶真實(shí)的搜索意圖,但目前相關(guān)抽取語(yǔ)義描述的技術(shù)仍處在初始階段,有待進(jìn)一步的發(fā)展和突破。
[0009]目前,傳統(tǒng)的圖像檢索方法,如基于特征語(yǔ)義、基于對(duì)象和空間關(guān)系語(yǔ)義的圖像檢索方法,采用的均是精確匹配技術(shù)。而精確匹配由于其規(guī)則限制條件比較嚴(yán)格,導(dǎo)致圖像檢索系統(tǒng)的擴(kuò)展性差。例如,分別在百度圖片搜索引擎和谷歌圖片搜索引擎中,上傳一張“黑色皮鞋”圖片進(jìn)行搜索,此時(shí)百度返回的搜索結(jié)果是外觀相似的黑色皮鞋,谷歌返回的結(jié)果則是包含匹配圖片的頁(yè)面。對(duì)兩種圖片搜索引擎返回的結(jié)果分析可以看出:百度的搜索結(jié)果體現(xiàn)出一定的模糊匹配,但不夠模糊,導(dǎo)致擴(kuò)展性差,沒(méi)有上升到“皮鞋”這一概念層進(jìn)行匹配,僅局限于滿足特征語(yǔ)義(顏色、紋理、形狀),并且沒(méi)有返回包含精確匹配該圖片的網(wǎng)頁(yè);而谷歌的搜索結(jié)果,雖然既包含精確匹配該圖片的網(wǎng)頁(yè),也包含外觀類似的圖片,但這些外觀類似的圖片中出現(xiàn)了“黑色的U盤、黑色的筆記本、黑色的望遠(yuǎn)鏡”等不相關(guān)的圖片,反映了谷歌的模糊匹配策略因過(guò)于模糊而致匹配不準(zhǔn)。因此,目前代表業(yè)界最高水平的圖片檢索系統(tǒng)(百度圖片搜索引擎、谷歌圖片搜索引擎),在相似圖像搜索上的性能也并不能令用戶滿意。
[0010]鑒于上述原因,本發(fā)明提供一種基于焦點(diǎn)對(duì)象識(shí)別和主題語(yǔ)義的圖像搜索方法及系統(tǒng),通過(guò)挖掘圖片背后的語(yǔ)義關(guān)聯(lián),判斷圖片間的相似性,從而實(shí)現(xiàn)圖像搜索領(lǐng)域的新突破。
[0011]為了更好的闡述
【發(fā)明內(nèi)容】
,以下對(duì)本發(fā)明涉及的下列名詞作出說(shuō)明:元素、對(duì)象、焦點(diǎn)對(duì)象和主題語(yǔ)義。
[0012]其中,元素是指圖像中獨(dú)立的連續(xù)區(qū)域塊,即有具體含義的物體,如太陽(yáng)、人、沙灘、比基尼,元素是圖像中的最小語(yǔ)義單元。對(duì)象是由單個(gè)或多個(gè)元素組合成的一個(gè)有物理含義的整體,組成某個(gè)對(duì)象的多個(gè)元素總是在空間位置上毗鄰且經(jīng)常在圖像中共現(xiàn),比如比基尼與美女可以構(gòu)成一個(gè)穿著比基尼的美女對(duì)象。多個(gè)對(duì)象的組合便形成場(chǎng)景。
[0013]由于一張圖像中往往包含一個(gè)或多個(gè)對(duì)象,其中最重要且能吸引用戶視覺(jué)焦點(diǎn)的對(duì)象稱為焦點(diǎn)對(duì)象。比如一張圖是“在大草原上走太空步的小馬駒”,這時(shí)對(duì)象有“草原、小馬駒、藍(lán)天、大山”,但最能吸引用戶的是“小馬駒”,因?yàn)槠洹疤詹健钡男袨閯?dòng)作附著在小馬駒身上,突出詼諧、搞笑的語(yǔ)義。此時(shí),對(duì)象“小馬駒”就是焦點(diǎn)對(duì)象,是整張圖像的焦點(diǎn)。而其他如“草原、藍(lán)天、大山”構(gòu)成一個(gè)場(chǎng)景。場(chǎng)景在這里并不是圖像想要突出的重點(diǎn),如果將其置換到“沙灘” “農(nóng)場(chǎng)”這類場(chǎng)景,也不會(huì)影響圖像的意境效果。
[0014]此外,主題語(yǔ)義是指由焦點(diǎn)對(duì)象的集合、焦點(diǎn)對(duì)象間的關(guān)聯(lián)、焦點(diǎn)對(duì)象分布的重要程度來(lái)描述的主題。
【發(fā)明內(nèi)容】
[0015]本發(fā)明提供一種基于焦點(diǎn)對(duì)象識(shí)別和主題語(yǔ)義的圖像搜索方法,包括以下步驟:
[0016]S1、對(duì)待搜索圖像進(jìn)行底層特征語(yǔ)義提取,并形成高維特征向量空間后,進(jìn)行圖像分割,獲得所述待搜索圖像的元素;
[0017]S2、將所述待搜索圖像的元素進(jìn)行元素識(shí)別后抽象至語(yǔ)義概念層,并根據(jù)不同元素的相對(duì)距離及共現(xiàn)概率,判斷所述待搜索圖像中的不同元素是否相關(guān),若是,則將相關(guān)元素組合成對(duì)象;
[0018]S3、計(jì)算所述對(duì)象的相對(duì)空間位置及占比面積,并計(jì)算各對(duì)象的興趣指數(shù)及重要指數(shù),根據(jù)計(jì)算結(jié)果,從不同對(duì)象中識(shí)別出焦點(diǎn)對(duì)象;
[0019]S4、根據(jù)所述焦點(diǎn)對(duì)象,構(gòu)建待搜索圖像的主題語(yǔ)義模型,并獲取具有所述焦點(diǎn)對(duì)象的現(xiàn)有圖像,通過(guò)KL距離度量待搜索圖像與現(xiàn)有圖像之間的相似度,并輸出相似度較高的現(xiàn)有圖像。
[0020]優(yōu)選的,在步驟S2中,若待搜索圖像的元素的空間位置為坐標(biāo)匕1,70,則元素e和元素g的相對(duì)距離表示為
【權(quán)利要求】
1.一種基于焦點(diǎn)對(duì)象識(shí)別和主題語(yǔ)義的圖像搜索方法,其特征在于,包括以下步驟: 51、對(duì)待搜索圖像進(jìn)行底層特征語(yǔ)義提取,并形成高維特征向量空間后,進(jìn)行圖像分害IJ,獲得所述待搜索圖像的元素; 52、將所述待搜索圖像的元素進(jìn)行元素識(shí)別后抽象至語(yǔ)義概念層,并根據(jù)不同元素的相對(duì)距離及共現(xiàn)概率,判斷所述待搜索圖像中的不同元素是否相關(guān),若是,則將相關(guān)元素組合成對(duì)象; 53、計(jì)算所述對(duì)象的相對(duì)空間位置及占比面積,并計(jì)算各對(duì)象的興趣指數(shù)及重要指數(shù),根據(jù)計(jì)算結(jié)果,從不同對(duì)象中識(shí)別出焦點(diǎn)對(duì)象; 54、根據(jù)所述焦點(diǎn)對(duì)象,構(gòu)建待搜索圖像的主題語(yǔ)義模型,并獲取具有所述焦點(diǎn)對(duì)象的現(xiàn)有圖像,通過(guò)KL距離度量待搜索圖像與現(xiàn)有圖像之間的相似度,并輸出相似度較高的現(xiàn)有圖像。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S2中,若待搜索圖像的元素的空間位置為坐標(biāo)(xi,yi),則元素e和元素g的相對(duì)距離表示為
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S2中,元素e和元素g的共現(xiàn)概率表示為
4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,在步驟S2中,判斷所述待搜索圖像中的不同元素是否相關(guān)的依據(jù)為:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S2中,若待搜索圖像中的不同元素不相關(guān),則將所述不同元素分別劃分為獨(dú)立的對(duì)象。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S3中,所述對(duì)象的相對(duì)空間位置指對(duì)象的中心點(diǎn)和圖像的中心點(diǎn)之間的相對(duì)距離,所述對(duì)象的占比面積表示為
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S3中,對(duì)象Ti的興趣指數(shù)表示為
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟S4中,在現(xiàn)有圖像中,焦點(diǎn)對(duì)象出現(xiàn)的概率為:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S4中,圖片P和q之間的KL距離
10.一種基于焦點(diǎn)對(duì)象識(shí)別和主題語(yǔ)義的圖像搜索系統(tǒng),其特征在于,包括元素獲取模塊、元素抽象模塊、對(duì)象獲取模塊、焦點(diǎn)對(duì)象識(shí)別模塊及主題語(yǔ)義模塊,所述元素獲取模塊連接元素抽象模塊,元素抽象模塊連接對(duì)象獲取模塊,對(duì)象獲取模塊連接焦點(diǎn)對(duì)象識(shí)別模塊,焦點(diǎn)對(duì)象識(shí)別模塊連接主題語(yǔ)義模塊, 所述元素獲取模塊,用于對(duì)待搜索圖像進(jìn)行底層特征語(yǔ)義提取,并進(jìn)行圖像分割,獲得所述待搜索圖像的元素; 所述元素抽象模塊,用于將所述待搜索圖像的元素進(jìn)行元素識(shí)別后抽象至語(yǔ)義概念層; 所述對(duì)象獲取模塊,用于根據(jù)不同元素的相對(duì)距離及共現(xiàn)概率,判斷所述待搜索圖像中的不同元素是否相關(guān),若是,則將相關(guān)元素組合成對(duì)象; 所述焦點(diǎn)對(duì)象識(shí)別模塊,用于計(jì)算所述對(duì)象的相對(duì)空間位置及占比面積,并計(jì)算各對(duì)象的興趣指數(shù)及重要指數(shù),根據(jù)計(jì)算結(jié)果,從不同對(duì)象中識(shí)別出焦點(diǎn)對(duì)象; 所述主題語(yǔ)義模塊,用于根據(jù)所述焦點(diǎn)對(duì)象,構(gòu)建待搜索圖像的主題語(yǔ)義模型,并獲取具有所述焦點(diǎn)對(duì)象的現(xiàn)有圖像,通過(guò)KL距離度量待搜索圖像與現(xiàn)有圖像之間的相似度。
【文檔編號(hào)】G06F17/30GK103810303SQ201410101483
【公開(kāi)日】2014年5月21日 申請(qǐng)日期:2014年3月18日 優(yōu)先權(quán)日:2014年3月18日
【發(fā)明者】朱巧明, 康楊楊, 洪宇 申請(qǐng)人:蘇州大學(xué)