專利名稱:一種識別重復(fù)縮略圖的方法、裝置及在搜索引擎中的應(yīng)用的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及一種識別重復(fù)縮略圖的方法、裝置 及在搜索引擎中的應(yīng)用。
背景技術(shù):
縮略圖即為 一個縮小的圖片,通過這個圖片可以粗略地了解原圖片內(nèi)容。 縮略圖較多地應(yīng)用于圖片或視頻搜索中,是搜索結(jié)果頁中最直觀的展現(xiàn)形式。
圖片或視頻搜索引擎的搜索結(jié)果是通過縮略圖和文字信息展現(xiàn)給用戶,這 些結(jié)果數(shù)據(jù)一般由"網(wǎng)絡(luò)爬蟲"抓取或由專門的視頻或圖片網(wǎng)站提供。但由于數(shù) 據(jù)來源的多樣性和網(wǎng)絡(luò)資源的隨意性,結(jié)果數(shù)據(jù)往往具有一定比例的重復(fù),這 種重復(fù)性主要體現(xiàn)為縮略圖重復(fù)和文字信息重復(fù)。
在搜索引擎應(yīng)用中,縮略圖與用戶的查詢請求相關(guān)程度、圖像質(zhì)量以及縮 略圖的多樣性等因素,在很大程度上決定著搜索引擎的檢索性能和用戶的使用 感受。因此,用戶常常將縮略圖重復(fù)的結(jié)果認(rèn)定為重復(fù)結(jié)果,而文字信息重復(fù) 與否往往被用戶忽略或僅供參考。
如果搜索結(jié)果頁面中包含大量的重復(fù)結(jié)果(主要指重復(fù)縮略圖),則會帶
來如下問題
第一,搜索結(jié)果單調(diào),缺乏多樣性。如果重復(fù)結(jié)果大量占據(jù)搜索結(jié)果頁面, 使得搜索結(jié)果顯得單調(diào),缺乏多樣性。
第二,影響搜索的查準(zhǔn)率。如果重復(fù)結(jié)果與用戶的搜索請求不相關(guān),則會 占據(jù)相關(guān)結(jié)果的位置,使得相關(guān)結(jié)果沒有機會返回給用戶或者相關(guān)結(jié)果的排序 靠后,從而大大降低搜索結(jié)果整體的相關(guān)性,影響搜索的查準(zhǔn)率。
第三,較差的用戶體驗。當(dāng)用戶提交某查詢請求后,首頁返回結(jié)果中如果 存在較多的重復(fù)結(jié)果,必然造成用戶的厭煩心理,導(dǎo)致較差的用戶體驗。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種識別重復(fù)縮略圖的方法及裝置,以 解決縮略圖中存在重復(fù)縮略圖而影響圖像質(zhì)量的問題。本發(fā)明的另 一個目的是將所述識別重復(fù)縮略圖的方法應(yīng)用到搜索引擎中, 提供一種在搜索結(jié)果中識別重復(fù)縮略圖的裝置,以解決圖片或視頻等搜索中由 于存在重復(fù)縮略圖,導(dǎo)致搜索結(jié)果單調(diào)、查準(zhǔn)率低、用戶體驗差的問題。
為解決上述技術(shù)問題,根據(jù)本發(fā)明提供的具體實施例,本發(fā)明公開了以下
技術(shù)方案
識別重復(fù)縮略圖的方法,包括 分析縮略圖內(nèi)容,獲取圖像的顏色特征; 根據(jù)所述顏色特征,判斷是否存在重復(fù)縮略圖; 對重復(fù)縮略圖進(jìn)行處理。
其中,所述顏色特征包括全局顏色特征所述全局顏色特征包括主顏色編 號、主顏色率和顏色多樣性。
優(yōu)選的,所述顏色特征還包括局部顏色特征所述局部顏色特征包括均值 顏色方格圖。
其中,根據(jù)顏色特征判斷重復(fù)縮略圖具體包括精確識別步驟利用全局顏 色特征值和局部顏色特征值計算縮略圖的特征編碼;判斷縮略圖的特征編碼是 否相同,如果相同,則為重復(fù)縮略圖。
其中,判斷縮略圖的特征編碼是否相同具體包括將縮略圖的特征編碼作 為哈希表的主鍵;當(dāng)處理一個縮略圖時,判斷哈希表中以該縮略圖的特征編碼 為主鍵的存儲位置是否已被占據(jù),如果是,則該縮略圖與占據(jù)所述存儲位置的 縮略圖重復(fù);如果否,則將該縮略圖的標(biāo)識填入所述存儲位置。
優(yōu)選的,當(dāng)該縮略圖與占據(jù)所述存儲位置的縮略圖重復(fù)時,還包括比較 所述兩個縮略圖的上傳時間,將上傳時間較新的縮略圖標(biāo)識填入所述存儲位 置,并將另一個縮略圖作為重復(fù)結(jié)果。
其中,根據(jù)顏色特征判斷重復(fù)縮略圖具體包括模糊識別步驟根據(jù)全局顏 色特征值和局部顏色特征值計算縮略圖的相似度;判斷所述相似度是否符合預(yù) 置條件,如果符合,則為重復(fù)縮略圖。
其中,所述預(yù)置條件包括主顏色編號相同,主顏色率的相似度、顏色多 樣性的相似度、均值顏色方格圖的相似度大于等于預(yù)置閾值。
優(yōu)選的,所述預(yù)置條件還包括縮略圖的文字信息相同。其中,分析縮略圖內(nèi)容來獲取全局顏色特征具體包括量化顏色空間模型 的顏色數(shù);根據(jù)所述顏色數(shù),計算縮略圖的歸一化顏色直方圖;遍歷所述顏色 直方圖,將所述顏色直方圖中的峰值分量確定為主顏色率,并將峰值對應(yīng)的序 號確定為主顏色編號;將顏色直方圖中分量大于等于預(yù)置閾值的顏色,確定為 縮略圖的有效顏色,有效顏色的總數(shù)為顏色多樣性。
其中,分析縮略圖內(nèi)容來獲取局部顏色特征具體包括將縮略圖均勻劃分 為n小塊;計算每一小塊的均值顏色,得到該縮略圖的n維均值顏色方格圖。
其中,對重復(fù)縮略圖進(jìn)行處理具體包括將重復(fù)縮略圖進(jìn)行降權(quán)或刪除處理。
識別重復(fù)縮略圖的裝置,包括
縮略圖分析單元,用于分析縮略圖內(nèi)容,獲取圖像的顏色特征; 重復(fù)識別單元,用于根據(jù)所述顏色特征,判斷是否存在重復(fù)縮略圖; 重復(fù)處理單元,用于對重復(fù)縮略圖進(jìn)行處理。
其中,所述顏色特征包括全局顏色特征所述全局顏色特征包括主顏色編 號、主顏色率和顏色多樣性。
優(yōu)選的,所述顏色特征還包括局部顏色特征所述局部顏色特征包括均值 顏色方才各圖。
其中,所述重復(fù)識別單元進(jìn)一步包括精確排重單元,用于利用全局顏色特 征值和局部顏色特征值計算縮略圖的特征編碼,并判斷縮略圖的特征編碼是否 相同,如果相同,則為重復(fù)縮略圖。
其中,所述精確排重單元通過以下方式判斷縮略圖的特征編碼是否相同 將縮略圖的特征編碼作為哈希表的主鍵;當(dāng)處理一個縮略圖時,判斷哈希表中 以該縮略圖的特征編碼為主鍵的存儲位置是否已被占據(jù),如果是,則該縮略圖 與占據(jù)所述存儲位置的縮略圖重復(fù);如果否,則將該縮略圖的標(biāo)識填入所述存 儲位置。
其中,所述重復(fù)識別單元進(jìn)一步包括模糊排重單元,用于根據(jù)全局顏色特 征值和局部顏色特征值計算縮略圖的相似度,并判斷所述相似度是否符合預(yù)置 條件,如果符合,則為重復(fù)縮略圖。
其中,所述預(yù)置條件包括主顏色編號相同,主顏色率的相似度、顏色多樣性的相似度、均值顏色方格圖的相似度大于等于預(yù)置閾值。
優(yōu)選的,所述預(yù)置條件還包括縮略圖的文字信息相同。 其中,所述縮略圖分析單元通過以下方式分析縮略圖內(nèi)容來獲取全局顏色 特征量化顏色空間模型的顏色數(shù);根據(jù)所述顏色數(shù),計算縮略圖的歸一化顏 色直方圖;遍歷所述顏色直方圖,將所述顏色直方圖中的峰值分量確定為主顏 色率,并將峰值對應(yīng)的序號確定為主顏色編號;將顏色直方圖中分量大于等于 預(yù)置閾值的顏色,確定為縮略圖的有效顏色,有效顏色的總數(shù)為顏色多樣性。 其中,所述縮略圖分析單元通過以下方式分析縮略圖內(nèi)容來獲取局部顏色 特征將縮略圖均勻劃分為n小塊;計算每一小塊的均值顏色,得到該縮略圖 的n維均值顏色方格圖。
其中,所述重復(fù)處理單元對重復(fù)縮略圖進(jìn)4亍以下處理將重復(fù)縮略圖進(jìn)行 降權(quán)或刪除處理。
在搜索結(jié)果中識別重復(fù)縮略圖的裝置,包括 縮略圖分析單元,用于分析縮略圖內(nèi)容,獲取圖像的顏色特征; 數(shù)據(jù)制作單元,用于將縮略圖的顏色特征添加到搜索引擎的索引數(shù)據(jù)中;
重復(fù)識別單元,用于讀取索引數(shù)據(jù)中的顏色特征,并根據(jù)所述顏色特征, 判斷是否存在重復(fù)縮略重復(fù)處理單元,用于對重復(fù)縮略圖進(jìn)行處理。
其中,所述顏色特征包括全局顏色特征和局部顏色特征,其中,所述全局 顏色特征包括主顏色編號、主顏色率和顏色多樣性,所述局部顏色特征包括均 值顏色方格圖。
優(yōu)選的,所述重復(fù)識別單元包括精確排重單元和^^莫糊排重單元,其中,所 述精確排重單元用于利用全局顏色特征值和局部顏色特征值計算縮略圖的特 征編碼,并判斷縮略圖的特征編碼是否相同,如果相同,則為重復(fù)縮略圖;所 述模糊排重單元,用于根據(jù)全局顏色特征值和局部顏色特征值計算縮略圖的相 似度,并判斷所述相似度是否符合預(yù)置條件,如果符合,則為重復(fù)縮略圖。
其中,所述精確排重單元用于在線搜索時識別完全相同的縮略圖,所述模 糊排重單元用于對排序靠前的搜索結(jié)果進(jìn)行相同或相似縮略圖的識別。
其中,所述預(yù)置條件包括主顏色編號相同,主顏色率的相似度、顏色多樣性的相似度、均值顏色方格圖的相似度大于等于預(yù)置閾值。
其中,所述縮略圖分析單元通過以下方式分析縮略圖內(nèi)容來獲取全局顏色
特征量化顏色空間模型的顏色數(shù);根據(jù)所述顏色數(shù),計算縮略圖的歸一化顏 色直方圖;遍歷所述顏色直方圖,將所述顏色直方圖中的峰值分量確定為主顏 色率,并將峰值對應(yīng)的序號確定為主顏色編號;將顏色直方圖中分量大于等于 預(yù)置閾值的顏色,確定為縮略圖的有效顏色,有效顏色的總數(shù)為顏色多樣性。
其中,所述縮略圖分析單元通過以下方式分析縮略圖內(nèi)容來獲取局部顏色 特征將縮略圖均勻劃分為n小塊;計算每一小塊的均值顏色,得到該縮略圖 的n維均值顏色方格圖。
其中,所述重復(fù)處理單元對重復(fù)縮略圖進(jìn)行以下處理將搜索結(jié)果中的重 復(fù)縮略圖進(jìn)行降權(quán)處理,排到搜索結(jié)果列表的尾部;或者刪除重復(fù)的縮略圖。
根據(jù)本發(fā)明提供的具體實施例,本發(fā)明具有以下技術(shù)效果 首先,本發(fā)明提供了一種識別重復(fù)縮略圖的方法及裝置,通過提取縮略圖 的全局顏色特征和局部顏色特征,并根據(jù)所述顏色特征來識別重復(fù)縮略圖。所 述方法能夠從大量的縮略圖中識別出重復(fù)的縮略圖,從而提高縮略圖的整體圖 像質(zhì)量。
其次,本發(fā)明將上述方法應(yīng)用到圖片或視頻搜索中,能夠快速識別出搜索 結(jié)果中的重復(fù)結(jié)果,并帶來以下優(yōu)點
第一,豐富了搜索結(jié)果的多樣性。由于將重復(fù)結(jié)果進(jìn)行降權(quán)或去除處理, 所以在排序靠前的搜索結(jié)果中去除了重復(fù)結(jié)果,使得結(jié)果頁面更加豐富多樣。
第二,提高了搜索引擎的搜索性能。在排序靠前的搜索結(jié)果中去除重復(fù)結(jié) 果后,增加了相關(guān)結(jié)果獲得較高排序的機會,提高了查準(zhǔn)率。
第三,提升了用戶體驗。在排序靠前的搜索結(jié)果中去除重復(fù)結(jié)果后,結(jié)果 頁面給人一種豐富多樣的感覺,提升了用戶體驗和搜索引擎的整體形象。
再次,本發(fā)明提供了兩種識別方式, 一種是精確識別方式,用于識別完全 相同的縮略圖,這種識別方式的處理速度快,能夠在線對所有搜索結(jié)果進(jìn)行識 別處理;另一種是4莫糊識別方式,用于識別相同或相似的縮略圖,這種方式能 夠保證較高的識別率。將所述兩種識別方式結(jié)合起來,能夠大幅度降低搜索結(jié)果的重復(fù)率,達(dá)到更好的處理效果。
圖1是本發(fā)明實施例一所述識別重復(fù)縮略圖的方法流程圖2是本發(fā)明實施例一中分析縮略圖獲取全局顏色特征的步驟流程圖3是本發(fā)明實施例一所述識別重復(fù)縮略圖的裝置結(jié)構(gòu)圖4是本發(fā)明實施例二所述在搜索結(jié)果中識別重復(fù)縮略圖的方法流程圖5是本發(fā)明實施例二所述在搜索結(jié)果中識別重復(fù)縮略圖的裝置結(jié)構(gòu)圖。
具體實施例方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明作進(jìn)一步詳細(xì)的說明。 實施例一
針對縮略圖中存在重復(fù)縮略圖的問題,本發(fā)明實施例一提供了 一種識別重 復(fù)縮略圖的方法,通過提取縮略圖的顏色特征,并根據(jù)所述顏色特征來識別重 復(fù)縮略圖。
參照圖1,是本發(fā)明實施例一所述識別重復(fù)縮略圖的方法流程圖。 S101,分析縮略圖內(nèi)容,獲取圖像的顏色特征。
本實施例使用顏色空間模型對縮略圖的顏色屬性進(jìn)行分析。顏色通常由三 個相互獨立的變量來描述,這三個獨立變量就構(gòu)成顏色空間^t型,顏色空間中 的每個三維空間坐標(biāo)對應(yīng)著一種顏色。典型的顏色空間包括RGB空間(Red 分量+Green分量+Blue分量,即紅色+綠色+藍(lán)色),HSI空間(Hue分量 +Saturation分量+Intensity分量,即色調(diào)+飽和度+亮度)和YCbCr空間( 一種 亮度分量+兩種色度分量)等,不同顏色空間之間可以相互轉(zhuǎn)化。本實施例可 以采用所述任意一種顏色空間模型,在此不作限定。
利用顏色空間模型分析得到圖像的顏色特征,本實施例中,所述顏色特征 包括全局顏色特征。所述全局顏色特征可以包括主顏色編號、主顏色率、顏色 多樣性。其中,主顏色編號用于唯一標(biāo)識縮略圖在顏色空間模型中的主要顏色。 例如,在256色的顏色空間中,顏色編號為0~255,主顏色編號即為縮略圖 對應(yīng)的主色調(diào)編號。主顏色率表示主顏色對應(yīng)的像素占整幅圖像總像素數(shù)的比例。顏色多樣性表示縮略圖中的有效顏色數(shù)目,所述有效顏色是指能夠被識別 出來的顏色。除此,顏色特征還可以包括次主顏色、次主顏色率等其他表征顏 色屬性的參數(shù)。
參照圖2,是本發(fā)明實施例一中分析縮略圖獲取全局顏色特征的步驟流程
圖。本實施例以RGB空間模型為例進(jìn)行說明。
5201, 量化顏色空間。
量化顏色空間是指用幾個比特(bit)來表示一個顏色分量。例如,Windows 真彩位圖就是用8bit表示一個顏色分量,也就是說真彩位圖可分辨的顏色數(shù)為 256 x 256x 256。量化過程如下
首先,確定一種顏色空間如RGB空間;其次,確定量化尺度,例如^f吏用 x比特表示顏色空間的一個分量,即R、 G、 B各分量分別量化為2x種顏色, 整個顏色空間就被量化為2X x 2X x 2X種顏色。
在量化顏色空間時需要考慮三個因素其一,實現(xiàn)各分量的均勻量化,即 每個分量量化為同樣大小;其二,滿足普通用戶辨識顏色的需求;其三,具有 較小的空間復(fù)雜度。即如果所用bit太多,會大大增加算法的空間復(fù)雜度;如 果所用bit太少,則可分辨的顏色又太少。因此,才艮據(jù)實際應(yīng)用情況不同,應(yīng) 選擇合適的量化尺度。
5202, 根據(jù)上述量化顏色空間得到的顏色數(shù),計算歸一化顏色直方圖。 顏色直方圖為圖像處理領(lǐng)域廣泛使用的圖像顏色特征,其描述了不同色彩
的像素在整幅圖像中所占的比例。歸一化顏色直方圖H[256]表示一個256維 的特征向量,各分量表示屬于此顏色的像素比例,例如H[O]表示圖像中顏色 為第0號顏色的^f象素所占的比例。歸一化顏色直方圖為一個中間結(jié)果,用于計 算后續(xù)的顏色特征。
5203, 根據(jù)所述直方圖獲取顏色特征。
如果顏色特征包括主顏色編號、主顏色率,則遍歷所述顏色直方圖的各個 分量,將所述顏色直方圖中的峰值分量確定為主顏色率,并將峰值對應(yīng)的序號 確定為主顏色編號。
顏色多樣性表示某幅圖像中能被用戶辨識出來的有效顏色數(shù)目,用戶能夠 辨識出來的顏色越多,用戶體驗越好。如果顏色特征包括顏色多樣性,則遍歷所述顏色直方圖的各個分量,當(dāng)直方圖的某一分量大于(或大于等于)預(yù)先設(shè)
定的閾值(即該顏色像素占據(jù)一定比例,比如0.005,表示占整幅圖像^f象素總 數(shù)的0.5%)時,將該分量對應(yīng)的顏色確定為縮略圖有效顏色,有效顏色總數(shù) 即顏色多樣性。
本實施例中,有效顏色不包括灰度顏色,因為灰度顏色沒有色彩,此處不 算作有效顏色。
經(jīng)過圖2的處理,就可以得到主顏色編號、主顏色率、顏色多樣性這三種 全局顏色特征。
優(yōu)選的,縮略圖的顏色特征還可以包括局部顏色特征,所述局部顏色特征 主要指均值顏色方格圖。首先將縮略圖均勻分割為n小塊,然后計算每一小塊 圖像的均值顏色,就得到了該縮略圖的n維均值顏色方格圖。所述局部顏色特 征簡單有效,并且根據(jù)顏色空間的量化,每一維分量的取值范圍為2x個整數(shù), 因此針對縮略圖具有很強的區(qū)分力。
其中,計算每一小塊均值顏色的方法是
設(shè)一幅縮略圖的大小為4m x 4n,則將其均勻的分為16個m x n的小圖后, 每個小塊圖像包含mxn個像素。小塊圖像中的每個像素Pixel!,都有一個顏
色編號Colori,則該小塊圖像的均值顏色為<formula>formula see original document page 14</formula>。
附xw
此外,將縮略圖劃分為小塊時需要考慮兩點
一方面,如果塊數(shù)越少,則存儲量小,空間復(fù)雜度低,但是均值顏色的分 辨力也越低。例如,對于一幅大小為4mx4n的縮略圖,極限情況只分一塊, 即為整個圖像,這時只需一個存儲單元,但是分辨能力很差。
另一方面,如果塊數(shù)越多,則分辨能力越強,但是存儲量大,空間復(fù)雜度 高。例如對于一幅大小為4mx4n的縮略圖,極限情況下分為4m x 4n塊,即 每個像素為一塊,這時分辨力很強,但需要4mx4n個存儲單元,相當(dāng)于把縮 略圖再存一遍。
因此基于以上兩點,在分塊時需要在空間復(fù)雜度和分辨力這兩個問題上進(jìn) 行權(quán)衡,取一個經(jīng)驗值。
通過以上內(nèi)容,就可以從縮略圖中獲得全局顏色特征和局部顏色特征。S102,根據(jù)所述顏色特征,判斷是否存在重復(fù)縮略圖。
本實施例提供了兩種識別方式, 一種是精確識別,另一種是模糊識別,下 面分別詳細(xì)說明。
精確識別方式也稱為精確排重,用于識別完全相同的縮略圖,具體識別方 法是
首先,計算縮略圖的特征編碼。利用全局顏色特征值和局部顏色特征值計 算縮略圖的特征編碼,該特征編碼與縮略圖的顏色特征密切相關(guān),如果兩幅縮 略圖的顏色特征相同,則計算得到的特征編碼也相同。本實施例采用的計算方 式是將全局顏色特征和局部顏色特征的聯(lián)合二進(jìn)制編碼作為一個縮略圖的特 征編碼,這種計算方式的重碼率很低。下面舉例說明聯(lián)合二進(jìn)制編碼。
假設(shè)一幅縮略圖的大小為4mx4n,則將其均勻的分為16個mxn的塊,并 釆用256種顏色量化方法。則局部顏色特征為16個8位二進(jìn)制數(shù)(0到255 ), 全局顏色特征中,主顏色編號、顏色多樣性各是1個8位二進(jìn)制數(shù)(0到255 ), 主顏色率也可用1個8位二進(jìn)制數(shù)表示。將這19個8位二進(jìn)制數(shù)合為一個152 位二進(jìn)制數(shù)就是這幅縮略圖的聯(lián)合二進(jìn)制碼。這個編碼空間為25619=2152,所 以重碼率很低。
其次,利用特征編碼進(jìn)行重復(fù)判斷。如前所述,如果兩幅縮略圖的顏色特 征相同,則計算得到的特征編碼也相同。利用這一點,可以判斷縮略圖的特征 編碼是否相同,如果相同,則為重復(fù)縮略圖。
基于以上判斷方式, 一種具體的實現(xiàn)方法是利用Hash表技術(shù)提供一種"主 鍵——存儲位置"的對應(yīng)存儲方式,從而實現(xiàn)數(shù)據(jù)對象的快速查找。具體步驟 為將縮略圖的特征編碼作為哈希表的主鍵,當(dāng)處理一個縮略圖時,判斷哈希 表中以該縮略圖的特征編碼為主鍵的存儲位置是否已被占據(jù)。如果該位置未被 占據(jù),說明目前還沒有出現(xiàn)相同特征編碼的縮略圖,所以該縮略圖為非重復(fù)結(jié) 果,將其填入哈希表的該存儲位置。實際上,填入哈希表的是該縮略圖的標(biāo)識 ID。如果該位置已被占據(jù),則說明該縮略圖與占據(jù)該存儲位置的縮略圖是一對 重復(fù)結(jié)果。
優(yōu)選的,對于判斷出的一對重復(fù)結(jié)果,比較兩者的上傳時間,將較新的縮 略圖ID填入哈希表的存儲單元,而另一個縮略圖作為重復(fù)結(jié)果。上述精確排重方式的處理速度較快,但是只能處理完全相同的縮略圖,對 于兩幅相差極小的縮略圖無效,導(dǎo)致排全率不高。因此基于所述原因,還提出 一種模糊排重方式。
模糊識別方式也稱為模糊排重,用于識別相同或相似的縮略圖,識別方法
是根據(jù)全局顏色特征值和局部顏色特征值計算縮略圖的相似度,然后判斷所 述相似度是否符合預(yù)置條件,如果符合,則為重復(fù)縮略圖。具體識別步驟如下
首先,進(jìn)行初始化,確定處理頁面數(shù)和提前結(jié)束條件。例如才莫糊排重處理 頁數(shù)=4,非重復(fù)結(jié)果頁數(shù)(即提前結(jié)束條件)=3,表示當(dāng)處理完4頁結(jié)果或 得到3頁互不重復(fù)的結(jié)果時排重操作結(jié)束。這樣既保證了前幾頁的排重質(zhì)量, 又降低了時間復(fù)雜度。
其次,判斷重復(fù)縮略圖。利用縮略圖顏色特征的相似度來判斷兩幅縮略圖 是否重復(fù),判斷條件包括主顏色編號是否相同,主顏色率的相似度、顏色多 樣性的相似度、均值顏色方格圖的相似度是否大于(或大于等于)預(yù)置閾值。 優(yōu)選的,還可以利用縮略圖的文字信息進(jìn)^f亍判斷。
一種優(yōu)選的判斷條件是,同時滿足如下條件的縮略圖就判定為重復(fù)縮略
圖
A. 主顏色編號相同;
B. 主顏色率相差不大,即主顏色率的相似度 > 閾值;
C. 顏色多樣性相差不大,即顏色多樣性的相似度 > 閾值;
D. 均值顏色方格圖的相似度 > 閾值 (E.縮略圖標(biāo)題相同)
其中,條件E為可選條件,條件B、 C、 D中的閾值可能相同也可能不同。 經(jīng)過實驗表明,上述重復(fù)縮略圖判斷可以較好地實現(xiàn)模糊排重效果,能夠保i正 高排全率和低誤排率。
由上可知,模糊排重不同于基于編碼和哈希表的精確排重,模糊排重不但 能夠排除完全相同的縮略圖,而且能夠處理相似的縮略圖,并可以通過調(diào)節(jié)閾 值對相似程度進(jìn)行控制。
在實際應(yīng)用中,精確排重和模糊排重可以單獨使用,但優(yōu)選的方法是將所 述精確排重和模糊排重結(jié)合起來使用,可以發(fā)揮各自的優(yōu)點,即通過精確排重和模糊排重,達(dá)到了較快的處理時間,較高的排全率和較低的誤排率,從而降 低重復(fù)率。
需要說明的是,上述識別過程是同時利用全局顏色特征和局部顏色特征來 識別,這是一種優(yōu)選的方案,如果僅利用全局顏色特征來識別也符合本發(fā)明思 想。但如果局部顏色特征即均值顏色方格圖也參與識別,則會提高識別率,尤 其是在模糊排重過程中,由于均值顏色方格圖對圖像具有很強的區(qū)分力,所以 利用該特征能夠識別出差別非常小的重復(fù)縮略圖。例如,j叚設(shè)兩幅縮略圖的主 顏色編號相同,主顏色率和顏色多樣性都相差不大,這時通過均值顏色方格圖 才能區(qū)分出是否重復(fù)。
S103,對重復(fù)縮略圖進(jìn)行處理。
根據(jù)實際應(yīng)用情況,對識別出的重復(fù)縮略圖進(jìn)行相應(yīng)處理。例如,直接從 數(shù)據(jù)庫中刪除所述重復(fù)縮略圖,或者降低重復(fù)縮略圖的權(quán)重,等等。
經(jīng)過上述處理,就能夠從大量的縮略圖中識別出重復(fù)縮略圖,從而提高縮 略圖的整體圖像質(zhì)量。
針對上述方法,本發(fā)明提供了一種識別重復(fù)縮略圖的裝置。參照圖3,是 所述裝置的結(jié)構(gòu)圖。所述裝置主要包括縮略圖分析單元U301、重復(fù)識別單元 U302、重復(fù)處理單元U303。
所述縮略圖分析單元U301用于分析縮略圖內(nèi)容,獲取圖像的顏色特征。 所述顏色特征包括全局顏色特征,還包括局部顏色特征。其中,全局顏色特征 包括主顏色編號、主顏色率和顏色多樣性,局部顏色特征主要指均值顏色方格 圖。
縮略圖分析單元U301獲取全局顏色特征的方式是首先,量化顏色空間 模型的顏色數(shù);其次,根據(jù)所述顏色數(shù),計算縮略圖的歸一化顏色直方圖;再 次,遍歷所述顏色直方圖,將所述顏色直方圖中的峰值分量確定為主顏色率, 并將峰值對應(yīng)的序號確定為主顏色編號;將顏色直方圖中分量大于等于預(yù)置閾 值的顏色,確定為縮略圖的有效顏色,有效顏色的總數(shù)為顏色多樣性。
縮略圖分析單元U301獲取局部顏色特征的方式是將縮略圖均勻劃分為 n小塊;計算每一小塊的均值顏色,得到該縮略圖的n維均值顏色方格圖。
重復(fù)識別單元U302用于根據(jù)所述顏色特征,判斷是否存在重復(fù)縮略圖。根據(jù)方法實施例中提供的兩種識別方式,所述重復(fù)識別單元U302進(jìn)一步包括 精確排重單元U3021,還可以包括模糊排重單元U3022。
精確排重單元U3021用于識別完全相同的縮略圖,利用全局顏色特征值 和局部顏色特征值計算縮略圖的特征編碼,并判斷縮略圖的特征編碼是否相 同,如果相同,則為重復(fù)縮略圖。所述^f青確排重單元U3021通過以下方式判 斷縮略圖的特征編碼是否相同將縮略圖的特征編碼作為哈希表的主鍵;當(dāng)處 理一個縮略圖時,判斷哈希表中以該縮略圖的特征編碼為主鍵的存儲位置是否 已被占據(jù),如果是,則該縮略圖與占據(jù)所述存儲位置的縮略圖重復(fù);如果否, 則將該縮略圖的標(biāo)識填入所述存儲位置。
模糊排重單元U3022用于識別相同或相似的縮略圖,根據(jù)全局顏色特征 值和局部顏色特征值計算縮略圖的相似度,并判斷所述相似度是否符合預(yù)置條 件,如果符合,則為重復(fù)縮略圖。所述預(yù)置條件包括主顏色編號相同,主顏色 率的相似度、顏色多樣性的相似度、均值顏色方格圖的相似度大于等于預(yù)置閾 值,還可以包括縮略圖的文字信息相同。當(dāng)同時利用所述預(yù)置條件進(jìn)行重復(fù)判 斷時,能夠保證較高的識別率。因此,模糊排重單元U3022不但能夠排除完 全相同的縮略圖,而且能夠處理相似的縮略圖,并可以通過調(diào)節(jié)閾值對相似程 度進(jìn)行控制。
重復(fù)處理單元U303用于對識別出的重復(fù)縮略圖進(jìn)行處理,例如進(jìn)行降權(quán) 或刪除等處理。
圖3所示裝置中未詳述的部分可以參見圖1、圖2所示方法的相關(guān)部分, 為了篇幅考慮,在此不再詳述。
實施例二
針對由于重復(fù)縮略圖的存在導(dǎo)致圖片或一見頻搜索結(jié)果單調(diào)、查準(zhǔn)率低、用 戶體驗差的問題,本發(fā)明將上述識別重復(fù)縮略圖的方法應(yīng)用到搜索引擎中,提 供了一種在搜索結(jié)果中識別顏色單調(diào)縮略圖的方法,大大改善了搜索引擎的檢 索性能,給用戶帶來更好的使用體驗。
參照圖4,是實施例所述在搜索結(jié)果中識別重復(fù)縮略圖的方法流程圖。 S401,分析搜索引擎系統(tǒng)中的縮略圖內(nèi)容,獲取圖像的顏色特征。所述顏色特征包括全局顏色特征和局部顏色特征。具體分析過程可參照圖2所示流 程,在此不再詳述。
5402, 將縮略圖的顏色特征添加到搜索引擎的索引數(shù)據(jù)中。
所述索引數(shù)據(jù)用于搜索引擎在進(jìn)行查詢詞4t索時提供相關(guān)的索引功能,所 述索引數(shù)據(jù)包括歷史數(shù)據(jù)和新數(shù)據(jù)。對于歷史數(shù)據(jù),在索引數(shù)據(jù)中增加四個字
段用于保存四種顏色特征,并將通過上述步驟得到的顏色特征添加到索引數(shù)據(jù)
的相應(yīng)字段。
所述新數(shù)據(jù)是指搜索引擎每天增加的新數(shù)據(jù),這些新數(shù)據(jù)是搜索引擎通過 網(wǎng)絡(luò)爬蟲等工具抓取或從專業(yè)網(wǎng)站直接獲取的。在新數(shù)據(jù)入庫時,需要按照 S401分析新的縮略圖得到其顏色特征,保證對新數(shù)據(jù)的過濾處理。
5403, 根據(jù)搜索關(guān)鍵詞查詢時,讀取所述索引數(shù)據(jù)中的顏色特征,然后根 據(jù)所述顏色特征判斷是否為重復(fù)縮略圖。
一種優(yōu)選的方法是使用雙重排重方法,在線搜索時使用精確排重對全部搜 索結(jié)果進(jìn)行重復(fù)識別,然后對前幾頁搜索結(jié)果進(jìn)行基于相似度的模糊排重。具 體識別過程如前所述,在此不再詳述。
5404, 將搜索結(jié)果中的重復(fù)縮略圖進(jìn)行降權(quán)處理,排到搜索結(jié)果列表的尾 部;或者刪除重復(fù)的縮略圖。
上述在搜索結(jié)果中識別重復(fù)縮略圖的方法,由于將重復(fù)結(jié)果進(jìn)行降權(quán)或刪 除處理,使得結(jié)果頁面更加豐富多樣,并提高了搜索引擎的搜索性能,提升了 用戶體驗。
針對所述方法,本發(fā)明實施例還提供了 一種在搜索結(jié)果中識別重復(fù)縮略圖 的裝置。參照圖5,是實施例所述的裝置結(jié)構(gòu)圖。所述裝置主要包括縮略圖分 析單元U501 、重復(fù)識別單元U502、重復(fù)處理單元U503和數(shù)據(jù)制作單元U504。
其中,縮略圖分析單元U501、重復(fù)識別單元U502、重復(fù)處理單元U503 的功能如圖3裝置所述的縮略圖分析單元U301、重復(fù)識別單元U302、重復(fù)處 理單元U303相同,在此不再詳述。
所述數(shù)據(jù)制作單元U504用于將縮略圖的顏色特征添加到搜索引擎的索引 數(shù)據(jù)中。搜索引擎的索引數(shù)據(jù)增加四個字段用于保存四種顏色特征,數(shù)據(jù)制作 單元U504將通過縮略圖分析單元U501處理的顏色特征添加到索引數(shù)據(jù)的相應(yīng)字段。顏色單調(diào)縮略圖識別單元U502在進(jìn)行識別處理時,讀取索引數(shù)據(jù)中 的顏色特征,然后根據(jù)所述顏色特征判斷是否為顏色單調(diào)縮略圖。
圖5所示裝置中未詳述的部分可以參見圖4所示方法的相關(guān)部分,為了篇 幅考慮,在此不再詳述。
以上對本發(fā)明所提供的一種識別重復(fù)縮略圖的方法、裝置及在搜索引擎中 的應(yīng)用,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式 進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思 想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明 的限制。
權(quán)利要求
1、識別重復(fù)縮略圖的方法,其特征在于,包括分析縮略圖內(nèi)容,獲取圖像的顏色特征;根據(jù)所述顏色特征,判斷是否存在重復(fù)縮略圖;對重復(fù)縮略圖進(jìn)行處理。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述顏色特征包括全局顏 色特征所述全局顏色特征包括主顏色編號、主顏色率和顏色多樣性。
3、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述顏色特征還包括局部 顏色特征所述局部顏色特征包括均值顏色方格圖。
4、 根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)顏色特征判斷重復(fù)縮 略圖具體包括精確識別步驟利用全局顏色特征值和局部顏色特征值計算縮略圖的特征編碼; 判斷縮略圖的特征編碼是否相同,如果相同,則為重復(fù)縮略圖。
5、 根據(jù)權(quán)利要求4所述的方法,其特征在于,判斷縮略圖的特征編碼是 否相同具體包括將縮略圖的特征編碼作為哈希表的主鍵;當(dāng)處理一個縮略圖時,判斷哈希表中以該縮略圖的特征編碼為主鍵的存儲 位置是否已被占據(jù),如果是,則該縮略圖與占據(jù)所述存儲位置的縮略圖重復(fù); 如果否,則將該縮略圖的標(biāo)識填入所述存儲位置。
6、 根據(jù)權(quán)利要求5所述的方法,其特征在于,當(dāng)該縮略圖與占據(jù)所述存 儲位置的縮略圖重復(fù)時,還包括比專交所述兩個縮略圖的上傳時間,將上傳時間4交新的縮略圖標(biāo)識填入所述 存儲位置,并將另一個縮略圖作為重復(fù)結(jié)果。
7、 根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)顏色特征判斷重復(fù)縮 略圖具體包括模糊識別步驟根據(jù)全局顏色特征值和局部顏色特征值計算縮略圖的相似度; 判斷所述相似度是否符合預(yù)置條件,如果符合,則為重復(fù)縮略圖。
8、 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述預(yù)置條件包括主顏 色編號相同,主顏色率的相似度、顏色多樣性的相似度、均值顏色方格圖的相似度大于等于預(yù)置閾值。
9、 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述預(yù)置條件還包括縮 略圖的文字信息相同。
10、 根據(jù)權(quán)利要求2所述的方法,其特征在于,分析縮略圖內(nèi)容來獲取全 局顏色特征具體包括量化顏色空間模型的顏色數(shù);才艮據(jù)所述顏色數(shù),計算縮略圖的歸一化顏色直方圖;遍歷所述顏色直方圖,將所述顏色直方圖中的峰值分量確定為主顏色率, 并將峰值對應(yīng)的序號確定為主顏色編號;將顏色直方圖中分量大于等于預(yù)置閾 值的顏色,確定為縮略圖的有效顏色,有效顏色的總數(shù)為顏色多樣性。
11、 根據(jù)權(quán)利要求3所述的方法,其特征在于,分析縮略圖內(nèi)容來獲取局 部顏色特征具體包括將縮略圖均勻劃分為n小塊;計算每一小塊的均值顏色,得到該縮略圖的n維均值顏色方格圖。
12、 根據(jù)權(quán)利要求l所述的方法,其特征在于,對重復(fù)縮略圖進(jìn)行處理具 體包括將重復(fù)縮略圖進(jìn)行降權(quán)或刪除處理。
13、 識別重復(fù)縮略圖的裝置,其特征在于,包括 縮略圖分析單元,用于分析縮略圖內(nèi)容,獲取圖像的顏色特征; 重復(fù)識別單元,用于根據(jù)所述顏色特征,判斷是否存在重復(fù)縮略圖; 重復(fù)處理單元,用于對重復(fù)縮略圖進(jìn)行處理。
14、 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述顏色特征包括全局 顏色特征所述全局顏色特征包括主顏色編號、主顏色率和顏色多樣性。
15、 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述顏色特征還包括局 部顏色特征所述局部顏色特征包括均值顏色方格圖。
16、 才艮據(jù)權(quán)利要求15所述的裝置,其特征在于,所述重復(fù)識別單元進(jìn)一 步包括精確排重單元,用于利用全局顏色特征值和局部顏色特征值計算縮略圖 的特征編碼,并判斷縮略圖的特征編碼是否相同,如果相同,則為重復(fù)縮略圖。
17、 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述精確排重單元通過以下方式判斷縮略圖的特4i編碼是否相同 將縮略圖的特征編碼作為哈希表的主鍵;當(dāng)處理一個縮略圖時,判斷哈希表中以該縮略圖的特征編碼為主鍵的存儲 位置是否已被占據(jù),如果是,則該縮略圖與占據(jù)所述存儲位置的縮略圖重復(fù); 如果否,則將該縮略圖的標(biāo)識填入所述存儲位置。
18、 根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述重復(fù)識別單元進(jìn)一 步包括模糊排重單元,用于根據(jù)全局顏色特征值和局部顏色特征值計算縮略圖 的相似度,并判斷所述相似度是否符合預(yù)置條件,如果符合,則為重復(fù)縮略圖。
19、 根據(jù)權(quán)利要求18所述的裝置,其特征在于,所述預(yù)置條件包括主 顏色編號相同,主顏色率的相似度、顏色多樣性的相似度、均值顏色方格圖的 相似度大于等于預(yù)置闊值。
20、 根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述預(yù)置條件還包括 縮略圖的文字信息相同。
21、 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述縮略圖分析單元通 過以下方式分析縮略圖內(nèi)容來獲取全局顏色特征量化顏色空間模型的顏色數(shù); 根據(jù)所述顏色數(shù),計算縮略圖的歸一化顏色直方圖; 遍歷所述顏色直方圖,將所述顏色直方圖中的峰值分量確定為主顏色率, 并將峰值對應(yīng)的序號確定為主顏色編號;將顏色直方圖中分量大于等于預(yù)置閾值的顏色,確定為縮略圖的有效顏色,有效顏色的總數(shù)為顏色多樣性。
22、 根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述縮略圖分析單元通 過以下方式分析縮略圖內(nèi)容來獲取局部顏色特征將縮略圖均勻劃分為n小塊;計算每一小塊的均值顏色,得到該縮略圖的n維均值顏色方格圖。
23、 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述重復(fù)處理單元對重 復(fù)縮略圖進(jìn)行以下處理將重復(fù)縮略圖進(jìn)行降權(quán)或刪除處理。
24、 在搜索結(jié)果中識別重復(fù)縮略圖的裝置,其特征在于,包括 縮略圖分析單元,用于分析縮略圖內(nèi)容,獲取圖像的顏色特征;數(shù)據(jù)制作單元,用于將縮略圖的顏色特征添加到搜索引擎的索引數(shù)據(jù)中; 重復(fù)識別單元,用于讀取索引數(shù)據(jù)中的顏色特征,并根據(jù)所述顏色特征, 判斷是否存在重復(fù)縮略圖;重復(fù)處理單元,用于對重復(fù)縮略圖進(jìn)^f亍處理。
25、 根據(jù)權(quán)利要求24所述的裝置,其特征在于所述顏色特征包括全局顏色特征和局部顏色特征,其中,所述全局顏色特 征包括主顏色編號、主顏色率和顏色多樣性,所述局部顏色特征包括均值顏色 方格圖。
26、 根據(jù)權(quán)利要求25所述的裝置,其特征在于所述重復(fù)識別單元包括 精確排重單元和模糊排重單元,其中,所述精確排重單元用于利用全局顏色特征值和局部顏色特征值計算縮略 圖的特征編碼,并判斷縮略圖的特征編碼是否相同,如果相同,則為重復(fù)縮略 圖;所述模糊排重單元,用于根據(jù)全局顏色特征值和局部顏色特征值計算縮略 圖的相似度,并判斷所述相似度是否符合預(yù)置條件,如果符合,則為重復(fù)縮略 圖。
27、 根據(jù)權(quán)利要求26所述的裝置,其特征在于所述精確排重單元用于在線搜索時識別完全相同的縮略圖,所述才莫糊排重 單元用于對排序靠前的搜索結(jié)果進(jìn)行相同或相似縮略圖的識別。
28、 根據(jù)權(quán)利要求26所述的裝置,其特征在于,所述預(yù)置條件包括主 顏色編號相同,主顏色率的相似度、顏色多樣性的相似度、均值顏色方格圖的 相似度大于等于預(yù)置閾值。
29、 根據(jù)權(quán)利要求25所述的裝置,其特征在于,所述縮略圖分析單元通 過以下方式分析縮略圖內(nèi)容來獲取全局顏色特征量化顏色空間模型的顏色數(shù);根據(jù)所述顏色數(shù),計算縮略圖的歸一化顏色直方圖;遍歷所述顏色直方圖,將所述顏色直方圖中的峰值分量確定為主顏色率, 并將峰值對應(yīng)的序號確定為主顏色編號;將顏色直方圖中分量大于等于預(yù)置閾 值的顏色,確定為縮略圖的有效顏色,有效顏色的總數(shù)為顏色多樣性。
30、 根據(jù)權(quán)利要求25所述的裝置,其特征在于,所述縮略圖分析單元通 過以下方式分析縮略圖內(nèi)容來獲取局部顏色特征將縮略圖均勻劃分為n小塊;計算每一小塊的均值顏色,得到該縮略圖的n維均值顏色方格圖。
31、 根據(jù)權(quán)利要求24所述的裝置,其特征在于,所述重復(fù)處理單元對重 復(fù)縮略圖進(jìn)行以下處理將搜索結(jié)果中的重復(fù)縮略圖進(jìn)行降權(quán)處理,排到搜索結(jié)果列表的尾部;或 者刪除重復(fù)的縮略圖。
全文摘要
本發(fā)明公開了一種識別重復(fù)縮略圖的方法及裝置,以解決縮略圖中存在重復(fù)縮略圖而影響圖像質(zhì)量的問題。所述方法包括分析縮略圖內(nèi)容,獲取圖像的顏色特征;根據(jù)所述顏色特征,判斷是否存在重復(fù)縮略圖;對重復(fù)縮略圖進(jìn)行處理。將所述識別重復(fù)縮略圖的方法應(yīng)用到搜索引擎中,本發(fā)明還提供了一種在搜索結(jié)果中識別重復(fù)縮略圖的裝置,在排序靠前的搜索結(jié)果中去除重復(fù)結(jié)果后,豐富了搜索結(jié)果的多樣性,提高了搜索引擎的搜索性能,并極大地提升了用戶體驗。
文檔編號G06T7/40GK101290634SQ200810114318
公開日2008年10月22日 申請日期2008年6月3日 優(yōu)先權(quán)日2008年6月3日
發(fā)明者闊 張, 李華北 申請人:北京搜狗科技發(fā)展有限公司