網(wǎng)絡(luò)組圖聚合方法和系統(tǒng)以及圖片搜索方法和系統(tǒng)的制作方法
【專利摘要】一種網(wǎng)絡(luò)組圖聚合方法,包括以下步驟:獲取圖片的圖片信息,所述圖片信息包括圖片URL、圖片所在網(wǎng)頁(yè)的網(wǎng)頁(yè)URL和圖片所在網(wǎng)頁(yè)的標(biāo)題;提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征;將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題;將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組。上述方法將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組,因而,上述方法可將關(guān)聯(lián)性強(qiáng)的圖片聚合為一組,從而可方便用戶以組圖為單位查看圖片,提高用戶查看圖片的效率。此外,還提供一種網(wǎng)絡(luò)組圖聚合系統(tǒng)、一種圖片搜索方法和系統(tǒng)。
【專利說明】網(wǎng)絡(luò)組圖聚合方法和系統(tǒng)以及圖片搜索方法和系統(tǒng)
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及網(wǎng)絡(luò)技術(shù),特別地涉及一種網(wǎng)絡(luò)組圖聚合方法和系統(tǒng)以及圖片搜索方法和系統(tǒng)。
【【背景技術(shù)】】
[0002]隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,人們?cè)絹碓诫x不開互聯(lián)網(wǎng)。人們從互聯(lián)網(wǎng)上搜索各類信息,例如,文獻(xiàn)、歌曲、影視、圖片等等。
[0003]當(dāng)用戶搜索圖片時(shí),獲取到用戶輸入的關(guān)鍵字后,輸出與關(guān)鍵字匹配的圖片,而搜索結(jié)果中給出的圖片一般是彼此獨(dú)立的,圖片之間的在時(shí)間、地點(diǎn)、事件等方面的關(guān)聯(lián)性不強(qiáng),用戶需要一張張的查看圖片,不能直接查看屬于同一主題的關(guān)聯(lián)密切的一組圖片,一組圖片簡(jiǎn)稱為組圖,從而導(dǎo)致用戶查看圖片不方便。
【
【發(fā)明內(nèi)容】
】
[0004]基于此,有必要提供一種可自動(dòng)聚合關(guān)聯(lián)性強(qiáng)的圖片的網(wǎng)絡(luò)組圖聚合方法。
[0005]一種網(wǎng)絡(luò)組圖聚合方法,包括以下步驟:
[0006]獲取圖片的圖片信息,所述圖片信息包括圖片URL、圖片所在網(wǎng)頁(yè)的網(wǎng)頁(yè)URL和圖片所在網(wǎng)頁(yè)的標(biāo)題;
[0007]提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征;
[0008]將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題;
`[0009]將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組。
[0010]基于此,還有必要提供一種可自動(dòng)聚合關(guān)聯(lián)性強(qiáng)的圖片的網(wǎng)絡(luò)組圖聚合系統(tǒng)。
[0011]一種網(wǎng)絡(luò)組圖聚合系統(tǒng),包括:
[0012]圖片信息獲取模塊,用于獲取圖片的圖片信息,所述圖片信息包括圖片URL、圖片所在網(wǎng)頁(yè)的網(wǎng)頁(yè)URL和圖片所在網(wǎng)頁(yè)的標(biāo)題;
[0013]特征提取模塊,用于提取圖片URL特征和提取圖片所在網(wǎng)頁(yè)的URL特征;
[0014]標(biāo)題去噪模塊,用于將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題;
[0015]組圖聚合模塊,用于將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組。
[0016]上述網(wǎng)絡(luò)組圖聚合方法和系統(tǒng),提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征,將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題,進(jìn)一步將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組,圖片URL特征相同說明圖片的存儲(chǔ)目錄相同,圖片所在網(wǎng)頁(yè)的URL特征相同,說明圖片屬于同一個(gè)網(wǎng)站,而圖片標(biāo)題相同說明圖片屬于同一主題或者關(guān)于同一事件,因而,上述方法可將關(guān)聯(lián)性強(qiáng)的圖片聚合為一組,從而可方便用戶以組圖為單位查看圖片,可方便用戶查看圖片,提高查看圖片的效率。
[0017]基于此,還有必要提供一種能方便用戶查看圖片的圖片搜索方法。
[0018]一種圖片搜索方法,包括以下步驟:[0019]獲取輸入的圖片搜索關(guān)鍵字;
[0020]獲取與所述搜索關(guān)鍵字匹配的組圖,所述組圖為按照上述網(wǎng)絡(luò)組圖聚合方法聚合而成的組圖;
[0021]輸出與所述匹配的組圖。
[0022]基于此,還有必要提供一種能方便用戶查看圖片的圖片搜索系統(tǒng)。 [0023]一種圖片搜索系統(tǒng),包括:
[0024]關(guān)鍵字獲取模塊,用于獲取輸入的圖片搜索關(guān)鍵字;
[0025]搜索模塊,用于獲取與所述搜索關(guān)鍵字匹配的組圖,所述組圖為上述網(wǎng)絡(luò)組圖聚合系統(tǒng)聚合而成的組圖;
[0026]輸出模塊,用于輸出所述匹配的組圖。
[0027]上述圖片搜索方法和系統(tǒng),用戶搜索圖片時(shí),在按照上述網(wǎng)絡(luò)組圖聚合方法聚合而成的組圖中獲取與搜索關(guān)鍵字匹配的組圖,以組圖為單位輸出搜索結(jié)果,可方便用戶同時(shí)查看多張屬于同一組的圖片,方便用戶的查看操作。而且上述圖片搜索方法和系統(tǒng)在圖片之間的關(guān)聯(lián)性強(qiáng)、圖片的特征相同或相近的組圖中搜索與搜索關(guān)鍵字匹配的組圖,可提高搜索關(guān)鍵字與搜索結(jié)果的匹配準(zhǔn)確性。
【【專利附圖】
【附圖說明】】
[0028]圖1為一個(gè)實(shí)施例中的網(wǎng)絡(luò)組圖聚合方法的流程示意圖;
[0029]圖2為一個(gè)實(shí)施例中圖1的步驟S30的流程示意圖;
[0030]圖3為一個(gè)實(shí)施例中的網(wǎng)絡(luò)組圖聚合系統(tǒng)的結(jié)構(gòu)示意圖;
[0031]圖4為一個(gè)實(shí)施例中圖3的標(biāo)題去噪模塊的結(jié)構(gòu)示意圖;
[0032]圖5為一個(gè)實(shí)施例中的圖片搜索方法的流程示意圖;
[0033]圖6為一個(gè)實(shí)施例中的圖片搜索系統(tǒng)的結(jié)構(gòu)示意圖。
【【具體實(shí)施方式】】
[0034]如圖1所示,在一個(gè)實(shí)施例中,一種網(wǎng)絡(luò)組圖聚合方法,包括以下步驟:
[0035]步驟SlO,獲取圖片的圖片信息,圖片信息包括圖片URL、圖片所在網(wǎng)頁(yè)的網(wǎng)頁(yè)URL和圖片所在網(wǎng)頁(yè)的標(biāo)題。
[0036]具體的,在一個(gè)實(shí)施例中,可分網(wǎng)站爬取網(wǎng)站的網(wǎng)頁(yè)資源,從各網(wǎng)站的網(wǎng)頁(yè)的源文件中提取圖片信息。
[0037]步驟S20,提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征。
[0038]在一個(gè)實(shí)施例中,可提取圖片URL中的預(yù)設(shè)級(jí)目錄。
[0039]具體的,URL中的一級(jí)目錄指的是URL中根目錄下的第一級(jí)目錄,除最末尾的“/”外,一級(jí)目錄包含一個(gè)“/”,二級(jí)目錄包含兩個(gè)“/”,依此類推。例如,一張圖片的URL為“http://ml.biz.1tc.cn/pic/t/84/53/Imgl035384_t.jpg”,則 “http://ml.biz.1tc.cn/pic/” 為一級(jí)目錄,“http://ml.biz.1tc.cn/pic/t/” 為二級(jí)目錄,“http://ml.biz.1tc.cn/pic/t/84/” 為三級(jí)目錄,“http:"ml.biz.1tc.cn/pic/t/84/53/” 為四級(jí)目錄,依此類推。
[0040]進(jìn)一步的,可提取圖片所在網(wǎng)頁(yè)的URL中的預(yù)設(shè)級(jí)目錄。具體的,可按照與提取圖片URL中的預(yù)設(shè)級(jí)目錄相同的方法提取圖片所在網(wǎng)頁(yè)的URL中的目錄,提取的目錄級(jí)數(shù)為預(yù)設(shè)值。
[0041]步驟S30,將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題。
[0042]在一個(gè)實(shí)施例中,可以分網(wǎng)站提取各網(wǎng)站的圖片URL特征、提取圖片所在網(wǎng)頁(yè)的URL特征,并分網(wǎng)站將各網(wǎng)站的圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理。
[0043]將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,去噪后的標(biāo)題比去噪前的標(biāo)題的類別區(qū)分能力更高,能更準(zhǔn)確的標(biāo)識(shí)圖片的特征。步驟S40,將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組。
[0044]聚合為一組的圖片即簡(jiǎn)稱為組圖。在一個(gè)實(shí)施例中,可將組圖中圖片的標(biāo)題設(shè)置為組圖的標(biāo)題。在一個(gè)實(shí)施例中,可將組圖標(biāo)題與組圖中圖片的URL對(duì)應(yīng)存儲(chǔ)。
[0045]上述網(wǎng)絡(luò)組圖聚合方法,提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征,將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題,進(jìn)一步將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組,圖片URL特征相同說明圖片的存儲(chǔ)目錄相同,圖片所在網(wǎng)頁(yè)的URL特征相同,說明圖片屬于同一個(gè)網(wǎng)站,而圖片標(biāo)題相同說明圖片屬于同一主題或者關(guān)于同一事件,因而,上述方法可將關(guān)聯(lián)性強(qiáng)的圖片聚合為一組,從而可方便用戶以組圖為單位查看圖片,可方便用戶查看圖片,提高查看圖片的效率。
[0046]如圖2所示,在一個(gè)實(shí)施例中,步驟S30包括以下步驟: [0047]步驟S301,將網(wǎng)頁(yè)的標(biāo)題切分為文字片段。
[0048]在一個(gè)實(shí)施例中,可將網(wǎng)頁(yè)的標(biāo)題中包含的雙標(biāo)點(diǎn)符號(hào)內(nèi)的內(nèi)容切分為一個(gè)文字片段。
[0049]具體的,雙標(biāo)點(diǎn)符號(hào)包括單字節(jié)和雙字節(jié)的雙標(biāo)點(diǎn)符號(hào),例如“ ”、‘’、()、{}、【】等等成對(duì)的標(biāo)點(diǎn)符號(hào)都為雙標(biāo)點(diǎn)符號(hào)。例如,網(wǎng)頁(yè)標(biāo)題中包括內(nèi)容【書名:數(shù)學(xué)之美】,則將【】?jī)?nèi)的內(nèi)容“書名:數(shù)學(xué)之美”切分為一個(gè)文字片段。
[0050]進(jìn)一步的,可將雙標(biāo)點(diǎn)符號(hào)外的文字按照單標(biāo)點(diǎn)符號(hào)切分成文字片段。
[0051]具體的,單標(biāo)點(diǎn)符號(hào)為彼此獨(dú)立的標(biāo)點(diǎn)符號(hào),例如逗號(hào)、句號(hào)、冒號(hào)、頓號(hào)、感嘆號(hào)等等。具體的,可判斷與雙標(biāo)點(diǎn)符號(hào)外的文字中包含的單標(biāo)點(diǎn)相鄰兩側(cè)的文字是否都為數(shù)字或字母,若否,則將單標(biāo)點(diǎn)相鄰兩側(cè)的文字切分成單獨(dú)的文字片段。
[0052]例如,標(biāo)題中包含不位于雙標(biāo)點(diǎn)符號(hào)內(nèi)的內(nèi)容:www.123.com,則將該內(nèi)容作為一個(gè)整體的文字片段,而若標(biāo)題中包含不位于雙標(biāo)點(diǎn)符號(hào)內(nèi)的內(nèi)容:體育〃軍事,則將該內(nèi)容切分為兩個(gè)文字片段:體育、軍事。
[0053]步驟S302,統(tǒng)計(jì)各文字片段在網(wǎng)站內(nèi)的出現(xiàn)次數(shù)和/或各文字片段在網(wǎng)站內(nèi)的出現(xiàn)比重,所述網(wǎng)站為圖片所在網(wǎng)頁(yè)所屬的網(wǎng)站。
[0054]具體的,切分后得到的各文字片段在網(wǎng)站內(nèi)的出現(xiàn)比重為各文字片段在網(wǎng)站內(nèi)的出現(xiàn)次數(shù)與各文字片段在網(wǎng)站內(nèi)的總出現(xiàn)次數(shù)的比值。
[0055]例如,將某一圖片所在網(wǎng)頁(yè)的標(biāo)題切分后得到三個(gè)文字片段a、b、C,進(jìn)一步的,分別統(tǒng)計(jì)a、b、c在圖片所在網(wǎng)頁(yè)所屬的網(wǎng)站中出現(xiàn)的次數(shù)Fa、Fb、F。,則a在網(wǎng)站內(nèi)的出現(xiàn)比重為Fa/ (Fa+Fb+Fc), b在網(wǎng)站內(nèi)的出現(xiàn)比重為Fb/ (Fa+Fb+Fc), c在網(wǎng)站內(nèi)的出現(xiàn)比重為Fc/(Fa+Fb+Fc)。
[0056]步驟S303,刪除出現(xiàn)次數(shù)大于第一閾值和/或出現(xiàn)比重大于第二閾值的文字片段。
[0057]根據(jù)TF_IDF(term frequency -1nverse document frequency)理論,字詞對(duì)某一文件的重要性隨著它在該文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在包含多個(gè)文件的語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。網(wǎng)頁(yè)的標(biāo)題一般是該網(wǎng)頁(yè)中比較重要的字詞,在本網(wǎng)頁(yè)內(nèi)的出現(xiàn)次數(shù)一般較高,而若網(wǎng)頁(yè)的標(biāo)題中的某文字片段在該網(wǎng)站內(nèi)出現(xiàn)的次數(shù)越小,說明該文字片段具有越好的類別區(qū)分能力,相反,若該文字片段在該網(wǎng)站內(nèi)出現(xiàn)的次數(shù)較大,則該文字片段的類別區(qū)分能力越低。
[0058]步驟S304,將剩余的文字片段按照文字片段在網(wǎng)頁(yè)的標(biāo)題中的順序組合。
[0059]具體的,文字片段之間可以用空格或標(biāo)點(diǎn)符號(hào)分隔。
[0060]本實(shí)施例中,將網(wǎng)頁(yè)的標(biāo)題中出現(xiàn)次數(shù)大于第一閾值和/或出現(xiàn)比重大于第二閾值的文字片段刪除,保留網(wǎng)頁(yè)的標(biāo)題中類別區(qū)分能力較高的文字片段,得到圖片標(biāo)題,保留的文字片段能更準(zhǔn)確的標(biāo)識(shí)圖片的特征,因此,將圖片標(biāo)題相同的圖片聚合為一組,可將圖片特征相同或相近的圖片即將關(guān)聯(lián)性強(qiáng)的圖片聚合為同一組,提高組圖聚合的準(zhǔn)確性,避免將無關(guān)的圖片聚合為一組。
[0061]在一個(gè)實(shí)施例中,所述圖片信息還包括圖片標(biāo)識(shí)。上述網(wǎng)絡(luò)組圖聚合方法還包括步驟:刪除聚合成的組圖中圖片標(biāo)識(shí)相同的圖片。
[0062]在一個(gè)實(shí)施例中,圖片標(biāo)識(shí)為根據(jù)圖片內(nèi)容計(jì)算得到的信息摘要值(例如MD5值),信息摘要值可唯一標(biāo)識(shí)圖片。
[0063]本實(shí)施例中,刪除組圖中圖片標(biāo)識(shí)相同的圖片,可提高組圖聚合的準(zhǔn)確性。
[0064]如圖3所示,在一個(gè)實(shí)施例中,一種網(wǎng)絡(luò)組圖聚合系統(tǒng),包括圖片信息獲取模塊
10、特征提取模塊20、標(biāo)題去噪模塊30、組圖聚合模塊40,其中:
[0065]圖片信息獲取模塊10用于獲取圖片的圖片信息,圖片信息包括圖片URL、圖片所在網(wǎng)頁(yè)的網(wǎng)頁(yè)URL和圖片所在網(wǎng)頁(yè)的標(biāo)題。
[0066]具體的,在一個(gè)實(shí)施例中,圖片信息獲取模塊10可分網(wǎng)站爬取網(wǎng)站的網(wǎng)頁(yè)資源,從各網(wǎng)站的網(wǎng)頁(yè)的源文件中提取圖片信息。
[0067]特征提取模塊20用于提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征。
[0068]在一個(gè)實(shí)施例中,特征提取模塊20可提取圖片URL中的預(yù)設(shè)級(jí)目錄。
[0069]具體的,URL中的一級(jí)目錄指的是URL中根目錄下的第一級(jí)目錄,除最末尾的“/”夕卜,一級(jí)目錄包含一個(gè)“ / ”,二級(jí)目錄包含兩個(gè)“ / ”,依此類推。
[0070]進(jìn)一步的,特征提取模塊20可提取圖片所在網(wǎng)頁(yè)的URL中的預(yù)設(shè)級(jí)目錄。
[0071]標(biāo)題去噪模塊30用于將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題。
[0072]在一個(gè)實(shí)施例中,特征提取模塊20可以分網(wǎng)站提取各網(wǎng)站的圖片URL特征、提取圖片所在網(wǎng)頁(yè)的URL特征,標(biāo)題去噪模塊30可分網(wǎng)站將各網(wǎng)站的圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理。
[0073]將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,去噪后的標(biāo)題比去噪前的標(biāo)題的類別區(qū)分能力更高,能更準(zhǔn)確的標(biāo)識(shí)圖片的特征。
[0074]組圖聚合模塊40用于將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組。
[0075]聚合為一組的圖片即簡(jiǎn)稱為組圖。在一個(gè)實(shí)施例中,組圖聚合模塊40可將組圖中圖片的標(biāo)題設(shè)置為組圖的標(biāo)題。在一個(gè)實(shí)施例中,組圖聚合模塊40可將組圖標(biāo)題與組圖中圖片的URL對(duì)應(yīng)存儲(chǔ)。
[0076]上述網(wǎng)絡(luò)組圖聚合系統(tǒng),提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征,將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題,進(jìn)一步將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組,圖片URL特征相同說明圖片的存儲(chǔ)目錄相同,圖片所在網(wǎng)頁(yè)的URL特征相同,說明圖片屬于同一個(gè)網(wǎng)站,而圖片標(biāo)題相同說明圖片屬于同一主題或者關(guān)于同一事件,因而,上述方法可將關(guān)聯(lián)性強(qiáng)的圖片聚合為一組,從而可方便用戶以組圖為單位查看圖片,可方便用戶查看圖片,提高查看圖片的效率。
[0077]如圖4所示,在一個(gè)實(shí)施例中,標(biāo)題去噪模塊30包括切分模塊301、統(tǒng)計(jì)模塊302和組合模塊303,其中:
[0078]切分模塊301用于將網(wǎng)頁(yè)的標(biāo)題切分為文字片段。
[0079]在一個(gè)實(shí)施例中,切分模塊301可將網(wǎng)頁(yè)的標(biāo)題中包含的雙標(biāo)點(diǎn)符號(hào)內(nèi)的內(nèi)容切分為一個(gè)文字片段。
[0080]具體的,雙標(biāo)點(diǎn)符號(hào)包括單字節(jié)和雙字節(jié)的雙標(biāo)點(diǎn)符號(hào),例如,“ ”、‘’、()、{}、【】等等成對(duì)的標(biāo)點(diǎn)符號(hào)都為雙標(biāo)點(diǎn)符號(hào)。例如,網(wǎng)頁(yè)標(biāo)題中包括內(nèi)容【書名:數(shù)學(xué)之美】,則將【】?jī)?nèi)的內(nèi)容“書名:數(shù)學(xué)之美”切分為一個(gè)文字片段。
[0081] 進(jìn)一步的,切分模塊301可將雙標(biāo)點(diǎn)符號(hào)外的文字按照單標(biāo)點(diǎn)符號(hào)切分成文字片段。
[0082]具體的,單標(biāo)點(diǎn)符號(hào)為彼此獨(dú)立的標(biāo)點(diǎn)符號(hào),例如逗號(hào)、句號(hào)、冒號(hào)、頓號(hào)、感嘆號(hào)
坐坐寸寸ο
[0083]具體的,切分模塊301可判斷與雙標(biāo)點(diǎn)符號(hào)外的文字中包含的單標(biāo)點(diǎn)相鄰兩側(cè)的文字是否都為數(shù)字或字母,若否,則將單標(biāo)點(diǎn)相鄰兩側(cè)的文字切分成單獨(dú)的文字片段。
[0084]統(tǒng)計(jì)模塊302用于統(tǒng)計(jì)各文字片段在網(wǎng)站內(nèi)的出現(xiàn)次數(shù)和/或各文字片段在網(wǎng)站內(nèi)的出現(xiàn)比重,所述網(wǎng)站為圖片所在網(wǎng)頁(yè)所屬的網(wǎng)站。
[0085]具體的,切分后得到的各文字片段在網(wǎng)站內(nèi)的出現(xiàn)比重為各文字片段在網(wǎng)站內(nèi)的出現(xiàn)次數(shù)與各文字片段在網(wǎng)站內(nèi)的總出現(xiàn)次數(shù)的比值。
[0086]組合模塊303用于刪除出現(xiàn)次數(shù)大于第一閾值和/或出現(xiàn)比重大于第二閾值的文字片段,將剩余的文字片段按照文字片段在網(wǎng)頁(yè)的標(biāo)題中的順序組合。
[0087]根據(jù)TF_IDF(term frequency -1nverse document frequency)理論,字詞對(duì)某一文件的重要性隨著它在該文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在包含多個(gè)文件的語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。網(wǎng)頁(yè)的標(biāo)題一般是該網(wǎng)頁(yè)中比較重要的字詞,在本網(wǎng)頁(yè)內(nèi)的出現(xiàn)次數(shù)一般較高,而若網(wǎng)頁(yè)的標(biāo)題中的某文字片段在該網(wǎng)站內(nèi)出現(xiàn)的次數(shù)越小,說明該文字片段具有越好的類別區(qū)分能力,相反,若該文字片段在該網(wǎng)站內(nèi)出現(xiàn)的次數(shù)較大,則該文字片段的類別區(qū)分能力越低。
[0088]具體的,組合模塊303可以用空格或標(biāo)點(diǎn)符號(hào)分隔文字片段。
[0089]本實(shí)施例中,將網(wǎng)頁(yè)的標(biāo)題中出現(xiàn)次數(shù)大于第一閾值和/或出現(xiàn)比重大于第二閾值的文字片段刪除,保留網(wǎng)頁(yè)的標(biāo)題中類別區(qū)分能力較高的文字片段,得到圖片標(biāo)題,保留的文字片段能更準(zhǔn)確的標(biāo)識(shí)圖片的特征,因此,將圖片標(biāo)題相同的圖片聚合為一組,可將圖片特征相同或相近的圖片即將關(guān)聯(lián)性強(qiáng)的圖片聚合為同一組,提高組圖聚合的準(zhǔn)確性,避免將無關(guān)的圖片聚合為一組。
[0090]在一個(gè)實(shí)施例中,所述圖片信息還包括圖片標(biāo)識(shí)。上述網(wǎng)絡(luò)組圖聚合系統(tǒng)還包括去重模塊(圖中未示出):刪除聚合成的組圖中圖片標(biāo)識(shí)相同的圖片。
[0091]在一個(gè)實(shí)施例中,圖片標(biāo)識(shí)為根據(jù)圖片內(nèi)容計(jì)算得到的信息摘要值(例如MD5值),信息摘要值可唯一標(biāo)識(shí)圖片。
[0092]本實(shí)施例中,刪除組圖中圖片標(biāo)識(shí)相同的圖片,可提高組圖聚合的準(zhǔn)確性。
[0093]如圖5所示,在一個(gè)實(shí)施例中,一種圖片搜索方法,包括以下步驟:
[0094]步驟S501,獲取輸入的圖片搜索關(guān)鍵字;
[0095]步驟S502,獲取與搜索關(guān)鍵字匹配的組圖,所述組圖為按照上述任一實(shí)施例中的網(wǎng)絡(luò)組圖聚合方法聚合而成的組圖。
[0096]在一個(gè)實(shí)施例中,可將按照上述任一實(shí)施例中的網(wǎng)絡(luò)組圖聚合方法聚合而成的組圖按組存儲(chǔ)。具體的,可將組圖標(biāo)題與組圖中圖片的URL對(duì)應(yīng)存儲(chǔ)。在一個(gè)實(shí)施例中,步驟S502可在存儲(chǔ)的組圖中搜索與搜索關(guān)鍵字匹配的組圖。
[0097]在一個(gè)實(shí)施例中,步驟S502可獲取組圖標(biāo)題與搜索關(guān)鍵字匹配的組圖。具體的,在用戶搜索圖片時(shí),獲取到用戶輸入的圖片搜索關(guān)鍵字后,可查詢包含搜索關(guān)鍵字中部分或全部文字的組圖標(biāo)題。
[0098]進(jìn)一步的,可獲取組圖標(biāo)題對(duì)應(yīng)的圖片URL,根據(jù)圖片URL獲取圖片。
[0099]步驟S503,輸出匹配的組圖。
[0100]具體的,獲取到與搜索關(guān)鍵字匹配的組圖后,可以組圖為單位輸出各組圖的組圖標(biāo)題以及組圖中的圖片。
[0101]本實(shí)施例中,用戶搜索圖片時(shí),在按照上述網(wǎng)絡(luò)組圖聚合方法聚合而成的組圖中獲取與搜索關(guān)鍵字匹配的組圖,以組圖為單位輸出搜索結(jié)果,可方便用戶同時(shí)查看多張屬于同一組的圖片,方便用戶的查看操作。
[0102]而另一方面,上述網(wǎng)絡(luò)組圖聚合方法將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征以及圖片標(biāo)題(去噪后的圖片所在網(wǎng)頁(yè)的標(biāo)題)相同的圖片聚合為一組,圖片URL特征相同說明圖片的存儲(chǔ)目錄相同,圖片所在網(wǎng)頁(yè)的URL特征相同,說明圖片屬于同一個(gè)網(wǎng)站,而圖片標(biāo)題相同說明圖片屬于同一主題或者關(guān)于同一事件,而且圖片標(biāo)題為圖片所在網(wǎng)頁(yè)的標(biāo)題經(jīng)過去噪后得到的,圖片標(biāo)題的類別區(qū)分能力高,能準(zhǔn)確的標(biāo)識(shí)圖片的特征,將圖片標(biāo)題相同的圖片聚合為一組,則可將圖片特征相同或相近的圖片聚合為一組。因而,按照上述網(wǎng)絡(luò)組圖聚合方法聚合成的組圖中圖片之間的關(guān)聯(lián)性強(qiáng)、圖片的特征相同或相近,上述網(wǎng)絡(luò)組圖聚合方法的組圖聚合準(zhǔn)確性高。
[0103]因此,上述圖片搜索方法在按照上述網(wǎng)絡(luò)組圖聚合方法聚合而成的組圖中獲取與搜索關(guān)鍵字匹配的組圖,即相當(dāng)于在圖片之間的關(guān)聯(lián)性強(qiáng)、圖片的特征相同或相近的組圖中搜索與搜索關(guān)鍵字匹配的組圖,從而可提高搜索關(guān)鍵字與搜索結(jié)果的匹配準(zhǔn)確性。
[0104]如圖6所不,在一個(gè)實(shí)施例中,一種圖片搜索系統(tǒng),包括關(guān)鍵字獲取模塊601、搜索模塊602、輸出模塊603,其中:
[0105]關(guān)鍵字獲取模塊601用于獲取輸入的圖片搜索關(guān)鍵字。
[0106]搜索模塊602用于獲取與搜索關(guān)鍵字匹配的組圖,所述組圖為上述任一實(shí)施例中的網(wǎng)絡(luò)組圖聚合系統(tǒng)聚合而成的組圖。[0107]在一個(gè)實(shí)施例中,上述圖片搜索系統(tǒng)還包括存儲(chǔ)模塊(圖中未示出),用于將上述任一實(shí)施例中的網(wǎng)絡(luò)組圖聚合系統(tǒng)聚合而成的組圖按組存儲(chǔ)。具體的,存儲(chǔ)模塊可將組圖標(biāo)題與組圖中圖片的URL對(duì)應(yīng)存儲(chǔ)。具體的,搜索模塊602中可在存儲(chǔ)模塊存儲(chǔ)的組圖中搜索與搜索關(guān)鍵字匹配的組圖。
[0108]在一個(gè)實(shí)施例中,搜索模塊602可用于獲取組圖標(biāo)題與搜索關(guān)鍵字匹配的組圖。具體的,在用戶搜索圖片時(shí),獲取到用戶輸入的圖片搜索關(guān)鍵字后,搜索模塊602可查詢包含搜索關(guān)鍵字中部分或全部文字的組圖標(biāo)題。
[0109]進(jìn)一步的,搜索模塊602可獲取組圖標(biāo)題對(duì)應(yīng)的圖片URL,根據(jù)圖片URL獲取圖片。
[0110]輸出模塊603用于輸出匹配的組圖。
[0111]具體的,輸出模塊603可以組圖為單位輸出各組圖的組圖標(biāo)題以及組圖中的圖片。
[0112]本實(shí)施例中,用戶搜索圖片時(shí),在上述網(wǎng)絡(luò)組圖聚合系統(tǒng)聚合而成的組圖中獲取與搜索關(guān)鍵字匹配的組圖,以組圖為單位輸出搜索結(jié)果,可方便用戶同時(shí)查看多張屬于同一組的圖片,方便用戶的查看操作。
[0113]而另一方面,上述網(wǎng)絡(luò)組圖聚合系統(tǒng)將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征以及圖片標(biāo)題(去噪后的圖片所在網(wǎng)頁(yè)的標(biāo)題)相同的圖片聚合為一組,圖片URL特征相同說明圖片的存儲(chǔ)目錄相同,圖片所在網(wǎng)頁(yè)的URL特征相同,說明圖片屬于同一個(gè)網(wǎng)站,而圖片標(biāo)題相同說明圖片屬于同一主題或者關(guān)于同一事件,而且圖片標(biāo)題為圖片所在網(wǎng)頁(yè)的標(biāo)題經(jīng)過去噪后得到的,圖片標(biāo)題的類別區(qū)分能力高,能準(zhǔn)確的標(biāo)識(shí)圖片的特征,將圖片標(biāo)題相同的圖片聚合為一組,則可將圖片特征相同或相近的圖片聚合為一組。因而,上述網(wǎng)絡(luò)組圖聚合系統(tǒng)聚合成的組圖中圖片之間的關(guān)聯(lián)性強(qiáng)、圖片的特征相同或相近,上述網(wǎng)絡(luò)組圖聚合系統(tǒng)的組圖聚合準(zhǔn)確性高。
[0114]因此,上述圖片搜索系統(tǒng)在上述網(wǎng)絡(luò)組圖聚合系統(tǒng)聚合而成的組圖中獲取與搜索關(guān)鍵字匹配的組圖,即相當(dāng)于在圖片之間的關(guān)聯(lián)性強(qiáng)、圖片的特征相同或相近的組圖中搜索與搜索關(guān)鍵字匹配的組圖,從而可提高搜索關(guān)鍵字與搜索結(jié)果的匹配準(zhǔn)確性。
[0115]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序控制相關(guān)的硬件來完成的,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory, ROM)或隨機(jī)存儲(chǔ)記憶體(Random AccessMemory, RAM)等。
[0116]以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【權(quán)利要求】
1.一種網(wǎng)絡(luò)組圖聚合方法,包括以下步驟: 獲取圖片的圖片信息,所述圖片信息包括圖片URL、圖片所在網(wǎng)頁(yè)的網(wǎng)頁(yè)URL和圖片所在網(wǎng)頁(yè)的標(biāo)題; 提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征; 將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題; 將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)組圖聚合方法,其特征在于,所述提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征的步驟為:提取圖片URL中的預(yù)設(shè)級(jí)目錄,并提取圖片所在網(wǎng)頁(yè)的URL中的預(yù)設(shè)級(jí)目錄。
3.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)組圖聚合方法,其特征在于,所述將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理的步驟包括: 將所述網(wǎng)頁(yè)的標(biāo)題切分為文字片段; 統(tǒng)計(jì)各文字片段在網(wǎng)站內(nèi)的出現(xiàn)次數(shù)和/或各文字片段在所述網(wǎng)站內(nèi)的出現(xiàn)比重,所述網(wǎng)站為圖片所在網(wǎng)頁(yè)所屬的網(wǎng)站; 刪除所述出現(xiàn)次數(shù)大 于第一閾值和/或所述出現(xiàn)比重大于第二閾值的文字片段; 將剩余的文字片段按照文字片段在所述網(wǎng)頁(yè)的標(biāo)題中的順序組合。
4.根據(jù)權(quán)利要求3所述的網(wǎng)絡(luò)組圖聚合方法,其特征在于,所述將所述網(wǎng)頁(yè)的標(biāo)題切分為文字片段的步驟包括: 將所述網(wǎng)頁(yè)的標(biāo)題中包含的雙標(biāo)點(diǎn)符號(hào)內(nèi)的內(nèi)容切分為一個(gè)文字片段; 判斷與所述雙標(biāo)點(diǎn)符號(hào)外的文字中包含的單標(biāo)點(diǎn)相鄰兩側(cè)的文字是否都為數(shù)字或字母,若否,則將單標(biāo)點(diǎn)相鄰兩側(cè)的文字切分成單獨(dú)的文字片段。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)組圖聚合方法,其特征在于,所述圖片信息還包括圖片標(biāo)識(shí); 所述方法還包括: 刪除聚合成的組圖中圖片標(biāo)識(shí)相同的圖片。
6.一種網(wǎng)絡(luò)組圖聚合系統(tǒng),其特征在于,包括: 圖片信息獲取模塊,用于獲取圖片的圖片信息,所述圖片信息包括圖片URL、圖片所在網(wǎng)頁(yè)的網(wǎng)頁(yè)URL和圖片所在網(wǎng)頁(yè)的標(biāo)題; 特征提取模塊,用于提取圖片URL特征和提取圖片所在網(wǎng)頁(yè)的URL特征; 標(biāo)題去噪模塊,用于將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題; 組圖聚合模塊,用于將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組。
7.根據(jù)權(quán)利要求6所述的網(wǎng)絡(luò)組圖聚合系統(tǒng),其特征在于,所述特征提取模塊用于提取圖片URL中的預(yù)設(shè)級(jí)目錄,并 提取圖片所在網(wǎng)頁(yè)的URL中的預(yù)設(shè)級(jí)目錄。
8.根據(jù)權(quán)利要求7所述的網(wǎng)絡(luò)組圖聚合系統(tǒng),其特征在于,所述標(biāo)題去噪模塊包括: 切分模塊,用于將所述網(wǎng)頁(yè)的標(biāo)題切分為文字片段; 統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)各文字片段在網(wǎng)站內(nèi)的出現(xiàn)次數(shù)和/或各文字片段在所述網(wǎng)站內(nèi)的出現(xiàn)比重,所述網(wǎng)站為圖片所在網(wǎng)頁(yè)所屬的網(wǎng)站;組合模塊,用于刪除所述出現(xiàn)次數(shù)大于第一閾值和/或所述出現(xiàn)比重大于第二閾值的文字片段,將剩余的文字片段按照文字片段在所述網(wǎng)頁(yè)的標(biāo)題中的順序組合。
9.根據(jù)權(quán)利要求8所述的網(wǎng)絡(luò)組圖聚合系統(tǒng),其特征在于,所述切分模塊用于將所述網(wǎng)頁(yè)的標(biāo)題中包含的雙標(biāo)點(diǎn)符號(hào)內(nèi)的內(nèi)容切分為一個(gè)文字片段;判斷與所述雙標(biāo)點(diǎn)符號(hào)外的文字中包含的單標(biāo)點(diǎn)相鄰兩側(cè)的文字是否都為數(shù)字或字母,若否,則將單標(biāo)點(diǎn)相鄰兩側(cè)的文字切分成單獨(dú)的文字片段。
10.根據(jù)權(quán)利要求6所述的網(wǎng)絡(luò)組圖聚合系統(tǒng),其特征在于,所述圖片信息還包括圖片標(biāo)識(shí); 所述系統(tǒng)還包括: 去重模塊,用于刪除聚合成的組圖中圖片標(biāo)識(shí)相同的圖片。
11.一種圖片搜索方法,包括以下步驟: 獲取輸入的圖片搜索關(guān)鍵字; 獲取與所述搜索關(guān)鍵字匹配的組圖,所述組圖為按照權(quán)利要求1至5任一所述的方法聚合而成的組圖; 輸出所述匹配的組圖。
12.根據(jù)權(quán)利要求11所述的圖片搜索方法,其特征在于,所述獲取與所述搜索關(guān)鍵字匹配的組圖的步驟為: 獲取組圖標(biāo)題與所述搜索關(guān)鍵字匹配的組圖。
13.一種圖片搜索系統(tǒng),其特征在于,包括: 關(guān)鍵字獲取模塊,用于獲取輸入的圖片搜索關(guān)鍵字; 搜索模塊,用于獲取與所述搜索關(guān)鍵字匹配的組圖,所述組圖為權(quán)利要求6至10任一所述的系統(tǒng)聚合而成的組圖; 輸出模塊,用于輸出所述匹配的組圖。
14.根據(jù)權(quán)利要求13所述的圖片搜索系統(tǒng),其特征在于,所述搜索模塊用于獲取組圖標(biāo)題與所述搜索關(guān)鍵字匹配的組圖。
【文檔編號(hào)】G06F17/30GK103631799SQ201210302660
【公開日】2014年3月12日 申請(qǐng)日期:2012年8月23日 優(yōu)先權(quán)日:2012年8月23日
【發(fā)明者】尚海霞, 張永華 申請(qǐng)人:深圳市世紀(jì)光速信息技術(shù)有限公司