国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      網(wǎng)絡(luò)組圖聚合方法和系統(tǒng)以及圖片搜索方法和系統(tǒng)的制作方法

      文檔序號(hào):6488099閱讀:288來源:國(guó)知局
      網(wǎng)絡(luò)組圖聚合方法和系統(tǒng)以及圖片搜索方法和系統(tǒng)的制作方法
      【專利摘要】一種網(wǎng)絡(luò)組圖聚合方法,包括以下步驟:獲取圖片的圖片信息,所述圖片信息包括圖片URL、圖片所在網(wǎng)頁(yè)的網(wǎng)頁(yè)URL和圖片所在網(wǎng)頁(yè)的標(biāo)題;提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征;將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題;將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組。上述方法將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組,因而,上述方法可將關(guān)聯(lián)性強(qiáng)的圖片聚合為一組,從而可方便用戶以組圖為單位查看圖片,提高用戶查看圖片的效率。此外,還提供一種網(wǎng)絡(luò)組圖聚合系統(tǒng)、一種圖片搜索方法和系統(tǒng)。
      【專利說明】網(wǎng)絡(luò)組圖聚合方法和系統(tǒng)以及圖片搜索方法和系統(tǒng)
      【【技術(shù)領(lǐng)域】】
      [0001]本發(fā)明涉及網(wǎng)絡(luò)技術(shù),特別地涉及一種網(wǎng)絡(luò)組圖聚合方法和系統(tǒng)以及圖片搜索方法和系統(tǒng)。
      【【背景技術(shù)】】
      [0002]隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,人們?cè)絹碓诫x不開互聯(lián)網(wǎng)。人們從互聯(lián)網(wǎng)上搜索各類信息,例如,文獻(xiàn)、歌曲、影視、圖片等等。
      [0003]當(dāng)用戶搜索圖片時(shí),獲取到用戶輸入的關(guān)鍵字后,輸出與關(guān)鍵字匹配的圖片,而搜索結(jié)果中給出的圖片一般是彼此獨(dú)立的,圖片之間的在時(shí)間、地點(diǎn)、事件等方面的關(guān)聯(lián)性不強(qiáng),用戶需要一張張的查看圖片,不能直接查看屬于同一主題的關(guān)聯(lián)密切的一組圖片,一組圖片簡(jiǎn)稱為組圖,從而導(dǎo)致用戶查看圖片不方便。

      【發(fā)明內(nèi)容】

      [0004]基于此,有必要提供一種可自動(dòng)聚合關(guān)聯(lián)性強(qiáng)的圖片的網(wǎng)絡(luò)組圖聚合方法。
      [0005]一種網(wǎng)絡(luò)組圖聚合方法,包括以下步驟:
      [0006]獲取圖片的圖片信息,所述圖片信息包括圖片URL、圖片所在網(wǎng)頁(yè)的網(wǎng)頁(yè)URL和圖片所在網(wǎng)頁(yè)的標(biāo)題;
      [0007]提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征;
      [0008]將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題;
      `[0009]將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組。
      [0010]基于此,還有必要提供一種可自動(dòng)聚合關(guān)聯(lián)性強(qiáng)的圖片的網(wǎng)絡(luò)組圖聚合系統(tǒng)。
      [0011]一種網(wǎng)絡(luò)組圖聚合系統(tǒng),包括:
      [0012]圖片信息獲取模塊,用于獲取圖片的圖片信息,所述圖片信息包括圖片URL、圖片所在網(wǎng)頁(yè)的網(wǎng)頁(yè)URL和圖片所在網(wǎng)頁(yè)的標(biāo)題;
      [0013]特征提取模塊,用于提取圖片URL特征和提取圖片所在網(wǎng)頁(yè)的URL特征;
      [0014]標(biāo)題去噪模塊,用于將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題;
      [0015]組圖聚合模塊,用于將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組。
      [0016]上述網(wǎng)絡(luò)組圖聚合方法和系統(tǒng),提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征,將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題,進(jìn)一步將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組,圖片URL特征相同說明圖片的存儲(chǔ)目錄相同,圖片所在網(wǎng)頁(yè)的URL特征相同,說明圖片屬于同一個(gè)網(wǎng)站,而圖片標(biāo)題相同說明圖片屬于同一主題或者關(guān)于同一事件,因而,上述方法可將關(guān)聯(lián)性強(qiáng)的圖片聚合為一組,從而可方便用戶以組圖為單位查看圖片,可方便用戶查看圖片,提高查看圖片的效率。
      [0017]基于此,還有必要提供一種能方便用戶查看圖片的圖片搜索方法。
      [0018]一種圖片搜索方法,包括以下步驟:[0019]獲取輸入的圖片搜索關(guān)鍵字;
      [0020]獲取與所述搜索關(guān)鍵字匹配的組圖,所述組圖為按照上述網(wǎng)絡(luò)組圖聚合方法聚合而成的組圖;
      [0021]輸出與所述匹配的組圖。
      [0022]基于此,還有必要提供一種能方便用戶查看圖片的圖片搜索系統(tǒng)。 [0023]一種圖片搜索系統(tǒng),包括:
      [0024]關(guān)鍵字獲取模塊,用于獲取輸入的圖片搜索關(guān)鍵字;
      [0025]搜索模塊,用于獲取與所述搜索關(guān)鍵字匹配的組圖,所述組圖為上述網(wǎng)絡(luò)組圖聚合系統(tǒng)聚合而成的組圖;
      [0026]輸出模塊,用于輸出所述匹配的組圖。
      [0027]上述圖片搜索方法和系統(tǒng),用戶搜索圖片時(shí),在按照上述網(wǎng)絡(luò)組圖聚合方法聚合而成的組圖中獲取與搜索關(guān)鍵字匹配的組圖,以組圖為單位輸出搜索結(jié)果,可方便用戶同時(shí)查看多張屬于同一組的圖片,方便用戶的查看操作。而且上述圖片搜索方法和系統(tǒng)在圖片之間的關(guān)聯(lián)性強(qiáng)、圖片的特征相同或相近的組圖中搜索與搜索關(guān)鍵字匹配的組圖,可提高搜索關(guān)鍵字與搜索結(jié)果的匹配準(zhǔn)確性。
      【【專利附圖】

      【附圖說明】】
      [0028]圖1為一個(gè)實(shí)施例中的網(wǎng)絡(luò)組圖聚合方法的流程示意圖;
      [0029]圖2為一個(gè)實(shí)施例中圖1的步驟S30的流程示意圖;
      [0030]圖3為一個(gè)實(shí)施例中的網(wǎng)絡(luò)組圖聚合系統(tǒng)的結(jié)構(gòu)示意圖;
      [0031]圖4為一個(gè)實(shí)施例中圖3的標(biāo)題去噪模塊的結(jié)構(gòu)示意圖;
      [0032]圖5為一個(gè)實(shí)施例中的圖片搜索方法的流程示意圖;
      [0033]圖6為一個(gè)實(shí)施例中的圖片搜索系統(tǒng)的結(jié)構(gòu)示意圖。
      【【具體實(shí)施方式】】
      [0034]如圖1所示,在一個(gè)實(shí)施例中,一種網(wǎng)絡(luò)組圖聚合方法,包括以下步驟:
      [0035]步驟SlO,獲取圖片的圖片信息,圖片信息包括圖片URL、圖片所在網(wǎng)頁(yè)的網(wǎng)頁(yè)URL和圖片所在網(wǎng)頁(yè)的標(biāo)題。
      [0036]具體的,在一個(gè)實(shí)施例中,可分網(wǎng)站爬取網(wǎng)站的網(wǎng)頁(yè)資源,從各網(wǎng)站的網(wǎng)頁(yè)的源文件中提取圖片信息。
      [0037]步驟S20,提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征。
      [0038]在一個(gè)實(shí)施例中,可提取圖片URL中的預(yù)設(shè)級(jí)目錄。
      [0039]具體的,URL中的一級(jí)目錄指的是URL中根目錄下的第一級(jí)目錄,除最末尾的“/”外,一級(jí)目錄包含一個(gè)“/”,二級(jí)目錄包含兩個(gè)“/”,依此類推。例如,一張圖片的URL為“http://ml.biz.1tc.cn/pic/t/84/53/Imgl035384_t.jpg”,則 “http://ml.biz.1tc.cn/pic/” 為一級(jí)目錄,“http://ml.biz.1tc.cn/pic/t/” 為二級(jí)目錄,“http://ml.biz.1tc.cn/pic/t/84/” 為三級(jí)目錄,“http:"ml.biz.1tc.cn/pic/t/84/53/” 為四級(jí)目錄,依此類推。
      [0040]進(jìn)一步的,可提取圖片所在網(wǎng)頁(yè)的URL中的預(yù)設(shè)級(jí)目錄。具體的,可按照與提取圖片URL中的預(yù)設(shè)級(jí)目錄相同的方法提取圖片所在網(wǎng)頁(yè)的URL中的目錄,提取的目錄級(jí)數(shù)為預(yù)設(shè)值。
      [0041]步驟S30,將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題。
      [0042]在一個(gè)實(shí)施例中,可以分網(wǎng)站提取各網(wǎng)站的圖片URL特征、提取圖片所在網(wǎng)頁(yè)的URL特征,并分網(wǎng)站將各網(wǎng)站的圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理。
      [0043]將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,去噪后的標(biāo)題比去噪前的標(biāo)題的類別區(qū)分能力更高,能更準(zhǔn)確的標(biāo)識(shí)圖片的特征。步驟S40,將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組。
      [0044]聚合為一組的圖片即簡(jiǎn)稱為組圖。在一個(gè)實(shí)施例中,可將組圖中圖片的標(biāo)題設(shè)置為組圖的標(biāo)題。在一個(gè)實(shí)施例中,可將組圖標(biāo)題與組圖中圖片的URL對(duì)應(yīng)存儲(chǔ)。
      [0045]上述網(wǎng)絡(luò)組圖聚合方法,提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征,將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題,進(jìn)一步將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組,圖片URL特征相同說明圖片的存儲(chǔ)目錄相同,圖片所在網(wǎng)頁(yè)的URL特征相同,說明圖片屬于同一個(gè)網(wǎng)站,而圖片標(biāo)題相同說明圖片屬于同一主題或者關(guān)于同一事件,因而,上述方法可將關(guān)聯(lián)性強(qiáng)的圖片聚合為一組,從而可方便用戶以組圖為單位查看圖片,可方便用戶查看圖片,提高查看圖片的效率。
      [0046]如圖2所示,在一個(gè)實(shí)施例中,步驟S30包括以下步驟: [0047]步驟S301,將網(wǎng)頁(yè)的標(biāo)題切分為文字片段。
      [0048]在一個(gè)實(shí)施例中,可將網(wǎng)頁(yè)的標(biāo)題中包含的雙標(biāo)點(diǎn)符號(hào)內(nèi)的內(nèi)容切分為一個(gè)文字片段。
      [0049]具體的,雙標(biāo)點(diǎn)符號(hào)包括單字節(jié)和雙字節(jié)的雙標(biāo)點(diǎn)符號(hào),例如“ ”、‘’、()、{}、【】等等成對(duì)的標(biāo)點(diǎn)符號(hào)都為雙標(biāo)點(diǎn)符號(hào)。例如,網(wǎng)頁(yè)標(biāo)題中包括內(nèi)容【書名:數(shù)學(xué)之美】,則將【】?jī)?nèi)的內(nèi)容“書名:數(shù)學(xué)之美”切分為一個(gè)文字片段。
      [0050]進(jìn)一步的,可將雙標(biāo)點(diǎn)符號(hào)外的文字按照單標(biāo)點(diǎn)符號(hào)切分成文字片段。
      [0051]具體的,單標(biāo)點(diǎn)符號(hào)為彼此獨(dú)立的標(biāo)點(diǎn)符號(hào),例如逗號(hào)、句號(hào)、冒號(hào)、頓號(hào)、感嘆號(hào)等等。具體的,可判斷與雙標(biāo)點(diǎn)符號(hào)外的文字中包含的單標(biāo)點(diǎn)相鄰兩側(cè)的文字是否都為數(shù)字或字母,若否,則將單標(biāo)點(diǎn)相鄰兩側(cè)的文字切分成單獨(dú)的文字片段。
      [0052]例如,標(biāo)題中包含不位于雙標(biāo)點(diǎn)符號(hào)內(nèi)的內(nèi)容:www.123.com,則將該內(nèi)容作為一個(gè)整體的文字片段,而若標(biāo)題中包含不位于雙標(biāo)點(diǎn)符號(hào)內(nèi)的內(nèi)容:體育〃軍事,則將該內(nèi)容切分為兩個(gè)文字片段:體育、軍事。
      [0053]步驟S302,統(tǒng)計(jì)各文字片段在網(wǎng)站內(nèi)的出現(xiàn)次數(shù)和/或各文字片段在網(wǎng)站內(nèi)的出現(xiàn)比重,所述網(wǎng)站為圖片所在網(wǎng)頁(yè)所屬的網(wǎng)站。
      [0054]具體的,切分后得到的各文字片段在網(wǎng)站內(nèi)的出現(xiàn)比重為各文字片段在網(wǎng)站內(nèi)的出現(xiàn)次數(shù)與各文字片段在網(wǎng)站內(nèi)的總出現(xiàn)次數(shù)的比值。
      [0055]例如,將某一圖片所在網(wǎng)頁(yè)的標(biāo)題切分后得到三個(gè)文字片段a、b、C,進(jìn)一步的,分別統(tǒng)計(jì)a、b、c在圖片所在網(wǎng)頁(yè)所屬的網(wǎng)站中出現(xiàn)的次數(shù)Fa、Fb、F。,則a在網(wǎng)站內(nèi)的出現(xiàn)比重為Fa/ (Fa+Fb+Fc), b在網(wǎng)站內(nèi)的出現(xiàn)比重為Fb/ (Fa+Fb+Fc), c在網(wǎng)站內(nèi)的出現(xiàn)比重為Fc/(Fa+Fb+Fc)。
      [0056]步驟S303,刪除出現(xiàn)次數(shù)大于第一閾值和/或出現(xiàn)比重大于第二閾值的文字片段。
      [0057]根據(jù)TF_IDF(term frequency -1nverse document frequency)理論,字詞對(duì)某一文件的重要性隨著它在該文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在包含多個(gè)文件的語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。網(wǎng)頁(yè)的標(biāo)題一般是該網(wǎng)頁(yè)中比較重要的字詞,在本網(wǎng)頁(yè)內(nèi)的出現(xiàn)次數(shù)一般較高,而若網(wǎng)頁(yè)的標(biāo)題中的某文字片段在該網(wǎng)站內(nèi)出現(xiàn)的次數(shù)越小,說明該文字片段具有越好的類別區(qū)分能力,相反,若該文字片段在該網(wǎng)站內(nèi)出現(xiàn)的次數(shù)較大,則該文字片段的類別區(qū)分能力越低。
      [0058]步驟S304,將剩余的文字片段按照文字片段在網(wǎng)頁(yè)的標(biāo)題中的順序組合。
      [0059]具體的,文字片段之間可以用空格或標(biāo)點(diǎn)符號(hào)分隔。
      [0060]本實(shí)施例中,將網(wǎng)頁(yè)的標(biāo)題中出現(xiàn)次數(shù)大于第一閾值和/或出現(xiàn)比重大于第二閾值的文字片段刪除,保留網(wǎng)頁(yè)的標(biāo)題中類別區(qū)分能力較高的文字片段,得到圖片標(biāo)題,保留的文字片段能更準(zhǔn)確的標(biāo)識(shí)圖片的特征,因此,將圖片標(biāo)題相同的圖片聚合為一組,可將圖片特征相同或相近的圖片即將關(guān)聯(lián)性強(qiáng)的圖片聚合為同一組,提高組圖聚合的準(zhǔn)確性,避免將無關(guān)的圖片聚合為一組。
      [0061]在一個(gè)實(shí)施例中,所述圖片信息還包括圖片標(biāo)識(shí)。上述網(wǎng)絡(luò)組圖聚合方法還包括步驟:刪除聚合成的組圖中圖片標(biāo)識(shí)相同的圖片。
      [0062]在一個(gè)實(shí)施例中,圖片標(biāo)識(shí)為根據(jù)圖片內(nèi)容計(jì)算得到的信息摘要值(例如MD5值),信息摘要值可唯一標(biāo)識(shí)圖片。
      [0063]本實(shí)施例中,刪除組圖中圖片標(biāo)識(shí)相同的圖片,可提高組圖聚合的準(zhǔn)確性。
      [0064]如圖3所示,在一個(gè)實(shí)施例中,一種網(wǎng)絡(luò)組圖聚合系統(tǒng),包括圖片信息獲取模塊
      10、特征提取模塊20、標(biāo)題去噪模塊30、組圖聚合模塊40,其中:
      [0065]圖片信息獲取模塊10用于獲取圖片的圖片信息,圖片信息包括圖片URL、圖片所在網(wǎng)頁(yè)的網(wǎng)頁(yè)URL和圖片所在網(wǎng)頁(yè)的標(biāo)題。
      [0066]具體的,在一個(gè)實(shí)施例中,圖片信息獲取模塊10可分網(wǎng)站爬取網(wǎng)站的網(wǎng)頁(yè)資源,從各網(wǎng)站的網(wǎng)頁(yè)的源文件中提取圖片信息。
      [0067]特征提取模塊20用于提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征。
      [0068]在一個(gè)實(shí)施例中,特征提取模塊20可提取圖片URL中的預(yù)設(shè)級(jí)目錄。
      [0069]具體的,URL中的一級(jí)目錄指的是URL中根目錄下的第一級(jí)目錄,除最末尾的“/”夕卜,一級(jí)目錄包含一個(gè)“ / ”,二級(jí)目錄包含兩個(gè)“ / ”,依此類推。
      [0070]進(jìn)一步的,特征提取模塊20可提取圖片所在網(wǎng)頁(yè)的URL中的預(yù)設(shè)級(jí)目錄。
      [0071]標(biāo)題去噪模塊30用于將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題。
      [0072]在一個(gè)實(shí)施例中,特征提取模塊20可以分網(wǎng)站提取各網(wǎng)站的圖片URL特征、提取圖片所在網(wǎng)頁(yè)的URL特征,標(biāo)題去噪模塊30可分網(wǎng)站將各網(wǎng)站的圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理。
      [0073]將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,去噪后的標(biāo)題比去噪前的標(biāo)題的類別區(qū)分能力更高,能更準(zhǔn)確的標(biāo)識(shí)圖片的特征。
      [0074]組圖聚合模塊40用于將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組。
      [0075]聚合為一組的圖片即簡(jiǎn)稱為組圖。在一個(gè)實(shí)施例中,組圖聚合模塊40可將組圖中圖片的標(biāo)題設(shè)置為組圖的標(biāo)題。在一個(gè)實(shí)施例中,組圖聚合模塊40可將組圖標(biāo)題與組圖中圖片的URL對(duì)應(yīng)存儲(chǔ)。
      [0076]上述網(wǎng)絡(luò)組圖聚合系統(tǒng),提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征,將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題,進(jìn)一步將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組,圖片URL特征相同說明圖片的存儲(chǔ)目錄相同,圖片所在網(wǎng)頁(yè)的URL特征相同,說明圖片屬于同一個(gè)網(wǎng)站,而圖片標(biāo)題相同說明圖片屬于同一主題或者關(guān)于同一事件,因而,上述方法可將關(guān)聯(lián)性強(qiáng)的圖片聚合為一組,從而可方便用戶以組圖為單位查看圖片,可方便用戶查看圖片,提高查看圖片的效率。
      [0077]如圖4所示,在一個(gè)實(shí)施例中,標(biāo)題去噪模塊30包括切分模塊301、統(tǒng)計(jì)模塊302和組合模塊303,其中:
      [0078]切分模塊301用于將網(wǎng)頁(yè)的標(biāo)題切分為文字片段。
      [0079]在一個(gè)實(shí)施例中,切分模塊301可將網(wǎng)頁(yè)的標(biāo)題中包含的雙標(biāo)點(diǎn)符號(hào)內(nèi)的內(nèi)容切分為一個(gè)文字片段。
      [0080]具體的,雙標(biāo)點(diǎn)符號(hào)包括單字節(jié)和雙字節(jié)的雙標(biāo)點(diǎn)符號(hào),例如,“ ”、‘’、()、{}、【】等等成對(duì)的標(biāo)點(diǎn)符號(hào)都為雙標(biāo)點(diǎn)符號(hào)。例如,網(wǎng)頁(yè)標(biāo)題中包括內(nèi)容【書名:數(shù)學(xué)之美】,則將【】?jī)?nèi)的內(nèi)容“書名:數(shù)學(xué)之美”切分為一個(gè)文字片段。
      [0081] 進(jìn)一步的,切分模塊301可將雙標(biāo)點(diǎn)符號(hào)外的文字按照單標(biāo)點(diǎn)符號(hào)切分成文字片段。
      [0082]具體的,單標(biāo)點(diǎn)符號(hào)為彼此獨(dú)立的標(biāo)點(diǎn)符號(hào),例如逗號(hào)、句號(hào)、冒號(hào)、頓號(hào)、感嘆號(hào)
      坐坐寸寸ο
      [0083]具體的,切分模塊301可判斷與雙標(biāo)點(diǎn)符號(hào)外的文字中包含的單標(biāo)點(diǎn)相鄰兩側(cè)的文字是否都為數(shù)字或字母,若否,則將單標(biāo)點(diǎn)相鄰兩側(cè)的文字切分成單獨(dú)的文字片段。
      [0084]統(tǒng)計(jì)模塊302用于統(tǒng)計(jì)各文字片段在網(wǎng)站內(nèi)的出現(xiàn)次數(shù)和/或各文字片段在網(wǎng)站內(nèi)的出現(xiàn)比重,所述網(wǎng)站為圖片所在網(wǎng)頁(yè)所屬的網(wǎng)站。
      [0085]具體的,切分后得到的各文字片段在網(wǎng)站內(nèi)的出現(xiàn)比重為各文字片段在網(wǎng)站內(nèi)的出現(xiàn)次數(shù)與各文字片段在網(wǎng)站內(nèi)的總出現(xiàn)次數(shù)的比值。
      [0086]組合模塊303用于刪除出現(xiàn)次數(shù)大于第一閾值和/或出現(xiàn)比重大于第二閾值的文字片段,將剩余的文字片段按照文字片段在網(wǎng)頁(yè)的標(biāo)題中的順序組合。
      [0087]根據(jù)TF_IDF(term frequency -1nverse document frequency)理論,字詞對(duì)某一文件的重要性隨著它在該文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在包含多個(gè)文件的語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。網(wǎng)頁(yè)的標(biāo)題一般是該網(wǎng)頁(yè)中比較重要的字詞,在本網(wǎng)頁(yè)內(nèi)的出現(xiàn)次數(shù)一般較高,而若網(wǎng)頁(yè)的標(biāo)題中的某文字片段在該網(wǎng)站內(nèi)出現(xiàn)的次數(shù)越小,說明該文字片段具有越好的類別區(qū)分能力,相反,若該文字片段在該網(wǎng)站內(nèi)出現(xiàn)的次數(shù)較大,則該文字片段的類別區(qū)分能力越低。
      [0088]具體的,組合模塊303可以用空格或標(biāo)點(diǎn)符號(hào)分隔文字片段。
      [0089]本實(shí)施例中,將網(wǎng)頁(yè)的標(biāo)題中出現(xiàn)次數(shù)大于第一閾值和/或出現(xiàn)比重大于第二閾值的文字片段刪除,保留網(wǎng)頁(yè)的標(biāo)題中類別區(qū)分能力較高的文字片段,得到圖片標(biāo)題,保留的文字片段能更準(zhǔn)確的標(biāo)識(shí)圖片的特征,因此,將圖片標(biāo)題相同的圖片聚合為一組,可將圖片特征相同或相近的圖片即將關(guān)聯(lián)性強(qiáng)的圖片聚合為同一組,提高組圖聚合的準(zhǔn)確性,避免將無關(guān)的圖片聚合為一組。
      [0090]在一個(gè)實(shí)施例中,所述圖片信息還包括圖片標(biāo)識(shí)。上述網(wǎng)絡(luò)組圖聚合系統(tǒng)還包括去重模塊(圖中未示出):刪除聚合成的組圖中圖片標(biāo)識(shí)相同的圖片。
      [0091]在一個(gè)實(shí)施例中,圖片標(biāo)識(shí)為根據(jù)圖片內(nèi)容計(jì)算得到的信息摘要值(例如MD5值),信息摘要值可唯一標(biāo)識(shí)圖片。
      [0092]本實(shí)施例中,刪除組圖中圖片標(biāo)識(shí)相同的圖片,可提高組圖聚合的準(zhǔn)確性。
      [0093]如圖5所示,在一個(gè)實(shí)施例中,一種圖片搜索方法,包括以下步驟:
      [0094]步驟S501,獲取輸入的圖片搜索關(guān)鍵字;
      [0095]步驟S502,獲取與搜索關(guān)鍵字匹配的組圖,所述組圖為按照上述任一實(shí)施例中的網(wǎng)絡(luò)組圖聚合方法聚合而成的組圖。
      [0096]在一個(gè)實(shí)施例中,可將按照上述任一實(shí)施例中的網(wǎng)絡(luò)組圖聚合方法聚合而成的組圖按組存儲(chǔ)。具體的,可將組圖標(biāo)題與組圖中圖片的URL對(duì)應(yīng)存儲(chǔ)。在一個(gè)實(shí)施例中,步驟S502可在存儲(chǔ)的組圖中搜索與搜索關(guān)鍵字匹配的組圖。
      [0097]在一個(gè)實(shí)施例中,步驟S502可獲取組圖標(biāo)題與搜索關(guān)鍵字匹配的組圖。具體的,在用戶搜索圖片時(shí),獲取到用戶輸入的圖片搜索關(guān)鍵字后,可查詢包含搜索關(guān)鍵字中部分或全部文字的組圖標(biāo)題。
      [0098]進(jìn)一步的,可獲取組圖標(biāo)題對(duì)應(yīng)的圖片URL,根據(jù)圖片URL獲取圖片。
      [0099]步驟S503,輸出匹配的組圖。
      [0100]具體的,獲取到與搜索關(guān)鍵字匹配的組圖后,可以組圖為單位輸出各組圖的組圖標(biāo)題以及組圖中的圖片。
      [0101]本實(shí)施例中,用戶搜索圖片時(shí),在按照上述網(wǎng)絡(luò)組圖聚合方法聚合而成的組圖中獲取與搜索關(guān)鍵字匹配的組圖,以組圖為單位輸出搜索結(jié)果,可方便用戶同時(shí)查看多張屬于同一組的圖片,方便用戶的查看操作。
      [0102]而另一方面,上述網(wǎng)絡(luò)組圖聚合方法將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征以及圖片標(biāo)題(去噪后的圖片所在網(wǎng)頁(yè)的標(biāo)題)相同的圖片聚合為一組,圖片URL特征相同說明圖片的存儲(chǔ)目錄相同,圖片所在網(wǎng)頁(yè)的URL特征相同,說明圖片屬于同一個(gè)網(wǎng)站,而圖片標(biāo)題相同說明圖片屬于同一主題或者關(guān)于同一事件,而且圖片標(biāo)題為圖片所在網(wǎng)頁(yè)的標(biāo)題經(jīng)過去噪后得到的,圖片標(biāo)題的類別區(qū)分能力高,能準(zhǔn)確的標(biāo)識(shí)圖片的特征,將圖片標(biāo)題相同的圖片聚合為一組,則可將圖片特征相同或相近的圖片聚合為一組。因而,按照上述網(wǎng)絡(luò)組圖聚合方法聚合成的組圖中圖片之間的關(guān)聯(lián)性強(qiáng)、圖片的特征相同或相近,上述網(wǎng)絡(luò)組圖聚合方法的組圖聚合準(zhǔn)確性高。
      [0103]因此,上述圖片搜索方法在按照上述網(wǎng)絡(luò)組圖聚合方法聚合而成的組圖中獲取與搜索關(guān)鍵字匹配的組圖,即相當(dāng)于在圖片之間的關(guān)聯(lián)性強(qiáng)、圖片的特征相同或相近的組圖中搜索與搜索關(guān)鍵字匹配的組圖,從而可提高搜索關(guān)鍵字與搜索結(jié)果的匹配準(zhǔn)確性。
      [0104]如圖6所不,在一個(gè)實(shí)施例中,一種圖片搜索系統(tǒng),包括關(guān)鍵字獲取模塊601、搜索模塊602、輸出模塊603,其中:
      [0105]關(guān)鍵字獲取模塊601用于獲取輸入的圖片搜索關(guān)鍵字。
      [0106]搜索模塊602用于獲取與搜索關(guān)鍵字匹配的組圖,所述組圖為上述任一實(shí)施例中的網(wǎng)絡(luò)組圖聚合系統(tǒng)聚合而成的組圖。[0107]在一個(gè)實(shí)施例中,上述圖片搜索系統(tǒng)還包括存儲(chǔ)模塊(圖中未示出),用于將上述任一實(shí)施例中的網(wǎng)絡(luò)組圖聚合系統(tǒng)聚合而成的組圖按組存儲(chǔ)。具體的,存儲(chǔ)模塊可將組圖標(biāo)題與組圖中圖片的URL對(duì)應(yīng)存儲(chǔ)。具體的,搜索模塊602中可在存儲(chǔ)模塊存儲(chǔ)的組圖中搜索與搜索關(guān)鍵字匹配的組圖。
      [0108]在一個(gè)實(shí)施例中,搜索模塊602可用于獲取組圖標(biāo)題與搜索關(guān)鍵字匹配的組圖。具體的,在用戶搜索圖片時(shí),獲取到用戶輸入的圖片搜索關(guān)鍵字后,搜索模塊602可查詢包含搜索關(guān)鍵字中部分或全部文字的組圖標(biāo)題。
      [0109]進(jìn)一步的,搜索模塊602可獲取組圖標(biāo)題對(duì)應(yīng)的圖片URL,根據(jù)圖片URL獲取圖片。
      [0110]輸出模塊603用于輸出匹配的組圖。
      [0111]具體的,輸出模塊603可以組圖為單位輸出各組圖的組圖標(biāo)題以及組圖中的圖片。
      [0112]本實(shí)施例中,用戶搜索圖片時(shí),在上述網(wǎng)絡(luò)組圖聚合系統(tǒng)聚合而成的組圖中獲取與搜索關(guān)鍵字匹配的組圖,以組圖為單位輸出搜索結(jié)果,可方便用戶同時(shí)查看多張屬于同一組的圖片,方便用戶的查看操作。
      [0113]而另一方面,上述網(wǎng)絡(luò)組圖聚合系統(tǒng)將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征以及圖片標(biāo)題(去噪后的圖片所在網(wǎng)頁(yè)的標(biāo)題)相同的圖片聚合為一組,圖片URL特征相同說明圖片的存儲(chǔ)目錄相同,圖片所在網(wǎng)頁(yè)的URL特征相同,說明圖片屬于同一個(gè)網(wǎng)站,而圖片標(biāo)題相同說明圖片屬于同一主題或者關(guān)于同一事件,而且圖片標(biāo)題為圖片所在網(wǎng)頁(yè)的標(biāo)題經(jīng)過去噪后得到的,圖片標(biāo)題的類別區(qū)分能力高,能準(zhǔn)確的標(biāo)識(shí)圖片的特征,將圖片標(biāo)題相同的圖片聚合為一組,則可將圖片特征相同或相近的圖片聚合為一組。因而,上述網(wǎng)絡(luò)組圖聚合系統(tǒng)聚合成的組圖中圖片之間的關(guān)聯(lián)性強(qiáng)、圖片的特征相同或相近,上述網(wǎng)絡(luò)組圖聚合系統(tǒng)的組圖聚合準(zhǔn)確性高。
      [0114]因此,上述圖片搜索系統(tǒng)在上述網(wǎng)絡(luò)組圖聚合系統(tǒng)聚合而成的組圖中獲取與搜索關(guān)鍵字匹配的組圖,即相當(dāng)于在圖片之間的關(guān)聯(lián)性強(qiáng)、圖片的特征相同或相近的組圖中搜索與搜索關(guān)鍵字匹配的組圖,從而可提高搜索關(guān)鍵字與搜索結(jié)果的匹配準(zhǔn)確性。
      [0115]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序控制相關(guān)的硬件來完成的,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory, ROM)或隨機(jī)存儲(chǔ)記憶體(Random AccessMemory, RAM)等。
      [0116]以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
      【權(quán)利要求】
      1.一種網(wǎng)絡(luò)組圖聚合方法,包括以下步驟: 獲取圖片的圖片信息,所述圖片信息包括圖片URL、圖片所在網(wǎng)頁(yè)的網(wǎng)頁(yè)URL和圖片所在網(wǎng)頁(yè)的標(biāo)題; 提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征; 將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題; 將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組。
      2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)組圖聚合方法,其特征在于,所述提取圖片URL特征和圖片所在網(wǎng)頁(yè)的URL特征的步驟為:提取圖片URL中的預(yù)設(shè)級(jí)目錄,并提取圖片所在網(wǎng)頁(yè)的URL中的預(yù)設(shè)級(jí)目錄。
      3.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)組圖聚合方法,其特征在于,所述將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理的步驟包括: 將所述網(wǎng)頁(yè)的標(biāo)題切分為文字片段; 統(tǒng)計(jì)各文字片段在網(wǎng)站內(nèi)的出現(xiàn)次數(shù)和/或各文字片段在所述網(wǎng)站內(nèi)的出現(xiàn)比重,所述網(wǎng)站為圖片所在網(wǎng)頁(yè)所屬的網(wǎng)站; 刪除所述出現(xiàn)次數(shù)大 于第一閾值和/或所述出現(xiàn)比重大于第二閾值的文字片段; 將剩余的文字片段按照文字片段在所述網(wǎng)頁(yè)的標(biāo)題中的順序組合。
      4.根據(jù)權(quán)利要求3所述的網(wǎng)絡(luò)組圖聚合方法,其特征在于,所述將所述網(wǎng)頁(yè)的標(biāo)題切分為文字片段的步驟包括: 將所述網(wǎng)頁(yè)的標(biāo)題中包含的雙標(biāo)點(diǎn)符號(hào)內(nèi)的內(nèi)容切分為一個(gè)文字片段; 判斷與所述雙標(biāo)點(diǎn)符號(hào)外的文字中包含的單標(biāo)點(diǎn)相鄰兩側(cè)的文字是否都為數(shù)字或字母,若否,則將單標(biāo)點(diǎn)相鄰兩側(cè)的文字切分成單獨(dú)的文字片段。
      5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)組圖聚合方法,其特征在于,所述圖片信息還包括圖片標(biāo)識(shí); 所述方法還包括: 刪除聚合成的組圖中圖片標(biāo)識(shí)相同的圖片。
      6.一種網(wǎng)絡(luò)組圖聚合系統(tǒng),其特征在于,包括: 圖片信息獲取模塊,用于獲取圖片的圖片信息,所述圖片信息包括圖片URL、圖片所在網(wǎng)頁(yè)的網(wǎng)頁(yè)URL和圖片所在網(wǎng)頁(yè)的標(biāo)題; 特征提取模塊,用于提取圖片URL特征和提取圖片所在網(wǎng)頁(yè)的URL特征; 標(biāo)題去噪模塊,用于將圖片所在網(wǎng)頁(yè)的標(biāo)題進(jìn)行去噪處理,得到圖片標(biāo)題; 組圖聚合模塊,用于將圖片URL特征、圖片所在網(wǎng)頁(yè)的URL特征和圖片標(biāo)題相同的圖片聚合為一組。
      7.根據(jù)權(quán)利要求6所述的網(wǎng)絡(luò)組圖聚合系統(tǒng),其特征在于,所述特征提取模塊用于提取圖片URL中的預(yù)設(shè)級(jí)目錄,并 提取圖片所在網(wǎng)頁(yè)的URL中的預(yù)設(shè)級(jí)目錄。
      8.根據(jù)權(quán)利要求7所述的網(wǎng)絡(luò)組圖聚合系統(tǒng),其特征在于,所述標(biāo)題去噪模塊包括: 切分模塊,用于將所述網(wǎng)頁(yè)的標(biāo)題切分為文字片段; 統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)各文字片段在網(wǎng)站內(nèi)的出現(xiàn)次數(shù)和/或各文字片段在所述網(wǎng)站內(nèi)的出現(xiàn)比重,所述網(wǎng)站為圖片所在網(wǎng)頁(yè)所屬的網(wǎng)站;組合模塊,用于刪除所述出現(xiàn)次數(shù)大于第一閾值和/或所述出現(xiàn)比重大于第二閾值的文字片段,將剩余的文字片段按照文字片段在所述網(wǎng)頁(yè)的標(biāo)題中的順序組合。
      9.根據(jù)權(quán)利要求8所述的網(wǎng)絡(luò)組圖聚合系統(tǒng),其特征在于,所述切分模塊用于將所述網(wǎng)頁(yè)的標(biāo)題中包含的雙標(biāo)點(diǎn)符號(hào)內(nèi)的內(nèi)容切分為一個(gè)文字片段;判斷與所述雙標(biāo)點(diǎn)符號(hào)外的文字中包含的單標(biāo)點(diǎn)相鄰兩側(cè)的文字是否都為數(shù)字或字母,若否,則將單標(biāo)點(diǎn)相鄰兩側(cè)的文字切分成單獨(dú)的文字片段。
      10.根據(jù)權(quán)利要求6所述的網(wǎng)絡(luò)組圖聚合系統(tǒng),其特征在于,所述圖片信息還包括圖片標(biāo)識(shí); 所述系統(tǒng)還包括: 去重模塊,用于刪除聚合成的組圖中圖片標(biāo)識(shí)相同的圖片。
      11.一種圖片搜索方法,包括以下步驟: 獲取輸入的圖片搜索關(guān)鍵字; 獲取與所述搜索關(guān)鍵字匹配的組圖,所述組圖為按照權(quán)利要求1至5任一所述的方法聚合而成的組圖; 輸出所述匹配的組圖。
      12.根據(jù)權(quán)利要求11所述的圖片搜索方法,其特征在于,所述獲取與所述搜索關(guān)鍵字匹配的組圖的步驟為: 獲取組圖標(biāo)題與所述搜索關(guān)鍵字匹配的組圖。
      13.一種圖片搜索系統(tǒng),其特征在于,包括: 關(guān)鍵字獲取模塊,用于獲取輸入的圖片搜索關(guān)鍵字; 搜索模塊,用于獲取與所述搜索關(guān)鍵字匹配的組圖,所述組圖為權(quán)利要求6至10任一所述的系統(tǒng)聚合而成的組圖; 輸出模塊,用于輸出所述匹配的組圖。
      14.根據(jù)權(quán)利要求13所述的圖片搜索系統(tǒng),其特征在于,所述搜索模塊用于獲取組圖標(biāo)題與所述搜索關(guān)鍵字匹配的組圖。
      【文檔編號(hào)】G06F17/30GK103631799SQ201210302660
      【公開日】2014年3月12日 申請(qǐng)日期:2012年8月23日 優(yōu)先權(quán)日:2012年8月23日
      【發(fā)明者】尚海霞, 張永華 申請(qǐng)人:深圳市世紀(jì)光速信息技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1