国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種針對圖片格式的網(wǎng)絡(luò)爬蟲提取URL并索引及映射的框架的制作方法

      文檔序號:12124725閱讀:583來源:國知局

      本發(fā)明涉及一種針對圖片格式的網(wǎng)絡(luò)爬蟲提取URL并索引及映射的框架



      背景技術(shù):

      網(wǎng)絡(luò)爬蟲,也稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,是一個自動提取網(wǎng)頁的程序,它從因特網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成部分。網(wǎng)絡(luò)爬蟲利用標(biāo)準(zhǔn)的HTTP協(xié)議,根據(jù)超級鏈接和Web文檔檢索的方法遍歷因特網(wǎng)信息空間。

      目前網(wǎng)絡(luò)爬蟲只爬取文本,不能爬取音樂、圖片和視頻等多媒體文件,原因主要是多媒體數(shù)據(jù)量巨大;如何下載傳輸多媒體文件;如何索引多媒體文件;進(jìn)而對處理過的多媒體文件進(jìn)行檢索。現(xiàn)在因特網(wǎng)上有大量的多媒體文件,特別是社交網(wǎng)站和多媒體分享的興起,需要對多媒體文件進(jìn)行精準(zhǔn)檢索。

      因特網(wǎng)上有數(shù)千種不同的數(shù)據(jù)類型,HTTP給每種要通過Web傳輸?shù)膶ο蠖即蛏狭嗣麨镸IME類型的數(shù)據(jù)格式標(biāo)簽(常見圖片格式:image/jpeg,image/gif)。統(tǒng)一資源定位符(URL)是資源標(biāo)識符最常見的形式。URL描述了一臺特定服務(wù)器上某資源的特定位置。元素文件(METAFILE)可提供有關(guān)頁面的元信息,如針對搜索引擎和更新頻度的描述和關(guān)鍵詞,可針對元素的關(guān)鍵詞進(jìn)行索引。

      UDP是OSI參考模型中一種無連接的傳輸層協(xié)議,它主要用于不要求分組順序到達(dá)的傳輸中,分組傳輸順序的檢查與排序由應(yīng)用層完成,提供面向事務(wù)的簡單不可靠信息傳送服務(wù)。網(wǎng)絡(luò)圖片可通過UDP進(jìn)行下載,因為UDP具有TCP所望塵莫及的速度優(yōu)勢。

      基于關(guān)鍵幀的網(wǎng)絡(luò)視頻格式文件摘要提取,計算量非常大,實時要求很難實現(xiàn)。而針對網(wǎng)絡(luò)視頻縮略圖進(jìn)行檢索,是基于現(xiàn)有技術(shù),一種可行的路徑。

      本發(fā)明提供了一種針對圖片格式的網(wǎng)絡(luò)爬蟲提取URL并索引及映射的框架,可在適當(dāng)增加數(shù)據(jù)量的前提下,通過METAFILE的關(guān)鍵詞對URL進(jìn)行索引,并與相關(guān)直方圖建立映射,利用關(guān)鍵詞對圖片格式文件進(jìn)行檢索,再對檢索結(jié)果進(jìn)行直方圖的精準(zhǔn)檢索,構(gòu)建網(wǎng)絡(luò)圖片格式文件的搜索引擎。



      技術(shù)實現(xiàn)要素:

      本發(fā)明的目的在于提供一種針對圖片格式的網(wǎng)絡(luò)爬蟲提取URL并索引及映射的框架。本發(fā)明包括以下特征:

      發(fā)明技術(shù)方案

      1.一種針對圖片格式的網(wǎng)絡(luò)爬蟲提取URL并索引及映射的框架,其具體步驟如下:

      1)網(wǎng)絡(luò)爬蟲從遍歷參數(shù)和起始URL開始;

      2)使用URL庫中的第一個URL從網(wǎng)絡(luò)上下載網(wǎng)頁;

      3)將其傳遞給重復(fù)網(wǎng)頁檢查,重復(fù)核查的準(zhǔn)確性取決于具體的遍歷參數(shù);

      4)如果網(wǎng)頁沒有被拒絕,則將它保存到網(wǎng)頁庫中;

      5)并傳遞給鏈接提??;

      6)鏈接提取從網(wǎng)頁的METAFILE中提取鏈接,傳遞給URL檢查;如果之前訪問過,或不符合遍歷參數(shù)表中列出的標(biāo)準(zhǔn),則拒絕下載;

      7)同時提取直方圖,傳遞給直方圖庫;

      8)將沒有被拒絕的URL進(jìn)行索引,遞給URL庫;并與相關(guān)直方圖建立映射;

      9)URL庫然后將一個未被訪問的URL傳遞給網(wǎng)頁提取。

      2.基于權(quán)利要求1的框架,構(gòu)建網(wǎng)絡(luò)圖片格式文件搜索引擎。

      附圖說明

      圖1是針對圖片格式的網(wǎng)絡(luò)爬蟲框架圖。

      具體實施方式

      這種針對圖片格式的網(wǎng)絡(luò)爬蟲提取URL并索引及映射的框架,包括如下步驟:

      1)網(wǎng)絡(luò)爬蟲從遍歷參數(shù)和起始URL開始;

      2)使用URL庫中的第一個URL從網(wǎng)絡(luò)上下載網(wǎng)頁;

      3)將其傳遞給重復(fù)網(wǎng)頁檢查,重復(fù)核查的準(zhǔn)確性取決于具體的遍歷參數(shù);

      4)如果網(wǎng)頁沒有被拒絕,則將它保存到網(wǎng)頁庫中;

      5)并傳遞給鏈接提?。?/p>

      6)鏈接提取從網(wǎng)頁的METAFILE中提取鏈接,傳遞給URL檢查;如果之前訪問過,或不符合遍歷參數(shù)表中列出的標(biāo)準(zhǔn),則拒絕下載;

      7)同時提取直方圖,傳遞給直方圖庫;

      8)將沒有被拒絕的URL進(jìn)行索引,遞給URL庫;并與相關(guān)直方圖建立映射;

      9)URL庫然后將一個未被訪問的URL傳遞給網(wǎng)頁提?。?/p>

      10)構(gòu)建網(wǎng)絡(luò)圖片格式文件的搜索引擎。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1