本發(fā)明涉及一種針對圖片格式的網(wǎng)絡(luò)爬蟲提取URL并索引及映射的框架
背景技術(shù):
網(wǎng)絡(luò)爬蟲,也稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,是一個自動提取網(wǎng)頁的程序,它從因特網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成部分。網(wǎng)絡(luò)爬蟲利用標(biāo)準(zhǔn)的HTTP協(xié)議,根據(jù)超級鏈接和Web文檔檢索的方法遍歷因特網(wǎng)信息空間。
目前網(wǎng)絡(luò)爬蟲只爬取文本,不能爬取音樂、圖片和視頻等多媒體文件,原因主要是多媒體數(shù)據(jù)量巨大;如何下載傳輸多媒體文件;如何索引多媒體文件;進(jìn)而對處理過的多媒體文件進(jìn)行檢索。現(xiàn)在因特網(wǎng)上有大量的多媒體文件,特別是社交網(wǎng)站和多媒體分享的興起,需要對多媒體文件進(jìn)行精準(zhǔn)檢索。
因特網(wǎng)上有數(shù)千種不同的數(shù)據(jù)類型,HTTP給每種要通過Web傳輸?shù)膶ο蠖即蛏狭嗣麨镸IME類型的數(shù)據(jù)格式標(biāo)簽(常見圖片格式:image/jpeg,image/gif)。統(tǒng)一資源定位符(URL)是資源標(biāo)識符最常見的形式。URL描述了一臺特定服務(wù)器上某資源的特定位置。元素文件(METAFILE)可提供有關(guān)頁面的元信息,如針對搜索引擎和更新頻度的描述和關(guān)鍵詞,可針對元素的關(guān)鍵詞進(jìn)行索引。
UDP是OSI參考模型中一種無連接的傳輸層協(xié)議,它主要用于不要求分組順序到達(dá)的傳輸中,分組傳輸順序的檢查與排序由應(yīng)用層完成,提供面向事務(wù)的簡單不可靠信息傳送服務(wù)。網(wǎng)絡(luò)圖片可通過UDP進(jìn)行下載,因為UDP具有TCP所望塵莫及的速度優(yōu)勢。
基于關(guān)鍵幀的網(wǎng)絡(luò)視頻格式文件摘要提取,計算量非常大,實時要求很難實現(xiàn)。而針對網(wǎng)絡(luò)視頻縮略圖進(jìn)行檢索,是基于現(xiàn)有技術(shù),一種可行的路徑。
本發(fā)明提供了一種針對圖片格式的網(wǎng)絡(luò)爬蟲提取URL并索引及映射的框架,可在適當(dāng)增加數(shù)據(jù)量的前提下,通過METAFILE的關(guān)鍵詞對URL進(jìn)行索引,并與相關(guān)直方圖建立映射,利用關(guān)鍵詞對圖片格式文件進(jìn)行檢索,再對檢索結(jié)果進(jìn)行直方圖的精準(zhǔn)檢索,構(gòu)建網(wǎng)絡(luò)圖片格式文件的搜索引擎。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種針對圖片格式的網(wǎng)絡(luò)爬蟲提取URL并索引及映射的框架。本發(fā)明包括以下特征:
發(fā)明技術(shù)方案
1.一種針對圖片格式的網(wǎng)絡(luò)爬蟲提取URL并索引及映射的框架,其具體步驟如下:
1)網(wǎng)絡(luò)爬蟲從遍歷參數(shù)和起始URL開始;
2)使用URL庫中的第一個URL從網(wǎng)絡(luò)上下載網(wǎng)頁;
3)將其傳遞給重復(fù)網(wǎng)頁檢查,重復(fù)核查的準(zhǔn)確性取決于具體的遍歷參數(shù);
4)如果網(wǎng)頁沒有被拒絕,則將它保存到網(wǎng)頁庫中;
5)并傳遞給鏈接提??;
6)鏈接提取從網(wǎng)頁的METAFILE中提取鏈接,傳遞給URL檢查;如果之前訪問過,或不符合遍歷參數(shù)表中列出的標(biāo)準(zhǔn),則拒絕下載;
7)同時提取直方圖,傳遞給直方圖庫;
8)將沒有被拒絕的URL進(jìn)行索引,遞給URL庫;并與相關(guān)直方圖建立映射;
9)URL庫然后將一個未被訪問的URL傳遞給網(wǎng)頁提取。
2.基于權(quán)利要求1的框架,構(gòu)建網(wǎng)絡(luò)圖片格式文件搜索引擎。
附圖說明
圖1是針對圖片格式的網(wǎng)絡(luò)爬蟲框架圖。
具體實施方式
這種針對圖片格式的網(wǎng)絡(luò)爬蟲提取URL并索引及映射的框架,包括如下步驟:
1)網(wǎng)絡(luò)爬蟲從遍歷參數(shù)和起始URL開始;
2)使用URL庫中的第一個URL從網(wǎng)絡(luò)上下載網(wǎng)頁;
3)將其傳遞給重復(fù)網(wǎng)頁檢查,重復(fù)核查的準(zhǔn)確性取決于具體的遍歷參數(shù);
4)如果網(wǎng)頁沒有被拒絕,則將它保存到網(wǎng)頁庫中;
5)并傳遞給鏈接提?。?/p>
6)鏈接提取從網(wǎng)頁的METAFILE中提取鏈接,傳遞給URL檢查;如果之前訪問過,或不符合遍歷參數(shù)表中列出的標(biāo)準(zhǔn),則拒絕下載;
7)同時提取直方圖,傳遞給直方圖庫;
8)將沒有被拒絕的URL進(jìn)行索引,遞給URL庫;并與相關(guān)直方圖建立映射;
9)URL庫然后將一個未被訪問的URL傳遞給網(wǎng)頁提?。?/p>
10)構(gòu)建網(wǎng)絡(luò)圖片格式文件的搜索引擎。