一種網(wǎng)頁(yè)分類方法

文檔序號(hào)：6576814閱讀：360來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種網(wǎng)頁(yè)分類方法
技術(shù)領(lǐng)域：
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域，尤其涉及一種對(duì)網(wǎng)頁(yè)進(jìn)行分類的方法。
站旦灶i 冃豕?jié)h不
隨著網(wǎng)絡(luò)信息的不斷膨脹，人們?cè)絹?lái)越離不開(kāi)搜索引擎。百度、谷歌等通用搜索引擎雖然給人們提供了很多便利，但也存在著一定的局限性，如通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)，且搜索深度不夠。
于是，垂直搜索應(yīng)運(yùn)而生，它是服務(wù)于某個(gè)行業(yè)領(lǐng)域的精確搜索技術(shù)，是搜索引擎的細(xì)分和延伸，更加專業(yè)，返回的結(jié)果更具有針對(duì)性，通過(guò)特定行業(yè)主題的領(lǐng)域知識(shí)，可以提供根據(jù)語(yǔ)義信息的査詢，從而能滿足用戶的特殊搜索需求。但目前的垂直搜索大多是針對(duì)某一特定行業(yè)、某一特定領(lǐng)域的搜索，無(wú)法對(duì)眾多行業(yè)和領(lǐng)域都進(jìn)行垂直搜索，無(wú)法達(dá)到通用搜索的廣度。
另外，目前網(wǎng)頁(yè)的網(wǎng)址都未考慮到語(yǔ)意，在沒(méi)有上網(wǎng)瀏覽網(wǎng)頁(yè)之前，很難知道該網(wǎng)址是什么類型的網(wǎng)站。比如www.yahoo.com，由于網(wǎng)頁(yè)地址 (Uniform Resource Locator, URL)是沒(méi)有語(yǔ)意的，如果沒(méi)有上網(wǎng)瀏覽網(wǎng) 頁(yè)，并不能了解該URL字符串代表著一個(gè)綜合資訊門戶網(wǎng)站。目前還沒(méi)有方法對(duì)未知URL進(jìn)行分類，絕大部分人所使用的方法是，人工瀏覽網(wǎng)頁(yè)，然后根據(jù)經(jīng)驗(yàn)進(jìn)行分類，這種方法費(fèi)時(shí)費(fèi)力，且無(wú)法覆蓋較廣的范圍。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種網(wǎng)頁(yè)分類的方法，將垂直搜索和通用搜索的優(yōu)點(diǎn)結(jié)合起來(lái)，既擁有通用搜索的搜索廣度，又擁有垂直搜索的搜索深度，并且能方便地獲得分類網(wǎng)站上一個(gè)未知URL所屬的網(wǎng)頁(yè)分類信息。
本發(fā)明的技術(shù)方案是一種網(wǎng)頁(yè)分類方法，根據(jù)數(shù)據(jù)流向從下往上依次包括數(shù)據(jù)采集層、網(wǎng)頁(yè)解析層和應(yīng)用表示層，其中，數(shù)據(jù)采集層利用聚焦爬蟲技術(shù)對(duì)預(yù)設(shè)在導(dǎo)航網(wǎng)站網(wǎng)址表中的所有網(wǎng)頁(yè)的源代碼進(jìn)行采集，網(wǎng)頁(yè)解析
層包括以下步驟
(1) 判斷網(wǎng)頁(yè)是否滿足正則表達(dá)式定時(shí)學(xué)習(xí)器模式學(xué)習(xí)得到的網(wǎng)頁(yè)結(jié)
構(gòu)特征；
(2) 對(duì)符合結(jié)構(gòu)特征的網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化信息抽??；
(3) 從結(jié)構(gòu)化信息中提取符合要求的所有下層鏈接；(4) 判斷下層鏈接是否滿足搜索策略；
(5) 將滿足搜索策略的下層鏈接的信息加入網(wǎng)址類別表。本發(fā)明更為詳細(xì)的技術(shù)方案是所述結(jié)構(gòu)化信息用正則表達(dá)式表示。所述下層鏈接的信息包括此鏈接的網(wǎng)頁(yè)類別信息以及各個(gè)類別中對(duì)應(yīng)
的網(wǎng)址信息。
所述結(jié)構(gòu)化信息抽取采用聚焦爬蟲技術(shù)。
所述搜索策略和從結(jié)構(gòu)化信息中提取鏈接采用廣度優(yōu)先搜索策略。所述應(yīng)用表示層可以根據(jù)所述網(wǎng)址類別表得到未知URL的網(wǎng)頁(yè)分類信息，步驟如下
(1) 用戶輸入未知URL;
(2) 搜索URL網(wǎng)址類別表；
(3) 判斷該未知URL是否在網(wǎng)址類別表中；
(4) 對(duì)包含在該類別表中的未知URL輸出其分類信息。本發(fā)明的優(yōu)點(diǎn)是-
1. 基于垂直搜索的搜索機(jī)制，因此可用于專業(yè)領(lǐng)域的特定人群對(duì)特定信息的搜索，對(duì)各種領(lǐng)域的網(wǎng)頁(yè)分類覆蓋范圍具有較好的深度；
2. 由于網(wǎng)頁(yè)讀取基于眾多導(dǎo)航類網(wǎng)站，具有豐富的各行業(yè)網(wǎng)址信息，因此可用于不同專業(yè)領(lǐng)域的人群對(duì)各自領(lǐng)域的精確搜索，具有通用搜索的廣度，且具有較高的搜索效率；
3. 擁有內(nèi)容豐富、信息全面的網(wǎng)址類別表，能針對(duì)分類網(wǎng)站上的未知的URL給出其網(wǎng)頁(yè)分類信息；
4. 可用于對(duì)網(wǎng)絡(luò)用戶的搜索進(jìn)行后期的數(shù)據(jù)統(tǒng)計(jì)，進(jìn)行興趣熱點(diǎn)分析。根據(jù)此方法開(kāi)發(fā)的系統(tǒng)，通過(guò)驗(yàn)證得到該方法抓取的URL在中文站點(diǎn)
ALEXATOPIOO中的覆蓋率達(dá)到98% ，在全球站點(diǎn)ALEXA TOP500中的覆蓋率達(dá)到87%，地方特色網(wǎng)站的URL覆蓋率達(dá)到56%。

下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述-
圖i為本發(fā)明的優(yōu)選實(shí)施例的整體流程圖2為本發(fā)明的優(yōu)選實(shí)施例的網(wǎng)頁(yè)內(nèi)容解析的工作流程圖3為本發(fā)明的優(yōu)選實(shí)施例的應(yīng)用表示層對(duì)未知網(wǎng)址分類的流程圖。
具體實(shí)施方式
實(shí)施例
本實(shí)施例的一種網(wǎng)頁(yè)分類的方法，根據(jù)數(shù)據(jù)流向從下往上依次包括數(shù)據(jù)采集層、網(wǎng)頁(yè)解析層和應(yīng)用表示層，如圖1所示，包括以下具體步驟
(1) 讀取預(yù)設(shè)網(wǎng)址導(dǎo)航站點(diǎn)的URL列表，其中存儲(chǔ)著眾多導(dǎo)航類網(wǎng)址，
如www.haol23.com ， www.sohu.com等；
(2) 判斷此URL列表是否為空，若空，則說(shuō)明已搜索完，轉(zhuǎn)步驟8結(jié) 束，若不空，則繼續(xù)步驟3;
(3) 取出一個(gè)URL;
(4) 將URL在已訪問(wèn)URL存儲(chǔ)表V—URL列表中進(jìn)行査詢，VJJRL 存儲(chǔ)著所有已訪問(wèn)過(guò)的URL地址，若在V一URL中查詢到該URL，則說(shuō)明己訪問(wèn)過(guò)，則轉(zhuǎn)步驟3，若未査詢到，說(shuō)明未訪問(wèn)過(guò)，則繼續(xù)步驟5;
(5) 利用聚焦爬蟲技術(shù)對(duì)網(wǎng)頁(yè)進(jìn)行讀取，獲取網(wǎng)頁(yè)源代碼；
(6) 網(wǎng)頁(yè)內(nèi)容解析；
(7) 將完成解析的URL從URL列表中刪除，并將此URL加入到己訪問(wèn)URL列表V—URL中，并轉(zhuǎn)步驟2;
(8) 結(jié)束。
其中，步驟5網(wǎng)頁(yè)讀取利用聚焦爬蟲技術(shù)對(duì)預(yù)設(shè)在導(dǎo)航網(wǎng)站網(wǎng)址表中的所有網(wǎng)頁(yè)的源代碼進(jìn)行采集，聚焦爬蟲是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序，是垂直搜索引擎的重要組成部分，它根據(jù)既定的抓取目標(biāo)，有選擇地訪問(wèn)網(wǎng)頁(yè)和與其相關(guān)的鏈接，獲取所需要的信息。網(wǎng)頁(yè)讀取步驟得到網(wǎng)頁(yè)源碼字符串?dāng)?shù)據(jù)，為網(wǎng)頁(yè)解析提供輸入數(shù)據(jù)。
步驟6網(wǎng)頁(yè)內(nèi)容解析，根據(jù)下層即數(shù)據(jù)采集層采集來(lái)的網(wǎng)頁(yè)源代碼進(jìn)行 HTML (超文本置標(biāo)語(yǔ)言，HyperText Markup Language)解析，如圖2所示，包括以下步驟
(6.1) 判斷網(wǎng)頁(yè)是否滿足正則表達(dá)式定時(shí)學(xué)習(xí)器模式學(xué)習(xí)得到的網(wǎng)頁(yè) 結(jié)構(gòu)特征，若不滿足，轉(zhuǎn)步驟6.9，若滿足，則繼續(xù)步驟6.2;
(6.2) 對(duì)滿足網(wǎng)頁(yè)結(jié)構(gòu)特征的網(wǎng)頁(yè)進(jìn)行網(wǎng)頁(yè)結(jié)構(gòu)化信息抽取，此結(jié)構(gòu) 化信息即網(wǎng)址分類信息的內(nèi)容塊；
(6.3) 從結(jié)構(gòu)化信息中提取符合要求的所有下層鏈接；(6.4) 將所有下層鏈接加入U(xiǎn)RL隊(duì)列；
(6.5) 判斷URL隊(duì)列是否為空，若為空，轉(zhuǎn)歩驟6.9，若不為空，繼續(xù)步驟6.6;
(6.6) 從URL隊(duì)列中提取一個(gè)下層鏈接；
(6.7) 判斷是否滿足搜索策略，若不滿足，轉(zhuǎn)歩驟6.5，若滿足繼續(xù)步驟6.8;
(6.8) 將滿足搜索策略的URL的網(wǎng)頁(yè)類別信息以及各個(gè)類別中對(duì)應(yīng)的網(wǎng)址信息加入網(wǎng)址類別表Category中；
(6.9) 網(wǎng)頁(yè)內(nèi)容解析過(guò)程結(jié)束。
頁(yè)面鏈接中直接給出的URL —般是多種格式的，可能是完整的，包括協(xié)議、站點(diǎn)和路徑的，也可能是省略了部分內(nèi)容的，或者是一個(gè)相對(duì)路徑，因此需要抽取網(wǎng)頁(yè)的結(jié)構(gòu)化信息。
導(dǎo)航類網(wǎng)站基本上有兩種頁(yè)面組成一主目錄頁(yè)面和各個(gè)分類的子目錄頁(yè)面，主目錄頁(yè)面包含大量的指向各個(gè)分類子頁(yè)面的鏈接，而各個(gè)分類的子目錄頁(yè)面則包含屬于該分類的網(wǎng)站的鏈接。同一個(gè)導(dǎo)航網(wǎng)站上各個(gè)分類的子目錄頁(yè)面也有著很強(qiáng)的相似性，也就是說(shuō)這些頁(yè)面中都有相似的結(jié)構(gòu)，可以通過(guò)模式學(xué)習(xí)用一個(gè)或若干個(gè)正則表達(dá)式來(lái)概括頁(yè)面的結(jié)構(gòu)化信息，只要找到代表這些頁(yè)面結(jié)構(gòu)化信息的正則表達(dá)式就可以很好的指導(dǎo)聚焦爬蟲盡量抓取與分類相關(guān)的網(wǎng)頁(yè)。
現(xiàn)有聚焦爬蟲對(duì)抓取目標(biāo)的描述可分為基于目標(biāo)網(wǎng)頁(yè)特征、基于目標(biāo)數(shù) 據(jù)模式和基于領(lǐng)域概念3種?；谀繕?biāo)網(wǎng)頁(yè)特征的爬蟲所抓取、存儲(chǔ)并索引的對(duì)象一般為網(wǎng)站或網(wǎng)頁(yè)。網(wǎng)頁(yè)特征可以是網(wǎng)頁(yè)的內(nèi)容特征，也可以是網(wǎng)頁(yè) 的鏈接結(jié)構(gòu)特征等。在步驟6.2中，本實(shí)施例根據(jù)網(wǎng)頁(yè)的內(nèi)容特征來(lái)抽取網(wǎng) 頁(yè)的結(jié)構(gòu)化信息。
以www.haol23.com為例，我們想要査找"休閑娛樂(lè)"類別的所有URL，可以編寫正則表達(dá)式href\\s*=\\s*( :\"( <l>A\"]*)\"|( <l>\\S+))，用來(lái)匹配字符串中的形如href="......"的鏈接，就可以得到"休閑娛樂(lè)"類別的所有
URL。為了適應(yīng)導(dǎo)航網(wǎng)站不定期的更新，更好的抽取目錄頁(yè)面的網(wǎng)頁(yè)結(jié)構(gòu)化信息，我們?cè)黾恿?URL正則表達(dá)式的定時(shí)學(xué)習(xí)器，可以適應(yīng)導(dǎo)航站點(diǎn)的不斷變化。正則表達(dá)式的定時(shí)學(xué)習(xí)器為現(xiàn)有技術(shù)，不再贅述。現(xiàn)有網(wǎng)頁(yè)的搜索策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種，在歩驟6.7中，本實(shí)施例采用能覆蓋盡可能多的網(wǎng)頁(yè)的廣度優(yōu)先搜索策略。廣度優(yōu)先搜索策略是指在抓取過(guò)程中，在完成當(dāng)前層次的搜索后，才進(jìn)行下一層次的搜索。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對(duì)簡(jiǎn)單，這種方法可以有效地減少采集頁(yè)面的數(shù)量，同時(shí)也節(jié)約了網(wǎng)絡(luò)帶寬，提高信息搜索的效率。用廣度優(yōu)先策略從結(jié)構(gòu)化信息中抓取網(wǎng)頁(yè)URL，得到網(wǎng)站分類和URL的對(duì)應(yīng)關(guān)系表 Category,以滿足上一層面應(yīng)用表示層對(duì)網(wǎng)頁(yè)分類的搜索。網(wǎng)頁(yè)內(nèi)容解析層與應(yīng)用表示層的接口是一張網(wǎng)站分類和URL對(duì)應(yīng)關(guān)系的網(wǎng)址類別表。
在應(yīng)用表示層，提供用戶的輸入和搜索結(jié)果的反饋。用戶可以輸入關(guān)鍵字，對(duì)特定行業(yè)主題進(jìn)行精確搜索，根據(jù)網(wǎng)址類別表中的信息，得到該領(lǐng)域的網(wǎng)址信息，返回有針對(duì)行的精確搜索結(jié)果。也可以根據(jù)所述網(wǎng)址類別表得到未知URL的網(wǎng)頁(yè)所屬的網(wǎng)頁(yè)分類信息，步驟如圖3所示
(1) 用戶在應(yīng)用界面上輸入未知URL;
(2) 搜索URL網(wǎng)址類別表；
(3) 判斷該未知URL是否在網(wǎng)址類別表中，若不存在，則在應(yīng)用界面顯示"未搜索到"告知用戶，若存在，應(yīng)用界面顯示未知URL的網(wǎng)址分類信息；
(4) 結(jié)束。
權(quán)利要求
1.一種網(wǎng)頁(yè)分類方法，根據(jù)數(shù)據(jù)流向從下往上依次包括數(shù)據(jù)采集層、網(wǎng)頁(yè)解析層和應(yīng)用表示層，其特征在于所述數(shù)據(jù)采集層利用聚焦爬蟲技術(shù)對(duì)預(yù)設(shè)在導(dǎo)航網(wǎng)站網(wǎng)址表中的所有網(wǎng)頁(yè)的源代碼進(jìn)行采集，所述網(wǎng)頁(yè)解析層包括以下步驟(1.1)判斷網(wǎng)頁(yè)是否滿足正則表達(dá)式定時(shí)學(xué)習(xí)器模式學(xué)習(xí)得到的網(wǎng)頁(yè)結(jié)構(gòu)特征；(1.2)對(duì)符合結(jié)構(gòu)特征的網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化信息抽?。?1.3)從結(jié)構(gòu)化信息中提取符合要求的所有下層鏈接；(1.4)判斷下層鏈接是否滿足搜索策略；(1.5)將滿足搜索策略的下層鏈接的信息加入網(wǎng)址類別表。
2. 根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)分類方法，其特征在于所述結(jié)構(gòu)化信息用正則表達(dá)式表示。
3. 根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)分類方法，其特征在于所述下層鏈接的信息包括此鏈接的網(wǎng)頁(yè)類別信息以及各個(gè)類別中對(duì)應(yīng)的網(wǎng)址信息。
4. 根據(jù)權(quán)利要求1或2所述的網(wǎng)頁(yè)分類方法，其特征在于所屬結(jié)構(gòu)化信息抽取采用聚焦爬蟲技術(shù)。
5. 根據(jù)權(quán)利要求1或2所述的網(wǎng)頁(yè)分類方法，其特征在于所述搜索策略和從結(jié)構(gòu)化信息中提取鏈接采用廣度優(yōu)先搜索策略。
6. 根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)分類方法，其特征在于所述應(yīng)用表示層可以根據(jù)所述網(wǎng)址類別表得到未知URL的網(wǎng)頁(yè)分類信息，步驟如下-(6.1) 用戶輸入未知URL;(6.2) 搜索URL網(wǎng)址類別表；(6.3) 判斷該未知URL是否在網(wǎng)址類別表中；(6.4) 對(duì)包含在該類別表中的未知URL輸出其分類信息。
全文摘要
本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)分類的方法，根據(jù)數(shù)據(jù)流向從下往上依次包括數(shù)據(jù)采集層、網(wǎng)頁(yè)解析層和應(yīng)用表示層，所述數(shù)據(jù)采集層利用聚焦爬蟲技術(shù)對(duì)預(yù)設(shè)在導(dǎo)航網(wǎng)站網(wǎng)址表中的所有網(wǎng)頁(yè)的源代碼進(jìn)行采集，所述網(wǎng)頁(yè)解析層對(duì)滿足網(wǎng)頁(yè)特定結(jié)構(gòu)特征的網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化信息抽取并提取符合要求的下層鏈接，并對(duì)將滿足搜索策略的下層鏈接的信息加入網(wǎng)址類別表，應(yīng)用表示層可以根據(jù)所述網(wǎng)址類別表得到未知URL的網(wǎng)頁(yè)分類信息。本發(fā)明既擁有通用搜索的搜索廣度，又擁有垂直搜索的搜索深度，并且能方便地獲得分類網(wǎng)站上一個(gè)未知URL所屬的網(wǎng)頁(yè)分類信息。
文檔編號(hào)G06F17/30GK101630330SQ20091011598
公開(kāi)日2010年1月20日申請(qǐng)日期2009年8月14日優(yōu)先權(quán)日2009年8月14日
發(fā)明者婷宮, 張順頤, 攀王申請(qǐng)人:蘇州銳創(chuàng)通信有限責(zé)任公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王攀;張順頤;宮婷
技術(shù)所有人：蘇州銳創(chuàng)通信有限責(zé)任公司
我是此專利的發(fā)明人

上一篇：一種多葉準(zhǔn)直器靜態(tài)調(diào)強(qiáng)葉片序列算法的制作方法
上一篇：基于Hash映射的綜合管網(wǎng)三維可視化資源管理方法

該領(lǐng)域下的技術(shù)專家

如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。

1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)

2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制

3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)

4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)

5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用

如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

基于Hash映射的綜合管網(wǎng)三...
一種用于城市綜合管網(wǎng)三維可視...
網(wǎng)絡(luò)實(shí)時(shí)定位的方法
用于綜合管網(wǎng)地理信息系統(tǒng)的一...
一種面向圖形對(duì)象的配電網(wǎng)單線...
基于二階盲辨識(shí)的腦電信號(hào)識(shí)別...
將漢字筆劃組合排列編碼的漢字...
系統(tǒng)間海量數(shù)據(jù)檢索傳輸方法
一種在單Domino域中支持...

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

1

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種網(wǎng)頁(yè)分類方法