国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)頁(yè)分類方法

      文檔序號(hào):6576814閱讀:360來(lái)源:國(guó)知局
      專利名稱:一種網(wǎng)頁(yè)分類方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種對(duì)網(wǎng)頁(yè)進(jìn)行分類的方法。
      站旦灶i 冃豕?jié)h不
      隨著網(wǎng)絡(luò)信息的不斷膨脹,人們?cè)絹?lái)越離不開(kāi)搜索引擎。百度、谷歌等 通用搜索引擎雖然給人們提供了很多便利,但也存在著一定的局限性,如 通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè),且搜索深度不夠。
      于是,垂直搜索應(yīng)運(yùn)而生,它是服務(wù)于某個(gè)行業(yè)領(lǐng)域的精確搜索技術(shù), 是搜索引擎的細(xì)分和延伸,更加專業(yè),返回的結(jié)果更具有針對(duì)性,通過(guò)特定 行業(yè)主題的領(lǐng)域知識(shí),可以提供根據(jù)語(yǔ)義信息的査詢,從而能滿足用戶的特 殊搜索需求。但目前的垂直搜索大多是針對(duì)某一特定行業(yè)、某一特定領(lǐng)域的 搜索,無(wú)法對(duì)眾多行業(yè)和領(lǐng)域都進(jìn)行垂直搜索,無(wú)法達(dá)到通用搜索的廣度。
      另外,目前網(wǎng)頁(yè)的網(wǎng)址都未考慮到語(yǔ)意,在沒(méi)有上網(wǎng)瀏覽網(wǎng)頁(yè)之前,很 難知道該網(wǎng)址是什么類型的網(wǎng)站。比如www.yahoo.com,由于網(wǎng)頁(yè)地址 (Uniform Resource Locator, URL)是沒(méi)有語(yǔ)意的,如果沒(méi)有上網(wǎng)瀏覽網(wǎng) 頁(yè),并不能了解該URL字符串代表著一個(gè)綜合資訊門戶網(wǎng)站。目前還沒(méi)有 方法對(duì)未知URL進(jìn)行分類,絕大部分人所使用的方法是,人工瀏覽網(wǎng)頁(yè), 然后根據(jù)經(jīng)驗(yàn)進(jìn)行分類,這種方法費(fèi)時(shí)費(fèi)力,且無(wú)法覆蓋較廣的范圍。

      發(fā)明內(nèi)容
      本發(fā)明的目的是提供一種網(wǎng)頁(yè)分類的方法,將垂直搜索和通用搜索的 優(yōu)點(diǎn)結(jié)合起來(lái),既擁有通用搜索的搜索廣度,又擁有垂直搜索的搜索深度, 并且能方便地獲得分類網(wǎng)站上一個(gè)未知URL所屬的網(wǎng)頁(yè)分類信息。
      本發(fā)明的技術(shù)方案是 一種網(wǎng)頁(yè)分類方法,根據(jù)數(shù)據(jù)流向從下往上依次 包括數(shù)據(jù)采集層、網(wǎng)頁(yè)解析層和應(yīng)用表示層,其中,數(shù)據(jù)采集層利用聚焦爬 蟲技術(shù)對(duì)預(yù)設(shè)在導(dǎo)航網(wǎng)站網(wǎng)址表中的所有網(wǎng)頁(yè)的源代碼進(jìn)行采集,網(wǎng)頁(yè)解析
      層包括以下步驟
      (1) 判斷網(wǎng)頁(yè)是否滿足正則表達(dá)式定時(shí)學(xué)習(xí)器模式學(xué)習(xí)得到的網(wǎng)頁(yè)結(jié)
      構(gòu)特征;
      (2) 對(duì)符合結(jié)構(gòu)特征的網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化信息抽??;
      (3) 從結(jié)構(gòu)化信息中提取符合要求的所有下層鏈接;(4) 判斷下層鏈接是否滿足搜索策略;
      (5) 將滿足搜索策略的下層鏈接的信息加入網(wǎng)址類別表。 本發(fā)明更為詳細(xì)的技術(shù)方案是所述結(jié)構(gòu)化信息用正則表達(dá)式表示。 所述下層鏈接的信息包括此鏈接的網(wǎng)頁(yè)類別信息以及各個(gè)類別中對(duì)應(yīng)
      的網(wǎng)址信息。
      所述結(jié)構(gòu)化信息抽取采用聚焦爬蟲技術(shù)。
      所述搜索策略和從結(jié)構(gòu)化信息中提取鏈接采用廣度優(yōu)先搜索策略。 所述應(yīng)用表示層可以根據(jù)所述網(wǎng)址類別表得到未知URL的網(wǎng)頁(yè)分類信 息,步驟如下
      (1) 用戶輸入未知URL;
      (2) 搜索URL網(wǎng)址類別表;
      (3) 判斷該未知URL是否在網(wǎng)址類別表中;
      (4) 對(duì)包含在該類別表中的未知URL輸出其分類信息。 本發(fā)明的優(yōu)點(diǎn)是-
      1. 基于垂直搜索的搜索機(jī)制,因此可用于專業(yè)領(lǐng)域的特定人群對(duì)特定 信息的搜索,對(duì)各種領(lǐng)域的網(wǎng)頁(yè)分類覆蓋范圍具有較好的深度;
      2. 由于網(wǎng)頁(yè)讀取基于眾多導(dǎo)航類網(wǎng)站,具有豐富的各行業(yè)網(wǎng)址信息, 因此可用于不同專業(yè)領(lǐng)域的人群對(duì)各自領(lǐng)域的精確搜索,具有通用搜索的廣 度,且具有較高的搜索效率;
      3. 擁有內(nèi)容豐富、信息全面的網(wǎng)址類別表,能針對(duì)分類網(wǎng)站上的未知 的URL給出其網(wǎng)頁(yè)分類信息;
      4. 可用于對(duì)網(wǎng)絡(luò)用戶的搜索進(jìn)行后期的數(shù)據(jù)統(tǒng)計(jì),進(jìn)行興趣熱點(diǎn)分析。 根據(jù)此方法開(kāi)發(fā)的系統(tǒng),通過(guò)驗(yàn)證得到該方法抓取的URL在中文站點(diǎn)
      ALEXATOPIOO中的覆蓋率達(dá)到98% ,在全球站點(diǎn)ALEXA TOP500中的覆 蓋率達(dá)到87%,地方特色網(wǎng)站的URL覆蓋率達(dá)到56%。


      下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述-
      圖i為本發(fā)明的優(yōu)選實(shí)施例的整體流程圖2為本發(fā)明的優(yōu)選實(shí)施例的網(wǎng)頁(yè)內(nèi)容解析的工作流程圖3為本發(fā)明的優(yōu)選實(shí)施例的應(yīng)用表示層對(duì)未知網(wǎng)址分類的流程圖。
      具體實(shí)施方式
      實(shí)施例
      本實(shí)施例的一種網(wǎng)頁(yè)分類的方法,根據(jù)數(shù)據(jù)流向從下往上依次包括數(shù)據(jù)采 集層、網(wǎng)頁(yè)解析層和應(yīng)用表示層,如圖1所示,包括以下具體步驟
      (1) 讀取預(yù)設(shè)網(wǎng)址導(dǎo)航站點(diǎn)的URL列表,其中存儲(chǔ)著眾多導(dǎo)航類網(wǎng)址,
      如www.haol23.com , www.sohu.com等;
      (2) 判斷此URL列表是否為空,若空,則說(shuō)明已搜索完,轉(zhuǎn)步驟8結(jié) 束,若不空,則繼續(xù)步驟3;
      (3) 取出一個(gè)URL;
      (4) 將URL在已訪問(wèn)URL存儲(chǔ)表V—URL列表中進(jìn)行査詢,VJJRL 存儲(chǔ)著所有已訪問(wèn)過(guò)的URL地址,若在V一URL中查詢到該URL,則說(shuō)明 己訪問(wèn)過(guò),則轉(zhuǎn)步驟3,若未査詢到,說(shuō)明未訪問(wèn)過(guò),則繼續(xù)步驟5;
      (5) 利用聚焦爬蟲技術(shù)對(duì)網(wǎng)頁(yè)進(jìn)行讀取,獲取網(wǎng)頁(yè)源代碼;
      (6) 網(wǎng)頁(yè)內(nèi)容解析;
      (7) 將完成解析的URL從URL列表中刪除,并將此URL加入到己訪 問(wèn)URL列表V—URL中,并轉(zhuǎn)步驟2;
      (8) 結(jié)束。
      其中,步驟5網(wǎng)頁(yè)讀取利用聚焦爬蟲技術(shù)對(duì)預(yù)設(shè)在導(dǎo)航網(wǎng)站網(wǎng)址表中的 所有網(wǎng)頁(yè)的源代碼進(jìn)行采集,聚焦爬蟲是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序,是垂直 搜索引擎的重要組成部分,它根據(jù)既定的抓取目標(biāo),有選擇地訪問(wèn)網(wǎng)頁(yè)和與 其相關(guān)的鏈接,獲取所需要的信息。網(wǎng)頁(yè)讀取步驟得到網(wǎng)頁(yè)源碼字符串?dāng)?shù)據(jù), 為網(wǎng)頁(yè)解析提供輸入數(shù)據(jù)。
      步驟6網(wǎng)頁(yè)內(nèi)容解析,根據(jù)下層即數(shù)據(jù)采集層采集來(lái)的網(wǎng)頁(yè)源代碼進(jìn)行 HTML (超文本置標(biāo)語(yǔ)言,HyperText Markup Language)解析,如圖2所 示,包括以下步驟
      (6.1) 判斷網(wǎng)頁(yè)是否滿足正則表達(dá)式定時(shí)學(xué)習(xí)器模式學(xué)習(xí)得到的網(wǎng)頁(yè) 結(jié)構(gòu)特征,若不滿足,轉(zhuǎn)步驟6.9,若滿足,則繼續(xù)步驟6.2;
      (6.2) 對(duì)滿足網(wǎng)頁(yè)結(jié)構(gòu)特征的網(wǎng)頁(yè)進(jìn)行網(wǎng)頁(yè)結(jié)構(gòu)化信息抽取,此結(jié)構(gòu) 化信息即網(wǎng)址分類信息的內(nèi)容塊;
      (6.3) 從結(jié)構(gòu)化信息中提取符合要求的所有下層鏈接;(6.4) 將所有下層鏈接加入U(xiǎn)RL隊(duì)列;
      (6.5) 判斷URL隊(duì)列是否為空,若為空,轉(zhuǎn)歩驟6.9,若不為空,繼 續(xù)步驟6.6;
      (6.6) 從URL隊(duì)列中提取一個(gè)下層鏈接;
      (6.7) 判斷是否滿足搜索策略,若不滿足,轉(zhuǎn)歩驟6.5,若滿足繼續(xù)步 驟6.8;
      (6.8) 將滿足搜索策略的URL的網(wǎng)頁(yè)類別信息以及各個(gè)類別中對(duì)應(yīng)的 網(wǎng)址信息加入網(wǎng)址類別表Category中;
      (6.9) 網(wǎng)頁(yè)內(nèi)容解析過(guò)程結(jié)束。
      頁(yè)面鏈接中直接給出的URL —般是多種格式的,可能是完整的,包括 協(xié)議、站點(diǎn)和路徑的,也可能是省略了部分內(nèi)容的,或者是一個(gè)相對(duì)路徑, 因此需要抽取網(wǎng)頁(yè)的結(jié)構(gòu)化信息。
      導(dǎo)航類網(wǎng)站基本上有兩種頁(yè)面組成一主目錄頁(yè)面和各個(gè)分類的子目錄 頁(yè)面,主目錄頁(yè)面包含大量的指向各個(gè)分類子頁(yè)面的鏈接,而各個(gè)分類的子 目錄頁(yè)面則包含屬于該分類的網(wǎng)站的鏈接。同一個(gè)導(dǎo)航網(wǎng)站上各個(gè)分類的子 目錄頁(yè)面也有著很強(qiáng)的相似性,也就是說(shuō)這些頁(yè)面中都有相似的結(jié)構(gòu),可以 通過(guò)模式學(xué)習(xí)用一個(gè)或若干個(gè)正則表達(dá)式來(lái)概括頁(yè)面的結(jié)構(gòu)化信息,只要找 到代表這些頁(yè)面結(jié)構(gòu)化信息的正則表達(dá)式就可以很好的指導(dǎo)聚焦爬蟲盡量 抓取與分類相關(guān)的網(wǎng)頁(yè)。
      現(xiàn)有聚焦爬蟲對(duì)抓取目標(biāo)的描述可分為基于目標(biāo)網(wǎng)頁(yè)特征、基于目標(biāo)數(shù) 據(jù)模式和基于領(lǐng)域概念3種?;谀繕?biāo)網(wǎng)頁(yè)特征的爬蟲所抓取、存儲(chǔ)并索引 的對(duì)象一般為網(wǎng)站或網(wǎng)頁(yè)。網(wǎng)頁(yè)特征可以是網(wǎng)頁(yè)的內(nèi)容特征,也可以是網(wǎng)頁(yè) 的鏈接結(jié)構(gòu)特征等。在步驟6.2中,本實(shí)施例根據(jù)網(wǎng)頁(yè)的內(nèi)容特征來(lái)抽取網(wǎng) 頁(yè)的結(jié)構(gòu)化信息。
      以www.haol23.com為例,我們想要査找"休閑娛樂(lè)"類別的所有URL, 可以編寫正則表達(dá)式href\\s*=\\s*( :\"( <l>A\"]*)\"|( <l>\\S+)),用來(lái)匹配 字符串中的形如href="......"的鏈接,就可以得到"休閑娛樂(lè)"類別的所有
      URL。為了適應(yīng)導(dǎo)航網(wǎng)站不定期的更新,更好的抽取目錄頁(yè)面的網(wǎng)頁(yè)結(jié)構(gòu)化 信息,我們?cè)黾恿?URL正則表達(dá)式的定時(shí)學(xué)習(xí)器,可以適應(yīng)導(dǎo)航站點(diǎn)的不 斷變化。正則表達(dá)式的定時(shí)學(xué)習(xí)器為現(xiàn)有技術(shù),不再贅述。現(xiàn)有網(wǎng)頁(yè)的搜索策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種,在 歩驟6.7中,本實(shí)施例采用能覆蓋盡可能多的網(wǎng)頁(yè)的廣度優(yōu)先搜索策略。廣 度優(yōu)先搜索策略是指在抓取過(guò)程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一 層次的搜索。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對(duì)簡(jiǎn)單,這種方法可以有效地減少采集 頁(yè)面的數(shù)量,同時(shí)也節(jié)約了網(wǎng)絡(luò)帶寬,提高信息搜索的效率。用廣度優(yōu)先策 略從結(jié)構(gòu)化信息中抓取網(wǎng)頁(yè)URL,得到網(wǎng)站分類和URL的對(duì)應(yīng)關(guān)系表 Category,以滿足上 一層面應(yīng)用表示層對(duì)網(wǎng)頁(yè)分類的搜索。網(wǎng)頁(yè)內(nèi)容解析層 與應(yīng)用表示層的接口是一張網(wǎng)站分類和URL對(duì)應(yīng)關(guān)系的網(wǎng)址類別表。
      在應(yīng)用表示層,提供用戶的輸入和搜索結(jié)果的反饋。用戶可以輸入關(guān)鍵 字,對(duì)特定行業(yè)主題進(jìn)行精確搜索,根據(jù)網(wǎng)址類別表中的信息,得到該領(lǐng)域 的網(wǎng)址信息,返回有針對(duì)行的精確搜索結(jié)果。也可以根據(jù)所述網(wǎng)址類別表得 到未知URL的網(wǎng)頁(yè)所屬的網(wǎng)頁(yè)分類信息,步驟如圖3所示
      (1) 用戶在應(yīng)用界面上輸入未知URL;
      (2) 搜索URL網(wǎng)址類別表;
      (3) 判斷該未知URL是否在網(wǎng)址類別表中,若不存在,則在應(yīng)用界面 顯示"未搜索到"告知用戶,若存在,應(yīng)用界面顯示未知URL的網(wǎng)址分類 信息;
      (4) 結(jié)束。
      權(quán)利要求
      1.一種網(wǎng)頁(yè)分類方法,根據(jù)數(shù)據(jù)流向從下往上依次包括數(shù)據(jù)采集層、網(wǎng)頁(yè)解析層和應(yīng)用表示層,其特征在于所述數(shù)據(jù)采集層利用聚焦爬蟲技術(shù)對(duì)預(yù)設(shè)在導(dǎo)航網(wǎng)站網(wǎng)址表中的所有網(wǎng)頁(yè)的源代碼進(jìn)行采集,所述網(wǎng)頁(yè)解析層包括以下步驟(1.1)判斷網(wǎng)頁(yè)是否滿足正則表達(dá)式定時(shí)學(xué)習(xí)器模式學(xué)習(xí)得到的網(wǎng)頁(yè)結(jié)構(gòu)特征;(1.2)對(duì)符合結(jié)構(gòu)特征的網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化信息抽?。?1.3)從結(jié)構(gòu)化信息中提取符合要求的所有下層鏈接;(1.4)判斷下層鏈接是否滿足搜索策略;(1.5)將滿足搜索策略的下層鏈接的信息加入網(wǎng)址類別表。
      2. 根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)分類方法,其特征在于所述結(jié)構(gòu)化信 息用正則表達(dá)式表示。
      3. 根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)分類方法,其特征在于所述下層鏈接 的信息包括此鏈接的網(wǎng)頁(yè)類別信息以及各個(gè)類別中對(duì)應(yīng)的網(wǎng)址信息。
      4. 根據(jù)權(quán)利要求1或2所述的網(wǎng)頁(yè)分類方法,其特征在于所屬結(jié)構(gòu)化信息抽取采用聚焦爬蟲技術(shù)。
      5. 根據(jù)權(quán)利要求1或2所述的網(wǎng)頁(yè)分類方法,其特征在于所述搜索策略和從結(jié)構(gòu)化信息中提取鏈接采用廣度優(yōu)先搜索策略。
      6. 根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)分類方法,其特征在于所述應(yīng)用表示層可以根據(jù)所述網(wǎng)址類別表得到未知URL的網(wǎng)頁(yè)分類信息,步驟如下-(6.1) 用戶輸入未知URL;(6.2) 搜索URL網(wǎng)址類別表;(6.3) 判斷該未知URL是否在網(wǎng)址類別表中;(6.4) 對(duì)包含在該類別表中的未知URL輸出其分類信息。
      全文摘要
      本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)分類的方法,根據(jù)數(shù)據(jù)流向從下往上依次包括數(shù)據(jù)采集層、網(wǎng)頁(yè)解析層和應(yīng)用表示層,所述數(shù)據(jù)采集層利用聚焦爬蟲技術(shù)對(duì)預(yù)設(shè)在導(dǎo)航網(wǎng)站網(wǎng)址表中的所有網(wǎng)頁(yè)的源代碼進(jìn)行采集,所述網(wǎng)頁(yè)解析層對(duì)滿足網(wǎng)頁(yè)特定結(jié)構(gòu)特征的網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化信息抽取并提取符合要求的下層鏈接,并對(duì)將滿足搜索策略的下層鏈接的信息加入網(wǎng)址類別表,應(yīng)用表示層可以根據(jù)所述網(wǎng)址類別表得到未知URL的網(wǎng)頁(yè)分類信息。本發(fā)明既擁有通用搜索的搜索廣度,又擁有垂直搜索的搜索深度,并且能方便地獲得分類網(wǎng)站上一個(gè)未知URL所屬的網(wǎng)頁(yè)分類信息。
      文檔編號(hào)G06F17/30GK101630330SQ20091011598
      公開(kāi)日2010年1月20日 申請(qǐng)日期2009年8月14日 優(yōu)先權(quán)日2009年8月14日
      發(fā)明者婷 宮, 張順頤, 攀 王 申請(qǐng)人:蘇州銳創(chuàng)通信有限責(zé)任公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1