網(wǎng)頁(yè)信息提取方法及設(shè)備的制作方法
【專利摘要】本發(fā)明提供了一種網(wǎng)頁(yè)信息提取方法及設(shè)備。其中,網(wǎng)頁(yè)信息提取方法包括:獲取根據(jù)網(wǎng)頁(yè)內(nèi)容自動(dòng)生成的抽取規(guī)則;利用抽取規(guī)則提取網(wǎng)頁(yè)信息。采用本發(fā)明實(shí)施例能夠解決現(xiàn)有技術(shù)中采用人工提取網(wǎng)頁(yè)信息導(dǎo)致的存在一定錯(cuò)誤率的問(wèn)題,降低提取網(wǎng)頁(yè)信息的成本,另外,采用本發(fā)明實(shí)施例能夠解決現(xiàn)有技術(shù)中網(wǎng)頁(yè)信息提取依據(jù)的抽取規(guī)則無(wú)法實(shí)時(shí)更新的問(wèn)題,提高網(wǎng)頁(yè)信息提取的準(zhǔn)確性。
【專利說(shuō)明】網(wǎng)頁(yè)信息提取方法及設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用領(lǐng)域,特別是涉及一種網(wǎng)頁(yè)信息提取方法及設(shè)備。
【背景技術(shù)】
[0002]網(wǎng)頁(yè)信息提取技術(shù)是一項(xiàng)關(guān)于從網(wǎng)頁(yè)中提取目標(biāo)信息的技術(shù),即從自然語(yǔ)言文本和網(wǎng)頁(yè)的結(jié)構(gòu)化數(shù)據(jù)中提取有價(jià)值的信息的技術(shù)。
[0003]現(xiàn)有技術(shù)中的網(wǎng)頁(yè)信息提取采用人工提取方法,通過(guò)觀察網(wǎng)頁(yè)及其源代碼,由編程人員找出一些規(guī)則,再根據(jù)這些規(guī)則編寫程序提取有價(jià)值的信息。為了讓網(wǎng)頁(yè)信息提取過(guò)程簡(jiǎn)單一些,編程人員構(gòu)建了幾種模式規(guī)范語(yǔ)言及其用戶界面。
[0004]然而,現(xiàn)有技術(shù)中這種采用人工提取的方法至少存在著以下兩點(diǎn)不足:首先,對(duì)網(wǎng)頁(yè)中每個(gè)站點(diǎn)均需要人工編寫規(guī)則,當(dāng)需要抓取大批量的站點(diǎn)時(shí),人工抽取規(guī)則并進(jìn)行編寫程序存在一定的錯(cuò)誤率,并且成本過(guò)大。其次,當(dāng)站點(diǎn)的頁(yè)面結(jié)構(gòu)發(fā)生變更時(shí),原來(lái)的規(guī)則失去效力,因此需要人工再次進(jìn)行規(guī)則的抽取及編碼,而人工發(fā)現(xiàn)頁(yè)面結(jié)構(gòu)變更不及時(shí)導(dǎo)致網(wǎng)頁(yè)信息提取依據(jù)的抽取規(guī)則無(wú)法實(shí)時(shí)更新,降低網(wǎng)頁(yè)信息提取的準(zhǔn)確性。
【發(fā)明內(nèi)容】
[0005]鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的網(wǎng)頁(yè)信息提取方法和相應(yīng)的網(wǎng)頁(yè)信息提取設(shè)備。
[0006]依據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)頁(yè)信息提取方法,包括:獲取根據(jù)網(wǎng)頁(yè)內(nèi)容自動(dòng)生成的抽取規(guī)則;利用所述抽取規(guī)則提取網(wǎng)頁(yè)信息;其中,所述抽取規(guī)則的生成方法如下:自動(dòng)解析網(wǎng)頁(yè)內(nèi)容,查找出有價(jià)值的信息,其中,所述有價(jià)值的信息包括網(wǎng)頁(yè)架構(gòu)中可更改的信息;標(biāo)識(shí)所述有價(jià)值的信息,自動(dòng)學(xué)習(xí)并生成對(duì)應(yīng)的所述抽取規(guī)則。
[0007]可選地,利用所述抽取規(guī)則提取網(wǎng)頁(yè)信息,包括:利用所述抽取規(guī)則中的位置標(biāo)識(shí)信息確定可提取的所述網(wǎng)頁(yè)信息的位置,其中,所述抽取規(guī)則中包括位置標(biāo)識(shí)信息;根據(jù)確定的位置對(duì)網(wǎng)頁(yè)信息逐一進(jìn)行提取。
[0008]可選地,所述位置標(biāo)識(shí)信息標(biāo)識(shí)可提取的所述網(wǎng)頁(yè)信息的起始位置以及終止位置。
[0009]可選地,上述方法還包括:當(dāng)所述網(wǎng)頁(yè)架構(gòu)發(fā)生改變時(shí),自動(dòng)分析新的網(wǎng)頁(yè)架構(gòu),更新所述抽取規(guī)則。
[0010]可選地,所述網(wǎng)頁(yè)包括列表頁(yè)和/或詳細(xì)頁(yè)。
[0011]可選地,在所述列表頁(yè)中,有價(jià)值的信息包括:在不同列表頁(yè)中存在區(qū)別的信息;或者同一列表的不同記錄項(xiàng)中存在區(qū)別的信息。
[0012]可選地,自動(dòng)解析網(wǎng)頁(yè)內(nèi)容,查找出有價(jià)值的信息,包括:在不同列表頁(yè)間查找差異區(qū)域,所述差異區(qū)域包括所述不同列表頁(yè)中存在區(qū)別的信息;取最長(zhǎng)的差異區(qū)域,作為列表區(qū)域,記錄所述列表區(qū)域中的信息為有價(jià)值的信息。
[0013]可選地,自動(dòng)解析網(wǎng)頁(yè)內(nèi)容,查找出有價(jià)值的信息,包括:對(duì)所述列表區(qū)域中的多個(gè)記錄項(xiàng)進(jìn)行對(duì)比;記錄存在區(qū)域的不同記錄項(xiàng),將其作為有價(jià)值的信息。
[0014]可選地,在所述詳細(xì)頁(yè)中,有價(jià)值的信息包括:在指定時(shí)長(zhǎng)內(nèi)價(jià)值不變的信息,其中,所述價(jià)值不變的信息至少包括具有一定信息含量的信息,以及通過(guò)所述價(jià)值不變的信息能夠訪問(wèn)其他鏈接的信息;或者在不同詳細(xì)頁(yè)中存在區(qū)別的信息。
[0015]可選地,自動(dòng)解析網(wǎng)頁(yè)內(nèi)容之前,還包括:對(duì)待解析的網(wǎng)頁(yè)進(jìn)行頁(yè)面內(nèi)去噪。
[0016]依據(jù)本發(fā)明的另一個(gè)方面,提供了一種網(wǎng)頁(yè)信息提取設(shè)備,包括:規(guī)則生成模塊,配置為自動(dòng)解析網(wǎng)頁(yè)內(nèi)容,查找出有價(jià)值的信息,其中,所述有價(jià)值的信息包括網(wǎng)頁(yè)架構(gòu)中可更改的信息;標(biāo)識(shí)所述有價(jià)值的信息,學(xué)習(xí)并生成對(duì)應(yīng)的所述抽取規(guī)則;獲取模塊,配置為獲取根據(jù)網(wǎng)頁(yè)內(nèi)容自動(dòng)生成的抽取規(guī)則;提取模塊,配置為利用所述抽取規(guī)則提取網(wǎng)頁(yè)信息。
[0017]可選地,所述規(guī)則聲稱模塊還配置為當(dāng)所述網(wǎng)頁(yè)架構(gòu)發(fā)生改變時(shí),自動(dòng)分析新的網(wǎng)頁(yè)架構(gòu),更新所述抽取規(guī)則。
[0018]可選地,所述規(guī)則生成模塊還配置為自動(dòng)解析網(wǎng)頁(yè)內(nèi)容之前,對(duì)待解析的網(wǎng)頁(yè)進(jìn)行頁(yè)面內(nèi)去噪。
[0019]依據(jù)本發(fā)明實(shí)施例,能夠獲取根據(jù)網(wǎng)頁(yè)內(nèi)容自動(dòng)生成的抽取規(guī)則,并利用上述自動(dòng)生成的抽取規(guī)則提取網(wǎng)頁(yè)信息,解決了現(xiàn)有技術(shù)中采用人工獲取抽取規(guī)則并提取網(wǎng)頁(yè)信息導(dǎo)致的存在一定錯(cuò)誤率的問(wèn)題,降低提取網(wǎng)頁(yè)信息的成本。另外,本發(fā)明實(shí)施例能夠自動(dòng)生成提取網(wǎng)頁(yè)信息依據(jù)的抽取規(guī)則,解決了現(xiàn)有技術(shù)中當(dāng)頁(yè)面結(jié)構(gòu)發(fā)生變更時(shí),人工發(fā)現(xiàn)頁(yè)面結(jié)構(gòu)變更不及時(shí)導(dǎo)致網(wǎng)頁(yè)信息提取依據(jù)的抽取規(guī)則無(wú)法實(shí)時(shí)更新的問(wèn)題,提高網(wǎng)頁(yè)信息提取的準(zhǔn)確性。
[0020]上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
[0021]根據(jù)下文結(jié)合附圖對(duì)本發(fā)明具體實(shí)施例的詳細(xì)描述,本領(lǐng)域技術(shù)人員將會(huì)更加明了本發(fā)明的上述以及其他目的、優(yōu)點(diǎn)和特征。
【專利附圖】
【附圖說(shuō)明】
[0022]通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0023]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁(yè)信息提取方法的處理流程圖;
[0024]圖2示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的網(wǎng)頁(yè)信息提取方法的處理流程圖;
[0025]圖3示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的求差異區(qū)域方法的處理流程圖;
[0026]圖4示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的劃分記錄項(xiàng)方法的處理流程圖;
[0027]圖5示出了根據(jù)本發(fā)明另一個(gè)優(yōu)選實(shí)施例的網(wǎng)頁(yè)信息提取方法的處理流程圖;以及
[0028]圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁(yè)信息提取設(shè)備的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】[0029]下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0030]相關(guān)技術(shù)中提及,人工提取網(wǎng)頁(yè)信息存在一定的錯(cuò)誤率,并且當(dāng)頁(yè)面結(jié)構(gòu)發(fā)生變更時(shí),人工提取頁(yè)面信息存在人工發(fā)現(xiàn)頁(yè)面結(jié)構(gòu)變更不及時(shí)導(dǎo)致網(wǎng)頁(yè)信息提取依據(jù)的抽取規(guī)則無(wú)法實(shí)時(shí)更新的問(wèn)題,進(jìn)而能夠?qū)е戮W(wǎng)頁(yè)信息提取的準(zhǔn)確性降低的問(wèn)題。
[0031]為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供了一種網(wǎng)頁(yè)信息提取方法。圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁(yè)信息提取方法的處理流程圖。如圖1所示,該流程起始于步驟S102,獲取根據(jù)網(wǎng)頁(yè)內(nèi)容自動(dòng)生成的提取規(guī)則。本發(fā)明實(shí)施例中,提取規(guī)則的生成方法為:自動(dòng)解析網(wǎng)頁(yè)內(nèi)容,查找出有價(jià)值的信息,其中,有價(jià)值的信息包括網(wǎng)頁(yè)架構(gòu)中可更改的信息。查找到有價(jià)值的信息之后,標(biāo)識(shí)上述有價(jià)值的信息,經(jīng)過(guò)對(duì)上述有價(jià)值的信息的學(xué)習(xí)生成對(duì)應(yīng)的抽取規(guī)則。獲取到抽取規(guī)則之后,執(zhí)行如圖1所示的步驟S104,利用上述抽取規(guī)則提取網(wǎng)頁(yè)信息。
[0032]依據(jù)本發(fā)明實(shí)施例,能夠獲取根據(jù)網(wǎng)頁(yè)內(nèi)容自動(dòng)生成的抽取規(guī)則,并利用上述自動(dòng)生成的抽取規(guī)則提取網(wǎng)頁(yè)信息,解決了現(xiàn)有技術(shù)中采用人工獲取抽取規(guī)則并提取網(wǎng)頁(yè)信息導(dǎo)致的存在一定錯(cuò)誤率的問(wèn)題,降低提取網(wǎng)頁(yè)信息的成本。另外,本發(fā)明實(shí)施例能夠自動(dòng)生成提取網(wǎng)頁(yè)信息依據(jù)的抽取規(guī)則,解決了現(xiàn)有技術(shù)中,當(dāng)頁(yè)面結(jié)構(gòu)發(fā)生變更時(shí),人工發(fā)現(xiàn)頁(yè)面結(jié)構(gòu)變更不及時(shí)導(dǎo)致網(wǎng)頁(yè)信息提取依據(jù)的抽取規(guī)則無(wú)法實(shí)時(shí)更新的問(wèn)題,提高網(wǎng)頁(yè)信息提取的準(zhǔn)確性。
[0033]具體地,圖2示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的網(wǎng)頁(yè)信息提取方法的處理流程圖。本發(fā)明實(shí)施例中,根據(jù)網(wǎng)頁(yè)信息,可以將網(wǎng)頁(yè)分為列表頁(yè)或詳細(xì)頁(yè),其中,列表頁(yè)是指網(wǎng)頁(yè)中呈現(xiàn)的是多記錄項(xiàng),而詳細(xì)頁(yè)是指網(wǎng)頁(yè)中呈現(xiàn)的是具體信息?,F(xiàn)分別對(duì)列表頁(yè)和詳細(xì)頁(yè)中的網(wǎng)頁(yè)信息提取流程進(jìn)行說(shuō)明。圖2所示的流程中涉及的網(wǎng)頁(yè)為列表頁(yè)。如圖2所示的步驟S202所示,該流程起始于獲取多張列表頁(yè)的統(tǒng)一資源定位符(Uniform ResourceLocator,以下簡(jiǎn)稱 url)。
[0034]步驟S202執(zhí)行完畢之后,如圖2,執(zhí)行步驟S204,根據(jù)多張列表頁(yè)的urls下載列表頁(yè),并對(duì)列表頁(yè)進(jìn)行去噪處理。
[0035]由于網(wǎng)頁(yè)數(shù)據(jù)是半結(jié)構(gòu)化、分散且異構(gòu)的,因此,網(wǎng)頁(yè)數(shù)據(jù)通常不存在統(tǒng)一管理,且網(wǎng)頁(yè)數(shù)據(jù)的布局風(fēng)格和內(nèi)容變化非常迅速。本發(fā)明實(shí)施例中,在自動(dòng)解析網(wǎng)頁(yè)查找有價(jià)值的信息之前,需要優(yōu)先對(duì)網(wǎng)頁(yè)進(jìn)行去噪處理。通過(guò)去噪處理,本發(fā)明實(shí)施例能夠去除網(wǎng)頁(yè)內(nèi)容中一些無(wú)價(jià)值的信息(例如網(wǎng)頁(yè)廣告),以便在后續(xù)的操作中更加高效率地提取網(wǎng)頁(yè)信
肩、O
[0036]優(yōu)選地,本發(fā)明實(shí)施例中,對(duì)列表頁(yè)進(jìn)行去噪處理的具體方式為:對(duì)同一個(gè)列表頁(yè)的url進(jìn)行多次下載,對(duì)下載得到的頁(yè)面的數(shù)據(jù)進(jìn)行比較,并得到比較結(jié)果。根據(jù)比較結(jié)果刪除列表頁(yè)中同級(jí)內(nèi)容中不同的部分,即刪除列表頁(yè)中的網(wǎng)頁(yè)廣告等無(wú)價(jià)值的信息,得到經(jīng)過(guò)去噪處理的列表頁(yè)。
[0037]對(duì)列表頁(yè)進(jìn)行去噪處理之后,查找列表頁(yè)中的有價(jià)值的信息,其中,有價(jià)值的信息包括網(wǎng)頁(yè)架構(gòu)中可更改的信息。本發(fā)明實(shí)施例中,列表頁(yè)是由多個(gè)記錄項(xiàng)共同組成,并且各個(gè)記錄項(xiàng)之間有著相似的結(jié)構(gòu)特點(diǎn),列表頁(yè)中有價(jià)值的信息包括在不同列表頁(yè)中存在區(qū)另Ij的信息,還包括同一列表頁(yè)的不同記錄項(xiàng)中存在區(qū)別的信息。為查找出有價(jià)值的信息,執(zhí)行圖2中的步驟S206,求出列表頁(yè)間的差異區(qū)域。該列表頁(yè)間的差異區(qū)域包括不同列表頁(yè)中存在的區(qū)別信息,即列表頁(yè)中有價(jià)值的信息。求出列表頁(yè)間的差異區(qū)域之后,執(zhí)行步驟S208,取最長(zhǎng)的差異區(qū)域,作為列表區(qū)域,記錄列表區(qū)域中的信息為有價(jià)值的信息。
[0038]求出列表頁(yè)間的差異區(qū)域之后,由于列表頁(yè)中有價(jià)值的信息還包括同一列表的不同記錄項(xiàng)中存在區(qū)別的信息,本發(fā)明實(shí)施例繼續(xù)執(zhí)行如圖2所示的步驟S210,將列表區(qū)域劃分為多個(gè)記錄項(xiàng)。將列表區(qū)域劃分為多個(gè)記錄項(xiàng)之后,執(zhí)行步驟S212,對(duì)列表區(qū)域中的多個(gè)記錄項(xiàng)進(jìn)行比對(duì),并記錄存在區(qū)別的記錄項(xiàng),將存在區(qū)別的記錄項(xiàng)作為有價(jià)值的信息。
[0039]由上所述,本發(fā)明實(shí)施例中通過(guò)在列表頁(yè)間求出差異區(qū)域以及將列表區(qū)域劃分成多個(gè)記錄項(xiàng)查找出有價(jià)值的信息,繼而學(xué)習(xí)有價(jià)值的信息并生成對(duì)應(yīng)的抽取規(guī)則。優(yōu)選地,本發(fā)明實(shí)施例中,將有價(jià)值的信息傳輸至自動(dòng)學(xué)習(xí)程序,由自動(dòng)學(xué)習(xí)程序根據(jù)對(duì)上述有價(jià)值的信息進(jìn)行學(xué)習(xí),進(jìn)而生成對(duì)應(yīng)的抽取規(guī)則。本發(fā)明實(shí)施例中提供的自動(dòng)學(xué)習(xí)程序能夠運(yùn)行于電腦、服務(wù)器終端或者移動(dòng)終端等任意機(jī)器,本發(fā)明實(shí)施例對(duì)此并不加以限定。
[0040]依據(jù)上文所述,獲取到有價(jià)值的信息之后,可以由自動(dòng)學(xué)習(xí)程序?qū)τ袃r(jià)值的信息進(jìn)行學(xué)習(xí),并生成對(duì)應(yīng)的抽取規(guī)則,在本發(fā)明實(shí)施例中,由中心機(jī)器存儲(chǔ)抽取規(guī)則以及相應(yīng)的抽取任務(wù),其中,抽取任務(wù)中包括對(duì)所要提取的網(wǎng)頁(yè)信息的相關(guān)描述。中心機(jī)器對(duì)抽取規(guī)則以及相應(yīng)的抽取任務(wù)進(jìn)行存儲(chǔ)之后,根據(jù)預(yù)設(shè)的調(diào)度原則將抽取規(guī)則以及相應(yīng)的抽取任務(wù)發(fā)送至工作機(jī)器。
[0041]在本發(fā)明實(shí)施例中,工作機(jī)器的數(shù)量能夠根據(jù)需要提取信息的網(wǎng)頁(yè)的數(shù)量進(jìn)行確定。當(dāng)需要提取信息的網(wǎng)頁(yè)數(shù)量較大時(shí),本發(fā)明實(shí)施例能夠使用多個(gè)工作機(jī)器接收中心機(jī)器發(fā)送的抽取規(guī)則以及相應(yīng)的抽取任務(wù),保證在大量網(wǎng)頁(yè)進(jìn)行信息提取時(shí),能夠及時(shí)進(jìn)行網(wǎng)頁(yè)信息提取,并減少信息提取的錯(cuò)誤率。
·[0042]另外,當(dāng)網(wǎng)頁(yè)架構(gòu)發(fā)生改變時(shí),本發(fā)明實(shí)施例能夠自動(dòng)分析新的網(wǎng)頁(yè)架構(gòu),更新抽取規(guī)則,并實(shí)時(shí)更新中心機(jī)器的抽取規(guī)則,保證中心機(jī)器能夠?qū)崟r(shí)發(fā)送更新抽取規(guī)則至工作機(jī)器,并由工作機(jī)器根據(jù)更新后的抽取規(guī)則進(jìn)行網(wǎng)頁(yè)信息提取。工作機(jī)器根據(jù)抽取規(guī)則獲取抽取結(jié)果之后,將獲取到的抽取結(jié)果發(fā)送至下一個(gè)機(jī)器,下一個(gè)機(jī)器根據(jù)中心機(jī)器預(yù)先設(shè)置的操作對(duì)抽取結(jié)果進(jìn)行排重或者分類或者刪除冗余項(xiàng)等操作,保證利用抽取規(guī)則提取的網(wǎng)頁(yè)信息更加簡(jiǎn)潔、準(zhǔn)確。
[0043]在利用抽取規(guī)則進(jìn)行網(wǎng)頁(yè)信息提取時(shí),本發(fā)明實(shí)施例使用抽取規(guī)則中的位置標(biāo)識(shí)信息逐一對(duì)網(wǎng)頁(yè)信息進(jìn)行提取,其中,抽取規(guī)則中的位置標(biāo)識(shí)信息標(biāo)識(shí)出網(wǎng)頁(yè)信息的起始位置以及終止位置。例如,網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言代碼(Hyper Text Markup Language,以下簡(jiǎn)稱 html)為:<html><body><a href=’www.s0.com’> 搜索〈/a>〈/body>〈/html>。當(dāng)用戶需要抽取“搜索”這個(gè)詞的url地址以及“搜索”字段本身的值時(shí),通過(guò)自動(dòng)學(xué)習(xí)生成的提取規(guī)則可以是1、位置標(biāo)識(shí)信息1:“href=’”,位置標(biāo)識(shí)信息2 以及2、位置標(biāo)識(shí)信息
位置標(biāo)識(shí)信息2:“〈”。
[0044]生成上述提取規(guī)則之后,利用上述提取規(guī)則1,能夠提取href=’和’之間的“www.s0.com”,即提取到“搜索”這個(gè)詞的url地址,利用上述提取規(guī)則2,能夠提取 > 和〈之間的“搜索”,即提取到“搜索”字段本身的值。[0045]前文提及,在利用抽取規(guī)則進(jìn)行網(wǎng)頁(yè)信息提取之前,需要查找有價(jià)值的信息,并利用有價(jià)值的信息生成抽取規(guī)則。當(dāng)網(wǎng)頁(yè)為列表頁(yè)時(shí),有價(jià)值的信息包括在不同列表頁(yè)中存在區(qū)別的信息,或者同一列表頁(yè)的不同記錄項(xiàng)中存在區(qū)別的信息。現(xiàn)詳細(xì)介紹當(dāng)網(wǎng)頁(yè)為列表頁(yè)時(shí),查找有價(jià)值信息的方法。
[0046]圖3示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的求出列表頁(yè)間差異區(qū)域的方法的處理流程圖。如圖3所示,采用本優(yōu)選實(shí)施例中提供的算法能夠求出列表頁(yè)間差異區(qū)域,該算法中,算法輸入為多個(gè)列表頁(yè)面,算法輸出為列表頁(yè)的差異區(qū)域。此處的算法輸入及輸出僅僅是一個(gè)示例,對(duì)算法以及信息提取流程本身并不造成限定。
[0047]如圖3所示,該流程起始于步驟S302,加載列表頁(yè)頁(yè)面。加載多張列表頁(yè)頁(yè)面之后,執(zhí)行步驟S304,求出所有頁(yè)面的文檔對(duì)象模型(Document Object Model,以下簡(jiǎn)稱dom)樹(shù)結(jié)構(gòu),樹(shù)結(jié)構(gòu)由多個(gè)節(jié)點(diǎn)(其中每個(gè)節(jié)點(diǎn)稱為node,多個(gè)節(jié)點(diǎn)為nodes)組成。
[0048]根據(jù)圖3所示的步驟S306,求出nodes之后,判斷nodes是否完全相等,若是,返回步驟S304,繼續(xù)求出樹(shù)結(jié)構(gòu),若否,則執(zhí)行步驟S308,判斷nodes的孩子個(gè)數(shù)是否相等。根據(jù)步驟S308,若判斷出nodes的孩子個(gè)數(shù)不相等,則執(zhí)行步驟S312,將所有nodes插入到差異區(qū)域,若判斷出nodes的孩子個(gè)數(shù)是相等的,則繼續(xù)執(zhí)行步驟S310,判斷nodes孩子的標(biāo)簽和文本是否相同。
[0049]如圖3所示,步驟S310中,若判斷結(jié)果為否,則nodes的孩子存在區(qū)別,執(zhí)行步驟S312,將所有nodes的孩子插入到差異區(qū)域,若判斷結(jié)果為是,則執(zhí)行步驟S314,將nodes相同位置的孩子作為新的nodes進(jìn)行遞歸運(yùn)算,直至求出列表頁(yè)的所有差異區(qū)域。
[0050]通過(guò)如圖3所示的過(guò)程,本發(fā)明實(shí)施例能夠求出列表頁(yè)間的差異區(qū)域,并取最長(zhǎng)的差異區(qū)域作為列表區(qū)域,進(jìn)一步求出不同列表頁(yè)中存在區(qū)別的信息,另外,將列表區(qū)域劃分成多個(gè)記錄項(xiàng),不同記錄項(xiàng)中存在區(qū)別的信息也為有價(jià)值的信息。圖4示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的劃分列表區(qū)域至多個(gè)記錄項(xiàng)方法的處理流程圖。如圖4所示,采用本優(yōu)選實(shí)施例中提供的算法能夠?qū)⒘斜韰^(qū)域劃分成記錄項(xiàng),該算法中,算法輸入為列表區(qū)域,算法輸出為多個(gè)記錄項(xiàng)。此處的算法輸入及輸出僅僅是一個(gè)示例,對(duì)算法以及信息提取流程本身并不造成限定。`
[0051]如圖4所示,首先執(zhí)行步驟S402,獲取如上文所述的列表區(qū)域。獲取到列表區(qū)域之后,執(zhí)行步驟S404,求出列表區(qū)域的dom樹(shù)結(jié)構(gòu),以及組成該樹(shù)結(jié)構(gòu)的多個(gè)node。將dom樹(shù)結(jié)構(gòu)中的每個(gè)node加入到數(shù)組p_nodes中,即如圖4所示的步驟S406。執(zhí)行完步驟S406,進(jìn)行如圖4所示的步驟S408的操作,判斷p_nodes數(shù)組是否為空,其中,p_nodes數(shù)組僅在不為空的情況下有意義。根據(jù)判斷結(jié)果,當(dāng)P_n0des數(shù)組不為空時(shí),執(zhí)行步驟S410,Wp_nodes數(shù)據(jù)的末尾取出一個(gè)元素記為p_node,然后執(zhí)行步驟S412,判斷p_node是否有孩子。
[0052]如圖4所示的步驟S412,若判斷結(jié)果為否,則返回步驟S408,若判斷結(jié)果為是,則繼續(xù)執(zhí)行步驟S414,判斷p_node孩子數(shù)是否大于I。若p_node孩子數(shù)小于等于1,則執(zhí)行步驟3416,將p_node的孩子加入到p_nodes并返回步驟S408。若p_node孩子數(shù)大于I,則執(zhí)行步驟S418,將?』0如的孩子分成不同的小組,每個(gè)小組由N個(gè)相鄰的孩子組成,任一個(gè)孩子只屬于某一個(gè)小組。步驟S418執(zhí)行完畢之后,如圖4所示,執(zhí)行步驟S420,計(jì)算任意兩個(gè)相鄰小組的相似度,并判斷相似度是否滿足閾值。
[0053]如圖4所示,步驟S420中,若判斷相似度是否滿足閾值的判斷結(jié)果為否,則執(zhí)行步驟S422,設(shè)置N等于N減1,并返回步驟S418,若判斷結(jié)果為是,則執(zhí)行步驟S424。如圖4所示,步驟S424為對(duì)滿足相似度的兩個(gè)小組繼續(xù)細(xì)分,找出滿足相似度閾值的最小分片,即記錄項(xiàng),其中,記錄項(xiàng)包含的元素個(gè)數(shù)為η。依據(jù)圖4,步驟S424執(zhí)行完畢之后,執(zhí)行步驟S426,以個(gè)數(shù)η為基礎(chǔ),在滿足相似度的小組邊緣,向兩邊擴(kuò)展,找出所有的記錄項(xiàng)并結(jié)束操作。根據(jù)如圖4所示的方法流程圖,本發(fā)明實(shí)施例能夠劃分列表區(qū)域至多個(gè)記錄項(xiàng),進(jìn)而查找出列表頁(yè)的有價(jià)值的信息,進(jìn)行網(wǎng)頁(yè)信息提取。
[0054]本發(fā)明實(shí)施例中,網(wǎng)頁(yè)包括列表頁(yè)和/或詳細(xì)頁(yè),上文介紹了本發(fā)明對(duì)列表頁(yè)提取網(wǎng)頁(yè)信息的幾個(gè)優(yōu)選實(shí)施例,以下對(duì)本發(fā)明對(duì)詳細(xì)頁(yè)進(jìn)行網(wǎng)頁(yè)信息提取的方法進(jìn)行介紹。
[0055]圖5示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的網(wǎng)頁(yè)信息提取方法的處理流程圖。特別地,本優(yōu)選實(shí)施例中,網(wǎng)頁(yè)為詳細(xì)頁(yè),詳細(xì)頁(yè)為網(wǎng)頁(yè)中有價(jià)值的信息在一定時(shí)間內(nèi)不會(huì)發(fā)生改變的頁(yè)面。如圖5所示,該流程起始于步驟S502,獲取多張?jiān)敿?xì)頁(yè)的url。步驟S502執(zhí)行完畢之后,執(zhí)行步驟S504,對(duì)每個(gè)詳細(xì)頁(yè)進(jìn)行頁(yè)面內(nèi)去噪處理。本發(fā)明實(shí)施例中,對(duì)詳細(xì)頁(yè)進(jìn)行頁(yè)面內(nèi)去噪處理的具體方式為:將同一個(gè)詳細(xì)頁(yè)的url下載多次,對(duì)多次下載得到的頁(yè)面生成dom樹(shù)結(jié)構(gòu)的根目錄,然后比較根目錄中的所有子孫節(jié)點(diǎn)。若同一級(jí)的節(jié)點(diǎn)之間存在區(qū)別,則將該節(jié)點(diǎn)從dom樹(shù)中刪去,經(jīng)過(guò)這種處理方式得到的dom樹(shù),即為經(jīng)過(guò)去噪處理之后的詳細(xì)頁(yè)的dom樹(shù)。
[0056]步驟S504執(zhí)行完畢之后,如圖5所示,執(zhí)行步驟S506,求詳細(xì)頁(yè)之間的差異信息,該差異信息即為詳細(xì)頁(yè)中的有價(jià)值的信息。
[0057]依據(jù)上文所述,本發(fā)明實(shí)施例能夠獲取到詳細(xì)頁(yè)中的有價(jià)值的信息。獲取到有價(jià)值的信息之后,本發(fā)明實(shí)施例繼續(xù)根據(jù)獲取到的有價(jià)值信息進(jìn)行學(xué)習(xí),進(jìn)一步能夠生成對(duì)應(yīng)的抽取規(guī)則。在本發(fā)明實(shí)施例中,由中心機(jī)器存儲(chǔ)抽取規(guī)則以及相應(yīng)的抽取任務(wù),該抽取任務(wù)中包括對(duì)所要提取的網(wǎng)頁(yè)信息的相關(guān)描述。中心機(jī)器對(duì)抽取規(guī)則以及相應(yīng)的抽取任務(wù)進(jìn)行存儲(chǔ)之后,根據(jù)預(yù)設(shè)的調(diào)度原則將抽取規(guī)則以及相應(yīng)的抽取任務(wù)發(fā)送至工作機(jī)器。
[0058]在本發(fā)明實(shí)施例中,工作機(jī)器的數(shù)量能夠根據(jù)需要提取信息的網(wǎng)頁(yè)的數(shù)量進(jìn)行確定。當(dāng)需要提取信息的網(wǎng)頁(yè)數(shù)量較大時(shí),使用多個(gè)工作機(jī)器接收中心機(jī)器發(fā)送的抽取規(guī)則以及相應(yīng)的抽取任務(wù),保證在大量網(wǎng)頁(yè)進(jìn)行信息提取時(shí),能夠及時(shí)進(jìn)行網(wǎng)頁(yè)信息提取,并減少信息提取的錯(cuò)誤率。
[0059]另外,當(dāng)網(wǎng)頁(yè)架構(gòu)發(fā)生改變時(shí),本發(fā)明實(shí)施例能夠自動(dòng)分析新的網(wǎng)頁(yè)架構(gòu),更新抽取規(guī)則,并實(shí)時(shí)更新中心機(jī)器的抽取規(guī)則,保證中心機(jī)器能夠?qū)崟r(shí)發(fā)送更新抽取規(guī)則至工作機(jī)器,并由工作機(jī)器根據(jù)更新后的抽取規(guī)則進(jìn)行網(wǎng)頁(yè)信息提取。工作機(jī)器根據(jù)抽取規(guī)則獲取抽取結(jié)果之后,將獲取到的抽取結(jié)果發(fā)送至下一個(gè)機(jī)器,下一個(gè)機(jī)器根據(jù)中心機(jī)器預(yù)先設(shè)置的操作對(duì)抽取結(jié)果進(jìn)行排重或者分類或者刪除冗余項(xiàng)等操作,保證利用抽取規(guī)則提取的網(wǎng)頁(yè)信息更加簡(jiǎn)潔、準(zhǔn)確。
[0060]本發(fā)明實(shí)施例中,詳細(xì)頁(yè)中有價(jià)值的信息可以包括在指定時(shí)長(zhǎng)內(nèi)價(jià)值不變的信息,還可以包括在不同詳細(xì)頁(yè)中存在區(qū)別的信息,其中,詳細(xì)頁(yè)中在指定時(shí)長(zhǎng)內(nèi)價(jià)值不變的信息包括具有一定信息含量的信息,以及通過(guò)該信息能夠訪問(wèn)其他鏈接的信息。
[0061]例如,在詳細(xì)頁(yè)一中有通過(guò)點(diǎn)擊能夠進(jìn)入時(shí)政新聞的信息,在詳細(xì)頁(yè)二中有通過(guò)點(diǎn)擊能夠進(jìn)入娛樂(lè)新聞的信息,上述兩個(gè)信息均具有一定的信息量,并且,通過(guò)點(diǎn)擊兩條信息均能夠進(jìn)入時(shí)政新聞或者娛樂(lè)新聞的網(wǎng)站,則上述兩條信息均為詳細(xì)頁(yè)中有價(jià)值的信息,而詳細(xì)頁(yè)中還存在一些植入廣告的信息,用戶每次訪問(wèn)該網(wǎng)頁(yè),網(wǎng)頁(yè)中該類廣告的信息均不同,這類廣告的信息則不被認(rèn)為是有價(jià)值的信息。
[0062]另外,當(dāng)網(wǎng)頁(yè)架構(gòu)發(fā)生改變時(shí),本發(fā)明實(shí)施例能夠自動(dòng)分析新的網(wǎng)頁(yè)架構(gòu),更新抽取規(guī)則,保證在利用抽取規(guī)則對(duì)網(wǎng)頁(yè)信息進(jìn)行提取的過(guò)程中,抽取規(guī)則能夠根據(jù)網(wǎng)頁(yè)架構(gòu)進(jìn)行及時(shí)更新,進(jìn)一步保證網(wǎng)頁(yè)信息提取的準(zhǔn)確性以及高效性。
[0063]基于上文各優(yōu)選實(shí)施例提供的網(wǎng)頁(yè)信息提取方法,基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例提供了一種網(wǎng)頁(yè)信息提取設(shè)備,用于實(shí)現(xiàn)上述網(wǎng)頁(yè)信息提取方法。圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁(yè)信息提取設(shè)備的結(jié)構(gòu)示意圖。參見(jiàn)圖6,本發(fā)明實(shí)施例的網(wǎng)頁(yè)信息提取設(shè)備至少包括:規(guī)則生成模塊610、獲取模塊620以及提取模塊630。
[0064]現(xiàn)介紹本發(fā)明實(shí)施例的網(wǎng)頁(yè)信息提取設(shè)備的各器件或組成的功能以及各部分間的連接關(guān)系:
[0065]規(guī)則生成模塊610,配置為自動(dòng)解析網(wǎng)頁(yè)內(nèi)容,查找出有價(jià)值的信息,其中,有價(jià)值的信息包括網(wǎng)頁(yè)架構(gòu)中可更改的信息;標(biāo)識(shí)所述有價(jià)值的信息,學(xué)習(xí)并生成對(duì)應(yīng)的所述抽取規(guī)則。
[0066]獲取模塊620,與規(guī)則生成模塊610耦合,配置為獲取規(guī)則生成模塊610根據(jù)網(wǎng)頁(yè)內(nèi)容自動(dòng)生成的抽取規(guī)則。
[0067]提取模塊630,與獲取模塊620耦合,配置為利用獲取模塊620獲取到的抽取規(guī)則提取網(wǎng)頁(yè)信息。
[0068]依據(jù)本發(fā)明實(shí)施例,能夠獲取根據(jù)網(wǎng)頁(yè)內(nèi)容自動(dòng)生成的抽取規(guī)則,并利用上述自動(dòng)生成的抽取規(guī)則提取網(wǎng)頁(yè)信息,解決了現(xiàn)有技術(shù)中采用人工獲取抽取規(guī)則并提取網(wǎng)頁(yè)信息導(dǎo)致的存在一定錯(cuò)誤率的問(wèn)題,降低提取網(wǎng)頁(yè)信息的成本。另外,本發(fā)明實(shí)施例能夠自動(dòng)生成提取網(wǎng)頁(yè)信息依據(jù)的抽取規(guī)則,解決了現(xiàn)有技術(shù)中當(dāng)頁(yè)面結(jié)構(gòu)發(fā)生變更時(shí),人工發(fā)現(xiàn)頁(yè)面結(jié)構(gòu)變更不及時(shí)導(dǎo)致網(wǎng)頁(yè)信息提取依據(jù)的抽取規(guī)則無(wú)法實(shí)時(shí)更新的問(wèn)題,提高網(wǎng)頁(yè)信息提取的準(zhǔn)確性。
[0069]具體地,如圖6所示的規(guī)則生成模塊610獲取多張網(wǎng)頁(yè)的urI,根據(jù)上述urIs下載的網(wǎng)頁(yè),并且對(duì)網(wǎng)頁(yè)進(jìn)行去噪處理。由于網(wǎng)頁(yè)數(shù)據(jù)是半結(jié)構(gòu)化、分散且異構(gòu)的,因此,網(wǎng)頁(yè)數(shù)據(jù)通常不存在統(tǒng)一管理,且布局風(fēng)格和內(nèi)容變化非常迅速,本發(fā)明實(shí)施例中,在自動(dòng)解析網(wǎng)頁(yè)查找有價(jià)值的信息之前,需要優(yōu)先對(duì)網(wǎng)頁(yè)進(jìn)行去噪處理。通過(guò)去噪處理,本發(fā)明實(shí)施例能夠去除網(wǎng)頁(yè)內(nèi)容中一些無(wú)價(jià)值的信息(例如網(wǎng)頁(yè)廣告),以便在后續(xù)的操作中更加高效率地提取網(wǎng)頁(yè)信息。
[0070]優(yōu)選地,本發(fā)明實(shí)施例中,對(duì)網(wǎng)頁(yè)進(jìn)行去噪處理的具體方式為:對(duì)同一個(gè)網(wǎng)頁(yè)的url進(jìn)行多次下載,對(duì)下載得到的頁(yè)面的數(shù)據(jù)進(jìn)行比較,并得到比較結(jié)果。根據(jù)比較結(jié)果刪除網(wǎng)頁(yè)中同級(jí)內(nèi)容中不同的部分,即刪除網(wǎng)頁(yè)中的網(wǎng)頁(yè)廣告等無(wú)價(jià)值的信息,得到經(jīng)過(guò)去噪處理的網(wǎng)頁(yè)。
[0071]對(duì)網(wǎng)頁(yè)進(jìn)行去噪處理之后,規(guī)則生成模塊610查找網(wǎng)頁(yè)中有價(jià)值的信息,其中,有價(jià)值的信息包括網(wǎng)頁(yè)架構(gòu)中可更改的信息。本發(fā)明實(shí)施例中,網(wǎng)頁(yè)包括詳細(xì)頁(yè)以及列表頁(yè),并且網(wǎng)頁(yè)的有價(jià)值的信息包括在不同列表頁(yè)中存在區(qū)別的信息,還包括同一列表頁(yè)的不同記錄項(xiàng)中存在區(qū)別的信息以及詳細(xì)頁(yè)中有價(jià)值的信息。[0072]規(guī)則生成模塊610查找出網(wǎng)頁(yè)的有價(jià)值的信息之后,標(biāo)識(shí)出有價(jià)值的信息,并學(xué)習(xí)上述有價(jià)值的信息,最終生成對(duì)應(yīng)的抽取規(guī)則。規(guī)則生成模塊610生成抽取規(guī)則之后,觸發(fā)獲取模塊620,由獲取模塊620獲取規(guī)則生成模塊610自動(dòng)生成的抽取規(guī)則。獲取到抽取規(guī)則之后,如圖6所示,由提取模塊630利用獲取模塊620獲取到的抽取規(guī)則提取網(wǎng)頁(yè)信息。另外,本發(fā)明實(shí)施例中,當(dāng)網(wǎng)頁(yè)架構(gòu)發(fā)生改變時(shí),自動(dòng)分析新的網(wǎng)頁(yè)架構(gòu),更新抽取規(guī)貝U,保證在利用抽取規(guī)則對(duì)網(wǎng)頁(yè)信息進(jìn)行提取的過(guò)程中,抽取規(guī)則能夠根據(jù)網(wǎng)頁(yè)架構(gòu)進(jìn)行及時(shí)更新,進(jìn)一步保證網(wǎng)頁(yè)信息提取的準(zhǔn)確性以及高效性。
[0073]根據(jù)上述任意一個(gè)優(yōu)選實(shí)施例或多個(gè)優(yōu)選實(shí)施例的組合,本發(fā)明實(shí)施例能夠達(dá)到如下有益效果:
[0074]依據(jù)本發(fā)明實(shí)施例,能夠獲取根據(jù)網(wǎng)頁(yè)內(nèi)容自動(dòng)生成的抽取規(guī)則,并利用上述自動(dòng)生成的抽取規(guī)則提取網(wǎng)頁(yè)信息,解決了現(xiàn)有技術(shù)中采用人工獲取抽取規(guī)則并提取網(wǎng)頁(yè)信息導(dǎo)致的存在一定錯(cuò)誤率的問(wèn)題,降低提取網(wǎng)頁(yè)信息的成本。本發(fā)明實(shí)施例能夠自動(dòng)生成提取網(wǎng)頁(yè)信息依據(jù)的抽取規(guī)則,解決了現(xiàn)有技術(shù)中當(dāng)頁(yè)面結(jié)構(gòu)發(fā)生變更時(shí),人工發(fā)現(xiàn)頁(yè)面結(jié)構(gòu)變更不及時(shí)導(dǎo)致網(wǎng)頁(yè)信息提取依據(jù)的抽取規(guī)則無(wú)法實(shí)時(shí)更新的問(wèn)題,提高網(wǎng)頁(yè)信息提取的準(zhǔn)確性。
[0075]另外,本發(fā)明實(shí)施例能夠大大降低人工查看網(wǎng)頁(yè)源代碼,并編寫抽取規(guī)則的工作量,同時(shí)能夠避免人工提取規(guī)則出錯(cuò)的情況。當(dāng)網(wǎng)頁(yè)結(jié)構(gòu)發(fā)生變更的時(shí)候,采用本發(fā)明實(shí)施例能夠自動(dòng)提取有價(jià)值的信息,無(wú)需人工參與,從而進(jìn)一步降低人工成本和抽取錯(cuò)誤信息所造成的損失。
[0076]在此處所提供的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。
[0077]類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要求書(shū)所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書(shū)由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0078]本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi)的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。
[0079]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在權(quán)利要求書(shū)中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。
[0080]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP )來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁(yè)信息提取設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0081]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
[0082]至此,本領(lǐng)域技術(shù)人員應(yīng)認(rèn)識(shí)到,雖然本文已詳盡示出和描述了本發(fā)明的多個(gè)示例性實(shí)施例,但是,在不脫離本發(fā)明精神和范圍的情況下,仍可根據(jù)本發(fā)明公開(kāi)的內(nèi)容直接確定或推導(dǎo)出符合本發(fā)明原理的許多其他變型或修改。因此,本發(fā)明的范圍應(yīng)被理解和認(rèn)定為覆蓋了所有這些其他變型或修改。
【權(quán)利要求】
1.一種網(wǎng)頁(yè)信息提取方法,包括: 獲取根據(jù)網(wǎng)頁(yè)內(nèi)容自動(dòng)生成的抽取規(guī)則; 利用所述抽取規(guī)則提取網(wǎng)頁(yè)信息; 其中,所述抽取規(guī)則的生成方法如下: 自動(dòng)解析網(wǎng)頁(yè)內(nèi)容,查找出有價(jià)值的信息,其中,所述有價(jià)值的信息包括網(wǎng)頁(yè)架構(gòu)中可更改的信息; 標(biāo)識(shí)所述有價(jià)值的信息,自動(dòng)學(xué)習(xí)并生成對(duì)應(yīng)的所述抽取規(guī)則。
2.根據(jù)權(quán)利要求1所述的方法,其中,利用所述抽取規(guī)則提取網(wǎng)頁(yè)信息,包括: 利用所述抽取規(guī)則中的位置標(biāo)識(shí)信息確定可提取的所述網(wǎng)頁(yè)信息的位置,其中,所述抽取規(guī)則中包括位置標(biāo)識(shí)信息; 根據(jù)確定的位置對(duì)網(wǎng)頁(yè)信息逐一進(jìn)行提取。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述位置標(biāo)識(shí)信息標(biāo)識(shí)可提取的所述網(wǎng)頁(yè)信息的起始位置以及終止位置。
4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其中,還包括:當(dāng)所述網(wǎng)頁(yè)架構(gòu)發(fā)生改變時(shí),自動(dòng)分析新的網(wǎng)頁(yè)架構(gòu),更 新所述抽取規(guī)則。
5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其中,所述網(wǎng)頁(yè)包括列表頁(yè)和/或詳細(xì)頁(yè)。
6.根據(jù)權(quán)利要求5所述的方法,其中,在所述列表頁(yè)中,有價(jià)值的信息包括: 在不同列表頁(yè)中存在區(qū)別的信息;或者 同一列表的不同記錄項(xiàng)中存在區(qū)別的信息。
7.根據(jù)權(quán)利要求6所述的方法,其中,自動(dòng)解析網(wǎng)頁(yè)內(nèi)容,查找出有價(jià)值的信息,包括: 在不同列表頁(yè)間查找差異區(qū)域,所述差異區(qū)域包括所述不同列表頁(yè)中存在區(qū)別的信息; 取最長(zhǎng)的差異區(qū)域,作為列表區(qū)域,記錄所述列表區(qū)域中的信息為有價(jià)值的信息。
8.根據(jù)權(quán)利要求7所述的方法,其中,自動(dòng)解析網(wǎng)頁(yè)內(nèi)容,查找出有價(jià)值的信息,包括: 對(duì)所述列表區(qū)域中的多個(gè)記錄項(xiàng)進(jìn)行比對(duì); 記錄存在區(qū)別的不同記錄項(xiàng),將其作為有價(jià)值的信息。
9.根據(jù)權(quán)利要求5至8任一項(xiàng)所述的方法,其中,在所述詳細(xì)頁(yè)中,有價(jià)值的信息包括: 在指定時(shí)長(zhǎng)內(nèi)價(jià)值不變的信息,其中,所述價(jià)值不變的信息至少包括具有一定信息含量的信息,以及通過(guò)所述價(jià)值不變的信息能夠訪問(wèn)其他鏈接的信息;或者在不同詳細(xì)頁(yè)中存在區(qū)別的信息。
10.根據(jù)權(quán)利要求1至9任一項(xiàng)所述的方法,其中,自動(dòng)解析網(wǎng)頁(yè)內(nèi)容之前,還包括:對(duì)待解析的網(wǎng)頁(yè)進(jìn)行頁(yè)面內(nèi)去噪。
11.一種網(wǎng)頁(yè)信息提取設(shè)備,包括: 規(guī)則生成模塊,配置為自動(dòng)解析網(wǎng)頁(yè)內(nèi)容,查找出有價(jià)值的信息,其中,所述有價(jià)值的信息包括網(wǎng)頁(yè)架構(gòu)中可更改的信息;標(biāo)識(shí)所述有價(jià)值的信息,學(xué)習(xí)并生成對(duì)應(yīng)的所述抽取規(guī)則; 獲取模塊,配置為獲取根據(jù)網(wǎng)頁(yè)內(nèi)容自動(dòng)生成的抽取規(guī)則; 提取模塊,配置為利用所述抽取規(guī)則提取網(wǎng)頁(yè)信息。
12.根據(jù)權(quán)利要求11所述的設(shè)備,其中,所述規(guī)則生成模塊還配置為當(dāng)所述網(wǎng)頁(yè)架構(gòu)發(fā)生改變時(shí),自動(dòng)分析新的網(wǎng)頁(yè)架構(gòu),更新所述抽取規(guī)則。
13.根據(jù)權(quán)利要求11或12所述的設(shè)備,其中,所述規(guī)則生成模塊還配置為自動(dòng)解析網(wǎng)頁(yè)內(nèi)容之前,對(duì)待解析的 網(wǎng)頁(yè)進(jìn)行頁(yè)面內(nèi)去噪。
【文檔編號(hào)】G06F17/30GK103714116SQ201310529500
【公開(kāi)日】2014年4月9日 申請(qǐng)日期:2013年10月31日 優(yōu)先權(quán)日:2013年10月31日
【發(fā)明者】徐銳波, 付赟 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司