專利名稱:一種客戶端設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種客戶端設(shè)備。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的普及,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的重要途徑之一,網(wǎng)頁中的文本內(nèi)容是信息的主要載體。然而,通常情況下網(wǎng)頁中除了文本內(nèi)容,還包括大量廣告圖片、非文章內(nèi)容等無用信息,嚴(yán)重影響了用戶的閱讀體驗(yàn)?,F(xiàn)有技術(shù)提供的提取網(wǎng)頁文本內(nèi)容的方案中,網(wǎng)頁在瀏覽器中加載完畢后,將網(wǎng)頁中的內(nèi)容進(jìn)行拆分,然后由瀏覽器中的匹配規(guī)則文件對網(wǎng)頁內(nèi)容進(jìn)行定位,抽取出所需的字段內(nèi)容并顯示出來,從而用戶可以看到文本篩選后的網(wǎng)頁,使用戶能夠方便和專注的閱讀。現(xiàn)有提取網(wǎng)頁文本內(nèi)容的方案中至少存在如下缺陷現(xiàn)有方案針對某一預(yù)定網(wǎng)頁結(jié)構(gòu)設(shè)置一匹配規(guī)則文件,該匹配規(guī)則文件僅適用于預(yù)定結(jié)構(gòu)下網(wǎng)頁文本內(nèi)容的提取,然而由于網(wǎng)絡(luò)資源的更新速度非???,網(wǎng)頁結(jié)構(gòu)會時常變動,則已有的匹配規(guī)則文件將無法對變動后的網(wǎng)頁進(jìn)行文本提取,而重新生成新的匹配規(guī)則文件,再將新的匹配規(guī)則文件設(shè)置在瀏覽器中,又導(dǎo)致實(shí)現(xiàn)匹配的操作過于繁瑣,工作量較大、效率低下。
發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的客戶端設(shè)備。依據(jù)本發(fā)明,本發(fā)明實(shí)施例提供了一種客戶端設(shè)備,該客戶端設(shè)備上安裝有瀏覽器,瀏覽器中設(shè)置對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置,客戶端設(shè)備,根據(jù)用戶的網(wǎng)頁瀏覽指令啟動對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置,并將該對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置提取出的網(wǎng)頁文本內(nèi)容在瀏覽器中展示給用戶;所述對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置包括匹配設(shè)置配置單元,適于在瀏覽器側(cè)預(yù)設(shè)至少一網(wǎng)頁文本內(nèi)容匹配設(shè)置;下載單元,適于在瀏覽器側(cè)進(jìn)行網(wǎng)頁內(nèi)容下載;匹配單元,適于將網(wǎng)頁內(nèi)容分別與網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配,直至網(wǎng)頁內(nèi)容匹配成功;提取單元,適于利用與網(wǎng)頁內(nèi)容匹配成功的網(wǎng)頁文本內(nèi)容匹配設(shè)置,提取網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。其中,匹配設(shè)置配置單元,適于建立一匹配設(shè)置文件并將至少一網(wǎng)頁文本內(nèi)容匹配設(shè)置保存在匹配設(shè)置文件中;其中,該匹配設(shè)置文件中包括至少一個網(wǎng)站節(jié)點(diǎn),每個網(wǎng)站節(jié)點(diǎn)中包括至少一種網(wǎng)頁節(jié)點(diǎn),至少部分網(wǎng)頁節(jié)點(diǎn)中設(shè)有兩個以上的匹配設(shè)置描述節(jié)點(diǎn),每個匹配設(shè)置描述節(jié)點(diǎn)對應(yīng)一網(wǎng)頁文本內(nèi)容匹配設(shè)置,至少兩個網(wǎng)頁文本內(nèi)容的匹配設(shè)置中分別包括對相同類型文本內(nèi)容的不同匹配設(shè)置項(xiàng)。其中,匹配單元,適于在匹配設(shè)置文件中查找網(wǎng)頁內(nèi)容對應(yīng)的網(wǎng)站節(jié)點(diǎn)及網(wǎng)頁節(jié)點(diǎn);在查找到的網(wǎng)頁節(jié)點(diǎn)下,將網(wǎng)頁內(nèi)容與該網(wǎng)頁節(jié)點(diǎn)中的第一匹配設(shè)置描述節(jié)點(diǎn)中的匹配設(shè)置項(xiàng)依次進(jìn)行匹配;對匹配成功的匹配設(shè)置項(xiàng),將匹配結(jié)果設(shè)置為利用該匹配設(shè)置項(xiàng)提取出的網(wǎng)頁文本內(nèi)容;對匹配失敗的匹配設(shè)置項(xiàng),在該網(wǎng)頁節(jié)點(diǎn)中除第一匹配設(shè)置描述節(jié)點(diǎn)之外的匹配設(shè)置描述節(jié)點(diǎn)中查找與該匹配失敗的匹配設(shè)置項(xiàng)相對應(yīng)的匹配設(shè)置項(xiàng),將查找到的匹配設(shè)置項(xiàng)與網(wǎng)頁內(nèi)容進(jìn)行匹配,直至查找到的匹配設(shè)置項(xiàng)與網(wǎng)頁內(nèi)容匹配成功,并將匹配結(jié)果設(shè)置為根據(jù)該匹配設(shè)置項(xiàng)提取出的網(wǎng)頁文本內(nèi)容。其中,提取單元,適于將所有根據(jù)匹配成功的匹配設(shè)置項(xiàng)提取出的網(wǎng)頁文本內(nèi)容作為識別出的網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。其中,匹配設(shè)置配置單元,適于為每種類型的網(wǎng)站建立一個網(wǎng)站節(jié)點(diǎn);在一個網(wǎng)站節(jié)點(diǎn)下,為該網(wǎng)站節(jié)點(diǎn)相應(yīng)的網(wǎng)站下每種類型的網(wǎng)頁建立一個網(wǎng)頁節(jié)點(diǎn);根據(jù)網(wǎng)頁的內(nèi)容建立每個網(wǎng)頁節(jié)點(diǎn)的匹配設(shè)置描述節(jié)點(diǎn)中的匹配設(shè)置項(xiàng),其中在網(wǎng)頁節(jié)點(diǎn)的第一匹配設(shè)置描述節(jié)點(diǎn)中,為該網(wǎng)頁節(jié)點(diǎn)相應(yīng)的網(wǎng)頁中每種類型的文本內(nèi)容建立至少一條匹配設(shè)置項(xiàng);以及,對于網(wǎng)頁中相同類型的文本內(nèi)容,在第一匹配設(shè)置描述節(jié)點(diǎn)中建立的匹配設(shè)置項(xiàng)和在該網(wǎng)頁節(jié)點(diǎn)中除第一匹配設(shè)置描述節(jié)點(diǎn)之外的匹配設(shè)置描述節(jié)點(diǎn)中建立的匹配設(shè)置項(xiàng)各不相同。其中,匹配設(shè)置配置單元,還適于在網(wǎng)頁節(jié)點(diǎn)中設(shè)置下載模式屬性和元素過濾屬性,該元素過濾屬性指示的過濾方式包括過濾圖片、過濾級聯(lián)樣式表CSS、過濾Javascript腳本語言、過濾框架、過濾對象和過濾嵌入內(nèi)容中的一種或多種,上述裝置還包括加載控制單元和過濾單元,加載控制單元,適于在查找到的網(wǎng)頁節(jié)點(diǎn)下,將網(wǎng)頁內(nèi)容與該網(wǎng)頁節(jié)點(diǎn)中的第一匹配設(shè)置描述節(jié)點(diǎn)中的匹配設(shè)置項(xiàng)依次進(jìn)行匹配之前,判斷查找到的網(wǎng)頁節(jié)點(diǎn)中的下載模式屬性的屬性值是否為預(yù)定值,若是,啟動過濾單元,然后在查找到的網(wǎng)頁節(jié)點(diǎn)下,將過濾后的網(wǎng)頁內(nèi)容與該網(wǎng)頁節(jié)點(diǎn)中的第一匹配設(shè)置描述節(jié)點(diǎn)中的匹配設(shè)置項(xiàng)依次進(jìn)行匹配;若否,直接將網(wǎng)頁內(nèi)容下載在瀏覽器中;過濾單元,適于根據(jù)元素過濾屬性指示的過濾方式對網(wǎng)頁中的內(nèi)容進(jìn)行過濾。其中,匹配設(shè)置配置單元配置的網(wǎng)頁文本內(nèi)容匹配設(shè)置包括為網(wǎng)頁內(nèi)容的統(tǒng)一資源定位符URL建立網(wǎng)頁URL匹配設(shè)置項(xiàng),網(wǎng)頁URL匹配設(shè)置項(xiàng)中包含匹配屬性設(shè)置項(xiàng),該匹配屬性設(shè)置項(xiàng)包括網(wǎng)頁URL以預(yù)定內(nèi)容作為開頭;和/或,網(wǎng)頁URL包含預(yù)定內(nèi)容,該預(yù)定內(nèi)容的預(yù)定位置包含任意字符;和/或,網(wǎng)頁URL不包含預(yù)定內(nèi)容,該預(yù)定內(nèi)容包含任意字符。其中,匹配設(shè)置配置單元建立的網(wǎng)頁URL匹配設(shè)置項(xiàng)還網(wǎng)頁標(biāo)識屬性設(shè)置項(xiàng)、網(wǎng)頁標(biāo)識提取屬性設(shè)置項(xiàng)和轉(zhuǎn)化屬性設(shè)置項(xiàng),網(wǎng)頁標(biāo)識屬性設(shè)置項(xiàng)包括將網(wǎng)頁的URL中預(yù)定位置的字符作為該網(wǎng)頁內(nèi)容的網(wǎng)頁標(biāo)識;網(wǎng)頁標(biāo)識提取屬性設(shè)置項(xiàng)包括在根據(jù)網(wǎng)頁標(biāo)識屬性設(shè)置項(xiàng)匹配得到的網(wǎng)頁標(biāo)識中選取預(yù)定位置的字符作為網(wǎng)頁標(biāo)識;
轉(zhuǎn)化屬性設(shè)置項(xiàng)包括根據(jù)獲知的網(wǎng)頁內(nèi)容的網(wǎng)頁標(biāo)識和URL的組成格式轉(zhuǎn)化得到該網(wǎng)頁的URL。其中,匹配設(shè)置配置單元建立的網(wǎng)頁URL匹配設(shè)置項(xiàng)還包括網(wǎng)頁標(biāo)題提取屬性設(shè)置項(xiàng),該網(wǎng)頁標(biāo)題提取屬性設(shè)置項(xiàng)包括將網(wǎng)頁內(nèi)容中預(yù)定字符之前的內(nèi)容提取為標(biāo)題。其中,匹配設(shè)置配置單元,還適于在第一匹配設(shè)置描述節(jié)點(diǎn)中為網(wǎng)頁中每種類型的文本內(nèi)容在網(wǎng)頁內(nèi)容中的超文本標(biāo)記語言HTML元素建立至少一條匹配設(shè)置項(xiàng);為HTML元素建立的匹配設(shè)置項(xiàng)包括一次定位匹配設(shè)置項(xiàng),該一次定位匹配設(shè)置項(xiàng)至少包括基點(diǎn)查找設(shè)置項(xiàng)指示基點(diǎn)查找的方式,該方式包括查找標(biāo)識、查找名稱、查找類名、查找內(nèi)容、查找表達(dá)式;和/或,標(biāo)識定位設(shè)置項(xiàng)定位與HTML元素的標(biāo)識相匹配的元素;和/或,名稱定位設(shè)置項(xiàng)定位與HTML元素的名稱相匹配的元素;和/或,類名定位設(shè)置項(xiàng)定位與HTML元素的類名稱相匹配的元素;和/或,內(nèi)容定位設(shè)置項(xiàng)定位與HTML元素的內(nèi)容相匹配的元素;和/或,表達(dá)式定位設(shè)置項(xiàng)定位與HTML元素中的表達(dá)式相匹配的元素;和/ 或,標(biāo)簽設(shè)置項(xiàng)指示利用標(biāo)識定位設(shè)置項(xiàng)、名稱定位設(shè)置項(xiàng)、類名定位設(shè)置項(xiàng)、內(nèi)容定位設(shè)置項(xiàng)或表達(dá)式定位設(shè)置項(xiàng)對元素定位時,所定位元素的類型和/或?qū)傩?。其中,匹配設(shè)置配置單元為HTML元素建立的匹配設(shè)置項(xiàng)還包括二次定位匹配設(shè)置項(xiàng),該二次定位匹配設(shè)置項(xiàng)至少包括父查詢設(shè)置項(xiàng)設(shè)置根據(jù)一次定位匹配設(shè)置項(xiàng)定位到的元素,查找該元素的父元素的方式;或者,子查詢設(shè)置項(xiàng)設(shè)置根據(jù)一次定位匹配設(shè)置項(xiàng)定位到的元素,查找該元素的子元素的方式;或者,當(dāng)父查詢設(shè)置項(xiàng)和子查詢設(shè)置項(xiàng)置同時存在時,先根據(jù)父查詢設(shè)置項(xiàng)查找一次定位匹配設(shè)置項(xiàng)定位到的元素的父元素,然后根據(jù)子查詢設(shè)置項(xiàng),從查找到的該父元素起,查找該父元素的子元素。其中,匹配設(shè)置配置單元為HTML元素建立的匹配設(shè)置項(xiàng)還包括元素刪除匹配設(shè)置項(xiàng),該元素刪除匹配設(shè)置項(xiàng)至少包括刪除由一次定位匹配設(shè)置項(xiàng)或二次定位匹配設(shè)置項(xiàng)定位出的元素中的預(yù)定內(nèi)容;和/或改變由一次定位匹配設(shè)置項(xiàng)或二次定位匹配設(shè)置項(xiàng)定位出的元素中的預(yù)定內(nèi)容。其中,上述裝置還包括匹配設(shè)置更新單元,適于在建立一匹配設(shè)置文件之后,根據(jù)接收到的更新指令,對匹配設(shè)置文件中的網(wǎng)站節(jié)點(diǎn)、網(wǎng)頁節(jié)點(diǎn)、匹配設(shè)置描述節(jié)點(diǎn)和/或匹配設(shè)置描述節(jié)點(diǎn)中的匹配設(shè)置項(xiàng)進(jìn)行更新。其中,上述裝置還包括多線程控制單元。該多線程控制單元,適于當(dāng)瀏覽器側(cè)存在多個下載到的網(wǎng)頁內(nèi)容時,為每個網(wǎng)頁內(nèi)容分配一個線程,并控制匹配單元在所分配的線程中將相應(yīng)網(wǎng)頁內(nèi)容分別與網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配,直至網(wǎng)頁內(nèi)容匹配成功;和/或,該多線程控制單元,適于為瀏覽器側(cè)的一網(wǎng)頁內(nèi)容分配多個線程,并控制匹配單元在不同線程中將網(wǎng)頁內(nèi)容分別與不同的網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配,直至網(wǎng)頁內(nèi)容匹配成功。其中,上述還裝置包括輸入單元和上傳單元。輸入單元,適于接收用戶發(fā)送的選取網(wǎng)頁文本內(nèi)容匹配設(shè)置的選取指令;則匹配設(shè)置配置單元,還適于根據(jù)選取指令建立匹配設(shè)置文件,并將選取指令中的網(wǎng)頁文本內(nèi)容匹配設(shè)置保存在所建立的匹配設(shè)置文件中;而上傳單元,適于將匹配設(shè)置文件上傳至服務(wù)器并存儲在服務(wù)器側(cè)用戶的用戶數(shù)據(jù)中。其中,上述裝置還包括啟動控制單元,適于當(dāng)監(jiān)測到指示瀏覽器加載完畢的文件完成事件時,啟動匹配單元執(zhí)行將網(wǎng)頁內(nèi)容分別與網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配的操作。其中,匹配單元還適于對下載到的網(wǎng)頁內(nèi)容分層解析,得到該網(wǎng)頁內(nèi)容的DOM結(jié)構(gòu);按照網(wǎng)頁內(nèi)容的DOM結(jié)構(gòu),將網(wǎng)頁內(nèi)容分別與網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配。由上所述,本發(fā)明實(shí)施例通過在瀏覽器側(cè)建立多個網(wǎng)頁文本內(nèi)容匹配設(shè)置,并將同一網(wǎng)頁文本內(nèi)容與多個網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配的技術(shù)手段,在網(wǎng)頁內(nèi)容發(fā)生變化時,能夠從多個網(wǎng)頁文本內(nèi)容匹配設(shè)置中找到與發(fā)生變化的網(wǎng)頁相匹配的網(wǎng)頁文本內(nèi)容匹配設(shè)置,從而能夠利用匹配成功的網(wǎng)頁文本內(nèi)容匹配設(shè)置提取出網(wǎng)頁文本內(nèi)容。并且,本方案避免了在網(wǎng)頁內(nèi)容變化時,需要生成新的匹配規(guī)則文件并設(shè)置在瀏覽器中的操作,簡化了實(shí)現(xiàn)匹配的操作,降低了工作量,提高了效率。上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式
。
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中圖1示出了根據(jù)本發(fā)明一個實(shí)施例的對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置結(jié)構(gòu)示意圖;圖2示出了根據(jù)本發(fā)明又一個實(shí)施例的對網(wǎng)頁文本內(nèi)容進(jìn)行提取的方法流程圖。
具體實(shí)施例方式下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。本發(fā)明一個實(shí)施例提供了一種對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置,能夠在保證文本提取速度和穩(wěn)定性的前提下,向用戶提供更加方便和專注的閱讀服務(wù)。參見圖1,該裝置包括匹配設(shè)置配置單元100、下載單元101、匹配單元102、提取單元103、加載控制單元104、過濾單元105、匹配設(shè)置更新單元106、多線程控制單元107、輸入單元108和上傳單元109。下面分別對各單元進(jìn)行說明。
匹配設(shè)置配置單元100,適于在瀏覽器側(cè)預(yù)設(shè)至少一網(wǎng)頁文本內(nèi)容匹配設(shè)置。具體的,匹配設(shè)置配置單元100適于建立一匹配設(shè)置文件并將至少一網(wǎng)頁文本內(nèi)容匹配設(shè)置保存在匹配設(shè)置文件中;其中,該匹配設(shè)置文件中包括至少一個網(wǎng)站節(jié)點(diǎn),每個網(wǎng)站節(jié)點(diǎn)中包括至少一種網(wǎng)頁節(jié)點(diǎn),至少部分網(wǎng)頁節(jié)點(diǎn)中設(shè)有兩個以上的匹配設(shè)置描述節(jié)點(diǎn),每個匹配設(shè)置描述節(jié)點(diǎn)對應(yīng)一網(wǎng)頁文本內(nèi)容匹配設(shè)置。匹配設(shè)置描述節(jié)點(diǎn)中可以包括一個或多個匹配設(shè)置項(xiàng),至少兩個網(wǎng)頁文本內(nèi)容匹配設(shè)置中分別包括對相同類型文本內(nèi)容的不同匹配設(shè)置項(xiàng)。匹配設(shè)置配置單元100為每種類型的網(wǎng)站建立一個網(wǎng)站節(jié)點(diǎn),即一個網(wǎng)站節(jié)點(diǎn)對應(yīng)一種類型的網(wǎng)站;在一個網(wǎng)站節(jié)點(diǎn)下,為該網(wǎng)站節(jié)點(diǎn)相應(yīng)的網(wǎng)站下每種類型的網(wǎng)頁建立一個網(wǎng)頁節(jié)點(diǎn),即一個網(wǎng)頁節(jié)點(diǎn)對應(yīng)一種類型的網(wǎng)頁。根據(jù)網(wǎng)頁的內(nèi)容建立每個網(wǎng)頁節(jié)點(diǎn)的匹配設(shè)置描述節(jié)點(diǎn)中的匹配設(shè)置項(xiàng)。不同的網(wǎng)頁,其中包含的內(nèi)容不同,則相應(yīng)的匹配設(shè)置描述節(jié)點(diǎn)中的匹配設(shè)置項(xiàng)也不同。在一個網(wǎng)頁節(jié)點(diǎn)下包括多個匹配設(shè)置描述節(jié)點(diǎn),由于通常網(wǎng)頁中會存在一些不會經(jīng)常變化的固定信息和一些易于發(fā)生變化的可變信息,匹配設(shè)置配置單元100在網(wǎng)頁節(jié)點(diǎn)下的匹配設(shè)置描述節(jié)點(diǎn)中確定一個匹配設(shè)置描述節(jié)點(diǎn)作為第一匹配設(shè)置描述節(jié)點(diǎn),該第一匹配設(shè)置描述節(jié)點(diǎn)中包括的匹配設(shè)置項(xiàng)最全面,包括了為網(wǎng)頁中每種類型的文本內(nèi)容建立的至少一條匹配設(shè)置項(xiàng)。而在除第一匹配設(shè)置描述節(jié)點(diǎn)之外的匹配設(shè)置描述節(jié)點(diǎn)中,可以僅針對網(wǎng)頁中的可變信息建立匹配設(shè)置項(xiàng),并且在該網(wǎng)頁節(jié)點(diǎn)中除第一匹配設(shè)置描述節(jié)點(diǎn)之外的匹配設(shè)置描述節(jié)點(diǎn)中建立的匹配設(shè)置項(xiàng)各不相同。這種處理方式,一方面簡化了網(wǎng)頁文本內(nèi)容匹配設(shè)置的結(jié)構(gòu),避免不同匹配設(shè)置中有重復(fù)的部分,減少了所需存儲的匹配設(shè)置的數(shù)據(jù)量,從而提高了資源利用率;另一方面也避免了對相同的網(wǎng)頁內(nèi)容進(jìn)行重復(fù)匹配操作,提高了匹配效率。下面結(jié)合一段代碼的示例對匹配設(shè)置文件進(jìn)行具體說明。
< xml version`="!,0" encoding = "GB2312" >
-<websites>//*指示一個匹配設(shè)置文件-<website domain=,,www.feiku.comH> //*指示對應(yīng)的網(wǎng)站節(jié)點(diǎn) -〈book downloadmode=,,l" elementfilter=n15n> //*指水KiU W點(diǎn) book -<profile>//*指示匹配設(shè)置描述節(jié)點(diǎn)
<url match = http://www.feiku.com/Book/1 |@index.HtmT1 trans=,m tabtitle="*”bookid="http://www.feiku.com/Book/*/" booksep='m />
ctitle el = ”4n id=,m name=”,,Classname=nPage一body一left pane!一border” value=1"1regular="" tag=”div" childrenselect=Kdiv:0|div:l|dtv:0|span:0M />
<cataIogurl el="4” id=_m name=*115 classname=__info—item_panel Hnejtom” value=1"'regular=”” tag=”div” chi!drenselect=Ma-href:0" />
<lastchapte「el = ";r id = MreadV,! name二classname=' value=,"1 regular=”n taq =benchmarkselect=!!div:0\h3:0丨a:0|font:0” />
<lastchapte「u「l e! = "lM id="readV" name=”" classname="" value="'1 regular=m'order=”2" tag = "" benchmarkselect="div:0|h3:0|a:0|font:0" parentselect=Ma-href:0" /></profile>
-<profi!e>//*指示匹配設(shè)置描述節(jié)點(diǎn)
<Iastchapter el=' I id="readP” name=1”1 dassnamey' value="" regu丨a「=mi tag=,mbenchmarkselect=ildiv:0|h3:0[a:0M />
<lastchapterurl e!=nlM id="readP" name="" classname=,Ni value='"' regular='"1 tag=""order="I" benchmarkselect^divsOlhSiOla:!)” benchtag = !,a-href,! />
</profiie>
</book>
-<catalog downloadmode=HlH elementfiiter=n15"> //*指示網(wǎng)頁節(jié)點(diǎn) catalog<url match = ”ahttp://www.feiku.com/htnil/book/ j |@List.shtm" trans=""tabtitle-"*-" bookid-!,http://www.feiku.eom/html/book/*/List.shtm”booksep=M/::T />
CChapterIisteI = lW id = nii name="" classname=n!istM value="" regular=”" tag = "div"childrenselect="div:ln />
〈title el=”4,,id = ,"f name=mT classname="sitenav va ue=,MI「eguia「="n tag =丨lClivuchildrenseIect=5Ta;3fI />
< return book el=,f4" id="" name="*, (1335*131716="3找 113^ value=1"1 regular=,n'tag="a-href" childrenselect=”a-href:3" />
</csta!og>
-〈chapter downloadmode=”l" elementfilte「=”15N> //*指W點(diǎn) chapter
-〈profile〉//*指示匹配設(shè)置描述節(jié)點(diǎn)
權(quán)利要求
1.一種客戶端設(shè)備,該客戶端設(shè)備上安裝有瀏覽器,所述瀏覽器中設(shè)置有對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置, 所述客戶端設(shè)備,根據(jù)用戶的網(wǎng)頁瀏覽指令啟動所述對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置,并將該對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置提取出的網(wǎng)頁文本內(nèi)容在瀏覽器中展示給用戶; 所述對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置包括 匹配設(shè)置配置單元,適于在瀏覽器側(cè)預(yù)設(shè)至少一網(wǎng)頁文本內(nèi)容匹配設(shè)置; 下載單元,適于在瀏覽器側(cè)進(jìn)行網(wǎng)頁內(nèi)容下載; 匹配單元,適于將所述網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配,直至所述網(wǎng)頁內(nèi)容匹配成功; 提取單元,適于利用與所述網(wǎng)頁內(nèi)容匹配成功的網(wǎng)頁文本內(nèi)容匹配設(shè)置,提取所述網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。
2.根據(jù)權(quán)利要求1所述的客戶端設(shè)備,其特征在于,所述匹配設(shè)置配置單元,適于建立一匹配設(shè)置文件并將所述至少一網(wǎng)頁文本內(nèi)容匹配設(shè)置保存在所述匹配設(shè)置文件中;其中,所述匹配設(shè)置文件中包括至少一個網(wǎng)站節(jié)點(diǎn),每個網(wǎng)站節(jié)點(diǎn)中包括至少一種網(wǎng)頁節(jié)點(diǎn),至少部分所述網(wǎng)頁節(jié)點(diǎn)中設(shè)有兩個以上的匹配設(shè)置描述節(jié)點(diǎn),每個匹配設(shè)置描述節(jié)點(diǎn)對應(yīng)一網(wǎng)頁文本內(nèi)容匹配設(shè)置,至少兩個所述網(wǎng)頁文本內(nèi)容的匹配設(shè)置中分別包括對相同類型文本內(nèi)容的不同匹配設(shè)置項(xiàng)。
3.根據(jù)權(quán)利要求2所述的客戶端設(shè)備,其特征在于, 所述匹配單元,適于在所述匹配設(shè)置文件中查找所述網(wǎng)頁內(nèi)容對應(yīng)的網(wǎng)站節(jié)點(diǎn)及網(wǎng)頁節(jié)點(diǎn);在查找到的網(wǎng)頁節(jié)點(diǎn)下,將所述網(wǎng)頁內(nèi)容與該網(wǎng)頁節(jié)點(diǎn)中的第一匹配設(shè)置描述節(jié)點(diǎn)中的匹配設(shè)置項(xiàng)依次進(jìn)行匹配;對匹配成功的匹配設(shè)置項(xiàng),將匹配結(jié)果設(shè)置為利用該匹配設(shè)置項(xiàng)提取出的網(wǎng)頁文本內(nèi)容;對匹配失敗的匹配設(shè)置項(xiàng),在該網(wǎng)頁節(jié)點(diǎn)中除第一匹配設(shè)置描述節(jié)點(diǎn)之外的匹配設(shè)置描述節(jié)點(diǎn)中查找與該匹配失敗的匹配設(shè)置項(xiàng)相對應(yīng)的匹配設(shè)置項(xiàng),將查找到的匹配設(shè)置項(xiàng)與所述網(wǎng)頁內(nèi)容進(jìn)行匹配,直至查找到的匹配設(shè)置項(xiàng)與所述網(wǎng)頁內(nèi)容匹配成功,并將匹配結(jié)果設(shè)置為根據(jù)該匹配設(shè)置項(xiàng)提取出的網(wǎng)頁文本內(nèi)容。
4.根據(jù)權(quán)利要求3所述的客戶端設(shè)備,其特征在于,所述提取單元,適于將所有根據(jù)所述匹配成功的匹配設(shè)置項(xiàng)提取出的網(wǎng)頁文本內(nèi)容作為識別出的所述網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。
5.根據(jù)權(quán)利要求2所述的客戶端設(shè)備,其特征在于,所述匹配設(shè)置配置單元,適于為每種類型的網(wǎng)站建立一個網(wǎng)站節(jié)點(diǎn);在一個網(wǎng)站節(jié)點(diǎn)下,為該網(wǎng)站節(jié)點(diǎn)相應(yīng)的網(wǎng)站下每種類型的網(wǎng)頁建立一個網(wǎng)頁節(jié)點(diǎn);根據(jù)網(wǎng)頁的內(nèi)容建立每個網(wǎng)頁節(jié)點(diǎn)的匹配設(shè)置描述節(jié)點(diǎn)中的匹配設(shè)置項(xiàng),其中在網(wǎng)頁節(jié)點(diǎn)的第一匹配設(shè)置描述節(jié)點(diǎn)中,為該網(wǎng)頁節(jié)點(diǎn)相應(yīng)的網(wǎng)頁中每種類型的文本內(nèi)容建立至少一條匹配設(shè)置項(xiàng);以及,對于網(wǎng)頁中相同類型的文本內(nèi)容,在所述第一匹配設(shè)置描述節(jié)點(diǎn)中建立的匹配設(shè)置項(xiàng)和在該網(wǎng)頁節(jié)點(diǎn)中除第一匹配設(shè)置描述節(jié)點(diǎn)之外的匹配設(shè)置描述節(jié)點(diǎn)中建立的匹配設(shè)置項(xiàng)各不相同。
6.根據(jù)權(quán)利要求3所述的客戶端設(shè)備,其特征在于,所述匹配設(shè)置配置單元,還適于在所述網(wǎng)頁節(jié)點(diǎn)中設(shè)置下載模式屬性和元素過濾屬性,所述元素過濾屬性指示的過濾方式包括過濾圖片、過濾級聯(lián)樣式表CSS、過濾Javascript腳本語言、過濾框架、過濾對象和過濾嵌入內(nèi)容中的一種或多種,所述裝置還包括加載控制單元和過濾單元, 所述加載控制單元,適于在查找到的網(wǎng)頁節(jié)點(diǎn)下,將所述網(wǎng)頁內(nèi)容與該網(wǎng)頁節(jié)點(diǎn)中的第一匹配設(shè)置描述節(jié)點(diǎn)中的匹配設(shè)置項(xiàng)依次進(jìn)行匹配之前,判斷所述查找到的網(wǎng)頁節(jié)點(diǎn)中的下載模式屬性的屬性值是否為預(yù)定值,若是,啟動過濾單元,然后在查找到的網(wǎng)頁節(jié)點(diǎn)下,將過濾后的網(wǎng)頁內(nèi)容與該網(wǎng)頁節(jié)點(diǎn)中的第一匹配設(shè)置描述節(jié)點(diǎn)中的匹配設(shè)置項(xiàng)依次進(jìn)行匹配;若否,直接將所述網(wǎng)頁內(nèi)容下載在瀏覽器中; 所述過濾單元,適于根據(jù)元素過濾屬性指示的過濾方式對網(wǎng)頁中的內(nèi)容進(jìn)行過濾。
7.根據(jù)權(quán)利要求1所述的客戶端設(shè)備,其特征在于,所述匹配設(shè)置配置單元配置的網(wǎng)頁文本內(nèi)容匹配設(shè)置包括為網(wǎng)頁內(nèi)容的統(tǒng)一資源定位符URL建立網(wǎng)頁URL匹配設(shè)置項(xiàng), 所述網(wǎng)頁URL匹配設(shè)置項(xiàng)中包含匹配屬性設(shè)置項(xiàng),所述匹配屬性設(shè)置項(xiàng)包括 網(wǎng)頁URL以預(yù)定內(nèi)容作為開頭;和/或, 網(wǎng)頁URL包含預(yù)定內(nèi)容,該預(yù)定內(nèi)容的預(yù)定位置包含任意字符;和/或, 網(wǎng)頁URL不包含預(yù)定內(nèi)容,該預(yù)定內(nèi)容包含任意字符。
8.根據(jù)權(quán)利要求7所述的客戶端設(shè)備,其特征在于,所述匹配設(shè)置配置單元建立的網(wǎng)頁URL匹配設(shè)置項(xiàng)還包括網(wǎng)頁標(biāo)識屬性設(shè)置項(xiàng)、網(wǎng)頁標(biāo)識提取屬性設(shè)置項(xiàng)和轉(zhuǎn)化屬性設(shè)置項(xiàng), 所述網(wǎng)頁標(biāo)識屬性設(shè)置項(xiàng)包括將網(wǎng)頁的URL中預(yù)定位置的字符作為該網(wǎng)頁內(nèi)容的網(wǎng)頁標(biāo)識; 所述網(wǎng)頁標(biāo)識提取屬性設(shè)置項(xiàng)包括在根據(jù)網(wǎng)頁標(biāo)識屬性設(shè)置項(xiàng)匹配得到的網(wǎng)頁標(biāo)識中選取預(yù)定位置的字符作為網(wǎng)頁標(biāo)識; 所述轉(zhuǎn)化屬性設(shè)置項(xiàng)包括根據(jù)獲知的網(wǎng)頁內(nèi)容的網(wǎng)頁標(biāo)識和URL的組成格式轉(zhuǎn)化得到該網(wǎng)頁的URL。
9.根據(jù)權(quán)利要求7所述的客戶端設(shè)備,其特征在于,所述匹配設(shè)置配置單元建立的網(wǎng)頁URL匹配設(shè)置項(xiàng)還包括網(wǎng)頁標(biāo)題提取屬性設(shè)置項(xiàng), 所述網(wǎng)頁標(biāo)題提取屬性設(shè)置項(xiàng)包括將網(wǎng)頁內(nèi)容中預(yù)定字符之前的內(nèi)容提取為標(biāo)題。
10.根據(jù)權(quán)利要求5所述的客戶端設(shè)備,其特征在于,所述匹配設(shè)置配置單元,還適于在第一匹配設(shè)置描述節(jié)點(diǎn)中為網(wǎng)頁中每種類型的文本內(nèi)容在網(wǎng)頁內(nèi)容中的超文本標(biāo)記語言HTML元素建立至少一條匹配設(shè)置項(xiàng); 所述為HTML元素建立的匹配設(shè)置項(xiàng)包括一次定位匹配設(shè)置項(xiàng),所述一次定位匹配設(shè)置項(xiàng)至少包括 基點(diǎn)查找設(shè)置項(xiàng)指示基點(diǎn)查找的方式,所述方式包括查找標(biāo)識、查找名稱、查找類名、查找內(nèi)容、查找表達(dá)式;和/或, 標(biāo)識定位設(shè)置項(xiàng)定位與HTML元素的標(biāo)識相匹配的元素;和/或, 名稱定位設(shè)置項(xiàng)定位與HTML元素的名稱相匹配的元素;和/或, 類名定位設(shè)置項(xiàng)定位與HTML元素的類名稱相匹配的元素;和/或, 內(nèi)容定位設(shè)置項(xiàng)定位與HTML元素的內(nèi)容相匹配的元素;和/或, 表達(dá)式定位設(shè)置項(xiàng)定位與HTML元素中的表達(dá)式相匹配的元素; 和/或, 標(biāo)簽設(shè)置項(xiàng)指示利用所述標(biāo)識定位設(shè)置項(xiàng)、名稱定位設(shè)置項(xiàng)、類名定位設(shè)置項(xiàng)、內(nèi)容定位設(shè)置項(xiàng)或表達(dá)式定位設(shè)置項(xiàng)對元素定位時,所定位元素的類型和/或?qū)傩浴?br>
11.根據(jù)權(quán)利要求10所述的客戶端設(shè)備,其特征在于,所述匹配設(shè)置配置單元為HTML元素建立的匹配設(shè)置項(xiàng)還包括二次定位匹配設(shè)置項(xiàng),所述二次定位匹配設(shè)置項(xiàng)至少包括下列中的一種設(shè)置項(xiàng) 父查詢設(shè)置項(xiàng)設(shè)置根據(jù)一次定位匹配設(shè)置項(xiàng)定位到的元素,查找該元素的父元素的方式;或者, 子查詢設(shè)置項(xiàng)設(shè)置根據(jù)一次定位匹配設(shè)置項(xiàng)定位到的元素,查找該元素的子元素的方式;或者, 當(dāng)父查詢設(shè)置項(xiàng)和子查詢設(shè)置項(xiàng)置同時存在時,先根據(jù)父查詢設(shè)置項(xiàng)查找一次定位匹配設(shè)置項(xiàng)定位到的元素的父元素,然后根據(jù)子查詢設(shè)置項(xiàng),從查找到的該父元素起,查找該父元素的子元素。
12.根據(jù)權(quán)利要求10所述的客戶端設(shè)備,其特征在于,所述匹配設(shè)置配置單元為HTML元素建立的匹配設(shè)置項(xiàng)還包括元素刪除匹配設(shè)置項(xiàng),所述元素刪除匹配設(shè)置項(xiàng)至少包括 刪除由一次定位匹配設(shè)置項(xiàng)或二次定位匹配設(shè)置項(xiàng)定位出的元素中的預(yù)定內(nèi)容;和/或 改變由一次定位匹配設(shè)置項(xiàng)或二次定位匹配設(shè)置項(xiàng)定位出的元素中的預(yù)定內(nèi)容。
13.根據(jù)權(quán)利要求2所述的客戶端設(shè)備,其特征在于,所述裝置還包括匹配設(shè)置更新單元,適于在所述建立一匹配設(shè)置文件之后,根據(jù)接收到的更新指令,對所述匹配設(shè)置文件中的網(wǎng)站節(jié)點(diǎn)、網(wǎng)頁節(jié)點(diǎn)、匹配設(shè)置描述節(jié)點(diǎn)和/或匹配設(shè)置描述節(jié)點(diǎn)中的匹配設(shè)置項(xiàng)進(jìn)行更新。
14.根據(jù)權(quán)利要求1所述的客戶端設(shè)備,其特征在于,所述對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置還包括多線程控制單元, 所述多線程控制單元,適于當(dāng)瀏覽器側(cè)存在多個下載到的網(wǎng)頁內(nèi)容時,為每個網(wǎng)頁內(nèi)容分配一個線程,并控制所述匹配單元在所分配的線程中將相應(yīng)網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配,直至所述網(wǎng)頁內(nèi)容匹配成功;和/或 所述多線程控制單元,適于為瀏覽器側(cè)的一網(wǎng)頁內(nèi)容分配多個線程,并控制所述匹配單元在不同線程中將所述網(wǎng)頁內(nèi)容分別與不同的網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配,直至所述網(wǎng)頁內(nèi)容匹配成功。
15.根據(jù)權(quán)利要求2所述的客戶端設(shè)備,其特征在于,所述裝置包括輸入單元和上傳單元, 所述輸入單元,適于接收用戶發(fā)送的選取網(wǎng)頁文本內(nèi)容匹配設(shè)置的選取指令; 所述匹配設(shè)置配置單元,還適于根據(jù)所述選取指令建立匹配設(shè)置文件,并將所述選取指令中的網(wǎng)頁文本內(nèi)容匹配設(shè)置保存在所建立的匹配設(shè)置文件中; 所述上傳單元,適于將所述匹配設(shè)置文件上傳至服務(wù)器并存儲在服務(wù)器側(cè)所述用戶的用戶數(shù)據(jù)中。
16.根據(jù)權(quán)利要求1所述的客戶端設(shè)備,其特征在于,所述對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置還包括啟動控制單元,適于當(dāng)監(jiān)測到指示瀏覽器加載完畢的文件完成事件時,啟動所述匹配單元執(zhí)行將所述網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配的操作。
17.根據(jù)權(quán)利要求1所述的客戶端設(shè)備,其特征在于, 所述匹配單元,還適于對下載到的網(wǎng)頁內(nèi)容分層解析,得到該網(wǎng)頁內(nèi)容的文檔對象模型DOM結(jié)構(gòu);按照所述網(wǎng)頁內(nèi)容的DOM結(jié)構(gòu),將網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配。
全文摘要
本發(fā)明公開了一種客戶端設(shè)備,其上安裝有瀏覽器,所述瀏覽器中設(shè)置有對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置,所述客戶端設(shè)備,根據(jù)用戶的網(wǎng)頁瀏覽指令啟動所述對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置,并將該對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置提取出的網(wǎng)頁文本內(nèi)容在瀏覽器中展示給用戶;所述對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置包括匹配設(shè)置配置單元,適于在瀏覽器側(cè)預(yù)設(shè)至少一網(wǎng)頁文本內(nèi)容匹配設(shè)置;下載單元,適于在瀏覽器側(cè)進(jìn)行網(wǎng)頁內(nèi)容下載;匹配單元,適于將所述網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配,直至所述網(wǎng)頁內(nèi)容匹配成功;提取單元,適于利用與所述網(wǎng)頁內(nèi)容匹配成功的網(wǎng)頁文本內(nèi)容匹配設(shè)置,提取所述網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。
文檔編號G06F17/30GK103064943SQ201210573088
公開日2013年4月24日 申請日期2012年12月25日 優(yōu)先權(quán)日2012年12月25日
發(fā)明者謝洲為, 潘洪學(xué), 糜裕峰, 任寰 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司