一種網(wǎng)頁(yè)收藏方法、裝置及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開一種網(wǎng)頁(yè)收藏方法、裝置及系統(tǒng)。所述方法包括:接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。應(yīng)用本發(fā)明實(shí)施例所提供的技術(shù)方案,可以保證抓取的網(wǎng)頁(yè)內(nèi)容的全面性,并且可以提升網(wǎng)頁(yè)收藏結(jié)果的有序性,便于用戶進(jìn)行閱讀。
【專利說明】一種網(wǎng)頁(yè)收藏方法、裝置及系統(tǒng)
[0001]本發(fā)明專利申請(qǐng)是申請(qǐng)日為2012年3月31日、申請(qǐng)?zhí)枮?01210092944.7、名稱為“一種網(wǎng)頁(yè)收藏方法、裝置及系統(tǒng)”的中國(guó)發(fā)明專利申請(qǐng)的分案申請(qǐng)。
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)處理領(lǐng)域,特別是涉及一種網(wǎng)頁(yè)收藏方法、裝置及系統(tǒng)。
【背景技術(shù)】
[0003]收藏網(wǎng)頁(yè),是指互聯(lián)網(wǎng)用戶將感興趣的網(wǎng)頁(yè)進(jìn)行保存,以便于隨時(shí)能夠重新閱讀相關(guān)信息。
[0004]現(xiàn)有技術(shù)中一種網(wǎng)頁(yè)收藏方法是:將用戶瀏覽過的網(wǎng)頁(yè)內(nèi)容以快照的形式保存起來。具體的,該方法實(shí)現(xiàn)的過程中,根據(jù)用戶所提供的待收藏網(wǎng)頁(yè)的超鏈接,定位網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)進(jìn)行快照,將快照保存為網(wǎng)頁(yè)收藏信息,用戶還可以進(jìn)一步對(duì)所收藏的網(wǎng)頁(yè)標(biāo)題、簡(jiǎn)介和標(biāo)簽等信息進(jìn)行編輯。網(wǎng)頁(yè)收藏成功后,用戶可以隨時(shí)進(jìn)行查看。
[0005]但是,現(xiàn)有技術(shù)中的網(wǎng)頁(yè)收藏方法,在快照的形式顯示網(wǎng)頁(yè)收藏內(nèi)容時(shí),也丟失大量的網(wǎng)頁(yè)原始信息,很容易導(dǎo)致所述顯示的收藏網(wǎng)頁(yè)內(nèi)容失去原有的排版格式,頁(yè)面雜亂無章,可讀性差。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的是提供一種網(wǎng)頁(yè)收藏方法、裝置及系統(tǒng),能夠較為完整的保存網(wǎng)頁(yè)收藏頁(yè)面內(nèi)容。
[0007]為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:
[0008]一種網(wǎng)頁(yè)收藏方法,包括:
[0009]接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0010]對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;
[0011]對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0012]其中,還包括:
[0013]當(dāng)檢測(cè)到所述用戶所瀏覽的網(wǎng)頁(yè)加載完成時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼;
[0014]或者,
[0015]當(dāng)接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼。
[0016]其中,所述向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,包括:
[0017]在用戶所瀏覽的網(wǎng)頁(yè)中添加內(nèi)嵌框架;
[0018]在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0019]其中,所述抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息,包括:[0020]抓取所述網(wǎng)頁(yè)的文檔對(duì)象模型信息。
[0021]其中,所述對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存,包括:
[0022]根據(jù)所述網(wǎng)頁(yè)的文檔對(duì)象模型信息,將所抓取的網(wǎng)頁(yè)內(nèi)容以結(jié)構(gòu)化樣式進(jìn)行保存。
[0023]其中,所述根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容包括:
[0024]根據(jù)預(yù)設(shè)的規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容中包含的不具有收藏意義的內(nèi)容進(jìn)行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容。
[0025]其中,所述根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容包括:
[0026]在網(wǎng)頁(yè)內(nèi)容包括圖片的情況下,判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁(yè)的圖片內(nèi)容。
[0027]其中,
[0028]在抓取網(wǎng)頁(yè)的內(nèi)容描述信息之后,還包括:將所述內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0029]所述服務(wù)器端設(shè)備對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容,并對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0030]一種網(wǎng)頁(yè)收藏裝置,包括:
[0031]描述信息抓取單元,用于接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0032]網(wǎng)頁(yè)內(nèi)容抓取單元,用于對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;
[0033]網(wǎng)頁(yè)內(nèi)容保存單元,用于對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0034]其中,還包括:
[0035]代碼注入單元,用于當(dāng)檢測(cè)到所述用戶所瀏覽的網(wǎng)頁(yè)加載完成時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼;或者,當(dāng)接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼。
[0036]其中,所述代碼注入單元,包括:
[0037]框架添加子單元,用于在用戶所瀏覽的網(wǎng)頁(yè)中添加內(nèi)嵌框架;
[0038]代碼寫入子單元,用于在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0039]其中,所述描述信息抓取單元,具體用于:
[0040]在接收到用戶的收藏操作指令后,利用預(yù)先寫入的腳本代碼,抓取所述網(wǎng)頁(yè)的文檔對(duì)象模型信息。
[0041]其中,所述網(wǎng)頁(yè)內(nèi)容保存單元,具體用于:
[0042]根據(jù)所述網(wǎng)頁(yè)的文檔對(duì)象模型信息,將所抓取的網(wǎng)頁(yè)內(nèi)容以結(jié)構(gòu)化樣式進(jìn)行保存。
[0043]其中,所述網(wǎng)頁(yè)內(nèi)容抓取單元,具體用于:
[0044]根據(jù)預(yù)設(shè)的規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容中包含的不具有收藏意義的內(nèi)容進(jìn)行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容。
[0045]其中,所述網(wǎng)頁(yè)內(nèi)容抓取單元,具體用于:
[0046]在網(wǎng)頁(yè)內(nèi)容包括圖片的情況下,判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁(yè)的圖片內(nèi)容。
[0047]一種網(wǎng)頁(yè)收藏系統(tǒng),包括客戶端設(shè)備和服務(wù)器端設(shè)備;
[0048]所述客戶端設(shè)備,包括:
[0049]描述信息抓取單元,用于接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0050]描述信息發(fā)送單元,用于將所述網(wǎng)頁(yè)內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0051]所述服務(wù)器端設(shè)備,包括:
[0052]描述信息接收單元,用于接收客戶端設(shè)備發(fā)送的網(wǎng)頁(yè)內(nèi)容描述信息;
[0053]網(wǎng)頁(yè)內(nèi)容抓取單元,用于對(duì)所述網(wǎng)頁(yè)內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取網(wǎng)頁(yè)的內(nèi)容;
[0054]網(wǎng)頁(yè)內(nèi)容保存單元,用于對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0055]其中,所述客戶端設(shè)備還包括:
[0056]代碼注入單元,用于當(dāng)檢測(cè)到所述用戶所瀏覽的網(wǎng)頁(yè)加載完成時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼;或者,當(dāng)接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼。
[0057]其中,所述代碼注入單元,包括:
[0058]框架添加子單元,用于在用戶所瀏覽的網(wǎng)頁(yè)中添加內(nèi)嵌框架;
[0059]代碼寫入子單元,用于在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0060]其中,所述描述信息抓取單元,具體用于:
[0061]在接收到用戶的收藏操作指令后,利用預(yù)先寫入的腳本代碼,抓取所述網(wǎng)頁(yè)的文檔對(duì)象模型信息。
[0062]其中,所述網(wǎng)頁(yè)內(nèi)容保存單元,具體用于:
[0063]根據(jù)所述網(wǎng)頁(yè)的文檔對(duì)象模型信息,將所抓取的網(wǎng)頁(yè)內(nèi)容以結(jié)構(gòu)化樣式進(jìn)行保存。
[0064]其中,所述網(wǎng)頁(yè)內(nèi)容抓取單元,具體用于:
[0065]根據(jù)預(yù)設(shè)的規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容中包含的不具有收藏意義的內(nèi)容進(jìn)行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容。
[0066]其中,所述網(wǎng)頁(yè)內(nèi)容抓取單元,具體用于:
[0067]在網(wǎng)頁(yè)內(nèi)容包括圖片的情況下,判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁(yè)的圖片內(nèi)容。
[0068]本發(fā)明實(shí)施例所提供的技術(shù)方案,由于通過預(yù)先寫入所述網(wǎng)頁(yè)的腳本代碼對(duì)網(wǎng)頁(yè)的描述信息進(jìn)行抓取,一方面保證了抓取的網(wǎng)頁(yè)內(nèi)容的全面性;另一方面,由于網(wǎng)頁(yè)的描述信息中攜帶有網(wǎng)頁(yè)的樣式信息,因此在保存網(wǎng)頁(yè)內(nèi)容時(shí),可以根據(jù)樣式信息對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行排版,從而提高了網(wǎng)頁(yè)收藏結(jié)果的有序性,便于用戶進(jìn)行閱讀。
【專利附圖】
【附圖說明】
[0069]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0070]圖1為本發(fā)明的網(wǎng)頁(yè)收藏方法一種實(shí)施例的流程圖;
[0071]圖2為本發(fā)明的網(wǎng)頁(yè)收藏方法另一種實(shí)施例的流程圖;
[0072]圖3為本發(fā)明的網(wǎng)頁(yè)收藏裝置實(shí)施例的結(jié)構(gòu)示意圖;
[0073]圖4為本發(fā)明的網(wǎng)頁(yè)收藏系統(tǒng)實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0074]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0075]首先對(duì)本發(fā)明實(shí)施例所提供的一種網(wǎng)頁(yè)收藏方法進(jìn)行說明,該方法可以包括以下步驟:
[0076]接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0077]對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;
[0078]對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0079]在本發(fā)明的一種實(shí)施方式中,上述步驟可以全部在客戶端設(shè)備中實(shí)現(xiàn),例如在瀏覽器本身、瀏覽器插件或者專用的網(wǎng)頁(yè)收藏軟件中實(shí)現(xiàn)。
[0080]在本發(fā)明的一種實(shí)施方式中,上述步驟中寫入腳本代碼步驟以及抓取網(wǎng)頁(yè)內(nèi)容描述信息的步驟在客戶端設(shè)備中實(shí)現(xiàn),客戶端抓取到網(wǎng)頁(yè)內(nèi)容描述信息后發(fā)送至服務(wù)器端設(shè)備,由服務(wù)器完成后續(xù)步驟。
[0081]首先,如圖1所示,該網(wǎng)頁(yè)收藏方法包括步驟:
[0082]SlOl:接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0083]在本發(fā)明實(shí)施例中,并不是采用服務(wù)器直接抓取網(wǎng)頁(yè)頁(yè)面內(nèi)容,這是因?yàn)?對(duì)于一部分網(wǎng)頁(yè),服務(wù)器無法直接抓取,比如某些頁(yè)面必須登錄后才能展現(xiàn),如果客戶端沒有登錄,則服務(wù)器端也無法抓取。因此在本發(fā)明實(shí)施例中,抓取網(wǎng)頁(yè)頁(yè)面的內(nèi)容的操作由客戶端完成,例如由瀏覽器等軟件完成。
[0084]根據(jù)本發(fā)明實(shí)施例的方案,可以在用戶瀏覽網(wǎng)頁(yè)時(shí),在檢測(cè)到被瀏覽的網(wǎng)頁(yè)加載完畢之后,向用戶所瀏覽的網(wǎng)頁(yè)內(nèi)寫入腳本代碼。這段代碼能在網(wǎng)頁(yè)指定位置處(例如右偵D顯示一個(gè)按鈕(按鈕上可以顯示“我喜歡”等文字),點(diǎn)“我喜歡”按鈕后即可觸發(fā)收藏操作?;蛘撸诹硪环N實(shí)時(shí)方式下,可以默認(rèn)在網(wǎng)頁(yè)指定位置處(例如右側(cè))顯示一個(gè)按鈕(按鈕上可以顯示“我喜歡”等文字),用戶如果想要收藏當(dāng)前瀏覽的網(wǎng)頁(yè),就可以點(diǎn)擊該“我喜歡”按鈕,然后執(zhí)行向用戶所瀏覽的網(wǎng)頁(yè)內(nèi)寫入腳本代碼的操作,同時(shí)相當(dāng)于用戶觸發(fā)了收藏操作。
[0085]其中,寫入網(wǎng)頁(yè)的腳本代碼具有抓取網(wǎng)頁(yè)頁(yè)面內(nèi)容的功能,由于目前有很多網(wǎng)頁(yè)頁(yè)面采用JS (JavaScript)技術(shù)開發(fā),因此本發(fā)明實(shí)施例中,采向網(wǎng)頁(yè)中寫入JS腳本代碼的方式實(shí)現(xiàn),既能夠解決用戶登錄后的頁(yè)面內(nèi)容抓取問題,又可以保證信息抓取的安全性。[0086]在本發(fā)明的一種改進(jìn)實(shí)施方式中,可以先在用戶所瀏覽的網(wǎng)頁(yè)中中添加內(nèi)嵌框架,然后在內(nèi)嵌框架中寫入所述腳本代碼。
[0087]其中內(nèi)嵌框架可以是iframe框架,iframe框架可以隔離腳本代碼和瀏覽器接口。這樣實(shí)施的原因在于:因?yàn)閷?shí)際應(yīng)用中,別有用心的用戶如果能夠獲取腳本代碼,就可以操作瀏覽器接口,從而帶來一些安全問題,比如:用戶可以通過利用腳本代碼在瀏覽器中發(fā)起跨域請(qǐng)求,可以操作瀏覽器接口修改瀏覽器配置文件,以及瀏覽器的其他接口功能。為了避免腳本代碼被惡意利用,本發(fā)明實(shí)施例中,將腳本代碼寫入內(nèi)嵌框架中,通過內(nèi)嵌框架將腳本代碼與瀏覽器接口相隔離,從而增加安全性。
[0088]向網(wǎng)頁(yè)寫入腳本代碼后,可以待頁(yè)面加載完畢后,在頁(yè)面一側(cè)繪制按鈕或用戶交互面板。以便用戶點(diǎn)擊該按鈕觸發(fā)收藏操作。當(dāng)然,在本發(fā)明中,用戶發(fā)出收藏操作指令的方式并僅限于點(diǎn)擊按鈕。此外,用戶還可以用過交互面板進(jìn)行設(shè)置按鈕皮膚、分享配置等操作,這里不再贅述。
[0089]當(dāng)然,在實(shí)際應(yīng)用中,本發(fā)明實(shí)施例的方案可以通過一個(gè)瀏覽器插件的方式來實(shí)現(xiàn),在瀏覽器插件支持的情況下,也可以直接在用戶瀏覽的網(wǎng)頁(yè)中注入腳本,而不必采用上述添加內(nèi)嵌框架的方式來實(shí)現(xiàn)。
[0090]當(dāng)接收用戶通過點(diǎn)擊收藏操作按鈕或其他方式發(fā)起收藏操作指令后,利用預(yù)先寫A的腳本代碼,抓取網(wǎng)頁(yè)的內(nèi)容描述信息。
[0091]在本發(fā)明中,主要需要抓取的網(wǎng)頁(yè)內(nèi)容描述信息包括網(wǎng)頁(yè)的DOM (DocumentObject Model,文檔對(duì)象模型)信息,在網(wǎng)頁(yè)的DOM樹中包含有頁(yè)面的布局結(jié)構(gòu)信息,利用這些信息,后續(xù)就可以在保存網(wǎng)頁(yè)內(nèi)容時(shí),根據(jù)網(wǎng)頁(yè)原有的樣式進(jìn)行排版,以結(jié)構(gòu)化的形式進(jìn)行保存。
[0092]本領(lǐng)域技術(shù)人員可以理解,在抓取網(wǎng)頁(yè)內(nèi)容描述信息的過程中,除DOM信息之外,還可以進(jìn)一步抓取網(wǎng)頁(yè)的頁(yè)面超鏈接、標(biāo)題等信息。本發(fā)明實(shí)施例對(duì)此并不需要進(jìn)行限定。
[0093]S102:對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;
[0094]通過解析網(wǎng)頁(yè)的DOM樹,可以抽取出頁(yè)面所包含的文字、圖片等內(nèi)容。其中,所解析出的圖片內(nèi)容是圖片文件所在的源位置,還需要進(jìn)一步從源位置將實(shí)際的圖片文件下載下載到本地。
[0095]在下在圖片文件的過程中,可以首先判斷判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于某個(gè)預(yù)設(shè)的閾值(例如10幅、20幅等等),如果否,則直接下載每個(gè)圖像文件。而在網(wǎng)頁(yè)所包含的圖片數(shù)量比較多時(shí),抓取圖片文件的過程中將會(huì)十分費(fèi)時(shí)。為了提高系統(tǒng)性能,可以采用異步方式實(shí)現(xiàn)圖片文件的多線程批量下載,所有圖片文件處理完之后在統(tǒng)一歸檔,這樣可以有效降低抓取圖片所需的時(shí)間。
[0096]在實(shí)際應(yīng)用中,有些網(wǎng)站可能采用了防盜鏈技術(shù),無法直接下載圖片文件。針對(duì)這種情況,在本發(fā)明實(shí)施例中,在下載圖片文件的請(qǐng)求發(fā)起時(shí),可以在http頭的referer字段中添加上圖片資源所在的網(wǎng)站的源域名。圖片資源所在的網(wǎng)站的服務(wù)器解析該請(qǐng)求時(shí),會(huì)認(rèn)為這個(gè)請(qǐng)求是由自身發(fā)起的,從而返回圖片內(nèi)容。
[0097]在抓取圖片內(nèi)容的過程中,還可以首先獲得網(wǎng)頁(yè)中圖片的尺寸,對(duì)于尺寸過小的圖片,不進(jìn)行下載。這種抓取圖片的方式,可以篩選出圖片尺寸大于預(yù)設(shè)尺寸閾值的圖片。這是因?yàn)榫W(wǎng)頁(yè)中的圖片可能有很多,這其中包括大量的廣告圖片等等不存在收藏意義的內(nèi)容。然而作為網(wǎng)頁(yè)主要內(nèi)容的圖片,通常都具有較大的尺寸,因此采用圖片尺寸進(jìn)行過濾的方式,可以有效減少無用圖片內(nèi)容的抓取,既節(jié)約了系統(tǒng)資源,也提高了收藏結(jié)果的可讀性。
[0098]可以理解的是,處除了利用圖片尺寸進(jìn)行圖片內(nèi)容過濾之外,還可以采用其他的預(yù)置規(guī)則,例如網(wǎng)址關(guān)鍵字、文件名關(guān)鍵字等方式,對(duì)網(wǎng)頁(yè)中可能存在的不具有收藏意義的信息進(jìn)行過濾,從而達(dá)到節(jié)約系統(tǒng)資源和提高了收藏結(jié)果的可讀性的目的,本發(fā)明實(shí)施例對(duì)此并不需要進(jìn)行限定。
[0099]S103:對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0100]在本步驟中,對(duì)S103中所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存,特別地,根據(jù)網(wǎng)頁(yè)的DOM樹信息,可以對(duì)抓取的網(wǎng)頁(yè)內(nèi)容按照網(wǎng)頁(yè)的原始樣式,樣式進(jìn)行排版,以結(jié)構(gòu)化的形式進(jìn)行保存。
[0101]進(jìn)一步地,還可以根據(jù)所保存的內(nèi)容信息生成網(wǎng)頁(yè)摘要,以便在收藏列表中展示給用戶,便于用戶進(jìn)行瀏覽。在具體實(shí)施過程中,可以根據(jù)網(wǎng)頁(yè)標(biāo)題信息可以生成摘要的標(biāo)題、根據(jù)網(wǎng)頁(yè)的頁(yè)面文字可以生成摘要中的文字部分、根據(jù)頁(yè)面圖片信息可以生成摘要中的縮略圖,等等。保存所述摘要信息,用戶就可以在后續(xù)的上網(wǎng)瀏覽過程中,在網(wǎng)頁(yè)收藏列表中直接查看收藏過的網(wǎng)頁(yè)的摘要信息。
[0102]此外,應(yīng)用本發(fā)明方案,還允許用戶將收藏的網(wǎng)頁(yè)分享到其他網(wǎng)站,還可以通過調(diào)用其他網(wǎng)站的接口,將排版好的網(wǎng)頁(yè)內(nèi)容信息以及摘要信息發(fā)送到目標(biāo)網(wǎng)站,從而實(shí)現(xiàn)用戶信息的共享,提高用戶體驗(yàn)。
[0103]上述所提供的網(wǎng)頁(yè)收藏方法,通過預(yù)先寫入所述網(wǎng)頁(yè)的腳本代碼對(duì)網(wǎng)頁(yè)的描述信息進(jìn)行抓取,一方面保證了抓取的網(wǎng)頁(yè)內(nèi)容的全面性;另一方面,由于網(wǎng)頁(yè)的描述信息中攜帶有網(wǎng)頁(yè)的樣式信息,因此在保存網(wǎng)頁(yè)內(nèi)容時(shí),可以根據(jù)樣式信息對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行排版,從而提高了網(wǎng)頁(yè)收藏結(jié)果的有序性,便于用戶進(jìn)行閱讀。
[0104]在上述實(shí)施例中,所有網(wǎng)頁(yè)收藏步驟都是在客戶端設(shè)備中實(shí)現(xiàn),在本發(fā)明的另一種實(shí)施方式中,可以由客戶端和服務(wù)器設(shè)備協(xié)作完成網(wǎng)頁(yè)收藏操作,參見圖2所示,該方法包括以下步驟:
[0105]S201:客戶端設(shè)備接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0106]S202:客戶端設(shè)備將所述內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0107]S203:服務(wù)器端設(shè)備對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;
[0108]S204:服務(wù)器端設(shè)備對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0109]與前一實(shí)施例相比:S201與SlOl相同;S203-S204與S102-S103相比,區(qū)別在于執(zhí)行主體由客戶端設(shè)備變?yōu)榉?wù)器端設(shè)備;增加了 S202客戶端設(shè)備將內(nèi)容描述信息描述信息發(fā)送至服務(wù)器端設(shè)備的步驟。
[0110]由于服務(wù)端的分析能力、下載可控性、重新排版等方面要比前端JS腳本高出很多。因此可以這種方式可以有效提升網(wǎng)頁(yè)內(nèi)容的抓取質(zhì)量。而且服務(wù)端的存儲(chǔ)空間更為充裕,也更便于用戶之間的信息分享。
[0111]此外,根據(jù)之前的描述,由于服務(wù)端無法直接抓取某些網(wǎng)頁(yè),因此抓取網(wǎng)頁(yè)描述信息的步驟仍然由客戶端完成,從而保證抓取的成功率。
[0112]可以理解的是,客戶端設(shè)備在將內(nèi)容描述信息描述信息發(fā)送至服務(wù)器端設(shè)備的過程中,可以采用數(shù)據(jù)壓縮技術(shù),從而進(jìn)一步提升傳輸效率。
[0113]相應(yīng)于上面的方法實(shí)施例,本發(fā)明實(shí)施例還提供一種網(wǎng)頁(yè)收藏裝置,參見圖3所示,該裝置可以包括:
[0114]描述信息抓取單元301,用于接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0115]網(wǎng)頁(yè)內(nèi)容抓取單元302,用于對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;
[0116]網(wǎng)頁(yè)內(nèi)容保存單元303,用于對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0117]具體實(shí)現(xiàn)時(shí),該裝置還可以包括:
[0118]代碼注入單元,用于當(dāng)檢測(cè)到所述用戶所瀏覽的網(wǎng)頁(yè)加載完成時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼;或者,當(dāng)接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼。
[0119]其中,在本發(fā)明的一種實(shí)施方式中,所述代碼注入單元,可以包括:
[0120]框架添加子單元,用于在用戶所瀏覽的網(wǎng)頁(yè)中中添加內(nèi)嵌框架;
[0121]代碼寫入子單元,用于在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0122]其中,所述描述信息抓取單元301,可以具體用于:
[0123]在接收到用戶的收藏操作指令后,利用預(yù)先寫入的腳本代碼,抓取所述網(wǎng)頁(yè)的文檔對(duì)象模型信息。
[0124]網(wǎng)頁(yè)內(nèi)容保存單元303,可以具體用于:
[0125]根據(jù)所述網(wǎng)頁(yè)的文檔對(duì)象模型信息,將所抓取的網(wǎng)頁(yè)內(nèi)容以結(jié)構(gòu)化樣式進(jìn)行保存。
[0126]在本發(fā)明的一種實(shí)施方式中,所述網(wǎng)頁(yè)內(nèi)容抓取單元302,可以具體用于:
[0127]根據(jù)預(yù)設(shè)的規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容中包含的不具有收藏意義的內(nèi)容進(jìn)行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容。
[0128]在本發(fā)明的另一種實(shí)施方式中,所述網(wǎng)頁(yè)內(nèi)容抓取單元302,還可以具體用于:
[0129]在網(wǎng)頁(yè)內(nèi)容包括圖片的情況下,判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁(yè)的圖片內(nèi)容。
[0130]以上提供的網(wǎng)頁(yè)收藏裝置,可以是位于客戶端的功能模塊,該模塊可以是瀏覽器本身、瀏覽器插件或者專用的網(wǎng)頁(yè)收藏軟件等等。
[0131]相應(yīng)與上述在客戶端實(shí)現(xiàn)全部收藏操作的方案,本發(fā)明實(shí)施例還提供一種網(wǎng)頁(yè)收藏系統(tǒng),參見圖4所示,該系統(tǒng)包括客戶端設(shè)備401和服務(wù)器端設(shè)備402 ;
[0132]所述客戶端設(shè)備401,包括:
[0133]描述信息抓取單元4011,用于在接收到用戶的收藏操作指令后,利用預(yù)先寫入的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0134]描述信息發(fā)送單元4012,用于將所述網(wǎng)頁(yè)內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0135]所述服務(wù)器端設(shè)備402,包括:
[0136]描述信息接收單元4021,用于接收客戶端設(shè)備發(fā)送的網(wǎng)頁(yè)內(nèi)容描述信息;[0137]網(wǎng)頁(yè)內(nèi)容抓取單元4022,用于對(duì)所述網(wǎng)頁(yè)內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取網(wǎng)頁(yè)的內(nèi)容;
[0138]網(wǎng)頁(yè)內(nèi)容保存單元4023,用于對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0139]由于服務(wù)端的分析能力、下載可控性、重新排版等方面要比前端JS腳本高出很多。因此本發(fā)明實(shí)施例所提供的網(wǎng)頁(yè)收藏系統(tǒng)可以有效提升網(wǎng)頁(yè)內(nèi)容的抓取質(zhì)量。而且服務(wù)端的存儲(chǔ)空間更為充裕,也更便于用戶之間的信息分享。
[0140]此外,根據(jù)之前的描述,由于服務(wù)端無法直接抓取某些網(wǎng)頁(yè),因此抓取網(wǎng)頁(yè)描述信息的步驟仍然由客戶端完成,從而保證抓取的成功率。
[0141]具體實(shí)現(xiàn)時(shí),客戶端設(shè)備401還可以包括:
[0142]代碼注入單元,用于當(dāng)檢測(cè)到所述用戶所瀏覽的網(wǎng)頁(yè)加載完成時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼;或者,當(dāng)接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼。
[0143]在本發(fā)明的一種實(shí)施方式中,所述代碼注入單元可以包括:
[0144]框架添加子單元,用于在用戶所瀏覽的網(wǎng)頁(yè)中中添加內(nèi)嵌框架;
[0145]代碼寫入子單元,用于在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0146]在本發(fā)明的一種實(shí)施方式中,所述描述信息抓取單兀4011,可以具體用于:
[0147]在接收到用戶的收藏操作指令后,利用預(yù)先寫入的腳本代碼,抓取所述網(wǎng)頁(yè)的文檔對(duì)象模型信息。
[0148]在本發(fā)明的一種實(shí)施方式中,所述網(wǎng)頁(yè)內(nèi)容保存單元4023,可以具體用于:
[0149]根據(jù)所述網(wǎng)頁(yè)的文檔對(duì)象模型信息,將所抓取的網(wǎng)頁(yè)內(nèi)容以結(jié)構(gòu)化樣式進(jìn)行保存。
[0150]在本發(fā)明的一種實(shí)施方式中,所述網(wǎng)頁(yè)內(nèi)容抓取單元4022,可以具體用于:
[0151]根據(jù)預(yù)設(shè)的規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容中包含的不具有收藏意義的內(nèi)容進(jìn)行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容。
[0152]在本發(fā)明的一種實(shí)施方式中,所述網(wǎng)頁(yè)內(nèi)容抓取單元4022,還可以具體用于:
[0153]在網(wǎng)頁(yè)內(nèi)容包括圖片的情況下,判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁(yè)的圖片內(nèi)容。
[0154]通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn)?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
[0155]本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于裝置或系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的裝置及系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
[0156]以上對(duì)本發(fā)明所提供的一種網(wǎng)頁(yè)收藏方法、裝置及系統(tǒng),進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
[0157]本發(fā)明實(shí)施例公開了 Al 一種網(wǎng)頁(yè)收藏方法,包括:
[0158]接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0159]對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;
[0160]對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0161]A2、根據(jù)Al所述的方法,還包括:
[0162]當(dāng)檢測(cè)到所述用戶所瀏覽的網(wǎng)頁(yè)加載完成時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼;
[0163]或者,
[0164]當(dāng)接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼。
[0165]A3、根據(jù)A2所述的方法,所述向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,包括:
[0166]在用戶所瀏覽的網(wǎng)頁(yè)中添加內(nèi)嵌框架;
[0167]在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0168]A4、根據(jù)Al所述的方法,所述抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息,包括:
[0169]抓取所述網(wǎng)頁(yè)的文檔對(duì)象模型信息。
[0170]A5、根據(jù)Al所述的方法,所述對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存,包括:
[0171]根據(jù)所述網(wǎng)頁(yè)的文檔對(duì)象模型信息,將所抓取的網(wǎng)頁(yè)內(nèi)容以結(jié)構(gòu)化樣式進(jìn)行保存。
[0172]A6、根據(jù)Al所述的方法,所述根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容包括:
[0173]根據(jù)預(yù)設(shè)的規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容中包含的不具有收藏意義的內(nèi)容進(jìn)行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容。
[0174]A7、根據(jù)Al所述的方法,所述根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容包括:
[0175]在網(wǎng)頁(yè)內(nèi)容包括圖片的情況下,判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁(yè)的圖片內(nèi)容。
[0176]A8、根據(jù)A1-A7任一項(xiàng)所述的方法,
[0177]在抓取網(wǎng)頁(yè)的內(nèi)容描述信息之后,還包括:將所述內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0178]所述服務(wù)器端設(shè)備對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容,并對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0179]B9、一種網(wǎng)頁(yè)收藏裝置,包括:[0180]描述信息抓取單元,用于接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0181]網(wǎng)頁(yè)內(nèi)容抓取單元,用于對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;
[0182]網(wǎng)頁(yè)內(nèi)容保存單元,用于對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0183]B10、根據(jù)B9所述的裝置,還包括:
[0184]代碼注入單元,用于當(dāng)檢測(cè)到所述用戶所瀏覽的網(wǎng)頁(yè)加載完成時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼;或者,當(dāng)接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼。
[0185]B11、根據(jù)BlO所述的裝置,所述代碼注入單元,包括:
[0186]框架添加子單元,用于在用戶所瀏覽的網(wǎng)頁(yè)中添加內(nèi)嵌框架;
[0187]代碼寫入子單元,用于在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0188]B12、根據(jù)B9所述的裝置,所述描述信息抓取單元,具體用于:
[0189]在接收到用戶的收藏操作指令后,利用預(yù)先寫入的腳本代碼,抓取所述網(wǎng)頁(yè)的文檔對(duì)象模型信息。
[0190]B13、根據(jù)B9所述的裝置,所述網(wǎng)頁(yè)內(nèi)容保存單元,具體用于:
[0191]根據(jù)所述網(wǎng)頁(yè)的文檔對(duì)象模型信息,將所抓取的網(wǎng)頁(yè)內(nèi)容以結(jié)構(gòu)化樣式進(jìn)行保存。
[0192]B14、根據(jù)B9所述的裝置,所述網(wǎng)頁(yè)內(nèi)容抓取單元,具體用于:
[0193]根據(jù)預(yù)設(shè)的規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容中包含的不具有收藏意義的內(nèi)容進(jìn)行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容。
[0194]B15、根據(jù)B9所述的裝置,所述網(wǎng)頁(yè)內(nèi)容抓取單元,具體用于:
[0195]在網(wǎng)頁(yè)內(nèi)容包括圖片的情況下,判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁(yè)的圖片內(nèi)容。
[0196]C16、一種網(wǎng)頁(yè)收藏系統(tǒng),包括客戶端設(shè)備和服務(wù)器端設(shè)備;
[0197]所述客戶端設(shè)備,包括:
[0198]描述信息抓取單元,用于接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0199]描述信息發(fā)送單元,用于將所述網(wǎng)頁(yè)內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0200]所述服務(wù)器端設(shè)備,包括:
[0201]描述信息接收單元,用于接收客戶端設(shè)備發(fā)送的網(wǎng)頁(yè)內(nèi)容描述信息;
[0202]網(wǎng)頁(yè)內(nèi)容抓取單元,用于對(duì)所述網(wǎng)頁(yè)內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取網(wǎng)頁(yè)的內(nèi)容;
[0203]網(wǎng)頁(yè)內(nèi)容保存單元,用于對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0204]C17、根據(jù)C16所述的系統(tǒng),所述客戶端設(shè)備還包括:
[0205]代碼注入單元,用于當(dāng)檢測(cè)到所述用戶所瀏覽的網(wǎng)頁(yè)加載完成時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼;或者,當(dāng)接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼。
[0206]C18、根據(jù)C17所述的系統(tǒng),所述代碼注入單元,包括:[0207]框架添加子單元,用于在用戶所瀏覽的網(wǎng)頁(yè)中添加內(nèi)嵌框架;
[0208]代碼寫入子單元,用于在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0209]C19、根據(jù)C16所述的系統(tǒng),所述描述信息抓取單元,具體用于:
[0210]在接收到用戶的收藏操作指令后,利用預(yù)先寫入的腳本代碼,抓取所述網(wǎng)頁(yè)的文檔對(duì)象模型信息。
[0211]C20、根據(jù)C16所述的系統(tǒng),所述網(wǎng)頁(yè)內(nèi)容保存單元,具體用于:
[0212]根據(jù)所述網(wǎng)頁(yè)的文檔對(duì)象模型信息,將所抓取的網(wǎng)頁(yè)內(nèi)容以結(jié)構(gòu)化樣式進(jìn)行保存。
[0213]C21、根據(jù)C16所述的系統(tǒng),所述網(wǎng)頁(yè)內(nèi)容抓取單元,具體用于:
[0214]根據(jù)預(yù)設(shè)的規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容中包含的不具有收藏意義的內(nèi)容進(jìn)行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容。
[0215]C22、根據(jù)C16所述的系統(tǒng),所述網(wǎng)頁(yè)內(nèi)容抓取單元,具體用于:
[0216]在網(wǎng)頁(yè)內(nèi)容包括圖片的情況下,判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁(yè)的圖片內(nèi)容。
【權(quán)利要求】
1.一種網(wǎng)頁(yè)收藏方法,其特征在于,包括: 接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息; 對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容; 對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 當(dāng)檢測(cè)到所述用戶所瀏覽的網(wǎng)頁(yè)加載完成時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼; 或者, 當(dāng)接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令時(shí),向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述向用戶所瀏覽的網(wǎng)頁(yè)中寫入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,包括: 在用戶所瀏覽的網(wǎng)頁(yè)中添加內(nèi)嵌框架; 在所述內(nèi)嵌框架中寫入所述腳本代碼。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息,包括: 抓取所述網(wǎng)頁(yè)的文檔對(duì)象模型信息。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存,包括: 根據(jù)所述網(wǎng)頁(yè)的文檔對(duì)象模型信息,將所抓取的網(wǎng)頁(yè)內(nèi)容以結(jié)構(gòu)化樣式進(jìn)行保存。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容包括: 根據(jù)預(yù)設(shè)的規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容中包含的不具有收藏意義的內(nèi)容進(jìn)行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容包括: 在網(wǎng)頁(yè)內(nèi)容包括圖片的情況下,判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁(yè)的圖片內(nèi)容。
8.根據(jù)權(quán)利要求1-7任一項(xiàng)所述的方法,其特征在于, 在抓取網(wǎng)頁(yè)的內(nèi)容描述信息之后,還包括:將所述內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備; 所述服務(wù)器端設(shè)備對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容,并對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
9.一種網(wǎng)頁(yè)收藏裝置,其特征在于,包括: 描述信息抓取單元,用于接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息; 網(wǎng)頁(yè)內(nèi)容抓取單元,用于對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;網(wǎng)頁(yè)內(nèi)容保存單元,用于對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
10.一種網(wǎng)頁(yè)收藏系統(tǒng),其特征在于,包括客戶端設(shè)備和服務(wù)器端設(shè)備; 所述客戶端設(shè)備,包括: 描述信息抓取單元,用于接收到用戶對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息; 描述信息發(fā)送單元,用于將所述網(wǎng)頁(yè)內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備; 所述服務(wù)器端設(shè)備,包括: 描述信息接收單元,用于接收客戶端設(shè)備發(fā)送的網(wǎng)頁(yè)內(nèi)容描述信息; 網(wǎng)頁(yè)內(nèi)容抓取單元,用于對(duì)所述網(wǎng)頁(yè)內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取網(wǎng)頁(yè)的內(nèi)容; 網(wǎng)頁(yè)內(nèi)容保存單元,用 于對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
【文檔編號(hào)】G06F17/30GK103617224SQ201310603186
【公開日】2014年3月5日 申請(qǐng)日期:2012年3月31日 優(yōu)先權(quán)日:2012年3月31日
【發(fā)明者】曾強(qiáng), 張平, 魏欽剛 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司