專利名稱:一種頁面快速轉(zhuǎn)換方法、裝置和系統(tǒng)的制作方法
一種頁面快速轉(zhuǎn)換方法、裝置和系統(tǒng)技術(shù)領(lǐng)域
本申請涉及網(wǎng)頁技術(shù)領(lǐng)域,特別涉及一種頁面快速轉(zhuǎn)換方法、裝置和系統(tǒng)。
背景技術(shù):
隨著具備上網(wǎng)功能的移動終端的普及,多數(shù)用戶已經(jīng)開始使用移動終端上網(wǎng), 瀏覽網(wǎng)頁信息。針對這一趨勢,各大網(wǎng)站專門優(yōu)化了自己的WAP網(wǎng)站(WAP,Wireless Application Protocol,無線應(yīng)用協(xié)議,一種實(shí)現(xiàn)移動電話與互聯(lián)網(wǎng)結(jié)合的應(yīng)用協(xié)議標(biāo) 準(zhǔn)),做了針對移動終端用戶體驗(yàn)的WAP網(wǎng)站。
現(xiàn)有技術(shù)中,在當(dāng)服務(wù)器接收到頁面請求后,服務(wù)器需要大量本地存儲在后臺去 抓取網(wǎng)頁(web)和建立模板訓(xùn)練分析,并使用幾個固化的模板直接套取web頁面的內(nèi)容,從 而生成WAP頁面。這使現(xiàn)有技術(shù)存在下述缺點(diǎn)和不足
(I)大量本地存儲,現(xiàn)有技術(shù)因?yàn)橐ト【W(wǎng)頁和建立模板訓(xùn)練分析,因此需要大量 的本地存儲。
(2)局限性,對于千變?nèi)f化的各種互聯(lián)網(wǎng)web頁面,現(xiàn)有技術(shù)大多使用固化模板直 接套取web頁面的內(nèi)容,影響了普適性。
對于大多數(shù)頁面,通常只是在個人電腦(PC)正常或完整顯示,而在移動終端上其 顯示效果并不不理想,并且現(xiàn)有技術(shù)的這種解決方案往往耗費(fèi)大量的很多的人力和物力。發(fā)明內(nèi)容
本申請所要解決的技術(shù)問題是提供一種頁面快速轉(zhuǎn)換方法、裝置和系統(tǒng),以解決 無線應(yīng)用環(huán)境中耗費(fèi)資源多的問題。
為了解決上述問題,本申請公開了一種頁面快速轉(zhuǎn)換方法,包括
請求接收步驟,接收用戶端頁面請求;
頁面獲取步驟,根據(jù)所述請求獲取頁面文檔,并解析所述文檔的DOM樹結(jié)構(gòu);
標(biāo)簽過濾步驟,依據(jù)標(biāo)簽庫和結(jié)構(gòu)標(biāo)簽詞典,對所述DOM樹中的各級標(biāo)簽進(jìn)行過 濾;
頁面整理步驟,將過濾后的DOM樹中的標(biāo)簽及其所包含的內(nèi)容按照所對應(yīng)結(jié)構(gòu)寫 入顯示框架;
頁面返回步驟,返回整理后的結(jié)果至用戶端。
優(yōu)選的,所述的標(biāo)簽過濾步驟具體包括,針對DOM樹中的各級標(biāo)簽,執(zhí)行以下步 驟
初步標(biāo)簽過濾步驟,對于當(dāng)前層級的子標(biāo)簽,依據(jù)標(biāo)簽庫對該級子標(biāo)簽進(jìn)行過 濾;
結(jié)構(gòu)型標(biāo)簽過濾步驟,針對過濾后所述保留的結(jié)構(gòu)型標(biāo)簽,依據(jù)結(jié)構(gòu)標(biāo)簽詞典,對 其進(jìn)行過濾。
優(yōu)選的,所述初步標(biāo)簽過濾步驟包括標(biāo)簽判斷步驟
對于保留的文本標(biāo)簽,將所述的文本標(biāo)簽及其內(nèi)容和對應(yīng)的父標(biāo)簽轉(zhuǎn)入頁面整理步驟;
對于保留的圖像標(biāo)簽,當(dāng)所述圖像標(biāo)簽指示的圖像的尺寸大小低于預(yù)定尺寸大小閾值,則將所述的圖像標(biāo)簽及其內(nèi)容和對應(yīng)的父標(biāo)簽轉(zhuǎn)入頁面整理步驟;
對于保留的結(jié)構(gòu)型標(biāo)簽,轉(zhuǎn)入結(jié)構(gòu)型標(biāo)簽過濾步驟。
優(yōu)選的,所述的結(jié)構(gòu)標(biāo)簽詞典的標(biāo)簽詞包括標(biāo)簽id屬性和class屬性包含的文本中的標(biāo)簽詞;其中,所述的標(biāo)簽詞根據(jù)統(tǒng)計頻次選定。
優(yōu)選的,所述的結(jié)構(gòu)型標(biāo)簽過濾步驟具體包括
查找步驟,針對每一個結(jié)構(gòu)型標(biāo)簽,根據(jù)其id屬性和/或class屬性文本中的標(biāo)簽詞,在結(jié)構(gòu)標(biāo)簽詞典的標(biāo)簽詞中進(jìn)行匹配查找;
標(biāo)簽相似度計算步驟,根據(jù)匹配查找結(jié)果,按照標(biāo)簽規(guī)則集,計算所述結(jié)構(gòu)型標(biāo)簽與結(jié)構(gòu)型標(biāo)簽詞典中標(biāo)簽詞的標(biāo)簽相似度;
判斷過濾步驟,將計算得到的標(biāo)簽相似度與預(yù)置的閾值進(jìn)行比較,并根據(jù)比較結(jié)果,對所述結(jié)構(gòu)型標(biāo)簽進(jìn)行過濾。
優(yōu)選的,所述的標(biāo)簽相似度根據(jù)標(biāo)簽文本相似度和標(biāo)簽語義相似度計算得到。
優(yōu)選的,所述的標(biāo)簽文本相似度的計算方法為
權(quán)利要求
1.一種頁面快速轉(zhuǎn)換方法,其特征在于,包括 請求接收步驟,接收用戶端頁面請求; 頁面獲取步驟,根據(jù)所述請求獲取頁面文檔,并解析所述文檔的DOM樹結(jié)構(gòu); 標(biāo)簽過濾步驟,依據(jù)標(biāo)簽庫和結(jié)構(gòu)標(biāo)簽詞典,對所述DOM樹中的各級標(biāo)簽進(jìn)行過濾;頁面整理步驟,將過濾后的DOM樹中的標(biāo)簽及其所包含的內(nèi)容按照所對應(yīng)結(jié)構(gòu)寫入顯示框架; 頁面返回步驟,返回整理后的結(jié)果至用戶端。
2.如權(quán)利要求1所述的方法,其特征在于 所述的標(biāo)簽過濾步驟具體包括,針對DOM樹中的各級標(biāo)簽,執(zhí)行以下步驟 初步標(biāo)簽過濾步驟,對于當(dāng)前層級的子標(biāo)簽,依據(jù)標(biāo)簽庫對該級子標(biāo)簽進(jìn)行過濾; 結(jié)構(gòu)型標(biāo)簽過濾步驟,針對過濾后所述保留的結(jié)構(gòu)型標(biāo)簽,依據(jù)結(jié)構(gòu)標(biāo)簽詞典,對其進(jìn)行過濾。
3.如權(quán)利要求2所述的方法,其特征在于 所述初步標(biāo)簽過濾步驟包括標(biāo)簽判斷步驟 對于保留的文本標(biāo)簽,將所述的文本標(biāo)簽及其內(nèi)容和對應(yīng)的父標(biāo)簽轉(zhuǎn)入頁面整理步驟; 對于保留的圖像標(biāo)簽,當(dāng)所述圖像標(biāo)簽指示的圖像的尺寸大小低于預(yù)定尺寸大小閾值,則將所述的圖像標(biāo)簽及其內(nèi)容和對應(yīng)的父標(biāo)簽轉(zhuǎn)入頁面整理步驟; 對于保留的結(jié)構(gòu)型標(biāo)簽,轉(zhuǎn)入結(jié)構(gòu)型標(biāo)簽過濾步驟。
4.如權(quán)利要求1所述的方法,其特征在于 所述的結(jié)構(gòu)標(biāo)簽詞典的標(biāo)簽詞包括標(biāo)簽id屬性和class屬性包含的文本中的標(biāo)簽詞;其中,所述的標(biāo)簽詞根據(jù)統(tǒng)計頻次選定。
5.如權(quán)利要求4所述的方法,其特征在于 所述的結(jié)構(gòu)型標(biāo)簽過濾步驟具體包括 查找步驟,針對每一個結(jié)構(gòu)型標(biāo)簽,根據(jù)其id屬性和/或class屬性文本中的標(biāo)簽詞,在結(jié)構(gòu)標(biāo)簽詞典的標(biāo)簽詞中進(jìn)行匹配查找; 標(biāo)簽相似度計算步驟,根據(jù)匹配查找結(jié)果,按照標(biāo)簽規(guī)則集,計算所述結(jié)構(gòu)型標(biāo)簽與結(jié)構(gòu)型標(biāo)簽詞典中標(biāo)簽詞的標(biāo)簽相似度; 判斷過濾步驟,將計算得到的標(biāo)簽相似度與預(yù)置的閾值進(jìn)行比較,并根據(jù)比較結(jié)果,對所述結(jié)構(gòu)型標(biāo)簽進(jìn)行過濾。
6.如權(quán)利要求5所述的方法,其特征在于 所述的標(biāo)簽相似度根據(jù)標(biāo)簽文本相似度和標(biāo)簽語義相似度計算得到。
7.如權(quán)利要求6所述的方法,其特征在于 所述的標(biāo)簽文本相似度的計算方法為
8.如權(quán)利要求5所述的方法,其特征在于 所述判斷過濾步驟具體包括 當(dāng)所述的標(biāo)簽相似度大于閾值時,對所述結(jié)構(gòu)型標(biāo)簽進(jìn)行過濾。
9.如權(quán)利要求5所述的方法,其特征在于 所述的結(jié)構(gòu)標(biāo)簽詞典包括導(dǎo)航過濾詞典和頁腳過濾詞典;所述的導(dǎo)航過濾詞典用于過濾的標(biāo)簽詞包括導(dǎo)航標(biāo)簽詞、廣告標(biāo)簽詞,所述的頁腳過濾詞典過濾的標(biāo)簽詞包括頁眉標(biāo)簽詞、頁腳標(biāo)簽詞。
10.一種頁面快速轉(zhuǎn)換裝置,其特征在于,包括 請求接收模塊,用于接收用戶端頁面請求; 頁面獲取模塊,用于獲取頁面文檔,并解析所述的頁面文檔的DOM樹結(jié)構(gòu); 標(biāo)簽過濾模塊,用于依據(jù)標(biāo)簽庫和結(jié)構(gòu)標(biāo)簽詞典,對所述DOM樹中的各級標(biāo)簽進(jìn)行過濾; 頁面整理模塊,用于將過濾后的DOM樹中的標(biāo)簽及其所包含的內(nèi)容按照所對應(yīng)結(jié)構(gòu)寫入顯示框架; 頁面返回模塊,用于返回整理后的結(jié)果至用戶端。
全文摘要
本申請?zhí)峁┝艘环N面快速轉(zhuǎn)換方法、裝置和系統(tǒng),涉及網(wǎng)頁技術(shù)領(lǐng)域。所述方法包括接收用戶端頁面請求;根據(jù)所述請求獲取頁面文檔,并解析所述文檔的DOM樹結(jié)構(gòu);依據(jù)標(biāo)簽庫和結(jié)構(gòu)標(biāo)簽詞典,對所述DOM樹中的各級標(biāo)簽進(jìn)行過濾;將過濾后的DOM樹中的標(biāo)簽及其所包含的內(nèi)容按照所對應(yīng)結(jié)構(gòu)寫入顯示框架;返回整理后的結(jié)果至用戶端。通過本申請頁面轉(zhuǎn)換的整個過程可以實(shí)時在線完成,不需要任何本地存儲,并且運(yùn)算速度快,可在內(nèi)存中完成數(shù)據(jù)處理過程的存儲緩存,不需要過多的文件IO操作和數(shù)據(jù)庫操作。
文檔編號G06F17/30GK102999511SQ201110270268
公開日2013年3月27日 申請日期2011年9月13日 優(yōu)先權(quán)日2011年9月13日
發(fā)明者賈宇 申請人:阿里巴巴集團(tuán)控股有限公司