專利名稱:一種用于對頁面進行主體識別的方法與設備的制作方法
技術領域:
本發(fā)明涉及頁面處理技術領域,尤其涉及一種用于對頁面進行主體識別的技術。
背景技術:
隨著網(wǎng)頁技術的發(fā)展,頁面中包含的信息量越來越多,用戶在瀏覽頁面時,很難馬上獲取到頁面中的主要信息,往往需要經(jīng)過多次操作,如拖拽頁面、關閉flash廣告等,才能達到頁面主要內容所在區(qū)域。而當用戶通過移動終端瀏覽網(wǎng)頁時,這一問題將更加突出。因此,如何提供一種對頁面進行主體識別的技術,使得對頁面的后續(xù)應用可以基于頁面的主體進行,從而在諸如用戶瀏覽網(wǎng)頁和搜索引擎建立索引等方面獲得更好的效果,成為目前待解決的問題之一。
發(fā)明內容
本發(fā)明的目的是提供一種用于對頁面進行主體識別的方法與設備。根據(jù)本發(fā)明的一個方面,提供了一種計算機實現(xiàn)的用于對頁面進行主體識別的方法,其中,該方法包括以下步驟a獲取待處理頁面;b根據(jù)所述待處理頁面的文檔結構,對所述待處理頁面進行分塊處理,以獲得所述待處理頁面的頁面分塊;c根據(jù)所述頁面分塊在所述文檔結構中的層級,按照預設的可合并層級,對所述可合并層級所對應的頁面分塊進行合并處理,以獲得合并后的待識別分塊;d對所述合并后的待識別分塊進行主體識別,以確定所述待處理頁面的主體分塊。根據(jù)本發(fā)明的另一個方面,還提供了一種在用戶設備端顯示頁面主體的方法,其中,該方法包括以下步驟A接收自網(wǎng)絡設備發(fā)送的頁面,其中,所述頁面中包括主體分塊的標識信息;B加載所述頁面;C根據(jù)所述標識信息,在所述頁面中提供與所述主體分塊相對應的主體控件。根據(jù)本發(fā)明的一個方面,還提供了一種用于對頁面進行主體識別的網(wǎng)絡設備,其中,該網(wǎng)絡設備包括頁面獲取裝置,用于獲取待處理頁面;頁面分塊裝置,用于根據(jù)所述待處理頁面的文檔結構,對所述待處理頁面進行分塊處理,以獲得所述待處理頁面的頁面分塊;分塊合并裝置,用于根據(jù)所述頁面分塊在所述文檔結構中的層級,按照預設的可合并層級,對所述可合并層級所對應的頁面分塊進行合并處理,以獲得合并后的待識別分塊;主體識別裝置,用于對所述合并后的待識別分塊進行主體識別,以確定所述待處理頁面的主體分塊。
根據(jù)本發(fā)明的另一個方面,還提供了一種顯示頁面主體的用戶設備,其中,該用戶設備包括頁面接收裝置,用于接收自網(wǎng)絡設備發(fā)送的頁面,其中,所述頁面中包括主體分塊的標識信息;頁面加載裝置,用于加載所述頁面;主體控件提供裝置,用于根據(jù)所述標識信息,在所述頁面中提供與所述主體分塊相對應的主體控件。根據(jù)本發(fā)明的再一個方面,還提供了一種對頁面進行主體識別的系統(tǒng),該系統(tǒng)包括如前述根據(jù)本發(fā)明一個方面的用于對頁面進行主體識別的網(wǎng)絡設備和如前述根據(jù)本發(fā)明另一方面的顯示頁面主體的用戶設備。與現(xiàn)有技術相比,本發(fā)明對頁面進行分塊處理,并合并相關分塊,從而識別獲得頁面的主體分塊,從而可以基于所識別的主體分塊進行各種應用,獲得更優(yōu)的應用效果及更好的用戶體驗。該等基于主體分塊進行的應用包括但不限于,使得搜索引擎可以基于該等主體分塊進行頁面索引,從而為用戶提供更為準確的搜索結果;或者用戶加載頁面后,通過主體控件突顯頁面的主體分塊,使得用戶可以更快地獲得頁面的主要內容,提升了用戶的頁面瀏覽體驗,進一步地,該等瀏覽體驗在用戶經(jīng)由移動終端瀏覽頁面時更為顯著,用戶可以在其移動終端的小屏幕上更為方便和快捷地瀏覽頁面的主要內容。
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯圖1示出根據(jù)本發(fā)明一個方面的用于對頁面進行主體識別的網(wǎng)絡設備的示意圖;圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于對頁面進行主體識別的網(wǎng)絡設備和用戶設備的示意圖;圖3示出根據(jù)本發(fā)明另一個方面的用于對頁面進行主體識別的方法流程圖;圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的網(wǎng)絡設備和用戶設備配合實現(xiàn)對頁面進行主體識別的方法流程圖;圖5示出根據(jù)本發(fā)明一個示例的向用戶提供“主體”提示按鈕的頁面。
附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施例方式下面結合附圖對本發(fā)明作進一步詳細描述。圖1為根據(jù)本發(fā)明一個方面的設備示意圖,示出一種用于對頁面進行主體識別的網(wǎng)絡設備。其中,網(wǎng)絡設備1包括頁面獲取裝置111、頁面分塊裝置112、分塊合并裝置113 和主體識別裝置114。具體地,頁面獲取裝置111獲取待處理頁面;頁面分塊裝置112根據(jù)所述待處理頁面的文檔結構,對所述待處理頁面進行分塊處理,以獲得所述待處理頁面的頁面分塊;分塊合并裝置113根據(jù)所述頁面分塊在所述文檔結構中的層級,按照預設的可合并層級,對所述可合并層級所對應的頁面分塊進行合并處理,以獲得合并后的待識別分塊;主體識別裝置114對所述合并后的待識別分塊進行主體識別,以確定所述待處理頁面的主體分塊。在此,網(wǎng)絡設備1包括但不限于各種網(wǎng)絡服務器,諸如網(wǎng)站服務器、博客服務器、搜索引擎服務器等,以及與所述網(wǎng)絡服務器進行通信的中間服務器,其中,所述中間服務器包括但不限于網(wǎng)絡主機、單個網(wǎng)絡服務器、多個網(wǎng)絡服務器集或基于云計算的計算機集合,在此,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。本領域技術人員應能理解上述網(wǎng)絡設備僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的網(wǎng)絡設備如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。頁面獲取裝置111獲取待處理頁面。在此,頁面獲取裝置111獲取所述待處理頁面的方式包括但不限于以下方式1)網(wǎng)絡設備1包括網(wǎng)絡服務器,頁面獲取裝置111獲取該網(wǎng)絡設備1中存儲的頁面或用戶請求訪問的頁面作為所述待處理頁面;2)網(wǎng)絡設備1包括與所述網(wǎng)絡服務器進行通信的中間服務器,頁面獲取裝置111 根據(jù)用戶的頁面訪問請求,從所述網(wǎng)絡服務器獲取相應的頁面作為所述待處理頁面。本領域技術人員應能理解上述獲取待處理頁面的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取待處理頁面的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。頁面分塊裝置112根據(jù)頁面獲取裝置111獲取的待處理頁面的文檔結構,對所述待處理頁面進行分塊處理,以獲得所述待處理頁面的頁面分塊。在此,所述文檔結構包括但不限于任何,可適用于本發(fā)明的,根據(jù)各種文檔結構模型來對待處理頁面進行解析后獲得的待處理頁面的文檔結構,諸如待處理頁面的文檔對象模型(DOM)、待處理頁面的渲染樹模型(Render Tree)等。頁面分塊裝置112對所述待處理頁面進行分塊處理的方式包括但不限于以下方式1)對所述待處理頁面進行解析,以獲得所述待處理頁面的文檔對象模型(DOM), 根據(jù)所述文檔對象模型中的可視化元素,對所述待處理頁面進行分塊處理,以獲得所述待處理頁面的頁面分塊;2)對所述待處理頁面進行解析,以獲得所述待處理頁面的渲染樹模型,根據(jù)所述渲染樹模型,對所述待處理頁面進行分塊處理,以獲得所述待處理頁面的頁面分塊。例如, 頁面獲取裝置111獲取用戶請求訪問的頁面;頁面分塊裝置112解析該頁面的html代碼, 構建該頁面的渲染樹(render tree)模型,并根據(jù)該渲染樹模型中的塊(block),對該頁面進行分塊處理,從而獲得該頁面的頁面分塊。本領域技術人員應能理解上述待處理頁面的文檔結構以及對待處理頁面進行分塊的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的待處理頁面的文檔結構或者對待處理頁面進行分塊的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。分塊合并裝置113根據(jù)頁面分塊裝置112獲得的頁面分塊在待處理頁面的文檔結構中的層級,按照預設的可合并層級,對所述可合并層級所對應的頁面分塊進行合并處理, 以獲得合并后的待識別分塊。例如,頁面分塊裝置112根據(jù)待處理頁面的渲染樹(render tree)模型對該待處理頁面進行分塊處理,獲得該待處理頁面的頁面分塊;分塊合并裝置 113按照預設的可合并層級,如底層2級,對該渲染樹(render tree)模型所對應的底層2 級的頁面分塊進行合并處理,以獲得合并后的待識別分塊,用于后續(xù)主體識別。
優(yōu)選地,分塊合并裝置113根據(jù)待處理頁面的頁面分塊在該待處理頁面的文檔結構中的層級,按照預設的可合并層級,結合所述頁面分塊的分塊類型,對所述分塊類型相同且屬于主體類型的頁面分塊進行合并處理,以獲得合并后的待識別分塊。在此,所述主體類型包括但不限于文本、圖片等。所述頁面分塊的分塊類型可通過對該等頁面分塊的內容識別獲得,所述分塊類型包括但不限于文本、圖片、鏈接。例如,頁面分塊裝置112根據(jù)待處理頁面的渲染樹(render tree)模型,獲得該待處理頁面的頁面分塊;分塊合并裝置113按照預設的可合并層級,如底層2級,獲得該渲染樹(render tree)模型所對應的底層2級中的頁面分塊,根據(jù)該等頁面分塊的分塊類型,獲取屬于主體類型,即文本和圖片的頁面分塊, 并對這些文本類型的頁面分塊和圖片類型的頁面分塊分別進行同類合并處理,以獲得合并后的待識別分塊,即合并后的文本類型的頁面分塊和合并后的圖片類型的頁面分塊。優(yōu)選地,分塊合并裝置113根據(jù)待處理頁面的頁面分塊在該待處理頁面的文檔結構中的層級,按照預設的可合并層級,對屬于同一上級節(jié)點且屬于主體類型的頁面分塊進行合并處理,以獲得合并后的待識別分塊。在此,所述主體類型包括但不限于文本、圖片等。 例如,頁面分塊裝置112根據(jù)待處理頁面的渲染樹(render tree)模型,獲得該待處理頁面的頁面分塊;分塊合并裝置113按照預設的可合并層級,如底層2級,獲得該渲染樹(render tree)模型所對應的底層2級中的頁面分塊,根據(jù)該等頁面分塊的分塊類型,獲取屬于主體類型,即文本和圖片的頁面分塊,并對這些文本類型的頁面分塊和圖片類型的頁面分塊中屬于同一上級節(jié)點的頁面分塊進行合并處理,以獲得合并后的待識別分塊。更優(yōu)選地,分塊合并裝置113根據(jù)待處理頁面的頁面分塊在該待處理頁面的文檔結構中的層級,按照預設的可合并層級,對所述分塊類型相同、屬于主體類型且屬于同一上級節(jié)點的頁面分塊進行合并處理,以獲得合并后的待識別分塊。例如,頁面分塊裝置112根據(jù)待處理頁面的渲染樹(render tree)模型,獲得該待處理頁面的頁面分塊;分塊合并裝置113按照預設的可合并層級,如底層2級,獲得該渲染樹(render tree)模型所對應的底層2級中的頁面分塊,根據(jù)該等頁面分塊的分塊類型,獲取屬于主體類型,即文本和圖片的頁面分塊,并對這些文本類型的頁面分塊和圖片類型的頁面分塊分別進行同類合并處理, 再根據(jù)同類合并后的文本類型的頁面分塊和圖片類型的頁面分塊,對屬于同一上級節(jié)點的該同類合并后的文本類型的頁面分塊和圖片類型的頁面分塊進行合并處理,以獲得合并后的待識別分塊。本領域技術人員應能理解上述主體類型以及對待處理頁面的頁面分塊進行合并處理的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的主體類型或者對待處理頁面的頁面分塊進行合并處理的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。分塊合并裝置113根據(jù)預設的可合并層級對待處理頁面的頁面分塊進行合并處理,使得獲得的合并后的待識別分塊在滿足合并層級的要求下,盡可能的包括較為豐富的內容,同時,基于該等待識別分塊獲得的主體分塊,如在后續(xù)操作中將該等主體分塊提供給用戶瀏覽,用戶可以從該等主體分塊中獲得頁面的主要內容,從而減少了用戶獲得頁面主要內容的時間,提升了用戶的使用體驗。進一步地,分塊合并裝置113結合頁面分塊的分塊類型和/或頁面分塊的上級節(jié)點,對頁面分塊進行合并處理,使得合并獲得的待識別分塊中僅包括符合主體類型的頁面分塊,并且考慮到了對圖片混排的頁面的適用,將圖片類型的頁面分塊和文本類型的頁面分塊合并,使得后續(xù)基于該等合并后的待識別分塊獲得的主體分塊中包括了頁面的重要信息。主體識別裝置114對分塊合并裝置113獲得的合并后的待識別分塊進行主體識別,以確定待處理頁面的主體分塊。在此,主體識別裝置114對合并后的待識別分塊基于多種方式進行識別,諸如待識別分塊的字體格式信息、行數(shù)信息、寬度信息、位置信息等。例如,在一示例中,分塊合并裝置113獲得多個合并后的待識別分塊;主體識別裝置114根據(jù)該等待識別分塊的位置是否處于待處理頁面的中部、待識別分塊的行數(shù)、寬度是否大于相應的預設閾值、待識別分塊的標題字號是否與正文字號不同,從該等待識別分塊中確定位置處于待處理頁面的中部、行數(shù)及寬度大于相應的預設閾值且標題字號與正文字號不同的待識別分塊為該待處理頁面的主體分塊。本領域技術人員應能理解上述對待處理頁面的主體分塊的識別方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的對待處理頁面的主體分塊的識別方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。優(yōu)選地,主體識別裝置114對所述合并后的待識別分塊進行主體識別的操作基于以下至少任一項1)所述合并后的待識別分塊的字體格式信息;2)所述合并后的待識別分塊的行數(shù)信息;3)所述合并后的待識別分塊的寬度信息;4)所述合并后的待識別分塊的位置信息。具體地,主體識別裝置114通過對合并后的待識別分塊的字體格式信息、行數(shù)信息、寬度信息或位置信息等的識別,確定所述合并后的待識別分塊中的主體分塊。下面分別對上述各項舉例說明1)關于待識別分塊的字體格式信息,在一示例中,主體識別裝置114通過識別待識別分塊中標題與正文的字體,以及標題的字號是否大于正文的字號等,從待識別分塊中識別出主體分塊;2)關于待識別分塊的行數(shù)信息,在一示例中,主體識別裝置114通過與預設的行數(shù)閾值的比較,從待識別分塊中識別出主體分塊;3)關于待識別分塊的寬度信息,在一示例中,主體識別裝置114通過與預設的寬度閾值的比較,從待識別分塊中識別出主體分塊;4)關于待識別分塊的位置信息,在一示例中,主體識別裝置114通過識別待識別分塊是否位于頁面的上部或中部,從待識別分塊中識別出主體分塊。本領域技術人員應能理解,上述各項識別操作不僅可以單獨用于主體識別裝置 114從待識別分塊中識別出主體分塊,還可以相互結合用于主體識別裝置114從待識別分塊中識別出主體分塊。本領域技術人員還應能理解上述識別操作僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的識別操作如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。主體識別裝置114根據(jù)待識別分塊中的文本相關信息,諸如字體格式信息、行數(shù)信息、寬度信息等,對待識別分塊進行主體識別,使得對于新聞頁面、博客頁面等包括大量文本信息的內容頁面,本發(fā)明可以識別出該等內容頁面中的主要內容,為該等內容頁面的后續(xù)開發(fā)應用提供了便利。
在圖1所示網(wǎng)絡設備1的一個優(yōu)選實施例中,該網(wǎng)絡設備1還包括索引更新裝置 (未示出)。索引更新裝置根據(jù)主體識別裝置114確定的主體分塊的內容,建立待處理頁面的頁面索引,用以更新搜索引擎的索引信息庫。在此,網(wǎng)絡設備1包括搜索引擎服務器或與搜索引擎服務器相連的中間服務器,索引更新裝置根據(jù)待處理頁面中主體分塊的內容,通過分詞技術,諸如最大正向匹配法、最大反向匹配法、最短路徑分詞法等,提取各種關鍵詞, 建立該待處理頁面的頁面索引,用于更新搜索引擎的索引信息庫。由于該頁面索引直接基于頁面的主體分塊建立,使得頁面內容與頁面索引中的關鍵詞的相關度更高,從而搜索引擎將該頁面作為該關鍵詞的搜索結果提供給用戶時的準確度也更高。圖2為根據(jù)本發(fā)明一個優(yōu)選實施例的設備示意圖,示出用于對頁面進行主體識別的網(wǎng)絡設備和用戶設備。其中,網(wǎng)絡設備1包括頁面獲取裝置211、頁面分塊裝置212、分塊合并裝置213、主體識別裝置214和主體標識裝置215,用戶設備2包括頁面接收裝置221、 頁面加載裝置222和主體控件提供裝置223。具體地,頁面獲取裝置211獲取待處理頁面;頁面分塊裝置212根據(jù)所述待處理頁面的文檔結構,對所述待處理頁面進行分塊處理,以獲得所述待處理頁面的頁面分塊;分塊合并裝置213根據(jù)所述頁面分塊在所述文檔結構中的層級,按照預設的可合并層級,對所述可合并層級所對應的頁面分塊進行合并處理,以獲得合并后的待識別分塊;主體識別裝置214對所述合并后的待識別分塊進行主體識別,以確定所述待處理頁面的主體分塊;主體標識裝置215通過在所述待處理頁面中對所述主體分塊進行標識,獲得包括該主體分塊的標識信息的頁面,將所述包括該主體分塊的標識信息的頁面提供至用戶;相應地,用戶設備2的頁面接收裝置221接收自網(wǎng)絡設備1發(fā)送的頁面,其中,所述頁面中包括主體分塊的標識信息;頁面加載裝置222加載所述頁面;主體控件提供裝置223根據(jù)所述標識信息,在所述頁面中提供與所述主體分塊相對應的主體控件。在此,網(wǎng)絡設備1包括但不限于各種網(wǎng)絡服務器,諸如網(wǎng)站服務器、博客服務器、 搜索引擎服務器等,以及與所述網(wǎng)絡服務器進行通信的中間服務器,其中,所述中間服務器包括但不限于網(wǎng)絡主機、單個網(wǎng)絡服務器、多個網(wǎng)絡服務器集或基于云計算的計算機集合, 在此,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。用戶設備2包括但不限于任何可適用于本發(fā)明的能夠與用戶進行交互,并訪問互聯(lián)網(wǎng)的電子產(chǎn)品,諸如手機、PDA、掌上電腦(PPC)、游戲機(PSP)、個人計算機等,進一步地,本發(fā)明中實現(xiàn)頁面瀏覽的為安裝于用戶設備2中的瀏覽器,本文中,瀏覽器與用戶設備2不作區(qū)分,等同使用。本領域技術人員應能理解上述網(wǎng)絡設備以及用戶設備僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的網(wǎng)絡設備或者用戶設備如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。其中,圖2中網(wǎng)絡設備1的頁面獲取裝置211、頁面分塊裝置212、分塊合并裝置 213和主體識別裝置214所執(zhí)行的操作與圖1中網(wǎng)絡設備1的包括頁面獲取裝置111、頁面分塊裝置112、分塊合并裝置113和主體識別裝置114所執(zhí)行的操作的內容相同或基本相同,為簡明起見,以引用方式包含于此,不再贅述。主體標識裝置215通過在待處理頁面中對該待處理頁面的主體分塊進行標識,獲得包括該主體分塊的標識信息的頁面,將所述包括該主體分塊的標識信息的頁面提供至用戶。相應地,用戶設備2的頁面接收裝置221接收自網(wǎng)絡設備1發(fā)送的頁面,其中,所述頁面中包括主體分塊的標識信息。頁面加載裝置222加載所述頁面。主體控件提供裝置223 根據(jù)所述標識信息,在所述頁面中提供與所述主體分塊相對應的主體控件。在此,所述主體控件包括但不限于任何可適用于本發(fā)明的經(jīng)觸發(fā)后向用戶提供頁面的主體分塊的各種頁面按鈕、熱鍵等,如“主體”提示按鈕。例如,用戶設備2向網(wǎng)絡設備 1發(fā)送用戶的頁面訪問請求,網(wǎng)絡設備1的頁面獲取裝置211獲取該頁面訪問請求所對應的頁面作為待處理頁面;頁面分塊裝置212根據(jù)該待處理頁面的文檔結構,對該待處理頁面進行分塊處理,以獲得該處理頁面的頁面分塊;分塊合并裝置213根據(jù)頁面分塊在該文檔結構中的層級,按照預設的可合并層級,對相應的頁面分塊進行合并處理,以獲得合并后的待識別分塊;主體識別裝置214對合并后的待識別分塊進行主體識別,以確定該待處理頁面的主體分塊;主體標識裝置215通過在該待處理頁面中對其主體分塊進行標識,獲得包括該主體分塊的標識信息的頁面,將包括該主體分塊的標識信息的頁面提供至用戶;相應地,用戶設備2的頁面接收裝置221接收自網(wǎng)絡設備1發(fā)送的該頁面訪問請求所對應的頁面,其中,該頁面中包括主體分塊的標識信息;頁面加載裝置222對該頁面進行加載;主體控件提供裝置223根據(jù)該頁面中主體分塊的標識信息,在該頁面中提供與該主體分塊相對應的“主體”提示按鈕,如圖5所示。本領域技術人員應能理解上述主體控件僅為舉例, 其他現(xiàn)有的或今后可能出現(xiàn)的主體控件如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。優(yōu)選地,該用戶設備2還包括主體突顯裝置224。主體突顯裝置2M獲取用戶對主體控件提供裝置223提供的主體控件的選擇操作;根據(jù)所述選擇操作,突顯當前頁面中的主體分塊。接上例,用戶點擊如圖5所示的該“主體”提示按鈕,主體突顯裝置2M獲取用戶的該點擊操作,根據(jù)該點擊操作,在當前窗口全屏顯示當前頁面的主體分塊。在此,突顯主體分塊的方式還可以是諸如對頁面的其他部分進行模糊化處理、高亮主體分塊、將主體分塊當屏顯示等。本領域技術人員應能理解上述突顯主體分塊的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的突顯主體分塊的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。圖3為根據(jù)本發(fā)明另一個方面的方法流程圖,示出一種計算機實現(xiàn)的用于對頁面進行主體識別的過程。在此,所述計算機包括任何能夠按照事先存儲的程序,自動、高速地進行大量數(shù)值計算和各種信息處理的現(xiàn)代化智能電子設備,其硬件包括微處理器、FPGA、 DSP、嵌入式設備等。具體地,在步驟S301中,網(wǎng)絡設備1獲取待處理頁面;在步驟S302中,網(wǎng)絡設備 1根據(jù)所述待處理頁面的文檔結構,對所述待處理頁面進行分塊處理,以獲得所述待處理頁面的頁面分塊;在步驟S303中,網(wǎng)絡設備1根據(jù)所述頁面分塊在所述文檔結構中的層級,按照預設的可合并層級,對所述可合并層級所對應的頁面分塊進行合并處理,以獲得合并后的待識別分塊;在步驟S304中,網(wǎng)絡設備1對所述合并后的待識別分塊進行主體識別,以確定所述待處理頁面的主體分塊。在此,網(wǎng)絡設備1包括但不限于各種網(wǎng)絡服務器,諸如網(wǎng)站服務器、博客服務器、搜索引擎服務器等,以及與所述網(wǎng)絡服務器進行通信的中間服務器, 其中,所述中間服務器包括但不限于網(wǎng)絡主機、單個網(wǎng)絡服務器、多個網(wǎng)絡服務器集或基于云計算的計算機集合,在此,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。本領域技術人員應能理解上述網(wǎng)絡設備僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的網(wǎng)絡設備如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。在步驟S301中,網(wǎng)絡設備1獲取待處理頁面。在此,網(wǎng)絡設備1獲取所述待處理頁面的方式包括但不限于以下方式1)網(wǎng)絡設備1包括網(wǎng)絡服務器,該網(wǎng)絡設備1獲取其存儲的頁面或用戶請求訪問的頁面作為所述待處理頁面;2)網(wǎng)絡設備1包括與所述網(wǎng)絡服務器進行通信的中間服務器,該網(wǎng)絡設備1根據(jù)用戶的頁面訪問請求,從所述網(wǎng)絡服務器獲取相應的頁面作為所述待處理頁面。本領域技術人員應能理解上述獲取待處理頁面的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取待處理頁面的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。在步驟S302中,網(wǎng)絡設備1根據(jù)其在步驟S301中獲取的待處理頁面的文檔結構, 對所述待處理頁面進行分塊處理,以獲得所述待處理頁面的頁面分塊。在此,所述文檔結構包括但不限于任何可適用于本發(fā)明的根據(jù)各種文檔結構模型,對待處理頁面進行解析后獲得的待處理頁面的文檔結構,諸如待處理頁面的文檔對象模型(DOM)、待處理頁面的渲染樹模型(Render Tree)等。網(wǎng)絡設備1對所述待處理頁面進行分塊處理的方式包括但不限于以下方式1)對所述待處理頁面進行解析,以獲得所述待處理頁面的文檔對象模型(DOM), 根據(jù)所述文檔對象模型中的可視化元素,對所述待處理頁面進行分塊處理,以獲得所述待處理頁面的頁面分塊;2)對所述待處理頁面進行解析,以獲得所述待處理頁面的渲染樹模型,根據(jù)所述渲染樹模型,對所述待處理頁面進行分塊處理,以獲得所述待處理頁面的頁面分塊。例如, 在步驟S301中,網(wǎng)絡設備1獲取用戶請求訪問的頁面;在步驟S302中,網(wǎng)絡設備1解析該頁面的html代碼,構建該頁面的渲染樹(render tree)模型,并根據(jù)該渲染樹模型中的塊 (block),對該頁面進行分塊處理,從而獲得該頁面的頁面分塊。本領域技術人員應能理解上述待處理頁面的文檔結構以及對待處理頁面進行分塊的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的待處理頁面的文檔結構或者對待處理頁面進行分塊的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。在步驟S303中,網(wǎng)絡設備1根據(jù)其在步驟S302中獲得的頁面分塊在待處理頁面的文檔結構中的層級,按照預設的可合并層級,對所述可合并級所對應的頁面分塊進行合并處理,以獲得合并后的待識別分塊。如,在步驟S302中,網(wǎng)絡設備1根據(jù)待處理頁面的渲染樹(render tree)模型對該待處理頁面進行分塊處理,獲得該待處理頁面的頁面分塊;在步驟S303中,網(wǎng)絡設備1按照預設的可合并層級,如底層2級,對該渲染樹(render tree)模型所對應的底層2級的頁面分塊進行合并處理,以獲得合并后的待識別分塊,用于后續(xù)主體識別。優(yōu)選地,網(wǎng)絡設備1根據(jù)待處理頁面的頁面分塊在該待處理頁面的文檔結構中的層級,按照預設的可合并層級,結合所述頁面分塊的分塊類型,對所述分塊類型相同且屬于主體類型的頁面分塊進行合并處理,以獲得合并后的待識別分塊。在此,所述主體類型包括但不限于文本、圖片等。所述頁面分塊的分塊類型可通過對該等頁面分塊的內容識別獲得,所述分塊類型包括但不限于文本、圖片、鏈接等。例如,在步驟S302中,網(wǎng)絡設備1根據(jù)待處理頁面的渲染樹(render tree)模型,獲得該待處理頁面的頁面分塊;在步驟S303中, 網(wǎng)絡設備1按照預設的可合并層級,如底層2級,獲得該渲染樹(render tree)模型所對應的底層2級中的頁面分塊,根據(jù)該等頁面分塊的分塊類型,獲取屬于主體類型,即文本和圖片的頁面分塊,并對這些文本類型的頁面分塊和圖片類型的頁面分塊分別進行同類合并處理,以獲得合并后的待識別分塊,即合并后的文本類型的頁面分塊和合并后的圖片類型的頁面分塊。優(yōu)選地,網(wǎng)絡設備1根據(jù)待處理頁面的頁面分塊在該待處理頁面的文檔結構中的層級,按照預設的可合并層級,對屬于同一上級節(jié)點且屬于主體類型的頁面分塊進行合并處理,以獲得合并后的待識別分塊。在此,所述主體類型包括但不限于文本、圖片。例如,在步驟S302中,網(wǎng)絡設備1根據(jù)待處理頁面的渲染樹(render tree)模型,獲得該待處理頁面的頁面分塊;在步驟S303中,網(wǎng)絡設備1按照預設的可合并層級,如底層2級,獲得該渲染樹(render tree)模型所對應的底層2級中的頁面分塊,根據(jù)該等頁面分塊的分塊類型, 獲取屬于主體類型,即文本和圖片的頁面分塊,并對這些文本類型的頁面分塊和圖片類型的頁面分塊中屬于同一上級節(jié)點的頁面分塊進行合并處理,以獲得合并后的待識別分塊。更優(yōu)選地,網(wǎng)絡設備1根據(jù)待處理頁面的頁面分塊在該待處理頁面的文檔結構中的層級,按照預設的可合并層級,對所述分塊類型相同、屬于主體類型且屬于同一上級節(jié)點的頁面分塊進行合并處理,以獲得合并后的待識別分塊。例如,在步驟S302中,網(wǎng)絡設備 1根據(jù)待處理頁面的渲染樹(render tree)模型,獲得該待處理頁面的頁面分塊;在步驟 S303中,網(wǎng)絡設備1按照預設的可合并層級,如底層2級,獲得該渲染樹(render tree)模型所對應的底層2級中的頁面分塊,根據(jù)該等頁面分塊的分塊類型,獲取屬于主體類型,即文本和圖片的頁面分塊,并對這些文本類型的頁面分塊和圖片類型的頁面分塊分別進行同類合并處理,再根據(jù)同類合并后的文本類型的頁面分塊和圖片類型的頁面分塊,對屬于同一上級節(jié)點的該同類合并后的文本類型的頁面分塊和圖片類型的頁面分塊進行合并處理, 以獲得合并后的待識別分塊。本領域技術人員應能理解上述主體類型以及對待處理頁面的頁面分塊進行合并處理的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的主體類型或者對待處理頁面的頁面分塊進行合并處理的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。網(wǎng)絡設備1根據(jù)預設的可合并層級對待處理頁面的頁面分塊進行合并處理,使得獲得的合并后的待識別分塊在滿足合并層級的要求下,盡可能的包括較為豐富的內容,同時,基于該等待識別分塊獲得的主體分塊,如在后續(xù)操作中將該等主體分塊提供給用戶瀏覽,用戶可以從該等主體分塊中獲得頁面的主要內容,從而減少了用戶獲得頁面主要內容的時間,提升了用戶的使用體驗。進一步地,網(wǎng)絡設備1結合頁面分塊的分塊類型和/或頁面分塊的上級節(jié)點,對頁面分塊進行合并處理,使得合并獲得的待識別分塊中僅包括符合主體類型的頁面分塊,并且考慮到了對圖片混排的頁面的適用,將圖片類型的頁面分塊和文本類型的頁面分塊合并,使得后續(xù)基于該等合并后的待識別分塊獲得的主體分塊中包括了頁面的重要信息。在步驟S304中,網(wǎng)絡設備1對其在步驟S303中獲得的合并后的待識別分塊進行主體識別,以確定待處理頁面的主體分塊。在此,網(wǎng)絡設備1對合并后的待識別分塊基于多種方式進行識別,諸如待識別分塊的字體格式信息、行數(shù)信息、寬度信息、位置信息等。例如,在一示例中,在步驟S303中,網(wǎng)絡設備1獲得多個合并后的待識別分塊;在步驟S304 中,網(wǎng)絡設備1根據(jù)該等待識別分塊的位置是否處于待處理頁面的中部、待識別分塊的行數(shù)、寬度是否大于相應的預設閾值、待識別分塊的標題字號是否與正文字號不同,從該等待識別分塊中確定位置處于待處理頁面的中部、行數(shù)及寬度大于相應的預設閾值且標題字號與正文字號不同的待識別分塊為該待處理頁面的主體分塊。本領域技術人員應能理解上述對待處理頁面的主體分塊的識別方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的對待處理頁面的主體分塊的識別方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。優(yōu)選地,網(wǎng)絡設備1對所述合并后的待識別分塊進行主體識別的操作基于以下至少任一項1)所述合并后的待識別分塊的字體格式信息;2)所述合并后的待識別分塊的行數(shù)信息;3)所述合并后的待識別分塊的寬度信息;4)所述合并后的待識別分塊的位置信息。具體地,網(wǎng)絡設備1通過對合并后的待識別分塊的字體格式信息、行數(shù)信息、寬度信息或位置信息等的識別,確定所述合并后的待識別分塊中的主體分塊。下面分別對上述各項舉例說明1)關于待識別分塊的字體格式信息,在一示例中,網(wǎng)絡設備1通過識別待識別分塊中標題與正文的字體,以及標題的字號是否大于正文的字號等,從待識別分塊中識別出主體分塊;2)關于待識別分塊的行數(shù)信息,在一示例中,網(wǎng)絡設備1通過與預設的行數(shù)閾值的比較,從待識別分塊中識別出主體分塊;3)關于待識別分塊的寬度信息,在一示例中,網(wǎng)絡設備1通過與預設的寬度閾值的比較,從待識別分塊中識別出主體分塊;4)關于待識別分塊的位置信息,在一示例中,網(wǎng)絡設備1通過識別待識別分塊是否位于頁面的上部或中部,網(wǎng)絡設備1從待識別分塊中識別出主體分塊。本領域技術人員應能理解,上述各項識別操作不僅可以單獨用于網(wǎng)絡設備1從待識別分塊中識別出主體分塊,還可以相互結合用于網(wǎng)絡設備1從待識別分塊中識別出主體分塊。本領域技術人員還應能理解上述識別操作僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的識別操作如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。網(wǎng)絡設備1根據(jù)待識別分塊中的文本相關信息,諸如字體格式信息、行數(shù)信息、寬度信息等,對待識別分塊進行主體識別,使得對于新聞頁面、博客頁面等包括大量文本信息的內容頁面,本發(fā)明可以識別出該等內容頁面中的主要內容,為該等內容頁面的后續(xù)開發(fā)應用提供了便利。在圖3所示過程的一個優(yōu)選實施例中,該過程還包括步驟S309 (未示出)。在步驟 S309中,網(wǎng)絡設備1根據(jù)其在步驟S304中確定的主體分塊的內容,建立待處理頁面的頁面索引,用以更新搜索引擎的索引信息庫。在此,網(wǎng)絡設備1包括搜索引擎服務器或與搜索引擎服務器相連的中間服務器,該網(wǎng)絡設備1根據(jù)待處理頁面中主體分塊的內容,通過分詞技術,諸如最大正向匹配法、最大反向匹配法、最短路徑分詞法等,提取各種關鍵詞,建立該待處理頁面的頁面索引,用于更新搜索引擎的索引信息庫。由于該頁面索引直接基于頁面的主體分塊建立,使得頁面內容與頁面索引中的關鍵詞的相關度更高,從而搜索引擎將該頁面作為該關鍵詞的搜索結果提供給用戶時的準確度也更高。圖4為根據(jù)本發(fā)明一個優(yōu)選實施例的方法流程圖,示出網(wǎng)絡設備和用戶設備配合實現(xiàn)對頁面進行主體識別的過程。具體地,在步驟S401中,網(wǎng)絡設備1獲取待處理頁面;在步驟S402中,網(wǎng)絡設備1根據(jù)所述待處理頁面的文檔結構,對所述待處理頁面進行分塊處理,以獲得所述待處理頁面的頁面分塊;在步驟S403中,網(wǎng)絡設備1根據(jù)所述頁面分塊在所述文檔結構中的層級,按照預設的可合并層級數(shù),對處于同一層級的頁面分塊進行合并處理,以獲得合并后的待識別分塊;在步驟S404中,網(wǎng)絡設備1對所述合并后的待識別分塊進行主體識別,以確定所述待處理頁面的主體分塊;在步驟S405中,網(wǎng)絡設備1通過在所述待處理頁面中對所述主體分塊進行標識,獲得包括該主體分塊的標識信息的頁面,將所述包括該主體分塊的標識信息的頁面提供至用戶;相應地,用戶設備2接收自網(wǎng)絡設備1發(fā)送的頁面,其中,所述頁面中包括主體分塊的標識信息;在步驟S406中,用戶設備2加載所述頁面;主在步驟S407中,用戶設備2根據(jù)所述標識信息,在所述頁面中提供與所述主體分塊相對應的主體控件。在此,網(wǎng)絡設備1包括但不限于各種網(wǎng)絡服務器,諸如網(wǎng)站服務器、博客服務器、搜索引擎服務器等,以及與所述網(wǎng)絡服務器進行通信的中間服務器,其中,所述中間服務器包括但不限于網(wǎng)絡主機、單個網(wǎng)絡服務器、多個網(wǎng)絡服務器集或基于云計算的計算機集合,在此,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。用戶設備2包括但不限于任何可適用于本發(fā)明的能夠與用戶進行交互,并訪問互聯(lián)網(wǎng)的電子產(chǎn)品,諸如手機、PDA、掌上電腦(PPC)、游戲機(PSP)、個人計算機等,進一步地,本發(fā)明中實現(xiàn)頁面瀏覽的為安裝于用戶設備2中的瀏覽器,本文中,瀏覽器與用戶設備2不作區(qū)分,等同使用。本領域技術人員應能理解上述網(wǎng)絡設備以及用戶設備僅為舉例, 其他現(xiàn)有的或今后可能出現(xiàn)的網(wǎng)絡設備或者用戶設備如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。其中,圖4中網(wǎng)絡設備1在步驟S401、步驟S402、步驟S403和步驟S404中所執(zhí)行的操作與圖3中網(wǎng)絡設備1在步驟S301、步驟S302、、步驟S303和步驟S304中所執(zhí)行的操作的內容相同或基本相同,為簡明起見,以引用方式包含于此,不再贅述。在步驟S405中,網(wǎng)絡設備1通過在所述待處理頁面中對所述主體分塊進行標識, 獲得包括該主體分塊的標識信息的頁面,將所述包括該主體分塊的標識信息的頁面提供至用戶;相應地,用戶設備2接收自網(wǎng)絡設備1發(fā)送的頁面,其中,所述頁面中包括主體分塊的標識信息。在步驟S406中,用戶設備2加載所述頁面。在步驟S407中,用戶設備2根據(jù)所述標識信息,在所述頁面中提供與所述主體分塊相對應的主體控件。在此,所述主體控件包括但不限于任何可適用于本發(fā)明的經(jīng)觸發(fā)后向用戶提供頁面的主體分塊的各種頁面按鈕、熱鍵等,如“主體”提示按鈕。例如,在步驟S401中,用戶設備2向網(wǎng)絡設備1發(fā)送用戶的頁面訪問請求,網(wǎng)絡設備1獲取該頁面訪問請求所對應的頁面作為待處理頁面;在步驟S402中,網(wǎng)絡設備1根據(jù)該待處理頁面的文檔結構,對該待處理頁面進行分塊處理,以獲得該處理頁面的頁面分塊;在步驟S403中,網(wǎng)絡設備1根據(jù)頁面分塊在該文檔結構中的層級,按照預設的可合并層級,對相應的頁面分塊進行合并處理,以獲得合并后的待識別分塊;在步驟S404中,網(wǎng)絡設備1對合并后的待識別分塊進行主體識別, 以確定該待處理頁面的主體分塊;在步驟S405中,網(wǎng)絡設備1通過在該待處理頁面中對其主體分塊進行標識,獲得包括該主體分塊的標識信息的頁面,將包括該主體分塊的標識信息的頁面提供至用戶;相應地,用戶設備2接收自網(wǎng)絡設備1發(fā)送的該頁面訪問請求所對應的頁面,其中,該頁面中包括主體分塊的標識信息;在步驟S406中,用戶設備2對該頁面進行加載;在步驟S407中,用戶設備2根據(jù)該頁面中主體分塊的標識信息,在該頁面中提供與該主體分塊相對應的“主體”提示按鈕,如圖5所示。本領域技術人員應能理解上述主體控件僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的主體控件如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。優(yōu)選地,該過程還包括步驟S408。在步驟S408中,用戶設備2獲取用戶對其在步驟S407中提供的主體控件的選擇操作;根據(jù)所述選擇操作,突顯當前頁面中的主體分塊。 接上例,用戶點擊如圖5所示的該“主體”提示按鈕,用戶設備2獲取用戶的該點擊操作,根據(jù)該點擊操作,在當前窗口全屏顯示當前頁面的主體分塊。在此,突顯主體分塊的方式還可以是諸如對頁面的其他部分進行模糊化處理、高亮主體分塊、將主體分塊當屏顯示等。本領域技術人員應能理解上述突顯主體分塊的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的突顯主體分塊的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。對于本領域技術人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權利要求而不是上述說明限定,因此旨在將落在權利要求的等同要件的含義和范圍內的所有變化涵括在本發(fā)明內。不應將權利要求中的任何附圖標記視為限制所涉及的權利要求。此外,顯然“包括” 一詞不排除其他單元或步驟,單數(shù)不排除復數(shù)。系統(tǒng)權利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
權利要求
1.一種計算機實現(xiàn)的用于對頁面進行主體識別的方法,其中,該方法包括以下步驟 a獲取待處理頁面;b根據(jù)所述待處理頁面的文檔結構,對所述待處理頁面進行分塊處理,以獲得所述待處理頁面的頁面分塊;c根據(jù)所述頁面分塊在所述文檔結構中的層級,按照預設的可合并層級,對所述可合并層級所對應的頁面分塊進行合并處理,以獲得合并后的待識別分塊;d對所述合并后的待識別分塊進行主體識別,以確定所述待處理頁面的主體分塊。
2.根據(jù)權利要求1所述的方法,其中,所述步驟c包括-根據(jù)所述頁面分塊在所述文檔結構中的層級,按照預設的可合并層級,結合所述頁面分塊的分塊類型,對所述分塊類型相同且屬于主體類型的頁面分塊進行合并處理,以獲得所述合并后的待識別分塊。
3.根據(jù)權利要求1或2所述的方法,其中,所述步驟c還包括-根據(jù)所述頁面分塊在所述文檔結構中的層級,按照預設的可合并層級,對屬于同一上級節(jié)點且屬于主體類型的頁面分塊進行合并處理,以獲得所述合并后的待識別分塊。
4.根據(jù)權利要求1至3中任一項所述的方法,其中,所述步驟b包括 -對所述待處理頁面進行解析,以獲得所述待處理頁面的渲染樹模型;-根據(jù)所述渲染樹模型,對所述待處理頁面進行分塊處理,以獲得所述頁面分塊。
5.根據(jù)權利要求1至4中任一項所述的方法,其中,該方法還包括-通過在所述待處理頁面中對所述主體分塊進行標識,獲得包括該主體分塊的標識信息的頁面;-將所述包括該主體分塊的標識信息的頁面提供至用戶。
6.根據(jù)權利要求1至4中任一項所述的方法,其中,該方法還包括-根據(jù)所述主體分塊的內容,建立所述待處理頁面的頁面索引,用以更新搜索引擎的索引信息庫。
7.根據(jù)權利要求1至6中任一項所述的方法,其中,所述步驟d中對所述合并后的待識別分塊進行主體識別的操作基于以下至少任一項-所述合并后的待識別分塊的字體格式信息; -所述合并后的待識別分塊的行數(shù)信息; -所述合并后的待識別分塊的寬度信息; -所述合并后的待識別分塊的位置信息。
8.—種在用戶設備端顯示頁面主體的方法,其中,該方法包括以下步驟A接收自網(wǎng)絡設備發(fā)送的頁面,其中,所述頁面中包括主體分塊的標識信息; B加載所述頁面;C根據(jù)所述標識信息,在所述頁面中提供與所述主體分塊相對應的主體控件。
9.根據(jù)權利要求8所述的方法,其中,該方法還包括 -獲取用戶對所述主體控件的選擇操作;-根據(jù)所述選擇操作,突顯所述主體分塊。
10.一種用于對頁面進行主體識別的網(wǎng)絡設備,其中,該網(wǎng)絡設備包括 頁面獲取裝置,用于獲取待處理頁面;頁面分塊裝置,用于根據(jù)所述待處理頁面的文檔結構,對所述待處理頁面進行分塊處理,以獲得所述待處理頁面的頁面分塊;分塊合并裝置,用于根據(jù)所述頁面分塊在所述文檔結構中的層級,按照預設的可合并層級,對所述可合并層級所對應的頁面分塊進行合并處理,以獲得合并后的待識別分塊;主體識別裝置,用于對所述合并后的待識別分塊進行主體識別,以確定所述待處理頁面的主體分塊。
11.根據(jù)權利要求10所述的網(wǎng)絡設備,其中,所述分塊合并裝置用于-根據(jù)所述頁面分塊在所述文檔結構中的層級,按照預設的可合并層級,結合所述頁面分塊的分塊類型,對所述分塊類型相同且屬于主體類型的頁面分塊進行合并處理,以獲得所述合并后的待識別分塊。
12.根據(jù)權利要求11所述的網(wǎng)絡設備,其中,所述分塊合并裝置還用于-根據(jù)所述頁面分塊在所述文檔結構中的層級,按照預設的可合并層級,對屬于同一上級節(jié)點且屬于主體類型的頁面分塊進行合并處理,以獲得所述合并后的待識別分塊。
13.根據(jù)權利要求10至12中任一項所述的網(wǎng)絡設備,其中,所述頁面分塊裝置用于 -對所述待處理頁面進行解析,以獲得所述待處理頁面的渲染樹模型;-根據(jù)所述渲染樹模型,對所述待處理頁面進行分塊處理,以獲得所述頁面分塊。
14.根據(jù)權利要求10至13中任一項所述的網(wǎng)絡設備,其中,該網(wǎng)絡設備還包括主體標識裝置,所述主體標識裝置用于-通過在所述待處理頁面中對所述主體分塊進行標識,獲得包括該主體分塊的標識信息的頁面;-將所述包括該主體分塊的標識信息的頁面提供至用戶。
15.根據(jù)權利要求10至14中任一項所述的網(wǎng)絡設備,其中,該網(wǎng)絡設備還包括 索引更新裝置,用于根據(jù)所述主體分塊的內容,建立所述待處理頁面的頁面索引,用以更新搜索引擎的索引信息庫。
16.根據(jù)權利要求10至15中任一項所述的網(wǎng)絡設備,其中,所述主體識別裝置對所述合并后的待識別分塊進行主體識別的操作基于以下至少任一項-所述合并后的待識別分塊的字體格式信息; -所述合并后的待識別分塊的行數(shù)信息; -所述合并后的待識別分塊的寬度信息; -所述合并后的待識別分塊的位置信息。
17.—種顯示頁面主體的用戶設備,其中,該用戶設備包括頁面接收裝置,用于接收自網(wǎng)絡設備發(fā)送的頁面,其中,所述頁面中包括主體分塊的標識信息;頁面加載裝置,用于加載所述頁面;主體控件提供裝置,用于根據(jù)所述標識信息,在所述頁面中提供與所述主體分塊相對應的主體控件。
18.根據(jù)權利要求17所述的用戶設備,其中,該用戶設備還包括主體突顯裝置,所述主體突顯裝置用于-獲取用戶對所述主體控件的選擇操作;-根據(jù)所述選擇操作,突顯所述主體分塊。
19. 一種用于對頁面進行主體識別的系統(tǒng),其中,該系統(tǒng)包括如權利要求10至16中任一項所述的網(wǎng)絡設備和如權利要求17或18所述的用戶設備。
全文摘要
本發(fā)明的目的是提供一種用于對頁面進行主體識別的方法與設備。其中,網(wǎng)絡設備獲取待處理頁面;根據(jù)所述待處理頁面的文檔結構,獲得所述待處理頁面的頁面分塊;根據(jù)所述頁面分塊在所述文檔結構中的層級,按照預設的可合并層級,對頁面分塊進行合并處理,以獲得合并后的待識別分塊;對所述合并后的待識別分塊進行主體識別,以確定所述待處理頁面的主體分塊。用戶設備接收并加載自網(wǎng)絡設備發(fā)送的頁面;根據(jù)所述標識信息,在所述頁面中提供與所述主體分塊相對應的主體控件。本發(fā)明使得搜索引擎可以基于該等主體分塊進行頁面索引,從而為用戶提供更為準確的搜索結果;或者使得用戶可以更快地獲得頁面的主要內容,提升了用戶的頁面瀏覽體驗。
文檔編號G06F17/30GK102314498SQ20111024937
公開日2012年1月11日 申請日期2011年8月26日 優(yōu)先權日2011年8月26日
發(fā)明者孫林 申請人:百度在線網(wǎng)絡技術(北京)有限公司