專利名稱:網(wǎng)頁視覺復雜度的自動評價方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機應(yīng)用技術(shù)領(lǐng)域,特別涉及一種網(wǎng)頁視覺復雜度的評價方法。
背景技術(shù):
互聯(lián)網(wǎng)網(wǎng)頁不僅包含了人們所需要的各種信息,同時還是互聯(lián)網(wǎng)的用戶接口 (User Interface, UI) 0網(wǎng)頁的視覺感知影響著網(wǎng)頁的用戶體驗。很多領(lǐng)域的學者已經(jīng) 開始研究網(wǎng)頁的視覺復雜度對用戶網(wǎng)頁交互的影響。已有研究指出,視覺復雜度越高的網(wǎng) 頁使得用戶訪問網(wǎng)頁時候的認知復雜度越高,影響了網(wǎng)頁的可訪問性。對于一個視覺復雜 度的網(wǎng)頁,其內(nèi)容很難被有視覺障礙的用戶順利獲取。因此在人機交互(HumanComputer Interaction,HCI)和網(wǎng)頁設(shè)計領(lǐng)域,在網(wǎng)頁視覺復雜度評價上已有很多的工作。但是由于 這些領(lǐng)域的研究人員通常在網(wǎng)頁挖掘、視覺信息處理、模型構(gòu)建方面比較欠缺,所設(shè)計的評 價模型不適用于對大規(guī)模網(wǎng)頁的自動評價。
發(fā)明內(nèi)容
(一)要解決的技術(shù)問題有鑒于此,本發(fā)明的主要目的是提供一種網(wǎng)頁視覺復雜度的自動評價方法。( 二 )技術(shù)方案為達到上述目的,本發(fā)明提供了一種網(wǎng)頁視覺復雜度的自動評價方法,該方法包 括步驟1 首先收集盡可能多的網(wǎng)頁樣本建立訓練集,利用人工來對每幅網(wǎng)頁在視 覺上是否復雜進行評判,人工標記的綜合結(jié)果為視覺復雜的樣本組成正類樣本集,人工標 記的綜合結(jié)果為視覺簡單的樣本組成負類樣本集,兩個集合構(gòu)成了訓練集;步驟2 獲取每幅網(wǎng)頁的源碼,利用網(wǎng)頁分割算法來對每幅網(wǎng)頁進行分割并提取 網(wǎng)頁布局塊和文本塊;步驟3 將每一幅網(wǎng)頁轉(zhuǎn)換成一副圖像,提取每幅網(wǎng)頁三個方面的特征源碼特 征、結(jié)構(gòu)特征以及視覺特征;步驟4:利用得到的每幅網(wǎng)頁的特征對隨機森林分類器進行訓練,得到分類器參 數(shù),并對新網(wǎng)頁樣本進行評價,判定其是否為高于復雜度閾值的網(wǎng)頁。其中,所述建立訓練集,是請多個用戶對每個網(wǎng)頁樣本在視覺上是否復雜進行評 判,獲得每個樣本的多個視覺復雜度評判結(jié)果并對多個視覺復雜度評判結(jié)果進行平均計 算,對于計算得到的平均值高于視覺復雜度閾值的網(wǎng)頁樣本,其人工標記的綜合結(jié)果為視 覺復雜,該樣本歸為正類樣本,低于視覺復雜度閾值的網(wǎng)頁樣本,其人工標記的綜合結(jié)果為 視覺簡單,該樣本歸為負類樣本;所有的正類樣本組成正類樣本集合,所有的負類樣本組成 負類樣本集合,兩個集合構(gòu)成了訓練集;其中,所述的源碼特征包括網(wǎng)頁包含為文字字符個數(shù)、網(wǎng)頁包含超鏈接文字字符 個數(shù)、網(wǎng)頁使用字體個數(shù)、網(wǎng)頁背景顏色個數(shù)、網(wǎng)頁圖像個數(shù)。
其中,所述的結(jié)構(gòu)特征包括網(wǎng)頁布局塊的個數(shù)、網(wǎng)頁文本塊的個數(shù)、網(wǎng)頁文本塊 總面積占總體網(wǎng)頁的面積比、網(wǎng)頁文字字符個數(shù)與網(wǎng)頁文本塊面積的比例、網(wǎng)頁長寬比、網(wǎng) 頁長寬和。其中,所述的視覺特征包括網(wǎng)頁的色調(diào)表示為HueO^ge)、網(wǎng)頁的明亮度表示為
Brightness (I^age)、網(wǎng)頁的彩色度表示為Colorfulness page)以及網(wǎng)頁轉(zhuǎn)換為圖像后對
應(yīng)的文件大小。視覺特征的計算首先需要把一副網(wǎng)頁首先轉(zhuǎn)化為一副圖形,并分別用顏色
空間HSV和顏色空間RGB進行表示,然后采用以下公式
權(quán)利要求
1.一種網(wǎng)頁視覺復雜度的評價方法,其特征在于,該方法包括步驟1 首先收集盡可能多的網(wǎng)頁樣本建立訓練集,利用人工來對每幅網(wǎng)頁在視覺上 是否復雜進行評判,人工標記的綜合結(jié)果為視覺復雜的樣本組成正類樣本集,人工標記的 綜合結(jié)果為視覺簡單的樣本組成負類樣本集,兩個集合構(gòu)成了訓練集;步驟2 在訓練集上獲取每幅網(wǎng)頁的源碼,利用網(wǎng)頁分割算法來對每幅網(wǎng)頁進行分割 并提取網(wǎng)頁布局塊和文本塊;步驟3 將每一幅網(wǎng)頁轉(zhuǎn)換成一幅圖像,提取每幅網(wǎng)頁三個方面的特征源碼特征、結(jié) 構(gòu)特征、視覺特征;步驟4 利用得到的每幅網(wǎng)頁的特征對隨機森林分類器進行訓練,得到分類器參數(shù),并 對新網(wǎng)頁樣本進行評價,判定其是否為高于復雜度閾值的網(wǎng)頁。
2.根據(jù)權(quán)利要求1所述的網(wǎng)頁視覺復雜度的評價方法,其特征在于,所述建立訓練集, 是請多個用戶對每個網(wǎng)頁樣本在視覺上是否復雜進行評判,獲得每個樣本的多個視覺復雜 度評判結(jié)果并對多個視覺復雜度評判結(jié)果進行平均計算,對于計算得到的平均值高于視覺 復雜度閾值的網(wǎng)頁樣本,其人工標記的綜合結(jié)果為視覺復雜,該樣本歸為正類樣本,低于視 覺復雜度閾值的網(wǎng)頁樣本,其人工標記的綜合結(jié)果為視覺簡單,該樣本歸為負類樣本;所有 的正類樣本組成正類樣本集合,所有的負類樣本組成負類樣本集合,兩個集合構(gòu)成了訓練 集。
3.根據(jù)權(quán)利要求1所述的網(wǎng)頁視覺復雜度的評價方法,其特征在于,所述源碼特征包 括網(wǎng)頁包含為文字字符個數(shù)、網(wǎng)頁包含超鏈接文字字符個數(shù)、網(wǎng)頁使用字體個數(shù)、網(wǎng)頁背 景顏色個數(shù)、網(wǎng)頁圖像個數(shù)。
4.根據(jù)權(quán)利要求1所述的網(wǎng)頁視覺復雜度的評價方法,其特征在于,所述結(jié)構(gòu)特征包 括網(wǎng)頁布局塊的個數(shù)、網(wǎng)頁文本塊的個數(shù)、網(wǎng)頁文本塊占總體網(wǎng)頁的面積比、網(wǎng)頁文字字 符個數(shù)與網(wǎng)頁文本塊面積的比例、網(wǎng)頁長寬比、網(wǎng)頁長寬和。
5.根據(jù)權(quán)利要求1所述的網(wǎng)頁視覺復雜度的評價方法,其特征在于,所述視覺特征包 括網(wǎng)頁的色調(diào)表示為Hue (Page)、網(wǎng)頁的明亮度表示為Brightness (Page)、網(wǎng)頁的彩色度 表示為Colorfulness O^ge)以及網(wǎng)頁轉(zhuǎn)化為圖形后的文件大??;視覺特征的計算首先需 要把一幅網(wǎng)頁轉(zhuǎn)化為一幅圖形,并分別用顏色空間HSV和顏色空間RGB進行表示,然后采用 以下公式
6.根據(jù)權(quán)利要求1所述的網(wǎng)頁視覺復雜度的評價方法,其特征在于,采用隨機森林分 類算法對網(wǎng)頁進行分類,判定其是否高于視覺復雜度閾值的網(wǎng)頁。
全文摘要
本發(fā)明公開一種網(wǎng)頁視覺復雜度的自動評價方法,包括收集網(wǎng)頁樣本,每個樣本通過人工來進行標記其為視覺復雜的網(wǎng)頁樣本還是視覺簡單的網(wǎng)頁樣本,以此建立訓練集,利用網(wǎng)頁分割算法來對每幅網(wǎng)頁進行分割并提取網(wǎng)頁布局塊與文本塊,把每一幅網(wǎng)頁轉(zhuǎn)換成一副圖像,結(jié)合網(wǎng)頁的源碼,以及提取的網(wǎng)頁布局塊和文本塊來提取每一幅網(wǎng)頁三方面的特征源碼特征、結(jié)構(gòu)特征、視覺特征;利用得到的網(wǎng)頁特征對隨機森林分類器進行訓練,得到分類器參數(shù),并對新網(wǎng)頁進行評價,判定其在視覺上是否復雜。本發(fā)明可以應(yīng)用在Web搜索與網(wǎng)頁設(shè)計等諸多方面,提高基于Web的應(yīng)用程序的性能。
文檔編號G06F17/30GK102141998SQ201010106759
公開日2011年8月3日 申請日期2010年2月3日 優(yōu)先權(quán)日2010年2月3日
發(fā)明者吳偶, 胡衛(wèi)明 申請人:中國科學院自動化研究所