国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種確定網(wǎng)頁類型的方法和裝置的制作方法

      文檔序號:6433730閱讀:167來源:國知局
      專利名稱:一種確定網(wǎng)頁類型的方法和裝置的制作方法
      一種確定網(wǎng)頁類型的方法和裝置技術(shù)領(lǐng)域
      本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種確定網(wǎng)頁類型的方法和裝置。背景技術(shù)
      隨著網(wǎng)絡技術(shù)的迅猛發(fā)展,網(wǎng)絡信息的不斷豐富,用戶已經(jīng)習慣于通過搜索引擎從網(wǎng)絡中獲取關(guān)心的信息。在搜索引擎技術(shù)中,無論是需求分析、搜索結(jié)果排序或個性化搜索,均可能涉及到確定網(wǎng)頁類型的操作。諸如,在需求分析中,通過分析搜索日志中query 對應的被點擊網(wǎng)頁的類型即可確定該query的搜索需求;在搜索結(jié)果排序中,根據(jù)網(wǎng)頁類型與query搜索需求之間的一致性確定網(wǎng)頁在搜索結(jié)果中的排序;在個性化搜索中,通過分析搜索日志中用戶所點擊、瀏覽的網(wǎng)頁的類型,確定用戶的搜索習慣或搜索興趣,從而為用戶提供符合其搜索習慣或搜索興趣的個性化搜索結(jié)果。
      現(xiàn)有的確定網(wǎng)頁類型的方式,主要是抽取網(wǎng)頁文本的文本特征向量,利用分類器對各網(wǎng)頁進行分類確定網(wǎng)頁類型,其中在抽取網(wǎng)頁文本的文本特征向量時,需要下載網(wǎng)頁內(nèi)容,對網(wǎng)頁內(nèi)容進行文本分析,提取出核心詞及其權(quán)重構(gòu)成文本特征向量。這種方式存在以下缺陷
      缺陷一需要下載和分析網(wǎng)頁內(nèi)容,對于海量數(shù)據(jù)而言,效率較低,速度較慢。
      缺陷二 很多網(wǎng)站為了提高其在搜索引擎中的排序,會人為在網(wǎng)頁中加入大量的類別關(guān)鍵詞,這種作弊手段很大程度上影響了確定這些網(wǎng)頁類型的準確性。
      缺陷三網(wǎng)絡中存在大量不同形式的網(wǎng)頁,網(wǎng)頁形式的千差萬別對于分析網(wǎng)頁內(nèi)容帶來難度。
      發(fā)明內(nèi)容
      有鑒于此,本發(fā)明提供了一種確定網(wǎng)頁類型的方法和裝置,以便于解決現(xiàn)有方式中存在的上述缺陷。
      具體技術(shù)方案如下
      一種確定網(wǎng)頁類型的方法,該方法包括
      S1、獲取搜索日志中待識別網(wǎng)頁被點擊時所對應的所有query ;
      S2、確定步驟SI所獲取query的各η元詞組n-gram構(gòu)成所述待識別網(wǎng)頁的特征向量,η為預設的一個或多個正整數(shù);
      S3、基于所述待識別網(wǎng)頁的特征向量和各預設類型的特征向量之間的相關(guān)性,確定所述待識別網(wǎng)頁的類型。
      根據(jù)本發(fā)明一優(yōu)選實施例,所述步驟SI還包括獲取所述待識別網(wǎng)頁的標題;
      所述步驟S2中還包括確定所述待識別網(wǎng)頁的標題的各n-gram,將所述待識別網(wǎng)頁的標題的各n-gram與所述步驟SI所獲取query的各n-gram共同構(gòu)成所述待識別網(wǎng)頁的特征向量。
      根據(jù)本發(fā)明一優(yōu)選實施例,所述預設類型的特征向量是預先基于各預設類型的訓練語料的n-gram形成的。
      根據(jù)本發(fā)明一優(yōu)選實施例,所述預設類型的訓練語料的獲取方法包括
      Al、獲取所述預設類型的種子query ;
      A2、獲取搜索日志中所述種子query對應的被點擊網(wǎng)頁,保留被點擊次數(shù)大于設 定被點擊次數(shù)閾值的網(wǎng)頁;
      A3、確定所述搜索日志中步驟A2保留的網(wǎng)頁被點擊時對應的所有query,記錄各 query對應的網(wǎng)頁被點擊次數(shù),得到所述預設類型的訓練語料;或者,確定所述搜索日志中 步驟A2保留的網(wǎng)頁被點擊時對應的所有query和網(wǎng)頁標題,記錄各query對應的網(wǎng)頁被點 擊次數(shù)和網(wǎng)頁標題的出現(xiàn)次數(shù),得到所述預設類型的訓練語料。
      根據(jù)本發(fā)明一優(yōu)選實施例,所述步驟S3具體包括
      計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的重疊率,根據(jù)計 算的重疊率確定待識別網(wǎng)頁的類型;或者,
      計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的相似度,根據(jù)計 算的相似度確定待識別網(wǎng)頁的類型;或者,
      預先將各預設類型的特征向量作為特征訓練出分類器,所述待識別網(wǎng)頁的特征向 量作為所述分類器的輸入,依據(jù)所述分類器的分類結(jié)果確定所述待識別網(wǎng)頁的類型。
      根據(jù)本發(fā)明一優(yōu)選實施例,計算所述待識別網(wǎng)頁的特征向量與預設類型的特征向 量之間的重疊率包括
      計算所述待識別網(wǎng)頁的特征向量和預設類型的特征向量之間重疊的n-gram在待 識別網(wǎng)頁的特征向量中的出現(xiàn)次數(shù)乘以所述重疊的n-gram在預設類型的特征向量中的權(quán) 重之和,再除以所述待識別網(wǎng)頁的特征向量中所有n-gram的出現(xiàn)次數(shù)之和所得到的值;
      其中,預設類型的特征向量中n-gram的權(quán)重為在該預設類型的訓練語料中該 n-gram的出現(xiàn)次數(shù)與所有n-gram的總出現(xiàn)次數(shù)的比值。
      根據(jù)本發(fā)明一優(yōu)選實施例,計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征 向量之間的相似度包括
      計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的余弦相似度;
      其中,預設類型的特征向量中各n-gram的權(quán)重為各n-gram的詞頻tf*逆向文檔 頻率idf ;所述待識別網(wǎng)頁的特征向量中各n-gram的權(quán)重為各n-gram的tf* idf。
      根據(jù)本發(fā)明一優(yōu)選實施例,在將各預設類型的特征向量作為特征訓練出分類器 時,預設類型的特征向量中n-gram的權(quán)重為n_gram的出現(xiàn)次數(shù)與所有n-gram的總出現(xiàn) 次數(shù)的比值,或者,各n-gram的tf* idf。
      根據(jù)本發(fā)明一優(yōu)選實施例,所述分類器為最大熵分類器或者支持向量機SVM分 類器。
      根據(jù)本發(fā)明一優(yōu)選實施例,所述根據(jù)計算的重疊率確定待識別網(wǎng)頁的類型包括 將重疊率大于設定重疊率閾值的預設類型確定為所述待識別網(wǎng)頁的類型;或者,將重疊率 排在前NI個的預設類型確定為所述待識別網(wǎng)頁的類型,所述NI為預設的正整數(shù);或者,按 照預設的重疊率值與類型等級之間的對應關(guān)系,確定所述待識別網(wǎng)頁在各類型上的等級;
      所述根據(jù)計算的相似度確定待識別網(wǎng)頁的類型包括將相似度大于設定相似度閾 值的預設類型確定為所述待識別網(wǎng)頁的類型;或者,將相似度排在前N2個的預設類型確定為所述待識別網(wǎng)頁的類型,所述N2為預設的正整數(shù);或者,按照預設的相似度值與類型等級之間的對應關(guān)系,確定所述待識別網(wǎng)頁在各類型上的等級。
      一種確定網(wǎng)頁類型的裝置,該裝置包括
      query獲取單元,用于獲取搜索日志中待識別網(wǎng)頁被點擊時所對應的所有query ;
      第一向量確定單元,用于確定所述query獲取單元所獲取query的各η元詞組 n-gram構(gòu)成所述待識別網(wǎng)頁的特征向量,η為預設的一個或多個正整數(shù);
      類型確定單元,用于基于所述待識別網(wǎng)頁的特征向量和各預設類型的特征向量之間的相關(guān)性,確定所述待識別網(wǎng)頁的類型。
      根據(jù)本發(fā)明一優(yōu)選實施例,該裝置還包括標題獲取單元,用于獲取所述待識別網(wǎng)頁的標題;
      所述第一向量確定單元,還用于確定所述待識別網(wǎng)頁的標題的各n-gram,將所述待識別網(wǎng)頁的標題的各n-gram與所述query獲取單元所獲取query的各n-gram共同構(gòu)成所述待識別網(wǎng)頁的特征向量。
      根據(jù)本發(fā)明一優(yōu)選實施例,該裝置還包括第二向量確定單元,用于預先基于各預設類型的訓練語料的n-gram形成所述預設類型的特征向量。
      根據(jù)本發(fā)明一優(yōu)選實施例,該裝置還包括語料獲取單元,用于獲取所述預設類型的種子query ;獲取搜索日志中所述種子query對應的被點擊網(wǎng)頁,保留被點擊次數(shù)大于設定被點擊次數(shù)閾值的網(wǎng)頁;確定保留的網(wǎng)頁被點擊時對應的所有query,記錄各query對應的網(wǎng)頁被點擊次數(shù),得到所述預設類型的訓練語料,或者,確定保留的網(wǎng)頁被點擊時對應的所有query和網(wǎng)頁標題,記錄各query對應的網(wǎng)頁被點擊次數(shù)和網(wǎng)頁標題的出現(xiàn)次數(shù),得到所述預設類型的訓練語料。
      根據(jù)本發(fā)明一優(yōu)選實施例,所述類型確定單元計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量 之間的重疊率,根據(jù)計算的重疊率確定待識別網(wǎng)頁的類型;或者,
      計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的相似度,根據(jù)計算的相似度確定待識別網(wǎng)頁的類型;或者,
      預先將各預設類型的特征向量作為特征訓練出分類器,所述待識別網(wǎng)頁的特征向量作為所述分類器的輸入,依據(jù)所述分類器的分類結(jié)果確定所述待識別網(wǎng)頁的類型。
      根據(jù)本發(fā)明一優(yōu)選實施例,所述類型確定單元在計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的重疊率時,具體計算所述待識別網(wǎng)頁的特征向量和預設類型的特征向量之間重疊的n-gram在待識別網(wǎng)頁的特征向量中的出現(xiàn)次數(shù)乘以所述重疊的 n-gram在預設類型的特征向量中的權(quán)重之和,再除以所述待識別網(wǎng)頁的特征向量中所有 n-gram的出現(xiàn)次數(shù)之和所得到的值;
      其中,預設類型的特征向量中n-gram的權(quán)重為在該預設類型的訓練語料中該 n-gram的出現(xiàn)次數(shù)與所有n-gram的總出現(xiàn)次數(shù)的比值。
      根據(jù)本發(fā)明一優(yōu)選實施例,所述類型確定單元在計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的相似度時,具體計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的余弦相似度;
      其中,預設類型的特征向量中各n-gram的權(quán)重為各n-gram的詞頻tf*逆向文檔頻率idf ;所述待識別網(wǎng)頁的特征向量中各n-gram的權(quán)重為各n-gram的tf* idf。
      根據(jù)本發(fā)明一優(yōu)選實施例,所述類型確定單元在將各預設類型的特征向量作為特征訓練出分類器時,預設類型的特征向量中n-gram的權(quán)重為n_gram的出現(xiàn)次數(shù)與所有 n-gram的總出現(xiàn)次數(shù)的比值,或者,各n-gram的tf* idf。
      根據(jù)本發(fā)明一優(yōu)選實施例,所述分類器為最大熵分類器或者支持向量機SVM分類器。
      根據(jù)本發(fā)明一優(yōu)選實施例,所述類型確定單元在根據(jù)計算的重疊率確定待識別網(wǎng)頁的類型時,將重疊率大于設定重疊率閾值的預設類型確定為所述待識別網(wǎng)頁的類型;或者,將重疊率排在前NI個的預設類型確定為所述待識別網(wǎng)頁的類型,所述NI為預設的正整數(shù);或者,按照預設的重疊率值與類型等級之間的對應關(guān)系,確定所述待識別網(wǎng)頁在各類型上的等級;
      所述類型確定單元在根據(jù)計算的相似度確定待識別網(wǎng)頁的類型時,將相似度大于設定相似度閾值的預設類型確定為所述待識別網(wǎng)頁的類型;或者,將相似度排在前N2個的預設類型確定為所述待識別網(wǎng)頁的類型,所述N2為預設的正整數(shù);或者,按照預設的相似度值與類型等級之間的對應關(guān)系,確定所述待識別網(wǎng)頁在各類型上的等級。
      由以上技術(shù)方案可以看出,本發(fā)明提供的方法和裝置具備以下優(yōu)點
      I)特征向量來自搜索日志,無需下載和分析網(wǎng)頁內(nèi)容,提高了效率和速度,適合于海量的待識別網(wǎng)頁的需求,且效果更加明顯。
      2)由于本發(fā)明中特征向量來自搜索日志而不是網(wǎng)頁內(nèi)容,因此,對于人為在網(wǎng)頁中加入大量類別關(guān)鍵詞的作弊手段不會影響網(wǎng)頁類型的識別,提高了識別準確性。
      3)本發(fā)明的網(wǎng)頁類別確定方式與網(wǎng)頁內(nèi)容和形式都無關(guān),因此,適用面更廣。

      圖1為本發(fā)明實施例一提供的主要方法流程圖2為本發(fā)明實施例二提供的預設類型的訓練語料的獲取方法流程圖3為本發(fā)明實施例六提供的確定網(wǎng)頁類型的裝置結(jié)構(gòu)圖。
      具體實施方式
      為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細描述。
      實施例一、
      通過對用戶的搜索行為進行分析后發(fā)現(xiàn),用戶提交query進行搜索后,在搜索結(jié)果中點擊的網(wǎng)頁通常能夠反映該用戶的需求,反過來,被點擊網(wǎng)頁對應的query也能夠反映該網(wǎng)頁的類型。基于此,本發(fā)明提供的方法如圖1所示,主要包括以下步驟
      步驟101 :獲取搜索日志中待識別網(wǎng)頁被點擊時所對應的所有query。
      在本發(fā)明實施例中,收集待識別網(wǎng)頁在搜索日志中被點擊時對應的所有query,這些query反映了待識別網(wǎng)頁的類型,因此,通過這些query來確定該待識別網(wǎng)頁的特征向量。
      另外,通常用戶在搜索后點擊某個網(wǎng)頁時很大程度上是受到了網(wǎng)頁標題(title) 的影響,因此這些title通常也表征了網(wǎng)頁的重要信息。在此,還可以進一步獲取該待識別網(wǎng)頁的title,用于形成待識別網(wǎng)頁的特征向量。
      步驟102 :確定步驟101所獲取query的各n-gram構(gòu)成該待識別網(wǎng)頁的特征向量。
      在此,對n-gram的概念進行簡單介紹,所謂n-gram就是最小粒度的η個詞語按順序出現(xiàn)的組合,其中η為預設的一個或多個正整數(shù)。例如,對于query “簡單家常菜的做法大全”,對該query進行分詞處理和去除停用詞后,假設η取1、2、3和4,則確定出的n-gram 如下
      Ι-gram :簡單、家常菜、做法、大全;
      2-gram :簡單家常菜、家常菜做法、做法大全;
      3-gram :簡單家常菜做法、家常菜做法大全;
      4-gram :簡單家常菜做法大全。
      如果在步驟101中同時獲取了待識別網(wǎng)頁的title,則可以同時確定title的 n-gram,與上述query的n-gram共同構(gòu)成待識別網(wǎng)頁的特征向量。
      另外,在待識別網(wǎng)頁的特征向量中,同時記錄各n-gram在步驟101獲取的query 和title中的出現(xiàn)次數(shù)。
      步驟103 :基于該待識別網(wǎng)頁的特征向量和各預設類型的特征向量之間的相關(guān)性,確定該待識別網(wǎng)頁的類型。
      在本步驟中,各預設類型的特征向量是預先基于各預設類型的訓練語料的n-gram 形成的,所述預設類型包括但不限于軟件類、圖片類、視頻類、地圖類、游戲類、小說類、音樂類等。
      各預設類型的訓練語料中包含多個對應類型的網(wǎng)頁在搜索日志中被點擊時對應的query集合,也可以進一步包括多 個對應類型的網(wǎng)頁的title,同時記錄各網(wǎng)頁在搜索日志中的被點擊次數(shù)。各預設類型的訓練語料的形成過程將在實施例二中具體描述。
      然后確定預設類型的訓練語料的n-gram,并基于各n-gram在訓練語料中的出現(xiàn)次數(shù)確定各n-gram的權(quán)重,構(gòu)成各n-gram的特征向量。
      本步驟中,待識別網(wǎng)頁的特征向量和各預設類型的特征向量之間的相關(guān)性可以通過三種方式確定
      其一、計算待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的重疊率,通過該重疊率表征兩者之間的相關(guān)性,具體參見實施例三。
      其二、計算待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的相似度,通過相似度表征兩者之間的相關(guān)性,具體參見實施例四。
      其三、將各預設類型的特征向量作為特征訓練出分類器,利用分類器確定待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的相關(guān)度,具體參見實施例五。
      通常網(wǎng)頁通過url進行標識,在本發(fā)明的下述實施例中,均采用url標識網(wǎng)頁。下面通過實施例二對各預設類型的訓練語料的獲取過程進行簡單描述。
      實施例二、
      圖2為本發(fā)明實施例二提供的預設類型的訓練語料的獲取方法流程圖,如圖2所示,針對某類型的訓練語料的獲取方法包括以下步驟
      步驟201 :獲取該類型的種子query。
      該種子query能夠充分體現(xiàn)出該類型的需求即可,由于種子query的數(shù)量不需要很大,通常幾十個即可,因此,可以采用人工配置的方式。
      以菜譜類為例,配置的種子query可以是家常菜做法、家常菜的做法大全、菜譜、 常用菜譜、川菜菜譜、等等。為了方便理解和舉例,在此以兩個種子query “家常菜做法”和 “家常菜的做法大全”為例。
      步驟202 :獲取搜索日志中種子query對應的被點擊url,保留被點擊次數(shù)大于設定點擊次數(shù)閾值的url。
      例如,種子query “家常菜做法”和“家常菜的做法大全”對應的被點擊url中被點擊次數(shù)滿足被點擊次數(shù)閾值的url如表I所示
      表I
      權(quán)利要求
      1.一種確定網(wǎng)頁類型的方法,其特征在于,該方法包括51、獲取搜索日志中待識別網(wǎng)頁被點擊時所對應的所有query;52、確定步驟SI所獲取query的各η元詞組n-gram構(gòu)成所述待識別網(wǎng)頁的特征向量,η為預設的一個或多個正整數(shù);53、基于所述待識別網(wǎng)頁的特征向量和各預設類型的特征向量之間的相關(guān)性,確定所述待識別網(wǎng)頁的類型。
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟SI還包括獲取所述待識別網(wǎng)頁的標題;所述步驟S2中還包括確定所述待識別網(wǎng)頁的標題的各n-gram,將所述待識別網(wǎng)頁的標題的各n-gram與所述步驟SI所獲取query的各n-gram共同構(gòu)成所述待識別網(wǎng)頁的特征向量。
      3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預設類型的特征向量是預先基于各預設類型的訓練語料的n-gram形成的。
      4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述預設類型的訓練語料的獲取方法包括Al、獲取所述預設類型的種子query ;A2、獲取搜索日志中所述種子query對應的被點擊網(wǎng)頁,保留被點擊次數(shù)大于設定被點擊次數(shù)閾值的網(wǎng)頁;A3、確定所述搜索日志中步驟A2保留的網(wǎng)頁被點擊時對應的所有query,記錄各query對應的網(wǎng)頁被點擊次數(shù),得到所述預設類型的訓練語料;或者,確定所述搜索日志中步驟A2保留的網(wǎng)頁被點擊時對應的所有query和網(wǎng)頁標題,記錄各query對應的網(wǎng)頁被點擊次數(shù)和網(wǎng)頁標題的出現(xiàn)次數(shù),得到所述預設類型的訓練語料。
      5.根據(jù)權(quán)利要求1至4任一權(quán)項所述的方法,其特征在于,所述步驟S3具體包括計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的重疊率,根據(jù)計算的重疊率確定待識別網(wǎng)頁的類型;或者,計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的相似度,根據(jù)計算的相似度確定待識別網(wǎng)頁的類型;或者,預先將各預設類型的特征向量作為特征訓練出分類器,所述待識別網(wǎng)頁的特征向量作為所述分類器的輸入,依據(jù)所述分類器的分類結(jié)果確定所述待識別網(wǎng)頁的類型。
      6.根據(jù)權(quán)利要求5所述的方法,其特征在于,計算所述待識別網(wǎng)頁的特征向量與預設類型的特征向量之間的重疊率包括計算所述待識別網(wǎng)頁的特征向量和預設類型的特征向量之間重疊的n-gram在待識別網(wǎng)頁的特征向量中的出現(xiàn)次數(shù)乘以所述重疊的n-gram在預設類型的特征向量中的權(quán)重之和,再除以所述待識別網(wǎng)頁的特征向量中所有n-gram的出現(xiàn)次數(shù)之和所得到的值;其中,預設類型的特征向量中n-gram的權(quán)重為在該預設類型的訓練語料中該n-gram的出現(xiàn)次數(shù)與所有n-gram的總出現(xiàn)次數(shù)的比值。
      7.根據(jù)權(quán)利要求5所述的方法,其特征在于,計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的相似度包括計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的余弦相似度;其中,預設類型的特征向量中各n-gram的權(quán)重為各n-gram的詞頻tf*逆向文檔頻率idf ;所述待識別網(wǎng)頁的特征向量中各n-gram的權(quán)重為各n-gram的tf* idf。
      8.根據(jù)權(quán)利要求5所述的方法,其特征在于,在將各預設類型的特征向量作為特征訓練出分類器時,預設類型的特征向量中n-gram的權(quán)重為n_gram的出現(xiàn)次數(shù)與所有n-gram的總出現(xiàn)次數(shù)的比值,或者,各n-gram的tf* idf。
      9.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述分類器為最大熵分類器或者支持向量機SVM分類器。
      10.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)計算的重疊率確定待識別網(wǎng)頁的類型包括將重疊率大于設定重疊率閾值的預設類型確定為所述待識別網(wǎng)頁的類型;或者,將重疊率排在前NI個的預設類型確定為所述待識別網(wǎng)頁的類型,所述NI為預設的正整數(shù);或者,按照預設的重疊率值與類型等級之間的對應關(guān)系,確定所述待識別網(wǎng)頁在各類型上的等級;所述根據(jù)計算的相似度確定待識別網(wǎng)頁的類型包括將相似度大于設定相似度閾值的預設類型確定為所述待識別網(wǎng)頁的類型;或者,將相似度排在前N2個的預設類型確定為所述待識別網(wǎng)頁的類型,所述N2為預設的正整數(shù);或者,按照預設的相似度值與類型等級之間的對應關(guān)系,確定所述待識別網(wǎng)頁在各類型上的等級。
      11.一種確定網(wǎng)頁類型的裝置,其特征在于,該裝置包括query獲取單元,用于獲取搜索日志中待識別網(wǎng)頁被點擊時所對應的所有query ;第一向量確定單元,用于確定所述query獲取單元所獲取query的各η元詞組n-gram構(gòu)成所述待識別網(wǎng)頁的特征向量,η為預設的一個或多個正整數(shù);類型確定單元,用于基于所述待識別網(wǎng)頁的特征向量和各預設類型的特征向量之間的相關(guān)性,確定所述待識別網(wǎng)頁的類型。
      12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,該裝置還包括標題獲取單元,用于獲取所述待識別網(wǎng)頁的標題;所述第一向量確定單元,還用于確定所述待識別網(wǎng)頁的標題的各n-gram,將所述待識別網(wǎng)頁的標題的各n-gram與所述query獲取單元所獲取query的各n-gram共同構(gòu)成所述待識別網(wǎng)頁的特征向量。
      13.根據(jù)權(quán)利要求11所述的裝置,其特征在于,該裝置還包括第二向量確定單元,用于預先基于各預設類型的訓練語料的n-gram形成所述預設類型的特征向量。
      14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,該裝置還包括語料獲取單元,用于獲取所述預設類型的種子query ;獲取搜索日志中所述種子query對應的被點擊網(wǎng)頁,保留被點擊次數(shù)大于設定被點擊次數(shù)閾值的網(wǎng)頁;確定保留的網(wǎng)頁被點擊時對應的所有query,記錄各query對應的網(wǎng)頁被點擊次數(shù),得到所述預設類型的訓練語料,或者,確定保留的網(wǎng)頁被點擊時對應的所有query和網(wǎng)頁標題,記錄各query對應的網(wǎng)頁被點擊次數(shù)和網(wǎng)頁標題的出現(xiàn)次數(shù),得到所述預設類型的訓練語料。
      15.根據(jù)權(quán)利要求11至14任一權(quán)項所述的裝置,其特征在于,所述類型確定單元計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的重疊率,根據(jù)計算的重疊率確定待識別網(wǎng)頁的類型;或者,計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的相似度,根據(jù)計算的相似度確定待識別網(wǎng)頁的類型;或者,預先將各預設類型的特征向量作為特征訓練出分類器,所述待識別網(wǎng)頁的特征向量作為所述分類器的輸入,依據(jù)所述分類器的分類結(jié)果確定所述待識別網(wǎng)頁的類型。
      16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述類型確定單元在計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的重疊率時,具體計算所述待識別網(wǎng)頁的特征向量和預設類型的特征向量之間重疊的n-gram在待識別網(wǎng)頁的特征向量中的出現(xiàn)次數(shù)乘以所述重疊的n-gram在預設類型的特征向量中的權(quán)重之和,再除以所述待識別網(wǎng)頁的特征向量中所有n-gram的出現(xiàn)次數(shù)之和所得到的值;其中,預設類型的特征向量中n-gram的權(quán)重為在該預設類型的訓練語料中該n-gram的出現(xiàn)次數(shù)與所有n-gram的總出現(xiàn)次數(shù)的比值。
      17.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述類型確定單元在計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的相似度時,具體計算所述待識別網(wǎng)頁的特征向量與各預設類型的特征向量之間的余弦相似度;其中,預設類型的特征向量中各n-gram的權(quán)重為各n-gram的詞頻tf*逆向文檔頻率idf ;所述待識別網(wǎng)頁的特征向量中各n-gram的權(quán)重為各n-gram的tf* idf。
      18.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述類型確定單元在將各預設類型的特征向量作為特征訓練出分類器時,預設類型的特征向量中n-gram的權(quán)重為n-gram的出現(xiàn)次數(shù)與所有n-gram的總出現(xiàn)次數(shù)的比值,或者,各n-gram的tf* idf。
      19.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述分類器為最大熵分類器或者支持向量機SVM分類器。
      20.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述類型確定單元在根據(jù)計算的重疊率確定待識別網(wǎng)頁的類型時,將重疊率大于設定重疊率閾值的預設類型確定為所述待識別網(wǎng)頁的類型;或者,將重疊率排在前NI個的預設類型確定為所述待識別網(wǎng)頁的類型,所述NI為預設的正整數(shù);或者,按照預設的重疊率值與類型等級之間的對應關(guān)系,確定所述待識別網(wǎng)頁在各類型上的等級;所述類型確定單元在根據(jù)計算的相似度確定待識別網(wǎng)頁的類型時,將相似度大于設定相似度閾值的預設類型確定為所述待識別網(wǎng)頁的類型;或者,將相似度排在前N2個的預設類型確定為所述待識別網(wǎng)頁的類型,所述N2為預設的正整數(shù);或者,按照預設的相似度值與類型等級之間的對應關(guān)系,確定所述待識別網(wǎng)頁在各類型上的等級。
      全文摘要
      本發(fā)明提供了一種確定網(wǎng)頁類型的方法和裝置,其中方法包括S1、獲取搜索日志中待識別網(wǎng)頁被點擊時所對應的所有query;S2、確定步驟S1所獲取query的各n元詞組(n-gram)構(gòu)成所述待識別網(wǎng)頁的特征向量,n為預設的一個或多個正整數(shù);S3、基于所述待識別網(wǎng)頁的特征向量和各預設類型的特征向量之間的相關(guān)性,確定所述待識別網(wǎng)頁的類型。本發(fā)明具有提高網(wǎng)頁類型確定的效率和速度,抗作弊能力強,適用面更廣等優(yōu)點。
      文檔編號G06F17/30GK103020067SQ201110282850
      公開日2013年4月3日 申請日期2011年9月21日 優(yōu)先權(quán)日2011年9月21日
      發(fā)明者黃際洲 申請人:北京百度網(wǎng)訊科技有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1