過濾網(wǎng)站內(nèi)鏈的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實施例設(shè)及內(nèi)鏈優(yōu)化技術(shù),尤其設(shè)及一種過濾網(wǎng)站內(nèi)鏈的方法及裝置。
【背景技術(shù)】
[0002] 內(nèi)鏈是指在同一網(wǎng)站域名下的內(nèi)容頁面之間的相互鏈接,合理的網(wǎng)站內(nèi)鏈構(gòu)造能 夠提高捜索引擎的收錄與網(wǎng)站權(quán)重,增加日均訪問量,提升整體訪問量。與此同時,構(gòu)造內(nèi) 鏈時需要尊重用戶體驗,還要注意鏈接的相關(guān)性,相關(guān)性高的鏈接有助于提高捜索引擎收 錄,并且有助于用戶體驗,進而提升網(wǎng)站的瀏覽量,相反,相關(guān)性較低、無意義的內(nèi)鏈對點 擊、頁面拓撲關(guān)系影響不大,但影響用戶體驗,屬于低質(zhì)內(nèi)鏈,降低了網(wǎng)站的內(nèi)鏈質(zhì)量。
【發(fā)明內(nèi)容】
[0003] 有鑒于此,本發(fā)明實施例提供一種過濾網(wǎng)站內(nèi)鏈的方法及裝置,W提高網(wǎng)站的內(nèi) 鏈質(zhì)量。
[0004] 第一方面,本發(fā)明實施例提供了一種過濾網(wǎng)站內(nèi)鏈的方法,所述方法包括:
[0005] 提取指定網(wǎng)站的內(nèi)鏈的設(shè)定特征;
[0006] 將所述內(nèi)鏈的設(shè)定特征輸入訓(xùn)練完成的設(shè)定機器學(xué)習(xí)模型中,對所述內(nèi)鏈進行分 類;
[0007] 根據(jù)分類結(jié)果,對所述內(nèi)鏈進行過濾。
[0008] 第二方面,本發(fā)明實施例還提供了一種過濾網(wǎng)站內(nèi)鏈的裝置,所述裝置包括:
[0009] 特征提取模塊,用于提取指定網(wǎng)站的內(nèi)鏈的設(shè)定特征;
[0010] 內(nèi)鏈分類模塊,用于將所述內(nèi)鏈的設(shè)定特征輸入訓(xùn)練完成的設(shè)定機器學(xué)習(xí)模型 中,對所述內(nèi)鏈進行分類;
[0011] 內(nèi)鏈過濾模塊,用于根據(jù)分類結(jié)果,對所述內(nèi)鏈進行過濾。
[0012] 本發(fā)明實施例提供的過濾網(wǎng)站內(nèi)鏈的方法及裝置,通過提取指定網(wǎng)站的內(nèi)鏈的設(shè) 定特征,將所述內(nèi)鏈的設(shè)定特征輸入訓(xùn)練完成的設(shè)定機器學(xué)習(xí)模型中,對所述內(nèi)鏈進行分 類,根據(jù)分類結(jié)果對所述內(nèi)鏈進行過濾,可W根據(jù)過濾結(jié)果保留網(wǎng)站中的高質(zhì)內(nèi)鏈,提高了 指定網(wǎng)站的內(nèi)鏈質(zhì)量。
【附圖說明】
[0013] 圖1是本發(fā)明實施例一提供的一種過濾網(wǎng)站內(nèi)鏈的方法的流程圖;
[0014] 圖2是本發(fā)明實施例二提供的一種過濾網(wǎng)站內(nèi)鏈的方法的流程圖;
[0015] 圖3是本發(fā)明實施例S提供的一種過濾網(wǎng)站內(nèi)鏈的方法的流程;
[0016] 圖4是本發(fā)明實施例提供的過濾網(wǎng)站內(nèi)鏈的方法中的隨機森林中的決策樹的示 例圖;
[0017] 圖5是本發(fā)明實施例四提供的一種過濾網(wǎng)站內(nèi)鏈的裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0018] 下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明??蒞理解的是,此處所描 述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便 于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
[001引實施例一
[0020] 圖1是本發(fā)明實施例一提供的一種過濾網(wǎng)站內(nèi)鏈的方法的流程圖,本實施例可適 用于對指定網(wǎng)站的內(nèi)鏈進行過濾的情況,該方法可W由計算機來執(zhí)行,具體包括如下:
[0021] S110,提取指定網(wǎng)站的內(nèi)鏈的設(shè)定特征。
[0022] 提取指定網(wǎng)站(如百度百科)的內(nèi)鏈的設(shè)定特征,所述設(shè)定特征可W包括與內(nèi)鏈 文本有關(guān)的特征或與內(nèi)鏈的鏈接抓L Uniform Resource Locator,統(tǒng)一資源定位符)有關(guān) 的特征等,即內(nèi)鏈的設(shè)定特征要能反映出內(nèi)鏈的質(zhì)量高低的性質(zhì)。
[0023] 其中,所述設(shè)定特征優(yōu)選包括:專名識別特征、內(nèi)鏈頁面的日均訪問量特征、內(nèi)鏈 文本的tfidf特征、內(nèi)鏈文本的分類特征、內(nèi)鏈的鏈接URL真實性特征和實體相似度特征。 可W從內(nèi)鏈文本或內(nèi)鏈的內(nèi)鏈URL中提取,也可W是基于該內(nèi)鏈的其他統(tǒng)計信息。
[0024] 專名識別特征是指識別內(nèi)鏈文本中具有特定意義的實體,主要包括人名、地名、或 機構(gòu)名等。表1是利用專名識別工具識別的例子。對于識別結(jié)果為NOR及PHRASE的內(nèi)鏈 文本為低質(zhì)內(nèi)鏈的可能性較大,表2展示了部分內(nèi)鏈文本的專名識別結(jié)果。
[0025] 表1利用專名識別工具識別例子
[0026]
[0027]
[002引表2部分內(nèi)鏈文本的專名識別結(jié)果
[0029]
[0030] 內(nèi)鏈頁面的日均訪問量特征可W反映出人們對相關(guān)頁面的關(guān)注情況,一般情況下 曰均訪問量較低的內(nèi)鏈頁面往往是人們不太關(guān)注的低質(zhì)內(nèi)鏈,表3展示了部分內(nèi)鏈的曰均 訪問量特征。
[0031] 表3部分內(nèi)鏈的日均訪問量特征
[0032]
[0033] 內(nèi)鏈文本的tfi壯特征:tfi壯是一種統(tǒng)計方法,用W評估一字詞對于一個文件集 或一個語料庫中的其中一份文件的重要程度,字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成 正比增加,但同時也隨著它在語料庫中出現(xiàn)的頻率成反比下降。tfi壯的主要思想是,如果 某個詞或短語在一篇文章中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認為此詞或者 短語具有很好的類別區(qū)分能力,適合用來分類。其中,tfi壯實際上是tf*i壯,其中,tf(term frequency,詞頻)表不詞條在文檔中出現(xiàn)的頻率,i壯(inversedo州mentfrequency,逆向 文件頻率)主要思想是如果包含一個詞條的文檔越少,i壯越大,說明該詞條具有很好的類 別區(qū)分能力,tfi壯值的高低代表類別區(qū)分能力的高低。表4展示了部分內(nèi)鏈的tfi壯特 征。
[0034] 表4部分內(nèi)鏈的tfi壯特征
[0035]
[0036] 內(nèi)鏈文本的分類特征:內(nèi)鏈文本的分類可W作為一維特征,一般情況下,較為熱口 的分類(如成語、古代官職等具有實際意義的分類)一般屬于高質(zhì)內(nèi)鏈。具體對內(nèi)鏈文本 進行分類時,可W獲取字典的分類結(jié)果。表5展示了部分內(nèi)鏈的內(nèi)鏈文本的分類特征。
[0037] 表5部分內(nèi)鏈的內(nèi)鏈文本的分類特征
[0038]
[0040] 內(nèi)鏈的鏈接U化真實性特征,通過判斷內(nèi)鏈的鏈接U化是否存在于網(wǎng)站內(nèi)部的U化 列表中,且該內(nèi)鏈的鏈接U化是否唯一,得到內(nèi)鏈的鏈接m?L是否真實存在。有些內(nèi)鏈的鏈 接u化并不存在于網(wǎng)站內(nèi)部u化列表中,運種內(nèi)鏈判斷為低質(zhì)內(nèi)鏈;有些內(nèi)鏈的鏈接u化并 不唯一(如百度百科中的有些內(nèi)鏈的鏈接U化會有多個義項),運種內(nèi)鏈也判斷為低質(zhì)內(nèi) 鏈。表6展示了部分內(nèi)鏈的鏈接U化真實性特征。
[0041] 表6部分內(nèi)鏈的鏈接U化真實性特征
[0042]
[0044] 實體相似度特征,是指內(nèi)鏈實體與源頁面實體之間的相似性。內(nèi)鏈實體與源頁面 實體之間的相似性高低可W反映該內(nèi)鏈與源頁面的相關(guān)性大小,相關(guān)性低的內(nèi)鏈可W認為 是低質(zhì)內(nèi)鏈。其中,內(nèi)鏈實體即內(nèi)鏈文本,源頁面實體即源頁面文本。表7展示了部分內(nèi)鏈 的實體相似度特征:
[0045] 表7部分內(nèi)鏈的實體相似度特征
[0046]
[0048] S120,將所述內(nèi)鏈的設(shè)定特征輸入訓(xùn)練完成的設(shè)定機器學(xué)習(xí)模型中,對所述內(nèi)鏈 進行分類。
[0049] 根據(jù)所述內(nèi)鏈的設(shè)定特征,利用設(shè)定機器學(xué)習(xí)模型對所述內(nèi)鏈進行分類,將所述 內(nèi)鏈分類為高質(zhì)內(nèi)鏈和低質(zhì)內(nèi)鏈。在運之前,首先利用已知結(jié)果的大量樣本對設(shè)定機器學(xué) 習(xí)模型進行訓(xùn)練,得到訓(xùn)練完成的設(shè)定機器學(xué)習(xí)模型,W使得設(shè)定機器學(xué)習(xí)模型的分類結(jié) 果最優(yōu)。
[0050] 所述設(shè)定機器學(xué)習(xí)模型優(yōu)選包括隨機森林模型或SVM(SuppcxrtVectorMachine, 支持向量機)模型。其中,隨機森林模型,在機器學(xué)習(xí)中,是一個包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定;SVM在機器學(xué)習(xí)中是一個有監(jiān)督的 學(xué)習(xí)模型,通常用來進行模式識別、分類W及回歸分析。
[0051] 在將所述內(nèi)鏈的設(shè)定特征輸入訓(xùn)練完成的設(shè)定機器學(xué)習(xí)模型之前,首先要獲取所 述內(nèi)鏈的設(shè)定特征的特征值。對于專名識別特征的特征值可w將識別到的不同結(jié)果定義為 不同的數(shù)值,并設(shè)定闊值,超過闊值或者低于闊值的為低質(zhì)內(nèi)鏈;對于內(nèi)鏈的文本的分類特 征的特征值,可W將不同的分類定義為不同的數(shù)值,并設(shè)定相應(yīng)的闊值,超過闊值或者低于 闊值的為低質(zhì)內(nèi)鏈。對于內(nèi)鏈頁面的日均訪問量特征,設(shè)定闊值,超過闊值的為高質(zhì)內(nèi)鏈; 對于內(nèi)鏈文本的tfi壯特征可W用tfi壯值表示,并設(shè)定闊值,超過闊值的為高質(zhì)內(nèi)鏈;對 于內(nèi)鏈的鏈接U化真實性特征的特征值可W用0表示是,用1表示否則特征值為0代表高 質(zhì)內(nèi)鏈對于實體相似度特征,設(shè)定相似度闊值,超過相似度闊值的為高質(zhì)內(nèi)鏈。
[0052]S130,根據(jù)分類結(jié)果,對所述內(nèi)鏈進行過濾。
[0053] 根據(jù)分類結(jié)果,對所述內(nèi)鏈進行過濾,得到低質(zhì)內(nèi)鏈或者高質(zhì)內(nèi)鏈,W保留網(wǎng)站中 的局質(zhì)內(nèi)鏈,進而提局網(wǎng)站的內(nèi)鏈質(zhì)量。
[0054] 本實施例通過提取指定網(wǎng)站的內(nèi)鏈的設(shè)定特征,將所述內(nèi)鏈的設(shè)定特征輸入訓(xùn)練 完成的設(shè)定機器學(xué)習(xí)模型中,對所述內(nèi)鏈進行分類,根據(jù)分類結(jié)果對所述內(nèi)鏈進行過濾,可 W根據(jù)過濾結(jié)果過濾掉網(wǎng)站中的低質(zhì)內(nèi)鏈,保留網(wǎng)站中的高質(zhì)內(nèi)鏈,提高了指定網(wǎng)站的內(nèi) 鏈質(zhì)量,提升用戶的體驗。
[0055] 實施例二
[0056] 圖2是本發(fā)明實施例二提供的一種過濾網(wǎng)站內(nèi)鏈的方法的流程圖,具體包括如 下:
[0057]S210,提取指