本發(fā)明涉及語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及改進(jìn)的決策樹(shù)分類(lèi)算法實(shí)現(xiàn)搜索引擎優(yōu)化技術(shù)。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,網(wǎng)絡(luò)信息量迅速增長(zhǎng),面對(duì)數(shù)量如此巨大的網(wǎng)站和網(wǎng)頁(yè),搜索引擎就成了人們查找網(wǎng)絡(luò)信息的必要工具。搜索引擎優(yōu)化,簡(jiǎn)稱(chēng)通俗的講是通過(guò)對(duì)網(wǎng)站整體架構(gòu),網(wǎng)頁(yè)內(nèi)容、關(guān)鍵詞以及網(wǎng)頁(yè)內(nèi)的鏈接進(jìn)行相關(guān)的優(yōu)化工作,提高其在特定搜索引擎上搜索結(jié)果中的排名,從而提高網(wǎng)站訪(fǎng)問(wèn)量,最終提升網(wǎng)站的銷(xiāo)售能力或宣傳能力的技術(shù)。目前對(duì)于搜索引擎優(yōu)化的概念尚沒(méi)有統(tǒng)一的說(shuō)法,歸納來(lái)說(shuō),搜索引擎優(yōu)化的概念主要是從優(yōu)化的原則、優(yōu)化的方法及優(yōu)化的目的三部分來(lái)定義的,同時(shí)關(guān)于搜索引擎優(yōu)化方法的理論研究已較為豐富,如黑帽技術(shù)和白帽技術(shù)。搜索引擎優(yōu)化策略,分別是域名策略、網(wǎng)頁(yè)設(shè)計(jì)規(guī)劃策略、關(guān)鍵詞策略以及鏈接策略。SEO歸根結(jié)底是關(guān)鍵詞的優(yōu)化策略,現(xiàn)今國(guó)內(nèi)外對(duì)關(guān)鍵詞優(yōu)化的理論研究和技術(shù)應(yīng)用比較多,但暫未提出一個(gè)有效的方法來(lái)簡(jiǎn)化關(guān)鍵詞分析流程,也沒(méi)有一個(gè)完善的機(jī)制來(lái)管理關(guān)鍵詞優(yōu)化策略和進(jìn)度。基于上述需求,本發(fā)明提供了一種改進(jìn)的決策樹(shù)分類(lèi)算法實(shí)現(xiàn)搜索引擎優(yōu)化技術(shù)。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)于關(guān)鍵詞優(yōu)化實(shí)現(xiàn)搜索引擎優(yōu)化的技術(shù)問(wèn)題,本發(fā)明提供了改進(jìn)的決策樹(shù)分類(lèi)算法實(shí)現(xiàn)搜索引擎優(yōu)化技術(shù)。
為了解決上述問(wèn)題,本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
步驟1:根據(jù)企業(yè)業(yè)務(wù)確定核心關(guān)鍵詞,利用搜索引擎搜集相關(guān)關(guān)鍵字,這些關(guān)鍵字在搜索引擎中有相應(yīng)數(shù)據(jù)項(xiàng),如本國(guó)每月搜索量、競(jìng)爭(zhēng)程度和估算每次點(diǎn)擊費(fèi)用(CPC)等
步驟2:結(jié)合企業(yè)產(chǎn)品和市場(chǎng)分析,篩選降維上述搜索到的相關(guān)關(guān)鍵字集合;
步驟3:針對(duì)篩選降維后的關(guān)鍵詞集合,通過(guò)搜索引擎搜索關(guān)鍵詞對(duì)應(yīng)的頁(yè)面,這里記錄首頁(yè)網(wǎng)頁(yè)數(shù)和總搜索頁(yè)面數(shù),即每個(gè)關(guān)鍵詞由五維向量再降維為四維的。
步驟4:改進(jìn)的決策樹(shù)分類(lèi)算法,對(duì)上述關(guān)鍵詞進(jìn)行分類(lèi)處理,其具體子步驟如下:
步驟4.1:根據(jù)訓(xùn)練數(shù)據(jù)集構(gòu)造決策樹(shù)分類(lèi)器模型,其具體子步驟如下:
步驟4.1.1:設(shè)訓(xùn)練集樣本X,屬性個(gè)數(shù)為4,即(S1,S2,S3,S4),同時(shí)分裂屬性Si對(duì)應(yīng)了k個(gè)類(lèi),其中Lr∈(L1,L2…,Lk),i∈(1,2,3,4),r∈(1,2…,k)。相關(guān)領(lǐng)域用戶(hù)設(shè)定好屬性Si誤分類(lèi)代價(jià)矩陣
步驟4.1.2:創(chuàng)建根節(jié)點(diǎn)G。
步驟4.1.3:如果訓(xùn)練數(shù)據(jù)集為空,則返回結(jié)點(diǎn)G并標(biāo)記失敗。
步驟4.1.4:如果訓(xùn)練數(shù)據(jù)集中所有記錄都屬于同一類(lèi)別,則該類(lèi)型標(biāo)記結(jié)點(diǎn)G。
步驟4.1.5:如果候選屬性為空,則返回G為葉子結(jié)點(diǎn),標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類(lèi)。
步驟4.1.6:根據(jù)屬性Si的信息量D(Si)從選擇屬性中選擇splitS。
步驟4.1.7:取D(Si)最大的標(biāo)記節(jié)點(diǎn)G為屬性splitSi。
步驟4.1.8:由節(jié)點(diǎn)延伸出滿(mǎn)足條件為splitS=splitSi分支以及splitSi=splitSij子分支,如果滿(mǎn)足以下兩條件之一,就停止建樹(shù)。
4.1.8.1這里假設(shè)Yi為訓(xùn)練數(shù)據(jù)集中splitS=splitSi的樣本集合,如果Yi為空,加上一個(gè)葉子結(jié)點(diǎn),標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類(lèi)。
4.1.8.2此節(jié)點(diǎn)中所有例子屬于同一類(lèi)。
步驟4.1.9:非4.1.8.1與4.1.8.2中情況,則遞歸調(diào)用步驟4.1.6至步驟4.1.8。
步驟4.1.10:保存已生成的決策樹(shù)分類(lèi)器。
步驟4.2:應(yīng)用上述的分類(lèi)器模型,對(duì)步驟3中得到的關(guān)鍵詞進(jìn)行分類(lèi),即可得到最佳k類(lèi);
步驟5:根據(jù)企業(yè)具體情況,綜合關(guān)鍵詞效能優(yōu)化和價(jià)值率優(yōu)化,選擇合適的關(guān)鍵詞優(yōu)化策略達(dá)到網(wǎng)站優(yōu)化目標(biāo)。
本發(fā)明有益效果是:
1,此算法可以精簡(jiǎn)關(guān)鍵詞分析流程,進(jìn)而減少整個(gè)網(wǎng)站優(yōu)化工作量。
2,此算法的運(yùn)行時(shí)間復(fù)雜度低,處理速度更快。
3、此算法具有更大的利用價(jià)值。
4、能幫助網(wǎng)站在短時(shí)間內(nèi)快速提升其關(guān)鍵詞排名。
5、為企業(yè)網(wǎng)站帶來(lái)一定的流量和詢(xún)盤(pán),從而達(dá)到理想的網(wǎng)站優(yōu)化目標(biāo)。
6、此算法分類(lèi)結(jié)果的準(zhǔn)確度更符合經(jīng)驗(yàn)值;
7、構(gòu)建了領(lǐng)域內(nèi)系統(tǒng)化分類(lèi)器,簡(jiǎn)化了后續(xù)搜索引擎優(yōu)化工作。
8、在分類(lèi)過(guò)程中,避免了屬性中存在偏置問(wèn)題。
9、選擇屬性呈現(xiàn)的數(shù)據(jù)結(jié)果得到更好的優(yōu)化。
附圖說(shuō)明
圖1改進(jìn)的決策樹(shù)分類(lèi)算法實(shí)現(xiàn)搜索引擎優(yōu)化技術(shù)結(jié)構(gòu)流程圖
圖2改進(jìn)的決策樹(shù)分類(lèi)算法應(yīng)用流程圖
圖3訓(xùn)練集樣本X
圖4屬性Si類(lèi)別概率表
具體實(shí)施方式
為了解決關(guān)鍵詞優(yōu)化實(shí)現(xiàn)搜索引擎優(yōu)化的技術(shù)問(wèn)題,結(jié)合圖1-圖2對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,其具體實(shí)施步驟如下:
步驟1:根據(jù)企業(yè)業(yè)務(wù)確定核心關(guān)鍵詞,利用搜索引擎搜集相關(guān)關(guān)鍵字,這些關(guān)鍵字在搜索引擎中有相應(yīng)數(shù)據(jù)項(xiàng),如本國(guó)每月搜索量、競(jìng)爭(zhēng)程度和估算每次點(diǎn)擊費(fèi)用(CPC)等
步驟2:結(jié)合企業(yè)產(chǎn)品和市場(chǎng)分析,篩選降維上述搜索到的相關(guān)關(guān)鍵字集合;
步驟3:針對(duì)篩選降維后的關(guān)鍵詞集合,通過(guò)搜索引擎搜索關(guān)鍵詞對(duì)應(yīng)的頁(yè)面,這里記錄首頁(yè)網(wǎng)頁(yè)數(shù)和總搜索頁(yè)面數(shù),即每個(gè)關(guān)鍵詞由五維向量再降維為四維的,其具體計(jì)算過(guò)程如下:
這里相關(guān)關(guān)鍵詞個(gè)數(shù)為m,既有下列m×5矩陣:
Ni、Ldi、CPCi、Nis、NiY依次為第i個(gè)關(guān)鍵詞對(duì)應(yīng)的本國(guó)每月搜索量、競(jìng)爭(zhēng)程度、估算每次點(diǎn)擊費(fèi)用(CPC)、首頁(yè)網(wǎng)頁(yè)數(shù)、總搜索頁(yè)面數(shù)。
再降維為四維,即
Xi∈(1,2,…,m)為搜索效能,Zi∈(1,2,…,m)為價(jià)值率,即為下式:
步驟4:改進(jìn)的決策樹(shù)分類(lèi)算法,對(duì)上述關(guān)鍵詞進(jìn)行分類(lèi)處理,其具體子步驟如下:
步驟4.1:根據(jù)訓(xùn)練數(shù)據(jù)集構(gòu)造決策樹(shù)分類(lèi)器模型,其具體子步驟如下:
步驟4.1.1:設(shè)訓(xùn)練集樣本X,屬性個(gè)數(shù)為4,即(S1,S2,S3,S4),同時(shí)分裂屬性Si對(duì)應(yīng)了k個(gè)類(lèi),其中Lr∈(L1,L2…,Lk),i∈(1,2,3,4),r∈(1,2…,k)。相關(guān)領(lǐng)域用戶(hù)設(shè)定好屬性Si誤分類(lèi)代價(jià)矩陣其具體計(jì)算過(guò)程如下:
訓(xùn)練集樣本X如圖3:
屬性Si誤分類(lèi)代價(jià)矩陣
(ci1,…,cik)為屬性Si對(duì)應(yīng)的n個(gè)子屬性分為各個(gè)類(lèi)所造成的代價(jià);
步驟4.1.2:創(chuàng)建根節(jié)點(diǎn)G。
步驟4.1.3:如果訓(xùn)練數(shù)據(jù)集為空,則返回結(jié)點(diǎn)G并標(biāo)記失敗。
步驟4.1.4:如果訓(xùn)練數(shù)據(jù)集中所有記錄都屬于同一類(lèi)別,則該類(lèi)型標(biāo)記結(jié)點(diǎn)G。
步驟4.1.5:如果候選屬性為空,則返回G為葉子結(jié)點(diǎn),標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類(lèi)。
步驟4.1.6:根據(jù)屬性Si的信息量D(Si)從選擇屬性中選擇splitS,其具體計(jì)算過(guò)程如下:
建立屬性類(lèi)別概率表,如圖4:
(Si1、…Sin)為屬性Si的子屬性,i=1,2,3,4,(Ni1、…Nin)為子屬性所屬類(lèi)別的頻數(shù);
屬性Si的期望值E(Si):
其中
這里h為屬性Si子屬性的個(gè)數(shù),h=n;
屬性Si的信息量D(Si):
為屬性Si造成的均值代價(jià),AVERCh·為屬性Si對(duì)應(yīng)子屬性h誤分為k類(lèi)所造成的均值代價(jià),Chj為屬性Si對(duì)應(yīng)子屬性h誤分為j、j∈(1,2,…,k)類(lèi)所產(chǎn)生的代價(jià)。
根據(jù)D(Si)的取值從大到小排列上述屬性;
步驟4.1.7:取D(Si)最大的標(biāo)記節(jié)點(diǎn)G為屬性splitSi。
步驟4.1.8:由節(jié)點(diǎn)延伸出滿(mǎn)足條件為splitS=splitSi分支以及splitSi=splitSij子分支,如果滿(mǎn)足以下兩條件之一,就停止建樹(shù)。
4.1.8.1這里假設(shè)Yi為訓(xùn)練數(shù)據(jù)集中splitS=splitSi的樣本集合,如果Yi為空,加上一個(gè)葉子結(jié)點(diǎn),標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類(lèi)。
4.1.8.2此節(jié)點(diǎn)中所有例子屬于同一類(lèi)。
步驟4.1.9:非4.1.8.1與4.1.8.2中情況,則遞歸調(diào)用步驟4.1.6至步驟4.1.8。
步驟4.1.7:保存已生成的決策樹(shù)分類(lèi)器。
步驟4.2:應(yīng)用上述的分類(lèi)器模型,對(duì)步驟3中得到的關(guān)鍵詞進(jìn)行分類(lèi),即可得到最佳k類(lèi);
步驟5:根據(jù)企業(yè)具體情況,綜合關(guān)鍵詞效能優(yōu)化和價(jià)值率優(yōu)化,選擇合適的關(guān)鍵詞優(yōu)化策略達(dá)到網(wǎng)站優(yōu)化目標(biāo)。