一種基于url分析的營銷關(guān)鍵詞提取的方法
【專利摘要】本發(fā)明揭示了一種基于url分析的營銷關(guān)鍵詞提取的方法,包括:(1)預(yù)設(shè)一個數(shù)據(jù)庫,所述數(shù)據(jù)庫內(nèi)包括多個結(jié)構(gòu)化文本以及建立多個網(wǎng)站統(tǒng)一資源定位符結(jié)構(gòu)與所述數(shù)據(jù)庫的中結(jié)構(gòu)化文本的對應(yīng)關(guān)系,所述結(jié)構(gòu)化文本至少包括營銷關(guān)鍵詞;(2)分析至少一個網(wǎng)站統(tǒng)一資源定位符,至少捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑;(3)根據(jù)所述網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑在數(shù)據(jù)庫中索引,是否有與之匹配的結(jié)構(gòu)化文本,若是,則執(zhí)行步驟(4);以及(4)獲得與該網(wǎng)站統(tǒng)一資源定位符匹配的結(jié)構(gòu)化文本。本發(fā)明可以快速的對大量的url進(jìn)行分析,并提取和保存相應(yīng)的營銷關(guān)鍵詞。
【專利說明】-種基于ur I分析的營銷關(guān)鍵詞提取的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,特別涉及一種基于url分析的營銷關(guān)鍵詞提取的方 法。
【背景技術(shù)】
[0002] url就是統(tǒng)一資源定位符(Uniform Resource Locator,縮寫為URL),是對可以從 互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址。 互聯(lián)網(wǎng)上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應(yīng)該 怎么處理它 對大多數(shù)廣告營銷活動來說,如何從茫茫人海中識別出潛在的目標(biāo)用戶是一件很困難 的事情。為了精準(zhǔn)的定向到目標(biāo)用戶,需要捕獲用戶的歷史行為,并從歷史行為中提煉出用 戶的興趣愛好,尤其是跟營銷活動相關(guān)的關(guān)鍵詞信息。
[0003] 例如一個用戶可能對價(jià)格8萬-10萬元的汽車感興趣,也可能對位于上海浦東地 區(qū)的經(jīng)濟(jì)性酒店感興趣,這里"8-10萬元的汽車"、"上海浦東的經(jīng)濟(jì)型酒店"就是2個不同 的營銷關(guān)鍵詞。
[0004] 一旦本發(fā)明利用搜集到的用戶信息和行為記錄進(jìn)行分析,得到了用戶感興趣的營 銷關(guān)鍵詞列表,在廣告營銷時(shí),本發(fā)明就可以將廣告投放到只對特定關(guān)鍵詞感興趣的人群, 進(jìn)行精準(zhǔn)定向。與傳統(tǒng)的廣告投放方法相比,精準(zhǔn)定向能用更少的成本,接觸到更多的潛在 客戶,從而為廣告主創(chuàng)造價(jià)值。與此同時(shí),由于精準(zhǔn)定向只對用戶投放其可能感興趣的廣 告,也可以提升用戶體驗(yàn),減少無關(guān)廣告對用戶的干擾。
[0005] 分析營銷關(guān)鍵詞,最合適的數(shù)據(jù)便是用戶上網(wǎng)時(shí)的訪問記錄,尤其是,在各個垂直 行業(yè)站點(diǎn)的歷史行為,例如攜程、搜房、淘寶、汽車之家等。對互聯(lián)網(wǎng)廣告服務(wù)提供商來說, 可以在各個合作的網(wǎng)站上部署JS代碼來收集用戶的訪問記錄。
[0006] 但是用戶訪問的url形式多樣,并沒有一個統(tǒng)一的規(guī)范,給營銷關(guān)鍵詞的提取帶 來很大的困難。
[0007] 例如,淘寶網(wǎng)上關(guān)于華為手機(jī)的導(dǎo)航頁;或者汽車之家上關(guān)于奧迪A4L的導(dǎo)航頁。 這兩個url中并沒有明確的指出其包含的信息,為了提取營銷關(guān)鍵詞信息,就需要對url做 深入的分析挖掘。
[0008] -種常見的做法是對url對應(yīng)的html文本進(jìn)行抓取,再從抓取得到的html中解 析得到需要的文本信息。這種做法需要爬蟲對大量的url進(jìn)行定向抓取,考慮到很多url 中包含了用戶的驗(yàn)證信息,而且很多站點(diǎn)對爬蟲的無限制抓取進(jìn)行了屏蔽,導(dǎo)致通過爬蟲 的做法不僅效率很低,而且抓取失敗率非常高;另一方面,由于html頁面的復(fù)雜性,從抓取 得到的html文本中提取營銷關(guān)鍵詞也是一個很困難的任務(wù)。
[0009] 對此,本發(fā)明提出一種方法和系統(tǒng),能夠自動地從用戶的url訪問的歷史記錄中, 提取用戶感興趣的營銷關(guān)鍵詞,用于廣告投放系統(tǒng)的精準(zhǔn)定向。
【發(fā)明內(nèi)容】
[0010] 本發(fā)明提供了一種基于url分析的營銷關(guān)鍵詞提取的方法,克服了現(xiàn)有技術(shù)的困 難,通過這種方法,本發(fā)明可以快速的對大量的url進(jìn)行分析,并提取和保存相應(yīng)的營銷關(guān) 鍵詞。
[0011] 本發(fā)明采用如下技術(shù)方案: 本發(fā)明提供了一種基于url分析的營銷關(guān)鍵詞提取的方法,包括: (1) 預(yù)設(shè)一個數(shù)據(jù)庫,所述數(shù)據(jù)庫內(nèi)包括多個結(jié)構(gòu)化文本以及建立多個網(wǎng)站統(tǒng)一資源 定位符結(jié)構(gòu)與所述數(shù)據(jù)庫的中結(jié)構(gòu)化文本的對應(yīng)關(guān)系,所述結(jié)構(gòu)化文本至少包括營銷關(guān)鍵 詞; (2) 分析至少一個網(wǎng)站統(tǒng)一資源定位符,至少捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱 和路徑; (3) 根據(jù)所述網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑在數(shù)據(jù)庫中索引,是否有與之匹 配的結(jié)構(gòu)化文本,若是,則執(zhí)行步驟(4);以及 (4) 獲得與該網(wǎng)站統(tǒng)一資源定位符匹配的結(jié)構(gòu)化文本。
[0012] 優(yōu)選地,所述步驟(2)中通過一個網(wǎng)站統(tǒng)一資源定位符解析器捕捉該網(wǎng)站統(tǒng)一資 源定位符的網(wǎng)站名稱和路徑。
[0013] 優(yōu)選地,所述步驟(2)中網(wǎng)站統(tǒng)一資源定位符解析器中預(yù)存網(wǎng)站統(tǒng)一資源定位符 結(jié)構(gòu)的樹狀索引。
[0014] 優(yōu)選地,所述步驟(2)中提取網(wǎng)站統(tǒng)一資源定位符的站點(diǎn)、子域名、統(tǒng)一資源定位 符路徑和統(tǒng)一資源定位符參數(shù)列表。
[0015] 優(yōu)選地,所述步驟(3 )包括: (31) 檢查網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱是否在索引中,若是,則執(zhí)行步驟(32);以及 (32) 檢查網(wǎng)站統(tǒng)一資源定位符的路徑是否在索引中,若是,則執(zhí)行步驟(4)。
[0016] 優(yōu)選地,所述步驟(2)中的網(wǎng)站統(tǒng)一資源定位符是用戶歷史訪問記錄中的一個或 多個網(wǎng)站統(tǒng)一資源定位符。
[0017] 優(yōu)選地,所述數(shù)據(jù)庫為Key-Value數(shù)據(jù)庫。
[0018] 本發(fā)明的基于url分析的營銷關(guān)鍵詞提取的方法針對廣告投放領(lǐng)域中的用戶精 準(zhǔn)定向,提出了一個基于url分析的、通用的、高效的營銷關(guān)鍵詞提取的方法。本發(fā)明的方 法有以下幾個優(yōu)點(diǎn): (1) 本發(fā)明的方法側(cè)重于對url本身的結(jié)構(gòu)進(jìn)行自動分析,不需要對url進(jìn)行大規(guī)模的 抓取,因而只占用較少的系統(tǒng)資源; (2) 由于url對應(yīng)的html頁面可能會過期或失效,導(dǎo)致對url的抓取會有一定的概率 失敗,因而與抓取html頁面并解析的方法相比,本發(fā)明方法具有更高的成功率; (3) 由于百度等大的搜索引擎會對經(jīng)常變動的url進(jìn)行降權(quán),大多數(shù)網(wǎng)站的url結(jié)構(gòu)長 期保持不變,因而本發(fā)明提出的基于url分析的方法具有很好的穩(wěn)定性; (4) 本發(fā)明在url分析的過程中建立了高效的知識庫索引和url解析器,使本發(fā)明方法 具有非常高的執(zhí)行效率。
[0019] 以下結(jié)合附圖及實(shí)施例進(jìn)一步說明本發(fā)明。
[0020]
【專利附圖】
【附圖說明】
[0021] 圖1為本發(fā)明的基于url分析的營銷關(guān)鍵詞提取的方法的流程圖。
[0022]
【具體實(shí)施方式】
[0023] 下面通過圖1來介紹本發(fā)明的一種具體實(shí)施例 如圖1所示,本發(fā)明的一種基于url分析的營銷關(guān)鍵詞提取的方法,包括以下步驟: (1) 預(yù)設(shè)一個數(shù)據(jù)庫,所述數(shù)據(jù)庫內(nèi)包括多個結(jié)構(gòu)化文本以及建立多個網(wǎng)站統(tǒng)一資源 定位符結(jié)構(gòu)與所述數(shù)據(jù)庫的中結(jié)構(gòu)化文本的對應(yīng)關(guān)系,所述結(jié)構(gòu)化文本至少包括營銷關(guān)鍵 詞; (2) 分析至少一個網(wǎng)站統(tǒng)一資源定位符,至少捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱 和路徑; (3) 根據(jù)所述網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑在數(shù)據(jù)庫中索引,是否有與之匹 配的結(jié)構(gòu)化文本,若是,則執(zhí)行步驟(4);以及 (4) 獲得與該網(wǎng)站統(tǒng)一資源定位符匹配的結(jié)構(gòu)化文本。
[0024] 所述步驟(2)中通過一個網(wǎng)站統(tǒng)一資源定位符解析器捕捉該網(wǎng)站統(tǒng)一資源定位符 的網(wǎng)站名稱和路徑。
[0025] 所述步驟(2)中網(wǎng)站統(tǒng)一資源定位符解析器中預(yù)存網(wǎng)站統(tǒng)一資源定位符結(jié)構(gòu)的樹 狀索引。
[0026] 所述步驟(2)中提取網(wǎng)站統(tǒng)一資源定位符的站點(diǎn)、子域名、統(tǒng)一資源定位符路徑和 統(tǒng)一資源定位符參數(shù)列表。
[0027] 所述步驟(3)包括: (31) 檢查網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱是否在索引中,若是,則執(zhí)行步驟(32);以及 (32) 檢查網(wǎng)站統(tǒng)一資源定位符的路徑是否在索引中,若是,則執(zhí)行步驟(4)。
[0028] 所述步驟(2)中的網(wǎng)站統(tǒng)一資源定位符是用戶歷史訪問記錄中的一個或多個網(wǎng)站 統(tǒng)一資源定位符。
[0029] 所述數(shù)據(jù)庫為Key-Value數(shù)據(jù)庫。
[0030] 本發(fā)明需要構(gòu)建一個行業(yè)相關(guān)的知識庫,這個知識庫中包含了各個行業(yè)的結(jié)構(gòu)化 的文本信息。例如,"奧迪A4L"是汽車行業(yè)的一款車型。
[0031] 本發(fā)明需要得到各個網(wǎng)站的url結(jié)構(gòu)與知識庫中的條目的對應(yīng)關(guān)系。例如,對 www. autohome. com. cn這個站點(diǎn),以/692/開頭的url目錄便是對應(yīng)的汽車行業(yè)的"奧迪 A4L"相關(guān)的信息。
[0032] 本發(fā)明需要構(gòu)建一個高效的知識庫索引。知識庫的規(guī)模可能非常龐大,包含超過 百萬個具體的條目。在關(guān)鍵詞的提取過程中,需要一個高效的索引在減少查找時(shí)間。
[0033] 本發(fā)明需要構(gòu)建一個url解析器,對每個不同的url,解析器能夠快速地捕獲到 url中與知識庫相對應(yīng)的結(jié)構(gòu)。
[0034] 有了以上4個模塊,本發(fā)明便可以對每個url快速的定位和提取營銷關(guān)鍵詞。先 獲得url中與知識庫對應(yīng)的結(jié)構(gòu),然后通過知識庫索引獲得相應(yīng)的結(jié)構(gòu)化文本。
[0035] 本發(fā)明的實(shí)施方式如下: 1、構(gòu)建結(jié)構(gòu)化的行業(yè)知識庫 我們只希望提取對廣告投放有幫助的營銷關(guān)鍵詞,因而需要營銷關(guān)鍵詞可以對應(yīng)到不 同的行業(yè),并且有明確的語義信息。因而我們需要構(gòu)建一個行業(yè)相關(guān)的知識庫,來表示各個 行業(yè)的結(jié)構(gòu)化的文本信息。
[0036] 例如,旅游行業(yè)知識庫的結(jié)構(gòu)和示例,如下表所示。對每一個行業(yè),會對應(yīng)多個不 同的產(chǎn)品,每個產(chǎn)品會對應(yīng)多個不同的字段。
【權(quán)利要求】
1. 一種基于統(tǒng)一資源定位符分析的營銷關(guān)鍵詞提取的方法,其特征在于,包括: (1) 預(yù)設(shè)一個數(shù)據(jù)庫,所述數(shù)據(jù)庫內(nèi)包括多個結(jié)構(gòu)化文本以及建立多個網(wǎng)站統(tǒng)一資源 定位符結(jié)構(gòu)與所述數(shù)據(jù)庫的中結(jié)構(gòu)化文本的對應(yīng)關(guān)系,所述結(jié)構(gòu)化文本至少包括營銷關(guān)鍵 詞; (2) 分析至少一個網(wǎng)站統(tǒng)一資源定位符,至少捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱 和路徑; (3) 根據(jù)所述網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑在數(shù)據(jù)庫中索引,是否有與之匹 配的結(jié)構(gòu)化文本,若是,則執(zhí)行步驟(4);以及 (4) 獲得與該網(wǎng)站統(tǒng)一資源定位符匹配的結(jié)構(gòu)化文本。
2. 如權(quán)利要求1所述的基于統(tǒng)一資源定位符分析的營銷關(guān)鍵詞提取的方法,其特征在 于:所述步驟(2)中通過一個網(wǎng)站統(tǒng)一資源定位符解析器捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng) 站名稱和路徑。
3. 如權(quán)利要求2所述的基于統(tǒng)一資源定位符分析的營銷關(guān)鍵詞提取的方法,其特征在 于:所述步驟(2)中網(wǎng)站統(tǒng)一資源定位符解析器中預(yù)存網(wǎng)站統(tǒng)一資源定位符結(jié)構(gòu)的樹狀索 引。
4. 如權(quán)利要求3所述的基于統(tǒng)一資源定位符分析的營銷關(guān)鍵詞提取的方法,其特征在 于:所述步驟(2)中提取網(wǎng)站統(tǒng)一資源定位符的站點(diǎn)、子域名、統(tǒng)一資源定位符路徑和統(tǒng)一 資源定位符參數(shù)列表。
5. 如權(quán)利要求4所述的基于統(tǒng)一資源定位符分析的營銷關(guān)鍵詞提取的方法,其特征在 于,所述步驟(3)包括: (31) 檢查網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱是否在索引中,若是,則執(zhí)行步驟(32);以及 (32) 檢查網(wǎng)站統(tǒng)一資源定位符的路徑是否在索引中,若是,則執(zhí)行步驟(4)。
6. 如權(quán)利要求1所述的基于統(tǒng)一資源定位符分析的營銷關(guān)鍵詞提取的方法,其特征在 于:所述步驟(2)中的網(wǎng)站統(tǒng)一資源定位符是用戶歷史訪問記錄中的一個或多個網(wǎng)站統(tǒng)一 資源定位符。
7. 如權(quán)利要求1所述的基于統(tǒng)一資源定位符分析的營銷關(guān)鍵詞提取的方法,其特征在 于:所述數(shù)據(jù)庫為Key-Value數(shù)據(jù)庫。
【文檔編號】G06F17/30GK104063453SQ201410285743
【公開日】2014年9月24日 申請日期:2014年6月24日 優(yōu)先權(quán)日:2014年6月24日
【發(fā)明者】湯奇峰, 劉作濤 申請人:晶贊廣告(上海)有限公司