国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于url分析的營銷關(guān)鍵詞提取的方法

      文檔序號:6550662閱讀:290來源:國知局
      一種基于url分析的營銷關(guān)鍵詞提取的方法
      【專利摘要】本發(fā)明揭示了一種基于url分析的營銷關(guān)鍵詞提取的方法,包括:(1)預(yù)設(shè)一個數(shù)據(jù)庫,所述數(shù)據(jù)庫內(nèi)包括多個結(jié)構(gòu)化文本以及建立多個網(wǎng)站統(tǒng)一資源定位符結(jié)構(gòu)與所述數(shù)據(jù)庫的中結(jié)構(gòu)化文本的對應(yīng)關(guān)系,所述結(jié)構(gòu)化文本至少包括營銷關(guān)鍵詞;(2)分析至少一個網(wǎng)站統(tǒng)一資源定位符,至少捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑;(3)根據(jù)所述網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑在數(shù)據(jù)庫中索引,是否有與之匹配的結(jié)構(gòu)化文本,若是,則執(zhí)行步驟(4);以及(4)獲得與該網(wǎng)站統(tǒng)一資源定位符匹配的結(jié)構(gòu)化文本。本發(fā)明可以快速的對大量的url進(jìn)行分析,并提取和保存相應(yīng)的營銷關(guān)鍵詞。
      【專利說明】-種基于ur I分析的營銷關(guān)鍵詞提取的方法

      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,特別涉及一種基于url分析的營銷關(guān)鍵詞提取的方 法。

      【背景技術(shù)】
      [0002] url就是統(tǒng)一資源定位符(Uniform Resource Locator,縮寫為URL),是對可以從 互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址。 互聯(lián)網(wǎng)上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應(yīng)該 怎么處理它 對大多數(shù)廣告營銷活動來說,如何從茫茫人海中識別出潛在的目標(biāo)用戶是一件很困難 的事情。為了精準(zhǔn)的定向到目標(biāo)用戶,需要捕獲用戶的歷史行為,并從歷史行為中提煉出用 戶的興趣愛好,尤其是跟營銷活動相關(guān)的關(guān)鍵詞信息。
      [0003] 例如一個用戶可能對價(jià)格8萬-10萬元的汽車感興趣,也可能對位于上海浦東地 區(qū)的經(jīng)濟(jì)性酒店感興趣,這里"8-10萬元的汽車"、"上海浦東的經(jīng)濟(jì)型酒店"就是2個不同 的營銷關(guān)鍵詞。
      [0004] 一旦本發(fā)明利用搜集到的用戶信息和行為記錄進(jìn)行分析,得到了用戶感興趣的營 銷關(guān)鍵詞列表,在廣告營銷時(shí),本發(fā)明就可以將廣告投放到只對特定關(guān)鍵詞感興趣的人群, 進(jìn)行精準(zhǔn)定向。與傳統(tǒng)的廣告投放方法相比,精準(zhǔn)定向能用更少的成本,接觸到更多的潛在 客戶,從而為廣告主創(chuàng)造價(jià)值。與此同時(shí),由于精準(zhǔn)定向只對用戶投放其可能感興趣的廣 告,也可以提升用戶體驗(yàn),減少無關(guān)廣告對用戶的干擾。
      [0005] 分析營銷關(guān)鍵詞,最合適的數(shù)據(jù)便是用戶上網(wǎng)時(shí)的訪問記錄,尤其是,在各個垂直 行業(yè)站點(diǎn)的歷史行為,例如攜程、搜房、淘寶、汽車之家等。對互聯(lián)網(wǎng)廣告服務(wù)提供商來說, 可以在各個合作的網(wǎng)站上部署JS代碼來收集用戶的訪問記錄。
      [0006] 但是用戶訪問的url形式多樣,并沒有一個統(tǒng)一的規(guī)范,給營銷關(guān)鍵詞的提取帶 來很大的困難。
      [0007] 例如,淘寶網(wǎng)上關(guān)于華為手機(jī)的導(dǎo)航頁;或者汽車之家上關(guān)于奧迪A4L的導(dǎo)航頁。 這兩個url中并沒有明確的指出其包含的信息,為了提取營銷關(guān)鍵詞信息,就需要對url做 深入的分析挖掘。
      [0008] -種常見的做法是對url對應(yīng)的html文本進(jìn)行抓取,再從抓取得到的html中解 析得到需要的文本信息。這種做法需要爬蟲對大量的url進(jìn)行定向抓取,考慮到很多url 中包含了用戶的驗(yàn)證信息,而且很多站點(diǎn)對爬蟲的無限制抓取進(jìn)行了屏蔽,導(dǎo)致通過爬蟲 的做法不僅效率很低,而且抓取失敗率非常高;另一方面,由于html頁面的復(fù)雜性,從抓取 得到的html文本中提取營銷關(guān)鍵詞也是一個很困難的任務(wù)。
      [0009] 對此,本發(fā)明提出一種方法和系統(tǒng),能夠自動地從用戶的url訪問的歷史記錄中, 提取用戶感興趣的營銷關(guān)鍵詞,用于廣告投放系統(tǒng)的精準(zhǔn)定向。


      【發(fā)明內(nèi)容】

      [0010] 本發(fā)明提供了一種基于url分析的營銷關(guān)鍵詞提取的方法,克服了現(xiàn)有技術(shù)的困 難,通過這種方法,本發(fā)明可以快速的對大量的url進(jìn)行分析,并提取和保存相應(yīng)的營銷關(guān) 鍵詞。
      [0011] 本發(fā)明采用如下技術(shù)方案: 本發(fā)明提供了一種基于url分析的營銷關(guān)鍵詞提取的方法,包括: (1) 預(yù)設(shè)一個數(shù)據(jù)庫,所述數(shù)據(jù)庫內(nèi)包括多個結(jié)構(gòu)化文本以及建立多個網(wǎng)站統(tǒng)一資源 定位符結(jié)構(gòu)與所述數(shù)據(jù)庫的中結(jié)構(gòu)化文本的對應(yīng)關(guān)系,所述結(jié)構(gòu)化文本至少包括營銷關(guān)鍵 詞; (2) 分析至少一個網(wǎng)站統(tǒng)一資源定位符,至少捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱 和路徑; (3) 根據(jù)所述網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑在數(shù)據(jù)庫中索引,是否有與之匹 配的結(jié)構(gòu)化文本,若是,則執(zhí)行步驟(4);以及 (4) 獲得與該網(wǎng)站統(tǒng)一資源定位符匹配的結(jié)構(gòu)化文本。
      [0012] 優(yōu)選地,所述步驟(2)中通過一個網(wǎng)站統(tǒng)一資源定位符解析器捕捉該網(wǎng)站統(tǒng)一資 源定位符的網(wǎng)站名稱和路徑。
      [0013] 優(yōu)選地,所述步驟(2)中網(wǎng)站統(tǒng)一資源定位符解析器中預(yù)存網(wǎng)站統(tǒng)一資源定位符 結(jié)構(gòu)的樹狀索引。
      [0014] 優(yōu)選地,所述步驟(2)中提取網(wǎng)站統(tǒng)一資源定位符的站點(diǎn)、子域名、統(tǒng)一資源定位 符路徑和統(tǒng)一資源定位符參數(shù)列表。
      [0015] 優(yōu)選地,所述步驟(3 )包括: (31) 檢查網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱是否在索引中,若是,則執(zhí)行步驟(32);以及 (32) 檢查網(wǎng)站統(tǒng)一資源定位符的路徑是否在索引中,若是,則執(zhí)行步驟(4)。
      [0016] 優(yōu)選地,所述步驟(2)中的網(wǎng)站統(tǒng)一資源定位符是用戶歷史訪問記錄中的一個或 多個網(wǎng)站統(tǒng)一資源定位符。
      [0017] 優(yōu)選地,所述數(shù)據(jù)庫為Key-Value數(shù)據(jù)庫。
      [0018] 本發(fā)明的基于url分析的營銷關(guān)鍵詞提取的方法針對廣告投放領(lǐng)域中的用戶精 準(zhǔn)定向,提出了一個基于url分析的、通用的、高效的營銷關(guān)鍵詞提取的方法。本發(fā)明的方 法有以下幾個優(yōu)點(diǎn): (1) 本發(fā)明的方法側(cè)重于對url本身的結(jié)構(gòu)進(jìn)行自動分析,不需要對url進(jìn)行大規(guī)模的 抓取,因而只占用較少的系統(tǒng)資源; (2) 由于url對應(yīng)的html頁面可能會過期或失效,導(dǎo)致對url的抓取會有一定的概率 失敗,因而與抓取html頁面并解析的方法相比,本發(fā)明方法具有更高的成功率; (3) 由于百度等大的搜索引擎會對經(jīng)常變動的url進(jìn)行降權(quán),大多數(shù)網(wǎng)站的url結(jié)構(gòu)長 期保持不變,因而本發(fā)明提出的基于url分析的方法具有很好的穩(wěn)定性; (4) 本發(fā)明在url分析的過程中建立了高效的知識庫索引和url解析器,使本發(fā)明方法 具有非常高的執(zhí)行效率。
      [0019] 以下結(jié)合附圖及實(shí)施例進(jìn)一步說明本發(fā)明。
      [0020]

      【專利附圖】

      【附圖說明】
      [0021] 圖1為本發(fā)明的基于url分析的營銷關(guān)鍵詞提取的方法的流程圖。
      [0022]

      【具體實(shí)施方式】
      [0023] 下面通過圖1來介紹本發(fā)明的一種具體實(shí)施例 如圖1所示,本發(fā)明的一種基于url分析的營銷關(guān)鍵詞提取的方法,包括以下步驟: (1) 預(yù)設(shè)一個數(shù)據(jù)庫,所述數(shù)據(jù)庫內(nèi)包括多個結(jié)構(gòu)化文本以及建立多個網(wǎng)站統(tǒng)一資源 定位符結(jié)構(gòu)與所述數(shù)據(jù)庫的中結(jié)構(gòu)化文本的對應(yīng)關(guān)系,所述結(jié)構(gòu)化文本至少包括營銷關(guān)鍵 詞; (2) 分析至少一個網(wǎng)站統(tǒng)一資源定位符,至少捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱 和路徑; (3) 根據(jù)所述網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑在數(shù)據(jù)庫中索引,是否有與之匹 配的結(jié)構(gòu)化文本,若是,則執(zhí)行步驟(4);以及 (4) 獲得與該網(wǎng)站統(tǒng)一資源定位符匹配的結(jié)構(gòu)化文本。
      [0024] 所述步驟(2)中通過一個網(wǎng)站統(tǒng)一資源定位符解析器捕捉該網(wǎng)站統(tǒng)一資源定位符 的網(wǎng)站名稱和路徑。
      [0025] 所述步驟(2)中網(wǎng)站統(tǒng)一資源定位符解析器中預(yù)存網(wǎng)站統(tǒng)一資源定位符結(jié)構(gòu)的樹 狀索引。
      [0026] 所述步驟(2)中提取網(wǎng)站統(tǒng)一資源定位符的站點(diǎn)、子域名、統(tǒng)一資源定位符路徑和 統(tǒng)一資源定位符參數(shù)列表。
      [0027] 所述步驟(3)包括: (31) 檢查網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱是否在索引中,若是,則執(zhí)行步驟(32);以及 (32) 檢查網(wǎng)站統(tǒng)一資源定位符的路徑是否在索引中,若是,則執(zhí)行步驟(4)。
      [0028] 所述步驟(2)中的網(wǎng)站統(tǒng)一資源定位符是用戶歷史訪問記錄中的一個或多個網(wǎng)站 統(tǒng)一資源定位符。
      [0029] 所述數(shù)據(jù)庫為Key-Value數(shù)據(jù)庫。
      [0030] 本發(fā)明需要構(gòu)建一個行業(yè)相關(guān)的知識庫,這個知識庫中包含了各個行業(yè)的結(jié)構(gòu)化 的文本信息。例如,"奧迪A4L"是汽車行業(yè)的一款車型。
      [0031] 本發(fā)明需要得到各個網(wǎng)站的url結(jié)構(gòu)與知識庫中的條目的對應(yīng)關(guān)系。例如,對 www. autohome. com. cn這個站點(diǎn),以/692/開頭的url目錄便是對應(yīng)的汽車行業(yè)的"奧迪 A4L"相關(guān)的信息。
      [0032] 本發(fā)明需要構(gòu)建一個高效的知識庫索引。知識庫的規(guī)模可能非常龐大,包含超過 百萬個具體的條目。在關(guān)鍵詞的提取過程中,需要一個高效的索引在減少查找時(shí)間。
      [0033] 本發(fā)明需要構(gòu)建一個url解析器,對每個不同的url,解析器能夠快速地捕獲到 url中與知識庫相對應(yīng)的結(jié)構(gòu)。
      [0034] 有了以上4個模塊,本發(fā)明便可以對每個url快速的定位和提取營銷關(guān)鍵詞。先 獲得url中與知識庫對應(yīng)的結(jié)構(gòu),然后通過知識庫索引獲得相應(yīng)的結(jié)構(gòu)化文本。
      [0035] 本發(fā)明的實(shí)施方式如下: 1、構(gòu)建結(jié)構(gòu)化的行業(yè)知識庫 我們只希望提取對廣告投放有幫助的營銷關(guān)鍵詞,因而需要營銷關(guān)鍵詞可以對應(yīng)到不 同的行業(yè),并且有明確的語義信息。因而我們需要構(gòu)建一個行業(yè)相關(guān)的知識庫,來表示各個 行業(yè)的結(jié)構(gòu)化的文本信息。
      [0036] 例如,旅游行業(yè)知識庫的結(jié)構(gòu)和示例,如下表所示。對每一個行業(yè),會對應(yīng)多個不 同的產(chǎn)品,每個產(chǎn)品會對應(yīng)多個不同的字段。

      【權(quán)利要求】
      1. 一種基于統(tǒng)一資源定位符分析的營銷關(guān)鍵詞提取的方法,其特征在于,包括: (1) 預(yù)設(shè)一個數(shù)據(jù)庫,所述數(shù)據(jù)庫內(nèi)包括多個結(jié)構(gòu)化文本以及建立多個網(wǎng)站統(tǒng)一資源 定位符結(jié)構(gòu)與所述數(shù)據(jù)庫的中結(jié)構(gòu)化文本的對應(yīng)關(guān)系,所述結(jié)構(gòu)化文本至少包括營銷關(guān)鍵 詞; (2) 分析至少一個網(wǎng)站統(tǒng)一資源定位符,至少捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱 和路徑; (3) 根據(jù)所述網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑在數(shù)據(jù)庫中索引,是否有與之匹 配的結(jié)構(gòu)化文本,若是,則執(zhí)行步驟(4);以及 (4) 獲得與該網(wǎng)站統(tǒng)一資源定位符匹配的結(jié)構(gòu)化文本。
      2. 如權(quán)利要求1所述的基于統(tǒng)一資源定位符分析的營銷關(guān)鍵詞提取的方法,其特征在 于:所述步驟(2)中通過一個網(wǎng)站統(tǒng)一資源定位符解析器捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng) 站名稱和路徑。
      3. 如權(quán)利要求2所述的基于統(tǒng)一資源定位符分析的營銷關(guān)鍵詞提取的方法,其特征在 于:所述步驟(2)中網(wǎng)站統(tǒng)一資源定位符解析器中預(yù)存網(wǎng)站統(tǒng)一資源定位符結(jié)構(gòu)的樹狀索 引。
      4. 如權(quán)利要求3所述的基于統(tǒng)一資源定位符分析的營銷關(guān)鍵詞提取的方法,其特征在 于:所述步驟(2)中提取網(wǎng)站統(tǒng)一資源定位符的站點(diǎn)、子域名、統(tǒng)一資源定位符路徑和統(tǒng)一 資源定位符參數(shù)列表。
      5. 如權(quán)利要求4所述的基于統(tǒng)一資源定位符分析的營銷關(guān)鍵詞提取的方法,其特征在 于,所述步驟(3)包括: (31) 檢查網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱是否在索引中,若是,則執(zhí)行步驟(32);以及 (32) 檢查網(wǎng)站統(tǒng)一資源定位符的路徑是否在索引中,若是,則執(zhí)行步驟(4)。
      6. 如權(quán)利要求1所述的基于統(tǒng)一資源定位符分析的營銷關(guān)鍵詞提取的方法,其特征在 于:所述步驟(2)中的網(wǎng)站統(tǒng)一資源定位符是用戶歷史訪問記錄中的一個或多個網(wǎng)站統(tǒng)一 資源定位符。
      7. 如權(quán)利要求1所述的基于統(tǒng)一資源定位符分析的營銷關(guān)鍵詞提取的方法,其特征在 于:所述數(shù)據(jù)庫為Key-Value數(shù)據(jù)庫。
      【文檔編號】G06F17/30GK104063453SQ201410285743
      【公開日】2014年9月24日 申請日期:2014年6月24日 優(yōu)先權(quán)日:2014年6月24日
      【發(fā)明者】湯奇峰, 劉作濤 申請人:晶贊廣告(上海)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1