專利名稱:基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于互聯(lián)網(wǎng)廣告投放技術(shù)領(lǐng)域,具體涉及一種基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)廣告已逐漸成為網(wǎng)站收入的主要來源,網(wǎng)絡(luò)廣告被當今公認為第五媒體,具有報紙、雜志、電視、廣播等傳統(tǒng)媒體無法比擬的優(yōu)勢,例如:網(wǎng)絡(luò)廣告的傳播范圍廣泛、傳播受眾針對性強、廣告費用低廉、廣告受眾數(shù)量的可統(tǒng)計性等諸多優(yōu)點,因此,網(wǎng)絡(luò)廣告越來越受到商家的青睞。目前,廣告站點數(shù)量眾多,例如:搜狐、新浪、騰訊等;并且,對于同一個廣告站點,也投放了數(shù)量眾多的廣告信息,因此,互聯(lián)網(wǎng)中,存在著數(shù)量龐大繁雜的廣告信息,并且,各個廣告主還會經(jīng)常更新所投放的廣告信息,現(xiàn)有技術(shù)中,缺乏一種有效的方式,來有效的對互聯(lián)網(wǎng)的廣告信息進行動態(tài)跟蹤和統(tǒng)計,從而為有意義的分析和挖掘互聯(lián)網(wǎng)廣告業(yè)務(wù)提供基礎(chǔ)數(shù)據(jù)。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提供一種基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法,能夠動態(tài)跟蹤互聯(lián)網(wǎng)全網(wǎng)廣告的變化情況,從而為分析和挖掘互聯(lián)網(wǎng)廣告業(yè)務(wù)提供有意義的重要基礎(chǔ)數(shù)據(jù)。本發(fā)明采用的技術(shù)方案如下:本發(fā)明提供一種基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法,包括以下步驟:SI,建立并維護廣告位知識庫和廣告主信息庫;其中,所述廣告位知識庫用于存儲各個網(wǎng)站的廣告位信息;所述廣告主信息庫用于存儲廣告主信息;S2,廣告位跟蹤服務(wù)器定時從所述廣告位知識庫中獲取各個與廣告位對應(yīng)的所述廣告位信息,并對各個所述廣告位信息進行分析,判斷各個廣告位所投放的廣告是否發(fā)生變化,如果沒有發(fā)生變化,則繼續(xù)對下一個廣告位信息進行分析;如果發(fā)生變化,則執(zhí)行S3 ;S3,所述廣告位跟蹤服務(wù)器下載并保存發(fā)生變化的指定廣告位所指向的指定廣告頁面,并將所述指定廣告頁面?zhèn)鬏斀o廣告數(shù)據(jù)分析服務(wù)器;S4,所述廣告數(shù)據(jù)分析服務(wù)器基于所述廣告主信息庫存儲的所述廣告主信息對所述指定廣告頁面進行數(shù)據(jù)分析,結(jié)合機器學習算法識別出所述指定廣告頁面所屬的指定廣告主信息,并存儲所述指定廣告頁面與所述指定廣告主信息的對應(yīng)關(guān)系。優(yōu)選的,SI中,所述廣告位信息包括廣告位所在的廣告位頁面的URL、廣告位在廣告位頁面中的代碼特征、廣告位在廣告位頁面中的展示位置信息以及廣告位的刊例價信息中的一種或幾種。優(yōu)選的,所述廣告位所在的廣告位頁面的URL、所述廣告位在廣告位頁面中的代碼特征以及所述廣告位在廣告位頁面中的展示位置信息的獲取方法為:通過網(wǎng)絡(luò)爬蟲自動收集各個網(wǎng)站頁面的所述廣告位所在的廣告位頁面的URL、所述廣告位在廣告位頁面中的代碼特征以及所述廣告位在廣告位頁面中的展示位置信息;所述廣告位的刊例價信息通過線下人工獲取方式獲取。優(yōu)選的,S2中,所述對各個所述廣告位信息進行分析,判斷各個廣告位所投放的廣告是否發(fā)生變化具體包括以下步驟:S21,根據(jù)所述廣告位所在的廣告位頁面的URL下載當前廣告位頁面;S22,根據(jù)所述廣告位在廣告位頁面中的代碼特征,從S21下載的所述當前廣告位頁面中提取指向廣告頁面的當前廣告鏈接;S23,判斷屬于同一廣告位的本次提取的所述當前廣告鏈接是否與上一次提取的廣告鏈接相同,如果相同,則得出所述廣告位所投放的廣告沒有發(fā)生變化的結(jié)論;如果不相同,則得出所述廣告位所投放的廣告發(fā)生變化的結(jié)論。優(yōu)選的,所述廣告主信息包括廣告主名稱信息、廣告主擁有的品牌信息、廣告主擁有的產(chǎn)品線信息以及廣告語料信息中的一種或幾種。優(yōu)選的,所述廣告主信息的獲取方法為:通過網(wǎng)絡(luò)爬蟲自動收集各個網(wǎng)站頁面的初始廣告主信息;然后對所述初始廣告主信息進行過濾篩選,得到所述廣告主信息庫中存儲的所述廣告主信息。本發(fā)明的有益效果如下:本發(fā)明提供一種基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法,能夠動態(tài)跟蹤互聯(lián)網(wǎng)全網(wǎng)廣告的變化情況,尤其能夠跟蹤到發(fā)生變化的廣告位信息,并還原出與發(fā)生變化的廣告位信息對應(yīng)的廣告主信息,并存儲發(fā)生變化的廣告位信息和廣告主信息的對應(yīng)關(guān)系,從而為分析和挖掘互聯(lián)網(wǎng)廣告業(yè)務(wù)提供有意義的重要基礎(chǔ)數(shù)據(jù)。
圖1為本發(fā)明提供的基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法的流程示意圖。
具體實施例方式以下結(jié)合附圖對本發(fā)明進行詳細說明:如圖1所示,本發(fā)明提供一種基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法,包括以下步驟:SI,建立并維護廣告位知識庫和廣告主信息庫;其中,所述廣告位知識庫用于存儲各個網(wǎng)站的廣告位信息;所述廣告主信息庫用于存儲廣告主信息;具體的,廣告位知識庫需要動態(tài)更新,其存儲的廣告位信息包括廣告位所在的廣告位頁面的URL、廣告位在廣告位頁面中的代碼特征、廣告位在廣告位頁面中的展示位置信息以及廣告位的刊例價信息中的一種或幾種。為方便理解上述各個廣告位信息的含義,舉例如下:A廣告投放網(wǎng)站在URL鏈接為http://www.A.com的廣告位頁面中設(shè)置了 50個廣告位,每一個廣告位均投放了廣告宣傳圖片,當某一個廣告宣傳圖片被點擊時,則鏈接到對應(yīng)的廣告頁面。其中,http://www.A.com即為廣告位所在的廣告位頁面的URL,廣告位在廣告位頁面中的展示位置信息即為:某一個廣告位投放的廣告宣傳圖片在廣告位頁面中的位置,例如:左上角或右下角等。需要說明的是,為理解本發(fā)明,需要區(qū)分廣告位頁面和廣告頁面這兩個詞語的含義,廣告位頁面是指展示多個廣告位的頁面,如上例中展示50個廣告位的廣告位頁面;而廣告頁面是指某一個廣告位被點擊后,所鏈接到的對應(yīng)的頁面,如:一個售汽車的廣告主在A廣告投放網(wǎng)站的某個廣告位投放了一個圖片為“汽車”的廣告圖片,當該廣告圖片被點擊時,則鏈接到該廣告主售相關(guān)汽車的網(wǎng)站頁面,該廣告主售相關(guān)汽車的網(wǎng)站頁面即為廣告頁面。其中,廣告位所在的廣告位頁面的URL、所述廣告位在廣告位頁面中的代碼特征以及所述廣告位在廣告位頁面中的展示位置信息的獲取方法為:通過網(wǎng)絡(luò)爬蟲自動收集各個網(wǎng)站頁面的所述廣告位所在的廣告位頁面的URL、所述廣告位在廣告位頁面中的代碼特征以及所述廣告位在廣告位頁面中的展示位置信息;所述廣告位的刊例價信息通過線下人工獲取方式獲取。廣告主信息庫需動態(tài)實時更新,其存儲的廣告主信息包括廣告主名稱信息、廣告主擁有的品牌信息、廣告主擁有的產(chǎn)品線信息以及廣告語料信息中的一種或幾種。例如:A公司為其生產(chǎn)的X品牌的運動鞋投放廣告,則A公司為廣告主名稱信息,X品牌為A公司擁有的品牌信息。其中,廣告主信息的獲取方法為:通過網(wǎng)絡(luò)爬蟲自動收集各個網(wǎng)站頁面的初始廣告主信息;然后對所述初始廣告主信息進行過濾篩選,得到所述廣告主信息庫中存儲的所述廣告主信息。S2,廣告位跟蹤服務(wù)器定時從所述廣告位知識庫中獲取各個與廣告位對應(yīng)的所述廣告位信息,并對各個所述廣告位信息進行分析,判斷各個廣告位所投放的廣告是否發(fā)生變化,如果沒有發(fā)生變化,則繼續(xù)對下一個廣告位信息進行分析;如果發(fā)生變化,則執(zhí)行S3 ;本步驟中,對各個所述廣告位信息進行分析,判斷各個廣告位所投放的廣告是否發(fā)生變化具體包括以下步驟:S21,根據(jù)所述廣告位所在的廣告位頁面的URL下載當前廣告位頁面;S22,根據(jù)所述廣告位在廣告位頁面中的代碼特征,從S21下載的所述當前廣告位頁面中提取指向廣告頁面的當前廣告鏈接;S23,判斷屬于同一廣告位的本次提取的所述當前廣告鏈接是否與上一次提取的廣告鏈接相同,如果相同,則得出所述廣告位所投放的廣告沒有發(fā)生變化的結(jié)論;如果不相同,則得出所述廣告位所投放的廣告發(fā)生變化的結(jié)論。S3,所述廣告位跟蹤服務(wù)器下載并保存發(fā)生變化的指定廣告位所指向的指定廣告頁面,并將所述指定廣告頁面?zhèn)鬏斀o廣告數(shù)據(jù)分析服務(wù)器;S4,所述廣告數(shù)據(jù)分析服務(wù)器基于所述廣告主信息庫存儲的所述廣告主信息對所述指定廣告頁面進行數(shù)據(jù)分析,結(jié)合機器學習算法識別出所述指定廣告頁面所屬的指定廣告主信息,并存儲所述指定廣告頁面與所述指定廣告主信息的對應(yīng)關(guān)系。綜上所述,本發(fā)明提供的基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法,能夠動態(tài)跟蹤互聯(lián)網(wǎng)全網(wǎng)廣告的變化情況,尤其能夠跟蹤到發(fā)生變化的廣告位信息,并還原出與發(fā)生變化的廣告位信息對應(yīng)的廣告主信息,并存儲發(fā)生變化的廣告位信息和廣告主信息的對應(yīng)關(guān)系,從而為分析和挖掘互聯(lián)網(wǎng)廣告業(yè)務(wù)提供有意義的重要基礎(chǔ)數(shù)據(jù)。以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視本發(fā)明的保護范圍。
權(quán)利要求
1.一種基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法,其特征在于,包括以下步驟: Si,建立并維護廣告位知識庫和廣告主信息庫;其中,所述廣告位知識庫用于存儲各個網(wǎng)站的廣告位信息;所述廣告主信息庫用于存儲廣告主信息; S2,廣告位跟蹤服務(wù)器定時從所述廣告位知識庫中獲取各個與廣告位對應(yīng)的所述廣告位信息,并對各個所述廣告位信息進行分析,判斷各個廣告位所投放的廣告是否發(fā)生變化,如果沒有發(fā)生變化,則繼續(xù)對下一個廣告位信息進行分析;如果發(fā)生變化,則執(zhí)行S3 ; S3,所述廣告位跟蹤服務(wù)器下載并保存發(fā)生變化的指定廣告位所指向的指定廣告頁面,并將所述指定廣告頁面?zhèn)鬏斀o廣告數(shù)據(jù)分析服務(wù)器; S4,所述廣告數(shù)據(jù)分析服務(wù)器基于所述廣告主信息庫存儲的所述廣告主信息對所述指定廣告頁面進行數(shù)據(jù)分析,結(jié)合機器學習算法識別出所述指定廣告頁面所屬的指定廣告主信息,并存儲所述指定廣告頁面與所述指定廣告主信息的對應(yīng)關(guān)系。
2.根據(jù)權(quán)利要求1所述的基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法,其特征在于,SI中,所述廣告位信息包括廣告位所在的廣告位頁面的URL、廣告位在廣告位頁面中的代碼特征、廣告位在廣告位頁面中的展示位置信息以及廣告位的刊例價信息中的一種或幾種。
3.根據(jù)權(quán)利要求2所述的基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法,其特征在于,所述廣告位所在的廣告位頁面的URL、所述廣告位在廣告位頁面中的代碼特征以及所述廣告位在廣告位頁面中的展示位置信息的獲取方法為:通過網(wǎng)絡(luò)爬蟲自動收集各個網(wǎng)站頁面的所述廣告位所在的廣告位頁面的URL、所述廣告位在廣告位頁面中的代碼特征以及所述廣告位在廣告位頁面中的展示位置信息;所述廣告位的刊例價信息通過線下人工獲取方式獲取。
4.根據(jù)權(quán)利要求2所述的基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法,其特征在于,S2中,所述對各個所述廣告位信息進行分析,判斷各個廣告位所投放的廣告是否發(fā)生變化具體包括以下步驟: S21,根據(jù)所述廣告位所在的廣告位頁面的URL下載當前廣告位頁面; S22,根據(jù)所述廣告位在廣告位頁面中的代碼特征,從S21下載的所述當前廣告位頁面中提取指向廣告頁面的當前廣告鏈接; S23,判斷屬于同一廣告位的本次提取的所述當前廣告鏈接是否與上一次提取的廣告鏈接相同,如果相同,則得出所述廣告位所投放的廣告沒有發(fā)生變化的結(jié)論;如果不相同,則得出所述廣告位所投放的廣告發(fā)生變化的結(jié)論。
5.根據(jù)權(quán)利要求1所述的基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法,其特征在于,所述廣告主信息包括廣告主名稱信息、廣告主擁有的品牌信息、廣告主擁有的產(chǎn)品線信息以及廣告語料信息中的一種或幾種。
6.根據(jù)權(quán)利要求5所述的基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法,其特征在于,所述廣告主信息的獲取方法為:通過網(wǎng)絡(luò)爬蟲自動收集各個網(wǎng)站頁面的初始廣告主信息;然后對所述初始廣告主信息進行過濾篩選,得到所述廣告主信息庫中存儲的所述廣告主信息。
全文摘要
本發(fā)明提供一種基于內(nèi)容識別的互聯(lián)網(wǎng)全網(wǎng)廣告投放識別方法,包括建立并維護廣告位知識庫和廣告主信息庫;廣告位知識庫用于存儲各個網(wǎng)站的廣告位信息;廣告主信息庫用于存儲廣告主信息;廣告位跟蹤服務(wù)器定時從廣告位知識庫中獲取廣告位信息,并對各廣告位信息進行分析,判斷出廣告位所投放的廣告發(fā)生變化時,則廣告位跟蹤服務(wù)器下載并保存指定廣告位所指向的指定廣告頁面,并將指定廣告頁面?zhèn)鬏斀o廣告數(shù)據(jù)分析服務(wù)器;廣告數(shù)據(jù)分析服務(wù)器基于廣告主信息庫存儲的廣告主信息對指定廣告頁面數(shù)據(jù)分析,識別出指定廣告頁面所屬的指定廣告主信息。能夠動態(tài)精確跟蹤互聯(lián)網(wǎng)全網(wǎng)廣告的變化情況,為分析和挖掘互聯(lián)網(wǎng)廣告業(yè)務(wù)提供有意義的重要基礎(chǔ)數(shù)據(jù)。
文檔編號G06Q30/02GK103150668SQ20131008828
公開日2013年6月12日 申請日期2013年3月19日 優(yōu)先權(quán)日2013年3月19日
發(fā)明者段培力, 劉國清, 鄭重, 丁立星, 于鋒 申請人:北京集奧聚合科技有限公司