本發(fā)明屬于計(jì)算機(jī)互聯(lián)網(wǎng),涉及一種基于深度學(xué)習(xí)的廣告聯(lián)盟作弊行為智能識別系統(tǒng)。
背景技術(shù):
1、廣告聯(lián)盟是一種通過集中廣告主和發(fā)布者資源,優(yōu)化廣告投放和管理的在線廣告模式。在這種模式下,廣告主支付廣告費(fèi)用,而發(fā)布者通過展示或點(diǎn)擊廣告獲取收益。然而,隨著在線廣告市場的快速增長,廣告作弊行為也日益猖獗。常見的廣告作弊行為包括點(diǎn)擊作弊、展示作弊和安裝作弊等,這些行為不僅浪費(fèi)了廣告主的資金,還損害了整個(gè)廣告生態(tài)系統(tǒng)的健康發(fā)展。
2、傳統(tǒng)的廣告作弊檢測方法通常依賴于規(guī)則引擎和統(tǒng)計(jì)分析。這些方法雖然在一定程度上能夠識別常見的欺詐行為,但面對不斷變化的欺詐手段和大量的數(shù)據(jù)時(shí),往往顯得力不從心。規(guī)則引擎需要人工不斷更新和維護(hù),而統(tǒng)計(jì)分析則可能難以捕捉到復(fù)雜的欺詐模式。深度學(xué)習(xí)作為人工智能的一個(gè)重要分支,具有強(qiáng)大的數(shù)據(jù)處理和模式識別能力。通過訓(xùn)練深度學(xué)習(xí)模型,可以從大量復(fù)雜的數(shù)據(jù)中自動提取特征,并識別出潛在的廣告作弊行為。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種基于深度學(xué)習(xí)的廣告聯(lián)盟作弊行為智能識別系統(tǒng),旨在利用收集歷史時(shí)期豐富的用戶信息(行為信息、設(shè)備信息和地理信息),及其對應(yīng)的作弊行為數(shù)據(jù),通過深度學(xué)習(xí)用戶信息與其作弊行為之間的復(fù)雜關(guān)系實(shí)現(xiàn)智能識別廣告作弊行為,解決現(xiàn)有技術(shù)準(zhǔn)確性和效率低下的問題。
2、本發(fā)明的目的可以通過以下技術(shù)方案實(shí)現(xiàn):
3、本申請?zhí)峁┝艘环N基于深度學(xué)習(xí)的廣告聯(lián)盟作弊行為智能識別系統(tǒng),包括數(shù)據(jù)監(jiān)測模塊、作弊分析模塊和統(tǒng)計(jì)應(yīng)用模塊,所述數(shù)據(jù)監(jiān)測模塊、作弊分析模塊和統(tǒng)計(jì)應(yīng)用模塊通信連接,其中:
4、所述數(shù)據(jù)監(jiān)測模塊,用于實(shí)時(shí)監(jiān)測進(jìn)入廣告的用戶信息,所述用戶信息,包括行為信息、設(shè)備信息和地理信息;
5、所述作弊分析模塊,用于將實(shí)時(shí)監(jiān)測的用戶信息輸入預(yù)設(shè)的作弊分析單元中,輸出預(yù)測的作弊行為;所述作弊行為包括點(diǎn)擊作弊、展示作弊、安裝作弊和無作弊行為;所述作弊分析單元,包括以下構(gòu)建步驟:
6、s1、收集歷史時(shí)期監(jiān)測的用戶信息及其對應(yīng)的作弊行為;
7、s2、利用冗余分析模型識別用戶信息與作弊行為之間的相關(guān)性;
8、s3、構(gòu)建具有相關(guān)性的用戶信息與作弊行為之間的隨機(jī)森林模型;
9、所述統(tǒng)計(jì)應(yīng)用模塊,用于統(tǒng)計(jì)作弊行為不是無作弊行為的作弊用戶數(shù)量,并計(jì)算作弊用戶數(shù)量的占比。
10、進(jìn)一步地,數(shù)據(jù)監(jiān)測模塊中,所述行為信息,包括點(diǎn)擊模式、瀏覽行為和交互行為,所述點(diǎn)擊模式為用戶點(diǎn)擊廣告的頻率、時(shí)間和來源;所述設(shè)備信息,包括設(shè)備操作系統(tǒng)類型及其版本、設(shè)備型號和設(shè)備網(wǎng)絡(luò)消息,所述設(shè)備網(wǎng)絡(luò)信息包括ip地址和網(wǎng)絡(luò)類型;所述地理信息包括ip地理位置,以及用戶登錄或操作時(shí)的地理區(qū)域。
11、進(jìn)一步地,所述冗余分析模型,包括以下構(gòu)建步驟:
12、s21、以用戶信息作為解釋變量,作弊行為作為響應(yīng)變量,構(gòu)建冗余分析模型;
13、s22、利用蒙特卡羅置換檢驗(yàn),檢查全模型和模型第一軸的顯著性,當(dāng)全模型和模型第一軸存在顯著性,模型通過檢驗(yàn);
14、s23、根據(jù)各變量在排序軸中的得分繪制排序圖,并確定排序圖中用戶信息和作弊行為箭頭之間的夾角大小;
15、s24、當(dāng)用戶信息和作弊行為變量箭頭之間的夾角小于設(shè)定的夾角閾值時(shí),確定二者之間存在相關(guān)性。
16、進(jìn)一步地,步驟s23中,還通過用戶信息和作弊行為在排序軸中得分的皮爾遜相關(guān)系數(shù)來輔助分析用戶信息與作弊行為變量之間的相關(guān)性,當(dāng)所述皮爾遜相關(guān)系數(shù)大于0.7時(shí),確定二者之間存在相關(guān)性。
17、進(jìn)一步地,所述皮爾遜相關(guān)系數(shù),計(jì)算公式為:
18、
19、式中:rij表示用戶信息變量xi與作弊行為變量xj之間的皮爾遜相關(guān)系數(shù);xki表示xi的第k個(gè)樣本,xkj表示xj的第k個(gè)樣本,k=1,2,…,n,其中n為樣本數(shù)。
20、進(jìn)一步地,所述隨機(jī)森林模型,包括以下構(gòu)建步驟:
21、s31、數(shù)據(jù)準(zhǔn)備:準(zhǔn)備包含解釋變量和響應(yīng)變量的數(shù)據(jù)集,所述解釋變量為用戶信息,所述響應(yīng)變量為作弊行為;
22、s32、數(shù)據(jù)集劃分:將收集的數(shù)據(jù)劃分為訓(xùn)練集和測試集,其中采用數(shù)據(jù)集中70%的數(shù)據(jù)樣本作為訓(xùn)練集,30%的數(shù)據(jù)樣本作為測試集;
23、s33、隨機(jī)抽樣:從訓(xùn)練集中隨機(jī)抽取一定數(shù)量的解釋變量和數(shù)據(jù)樣本,并有放回地構(gòu)建多個(gè)不同的訓(xùn)練集;
24、s34、構(gòu)建決策樹:對于每個(gè)隨機(jī)抽樣的訓(xùn)練集,構(gòu)建決策樹模型;
25、s35、集成決策樹:將構(gòu)建好的多個(gè)決策樹模型整合成隨機(jī)森林模型,利用投票機(jī)制做出最終的預(yù)測;
26、s36、模型評估:采用評估指標(biāo)評估隨機(jī)森林模型對測試集的預(yù)測性能,確定具有良好預(yù)測性能的最終模型。
27、進(jìn)一步地,步驟s34中,所述決策樹模型,配置為cart模型。
28、進(jìn)一步地,步驟s36中,所述評估指標(biāo)采用準(zhǔn)確率、精確率、召回率和f1值。
29、進(jìn)一步地,所述計(jì)算作弊用戶數(shù)量的占比,計(jì)算公式如下:
30、
31、式中,zr表示作弊用戶數(shù)量的占比;za表示作弊用戶數(shù)量;zsum表示監(jiān)測進(jìn)入廣告的總用戶數(shù)量。
32、進(jìn)一步地,當(dāng)所述作弊用戶數(shù)量的占比超過設(shè)定的占比閾值時(shí),確定廣告存在作弊,并取消投放。
33、本發(fā)明的有益效果:
34、通過收集歷史時(shí)期監(jiān)測的用戶信息及其對應(yīng)的作弊行為;利用冗余分析模型識別用戶信息與作弊行為之間的相關(guān)性;構(gòu)建具有相關(guān)性的用戶信息與作弊行為之間的隨機(jī)森林模型。實(shí)時(shí)監(jiān)測進(jìn)入廣告的用戶信息,并輸入隨機(jī)森林模型中,輸出預(yù)測的作弊行為;當(dāng)作弊用戶數(shù)量的占比超過設(shè)定的占比閾值時(shí),確定廣告存在作弊。本發(fā)明通過深度學(xué)習(xí)用戶信息與其作弊行為之間的復(fù)雜關(guān)系實(shí)現(xiàn)智能識別廣告作弊行為,解決現(xiàn)有技術(shù)準(zhǔn)確性和效率低下的問題。
1.一種基于深度學(xué)習(xí)的廣告聯(lián)盟作弊行為智能識別系統(tǒng),其特征在于:包括數(shù)據(jù)監(jiān)測模塊、作弊分析模塊和統(tǒng)計(jì)應(yīng)用模塊,所述數(shù)據(jù)監(jiān)測模塊、作弊分析模塊和統(tǒng)計(jì)應(yīng)用模塊通信連接,其中:
2.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的廣告聯(lián)盟作弊行為智能識別系統(tǒng),其特征在于:所述行為信息,包括點(diǎn)擊模式、瀏覽行為和交互行為,所述點(diǎn)擊模式為用戶點(diǎn)擊廣告的頻率、時(shí)間和來源;所述設(shè)備信息,包括設(shè)備操作系統(tǒng)類型及其版本、設(shè)備型號和設(shè)備網(wǎng)絡(luò)消息,所述設(shè)備網(wǎng)絡(luò)信息包括ip地址和網(wǎng)絡(luò)類型;所述地理信息包括ip地理位置,以及用戶登錄或操作時(shí)的地理區(qū)域。
3.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的廣告聯(lián)盟作弊行為智能識別系統(tǒng),其特征在于:所述冗余分析模型,包括:
4.根據(jù)權(quán)利要求3所述的一種基于深度學(xué)習(xí)的廣告聯(lián)盟作弊行為智能識別系統(tǒng),其特征在于:所述冗余分析模型,還通過用戶信息和作弊行為在排序軸中得分的皮爾遜相關(guān)系數(shù)來輔助分析用戶信息與作弊行為變量之間的相關(guān)性,具體為當(dāng)所述皮爾遜相關(guān)系數(shù)大于0.7時(shí),確定二者之間存在相關(guān)性。
5.根據(jù)權(quán)利要求4所述的一種基于深度學(xué)習(xí)的廣告聯(lián)盟作弊行為智能識別系統(tǒng),其特征在于:所述皮爾遜相關(guān)系數(shù),計(jì)算公式為:
6.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的廣告聯(lián)盟作弊行為智能識別系統(tǒng),其特征在于:所述隨機(jī)森林模型,包括:
7.根據(jù)權(quán)利要求6所述的一種基于深度學(xué)習(xí)的廣告聯(lián)盟作弊行為智能識別系統(tǒng),其特征在于:所述決策樹模型,配置為cart模型。
8.根據(jù)權(quán)利要求6所述的一種基于深度學(xué)習(xí)的廣告聯(lián)盟作弊行為智能識別系統(tǒng),其特征在于:所述評估指標(biāo)采用準(zhǔn)確率、精確率、召回率和f1值。
9.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的廣告聯(lián)盟作弊行為智能識別系統(tǒng),其特征在于:所述計(jì)算作弊用戶數(shù)量的占比,計(jì)算公式如下:
10.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的廣告聯(lián)盟作弊行為智能識別系統(tǒng),其特征在于:當(dāng)所述作弊用戶數(shù)量的占比超過設(shè)定的占比閾值時(shí),確定廣告存在作弊,并取消投放。