一種基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開一種基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng),該方法包括:獲取用戶標(biāo)簽信息及廣告的標(biāo)簽信息;根據(jù)所述用戶標(biāo)簽信息及廣告的標(biāo)簽信息計(jì)算出對應(yīng)的用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度;根據(jù)所述相似度獲取所述用戶與所述廣告的標(biāo)簽詞共現(xiàn)語料,并將所獲取的各個標(biāo)簽詞共現(xiàn)語料構(gòu)建成標(biāo)簽詞共現(xiàn)語料對;根據(jù)標(biāo)簽詞在語料中出現(xiàn)的次數(shù)計(jì)算出各個共現(xiàn)語料對中標(biāo)簽詞的置信度;判斷到所述置信度滿足預(yù)先設(shè)定閾值時,結(jié)合已有標(biāo)簽詞簇信息將所述標(biāo)簽詞共現(xiàn)語料對中的標(biāo)簽詞進(jìn)行標(biāo)簽詞簇的聚類。本發(fā)明節(jié)約了廣告標(biāo)簽聚類的數(shù)據(jù)計(jì)算、處理過程中的計(jì)算資源。
【專利說明】
一種基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及廣告數(shù)據(jù)處理的技術(shù)領(lǐng)域,涉及一種基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)及大數(shù)據(jù)處理技術(shù)的不斷發(fā)展,商品的廣告從原始的在商品包裝、廣告牌等實(shí)體的廣告形式慢慢發(fā)展為媒體等虛擬的廣告形式。而現(xiàn)今,在網(wǎng)絡(luò)媒體上發(fā)布廣告進(jìn)行產(chǎn)品的展現(xiàn)已經(jīng)成為商家的常用手段,通過網(wǎng)絡(luò)媒體展示產(chǎn)品的方式能取得比較好的產(chǎn)品營銷效果。再者,現(xiàn)在各種技術(shù)都追求智能化及自動化功能,更能滿足用戶在實(shí)際生活中的需求,提高了用戶在實(shí)際中的實(shí)際體驗(yàn)。
[0003]現(xiàn)在的廣告投放又提出基于用戶興趣進(jìn)行推送投放的形式,根據(jù)用戶的歷史觀看或點(diǎn)擊數(shù)據(jù),總結(jié)出用戶的興趣愛好或關(guān)注的領(lǐng)域,再向用戶進(jìn)行相關(guān)或相近內(nèi)容的廣告推薦,如此能夠增加投放廣告的用戶點(diǎn)擊率,從而增強(qiáng)商業(yè)宣傳的營銷效果,對于廣告投放平臺來講也會增加廣告投放的收益,這種廣告的投放形式被稱為廣告的個性化投放。在廣告的個性化投放過程中,使用廣告標(biāo)簽給所投放的廣告進(jìn)行記錄或者標(biāo)記是識別廣告屬性,并按此獲取相應(yīng)的廣告進(jìn)行投放的重要步驟。而在此過程中,按照廣告的內(nèi)容將廣告進(jìn)行聚類處理,將內(nèi)容相關(guān)聯(lián)或相近的廣告歸為同一簇方便體現(xiàn)出各個廣告之間的相似性,也就方便了后續(xù)對用戶進(jìn)行興趣廣告推送投放。
[0004]由此可見,計(jì)算廣告的相關(guān)性已成為基于用戶興趣進(jìn)行推送投放的重要內(nèi)容。對廣告相關(guān)性的計(jì)算不光是看用戶的點(diǎn)擊觀看行為,還需要結(jié)合廣告本身內(nèi)容,而廣告標(biāo)簽作為反應(yīng)廣告本身內(nèi)容的重要信息也逐漸成為了熱門的研究課題。因?yàn)楝F(xiàn)在很多廣告的標(biāo)簽都是由用戶標(biāo)注上的,不同的用戶對同一個信息的描述不盡相同,但是會是相似的,在計(jì)算相關(guān)性時就需要將這些相似且描述同一信息的廣告標(biāo)簽歸為一簇,例如,標(biāo)注“阿迪達(dá)斯,,、“阿迪”、“adidas”、“adi”、“體育”、”球鞋”、“男士香水”等標(biāo)簽的廣告,而這些與阿迪相關(guān)的幾個標(biāo)簽其實(shí)描述的是同一個信息。
[0005]現(xiàn)有技術(shù)中,通常利用k-means算法(硬聚類算法)將廣告標(biāo)簽歸簇,k-means算法,是將數(shù)據(jù)點(diǎn)到原型的某種距離作為優(yōu)化的目標(biāo)函數(shù),利用函數(shù)求極值的方法得到迭代運(yùn)算的調(diào)整規(guī)則,K-means算法以歐式距離作為相似度測度,它是求對應(yīng)某一初始聚類中心向量最優(yōu)分類,使得評價(jià)指標(biāo)最小。算法過程如下:(I)從N個文檔隨機(jī)選取K個文檔作為質(zhì)心;
(2)對剩余的每個文檔測量其到每個質(zhì)心的距離,并把它歸到最近的質(zhì)心的類;(3)重新計(jì)算已經(jīng)得到的各個類的質(zhì)心;(4)迭代2?3步直至新的質(zhì)心與原質(zhì)心相等或小于指定閾值,算法結(jié)束。k-means算法具有:算法快速、簡單;對大數(shù)據(jù)集有較高的效率并且是可伸縮性的;時間復(fù)雜度近于線性,而且適合挖掘大規(guī)模數(shù)據(jù)集的特點(diǎn)。
[0006]但是對于k-means算法,不僅需要提前指定聚類的個數(shù),也就是K值;還需要反復(fù)迭代計(jì)算標(biāo)簽中每個詞到K個中心點(diǎn)的距離,計(jì)算復(fù)雜度高,在廣告標(biāo)簽數(shù)據(jù)較多時要耗費(fèi)大量的計(jì)算資源。
[0007]因此,提供一種能準(zhǔn)確、高效、簡單的廣告標(biāo)簽聚類的方法是本領(lǐng)域亟待解決的問題。
【發(fā)明內(nèi)容】
[0008]有鑒于此,本發(fā)明提供了一種基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng),解決了現(xiàn)有技術(shù)中對廣告標(biāo)簽聚類時需要指定聚類數(shù)以及需要復(fù)雜的計(jì)算程序的問題。
[0009]為了解決上述技術(shù)問題,本發(fā)明提出一種基于共現(xiàn)的廣告標(biāo)簽聚類的方法,該方法包括:
[0010]獲取用戶標(biāo)簽信息及廣告的標(biāo)簽信息;
[0011]根據(jù)所述用戶標(biāo)簽信息及廣告的標(biāo)簽信息計(jì)算出對應(yīng)的用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度;
[0012]根據(jù)所述相似度獲取所述用戶與所述廣告的標(biāo)簽詞共現(xiàn)語料,并將所獲取的各個標(biāo)簽詞共現(xiàn)語料構(gòu)建成標(biāo)簽詞共現(xiàn)語料對;
[0013]根據(jù)標(biāo)簽詞在語料中出現(xiàn)的次數(shù)計(jì)算出各個共現(xiàn)語料對中標(biāo)簽詞的置信度;
[0014]判斷到所述置信度滿足預(yù)先設(shè)定閾值時,結(jié)合已有標(biāo)簽詞簇信息將所述標(biāo)簽詞共現(xiàn)語料對中的標(biāo)簽詞進(jìn)行標(biāo)簽詞簇的聚類。
[0015]在一可選實(shí)施例中,所述獲取用戶標(biāo)簽信息及廣告的標(biāo)簽信息,包括:
[0016]所述用戶標(biāo)簽信息包括:所述用戶的興趣標(biāo)簽詞及其各個標(biāo)簽詞得分;
[0017]所述廣告的標(biāo)簽信息包括:所述廣告的標(biāo)簽詞及其各個標(biāo)簽詞得分。
[0018]在一可選實(shí)施例中,該方法包括:利用公式score (user,ad) = Σ user_tag_score*ad_tag_s cor e計(jì)算出對應(yīng)的用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度;
[0019]其中,score(user,ad)表示用戶與廣告的相似度;user_tag_score表示各個用戶興趣標(biāo)簽詞的得分;ad_tag_SCOre表示各個廣告的標(biāo)簽詞得分。
[0020]在一可選實(shí)施例中,所述根據(jù)標(biāo)簽詞在語料中出現(xiàn)的次數(shù)計(jì)算出各個共現(xiàn)語料對中標(biāo)簽詞的置信度,包括:
[0021]將各個標(biāo)簽詞在所述共現(xiàn)語料中出現(xiàn)的次數(shù)與同時出現(xiàn)該標(biāo)簽詞與另一標(biāo)簽詞次數(shù)的比值作為這個共現(xiàn)語料對中標(biāo)簽詞的置信度。
[0022]在一可選實(shí)施例中,所述判斷到所述置信度滿足預(yù)先設(shè)定閾值時,結(jié)合已有標(biāo)簽詞簇信息將所述標(biāo)簽詞共現(xiàn)語料對中的標(biāo)簽詞聚類到所述已有標(biāo)簽詞簇中,包括:
[0023]判斷到所述置信度滿足預(yù)先設(shè)定閾值、所述標(biāo)簽詞共現(xiàn)語料對中的一個標(biāo)簽詞位于所述已有標(biāo)簽詞簇中且所述已有標(biāo)簽詞簇的數(shù)量未達(dá)到上限時,則將所述標(biāo)簽詞共現(xiàn)語料對中的另一個標(biāo)簽詞添加到所述已有標(biāo)簽詞簇中。
[0024]在一可選實(shí)施例中,該方法進(jìn)一步包括:
[0025]判斷到所述置信度滿足預(yù)先設(shè)定閾值、所述已有標(biāo)簽詞簇的數(shù)量達(dá)到上限、和/或所述標(biāo)簽詞共現(xiàn)語料對中標(biāo)簽詞均未在所述已有標(biāo)簽詞簇中時,根據(jù)所述標(biāo)簽詞共現(xiàn)語料對新建一個標(biāo)簽詞簇。
[0026]另一方面,為實(shí)現(xiàn)上述基于共現(xiàn)的廣告標(biāo)簽聚類的方法,本發(fā)明還提出了一種基于共現(xiàn)的廣告標(biāo)簽聚類的系統(tǒng),包括:獲取模塊、第一計(jì)算模塊、構(gòu)建模塊、第二計(jì)算模塊及處理模塊,其中,
[0027]所述獲取模塊,用于獲取用戶標(biāo)簽信息及廣告的標(biāo)簽信息;
[0028]所述第一計(jì)算模塊,用于根據(jù)所述用戶標(biāo)簽信息及廣告的標(biāo)簽信息計(jì)算出對應(yīng)的用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度;
[0029]所述構(gòu)建模塊,用于根據(jù)所述相似度獲取所述用戶與所述廣告的標(biāo)簽詞共現(xiàn)語料,并將所獲取的各個標(biāo)簽詞共現(xiàn)語料構(gòu)建成標(biāo)簽詞共現(xiàn)語料對;
[0030]所述第二計(jì)算模塊,用于根據(jù)標(biāo)簽詞在語料中出現(xiàn)的次數(shù)計(jì)算出各個共現(xiàn)語料對中標(biāo)簽詞的置信度;
[0031 ]所述處理模塊,用于判斷到所述置信度滿足預(yù)先設(shè)定閾值時,結(jié)合已有標(biāo)簽詞簇信息將所述標(biāo)簽詞共現(xiàn)語料對中的標(biāo)簽詞進(jìn)行標(biāo)簽詞簇的聚類。
[0032]在一可選實(shí)施例中,所述獲取模塊,包括:第一獲取單元及第二獲取單元,其中,
[0033]所述第一獲取單元,用于獲取所述用戶標(biāo)簽信息中的興趣標(biāo)簽詞及其各個標(biāo)簽詞得分;
[0034]所述第二獲取單元,用于獲取所述所述廣告標(biāo)簽信息中的標(biāo)簽詞及其各個標(biāo)簽詞得分。
[0035]在一可選實(shí)施例中,所述第一計(jì)算模塊,用于:
[0036]利用公式score(user,ad) = 2user_tag_score*ad_tag_score計(jì)算出對應(yīng)的用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度;
[0037]其中,score(user,ad)表示用戶與廣告的相似度;user_tag_score表示各個用戶興趣標(biāo)簽詞的得分;ad_tag_SCOre表示各個廣告的標(biāo)簽詞得分。
[0038]在一可選實(shí)施例中,所述第二計(jì)算模塊,用于:
[0039]將各個標(biāo)簽詞在所述共現(xiàn)語料中出現(xiàn)的次數(shù)與同時出現(xiàn)該標(biāo)簽詞與另一標(biāo)簽詞次數(shù)的比值作為這個共現(xiàn)語料對中標(biāo)簽詞的置信度。
[0040]在一可選實(shí)施例中,所述處理模塊,包括:添加單元,其中,
[0041]所述添加單元,用于判斷到所述置信度滿足預(yù)先設(shè)定閾值、所述標(biāo)簽詞共現(xiàn)語料對中的一個標(biāo)簽詞位于所述已有標(biāo)簽詞簇中且所述已有標(biāo)簽詞簇的數(shù)量未達(dá)到上限時,將所述標(biāo)簽詞共現(xiàn)語料對中的另一個標(biāo)簽詞添加到所述已有標(biāo)簽詞簇中。
[0042]在一可選實(shí)施例中,所述處理模塊,還包括:新建單元,其中,
[0043]所述新建單元,用于判斷到所述置信度滿足預(yù)先設(shè)定閾值、所述已有標(biāo)簽詞簇的數(shù)量達(dá)到上限、和/或所述標(biāo)簽詞共現(xiàn)語料對中標(biāo)簽詞均未在所述已有標(biāo)簽詞簇中時,根據(jù)所述標(biāo)簽詞共現(xiàn)語料對新建一個標(biāo)簽詞簇。
[0044]與現(xiàn)有技術(shù)相比,本發(fā)明所述的基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng),實(shí)現(xiàn)了如下的有益效果:
[0045](I)本發(fā)明所述的基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng),不需要預(yù)先指定聚類的個數(shù),利用用戶和廣告的標(biāo)簽信息基于共現(xiàn)的方法為各個標(biāo)簽詞進(jìn)行聚類并添加到相對應(yīng)的各個標(biāo)簽詞簇中,打破了現(xiàn)有k-means算法進(jìn)行聚類的局限性,更有利于準(zhǔn)確地進(jìn)行標(biāo)簽數(shù)據(jù)的處理。
[0046](2)本發(fā)明所述的基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng),不需要反復(fù)迭代計(jì)算標(biāo)簽中每個詞到K個中心點(diǎn)的距離,計(jì)算簡潔,節(jié)約了廣告標(biāo)簽數(shù)據(jù)計(jì)算、處理過程中的資源。
[0047](3)本發(fā)明所述的基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng),基于用戶和廣告的標(biāo)簽信息,根據(jù)各個標(biāo)簽詞之間的相關(guān)性將標(biāo)簽詞進(jìn)行對應(yīng)地聚類,還可以根據(jù)聚類的結(jié)果相對應(yīng)地進(jìn)行標(biāo)簽詞簇的新建,操作起來更靈活,且更易于實(shí)現(xiàn)和控制。
[0048]當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品必不一定需要同時達(dá)到以上所述的所有技術(shù)效果。
【附圖說明】
[0049]此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0050]圖1為本發(fā)明所述基于共現(xiàn)的廣告標(biāo)簽聚類的方法的流程示意圖;
[0051]圖2為本發(fā)明基于共現(xiàn)的廣告標(biāo)簽聚類的方法一個可選實(shí)施例的流程示意圖示意圖;
[0052]圖3為本發(fā)明的基于共現(xiàn)的廣告標(biāo)簽聚類的系統(tǒng)的一個可選實(shí)施例的流程示意圖。
【具體實(shí)施方式】
[0053]如在說明書及權(quán)利要求當(dāng)中使用了某些詞匯來指稱特定組件。本領(lǐng)域技術(shù)人員應(yīng)可理解,硬件制造商可能會用不同名詞來稱呼同一個組件。本說明書及權(quán)利要求并不以名稱的差異來作為區(qū)分組件的方式,而是以組件在功能上的差異來作為區(qū)分的準(zhǔn)則。如在通篇說明書及權(quán)利要求當(dāng)中所提及的“包含”為一開放式用語,故應(yīng)解釋成“包含但不限定于”?!按笾隆笔侵冈诳山邮盏恼`差范圍內(nèi),本領(lǐng)域技術(shù)人員能夠在一定誤差范圍內(nèi)解決所述技術(shù)問題,基本達(dá)到所述技術(shù)效果。說明書后續(xù)描述為實(shí)施本發(fā)明的較佳實(shí)施方式,然所述描述乃以說明本發(fā)明的一般原則為目的,并非用以限定本發(fā)明的范圍。本發(fā)明的保護(hù)范圍當(dāng)視所附權(quán)利要求所界定者為準(zhǔn)。
[0054]實(shí)施例1
[0055]如圖1所示,為本發(fā)明的基于共現(xiàn)的廣告標(biāo)簽聚類的方法的一個實(shí)施例的流程示意圖。在本實(shí)施例中,通過用戶興趣標(biāo)簽及廣告標(biāo)簽的相關(guān)性將兩者的標(biāo)簽詞分別構(gòu)建成標(biāo)簽詞共現(xiàn)語料對,再根據(jù)各個共現(xiàn)語料對中標(biāo)簽詞的置信度將標(biāo)簽詞聚類到所述標(biāo)簽詞簇中。本實(shí)施例中基于共現(xiàn)的廣告標(biāo)簽聚類的方法包括以下步驟:
[0056]步驟101、獲取用戶標(biāo)簽信息及廣告的標(biāo)簽信息。
[0057]在本實(shí)施例中,是基于共現(xiàn)的方法對標(biāo)簽進(jìn)行自動化聚類,因此第一步就是要生成統(tǒng)計(jì)標(biāo)簽共現(xiàn)的語料,而生成標(biāo)簽共現(xiàn)的語料的語料都是來自用戶的標(biāo)簽信息以及廣告的標(biāo)簽信息,故本步驟其實(shí)是為標(biāo)簽共現(xiàn)的語料準(zhǔn)備語料。
[0058]步驟102、根據(jù)所述用戶標(biāo)簽信息及廣告的標(biāo)簽信息計(jì)算出對應(yīng)的用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度。
[0059]通過用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度計(jì)算,能夠反應(yīng)出用戶標(biāo)簽信息與廣告標(biāo)簽信息的相關(guān)性,據(jù)此能將用戶的興趣與現(xiàn)有廣告聯(lián)系起來,同時也作為提取標(biāo)簽詞共現(xiàn)詞語料對的基礎(chǔ),且為后續(xù)的標(biāo)簽詞聚類到標(biāo)簽詞簇中提供依據(jù)。
[0060]步驟103、根據(jù)所述相似度獲取所述用戶與所述廣告的標(biāo)簽詞共現(xiàn)語料,并將所獲取的各個標(biāo)簽詞共現(xiàn)語料構(gòu)建成標(biāo)簽詞共現(xiàn)語料對。
[0061]可選的,在本步驟中,首先將上述步驟中得到的相似度與預(yù)先設(shè)定好的閾值進(jìn)行比較,滿足該閾值說明該用戶標(biāo)簽信息與廣告標(biāo)簽信息之間的相關(guān)性較好,而在用戶標(biāo)簽信息及廣告標(biāo)簽信息中均包含了各自的標(biāo)簽詞及各個標(biāo)簽詞所對應(yīng)的信息。根據(jù)該方法獲取到的標(biāo)簽共現(xiàn)語料對也就具有很好的相關(guān)性,通過這樣的標(biāo)簽詞語料才能進(jìn)行準(zhǔn)確地聚類。
[0062]步驟104、根據(jù)標(biāo)簽詞在語料中出現(xiàn)的次數(shù)計(jì)算出各個共現(xiàn)語料對中標(biāo)簽詞的置信度。
[0063]經(jīng)過上述步驟獲得的標(biāo)簽詞共現(xiàn)語料對需要經(jīng)過本步驟的置信度檢驗(yàn),從而保證各個標(biāo)簽詞能夠準(zhǔn)確無誤地聚類到相應(yīng)地關(guān)聯(lián)標(biāo)簽詞簇中,如此才能更好地體現(xiàn)出標(biāo)簽詞聚類的意義。
[0064]步驟105、判斷到所述置信度滿足預(yù)先設(shè)定閾值時,結(jié)合已有標(biāo)簽詞簇信息將所述標(biāo)簽詞共現(xiàn)語料對中的標(biāo)簽詞進(jìn)行標(biāo)簽詞簇的聚類。
[0065]通過本步驟,能夠?qū)⑸鲜霾襟E中獲得的相關(guān)性準(zhǔn)確的標(biāo)簽聚類到相關(guān)的標(biāo)簽詞簇中,如此獲得的標(biāo)簽詞簇可以為廣告的個性化推薦投放提供依據(jù),還可以大大增加用戶推薦廣告結(jié)果的多樣性,因?yàn)榭梢园凑站垲惖慕Y(jié)果給每個用戶的興趣標(biāo)簽分成幾個簇,那樣用戶興趣標(biāo)簽的強(qiáng)弱在處理后所得到的結(jié)果中就更容易進(jìn)行體現(xiàn)。
[0066]在本實(shí)施例中,不需要預(yù)先指定聚類的個數(shù),利用用戶和廣告的標(biāo)簽信息基于共現(xiàn)的方法為各個標(biāo)簽詞進(jìn)行聚類并添加到相對應(yīng)的各個標(biāo)簽詞簇中,打破了現(xiàn)有k-means算法進(jìn)行聚類的局限性,更有利于準(zhǔn)確地進(jìn)行標(biāo)簽數(shù)據(jù)的處理。
[0067]實(shí)施例2
[0068]如圖2所示,為本發(fā)明實(shí)施例所述基于共現(xiàn)的廣告標(biāo)簽聚類的方法的一個可選實(shí)施例。本實(shí)施例相對于實(shí)施例1所示實(shí)施例中的流程,可選地描述了構(gòu)建成標(biāo)簽詞共現(xiàn)語料對以及進(jìn)行標(biāo)簽詞聚類的過程。本實(shí)施例中所述方法包括以下步驟:
[0069]步驟201、獲取用戶標(biāo)簽信息中的興趣標(biāo)簽詞及其各個標(biāo)簽詞得分,以及廣告的標(biāo)簽信息的標(biāo)簽詞及其各個標(biāo)簽詞得分。
[0070]其中,在廣告系統(tǒng)中預(yù)先就存儲有用戶標(biāo)簽信息中的興趣標(biāo)簽詞及其各個標(biāo)簽詞得分以及廣告的標(biāo)簽信息的標(biāo)簽詞及其各個標(biāo)簽詞得分信息。可選地,標(biāo)簽詞的得分是根據(jù)用戶的點(diǎn)擊廣告觀看行為以及廣告標(biāo)簽詞的內(nèi)容信息而獲得的綜合得分,在現(xiàn)有的實(shí)際廣告數(shù)據(jù)處理中往往會預(yù)先進(jìn)行存儲的。
[0071]步驟202、根據(jù)所述用戶標(biāo)簽信息及廣告的標(biāo)簽信息計(jì)算出對應(yīng)的用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度。
[0072]在本步驟中,可選地,利用公式score(user,ad)= Σuser_tag_score*ad_tag_score計(jì)算出各個用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度;
[0073]其中,score(user,ad)表示用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度;user_tag_score表示各個用戶興趣標(biāo)簽詞的得分;ad_tag_score表示各個廣告的標(biāo)簽詞得分。
[0074]步驟203、根據(jù)所述相似度獲取所述用戶與所述廣告的標(biāo)簽詞共現(xiàn)語料,并將所獲取的各個標(biāo)簽詞共現(xiàn)語料構(gòu)建成標(biāo)簽詞共現(xiàn)語料對。
[0075]在本步驟中,所得相似度滿足閾值的用戶標(biāo)簽詞及廣告標(biāo)簽詞即可組成一組共現(xiàn)語料,各個用戶標(biāo)簽信息與各個廣告標(biāo)簽分別進(jìn)行相似度判斷以及共現(xiàn)語料組的構(gòu)建,再將挑選出滿足閾值的各個共現(xiàn)語料組內(nèi)的各個標(biāo)簽詞構(gòu)建成標(biāo)簽詞語料對,進(jìn)一步細(xì)化地描述出了各個標(biāo)簽詞之間的相關(guān)性。
[0076]步驟204、根據(jù)標(biāo)簽詞在語料中出現(xiàn)的次數(shù)計(jì)算出各個共現(xiàn)語料對中標(biāo)簽詞的置信度。
[0077]可選地,在本步驟中,將各個標(biāo)簽詞在所述共現(xiàn)語料中出現(xiàn)的次數(shù)與同時出現(xiàn)該標(biāo)簽詞與另一標(biāo)簽詞次數(shù)的比值作為這個共現(xiàn)語料對中標(biāo)簽詞的置信度。例如,對于標(biāo)簽詞對<t2,t3>來說,t2和t3均表示標(biāo)簽詞,語料中一共出現(xiàn)t2的次數(shù)為6,出現(xiàn)t2同時出現(xiàn)t3的次數(shù)為6次,出現(xiàn)t3的次數(shù)為9次,出現(xiàn)t3的同時出現(xiàn)t2的次數(shù)為6次,則該標(biāo)簽對的兩個置信度得分分別為6/6 = I和6/9 = 0.67。
[0078]可選地,在本步驟之前,還計(jì)算出每個標(biāo)簽共現(xiàn)語料對在所有標(biāo)簽共現(xiàn)語料對中出現(xiàn)的次數(shù),也就是支持度。并將每個標(biāo)簽共現(xiàn)語料對的支持度與預(yù)先設(shè)定的支持度閾值比較,對滿足該閾值的標(biāo)簽共現(xiàn)語料對進(jìn)行后續(xù)的操作。
[0079]步驟205、判斷到所述置信度滿足預(yù)先設(shè)定閾值時,結(jié)合已有標(biāo)簽詞簇信息將所述標(biāo)簽詞共現(xiàn)語料對中的標(biāo)簽詞進(jìn)行標(biāo)簽詞簇的聚類:
[0080]判斷到所述置信度滿足預(yù)先設(shè)定閾值、所述標(biāo)簽詞共現(xiàn)語料對中的一個標(biāo)簽詞位于所述已有標(biāo)簽詞簇中且所述已有標(biāo)簽詞簇的數(shù)量未達(dá)到上限時,則將所述標(biāo)簽詞共現(xiàn)語料對中的另一個標(biāo)簽詞添加到所述已有標(biāo)簽詞簇中。
[0081]步驟206、判斷到所述置信度滿足預(yù)先設(shè)定閾值、所述已有標(biāo)簽詞簇的數(shù)量達(dá)到上限、和/或所述標(biāo)簽詞共現(xiàn)語料對中標(biāo)簽詞均未在所述已有標(biāo)簽詞簇中時,根據(jù)所述標(biāo)簽詞共現(xiàn)語料對新建一個標(biāo)簽詞簇。
[0082]可選地,在本步驟中,判斷到所述置信度滿足預(yù)先設(shè)定閾值、所述已有標(biāo)簽詞簇的數(shù)量達(dá)到上限,且所述標(biāo)簽詞共現(xiàn)語料對中標(biāo)簽詞至少有一個在所述已有標(biāo)簽詞簇中時,則跳過步驟。重復(fù)上述的步驟直至所有的數(shù)據(jù)都被處理。
[0083]在本實(shí)施例中,不需要像k-means算法一樣反復(fù)迭代計(jì)算標(biāo)簽中每個詞到K個中心點(diǎn)的距離,計(jì)算簡潔,節(jié)約了廣告標(biāo)簽數(shù)據(jù)計(jì)算、處理過程中的資源。
[0084]實(shí)施例3
[0085]本實(shí)施中以一個具體實(shí)例說明本發(fā)明的基于共現(xiàn)的廣告標(biāo)簽聚類的方法。在本實(shí)施例中,系統(tǒng)中一共有3個用戶,分別記為ul,u2,u3,三個用戶的標(biāo)簽詞及得分分別為:ul:tl,0.9|t2,0.6|t3,0.2;u2:t2,0.8|t3,0.6|t4,0.4;u3:t4,0.7|tl,0.5|t3,0.3|t5,0.2o
[0086]系統(tǒng)一共有3支廣告,分別記為&(11,&(12,&(13,三支廣告的標(biāo)簽詞分別為:&(11:七1,0.8 113,0.6 112,0.4;ad2:t2,0.9114,0.7113,0.5;ad3:t3,0.8|t4,0.6|tl,0.4|t2,0.2t5,0.1o
[0087]分別計(jì)算這3個用戶和三支廣告的相關(guān)性,同時我們記下各自的共現(xiàn)語料。
[0088]Score (ul,adl) = 0.9*0.8+0.6*0.4+0.2*0.6 = 1.08,語料為:11,t2,t3;
[0089]Score (ul,ad2) = 0.6*0.9+0.2*0.5 = 0.64,語料為:t2,t3;
[0090]Score (ul,ad3) = 0.9*0.4+0.6*0.2+0.2*0.8 = 0.64,語料為:11,t2,t3;
[0091 ] Score (u2,adl) = 0.8*0.4+0.6*0.6 = 0.68,語料為:t2,t3;
[0092]Score (u2,ad2) = 0.8*0.9+0.6*0.5+0.4*0.7 = I.3,語料為:t2,t3,t4;
[0093]Score (u2,ad3) = 0.8*0.2+0.6*0.8+0.4*0.6 = 0.88,語料為:t2,t3,t4;
[0094]Score(u3,adl) = 0.5*0.8+0.3*0.6 = 0.58,語料為:11,t3;
[0095]Score (u3,ad2) = 0.7*0.7+0.3*0.5 = 0.64,語料為:t3,t4;
[0096]Score(u3,ad3) =0.7*0.6+0.5*0.4+0.3*0.8+0.2*0.1 = 0.88,語料為:tl,t3, t4,
t5;
[0097]然后根據(jù)共現(xiàn)語料計(jì)算標(biāo)簽的共現(xiàn)對,分別如下:
[0098]tl,t2, t3 得到的共現(xiàn)對為<tl,t2Xt2,t3Xtl,t3> ;
[0099]t2,t3得到的共現(xiàn)對為<t2,t3> ;
[0100]tl,t2,t3得到的共現(xiàn)對為<tl,t2Xt2,t3Xtl,t3> ;
[0101]t2,t3得到的共現(xiàn)對為<t2,t3> ;
[0102]t2,t3,t4 得到的共現(xiàn)對為<t2,t3Xt3,t4Xt2,t4> ;
[0103]t2,t3,t4 得到的共現(xiàn)對為<t2,t3Xt3,t4Xt2,t4> ;
[0104]tl, t3得到的共現(xiàn)對為〈tl,t3> ;
[0105]t3,t4得到的共現(xiàn)對為<t3,t4> ;
[0106]tl,t3,t4,t5得到的共現(xiàn)對為
[0107]〈tl, t3Xtl, t4Xt3, t4Xt4, t5Xtl, t5Xt3, t5> ;
[0108]累計(jì)所有的標(biāo)簽詞共現(xiàn)對,得到標(biāo)簽詞共現(xiàn)對的支持度,并按照大小序排列,得到如下結(jié)果:
[0109]<t2,t3,6>
[0110]<tl,t3,4>
[0111]<t3,t4,4>
[0112]<tl,t2,2>
[0113]<t2,t4,2>
[0114]<tl,t4,l>
[0115]<tl,t5,l>
[0116]<t3,t5,l>
[0117]<t4,t5,l>
[0118]然后計(jì)算每個標(biāo)簽詞共現(xiàn)對的置信度,對于<t2,t3>來說,語料中一共出現(xiàn)t2的次數(shù)為6,出現(xiàn)t2同時出現(xiàn)t3的次數(shù)為6次,出現(xiàn)t3的次數(shù)為9次,出現(xiàn)t3的同時出現(xiàn)t2的次數(shù)為6次,則該標(biāo)簽對的兩個置信度分別為I和0.67,對于其它的標(biāo)簽詞共現(xiàn)對,進(jìn)行相同的處理,最后結(jié)果如下:
[0119]<t2,t3,6,l,0.67>
[0120]<tl,t3,4,l,0.44>
[0121]<t3,t4,4,0.44,l>
[0122]<tl,t2,2,0.5,0.33>
[0123]<t2,t4,2,0.33,0.4>
[0124]<tl,t4,l,0.25,0.25>
[0125]<tl,t5,l,0.25,l>
[0126]<t3,t5,l,0.11,l>
[0127]<t4,t5,l,0.25,l>
[0128]上面的所有支持度置信度都滿足預(yù)先設(shè)定的閾值,而每個簇最大的標(biāo)簽個數(shù)上限為3,然后從上至下鏈?zhǔn)奖闅v,遇到<t2,t3>時,因?yàn)闈M足閾值,并入當(dāng)前的簇{t2,t3},遇到〈tl,t3>時,因?yàn)閠3在當(dāng)前簇中,且滿足閾值,因此將tl并入當(dāng)前簇中{t2,t3,tl};當(dāng)前簇滿足閾值,則輸出當(dāng)前簇<t2,t3,tl>,繼續(xù)遍歷<t3,t4>,因?yàn)閠3已經(jīng)歸并到上一個簇中,因此跳過當(dāng)前的共現(xiàn)對,繼續(xù)遍歷〈tl,t2Xt2,t4Xtl,t4Xtl,t5Xt3,t5>同樣做跳過處理,遍歷到〈丨4,丨5>時,將丨4 35歸入當(dāng)前簇{^4 35},遍歷完畢,最后產(chǎn)生兩個簇{^2 33 31}和{t4,t5}ο
[0129]實(shí)施例4
[0130]如圖3所示,示出了發(fā)明中基于共現(xiàn)的廣告標(biāo)簽聚類的系統(tǒng)的一個可選實(shí)施例,用于實(shí)現(xiàn)上述實(shí)施例中所述的方法,其技術(shù)方案本質(zhì)上與上述實(shí)施例一致。上述附圖所示實(shí)施例中相應(yīng)的描述,同樣適用于本實(shí)施例當(dāng)中。
[0131]本實(shí)施例中,所述廣告素材質(zhì)量衡量的系統(tǒng)包括:獲取模塊301、第一計(jì)算模塊302、構(gòu)建模塊303、第二計(jì)算模塊304及處理模塊305,其中,
[0132]所述獲取模塊301用于獲取用戶標(biāo)簽信息及廣告的標(biāo)簽信息;
[0133]所述第一計(jì)算模塊302用于根據(jù)所述用戶標(biāo)簽信息及廣告的標(biāo)簽信息計(jì)算出對應(yīng)的用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度;
[0134]所述構(gòu)建模塊303用于根據(jù)所述相似度獲取所述用戶與所述廣告標(biāo)簽詞共現(xiàn)語料,并將所獲取的各個標(biāo)簽詞共現(xiàn)語料構(gòu)建成標(biāo)簽詞共現(xiàn)語料對;
[0135]所述第二計(jì)算模塊304用于根據(jù)標(biāo)簽詞在語料中出現(xiàn)的次數(shù)計(jì)算出各個共現(xiàn)語料對中標(biāo)簽詞的置信度;
[0136]所述處理模塊305用于判斷到所述置信度滿足預(yù)先設(shè)定閾值時,結(jié)合已有標(biāo)簽詞簇信息將所述標(biāo)簽詞共現(xiàn)語料對中的標(biāo)簽詞進(jìn)行標(biāo)簽詞簇的聚類。
[0137]作為一種可選的實(shí)施方式,所述獲取模塊301包括:第一獲取單元311及第二獲取單元312,其中,
[0138]所述第一獲取單元311用于獲取所述用戶標(biāo)簽信息中的興趣標(biāo)簽詞及其各個標(biāo)簽詞得分;
[0139]所述第二獲取單元312用于獲取所述所述廣告標(biāo)簽信息中的標(biāo)簽詞及其各個標(biāo)簽詞得分。
[0140]作為一種可選的實(shí)施方式,第一計(jì)算模塊302用于:
[0141 ]利用公式 score(user,ad) = 2user_tag_score*ad_tag_score 計(jì)算出對應(yīng)的用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度;
[0142]其中,score(user,ad)表示用戶與廣告的相似度;user_tag_score表示各個用戶興趣標(biāo)簽詞的得分;ad_tag_SCOre表示各個廣告的標(biāo)簽詞得分。
[0143]作為一種可選的實(shí)施方式,所述第二計(jì)算模塊304用于將各個標(biāo)簽詞在所述共現(xiàn)語料中出現(xiàn)的次數(shù)與同時出現(xiàn)該標(biāo)簽詞與另一標(biāo)簽詞次數(shù)的比值作為這個共現(xiàn)語料對中標(biāo)簽詞的置信度。
[0144]作為一種可選的實(shí)施方式,所述處理模塊305包括:添加單元351,所述添加單元351用于判斷到所述置信度滿足預(yù)先設(shè)定閾值、所述標(biāo)簽詞共現(xiàn)語料對中的一個標(biāo)簽詞位于所述已有標(biāo)簽詞簇中且所述已有標(biāo)簽詞簇的數(shù)量未達(dá)到上限時,將所述標(biāo)簽詞共現(xiàn)語料對中的另一個標(biāo)簽詞添加到所述已有標(biāo)簽詞簇中。
[0145]作為一種可選的實(shí)施方式,所述處理模塊305還包括:新建單元352,該新建單元352用于判斷到所述置信度滿足預(yù)先設(shè)定閾值、所述已有標(biāo)簽詞簇的數(shù)量達(dá)到上限、和/或所述標(biāo)簽詞共現(xiàn)語料對中標(biāo)簽詞均未在所述已有標(biāo)簽詞簇中時,根據(jù)所述標(biāo)簽詞共現(xiàn)語料對新建一個標(biāo)簽詞簇。
[0146]在本實(shí)施例中,該基于共現(xiàn)的廣告標(biāo)簽聚類的系統(tǒng)基于用戶和廣告的標(biāo)簽信息,根據(jù)各個標(biāo)簽詞之間的相關(guān)性將標(biāo)簽詞進(jìn)行對應(yīng)地聚類,根據(jù)聚類的結(jié)果相對應(yīng)地進(jìn)行標(biāo)簽詞簇的新建,操作起來更靈活,且更易于實(shí)現(xiàn)和控制。
[0147]通過以上各個實(shí)施例可知,本發(fā)明所述的基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng)存在的有益效果是:
[0148](I)本發(fā)明所述的基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng),不需要預(yù)先指定聚類的個數(shù),利用用戶和廣告的標(biāo)簽信息基于共現(xiàn)的方法為各個標(biāo)簽詞進(jìn)行聚類并添加到相對應(yīng)的各個標(biāo)簽詞簇中,打破了現(xiàn)有k-means算法進(jìn)行聚類的局限性,更有利于準(zhǔn)確地進(jìn)行標(biāo)簽數(shù)據(jù)的處理。
[0149](2)本發(fā)明所述的基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng),不需要反復(fù)迭代計(jì)算標(biāo)簽中每個詞到K個中心點(diǎn)的距離,計(jì)算簡潔,節(jié)約了廣告標(biāo)簽數(shù)據(jù)計(jì)算、處理過程中的資源。
[0150](3)本發(fā)明所述的基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng),基于用戶和廣告的標(biāo)簽信息,根據(jù)各個標(biāo)簽詞之間的相關(guān)性將標(biāo)簽詞進(jìn)行對應(yīng)地聚類,還可以根據(jù)聚類的結(jié)果相對應(yīng)地進(jìn)行標(biāo)簽詞簇的新建,操作起來更靈活,且更易于實(shí)現(xiàn)和控制。
[0151]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、裝置、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
[0152]上述說明示出并描述了本發(fā)明的若干可選實(shí)施例,但如前所述,應(yīng)當(dāng)理解本發(fā)明并非局限于本文所披露的形式,不應(yīng)看作是對其他實(shí)施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述發(fā)明構(gòu)想范圍內(nèi),通過上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識進(jìn)行改動。而本領(lǐng)域人員所進(jìn)行的改動和變化不脫離本發(fā)明的精神和范圍,則都應(yīng)在本發(fā)明所附權(quán)利要求的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于共現(xiàn)的廣告標(biāo)簽聚類的方法,其特征在于,包括: 獲取用戶標(biāo)簽信息及廣告的標(biāo)簽信息; 根據(jù)所述用戶標(biāo)簽信息及廣告的標(biāo)簽信息計(jì)算出對應(yīng)的用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度; 根據(jù)所述相似度獲取所述用戶與所述廣告的標(biāo)簽詞共現(xiàn)語料,并將所獲取的各個標(biāo)簽詞共現(xiàn)語料構(gòu)建成標(biāo)簽詞共現(xiàn)語料對; 根據(jù)標(biāo)簽詞在語料中出現(xiàn)的次數(shù)計(jì)算出各個共現(xiàn)語料對中標(biāo)簽詞的置信度; 判斷到所述置信度滿足預(yù)先設(shè)定閾值時,結(jié)合已有標(biāo)簽詞簇信息將所述標(biāo)簽詞共現(xiàn)語料對中的標(biāo)簽詞進(jìn)行標(biāo)簽詞簇的聚類。2.根據(jù)權(quán)利要求1所述的基于共現(xiàn)的廣告標(biāo)簽聚類的方法,其特征在于,所述獲取用戶標(biāo)簽信息及廣告的標(biāo)簽信息,包括: 所述用戶標(biāo)簽信息包括:所述用戶的興趣標(biāo)簽詞及其各個標(biāo)簽詞得分; 所述廣告的標(biāo)簽信息包括:所述廣告的標(biāo)簽詞及其各個標(biāo)簽詞得分。3.根據(jù)權(quán)利要求2所述的基于共現(xiàn)的廣告標(biāo)簽聚類的方法,其特征在于,利用公式score (user,ad) = 2user_tag_score*ad_tag_score計(jì)算出對應(yīng)的用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度; 其中,score(user,ad)表示用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度;user_tag_score表示各個用戶興趣標(biāo)簽詞的得分;ad_tag_SCOre表示各個廣告的標(biāo)簽詞得分。4.根據(jù)權(quán)利要求1所述的基于共現(xiàn)的廣告標(biāo)簽聚類的方法,其特征在于,所述根據(jù)標(biāo)簽詞在語料中出現(xiàn)的次數(shù)計(jì)算出各個共現(xiàn)語料對中標(biāo)簽詞的置信度,包括: 將各個標(biāo)簽詞在所述共現(xiàn)語料中出現(xiàn)的次數(shù)與同時出現(xiàn)該標(biāo)簽詞與另一標(biāo)簽詞次數(shù)的比值作為這個共現(xiàn)語料對中標(biāo)簽詞的置信度。5.根據(jù)權(quán)利要求1-4任意一項(xiàng)所述的基于共現(xiàn)的廣告標(biāo)簽聚類的方法,其特征在于,所述判斷到所述置信度滿足預(yù)先設(shè)定閾值時,結(jié)合已有標(biāo)簽詞簇信息將所述標(biāo)簽詞共現(xiàn)語料對中的標(biāo)簽詞聚類到所述已有標(biāo)簽詞簇中,包括: 判斷到所述置信度滿足預(yù)先設(shè)定閾值、所述標(biāo)簽詞共現(xiàn)語料對中的一個標(biāo)簽詞位于所述已有標(biāo)簽詞簇中且所述已有標(biāo)簽詞簇的數(shù)量未達(dá)到上限時,則將所述標(biāo)簽詞共現(xiàn)語料對中的另一個標(biāo)簽詞添加到所述已有標(biāo)簽詞簇中。6.根據(jù)權(quán)利要求1-4任意一項(xiàng)所述的基于共現(xiàn)的廣告標(biāo)簽聚類的方法,其特征在于,進(jìn)一步包括: 判斷到所述置信度滿足預(yù)先設(shè)定閾值、所述已有標(biāo)簽詞簇的數(shù)量達(dá)到上限、和/或所述標(biāo)簽詞共現(xiàn)語料對中標(biāo)簽詞均未在所述已有標(biāo)簽詞簇中時,根據(jù)所述標(biāo)簽詞共現(xiàn)語料對新建一個標(biāo)簽詞簇。7.—種基于共現(xiàn)的廣告標(biāo)簽聚類的系統(tǒng),其特征在于,包括:獲取模塊、第一計(jì)算模塊、構(gòu)建模塊、第二計(jì)算模塊及處理模塊,其中, 所述獲取模塊,用于獲取用戶標(biāo)簽信息及廣告的標(biāo)簽信息; 所述第一計(jì)算模塊,用于根據(jù)所述用戶標(biāo)簽信息及廣告的標(biāo)簽信息計(jì)算出對應(yīng)的用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度; 所述構(gòu)建模塊,用于根據(jù)所述相似度獲取所述用戶與所述廣告標(biāo)簽詞共現(xiàn)語料,并將所獲取的各個標(biāo)簽詞共現(xiàn)語料構(gòu)建成標(biāo)簽詞共現(xiàn)語料對; 所述第二計(jì)算模塊,用于根據(jù)標(biāo)簽詞在語料中出現(xiàn)的次數(shù)計(jì)算出各個共現(xiàn)語料對中標(biāo)簽詞的置信度; 所述處理模塊,用于判斷到所述置信度滿足預(yù)先設(shè)定閾值時,結(jié)合已有標(biāo)簽詞簇信息將所述標(biāo)簽詞共現(xiàn)語料對中的標(biāo)簽詞進(jìn)行標(biāo)簽詞簇的聚類。8.根據(jù)權(quán)利要求7所述的基于共現(xiàn)的廣告標(biāo)簽聚類的系統(tǒng),其特征在于,所述獲取模塊,包括:第一獲取單元及第二獲取單元,其中, 所述第一獲取單元,用于獲取所述用戶標(biāo)簽信息中的興趣標(biāo)簽詞及其各個標(biāo)簽詞得分; 所述第二獲取單元,用于獲取所述所述廣告標(biāo)簽信息中的標(biāo)簽詞及其各個標(biāo)簽詞得分。9.根據(jù)權(quán)利要求8所述的基于共現(xiàn)的廣告標(biāo)簽聚類的系統(tǒng),其特征在于,所述第一計(jì)算模塊,用于: 利用公式 score (user ,ad) = Σ user_tag_score*ad_tag_score 計(jì)算出對應(yīng)的用戶標(biāo)簽信息與廣告標(biāo)簽信息的相似度; 其中,score(user,ad)表示用戶與廣告的相似度;user_tag_score表示各個用戶興趣標(biāo)簽詞的得分;ad_tag_SCOre表示各個廣告的標(biāo)簽詞得分。10.根據(jù)權(quán)利要求7所述的基于共現(xiàn)的廣告標(biāo)簽聚類的系統(tǒng),其特征在于,所述第二計(jì)算模塊,用于: 將各個標(biāo)簽詞在所述共現(xiàn)語料中出現(xiàn)的次數(shù)與同時出現(xiàn)該標(biāo)簽詞與另一標(biāo)簽詞次數(shù)的比值作為這個共現(xiàn)語料對中標(biāo)簽詞的置信度。11.根據(jù)權(quán)利要求7-10任意一項(xiàng)所述的基于共現(xiàn)的廣告標(biāo)簽聚類的系統(tǒng),其特征在于,所述處理模塊,包括:添加單元,其中, 所述添加單元,用于判斷到所述置信度滿足預(yù)先設(shè)定閾值、所述標(biāo)簽詞共現(xiàn)語料對中的一個標(biāo)簽詞位于所述已有標(biāo)簽詞簇中且所述已有標(biāo)簽詞簇的數(shù)量未達(dá)到上限時,將所述標(biāo)簽詞共現(xiàn)語料對中的另一個標(biāo)簽詞添加到所述已有標(biāo)簽詞簇中。12.根據(jù)權(quán)利要求7-10任意一項(xiàng)所述的基于共現(xiàn)的廣告標(biāo)簽聚類的系統(tǒng),其特征在于,所述處理模塊,還包括:新建單元,其中, 所述新建單元,用于判斷到所述置信度滿足預(yù)先設(shè)定閾值、所述已有標(biāo)簽詞簇的數(shù)量達(dá)到上限、和/或所述標(biāo)簽詞共現(xiàn)語料對中標(biāo)簽詞均未在所述已有標(biāo)簽詞簇中時,根據(jù)所述標(biāo)簽詞共現(xiàn)語料對新建一個標(biāo)簽詞簇。
【文檔編號】G06Q30/02GK105825396SQ201610139776
【公開日】2016年8月3日
【申請日】2016年3月11日
【發(fā)明人】袁樹侖, 章岑, 楊田, 周盛, 潘柏宇, 王冀
【申請人】合網(wǎng)絡(luò)技術(shù)(北京)有限公司, 合一網(wǎng)絡(luò)技術(shù)(北京)有限公司