一種基于微博的廣告推薦方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明適用于數(shù)據(jù)挖掘領(lǐng)域,提供了一種基于微博的廣告推薦方法及系統(tǒng)。所述方法包括:讀取微博數(shù)據(jù);初始化微博數(shù)據(jù),獲得微博文本詞項集合;刪除微博文本詞項集合的停用詞,獲得微博文本原始特征詞項集合;將微博文本原始特征詞項集合與特征詞項字典進行映射,判斷微博文本原始特征詞項集合中的詞項是否出現(xiàn)在特征詞項字典中,并計算出現(xiàn)的詞項的tf-idf值,作為詞項的特征值;判斷特征詞項字典的詞項是否出現(xiàn)在微博文本原始特征詞項集合中,并將沒有出現(xiàn)的詞項的特征值標記為0;將計算得到的所有特征值組成的特征向量自動分類到預(yù)先劃分的類別;以自動分類的結(jié)果為依據(jù),向用戶推薦廣告。本發(fā)明實施例推薦的廣告也更準確,效果也更好。
【專利說明】一種基于微博的廣告推薦方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,尤其涉及一種基于微博的廣告推薦方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著新浪微博、騰訊微博等社交網(wǎng)站在國內(nèi)的流行,微博等社會化媒體不僅成為了網(wǎng)民發(fā)布、共享、傳播信息的平臺,而且積累了大規(guī)模網(wǎng)民的行為數(shù)據(jù)。2012年5月,新浪微博事業(yè)部副總經(jīng)理蘆義指出,新浪微博注冊用戶已超過3億,用戶平均每天發(fā)布超過I億條微博內(nèi)容。微博用戶的基數(shù)大,數(shù)據(jù)量大,若微博運營系統(tǒng)能夠分析和挖掘已有的海量數(shù)據(jù),能夠根據(jù)分析結(jié)果對微博用戶的興趣進行較為精準的判斷,根據(jù)微博用戶的興趣對其進行廣告投放,則對微博用戶推送的廣告將使微博用戶、商家和微博運營商三方都受益。
[0003]現(xiàn)有的微博廣告推薦方法主要利用用戶個人資料里的標簽或者使用用戶的搜索記錄對微博用戶進行興趣判斷,進而對其推送用戶可能感興趣的廣告。由于很多用戶的個人資料里面并不含有標簽或者用戶在創(chuàng)建個人資料時填寫的標簽不準確,因此通過用戶標簽來對其進行廣告推薦不能達到很好的效果。而通過對微博用戶的搜索記錄來判斷用戶的興趣具有一定的局限性,僅僅能表示該用戶的當前需要而不能對其興趣進行較為準確的判斷。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實施例提供了一種基于微博的廣告推薦方法,旨在解決現(xiàn)有的方法在挖掘用戶信息時準確性低,從而導(dǎo)致廣告推薦效果不好的問題。
[0005]本發(fā)明實施例是這樣實現(xiàn)的,一種基于微博的廣告推薦方法,所述方法包括下述步驟:
[0006]讀取用戶的微博數(shù)據(jù);
[0007]初始化讀取的微博數(shù)據(jù),以獲得微博文本詞項集合,所述初始化讀取的微博數(shù)據(jù)包括去除讀取的微博數(shù)據(jù)中的特殊符號、非中文字符、分詞;
[0008]刪除所述微博文本詞項集合的停用詞,以獲得微博文本原始特征詞項集合;
[0009]將所述微博文本原始特征詞項集合與預(yù)先生成的特征詞項字典進行映射,判斷所述微博文本原始特征詞項集合中的詞項是否出現(xiàn)在所述預(yù)先生成的特征詞項字典中,并計算出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項的詞頻-逆向文件頻率tf-1df值,以作為所述出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項在微博的特征值;
[0010]判斷所述預(yù)先生成的特征詞項字典的詞項是否出現(xiàn)在所述微博文本原始特征詞項集合中,并將沒有出現(xiàn)在所述微博文本原始特征詞項集合中的所述預(yù)先生成的特征詞項字典的詞項的特征值標記為0 ;
[0011]使用預(yù)先得到的分類模型將用戶的微博數(shù)據(jù)自動分類到預(yù)先劃分的類別中;
[0012]以自動分類的結(jié)果為依據(jù),向讀取微博數(shù)據(jù)的用戶推薦廣告。[0013]本發(fā)明實施例的另一目的在于提供一種基于微博的廣告推薦系統(tǒng),所述系統(tǒng)包括:
[0014]第一數(shù)據(jù)讀入模塊,用于讀取用戶的微博數(shù)據(jù);
[0015]第一數(shù)據(jù)初始化模塊,用于初始化讀取的微博數(shù)據(jù),以獲得微博文本詞項集合,所述初始化讀取的微博數(shù)據(jù)包括去除讀取的微博數(shù)據(jù)中的特殊符號、非中文字符、分詞;
[0016]第一特征提取模塊,用于刪除所述微博文本詞項集合的停用詞,以獲得微博文本原始特征詞項集合;
[0017]第一特征向量化模塊,用于將所述微博文本原始特征詞項集合與預(yù)先生成的特征詞項字典進行映射,判斷所述微博文本原始特征詞項集合中的詞項是否出現(xiàn)在所述預(yù)先生成的特征詞項字典中,并計算出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項的tf-1df值,以作為所述出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項在微博的特征值;以及用于判斷所述預(yù)先生成的特征詞項字典的詞項是否出現(xiàn)在所述微博文本原始特征詞項集合中,并將沒有出現(xiàn)在所述微博文本原始特征詞項集合中的所述預(yù)先生成的特征詞項字典的詞項的特征值標記為
0;
[0018]分類模塊,用于使用預(yù)先得到的分類模型將用戶的微博數(shù)據(jù)自動分類到預(yù)先劃分的類別中;
[0019]推薦模塊,用于以自動分類的結(jié)果為依據(jù),向讀取微博數(shù)據(jù)的用戶推薦廣告。
[0020]本發(fā)明實施例中,由于用戶發(fā)布的微博數(shù)據(jù)比用戶標簽包含的信息更具有實時性,更能代表用戶的興趣偏好,因此通過分析用戶的微博數(shù)據(jù)得到的判斷結(jié)果更準確,從而推薦的廣告也更準確,效果也更好。
【專利附圖】
【附圖說明】
[0021]圖1是本發(fā)明第一實施例提供的一種基于微博的廣告推薦方法的流程圖;
[0022]圖2是本發(fā)明第二實施例提供的一種基于微博的廣告推薦系統(tǒng)結(jié)構(gòu)圖;
[0023]圖3是本發(fā)明第二實施例提供的另一種基于微博的廣告推薦系統(tǒng)結(jié)構(gòu)圖。
【具體實施方式】
[0024]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0025]本發(fā)明實施例通過對用戶發(fā)布的微博數(shù)據(jù)進行挖掘、分類,判斷出該用戶的興趣偏好,進而向該用戶推薦相應(yīng)的廣告。
[0026]本發(fā)明實施例提供了一種:基于微博的廣告推薦方法及系統(tǒng)。
[0027]所述方法包括:讀取用戶的微博數(shù)據(jù);
[0028]初始化讀取的微博數(shù)據(jù),以獲得微博文本詞項集合,所述初始化讀取的微博數(shù)據(jù)包括去除讀取的微博數(shù)據(jù)中的特殊符號、非中文字符、分詞;
[0029]刪除所述微博文本詞項集合的停用詞,以獲得微博文本原始特征詞項集合;
[0030]將所述微博文本原始特征詞項集合與預(yù)先生成的特征詞項字典進行映射,判斷所述微博文本原始特征詞項集合中的詞項是否出現(xiàn)在所述預(yù)先生成的特征詞項字典中,并計算出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項的詞頻-逆向文件頻率tf-1df值,以作為所述出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項在微博的特征值;
[0031]判斷所述預(yù)先生成的特征詞項字典的詞項是否出現(xiàn)在所述微博文本原始特征詞項集合中,并將沒有出現(xiàn)在所述微博文本原始特征詞項集合中的所述預(yù)先生成的特征詞項字典的詞項的特征值標記為0 ;
[0032]使用預(yù)先得到的分類模型將用戶的微博數(shù)據(jù)自動分類到預(yù)先劃分的類別中;
[0033]以自動分類的結(jié)果為依據(jù),向讀取微博數(shù)據(jù)的用戶推薦廣告。
[0034]所述系統(tǒng)包括:第一數(shù)據(jù)讀入模塊,用于讀取用戶的微博數(shù)據(jù);
[0035]第一數(shù)據(jù)初始化模塊,用于初始化讀取的微博數(shù)據(jù),以獲得微博文本詞項集合,所述初始化讀取的微博數(shù)據(jù)包括去除讀取的微博數(shù)據(jù)中的特殊符號、非中文字符、分詞;
[0036]第一特征提取模塊,用于刪除所述微博文本詞項集合的停用詞,以獲得微博文本原始特征詞項集合;
[0037]第一特征向量化模塊,用于將所述微博文本原始特征詞項集合與預(yù)先生成的特征詞項字典進行映射,判斷所述微博文本原始特征詞項集合中的詞項是否出現(xiàn)在所述預(yù)先生成的特征詞項字典中,并計算出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項的tf-1df值,以作為所述出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項在微博的特征值;以及用于判斷所述預(yù)先生成的特征詞項字典的詞項是否出現(xiàn)在所述微博文本原始特征詞項集合中,并將沒有出現(xiàn)在所述微博文本原始特征詞項集合中的所述預(yù)先生成的特征詞項字典的詞項的特征值標記為0 ;
[0038]分類模塊,用于使用預(yù)先得到的分類模型將用戶的微博數(shù)據(jù)自動分類到預(yù)先劃分的類別中;
[0039]推薦模塊,用于以自動分類的結(jié)果為依據(jù),向讀取微博數(shù)據(jù)的用戶推薦廣告。
[0040]本發(fā)明實施例中,由于用戶發(fā)布的微博數(shù)據(jù)比用戶標簽包含的信息更具有實時性,更能代表用戶的興趣偏好,因此通過分析用戶的微博數(shù)據(jù)得到的判斷結(jié)果更準確,從而推薦的廣告也更準確,效果也更好。
[0041]為了說明本發(fā)明所述的技術(shù)方案,下面通過具體實施例來進行說明。
[0042]實施例一:
[0043]圖1不出了本發(fā)明第一實施例提供的一種基于微博的廣告推薦方法,詳述如下:
[0044]步驟SI I,讀取用戶的微博數(shù)據(jù)。
[0045]該步驟中,可預(yù)先獲取用戶的微博數(shù)據(jù),將獲取的微博數(shù)據(jù)存儲在數(shù)據(jù)庫中,在需要對某個用戶的微博數(shù)據(jù)分析時,再讀取該用戶的微博數(shù)據(jù)。
[0046]步驟S12,初始化讀取的微博數(shù)據(jù),以獲得微博文本詞項集合,所述初始化讀取的微博數(shù)據(jù)包括去除讀取的微博數(shù)據(jù)中的特殊符號、非中文字符、分詞。
[0047]該步驟中,對每條微博數(shù)據(jù)進行初始化處理,比如去除標點符號等特殊符號、去除非中文字符、分詞等,在初始化處理后得到一個微博文本詞項集合。
[0048]步驟S13,刪除所述微博文本詞項集合的停用詞,以獲得微博文本原始特征詞項集人
口 O
[0049]步驟S14,將所述微博文本原始特征詞項集合與預(yù)先生成的特征詞項字典進行映射,判斷所述微博文本原始特征詞項集合中的詞項是否出現(xiàn)在所述預(yù)先生成的特征詞項字典中,并計算出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項的詞步頁-逆向文件步頁率(term frequency-1nverse document frequency, tf-1df)值,以作為所述出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項在微博的特征值。
[0050]該步驟中,將每條微博的微博文本原始特征詞項集合向特征詞項字典進行映射,如果微博文本原始特征詞項集合的詞項在特征詞項字典,那么計算這個詞項的tf-1df值作為該詞項在該微博中的特征值。
[0051]步驟S15,判斷所述預(yù)先生成的特征詞項字典的詞項是否出現(xiàn)在所述微博文本原始特征詞項集合中,并將沒有出現(xiàn)在所述微博文本原始特征詞項集合中的所述預(yù)先生成的特征詞項字典的詞項的特征值標記為O。
[0052]該步驟中,微博文本原始特征詞項集合的詞項不在特征詞項字典,該詞項被忽略,如果特征詞項字典中的詞項沒有出現(xiàn)在微博文本原始特征詞項集合中,該詞項的特征值為
0;最終每條微博的微博文本轉(zhuǎn)變成為一個維度為5000的特征向量。
[0053]步驟S16,使用預(yù)先得到的分類模型將用戶的微博數(shù)據(jù)自動分類到預(yù)先劃分的類別中。
[0054]該步驟中,可根據(jù)實際需求預(yù)先劃分多種類別,比如,預(yù)先劃分12種類別,分別有體育類、健康類、教育類、旅游類、科技類、汽車類、游戲類、美容美發(fā)美體類、美食類、服裝鞋靴包類、文化娛樂類、其他。
[0055]其中,體育類包括體育賽事、體育報刊、體育明星等內(nèi)容;
[0056]其中,健康類包括健康常識、藥物、身體健康狀況等內(nèi)容;
[0057]其中,教育類包括新東方、新航道等培訓(xùn)機構(gòu),個人的學(xué)習(xí)狀況、學(xué)習(xí)意向,出國留學(xué)等內(nèi)容;
[0058]其中,旅游類包括景點、游樂場、出國游、自由行、酒店等內(nèi)容;
[0059]其中,科技類包括手機、電腦、數(shù)碼產(chǎn)品等內(nèi)容;
[0060]其中,汽車類包括汽車、汽車雜志等內(nèi)容;
[0061]其中,游戲類包括手機游戲、網(wǎng)頁游戲、網(wǎng)絡(luò)游戲等內(nèi)容;
[0062]其中,美容美發(fā)美體類包括護膚品、化妝品、美甲、纖體、洗護用品等內(nèi)容;
[0063]其中,美食類包括食品、吃貨、食譜等內(nèi)容;
[0064]其中,文化娛樂類包括娛樂圈、演唱會、話劇、展覽等內(nèi)容;
[0065]其中,其他包括個人狀態(tài)、個人情感、社會看法、生活看法等內(nèi)容。
[0066]步驟S17,以自動分類的結(jié)果為依據(jù),向讀取微博數(shù)據(jù)的用戶推薦廣告。
[0067]該步驟中,若自動分類的結(jié)果是將用戶的微博數(shù)據(jù)歸入某類,則向用戶推薦與該類別相對應(yīng)的廣告。這里的廣告包括新聞、音樂、電影、微博等。
[0068]本發(fā)明實施例中,通過對用戶發(fā)布的微博數(shù)據(jù)進行挖掘、分類,判斷出該用戶的興趣偏好,進而向該用戶推薦相應(yīng)的廣告。由于用戶發(fā)布的微博數(shù)據(jù)比用戶標簽包含的信息更具有實時性,更能代表用戶的興趣偏好,因此通過分析用戶的微博數(shù)據(jù)得到的判斷結(jié)果更準確,從而推薦的廣告也更準確,效果也更好。
[0069]作為本發(fā)明一優(yōu)選實施例,在步驟S16,使用預(yù)先得到的分類模型將用戶的微博數(shù)據(jù)自動分類到預(yù)先劃分的類別中的步驟之前包括下述步驟:
[0070]步驟A、讀取訓(xùn)練微博數(shù)據(jù)。
[0071]該步驟中,盡量讀取多個用戶的微博數(shù)據(jù)作為訓(xùn)練的微博數(shù)據(jù),以提高后續(xù)挖掘的準確性。
[0072]步驟B、將所述讀取的訓(xùn)練微博數(shù)據(jù)人工標記為預(yù)先劃分的類別。
[0073]該步驟中,多名標記員將讀取的每條微博數(shù)據(jù)標記為預(yù)先劃分的類別中的一類,在標記每條微博數(shù)據(jù)的類別時,使用少數(shù)服從多數(shù)的原則。
[0074]步驟C、初始化讀取的訓(xùn)練微博數(shù)據(jù),以獲得微博文本詞項集合,所述初始化讀取的訓(xùn)練微博數(shù)據(jù)包括去除讀取的訓(xùn)練微博數(shù)據(jù)中的特殊符號、非中文字符、分詞中。
[0075]步驟D、刪除所述微博文本詞項集合的停用詞,以獲得微博文本原始特征詞項集
口 o
[0076]步驟E、生成特征詞項字典。
[0077]該步驟中,生成特征詞項字典的步驟具體包括:計算微博文本原始特征詞項集合中每個詞項的互信息值;選取互信息值排名在前N的N個詞項作為特征詞項字典的詞項,所述N為整數(shù),N大于O。例如選出互信息值最高的5000個詞項作為特征詞項字典的詞項,生成的特征詞項字典可按照互信息值的高低進行排列。
[0078]步驟F、將所述微博文本原始特征詞項集合與所述特征詞項字典進行映射,判斷所述微博文本原始特征詞項集合中的詞項是否出現(xiàn)在所述特征詞項字典中,并計算出現(xiàn)在所述特征詞項字典中的所述微博文本原始特征詞項集合中的詞項的tf-1df值,以作為所述出現(xiàn)在所述特征詞項字典中的所述微博文本原始特征詞項集合中的詞項在微博的特征值。
[0079]步驟G、判斷所述特征詞項字典的詞項是否出現(xiàn)在所述微博文本原始特征詞項集合中,并將沒有出現(xiàn)在所述微博文本原始特征詞項集合中的所述特征詞項字典的詞項的特征值標記為O。
[0080]步驟H、采用預(yù)設(shè)的算法訓(xùn)練計算得到的所有特征值所組成的特征向量,以獲得分類模型。
[0081]該步驟中,訓(xùn)練所有微博數(shù)據(jù)對應(yīng)的特征向量矩陣,后續(xù)挖掘某個用戶的微博數(shù)據(jù)時可直接使用訓(xùn)練后的結(jié)果。
[0082]其中,預(yù)設(shè)的算法包括以下任一種算法:支持向量機SVM、樸素貝葉斯分類算法、神經(jīng)網(wǎng)絡(luò)、K臨近分類算法、遺傳算法。
[0083]本實施例中,通過分析大量用戶的微博數(shù)據(jù),生成特征詞項字典,該特征詞項字典為以后挖掘某個用戶的興趣偏好提供一個參考標準。
[0084]作為本發(fā)明一優(yōu)選實施例,步驟S17,以自動分類的結(jié)果為依據(jù),向讀取微博數(shù)據(jù)的用戶推薦廣告的步驟具體包括:統(tǒng)計用戶的微博中每類微博所占的百分比;將統(tǒng)計的每類微博所占的百分比與用戶在微博資料內(nèi)的標簽進行匹配,并將匹配成功的類別所占的百分比翻倍;向讀取微博數(shù)據(jù)的用戶推薦排名在前M的M個類別的廣告,所述M為整數(shù),M大于O。
[0085]本實施例中,對用戶的歷史微博進行類別統(tǒng)計出每類微博所占百分比并和該用戶資料內(nèi)的標簽進行匹配,如果標簽內(nèi)含有某類,那么該類微博所占百分比翻倍,最后選出百分比最高的M個類別,例如選出三個類別作為該用戶的廣告推薦類別。優(yōu)選地,一段時間后可以重新計算得出該用戶最新的廣告推薦類別。
[0086]實施例二:
[0087]圖2示出了本發(fā)明第二實施例提供的一種基于微博的廣告推薦系統(tǒng)的結(jié)構(gòu),為了便于說明,僅示出了與本發(fā)明實施例相關(guān)的部分。
[0088]該基于微博的廣告推薦系統(tǒng)可以用于通過有線或者無線網(wǎng)絡(luò)連接服務(wù)器的各種信息處理終端,例如移動電話、口袋計算機(Pocket Personal Computer, PPC)、掌上電腦、計算機、筆記本電腦、個人數(shù)字助理(Personal Digital Assistant,PDA)等,可以是運行于這些信息處理終端內(nèi)的軟件單元、硬件單元或者軟硬件相結(jié)合的單元,也可以作為獨立的掛件集成到這些信息處理終端中或者運行于這些信息處理終端的應(yīng)用系統(tǒng)中,其中:
[0089]第一數(shù)據(jù)讀入模塊201,用于讀取用戶的微博數(shù)據(jù)。
[0090]第一數(shù)據(jù)初始化模塊202,用于初始化讀取的微博數(shù)據(jù),以獲得微博文本詞項集合,所述初始化讀取的微博數(shù)據(jù)包括去除讀取的微博數(shù)據(jù)中的特殊符號、非中文字符、分詞中。
[0091]第一特征提取模塊203,用于刪除所述微博文本詞項集合的停用詞,以獲得微博文本原始特征詞項集合。
[0092]第一特征向量化模塊204,用于將所述微博文本原始特征詞項集合與預(yù)先生成的特征詞項字典進行映射,判斷所述微博文本原始特征詞項集合中的詞項是否出現(xiàn)在所述預(yù)先生成的特征詞項字典中,并計算出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項的tf-1df值,以作為所述出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項在微博的特征值。以及用于判斷所述預(yù)先生成的特征詞項字典的詞項是否出現(xiàn)在所述微博文本原始特征詞項集合中,并將沒有出現(xiàn)在所述微博文本原始特征詞項集合中的所述預(yù)先生成的特征詞項字典的詞項的特征值標記為O。
[0093]其中,經(jīng)過第一特征向量化模塊204的計算,最終將每條微博的微博數(shù)據(jù)轉(zhuǎn)變?yōu)橐粋€緯度為5000的特征向量。
[0094]分類模塊205,用于使用預(yù)先得到的分類模型將用戶的微博數(shù)據(jù)自動分類到預(yù)先劃分的類別中。
[0095]其中,預(yù)先劃分的類別可為12類,具體如步驟S16所示,這里不再贅述。
[0096]推薦模塊206,用于以自動分類的結(jié)果為依據(jù),向讀取微博數(shù)據(jù)的用戶推薦廣告。
[0097]其中,這里的廣告包括新聞、音樂、電影、微博等內(nèi)容。
[0098]本發(fā)明實施例中,通過對讀取的微博數(shù)據(jù)進行挖掘,劃分所屬類別,并向用戶推薦與劃分類別相關(guān)的廣告。由于微博數(shù)據(jù)能夠及時反映用戶的興趣偏好,因此通過分析用戶的微博數(shù)據(jù)得到的判斷結(jié)果更準確,從而推薦的廣告也更準確,效果也更好。
[0099]圖3示出了基于微博的廣告推薦系統(tǒng)的另一結(jié)構(gòu),作為本發(fā)明的另一個優(yōu)選實施例,所述基于微博的廣告推薦系統(tǒng)還包括:
[0100]第二數(shù)據(jù)讀入模塊301,用于讀取訓(xùn)練微博數(shù)據(jù)。
[0101]其中,讀取的微博數(shù)據(jù)為多個用戶的微博數(shù)據(jù)。[0102]人工分類模塊302,用于將所述讀取的訓(xùn)練微博數(shù)據(jù)人工標記為預(yù)先劃分的類別。
[0103]第二數(shù)據(jù)初始化模塊303,用于初始化讀取的訓(xùn)練微博數(shù)據(jù),以獲得微博文本詞項集合,所述初始化讀取的訓(xùn)練微博數(shù)據(jù)包括去除讀取的訓(xùn)練微博數(shù)據(jù)中的特殊符號、非中文字符、分詞中。
[0104]第二特征提取模塊304,用于刪除所述微博文本詞項集合的停用詞,以獲得微博文本原始特征詞項集合。
[0105]特征詞項字典生成模塊305,用于生成特征詞項字典。
[0106]其中,特征詞項字典生成模塊305包括:
[0107]互信息值計算模塊,用于計算微博文本原始特征詞項集合中每個詞項的互信息值。
[0108]特征詞項字典詞項選擇模塊,用于選取互信息值排名在前N的N個詞項作為特征詞項字典的詞項,所述N為整數(shù),N大于O。
[0109]第二特征向量化模塊306,用于將所述微博文本原始特征詞項集合與所述特征詞項字典進行映射,判斷所述微博文本原始特征詞項集合中的詞項是否出現(xiàn)在所述特征詞項字典中,并計算出現(xiàn)在所述特征詞項字典中的所述微博文本原始特征詞項集合中的詞項的tf-1df值,以作為所述出現(xiàn)在所述特征詞項字典中的所述微博文本原始特征詞項集合中的詞項在微博的特征值。以及用于判斷所述特征詞項字典的詞項是否出現(xiàn)在所述微博文本原始特征詞項集合中,并將沒有出現(xiàn)在所述微博文本原始特征詞項集合中的所述特征詞項字典的詞項的特征值標記為O。
[0110]訓(xùn)練模塊307,用于采用預(yù)設(shè)的算法訓(xùn)練計算得到的所有特征值所組成的特征向量,以獲得分類模型。
[0111]其中,預(yù)設(shè)的算法包括以下任一種算法:
[0112]支持向量機SVM、樸素貝葉斯分類算法、神經(jīng)網(wǎng)絡(luò)、K臨近分類算法、遺傳算法。
[0113]本實施例中,通過分析大量用戶的微博數(shù)據(jù),生成特征詞項字典,該特征詞項字典為以后挖掘某個用戶的興趣偏好提供一個參考標準。
[0114]作為本發(fā)明一優(yōu)選實施例,所述推薦模塊206包括:
[0115]數(shù)據(jù)統(tǒng)計模塊,用于統(tǒng)計用戶的微博中每類微博所占的百分比。
[0116]數(shù)據(jù)匹配模塊,用于將統(tǒng)計的每類微博所占的百分比與用戶在微博資料內(nèi)的標簽進行匹配,并將匹配成功的類別所占的百分比翻倍。
[0117]廣告推薦模塊,用于向讀取微博數(shù)據(jù)的用戶推薦排名在前M的M個類別的廣告,所述M為整數(shù),M大于O。
[0118]本實施例中,只選取排名在前M個類別的廣告推薦給客戶,在不增加客戶瀏覽壓力的基礎(chǔ)上使廣告投放更準確。
[0119]在本發(fā)明實施例中,通過對用戶發(fā)布的微博數(shù)據(jù)進行挖掘、分類,并結(jié)合用戶在微博的標簽信息判斷出該用戶的興趣偏好,進而向該用戶推薦相應(yīng)的廣告。由于用戶發(fā)布的微博數(shù)據(jù)比用戶標簽包含的信息更具有實時性,更能代表用戶的興趣偏好,因此通過分析用戶的微博數(shù)據(jù)及標簽信息得到的判斷結(jié)果比僅分析標簽信息更準確,從而推薦的廣告也更準確,效果也更好。
[0120]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種基于微博的廣告推薦方法,其特征在于,所述方法包括下述步驟: 讀取用戶的微博數(shù)據(jù); 初始化讀取的微博數(shù)據(jù),以獲得微博文本詞項集合,所述初始化讀取的微博數(shù)據(jù)包括去除讀取的微博數(shù)據(jù)中的特殊符號、非中文字符、分詞; 刪除所述微博文本詞項集合的停用詞,以獲得微博文本原始特征詞項集合; 將所述微博文本原始特征詞項集合與預(yù)先生成的特征詞項字典進行映射,判斷所述微博文本原始特征詞項集合中的詞項是否出現(xiàn)在所述預(yù)先生成的特征詞項字典中,并計算出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項的詞頻-逆向文件頻率tf-1df值,以作為所述出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項在微博的特征值; 判斷所述預(yù)先生成的特征詞項字典的詞項是否出現(xiàn)在所述微博文本原始特征詞項集合中,并將沒有出現(xiàn)在所述微博文本原始特征詞項集合中的所述預(yù)先生成的特征詞項字典的詞項的特征值標記為O ; 使用預(yù)先得到的分類模型將用戶的微博數(shù)據(jù)自動分類到預(yù)先劃分的類別中; 以自動分類的結(jié)果為依據(jù),向讀取微博數(shù)據(jù)的用戶推薦廣告。
2.如權(quán)利要求1所述的方法,其特征在于,在所述使用預(yù)先得到的分類模型將用戶的微博數(shù)據(jù)自動分類到預(yù)先劃分的類別中之前包括下述步驟: 讀取訓(xùn)練微博; 將所述讀取的訓(xùn)練微博數(shù)據(jù) 人工標記為預(yù)先劃分的類別; 初始化讀取的訓(xùn)練微博數(shù)據(jù),以獲得微博文本詞項集合,所述初始化讀取的訓(xùn)練微博數(shù)據(jù)包括去除讀取的訓(xùn)練微博數(shù)據(jù)中的特殊符號、非中文字符、分詞; 刪除所述微博文本詞項集合的停用詞,以獲得微博文本原始特征詞項集合; 生成特征詞項字典; 將所述微博文本原始特征詞項集合與所述特征詞項字典進行映射,判斷所述微博文本原始特征詞項集合中的詞項是否出現(xiàn)在所述特征詞項字典中,并計算出現(xiàn)在所述特征詞項字典中的所述微博文本原始特征詞項集合中的詞項的tf-1df值,以作為所述出現(xiàn)在所述特征詞項字典中的所述微博文本原始特征詞項集合中的詞項在微博的特征值; 判斷所述特征詞項字典的詞項是否出現(xiàn)在所述微博文本原始特征詞項集合中,并將沒有出現(xiàn)在所述微博文本原始特征詞項集合中的所述特征詞項字典的詞項的特征值標記為O ; 采用預(yù)設(shè)的算法訓(xùn)練計算得到的所有特征值所組成的特征向量,以獲得分類模型。
3.如權(quán)利要求2所述的方法,其特征在于,所述生成特征詞項字典的步驟具體包括: 計算微博文本原始特征詞項集合中每個詞項的互信息值; 選取互信息值排名在前N的N個詞項作為特征詞項字典的詞項,所述N為整數(shù),N大于O0
4.如權(quán)利要求2所述的方法,其特征在于,所述預(yù)設(shè)的算法包括以下任一種算法: 支持向量機SVM、樸素貝葉斯分類算法、神經(jīng)網(wǎng)絡(luò)、K臨近分類算法、遺傳算法。
5.如權(quán)利要求1所述的方法,其特征在于,所述以自動分類的結(jié)果為依據(jù),向讀取微博數(shù)據(jù)的用戶推薦廣告的步驟具體包括:統(tǒng)計用戶的微博中每類微博所占的百分比; 將統(tǒng)計的每類微博所占的百分比與用戶在微博資料內(nèi)的標簽進行匹配,并將匹配成功的類別所占的百分比翻倍; 向讀取微博數(shù)據(jù)的用戶推薦排名在前M的M個類別的廣告,所述M為整數(shù),M大于O。
6.一種基于微博的廣告推薦系統(tǒng),其特征在于,所述系統(tǒng)包括: 第一數(shù)據(jù)讀入模塊,用于讀取用戶的微博數(shù)據(jù); 第一數(shù)據(jù)初始化模塊,用于初始化讀取的微博數(shù)據(jù),以獲得微博文本詞項集合,所述初始化讀取的微博數(shù)據(jù)包括去除讀取的微博數(shù)據(jù)中的特殊符號、非中文字符、分詞; 第一特征提取模塊,用于刪除所述微博文本詞項集合的停用詞,以獲得微博文本原始特征詞項集合; 第一特征向量化模塊,用于將所述微博文本原始特征詞項集合與預(yù)先生成的特征詞項字典進行映射,判斷所述微博文本原始特征詞項集合中的詞項是否出現(xiàn)在所述預(yù)先生成的特征詞項字典中,并計算出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項的tf-1df值,以作為所述出現(xiàn)在所述預(yù)先生成的特征詞項字典中的所述微博文本原始特征詞項集合中的詞項在微博的特征值;以及用于判斷所述預(yù)先生成的特征詞項字典的詞項是否出現(xiàn)在所述微博文本原始特征詞項集合中,并將沒有出現(xiàn)在所述微博文本原始特征詞項集合中的所述預(yù)先生成的特征詞項字典的詞項的特征值標記為O ; 分類模塊,用于使用預(yù)先得到的分類模型將用戶的微博數(shù)據(jù)自動分類到預(yù)先劃分的類別中; 推薦模塊,用于 以自動分類的結(jié)果為依據(jù),向讀取微博數(shù)據(jù)的用戶推薦廣告。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 第二數(shù)據(jù)讀入模塊,用于讀取訓(xùn)練微博數(shù)據(jù); 人工分類模塊,用于將所述讀取的訓(xùn)練微博數(shù)據(jù)人工標記為預(yù)先劃分的類別; 第二數(shù)據(jù)初始化模塊,用于初始化讀取的訓(xùn)練微博數(shù)據(jù),以獲得微博文本詞項集合,所述初始化讀取的訓(xùn)練微博數(shù)據(jù)包括去除讀取的訓(xùn)練微博數(shù)據(jù)中的特殊符號、非中文字符、分詞; 第二特征提取模塊,用于刪除所述微博文本詞項集合的停用詞,以獲得微博文本原始特征詞項集合; 特征詞項字典生成模塊,用于生成特征詞項字典; 第二特征向量化模塊,用于將所述微博文本原始特征詞項集合與所述特征詞項字典進行映射,判斷所述微博文本原始特征詞項集合中的詞項是否出現(xiàn)在所述特征詞項字典中,并計算出現(xiàn)在所述特征詞項字典中的所述微博文本原始特征詞項集合中的詞項的tf-1df值,以作為所述出現(xiàn)在所述特征詞項字典中的所述微博文本原始特征詞項集合中的詞項在微博的特征值;以及用于判斷所述特征詞項字典的詞項是否出現(xiàn)在所述微博文本原始特征詞項集合中,并將沒有出現(xiàn)在所述微博文本原始特征詞項集合中的所述特征詞項字典的詞項的特征值標記為O ; 訓(xùn)練模塊,用于采用預(yù)設(shè)的算法訓(xùn)練計算得到的所有特征值所組成的特征向量,以獲得分類模型。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述特征詞項字典生成模塊包括:互信息值計算模塊,用于計算微博文本原始特征詞項集合中每個詞項的互信息值;特征詞項字典詞項選擇模塊,用于選取互信息值排名在前N的N個詞項作為特征詞項字典的詞項,所述N為整數(shù),N大于O。
9.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述預(yù)設(shè)的算法包括以下任一種算法: 支持向量機SVM、樸素貝葉斯分類算法、神經(jīng)網(wǎng)絡(luò)、K臨近分類算法、遺傳算法。
10.如權(quán)利 要求6所述的系統(tǒng),其特征在于,所述推薦模塊包括: 數(shù)據(jù)統(tǒng)計模塊,用于統(tǒng)計用戶的微博中每類微博所占的百分比; 數(shù)據(jù)匹配模塊,用于將統(tǒng)計的每類微博所占的百分比與用戶在微博資料內(nèi)的標簽進行匹配,并將匹配成功的類別所占的百分比翻倍; 廣告推薦模塊,用于向讀取微博數(shù)據(jù)的用戶推薦排名在前M的M個類別的廣告,所述M為整數(shù),M大于O。
【文檔編號】G06Q30/02GK103617230SQ201310608335
【公開日】2014年3月5日 申請日期:2013年11月26日 優(yōu)先權(quán)日:2013年11月26日
【發(fā)明者】章昉, 劉明君, 趙中英 申請人:中國科學(xué)院深圳先進技術(shù)研究院