一種識別用戶評論的方法及裝置制造方法
【專利摘要】本發(fā)明實施例公開了一種識別用戶評論的方法及裝置,該方法包括:獲取目標(biāo)用戶評論,對目標(biāo)用戶評論進行分詞劃分,得到N個目標(biāo)分詞;判斷預(yù)設(shè)樣本評論庫是否包含目標(biāo)分詞,若是,計算目標(biāo)用戶評論在預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,預(yù)設(shè)樣本評論庫包含多個樣本分詞在各個類別中的出現(xiàn)次數(shù)以及該各個樣本類別的記錄數(shù),根據(jù)目標(biāo)用戶評論在預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,判斷目標(biāo)用戶評論的類別;若預(yù)設(shè)樣本評論庫不包含目標(biāo)分詞,則輸出目標(biāo)用戶評論以進行人工識別,根據(jù)人工識別結(jié)果,對預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及預(yù)設(shè)樣本庫中的、目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新。
【專利說明】一種識別用戶評論的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用【技術(shù)領(lǐng)域】,特別涉及一種識別用戶評論的方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,貼吧、論壇等極大豐富了人們的生活,用戶可以在貼吧或論壇上發(fā)表自己的觀點,與他人互動交流,也可以選擇性地瀏覽貼吧或論壇上的信息。然而,一些惡意用戶會在貼吧或論壇中發(fā)布廣告、辱罵或純表情等評論內(nèi)容,影響其他用戶的對貼吧或論壇中內(nèi)容的正常瀏覽。
[0003]目前已經(jīng)存在一種基于樸素貝葉斯分類器的識別用戶評論內(nèi)容的方法,該方法是將樸素貝葉斯分類器模型的分類類別的先驗概率文件和每個分詞在各個類別中的條件概率文件存儲在內(nèi)存中,在需要對貼吧或論壇中的評論內(nèi)容進行識別時,將該評論內(nèi)容劃分為多個分詞,之后在內(nèi)存中查找該評論中內(nèi)容中每個分詞在各個類別中的條件概率和各個分類類別的先驗概率,通過將每個分詞在各個類別的條件概率乘以相應(yīng)類別的先驗概率得到該評論內(nèi)容在相應(yīng)類別的后驗概率,比較該評論內(nèi)容在各個類別中的后驗概率,后驗概率越大,則說明該評論內(nèi)容在該后驗概率對應(yīng)類別中出現(xiàn)的幾率越高,也就判斷該評論內(nèi)容為最大后驗概率值對應(yīng)的類別。
[0004]然而,由于該方法存儲的是樸素貝葉斯分類器模型的概率文件,對于模型中不存在的分詞,不能實現(xiàn)對含有該分詞的用戶評論的識別。
【發(fā)明內(nèi)容】
[0005]為達到上述目的,本發(fā)明實施例公開了一種識別用戶評論的方法及裝置,以達到有效識別用戶評論的目的。具體`技術(shù)方案如下:
[0006]一種識別用戶評論的方法,該方法包括:
[0007]獲取目標(biāo)用戶評論,對所述目標(biāo)用戶評論進行分詞劃分,得到N個目標(biāo)分詞;
[0008]判斷預(yù)設(shè)樣本評論庫是否包含所述目標(biāo)分詞,若是,則根據(jù)
[0009]Pa=P(第一目標(biāo)分詞I a).Ρ(第二目標(biāo)分詞I a) ?….P(第N目標(biāo)分詞I a) -P(a)
[0010]計算所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,其中,所述預(yù)設(shè)樣本評論庫包含多個樣本分詞在各個類別中的出現(xiàn)次數(shù)以及該各個樣本類別的記錄數(shù),Pa為所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的a類別中出現(xiàn)的后驗概率,P(第N目標(biāo)分詞I a)為所述目標(biāo)用戶評論的第N個目標(biāo)分詞在該a類別中出現(xiàn)的條件概率,P (a)為該a類別在所述預(yù)設(shè)樣本評論庫中出現(xiàn)的先驗概率;
[0011]根據(jù)所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,判斷所述目標(biāo)用戶評論的類別;
[0012]若所述預(yù)設(shè)樣本評論庫不包含所述目標(biāo)分詞,則輸出所述目標(biāo)用戶評論以進行人工識別,根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新。[0013]一種識別用戶評論的裝置,該裝置包括:
[0014]分詞劃分模塊,用于獲取目標(biāo)用戶評論,并對所述目標(biāo)用戶評論進行分詞劃分,得到N個目標(biāo)分詞;
[0015]判斷模塊,用于判斷預(yù)設(shè)樣本評論庫是否包含所述目標(biāo)分詞,若是,則根據(jù)
[0016]Pa=P(第一目標(biāo)分詞I a).Ρ(第二目標(biāo)分詞I a) ?….P(第N目標(biāo)分詞I a) -P(a)
[0017]計算所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,其中,所述預(yù)設(shè)樣本評論庫包含多個樣本分詞在各個類別中的出現(xiàn)次數(shù)以及該各個樣本類別的記錄數(shù),所述樣本分詞分屬所述多個樣本類別,Pa為所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的a類別中出現(xiàn)的后驗概率,P(第N目標(biāo)分詞I a)為所述目標(biāo)用戶評論的第N個目標(biāo)分詞在該a類別中出現(xiàn)的條件概率,P (a)為a類別在所述預(yù)設(shè)樣本評論庫中出現(xiàn)的先驗概率,并根據(jù)所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,判斷所述目標(biāo)用戶評論的類別;
[0018]學(xué)習(xí)模塊,用于在預(yù)設(shè)樣本評論庫不包含所述目標(biāo)分詞的情況下,輸出所述目標(biāo)用戶評論以進行人工識別,根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新。
[0019]上述技術(shù)方案中,與現(xiàn)有技術(shù)相比,如果遇到貝葉斯分類器存儲模型中不存在的分詞時,本發(fā)明通過人工干預(yù)的形式,將貝葉斯分類器存儲模型進行修改,提高了貝葉斯分類器的動態(tài)適應(yīng)性,從而在下一次遇到含有該分詞的用戶評論時,實現(xiàn)對該用戶評論的有效識別。
【專利附圖】
【附圖說明】`
[0020]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0021]圖1為本發(fā)明實施例提供的一種識別用戶評論的方法的流程圖;
[0022]圖2為本發(fā)明實施例提供的一種識別用戶評論的裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0023]首先對本發(fā)明實施例所提供的一種識別用戶評論的方法進行說明,該方法可以包括以下步驟:
[0024]獲取目標(biāo)用戶評論,對所述目標(biāo)用戶評論進行分詞劃分,得到N個目標(biāo)分詞;
[0025]判斷預(yù)設(shè)樣本評論庫是否包含所述目標(biāo)分詞,若是,則根據(jù)
[0026]Pa=P(第一目標(biāo)分詞I a).Ρ(第二目標(biāo)分詞I a) ?….P(第N目標(biāo)分詞I a) -P(a)
[0027]計算所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,其中,所述預(yù)設(shè)樣本評論庫包含多個樣本分詞在各個類別中的出現(xiàn)次數(shù)以及該各個樣本類別的記錄數(shù),Pa為所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的a類別中出現(xiàn)的后驗概率,P(第N目標(biāo)分詞I a)為所述目標(biāo)用戶評論的第N個目標(biāo)分詞在該a類別中出現(xiàn)的條件概率,P (a)為該a類別在所述預(yù)設(shè)樣本評論庫中出現(xiàn)的先驗概率;
[0028]根據(jù)所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,判斷所述目標(biāo)用戶評論的類別;
[0029]若所述預(yù)設(shè)樣本評論庫不包含所述目標(biāo)分詞,則輸出所述目標(biāo)用戶評論以進行人工識別,根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新。
[0030]本發(fā)明實施例中,預(yù)設(shè)樣本評論庫中存儲多個樣本分詞及其在各樣本類別中出現(xiàn)的次數(shù)、該各樣本類別的記錄數(shù)。當(dāng)預(yù)設(shè)樣本評論庫中不包含目標(biāo)用戶評論的目標(biāo)分詞時,通過接收人工反饋結(jié)果,更新預(yù)設(shè)樣本評論庫,下一次識別包含該目標(biāo)分詞的用戶評論時,能根據(jù)更新后的預(yù)設(shè)樣本評論庫,計算得到該用戶評論在各樣本類別中出現(xiàn)的后驗概率,進而確定該用戶評論的類別,提高了本發(fā)明方法的動態(tài)適應(yīng)能力。
[0031 ] 為了使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0032]下面通過具體實施例,對本發(fā)明進行詳細(xì)說明。
[0033]圖1所示,為本發(fā)明實施例所提供的一種識別用戶評論的方法的流程圖,該方法可以包括以下步驟:
[0034]S101,獲取目標(biāo)用戶評論,對所述目標(biāo)用戶評論進行分詞劃分,得到N個目標(biāo)分
ο
[0035]在本發(fā)明實施例中,“用戶評論”是指來自用戶或者機器的、對論壇上、社區(qū)上及視頻等內(nèi)容的回復(fù)和評價,例如,論壇上有一條內(nèi)容是“林則徐在哪里銷毀鴉片?”的帖子,一位熱心用戶的回復(fù)是“虎門鎮(zhèn)”;對近期熱播的親子劇“爸爸去哪兒”的評價,來自一位用戶的評價是“康福影院可以看電影聞清的完整的呢。大家快去(康福影院)看。我剛看完。。太好看了”。
[0036]可以理解的是,用戶評論可以是對論壇上、社區(qū)上及視頻等內(nèi)容的有價值回復(fù)和評價,或與主題內(nèi)容毫無關(guān)聯(lián)的回復(fù)和評價,本發(fā)明實施例對此不進行具體限制。
[0037]在本發(fā)明實施例中,首先對目標(biāo)用戶評論進行分詞劃分,其中,“分詞劃分”是指按照詞語劃分規(guī)則,將一條完整的用戶評論分割成多個詞語。例如,將“康福影院可以看電影高清的完整的呢。大家快去(康福影院)看。我剛看完。。太好看了”這一用戶評論,劃分成“康?!?、“影院”、“可以”、“看”、“電影”、“高清”、“的”、“完整”、“的”、“呢”、“大家”、“快”、“去”、“康?!薄ⅰ坝霸骸?、“看”、“我”、“剛”、“看”、“完”、“太”、“好”、“看”、“了”等23個詞語;將“開發(fā)票找劉經(jīng)理”這一用戶評論,劃分成“開”、“發(fā)票”、“找”、“劉經(jīng)理”等4個詞語。
[0038]本發(fā)明實施例可以采用任意一種能實現(xiàn)上述分詞劃分的方法,對此不進行具體限制。
[0039]S102,判斷預(yù)設(shè)樣本評論庫是否包含所述目標(biāo)分詞,如果是,則轉(zhuǎn)到S103,否則轉(zhuǎn)到 S104。
[0040]對目標(biāo)用戶評論做分詞劃分處理之后,判斷預(yù)設(shè)樣本評論庫中是否包含分詞劃分所得到的各個目標(biāo)分詞。例如,對“康福影院可以看電影高清的完整的呢。大家快去(康福影院)看。我剛看完。。太好看了”這一用戶評論做分詞劃分處理之后,判斷預(yù)設(shè)樣本評論庫中是否包含“康福”、“影院”、“可以”、“看”、“電影”、“高清”、“的”、“完整”、“的”、“呢”、“大家”、“快”、“去”、“康?!?、“影院”、“看”、“我”、“剛”、“看”、“完”、“太”、“好”、“看”、“了”等23
個分詞。
[0041]需要說明的是,本發(fā)明實施例的預(yù)設(shè)樣本評論庫是:通過對大量的樣本評論進行線下訓(xùn)練得到的、包含多個樣本分詞及其在多個樣本類別中出現(xiàn)次數(shù)和該多個樣本類別的記錄數(shù)的庫。
[0042]在本發(fā)明實施例中,預(yù)設(shè)樣本評論庫中的樣本類別是用戶根據(jù)實際需要自行設(shè)定的類別,可以是根據(jù)評論用途設(shè)定的,例如,正常評論和垃圾評論;也可以是根據(jù)評論性質(zhì)設(shè)定的,例如,廣告評論、電視劇評論、音樂評論,等等,本發(fā)明實施例對此不進行具體限制。
[0043]樣本類別的記錄數(shù)是該樣本類別中含有樣本評論的數(shù)量,例如,用戶設(shè)定預(yù)設(shè)樣本評論庫包含兩個樣本類別:正常評論和垃圾評論,該預(yù)設(shè)樣本評論庫中包含2504380條正常評論樣本和376403條垃圾評論樣本,因此,正常評論的記錄數(shù)是2504380條,垃圾評論的記錄數(shù)是376403條。
[0044]可以理解的是,預(yù)設(shè)樣本評論庫可以存儲在內(nèi)存中,以提高讀寫速度和處理速度。當(dāng)接收到目標(biāo)用戶評論時,能快速的調(diào)用該庫中的內(nèi)容,從而實現(xiàn)對目標(biāo)用戶評論的識別。
[0045]S103,計算所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,根據(jù)所述后驗概率,判斷所述目標(biāo)用戶評論的類別。
[0046]本發(fā)明實施例根據(jù)公式
[0047]Pa=P(第一目標(biāo)分詞I a`).Ρ(第二目標(biāo)分詞I a) ?….P(第N目標(biāo)分詞I a) -P(a)
[0048]計算所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率。
[0049]其中,Pa為所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的a類別中出現(xiàn)的后驗概率,P(第N目標(biāo)分詞I a)=D/E,P(第N目標(biāo)分詞I a)為所述目標(biāo)用戶評論的第N個目標(biāo)分詞在該a類別中出現(xiàn)的條件概率,P (a)為該a類別在所述預(yù)設(shè)樣本評論庫中出現(xiàn)的先驗概率,D為第N個目標(biāo)分詞在a類別中出現(xiàn)的次數(shù),E為a類別的記錄數(shù)。
[0050]例如,用戶設(shè)定預(yù)設(shè)樣本評論庫包含兩個樣本類別:正常評論和垃圾評論,正常評論的記錄數(shù)是2504380條,垃圾評論的記錄數(shù)是376403條,對于目標(biāo)用戶評論“康福影院可以看電影高清的完整的呢。大家快去(康福影院)看。我剛看完。。太好看了”,預(yù)設(shè)樣本評論庫中含有“康?!?、“影院”、“可以”、“看”、“電影”、“高清”、“的”、“完整”、“的”、“呢”、“大家”、“快”、“去”、“康?!?、“影院”、“看”、“我”、“剛”、“看”、“完”、“太”、“好”、“看”、“了”等23個分詞,其中,“康?!痹谡Tu論中出現(xiàn)的次數(shù)是3,在垃圾評論中出現(xiàn)的次數(shù)是74,“影院”在正常評論中出現(xiàn)的次數(shù)是1072,在垃圾評論中出現(xiàn)的次數(shù)是4746,“可以”在正常評論中出現(xiàn)的次數(shù)是115116,在垃圾評論中出現(xiàn)的次數(shù)是46587,“看”在正常評論中出現(xiàn)的次數(shù)是465481,在垃圾評論中出現(xiàn)的次數(shù)是90952,“電影”在正常評論中出現(xiàn)的次數(shù)是61888,在正常評論中出現(xiàn)的次數(shù)是11839,“高清”在正常評論中出現(xiàn)的次數(shù)是6185,在垃圾評論中出現(xiàn)的次數(shù)是6558,“的”在正常評論中出現(xiàn)的次數(shù)是3058366,在垃圾評論中出現(xiàn)的次數(shù)是657998,“完整”在正常評論中出現(xiàn)的次數(shù)是3756,在垃圾評論中出現(xiàn)的次數(shù)是568,“的”在正常評論中出現(xiàn)的次數(shù)是3058366,在垃圾評論中出現(xiàn)的次數(shù)是657998,“呢”在正常評論中出現(xiàn)的次數(shù)是115656,在垃圾評論中出現(xiàn)的次數(shù)是15106,“大家”在正常評論中出現(xiàn)的次數(shù)是59508,在垃圾評論中出現(xiàn)的次數(shù)是17401,“快”在正常評論中出現(xiàn)的次數(shù)是55847,在垃圾評論中出現(xiàn)的次數(shù)是10610,“去”在正常評論中出現(xiàn)的次數(shù)是178781,在垃圾評論中出現(xiàn)的次數(shù)是33790,“康?!痹谡Tu論中出現(xiàn)的次數(shù)是3,在垃圾評論中出現(xiàn)的次數(shù)是74,“影院”在正常評論中出現(xiàn)的次數(shù)是1072,在垃圾評論中出現(xiàn)的次數(shù)是4746,“看”在正常評論中出現(xiàn)的次數(shù)是465481,在垃圾評論中出現(xiàn)的次數(shù)是90952,“我”在正常評論中出現(xiàn)的次數(shù)是977554,在垃圾評論中出現(xiàn)的次數(shù)是155242,“剛”在正常評論中出現(xiàn)的次數(shù)是18956,在垃圾評論中出現(xiàn)的次數(shù)是7294,“看”在正常評論中出現(xiàn)的次數(shù)是465481,在垃圾評論中出現(xiàn)的次數(shù)是90952,“完”在正常評論中出現(xiàn)的次數(shù)是33282,在垃圾評論中出現(xiàn)的次數(shù)是8979,“太”在正常評論中出現(xiàn)的次數(shù)是197362,在垃圾評論中出現(xiàn)的次數(shù)是37857,“好看”在正常評論中出現(xiàn)的次數(shù)是70410,在垃圾評論中出現(xiàn)的次數(shù)是23157,“了”在正常評論中出現(xiàn)的次數(shù)是1350457,在垃圾評論中出現(xiàn)的次數(shù)是242874。
[0051]其中,該目標(biāo)用戶評論在正常評論中出現(xiàn)的后驗概率
[0052]P=P(康福I正常評論).Ρ(影院I正常評論).Ρ(可以I正常評論).Ρ(看I正常評論).ρ(電影I正常評論).ρ(高清I正常評論).ρ(完整I正常評論).ρ(呢I正常評論).ρ (大家I正常評論).ρ (快I正常評論).ρ (去I正常評論).ρ (康福I正常評論).ρ(影院I正常評論).ρ(看I正常評論).ρ(我I正常評論).ρ(剛I正常評論).ρ(看I正常評論).ρ(完I正常評論).ρ(太I正常評論).ρ(好看I正常評論).ρ (了 I正常評論).P (正常評論);
[0053]該目標(biāo)用戶評論在垃圾評論中出現(xiàn)的后驗概率
[0054]P' =P(康福I垃圾評論).P(影院I垃圾評論).P(可以I垃圾評論).P(看I垃圾評論).P (電影I垃圾評論).P (高清I垃圾評論).P (完整I垃圾評論).P (呢I垃圾評論).P (大家I垃圾評論).P (快I垃圾評論).P (去I垃圾評論).P (康福I
垃圾評論).P (影院I垃圾評論).P (看I垃圾評論).P (我I垃圾評論).P (剛I垃圾評論).P (看I垃圾評論).P (完I垃圾評論).P (太I垃圾評論).P (好看I垃圾評論).P (了 I垃圾評論).P (垃圾評論)。
[0055]需要說明的是,“的”這類無意義的助詞不會影響一條用戶評論是否為垃圾評論的概率,為了保證數(shù)據(jù)計算的嚴(yán)謹(jǐn)性,在計算后驗概率時,去掉“的”這類無意義的助詞。
[0056]可以理解的是,由于上述概率都是小數(shù),多個小數(shù)相乘會導(dǎo)致乘積結(jié)果非常小。為使比較結(jié)果更為直觀,可以對上述概率取In值,即P=s*t, InP=In(s*t) =In(s)+In(t)。
[0057]對該目標(biāo)用戶評論在正常評論中出現(xiàn)的后驗概率取In處理得到
[0058]InP=InP(康福I正常評論)+1ηΡ(影院I正常評論)+1ηΡ(可以I正常評論)+InP (看I正常評論)+InP (電影I正常評論)+InP (聞清I正常評論)+InP (完整I正常評論)+InP (呢I正常評論)+InP (大家I正常評論)+InP (快I正常評論)+InP (去I正常評論)+InP (康福I正常評論)+InP (影院I正常評論)+InP (看I正常評論)+InP (我I正常評論)+InP (剛I正常評論)+InP (看I正常評論)+InP (完I正常評論)+InP (太I正常評論)+InP (好看I正常評論)+InP (了 I正常評論)+InP (正常評論);
[0059]對該目標(biāo)用戶評論在垃圾評論中出現(xiàn)的后驗概率取In處理得到
[0060]InP ' =InP (康福I垃圾評論)+InP (影院I垃圾評論)+InP (可以I垃圾評論)+InP (看I垃圾評論)+InP (電影I垃圾評論)+InP (高清I垃圾評論)+InP (完整I正常評論)+InP (呢I垃圾評論)+InP (大家I垃圾評論)+InP (快I垃圾評論)+InP (去I垃圾評論)+InP (康福I垃圾評論)+InP (影院I垃圾評論)+InP (看I垃圾評論)+InP (我I垃圾評論)+InP (剛I垃圾評論)+InP (看I垃圾評論)+InP (完I垃圾評論)+InP (太I垃圾評論)+InP (好看I垃圾評論)+InP ( 了 I垃圾評論)+InP (垃圾評論)。
[0061]正常評論出現(xiàn)的先驗概率的In值
[0062]InP (正常評論)=-0.1400209332841508,
[0063]垃圾評論出現(xiàn)的先驗概率
[0064]InP (垃圾評論)=-2.035157033254798 ;
[0065]“康?!痹谡Tu論中出現(xiàn)的條件概率的In值
[0066]P (康福 I 正常評論)=In (3/2504380) =-13.634939468208557,
[0067]“康?!痹诶u論中出現(xiàn)的條件概率的In值
[0068]P (康福 I 垃圾評論)=In (74/376403) =_8.534350563701851 ;
[0069]“影院”在正常評論中出現(xiàn)的條件概率的In值
[0070]P (影院 I 正常評論)=In (1072/2504380) =-7.75627041524592,
[0071]“影院”在垃圾評論中出現(xiàn)的條件概率的In值
[0072]P (影院 I 垃圾評論)=In (4746/376403) =-4.373358219910311 ;
[0073]“可以”在正常評論中出現(xiàn)的條件概率的In值
[0074]P(可以 I 正常評論)=In(46587/376403) =-2.0893388456687214,
[0075]“可以”在垃圾評論中出現(xiàn)的條件概率的In值
[0076]P(可以 I 垃圾評論)=In(115116/2504380) =-3.0798561622707195 ;
[0077]“看”在正常評論中出現(xiàn)的條件概率的In值
[0078]P (看 I 正常評論)=In (90952/376403)=-1.4203284830970777,
[0079]“看”在垃圾評論中出現(xiàn)的條件概率的In值
[0080]P (看 I 垃圾評論)=In (465481/2504380) =_1.682725198336948 ;
[0081]“電影”在正常評論中出現(xiàn)的條件概率的In值
[0082]P(電影 I 正常評論)=In(11839/376403) =-3.459261211494384,
[0083]“電影”在垃圾評論中出現(xiàn)的條件概率的In值
[0084]P (電影 I 垃圾評論)=In (61888/2504380) =_3.7004701780637013 ;
[0085]“高清”在正常評論中出現(xiàn)的條件概率的In值
[0086]P (高清 I 正常評論)=In (6185/2504380) =_6.003669472050079,
[0087]“高清”在垃圾評論中出現(xiàn)的條件概率的In值
[0088]P (高清 I 垃圾評論)=In (6558/376403) =_4.049974699501426 ;
[0089]“的”在正常評論中出現(xiàn)的條件概率的In值
[0090]P (的 I 正常評論)=In (3058366/2504380)=0.1998395875019976,
[0091]“的”在垃圾評論中出現(xiàn)的條件概率的In值
[0092]P (的 I 垃圾評論)=In (657998/376403) =0.5585415138831369 ;
[0093]“完整”在正常評論中出現(xiàn)的條件概率的In值
[0094]P (完整 I 正常評論)=In (3756/2504380) =_6.502441916548514,
[0095]“完整”在垃圾評論中出現(xiàn)的條件概率的In值[0096]P (完整 I 垃圾評論)=In (568/376403) =-6.496294238184869 ;
[0097]“的”在正常評論中出現(xiàn)的條件概率的In值
[0098]P (的 I 正常評論)=In (657998/376403) =0.5585415138831369,
[0099]“的”在垃圾評論中出現(xiàn)的條件概率的In值
[0100]P (的 I 垃圾評論)=In (3058366/2504380)=0.1998395875019976 ;
[0101]“呢”在正常評論中出現(xiàn)的條件概率的In值
[0102]P (呢 I 正常評論)=In (115656/2504380) =-3.075176209888389,
[0103]“呢”在垃圾評論中出現(xiàn)的條件概率的In值
[0104]P (呢 I 垃圾評論)=In (15106/376403) =-3.215568362032627 ;
[0105]“大家”在正常評論中出現(xiàn)的條件概率的In值
[0106]P (大家 I 正常評論)=In (59508/2504380) =_3.739685720599533,
[0107]“大家”在垃圾評論中出現(xiàn)的條件概率的In值
[0108]P (大家 I 垃圾評論)=In (17401/376403) =-3.074132702090442 ;
[0109]“快”在正常評論中出現(xiàn)的條件概率的In值
[0110]P (快 I 正常評論)=In (55847/2504380) =-3.8031806691309025,
[0111]“快”在垃圾評論中出現(xiàn)的條件概率的In值
[0112]P (快 I 垃圾評論)=In (10610/376403) =-3.5688634252979914 ;
[0113]“去”在正常評論中出現(xiàn)的條件概率的In值
[0114]P (去 I 正常評論)=In (178781/2504380) =_2.639634884783636,
[0115]“去”在垃圾評論中出現(xiàn)的條件概率的In值
[0116]P (去 I 垃圾評論)=In (33790/376403) =-2.4104954771976845 ;
[0117]“康?!痹谡Tu論中出現(xiàn)的條件概率的In值
[0118]P (康福 I 正常評論)=In (3/2504380) =-13.634939468208557,
[0119]“康?!痹诶u論中出現(xiàn)的條件概率的In值
[0120]P (康福 I 垃圾評論)=In (74/376403) =-8.534350563701851 ;
[0121]“影院”在正常評論中出現(xiàn)的條件概率的In值
[0122]P (影院 I 正常評論)=In (1072/2504380) =-7.75627041524592,
[0123]“影院”在垃圾評論中出現(xiàn)的條件概率的In值
[0124]P (影院 I 垃圾評論)=In (4746/376403) =-4.373358219910311 ;
[0125]“看”在正常評論中出現(xiàn)的條件概率的In值
[0126]P (看 I 正常評論)=In (90952/376403)=-1.4203284830970777,
[0127]“看”在垃圾評論中出現(xiàn)的條件概率的In值
[0128]P (看 I 垃圾評論)=In (465481/2504380)=-1.682725198336948 ;
[0129]“我”在正常評論中出現(xiàn)的條件概率的In值
[0130]P (我 I 正常評論)=In (977554/2504380)=-0.9407429445940939,
[0131]“我”在垃圾評論中出現(xiàn)的條件概率的In值
[0132]P (我 I 垃圾評論)=In (155242/376403)=-0.8856751882286605 ;
[0133]“剛”在正常評論中出現(xiàn)的條件概率的In值
[0134]P (剛 I 正常評論)=In (18956/2504380) =-4.883675973789188,[0135]“剛”在垃圾評論中出現(xiàn)的條件概率的In值
[0136]P (剛 I 垃圾評論)=In (7294/376403) =_3.943608285537395 ;
[0137]“看”在正常評論中出現(xiàn)的條件概率的In值
[0138]P (看 I 正常評論)=In (90952/376403)=-1.4203284830970777,
[0139]“看”在垃圾評論中出現(xiàn)的條件概率的In值
[0140]P (看 I 垃圾評論)=In (465481/2504380)=-1.682725198336948 ;
[0141]“完”在正常評論中出現(xiàn)的條件概率的In值
[0142]P (完 I 正常評論)=In (33282/2504380) =_4.320779767593378,
[0143]“完”在垃圾評論中出現(xiàn)的條件概率的In值
[0144]P (完 I 垃圾評論)=In (8979/376403) =-3.7357718603852117 ;
[0145]“太”在正常評論中出現(xiàn)的條件概率的In值
[0146]P (太 I 正常評論)=In (197362/2504380) =_2.540756871959068,
[0147]“太”在垃圾評論中出現(xiàn)的條件概率的In值
[0148]P (太 I 垃圾評論)=In (37857/376403) =_2.296844474585 ;
[0149]“好看”在正常評論中出現(xiàn)的條件概率的In值
[0150]P (好看 I 正常評論)=In (70410/2504380) =-3.5714611793634883,
[0151]“好看”在垃圾評論中出現(xiàn)的條件概率的In值
[0152]P (好看 I 垃圾評論)=In (23157/376403) =-2.7883632672880565 ;
[0153]“了”在正常評論中出現(xiàn)的條件概率的In值
[0154]P (了 I 正常評論)=In (1350457/2504380)=-0.6175981452280028,
[0155]“了”在垃圾評論中出現(xiàn)的條件概率的In值
[0156]P (了 I 垃圾評論)=In (242874/376403)=-0.43811758757906827。
[0157]InP= (-13.634939468208557) + (-7.75627041524592) + (-3.0798561622707195) +(-1.682725198336948) + (-3.7004701780637013) + (-6.003669472050079) + (-6.502441916548514) + (-3.075176209888389) + (-3.739685720599533) + (-3.8031806691309025) + (-2.639634884783636) + (-13.634939468208557) + (-7.75627041524592) + (-1.682725198336948) + (-0.9407429445940939) + (-4.883675973789188) + (-1.682725198336948) + (-4.320779767593378) + (-2.540756871959068) + (-3.5714611793634883) + (-0.6175981452280028)=-96.5903880410586448 ;
[0158]InP ' =(-8.534350563701851) + (-4.373358219910311) + (-2.0893388456687214) + (-1.4203284830970777) + (-3.459261211494384) + (-4.049974699501426) + (-6.496294238184869) + (-3.215568362032627) + (-3.074132702090442) + (-3.5688634252979914) + (-2.4104954771976845) + (-8.534350563701851) + (-4.373358219910311) + (-1.4203284830970777)+(-0.8856751882286605)+(-3.943608285537395)+(-1.4203284830970777)+(-3.7357718603852117) + (-2.296844474585) + (-2.7883632672880565) + (-0.43811758757906827)=-72.32870361930935。
[0159]在本發(fā)明的一個【具體實施方式】中,根據(jù)所述后驗概率,判斷所述目標(biāo)用戶評論的類別,具體包括:比較所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率值,判斷所述目標(biāo)用戶評論屬于最大的后驗概率值對應(yīng)的樣本類別。[0160]例如,目標(biāo)用戶評論“康福影院可以看電影高清的完整的呢。大家快去(康福影院)看。我剛看完。。太好看了”在正常評論中出現(xiàn)的后驗概率取In處理得到1ηΡ=-96.5903880410586448,在垃圾評論中出現(xiàn)的后驗概率取In處理得到InP' =-72.32870361930935,由于In函數(shù)是一個單調(diào)遞增函數(shù),InP' >1ηΡ,故P' >Ρ,該目標(biāo)用戶評論在垃圾評論中出現(xiàn)的后驗概率較高,因此判斷該目標(biāo)用戶評論是垃圾評論。
[0161]S104,輸出所述目標(biāo)用戶評論以進行人工識別,根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新。
[0162]在本發(fā)明的一個【具體實施方式】中,根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的樣本分詞出現(xiàn)次數(shù)以及樣本類別記錄數(shù)進行更新,具體包括:根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù),分別進行加I處理,實現(xiàn)了對預(yù)設(shè)樣本評論庫中內(nèi)容的更新。
[0163]下一次識別包含該目標(biāo)分詞的用戶評論時,能根據(jù)更新后的預(yù)設(shè)樣本評論庫,計算得到該用戶評論在各樣本類別中出現(xiàn)的后驗概率,進而確定該用戶評論的類別,提高了本發(fā)明方法的動態(tài)適應(yīng)能力。
[0164]例如,對于目標(biāo)用戶評論“南通辦假承兌匯票【電劉經(jīng)理.15218884575】”,預(yù)設(shè)樣本評論庫中不包含“劉經(jīng)理”這一分詞,將該目標(biāo)用戶評論發(fā)送給審核員進行人工識別,人工識別確定該目標(biāo)用戶評論是垃圾評論,本發(fā)明裝置實施例的學(xué)習(xí)模塊接收人工識別結(jié)果,并對預(yù)設(shè)樣本評論庫中的垃圾評論記錄數(shù)加I,對“南通”、“辦”、“假”、“承兌”、“匯票”,“電”以及“劉經(jīng)理”在垃圾評論中出現(xiàn)的次數(shù)分別加I。下一次識別包含“劉經(jīng)理”的用戶評論時,可以直接從更新后的預(yù)設(shè)樣本評論庫中調(diào)取“劉經(jīng)理”這個詞在各類別中出現(xiàn)的次數(shù)來進行后驗概率的計算,從而實現(xiàn)對該用戶評論的識別。
[0165]在預(yù)設(shè)樣本評論庫`中只含有正常評論和垃圾評論兩個樣本類別的情況下,本發(fā)明實施例所提供的一種識別用戶評論的優(yōu)選實施方式中,S103可以包括:
[0166]計算C=A/B ;
[0167]如果C滿足第一預(yù)設(shè)范圍,則判斷所述目標(biāo)用戶評論為垃圾評論;
[0168]如果C滿足第二預(yù)設(shè)范圍,則判斷所述目標(biāo)用戶評論為正常評論;
[0169]如果C滿足第三預(yù)設(shè)范圍,則將所述目標(biāo)用戶評論輸出以進行人工識別,根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新。
[0170]例如,第一預(yù)設(shè)范圍設(shè)置為低于0.76的范圍,目標(biāo)用戶評論“康福影院可以看電影高清的完整的呢。大家快去(康福影院)看。我剛看完。。太好看了”在正常評論中出現(xiàn)的后驗概率取In處理得到1ηΡ=-96.5903880410586448,在垃圾評論中出現(xiàn)的后驗概率取In 處理得到 InP' =-72.32870361930935,InP' /InP=0.7572609108875018<0.76,因此判斷該目標(biāo)用戶評論是垃圾評論。
[0171]需要說明的是,依據(jù)一般經(jīng)驗,預(yù)設(shè)范圍通常取不高于0.76的范圍,第二預(yù)設(shè)范圍取高于0.95的范圍,第三預(yù)設(shè)范圍取0.76~0.95 ;當(dāng)然用戶也可以根據(jù)實際需求自行設(shè)定預(yù)設(shè)范圍,本發(fā)明實施例對此不進行具體限制。[0172]可以理解的是,與前一實施方式相比,本實施方式通過設(shè)定預(yù)設(shè)范圍,提高了對用戶評論進行識別的準(zhǔn)確性。
[0173]相應(yīng)于上面的方法實施例,本發(fā)明還提供一種識別用戶評論的裝置,參見圖2所示,該裝置可以包括:
[0174]分詞劃分模塊201,用于獲取目標(biāo)用戶評論,并對所述目標(biāo)用戶評論進行分詞劃分,得到N個目標(biāo)分詞;
[0175]判斷模塊202,用于判斷所述目標(biāo)分詞是否包含在預(yù)設(shè)樣本評論庫中,若是,則根據(jù)
[0176]Pa=P(第一目標(biāo)分詞I a).Ρ(第二目標(biāo)分詞I a) ?….P(第N目標(biāo)分詞I a) -P(a)
[0177]計算所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,其中,所述預(yù)設(shè)樣本評論庫包含多個樣本分詞在各個類別中的出現(xiàn)次數(shù)以及該各個樣本類別的記錄數(shù),所述樣本分詞分屬所述多個樣本類別,Pa為所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的a類別中出現(xiàn)的后驗概率,P(第N目標(biāo)分詞I a)為所述目標(biāo)用戶評論的第N個目標(biāo)分詞在該a類別中出現(xiàn)的條件概率,P(a)為a類別在所述預(yù)設(shè)樣本評論庫中出現(xiàn)的先驗概率,并根據(jù)所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,判斷所述目標(biāo)用戶評論的類別;
[0178]學(xué)習(xí)模塊203,用于在所述目標(biāo)分詞不包含在預(yù)設(shè)樣本評論庫中的情況下,輸出所述目標(biāo)用戶評論以進行人工識別,根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新。
[0179]在本發(fā)明的一個【具體實施方式】中,所述判斷模塊202根據(jù)所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,判斷所述目標(biāo)用戶評論的類別,具體包括:
[0180]比較所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率值,判斷所述目標(biāo)用戶評論屬于對應(yīng)最高后驗概率值的樣本類別。
[0181]在預(yù)設(shè)樣本評論庫只含有正常評論和垃圾評論兩個樣本類別的情況下,在本發(fā)明的另一個【具體實施方式】中,所述判斷模塊202根據(jù)所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,判斷所述目標(biāo)用戶評論的類別,具體包括:
[0182]計算C=A/B ;
[0183]如果C滿足第一預(yù)設(shè)范圍,則判斷所述目標(biāo)用戶評論為垃圾評論;
[0184]如果C滿足第二預(yù)設(shè)范圍,則判斷所述目標(biāo)用戶評論為正常評論;
[0185]如果C滿足第三預(yù)設(shè)范圍,則將所述目標(biāo)用戶評論輸出以進行人工識別,根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新。
[0186]需要說明的是,依據(jù)一般經(jīng)驗,預(yù)設(shè)范圍通常取不高于0.76的范圍,第二預(yù)設(shè)范圍取高于0.95的范圍,第三預(yù)設(shè)范圍取0.76~0.95 ;當(dāng)然用戶也可以根據(jù)實際需求自行設(shè)定預(yù)設(shè)范圍,本發(fā)明實施例對此不進行具體限制。
[0187]在本發(fā)明的一個具體實施例中,所述學(xué)習(xí)模塊S302根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶 評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新,具體包括:
[0188]根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù),分別進行加I處理。
[0189]為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當(dāng)然,在實施本發(fā)明時可以把各單元的功能在同一個或多個軟件和/或硬件中實現(xiàn)。
[0190]需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0191]本說明書中的各個實施例均采用相關(guān)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。
[0192]本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述方法實施方式中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于計算機可讀取存儲介質(zhì)中,這里所稱得的存儲介質(zhì),如:R0M/RAM、磁碟、光盤等。 [0193]以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內(nèi)。
【權(quán)利要求】
1.一種識別用戶評論的方法,其特征在于,該方法包括: 獲取目標(biāo)用戶評論,對所述目標(biāo)用戶評論進行分詞劃分,得到N個目標(biāo)分詞; 判斷預(yù)設(shè)樣本評論庫是否包含所述目標(biāo)分詞,若是,則根據(jù) Pa=P(第一目標(biāo)分詞I a).Ρ(第二目標(biāo)分詞I a).....P(第N目標(biāo)分詞I a) - P (a) 計算所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,其中,所述預(yù)設(shè)樣本評論庫包含多個樣本分詞在各個類別中的出現(xiàn)次數(shù)以及該各個樣本類別的記錄數(shù),Pa為所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的a類別中出現(xiàn)的后驗概率,P(第N目標(biāo)分詞I a)為所述目標(biāo)用戶評論的第N個目標(biāo)分詞在該a類別中出現(xiàn)的條件概率,P (a)為該a類別在所述預(yù)設(shè)樣本評論庫中出現(xiàn)的先驗概率; 根據(jù)所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,判斷所述目標(biāo)用戶評論的類別; 若所述預(yù)設(shè)樣本評論庫不包含所述目標(biāo)分詞,則輸出所述目標(biāo)用戶評論以進行人工識另IJ,根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,判斷所述目標(biāo)用戶評論的類別,具體包括: 比較所述目標(biāo)用戶評論在所 述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率值,判斷所述目標(biāo)用戶評論屬于最大的后驗概率值對應(yīng)的樣本類別。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述樣本類別包括:正常評論和垃圾評論。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,判斷所述目標(biāo)用戶評論的類別,具體包括: 計算C=A/B ; 如果C滿足第一預(yù)設(shè)范圍,則判斷所述目標(biāo)用戶評論為垃圾評論; 如果C滿足第二預(yù)設(shè)范圍,則判斷所述目標(biāo)用戶評論為正常評論; 如果C滿足第三預(yù)設(shè)范圍,則將所述目標(biāo)用戶評論輸出以進行人工識別,根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新,具體包括: 對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù),分別進行加I處理。
6.一種識別用戶評論的裝置,其特征在于,該裝置包括: 分詞劃分模塊,用于獲取目標(biāo)用戶評論,并對所述目標(biāo)用戶評論進行分詞劃分,得到N個目標(biāo)分詞; 判斷模塊,用于判斷預(yù)設(shè)樣本評論庫是否包含所述目標(biāo)分詞,若是,則根據(jù) Pa=P(第一目標(biāo)分詞I a).Ρ(第二目標(biāo)分詞I a).....P(第N目標(biāo)分詞I a) - P (a) 計算所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,其中,所述預(yù)設(shè)樣本評論庫包含多個樣本分詞在各個類別中的出現(xiàn)次數(shù)以及該各個樣本類別的記錄數(shù),所述樣本分詞分屬所述多個樣本類別,Pa為所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的a類別中出現(xiàn)的后驗概率,P(第N目標(biāo)分詞I a)為所述目標(biāo)用戶評論的第N個目標(biāo)分詞在該a類別中出現(xiàn)的條件概率,P(a)為a類別在所述預(yù)設(shè)樣本評論庫中出現(xiàn)的先驗概率,并根據(jù)所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,判斷所述目標(biāo)用戶評論的類別; 學(xué)習(xí)模塊,用于在預(yù)設(shè)樣本評論庫不包含所述目標(biāo)分詞的情況下,輸出所述目標(biāo)用戶評論以進行人工識別,根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述判斷模塊根據(jù)所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,判斷所述目標(biāo)用戶評論的類別,具體包括: 比較所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率值,判斷所述目標(biāo)用戶評論屬于最大的后驗概率值對應(yīng)的樣本類別。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述樣本類別包括:正常評論和垃圾評論。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述判斷模塊根據(jù)所述目標(biāo)用戶評論在所述預(yù)設(shè)樣本評論庫的各樣本類別中出現(xiàn)的后驗概率,判斷所述目標(biāo)用戶評論的類別,具體包括: 計算C=A/B ;` 如果C滿足第一預(yù)設(shè)范圍,則判斷所述目標(biāo)用戶評論為垃圾評論; 如果C滿足第二預(yù)設(shè)范圍,則判斷所述目標(biāo)用戶評論為正常評論; 如果C滿足第三預(yù)設(shè)范圍,則將所述目標(biāo)用戶評論輸出以進行人工識別,根據(jù)人工識別結(jié)果,對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述學(xué)習(xí)模塊對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù)進行更新,具體包括: 對所述預(yù)設(shè)樣本評論庫中的、目標(biāo)用戶評論所屬類別包含的樣本評論數(shù)量,以及所述預(yù)設(shè)樣本庫中的、所述目標(biāo)分詞在該類別中的出現(xiàn)次數(shù),分別進行加I處理。
【文檔編號】G06F17/27GK103778109SQ201410050343
【公開日】2014年5月7日 申請日期:2014年2月13日 優(yōu)先權(quán)日:2014年2月13日
【發(fā)明者】鄭偉華, 周尋, 傅一峰 申請人:北京奇藝世紀(jì)科技有限公司