一種在線lda模型的高效數(shù)據(jù)總結(jié)分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種網(wǎng)絡(luò)數(shù)據(jù)處理,具體地,涉及一種基于在線LDA模型的高效數(shù)據(jù) 總結(jié)分析方法。
【背景技術(shù)】
[0002] Web2.0技術(shù)的迅速發(fā)展,在互聯(lián)網(wǎng)上生產(chǎn)出了海量多樣的信息數(shù)據(jù)。這些數(shù)據(jù)的 含義如此豐富,我們很難在沒有總結(jié)的情況下提取出數(shù)據(jù)所包含的信息。如何對這些豐富 含義的海量數(shù)據(jù)進(jìn)行處理并有效地提取出結(jié)論,已成為一個挑戰(zhàn)。從信息的消費者的角度 來看,由用戶生產(chǎn)的內(nèi)容是最有意義的,因為這些內(nèi)容基于用戶的真實體驗?;ヂ?lián)網(wǎng)產(chǎn)生了 越來越多的用戶評論內(nèi)容,這些內(nèi)容反映了用戶對事物的真實興趣和態(tài)度,與之相應(yīng)的網(wǎng) 站也成為了提取用戶興趣分析的豐富資源。
[0003] 為了從這些信息中提取出有用的信息,例如情緒分類,文本規(guī)約以及主題建模等 方法被開發(fā)出來。但是,網(wǎng)絡(luò)上的用戶內(nèi)容不斷在更新和增長,利用這些已有的技術(shù)很難進(jìn) 行在線分析。盡管這些用戶內(nèi)容非常有價值,但如何有效的理解和應(yīng)用仍然很困難。
[0004] 舉個例子,當(dāng)我們在電子產(chǎn)品,例如手機或者筆記本電腦中作比較和選擇時,會考 慮產(chǎn)品通用的屬性例如易用性,電池壽命,音質(zhì)等,而這些屬性在大部分電子商務(wù)網(wǎng)站上是 預(yù)定義的;但是即使對于相同的硬件配置的筆記本電腦,用戶體驗也可能完全不同。而且, 這種售后體驗只能在商品的用戶評論中獲得反應(yīng),這些寶貴的用戶評論需要得到分析和總 結(jié)。
[0005] 對于商務(wù)型網(wǎng)站,例如酒店或者銷售網(wǎng)站,用戶評論比廣告更為真實和可信。在銷 售領(lǐng)域,從這些用戶評論中總結(jié)出的信息有利于顧客做出決定,也有利于公司提升服務(wù)水 平和做出市場決策??偨Y(jié)信息的目標(biāo)是從盡可能簡易的情況下幫助用戶理解海量,豐富多 樣的用戶評論數(shù)據(jù)。
[0006] 在tripadvisor網(wǎng)站上,為了使用戶更易于比較酒店,應(yīng)用了反饋評分技術(shù)。這種 反饋評分技術(shù)(分?jǐn)?shù)由1到5),對于酒店經(jīng)理或旅客并無太大參考意義,因為這些評分并不 能從用戶體驗角度反饋主觀的建議或意見;這種評分通常也不具備可比性,例如,一個三星 酒店得到了 10個用戶的高分評價而一個四星酒店僅僅得到1個用戶的中間評價,這并不表 明四星酒店的服務(wù)水平會比三星酒店差。在這種情況下,如何從用戶評論中獲取有價值的 信息就顯得尤為重要。
[0007] 酒店的用戶評論內(nèi)容隨著個人的經(jīng)歷不同而具有多樣性。在圖1所示的兩個經(jīng)典 的酒店評論內(nèi)容中,顯示了酒店的不同主題,例如價格,房間和食物等。顯然地,這些用戶評 論中的主題與電子產(chǎn)品評論更為豐富和多樣,幾乎不可能去列出所有可能的主題,因而從 這些用戶評論中提取出有意義的信息會更加困難。
[0008] 酒店的用戶評論內(nèi)容展示出了一種有趣的不平衡現(xiàn)象。有更多用戶評論的酒店往 往是更受歡迎的,用戶也樂于在上面分享酒店的體驗,所以正面評價也遠(yuǎn)多于負(fù)面評價;而 這些不受歡迎的酒店則有很少的用戶評論。這個是二值評價方法所不能解決的數(shù)據(jù)不平衡 問題。
【發(fā)明內(nèi)容】
[0009] 針對上述現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明提供一種在線LDA模型的高效數(shù)據(jù) 總結(jié)分析方法,解決了實時處理數(shù)據(jù)集的可擴展性問題。在線LDA模型被應(yīng)用于從海量和 不斷增長的評論集中提取信息,達(dá)到了與傳統(tǒng)LDA模型相近的生成水平并擁有較低的計算 消耗。
[0010] 為達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案如下:
[0011] -種在線LDA模型的高效數(shù)據(jù)總結(jié)分析方法,其特征在于,包括步驟如下:
[0012] 第一步,基于在線LDA模型進(jìn)行主題提取;
[0013] 第二步,在第一步基礎(chǔ)上,基于R0C方法進(jìn)行主題分類;
[0014] 第三步,在第二步基礎(chǔ)上,進(jìn)行意見總結(jié)或二值分類。
[0015] 所述第一步中,采用在線推斷LDA算法對基于在線LDA模型的評論集合進(jìn)行數(shù)據(jù) 處理并建模,所述在線推斷LDA算法是一種在線變分推斷方法,是在變分方法上使用了徹 底的因式分解變量,因此算法的下界為:
【主權(quán)項】
1. 一種在線LDA模型的高效數(shù)據(jù)總結(jié)分析方法,其特征在于,包括步驟如下: 第一步,基于在線LDA模型進(jìn)行主題提取; 第二步,在第一步基礎(chǔ)上,基于ROC方法進(jìn)行主題分類; 第三步,在第二步基礎(chǔ)上,進(jìn)行意見總結(jié)或二值分類。
2. 根據(jù)權(quán)利要求1所述的在線LDA模型的高效數(shù)據(jù)總結(jié)分析方法,其特征在于,所述第 一步中,采用在線推斷LDA算法對基于在線LDA模型的評論集合進(jìn)行數(shù)據(jù)處理并建模,在線 推斷LDA算法是一種在線變分推斷方法,是在變分方法上使用徹底的因式分解變量,因此 算法的下界為:
上式中A是主題0的參數(shù),小、Y是特定主題z、狄利克雷優(yōu)先標(biāo)量0的參數(shù),是 算法的下界, 在線變分推斷由主題A決定,通過估計參數(shù)值Y (nd,A)和?。╪d,X),最大化下述公 式,
3. 根據(jù)權(quán)利要求1所述的在線LDA模型的高效數(shù)據(jù)總結(jié)分析方法,其特征在于,所述第 二步中,在主題提取的數(shù)據(jù)平衡時,通過ROC方法對主題進(jìn)行逆向排序,然后選擇前1個主 題。
4. 根據(jù)權(quán)利要求3所述的在線LDA模型的高效數(shù)據(jù)總結(jié)分析方法,其特征在于,包括散 射矩陣方法:
其中九= Pi是分類《的先驗概率,Si是分類《的平均矢量,su是分類內(nèi)散 射矩陣,sb是分類間散射矩陣。
5. 根據(jù)權(quán)利要求1所述的在線LDA模型的高效數(shù)據(jù)總結(jié)分析方法,其特征在于,所述 第二步中,在主題提取的數(shù)據(jù)平衡時,通過計算主題之間的交叉相關(guān)系數(shù)進(jìn)行主題分類,首 先,通過ROC方法對主題進(jìn)行逆向排序,設(shè)^是排序選擇出的最好的主題,
上述等式考慮了最好的主題以及其他主題之間的交叉相關(guān)系數(shù)(PW),其他主題根據(jù) 下式排序,
j#ir,r= 1,2,…,k_l 上式中ik是主題的排序,(Pw)是該主題與其他主題之間的交叉相關(guān)系數(shù)。
6. 根據(jù)權(quán)利要求1所述的在線LDA模型的高效數(shù)據(jù)總結(jié)分析方法,其特征在于,所述第 二步中,在主題提取的數(shù)據(jù)不平衡時,采用FAST方法進(jìn)行主題提取分類,主題提取矩陣基 于簡單的線性判別生成的ROC曲線,主題根據(jù)曲線下面積大小進(jìn)行排序,選取最高的;所述 ROC曲線是主題排序的標(biāo)準(zhǔn),所述FAST方法是用一種閾值決定方法,修正了不同點被分配 到不同數(shù)據(jù)分離的寬度的數(shù)量,在高密度數(shù)據(jù)上使用更多的數(shù)據(jù)分離寬度,而在稀疏數(shù)據(jù) 上使用較少的數(shù)據(jù)分離寬度,每個數(shù)據(jù)分離寬度包含相同的數(shù)據(jù)量,因此每個數(shù)據(jù)分離寬 度計算出的較多的閾值被用于高密度數(shù)據(jù)的ROC計算,較少的閾值被用于稀疏數(shù)據(jù)的ROC 計算。
7. 根據(jù)權(quán)利要求1所述的在線LDA模型的高效數(shù)據(jù)總結(jié)分析方法,其特征在于,所述第 一步中,使用用于評估模型生成未知數(shù)據(jù)的能力的一個標(biāo)準(zhǔn)的評估矩陣perplexity值來 評估在線LDA模型的生成性能,越低的perplexity值表明模型更具有適用性,對于N個評 論的測試集,perplexity值為:
上式中q是評論i,該評論出現(xiàn)的概率是p(c),perplexity(Ctest)中是評論集合Ctest 的perplexity值。
8. 根據(jù)權(quán)利要求1所述的在線LDA模型的高效數(shù)據(jù)總結(jié)分析方法,其特征在于,所述第 二步中,使用平衡錯誤率BER評估主題選取的性能,定義如下,
BER是正面評價和負(fù)面評價的平均錯誤率。
【專利摘要】本發(fā)明公開一種在線LDA模型的高效數(shù)據(jù)總結(jié)分析方法,包括步驟如下:第一步,基于在線LDA模型進(jìn)行主題提??;第二步,在第一步基礎(chǔ)上,基于ROC方法進(jìn)行主題分類;第三步,在第二步基礎(chǔ)上,進(jìn)行意見總結(jié)或二值分類。本發(fā)明所提供的方法,解決了實時處理數(shù)據(jù)集的可擴展性問題。在線LDA模型被應(yīng)用于從海量和不斷增長的評論集中提取信息,達(dá)到了與傳統(tǒng)LDA模型相近的生成水平并擁有較低的計算消耗。
【IPC分類】G06F17-27, G06F17-30
【公開號】CN104572623
【申請?zhí)枴緾N201510014471
【發(fā)明人】程書欣, 馬俊, 姚建國, 管海兵
【申請人】上海交通大學(xué)
【公開日】2015年4月29日
【申請日】2015年1月12日