一種面向大規(guī)模動(dòng)態(tài)短文本的聚類信息演化分析方法
【專利說明】一種面向大規(guī)模動(dòng)態(tài)短文本的聚類信息演化分析方法 【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于面向社會(huì)網(wǎng)絡(luò)數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種面向大規(guī)模動(dòng)態(tài)短文本的 聚類信息演化分析方法。 【【背景技術(shù)】】
[0002] 伴隨著Web2. 0時(shí)代的到來,互聯(lián)網(wǎng)行業(yè)正經(jīng)歷著一場(chǎng)巨大的變革,以社會(huì)化網(wǎng)絡(luò) 為基礎(chǔ)的,以"微博"為典型代表的,這種致力于以網(wǎng)絡(luò)溝通人與人之間的關(guān)系,從而進(jìn)行休 閑娛樂、商務(wù)投資、學(xué)習(xí)探討等等一系列活動(dòng)的虛擬交流平臺(tái)一經(jīng)出現(xiàn),即獲得了用戶的追 捧。
[0003] 社會(huì)化網(wǎng)絡(luò)是一個(gè)動(dòng)態(tài)的平臺(tái),其中的數(shù)據(jù)在不斷的更新,如果能夠獲取動(dòng)態(tài)數(shù) 據(jù)中所蘊(yùn)含的不同信息的演化過程(即分析出哪些信息不再為用戶所關(guān)注,哪些信息持續(xù) 受到用戶關(guān)注,哪些信息最新為用戶所關(guān)注),首先可以把握到用戶關(guān)注點(diǎn)的整體變化趨 勢(shì),其次還可以繪制信息的發(fā)展趨勢(shì)圖,以對(duì)信息的進(jìn)化方向進(jìn)行預(yù)測(cè),將有限的人力和物 力投向用戶關(guān)注的焦點(diǎn),正確引導(dǎo)輿論的走向。廣大互聯(lián)網(wǎng)用戶也可通過對(duì)比不同信息的 演化過程,快速的從浩瀚的信息海洋中發(fā)現(xiàn)其感興趣的信息。
[0004] 現(xiàn)今比較熱門的信息分析問題有"輿情分析"、"熱點(diǎn)發(fā)現(xiàn)"、"話題演化"和"熱點(diǎn)追 蹤",其中輿情分析和熱點(diǎn)發(fā)現(xiàn)的著眼點(diǎn)為"短時(shí)效性分析",即意在分析和獲取短時(shí)間內(nèi)、 集中爆發(fā)的信息。與它們相比,信息演化分析側(cè)重于"長(zhǎng)時(shí)效性分析",其通過對(duì)比不同時(shí)間 段內(nèi)的動(dòng)態(tài)數(shù)據(jù),以獲取數(shù)據(jù)中所蘊(yùn)含的信息的發(fā)展趨勢(shì)。話題演化和熱點(diǎn)追蹤也可對(duì)動(dòng) 態(tài)數(shù)據(jù)進(jìn)行處理,然而其大多局限于一個(gè)或幾個(gè)話題的發(fā)展趨勢(shì),與它們相比,信息演化分 析意在對(duì)信息的總體變化情況進(jìn)行展示。
[0005] 伴隨著Web2. 0時(shí)代的到來,互聯(lián)網(wǎng)行業(yè)正經(jīng)歷著一場(chǎng)巨大的變革,以社會(huì)化網(wǎng)絡(luò) 為基礎(chǔ)的,以"微博"為典型代表的,這種致力于以網(wǎng)絡(luò)溝通人與人之間的關(guān)系,從而進(jìn)行體 閑娛樂、商務(wù)投資、學(xué)習(xí)探討等等一系列活動(dòng)的虛擬交流平臺(tái)一經(jīng)出現(xiàn),即獲得了用戶的追 捧。
[0006] 社會(huì)化網(wǎng)絡(luò)是一個(gè)動(dòng)態(tài)的平臺(tái),其中的數(shù)據(jù)在不斷的更新,如果能夠獲取動(dòng)態(tài)數(shù) 據(jù)中所蘊(yùn)含的不同信息的演化過程(即分析出哪些信息不再為用戶所關(guān)注,哪些信息持續(xù) 受到用戶關(guān)注,哪些信息最新為用戶所關(guān)注),首先可以把握到用戶關(guān)注點(diǎn)的整體變化趨 勢(shì),其次還可以繪制信息的發(fā)展趨勢(shì)圖,以對(duì)信息的進(jìn)化方向進(jìn)行預(yù)測(cè),將有限的人力和物 力投向用戶關(guān)注的焦點(diǎn),正確引導(dǎo)輿論的走向。廣大互聯(lián)網(wǎng)用戶也可通過對(duì)比不同信息的 演化過程,快速的從浩瀚的信息海洋中發(fā)現(xiàn)其感興趣的信息。
[0007] 現(xiàn)今比較熱門的信息分析問題有"輿情分析"、"熱點(diǎn)發(fā)現(xiàn)"、"話題演化"和"熱點(diǎn)追 蹤",其中輿情分析和熱點(diǎn)發(fā)現(xiàn)的著眼點(diǎn)為"短時(shí)效性分析",即意在分析和獲取短時(shí)間內(nèi)、 集中爆發(fā)的信息。與它們相比,信息演化分析側(cè)重于"長(zhǎng)時(shí)效性分析",其通過對(duì)比不同時(shí)間 段內(nèi)的動(dòng)態(tài)數(shù)據(jù),以獲取數(shù)據(jù)中所蘊(yùn)含的信息的發(fā)展趨勢(shì)。話題演化和熱點(diǎn)追蹤也可對(duì)動(dòng) 態(tài)數(shù)據(jù)進(jìn)行處理,然而其大多局限于一個(gè)或幾個(gè)話題的發(fā)展趨勢(shì),與它們相比,信息演化分 析意在對(duì)信息的總體變化情況進(jìn)行展示。
[0008] 區(qū)別于"新聞"或"博客"數(shù)據(jù),廣泛存在于社會(huì)化網(wǎng)絡(luò)中的數(shù)據(jù)是一種典型的"短 文本",其長(zhǎng)度一般小于140字(以新浪微博為例)。當(dāng)文本長(zhǎng)度過短時(shí),以"向量空間模型" 為代表的表示方法會(huì)產(chǎn)生"高維向量稀疏"問題,同時(shí)決定于短文本間相似度的主要因素已 不再是同現(xiàn)詞頻度,而是文本間的語義相似度。上述兩個(gè)問題使得廣泛應(yīng)用于"長(zhǎng)文本"中 的分析方法無法應(yīng)用于"短文本"分析中。因此,只有實(shí)現(xiàn)一種能夠有效處理大規(guī)模動(dòng)態(tài)短 文本的聚類分析方法,才能夠很好的應(yīng)對(duì)Web2. 0時(shí)代的到來對(duì)傳統(tǒng)文本分析方法所帶來 的巨大挑戰(zhàn)。 【
【發(fā)明內(nèi)容】
】
[0009] 本發(fā)明為解決的上述技術(shù)問題,提供了一種引入并行化思想,通過迭代的運(yùn)行"局 部并行調(diào)整"和"全局同步調(diào)整"將特征選擇和類別劃分融合到一起,實(shí)現(xiàn)面向大規(guī)模動(dòng)態(tài) 短文本的快速聚類方法,該方法極大地提升了運(yùn)行效率,且以可視化的標(biāo)簽集合來揭示網(wǎng) 絡(luò)中不同信息的演化過程,以此反映用戶的關(guān)注點(diǎn)在不同時(shí)間段內(nèi)的整體變化趨勢(shì)。
[0010] 為解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案:
[0011] 一種面向大規(guī)模動(dòng)態(tài)短文本的聚類信息演化分析方法,首先結(jié)合自組織聚類算法 中的神經(jīng)元表示方法,以神經(jīng)元代表文檔類;然后將作為類別代表的神經(jīng)元均勻的分?jǐn)偟?各單片機(jī)上,使每個(gè)單片機(jī)上存在小規(guī)模的局部神經(jīng)元集合;接著以自組織聚類算法中的 迭代調(diào)整思想為基礎(chǔ),對(duì)類別劃分結(jié)果進(jìn)行局部并行調(diào)整;再接著在進(jìn)行多次局部并行調(diào) 整后再進(jìn)行一次全局同步調(diào)整,以完成面向海量短文本數(shù)據(jù)的快速聚類;最后在此基礎(chǔ)上 通過分析、對(duì)比不同時(shí)間段內(nèi)的聚類模型的改變情況以獲取短文本數(shù)據(jù)中所蘊(yùn)含的不同信 息的演化過程。
[0012] 進(jìn)一步地,所述"對(duì)類別劃分結(jié)果進(jìn)行局部并行調(diào)整",具體包括以下步驟:
[0013] al.采用分布式詞聚類方法從待聚類的短文本數(shù)據(jù)集合中隨機(jī)選擇一篇文檔,設(shè) 其為Φ ;
[0014] a2.采用迭代的語義相似度計(jì)算方法來計(jì)算Cli與當(dāng)前單片機(jī)上的局部神經(jīng)元集合 中每個(gè)神經(jīng)元之間的相似度,并選取與Cl i具有最大相似度的神經(jīng)元,設(shè)其為Iij ;
[0015] a3.調(diào)整r^_中特征的權(quán)值,并采用迭代的語義相似度計(jì)算方法在局部神經(jīng)元集合 中找到與r^_最相似的神經(jīng)元,設(shè)其為n b ;
[0016] a4.檢測(cè)Iij和nb間是否存在邊,如果不存在邊,則創(chuàng)建一條邊以連接它們,設(shè)Iij和 nb間的邊為Ijb ;
[0017] a5.更新的權(quán)值,并賦的更新時(shí)間參數(shù)為0 ;
[0018] a6.將局部神經(jīng)元集合中所有神經(jīng)元間的邊的更新時(shí)間參數(shù)加1 ;
[0019] a7.檢測(cè)上述所有邊,如果某條邊的更新時(shí)間參數(shù)超過所有邊的平均值,則刪除此 邊,并執(zhí)行迭代次數(shù)t = t+1 ;
[0020] a8.檢測(cè)短文本到其聚類中心(神經(jīng)元)的平均距離,當(dāng)距離小于聚類過程的收斂 閾值u時(shí),停止聚類過程進(jìn)入聚類模型量化過程,否則判斷t是否是m的整數(shù)倍,"是"則轉(zhuǎn) 入全局同步調(diào)整步驟,"否"則返回開始。
[0021] 進(jìn)一步地,所述分布式詞聚類方法是以信息論中的互信息理論為依據(jù),選擇使信
[0022] 息損失降到最小的詞類劃分結(jié)果作為詞聚類結(jié)果,在信息論中如果通過一個(gè)變量向另一個(gè) 變量進(jìn)行編碼時(shí),其傳遞的信息量I通過如下公式計(jì)算得到:
【主權(quán)項(xiàng)】
1. 一種面向大規(guī)模動(dòng)態(tài)短文本的聚類信息演化分析方法,其特征在于,首先結(jié)合自組 織聚類算法中的神經(jīng)元表示