一種社會網(wǎng)絡(luò)用戶參與主題行為分析方法
【專利摘要】本發(fā)明涉及的是一種社會網(wǎng)絡(luò)用戶參與主題的行為分析方法。本發(fā)明包括:定義主題相似性,關(guān)鍵詞相似性,并建立“用戶—主題—關(guān)鍵詞”三個層次的網(wǎng)絡(luò)模型;設(shè)計具有最大區(qū)分度的“關(guān)鍵詞”選擇算法;給出用戶行為分析的相關(guān)定義和計算公式,具體包括:用戶主動參與主題行為,被動參與主題行為,主題傳播力以及主題影響力,并對用戶參與主題的行為進(jìn)行分析。本發(fā)明用網(wǎng)絡(luò)模型完整的記錄了用戶在社會網(wǎng)絡(luò)中的行為,并設(shè)計了具有最大區(qū)分度的關(guān)鍵詞選擇算法,保證了用戶行為分析的效率。
【專利說明】一種社會網(wǎng)絡(luò)用戶參與主題行為分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及的是一種社會網(wǎng)絡(luò)用戶參與主題的行為分析方法。
【背景技術(shù)】
[0002]社會網(wǎng)站的流行使得人們分享和傳播信息變得十分方便和快捷,不同用戶對網(wǎng)絡(luò)信息有著不同的喜好程度,如何分析用戶選擇信息的行為方式,并根據(jù)用戶參與主題的行為特征推薦用戶可能喜歡的信息內(nèi)容是一個重要的研究問題。
[0003]目前國內(nèi)外的研究學(xué)者在這些方面已經(jīng)有了一定的研究和應(yīng)用的成果。如:《Science》雜志干丨J 登的 The Spread of Behavior in an Online Social NetworkExperiment研究了行為的傳播對于網(wǎng)絡(luò)結(jié)構(gòu)的影響。在《電子學(xué)報》雜志刊登的“基于用戶偏好的嵌入性網(wǎng)絡(luò)結(jié)構(gòu)分析”一文分析了用戶行為與其所處的互聯(lián)網(wǎng)及現(xiàn)實社會關(guān)系網(wǎng)絡(luò)之間的雙重嵌入關(guān)系,從關(guān)系性嵌入和結(jié)構(gòu)性嵌入兩個維度給出了一些測度指標(biāo)和分析方法?!队嬎銠C(jī)應(yīng)用與軟件》雜志刊登的“基于短信的社會網(wǎng)絡(luò)行為分析”一文從交往圈和交往頻度這兩個方面對手機(jī)用戶的短信發(fā)送行為進(jìn)行實證研究。通過對出度、入度、交往圈大小、入出邊比、新聯(lián)系人比、出邊平均權(quán)重和出邊權(quán)重方差等七個行為特征的統(tǒng)計分析?!队嬎銠C(jī)研究與發(fā)展》雜志中“基于用戶行為的色情網(wǎng)站識別”一文驗證了用戶訪問色情網(wǎng)站與普通網(wǎng)站時的行為的差異性,并設(shè)計了基于用戶行為的色情網(wǎng)站識別方法?!缎⌒臀⑿陀嬎銠C(jī)系統(tǒng)》雜志刊登的“基于情感詞典擴(kuò)展技術(shù)的網(wǎng)絡(luò)輿情傾向性分析”針對網(wǎng)民關(guān)于話題評論簡單、數(shù)目眾多的特點,建立了基于擴(kuò)展的情感詞典,開發(fā)了一個評論傾向性分析的半自動化網(wǎng)絡(luò)輿情分析系統(tǒng)。從已有研究成果可知,研究用戶參與主題行為模型是研究社會網(wǎng)絡(luò)中用戶話題傾向性分析和用戶主題推薦和預(yù)測的基礎(chǔ),具有一定的研究意義。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于提出一種利用網(wǎng)絡(luò)分析方法對社會網(wǎng)絡(luò)用戶參與主題的行為進(jìn)行分析的方法。
[0005]本發(fā)明的目的是這樣實現(xiàn)的:
[0006]I)定義主題相似性,關(guān)鍵詞相似性,并建立“用戶一主題一關(guān)鍵詞”三個層次的網(wǎng)絡(luò)模型;
[0007]2)設(shè)計具有最大區(qū)分度的“關(guān)鍵詞”選擇算法;
[0008]3)給出用戶行為分析的相關(guān)定義和計算公式,具體包括:用戶主動參與主題行為,被動參與主題行為,主題傳播力以及主題影響力,并對用戶參與主題的行為進(jìn)行分析。
[0009]定義主題相似性,關(guān)鍵詞相似性,并建立“用戶一主題一關(guān)鍵詞”三個層次的網(wǎng)絡(luò)模型的方法為:1)從社會網(wǎng)絡(luò)的日志文件中獲得每個用戶發(fā)布和接收的主題信息;2)如果兩個用戶之間進(jìn)行了通信,則產(chǎn)生一條從發(fā)送用戶到被發(fā)送用戶的有向邊;3)當(dāng)主題中包含一個關(guān)鍵詞時,則從主題到該關(guān)鍵詞產(chǎn)生一條無向邊;4)用戶發(fā)布一個主題,則從用戶到主題建立一條有向連邊,如果用戶接收一個主題,則從主題到用戶建立一條有向連邊;5)定義主題的相似性,如果兩個主題的相似性超過閾值則以這兩個主題為端點,建立一條無向邊;6)定義關(guān)鍵詞的相似性,如果兩個關(guān)鍵詞的相似性超過閾值則以這兩個關(guān)鍵詞為端點,建立一條無向邊。
[0010]設(shè)計具有最大區(qū)分度的“關(guān)鍵詞”選擇算法是:1)選擇“用戶一主題一關(guān)鍵詞”三層網(wǎng)絡(luò)中度最大的關(guān)鍵詞節(jié)點,并將其加入到所選關(guān)鍵詞集合中;3)在“用戶一主題一關(guān)鍵詞”三層網(wǎng)絡(luò)中刪除被選擇節(jié)點,以及與該節(jié)點相連接的其他主題節(jié)點;3)返回到步驟I)直到所選關(guān)鍵詞節(jié)點的度小于設(shè)定的閾值。
[0011]給出用戶行為分析的相關(guān)定義和計算公式,具體包括:用戶主動參與主題行為,被動參與主題行為,主題傳播力以及主題影響力,并對用戶參與主題的行為進(jìn)行分析的方法是:1)使用用戶發(fā)送這一類主題的概率表示用戶主動參與主題行為,計算方法為用戶發(fā)送這一類主題信息占其發(fā)送總信息的比例;2)使用用戶被發(fā)送這一類主題的概率表示用戶被動參與主題行為,計算方法為用戶被發(fā)送這一類主題的信息占其所接收信息的比例;3)主題的傳播力使用用戶所發(fā)送的該主題占所有用戶的發(fā)送該主題的比例來計算;4)主題的影響力使用用戶接收的該類主題占所有用戶的接收該類主題的比例來計算。
[0012]本發(fā)明的有益效果在于:
[0013]本發(fā)明用網(wǎng)絡(luò)模型完整的記錄了用戶在社會網(wǎng)絡(luò)中的行為,并設(shè)計了具有最大區(qū)分度的關(guān)鍵詞選擇算法,保證了用戶行為分析的效率。
【專利附圖】
【附圖說明】
[0014]圖1 “用戶一主題一關(guān)鍵詞”三層網(wǎng)絡(luò)示意圖;
[0015]圖2關(guān)鍵詞選取算法原理示意圖。
【具體實施方式】
[0016]下面結(jié)合附圖和實施例對本發(fā)明進(jìn)一步說明。本發(fā)明包括:
[0017]I)定義主題相似性,關(guān)鍵詞相似性,并建立“用戶一主題一關(guān)鍵詞”三個層次的網(wǎng)絡(luò)模型;
[0018]2)設(shè)計具有最大區(qū)分度的“關(guān)鍵詞”選擇算法;;
[0019]3)給出用戶行為分析的相關(guān)定義和計算公式,具體包括:用戶主動參與主題行為,被動參與主題行為,主題傳播力以及主題影響力,并對用戶參與主題的行為進(jìn)行分析。
[0020]所述的定義主題相似性,關(guān)鍵詞相似性,并建立“用戶一主題一關(guān)鍵詞”三個層次的網(wǎng)絡(luò)模型的方法為:1)從社會網(wǎng)絡(luò)的日志文件中獲得每個用戶發(fā)布和接收的主題信息;
2)如果兩個用戶之間進(jìn)行了通信,則產(chǎn)生一條從發(fā)送用戶到被發(fā)送用戶的有向邊。3)當(dāng)主題中包含一個關(guān)鍵詞時,則從主題到該關(guān)鍵詞產(chǎn)生一條無向邊;4)用戶發(fā)布一個主題,則從用戶到主題建立一條有向連邊,如果用戶接收一個主題,則從主題到用戶建立一條有向連邊。5)定義主題的相似性,如果兩個主題的相似性超過閾值則以這兩個主題為端點,建立一條無向邊;6)定義關(guān)鍵詞的相似性,如果兩個關(guān)鍵詞的相似性超過閾值則以這兩個關(guān)鍵詞為端點,建立一條無向邊。
[0021]所述的設(shè)計具有最大區(qū)分度的“關(guān)鍵詞”選擇算法是:1)選擇“用戶一主題一關(guān)鍵詞”三層網(wǎng)絡(luò)中度最大的關(guān)鍵詞節(jié)點,并將其加入到所選關(guān)鍵詞集合中;3)在“用戶一主題一關(guān)鍵詞”三層網(wǎng)絡(luò)中刪除被選擇節(jié)點,以及與該節(jié)點相連接的其他主題節(jié)點;3)返回到步驟I)直到所選關(guān)鍵詞節(jié)點的度小于設(shè)定的閾值。
[0022]所述的給出用戶行為分析的相關(guān)定義和計算公式,具體包括:用戶主動參與主題行為,被動參與主題行為,主題傳播力以及主題影響力,并對用戶參與主題的行為進(jìn)行分析的方法是:1)使用用戶發(fā)送這一類主題的概率表示用戶主動參與主題行為,計算方法為用戶發(fā)送這一類主題的信息占其發(fā)送總信息的比例;2)使用用戶被發(fā)送這一類主題的概率表示用戶被動參與主題行為,計算方法為用戶被發(fā)送這一類主題的信息占其所接受信息的比例;3)主題的傳播力使用用戶所發(fā)送的該主題占所有用戶的發(fā)送該主題的比例來計算;4)主題的影響力使用用戶接收的該類主題占所有用戶的接收該類主題的比例來計算。
[0023]針對以上情況,本發(fā)明從網(wǎng)絡(luò)分析的角度出發(fā),提出一種社會網(wǎng)絡(luò)用戶參與主題的行為分析技術(shù)。
[0024]本發(fā)明是基于如下問題而設(shè)計的:
[0025]社會網(wǎng)絡(luò)中用戶參與主題的行為分析是一個挑戰(zhàn)性的任務(wù),對用戶參與主題的行為模式分析為用戶推薦有效的信息 提供技術(shù)基礎(chǔ)。對主題的傳播力和影響力的分析可對當(dāng)前社會網(wǎng)絡(luò)中的討論熱點提供量化的評價,因此具有重要的理論和現(xiàn)實意義。
[0026]本發(fā)明的主要技術(shù)特征體現(xiàn)在:
[0027]I)建立“用戶一主題一關(guān)鍵詞”三個層次的網(wǎng)絡(luò)模型
[0028]具體技術(shù)路線是:1.用戶、主題和關(guān)鍵詞的相互關(guān)聯(lián)關(guān)系在它們之間建立邊;
2.通過“用戶一主題一關(guān)鍵詞”三個層次的網(wǎng)絡(luò)模型可以完整地保存用戶的所有信息,為后續(xù)的網(wǎng)絡(luò)分析提供了基礎(chǔ)。
[0029]2)設(shè)計具有最大區(qū)分度的“關(guān)鍵詞”選擇算法。
[0030]具體技術(shù)路線:1.使用貪婪策略,每步驟選取具有最大度的關(guān)鍵詞節(jié)點;2.刪除該節(jié)點以及與該節(jié)點相連接的所有主題節(jié)點;3.返回到步驟I。
[0031]列有公共交點。量化后的數(shù)據(jù)列形成新的數(shù)據(jù)序列,建立GM(1,N_1)模型,繼而得到灰色關(guān)聯(lián)矩陣。該模型為
【權(quán)利要求】
1.一種社會網(wǎng)絡(luò)用戶參與主題行為分析方法,其特征在于: 1)定義主題相似性,關(guān)鍵詞相似性,并建立“用戶一主題一關(guān)鍵詞”三個層次的網(wǎng)絡(luò)模型; 2)設(shè)計具有最大區(qū)分度的“關(guān)鍵詞”選擇算法; 3)給出用戶行為分析的相關(guān)定義和計算公式,具體包括:用戶主動參與主題行為,被動參與主題行為,主題傳播力以及主題影響力,并對用戶參與主題的行為進(jìn)行分析。
2.根據(jù)權(quán)利要求1所述的一種社會網(wǎng)絡(luò)用戶參與主題行為分析方法,其特征在于:所述定義主題相似性,關(guān)鍵詞相似性,并建立“用戶一主題一關(guān)鍵詞”三個層次的網(wǎng)絡(luò)模型的方法為:1)從社會網(wǎng)絡(luò)的日志文件中獲得每個用戶發(fā)布和接收的主題信息;2)如果兩個用戶之間進(jìn)行了通信,則產(chǎn)生一條從發(fā)送用戶到被發(fā)送用戶的有向邊;3)當(dāng)主題中包含一個關(guān)鍵詞時,則從主題到該關(guān)鍵詞產(chǎn)生一條無向邊;4)用戶發(fā)布一個主題,則從用戶到主題建立一條有向連邊,如果用戶接收一個主題,則從主題到用戶建立一條有向連邊;5)定義主題的相似性,如果兩個主題的相似性超過閾值則以這兩個主題為端點,建立一條無向邊;6)定義關(guān)鍵詞的相似性,如果兩個關(guān)鍵詞的相似性超過閾值則以這兩個關(guān)鍵詞為端點,建立一條無向邊。
3.根據(jù)權(quán)利要求2所述的一種社會網(wǎng)絡(luò)用戶參與主題行為分析方法,其特征在于:所述的設(shè)計具有最大區(qū)分度的“關(guān)鍵詞”選擇算法是:1)選擇“用戶一主題一關(guān)鍵詞”三層網(wǎng)絡(luò)中度最大的關(guān)鍵詞節(jié)點,并將其加入到所選關(guān)鍵詞集合中;3)在“用戶一主題一關(guān)鍵詞”三層網(wǎng)絡(luò)中刪除被選擇節(jié)點,以及與該節(jié)點相連接的其他主題節(jié)點;3)返回到步驟I)直到所選關(guān)鍵詞節(jié)點的度小于設(shè)定的閾值。
4.根據(jù)權(quán)利要求3所述的一種社會網(wǎng)絡(luò)用戶參與主題行為分析方法,其特征在于:所述給出用戶行為分析的相關(guān)定義和計算公式,具體包括:用戶主動參與主題行為,被動參與主題行為,主題傳播力以及主題影響力,并對用戶參與主題的行為進(jìn)行分析的方法是:I)使用用戶發(fā)送這一類主題的概率表示用戶主動參與主題行為,計算方法為用戶發(fā)送這一類主題信息占其發(fā)送總信息的比例;2)使用用戶被發(fā)送這一類主題的概率表示用戶被動參與主題行為,計算方法為用戶被發(fā)送這一類主題的信息占其所接收信息的比例;3)主題的傳播力使用用戶所發(fā)送的該主題占所有用戶的發(fā)送該主題的比例來計算;4)主題的影響力使用用戶接收的該類主題占所有用戶的接收該類主題的比例來計算。
【文檔編號】G06F17/30GK103838806SQ201310470139
【公開日】2014年6月4日 申請日期:2013年10月10日 優(yōu)先權(quán)日:2013年10月10日
【發(fā)明者】張樂君, 張永輝, 國林, 張健沛, 楊靜, 鄧鑫 申請人:哈爾濱工程大學(xué)