虛擬人建立方法及裝置制造方法
【專利摘要】本發(fā)明涉及一種基于行為日志的虛擬人建立方法及裝置。該虛擬人建立方法包括:從行為日志中提取賬號(hào)及與賬號(hào)對(duì)應(yīng)的登陸時(shí)間、登陸終端信息;根據(jù)賬號(hào)之間協(xié)同出現(xiàn)的情況計(jì)算賬號(hào)之間的相似度,構(gòu)造以節(jié)點(diǎn)表征賬號(hào)的連通圖,并以節(jié)點(diǎn)之間的邊的長(zhǎng)度表征賬號(hào)之間的相似度,節(jié)點(diǎn)之間的邊越短,節(jié)點(diǎn)所表征的賬號(hào)之間相似度越高;對(duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類,根據(jù)聚類結(jié)果建立虛擬人。本發(fā)明還涉及了一種虛擬人建立裝置。本發(fā)明的虛擬人建立方法及裝置基于行為日志建立虛擬人,復(fù)雜度低,準(zhǔn)確率高,適合于處理大數(shù)據(jù)。
【專利說(shuō)明】虛擬人建立方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)處理【技術(shù)領(lǐng)域】,尤其設(shè)及一種基于行為日志的虛擬人建立方法及 裝置。
【背景技術(shù)】
[0002] 當(dāng)前,即時(shí)通訊,電子郵件,網(wǎng)絡(luò)游戲,P2P軟件下載,網(wǎng)絡(luò)論壇,網(wǎng)絡(luò)招聘,電子商 務(wù)交易,網(wǎng)絡(luò)預(yù)定機(jī)票酒店等各種網(wǎng)絡(luò)服務(wù)給網(wǎng)絡(luò)用戶的生活帶來(lái)極大的便利。各種網(wǎng)絡(luò) 服務(wù)一般會(huì)給每個(gè)用戶分配一個(gè)帳號(hào),該帳號(hào)跟用戶的注冊(cè)信息相關(guān)聯(lián)并用W對(duì)各用戶進(jìn) 行記錄和識(shí)別,比如網(wǎng)絡(luò)用戶的即時(shí)通信號(hào)碼(如QQ賬號(hào))或電子郵件地址,網(wǎng)絡(luò)游戲帳 號(hào),論壇登陸帳號(hào),W及P2P軟件帳號(hào)等等。
[0003] 每個(gè)網(wǎng)絡(luò)用戶都擁有類型多樣的賬號(hào),而大量的網(wǎng)絡(luò)用戶則帶來(lái)的巨量的賬號(hào)數(shù) 據(jù),對(duì)相關(guān)部口來(lái)說(shuō),有效管理網(wǎng)絡(luò)用戶信息已經(jīng)成為艱巨的任務(wù)。為有效管理網(wǎng)絡(luò)用戶信 息,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)帳號(hào)歸屬關(guān)系的分析,即哪些帳號(hào)屬于同一個(gè)人(虛擬人),現(xiàn)已成為亟需 解決的問(wèn)題。
[0004] 現(xiàn)有技術(shù)在面對(duì)構(gòu)建虛擬人的問(wèn)題時(shí),大多歸于屬性匹配方式。屬性匹配的方案 大致如下:
[0005] A)指定網(wǎng)絡(luò)帳號(hào)屬性匹配的規(guī)則,在哪種情況下用哪些屬性進(jìn)行匹配,W及相應(yīng) 的匹配成功判定方法。比如,當(dāng)匹配一個(gè)QQ帳號(hào)和一個(gè)淘寶帳號(hào)時(shí),如果兩帳號(hào)的"姓名" 和"聯(lián)系方式"兩個(gè)字段的編輯距離(edit distance)均小于3,則認(rèn)為該兩個(gè)帳號(hào)匹配成 功。
[0006] B)根據(jù)屬性匹配的情況,構(gòu)建帳號(hào)之間屬于同一個(gè)人的程度(相似度)。并最終 根據(jù)相似度分辨出哪些帳號(hào)屬于同一個(gè)人。比如,上例中,只要匹配成功則認(rèn)為屬于同一個(gè) 人。
[0007] 但是,實(shí)際生活中存在如下情況:
[000引 1.賬號(hào)數(shù)據(jù)中經(jīng)常出現(xiàn)屬性缺失的情況,例如賬號(hào)注冊(cè)時(shí)只填寫了部分屬性值。
[0009] 2.不同類型的賬號(hào)數(shù)據(jù),共有的屬性少。而且共有的屬性中,不一定都能用于屬性 匹配。
[0010] 3.不同類型的賬號(hào)數(shù)據(jù),對(duì)同一語(yǔ)義的屬性不同,需要對(duì)齊,該進(jìn)一步增加了難 度。比如在A類帳號(hào)中,姓名對(duì)應(yīng)的字段就是"姓名"該一個(gè)字段,但在B類帳號(hào)中,姓名實(shí) 際上是用"姓"和"名"兩個(gè)字段來(lái)表示。
[0011] 4.實(shí)際賬號(hào)數(shù)據(jù)中,屬性值的可信度并不是很高。例如,因?yàn)槿狈?shí)名認(rèn)證,可能 存在身份證號(hào)不真實(shí)的情況。
[001引 5.需要進(jìn)行屬性級(jí)別的比較,復(fù)雜度較高。
[0013] 該些情況使得屬性匹配的過(guò)程復(fù)雜、計(jì)算量大且實(shí)際結(jié)果不理想,尤其是針對(duì)大 量數(shù)據(jù)處理時(shí),準(zhǔn)確度較低。
【發(fā)明內(nèi)容】
[0014] 因此,本發(fā)明的目的在于提供一種基于行為日志的虛擬人建立方法,解決因帳號(hào) 類型多樣等帶來(lái)的虛擬人構(gòu)建復(fù)雜、準(zhǔn)確度低的問(wèn)題。
[0015] 本發(fā)明的另一目的在于提供一種基于行為日志的虛擬人建立裝置,解決因帳號(hào)類 型多樣等帶來(lái)的虛擬人構(gòu)建復(fù)雜、準(zhǔn)確度低的問(wèn)題。
[0016] 為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種虛擬人建立方法,包括如下步驟:
[0017] 從行為日志中提取賬號(hào)及與賬號(hào)對(duì)應(yīng)的登陸時(shí)間、登陸終端信息;
[001引根據(jù)賬號(hào)之間協(xié)同出現(xiàn)的情況計(jì)算賬號(hào)之間的相似度,構(gòu)造W節(jié)點(diǎn)表征賬號(hào)的連 通圖,并W節(jié)點(diǎn)之間的邊的長(zhǎng)度表征賬號(hào)之間的相似度,節(jié)點(diǎn)之間的邊越短,節(jié)點(diǎn)所表征的 賬號(hào)之間相似度越高;
[0019] 對(duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類,根據(jù)聚類結(jié)果建立虛擬人。
[0020] 其中,還引入賬號(hào)之間協(xié)同出現(xiàn)的情況W外的因素計(jì)算所述賬號(hào)之間的相似度。
[0021] 其中,對(duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類的過(guò)程包括如下步驟:
[0022] 分別求出每個(gè)節(jié)點(diǎn)的本地密度化0,化0定義為連接本節(jié)點(diǎn)的長(zhǎng)度低于某個(gè)預(yù)定 義值化的鄰邊的數(shù)目;
[0023] 分別求出每個(gè)節(jié)點(diǎn)的離散度Delta, Delta定義為本節(jié)點(diǎn)所有連接更高化0值鄰居 節(jié)點(diǎn)的鄰邊中最短邊的邊長(zhǎng);若不存在該樣的鄰居節(jié)點(diǎn),則取本節(jié)點(diǎn)最長(zhǎng)鄰邊的邊長(zhǎng)。
[0024] 將化0值和Delta值分別高于預(yù)設(shè)闊值R_T和D_T的節(jié)點(diǎn)標(biāo)識(shí)為類的中屯、節(jié)點(diǎn);
[0025] 將非中屯、節(jié)點(diǎn)歸類為到該非中屯、節(jié)點(diǎn)距離最短且化0值高于該非中屯、節(jié)點(diǎn)的中 屯、節(jié)點(diǎn)所屬的類;
[0026] 相同類的各個(gè)節(jié)點(diǎn)一同構(gòu)成一個(gè)虛擬人,也就是屬于同一個(gè)虛擬人。
[0027] 其中,采用K-Means方法或?qū)哟尉垲惙椒▽?duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類。
[002引其中,還包括合并所有虛擬人及與虛擬人對(duì)應(yīng)的賬號(hào)成為虛擬人數(shù)據(jù)庫(kù)。
[0029] 本發(fā)明還提供了一種虛擬人建立裝置,包括:
[0030] 信息提取單元,用于從行為日志中提取賬號(hào)及與賬號(hào)對(duì)應(yīng)的登陸時(shí)間、登陸終端 f目息;
[0031] 連通圖構(gòu)造單元,用于根據(jù)賬號(hào)之間協(xié)同出現(xiàn)的情況計(jì)算賬號(hào)之間的相似度,構(gòu) 造W節(jié)點(diǎn)表征賬號(hào)的連通圖,并W節(jié)點(diǎn)之間的邊的長(zhǎng)度表征賬號(hào)之間的相似度,節(jié)點(diǎn)之間 的邊越短,節(jié)點(diǎn)所表征的賬號(hào)之間相似度越高;
[0032] 虛擬人建立單元,用于對(duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類,根據(jù)聚類結(jié)果建立虛擬 人。
[0033] 其中,還包括外部模型引入單元,用于引入賬號(hào)之間協(xié)同出現(xiàn)的情況W外的因素 計(jì)算所述賬號(hào)之間的相似度。
[0034] 其中,對(duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類的過(guò)程包括如下步驟:
[0035] 分別求出每個(gè)節(jié)點(diǎn)的本地密度化0,化0定義為連接本節(jié)點(diǎn)的長(zhǎng)度低于某個(gè)預(yù)定 義值化的鄰邊的數(shù)目;
[0036] 分別求出每個(gè)節(jié)點(diǎn)的離散度Delta, Delta定義為本節(jié)點(diǎn)所有連接更高化0值鄰居 節(jié)點(diǎn)的鄰邊中最短邊的邊長(zhǎng);若不存在該樣的鄰居節(jié)點(diǎn),則取本節(jié)點(diǎn)最長(zhǎng)鄰邊的邊長(zhǎng)。
[0037] 將化0值和Delta值分別高于預(yù)設(shè)闊值R_T和D_T的節(jié)點(diǎn)標(biāo)識(shí)為類的中屯、節(jié)點(diǎn);
[003引將非中屯、節(jié)點(diǎn)歸類為到該非中屯、節(jié)點(diǎn)距離最短且化o值高于該非中屯、節(jié)點(diǎn)的中 屯、節(jié)點(diǎn)所屬的類;
[0039] 相同類的各個(gè)節(jié)點(diǎn)一同構(gòu)成一個(gè)虛擬人。
[0040] 其中,采用K-Means方法或?qū)哟尉垲惙椒▽?duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類。
[0041] 其中,還包括虛擬人合并單元,用于合并所有虛擬人及與虛擬人對(duì)應(yīng)的賬號(hào)成為 虛擬人數(shù)據(jù)庫(kù)。
[0042] 綜上所述,本發(fā)明的虛擬人建立方法及裝置基于行為日志建立虛擬人,復(fù)雜度低, 準(zhǔn)確率高,適合于處理大數(shù)據(jù)。
【專利附圖】
【附圖說(shuō)明】
[0043] 附圖中,
[0044] 圖1為本發(fā)明虛擬人建立方法一較佳實(shí)施例的流程圖;
[0045] 圖2為本發(fā)明虛擬人建立方法一較佳實(shí)施例的邏輯示意圖;
[0046] 圖3為本發(fā)明虛擬人建立方法一較佳實(shí)施例中的化0值-Delta值分布示意圖;
[0047] 圖4為本發(fā)明虛擬人建立裝置一較佳實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0048] 下面結(jié)合附圖,通過(guò)對(duì)本發(fā)明的【具體實(shí)施方式】詳細(xì)描述,將使本發(fā)明的技術(shù)方案 及其有益效果顯而易見(jiàn)。
[0049] 參見(jiàn)圖1,其為本發(fā)明虛擬人建立方法一較佳實(shí)施例的流程圖。本發(fā)明的主要步驟 包括:
[0化0] 從行為日志中提取賬號(hào)及與賬號(hào)對(duì)應(yīng)的登陸時(shí)間、登陸終端信息;
[0化1] 根據(jù)賬號(hào)之間協(xié)同出現(xiàn)的情況計(jì)算賬號(hào)之間的相似度,構(gòu)造W節(jié)點(diǎn)表征賬號(hào)的連 通圖,并W節(jié)點(diǎn)之間的邊的長(zhǎng)度表征賬號(hào)之間的相似度,節(jié)點(diǎn)之間的邊越短,節(jié)點(diǎn)所表征的 賬號(hào)之間相似度越高;
[0052] 對(duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類,根據(jù)聚類結(jié)果建立虛擬人。
[0化3] 本發(fā)明還可W包括合并所有虛擬人及與虛擬人對(duì)應(yīng)的賬號(hào)成為虛擬人數(shù)據(jù)庫(kù)的 步驟。
[0化4] 為應(yīng)對(duì)因帳號(hào)類型多樣等帶來(lái)的虛擬人構(gòu)建復(fù)雜、準(zhǔn)確度低等實(shí)際問(wèn)題,本發(fā)明 提出了一種基于行為日志的分析方法。行為日志記錄了網(wǎng)絡(luò)用戶應(yīng)用網(wǎng)絡(luò)服務(wù)的情況,可 采集自服務(wù)器端,用戶終端等。該方法基于如下對(duì)現(xiàn)實(shí)情況的觀察:
[0055] 1. 一段時(shí)間內(nèi),在同一臺(tái)終端上有活動(dòng)的帳號(hào)可能屬于同一個(gè)人。我們稱在某一 段時(shí)間內(nèi)多個(gè)帳號(hào)在同一終端上都有過(guò)活動(dòng),為該些帳號(hào)的協(xié)同出現(xiàn)。
[0化6] 2.多個(gè)帳號(hào)協(xié)同出現(xiàn)的情況越近似一比如次數(shù)越多,那該些帳號(hào)屬于同一個(gè)人可 能性(稱,相似度)就越大。
[0057] 3.單個(gè)用戶擁有的多個(gè)帳號(hào)中,總是有部分帳號(hào)使用更為頻繁。
[0化引 4.不同用戶的部分帳號(hào)之間,即便偶爾有協(xié)同出現(xiàn)過(guò),其協(xié)同出現(xiàn)的情況不會(huì)比 用戶自己的各個(gè)帳號(hào)之間協(xié)同出現(xiàn)的情況更近似。
[0化9] 參見(jiàn)圖2,其為本發(fā)明虛擬人建立方法一較佳實(shí)施例的邏輯示意圖。
[0060] 該較佳實(shí)施例中的關(guān)鍵性步驟包括:
[0061] 步驟1.將行為日志中的記錄抽象為【時(shí)間,終端,帳號(hào)】,從而得到包含時(shí)間戳,賬 號(hào)ID及終端ID的數(shù)據(jù),從而得知什么時(shí)候在哪個(gè)終端上哪個(gè)帳號(hào)有活動(dòng)過(guò),通過(guò)對(duì)每一個(gè) 賬號(hào)統(tǒng)計(jì)該賬號(hào)一段時(shí)間內(nèi)與其他帳號(hào)在同一終端上都有過(guò)活動(dòng)的協(xié)同出現(xiàn)次數(shù),可W得 出賬號(hào)之間協(xié)同出現(xiàn)的次數(shù)。
[0062] "次數(shù)"是衡量"情況"的一種方式,此實(shí)施例中采用"次數(shù)"的說(shuō)法僅是為了簡(jiǎn)化 說(shuō)明。實(shí)際上,還可W加入時(shí)段等信息作為權(quán)值來(lái)一起衡量"情況"一比如,下班時(shí)間的協(xié) 同出現(xiàn)的權(quán)重可稍重于上班時(shí)間一上班時(shí)間更可能會(huì)共用電腦終端。
[0063] 步驟2.基于上述賬號(hào)協(xié)同出現(xiàn)情況的觀察,計(jì)算得出帳號(hào)之間的相似度。若抽象 成連通圖,則連通圖中的節(jié)點(diǎn)代表帳號(hào),邊的長(zhǎng)度表征帳號(hào)之間的相似度。通常情況下,相 似度越高,邊越短。
[0064] 步驟3.如有其他模型,比如屬性匹配,可將對(duì)應(yīng)模型的匹配結(jié)果同樣作為影響邊 長(zhǎng)度的一個(gè)因素。
[0065] 步驟4.得到上述圖后,可W進(jìn)行如下計(jì)算,得出哪些帳號(hào)屬于同一個(gè)人:
[0066] 步驟4. 1對(duì)各個(gè)節(jié)點(diǎn),求出其本地密度化0。化0的定義為本節(jié)點(diǎn)長(zhǎng)度低于某個(gè)預(yù) 定義值化的邊的數(shù)目。
[0067] 步驟4. 2對(duì)每個(gè)節(jié)點(diǎn),求出其離散度Delta"Delta定義為本節(jié)點(diǎn)所有連接更高化0 值鄰居節(jié)點(diǎn)的鄰邊中最短邊的邊長(zhǎng);若不存在該樣的鄰居節(jié)點(diǎn),則取本節(jié)點(diǎn)最長(zhǎng)鄰邊的邊 長(zhǎng)。
[0068] 步驟4. 3將化0值和Delta值分別高于特定闊值R_T和D_T的節(jié)點(diǎn),標(biāo)識(shí)為類的 中屯、節(jié)點(diǎn)。每一個(gè)該樣的節(jié)點(diǎn)代表一個(gè)類,也就是一個(gè)虛擬人。
[0069] 步驟4. 4將其他非中屯、節(jié)點(diǎn)歸類為到其距離最短且化0值高于自己的中屯、節(jié)點(diǎn)的 那一類。
[0070] 步驟4. 5相同類的各個(gè)節(jié)點(diǎn)即表示屬于同一個(gè)虛擬人。對(duì)應(yīng)各個(gè)類分別建立相應(yīng) 的虛擬人
[007U 對(duì)關(guān)鍵性步驟4中所示聚類方法,也可采用如K-Means、層次聚類化ierarchical clustering)之類的其他常用聚類方法,它們也能達(dá)到類似的結(jié)果,只是在復(fù)雜度或效果上 不同。結(jié)合該較佳實(shí)施例中的聚類算法來(lái)對(duì)行為日志進(jìn)行分析,與其他K-Means、層次聚類 等聚類方式相比較而言,降低了整個(gè)系統(tǒng)的分析復(fù)雜度。同時(shí),籍由Delta和化0值該兩個(gè) 源自數(shù)據(jù)本身的分布特征量,提供了對(duì)聚類數(shù)目選定的一種客觀參考方式。
[0072] 關(guān)鍵步驟4. 3中,所示類中屯、點(diǎn)標(biāo)識(shí)方法為節(jié)點(diǎn)的化0值和Delta值同時(shí)高于某 個(gè)相應(yīng)闊值。實(shí)際中可采取其他基于化0值或Delta值的方法。如化0值高于3,則delta 值在4-5之間,化0值高于5,則Delta值在5-6之間。
[0073] 下面對(duì)本發(fā)明虛擬人建立方法中各種值的含義結(jié)合簡(jiǎn)單示例具體說(shuō)明如下。
[0074] 邊長(zhǎng)表征;節(jié)點(diǎn)之間屬于同一個(gè)人的可能性(相似度)的衡量。
[0075] 化0表征:當(dāng)前節(jié)點(diǎn)對(duì)其鄰接點(diǎn)的重要性。
[0076] Delta表征;若W當(dāng)前節(jié)點(diǎn)為類中屯、,其相對(duì)其他類中屯、的可區(qū)別性。
[0077] 舉例來(lái)說(shuō);
[007引邊長(zhǎng)可定義為:兩個(gè)帳號(hào)在行為日志里,協(xié)同出現(xiàn)的次數(shù)(Cg,b)的倒數(shù)l/(Cg,b)。 即兩個(gè)帳號(hào)在同一個(gè)終端上一定時(shí)間內(nèi)先后活動(dòng)過(guò)的次數(shù)的倒數(shù)。
[0079] 化0可定義為;當(dāng)前節(jié)點(diǎn)的鄰邊中,長(zhǎng)度小于參數(shù)值化的邊的數(shù)量。
[0080] Delta定義為本節(jié)點(diǎn)所有連接更高化〇值鄰居節(jié)點(diǎn)的鄰邊中最短邊的邊長(zhǎng);若不 存在該樣的鄰居節(jié)點(diǎn),則取本節(jié)點(diǎn)最長(zhǎng)鄰邊的邊長(zhǎng)。
[0081] 在上述定義示例下對(duì)應(yīng)的公式表達(dá)為:
[008引令c(a,b)為從行為日志中統(tǒng)計(jì)到的帳號(hào)a和b的協(xié)同出現(xiàn)次數(shù),則有:
[008引 1. a, b之間的邊長(zhǎng):
[0084] d (a, b) = 1/c (a, b)[等式 1]。
[0085] 2.則對(duì)a的所有N個(gè)鄰居節(jié)點(diǎn)bn,n = l'''N(N為自然數(shù)),a的
[0086] 化o 值:
[0087]
【權(quán)利要求】
1. 一種虛擬人建立方法,其特征在于,包括如下步驟: 從行為日志中提取賬號(hào)及與賬號(hào)對(duì)應(yīng)的登陸時(shí)間、登陸終端信息; 根據(jù)賬號(hào)之間協(xié)同出現(xiàn)的情況計(jì)算賬號(hào)之間的相似度,構(gòu)造以節(jié)點(diǎn)表征賬號(hào)的連通 圖,并以節(jié)點(diǎn)之間的邊的長(zhǎng)度表征賬號(hào)之間的相似度,節(jié)點(diǎn)之間的邊越短,節(jié)點(diǎn)所表征的賬 號(hào)之間相似度越高; 對(duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類,根據(jù)聚類結(jié)果建立虛擬人。
2. 如權(quán)利要求1所述的虛擬人建立方法,其特征在于,還可引入賬號(hào)之間協(xié)同出現(xiàn)的 情況以外的因素計(jì)算所述賬號(hào)之間的相似度。
3. 如權(quán)利要求1所述的虛擬人建立方法,其特征在于,對(duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚 類的過(guò)程包括如下步驟: 分別求出每個(gè)節(jié)點(diǎn)的本地密度Rho, Rho定義為連接本節(jié)點(diǎn)的長(zhǎng)度低于預(yù)定義值Dc的 鄰邊的數(shù)目; 分別求出每個(gè)節(jié)點(diǎn)的離散度Delta,Delta定義為本節(jié)點(diǎn)所有連接更高Rho值鄰居節(jié)點(diǎn) 的鄰邊中最短邊的邊長(zhǎng);若不存在這樣的鄰居節(jié)點(diǎn),則取本節(jié)點(diǎn)最長(zhǎng)鄰邊的邊長(zhǎng); 將Rho值和Delta值分別高于預(yù)設(shè)閾值R_T和D_T的節(jié)點(diǎn)標(biāo)識(shí)為類的中心節(jié)點(diǎn); 將非中心節(jié)點(diǎn)歸類為到該非中心節(jié)點(diǎn)距離最短且Rho值高于該非中心節(jié)點(diǎn)的中心節(jié) 點(diǎn)所屬的類; 相同類的各個(gè)節(jié)點(diǎn)一同構(gòu)成一個(gè)虛擬人。
4. 如權(quán)利要求1所述的虛擬人建立方法,其特征在于,采用K-Means方法或?qū)哟尉垲惙?法對(duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類。
5. 如權(quán)利要求1所述的虛擬人建立方法,其特征在于,還包括合并所有虛擬人及與虛 擬人對(duì)應(yīng)的賬號(hào)成為虛擬人數(shù)據(jù)庫(kù)。
6. -種虛擬人建立裝置,其特征在于,包括: 信息提取單元,用于從行為日志中提取賬號(hào)及與賬號(hào)對(duì)應(yīng)的登陸時(shí)間、登陸終端信 息; 連通圖構(gòu)造單元,用于根據(jù)賬號(hào)之間協(xié)同出現(xiàn)的情況計(jì)算賬號(hào)之間的相似度,構(gòu)造以 節(jié)點(diǎn)表征賬號(hào)的連通圖,并以節(jié)點(diǎn)之間的邊的長(zhǎng)度表征賬號(hào)之間的相似度,節(jié)點(diǎn)之間的邊 越短,節(jié)點(diǎn)所表征的賬號(hào)之間相似度越高; 虛擬人建立單元,用于對(duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類,根據(jù)聚類結(jié)果建立虛擬人。
7. 如權(quán)利要求6所述的虛擬人建立裝置,其特征在于,還包括外部模型引入單元,用于 弓丨入賬號(hào)之間協(xié)同出現(xiàn)的情況以外的因素計(jì)算所述賬號(hào)之間的相似度。
8. 如權(quán)利要求6所述的虛擬人建立裝置,其特征在于,對(duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚 類的過(guò)程包括如下步驟: 分別求出每個(gè)節(jié)點(diǎn)的本地密度Rho, Rho定義為連接本節(jié)點(diǎn)的長(zhǎng)度低于預(yù)定義值Dc的 鄰邊的數(shù)目; 分別求出每個(gè)節(jié)點(diǎn)的離散度Delta,Delta定義為本節(jié)點(diǎn)所有連接更高Rho值鄰居節(jié)點(diǎn) 的鄰邊中最短邊的邊長(zhǎng);若不存在這樣的鄰居節(jié)點(diǎn),則取本節(jié)點(diǎn)最長(zhǎng)鄰邊的邊長(zhǎng); 將Rho值和Delta值分別高于預(yù)設(shè)閾值R_T和D_T的節(jié)點(diǎn)標(biāo)識(shí)為類的中心節(jié)點(diǎn); 將非中心節(jié)點(diǎn)歸類為到該非中心節(jié)點(diǎn)距離最短且Rho值高于該非中心節(jié)點(diǎn)的中心節(jié) 點(diǎn)所屬的類; 相同類的各個(gè)節(jié)點(diǎn)一同構(gòu)成一個(gè)虛擬人。
9. 如權(quán)利要求6所述的虛擬人建立裝置,其特征在于,采用K-Means方法或?qū)哟尉垲惙?法對(duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類。
10. 如權(quán)利要求6所述的虛擬人建立裝置,其特征在于,還包括虛擬人合并單元,用于 合并所有虛擬人及與虛擬人對(duì)應(yīng)的賬號(hào)成為虛擬人數(shù)據(jù)庫(kù)。
【文檔編號(hào)】G06F19/00GK104504264SQ201410814330
【公開日】2015年4月8日 申請(qǐng)日期:2014年12月23日 優(yōu)先權(quán)日:2014年12月8日
【發(fā)明者】蔡立宇, 賈西貝 申請(qǐng)人:深圳市華傲數(shù)據(jù)技術(shù)有限公司