本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,特別是一種相似用戶識(shí)別方法和裝置。
背景技術(shù):
用戶相似度分析是用戶行為分析處理的一個(gè)較為熱門的方面,目前業(yè)內(nèi)用戶相似度識(shí)別技術(shù)復(fù)雜多樣,包括通過手機(jī)imei(internationalmobileequipmentidentity,國際移動(dòng)設(shè)備標(biāo)識(shí))對(duì)比分析識(shí)別,以及基于用戶呼叫行為頻率相關(guān)指標(biāo)實(shí)現(xiàn)交往圈余弦相似度計(jì)算。
但是,基于手機(jī)imei對(duì)比分析識(shí)別的適用面小、準(zhǔn)確率低;而基于呼叫行為頻率的交往圈余弦相似度計(jì)算僅根據(jù)用戶通話詳單數(shù)據(jù)就通話頻次進(jìn)行計(jì)算,準(zhǔn)確度低,不能起到有效的識(shí)別作用,且余弦相似度計(jì)算復(fù)雜度高、效率低,不利于拓展應(yīng)用。一種高適用度、高準(zhǔn)確度和高效率的用戶相似度分析方法是發(fā)展用戶行為分析的迫切需求。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的一個(gè)目的在于提高用戶相似度分析的效率、準(zhǔn)確度和通用性。
根據(jù)本發(fā)明的一個(gè)方面,提出一種相似用戶識(shí)別方法,包括:提取用戶通信行為發(fā)生的位置和時(shí)間;根據(jù)用戶在預(yù)定時(shí)間段內(nèi)通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的基站常用指數(shù);根據(jù)用戶相對(duì)于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量;根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度 指數(shù)。
可選地,用戶通信行為包括通話和/或連接數(shù)據(jù)網(wǎng)絡(luò);用戶通信行為發(fā)生的位置為用戶發(fā)生通信行為時(shí)交互的基站。
可選地,根據(jù)用戶在預(yù)定時(shí)間段內(nèi)通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的基站常用指數(shù)包括:在預(yù)定時(shí)間段內(nèi),獲取預(yù)定周期基站常用指數(shù),其中,預(yù)定周期基站常用指數(shù)為用戶與基站發(fā)生過交互的預(yù)定周期的個(gè)數(shù)與預(yù)定時(shí)間段內(nèi)預(yù)定周期的個(gè)數(shù)的比值;預(yù)定周期包括一個(gè)月、十日、七日、三日和/或一日;根據(jù)預(yù)定周期基站常用指數(shù)確定基站常用指數(shù)。
可選地,獲取預(yù)定周期基站常用指數(shù)包括:根據(jù)公式
確定預(yù)定周期基站常用指數(shù),其中,i為預(yù)定周期基站常用指數(shù),n為預(yù)定時(shí)間段內(nèi)預(yù)定周期的個(gè)數(shù),i為預(yù)定時(shí)間段內(nèi)的預(yù)定周期標(biāo)號(hào),ti為第i個(gè)預(yù)定周期內(nèi)用戶是否與基站發(fā)生過交互的標(biāo)識(shí):若在第i個(gè)預(yù)定周期內(nèi)用戶與基站發(fā)生過交互,則ti為1;若在第i個(gè)預(yù)定周期內(nèi)用戶與基站未發(fā)生過交互,則ti為0。
可選地,根據(jù)預(yù)定周期基站常用指數(shù)確定基站常用指數(shù)包括:根據(jù)公式
ci=35my+30ty+16wy+12thy+8dy
確定基站常用指數(shù),其中,ci為用戶在預(yù)定時(shí)間段內(nèi)的基站常用指數(shù),my為預(yù)定周期為一個(gè)月的預(yù)定周期基站常用指數(shù);ty為預(yù)定周期為十日的預(yù)定周期基站常用指數(shù);wy為預(yù)定周期為七日的預(yù)定周期基站常用指數(shù);thy為預(yù)定周期為三日的預(yù)定周期基站常用指數(shù);dy為預(yù)定周期為一日的預(yù)定周期基站常用指數(shù)。
可選地,根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù)包括:根據(jù)公式
s=(pm∩pn)/y
確定用戶相似度指數(shù),其中,m、n為用戶標(biāo)識(shí),s為用戶n與用戶m的相似度指數(shù),pm為用戶m的常用基站特征向量,pn為用戶 n的常用基站特征向量,pm∩pn為pm與pn中相同的基站數(shù)量,y為用戶常用基站特征向量中基站的數(shù)量。
可選地,提取用戶通信行為發(fā)生的位置和時(shí)間包括:提取用戶工作日的通信行為發(fā)生的位置和時(shí)間;根據(jù)用戶在預(yù)定時(shí)間段內(nèi)通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的基站常用指數(shù)包括:根據(jù)用戶在預(yù)定時(shí)間段中工作日的通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的工作日基站常用指數(shù);根據(jù)用戶相對(duì)于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量包括:根據(jù)用戶相對(duì)于不同基站的工作日基站常用指數(shù)的大小提取預(yù)定數(shù)量基站,生成用戶工作日常用基站特征向量;根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù)包括:根據(jù)不同用戶的用戶工作日常用基站特征向量確定用戶相似度指數(shù)。
可選地,提取用戶通信行為發(fā)生的位置和時(shí)間包括:提取用戶節(jié)假日的通信行為發(fā)生的位置和時(shí)間;根據(jù)用戶在預(yù)定時(shí)間段內(nèi)通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的基站常用指數(shù)包括:根據(jù)用戶在預(yù)定時(shí)間段中節(jié)假日的通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的節(jié)假日基站常用指數(shù);根據(jù)用戶相對(duì)于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量包括:根據(jù)用戶相對(duì)于不同基站的節(jié)假日基站常用指數(shù)的大小提取預(yù)定數(shù)量基站,生成用戶節(jié)假日常用基站特征向量;根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù)包括:根據(jù)不同用戶的用戶節(jié)假日常用基站特征向量確定用戶相似度指數(shù)。
可選地,根據(jù)用戶在預(yù)定時(shí)間段內(nèi)通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的基站常用指數(shù)包括:根據(jù)用戶在預(yù)定時(shí)間段中工作日的通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的工作日基站常用指數(shù);根據(jù)用戶在預(yù)定時(shí)間段中節(jié)假日的通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的節(jié)假日基站常用指數(shù);根據(jù)用戶相對(duì)于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量包括:根據(jù)用戶相對(duì)于不同基站的工作日基站常用指數(shù)的大小提取 預(yù)定數(shù)量基站,生成用戶工作日常用基站特征向量;根據(jù)用戶相對(duì)于不同基站的節(jié)假日基站常用指數(shù)的大小提取預(yù)定數(shù)量基站,生成用戶節(jié)假日常用基站特征向量;根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù)包括:根據(jù)不同用戶的用戶工作日常用基站特征向量確定用戶工作日相似度指數(shù);根據(jù)不同用戶的用戶節(jié)假日常用基站特征向量確定用戶節(jié)假日相似度指數(shù);基于用戶工作日相似度指數(shù)和用戶節(jié)假日相似度指數(shù)確定用戶綜合相似度指數(shù)。
可選地,還包括:將相似度指數(shù)與預(yù)定閾值相比較;若相似度指數(shù)不小于預(yù)定閾值,則確定用戶為相似用戶;若相似度指數(shù)小于預(yù)定閾值,則確定用戶為非相似用戶。
通過這樣的方法,能夠基于通信行為發(fā)生的位置和時(shí)間獲取用戶常用基站特征向量,再根據(jù)用戶常用基站特征向量計(jì)算用戶相似度指數(shù),具有很好的通用性;由于考慮到了地域和時(shí)間兩個(gè)維度,能夠有效的提高相似度計(jì)算的準(zhǔn)確度;采用特征向量計(jì)算的方式確定相似度指數(shù)復(fù)雜度較低,提高了運(yùn)算效率,降低了對(duì)運(yùn)算設(shè)備的性能要求。
根據(jù)本發(fā)明的另一個(gè)方面,提出一種相似用戶識(shí)別裝置,包括:數(shù)據(jù)提取模塊,用于提取用戶通信行為發(fā)生的位置和時(shí)間;常用指數(shù)獲取模塊,用于根據(jù)用戶在預(yù)定時(shí)間段內(nèi)通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的基站常用指數(shù);特征向量獲取模塊,用于根據(jù)用戶相對(duì)于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量;相似度指數(shù)確定模塊,用于根據(jù)不同用戶的用戶常用基站特征向量獲取用戶相似度指數(shù)。
可選地,用戶通信行為包括通話和/或連接數(shù)據(jù)網(wǎng)絡(luò);用戶通信行為發(fā)生的位置為用戶發(fā)生通信行為時(shí)交互的基站。
可選地,常用指數(shù)獲取模塊包括:周期指數(shù)確定單元,用于在預(yù)定時(shí)間段內(nèi),獲取預(yù)定周期基站常用指數(shù),其中,預(yù)定周期基站常用指數(shù)為用戶與基站發(fā)生過交互的預(yù)定周期的個(gè)數(shù)與預(yù)定時(shí)間段內(nèi)預(yù)定周期的個(gè)數(shù)的比值;預(yù)定周期包括一個(gè)月、十日、七日、三日和/或一日;常用指數(shù)確定單元,用于根據(jù)預(yù)定周期基站常用指數(shù)確定基站常 用指數(shù)。
可選地,周期指數(shù)確定單元用于:根據(jù)公式
確定預(yù)定周期基站常用指數(shù),其中,i為預(yù)定周期基站常用指數(shù),n為預(yù)定時(shí)間段內(nèi)預(yù)定周期的個(gè)數(shù),i為預(yù)定時(shí)間段內(nèi)的預(yù)定周期標(biāo)號(hào),ti為第i個(gè)預(yù)定周期內(nèi)用戶是否與基站發(fā)生過交互的標(biāo)識(shí):若在第i個(gè)預(yù)定周期內(nèi)用戶與基站發(fā)生過交互,則ti為1;若在第i個(gè)預(yù)定周期內(nèi)用戶與基站未發(fā)生過交互,則ti為0。
可選地,常用指數(shù)確定單元用于:根據(jù)公式
ci=35my+30ty+16wy+12thy+8dy
確定基站常用指數(shù),其中,ci為用戶在預(yù)定時(shí)間段內(nèi)的基站常用指數(shù),my為預(yù)定周期為一個(gè)月的預(yù)定周期基站常用指數(shù);ty為預(yù)定周期為十日的預(yù)定周期基站常用指數(shù);wy為預(yù)定周期為七日的預(yù)定周期基站常用指數(shù);thy為預(yù)定周期為三日的預(yù)定周期基站常用指數(shù);dy為預(yù)定周期為一日的預(yù)定周期基站常用指數(shù)。
可選地,相似度指數(shù)獲取模塊用于:根據(jù)公式
s=(pm∩pn)/y
確定用戶相似度指數(shù),其中,m、n為用戶標(biāo)識(shí),s為用戶n與用戶m的相似度指數(shù),pm為用戶m的常用基站特征向量,pn為用戶n的常用基站特征向量,pm∩pn為pm與pn中相同的基站數(shù)量,y為用戶常用基站特征向量中基站的數(shù)量。
可選地,數(shù)據(jù)提取模塊用于提取用戶工作日的通信行為發(fā)生的位置和時(shí)間;常用指數(shù)獲取模塊用于根據(jù)用戶在預(yù)定時(shí)間段中工作日的通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的工作日基站常用指數(shù);特征向量獲取模塊用于根據(jù)用戶相對(duì)于不同基站的工作日基站常用指數(shù)的大小提取預(yù)定數(shù)量基站,生成用戶工作日常用基站特征向量;相似度指數(shù)確定模塊用于根據(jù)不同用戶的用戶工作日常用基站特征向量確定用戶相似度指數(shù)。
可選地,數(shù)據(jù)提取模塊用于提取用戶節(jié)假日的通信行為發(fā)生的位 置和時(shí)間;常用指數(shù)獲取模塊用于根據(jù)用戶在預(yù)定時(shí)間段中節(jié)假日的通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的節(jié)假日基站常用指數(shù);特征向量獲取模塊用于根據(jù)用戶相對(duì)于不同基站的節(jié)假日基站常用指數(shù)的大小提取預(yù)定數(shù)量基站,生成用戶節(jié)假日常用基站特征向量;相似度指數(shù)確定模塊用于根據(jù)不同用戶的用戶節(jié)假日常用基站特征向量確定用戶相似度指數(shù)。
可選地,常用指數(shù)獲取模塊用于根據(jù)用戶在預(yù)定時(shí)間段中工作日的通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的工作日基站常用指數(shù),以及根據(jù)用戶在預(yù)定時(shí)間段中節(jié)假日的通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的節(jié)假日基站常用指數(shù);特征向量獲取模塊用于根據(jù)用戶相對(duì)于不同基站的工作日基站常用指數(shù)的大小提取預(yù)定數(shù)量基站,生成用戶工作日常用基站特征向量,以及根據(jù)用戶相對(duì)于不同基站的節(jié)假日基站常用指數(shù)的大小提取預(yù)定數(shù)量基站,生成用戶節(jié)假日常用基站特征向量;相似度指數(shù)確定模塊包括:工作日相似度確定單元,用于根據(jù)不同用戶的用戶工作日常用基站特征向量確定用戶相似度指數(shù);節(jié)假日相似度確定單元,用于根據(jù)不同用戶的用戶節(jié)假日常用基站特征向量確定用戶相似度指數(shù);綜合相似度確定單元,用于基于用戶工作日相似度指數(shù)和用戶節(jié)假日相似度指數(shù)確定用戶綜合相似度指數(shù)。
可選地,還包括:相似用戶確定模塊,用于將相似度指數(shù)與預(yù)定閾值相比較,若相似度指數(shù)不小于預(yù)定閾值,則確定用戶為相似用戶;若相似度指數(shù)小于預(yù)定閾值,則確定用戶為非相似用戶。
這樣的裝置能夠基于通信行為發(fā)生的位置和時(shí)間獲取用戶常用基站特征向量,再根據(jù)用戶常用基站特征向量計(jì)算用戶相似度指數(shù),具有很好的通用性;由于考慮到了地域和時(shí)間兩個(gè)維度,能夠有效的提高相似度計(jì)算的準(zhǔn)確度;采用特征向量計(jì)算的方式確定相似度指數(shù)復(fù)雜度較低,提高了運(yùn)算效率,降低了對(duì)運(yùn)算設(shè)備的性能要求。
附圖說明
此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
圖1為本發(fā)明的相似用戶識(shí)別方法的一個(gè)實(shí)施例的流程圖。
圖2為本發(fā)明的相似用戶識(shí)別方法的另一個(gè)實(shí)施例的流程圖。
圖3為本發(fā)明的相似用戶識(shí)別方法的又一個(gè)實(shí)施例的流程圖。
圖4為本發(fā)明的相似用戶識(shí)別裝置的一個(gè)實(shí)施例的示意圖。
圖5為本發(fā)明的相似用戶識(shí)別裝置的另一個(gè)實(shí)施例的示意圖。
圖6為本發(fā)明的相似用戶識(shí)別裝置的又一個(gè)實(shí)施例的示意圖。
具體實(shí)施方式
下面通過附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
本發(fā)明的相似用戶識(shí)別方法的一個(gè)實(shí)施例的流程圖如圖1所示。
在步驟101中,提取用戶通信行為發(fā)生的位置和時(shí)間。在一個(gè)實(shí)施例中,用戶的通信行為可以包括通話業(yè)務(wù),也可以包括連接數(shù)據(jù)網(wǎng)絡(luò)。用戶通信行為發(fā)生的位置可以用用戶發(fā)生通信行為時(shí)交互的基站作為標(biāo)識(shí),用戶通信行為發(fā)生的時(shí)間可以為用戶發(fā)生通信行為的日期。在一個(gè)實(shí)施例中,可以提取基站數(shù)據(jù),確定用戶與該基站發(fā)生交互的時(shí)間。
在步驟102中,根據(jù)用戶在預(yù)定時(shí)間段內(nèi)通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的基站常用指數(shù)。用戶的基站常用指數(shù)可以稱為用戶基站指紋指數(shù),體現(xiàn)了用戶在預(yù)定時(shí)間段內(nèi)對(duì)該基站的常用程度。
在步驟103中,根據(jù)用戶相對(duì)于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量。在一個(gè)實(shí)施例中,可以將用戶相對(duì)于每個(gè)基站的基站常用指數(shù)按照從大到小的順序排序,提取預(yù)定數(shù)量的基站生成用戶常用基站特征向量。
在步驟104中,根據(jù)不同用戶的用戶常用基站特征向量確定用戶 相似度指數(shù)。可以通過計(jì)算兩個(gè)用戶的用戶常用基站特征向量的交集的方式確定兩個(gè)用戶的相似度指數(shù)。
通過這樣的方法,能夠基于通信行為發(fā)生的位置和時(shí)間獲取用戶常用基站特征向量,再根據(jù)用戶常用基站特征向量計(jì)算用戶相似度指數(shù),具有很好的通用性;由于考慮到地域和時(shí)間兩個(gè)維度,能夠有效的提高相似度計(jì)算的準(zhǔn)確度;采用特征向量計(jì)算的方式確定相似度指數(shù)復(fù)雜度較低,提高了運(yùn)算效率,降低了對(duì)運(yùn)算設(shè)備的性能要求。
本發(fā)明的相似用戶識(shí)別方法的另一個(gè)實(shí)施例的流程圖如圖2所示。
在步驟201中,提取用戶通信行為發(fā)生的位置和時(shí)間。
在步驟202中,根據(jù)設(shè)定的預(yù)定周期確定用戶在預(yù)定時(shí)間段內(nèi)的預(yù)定周期基站常用指數(shù)。預(yù)定周期可以包括一個(gè)月、十日、七日、三日、一日。預(yù)定周期基站常用指數(shù)可以是在預(yù)定時(shí)間段內(nèi)用戶與基站發(fā)生過交互的預(yù)定周期的個(gè)數(shù)與預(yù)定時(shí)間段內(nèi)預(yù)定周期的個(gè)數(shù)的比值。在一個(gè)實(shí)施例中,可以根據(jù)公式:
計(jì)算預(yù)定周期基站常用指數(shù)。其中,i為預(yù)定周期基站常用指數(shù),n為預(yù)定時(shí)間段內(nèi)預(yù)定周期的個(gè)數(shù),i為預(yù)定時(shí)間段內(nèi)的預(yù)定周期標(biāo)號(hào),ti為第i個(gè)周期內(nèi)用戶是否與基站發(fā)生過交互的標(biāo)識(shí):若在第i個(gè)預(yù)定周期內(nèi)用戶與基站發(fā)生過交互,則ti=1;若在第i個(gè)預(yù)定周期內(nèi)用戶與基站未發(fā)生過交互,則ti=0。
在步驟203中,根據(jù)不同預(yù)定周期的預(yù)定周期基站常用指數(shù)確定基站常用指數(shù)。在一個(gè)實(shí)施例中,可以根據(jù)公式:
ci=35my+30ty+16wy+12thy+8dy(2)
確定基站常用指數(shù),其中,ci為用戶在預(yù)定時(shí)間段內(nèi)的基站常用指數(shù),my為預(yù)定周期為一個(gè)月的預(yù)定周期基站常用指數(shù);ty為預(yù)定周期為十日的預(yù)定周期基站常用指數(shù);wy為預(yù)定周期為七日的預(yù)定周期基站常用指數(shù);thy為預(yù)定周期為三日的預(yù)定周期基站常用指數(shù); dy為預(yù)定周期為一日的預(yù)定周期基站常用指數(shù)。
在步驟204中,根據(jù)用戶相對(duì)于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量。在一個(gè)實(shí)施例中,可以基于用戶在預(yù)定時(shí)間段內(nèi)發(fā)生交互的基站生成用戶交互地域圈信息,記錄用戶相對(duì)于每個(gè)基站的基站常用指數(shù)。在一個(gè)實(shí)施例中,可以將用戶相對(duì)于每個(gè)基站的基站常用指數(shù)按照從大到小的順序排序,提取預(yù)定數(shù)量的基站生成用戶常用基站特征向量。在一個(gè)實(shí)施例中,用戶常用基站特征向量可以為p=(c1,c2,c3……,cy),其中,c1、c2、c3、cy均為基站標(biāo)識(shí),y為預(yù)定數(shù)量。
在步驟205中,根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù)。可以通過計(jì)算兩個(gè)用戶的用戶常用基站特征向量的交集的方式確定兩個(gè)用戶的相似度指數(shù)。在一個(gè)實(shí)施例中,可以根據(jù)公式
s=(pm∩pn)/y(3)
確定用戶相似度指數(shù),其中,m、n為用戶標(biāo)識(shí),s為用戶n與用戶m的相似度指數(shù),pm為用戶m的常用基站特征向量,pn為用戶n的常用基站特征向量,pm∩pn為pm與pn中相同的基站數(shù)量,y為用戶常用基站特征向量中基站的數(shù)量。
通過這樣的方法,能夠通過低復(fù)雜度的計(jì)算確定用戶相似度指數(shù),提高了運(yùn)算效率,降低了對(duì)運(yùn)行設(shè)備的要求;以預(yù)定周期基站常用指數(shù)確定基站常用指數(shù),充分考慮到了用戶行為的周期性,使計(jì)算的結(jié)果更加準(zhǔn)確。
在一個(gè)實(shí)施例中,可以每隔預(yù)定周期進(jìn)行一次計(jì)算,確定預(yù)定周期基站常用指數(shù)并存儲(chǔ)計(jì)算結(jié)果,當(dāng)達(dá)到預(yù)定時(shí)間段的截止日期時(shí),根據(jù)該預(yù)定時(shí)間段內(nèi)計(jì)算出的預(yù)定周期基站常用指數(shù)確定基站常用指數(shù),并將基站常用指數(shù)存入特征庫,根據(jù)特征庫中存儲(chǔ)的數(shù)據(jù)計(jì)算用戶常用基站特征向量。如:預(yù)定周期包括一個(gè)月、十日、七日、三日和一日,則以預(yù)定時(shí)間段的起始日期為起點(diǎn),每天計(jì)算一次以一日為周期的預(yù)定周期基站常用指數(shù)、每三天計(jì)算一次以三日為周期的預(yù)定周期基站常用指數(shù)、每七天計(jì)算一次以七日為周期的預(yù)定周期基站常 用指數(shù)、每十天計(jì)算一次以十日為周期的預(yù)定周期基站常用指數(shù)、每月計(jì)算一次以一月為周期的預(yù)定周期基站常用指數(shù),在達(dá)到預(yù)定時(shí)間段的截止日期時(shí),根據(jù)預(yù)定時(shí)間段內(nèi)所有預(yù)定周期基站常用指數(shù)計(jì)算基站常用指數(shù)。
通過這樣的方法,能夠隨著時(shí)間的推移逐步計(jì)算預(yù)定周期基站常用指數(shù),在預(yù)定時(shí)間段結(jié)束時(shí)根據(jù)之前的計(jì)算結(jié)果得到基站常用指數(shù),從而進(jìn)一步減少運(yùn)算的等待時(shí)間,提高了運(yùn)算效率。
在一個(gè)實(shí)施例中,可以提取用戶在工作日的通信行為發(fā)生的位置和時(shí)間,基于用戶在預(yù)定時(shí)間段內(nèi)工作日的通信行為發(fā)生的位置和時(shí)間得到的是用戶相對(duì)于基站的工作日基站常用指數(shù)。在一個(gè)實(shí)施例中,可以利用公式(1),以預(yù)定時(shí)間段內(nèi)的工作日數(shù)據(jù)為基礎(chǔ)計(jì)算工作日基站常用指數(shù)。根據(jù)工作日基站常用指數(shù)得到用戶工作日常用基站特征向量,以不同用戶的用戶工作日常用基站特征向量為基礎(chǔ)計(jì)算得到的用戶相似度指數(shù)為用戶工作日相似度指數(shù),能夠體現(xiàn)用戶在工作日的相似情況,便于識(shí)別工作日相似用戶。
在一個(gè)實(shí)施例中,可以提取用戶在節(jié)假日的通信行為發(fā)生的位置和時(shí)間,基于用戶在預(yù)定時(shí)間段內(nèi)節(jié)假日的通信行為發(fā)生的位置和時(shí)間得到的是用戶相對(duì)于基站的節(jié)假日基站常用指數(shù)。在一個(gè)實(shí)施例中,可以利用公式(1),以預(yù)定時(shí)間段內(nèi)的節(jié)假日數(shù)據(jù)為基礎(chǔ)計(jì)算節(jié)假日基站常用指數(shù)。根據(jù)節(jié)假日基站常用指數(shù)得到用戶節(jié)假日常用基站特征向量,以不同用戶的用戶節(jié)假日常用基站特征向量為基礎(chǔ)計(jì)算得到的用戶相似度指數(shù)為用戶節(jié)假日相似度指數(shù),能夠體現(xiàn)用戶在節(jié)假日的相似情況,便于識(shí)別節(jié)假日相似用戶。
由于節(jié)假日和工作日的用戶行為會(huì)有較大區(qū)別,因此將工作日和節(jié)假日的區(qū)別納入考慮范圍能夠?qū)崿F(xiàn)對(duì)用戶相似度的更準(zhǔn)確的計(jì)算;基于時(shí)間和地域兩個(gè)維度的相似度計(jì)算能夠?qū)崿F(xiàn)較高準(zhǔn)確度的相似用戶識(shí)別。
在一個(gè)實(shí)施例中,可以分別獲取用戶工作日相似度指數(shù)和用戶節(jié)假日相似度指數(shù),配合對(duì)應(yīng)的預(yù)定權(quán)值獲得用戶綜合相似度指數(shù),基 于用戶綜合相似度指數(shù)判斷用戶相似情況。在一個(gè)實(shí)施例中,可以基于公式:
s=a*sw+b*sh
計(jì)算用戶綜合相似度指數(shù)。其中,s為用戶綜合相似度指數(shù),sw為用戶工作日相似度指數(shù),sh為用戶節(jié)假日相似度指數(shù),a為用戶工作日相似度指數(shù)權(quán)重,b為用戶節(jié)假日相似度指數(shù)權(quán)重。
通過這樣的方法,能夠基于用戶工作日和節(jié)假日的相似狀況綜合考慮用戶相似度,從而得到更加全面的用戶相似度指數(shù),使相似用戶的識(shí)別更加準(zhǔn)確。
本發(fā)明的相似用戶識(shí)別方法的又一個(gè)實(shí)施例的流程圖如圖3所示。
在步驟301中,提取用戶通信行為發(fā)生的位置和時(shí)間。在一個(gè)實(shí)施例中,可以提取基站數(shù)據(jù),確定用戶與該基站發(fā)生交互的時(shí)間。
在步驟302中,根據(jù)用戶在預(yù)定時(shí)間段內(nèi)通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的基站常用指數(shù)。
在步驟303中,根據(jù)用戶相對(duì)于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量。在一個(gè)實(shí)施例中,可以將用戶相對(duì)于每個(gè)基站的基站常用指數(shù)按照從大到小的順序排序,提取預(yù)定數(shù)量的基站生成用戶常用基站特征向量。
在步驟304中,根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù)??梢酝ㄟ^計(jì)算兩個(gè)用戶的用戶常用基站特征向量的交集的方式確定兩個(gè)用戶的相似度指數(shù)。
在步驟305中,將用戶相似度指數(shù)與預(yù)定閾值相比較;若相似度指數(shù)不小于預(yù)定閾值,則確定兩用戶為相似用戶;若相似度指數(shù)小于預(yù)定閾值,則確定兩用戶為非相似用戶。在一個(gè)實(shí)施例中,可以輸出相似用戶清單,或標(biāo)記相似用戶,便于后續(xù)處理和研究。
通過這樣的方法,能夠通過閾值比較的方法根據(jù)用戶的相似度指數(shù)確定相似用戶,從而能夠識(shí)別相似用戶,便于根據(jù)相似用戶數(shù)據(jù)進(jìn)行處理和研究分析。
本發(fā)明的相似用戶識(shí)別裝置的一個(gè)實(shí)施例示意圖如圖4所示。其中,數(shù)據(jù)提取模塊401能夠提取用戶通信行為發(fā)生的位置和時(shí)間。在一個(gè)實(shí)施例中,用戶的通信行為可以包括通話業(yè)務(wù),也可以包括連接數(shù)據(jù)網(wǎng)絡(luò)。用戶通信行為發(fā)生的位置可以用用戶發(fā)生通信行為時(shí)交互的基站作為標(biāo)識(shí),用戶通信行為發(fā)生的時(shí)間可以為用戶發(fā)生通信行為的日期。在一個(gè)實(shí)施例中,可以提取基站數(shù)據(jù),確定用戶與該基站發(fā)生交互的時(shí)間。常用指數(shù)獲取模塊402能夠根據(jù)用戶在預(yù)定時(shí)間段內(nèi)通信行為發(fā)生的位置和時(shí)間計(jì)算用戶相對(duì)于基站的基站常用指數(shù)。用戶的基站常用指數(shù)可以稱為用戶基站指紋指數(shù),體現(xiàn)了用戶在預(yù)定時(shí)間段內(nèi)對(duì)該基站的常用程度。特征向量獲取模塊403能夠根據(jù)用戶相對(duì)于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量。在一個(gè)實(shí)施例中,可以將用戶相對(duì)于每個(gè)基站的基站常用指數(shù)按照從大到小的順序排序,提取預(yù)定數(shù)量的基站生成用戶常用基站特征向量。相似度指數(shù)確定模塊404能夠根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù),在一個(gè)實(shí)施例中,可以通過計(jì)算兩個(gè)用戶的用戶常用基站特征向量的交集的方式確定兩個(gè)用戶的相似度指數(shù)。
這樣的裝置能夠基于通信行為發(fā)生的位置和時(shí)間獲取用戶常用基站特征向量,再根據(jù)用戶常用基站特征向量計(jì)算用戶相似度指數(shù),具有很好的通用性;由于考慮到了地域和時(shí)間兩個(gè)維度,能夠有效的提高相似度計(jì)算的準(zhǔn)確度;采用特征向量計(jì)算的方式確定相似度指數(shù)復(fù)雜度較低,提高了運(yùn)算效率,降低了對(duì)運(yùn)算設(shè)備的性能要求。
本發(fā)明的相似用戶識(shí)別裝置的另一個(gè)實(shí)施例示意圖如圖5所示。其中,數(shù)據(jù)提取模塊51用于提取用戶通信行為發(fā)生的位置和時(shí)間。常用指數(shù)獲取模塊52包括周期指數(shù)確定單元521和常用指數(shù)確定單元522,周期指數(shù)確定單元521用于根據(jù)設(shè)定的預(yù)定周期先確定用戶在預(yù)定時(shí)間段內(nèi)的預(yù)定周期基站常用指數(shù)。預(yù)定周期可以包括一個(gè)月、十日、七日、三日、一日。預(yù)定周期基站常用指數(shù)可以是在預(yù)定時(shí)間段內(nèi)用戶與基站發(fā)生過交互的預(yù)定周期的個(gè)數(shù)與預(yù)定時(shí)間段內(nèi)預(yù)定周期 的個(gè)數(shù)的比值。在一個(gè)實(shí)施例中,可以根據(jù)公式:
計(jì)算預(yù)定周期基站常用指數(shù)。其中,i為預(yù)定周期基站常用指數(shù),n為預(yù)定時(shí)間段內(nèi)預(yù)定周期的個(gè)數(shù),i為預(yù)定時(shí)間段內(nèi)的預(yù)定周期標(biāo)號(hào),ti為第i個(gè)周期內(nèi)用戶是否與基站發(fā)生過交互的標(biāo)識(shí):若在第i個(gè)預(yù)定周期內(nèi)用戶與基站發(fā)生過交互,則ti=1;若在第i個(gè)預(yù)定周期內(nèi)用戶與基站未發(fā)生過交互,則ti=0。
常用指數(shù)確定單元522用于根據(jù)不同預(yù)定周期的預(yù)定周期基站常用指數(shù)確定基站常用指數(shù)。在一個(gè)實(shí)施例中,可以根據(jù)公式:
ci=35my+30ty+16wy+12thy+8dy(2)
確定基站常用指數(shù),其中,ci為用戶在預(yù)定時(shí)間段內(nèi)的基站常用指數(shù),my為預(yù)定周期為一個(gè)月的預(yù)定周期基站常用指數(shù);ty為預(yù)定周期為十日的預(yù)定周期基站常用指數(shù);wy為預(yù)定周期為七日的預(yù)定周期基站常用指數(shù);thy為預(yù)定周期為三日的預(yù)定周期基站常用指數(shù);dy為預(yù)定周期為一日的預(yù)定周期基站常用指數(shù)。
特征向量獲取模塊53用于根據(jù)用戶相對(duì)于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量。在一個(gè)實(shí)施例中,可以將用戶相對(duì)于每個(gè)基站的基站常用指數(shù)按照從大到小的順序排序,提取預(yù)定數(shù)量的基站生成用戶常用基站特征向量。在一個(gè)實(shí)施例中,用戶常用基站特征向量可以為p=(c1,c2,c3……cy),其中,c1、c2、c3、cy均為基站標(biāo)識(shí),y為預(yù)定數(shù)量。
相似度指數(shù)確定模塊54用于根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù)??梢酝ㄟ^計(jì)算兩個(gè)用戶的用戶常用基站特征向量的交集的方式確定兩個(gè)用戶的相似度指數(shù)。在一個(gè)實(shí)施例中,可以根據(jù)公式
s=(pm∩pn)/y(3)
確定用戶相似度指數(shù),其中,m、n為用戶標(biāo)識(shí),s為用戶n與用戶m的相似度指數(shù),pm為用戶m的常用基站特征向量,pn為用戶 n的常用基站特征向量,pm∩pn為pm與pn中相同的基站數(shù)量,y為用戶常用基站特征向量中基站的數(shù)量。
這樣的裝置能夠通過低復(fù)雜度的計(jì)算確定用戶相似度指數(shù),提高了運(yùn)算效率,降低了對(duì)設(shè)備的要求;以預(yù)定周期基站常用指數(shù)確定基站常用指數(shù),充分考慮到了用戶行為的周期性,使計(jì)算的結(jié)果更加準(zhǔn)確。
在一個(gè)實(shí)施例中,周期指數(shù)確定單元521可以每隔預(yù)定周期進(jìn)行一次計(jì)算,確定預(yù)定周期基站常用指數(shù)并存儲(chǔ)計(jì)算結(jié)果,當(dāng)達(dá)到預(yù)定時(shí)間段的截止日期時(shí),常用指數(shù)確定單元522根據(jù)該預(yù)定時(shí)間段內(nèi)計(jì)算出的預(yù)定周期基站常用指數(shù)確定基站常用指數(shù),并將基站常用指數(shù)存入特征庫,根據(jù)特征庫中存儲(chǔ)的數(shù)據(jù)計(jì)算用戶常用基站特征向量。如:預(yù)定周期包括一個(gè)月、十日、七日、三日和一日,則以預(yù)定時(shí)間段的起始日期為起點(diǎn),周期指數(shù)確定單元521每天計(jì)算一次以一日為周期的預(yù)定周期基站常用指數(shù)、每三天計(jì)算一次以三日為周期的預(yù)定周期基站常用指數(shù)、每七天計(jì)算一次以七日為周期的預(yù)定周期基站常用指數(shù)、每十天計(jì)算一次以十日為周期的預(yù)定周期基站常用指數(shù)、每月計(jì)算一次以一月為周期的預(yù)定周期基站常用指數(shù),在達(dá)到預(yù)定時(shí)間段的截止日期時(shí),常用指數(shù)確定單元522根據(jù)預(yù)定時(shí)間段內(nèi)所有預(yù)定周期基站常用指數(shù)計(jì)算基站常用指數(shù)。
這樣的裝置能夠隨著時(shí)間的推移逐步計(jì)算預(yù)定周期基站常用指數(shù),在預(yù)定時(shí)間段結(jié)束時(shí)根據(jù)之前的計(jì)算結(jié)果得到基站常用指數(shù),從而進(jìn)一步減少運(yùn)算的等待時(shí)間,提高了運(yùn)算效率。
在一個(gè)實(shí)施例中,數(shù)據(jù)提取模塊用于提取用戶在工作日的通信行為發(fā)生的位置和時(shí)間,常用指數(shù)獲取模塊基于用戶在預(yù)定時(shí)間段內(nèi)工作日的通信行為發(fā)生的位置和時(shí)間得到的是用戶相對(duì)于基站的工作日基站常用指數(shù),特征向量獲取模塊根據(jù)工作日基站常用指數(shù)得到用戶工作日常用基站特征向量,相似度指數(shù)確定模塊以不同用戶的用戶工作日常用基站特征向量為基礎(chǔ)計(jì)算得到的用戶相似度指數(shù)為用戶工作日相似度指數(shù),能夠體現(xiàn)用戶在工作日的相似情況,便于識(shí)別工作日 相似用戶。
在一個(gè)實(shí)施例中,數(shù)據(jù)提取模塊用于提取用戶在工作日的通信行為發(fā)生的位置和時(shí)間,常用指數(shù)獲取模塊基于用戶在預(yù)定時(shí)間段內(nèi)節(jié)假日的通信行為發(fā)生的位置和時(shí)間得到的是用戶相對(duì)于基站的節(jié)假日基站常用指數(shù),特征向量獲取模塊根據(jù)節(jié)假日基站常用指數(shù)得到用戶節(jié)假日常用基站特征向量,相似度指數(shù)確定模塊以不同用戶的用戶節(jié)假日常用基站特征向量為基礎(chǔ)計(jì)算得到的用戶相似度指數(shù)為用戶節(jié)假日相似度指數(shù),能夠體現(xiàn)用戶在節(jié)假日的相似情況,便于識(shí)別節(jié)假日相似用戶。
由于節(jié)假日和工作日的用戶行為會(huì)有較大區(qū)別,因此將工作日和節(jié)假日的區(qū)別納入考慮范圍能夠?qū)崿F(xiàn)對(duì)用戶相似度的更準(zhǔn)確的計(jì)算;基于時(shí)間和地域兩個(gè)維度的相似度計(jì)算能夠?qū)崿F(xiàn)較高準(zhǔn)確度的相似用戶識(shí)別。
在一個(gè)實(shí)施例中,相似度指數(shù)確定模塊可以包括工作日相似度確定單元、節(jié)假日相似度確定單元和綜合相似度確定單元,其中,工作日相似度確定單元用于獲取用戶工作日相似度指數(shù),節(jié)假日相似度確定單元用于獲取用戶節(jié)假日相似度指數(shù),綜合相似度確定單元用于基于用戶工作日相似度指數(shù)和用戶節(jié)假日相似度指數(shù)配合對(duì)應(yīng)的預(yù)定權(quán)值獲得用戶綜合相似度指數(shù),基于用戶綜合相似度指數(shù)判斷用戶相似情況。在一個(gè)實(shí)施例中,綜合相似度確定單元可以基于公式:
s=a*sw+b*sh
計(jì)算用戶綜合相似度指數(shù)。其中,s為用戶綜合相似度指數(shù),sw為用戶工作日相似度指數(shù),sh為用戶節(jié)假日相似度指數(shù),a為用戶工作日相似度指數(shù)權(quán)重,b為用戶節(jié)假日相似度指數(shù)權(quán)重。
這樣的裝置能夠基于用戶工作日和節(jié)假日的相似狀況綜合考慮用戶相似度,從而得到更加全面的用戶相似度指數(shù),使相似用戶的識(shí)別更加準(zhǔn)確。
本發(fā)明的相似用戶識(shí)別裝置的又一個(gè)實(shí)施例示意圖如圖6所示。其中,數(shù)據(jù)提取模塊601、常用指數(shù)獲取模塊602、特征向量獲取模塊 603和相似度指數(shù)確定模塊604的結(jié)構(gòu)和功能與圖4的實(shí)施例中相似。相似用戶識(shí)別裝置還包括相似用戶確定模塊605,用于將用戶相似度指數(shù)與預(yù)定閾值相比較;若相似度指數(shù)不小于預(yù)定閾值,則確定兩用戶為相似用戶;若相似度指數(shù)小于預(yù)定閾值,則確定兩用戶為非相似用戶。在一個(gè)實(shí)施例中,可以輸出相似用戶清單,或標(biāo)記相似用戶,便于后續(xù)處理和研究。
這樣的裝置能夠通過閾值比較的方法根據(jù)用戶的相似度指數(shù)確定相似用戶,從而能夠識(shí)別相似用戶,便于根據(jù)相似用戶數(shù)據(jù)進(jìn)行處理和研究分析。
最后應(yīng)當(dāng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非對(duì)其限制;盡管參照較佳實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:依然可以對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行修改或者對(duì)部分技術(shù)特征進(jìn)行等同替換;而不脫離本發(fā)明技術(shù)方案的精神,其均應(yīng)涵蓋在本發(fā)明請(qǐng)求保護(hù)的技術(shù)方案范圍當(dāng)中。