基于地點(diǎn)挖掘的用戶行為評估方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于地點(diǎn)挖掘的用戶行為評估方法,屬于數(shù)據(jù)挖掘領(lǐng)域。
【背景技術(shù)】
[0002] 隨著移動互聯(lián)網(wǎng)的不斷發(fā)展,手機(jī)等移動設(shè)備已逐漸普及。目前手機(jī)等移動設(shè)備 都配備了GPS,或者具有網(wǎng)絡(luò)定位功能,方便用戶自動記錄每天的行程。用戶每天不同時間 段在不同地點(diǎn)的停留時間分布,反映了該用戶的行為規(guī)律。
[0003] 基于用戶軌跡數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)正在不斷的發(fā)展中,一般應(yīng)用在熱門地點(diǎn)推薦 等領(lǐng)域,企業(yè)領(lǐng)域的應(yīng)用還比較少,例如,2013年《昆明理工大學(xué)》公開的基于手機(jī)定位數(shù)據(jù) 的用戶出行規(guī)律分析。
[0004] 通過挖掘用戶軌跡數(shù)據(jù),企業(yè)可以方便地評估員工的工作行為。這種技術(shù)不僅僅 局限在企業(yè)管理,也可以應(yīng)用在任何需要軌跡數(shù)據(jù)做支撐的用戶行為評估領(lǐng)域。但現(xiàn)有傳 統(tǒng)企業(yè)考核員工在外工作表現(xiàn)一般是通過考勤打卡來實(shí)現(xiàn),這種方法需要人工維護(hù)記錄, 采用指紋機(jī)等方案還需要投入額外硬件成本,能夠識別的地點(diǎn)也受到限制。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的上述問題,提供一種基于地點(diǎn)挖掘的用戶 行為評估方法。本發(fā)明可以從用戶原始雜亂的軌跡數(shù)據(jù)中,得到用戶的行為模式,準(zhǔn)確反應(yīng) 出用戶每天的行為規(guī)律,大大降低了傳統(tǒng)的考勤打卡違規(guī)作弊的可能。
[0006] 為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0007] -種基于地點(diǎn)挖掘的用戶行為評估方法,其特征在于:利用軌跡數(shù)據(jù)挖掘用戶的 行為模式,分析用戶的行為規(guī)律,對用戶行為進(jìn)行評估。
[0008] 所述方法具體包括如下步驟:
[0009] a、獲取位置信息得到軌跡數(shù)據(jù),并對軌跡數(shù)據(jù)預(yù)處理;
[0010] b、通過軌跡數(shù)據(jù)獲取用戶不同時間段在不同地點(diǎn)的時間分布,得到用戶的行為模 式;
[0011] C、利用用戶行為模式的歷史記錄更新用戶偏好模型,根據(jù)用戶偏好模型判斷是否 為異常行為,計(jì)算用戶行為得分。
[00?2]所述步驟&中,移動設(shè)備上報軌跡數(shù)據(jù)為L= {li,12,…,In},其中l(wèi)i= (lati,longi, timed表示經(jīng)煒度和時間,首先去除軌跡數(shù)據(jù)中的重復(fù)點(diǎn),再通過Kalman濾波過濾速度異 常點(diǎn),平滑軌跡數(shù)據(jù),使軌跡數(shù)據(jù)更接近真實(shí)的行程軌跡。
[0013] 所述步驟b中,采用基于時間序列的聚類算法,獲取用戶不同時間段在不同地點(diǎn)的 時間分布,得到用戶的行為模式。
[0014] 所述步驟b具體包括:
[0015] bl、選取兩個參數(shù)值地點(diǎn)最大范圍Dmax和有效地點(diǎn)時間跨度T;
[0016] b2、依次對軌跡數(shù)據(jù)進(jìn)行以下處理:當(dāng)相鄰兩個軌跡點(diǎn)的距離小于地點(diǎn)范圍閾值D 時,兩個軌跡點(diǎn)合并為一個新軌跡點(diǎn),新軌跡點(diǎn)參與下一次處理;當(dāng)相鄰兩個軌跡點(diǎn)的距離 大于地點(diǎn)范圍閾值DmaJt,且前一個軌跡點(diǎn)的時間跨度大于有效地點(diǎn)時間閾值T時,該軌跡 點(diǎn)為一有效地點(diǎn),表示p = {lat,lng,start_ts,end_ts};
[0017] b3、用戶有效地點(diǎn)數(shù)目為M,一天劃分為N個時間段,用戶行為模式表示為MXN矩陣 P=[fu],每一行表示用戶的某個有效地點(diǎn),每一列表示一天中的某個時間段,表示在第 j個時間段停留在第i個地點(diǎn)的概率。
[0018] 所述步驟c中,用戶偏好模型通過下述方法得出:
[0019] cl、通過夾角余弦系數(shù),定義用戶行為模式距離函數(shù)。對于行為模式X和行為模式 Y,第i個時間段的地點(diǎn)分布向量為Xi = {χι,Χ2,···,xm}和Yi = {yi,y2,···,yM},M為有效地點(diǎn)數(shù) 目,N為時間段總數(shù),則有
[0020]
[0021]
[0022] c2、利用行為模式距離函數(shù),對用戶行為模式的歷史記錄進(jìn)行DBSCAN聚類,得到K 個類別,取同一類行為模式的平均值作為類中心,則這K個行為模式為用戶偏好模型。
[0023] 所述步驟c中,根據(jù)用戶偏好模型判斷是否為異常行為:利用行為模式距離函數(shù)計(jì) 算用戶行為模式與用戶偏好模型的相似度,當(dāng)相似度低于閾值時,判斷用戶某天的行為為 異常行為,則該用戶行為得分直接判為負(fù)分。
[0024] 所述步驟c中,結(jié)合用戶業(yè)務(wù)行為數(shù)據(jù)選取C類評價指標(biāo),C類評價指標(biāo)權(quán)重
V,.計(jì)算用戶行為得分,其中81為單項(xiàng)評價指標(biāo) 得分,根據(jù)用戶行為得分得出評估結(jié)果。
[0025]所述評價指標(biāo)選擇用戶移動總距離Len、用戶停留次數(shù)Count、用戶有效停留數(shù) ECount,有效停留數(shù)為在停留地點(diǎn)用戶有業(yè)務(wù)數(shù)據(jù)操作的停留點(diǎn)數(shù)目。
[0026]采用本發(fā)明的優(yōu)點(diǎn)在于:
[0027] 1、采用本發(fā)明后,無需使用額外的考勤打卡設(shè)備,降低了部署開銷,有利于企業(yè)推 廣使用。
[0028] 2、采用本發(fā)明后,可以從用戶原始雜亂的軌跡數(shù)據(jù)中,得到用戶的行為模式,準(zhǔn)確 反應(yīng)出用戶每天的行為規(guī)律,大大降低了傳統(tǒng)的考勤打卡違規(guī)作弊的可能。
[0029] 3、本發(fā)明通過結(jié)合用戶歷史行為模式,判斷用戶異常行為。
[0030] 4、本發(fā)明根據(jù)選定的評價指標(biāo)計(jì)算用戶行為得分,建立統(tǒng)一的評價標(biāo)準(zhǔn),客觀反 映出用戶的工作完成情況和工作效率。
【附圖說明】
[0031]圖1為本發(fā)明流程不意圖
[0032] 圖2為本發(fā)明軌跡數(shù)據(jù)和有效地點(diǎn)示意圖
【具體實(shí)施方式】
[0033] 實(shí)施例1
[0034] -種基于地點(diǎn)挖掘的用戶行為評估方法,其特征在于:利用軌跡數(shù)據(jù)挖掘用戶的 行為模式,分析用戶的行為規(guī)律,對用戶行為進(jìn)行評估。
[0035]所述方法具體包括如下步驟:
[0036] a、獲取位置信息得到軌跡數(shù)據(jù),并對軌跡數(shù)據(jù)預(yù)處理;
[0037] b、通過軌跡數(shù)據(jù)獲取用戶不同時間段在不同地點(diǎn)的時間分布,得到用戶的行為模 式;
[0038] c、利用用戶行為模式的歷史記錄更新用戶偏好模型,根據(jù)用戶偏好模型判斷是否 為異常行為,計(jì)算用戶行為得分。
[0039]所述步驟a中,移動設(shè)備上報軌跡數(shù)據(jù)為L= {li,h,…,In},其中l(wèi)i= (lati,longi, timei)表示經(jīng)煒度和時間,首先去除軌跡數(shù)據(jù)中的重復(fù)點(diǎn),再通過Kalman濾波過濾速度異 常點(diǎn),平滑軌跡數(shù)據(jù),使軌跡數(shù)據(jù)更接近真實(shí)的行程軌跡。
[0040]所述步驟b中,采用基于時間序列的聚類算法,獲取用戶不同時間段在不同地點(diǎn)的 時間分布,得到用戶的行為模式。
[0041 ]所述步驟b具體包括:
[0042] bl、選取兩個參數(shù)值地點(diǎn)最大范圍Dmax和有效地點(diǎn)時間跨度T;
[0043] b2、依次對軌跡數(shù)據(jù)進(jìn)行以下處理:當(dāng)相鄰兩個軌跡點(diǎn)的距離小于地點(diǎn)范圍閾值D 時,兩個軌跡點(diǎn)合并為一個新軌跡點(diǎn),新軌跡點(diǎn)參與下一次處理;當(dāng)相鄰兩個軌跡點(diǎn)的距離 大于地點(diǎn)范圍閾值DmaJt,且前一個軌跡點(diǎn)的時間跨度大于有效地點(diǎn)時間閾值T時,該軌跡 點(diǎn)為一有效地點(diǎn),表示p = {lat,lng,start_ts,end_ts};
[0044] b3、用戶有效地點(diǎn)數(shù)目為M,一天劃分為N個時間段,用戶行為模式表示為MXN矩陣 P=[fu],每一行表示用戶的某個有效地點(diǎn),每一列表示一天中的某個時間段,表示在第 j個時間段停留在第i個地點(diǎn)的概率。
[0045] 所述步驟c具體包括:
[0046] cl、通過夾角余弦系數(shù),定義用戶行為模式距離函數(shù)。對于行為模式X和行為模式 Y,第i個時間段的地點(diǎn)分布向量為Xi = {χι,Χ2,···,xm}和Yi = {yi,y2,···,yM},M為有效地點(diǎn)數(shù) 目,N為時間段總數(shù),則有
[0047]
[0048]
[0049] c2、利用行為模式距離函數(shù),對用戶的行為模式的歷史記錄進(jìn)行DBSCAN聚類,得到 K個類別,取同一類行為模式的平均值作為類中心,則這K個行為模式為用戶偏好模型;
[0050] c3、根據(jù)用戶偏好模型判斷是否為異常行為:利用行為模式距離函數(shù)計(jì)算用戶行 為模式與用戶偏好模型的相似度,當(dāng)相似度低于閾值時,判斷用戶某天的行為為異常行為, 則該用戶行為得分直接判為負(fù)分;
[0051 ] 〇3、結(jié)合用戶ik務(wù)行遞m取談iff介指t示,iff介指標(biāo)i
由
4計(jì)算用戶行為得分,其中si為單項(xiàng)評價指標(biāo)得分,根據(jù)用戶行為得分得出評估 結(jié)果。
[0052]