本發(fā)明涉及網(wǎng)絡(luò)通信技術(shù)領(lǐng)域,具體涉及一種挖掘潛在客戶的方法和裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)通信技術(shù)的發(fā)展,越來越多的商家通過網(wǎng)上商城售賣貨品,在商家進行促銷的過程中,十分關(guān)心的一個問題是:如何根據(jù)商家現(xiàn)在已擁有的客戶的信息(比如客戶的年齡、性別、家庭地址等信息),挖掘出潛在的客戶,實現(xiàn)客戶的精準觸達。我們的技術(shù)就是解決這個問題,根據(jù)商家現(xiàn)有會員數(shù)據(jù),挖掘出其會員的社群特征,并根據(jù)這些特征從淘寶客中篩選出商家的潛在會員。
目前,挖掘潛在客戶的方法如下:獲得商家的樣本客戶的各個屬性標簽;統(tǒng)計樣本客戶的各個屬性標簽的分布特征;運用貝葉斯無向圖網(wǎng)絡(luò),獲得樣本客戶的各個屬性標簽的聯(lián)合概率分布函數(shù);運用梯度下降法得到對于樣本客戶擬合度最好的屬性標簽的權(quán)重,以及屬性標簽組合的權(quán)重;運用屬性標簽的權(quán)重,屬性標簽組合的權(quán)重,計算新客戶成為商家的潛在客戶的概率;根據(jù)新客戶成為商家的潛在客戶的概率,確定新客戶是否是商家的潛在客戶。
然而,現(xiàn)有挖掘潛在客戶的方法,需要將樣本客戶的各個屬性標簽進行組合,需要遍歷各種組合情況,計算復雜,浪費時間。
技術(shù)實現(xiàn)要素:
為了解決現(xiàn)有技術(shù)的問題,本發(fā)明提供了一種挖掘潛在客戶的方法和裝置,不需要將樣本客戶的各個屬性標簽進行組合,不需要遍歷各種組合情況,計算簡單快捷,可以節(jié)約時間。
為了解決上述問題,本發(fā)明公開了一種挖掘潛在客戶的方法,所述方法包括:
獲取商家的樣本客戶的各個屬性標簽,并計算所述樣本客戶的各個屬性標簽的集中度,以及所述樣本客戶的各個屬性標簽的屬性值域的權(quán)重;
將所述樣本客戶的各個屬性標簽按照預設(shè)組合標準進行組合,得到多個屬性標簽組合,計算每個所述屬性標簽組合的集中度;
根據(jù)每個所述屬性標簽組合的集中度,以及組成每個所述屬性標簽組合的屬性標簽的集中度,從多個所述屬性標簽組合中選擇所述樣本客戶的挖掘?qū)傩詷撕?,并計算所述樣本客戶的各個所述挖掘?qū)傩詷撕灥膶傩灾涤虻臋?quán)重;
根據(jù)所述樣本客戶的各個屬性標簽的屬性值域的權(quán)重、所述樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾涤虻臋?quán)重,采用圖聚類方法對所述樣本客戶進行社群劃分,得到多個客戶社群;
獲取新客戶的各個屬性標簽,并根據(jù)所述新客戶的各個屬性標簽的屬性值、每個所述客戶社群中的所述樣本客戶的各個屬性標簽的屬性值、各個挖掘?qū)傩詷撕灥膶傩灾?,按照預設(shè)概率公式計算得到所述新客戶屬于每個所述客戶社群的概率;
當所述新客戶屬于每個所述客戶社群的概率中存在一概率大于預設(shè)概率閾值時,則確定所述新客戶是所述商家的潛在客戶。
進一步地,所述屬性值域的權(quán)重包括:屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重。
進一步地,計算所述樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重,包括:
判斷所述樣本客戶的各個屬性標簽的類別;
如果所述樣本客戶的某屬性標簽是文本類,則按照預設(shè)權(quán)重計算公式計算所述樣本客戶的文本類的某屬性標簽的各個屬性值的權(quán)重;
如果所述樣本客戶的某屬性標簽的屬性值是數(shù)字類,則采用動態(tài)聚類方法對所述樣本客戶的數(shù)字類的某屬性標簽的各個屬性值進行數(shù)據(jù)區(qū)間統(tǒng)計, 得到多個屬性值類區(qū)間,按照預設(shè)權(quán)重計算公式計算所述樣本客戶的數(shù)字類的某屬性標簽的各個屬性值類區(qū)間的權(quán)重。
進一步地,所述預設(shè)權(quán)重計算公式為:
其中,對于文本類的某屬性標簽:xi表示文本類的某屬性標簽的屬性值是xi,w(xi)表示文本類的某屬性標簽的屬性值xi的權(quán)重,CRn表示文本類的某屬性標簽的集中度,c(xi)表示文本類的某屬性標簽的屬性值xi的個數(shù),c(X)表示文本類的某屬性標簽的所有屬性值的總個數(shù);對于數(shù)字類的某屬性標簽:xi表示數(shù)字類的某屬性標簽的屬性值類區(qū)間是xi,w(xi)表示數(shù)字類的某屬性標簽的屬性值類區(qū)間的權(quán)重,CRn表示數(shù)字類的某屬性標簽的集中度,c(xi)表示數(shù)字類的某屬性標簽的屬性值類區(qū)間中元素的個數(shù),c(X)表示數(shù)字類的某屬性標簽的所有屬性值類區(qū)間中元素的總個數(shù)。
進一步地,將所述樣本客戶的各個屬性標簽按照預設(shè)組合標準進行組合,得到多個屬性標簽組合,包括:
將所述樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重,與預設(shè)權(quán)重閾值進行比較,得到所述樣本客戶的屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重小于所述預設(shè)權(quán)重閾值的多個屬性標簽;
將所述樣本客戶的小于所述預設(shè)權(quán)重閾值的多個屬性標簽進行二二組合,得到多個所述屬性標簽組合。
進一步地,計算所述樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾档臋?quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重,包括:
判斷組成所述樣本客戶的各個所述挖掘?qū)傩詷撕灥亩€屬性標簽的類別;
如果組成所述樣本客戶的某所述挖掘?qū)傩詷撕灥亩€屬性標簽的類別均是文本類,則按照所述預設(shè)權(quán)重計算公式計算所述樣本客戶的某所述挖掘?qū)傩詷撕灥母鱾€屬性值的權(quán)重;
如果組成所述樣本客戶的某所述挖掘?qū)傩詷撕灥亩€屬性標簽的類別一個是文本類、一個是數(shù)字類,則采用動態(tài)聚類方法對所述樣本客戶的某所 述挖掘?qū)傩詷撕灥母鱾€屬性值進行數(shù)據(jù)區(qū)間統(tǒng)計,得到多個屬性值類區(qū)間,按照所述預設(shè)權(quán)重計算公式計算所述樣本客戶的某所述挖掘?qū)傩詷撕灥母鱾€屬性值類區(qū)間的權(quán)重;
如果組成所述樣本客戶的某所述挖掘?qū)傩詷撕灥亩€屬性標簽的類別均是數(shù)字類,則采用自組織映射SOM聚類方法對所述樣本客戶的某所述挖掘?qū)傩詷撕灥母鱾€屬性值進行數(shù)據(jù)區(qū)間統(tǒng)計,得到多個屬性值類區(qū)間,按照所述預設(shè)權(quán)重計算公式計算所述樣本客戶的某所述挖掘?qū)傩詷撕灥母鱾€屬性值類區(qū)間的權(quán)重。
進一步地,根據(jù)每個所述屬性標簽組合的集中度,以及組成每個所述屬性標簽組合的屬性標簽的集中度,確定每個所述屬性標簽組合是否能夠作為所述樣本客戶的挖掘?qū)傩詷撕?,包括?/p>
將每個所述屬性標簽組合的集中度,分別與組成每個所述屬性標簽組合的屬性標簽的集中度進行比較;
如果某個所述屬性標簽組合的集中度大于組成某個所述屬性標簽組合的所有屬性標簽的集中度,則確定某個所述屬性標簽組合能夠作為所述樣本客戶的所述挖掘?qū)傩詷撕灒?/p>
如果某個所述屬性標簽組合的集中度小于等于組成某個所述屬性標簽組合的任一屬性標簽的集中度,則確定某個所述屬性標簽組合不能夠作為所述樣本客戶的所述挖掘?qū)傩詷撕灐?/p>
進一步地,根據(jù)所述樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重、所述樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾档臋?quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重,采用圖聚類方法對所述樣本客戶進行社群劃分,得到多個客戶社群,包括:
從所有的所述樣本客戶中隨機選擇一個所述樣本客戶,根據(jù)所述樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重、所述樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾档臋?quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重,按照預設(shè)最大連接權(quán)重選擇公式,從隨機選擇的所述樣本客戶與其他各個所述樣本客戶之間的連接權(quán)重中,選擇連接權(quán)重最大的一個其他所述樣本客戶,并將連接權(quán)重最大的一個其他所述樣本客戶與隨機選擇的所述樣本客戶組成待定客戶社 群;
根據(jù)預設(shè)聚合公式,計算所述待定客戶社群之外的其他所述樣本客戶與所述待定客戶社群的聚合效應,根據(jù)所述待定客戶社群之外的其他所述樣本客戶與待定客戶社群的聚合效應,確定是否將所述待定客戶社群之外的其他所述樣本客戶添加到所述待定客戶社群組成所述客戶社群;
從所述客戶社群之外的所述樣本客戶中隨機選擇一個所述樣本客戶,然后執(zhí)行計算隨機選擇的所述樣本客戶與其他各個所述樣本客戶之間的連接權(quán)重的步驟。
進一步地,所述預設(shè)最大連接權(quán)重選擇公式如下:
其中,v*表示與隨機選擇的所述樣本客戶v的連接權(quán)重最大的一個其他所述樣本客戶,Ev-connect表示隨機選擇的所述樣本客戶v與隨機選擇的所述樣本客戶v有共同屬性值的任一所述樣本客戶的連接權(quán)重。
進一步地,所述預設(shè)聚合公式如下:
其中,當w(Sin)表示隨機選擇的所述樣本客戶v與所述待定客戶社群中的其他所述樣本客戶的連接權(quán)重、w(Sout)表示隨機選擇的所述樣本客戶v與所述待定客戶社群之外的其他所述樣本客戶的連接權(quán)重時,Condensity(gi)表示所述待定客戶社群的聚合效應值;當w(Sin)表示隨機選擇的所述樣本客戶v與所述客戶社群中的其他所述樣本客戶的連接權(quán)重、w(Sout)表示隨機選擇的所述樣本客戶v與所述客戶社群之外的其他所述樣本客戶的連接權(quán)重時,Condensity(gi)表示所述客戶社群的聚合效應值。
進一步地,根據(jù)所述待定客戶社群之外的其他所述樣本客戶與所述待定客戶社群的聚合效應,確定是否將所述待定客戶社群之外的其他所述樣本客戶添加到所述待定客戶社群組成所述客戶社群,包括:
將所述待定客戶社群的聚合效應值與所述客戶社群的聚合效應值進行比較;
如果所述客戶社群的聚合效應值大于所述待定客戶社群的聚合效應值,則確定將所述待定客戶社群之外的其他所述樣本客戶添加到所述待定客戶社群組成所述客戶社群;
如果所述客戶社群的聚合效應值小于等于所述待定客戶社群的聚合效應值,則確定不將所述待定客戶社群之外的其他所述樣本客戶添加到所述待定客戶社群組成所述客戶社群。
進一步地,按照預設(shè)概率公式計算得到所述新客戶屬于每個所述客戶社群的概率之后,還包括:
將所述新客戶屬于每個所述客戶社群的概率進行比較,得到所述新客戶屬于所述客戶社群的最大概率;
確定所述新客戶屬于最大概率對應的所述客戶社群;
更新所述樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重。
進一步地,所述預設(shè)概率公式如下:
其中,Y表示所述新客戶的屬性標簽,yi表示所述新客戶的屬性標簽的第i個屬性值,n表示所述新客戶的屬性標簽有n個屬性值,B表示任一所述客戶社群。
進一步地,確定所述新客戶是所述商家的潛在客戶之后,還包括:
獲取所述商家的反饋信息;其中,所述反饋信息包括確定的某所述新客戶是所述商家的潛在客戶不正確、和/或原來的某所述樣本客戶當前不符合所述商家的客戶標準;
根據(jù)所述商家的反饋信息,按照預設(shè)權(quán)重矯正公式對所述樣本客戶或所述新客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重進行矯正,并根據(jù)所述商家的反饋信息,對所述客戶社群進行矯正。
進一步地,所述預設(shè)權(quán)重矯正公式如下:
其中,表示所述樣本客戶或所述新客戶的矯正后的屬性標簽A的屬性值或?qū)傩灾殿悈^(qū)間在矯正后的所述客戶社群中的權(quán)重;表示所述樣本客戶或所述新客戶的矯正前的屬性標簽A的屬性值或?qū)傩灾殿悈^(qū)間在矯正后的所述客戶社群中的權(quán)重;表示所述樣本客戶或所述新客戶的矯正后的屬性標簽A在矯正前的所述客戶社群中的權(quán)重。
為了解決上述問題,本發(fā)明還公開了一種挖掘潛在客戶的裝置,所述裝置包括:
獲取模塊,用于獲取商家的樣本客戶的各個屬性標簽,并計算所述樣本客戶的各個屬性標簽的集中度,以及所述樣本客戶的各個屬性標簽的屬性值域的權(quán)重;
組合計算模塊,用于將所述樣本客戶的各個屬性標簽按照預設(shè)組合標準進行組合,得到多個屬性標簽組合,計算每個所述屬性標簽組合的集中度;
確定計算模塊,用于根據(jù)每個所述屬性標簽組合的集中度,以及組成每個所述屬性標簽組合的屬性標簽的集中度,從多個所述屬性標簽組合中選擇所述樣本客戶的挖掘?qū)傩詷撕?,并計算所述樣本客戶的各個所述挖掘?qū)傩詷撕灥膶傩灾涤虻臋?quán)重;
劃分模塊,用于根據(jù)所述樣本客戶的各個屬性標簽的屬性值域的權(quán)重、所述樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾涤虻臋?quán)重,采用圖聚類方法對所述樣本客戶進行社群劃分,得到多個客戶社群;
概率計算模塊,用于獲取新客戶的各個屬性標簽,并根據(jù)所述新客戶的各個屬性標簽的屬性值、每個所述客戶社群中的所述樣本客戶的各個屬性標簽的屬性值、各個挖掘?qū)傩詷撕灥膶傩灾?,按照預設(shè)概率公式計算得到所述新客戶屬于每個所述客戶社群的概率;
潛在客戶確定模塊,用于當所述新客戶屬于每個所述客戶社群的概率中存在一概率大于預設(shè)概率閾值時,則確定所述新客戶是所述商家的潛在客戶。
進一步地,所述屬性值域的權(quán)重包括:屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重。
進一步地,所述獲取模塊包括:
第一判斷單元,用于判斷所述樣本客戶的各個屬性標簽的類別;
第一計算單元,用于如果所述樣本客戶的某屬性標簽是文本類,則按照預設(shè)權(quán)重計算公式計算所述樣本客戶的文本類的某屬性標簽的各個屬性值的權(quán)重;
第二計算單元,用于如果所述樣本客戶的某屬性標簽的屬性值是數(shù)字類,則采用動態(tài)聚類裝置對所述樣本客戶的數(shù)字類的某屬性標簽的各個屬性值進行數(shù)據(jù)區(qū)間統(tǒng)計,得到多個屬性值類區(qū)間,按照預設(shè)權(quán)重計算公式計算所述樣本客戶的數(shù)字類的某屬性標簽的各個屬性值類區(qū)間的權(quán)重。
進一步地,所述預設(shè)權(quán)重計算公式為:
其中,對于文本類的某屬性標簽:xi表示文本類的某屬性標簽的屬性值是xi,w(xi)表示文本類的某屬性標簽的屬性值xi的權(quán)重,CRn表示文本類的某屬性標簽的集中度,c(xi)表示文本類的某屬性標簽的屬性值xi的個數(shù),c(X)表示文本類的某屬性標簽的所有屬性值的總個數(shù);對于數(shù)字類的某屬性標簽:xi表示數(shù)字類的某屬性標簽的屬性值類區(qū)間是xi,w(xi)表示數(shù)字類的某屬性標簽的屬性值類區(qū)間的權(quán)重,CRn表示數(shù)字類的某屬性標簽的集中度,c(xi)表示數(shù)字類的某屬性標簽的屬性值類區(qū)間中元素的個數(shù),c(X)表示數(shù)字類的某屬性標簽的所有屬性值類區(qū)間中元素的總個數(shù)。
進一步地,所述組合計算模塊包括:
第一比較單元,用于將所述樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重,與預設(shè)權(quán)重閾值進行比較,得到所述樣本客戶的屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重小于所述預設(shè)權(quán)重閾值的多個屬性標簽;
組合單元,用于將所述樣本客戶的小于所述預設(shè)權(quán)重閾值的多個屬性標簽進行二二組合,得到多個所述屬性標簽組合。
進一步地,所述確定計算模塊還包括:
第二判斷單元,用于判斷組成所述樣本客戶的各個所述挖掘?qū)傩詷撕灥亩€屬性標簽的類別;
第三計算單元,用于如果組成所述樣本客戶的某所述挖掘?qū)傩詷撕灥亩€屬性標簽的類別均是文本類,則按照所述預設(shè)權(quán)重計算公式計算所述樣本客戶的某所述挖掘?qū)傩詷撕灥母鱾€屬性值的權(quán)重;
第四計算單元,用于如果組成所述樣本客戶的某所述挖掘?qū)傩詷撕灥亩€屬性標簽的類別一個是文本類、一個是數(shù)字類,則采用動態(tài)聚類裝置對所述樣本客戶的某所述挖掘?qū)傩詷撕灥母鱾€屬性值進行數(shù)據(jù)區(qū)間統(tǒng)計,得到多個屬性值類區(qū)間,按照所述預設(shè)權(quán)重計算公式計算所述樣本客戶的某所述挖掘?qū)傩詷撕灥母鱾€屬性值類區(qū)間的權(quán)重;
第五計算單元,用于如果組成所述樣本客戶的某所述挖掘?qū)傩詷撕灥亩€屬性標簽的類別均是數(shù)字類,則采用自組織映射SOM聚類裝置對所述樣本客戶的某所述挖掘?qū)傩詷撕灥母鱾€屬性值進行數(shù)據(jù)區(qū)間統(tǒng)計,得到多個屬性值類區(qū)間,按照所述預設(shè)權(quán)重計算公式計算所述樣本客戶的某所述挖掘?qū)傩詷撕灥母鱾€屬性值類區(qū)間的權(quán)重。
進一步地,所述確定計算模塊包括:
第二比較單元,用于將每個所述屬性標簽組合的集中度,分別與組成每個所述屬性標簽組合的屬性標簽的集中度進行比較;
第一確定單元,用于如果某個所述屬性標簽組合的集中度大于組成某個所述屬性標簽組合的所有屬性標簽的集中度,則確定某個所述屬性標簽組合能夠作為所述樣本客戶的所述挖掘?qū)傩詷撕灒?/p>
第二確定單元,用于如果某個所述屬性標簽組合的集中度小于等于組成某個所述屬性標簽組合的任一屬性標簽的集中度,則確定某個所述屬性標簽組合不能夠作為所述樣本客戶的所述挖掘?qū)傩詷撕灐?/p>
進一步地,所述劃分模塊包括:
選擇單元,用于從所有的所述樣本客戶中隨機選擇一個所述樣本客戶,根據(jù)所述樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重、 所述樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾档臋?quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重,按照預設(shè)最大連接權(quán)重選擇公式,從隨機選擇的所述樣本客戶與其他各個所述樣本客戶之間的連接權(quán)重中,選擇連接權(quán)重最大的一個其他所述樣本客戶,并將連接權(quán)重最大的一個其他所述樣本客戶與隨機選擇的所述樣本客戶組成待定客戶社群;
第三確定單元,用于根據(jù)預設(shè)聚合公式,計算所述待定客戶社群之外的其他所述樣本客戶與所述待定客戶社群的聚合效應,根據(jù)所述待定客戶社群之外的其他所述樣本客戶與待定客戶社群的聚合效應,確定是否將所述待定客戶社群之外的其他所述樣本客戶添加到所述待定客戶社群組成所述客戶社群;
通知單元,用于從所述客戶社群之外的所述樣本客戶中隨機選擇一個所述樣本客戶,然后通知所述選擇單元執(zhí)行計算隨機選擇的所述樣本客戶與其他各個所述樣本客戶之間的連接權(quán)重的步驟。
進一步地,所述預設(shè)最大連接權(quán)重選擇公式如下:
其中,v*表示與隨機選擇的所述樣本客戶v的連接權(quán)重最大的一個其他所述樣本客戶,Ev-connect表示隨機選擇的所述樣本客戶v與隨機選擇的所述樣本客戶v有共同屬性值的任一所述樣本客戶的連接權(quán)重。
進一步地,所述預設(shè)聚合公式如下:
其中,當w(Sin)表示隨機選擇的所述樣本客戶v與所述待定客戶社群中的其他所述樣本客戶的連接權(quán)重、w(Sout)表示隨機選擇的所述樣本客戶v與所述待定客戶社群之外的其他所述樣本客戶的連接權(quán)重時,Condensity(gi)表示所述待定客戶社群的聚合效應值;當w(Sin)表示隨機選擇的所述樣本客戶v與所述客戶社群中的其他所述樣本客戶的連接權(quán)重、w(Sout)表示隨機選擇的所述樣本客戶v與所述客戶社群之外的其他所述樣本客戶的連接權(quán)重時,Condensity(gi)表示所述客戶社群的聚合效應值。
進一步地,所述第三確定單元包括:
比較子單元,用于將所述待定客戶社群的聚合效應值與所述客戶社群的聚合效應值進行比較;
第一確定子單元,用于如果所述客戶社群的聚合效應值大于所述待定客戶社群的聚合效應值,則確定將所述待定客戶社群之外的其他所述樣本客戶添加到所述待定客戶社群組成所述客戶社群;
第二確定子單元,用于如果所述客戶社群的聚合效應值小于等于所述待定客戶社群的聚合效應值,則確定不將所述待定客戶社群之外的其他所述樣本客戶添加到所述待定客戶社群組成所述客戶社群。
進一步地,所述裝置還包括:
比較模塊,用于按照預設(shè)概率公式計算得到所述新客戶屬于每個所述客戶社群的概率之后,將所述新客戶屬于每個所述客戶社群的概率進行比較,得到所述新客戶屬于所述客戶社群的最大概率;
確定模塊,用于確定所述新客戶屬于最大概率對應的所述客戶社群;
更新模塊,用于更新所述樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重。
進一步地,所述預設(shè)概率公式如下:
其中,Y表示所述新客戶的屬性標簽,yi表示所述新客戶的屬性標簽的第i個屬性值,n表示所述新客戶的屬性標簽有n個屬性值,B表示任一所述客戶社群。
進一步地,所述裝置還包括:
反饋模塊,用于確定所述新客戶是所述商家的潛在客戶之后,獲取所述商家的反饋信息;其中,所述反饋信息包括確定的某所述新客戶是所述商家的潛在客戶不正確、和/或原來的某所述樣本客戶當前不符合所述商家的客戶標準;
矯正模塊,用于根據(jù)所述商家的反饋信息,按照預設(shè)權(quán)重矯正公式對所述樣本客戶或所述新客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間 的權(quán)重進行矯正,并根據(jù)所述商家的反饋信息,對所述客戶社群進行矯正。
進一步地,所述預設(shè)權(quán)重矯正公式如下:
其中,表示所述樣本客戶或所述新客戶的矯正后的屬性標簽A的屬性值或?qū)傩灾殿悈^(qū)間在矯正后的所述客戶社群中的權(quán)重;表示所述樣本客戶或所述新客戶的矯正前的屬性標簽A的屬性值或?qū)傩灾殿悈^(qū)間在矯正后的所述客戶社群中的權(quán)重;表示所述樣本客戶或所述新客戶的矯正后的屬性標簽A在矯正前的所述客戶社群中的權(quán)重。
與現(xiàn)有技術(shù)相比,本發(fā)明可以獲得包括以下技術(shù)效果:
1)根據(jù)每個屬性標簽組合的集中度,以及組成每個屬性標簽組合的屬性標簽的集中度,選擇樣本客戶的挖掘?qū)傩詷撕?,根?jù)樣本客戶的各個屬性標簽的屬性值域的權(quán)重、樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾涤虻臋?quán)重,采用圖聚類方法對樣本客戶進行社群劃分,得到多個客戶社群,當新客戶屬于每個客戶社群的概率中存在一概率大于預設(shè)概率閾值時,則確定新客戶是商家的潛在客戶,不需要將樣本客戶的各個屬性標簽進行組合,不需要遍歷各種組合情況,計算簡單快捷,可以節(jié)約時間。
2)按照預設(shè)概率公式計算得到新客戶屬于每個客戶社群的概率,通過概率確定新客戶是不是商家的潛在客戶,而不需要采用梯度下降法求全局最優(yōu)結(jié)果,大大提高了運算速度。
3)預設(shè)權(quán)重計算公式通過運用屬性標簽的集中度,能夠適應更復雜的數(shù)據(jù)結(jié)構(gòu),能夠更有效的反應數(shù)據(jù)的分布規(guī)律。
4)根據(jù)商家的反饋信息,按照預設(shè)權(quán)重矯正公式對樣本客戶或新客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重進行矯正,預設(shè)權(quán)重矯正公式不僅考慮了屬性標簽所包含的樣本量因素,還針對權(quán)重本身進行懲罰或者獎勵,這樣不僅加快了效果反饋速度,同時還使得權(quán)重的變化更加穩(wěn)健,不會出現(xiàn)異常的增加或者減少,并且會隨著樣本客戶數(shù)量的增加,準確度也會越來越高。
當然,實施本發(fā)明的任一產(chǎn)品必不一定需要同時達到以上所述的所有技術(shù)效果。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。在附圖中:
圖1是本發(fā)明實施例的第一種挖掘潛在客戶的方法流程圖;
圖2是本發(fā)明實施例的屬性值類區(qū)間對應的波峰示意圖;
圖3是本發(fā)明實施例的對于文本類的屬性標簽的屬性值X和文本類的屬性標簽的屬性值Y的屬性標簽組合的計算示意圖;
圖4是本發(fā)明實施例的文本類的屬性值下的數(shù)字類的屬性值的分布規(guī)律示意圖;
圖5是本發(fā)明實施例的不同數(shù)字類的屬性值的分布規(guī)律示意圖;
圖6是本發(fā)明實施例的第二種挖掘潛在客戶的方法流程圖;
圖7是本發(fā)明實施例的第三種挖掘潛在客戶的方法流程圖;
圖8是本發(fā)明實施例的第四種挖掘潛在客戶的方法流程圖;
圖9是本發(fā)明實施例的采用圖聚類方法依次對樣本客戶進行社群劃分,得到多個客戶社群的示意圖;
圖10是本發(fā)明實施例的第五種挖掘潛在客戶的方法流程圖;
圖11是本發(fā)明實施例的第六種挖掘潛在客戶的方法流程圖;
圖12是本發(fā)明實施例的第一種挖掘潛在客戶的裝置結(jié)構(gòu)示意圖;
圖13是本發(fā)明實施例的第二種挖掘潛在客戶的裝置結(jié)構(gòu)示意圖;
圖14是本發(fā)明實施例的第三種挖掘潛在客戶的裝置結(jié)構(gòu)示意圖。
具體實施方式
以下將配合附圖及實施例來詳細說明本發(fā)明的實施方式,藉此對本發(fā)明 如何應用技術(shù)手段來解決技術(shù)問題并達成技術(shù)功效的實現(xiàn)過程能充分理解并據(jù)以實施。
在一個典型的配置中,計算設(shè)備包括一個或多個處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
內(nèi)存可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。內(nèi)存是計算機可讀介質(zhì)的示例。
計算機可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機存取存儲器(SRAM)、動態(tài)隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設(shè)備訪問的信息。按照本文中的界定,計算機可讀介質(zhì)不包括非暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號和載波。
如在說明書及權(quán)利要求當中使用了某些詞匯來指稱特定組件。本領(lǐng)域技術(shù)人員應可理解,硬件制造商可能會用不同名詞來稱呼同一個組件。本說明書及權(quán)利要求并不以名稱的差異來作為區(qū)分組件的方式,而是以組件在功能上的差異來作為區(qū)分的準則。如在通篇說明書及權(quán)利要求當中所提及的“包含”為一開放式用語,故應解釋成“包含但不限定于”。“大致”是指在可接收的誤差范圍內(nèi),本領(lǐng)域技術(shù)人員能夠在一定誤差范圍內(nèi)解決所述技術(shù)問題,基本達到所述技術(shù)效果。此外,“耦接”一詞在此包含任何直接及間接的電性耦接手段。因此,若文中描述一第一裝置耦接于一第二裝置,則代表所述第一裝置可直接電性耦接于所述第二裝置,或通過其他裝置或耦接手段間接地電性耦接至所述第二裝置。說明書后續(xù)描述為實施本發(fā)明的較佳實施方式,然所述描述乃以說明本發(fā)明的一般原則為目的,并非用以限定本發(fā)明的范圍。本發(fā)明的保護范圍當視所附權(quán)利要求所界定者為準。
還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的商品或者系統(tǒng)不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種商品或者系統(tǒng)所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的商品或者系統(tǒng)中還存在另外的相同要素。
實施例描述
下面以一實施例對本發(fā)明方法的實現(xiàn)作進一步說明。如圖1所示,為本發(fā)明實施例的一種挖掘潛在客戶的方法流程圖,該方法包括:
S101:獲取商家的樣本客戶的各個屬性標簽,并計算樣本客戶的各個屬性標簽的集中度,以及樣本客戶的各個屬性標簽的屬性值域的權(quán)重;其中,屬性值域的權(quán)重包括屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重。
具體地,可以獲取商家的會員信息,將商家的各個會員作為樣本客戶。
其中,屬性標簽例如可以是性別、年齡、地域、消費金額等。屬性標簽的屬性值例如:對于性別其屬性值是男或女;對于年齡其屬性值是18、20、30等;對于地域其屬性值是上海、北京等;對于消費金額其屬性值是10、、20、100等。
需要說明的是,對于年齡、地域等屬性標簽,其對應的屬性值一般通過文本(如男、女、上海、北京等)來表示,其屬性值的個數(shù)一般是有限的幾個,可以直接求屬性值的權(quán)重。而對于年齡、消費金額等屬性標簽,其對應的屬性值一般通過數(shù)字(如18、20、30等)來表示,其屬性值的個數(shù)一般可以有很多個,需要通過動態(tài)聚類方法將屬性值歸類為屬性值類區(qū)間,求屬性值類區(qū)間的權(quán)重,參見圖2,將屬性值歸類為屬性值類區(qū)間是為了找到如圖2所示的波峰,再計算屬性值類區(qū)間的集中度。
具體地,計算樣本客戶的各個屬性標簽的集中度CRn的公式如下:
其中,對于文本類的屬性標簽:xi表示屬性標簽的屬性值是xi,c(xi)表示屬性標簽的屬性值xi的個數(shù),c(X)表示屬性標簽的所有屬性值的總個數(shù),n 表示選取屬性標簽的屬性值的個數(shù)的排名在前n的屬性值;對于數(shù)字類的屬性標簽:xi表示屬性標簽的屬性值類區(qū)間是xi,c(xi)表示屬性標簽的屬性值類區(qū)間xi中元素的個數(shù),c(X)表示屬性標簽的所有屬性值類區(qū)間中元素的總個數(shù),n表示選取屬性標簽的屬性值類區(qū)間中元素的個數(shù)的排名在前n的屬性值。n的取值可以是2、4、5等,可以根據(jù)實際應用狀況進行選取,本實施例中優(yōu)選選取n=4。
S102:將樣本客戶的各個屬性標簽按照預設(shè)組合標準進行組合,得到多個屬性標簽組合,計算每個屬性標簽組合的集中度。
具體地,可以將屬性標簽進行兩兩、三三等進行組合,本實施例中優(yōu)選進行兩兩組合,例如:將性別、年齡組合,將年齡、地域組合等。
具體地,將樣本客戶的各個屬性標簽按照預設(shè)組合標準進行組合,得到多個屬性標簽組合,包括:
將樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重,與預設(shè)權(quán)重閾值進行比較,得到樣本客戶的屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重小于預設(shè)權(quán)重閾值的多個屬性標簽;
將樣本客戶的小于預設(shè)權(quán)重閾值的多個屬性標簽進行二二組合,得到多個屬性標簽組合。
具體地,計算每個屬性標簽組合的集中度,包括:
當組成每個屬性標簽組合的二個屬性標簽的類別均是文本類時,分別計算各個文本類的屬性標簽的屬性值的分布,參見圖3,對于文本類的屬性標簽的屬性值X和文本類的屬性標簽的屬性值Y的屬性標簽組合中,當Y取值為D時,分別計算X中的前m個屬性值(此處為3,可以分別設(shè)為a、b、c)的集中度,分別為0.4、0.3、0.1,從而對應的屬性標簽組合的集中度為0.4+0.3+0.1=0.8。
當組成每個屬性標簽組合的二個屬性標簽的類別一個是文本類、一個是數(shù)字類時,獲得各個文本類的屬性值下的數(shù)字類的屬性值的分布規(guī)律,如參見圖4,在不同的文本類的屬性值X的區(qū)間,數(shù)字類的屬性值Y都有不一樣的分布規(guī)律,從而將X劃分成一個個離散的區(qū)間,那么Y就會在每個區(qū)間內(nèi)是呈現(xiàn)單一分布的情況,計算各個單一分布的集中度,然后將各個單一分 布的集中度相加即得到對應的屬性標簽組合的集中度。
當組成每個屬性標簽組合的二個屬性標簽的類別均是數(shù)字類時,識別出不同數(shù)字類的屬性值的分布規(guī)律,如參見圖5,3種線型分別代表不同的分布情況,計算各個分布的集中度,然后將各個分布的集中度相加即得到對應的屬性標簽組合的集中度。
S103:根據(jù)每個屬性標簽組合的集中度,以及組成每個屬性標簽組合的屬性標簽的集中度,從多個屬性標簽組合中選擇樣本客戶的挖掘?qū)傩詷撕灒⒂嬎銟颖究蛻舻母鱾€挖掘?qū)傩詷撕灥膶傩灾涤虻臋?quán)重。
其中,挖掘?qū)傩詷撕灱丛趯π驴蛻暨M行判斷驗證其是否是商家的潛在客戶時用于參考使用的屬性標簽組合。從多個屬性標簽組合中選擇樣本客戶的挖掘?qū)傩詷撕灱磸亩鄠€屬性標簽組合中選擇能夠作為樣本客戶的挖掘?qū)傩詷撕灥膶傩詷撕灲M合。
具體地,根據(jù)每個屬性標簽組合的集中度,以及組成每個屬性標簽組合的屬性標簽的集中度,從多個屬性標簽組合中選擇樣本客戶的挖掘?qū)傩詷撕?,包括?/p>
將每個屬性標簽組合的集中度,分別與組成每個屬性標簽組合的屬性標簽的集中度進行比較;
如果某個屬性標簽組合的集中度大于組成某個屬性標簽組合的所有屬性標簽的集中度,則確定某個屬性標簽組合能夠作為樣本客戶的挖掘?qū)傩詷撕灒?/p>
如果某個屬性標簽組合的集中度小于等于組成某個屬性標簽組合的任一屬性標簽的集中度,則確定某個屬性標簽組合不能夠作為樣本客戶的挖掘?qū)傩詷撕灐?/p>
S104:根據(jù)樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重、樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾档臋?quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重,采用圖聚類方法對樣本客戶進行社群劃分,得到多個客戶社群。
S105:獲取新客戶的各個屬性標簽,并根據(jù)新客戶的各個屬性標簽的屬性值、每個客戶社群中的樣本客戶的各個屬性標簽的屬性值、各個挖掘?qū)傩? 標簽的屬性值,按照預設(shè)概率公式計算得到新客戶屬于每個客戶社群的概率。
其中,預設(shè)概率公式如下:
其中,Y表示新客戶的屬性標簽,yi表示新客戶的屬性標簽的第i個屬性值,m表示新客戶的屬性標簽有m個屬性值,B表示任一客戶社群。
S106:當新客戶屬于每個客戶社群的概率中存在一概率大于預設(shè)概率閾值時,則確定新客戶是商家的潛在客戶。
其中,預設(shè)概率閾值可以是0.4、0.6、0.7等,可以根據(jù)實際應用狀況進行設(shè)置,對此不做限定。
在本實施例的一優(yōu)選實施例中,參見圖6,S101中的計算樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重,包括:
S101a:判斷樣本客戶的各個屬性標簽的類別,如果樣本客戶的某屬性標簽是文本類,則執(zhí)行S101b;如果樣本客戶的某屬性標簽的屬性值是數(shù)字類,則執(zhí)行S101c。
其中,文本類也可以稱為離散類,數(shù)字類也可以稱為連續(xù)類。
S101b:按照預設(shè)權(quán)重計算公式計算樣本客戶的文本類的某屬性標簽的各個屬性值的權(quán)重,然后執(zhí)行S102。
其中,預設(shè)權(quán)重計算公式w(xi)為:
對于文本類的某屬性標簽:xi表示文本類的某屬性標簽的屬性值是xi,w(xi)表示文本類的某屬性標簽的屬性值xi的權(quán)重,CRn表示文本類的某屬性標簽的集中度,c(xi)表示文本類的某屬性標簽的屬性值xi的個數(shù),c(X)表示文本類的某屬性標簽的屬性值xi的總個數(shù)。
S101c:采用動態(tài)聚類方法對樣本客戶的數(shù)字類的某屬性標簽的各個屬 性值進行數(shù)據(jù)區(qū)間統(tǒng)計,得到多個屬性值類區(qū)間,按照預設(shè)權(quán)重計算公式計算樣本客戶的數(shù)字類的某屬性標簽的各個屬性值類區(qū)間的權(quán)重,然后執(zhí)行S102。
其中,預設(shè)權(quán)重計算公式w(xi)為:
對于數(shù)字類的某屬性標簽:xi表示數(shù)字類的某屬性標簽的屬性值類區(qū)間是xi,w(xi)表示數(shù)字類的某屬性標簽的屬性值類區(qū)間的權(quán)重,CRn表示數(shù)字類的某屬性標簽的集中度,c(xi)表示數(shù)字類的某屬性標簽的屬性值類區(qū)間中元素的個數(shù),c(X)表示數(shù)字類的某屬性標簽的所有屬性值類區(qū)間中元素的總個數(shù)。
在本實施例的一優(yōu)選實施例中,參見圖7,S103中的計算樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾档臋?quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重,包括:
S103a:判斷組成樣本客戶的各個挖掘?qū)傩詷撕灥亩€屬性標簽的類別,如果組成樣本客戶的某挖掘?qū)傩詷撕灥亩€屬性標簽的類別均是文本類,則執(zhí)行S103b;如果組成樣本客戶的某挖掘?qū)傩詷撕灥亩€屬性標簽的類別一個是文本類、一個是數(shù)字類,則執(zhí)行S103c;如果組成樣本客戶的某挖掘?qū)傩詷撕灥亩€屬性標簽的類別均是數(shù)字類,則執(zhí)行S103d。
S103b:按照預設(shè)權(quán)重計算公式計算樣本客戶的某挖掘?qū)傩詷撕灥母鱾€屬性值的權(quán)重,然后執(zhí)行104。
其中,預設(shè)權(quán)重計算公式w(xi)為:
對于某挖掘?qū)傩詷撕灥亩€屬性標簽的類別均是文本類:xi表示某挖掘?qū)傩詷撕灥膶傩灾凳莤i,w(xi)表示某挖掘?qū)傩詷撕灥膶傩灾祒i的權(quán)重,CRn表示某挖掘?qū)傩詷撕灥募卸?,c(xi)表示某挖掘?qū)傩詷撕灥膶傩灾祒i的個數(shù),c(X)表示某挖掘?qū)傩詷撕灥膶傩灾祒i的總個數(shù)。
需要說明的是,由于挖掘?qū)傩詷撕炇怯啥€屬性標簽組合得到的,所以 挖掘?qū)傩詷撕灥膶傩灾狄彩怯啥€屬性標簽的屬性值組合得到的。
S103c:采用動態(tài)聚類方法對樣本客戶的某挖掘?qū)傩詷撕灥母鱾€屬性值進行數(shù)據(jù)區(qū)間統(tǒng)計,得到多個屬性值類區(qū)間,按照預設(shè)權(quán)重計算公式計算樣本客戶的某挖掘?qū)傩詷撕灥母鱾€屬性值類區(qū)間的權(quán)重,然后執(zhí)行104。
S103d:采用自組織映射SOM(self-organization map)聚類方法對樣本客戶的某挖掘?qū)傩詷撕灥母鱾€屬性值進行數(shù)據(jù)區(qū)間統(tǒng)計,得到多個屬性值類區(qū)間,按照預設(shè)權(quán)重計算公式計算樣本客戶的某挖掘?qū)傩詷撕灥母鱾€屬性值類區(qū)間的權(quán)重,然后執(zhí)行104。
在本實施例的一優(yōu)選實施例中,參見圖8,S104根據(jù)樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重、樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾档臋?quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重,采用圖聚類方法對樣本客戶進行社群劃分,得到多個客戶社群,包括:
S104a:從所有的樣本客戶中隨機選擇一個樣本客戶,根據(jù)樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重、樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾档臋?quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重,按照預設(shè)最大連接權(quán)重選擇公式,從隨機選擇的樣本客戶與其他各個樣本客戶之間的連接權(quán)重中,選擇連接權(quán)重最大的一個其他樣本客戶,并將連接權(quán)重最大的一個其他樣本客戶與隨機選擇的樣本客戶組成待定客戶社群。
其中,預設(shè)最大連接權(quán)重選擇公式如下:
其中,v*表示與隨機選擇的樣本客戶v的連接權(quán)重最大的一個其他樣本客戶,Ev-connect表示隨機選擇的樣本客戶v與隨機選擇的樣本客戶v有共同屬性值的任一樣本客戶的連接權(quán)重。
其中,待定客戶社群即該客戶社群中包含的樣本客戶還沒有最好定下來,可能還有其他樣本客戶屬于該客戶社群,需要遍歷其他所有樣本客戶后再確定。
例如:從所有的樣本客戶中隨機選擇一個樣本客戶v1,按照預設(shè)最大連 接權(quán)重選擇公式,從隨機選擇的樣本客戶與其他各個樣本客戶之間的連接權(quán)重中,選擇連接權(quán)重最大的一個其他樣本客戶為v2,v1和v2組成第一個客戶社群g1(暫時為待定客戶社群)。
S104b:根據(jù)預設(shè)聚合公式,計算待定客戶社群之外的其他樣本客戶與待定客戶社群的聚合效應,根據(jù)待定客戶社群之外的其他樣本客戶與待定客戶社群的聚合效應,確定是否將待定客戶社群之外的其他樣本客戶添加到待定客戶社群組成客戶社群。
其中,預設(shè)聚合公式如下:
其中,當w(Sin)表示隨機選擇的樣本客戶v與待定客戶社群中的其他樣本客戶的連接權(quán)重、w(Sout)表示隨機選擇的樣本客戶v與待定客戶社群之外的其他樣本客戶的連接權(quán)重時,Condensity(gi)表示待定客戶社群的聚合效應值;當w(Sin)表示隨機選擇的樣本客戶v與客戶社群中的其他樣本客戶的連接權(quán)重、w(Sout)表示隨機選擇的樣本客戶v與客戶社群之外的其他樣本客戶的連接權(quán)重時,Condensity(gi)表示客戶社群的聚合效應值。
相應地,根據(jù)待定客戶社群之外的其他樣本客戶與待定客戶社群的聚合效應,確定是否將待定客戶社群之外的其他樣本客戶添加到待定客戶社群組成客戶社群,包括:
將待定客戶社群的聚合效應值與客戶社群的聚合效應值進行比較;
如果客戶社群的聚合效應值大于待定客戶社群的聚合效應值,則確定將待定客戶社群之外的其他樣本客戶添加到待定客戶社群組成客戶社群;
如果客戶社群的聚合效應值小于等于待定客戶社群的聚合效應值,則確定不將待定客戶社群之外的其他樣本客戶添加到待定客戶社群組成客戶社群。
例如:假設(shè)待定客戶社群g2是將樣本客戶v3擴充進入g1后形成的新的待定客戶社群,根據(jù)預設(shè)聚合公式分別計算得到Condensity(g2)、Condensity(g1),如果Condensity(g2)大于Condensity(g1),則確定能夠?qū)颖究蛻魐3擴充進入g1,如果Condensity(g2)小于等于Condensity(g1),則確定不能夠?qū)颖究蛻魐3擴充進入g1。
S104c:判斷客戶社群之外是否還有樣本客戶,如果有,則執(zhí)行S104d;否則,結(jié)束。
S104d:從客戶社群之外的樣本客戶中隨機選擇一個樣本客戶,然后執(zhí)行104a中的計算隨機選擇的樣本客戶與其他各個樣本客戶之間的連接權(quán)重的步驟。
具體地,參見圖9,按照S104a-S104d采用圖聚類方法依次對樣本客戶進行社群劃分,得到多個客戶社群(例如:第一客戶社群、第二客戶社群、第三客戶社群等)。需要說明的是,得到多個客戶社群,并不用分辨這個客戶社群到底是屬于什么性質(zhì)的社群(例如是運動客戶社群、工作客戶社群等),只需要通過標識區(qū)分開每個社群即可。
在本實施例的一優(yōu)選實施例中,參見圖10,按照預設(shè)概率公式計算得到新客戶屬于每個客戶社群的概率之后,還包括:
S107:將新客戶屬于每個客戶社群的概率進行比較,得到新客戶屬于客戶社群的最大概率。
其中,預設(shè)概率公式如下:
其中,Y表示新客戶的屬性標簽,yi表示新客戶的屬性標簽的第i個屬性值,n表示新客戶的屬性標簽有n個屬性值,B表示任一客戶社群。
S108:確定新客戶屬于最大概率對應的客戶社群。
具體地,確定新客戶屬于最大概率對應的客戶社群。對于具體類別的劃分,采用改進的貝葉斯網(wǎng)絡(luò),這里不再限定其為有向無環(huán)圖,而是對屬性標簽進行無序排列。
S109:更新樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重。
具體地,確定新客戶屬于最大概率對應的客戶社群后,將新客戶擴充進入最大概率對應的客戶社群,樣本客戶的數(shù)量發(fā)生了變化,需要更新樣本客 戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重。更新樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重的過程是按照上述權(quán)重計算公式重新進行計算。
在本實施例的一優(yōu)選實施例中,參見圖11,確定新客戶是商家的潛在客戶之后,還包括:
S110:獲取商家的反饋信息;其中,反饋信息包括確定的某新客戶是商家的潛在客戶不正確、和/或原來的某樣本客戶當前不符合商家的客戶標準。
具體地,當確定新客戶是商家的潛在客戶后,可以將新客戶的信息反饋給商家,然后商家判斷該新客戶是否是其需要的潛在客戶,如果不是,則可以反饋確定的某新客戶是商家的潛在客戶不正確?;蛘呱碳乙部梢愿鶕?jù)當前的情況,確定原來的某樣本客戶當前不符合商家的客戶標準,然后反饋原來的某樣本客戶當前不符合商家的客戶標準。
S111:根據(jù)商家的反饋信息,按照預設(shè)權(quán)重矯正公式對樣本客戶或新客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重進行矯正,并根據(jù)商家的反饋信息,對客戶社群進行矯正。
其中,預設(shè)權(quán)重矯正公式如下:
其中,表示樣本客戶或新客戶的矯正后的屬性標簽A的屬性值或?qū)傩灾殿悈^(qū)間在矯正后的客戶社群中的權(quán)重;表示樣本客戶或新客戶的矯正前的屬性標簽A的屬性值或?qū)傩灾殿悈^(qū)間在矯正后的客戶社群中的權(quán)重;表示樣本客戶或新客戶的矯正后的屬性標簽A在矯正前的客戶社群中的權(quán)重;表示矯正后的屬性標簽A的屬性值在矯正前的客戶社群中的總個數(shù);表示矯正前的屬性標簽A的屬性值在矯正后的客戶社群中的總個數(shù)。
本實施例所述的挖掘潛在客戶的方法,根據(jù)每個屬性標簽組合的集中度,以及組成每個屬性標簽組合的屬性標簽的集中度,選擇樣本客戶的挖掘 屬性標簽,根據(jù)樣本客戶的各個屬性標簽的屬性值域的權(quán)重、樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾涤虻臋?quán)重,采用圖聚類方法對樣本客戶進行社群劃分,得到多個客戶社群,當新客戶屬于每個客戶社群的概率中存在一概率大于預設(shè)概率閾值時,則確定新客戶是商家的潛在客戶,不需要將樣本客戶的各個屬性標簽進行組合,不需要遍歷各種組合情況,計算簡單快捷,可以節(jié)約時間。按照預設(shè)概率公式計算得到新客戶屬于每個客戶社群的概率,通過概率確定新客戶是不是商家的潛在客戶,而不需要采用梯度下降法求全局最優(yōu)結(jié)果,大大提高了運算速度。預設(shè)權(quán)重計算公式通過運用屬性標簽的集中度,能夠適應更復雜的數(shù)據(jù)結(jié)構(gòu),能夠更有效的反應數(shù)據(jù)的分布規(guī)律。根據(jù)商家的反饋信息,按照預設(shè)權(quán)重矯正公式對樣本客戶或新客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重進行矯正,預設(shè)權(quán)重矯正公式不僅考慮了屬性標簽所包含的樣本量因素,還針對權(quán)重本身進行懲罰或者獎勵,這樣不僅加快了效果反饋速度,同時還使得權(quán)重的變化更加穩(wěn)健,不會出現(xiàn)異常的增加或者減少,并且會隨著樣本客戶數(shù)量的增加,準確度也會越來越高。
如圖12所示,是本發(fā)明實施例的一種挖掘潛在客戶的裝置結(jié)構(gòu)圖,該裝置包括:
獲取模塊201,用于獲取商家的樣本客戶的各個屬性標簽,并計算樣本客戶的各個屬性標簽的集中度,以及樣本客戶的各個屬性標簽的屬性值域的權(quán)重;
組合計算模塊202,用于將樣本客戶的各個屬性標簽按照預設(shè)組合標準進行組合,得到多個屬性標簽組合,計算每個屬性標簽組合的集中度;
確定計算模塊203,用于根據(jù)每個屬性標簽組合的集中度,以及組成每個屬性標簽組合的屬性標簽的集中度,從多個屬性標簽組合中選擇樣本客戶的挖掘?qū)傩詷撕?,并計算樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾涤虻臋?quán)重;
劃分模塊204,用于根據(jù)樣本客戶的各個屬性標簽的屬性值域的權(quán)重、樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾涤虻臋?quán)重,采用圖聚類裝置對樣本客戶進行社群劃分,得到多個客戶社群;
概率計算模塊205,用于獲取新客戶的各個屬性標簽,并根據(jù)新客戶的各個屬性標簽的屬性值、每個客戶社群中的樣本客戶的各個屬性標簽的屬性值、各個挖掘?qū)傩詷撕灥膶傩灾?,按照預設(shè)概率公式計算得到新客戶屬于每個客戶社群的概率;
潛在客戶確定模塊206,用于當新客戶屬于每個客戶社群的概率中存在一概率大于預設(shè)概率閾值時,則確定新客戶是商家的潛在客戶。
進一步地,屬性值域的權(quán)重包括:屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重。
進一步地,獲取模塊201包括:
第一判斷單元,用于判斷樣本客戶的各個屬性標簽的類別;
第一計算單元,用于如果樣本客戶的某屬性標簽是文本類,則按照預設(shè)權(quán)重計算公式計算樣本客戶的文本類的某屬性標簽的各個屬性值的權(quán)重;
第二計算單元,用于如果樣本客戶的某屬性標簽的屬性值是數(shù)字類,則采用動態(tài)聚類裝置對樣本客戶的數(shù)字類的某屬性標簽的各個屬性值進行數(shù)據(jù)區(qū)間統(tǒng)計,得到多個屬性值類區(qū)間,按照預設(shè)權(quán)重計算公式計算樣本客戶的數(shù)字類的某屬性標簽的各個屬性值類區(qū)間的權(quán)重。
進一步地,預設(shè)權(quán)重計算公式為:
其中,對于文本類的某屬性標簽:xi表示文本類的某屬性標簽的屬性值是xi,w(xi)表示文本類的某屬性標簽的屬性值xi的權(quán)重,CRn表示文本類的某屬性標簽的集中度,c(xi)表示文本類的某屬性標簽的屬性值xi的個數(shù),c(X)表示文本類的某屬性標簽的所有屬性值的總個數(shù);對于數(shù)字類的某屬性標簽:xi表示數(shù)字類的某屬性標簽的屬性值類區(qū)間是xi,w(xi)表示數(shù)字類的某屬性標簽的屬性值類區(qū)間的權(quán)重,CRn表示數(shù)字類的某屬性標簽的集中度,c(xi)表示數(shù)字類的某屬性標簽的屬性值類區(qū)間中元素的個數(shù),c(X)表示數(shù)字類的某屬性標簽的所有屬性值類區(qū)間中元素的總個數(shù)。
進一步地,組合計算模塊202包括:
第一比較單元,用于將樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩? 值類區(qū)間的權(quán)重,與預設(shè)權(quán)重閾值進行比較,得到樣本客戶的屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重小于預設(shè)權(quán)重閾值的多個屬性標簽;
組合單元,用于將樣本客戶的小于預設(shè)權(quán)重閾值的多個屬性標簽進行二二組合,得到多個屬性標簽組合。
進一步地,確定計算模塊204還包括:
第二判斷單元,用于判斷組成樣本客戶的各個挖掘?qū)傩詷撕灥亩€屬性標簽的類別;
第三計算單元,用于如果組成樣本客戶的某挖掘?qū)傩詷撕灥亩€屬性標簽的類別均是文本類,則按照預設(shè)權(quán)重計算公式計算樣本客戶的某挖掘?qū)傩詷撕灥母鱾€屬性值的權(quán)重;
第四計算單元,用于如果組成樣本客戶的某挖掘?qū)傩詷撕灥亩€屬性標簽的類別一個是文本類、一個是數(shù)字類,則采用動態(tài)聚類裝置對樣本客戶的某挖掘?qū)傩詷撕灥母鱾€屬性值進行數(shù)據(jù)區(qū)間統(tǒng)計,得到多個屬性值類區(qū)間,按照預設(shè)權(quán)重計算公式計算樣本客戶的某挖掘?qū)傩詷撕灥母鱾€屬性值類區(qū)間的權(quán)重;
第五計算單元,用于如果組成樣本客戶的某挖掘?qū)傩詷撕灥亩€屬性標簽的類別均是數(shù)字類,則采用自組織映射SOM聚類裝置對樣本客戶的某挖掘?qū)傩詷撕灥母鱾€屬性值進行數(shù)據(jù)區(qū)間統(tǒng)計,得到多個屬性值類區(qū)間,按照預設(shè)權(quán)重計算公式計算樣本客戶的某挖掘?qū)傩詷撕灥母鱾€屬性值類區(qū)間的權(quán)重。
進一步地,確定計算模塊203包括:
第二比較單元,用于將每個屬性標簽組合的集中度,分別與組成每個屬性標簽組合的屬性標簽的集中度進行比較;
第一確定單元,用于如果某個屬性標簽組合的集中度大于組成某個屬性標簽組合的所有屬性標簽的集中度,則確定某個屬性標簽組合能夠作為樣本客戶的挖掘?qū)傩詷撕灒?/p>
第二確定單元,用于如果某個屬性標簽組合的集中度小于等于組成某個屬性標簽組合的任一屬性標簽的集中度,則確定某個屬性標簽組合不能夠作 為樣本客戶的挖掘?qū)傩詷撕灐?/p>
進一步地,劃分模塊204包括:
選擇單元,用于從所有的樣本客戶中隨機選擇一個樣本客戶,根據(jù)樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重、樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾档臋?quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重,按照預設(shè)最大連接權(quán)重選擇公式,從隨機選擇的樣本客戶與其他各個樣本客戶之間的連接權(quán)重中,選擇連接權(quán)重最大的一個其他樣本客戶,并將連接權(quán)重最大的一個其他樣本客戶與隨機選擇的樣本客戶組成待定客戶社群;
第三確定單元,用于根據(jù)預設(shè)聚合公式,計算待定客戶社群之外的其他樣本客戶與待定客戶社群的聚合效應,根據(jù)待定客戶社群之外的其他樣本客戶與待定客戶社群的聚合效應,確定是否將待定客戶社群之外的其他樣本客戶添加到待定客戶社群組成客戶社群;
通知單元,用于從客戶社群之外的樣本客戶中隨機選擇一個樣本客戶,然后通知選擇單元執(zhí)行計算隨機選擇的樣本客戶與其他各個樣本客戶之間的連接權(quán)重的步驟。
進一步地,預設(shè)最大連接權(quán)重選擇公式如下:
其中,v*表示與隨機選擇的樣本客戶v的連接權(quán)重最大的一個其他樣本客戶,Ev-connect表示隨機選擇的樣本客戶v與隨機選擇的樣本客戶v有共同屬性值的任一樣本客戶的連接權(quán)重。
進一步地,預設(shè)聚合公式如下:
其中,當w(Sin)表示隨機選擇的樣本客戶v與待定客戶社群中的其他樣本客戶的連接權(quán)重、w(Sout)表示隨機選擇的樣本客戶v與待定客戶社群之外的其他樣本客戶的連接權(quán)重時,Condensity(gi)表示待定客戶社群的聚合效應值;當w(Sin)表示隨機選擇的樣本客戶v與客戶社群中的其他樣本客戶的連接權(quán)重、w(Sout)表示隨機選擇的樣本客戶v與客戶社群之外的其他樣本客戶的連接權(quán)重時,Condensity(gi)表示客戶社群的聚合效應值。
進一步地,第三確定單元包括:
比較子單元,用于將待定客戶社群的聚合效應值與客戶社群的聚合效應值進行比較;
第一確定子單元,用于如果客戶社群的聚合效應值大于待定客戶社群的聚合效應值,則確定將待定客戶社群之外的其他樣本客戶添加到待定客戶社群組成客戶社群;
第二確定子單元,用于如果客戶社群的聚合效應值小于等于待定客戶社群的聚合效應值,則確定不將待定客戶社群之外的其他樣本客戶添加到待定客戶社群組成客戶社群。
進一步地,參見圖13,該裝置還包括:
比較模塊207,用于按照預設(shè)概率公式計算得到新客戶屬于每個客戶社群的概率之后,將新客戶屬于每個客戶社群的概率進行比較,得到新客戶屬于客戶社群的最大概率;
確定模塊208,用于確定新客戶屬于最大概率對應的客戶社群;
更新模塊209,用于更新樣本客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重。
進一步地,預設(shè)概率公式如下:
其中,Y表示新客戶的屬性標簽,yi表示新客戶的屬性標簽的第i個屬性值,n表示新客戶的屬性標簽有n個屬性值,B表示任一客戶社群。
進一步地,參見圖14,該裝置還包括:
反饋模塊210,用于確定新客戶是商家的潛在客戶之后,獲取商家的反饋信息;其中,反饋信息包括確定的某新客戶是商家的潛在客戶不正確、和/或原來的某樣本客戶當前不符合商家的客戶標準;
矯正模塊211,用于根據(jù)商家的反饋信息,按照預設(shè)權(quán)重矯正公式對樣本客戶或新客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重進行矯正,并根據(jù)商家的反饋信息,對客戶社群進行矯正。
進一步地,預設(shè)權(quán)重矯正公式如下:
其中,表示樣本客戶或新客戶的矯正后的屬性標簽A的屬性值或?qū)傩灾殿悈^(qū)間在矯正后的客戶社群中的權(quán)重;表示樣本客戶或新客戶的矯正前的屬性標簽A的屬性值或?qū)傩灾殿悈^(qū)間在矯正后的客戶社群中的權(quán)重;表示樣本客戶或新客戶的矯正后的屬性標簽A在矯正前的客戶社群中的權(quán)重。
本實施例所述的挖掘潛在客戶的裝置,根據(jù)每個屬性標簽組合的集中度,以及組成每個屬性標簽組合的屬性標簽的集中度,選擇樣本客戶的挖掘?qū)傩詷撕灒鶕?jù)樣本客戶的各個屬性標簽的屬性值域的權(quán)重、樣本客戶的各個挖掘?qū)傩詷撕灥膶傩灾涤虻臋?quán)重,采用圖聚類方法對樣本客戶進行社群劃分,得到多個客戶社群,當新客戶屬于每個客戶社群的概率中存在一概率大于預設(shè)概率閾值時,則確定新客戶是商家的潛在客戶,不需要將樣本客戶的各個屬性標簽進行組合,不需要遍歷各種組合情況,計算簡單快捷,可以節(jié)約時間。按照預設(shè)概率公式計算得到新客戶屬于每個客戶社群的概率,通過概率確定新客戶是不是商家的潛在客戶,而不需要采用梯度下降法求全局最優(yōu)結(jié)果,大大提高了運算速度。預設(shè)權(quán)重計算公式通過運用屬性標簽的集中度,能夠適應更復雜的數(shù)據(jù)結(jié)構(gòu),能夠更有效的反應數(shù)據(jù)的分布規(guī)律。根據(jù)商家的反饋信息,按照預設(shè)權(quán)重矯正公式對樣本客戶或新客戶的各個屬性標簽的屬性值的權(quán)重或?qū)傩灾殿悈^(qū)間的權(quán)重進行矯正,預設(shè)權(quán)重矯正公式不僅考慮了屬性標簽所包含的樣本量因素,還針對權(quán)重本身進行懲罰或者獎勵,這樣不僅加快了效果反饋速度,同時還使得權(quán)重的變化更加穩(wěn)健,不會出現(xiàn)異常的增加或者減少,并且會隨著樣本客戶數(shù)量的增加,準確度也會越來越高。
所述裝置與前述的方法流程描述對應,不足之處參考上述方法流程的敘述,不再一一贅述。
上述說明示出并描述了本發(fā)明的若干優(yōu)選實施例,但如前所述,應當理 解本發(fā)明并非局限于本文所披露的形式,不應看作是對其他實施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述發(fā)明構(gòu)想范圍內(nèi),通過上述教導或相關(guān)領(lǐng)域的技術(shù)或知識進行改動。而本領(lǐng)域人員所進行的改動和變化不脫離本發(fā)明的精神和范圍,則都應在本發(fā)明所附權(quán)利要求的保護范圍內(nèi)。