用戶標(biāo)識(shí)匹配方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及用戶畫(huà)像技術(shù)領(lǐng)域,尤其涉及用戶標(biāo)識(shí)匹配方法和裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,通過(guò)用戶畫(huà)像數(shù)據(jù)精準(zhǔn)分析每個(gè)用戶的屬性以及關(guān)系的需求越來(lái)越明確。用戶畫(huà)像是真實(shí)用戶的虛擬代表,是建立在一系列真實(shí)數(shù)據(jù)之上的目標(biāo)用戶模型。通過(guò)用戶調(diào)研去了解用戶,根據(jù)他們的目標(biāo)、行為和觀點(diǎn)的差異,將他們區(qū)分為不同的類(lèi)型,然后每種類(lèi)型中抽取出典型特征,賦予名字、照片、一些人口統(tǒng)計(jì)學(xué)要素、場(chǎng)景等描述,就形成了一個(gè)用戶畫(huà)像數(shù)據(jù)。用戶畫(huà)像使得企業(yè)能夠通過(guò)互聯(lián)網(wǎng)便利地獲取用戶更為廣泛的反饋信息,為進(jìn)一步精準(zhǔn)、快速地分析用戶行為習(xí)慣、消費(fèi)習(xí)慣等重要商業(yè)信息,提供了足夠的數(shù)據(jù)基礎(chǔ)。
[0003]目前,一些大型互聯(lián)網(wǎng)企業(yè)通常擁有多條產(chǎn)品線,每條產(chǎn)品線都有各自的用戶信息。為了更準(zhǔn)確地提取用戶畫(huà)像數(shù)據(jù),需要將多個(gè)產(chǎn)品線中的用戶標(biāo)識(shí)進(jìn)行匹配,以確定各個(gè)產(chǎn)品線用戶標(biāo)識(shí)是不是屬于同一個(gè)用戶?,F(xiàn)有的用戶標(biāo)識(shí)匹配的方法通常是單獨(dú)基于用戶標(biāo)識(shí)所關(guān)聯(lián)的IPdnternet Protocol,網(wǎng)絡(luò)協(xié)議)地址來(lái)對(duì)用戶標(biāo)識(shí)進(jìn)行匹配,或者單獨(dú)根據(jù)用戶標(biāo)識(shí)所關(guān)聯(lián)的定位信息來(lái)對(duì)用戶標(biāo)識(shí)進(jìn)行匹配。
[0004]然而,由于各個(gè)通信運(yùn)營(yíng)商的IP地址分配機(jī)制不同,且通常是隨機(jī)分配,因此單獨(dú)基于IP地址來(lái)對(duì)用戶標(biāo)識(shí)進(jìn)行匹配的方案的可靠性較低。同時(shí),由于用戶在訪問(wèn)互聯(lián)網(wǎng)服務(wù)時(shí)通常會(huì)選擇屏蔽不必要的定位請(qǐng)求,因此用戶的定位信息通常存在缺失,從而難以根據(jù)部分缺失的定位信息準(zhǔn)確地對(duì)用戶標(biāo)識(shí)進(jìn)行匹配。
【發(fā)明內(nèi)容】
[0005]本申請(qǐng)的目的在于提出一種用戶標(biāo)識(shí)匹配方法和裝置,來(lái)解決以上【背景技術(shù)】部分提到的技術(shù)問(wèn)題。
[0006]第一方面,本申請(qǐng)?zhí)峁┝艘环N用戶標(biāo)識(shí)匹配方法,所述方法包括:對(duì)預(yù)存的用戶操作信息集合進(jìn)行分析,獲取所述用戶操作信息集合中記錄的各個(gè)網(wǎng)絡(luò)協(xié)議IP地址所分布的至少一個(gè)定位區(qū)域以及各個(gè)定位區(qū)域的權(quán)重,其中,所述用戶操作信息集合中的用戶操作信息包括以下信息:用戶標(biāo)識(shí)、IP地址、定位點(diǎn)坐標(biāo);根據(jù)用戶標(biāo)識(shí)所關(guān)聯(lián)的IP地址所分布的定位區(qū)域以及各個(gè)定位區(qū)域的權(quán)重,獲取待匹配用戶標(biāo)識(shí)與各個(gè)所述用戶操作信息集合中記錄的其它用戶標(biāo)識(shí)之間的定位信息相似度;根據(jù)定位信息相似度,確定與所述待匹配用戶標(biāo)識(shí)匹配的其它用戶標(biāo)識(shí)。
[0007]在一些實(shí)施例中,所述對(duì)預(yù)存的用戶操作信息集合進(jìn)行分析,獲取所述用戶操作信息集合中記錄的各個(gè)網(wǎng)絡(luò)協(xié)議IP地址所分布的至少一個(gè)定位區(qū)域以及各個(gè)定位區(qū)域的權(quán)重,包括:獲取所述用戶操作信息集合中記錄的各個(gè)IP地址所關(guān)聯(lián)的定位點(diǎn)坐標(biāo)集合;針對(duì)每個(gè)所述IP地址,對(duì)所述IP地址所關(guān)聯(lián)的定位點(diǎn)坐標(biāo)集合進(jìn)行聚類(lèi)分析,得到所對(duì)應(yīng)的至少一個(gè)聚類(lèi),作為所述IP所分布的定位區(qū)域;針對(duì)每個(gè)所述IP地址,確定所述IP地址所分布的各個(gè)定位區(qū)域的權(quán)重。
[0008]在一些實(shí)施例中,所述針對(duì)每個(gè)所述IP地址,確定所述IP地址所分布的各個(gè)定位區(qū)域的權(quán)重,包括:將所分布的定位區(qū)域個(gè)數(shù)大于預(yù)設(shè)數(shù)量閾值或者定位區(qū)域中的定位點(diǎn)坐標(biāo)與中心點(diǎn)坐標(biāo)的距離平均值大于預(yù)設(shè)距離閾值的IP地址刪除;針對(duì)剩余的每個(gè)所述IP地址,確定所述IP地址所分布的各個(gè)定位區(qū)域的權(quán)重。
[0009]在一些實(shí)施例中,所述確定所述IP地址所分布的各個(gè)定位區(qū)域的權(quán)重,包括:根據(jù)所述IP地址所分布的各個(gè)定位區(qū)域中的定位點(diǎn)坐標(biāo)的個(gè)數(shù)和范圍,確定各個(gè)定位區(qū)域的初始權(quán)重;將用戶標(biāo)識(shí)所關(guān)聯(lián)的IP地址所分布的各個(gè)定位區(qū)域的中心點(diǎn)坐標(biāo)作為用戶標(biāo)識(shí)對(duì)應(yīng)的中心點(diǎn)坐標(biāo),對(duì)所述用戶操作信息集合中記錄的用戶標(biāo)識(shí)對(duì)應(yīng)的中心點(diǎn)坐標(biāo)根據(jù)地理布局進(jìn)行網(wǎng)格化,生成至少兩個(gè)網(wǎng)格;獲取所述用戶操作信息集合中記錄的每個(gè)用戶標(biāo)識(shí)對(duì)應(yīng)的在每個(gè)所述網(wǎng)格中的中心點(diǎn)坐標(biāo)所在定位區(qū)域的初始權(quán)重之和,作為每個(gè)網(wǎng)格與每個(gè)用戶標(biāo)識(shí)對(duì)應(yīng)的頻次,并獲取每個(gè)網(wǎng)格中的中心點(diǎn)坐標(biāo)所在定位區(qū)域的初始權(quán)重之和,作為每個(gè)網(wǎng)格對(duì)應(yīng)的總用戶頻次;基于所述頻次,通過(guò)TF-1DF算法計(jì)算各個(gè)定位區(qū)域的權(quán)重。
[0010]在一些實(shí)施例中,所述方法還包括:計(jì)算所述待匹配用戶標(biāo)識(shí)與各個(gè)其它用戶標(biāo)識(shí)之間的IP地址相似度;以及所述根據(jù)定位信息相似度,確定與所述待匹配用戶標(biāo)識(shí)匹配的其它用戶標(biāo)識(shí),包括:根據(jù)所述待匹配用戶標(biāo)識(shí)與各個(gè)其它用戶標(biāo)識(shí)之間的定位信息相似度和IP地址相似度,確定與所述待匹配用戶標(biāo)識(shí)匹配的其它用戶標(biāo)識(shí)。
[0011]在一些實(shí)施例中,所述根據(jù)所述待匹配用戶標(biāo)識(shí)與各個(gè)其它用戶標(biāo)識(shí)之間的定位信息相似度和IP地址相似度,確定與所述待匹配用戶標(biāo)識(shí)匹配的其它用戶標(biāo)識(shí),包括:獲取所述待匹配用戶標(biāo)識(shí)和每個(gè)其它用戶標(biāo)識(shí)對(duì)應(yīng)的特征信息,所述特征信息包括:所述待匹配用戶標(biāo)識(shí)和其它用戶標(biāo)識(shí)之間的IP地址相似度、定位信息相似度;基于所述待匹配用戶標(biāo)識(shí)和各個(gè)其它用戶標(biāo)識(shí)對(duì)應(yīng)的特征信息,通過(guò)預(yù)先訓(xùn)練的排序模型,獲取待匹配用戶標(biāo)識(shí)和各個(gè)其它用戶標(biāo)識(shí)匹配的概率;確定對(duì)應(yīng)的所述概率大于預(yù)定的閾值的其它用戶標(biāo)識(shí)與所述待匹配用戶標(biāo)識(shí)匹配。
[0012]在一些實(shí)施例中,所述用戶操作信息集合中的用戶操作數(shù)據(jù)信息還包括:終端型號(hào)信息、操作系統(tǒng)信息;以及所述特征信息還包括以下信息中的至少一個(gè):所述待匹配用戶標(biāo)識(shí)和其它用戶標(biāo)識(shí)之間的相同IP地址數(shù)量、對(duì)應(yīng)的中心點(diǎn)坐標(biāo)重合數(shù)量,所述待匹配用戶標(biāo)識(shí)和其它用戶標(biāo)識(shí)所關(guān)聯(lián)的終端型號(hào)信息、操作系統(tǒng)信息。
[0013]在一些實(shí)施例中,所述用戶操作信息集合中記錄的用戶標(biāo)識(shí)包括第一用戶標(biāo)識(shí)和第二用戶標(biāo)識(shí),所述待匹配用戶標(biāo)識(shí)和所述各個(gè)其它用戶標(biāo)識(shí)分別屬于第一用戶標(biāo)識(shí)和第二用戶標(biāo)識(shí)。
[0014]在一些實(shí)施例中,在獲取待匹配用戶標(biāo)識(shí)與各個(gè)所述用戶操作信息集合中記錄的其它用戶標(biāo)識(shí)之間的定位信息相似度之后,所述方法還包括:按照與所述待匹配用戶標(biāo)識(shí)之間的定位信息相似度從大到小的順序,在所述用戶操作信息集合中記錄的第二用戶標(biāo)識(shí)中依次選取預(yù)定數(shù)量個(gè)第二用戶標(biāo)識(shí),得到候選第二用戶標(biāo)識(shí)集合;以及所述根據(jù)定位信息相似度,確定與所述待匹配用戶標(biāo)識(shí)匹配的其它用戶標(biāo)識(shí),包括:根據(jù)所述待匹配用戶標(biāo)識(shí)與所述候選第二用戶標(biāo)識(shí)集合中的各個(gè)第二用戶標(biāo)識(shí)之間的定位信息相似度,確定與所述待匹配第一用戶標(biāo)識(shí)匹配的第二用戶標(biāo)識(shí)。
[0015]在一些實(shí)施例中,在根據(jù)所述待匹配用戶標(biāo)識(shí)與所述候選第二用戶標(biāo)識(shí)集合中的各個(gè)第二用戶標(biāo)識(shí)之間的定位信息相似度,確定與所述待匹配第一用戶標(biāo)識(shí)匹配的第二用戶標(biāo)識(shí)之前,所述方法還包括:針對(duì)所述候選第二用戶標(biāo)識(shí)集合中的每個(gè)第二用戶標(biāo)識(shí),獲取所述第二用戶標(biāo)識(shí)與各個(gè)第一用戶標(biāo)識(shí)之間的定位信息相似度;按照與所述第二用戶標(biāo)識(shí)之間的定位信息相似度從大到小的順序依次選取預(yù)定數(shù)量個(gè)第一用戶標(biāo)識(shí),得到候選第一用戶標(biāo)識(shí)集合;如果所述待匹配用戶標(biāo)識(shí)不在所述候選第一用戶標(biāo)識(shí)集合中,則將所述第二用戶標(biāo)識(shí)從所述候選第二用戶標(biāo)識(shí)集合中刪除。
[0016]第二方面,本申請(qǐng)?zhí)峁┝艘环N用戶標(biāo)識(shí)匹配裝置,所述裝置包括:定位信息獲取單元,用于對(duì)預(yù)存的用戶操作信息集合進(jìn)行分析,獲取所述用戶操作信息集合中記錄的各個(gè)網(wǎng)絡(luò)協(xié)議IP地址所分布的至少一個(gè)定位區(qū)域以及各個(gè)定位區(qū)域的權(quán)重,其中,所述用戶操作信息集合中的用戶操作信息包括以下信息:用戶標(biāo)識(shí)、IP地址、定位點(diǎn)坐標(biāo);定位信息相似度獲取單元,用于根據(jù)用戶標(biāo)識(shí)所關(guān)聯(lián)的IP地址所分布的定位區(qū)域以及各個(gè)定位區(qū)域的權(quán)重,獲取待匹配用戶標(biāo)識(shí)與各個(gè)所述用戶操作信息集合中記錄的其它用戶標(biāo)識(shí)之間的定位信息相似度;匹配單元,用于根據(jù)定位信息相似度,確定與所述待匹配用戶標(biāo)識(shí)匹配的其它用戶標(biāo)識(shí)。
[0017]在一些實(shí)施例中,所述定位信息獲取單元包括:坐標(biāo)集合獲取子單元,用于獲取所述用戶操作信息集合中記錄的各個(gè)IP地址所關(guān)聯(lián)的定位點(diǎn)坐標(biāo)集合;聚類(lèi)子單元,用于針對(duì)每個(gè)所述IP地址,對(duì)所述IP地址所關(guān)聯(lián)的定位點(diǎn)坐標(biāo)集合進(jìn)行聚類(lèi)分析,得到所對(duì)應(yīng)的至少一個(gè)聚類(lèi),作為所述IP所分布的定位區(qū)域;權(quán)重確定子單元,用于針對(duì)每個(gè)所述IP地址,確定所述IP地址所分布的各個(gè)定位區(qū)域的權(quán)重。
[0018]在一些實(shí)施例中,所述權(quán)重確定子單元包括:泛化IP清除模塊,用于將所分布的定位區(qū)域個(gè)數(shù)大于預(yù)設(shè)數(shù)量閾值或者定位區(qū)域中的定位點(diǎn)坐標(biāo)與中心點(diǎn)坐標(biāo)的距離平均值大于預(yù)設(shè)距離閾值的IP地址刪除;權(quán)重確定模塊,用于針對(duì)剩余的每個(gè)所述IP地址,確定所述IP地址所分布的各個(gè)定位區(qū)域的權(quán)重。
[0019]在一些實(shí)施例中,所述權(quán)重確定子單元包括:初始權(quán)重確定模塊,用于根據(jù)所述IP地址所分布的各個(gè)定位區(qū)域中的定位點(diǎn)坐標(biāo)的個(gè)數(shù)和范圍,確定各個(gè)定位區(qū)域的初始權(quán)重;網(wǎng)格化模塊,用于將用戶標(biāo)識(shí)所關(guān)聯(lián)的IP地址所分布的各個(gè)定位區(qū)域的中心點(diǎn)坐標(biāo)作為用戶標(biāo)識(shí)對(duì)應(yīng)的中心點(diǎn)坐標(biāo),對(duì)所述用戶操作信息集合中記錄的用戶標(biāo)識(shí)對(duì)應(yīng)的中心點(diǎn)坐標(biāo)根據(jù)地理布局進(jìn)行網(wǎng)格化,生成至少兩個(gè)網(wǎng)格;頻次獲取模塊,用于獲取所述用戶操作信息集合中記錄的每個(gè)用戶標(biāo)識(shí)對(duì)應(yīng)的在每個(gè)所述網(wǎng)格中的中心點(diǎn)坐標(biāo)所在定位區(qū)域的初始權(quán)重之和,作為每個(gè)網(wǎng)格與每個(gè)用戶標(biāo)識(shí)對(duì)應(yīng)的頻次,并獲取每個(gè)網(wǎng)格中的中心點(diǎn)坐標(biāo)所在定位區(qū)域的初始權(quán)重之和,作為每個(gè)網(wǎng)格對(duì)應(yīng)的總用戶頻次;權(quán)重計(jì)算模塊,用于基于所述頻次,通過(guò)TF-1DF算法計(jì)算各個(gè)聚類(lèi)的權(quán)重。
[0020]在一些實(shí)施例中,所述裝置還包括:IP相似度計(jì)算單元,用于計(jì)算所述待匹配用戶標(biāo)識(shí)與各個(gè)其它用戶標(biāo)識(shí)之間的IP地址相似度;以及所述匹配單元還用于根據(jù)所述待匹配用戶標(biāo)識(shí)與各個(gè)其它用戶標(biāo)識(shí)之間的定位信息相似度和IP地址相似度,確定與所述待匹配用戶標(biāo)識(shí)匹配的其它用戶標(biāo)識(shí)。
[0021]在一些實(shí)施例中,所述匹配單元包括:特征信息獲取子單元,用于獲取所述待匹配用戶標(biāo)識(shí)和每個(gè)其它用戶標(biāo)識(shí)對(duì)應(yīng)的特征信息,所述特征信息包括:所述待匹配用戶標(biāo)識(shí)和其它用戶標(biāo)識(shí)之間的IP地址相似度、定位信息相似度;排序子單元,用于基于所述待匹配用戶標(biāo)識(shí)和各個(gè)其它用戶標(biāo)識(shí)對(duì)應(yīng)的特征信息,通過(guò)預(yù)先訓(xùn)練的排序模型,獲取待匹配用戶標(biāo)識(shí)和各個(gè)其它用戶標(biāo)識(shí)匹配的概率;匹配子單元,用于確定對(duì)應(yīng)的所述概率大于預(yù)定的閾值的其它用戶標(biāo)識(shí)與所述待匹配用戶標(biāo)識(shí)匹配。
[0022]在一些實(shí)施例中,所述用戶操作信息集合中的用戶操作數(shù)據(jù)信息還包括:終端型號(hào)信息、操作系統(tǒng)信息;以及所述特征信息還包括以下信息中的至少一個(gè):所述待匹配用戶標(biāo)識(shí)和其它用戶標(biāo)識(shí)之間的相同IP地址數(shù)量、對(duì)應(yīng)的中心點(diǎn)坐標(biāo)重合數(shù)量,所述待匹配用戶標(biāo)識(shí)和其它用戶標(biāo)識(shí)所關(guān)聯(lián)的終端型號(hào)信息、操作系統(tǒng)信息。
[0023]在一些實(shí)施例中,所述用戶操作信息集合中記錄的用戶標(biāo)識(shí)包括第一用戶標(biāo)識(shí)和第二用戶標(biāo)識(shí),所述待匹配用戶標(biāo)識(shí)和所述各個(gè)其它用戶標(biāo)識(shí)分別屬于第一用戶標(biāo)識(shí)和第二用戶標(biāo)識(shí)。
[0024]在一些實(shí)施例中,所述裝置還包括:第一選取單元,用于在所述定位信息相似度獲取單元獲取待匹配用戶標(biāo)識(shí)與各個(gè)所述用戶操作信息集合中記錄的其它用戶標(biāo)識(shí)