本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別地涉及一種預(yù)測用戶婚姻狀態(tài)的方法和裝置。
背景技術(shù):
電商行業(yè)飛速發(fā)展,用戶希望在電商購物過程中獲得個(gè)性化的推薦信息。個(gè)性化的購物推薦系統(tǒng)的背后需要大量的用戶標(biāo)簽來支撐,其中“已婚/未婚”這個(gè)婚姻狀態(tài)標(biāo)簽是非常重要的。然而,電子商務(wù)網(wǎng)站上的用戶填寫個(gè)人信息的比例非常低(平均不到5%),因此目前的購物推薦系統(tǒng)難以判斷婚姻狀態(tài),從而無法向用戶提供合理的推薦商品。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供一種預(yù)測用戶婚姻狀態(tài)的方法和裝置,能夠準(zhǔn)確有效地預(yù)測用戶的婚姻狀態(tài)。
為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種預(yù)測用戶婚姻狀態(tài)的方法。
本發(fā)明的預(yù)測用戶婚姻狀態(tài)的方法包括:獲取樣本用戶的婚姻狀態(tài)信息、購物評(píng)價(jià)信息以及訂單總數(shù)量;根據(jù)所述樣本用戶的婚姻狀態(tài)信息、購物評(píng)價(jià)信息以及訂單總數(shù)量編寫訓(xùn)練數(shù)據(jù)向量;根據(jù)所述訓(xùn)練數(shù)據(jù)向量進(jìn)行分類訓(xùn)練,得到預(yù)測模型;利用所述預(yù)測模型預(yù)測目標(biāo)用戶的婚姻狀態(tài)信息。
可選地,所述婚姻狀態(tài)包括未婚狀態(tài)和已婚狀態(tài),所述根據(jù)所述 樣本用戶的婚姻狀態(tài)信息、購物評(píng)價(jià)信息以及訂單總數(shù)量編寫訓(xùn)練數(shù)據(jù)向量的步驟包括:將所述樣本用戶的所述婚姻狀態(tài)信息進(jìn)行二值化處理,得到二值化結(jié)果;統(tǒng)計(jì)購物評(píng)價(jià)信息中已婚特征詞語出現(xiàn)次數(shù)以及未婚特征詞語出現(xiàn)次數(shù);將所述二值化結(jié)果、已婚特征詞語出現(xiàn)次數(shù)、未婚特征詞語出現(xiàn)次數(shù)以及訂單總數(shù)量作為向量的維度,編寫所述訓(xùn)練數(shù)據(jù)向量。
可選地,還包括:在所述根據(jù)所述樣本用戶的婚姻狀態(tài)信息、購物評(píng)價(jià)信息以及訂單總數(shù)量編寫訓(xùn)練數(shù)據(jù)向量的步驟之前,獲取所述樣本用戶的預(yù)設(shè)類型訂單的數(shù)量;在所述根據(jù)所述樣本用戶的婚姻狀態(tài)信息、購物評(píng)價(jià)信息以及訂單總數(shù)量編寫訓(xùn)練數(shù)據(jù)向量的步驟的同時(shí),將所述預(yù)設(shè)類型訂單的數(shù)量作為向量維度編寫所述訓(xùn)練數(shù)據(jù)向量。
可選地,所述預(yù)設(shè)類型訂單包括下列選項(xiàng)之一或下列選項(xiàng)中多者的組合:母嬰類型訂單、家電類型訂單、家居類型訂單,以及保健類型訂單。
可選地,利用adaboost算法模型根據(jù)訓(xùn)練數(shù)據(jù)向量進(jìn)行分類訓(xùn)練。
根據(jù)本發(fā)明的另一方面,提供了一種預(yù)測用戶婚姻狀態(tài)的裝置。
本發(fā)明的預(yù)測用戶婚姻狀態(tài)的裝置,包括:獲取模塊,用于獲取樣本用戶的婚姻狀態(tài)信息、購物評(píng)價(jià)信息以及訂單總數(shù)量;編寫模塊,用于根據(jù)所述樣本用戶的婚姻狀態(tài)信息、購物評(píng)價(jià)信息以及訂單總數(shù)量編寫訓(xùn)練數(shù)據(jù)向量;建模模塊,用于根據(jù)所述訓(xùn)練數(shù)據(jù)向量進(jìn)行分類訓(xùn)練,得到預(yù)測模型;預(yù)測模塊,用于將目標(biāo)用戶的購物評(píng)價(jià)信息和訂單分類統(tǒng)計(jì)信息輸入所述預(yù)測模型,得到該目標(biāo)用戶的婚姻狀態(tài)信息。
可選地,所述婚姻狀態(tài)包括未婚狀態(tài)和已婚狀態(tài),所述編寫模塊 還用于:將所述樣本用戶的所述婚姻狀態(tài)信息進(jìn)行二值化處理,得到二值化結(jié)果;統(tǒng)計(jì)購物評(píng)價(jià)信息中已婚特征詞語出現(xiàn)次數(shù)以及未婚特征詞語出現(xiàn)次數(shù);將所述二值化結(jié)果、已婚特征詞語出現(xiàn)次數(shù)、未婚特征詞語出現(xiàn)次數(shù)以及訂單總數(shù)量作為向量的維度,編寫所述訓(xùn)練數(shù)據(jù)向量。
可選地,所述獲取模塊還用于獲取所述樣本用戶的預(yù)設(shè)類型訂單的數(shù)量;所述編寫模塊還用于將所述預(yù)設(shè)類型訂單的數(shù)量作為向量維度編寫所述訓(xùn)練數(shù)據(jù)向量。
可選地,在所述獲取模塊中,所述預(yù)設(shè)類型訂單包括下列選項(xiàng)之一或下列選項(xiàng)中多者的組合:母嬰類型訂單、家電類型訂單、家居類型訂單,以及保健類型訂單。
可選地,在所述建模模塊中,利用adaboost算法模型根據(jù)訓(xùn)練數(shù)據(jù)向量進(jìn)行分類訓(xùn)練。
根據(jù)本發(fā)明的技術(shù)方案以用戶購物評(píng)價(jià)以及訂單總數(shù)量為特征信息,基于機(jī)器學(xué)習(xí)得到了預(yù)測模型,然后應(yīng)用該預(yù)測模型去判斷目標(biāo)用戶的婚姻狀態(tài),具有簡單易行、準(zhǔn)確度高等優(yōu)點(diǎn)。
附圖說明
附圖用于更好地理解本發(fā)明,不構(gòu)成對本發(fā)明的不當(dāng)限定。其中:
圖1是根據(jù)本發(fā)明實(shí)施方式的預(yù)測用戶婚姻狀態(tài)的方法的主要步驟的示意圖;
圖2是根據(jù)本發(fā)明實(shí)施方式的預(yù)測用戶婚姻狀態(tài)的裝置的主要模塊的示意圖。
具體實(shí)施方式
以下結(jié)合附圖對本發(fā)明的示范性實(shí)施例做出說明,其中包括本發(fā) 明實(shí)施例的各種細(xì)節(jié)以助于理解,應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)到,可以對這里描述的實(shí)施例做出各種改變和修改,而不會(huì)背離本發(fā)明的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結(jié)構(gòu)的描述。
調(diào)查數(shù)據(jù)表明,已婚用戶和未婚用戶的購物評(píng)價(jià)信息中的部分字句會(huì)透露出其身份。例如:“給老公買的,他很滿意”這句評(píng)論多半為已婚用戶寫的。此外,調(diào)查數(shù)據(jù)還表明,已婚用戶購買母嬰產(chǎn)品、家電產(chǎn)品等等特殊類型的產(chǎn)品的比重遠(yuǎn)高于未婚用戶。基于上述發(fā)明思想,提出本發(fā)明的技術(shù)方案。
圖1是根據(jù)本發(fā)明實(shí)施方式的預(yù)測用戶婚姻狀態(tài)的方法的主要步驟的示意圖。如圖1所示,該實(shí)施方式的預(yù)測用戶婚姻狀態(tài)的方法主要包括如下的步驟A至步驟D。
步驟A:獲取樣本用戶的婚姻狀態(tài)信息、購物評(píng)價(jià)信息以及訂單總數(shù)量。
需要說明的是,這些樣本用戶相關(guān)數(shù)據(jù)會(huì)在后面的步驟中用作機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)。
步驟B:根據(jù)樣本用戶的婚姻狀態(tài)信息、購物評(píng)價(jià)信息以及訂單總數(shù)量編寫訓(xùn)練數(shù)據(jù)向量。
在本發(fā)明的實(shí)施方式中,討論用戶婚姻狀態(tài)時(shí)并不仔細(xì)區(qū)分未婚、已婚、離異、喪偶等多種狀態(tài),而是簡化地認(rèn)為用戶婚姻狀態(tài)包括未婚狀態(tài)和已婚狀態(tài),這兩種狀態(tài)互為補(bǔ)集。在這種情況下,本發(fā)明實(shí)施方式的預(yù)測用戶婚姻狀態(tài)的方法中,步驟B具體包括如下的步驟B1至步驟B3。
步驟B1:將樣本用戶的婚姻狀態(tài)信息進(jìn)行二值化處理,得到二值化結(jié)果。例如:可以將已婚狀態(tài)定義為“1”,未婚狀態(tài)定義為“0”。
步驟B2:統(tǒng)計(jì)購物評(píng)價(jià)信息中已婚特征詞語出現(xiàn)次數(shù)以及未婚特征詞語出現(xiàn)次數(shù)。需要說明的是,“已婚特征詞語”和“未婚特征詞語”的字典是可以預(yù)先自行定義的。例如:“老公”、“寶寶”、“媳婦”、“女兒”、“兒子”等等詞均為已婚特征詞語,“男友”、“女友”、“男朋友”、“女朋友”等等詞均為未婚特征詞語。
步驟B3:將二值化結(jié)果、已婚特征詞語出現(xiàn)次數(shù)、未婚特征詞語出現(xiàn)次數(shù)以及訂單總數(shù)量作為向量的維度,編寫訓(xùn)練數(shù)據(jù)向量。需要說明的是,訓(xùn)練數(shù)據(jù)向量中的多個(gè)維度之間的排列順序可以靈活設(shè)置,并不受到限定。
步驟C:根據(jù)訓(xùn)練數(shù)據(jù)向量進(jìn)行分類訓(xùn)練,得到預(yù)測模型。
需要說明的是,步驟C中的模型訓(xùn)練可以基于多種算法,例如樸素貝葉斯(Naive Bayesian classification)、線性回歸(Linear Regression)、隨機(jī)森林(Random forest)、決策樹(Decision Tree)和adaboost等等。其中,優(yōu)選采用adaboost算法。adaboost是一種迭代算法,其核心思想是針對同一個(gè)訓(xùn)練集訓(xùn)練不同的弱分類器,然后把這些弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器。
因此,在本發(fā)明的實(shí)施方式中,可以基于adaboost算法根據(jù)訓(xùn)練數(shù)據(jù)向量進(jìn)行分類訓(xùn)練,得到預(yù)測模型。
步驟D:利用預(yù)測模型預(yù)測目標(biāo)用戶的婚姻狀態(tài)信息。具體地,向預(yù)測模型輸入目標(biāo)用戶的購物評(píng)價(jià)信息以及訂單總數(shù)量,然后預(yù)測模型輸出該目標(biāo)用戶的婚姻狀態(tài)信息。
根據(jù)本發(fā)明的實(shí)施方式的預(yù)測用戶婚姻狀態(tài)的方法,以用戶購物評(píng)價(jià)以及訂單總數(shù)量為特征信息,基于機(jī)器學(xué)習(xí)得到了預(yù)測模型,然后應(yīng)用該預(yù)測模型去判斷目標(biāo)用戶的婚姻狀態(tài),具有簡單易行、準(zhǔn)確 度高等優(yōu)點(diǎn)。
為了得到更準(zhǔn)確的預(yù)測結(jié)果,本發(fā)明實(shí)施方式中的預(yù)測用戶婚姻狀態(tài)的方法,還可以包括如下步驟:在編寫訓(xùn)練數(shù)據(jù)向量的步驟之前,獲取樣本用戶的預(yù)設(shè)類型訂單的數(shù)量;在編寫訓(xùn)練數(shù)據(jù)向量的過程中,將預(yù)設(shè)類型訂單的數(shù)量作為訓(xùn)練數(shù)據(jù)向量的維度。換言之,在步驟C之前,獲取樣本用戶的預(yù)設(shè)類型訂單的數(shù)量;在步驟C的同時(shí),將預(yù)設(shè)類型訂單的數(shù)量作為向量維度編寫訓(xùn)練數(shù)據(jù)向量。
需要說明的是,預(yù)設(shè)類型訂單數(shù)量可以是一種預(yù)設(shè)類型訂單數(shù)量或者多種預(yù)設(shè)類型訂單,相對應(yīng)于向量的一個(gè)維度或者多個(gè)維度。預(yù)設(shè)類型訂單包括下列選項(xiàng)之一或下列選項(xiàng)中多者的組合:母嬰類型訂單、家電類型訂單、家居類型訂單,以及保健類型訂單。
該實(shí)施方式的預(yù)測用戶婚姻狀態(tài)的方法還綜合考慮了已婚用戶和未婚用戶偏愛購買不同品類商品的情況,將預(yù)設(shè)類型訂單數(shù)量也作為特征信息,具有準(zhǔn)確率更高的優(yōu)點(diǎn)。
圖2是根據(jù)本發(fā)明實(shí)施例的預(yù)測用戶婚姻狀態(tài)的裝置的主要模塊的示意圖。如圖2所示,本發(fā)明實(shí)施方式的預(yù)測用戶婚姻狀態(tài)的裝置20可以包括獲取模塊201、編寫模塊202、建模模塊203以及預(yù)測模塊204。其中:獲取模塊201用于獲取樣本用戶的婚姻狀態(tài)信息、購物評(píng)價(jià)信息以及訂單總數(shù)量。編寫模塊202用于根據(jù)樣本用戶的婚姻狀態(tài)信息、購物評(píng)價(jià)信息以及訂單總數(shù)量編寫訓(xùn)練數(shù)據(jù)向量。建模模塊203用于根據(jù)訓(xùn)練數(shù)據(jù)向量進(jìn)行分類訓(xùn)練,得到預(yù)測模型。預(yù)測模塊204用于將目標(biāo)用戶的購物評(píng)價(jià)信息和訂單分類統(tǒng)計(jì)信息輸入預(yù)測模型,得到該目標(biāo)用戶的婚姻狀態(tài)信息。
根據(jù)本發(fā)明的實(shí)施方式的預(yù)測用戶婚姻狀態(tài)的裝置,以用戶購物評(píng)價(jià)以及訂單總數(shù)量為特征信息,基于機(jī)器學(xué)習(xí)得到了預(yù)測模型,然 后應(yīng)用該預(yù)測模型去判斷目標(biāo)用戶的婚姻狀態(tài),具有簡單易行、準(zhǔn)確度高等優(yōu)點(diǎn)。
在本發(fā)明的實(shí)施方式中,婚姻狀態(tài)包括未婚狀態(tài)和已婚狀態(tài)。編寫模塊202可以還用于:將樣本用戶的婚姻狀態(tài)信息進(jìn)行二值化處理,得到二值化結(jié)果;統(tǒng)計(jì)購物評(píng)價(jià)信息中已婚特征詞語出現(xiàn)次數(shù)以及未婚特征詞語出現(xiàn)次數(shù);將二值化結(jié)果、已婚特征詞語出現(xiàn)次數(shù)、未婚特征詞語出現(xiàn)次數(shù)以及訂單總數(shù)量作為向量的維度,編寫訓(xùn)練數(shù)據(jù)向量。
在本發(fā)明的實(shí)施方式中,獲取模塊201還可以用于獲取樣本用戶的預(yù)設(shè)類型訂單的數(shù)量;編寫模塊202還用于將預(yù)設(shè)類型訂單的數(shù)量作為向量維度編寫訓(xùn)練數(shù)據(jù)向量。
在本發(fā)明的實(shí)施方式中,在獲取模塊201中,預(yù)設(shè)類型訂單可以包括下列選項(xiàng)之一或下列選項(xiàng)中多者的組合:母嬰類型訂單、家電類型訂單、家居類型訂單,以及保健類型訂單。
在本發(fā)明的實(shí)施方式中,在建模模塊203中,可以利用adaboost算法模型根據(jù)訓(xùn)練數(shù)據(jù)向量進(jìn)行分類訓(xùn)練。
為使本領(lǐng)域技術(shù)人員更好地理解,現(xiàn)列舉一個(gè)具體實(shí)施例如下:
從某電商平臺(tái)的數(shù)據(jù)庫中獲取到填寫了“已婚/未婚”的婚姻狀態(tài)信息的所有用戶名單,然后從中隨機(jī)選出15萬個(gè)用戶作為樣本數(shù)據(jù),然后另外隨機(jī)選出5萬用戶作為測試數(shù)據(jù)。提供已婚特征詞語字典和未婚特征詞語字典。然后通過自然語言處理技術(shù)對各個(gè)樣本用戶的評(píng)論信息進(jìn)行分詞。分詞后統(tǒng)計(jì)某個(gè)樣本用戶的評(píng)論中出現(xiàn)已婚特征詞語的次數(shù)記為V1,此特征為正例,出現(xiàn)的次數(shù)越多,該樣本用戶已婚的可能性越大。再統(tǒng)計(jì)該樣本用戶的評(píng)論中出現(xiàn)未婚特征詞語的次數(shù) V2,此特征為反例,出現(xiàn)的次數(shù)越多,該樣本用戶未婚的可能性越大。獲取該樣本用戶的訂單分類統(tǒng)計(jì)信息,以便于獲取樣本用戶在網(wǎng)購行為特征。具體地,從數(shù)據(jù)庫中獲取樣本用戶和測試用戶的訂單信息,并統(tǒng)計(jì)各個(gè)用戶在母嬰品類訂單數(shù)量V3、家居品類訂單數(shù)量V4、家電品類訂單數(shù)量V5和所有訂單總數(shù)量V6。選用的分類預(yù)測模型工具為xgboost。xgboost是adaboost算法實(shí)現(xiàn)的一個(gè)工具,其全稱為Extreme Gradient Boosting。將所有的樣本用戶的數(shù)據(jù)和測試數(shù)據(jù)生成xgboost模型所需要的特征格式。xgboost模型中的數(shù)據(jù)向量共七個(gè)維度。第1維度的含義是婚姻狀態(tài)的二值化結(jié)果。采用“1”代表該用戶是已婚用戶,“0”代表該用戶未婚。第2個(gè)維度至第7個(gè)維度所代表的的含義分別是前面所提取的特征V1至V6。將該15萬條樣本用戶的數(shù)據(jù)轉(zhuǎn)換為上述格式,并使用xgboost對樣本用戶數(shù)據(jù)進(jìn)行訓(xùn)練,得到xgboost模型。對5萬條測試數(shù)據(jù)做如下處理:以測試用戶的V1至V6作為向量特征輸入xgboost模型進(jìn)行預(yù)測,每條測試數(shù)據(jù)對應(yīng)的預(yù)測結(jié)果文件是0到1的數(shù)值,定義“大于0.5為已婚,小于等于0.5為已婚”,可以預(yù)測出所有測試用戶是否已婚。在使用xgboost工具訓(xùn)練的過程中可以看到模型的準(zhǔn)確率。通過多次反復(fù)訓(xùn)練驗(yàn)證,本發(fā)明的技術(shù)方案的預(yù)測準(zhǔn)確率在0.86至0.90之間。
上述具體實(shí)施方式,并不構(gòu)成對本發(fā)明保護(hù)范圍的限制。本領(lǐng)域技術(shù)人員應(yīng)該明白的是,取決于設(shè)計(jì)要求和其他因素,可以發(fā)生各種各樣的修改、組合、子組合和替代。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)范圍之內(nèi)。