基于家庭工作地上下文環(huán)境的用戶(hù)需求獲取方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)領(lǐng)域,特別設(shè)及一種基于家庭工作地上下文環(huán) 境的用戶(hù)需求獲取技術(shù)方案。
【背景技術(shù)】
[0002] 隨著移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展與普及,移動(dòng)用戶(hù)持續(xù)增長(zhǎng)且更加依賴(lài)網(wǎng)絡(luò),信息超 載也越來(lái)越嚴(yán)重。目前移動(dòng)互聯(lián)網(wǎng)面臨著大量?jī)?nèi)容需求、高昂維護(hù)費(fèi)用、移動(dòng)控制等挑戰(zhàn), 而移動(dòng)用戶(hù)興趣的準(zhǔn)確獲取對(duì)于解決W上問(wèn)題尤為重要,在工業(yè)界和學(xué)術(shù)界引起了廣泛的 研究。現(xiàn)有的信息探測(cè)技術(shù)可W獲取大量移動(dòng)網(wǎng)絡(luò)用戶(hù)的UDRs扣sageDetailRecords,使 用詳細(xì)記錄),運(yùn)為基于數(shù)據(jù)驅(qū)動(dòng)的用戶(hù)興趣獲取的研究提供了數(shù)據(jù)來(lái)源。
[0003] 在有線(xiàn)網(wǎng)絡(luò)中,多種技術(shù)可被用于用戶(hù)需求的采集,例如信息檢索、數(shù)據(jù)挖掘、復(fù) 雜網(wǎng)絡(luò)等。移動(dòng)互聯(lián)網(wǎng)因融合了用戶(hù)移動(dòng)性,對(duì)用戶(hù)興趣的分析也涌現(xiàn)了新的方法,例如整 合了用戶(hù)、時(shí)間、空間、行為四個(gè)方面的非參數(shù)貝葉斯模型,用戶(hù)旅游行為與旅游偏好的關(guān) 聯(lián)分析等。然而,移動(dòng)互聯(lián)網(wǎng)為用戶(hù)需求分析也帶來(lái)了挑戰(zhàn)。移動(dòng)互聯(lián)網(wǎng)永遠(yuǎn)在線(xiàn)和覆蓋 范圍廣的特性使得用戶(hù)可W隨時(shí)隨地接入移動(dòng)互聯(lián)網(wǎng),人們對(duì)移動(dòng)互聯(lián)網(wǎng)的訪(fǎng)問(wèn)已突破時(shí) 空限制。運(yùn)些隨時(shí)隨地的訪(fǎng)問(wèn)行為增加了用戶(hù)網(wǎng)絡(luò)使用信息的復(fù)雜度,嚴(yán)重降低了用戶(hù)興 趣獲取的準(zhǔn)確率。因此,探索新的方法高效且準(zhǔn)確地獲取用戶(hù)興趣便尤為重要。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明針對(duì)上述問(wèn)題,提出了一種基于家庭工作地上下文環(huán)境的用戶(hù)需求獲取技 術(shù)方案,結(jié)合用戶(hù)家庭和工作地的上下文環(huán)境信息進(jìn)行用戶(hù)興趣識(shí)別。 陽(yáng)〇化]本發(fā)明的技術(shù)方案提供一種基于家庭工作地上下文環(huán)境的用戶(hù)需求獲取方法,包 括W下步驟,
[0006] 步驟1,基于移動(dòng)網(wǎng)絡(luò)運(yùn)營(yíng)商的數(shù)據(jù)集,獲取移動(dòng)用戶(hù)網(wǎng)絡(luò)使用信息,得到初始的 用戶(hù)上網(wǎng)記錄;
[0007] 步驟2,進(jìn)行數(shù)據(jù)清洗,從步驟1所得初始的用戶(hù)上網(wǎng)記錄中排除異常的用戶(hù)上網(wǎng) 記錄;
[0008] 步驟3.根據(jù)步驟2清洗結(jié)果,從用戶(hù)上網(wǎng)記錄中提取與用戶(hù)興趣相關(guān)的屬性;
[0009] 步驟4.進(jìn)行用戶(hù)興趣空間發(fā)現(xiàn),包括根據(jù)訪(fǎng)問(wèn)用戶(hù)數(shù)量和訪(fǎng)問(wèn)時(shí)長(zhǎng)分別對(duì)網(wǎng)站 進(jìn)行排序并確定候選網(wǎng)站,然后依據(jù)候選網(wǎng)站的社會(huì)屬性與相似性進(jìn)行聚類(lèi),并對(duì)分類(lèi)后 網(wǎng)站做標(biāo)簽化處理,得到用戶(hù)興趣空間;
[0010] 步驟5.利用夾擠定理進(jìn)行家庭工作地位置發(fā)現(xiàn),并獲取相應(yīng)家庭工作地上下文 信息;所述利用夾擠定理進(jìn)行家庭工作地位置發(fā)現(xiàn),包括根據(jù)用戶(hù)在每天的第一條上網(wǎng)記 錄、最后一條上網(wǎng)記錄中出現(xiàn)頻率最高的位置的中點(diǎn),確定用戶(hù)家庭位置,根據(jù)用戶(hù)在工作 日的上午、下午的上網(wǎng)記錄中出現(xiàn)頻率最高的位置的中點(diǎn),確定用戶(hù)工作地位置;
[0011] 步驟6.進(jìn)行數(shù)據(jù)整合,將同一用戶(hù)的用戶(hù)上網(wǎng)記錄和相應(yīng)的家庭工作地上下文 信息進(jìn)行整合,擴(kuò)展與用戶(hù)興趣相關(guān)的屬性,將家庭工作地上下文信息內(nèi)容加入用戶(hù)上網(wǎng) 記錄;
[0012] 步驟7.利用主成分分析方法,對(duì)步驟6整合后所得用戶(hù)上網(wǎng)記錄進(jìn)行數(shù)據(jù)降維;
[0013] 步驟8.利用隨機(jī)森林進(jìn)行模型訓(xùn)練,包括對(duì)每棵樹(shù),從訓(xùn)練集中有放回地隨機(jī)選 取樣本,作為樹(shù)的訓(xùn)練集;對(duì)樹(shù)中的每個(gè)節(jié)點(diǎn),從用戶(hù)上網(wǎng)記錄的所有屬性中無(wú)放回地隨機(jī) 選取幾個(gè)屬性,尋找分類(lèi)效果最好的一維特征,并據(jù)此對(duì)該節(jié)點(diǎn)上的樣本進(jìn)行分類(lèi);
[0014] 步驟9.利用步驟8的訓(xùn)練結(jié)果對(duì)待測(cè)試的用戶(hù)上網(wǎng)記錄進(jìn)行分類(lèi),得到預(yù)測(cè)結(jié) 果。
[0015] 而且,步驟5中,確定用戶(hù)家庭位置的方式包括如下子步驟,
[0016] 步驟5. 1. 1,隨機(jī)選取數(shù)據(jù)集中一個(gè)用戶(hù)為當(dāng)前處理用戶(hù)user,并進(jìn)行初始化,包 括令變量userJD= 1,day_num=觀察時(shí)段中的天數(shù),userjium=用戶(hù)數(shù);
[0017] 步驟5. 1. 2,初始化列表1為空,列表2為空;
[0018] 步驟5. 1. 3,選擇數(shù)據(jù)集中觀測(cè)時(shí)段的第一天作為當(dāng)前處理日day,并令day_ID= 1 ;
[0019] 步驟5. 1. 4,提取user在day內(nèi)第一條上網(wǎng)記錄的位置坐標(biāo),并將此位置加入列表 1;
[0020] 步驟5. 1. 5,提取user在day內(nèi)最后一條上網(wǎng)記錄的位置坐標(biāo),并將此位置加入列 表2 ;
[002"1] 步驟5. 1. 6,令day_ID=day_ID+l,且將day更新為當(dāng)前day的下一天; 陽(yáng)02引步驟5. 1. 7,判斷day_ID< =day_num是否成立,若成立,則返回步驟5. 1. 4,若不 成立,則進(jìn)入步驟5. 1.8;
[0023] 步驟5. 1. 8,選擇列表1、列表2中出現(xiàn)頻率最高的位置坐標(biāo),分別記為locationl、 location2 ;
[0024] 步驟5. 1. 9,計(jì)算用戶(hù)user的家庭位置坐標(biāo)為0. 5X(X〇cationl+location2);
[00巧]步驟5. 1. 10,令userJD=use;r_ID+l,且將user更新為數(shù)據(jù)集中某一個(gè)從未被 訪(fǎng)問(wèn)過(guò)的用戶(hù);
[00%] 步驟5. 1. 11,判斷use;r_ID< =userjium是否成立,若成立,卯J返回步驟5. 1. 2,若 不成立,則結(jié)束進(jìn)程。
[0027] 而且,步驟5中,確定用戶(hù)工作地位置的方式包括如下子步驟,
[0028] 步驟5.2. 1,隨機(jī)選取數(shù)據(jù)集中一個(gè)用戶(hù)為當(dāng)前處理用戶(hù)user,并進(jìn)行初始化,包 括令變量userJD= 1,day_num=觀察時(shí)段中的天數(shù),userjium=用戶(hù)數(shù);
[0029] 步驟5. 2. 2,初始化列表1為空,列表2為空;
[0030] 步驟5. 2. 3,選擇數(shù)據(jù)集中觀測(cè)時(shí)段的第一天作為當(dāng)前處理日day,并令day_ID= 1 ;
[0031] 步驟5. 2. 4,判斷day是否為周末,是則進(jìn)入步驟5. 2. 7,否則進(jìn)入步驟5. 2. 5 ;
[0032] 步驟5. 2. 5,提取在day的上午工作時(shí)間段巧:00,12:00),user的上網(wǎng)記錄出現(xiàn) 頻率最高的位置坐標(biāo),并加入列表1 ;
[0033] 步驟5. 2. 6,提取在day的下午工作時(shí)間段[12:00,17:00],user的上網(wǎng)記錄出現(xiàn) 頻率最高的位置坐標(biāo),并加入列表2 ;
[0034] 步驟5. 2. 7,令day_ID=day_ID+l,且將day更新為當(dāng)前day的下一天;
[0035] 步驟5. 2. 8,判斷day_ID< =day_num是否成立,若成立,卯J返回步驟5. 2. 4,若不 成立,則進(jìn)入步驟5. 2. 9;
[0036] 步驟5. 2. 9,選擇列表1、列表2中出現(xiàn)頻率最高的位置坐標(biāo),分別記為locationl、 location2 ;
[0037] 步驟5. 2. 10,計(jì)算用戶(hù)user的工作地位置坐標(biāo)為0. 5X(X〇cationl+location2); [00測(cè)步驟5. 2. 11,令userJD=use;r_ID+l,且將當(dāng)前user更新為數(shù)據(jù)集中某一個(gè)從 未被訪(fǎng)問(wèn)過(guò)的用戶(hù);
[0039] 步驟5. 2. 12,判斷use;r_ID< =userjium是否成立,若成立,則返回步驟5. 2. 2,若 不成立,則結(jié)束進(jìn)程。
[0040] 而且,步驟7實(shí)現(xiàn)方式包括如下子步驟,
[OOW步驟7. 1,設(shè)具備P維特征的n條用戶(hù)上網(wǎng)記錄構(gòu)成nXp維矩陣矩陣中 的元素記為Xii,1《i《n,1《j《P;對(duì)進(jìn)行減均值和方差歸一化處理,包括對(duì)矩陣 的每一列特征,分別求其均值和標(biāo)準(zhǔn)差,并對(duì)元素X1,進(jìn)行替換如下,
[0042]
[00創(chuàng)其中,U,、0 ,分別為第j列特征的均值、標(biāo)準(zhǔn)差; W44] 步驟7. 2,計(jì)算當(dāng)前的矩陣的協(xié)方差矩陣RPXP,其中元素rgb表示矩陣X中 第a列數(shù)據(jù)X。和第b列數(shù)據(jù)Xb之間的協(xié)方差COV(Xa,Xb),rab=rba,曰,b= 1,2, 3, . ..,P;
[0045] 步驟7. 3,解特征方程IAI-RpxpI= 0,A為待求的特征值,I為單位向量,求得 特征值入AAAp>0,W及特征值A(chǔ)d相應(yīng)的正交化單位特征向量Gd, 1《d《P,其中6d康示ed的第f個(gè)分量,1《f《P;
[0046] 步驟7. 4,計(jì)算主成分貢獻(xiàn)率如下,
[0047]
[0048] 其中,d= 1, 2, 3,. . . ,P,k= 1, 2, 3,. . . ,P;
[0049] 步驟7. 5,根據(jù)累計(jì)貢獻(xiàn)率選擇主成分的數(shù)量s,所述累計(jì)貢獻(xiàn)率計(jì)算如下, 陽(yáng)化0]
[0051] 其中,m=l,2,3,...,s,k=l,2,3,...,p,G(s)為前S個(gè)主成分的累計(jì)貢獻(xiàn)率; 陽(yáng)化引步驟7. 6,對(duì)當(dāng)前的矩陣中第W列特征X",記表示正交化單位特征向量eV 的第W個(gè)分量,計(jì)算X。在各個(gè)主成分Fy上的載荷1胃: 陽(yáng)化引lvw=(入v)〇'5evw(l《v《s,l《w《p);
[0054]其中,v=l,2,3,...,s,w=l,2,3,...,p; 陽(yáng)05引步驟7. 7,由Ay對(duì)應(yīng)的列向量1v= (1vi,lv2, lv3,…,lvp)T構(gòu)成映射矩陣MpXs =
[0056] 步驟7. 8,當(dāng)前的矩陣與映射矩陣Mpxs相乘,得到降維后的用戶(hù)上網(wǎng)信息 YnXs。
[0057] 而且,步驟8實(shí)現(xiàn)方式包括如下子步驟, 陽(yáng)化引步驟8. 1,輸入訓(xùn)練集S,設(shè)訓(xùn)練集中每條上網(wǎng)記錄的特征維數(shù)為F;
[0059] 步驟8. 2,確定全局參數(shù),包括使用到的樹(shù)的數(shù)量t,每棵樹(shù)的深度d,樹(shù)中每個(gè)節(jié) 點(diǎn)使用到的特征數(shù)量f;
[0060] 步驟8. 3,從第i棵樹(shù)開(kāi)始訓(xùn)練,并初始化i= 0 ;
[0061] 步驟 8. 4,令i=i+1 ;
[00創(chuàng)步驟8. 5,判斷i< =t是否成立,若成立,則進(jìn)入步驟8. 6,否則,結(jié)束進(jìn)程; 陽(yáng)063] 步驟8. 6,從i的j節(jié)點(diǎn)開(kāi)始訓(xùn)練,j初始化為i的根節(jié)點(diǎn); W64] 步驟8. 7,從訓(xùn)練集S中有放回地隨機(jī)抽樣,構(gòu)成節(jié)點(diǎn)j的訓(xùn)練樣本; 陽(yáng)0化]步驟8. 8,判斷j是否具備步驟8. 2所確定的終止條件,若不具備,則進(jìn)入步驟 8. 9,若具備,則將當(dāng)前節(jié)點(diǎn)j設(shè)置為葉子節(jié)點(diǎn),且該葉子節(jié)點(diǎn)的預(yù)測(cè)輸出為當(dāng)前節(jié)點(diǎn)j樣本 集合中數(shù)量最多的那一類(lèi),然后進(jìn)入步驟8. 14 ;
[0066] 步驟8. 9,從F個(gè)特征中無(wú)放回地選取隨機(jī)選取f維特征;
[0067] 步驟8. 10,從f維特征中取分類(lèi)效果最好的一維特征及闊值th,設(shè)其為第k維特 征; 陽(yáng)068] 步驟8. 1