用戶乘飛機(jī)出行行為的建模方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及建模技術(shù)領(lǐng)域,特別涉及一種用戶乘飛機(jī)出行行為的建模方法。
【背景技術(shù)】
[0002] 現(xiàn)在乘坐飛機(jī)是一種非常普遍和便捷的出行方式,據(jù)中國(guó)民用航空局的統(tǒng)計(jì), 2015年5月,在中國(guó)乘坐飛機(jī)出行的乘客超過(guò)35,000,000人次,因此理解用戶的出行行為模 式對(duì)于預(yù)測(cè)航空出行需求等應(yīng)用是十分重要的。現(xiàn)有的理解和發(fā)現(xiàn)用戶的出行行為模式的 方法大部分是基于分析用戶填寫的調(diào)研報(bào)告。這些調(diào)研報(bào)告幫助探索和發(fā)現(xiàn)用戶的偏好, 從而估計(jì)一些有價(jià)值的指標(biāo),比如所節(jié)省的出行時(shí)間的價(jià)值。然而這些方法都只是提供了 一些粗粒度的概括性的行為描述,無(wú)法提供針對(duì)單個(gè)用戶的有效信息。
[0003] 針對(duì)單個(gè)用戶的乘坐飛機(jī)出行行為模式的分析和建模。隨著互聯(lián)網(wǎng)和在線支付工 具的普及,越來(lái)越來(lái)的有出行需求的用戶開始在航空公司(例如東方航空、南方航空)的網(wǎng) 站或者其它機(jī)票預(yù)訂網(wǎng)站(比如攜程網(wǎng)、去哪兒網(wǎng))上提前預(yù)訂機(jī)票。例如,當(dāng)一個(gè)有出行需 求的用戶在攜程網(wǎng)上訂票時(shí),他/她需要選擇出發(fā)城市、到達(dá)城市、艙位等級(jí)、出行時(shí)間、航 空公司、是否換乘等信息,當(dāng)該用戶訂票成功時(shí),在線訂票網(wǎng)站會(huì)記錄下該用戶的一次訂票 (出行)行為。利用這些來(lái)自在線訂票網(wǎng)站的龐大的訂票數(shù)據(jù)集,在線訂票網(wǎng)站能夠分析它 的用戶的出行行為,特別是能夠針對(duì)單個(gè)用戶的出行行為進(jìn)行分析。對(duì)于在線訂票網(wǎng)站來(lái) 說(shuō),理解和發(fā)現(xiàn)用戶的出行行為模式能夠幫助它們提供更準(zhǔn)確的推薦和更精準(zhǔn)的個(gè)性化服 務(wù)。具體來(lái)講,本發(fā)明主要關(guān)注如何建立一個(gè)用戶級(jí)的出行行為模型。一個(gè)乘客的出行行為 由以下幾個(gè)關(guān)鍵特征描述:起飛時(shí)間、到達(dá)時(shí)間、提前訂票天數(shù)、價(jià)格、艙位等級(jí)等。本發(fā)明 試圖利用歷史的訂票數(shù)據(jù)針對(duì)單個(gè)用戶,建立一個(gè)概率模型作為用戶乘飛機(jī)出行行為的描 述。
[0004] 建立一個(gè)用戶級(jí)的出行行為模型面臨著許多挑戰(zhàn)。首先,對(duì)于用戶的出行行為建 模是一個(gè)多元建模問(wèn)題,因?yàn)橛脩舻某鲂行袨槟J礁鲜龅亩鄠€(gè)特征有關(guān)。其次,關(guān)于用戶 級(jí)行為建模的相關(guān)研究非常少?,F(xiàn)在廣泛使用的一些含參數(shù)的概率模型比如高斯分布、泊 松分布等并不適合用來(lái)作為用戶出行行為的概率模型。另外,一個(gè)用戶自身的有限數(shù)目的 歷史訂票記錄不足以訓(xùn)練得到一個(gè)精確的概率模型。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于提供一種用戶乘飛機(jī)出行行為的建模方法,以解決現(xiàn)有用戶乘 飛機(jī)出行行為的建模方法得到的概率模型精準(zhǔn)度不高的問(wèn)題。
[0006] 為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種用戶乘飛機(jī)出行行為的建模方法,包括如 下步驟:
[0007] 在用戶集合中選定一目標(biāo)用戶,根據(jù)目標(biāo)用戶的部分歷史訂票數(shù)據(jù)進(jìn)行核密度估 計(jì)建立第一概率密度模型;
[0008] 在目標(biāo)用戶在所述用戶集合中的補(bǔ)集中選取K個(gè)相似用戶,并根據(jù)K個(gè)相似用戶的 歷史訂票數(shù)據(jù)進(jìn)行核密度估計(jì)建立第二概率密度模型,1 〇〇<丨《 + S,S為用戶集合中用 戶的總量;
[0009]基于所述第一概率密度模型和所述第二概率密度模型構(gòu)建混合模型;
[0010]利用期望最大化算法和所述目標(biāo)用戶剩余的歷史訂票數(shù)據(jù)計(jì)算所述混合模型。 [0011]可選的,在所述的用戶乘飛機(jī)出行行為的建模方法中,根據(jù)目標(biāo)用戶的部分歷史 訂票數(shù)據(jù)進(jìn)行核密度估計(jì)建立第一概率密度模型,包括如下步驟:
[0012] 將所述目標(biāo)用戶的部分歷史訂票數(shù)據(jù)劃分為第一部分?jǐn)?shù)據(jù)和第二部分?jǐn)?shù)據(jù);
[0013] 根據(jù)所述第一部分?jǐn)?shù)據(jù)進(jìn)行核密度估計(jì)建立初始第一概率密度模型;
[0014] 根據(jù)初始第一概率密度模型和第二部分?jǐn)?shù)據(jù)計(jì)算初始第一概率密度模型的似然 函數(shù);
[0015] 將最大的似然函數(shù)所對(duì)應(yīng)的帶寬作為最佳帶寬;
[0016] 根據(jù)最佳帶寬和第一部分?jǐn)?shù)據(jù)進(jìn)行核密度估計(jì)建立第一概率密度模型。
[0017] 可選的,在所述的用戶乘飛機(jī)出行行為的建模方法中,選取K個(gè)相似用戶的過(guò)程如 下:
[0018] 統(tǒng)計(jì)用戶集合中所有用戶的特征向量;
[0019] 計(jì)算所述目標(biāo)用戶的特征向量與所述用戶集合中每個(gè)用戶的特征向量之間的歐 幾里德距離;
[0020] 將計(jì)算的歐幾里德距離由小到大進(jìn)行排序,取前K個(gè)歐幾里德距離所對(duì)應(yīng)的用戶 作為目標(biāo)用戶的相似用戶。
[0021] 可選的,在所述的用戶乘飛機(jī)出行行為的建模方法中,所述特征向量中的元素包 括:出行頻率、乘坐艙型比例、出行時(shí)間比例、訂票提前的平均天數(shù)、目的地城市的差異性。
[0022] 可選的,在所述的用戶乘飛機(jī)出行行為的建模方法中,所述歐幾里德距離越小,兩 個(gè)用戶越相似;距離越大,兩個(gè)用戶差別越大。
[0023] 可選的,在所述的用戶乘飛機(jī)出行行為的建模方法中,所述混合模型表示為如下 公式:
[0024] M = aGl+bG2;
[0025] 其中,a,b為所述混合模型的權(quán)重參數(shù),a+b = 1,G1為第一概率密度模型,G2第二概 率密度模型。
[0026] 可選的,在所述的用戶乘飛機(jī)出行行為的建模方法中,還包括利用所述目標(biāo)用戶 剩余的歷史訂票數(shù)據(jù)中的部分?jǐn)?shù)據(jù)測(cè)試所述混合模型的準(zhǔn)確性的步驟。
[0027] 在本發(fā)明所提供的用戶乘飛機(jī)出行行為的建模方法中,通過(guò)將用戶的出行行為建 模為混合模型,所述混合模型基于第一概率密度模型和第二概率密度模型構(gòu)建,第一概率 密度模型基于目標(biāo)用戶的數(shù)據(jù)構(gòu)建,而第二概率密度模型基于與目標(biāo)用戶最為相似的K個(gè) 用戶構(gòu)建,從而避免了由于單個(gè)用戶的歷史訂票數(shù)據(jù)的稀少帶來(lái)的過(guò)擬合問(wèn)題,提高了用 戶出行行為所建模型的精準(zhǔn)度。本發(fā)明設(shè)計(jì)的用戶乘飛機(jī)出行行為的建模方法適用于針對(duì) 單個(gè)用戶指導(dǎo)推薦和個(gè)性化服務(wù)。
【附圖說(shuō)明】
[0028] 圖1是本發(fā)明一實(shí)施例中用戶乘飛機(jī)出行行為的建模方法的流程圖。
【具體實(shí)施方式】
[0029] 以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明提出的用戶乘飛機(jī)出行行為的建模方法作 進(jìn)一步詳細(xì)說(shuō)明。根據(jù)下面說(shuō)明和權(quán)利要求書,本發(fā)明的優(yōu)點(diǎn)和特征將更清楚。需說(shuō)明的 是,附圖均采用非常簡(jiǎn)化的形式且均使用非精準(zhǔn)的比例,僅用以方便、明晰地輔助說(shuō)明本發(fā) 明實(shí)施例的目的。
[0030] 請(qǐng)參考圖1,其為本發(fā)明一實(shí)施例中用戶乘飛機(jī)出行行為的建模方法的流程圖,如 圖1所示,所述的用戶乘飛機(jī)出行行為的建模方法包括如下步驟:
[0031] 首先,執(zhí)行步驟S1,在用戶集合中選定一目標(biāo)用戶,根據(jù)目標(biāo)用戶的部分歷史訂票 數(shù)據(jù)Di進(jìn)行核密度估計(jì)建立第一概率密度模型;
[0032] 其中,根據(jù)目標(biāo)用戶的部分歷史訂票數(shù)據(jù)0:進(jìn)行核密度估計(jì)建立第一概率密度模 型,包括如下步驟:
當(dāng)前第1頁(yè)
1 
2