一種基于手機(jī)大數(shù)據(jù)的流動(dòng)人口分類識(shí)別分析方法
【專利摘要】本發(fā)明提供了一種基于手機(jī)大數(shù)據(jù)的流動(dòng)人口分類識(shí)別分析方法。本發(fā)明突破傳統(tǒng)調(diào)查的限制,利用大數(shù)據(jù)從行為軌跡中提取客觀時(shí)空信息進(jìn)行分析挖掘,突破低采樣率的限制并可進(jìn)行不同口徑多次、充分信息提取,從空間及時(shí)間維度,對(duì)人口流動(dòng)進(jìn)行觀察及識(shí)別,區(qū)分流動(dòng)人口群體,并基于該群體行為特征及逗留時(shí)長(zhǎng),并從數(shù)據(jù)使用者的角度考量流動(dòng)人口不同分類,將其區(qū)分為長(zhǎng)期流動(dòng)人口、短期流動(dòng)人口及短時(shí)入境人口,以便該數(shù)據(jù)的應(yīng)用能夠在不同的領(lǐng)域發(fā)揮價(jià)值。
【專利說(shuō)明】
一種基于手機(jī)大數(shù)據(jù)的流動(dòng)人口分類識(shí)別分析方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種以海量匿名并加密的移動(dòng)終端個(gè)體(例如手機(jī)、平板、上網(wǎng)卡等獨(dú) 立移動(dòng)終端,以下簡(jiǎn)稱個(gè)體)數(shù)據(jù)為基礎(chǔ),開展大數(shù)據(jù)環(huán)境下的流動(dòng)人口分類識(shí)別挖掘分析 方法。該方法基于人員流動(dòng)所產(chǎn)生的空間位移及其持續(xù)時(shí)間來(lái)衡量不同類型的流動(dòng)人群分 類及識(shí)別,并以此為基礎(chǔ)進(jìn)一步獲得此類人群分布及出行特征,為城市人口管理、城市規(guī) 劃、旅游景區(qū)規(guī)劃及管理、商業(yè)策劃等工作提供客觀數(shù)據(jù)服務(wù)及決策支撐,屬于城市運(yùn)營(yíng)管 理與城市規(guī)劃、區(qū)域規(guī)劃的技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 流動(dòng)人口是在中國(guó)戶籍制度條件下的一個(gè)概念,指離開了戶籍所在地到其他地方 居住的人口,但目前尚無(wú)明確、準(zhǔn)確和統(tǒng)一的定義。故本次在討論流動(dòng)人口分類識(shí)別分析方 法的前置條件,是要界定流動(dòng)人口的口徑,對(duì)流動(dòng)人口進(jìn)行明確的定義。
[0003] 國(guó)際上通常為"人口迀移"、"迀移人口"概念,而非"人口流動(dòng)"、"流動(dòng)人口",將人 口迀移定義為人口在空間上的位置變動(dòng)。根據(jù)國(guó)際人口科學(xué)聯(lián)盟主持編寫的《多種語(yǔ)言人 口學(xué)辭典》,人口迀移是"在一個(gè)地區(qū)單位同另一個(gè)地區(qū)單位之間進(jìn)行的地區(qū)移動(dòng)或者空間 移動(dòng)的一種形式,通常它包括了從原住地或迀出地迀到目的地或迀入地的永久性住地變 動(dòng)"(IUSSP,1982)。發(fā)生人口迀移活動(dòng)的人則是迀移人口。這個(gè)概念強(qiáng)調(diào)了"時(shí)間"及"永久 性"因素,并非指一旦一次人口迀移發(fā)生以后就不能夠有第二次人口迀移,而是指人口迀移 活動(dòng)應(yīng)該有"足夠長(zhǎng)"的時(shí)間;二是"空間"因素,即人們要在兩個(gè)相距"足夠遠(yuǎn)"的空間位置 之間發(fā)生位置移動(dòng)。我國(guó)由于戶籍制度的存在,通常將人們的地區(qū)移動(dòng)或者空間移動(dòng)區(qū)分 為人口迀移和人口流動(dòng)兩種,發(fā)生迀移和流動(dòng)行為的人則分別稱為迀移人口和流動(dòng)人口。 人口迀移和迀移人口伴隨有戶口的相應(yīng)變動(dòng);人口流動(dòng)和流動(dòng)人口則沒(méi)有戶口的相應(yīng)變 動(dòng)。
[0004] 流動(dòng)人口相關(guān)數(shù)據(jù)的傳統(tǒng)獲取方式為入戶調(diào)查。一方面,由于中國(guó)城鎮(zhèn)化的進(jìn)程 迅速,流動(dòng)人口的規(guī)模和流動(dòng)頻率與過(guò)去相比大幅增加。同時(shí),流動(dòng)人口住所相對(duì)不穩(wěn)定, 通過(guò)入戶調(diào)查的方式進(jìn)行訪問(wèn)非常困難。另一方面,由于入戶調(diào)查為一次性調(diào)查,隨著入戶 調(diào)查調(diào)查內(nèi)容的調(diào)整及統(tǒng)計(jì)口徑的變化,如1982、1990年人口普查:"跨縣"、"一年以上"的 流動(dòng)人口; 1995年進(jìn)一步識(shí)別"縣內(nèi)"、"半年以上"流動(dòng)人口;2000年人口普查:"市內(nèi)人戶分 離"人口的甄別;2005年增加了離開戶籍地半年以下流入人口的調(diào)查,見導(dǎo)致流動(dòng)人口在數(shù) 量和規(guī)模上均產(chǎn)生巨大差異,無(wú)法持續(xù)跟蹤及縱深對(duì)比。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是利用大數(shù)據(jù)從行為軌跡中提取客觀時(shí)空信息進(jìn)行分析挖掘,提供 一種流動(dòng)人口識(shí)別與分類分析方法,用此方法提供各個(gè)城市流動(dòng)人口總量、空間分布與活 動(dòng)行為特征規(guī)律。
[0006] 為了達(dá)到上述目的,本發(fā)明的技術(shù)方案是提供了一種基于手機(jī)大數(shù)據(jù)的流動(dòng)人口 分類識(shí)別分析方法,其特征在于,包括以下步驟:
[0007] 步驟1、從通信運(yùn)營(yíng)商獲取目標(biāo)分析城市空間范圍內(nèi)一段時(shí)期內(nèi)持續(xù)的匿名加密 手機(jī)定位數(shù)據(jù),每條匿名加密手機(jī)定位數(shù)據(jù)包括EPID、??ΜΕ及定位數(shù)據(jù),其中,不同的手機(jī) 終端用戶對(duì)應(yīng)不同的EPID,I1ME表示當(dāng)前一條匿名加密手機(jī)定位數(shù)據(jù)所涉及的手機(jī)網(wǎng)絡(luò)動(dòng) 作發(fā)生時(shí)刻;
[0008] 步驟2、構(gòu)建每個(gè)EPID的時(shí)間序列分段模型:
[0009]將當(dāng)前EPID對(duì)應(yīng)的所有定位數(shù)據(jù)按??ΜΕ升序或降序排序,獲得當(dāng)前EPID基于時(shí)間 序列的位置信息,從而建立當(dāng)前EPID的時(shí)間序列模型,將時(shí)間序列模型按照不同的位置信 息進(jìn)行分段,得到當(dāng)前EPID的時(shí)間序列分段模型;
[0010]步驟3、對(duì)每個(gè)EPID計(jì)算其在目標(biāo)分析城市的每日累計(jì)逗留時(shí)長(zhǎng)與天數(shù)頻率情況, 根據(jù)每個(gè)EPID在目標(biāo)分析城市每日停留時(shí)長(zhǎng)長(zhǎng)短與天數(shù)頻率,將人口分為常住人口及流動(dòng) 人口;
[0011]步驟4、基于空間位置屬性對(duì)步驟3中判定為流動(dòng)人口的每個(gè)EPID的流動(dòng)目的進(jìn)行 判別,其中,空間位置屬性的獲取依賴于,包括以下步驟:
[0012] 步驟4.1、基于GIS基礎(chǔ)地圖空間地理數(shù)據(jù)獲得空間位置屬性,包括以下步驟:
[0013] 步驟4.1.1、對(duì)在空間地理數(shù)據(jù)庫(kù)中的各人員的時(shí)間序列進(jìn)行空間/時(shí)間插值,保 證人口空間分布SDP之間的時(shí)間間隔相等,為空間聚類做準(zhǔn)備;
[0014] 步驟4.1.2、對(duì)區(qū)域進(jìn)行基于密度的空間聚類,該聚類所獲得成果為得到基于空間 的空間位置屬性,包括以下步驟:
[0015]步驟A、將空間地理數(shù)據(jù)庫(kù)中的辦個(gè)興趣點(diǎn)Ρ0Ι位置屬性進(jìn)行遍歷,設(shè)置半徑Eps及 最少數(shù)目MinPts;
[0016] 步驟B、從辦個(gè)興趣點(diǎn)Ρ0Ι中任意選取一個(gè)點(diǎn)p;
[0017] 步驟C、對(duì)當(dāng)前點(diǎn)p其進(jìn)行地域查詢,若點(diǎn)p是核心點(diǎn),則尋找從點(diǎn)p密度可達(dá)的點(diǎn), 最終形成一個(gè)包含點(diǎn)P的位置簇,否則點(diǎn)P被標(biāo)識(shí)為噪音點(diǎn);
[0018] 步驟D、將辦個(gè)興趣點(diǎn)Ρ0Ι中的下一個(gè)點(diǎn)作為當(dāng)前點(diǎn)P,返回步驟4.3.3,直至nP個(gè)興 趣點(diǎn)Ρ0Ι都被處理;
[0019] 步驟E、將所形成的位置簇進(jìn)行聚合,聚合后的每一個(gè)類為一個(gè)位置區(qū),每個(gè)位置 區(qū)具有一個(gè)位置屬性,最終對(duì)應(yīng)至運(yùn)營(yíng)商基站位置數(shù)據(jù),使每一個(gè)基站位置數(shù)據(jù)對(duì)應(yīng)一個(gè) 位置屬性;
[0020] 步驟4.2、對(duì)步驟3中判定為流動(dòng)人口的每個(gè)EPID進(jìn)行基于位置區(qū)的多屬性差異識(shí) 另|J,對(duì)于當(dāng)前Ero而言,根據(jù)其位置信息獲得其所處的不同位置區(qū),將每個(gè)位置區(qū)的停留時(shí) 長(zhǎng)作為當(dāng)前位置區(qū)所對(duì)應(yīng)的位置屬性的時(shí)間權(quán)重,并對(duì)各個(gè)位置屬性的時(shí)間權(quán)重進(jìn)行權(quán)重 判定,將最突出的時(shí)間權(quán)重對(duì)應(yīng)的位置屬性賦予當(dāng)前EPID,以標(biāo)識(shí)當(dāng)前EPID的最終分類;
[0021] 步驟4.3、對(duì)所有可識(shí)別位置屬性數(shù)據(jù)進(jìn)行分類,關(guān)聯(lián)其位置屬性與人群定義,獲 得不同流動(dòng)人口分類下的流動(dòng)目的識(shí)別;
[0022]步驟5、分析各類流動(dòng)人口出行特征。
[0023]優(yōu)選地,在所述步驟2中,為了保證每個(gè)EPID軌跡識(shí)別的完整性與可信性,將各時(shí) 間序列中無(wú)法追蹤的時(shí)段標(biāo)識(shí)出來(lái),具體規(guī)則為:當(dāng)時(shí)間序列中某條記錄之后時(shí)長(zhǎng)為MaxT 的時(shí)段范圍內(nèi)無(wú)記錄,則認(rèn)為當(dāng)前EPID在當(dāng)前記錄之后的軌跡無(wú)法追蹤。
[0024]優(yōu)選地,在所述步驟3中,將所述流動(dòng)人口進(jìn)一步劃分為長(zhǎng)期流動(dòng)人口、短期流動(dòng) 人口及過(guò)境流動(dòng)人口。
[0025]優(yōu)選地,所述步驟3包括:
[0026]步驟3.1、判斷并統(tǒng)計(jì)各EPID的時(shí)間序列分段模型中在目標(biāo)分析城市所涉及的時(shí) 間序列的總時(shí)長(zhǎng),記為累計(jì)停留時(shí)長(zhǎng);
[0027] 步驟3.2、設(shè)置時(shí)長(zhǎng)閾值MaxD、Classify-L及Classify-S,若當(dāng)前EPID的累計(jì)停留 時(shí)長(zhǎng)大于時(shí)長(zhǎng)閾值MaxD,則認(rèn)為當(dāng)前EPID為常住人口;
[0028] 若當(dāng)前EPID的累計(jì)停留時(shí)長(zhǎng)小于時(shí)長(zhǎng)閾值MaxD,且大于時(shí)長(zhǎng)閾值Classify-L,則 認(rèn)為當(dāng)前EPID為長(zhǎng)期流動(dòng)人口;
[0029] 若當(dāng)前EPID的累計(jì)停留時(shí)長(zhǎng)小于時(shí)長(zhǎng)閾值Class if y-L,且大于時(shí)長(zhǎng)閾值 Classify-S,則認(rèn)為當(dāng)前EPID為短期流動(dòng)人口;
[0030] 若當(dāng)前EPID的累計(jì)停留時(shí)小于時(shí)長(zhǎng)閾值Classify-S,則認(rèn)為當(dāng)前EPID為短時(shí)過(guò)境 人口。
[0031] 優(yōu)選地,在所述步驟5中,所述流動(dòng)人口出行特征包括流動(dòng)人口活動(dòng)空間統(tǒng)計(jì)、流 動(dòng)人口夜間分布統(tǒng)計(jì)、流動(dòng)人口白天分布統(tǒng)計(jì)、流動(dòng)人口出行0D統(tǒng)計(jì)、流動(dòng)人口出行距離統(tǒng) 計(jì)、流動(dòng)人口出行耗時(shí)統(tǒng)計(jì)、流動(dòng)人口出行頻次統(tǒng)計(jì)。
[0032] 本發(fā)明突破傳統(tǒng)調(diào)查的限制,利用大數(shù)據(jù)從行為軌跡中提取客觀時(shí)空信息進(jìn)行分 析挖掘,突破低采樣率的限制并可進(jìn)行不同口徑多次、充分信息提取,從空間及時(shí)間維度, 對(duì)人口流動(dòng)進(jìn)行觀察及識(shí)別,區(qū)分流動(dòng)人口群體,并基于該群體行為特征及逗留時(shí)長(zhǎng),并從 數(shù)據(jù)使用者的角度考量流動(dòng)人口不同分類,將其區(qū)分為長(zhǎng)期流動(dòng)人口、短期流動(dòng)人口及短 時(shí)入境人口,以便該數(shù)據(jù)的應(yīng)用能夠在不同的領(lǐng)域發(fā)揮價(jià)值。
【附圖說(shuō)明】
[0033] 圖1是本發(fā)明所提出的基于海量匿名加密移動(dòng)終端個(gè)體定位數(shù)據(jù)的流動(dòng)人口識(shí)別 訓(xùn)練方法圖;
[0034] 圖2是本發(fā)明步驟4.2中多屬性差異識(shí)別用戶分類方法示意圖。
【具體實(shí)施方式】
[0035] 為使本發(fā)明更明顯易懂,茲以優(yōu)選實(shí)施例,并配合附圖作詳細(xì)說(shuō)明如下。
[0036] 步驟1:從通信運(yùn)營(yíng)商獲取目標(biāo)分析城市空間范圍內(nèi)一段時(shí)期(數(shù)據(jù)時(shí)長(zhǎng)取決于訓(xùn) 練分析需求,一般7個(gè)月以上)內(nèi)持續(xù)的匿名加密手機(jī)定位數(shù)據(jù),對(duì)每個(gè)手機(jī)終端用戶構(gòu)建 時(shí)間序列分段模型。根據(jù)申請(qǐng)?zhí)枮?01610273693.0的中國(guó)專利,手機(jī)定位數(shù)據(jù)的內(nèi)容包括 EPID、TYPE、HME、X、Y、SR。
[0037] EPID(匿名單向加密全球唯一移動(dòng)用戶標(biāo)識(shí)碼,Encryption international mobile subscriber IDentity),是手機(jī)通信運(yùn)營(yíng)商對(duì)每個(gè)手機(jī)用戶進(jìn)行單向不可逆加密, 從而唯一標(biāo)識(shí)每個(gè)手機(jī)用戶,且不暴露用戶號(hào)碼隱私信息,要求每個(gè)手機(jī)用戶加密后的 EPID保持唯一性,即任意時(shí)刻各手機(jī)用戶的EPID保持不變且不與其它手機(jī)用戶重復(fù)。
[0038] TYPE,是當(dāng)前記錄所涉及的手機(jī)網(wǎng)絡(luò)動(dòng)作類型,如上網(wǎng)、通話、主被叫、收發(fā)短信、 小區(qū)切換、開關(guān)機(jī)等。
[0039] ??ΜΕ指的是當(dāng)前記錄所涉及的手機(jī)網(wǎng)絡(luò)動(dòng)作發(fā)生時(shí)刻,單位為毫秒。
[0040] X、Y、SR是當(dāng)前記錄所涉及的手機(jī)網(wǎng)絡(luò)動(dòng)作發(fā)生的空間加密位置范圍信息。Χ、Υ由 運(yùn)營(yíng)商利用專用坐標(biāo)加密方法對(duì)手機(jī)用戶的真實(shí)坐標(biāo)位置進(jìn)行加密計(jì)算后得到,SR(空間 范圍,Spatial Range)是當(dāng)前記錄空間定位的誤差范圍,單位為米,即當(dāng)前手機(jī)用戶出現(xiàn)在 以X、Y為中心點(diǎn),SR為半徑的空間范圍內(nèi)。定位算法與定位精度由手機(jī)通信運(yùn)營(yíng)負(fù)責(zé),隨著 4G、5G、WIFI等無(wú)線通信技術(shù)的發(fā)展,誤差范圍將越來(lái)越小。
[0041 ]表1:初級(jí)數(shù)據(jù)庫(kù)數(shù)據(jù)列表
[0043]步驟2:構(gòu)建每個(gè)EPID的時(shí)間序列分段模型。將每個(gè)EPID的數(shù)據(jù)按??ΜΕ升序排序, 獲得每個(gè)EPID時(shí)間序列的位置信息,建立時(shí)間序列模型{L0C(p,time)},式中,p為位置, time為時(shí)間。再將EPID的時(shí)間序列位置進(jìn)行分段,分段后的時(shí)間序列更新為{L0C(l,p, time),L0C(2,p,time),···,L0C(num,p,time)},式中,1,2,···,num為分段的序號(hào)。
[0044]為了保證每個(gè)EPID軌跡識(shí)別的完整性與可信性,需要將各序列中無(wú)法追蹤的時(shí)段 標(biāo)識(shí)出來(lái)。具體規(guī)則為:當(dāng)序列中某條記錄Record (p,time)之后MaxT (MaxT為可持續(xù)追蹤 EPID的最長(zhǎng)間隔時(shí)長(zhǎng),MaxT的取值由通信運(yùn)營(yíng)商數(shù)據(jù)采集機(jī)制決定,即通信運(yùn)營(yíng)商最長(zhǎng)定 詢時(shí)長(zhǎng),例如,某城市某通信運(yùn)營(yíng)商周期性位置更新時(shí)長(zhǎng)為0.5小時(shí),則MaxT = 0.5h)時(shí)段范 圍內(nèi)無(wú)記錄,貝認(rèn)為該EPID在Record(p,time)這條記錄之后的軌跡無(wú)法追蹤。
[0045]步驟3、對(duì)每個(gè)EPID計(jì)算其在目標(biāo)分析城市的每日累計(jì)逗留時(shí)長(zhǎng)與天數(shù)頻率情況, 根據(jù)每個(gè)EPID在目標(biāo)分析城市每日停留時(shí)長(zhǎng)長(zhǎng)短與天數(shù)頻率,將人口分為常住人口及流動(dòng) 人口,并進(jìn)一步將流動(dòng)人口區(qū)分為長(zhǎng)期流動(dòng)人口、短期流動(dòng)人口及過(guò)境流動(dòng)人口,以便于開 展不同類型群體活動(dòng)特征研究及應(yīng)用。具體如下:
[0046]步驟3.1、判斷并統(tǒng)計(jì)各EPID的時(shí)間序列分段模型中在目標(biāo)分析城市所涉及的時(shí) 間序列的總時(shí)長(zhǎng),記為累計(jì)停留時(shí)長(zhǎng);
[0047] 步驟3.2、設(shè)置時(shí)長(zhǎng)閾值MaxD、Classify-L及Classify-S,若當(dāng)前EPID的累計(jì)停留 時(shí)長(zhǎng)大于時(shí)長(zhǎng)閾值MaxD,則認(rèn)為當(dāng)前EPID為常住人口,不包含在本次研究對(duì)象范疇內(nèi); [0048] 若當(dāng)前EPID的累計(jì)停留時(shí)長(zhǎng)小于時(shí)長(zhǎng)閾值MaxD,且大于時(shí)長(zhǎng)閾值Classify-L,則 認(rèn)為當(dāng)前EPID為長(zhǎng)期流動(dòng)人口,包含在本次研究對(duì)象范疇內(nèi);
[0049] 若當(dāng)前EPID的累計(jì)停留時(shí)長(zhǎng)小于時(shí)長(zhǎng)閾值Class if y-L,且大于時(shí)長(zhǎng)閾值 Classify-S,則認(rèn)為當(dāng)前EPID為短期流動(dòng)人口,包含在本次研究對(duì)象范疇內(nèi);
[0050] 若當(dāng)前EPID的累計(jì)停留時(shí)小于時(shí)長(zhǎng)閾值Classify-S,則認(rèn)為當(dāng)前EPID為短時(shí)過(guò)境 人口,包含在本次研究對(duì)象范疇內(nèi)。
[0051 ]步驟4:基于空間位置屬性的流動(dòng)人口流動(dòng)目的判別。
[0052]基于空間位置屬性,進(jìn)一步將流動(dòng)人員劃分為商務(wù)、旅游等流動(dòng)目的分類。其中位 置區(qū)屬性特征依賴于GIS基礎(chǔ)地圖空間地理數(shù)據(jù),由于位置數(shù)據(jù)之間的時(shí)間間隔不相等,因 此首先需要將時(shí)空數(shù)據(jù)進(jìn)行插值處理,獲得在時(shí)間上等間隔的時(shí)空數(shù)據(jù)序列,然后將其通 過(guò)基于密度的空間聚類獲得位置區(qū)域的屬性特征,如交通樞紐、購(gòu)物、景區(qū)、會(huì)展、商務(wù)、綜 合等,對(duì)位置區(qū)進(jìn)行屬性標(biāo)識(shí)并將其映射至運(yùn)營(yíng)商基站位置數(shù)據(jù)。
[0053]步驟4具體包括以下步驟:
[0054]步驟4.1、基于GIS基礎(chǔ)地圖空間地理數(shù)據(jù)獲得空間位置屬性,包括以下步驟:
[0055]步驟4.1.1、時(shí)空序列數(shù)據(jù)插值處理,對(duì)人員在空間地理數(shù)據(jù)庫(kù)中具體的時(shí)間序列 進(jìn)行空間/時(shí)間插值,保證人口空間分布SDP(Spatial Distribution of Population)之間 的時(shí)間間隔相等,為空間聚類做準(zhǔn)備。步驟如下:
[0056] 1、提取空間地理數(shù)據(jù)庫(kù)中人口空間分布SDP的時(shí)間和空間屬性;
[0057] 2、計(jì)算人口空間分布SDP之間時(shí)間間隔的最小公約數(shù),作為插值間隔時(shí)間,插入時(shí) 刻序列中;
[0058] 3、采用時(shí)空插值算法進(jìn)行空間插值,得到插值點(diǎn)的空間坐標(biāo),具體方法可以是拉 格朗日線性插值和多項(xiàng)式插值、牛頓插值、樣條插值、克里金插值等。本實(shí)施例以拉格朗日 線性插值為例,兩個(gè)原始人口空間分布SDP--k與k+Ι之間的插值點(diǎn)在時(shí)間t處的X,Y坐標(biāo) (Xt、Yt)可以表不為:
[0060] 上式中,Tk+1、Tk、Tt分別為節(jié)點(diǎn)k,k+l和插值點(diǎn)t的時(shí)間。
[0061] 步驟4.1.2、對(duì)區(qū)域進(jìn)行基于密度的空間聚類,該聚類所獲得成果為基于空間的位 置區(qū)域?qū)傩裕缃煌屑~、購(gòu)物中心、旅游景區(qū)、大型會(huì)展區(qū)域、商務(wù)區(qū)、綜合等等。步驟如 下:
[0062] 1、將空間地理數(shù)據(jù)庫(kù)中的辦個(gè)興趣點(diǎn)Ρ0Ι位置屬性進(jìn)行遍歷,設(shè)置半徑Eps及最少 數(shù)目 MinPts;
[0063] 2、從辦個(gè)興趣點(diǎn)Ρ0Ι中任意選取一個(gè)點(diǎn)p;
[0064] 3、對(duì)當(dāng)前點(diǎn)p其進(jìn)行地域查詢,若點(diǎn)p是核心點(diǎn),則尋找從點(diǎn)p密度可達(dá)的點(diǎn),最終 形成一個(gè)包含點(diǎn)P的位置簇,否則點(diǎn)P被標(biāo)識(shí)為噪音點(diǎn);
[0065] 4、將辦個(gè)興趣點(diǎn)Ρ0Ι中的下一個(gè)點(diǎn)作為當(dāng)前點(diǎn)p,返回步驟4.3.3,直至辦個(gè)興趣點(diǎn) Ρ0Ι都被處理;
[0066] 5、將所形成的位置簇進(jìn)行聚合,聚合后的每一個(gè)類為一個(gè)位置區(qū),每個(gè)位置區(qū)具 有一個(gè)位置屬性,最終對(duì)應(yīng)至運(yùn)營(yíng)商基站位置數(shù)據(jù),使每一個(gè)基站位置數(shù)據(jù)對(duì)應(yīng)一個(gè)位置 屬性。
[0067]在對(duì)此聚類處理后,可針對(duì)大型景區(qū)、會(huì)展區(qū)、商務(wù)區(qū)進(jìn)行修正,以確保其最終位 置區(qū)標(biāo)識(shí)的準(zhǔn)確性。
[0068]表2:插值后的基于基站的位置區(qū)屬性值
[0070] 步驟4.2、對(duì)步驟3中判定為流動(dòng)人口的每個(gè)EPID進(jìn)行基于位置區(qū)的多屬性差異識(shí) 另IJ,對(duì)于當(dāng)前EPID而言,根據(jù)其位置信息獲得其所處的不同位置區(qū),將每個(gè)位置區(qū)的停留時(shí) 長(zhǎng)作為當(dāng)前位置區(qū)所對(duì)應(yīng)的位置屬性的時(shí)間權(quán)重,并對(duì)各個(gè)位置屬性的時(shí)間權(quán)重進(jìn)行權(quán)重 判定,將最突出的時(shí)間權(quán)重對(duì)應(yīng)的位置屬性賦予當(dāng)前EPID,以標(biāo)識(shí)當(dāng)前EPID的最終分類。
[0071] 在本實(shí)施例中,對(duì)當(dāng)前EPID在同一位置屬性Li進(jìn)行該位置區(qū)時(shí)間權(quán)重的判定,并 區(qū)分其晝夜時(shí)段,獲得WLi-day/night,并對(duì)各個(gè)位置屬性進(jìn)行權(quán)重判定,獲得權(quán)重突出值并賦 予該用戶,以標(biāo)識(shí)其最終分類。步驟如下:
[0072] 1、對(duì)當(dāng)前EPID的數(shù)據(jù)進(jìn)行基于時(shí)段的位置權(quán)重值,即在該時(shí)段內(nèi)累計(jì)其特定位置 屬性停留時(shí)長(zhǎng),獲得在該位置屬性區(qū)內(nèi)的時(shí)間權(quán)重WU-day/night,如EPID (e 1)于交通樞紐位置 區(qū)中停留50分鐘,即WE!-day賦值50,于交通商務(wù)位置區(qū)停留200分鐘,即WL5- day賦值200。
[0073] 2、對(duì)各權(quán)重進(jìn)行歸一化處理,得到歸一化后的權(quán)重值ω i;
[0074] 3、Max( ω i) >敏感值SL(SL為可調(diào)參數(shù),可根據(jù)實(shí)際情況適當(dāng)調(diào)整,本例中令SL為 0.5),則判定當(dāng)前EPID的位置屬性為L(zhǎng)i,否則則表示其屬性值不明顯,劃入綜合流動(dòng)人口集 合。即在本列中該人員位置屬性為L(zhǎng) 5,即商務(wù)屬性。
[0075]步驟4.3、對(duì)所有可識(shí)別位置屬性數(shù)據(jù)進(jìn)行分類,關(guān)聯(lián)其位置屬性與人群定義,獲 得不同流動(dòng)人口分類下的流動(dòng)目的識(shí)別。
[0076]步驟5 :分析各類流動(dòng)人口出行特征,包括流動(dòng)人口活動(dòng)空間統(tǒng)計(jì)、流動(dòng)人口夜間 分布統(tǒng)計(jì)、流動(dòng)人口白天分布統(tǒng)計(jì)、流動(dòng)人口出行0D統(tǒng)計(jì)、流動(dòng)人口出行距離統(tǒng)計(jì)、流動(dòng)人 口出行耗時(shí)統(tǒng)計(jì)、流動(dòng)人口出行頻次統(tǒng)計(jì)等。
[0077] 首先進(jìn)行一個(gè)預(yù)處理一一時(shí)空聚類處理,就是把間距很近的X、Y、SR認(rèn)為是一個(gè) 點(diǎn)。
[0078]表3:區(qū)域數(shù)據(jù)庫(kù)預(yù)處理后的數(shù)據(jù)
[0080] 1)流動(dòng)人口活動(dòng)空間統(tǒng)計(jì):
[0081 ]所有流動(dòng)人口活動(dòng)過(guò)的所有位置,反映每個(gè)城市空間對(duì)流動(dòng)人口的承載或吸引力 情況。將進(jìn)入?yún)^(qū)域數(shù)據(jù)庫(kù)所有數(shù)據(jù)和該區(qū)域的面積相比,就算出單位面積上流動(dòng)人口的數(shù) 量。
[0082] 如上海市徐匯區(qū)的面積為54.67平方公里,當(dāng)天流動(dòng)人口為50000人,得到單位面 積流動(dòng)人口約為913人每平方公里。
[0083] 2)流動(dòng)人口夜間分布統(tǒng)計(jì):
[0084]夜間時(shí)間段待的時(shí)間最長(zhǎng)的地方,反映的是流動(dòng)人口夜間居住空間分布情況。將 每天的21:00至次日的4:59定義為夜間時(shí)間段(可根據(jù)不同城市作息時(shí)間不同,夏天與冬天 作息時(shí)間不同來(lái)調(diào)整,如烏魯木齊可以調(diào)整為23:00到6: 59),從區(qū)域數(shù)據(jù)庫(kù)中取出每個(gè) EPID所對(duì)應(yīng)的TYPE和X、Y、SR等數(shù)據(jù),在該區(qū)域的地圖上根據(jù)X、Y、SR標(biāo)記出位置,同時(shí)可以 根據(jù)其TYPE標(biāo)注成不同顏色或者形狀。
[0085]在本實(shí)施例中,將每天的21:00至次日的4:59定義為夜間時(shí)間段,從徐匯區(qū)數(shù)據(jù)庫(kù) 中取出每個(gè)EP ID所對(duì)應(yīng)的TYPE和X、Y、SR等數(shù)據(jù),在該區(qū)域的地圖上根據(jù)X、Y、SR標(biāo)記出位 置,同時(shí)可以根據(jù)其TYPE標(biāo)注成不同顏色或者形狀。
[0086] 3)流動(dòng)人口白天分布統(tǒng)計(jì):
[0087] 白天時(shí)間段待的最長(zhǎng)的地方,反映流動(dòng)人口白天游玩或工作等的空間分布情況。 將每天的5:00到20:59定義為白天時(shí)間段(可根據(jù)不同城市作息時(shí)間不同,夏天與冬天作息 時(shí)間不同來(lái)調(diào)整,如烏魯木齊可以調(diào)整為7:00到22:59),從區(qū)域數(shù)據(jù)庫(kù)中取出每個(gè)EPID所 對(duì)應(yīng)的TYPE和X、Y、SR等數(shù)據(jù),在該區(qū)域的地圖上根據(jù)X、Y、SR標(biāo)記處位置,同時(shí)可以根據(jù)其 TYPE標(biāo)注成不同顏色或者形狀。每一段時(shí)間(更具城市大小及交通情況來(lái)規(guī)定,白天的更新 時(shí)間間隔可以比夜間短,周末和工作日也可以有不同劃分)在地圖上更新一次。
[0088] 在本實(shí)施例中,將每天的5:00到20:59定義為白天時(shí)間段,從徐匯區(qū)數(shù)據(jù)庫(kù)中取出 每個(gè)EP ID所對(duì)應(yīng)的TYPE和X、Y、SR等數(shù)據(jù),在該區(qū)域的地圖上根據(jù)X、Y、SR標(biāo)記處位置,同時(shí) 可以根據(jù)其TYPE標(biāo)注成不同顏色或者形狀,每半小時(shí)在地圖上更新一次。
[0089] 4)改進(jìn)基尼系數(shù)和泰爾指數(shù):
[0090]計(jì)算不同類型的流動(dòng)人口在空間分布上的聚集/離散程度。具體方法為:將區(qū)域地 理空間劃分為多個(gè)柵格,將插值后的SDP點(diǎn)部署到地理底圖上,統(tǒng)計(jì)每個(gè)柵格點(diǎn)的SDP數(shù),根 據(jù)基尼系數(shù)和泰爾指數(shù)的計(jì)算公式計(jì)算流動(dòng)人口位置分布的不平衡性,比較不同類型的流 動(dòng)人口分布的不同特征。
[0091]基尼系數(shù)G:
[0093]上式中,基尼系數(shù)的計(jì)算首先需要將各柵格以內(nèi)部SDP為序從小到大排列,η表示 格柵總數(shù),Wi表示從柵格1到柵格i的累計(jì)SDP數(shù)占總SDP數(shù)的比例。
[0094] 泰爾指數(shù)T:
[0096]上式中A表示i柵格面積,S表示區(qū)域總面積,Pi表示i柵格內(nèi)SDP數(shù),P表示區(qū)域內(nèi) 總SDP數(shù)。
[0097]在本實(shí)施例中,將區(qū)域地理空間劃分為多個(gè)柵格,將插值后的SDP點(diǎn)部署到地理底 圖上,統(tǒng)計(jì)每個(gè)柵格點(diǎn)的SDP數(shù),根據(jù)基尼系數(shù)和泰爾指數(shù)的計(jì)算公式計(jì)算流動(dòng)人口位置分 布的不平衡性,比較不同類型的流動(dòng)人口分布的不同特征。如獲得柵格24綜合流動(dòng)人口基 尼系數(shù)0.2,則認(rèn)為綜合流動(dòng)人口在該柵格區(qū)域內(nèi)發(fā)布均勻。
[0098] 5)流動(dòng)人口出行0D統(tǒng)計(jì):
[0099] 從區(qū)域數(shù)據(jù)庫(kù)中提出需要的數(shù)據(jù),以每次逗留時(shí)長(zhǎng)<TT_DMIN_STAY(即,逗留時(shí)長(zhǎng) 最小閾值)的空間范圍作為逗留點(diǎn),其它點(diǎn)都是途經(jīng)點(diǎn)。連續(xù)時(shí)間序列的兩兩逗留點(diǎn)形成一 次0D出行,前一逗留點(diǎn)作為0點(diǎn),后一逗留點(diǎn)作為D點(diǎn)。如EPID(r2)在2016年3月10日10:42: 24留下一條煒度31.1594320000,經(jīng)度 121.4358650000作為逗留點(diǎn)1,2016年3月 10 日 11:02: 35留下一條煒度:31.141239110601024,經(jīng)度:121.42567750896457作為逗留點(diǎn)2。逗留點(diǎn)1 為0點(diǎn),逗留點(diǎn)2為D點(diǎn),記為一次0D出行。
[0100] 6)流動(dòng)人口出行距離統(tǒng)計(jì):
[0101]兩兩0D點(diǎn)的直線距離,對(duì)不同的出行方向(比如東南西北)按5km-個(gè)區(qū)間,統(tǒng)計(jì)各 方向出行距離分布,并統(tǒng)計(jì)總體加權(quán)平均距離(按0D客流量加權(quán))。如EPID(r2)在2016年3月 10 日 10:42:24 留下一條煒度 31.1594320000,經(jīng)度 121.4358650000 作為逗留點(diǎn) 1,2016年 3 月 10 日 11:02:35 留下一條煒度:31 · 141239110601024,經(jīng)度:121.42567750896457作為逗留點(diǎn) 2。逗留點(diǎn)1為0點(diǎn),逗留點(diǎn)2為D點(diǎn),記為一次0D出行,0D之間的直線距離為1.523公里。
[0102] 7)流動(dòng)人口出行耗時(shí)統(tǒng)計(jì):
[0103] 0點(diǎn)(出發(fā)點(diǎn))出發(fā)時(shí)刻與D點(diǎn)(到達(dá)點(diǎn))到達(dá)時(shí)刻的時(shí)間差作為一次0D出行耗費(fèi)的 時(shí)間,也是統(tǒng)計(jì)各方向出行耗時(shí)分布與平均出行耗時(shí)。
[0104] 如EPID(r2)在2016年3月 10 日 10 :42:42留下一條煒度31. 1594320000,經(jīng)度 121.4358650000作為逗留點(diǎn)1,2016年3月10日11:02:35留下一條煒度: 31.141239110601024,經(jīng)度:121.42567750896457作為逗留點(diǎn)2。逗留點(diǎn)1為0點(diǎn),逗留點(diǎn)2為D 點(diǎn),記為一次0D出行,耗時(shí)為20分鐘07秒。第二次0D出行,耗時(shí)為1小時(shí)30分38秒,第三次0D 出行,耗時(shí)為10分鐘35秒……統(tǒng)計(jì)后得到平均出行耗時(shí)為40分鐘20秒。
[0?05] 8)流動(dòng)人口出行頻次:
[0106] 對(duì)每個(gè)EPID,統(tǒng)計(jì)當(dāng)日0D總次數(shù),從而統(tǒng)計(jì)出行次數(shù)分布以及平均出行次數(shù)。
[0107] 如EPID(e2)2016年3月10日0D總次數(shù)5次,2016年3月11日0D總次數(shù)5次,2016年3月 12日0D總次數(shù)4次,2016年3月12日0D總次數(shù)6次并在當(dāng)天離開上海,統(tǒng)計(jì)得到EPID(e2)平均 出行次數(shù)為5次。
【主權(quán)項(xiàng)】
1. 一種基于手機(jī)大數(shù)據(jù)的流動(dòng)人口分類識(shí)別分析方法,其特征在于,包括以下步驟: 步驟1、從通信運(yùn)營(yíng)商獲取目標(biāo)分析城市空間范圍內(nèi)一段時(shí)期內(nèi)持續(xù)的匿名加密手機(jī) 定位數(shù)據(jù),每條匿名加密手機(jī)定位數(shù)據(jù)包括EPID、??ΜΕ及定位數(shù)據(jù),其中,不同的手機(jī)終端 用戶對(duì)應(yīng)不同的EPID,TIME表示當(dāng)前一條匿名加密手機(jī)定位數(shù)據(jù)所涉及的手機(jī)網(wǎng)絡(luò)動(dòng)作發(fā) 生時(shí)刻; 步驟2、構(gòu)建每個(gè)EPID的時(shí)間序列分段模型: 將當(dāng)前EPID對(duì)應(yīng)的所有定位數(shù)據(jù)按??ΜΕ升序或降序排序,獲得當(dāng)前EPID基于時(shí)間序列 的位置信息,從而建立當(dāng)前EPID的時(shí)間序列模型,將時(shí)間序列模型按照不同的位置信息進(jìn) 行分段,得到當(dāng)前EPID的時(shí)間序列分段模型; 步驟3、對(duì)每個(gè)EPID計(jì)算其在目標(biāo)分析城市的每日累計(jì)逗留時(shí)長(zhǎng)與天數(shù)頻率情況,根據(jù) 每個(gè)EPID在目標(biāo)分析城市每日停留時(shí)長(zhǎng)長(zhǎng)短與天數(shù)頻率,將人口分為常住人口及流動(dòng)人 P; 步驟4、基于空間位置屬性對(duì)步驟3中判定為流動(dòng)人口的每個(gè)EPID的流動(dòng)目的進(jìn)行判 另IJ,其中,空間位置屬性的獲取依賴于,包括以下步驟: 步驟4.1、基于GIS基礎(chǔ)地圖空間地理數(shù)據(jù)獲得空間位置屬性,包括以下步驟: 步驟4.1.1、對(duì)在空間地理數(shù)據(jù)庫(kù)中的各人員的時(shí)間序列進(jìn)行空間/時(shí)間插值,保證人 口空間分布SDP之間的時(shí)間間隔相等,為空間聚類做準(zhǔn)備; 步驟4.1.2、對(duì)區(qū)域進(jìn)行基于密度的空間聚類,該聚類所獲得成果為得到基于空間的空 間位置屬性,包括以下步驟: 步驟A、將空間地理數(shù)據(jù)庫(kù)中的辦個(gè)興趣點(diǎn)POI位置屬性進(jìn)行遍歷,設(shè)置半徑Eps及最少 數(shù)目 MinPts; 步驟B、從辦個(gè)興趣點(diǎn)POI中任意選取一個(gè)點(diǎn)p; 步驟C、對(duì)當(dāng)前點(diǎn)p其進(jìn)行地域查詢,若點(diǎn)p是核心點(diǎn),則尋找從點(diǎn)p密度可達(dá)的點(diǎn),最終 形成一個(gè)包含點(diǎn)P的位置簇,否則點(diǎn)P被標(biāo)識(shí)為噪音點(diǎn); 步驟D、將辦個(gè)興趣點(diǎn)POI中的下一個(gè)點(diǎn)作為當(dāng)前點(diǎn)p,返回步驟4.3.3,直至如個(gè)興趣點(diǎn) POI都被處理; 步驟E、將所形成的位置簇進(jìn)行聚合,聚合后的每一個(gè)類為一個(gè)位置區(qū),每個(gè)位置區(qū)具 有一個(gè)位置屬性,最終對(duì)應(yīng)至運(yùn)營(yíng)商基站位置數(shù)據(jù),使每一個(gè)基站位置數(shù)據(jù)對(duì)應(yīng)一個(gè)位置 屬性; 步驟4.2、對(duì)步驟3中判定為流動(dòng)人口的每個(gè)EPID進(jìn)行基于位置區(qū)的多屬性差異識(shí)別, 對(duì)于當(dāng)前EPID而言,根據(jù)其位置信息獲得其所處的不同位置區(qū),將每個(gè)位置區(qū)的停留時(shí)長(zhǎng) 作為當(dāng)前位置區(qū)所對(duì)應(yīng)的位置屬性的時(shí)間權(quán)重,并對(duì)各個(gè)位置屬性的時(shí)間權(quán)重進(jìn)行權(quán)重判 定,將最突出的時(shí)間權(quán)重對(duì)應(yīng)的位置屬性賦予當(dāng)前EPID,以標(biāo)識(shí)當(dāng)前EPID的最終分類; 步驟4.3、對(duì)所有可識(shí)別位置屬性數(shù)據(jù)進(jìn)行分類,關(guān)聯(lián)其位置屬性與人群定義,獲得不 同流動(dòng)人口分類下的流動(dòng)目的識(shí)別; 步驟5、分析各類流動(dòng)人口出行特征。2. 如權(quán)利要求1所述的一種基于手機(jī)大數(shù)據(jù)的流動(dòng)人口分類識(shí)別分析方法,其特征在 于,在所述步驟2中,為了保證每個(gè)EPID軌跡識(shí)別的完整性與可信性,將各時(shí)間序列中無(wú)法 追蹤的時(shí)段標(biāo)識(shí)出來(lái),具體規(guī)則為:當(dāng)時(shí)間序列中某條記錄之后時(shí)長(zhǎng)為MaxT的時(shí)段范圍內(nèi) 無(wú)記錄,則認(rèn)為當(dāng)前EPID在當(dāng)前記錄之后的軌跡無(wú)法追蹤。3. 如權(quán)利要求1所述的一種基于手機(jī)大數(shù)據(jù)的流動(dòng)人口分類識(shí)別分析方法,其特征在 于,在所述步驟3中,將所述流動(dòng)人口進(jìn)一步劃分為長(zhǎng)期流動(dòng)人口、短期流動(dòng)人口及過(guò)境流 動(dòng)人口。4. 如權(quán)利要求3所述的一種基于手機(jī)大數(shù)據(jù)的流動(dòng)人口分類識(shí)別分析方法,其特征在 于,所述步驟3包括: 步驟3.1、判斷并統(tǒng)計(jì)各EPID的時(shí)間序列分段模型中在目標(biāo)分析城市所涉及的時(shí)間序 列的總時(shí)長(zhǎng),記為累計(jì)停留時(shí)長(zhǎng); 步驟3.2、設(shè)置時(shí)長(zhǎng)閾值MaxD、Classify-L及Classify-S,若當(dāng)前EPID的累計(jì)停留時(shí)長(zhǎng) 大于時(shí)長(zhǎng)閾值MaxD,則認(rèn)為當(dāng)前EPID為常住人口; 若當(dāng)前EP ID的累計(jì)停留時(shí)長(zhǎng)小于時(shí)長(zhǎng)閾值MaxD,且大于時(shí)長(zhǎng)閾值C1 as s i f y-L,則認(rèn)為 當(dāng)前EPID為長(zhǎng)期流動(dòng)人口; 若當(dāng)前EPID的累計(jì)停留時(shí)長(zhǎng)小于時(shí)長(zhǎng)閾值Classify-L,且大于時(shí)長(zhǎng)閾值Classify-S, 則認(rèn)為當(dāng)前EPID為短期流動(dòng)人口; 若當(dāng)前EPID的累計(jì)停留時(shí)小于時(shí)長(zhǎng)閾值Classify-S,則認(rèn)為當(dāng)前EPID為短時(shí)過(guò)境人 □ 〇5. 如權(quán)利要求1所述的一種基于手機(jī)大數(shù)據(jù)的流動(dòng)人口分類識(shí)別分析方法,其特征在 于,在所述步驟5中,所述流動(dòng)人口出行特征包括流動(dòng)人口活動(dòng)空間統(tǒng)計(jì)、流動(dòng)人口夜間分 布統(tǒng)計(jì)、流動(dòng)人口白天分布統(tǒng)計(jì)、流動(dòng)人口出行0D統(tǒng)計(jì)、流動(dòng)人口出行距離統(tǒng)計(jì)、流動(dòng)人口 出行耗時(shí)統(tǒng)計(jì)、流動(dòng)人口出行頻次統(tǒng)計(jì)。
【文檔編號(hào)】G06K9/62GK106096631SQ201610386914
【公開日】2016年11月9日
【申請(qǐng)日】2016年6月2日 公開號(hào)201610386914.5, CN 106096631 A, CN 106096631A, CN 201610386914, CN-A-106096631, CN106096631 A, CN106096631A, CN201610386914, CN201610386914.5
【發(fā)明人】張穎
【申請(qǐng)人】上海世脈信息科技有限公司