本發(fā)明涉及傳感信息興趣點(diǎn)分析,尤其是涉及了一種基于低采樣率傳感信息的用戶環(huán)境分類方法。
背景技術(shù):
伴隨著各種智能手機(jī)和相似智能移動設(shè)備的出現(xiàn)與更新的,是一批又一批眾多而又無所不在的傳感設(shè)備大量地投入到日常生活中,它們產(chǎn)生各種海量傳感信息,促使人們對其進(jìn)行大數(shù)據(jù)分析?;谶@類信息人們作出對用戶興趣點(diǎn)(poi,positionofinterest)、交通模式、移動性等研究,從而形成一個針對特定用戶的專有模型,可以更好地了解用戶生活方式,并反過來改善用戶生活體驗。包括社會科學(xué)家在內(nèi)的研究團(tuán)體對這類研究展現(xiàn)出越來越濃烈的興趣,因為這會多方面地影響到人們的生活并且應(yīng)用廣泛,例如行為模式研究、人員流動研究、社交網(wǎng)絡(luò)發(fā)展、交通出行研究、內(nèi)容消費(fèi)制作等與人類日常生活息息相關(guān)的議題都能從中找到啟發(fā)。
然而,以往同類或相似研究中,為了保證信息的完整性及完備性,設(shè)備使用者大多采用高采樣率進(jìn)行信息的采集,但這將大大消耗作為日常使用而言的電池電量,使得數(shù)據(jù)量急劇下降并且只能作短期數(shù)據(jù)收集。因此數(shù)據(jù)量如今仍舊是一個具有挑戰(zhàn)性的問題,同時在人群資源和感知環(huán)境下,不同的用戶使用不同的設(shè)備,不可能從所有用戶中檢索到所有的有用信息。
本發(fā)明提出了一種基于低采樣率傳感信息的用戶環(huán)境分類方法。使用超低采用率采集現(xiàn)實世界數(shù)據(jù),進(jìn)行適當(dāng)預(yù)處理后,利用基于停留點(diǎn)的驗證算法檢測有效的停留點(diǎn),然后用具有噪聲的基于密度的聚類方法將其合并成軌跡,再運(yùn)用基于信息融合的環(huán)境分類框架進(jìn)行環(huán)境類型的分類判斷。本發(fā)明可以克服智能手機(jī)或智能移動設(shè)備電池電量有限的劣勢,使用超低采樣框架采集信息,引入基于停留點(diǎn)的驗證算法算法檢測興趣點(diǎn)的有效性,提高了興趣點(diǎn)環(huán)境類型區(qū)分的精確性。
技術(shù)實現(xiàn)要素:
針對解決高采樣率對智能移動設(shè)備時間及數(shù)據(jù)量的限制,以及對用戶興趣點(diǎn)有效性檢測及其環(huán)境類型分類準(zhǔn)確性低的問題,本發(fā)明的目的在于提供一種超低采樣率數(shù)據(jù)采集框架,提出了一種基于低采樣率傳感信息且基于信息融合的用戶環(huán)境分類方法。
為解決上述問題,本發(fā)明提供一種基于低采樣率傳感信息的用戶環(huán)境分類方法,其主要內(nèi)容包括:
(一)數(shù)據(jù)采集模塊;
(二)數(shù)據(jù)處理模塊;
(三)興趣點(diǎn)檢測模塊;
(四)興趣點(diǎn)分類模塊。
其中,所述的數(shù)據(jù)采集模塊,使用應(yīng)用程序從移動設(shè)備中采集信息,其信息采樣間隔為5分鐘,具有三方面信息:
(1)位置信息:設(shè)備id、經(jīng)緯度、位置精確性、時間戳;
(2)社交信息:設(shè)備id、聲音強(qiáng)度、時間戳;
(3)活動信息:設(shè)備id、交通方式、活動、時間戳。
進(jìn)一步地,所述的數(shù)據(jù)處理模塊,包括獲取數(shù)據(jù)和處理數(shù)據(jù)兩部分:其中獲取數(shù)據(jù)通過兩種渠道獲取保存在移動設(shè)備中的原始數(shù)據(jù);
1)當(dāng)移動設(shè)備處于離線狀態(tài)時,直接從移動設(shè)備中讀取信息;
2)當(dāng)移動設(shè)備處于在線狀態(tài)時,先講移動設(shè)備中的信息轉(zhuǎn)存至數(shù)據(jù)庫,再從數(shù)據(jù)庫中讀取信息。
進(jìn)一步地,所述的處理數(shù)據(jù)包括降噪處理、時間同步和數(shù)據(jù)對齊三部分:
(1)降噪處理:刪除由于移動設(shè)備離線引起冗余信息保留而不上傳至數(shù)據(jù)庫所產(chǎn)生的具有同樣時間戳的信息;
(2)時間同步:將不同的數(shù)據(jù)連接成一個類似的時間戳,進(jìn)行數(shù)據(jù)融合計算;
(3)數(shù)據(jù)對齊:基于數(shù)據(jù)同步的時間,將來自不同數(shù)據(jù)庫的信息排列成單個矩陣的對齊形式。
進(jìn)一步地,所述的興趣點(diǎn)檢測模塊,包括使用基于停留點(diǎn)的驗證算法驗證提取興趣點(diǎn),使用具有噪聲的基于密度的聚類方法將興趣點(diǎn)軌跡進(jìn)行聚類。
進(jìn)一步地,所述的基于停留點(diǎn)的驗證算法,包括驗證興趣點(diǎn)和提取興趣點(diǎn),具有g(shù)ps定位的地點(diǎn)用表示,其中有效的值用表示,它被定義為:
其中,θl是閾值200;
根據(jù)公式(2)可計算出gps坐標(biāo)為a{ζ1,λ1}和b{ζ2,λ2}兩地點(diǎn)之間距離d,其中hav-1指harvesine逆函數(shù),r指地球半徑,
ab兩地之間的交通時間δt定義為兩個地點(diǎn)坐標(biāo)的時間戳差值,即:
δt=ti+1-ti(3)
根據(jù)公式(2)(3)結(jié)果,進(jìn)行興趣點(diǎn)有效性檢測,當(dāng)δt<θt,d<θd(θt,θd為交通時間及地點(diǎn)距離閾值),則可認(rèn)為這兩個地點(diǎn)停留的gps坐標(biāo)為用戶興趣點(diǎn),從而添加進(jìn)興趣點(diǎn)軌跡。
進(jìn)一步地,所述的興趣點(diǎn)分類模塊,包括利用設(shè)備傳感器信息融合方法進(jìn)行io(室內(nèi)外)分類,即對于興趣點(diǎn)軌跡上的停留點(diǎn),根據(jù)應(yīng)用程序界面返回的gps精確性值來區(qū)分該停留點(diǎn)為室內(nèi)的還是室外的及私人的還是公共的。
進(jìn)一步地,所述的信息融合方法,包括使用置信百分比的方法去確定興趣點(diǎn)的環(huán)境類型;在興趣點(diǎn)的起止時間過程中,分類器需要獲得移動設(shè)備的多種傳感信息,如gps精確性值、噪聲水平、電池能況、光照程度等,其中g(shù)ps精確性值由應(yīng)用程序界面自動返回,其值越高,其gps精確性值越低;
興趣點(diǎn)的持續(xù)過程每5分鐘切為一個片段,每個片段都會給予一個上述四種分類環(huán)境中某一種類型的置信百分比,而這四種分類環(huán)境用數(shù)字作為標(biāo)簽記號說明,即{1,2,3,4}分別表示室內(nèi)、室外、私人和公共。
進(jìn)一步地,某一種環(huán)境類型的總體置信水平由公式(4)定義:
其中,n是表示所有5分鐘片段的總共數(shù)目,
進(jìn)一步地,所述的利用百分比置信方法與基于傳感器的gps精確性值進(jìn)行環(huán)境類型的判斷,包括使用四種含有不同因素權(quán)重分配的公式來判斷環(huán)境類型p1,p2,p3,p4,即對應(yīng)室內(nèi)、室外、私人和公共;
(1)對于室內(nèi)類型p1,傳感器信息對百分比的貢獻(xiàn)分別為:90%來自于gps精確性值(g);5%來自于電池能況(β),當(dāng)電池正在充電則β=1,否則β=0;5%來自于活動是否靜止?fàn)顟B(tài)(αs),根據(jù)位置api回傳的信息來確定αs的值為0或者1;則p1的定義如下:
其中thg是gps精確性值的閾值,x是該片段的gps精確性值的平均值;
(2)對于室外類型p2,傳感器信息對百分比的貢獻(xiàn)分別為:90%來自于gps精確性值(g);10%來自于光照程度(l),如果光照強(qiáng)度大于閾值thl則l=1,否則l=0;p2則的定義如下:
同樣地,其中thg是gps精確性值的閾值,x是該片段的gps精確性值的平均值,根據(jù)經(jīng)驗,閾值thg設(shè)定為30,thl設(shè)定為1000;
(3)對于私人類型p3,傳感器信息對百分比的貢獻(xiàn)分別為:90%來自于噪聲水平;10%來自于活動是否靜止?fàn)顟B(tài)(αs);則p3的定義如下:
其中thn是噪聲水平的閾值,y是該片段噪聲水平的平均歸一化值;
(4)對于公共類型p4,傳感器信息對百分比的貢獻(xiàn)分別為:90%來自于噪聲水平;10%來自于活動是否行走狀態(tài)(αw);則p4的定義如下:
同樣地,其中thn是噪聲水平的閾值,y是該片段噪聲水平的平均歸一化值,根據(jù)經(jīng)驗,閾值thn設(shè)定為5。
附圖說明
圖1是本發(fā)明一種基于低采樣率傳感信息的用戶環(huán)境分類方法的系統(tǒng)流程圖。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步詳細(xì)說明。
圖1是本發(fā)明一種基于低采樣率傳感信息的用戶環(huán)境分類方法的系統(tǒng)流程圖。數(shù)據(jù)采集模塊;數(shù)據(jù)處理模塊;興趣點(diǎn)檢測模塊;興趣點(diǎn)分類模塊。
使用基于應(yīng)用程序從移動設(shè)備中采集信息,其信息采樣間隔為5分鐘,具有三方面信息;
(1)位置信息:設(shè)備id、經(jīng)緯度、位置精確性、時間戳;
(2)社交信息:設(shè)備id、聲音強(qiáng)度、時間戳;
(3)活動信息:設(shè)備id、交通方式、活動、時間戳。
進(jìn)一步地,所述的數(shù)據(jù)處理模塊,包括獲取數(shù)據(jù)和處理數(shù)據(jù)兩部分:其中獲取數(shù)據(jù)通過兩種渠道獲取保存在移動設(shè)備中的原始數(shù)據(jù);
1)當(dāng)移動設(shè)備處于離線狀態(tài)時,直接從移動設(shè)備中讀取信息;
2)當(dāng)移動設(shè)備處于在線狀態(tài)時,先講移動設(shè)備中的信息轉(zhuǎn)存至數(shù)據(jù)庫,再從數(shù)據(jù)庫中讀取信息;
進(jìn)一步地,所述的處理數(shù)據(jù)包括降噪處理、時間同步和數(shù)據(jù)對齊三部分:
(1)降噪處理:刪除由于移動設(shè)備離線引起冗余信息保留而不上傳至數(shù)據(jù)庫所產(chǎn)生的具有同樣時間戳的信息;
(2)時間同步:將不同的數(shù)據(jù)連接成一個類似的時間戳,進(jìn)行數(shù)據(jù)融合計算;
(3)數(shù)據(jù)對齊:基于數(shù)據(jù)同步的時間,將來自不同數(shù)據(jù)庫的信息排列成單個矩陣的對齊形式。
進(jìn)一步地,所述的興趣點(diǎn)檢測模塊,包括使用基于停留點(diǎn)的驗證算法驗證提取興趣點(diǎn),使用具有噪聲的基于密度的聚類方法將興趣點(diǎn)軌跡進(jìn)行聚類。
進(jìn)一步地,所述的基于停留點(diǎn)的驗證算法,包括驗證興趣點(diǎn)和提取興趣點(diǎn),具有g(shù)ps定位的地點(diǎn)用表示,其中有效的值用表示,它被定義為:
其中,θl是閾值200;
根據(jù)公式(2)可計算出gps坐標(biāo)為a{ζ1,λ1}和b{ζ2,λ2}兩地點(diǎn)之間距離d,其中hav-1指harvesine逆函數(shù),r指地球半徑,
ab兩地之間的交通時間δt定義為兩個地點(diǎn)坐標(biāo)的時間戳差值,即:
δt=ti+1-ti(3)
根據(jù)公式(2)(3)結(jié)果,進(jìn)行興趣點(diǎn)有效性檢測,當(dāng)δt<θt,d<θd(θt,θd為交通時間及地點(diǎn)距離閾值),則可認(rèn)為這兩個地點(diǎn)停留的gps坐標(biāo)為用戶興趣點(diǎn),從而添加進(jìn)興趣點(diǎn)軌跡;
進(jìn)一步地,所述的興趣點(diǎn)分類模塊,包括利用設(shè)備傳感器信息融合方法進(jìn)行io(室內(nèi)外)分類,即對于興趣點(diǎn)軌跡上的停留點(diǎn),根據(jù)程序界面返回的gps精確性值來區(qū)分該停留點(diǎn)為室內(nèi)的還是室外的及私人的還是公共的。
進(jìn)一步地,所述的信息融合方法,包括使用置信百分比的方法去確定興趣點(diǎn)的環(huán)境類型;在興趣點(diǎn)的起止時間過程中,分類器需要獲得移動設(shè)備的多種傳感信息,如gps精確性值、噪聲水平、電池能況、光照程度等,其中g(shù)ps精確性值由程序界面自動返回,其值越高,其gps精確性值越低;
興趣點(diǎn)的持續(xù)過程每5分鐘切為一個片段,每個片段都會給予一個上述四種分類環(huán)境中某一種類型的置信百分比,而這四種分類環(huán)境用數(shù)字作為標(biāo)簽記號說明,即{1,2,3,4}分別表示室內(nèi)、室外、私人和公共。
某一種環(huán)境類型的總體置信水平由公式(4)定義:
其中,n是表示所有5分鐘片段的總共數(shù)目,
進(jìn)一步地,所述的利用百分比置信方法與基于傳感器的gps精確性值進(jìn)行環(huán)境類型的判斷,包括使用四種含有不同因素權(quán)重分配的公式來判斷環(huán)境類型p1,p2,p3,p4,即對應(yīng)室內(nèi)、室外、私人和公共;
(1)對于室內(nèi)類型p1,傳感器信息對百分比的貢獻(xiàn)分別為:90%來自于gps精確性值(g);5%來自于電池能況(β),當(dāng)電池正在充電則β=1,否則β=0;5%來自于活動是否靜止?fàn)顟B(tài)(αs),根據(jù)位置api回傳的信息來確定αs的值為0或者1;則p1的定義如下:
其中thg是gps精確性值的閾值,x是該片段的gps精確性值的平均值;
(2)對于室外類型p2,傳感器信息對百分比的貢獻(xiàn)分別為:90%來自于gps精確性值(g);10%來自于光照程度(l),如果光照強(qiáng)度大于閾值thl則l=1,否則l=0;p2則的定義如下:
同樣地,其中thg是gps精確性值的閾值,x是該片段的gps精確性值的平均值,根據(jù)經(jīng)驗,閾值thg設(shè)定為30,thl設(shè)定為1000;
(3)對于私人類型p3,傳感器信息對百分比的貢獻(xiàn)分別為:90%來自于噪聲水平;10%來自于活動是否靜止?fàn)顟B(tài)(αs);則p3的定義如下:
其中thn是噪聲水平的閾值,y是該片段噪聲水平的平均歸一化值;
(4)對于公共類型p4,傳感器信息對百分比的貢獻(xiàn)分別為:90%來自于噪聲水平;10%來自于活動是否行走狀態(tài)(αw);則p4的定義如下:
同樣地,其中thn是噪聲水平的閾值,y是該片段噪聲水平的平均歸一化值,根據(jù)經(jīng)驗,閾值thn設(shè)定為5。
對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實施例的細(xì)節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。