本發(fā)明涉及數(shù)據(jù)分析領域,特別是涉及一種高適用性的并行關聯(lián)規(guī)則挖掘算法。
背景技術:
目前百貨商場的運營模式從貨物的采購到運輸、管理、營銷、服務等方面進行了創(chuàng)新和完善,以人體行為動作為研究對象,通過視頻采集消費者的行為動作數(shù)據(jù)來分析消費者在店內(nèi)的感興趣服裝的一系列行為動作并關聯(lián)該服裝的銷量,從而找出關聯(lián)規(guī)則,利用這些關聯(lián)規(guī)則來提高商店的銷售。
現(xiàn)有技術中關聯(lián)規(guī)則挖掘即為了發(fā)現(xiàn)一個事件和其他事件之間的依賴和聯(lián)系,找出隱藏在數(shù)據(jù)庫中的關聯(lián)信息,目前采用的挖掘方法有通過建立數(shù)據(jù)所在領域的項相關性模型進行層次聚類,不利于新規(guī)則的挖掘;采用粗略剪枝的方法誤差較大,降低挖掘結果的準確性;一種基于檢測點的apriori改進算法,減少了候選項的生成和挖掘時間,需要多次掃描數(shù)據(jù)庫,不能保證挖掘算法的高效性;所以,亟需一種能夠提高挖掘算法高效性的數(shù)據(jù)關聯(lián)規(guī)則挖掘算法。
技術實現(xiàn)要素:
本發(fā)明的目的是提供一種能夠提高挖掘結果的準確度和適用性,保證算法高效性的并行關聯(lián)挖掘算法。
為實現(xiàn)上述目的,本發(fā)明提供了如下方案:
一種高適用性的并行關聯(lián)規(guī)則挖掘算法包括:
采集商場中消費者對一件衣服a做出的動作a,動作b,動作c,動作d,動作e,并對應存儲為動作項集{a},動作項集,動作項集{c},動作項集xv3r9jzsqg,動作項集{e};
在統(tǒng)計時間內(nèi),采集商場中消費者對所述某件衣服a做出的動作項集,獲得在所述統(tǒng)計時間內(nèi)第一段時間內(nèi)的動作項集{a}、{c}、xv3r9jzsqg,在第二段時間內(nèi)的動作項集、{c}、{e},在第三段時間內(nèi)的動作項集{a}、、{c}、{e},在第四段時間內(nèi)的動作項集、{e};
根據(jù)所述動作項集{a}、{c}、xv3r9jzsqg,動作項集、{c}、{e},動作項集{a}、、{c}、{e},動作項集、{e},獲得各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}的支持度;
根據(jù)各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}的支持度進行迭代,獲得集合{b,c}、集合{b,e}及集合{a,c},各所述集合{b,c}、{b,e}、{a,c}均為頻繁2-動作項集;
分別根據(jù)所述頻繁2-動作項集{b,c}和{b,e}中的第二項組成集合{c,e},所述集合{c,e}為候選2-動作項集;
判斷所述候選2-動作項集{c,e}的支持度是否大于二項支持度閾值,如果是,將所述頻繁2-動作項集{b,c}、{b,e}和所述候選2-動作項集{c,e}組合成候選3-動作項集{b,c,e},停止迭代;否則,計算各所述頻繁2-動作項集{b,c}、{b,e}、{a,c}的頻繁度,并相加獲得總頻繁度;
根據(jù)所述動作項集{a}、{c}、xv3r9jzsqg,動作項集、{c}、{e},動作項集{a}、、{c}、{e},動作項集、{e},獲得所述候選3-動作項集{b,c,e}的頻繁度;
通過比較所述候選3-動作項集{b,c,e},各所述頻繁2-動作項集{b,c}、{b,e}、{a,c}和所述候選2-動作項集{c,e}的頻繁度,篩選出頻繁度值最高的三個集合,并將所述三個集合的頻繁度值相加獲得總頻繁度;
如果所述總頻繁度大于所述頻繁度閾值,則表示所述第一段時間、第二段時間、第三段時間、第四段時間內(nèi)所述某件衣服a在所述商場中的人氣較高。
可選的,各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}的支持度的計算方法:
分別確定各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}在各時間段內(nèi)是否出現(xiàn)過,如果出現(xiàn)過標記為1,否則標記為0;
統(tǒng)計各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}在各時間段內(nèi)出現(xiàn)過的次數(shù);
分別計算各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}的次數(shù)與時間段數(shù)的百分比。
可選的,所述候選2-動作項集{c,e}的支持度的計算方法:
分別確定所述動作項集{c}和動作項集{e}在同一時間段內(nèi)是否同時出現(xiàn)過,如果出現(xiàn)過標記為1′,否則標記為0′;
統(tǒng)計各所述動作項集{c}和動作項集{e}在各時間段內(nèi)同一時間段內(nèi)同時出現(xiàn)過的次數(shù);
計算所述動作項集{c}和動作項集{e}在同一時間段內(nèi)同時出現(xiàn)過的次數(shù)與時間段數(shù)的百分比。
可選的,所述計算所述候選2-動作項集{c,e}的頻繁度,各所述頻繁2-動作項集{b,c}、{b,e}、{a,c}的頻繁度和所述候選3-動作項集{b,c,e}的頻繁度的方法:
設各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}的權重值分別為q1,q2,q3,q4,q5;
所述候選2-動作項集{c,e}的頻繁度等于所述動作項集{c}和所述動作項集{e}的支持度與對應所述權重值q3,q5的乘積之和;
各所述頻繁2-動作項集{b,c}、{b,e}、{a,c}的頻繁度分別等于所述動作項集和所述動作項集{c}的支持度與對應所述權重值q2,q3的乘積之和,所述動作項集和所述動作項集{e}的支持度與對應所述權重值q2,q5的乘積之和,所述動作項集{a}和所述動作項集{c}的支持度與對應所述權重值q1,q3的乘積之和;
所述候選3-動作項集{b,c,e}的頻繁度等于所述動作項集,所述動作項集{c}和所述動作項集{e}的支持度與對應所述權重值q2,q3,q5的乘積之和。
可選的,所述迭代具體包括:根據(jù)各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}的支持度,篩選出支持度大于一項支持度閾值的對應各所述動作項集,獲得動作項集{a}、動作項集、動作項集{c}、動作項集{e},所述動作項集{a}、動作項集、動作項集{c}、動作項集{e}為頻繁1-動作項集;
將各所述頻繁1-動作項集{a}、、{c}、{e}中任意兩項組合成各候選2-動作項集{a,c}、{b,c}、{b,e}、{c,e}、{a,e}、{a,b};
計算出各所述候選2-動作項集{a,c}、{b,c}、{b,e}、{c,e}、{a,e}、{a,b}的支持度,并篩選出大于二項支持度閾值的各所述候選2-動作項集,獲得各所述候選2-動作項集{a,c}、{b,c}、{b,e}、{c,e}為頻繁2-動作項集。
根據(jù)本發(fā)明提供的具體實施例,本發(fā)明公開了以下技術效果:本發(fā)明中通過采集商場中的消費者對一件衣服不同時間段內(nèi)做出的動作,計算所述動作項集的支持度和頻繁度,通過多次迭代,得出采集時間段內(nèi)的一件衣服在商場中的人氣是否較高,根據(jù)支持度設定檢測點,減少了候選項的生成,提高了挖掘效率,保證了挖掘結果的準確性和適用性,保證了算法的高效性。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明計算方法的流程圖;
圖2為本發(fā)明迭代過程的流程圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
本發(fā)明的目的是提供一種能夠提高挖掘結果的準確度和適用性,保證算法的高效性的并行關聯(lián)挖掘算法。
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。
如圖1所示,一種高適用性的并行關聯(lián)規(guī)則挖掘算法包括:
步驟100:采集商場中消費者對一件衣服a做出的動作a,動作b,動作c,動作d,動作e,并對應存儲為動作項集{a},動作項集,動作項集{c},動作項集xv3r9jzsqg,動作項集{e}。
步驟200:在統(tǒng)計時間內(nèi),采集商場中消費者對所述某件衣服a做出的動作項集,獲得在所述統(tǒng)計時間內(nèi)第一段時間內(nèi)的動作項集{a}、{c}、xv3r9jzsqg,在第二段時間內(nèi)的動作項集、{c}、{e},在第三段時間內(nèi)的動作項集{a}、、{c}、{e},在第四段時間內(nèi)的動作項集、{e}。
步驟300:根據(jù)所述動作項集{a}、{c}、xv3r9jzsqg,動作項集、{c}、{e},動作項集{a}、、{c}、{e},動作項集、{e},獲得各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}的支持度。
步驟400:根據(jù)各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}的支持度進行迭代,獲得集合{b,c}、集合{b,e}及集合{a,c},各所述集合{b,c}、{b,e}、{a,c}均為頻繁2-動作項集。
步驟500:分別根據(jù)所述頻繁2-動作項集{b,c}和{b,e}中的第二項組成集合{c,e},所述集合{c,e}為候選2-動作項集,計算所述候選2-動作項集{c,e}的支持度。
步驟600:判斷所述候選2-動作項集{c,e}的支持度是否大于二項支持度閾值,如果是,執(zhí)行步驟700;否則,執(zhí)行步驟800。
步驟700:將所述頻繁2-動作項集{b,c}、{b,e}和所述候選2-動作項集{c,e}組合成候選3-動作項集{b,c,e},停止迭代。
步驟800:計算各所述頻繁2-動作項集{b,c}、{b,e}、{a,c}的頻繁度,并相加獲得總頻繁度。
步驟900:根據(jù)所述動作項集{a}、{c}、xv3r9jzsqg,動作項集、{c}、{e},動作項集{a}、、{c}、{e},動作項集、{e},獲得所述候選3-動作項集{b,c,e}的頻繁度。
步驟1000:通過比較所述候選3-動作項集{b,c,e},各所述頻繁2-動作項集{b,c}、{b,e}、{a,c}和所述候選2-動作項集{c,e}的頻繁度,篩選出頻繁度值最高的三個集合,并將所述三個集合的頻繁度值相加獲得總頻繁度。
步驟1100:如果所述總頻繁度大于所述頻繁度閾值,則表示所述第一段時間、第二段時間、第三段時間、第四段時間內(nèi)所述某件衣服a在所述商場中的人氣較高。
可選的,各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}的支持度的計算方法:
步驟301:分別確定各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}在各時間段內(nèi)是否出現(xiàn)過,如果出現(xiàn)過標記為1,否則標記為0。
步驟302:統(tǒng)計各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}在各時間段內(nèi)出現(xiàn)過的次數(shù),動作項集{a}在第一段時間和第三段時間內(nèi)出現(xiàn)過,所以動作項集{a}出現(xiàn)過兩次。
步驟303:分別計算各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}的次數(shù)與時間段數(shù)的百分比。
如圖2所示,迭代過程具體包括:
步驟401:根據(jù)各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}的支持度,篩選出支持度大于一項支持度閾值的對應各所述動作項集,在本實施例中,所述一項支持度閾值為50%,獲得動作項集{a}、動作項集、動作項集{c}、動作項集{e},所述動作項集{a}、動作項集、動作項集{c}、動作項集{e}為頻繁1-動作項集。
步驟402:將各所述頻繁1-動作項集{a}、、{c}、{e}中任意兩項組合成各候選2-動作項集{a,c}、{b,c}、{b,e}、{c,e}、{a,e}、{a,b}。
步驟403:計算出各所述候選2-動作項集{a,c}、{b,c}、{b,e}、{c,e}、{a,e}、{a,b}的支持度,并篩選出大于二項支持度閾值的各所述候選2-動作項集,獲得各所述候選2-動作項集{a,c}、{b,c}、{b,e}、{c,e}為頻繁2-動作項集。
可選的,計算所述候選2-動作項集{c,e}的支持度的方法:
步驟501:分別確定所述動作項集{c}和動作項集{e}在同一時間段內(nèi)是否同時出現(xiàn)過,如果出現(xiàn)過標記為1′,否則標記為0′。
步驟502:統(tǒng)計各所述動作項集{c}和動作項集{e}在各時間段內(nèi)同一時間段內(nèi)同時出現(xiàn)過的次數(shù),從統(tǒng)計數(shù)據(jù)中得出在同一時間段內(nèi)同時出現(xiàn)過的時間段分別為第二段時間和第三段時間,所以出現(xiàn)過的次數(shù)為兩次。
步驟503:計算所述動作項集{c}和動作項集{e}在同一時間段內(nèi)同時出現(xiàn)過的次數(shù)與時間段數(shù)的百分比,時間段數(shù)為4,分別為第一段時間,第二段時間,第三段時間,第四段時間。
可選的,所述計算所述候選2-動作項集{c,e}的頻繁度,各所述頻繁2-動作項集{b,c}、{b,e}、{a,c}的頻繁度和所述候選3-動作項集{b,c,e}的頻繁度的計算方法:
設各所述動作項集{a}、、{c}、xv3r9jzsqg、{e}的權重值分別為q1,q2,q3,q4,q5,在本實施例中,賦予所述q1,q2,q3,q4,q5分別為45%、25%、15%、10%、5%。
所述候選2-動作項集{c,e}的頻繁度等于所述動作項集{c}和所述動作項集{e}的支持度與對應所述權重值q3,q5的乘積之和。
各所述頻繁2-動作項集{b,c}、{b,e}、{a,c}的頻繁度分別等于所述動作項集和所述動作項集{c}的支持度與對應所述權重值q2,q3的乘積之和,所述動作項集和所述動作項集{e}的支持度與對應所述權重值q2,q5的乘積之和,所述動作項集{a}和所述動作項集{c}的支持度與對應所述權重值q1,q3的乘積之和。
所述候選3-動作項集{b,c,e}的頻繁度等于所述動作項集,所述動作項集{c}和所述動作項集{e}的支持度與對應所述權重值q2,q3,q5的乘積之和。
在本實施例中,商場中的消費者對一件衣服做出的動作包括試穿,進入試衣間,拿起衣服低頭觀看,舉起觀看,摸衣服,采集第一段時間內(nèi)包括試穿,拿起衣服低頭觀看,舉起觀看三個動作,第二段時間內(nèi)包括進入試衣間,拿起衣服低頭觀看,摸衣服三個動作,第三段時間內(nèi)包括試穿,進入試衣間,拿起衣服低頭觀看,摸衣服四個動作,第四段時間內(nèi)包括進入試衣間,摸衣服兩個動作。
試穿動作在四個時間段內(nèi)出現(xiàn)過2次,試穿動作的支持度為2/4=50%,進入試衣間在四個時間段內(nèi)出現(xiàn)過3次,進入試衣間的支持度為3/4=75%,拿起衣服低頭觀看在四個時間段內(nèi)出現(xiàn)過3次,拿起衣服低頭觀看的支持度為3/4=75%,舉起觀看在四個時間段內(nèi)出現(xiàn)過一次,舉起觀看的支持度為1/4=25%,摸衣服在四個時間段內(nèi)出現(xiàn)過三次,摸衣服的支持度為3/4=75%。
一項支持度閾值和二項支持度閾值可均為50%,篩選出試穿,進入試衣間,拿起衣服低頭觀看,摸衣服四個動作,其中任意兩個動作重新組合成2-動作項集,計算所有2-動作項集的支持度和頻繁度,頻繁度高的2-動作項集重新組合成包含有三個動作的3-動作項集,篩選頻繁度最高的動作項集獲得頻繁度最高的三個動作項集,相加求得總頻繁度,如果總頻繁度大于總頻繁度閾值,說明這件衣服的人氣高。
本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對于實施例公開的系統(tǒng)而言,由于其與實施例公開的方法相對應,所以描述的比較簡單,相關之處參見方法部分說明即可。
本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處。綜上所述,本說明書內(nèi)容不應理解為對本發(fā)明的限制。