專利名稱:一種用于挖掘rfid數(shù)據(jù)孤立點(diǎn)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及射頻識(shí)別技術(shù)和數(shù)字處理技術(shù),尤其涉及一種用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法。
背景技術(shù):
在RFID應(yīng)用領(lǐng)域中RFID數(shù)據(jù)孤立點(diǎn)的檢測(cè)具有很深遠(yuǎn)的意義,因?yàn)橥诰虺龉铝Ⅻc(diǎn)所隱藏的信息,有助于找到提高標(biāo)簽識(shí)別率的方法以及改善作業(yè)流程。而目前主要有基于統(tǒng)計(jì)學(xué)分布、基于距離、基于密度、基于特征等方法用于RFID數(shù)據(jù)孤立點(diǎn)的挖掘,但是采用這些方法對(duì)海量的RFID數(shù)據(jù)進(jìn)行孤立點(diǎn)的挖掘,其效果差,處理效率低以及對(duì)邊界點(diǎn)難以判別,而且由于RFID是通過(guò)無(wú)線電磁進(jìn)行傳輸,因此在標(biāo)簽的讀取過(guò)程中容易讀取到噪聲,或者漏讀、冗余讀、錯(cuò)讀等等,這樣更加增大挖掘孤立點(diǎn)的難度。
發(fā)明內(nèi)容
為了解決上述技術(shù)問(wèn)題,本發(fā)明的目的是提供一種準(zhǔn)確度高以及數(shù)據(jù)處理效率高的用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法。本發(fā)明所采用的技術(shù)方案是一種用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法,該方法步驟包括A、從中間件獲取原始RFID數(shù)據(jù);B、對(duì)獲取的原始RFID數(shù)據(jù)進(jìn)行聚類(lèi)后壓縮;C、通過(guò)RFID讀取特征,使壓縮后的原始RFID數(shù)據(jù)以三元組方式作為RFID數(shù)據(jù)點(diǎn)在讀取特征向量空間進(jìn)行RFID數(shù)據(jù)孤立點(diǎn)的挖掘;D、采用基于權(quán)值的反向最近鄰算法對(duì)RFID數(shù)據(jù)點(diǎn)進(jìn)行數(shù)據(jù)處理,進(jìn)而輸出RFID數(shù)據(jù)孤立點(diǎn)。進(jìn)一步,所述步驟B中采用哈希表對(duì)獲取的原始RFID數(shù)據(jù)進(jìn)行聚類(lèi)。進(jìn)一步,所述步驟B包括BI、對(duì)獲取的原始RFID數(shù)據(jù)利用哈希表進(jìn)行聚類(lèi);B2、根據(jù)原始RFID數(shù)據(jù)判斷該標(biāo)簽是否已存在哈希表,若存在,則增加該標(biāo)簽的讀寫(xiě)次數(shù),更新最近讀取時(shí)間,并計(jì)算當(dāng)前的讀取信號(hào)強(qiáng)度;若不存在,則將該標(biāo)簽插入哈希表中,并記錄讀取記錄以及該標(biāo)簽的讀取信號(hào)強(qiáng)度和首次讀取時(shí)間。進(jìn)一步,所述步驟C中所述的RFID讀取特征包括標(biāo)簽的讀取時(shí)間間隔、標(biāo)簽在讀取時(shí)間間隔內(nèi)的讀取次數(shù)以及標(biāo)簽的平均信號(hào)讀取強(qiáng)度。進(jìn)一步,所述步驟D包括D1、計(jì)算兩兩RFID數(shù)據(jù)點(diǎn)之間的距離,進(jìn)而生成距離矩陣;D2、根據(jù)距離矩陣以及預(yù)設(shè)的K值,采用K最近鄰分類(lèi)計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的K最近鄰居集合;D3、計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的平均距離;、
D4、選取平均距離最大的RFID數(shù)據(jù)點(diǎn)后根據(jù)平均距離最大的RFID數(shù)據(jù)點(diǎn)進(jìn)而計(jì)算RFID數(shù)據(jù)點(diǎn)的密度權(quán)值;D5、采用反向K最近鄰分類(lèi)計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的反向K最近鄰居集合,每個(gè)RFID數(shù)據(jù)點(diǎn)的反向K最近鄰居集合由包含該RFID數(shù)據(jù)點(diǎn)的K最近鄰居集合組成;D6、計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的孤立系數(shù)后對(duì)每個(gè)RFID數(shù)據(jù)點(diǎn)的孤立系數(shù)進(jìn)行排序,進(jìn)而按照預(yù)設(shè)的百分比輸出RFID數(shù)據(jù)孤立點(diǎn)。進(jìn)一步,所述步驟D2,根據(jù)距離矩陣以及預(yù)設(shè)的K值,采用K最近鄰分類(lèi)計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的K最近鄰居集合,其具體為,根據(jù)距離矩陣以及預(yù)設(shè)的K值,分別計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的與其本身距離最近的K個(gè)RFID數(shù)據(jù)點(diǎn),而計(jì)算出的K個(gè)RFID數(shù)據(jù)點(diǎn)則組成K最近鄰居集合。
進(jìn)一步,所述步驟D3,計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的平均距離,其具體為,分別計(jì)算每個(gè) RFID數(shù)據(jù)點(diǎn)與其K最近鄰居集合中的所有RFID數(shù)據(jù)點(diǎn)的距離的平均值。進(jìn)一步,所述步驟D4中計(jì)算RFID數(shù)據(jù)點(diǎn)的密度權(quán)值的公式如下,
權(quán)利要求
1.ー種用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法,其特征在于該方法步驟包括 A、從中間件獲取原始RFID數(shù)據(jù); B、對(duì)獲取的原始RFID數(shù)據(jù)進(jìn)行聚類(lèi)后壓縮; C、通過(guò)RFID讀取特征,使壓縮后的原始RFID數(shù)據(jù)以三元組方式作為RFID數(shù)據(jù)點(diǎn)在讀取特征向量空間進(jìn)行RFID數(shù)據(jù)孤立點(diǎn)的挖掘; D、采用基于權(quán)值的反向最近鄰算法對(duì)RFID數(shù)據(jù)點(diǎn)進(jìn)行數(shù)據(jù)處理,進(jìn)而輸出RFID數(shù)據(jù)孤立點(diǎn)。
2.根據(jù)權(quán)利要求I所述ー種用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法,其特征在于所述步驟B中采用哈希表對(duì)獲取的原始RFID數(shù)據(jù)進(jìn)行聚類(lèi)。
3.根據(jù)權(quán)利要求I或2所述ー種用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法,其特征在于所述步驟B包括 BI、對(duì)獲取的原始RFID數(shù)據(jù)利用哈希表進(jìn)行聚類(lèi); B2、根據(jù)原始RFID數(shù)據(jù)判斷該標(biāo)簽是否已存在哈希表,若存在,則增加該標(biāo)簽的讀寫(xiě)次數(shù),更新最近讀取時(shí)間,并計(jì)算當(dāng)前的讀取信號(hào)強(qiáng)度;若不存在,則將該標(biāo)簽插入哈希表中,并記錄讀取記錄以及該標(biāo)簽的讀取信號(hào)強(qiáng)度和首次讀取時(shí)間。
4.根據(jù)權(quán)利要求I所述ー種用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法,其特征在于所述步驟C中所述的RFID讀取特征包括標(biāo)簽的讀取時(shí)間間隔、標(biāo)簽在讀取時(shí)間間隔內(nèi)的讀取次數(shù)以及標(biāo)簽的平均信號(hào)讀取強(qiáng)度。
5.根據(jù)權(quán)利要求I所述ー種用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法,其特征在于所述步驟D包括 D1、計(jì)算兩兩RFID數(shù)據(jù)點(diǎn)之間的距離,進(jìn)而生成距離矩陣; D2、根據(jù)距離矩陣以及預(yù)設(shè)的K值,采用K最近鄰分類(lèi)計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的K最近鄰居集合; D3、計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的平均距離; D4、選取平均距離最大的RFID數(shù)據(jù)點(diǎn)后根據(jù)平均距離最大的RFID數(shù)據(jù)點(diǎn)進(jìn)而計(jì)算RFID數(shù)據(jù)點(diǎn)的密度權(quán)值; D5、采用反向K最近鄰分類(lèi)計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的反向K最近鄰居集合,每個(gè)RFID數(shù)據(jù)點(diǎn)的反向K最近鄰居集合由包含該RFID數(shù)據(jù)點(diǎn)的K最近鄰居集合組成; D6、計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的孤立系數(shù)后對(duì)每個(gè)RFID數(shù)據(jù)點(diǎn)的孤立系數(shù)進(jìn)行排序,進(jìn)而按照預(yù)設(shè)的百分比輸出RFID數(shù)據(jù)孤立點(diǎn)。
6.根據(jù)權(quán)利要求5所述ー種用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法,其特征在于所述步驟D2,根據(jù)距離矩陣以及預(yù)設(shè)的K值,采用K最近鄰分類(lèi)計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的K最近鄰居集合,其具體為, 根據(jù)距離矩陣以及預(yù)設(shè)的K值,分別計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的與其本身距離最近的K個(gè)RFID數(shù)據(jù)點(diǎn),而計(jì)算出的K個(gè)RFID數(shù)據(jù)點(diǎn)則組成K最近鄰居集合。
7.根據(jù)權(quán)利要求5所述ー種用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法,其特征在于所述步驟D3,計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的平均距離,其具體為,分別計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)與其K最近鄰居集合中的所有RFID數(shù)據(jù)點(diǎn)的距離的平均值。
8.根據(jù)權(quán)利要求5所述ー種用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法,其特征在于所述步驟D4中計(jì)算RFID數(shù)據(jù)點(diǎn)的密度權(quán)值的公式如下,
9.根據(jù)權(quán)利要求8所述ー種用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法,其特征在于所述步驟D6中計(jì)算每個(gè)RFID數(shù)據(jù)點(diǎn)的孤立系數(shù)的公式如下,
10.根據(jù)權(quán)利要求9所述ー種用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法,其特征在于所述步驟D6中輸出孤立點(diǎn)的個(gè)數(shù)為孤立系數(shù)最高的前n*pct%個(gè),所述η表示RFID數(shù)據(jù)點(diǎn)的總個(gè)數(shù),pct%表示預(yù)設(shè)的百分比。
全文摘要
本發(fā)明公開(kāi)了一種用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法,該方法步驟包括首先從中間件獲取原始RFID數(shù)據(jù),然后對(duì)獲取的原始RFID數(shù)據(jù)進(jìn)行聚類(lèi)后壓縮,還有通過(guò)RFID讀取特征,使壓縮后的原始RFID數(shù)據(jù)以三元組方式作為RFID數(shù)據(jù)點(diǎn)在讀取特征向量空間進(jìn)行RFID數(shù)據(jù)孤立點(diǎn)的挖掘,最后采用基于權(quán)值的反向最近鄰算法對(duì)RFID數(shù)據(jù)點(diǎn)進(jìn)行數(shù)據(jù)處理,進(jìn)而輸出RFID數(shù)據(jù)孤立點(diǎn)。通過(guò)使用本發(fā)明能夠大大減少數(shù)據(jù)的規(guī)模以及提高數(shù)據(jù)處理的效率,而且大大提高識(shí)別RIFD數(shù)據(jù)孤立點(diǎn)的精確度,特別對(duì)邊界點(diǎn)有著良好的檢測(cè)效果。本發(fā)明作為一種用于挖掘RFID數(shù)據(jù)孤立點(diǎn)的方法廣泛應(yīng)用在射頻識(shí)別領(lǐng)域中。
文檔編號(hào)G06F17/30GK102708172SQ20121013491
公開(kāi)日2012年10月3日 申請(qǐng)日期2012年5月2日 優(yōu)先權(quán)日2012年5月2日
發(fā)明者丁一, 周志超, 江煉鑫, 溫加興, 譚洪舟 申請(qǐng)人:廣州中大微電子有限公司