專利名稱:一種自適應(yīng)的穩(wěn)定高效的聚類方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機(jī)信息處理技術(shù)領(lǐng)域,尤其涉及一種自適應(yīng)的穩(wěn)定高效的聚類方法和系統(tǒng)。
背景技術(shù):
隨著計算機(jī)信息的快速增長,人們對各類計算機(jī)信息的處理需求越來越強(qiáng)烈。聚類算法作為信息處理中非常重要的一類算法,為各種數(shù)據(jù)管理、人工智能、機(jī)器學(xué)習(xí)提供了基礎(chǔ)的聚類功能,在各種信息處理中發(fā)揮著重要的角色,
在智能移動終端應(yīng)用普遍的今天,出現(xiàn)了各種各樣基于智能移動設(shè)備的信息服務(wù),它們需要對各種智能終端提供高效穩(wěn)定的服務(wù),其中大量的服務(wù)都需要用到聚類算法,如移動社交網(wǎng)絡(luò)中對社交好友的聚類,購物應(yīng)用中對商品的聚類等。目前大量移動設(shè)備終端通過GPS,基站,無線接入點(diǎn)等方式具備了定位能力,因此還產(chǎn)生了許多基于地理位置的服務(wù),而聚類方法則可以為這類服務(wù)提供更加豐富和有用的功能,例如分類熱點(diǎn)地區(qū)聚類。簡單舉例,目前的電子地圖上往往由用戶添加了各類地理標(biāo)簽,如購物、美食、景點(diǎn)等,這些地理標(biāo)簽分散在整個電子地圖上。當(dāng)一個智能手機(jī)用戶外出旅行或逛街時,他常常需要尋找自己感興趣的熱門商圈,即某一類標(biāo)簽密集的地點(diǎn),如購物集中的商圈,并獲取導(dǎo)航服務(wù)。但是通過目前的手機(jī)地圖查詢“購物”卻只能得到分散在整個地圖上的“購物”標(biāo)簽,讓用戶難以抉擇路線了目標(biāo)地址。然而通過將這些“購物”標(biāo)簽的有效聚類,即將標(biāo)簽劃分為多個密集的子區(qū)域(聚類),則能快速發(fā)現(xiàn)熱門的“購物”商圈。而通過對多個標(biāo)簽,如“購物”和“美食”,的聚類結(jié)果進(jìn)行整合,則能有效的幫助用戶發(fā)現(xiàn)滿足其多種要求的熱門商圈。聚類方法能為新型移動設(shè)備帶來大量豐富的應(yīng)用,但是移動終端的應(yīng)用多樣化和計算資源受限的特點(diǎn)則對聚類方法的提出了自適應(yīng),穩(wěn)定,高效的新需求。
目前已有多種聚類方法,如常用的k-means和期望最大的方法,雖然它們實(shí)現(xiàn)簡單快速,但是它們需要預(yù)先設(shè)置最終分區(qū)的數(shù)目,這顯然使得這樣的方法無法適應(yīng)廣泛的應(yīng)用。因為在大多數(shù)應(yīng)用中用戶無法預(yù)先獲知分區(qū)數(shù)目,如一個城市究竟有多少個美食聚集地。此外,這兩種方法都存在不穩(wěn)定的現(xiàn)象,即多次運(yùn)行得到的聚類結(jié)果可能不一致。而另一種叫做QT的方法雖然不需預(yù)先設(shè)置分區(qū)數(shù)目,并且能獲取到穩(wěn)定的聚類結(jié)果,但是它卻需要ο(η3)的計算開銷,面對龐大的信息量,對于計算資源受限的移動設(shè)備來說,這樣的開銷往往是難以承受的。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種自適應(yīng)的穩(wěn)定高效的聚類方法和系統(tǒng),以解決計算開銷大的問題。
為達(dá)此目的,本發(fā)明采用以下技術(shù)方案:
一種自適應(yīng)的穩(wěn)定高效的聚類方法,包括:
a獲取輸入數(shù)據(jù)的集合為P = {Pl,...pn},集合中包括η個輸入數(shù)據(jù),獲取聚類半徑的閾值Θ ;b將Pi以及集合中的與輸入數(shù)據(jù)Pi的距離小于閾值Θ的輸入數(shù)據(jù)都加入輸入數(shù)據(jù)Pi對應(yīng)的候選聚類cpi,輸入數(shù)據(jù)Pi表示集合中的第i個輸入數(shù)據(jù);c令候選聚類Cpi中的輸入數(shù)據(jù)為m個,函數(shù)(!(Pi, Pj)為兩個輸入數(shù)據(jù)PiA之間距離,計算輸入數(shù)據(jù)Pi作為聚類中心的概率為
權(quán)利要求
1.一種自適應(yīng)的穩(wěn)定高效的聚類方法,其特征在于,包括: a獲取輸入數(shù)據(jù)的集合為P = {Pl,...pn},集合中包括η個輸入數(shù)據(jù),獲取聚類半徑的閾值Θ ; 以及集合中的與輸入數(shù)據(jù)Pi的距離小于閾值Θ的輸入數(shù)據(jù)都加入輸入數(shù)據(jù)Pi對應(yīng)的候選聚類Cpi,輸入數(shù)據(jù)Pi表示集合中的第i個輸入數(shù)據(jù); c令候選聚類Cpi中的輸入數(shù)據(jù)為m個,函數(shù)d(Pi,Pj)為兩個輸入數(shù)據(jù)Pi, Pj之間距離,計算輸入數(shù)據(jù)Pi作為聚類中心的概率為 d從集合的輸入數(shù)據(jù)中,選出成為聚類中心概率最大的輸入數(shù)據(jù),將該選出的輸入數(shù)據(jù)對應(yīng)的候選聚類加入最終聚類。
2.根據(jù)權(quán)利要求1所述的一種自適應(yīng)的穩(wěn)定高效的聚類方法,其特征在于,所述將該選出的輸入數(shù)據(jù)對應(yīng)的候選聚類加入最終聚類之后,進(jìn)一步包括: e從輸入數(shù)據(jù)集合中刪除加入最終聚類的輸入數(shù)據(jù),重新從當(dāng)前輸入數(shù)據(jù)集合中選出成為聚類中心概率最大的輸入數(shù)據(jù),將該選出的輸入數(shù)據(jù)對應(yīng)的候選聚類加入最終聚類;判斷集合中的輸入數(shù)據(jù)的數(shù)量是否為零,如果是,則結(jié)束,否則,繼續(xù)步驟e。
3.—種自適應(yīng)的穩(wěn)定高效的聚類系統(tǒng),其特征在于,包括: 初始化模塊,用于獲取輸入數(shù)據(jù)的集合為P=P1J,集合中包括η個輸入數(shù)據(jù),獲取聚類半徑的閾值Θ ;候選聚類建立模塊,用于將Pi以及集合中的與輸入數(shù)據(jù)距離小于閾值Θ的輸入數(shù)據(jù)都加入輸入數(shù)據(jù)Pi對應(yīng)的候選聚類Cpi,輸入數(shù)據(jù)Pi表示集合中的第i個輸入數(shù)據(jù);概率計算模塊,用于令候選聚類Cpi中的輸入數(shù)據(jù)為m個,函數(shù)d(Pi,Pj)為兩個輸入數(shù)據(jù)Pi,P」之間距離,計算輸入數(shù)據(jù)Pi作為聚類中心的概率為q, = ΣΨ 1/(1 + d(p£—,p,〕).1 < uii 聚類篩選模塊,用于從集合的輸入數(shù)據(jù)中,選出成為聚類中心概率最大的輸入數(shù)據(jù),將該選出的輸入數(shù)據(jù)對應(yīng)的候選聚類加入最終聚類。
4.如權(quán)利要求4所述的系統(tǒng),其特征在于,還包括: 刪除模塊,用于從輸入數(shù)據(jù)集合中刪除加入最終聚類的輸入數(shù)據(jù),重新從當(dāng)前輸入數(shù)據(jù)集合中選出成為聚類中心概 率最大的輸入數(shù)據(jù),將該選出的輸入數(shù)據(jù)對應(yīng)的候選聚類加入最終聚類; 第一檢測模塊,用于斷集合中的輸入數(shù)據(jù)的數(shù)量是否為零,如果是,則結(jié)束,否則,繼續(xù)步驟e。
全文摘要
本發(fā)明公開了一種自適應(yīng)的穩(wěn)定高效的聚類方法和系統(tǒng),方法包括a獲取輸入數(shù)據(jù)的集合為p={p1,...pn},集合中包括n個輸入數(shù)據(jù),獲取聚類半徑的閾值θ;b將pi以及集合中的與輸入數(shù)據(jù)pi的距離小于閾值θ的輸入數(shù)據(jù)都加入輸入數(shù)據(jù)pi對應(yīng)的候選聚類Cpi,輸入數(shù)據(jù)pi表示集合中的第i個輸入數(shù)據(jù);c令候選聚類Cpi中的輸入數(shù)據(jù)為m個,函數(shù)d(pi,pj)為兩個輸入數(shù)據(jù)pi,pj之間距離,計算輸入數(shù)據(jù)pi作為聚類中心的概率為應(yīng)用本發(fā)明建立自適應(yīng)的穩(wěn)定高效的聚類體系,由于無需預(yù)先設(shè)置最終聚類的數(shù)目,使其具有計算高效性,能實(shí)現(xiàn)o(n2)的計算復(fù)雜度,使其能適用于目前的各種移動智能終端。
文檔編號G06F17/30GK103207896SQ20131008267
公開日2013年7月17日 申請日期2013年3月14日 優(yōu)先權(quán)日2013年3月14日
發(fā)明者張?zhí)m, 劉云浩 申請人:無錫清華信息科學(xué)與技術(shù)國家實(shí)驗室物聯(lián)網(wǎng)技術(shù)中心