基于偏好的聚類的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及基于偏好的聚類。
【背景技術(shù)】
[0002] 簇可以表示基于與元素相對應(yīng)的公共因素的多種元素的聚集??梢圆捎枚喾N方法 將這些元素分類或分組到相應(yīng)簇中。開發(fā)了基于元素的本質(zhì)特性的聚類方法,其中本質(zhì)特 性用于計算元素之間的相似性或距離?;谙耦伾?、大小、價格或其他的屬性的本質(zhì)特性的 集合評價每個元素?;谔匦缘闹?,確定每個元素之間的相似性或距離。使用相似性或距 離來推斷屬于公共組的元素。
[0003] 簇消費者,例如,來自簇的數(shù)據(jù)的消費者,可以表達除了元素之間的相似性和距離 之外的若干條件。根據(jù)賦予元素的條件,可以變更元素的聚類以提供元素的特定于條件的 聚類。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的一方面提供了一種用于聚類與數(shù)據(jù)集相關(guān)聯(lián)的多個對象的計算機實現(xiàn) 的方法,包括:接收一個或多個標(biāo)準(zhǔn)的選擇以聚類與數(shù)據(jù)集相關(guān)聯(lián)的對象;對于選擇的標(biāo) 準(zhǔn),接收偏好信息以執(zhí)行對象的基于偏好的聚類;基于接收到的偏好信息,計算與選擇的一 個或多個標(biāo)準(zhǔn)相對應(yīng)的對象之間的偏好度;基于偏好度,生成表示與數(shù)據(jù)集相關(guān)聯(lián)的對象 之間的相似性度量的關(guān)系矩陣;以及根據(jù)關(guān)系矩陣聚類與數(shù)據(jù)集相關(guān)聯(lián)的對象。
[0005] 本發(fā)明的另一方面提供了一種聚類與數(shù)據(jù)集相關(guān)聯(lián)的多個對象的計算機系統(tǒng),包 括:處理器,被配置成讀取并運行存儲在一個或多個存儲元件中的指令;以及所述一個或 多個存儲元件存儲相關(guān)于如下步驟的指令:從計算機生成的用戶界面接收一個或多個標(biāo)準(zhǔn) 的選擇以聚類與數(shù)據(jù)集相關(guān)聯(lián)的對象;對于選擇的標(biāo)準(zhǔn),從計算機生成的用戶界面接收偏 好信息以執(zhí)行對象的基于偏好的聚類;基于接收到的偏好信息,計算與選擇的標(biāo)準(zhǔn)相對應(yīng) 的對象之間的偏好度;基于偏好度,生成表示與數(shù)據(jù)集相關(guān)聯(lián)的對象之間的相似性度量的 關(guān)系矩陣;以及根據(jù)關(guān)系矩陣來聚類與數(shù)據(jù)集相關(guān)聯(lián)的對象。
[0006] 本發(fā)明的另一方面提供了一種包括用于有形地存儲指令的非瞬時計算機可讀存 儲介質(zhì)的制品,當(dāng)所述指令由計算機運行時導(dǎo)致計算機進行如下步驟:接收一個或多個標(biāo) 準(zhǔn)的選擇以聚類與數(shù)據(jù)集相關(guān)聯(lián)的對象;對于選擇的標(biāo)準(zhǔn),接收偏好信息以執(zhí)行對象的基 于偏好的聚類;基于接收到的偏好信息,計算與選擇的標(biāo)準(zhǔn)相對應(yīng)的對象之間的偏好度; 基于偏好度,生成表示與數(shù)據(jù)集相關(guān)聯(lián)的對象之間的相似性度量的關(guān)系矩陣;以及根據(jù)關(guān) 系矩陣來聚類與數(shù)據(jù)集相關(guān)聯(lián)的對象。
【附圖說明】
[0007] 權(quán)利要求精確地陳述實施例。在附圖中以舉示例的方式而非以限制的方式對實施 例進行了說明,附圖中,相似的附圖標(biāo)記指示相似的元件。從以下結(jié)合附圖的詳細描述可以 透徹地理解實施例及其優(yōu)點。
[0008] 圖1是示出根據(jù)實施例的、用于聚類與數(shù)據(jù)集相關(guān)聯(lián)的多個對象的系統(tǒng)的框圖。
[0009] 圖2是示出根據(jù)實施例的、用于聚類與數(shù)據(jù)集相關(guān)聯(lián)的多個對象的過程的流程 圖。
[0010] 圖3是示出根據(jù)實施例的、用于聚類與數(shù)據(jù)集相關(guān)聯(lián)的多個對象的系統(tǒng)的框圖。
[0011] 圖4是示出根據(jù)實施例的、包括用于聚類的多個對象的數(shù)據(jù)集的表。
[0012] 圖5A-5C是示出根據(jù)實施例的偏好度的表,該偏好度被生成以聚類與數(shù)據(jù)集相關(guān) 聯(lián)的多個對象。
[0013] 圖6是示出根據(jù)實施例的關(guān)系矩陣的表,該關(guān)系矩陣被生成以聚類與數(shù)據(jù)集相關(guān) 聯(lián)的多個對象。
[0014] 圖7是示出根據(jù)實施例的個體相似性度量的表,該相似性度量被生成以聚類與數(shù) 據(jù)集相關(guān)聯(lián)的多個對象。
[0015] 圖8是示出根據(jù)實施例的相似性度量的表,該相似性度量被生成以聚類與數(shù)據(jù)集 相關(guān)聯(lián)的多個對象。
[0016] 圖9A和9B是示出根據(jù)實施例的、聚類與數(shù)據(jù)集相關(guān)聯(lián)的多個對象的框圖。
[0017] 圖10是示出根據(jù)實施例的示例性計算機系統(tǒng)的框圖。
【具體實施方式】
[0018] 此處描述用于聚類與數(shù)據(jù)集相關(guān)聯(lián)的多個對象的技術(shù)的實施例。在以下描述中, 陳述了許多細節(jié),以便提供對實施例的徹底理解。然而,相關(guān)領(lǐng)域技術(shù)人員將清楚,可以沒 有一個或多個細節(jié)、或利用其他方法、組件、材料等等實現(xiàn)實施例。在其他實例中,未示出或 詳細描述公知的結(jié)構(gòu)、材料或操作。
[0019] 遍及本說明書,提到"一個實施例"、"本實施例"或類似短語時,指的是與該實施例 關(guān)聯(lián)描述的具體特征、結(jié)構(gòu)或特性包括在一個或多個實施例的至少一個實施例中。因而,這 些短語在遍及本說明書的不同地方出現(xiàn)并不一定都指代同一個實施例。此外,所述具體的 特征、結(jié)構(gòu)或特性可以在一個或多個實施例中以任何適當(dāng)?shù)姆绞浇M合。
[0020] 對象的聚類幫助確定具有公共特性的對象。聚類框架通過確定與對象的標(biāo)準(zhǔn)相關(guān) 聯(lián)的偏好信息來執(zhí)行基于偏好的聚類。在實施例中,通過評價對象獲得對象的標(biāo)準(zhǔn)。聚類框 架確定用于聚類對象的標(biāo)準(zhǔn)的選擇以及被提供以執(zhí)行對象的基于偏好的聚類的偏好信息。 標(biāo)準(zhǔn)的選擇和偏好信息可以由最終用戶提供,并且因此隨時間經(jīng)受改變。在每個時刻提供 的標(biāo)準(zhǔn)和偏好信息幫助根據(jù)最終用戶要求來分組和重新分組對象?;谄眯畔?,確定對 象之間的關(guān)系?;谝虼双@得的關(guān)系,分組或聚類對象。例如,在設(shè)備監(jiān)視應(yīng)用中,其中選 擇的標(biāo)準(zhǔn)是"維護"并且偏好信息是"最小",基于設(shè)備的維護來識別設(shè)備并且將設(shè)備分組為 高維護、低維護和中等維護有助于確定需要最小維護的設(shè)備。
[0021] 實施例包括表示獲得的簇的機制,其中聚類框架識別關(guān)系。基于關(guān)系的強度,框架 可視地表示獲得的簇。
[0022] 圖1是示出根據(jù)實施例的、用于聚類與數(shù)據(jù)集相關(guān)聯(lián)的多個對象的系統(tǒng)的框圖。 聚類多個對象包括基于相應(yīng)于對象的公共因素來分組對象。例如,在人力資源管理應(yīng)用中, 可以將關(guān)于特定目標(biāo)具有類似行為和類似表現(xiàn)的雇員分組在一起;可以取決于候選者申請 人的專業(yè)領(lǐng)域、經(jīng)驗水平等等將候選者申請人分組到多種類別中。用于聚類對象的因素可 以由最終用戶提供,該最終用戶利用聚類的對象做出決策。
[0023] 在實施例中,在計算機生成的用戶界面上提供表示與業(yè)務(wù)應(yīng)用和/或方案(例如, 人力資源管理應(yīng)用、設(shè)備監(jiān)視應(yīng)用)相關(guān)聯(lián)的數(shù)據(jù)的數(shù)據(jù)集,用于聚類與數(shù)據(jù)集相關(guān)聯(lián)的 對象。為了聚類與數(shù)據(jù)集相關(guān)聯(lián)的對象,選擇相應(yīng)于數(shù)據(jù)集的因素。這些因素表示對象將 基于其聚類的標(biāo)準(zhǔn)。對于選擇的標(biāo)準(zhǔn),提供偏好信息以執(zhí)行基于偏好的聚類。與相應(yīng)于標(biāo) 準(zhǔn)的值的可允許閾值一起,偏好信息表示與標(biāo)準(zhǔn)相關(guān)聯(lián)的指示或方向。例如,在人力資源管 理應(yīng)用中,如果選擇了標(biāo)準(zhǔn)"雇員表現(xiàn)",則偏好信息可以表示"最高"(即,偏好面向具有高 表現(xiàn)等級的雇員),并且"雇員表現(xiàn)"的閾值可以是"至少B級"。
[0024] 系統(tǒng)100可以用于聚類與數(shù)據(jù)集相關(guān)聯(lián)的多個對象。系統(tǒng)100包括被配置成存儲 與多個企業(yè)或系統(tǒng)應(yīng)用、和/或企業(yè)方案相應(yīng)的多個數(shù)據(jù)集的存儲器105。系統(tǒng)100包括數(shù) 據(jù)收集塊110、偏好確定塊115、關(guān)系映射塊120和對象聚類塊125。數(shù)據(jù)收集塊110識別與 相應(yīng)的應(yīng)用(或方案)相關(guān)聯(lián)的數(shù)據(jù)集并且向用戶界面呈現(xiàn)數(shù)據(jù)集。數(shù)據(jù)收集塊110還識 別并從用戶界面接收選擇的標(biāo)準(zhǔn)和偏好信息以執(zhí)行對象的聚類。
[0025] 基于選擇的標(biāo)準(zhǔn)和接收到的偏好信息,計算對象之間的偏好度。偏好確定塊115 確定選擇的標(biāo)準(zhǔn)和偏好信息以計算偏好度。在實施例中,偏好確定塊115對于每個選擇的 標(biāo)準(zhǔn)計算個體(individual)偏好度并且合計全部個體偏好度以計算全體(universal)偏 好度。
[0026] 可以呈現(xiàn)根據(jù)偏好信息表示對象之間的關(guān)系的關(guān)系映射。關(guān)系映射塊120基于偏 好度生成關(guān)系矩陣。關(guān)系映射塊120確定與偏好信息相關(guān)聯(lián)的偏好類型并且向與偏好類型 相應(yīng)的關(guān)系賦予值。因此,關(guān)系映射塊120呈現(xiàn)用于聚類對象的多標(biāo)準(zhǔn)偏好。關(guān)系矩陣包 括基于偏好的相似性度量,其可被用在基于網(wǎng)絡(luò)的算法中以用于聚類對象。
[0027] 關(guān)系矩陣中的值描述相應(yīng)對象之間的關(guān)系的強度。使用對象之間的關(guān)系的強度, 可以建立相似性圖案,其中每個節(jié)點表示對象并且每條邊表示兩個相應(yīng)節(jié)點之間的關(guān)系。 在實施例中,相似性圖案表示曲線圖。對象聚類塊125可以生成包括節(jié)點和邊的相似性圖 案,并且向邊分配與關(guān)系矩陣相關(guān)聯(lián)的值。對象聚類塊125可以應(yīng)用聚類機制以確定具有 稠密連接的節(jié)點的子集以及具有稀疏連接的節(jié)點的子集。基于連接,執(zhí)行與數(shù)據(jù)集相關(guān)聯(lián) 的對象的聚類。在實施例中,對象聚類塊125使用各種可視化技術(shù)生成聚類的可視化。在 實施例中,稠密連接表示兩個相應(yīng)節(jié)點之間的多個關(guān)系,并且稀疏連接表示兩個相應(yīng)節(jié)點 之間的很少的關(guān)系。在實施例中,可替換地使用"連接"和"關(guān)系"。
[0028] 圖2是示出根據(jù)實施例的、用于聚類與數(shù)據(jù)集相關(guān)聯(lián)的多個對象的過程的流程 圖。與應(yīng)用(例如,業(yè)務(wù)應(yīng)用)相關(guān)聯(lián)的數(shù)據(jù)集通常包括對象和它們的標(biāo)準(zhǔn)。數(shù)據(jù)集還包括 與標(biāo)準(zhǔn)相對應(yīng)的值。為了建立與應(yīng)用相關(guān)聯(lián)的決定,對象可能必須基于決策者的偏好被聚 類。在實施例中,決策者是利用數(shù)據(jù)集的分析以及對象的聚類的可視化的最終用戶。在另 一實施例中,決策者是需要利用對象的聚類以完成相關(guān)聯(lián)的過程的系統(tǒng)。
[0029] 基于選擇的標(biāo)準(zhǔn)和提供的相應(yīng)偏好信息來聚類對象以完成聚類的過程。在205 中,接收用于聚類與數(shù)據(jù)集相關(guān)聯(lián)的對象的標(biāo)準(zhǔn)的選擇。在210中,對于選擇的標(biāo)準(zhǔn),接收 偏好信息以執(zhí)行對象的基于偏好的聚類。在215中,基于選擇的標(biāo)準(zhǔn)和接收到的偏好信息, 計算偏好度。在實施例中,對于選擇的每個標(biāo)準(zhǔn)計算單一標(biāo)準(zhǔn)偏好度,并且合計多個單一標(biāo) 準(zhǔn)偏好度以生成全體偏好度。與每個標(biāo)準(zhǔn)相應(yīng)的單一標(biāo)準(zhǔn)偏好度表示對象之間的偏好閾值 的強度。合計的全體偏好度表示與業(yè)務(wù)應(yīng)用相關(guān)聯(lián)的對象之間的全局偏好閾值的強度。
[00