大規(guī)模數(shù)據(jù)聚類分析的并行化的制作方法

文檔序號：6427736閱讀：282來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：大規(guī)模數(shù)據(jù)聚類分析的并行化的制作方法
技術(shù)領(lǐng)域：
本說明書涉及并行處理。
背景技術(shù)：
并行處理通常指的是將ー個或多個計算任務(wù)劃分為兩個或更多子任務(wù)的概念，每個子任務(wù)可以在単獨的處理器上運行。換句話說，把一個較大的計算任務(wù)分成若干子任務(wù)，然后將這些子任務(wù)分配到兩個或多個處理器上執(zhí)行。與僅使用所述處理器中的一個處理器可能達到的效果相比，通過使用這樣的并行處理技術(shù)，在許多情況下，可以以更快速并且更有效的方式完成計算任務(wù)。然而，實際上，可能存在大量障礙使得難以或者無法執(zhí)行給定計算任務(wù)的并行處理，特別是對于特定類型或者類別的計算任務(wù)。舉例來說，一般地，要求至少與并行處理關(guān)聯(lián)的計算開銷要小。舉例來說，對于一項將并行運行的給定計算任務(wù)來說，可能需要將與該計算任務(wù)相關(guān)的數(shù)據(jù)的部分或者全部復(fù)制到將使用的每ー個處理器中。更一般來說，可以理解，最好沒有為并行處理而進行的數(shù)據(jù)分割或復(fù)制而帶來的計算開銷。而且，在并行運行的處理器中的任意ー個處的延遲或困難可能導(dǎo)致該任務(wù)的計算整體上的延遲。而且，因為子任務(wù)在兩個或更多處理器處完成，所以可能需要計算資源來整合在兩個或更多處理器中的每ー個處執(zhí)行的并行處理的結(jié)果，以便得到該計算任務(wù)整體的統(tǒng)ー計算結(jié)果。因此，由于可能與在并行處理中處理子任務(wù)的劃分、計算以及整合相關(guān)聯(lián)的這些計算開銷，在許多情況下利用并行處理技術(shù)可能是不現(xiàn)實的。舉例來說，特定類型的計算任務(wù)可能需要對相對來說非常大的數(shù)據(jù)集的每一元素與相對較小的數(shù)據(jù)集的每一元素的比較或者其它操作。例如，在一個為了說明的特定例子中，可能出現(xiàn)需要將ー個包括三百萬個記錄——每ー個記錄有300個屬性——的數(shù)據(jù)集與第二數(shù)據(jù)集的100個記錄中的每ー個相比較(諸如，舉例來說，當(dāng)希望將三百萬個記錄中的每ー個分組到被認(rèn)定是最相似的100個聚類中的一個中時)。因此，這樣的計算將需要三百萬乘300再乘100次単獨計算。而且，將數(shù)據(jù)集劃分以使用単獨的處理器處理是不可行的，因為該計算的本質(zhì)是將第一較大數(shù)據(jù)集的全部記錄和屬性與第二較小數(shù)據(jù)集的個個元素都進行比較。因此，從在這些以及其它類型的計算場景(context)中使用并行處理技術(shù)得到顯著的益處可能是不可能的或者是行不通的。

發(fā)明內(nèi)容
根據(jù)ー個一般方面，計算機系統(tǒng)可以包括記錄在計算機可讀介質(zhì)上的指令。該系統(tǒng)可以包括聚類選擇器，其被配置為確定多個樣本聚類，以及在多個處理核中的每ー個處再現(xiàn)所述多個樣本聚類。該系統(tǒng)可以包括樣本劃分器，其被配置為將存儲在數(shù)據(jù)庫中的具有關(guān)聯(lián)屬性的多個樣本劃分為數(shù)目相應(yīng)于所述多個處理核的數(shù)目的樣本子集，并且還被配置為將所述數(shù)目的樣本子集中的每ー個與所述多個處理核中的對應(yīng)ー個關(guān)聯(lián)。該系統(tǒng)可以包括整合操作器，其被配置為基于所述多個處理核中的每個對應(yīng)核處的每個樣本子集中的每個樣本的關(guān)聯(lián)屬性，執(zhí)行所述每個樣本相對于在所述對應(yīng)處理核處再現(xiàn)的多個樣本聚類中的每ー個的比較。實施方式可以包括一個或多個下列特征。例如，所述聚類選擇器可以被配置為通過圖形用戶界面(GUI)從用戶接收的多個樣本聚類的數(shù)目。所述系統(tǒng)可以包括合并器，其被配置為合并所述在多個處理核中的每ー個處執(zhí)行的比較的比較結(jié)果，以便由此以所述多個樣本填充所述樣本聚類。樣本子集的數(shù)目可以等于所述多個處理核的數(shù)目，并且每個樣本子集可以包括相等數(shù)目的樣本。所述系統(tǒng)可以包括屬性劃分器，其被配置為將與每個樣本關(guān)聯(lián)的屬性劃分為屬性子集，以供在執(zhí)行所述比較期間對其進行并行處理。所述比較可以包括在多個處理核中的每ー個處執(zhí)行的、在每個樣本子集的每個樣本與每個聚類的中心之間的相似性比較。可以使用包括在每個聚類中的樣本的平均屬性值來確定每個聚類的中心。所述整合操作器可以被配置為基于所述比較將樣本從第一聚類重新指派到第二聚類。合并器可以被配置為合并所述比較的比較結(jié)果，以及可以被配置為根據(jù)需要使用經(jīng)合并的比較結(jié)果來更新每個聚類的每個中心的值。所述合并器可以被配置為基于被重新指派的樣本的數(shù)目來確定每個聚類內(nèi)樣本的穩(wěn)定性。根據(jù)另ー個一般方面，一種計算機實現(xiàn)方法可以包括確定存儲在數(shù)據(jù)庫中的具有關(guān)聯(lián)屬性的多個樣本；確定多個樣本聚類；在多個處理核中的每ー個處再現(xiàn)所述多個樣本聚類。該方法可以包括將所述多個樣本劃分為數(shù)目與所述多個處理核的數(shù)目對應(yīng)的樣本子集；將所述數(shù)目的樣本子集中的每ー個與所述多個處理核中的對應(yīng)ー個關(guān)聯(lián)；以及基于在所述多個處理核的每個對應(yīng)核處的每個樣本子集的每個樣本的關(guān)聯(lián)屬性，執(zhí)行所述每個樣本相對于在對應(yīng)處理核處再現(xiàn)的多個樣本聚類中的每ー個的比較。實施方式可以包括一個或多個下列特征。例如，可以合并所述在多個處理核中的每ー個處執(zhí)行的比較的比較結(jié)果，以便由此以所述多個樣本填充所述樣本聚類。而且，執(zhí)行所述比較可以包括將與每個樣本關(guān)聯(lián)的屬性劃分為屬性子集，以便在執(zhí)行所述比較期間對其進行并行處理。執(zhí)行所述比較還可以包括在多個處理核中的每ー個處執(zhí)行每個樣本子集中的每個樣本與每個聚類的中心之間的相似性比較。根據(jù)另ー個一般方面，一種計算機程序產(chǎn)品可以被有形地具體實施在計算機可讀介質(zhì)上并且可以包括指令，當(dāng)被運行時所述指令可以被配置為如下確定存儲在數(shù)據(jù)庫中的具有關(guān)聯(lián)屬性的多個樣本；確定多個樣本聚類；以及在多個處理核中的每ー個處再現(xiàn)所述多個樣本聚類。所述指令當(dāng)被運行時還可以被配置為將所述多個樣本劃分為數(shù)目與所述多個處理核的數(shù)目對應(yīng)的樣本子集；將所述數(shù)目的樣本子集中的每ー個與所述多個處理核中的對應(yīng)ー個關(guān)聯(lián)；以及基于在所述多個處理核的每個對應(yīng)核處的每個樣本子集的每個樣本的關(guān)聯(lián)屬性，執(zhí)行所述每個樣本相對于在對應(yīng)處理核處再現(xiàn)的多個樣本聚類中的每ー個的比較。實施方式可以包括一個或多個下列特征。例如，所述指令當(dāng)被運行時可以被配置為合并所述在多個處理核中的每ー個處執(zhí)行的比較的比較結(jié)果，以便由此以所述多個樣本填充所述樣本聚類。所述指令當(dāng)被運行時可以被配置為將與每個樣本關(guān)聯(lián)的屬性劃分為屬性子集，以便在執(zhí)行所述比較期間對其進行并行處理。所述比較可以包括在多個處理核中的每ー個處執(zhí)行的、每個樣本子集中的每個樣本與每個聚類的中心之間的相似性比較。
所述指令當(dāng)被運行時可以被配置為基于所述比較將樣本從第一聚類重新指派到第二聚類。所述指令當(dāng)被運行時可以被配置為基于所述被重新指派的樣本的數(shù)目確定每個聚類內(nèi)的樣本的穩(wěn)定性。在附圖以及下面的說明中闡述了一個或多個實施例的細節(jié)。其他特征將從說明書和附圖以及從權(quán)利要求中變得明顯。

圖I是用于對大規(guī)模數(shù)據(jù)聚類分析執(zhí)行并行處理的系統(tǒng)的框圖。
圖2是示出圖I的系統(tǒng)的操作的更為詳細的例子的框圖。圖3是示出圖I和圖2的系統(tǒng)的示范性操作的流程圖。圖4是示出在k均值聚類算法的場景中使用圖I-圖3的系統(tǒng)和操作的流程圖。圖5A和圖5B是示出與圖I-圖4關(guān)聯(lián)的處理技術(shù)的計算本質(zhì)的框圖。
具體實施例方式圖I是在聚類分析期間執(zhí)行并行處理大數(shù)據(jù)集的系統(tǒng)100的框圖。在圖I的例子中，如圖所示，聚類管理器102可以被配置為分隔相對較大數(shù)據(jù)集內(nèi)的多個樣本104以定義多個聚類(cluster) 106，以及用樣本104中適合的樣本來填充聚類106中的每ー個。而且，如這里所述，聚類管理器102可以被配置為以利用并行處理技術(shù)的方式生成聚類106以及用樣本104中適合的樣本來填充聚類106，該并行處理技術(shù)被設(shè)計為充分利用多個處理核的計算能力，所述多個處理核如圖I中核108、110和112所示。這樣，可以以高可配置且高效的方式形成聚類106，并且通過使用這里描述的并行處理技術(shù)，可以以比使用核108、110、112中的單個核可能達到的效果明顯更快地提供聚類106。正如上所述，并且如這里所詳細描述的那樣，聚類管理器102可以被配置為使系統(tǒng)100的用戶能夠選擇或者另外定義樣本104以供后續(xù)對其聚類。舉例來說，用戶可以從多個可能的樣本數(shù)據(jù)庫中選擇樣本104，和/或可以選擇樣本104為包括來自ー個較大數(shù)據(jù)庫內(nèi)的數(shù)據(jù)的子集。在下面的許多例子中，樣本104被描述為企業(yè)的多個客戶數(shù)據(jù)記錄，其中每個客戶用多個預(yù)先定義的屬性進行描述。舉例來說，企業(yè)可以維護全部過去的、現(xiàn)在的以及潛在的客戶記錄，并且可以將這些客戶的身份連同多個相關(guān)客戶屬性(諸如像住址/地址、年收入、購買歷史、職業(yè)之類)或者可能公認(rèn)與企業(yè)的能力相關(guān)的許多其它潛在客戶屬性一起以適當(dāng)?shù)姆绞?setting)中存儲(例如，客戶關(guān)系管理(CRM)系統(tǒng)內(nèi))，以維持高水平的盈利能力以及客戶滿意度。當(dāng)然，樣本104以及相關(guān)屬性的這些示范性描述應(yīng)當(dāng)理解為并非對范圍的限制，并且具體來說，可以理解，在其它示范性實施方式中，樣本104可以表示許多其它類型的數(shù)據(jù)以及關(guān)聯(lián)屬性。舉例來說，樣本104可以是已經(jīng)或者可以由企業(yè)出售的貨物或者服務(wù)(例如，諸如可以在庫存管理系統(tǒng)內(nèi)找到的)。在其它例子中，樣本104可以是企業(yè)的資源(例如，與設(shè)施和/或信息技術(shù)資產(chǎn)相關(guān)的資源)。更一般地，樣本104可以因此被理解為表示可以使用大數(shù)據(jù)集或者與大數(shù)據(jù)集關(guān)聯(lián)的企業(yè)的幾乎任何方面，該大數(shù)據(jù)集包括多個記錄以及關(guān)聯(lián)屬性。甚至更一般地，可以理解，這些數(shù)據(jù)集可以存在于(并且因此可以從這里所描述的技術(shù)中受益)各種非企業(yè)環(huán)境中，諸如，像包括學(xué)校、政府、軍隊、慈善或者各種其它場景的環(huán)境中。在所有這些環(huán)境中，可能期望將樣本104中的各個樣本分組到多個聚類106中。舉例來說，在客戶關(guān)系管理的場景中，樣本104可以包括多個客戶數(shù)據(jù)記錄以及關(guān)聯(lián)屬性，如上面所述。因此，對系統(tǒng)100的用戶來說，可能期望將樣本104分組到聚類106中的對應(yīng)聚類中，其中可以根據(jù)用戶可能感興趣的、客戶關(guān)系管理的某個方面來定義聚類106。舉例來說，在ー個特定情景中，根據(jù)近期將進行大量購買的可能性等級將客戶劃分到各個聚類106。舉例來說，特定準(zhǔn)則可以與定義這樣的可能性以及對這樣的可能性進行評級(rating)相關(guān)聯(lián)。舉例來說，共享諸如高年收入、最近的大量購買以及被認(rèn)為與將來的購買可能性相關(guān)的其它基于屬性的因素之類的特征的客戶可以被分組到第一聚類106(1)內(nèi)，該第一聚類106(1)將因此包括被圖示為樣本104(1)的樣本子集。同時，反之，具有非常不同屬性值(例如，較低年收入、無最近購買歷史以及被認(rèn)為與近期購買的較低可能性相關(guān)的其它基于屬性的因素)的客戶可以被聚類到另外的聚類內(nèi)，在圖I的例子中被示為聚類M106 (M),其由此包括被示為樣本104 (M)的樣本子集。
當(dāng)然，盡管圖I的簡化例子僅明確地示出兩個聚類，但是可以理解，可以形成期望數(shù)目的聚類。舉例來說，在剛剛提供的圖示例子中，可以形成總數(shù)目為M的聚類，其中，根據(jù)所預(yù)測的這里包括的客戶將來購買的可能性的等級來定義聚類。當(dāng)然，可以使用圖I的系統(tǒng)100形成許多其它類型的聚類，并且不需要根據(jù)剛剛提到的線型分布類型來形成。更一般地來說，可以理解，與聚類106的定義和形成相關(guān)的各種概念本身在本領(lǐng)域是公知的，并且因此除了可能對于理解圖I的系統(tǒng)100的操作是必要的或者有幫助的內(nèi)容之外，不在這里更為詳細地描述。相反，在這里一般來說針對圖I的系統(tǒng)100中出于并行化與針對樣本104形成、定義、填充以及以其它方式管理聚類106相關(guān)聯(lián)的計算過程的目的而實現(xiàn)的特定示范性技木，并且更具體地說，針對在以針對使用可用核108、110、112來充分利用各種并行處理技術(shù)的方式執(zhí)行聚類106的這樣的管理中聚類管理器102的各種特征和功能，來提供圖I的系統(tǒng)100的更進一歩的描述。對于此點，可以理解，核108、110、112意欲表示幾乎任何已知或者將來的并行處理平臺或者場景。舉例來說，核108、110、112中的每ー個都可以表示獨立的服務(wù)器或者包括一個或多個處理器的其它計算裝置。在另外的或者替換實施方式中，核108、110、112中的每ー個可以包括在單個服務(wù)器或者其它計算裝置內(nèi)。因此，核108、110、112中的每ー個都可以理解為表示或者包括任何多計算平臺，在該多計算平臺中，多個處理器、中央處理單元(CPU)或者其它處理資源是可用的，包括網(wǎng)絡(luò)/設(shè)備群(cluster)。舉例來說，并行處理可以利用現(xiàn)有SMP/CMP(對稱多處理/芯片級多處理)服務(wù)器。因此，在本說明書中，應(yīng)當(dāng)理解，術(shù)語“核”表示具有處理能力的単元。因此，可以理解，系統(tǒng)100可以被配置為在剛剛提到的各種并行處理平臺和/或未特別提到的其它并行處理平臺或者它們的組合中的任意一種平臺的場景中操作，并且被配置為充分利用剛剛提到的各種并行處理平臺和/或未特別提到的其它并行處理平臺或者它們的組合中的任意一種平臺的特征和功能。因此，如前所述，聚類管理器102可以被配置為使得能夠使用多個處理核——在圖I的例子中以核108、110、112表示——來并行化相對較大數(shù)目的樣本(以及它們各自的屬性)到相對較小數(shù)目的聚類106的整合(joint)操作。更具體來說，如圖所示，樣本104可以被劃分成多個樣本子集114、116、118。如圖所示，樣本子集114、116、118中的每ー個都可以分布到核108、110、112中的相應(yīng)ー個。圖I的例子示出與三個可用核108、110、112相應(yīng)的三個樣本子集114、116、118。當(dāng)然，更ー般地，樣本104可以被分成任意合適或者期望數(shù)目的子集，例如，其數(shù)目與可用核的數(shù)目對應(yīng)。在這里所描述的不范性實施方式中，樣本104可以被劃分成多個樣本子集，以使得姆ー個樣本子集都包含近似相等數(shù)目的樣本104。然而，在其它示范性實施方式中，可以存在樣本子集具有不同大小的情況。舉例來說，被指派到相對高速處理核的樣本子集與相對低速處理核所關(guān)聯(lián)的或者被指派到相對低速處理核的樣本子集相比可以被提供有更大數(shù)目的樣本。與將樣本104劃分為各種樣本子集114、116、118。相反，聚類106可以被整體再現(xiàn)，以供可用核108、110、112中的每ー個處理。具體地說，如圖所示，聚類106可以在可用核108、110、112中的每ー個處被整體再現(xiàn)為聚類再現(xiàn)120。因此，如下面提供的更為詳細的例子中所述，可以針對相應(yīng)的樣本子集114、116、118并且結(jié)合聚類再現(xiàn)120運行在各個核108、110、112處的(或者與各個核108、110、112關(guān)聯(lián)的)并行化整合操作器(operator) 122、124、126。具體地說，舉例來說，可以使用并行化整合操作器122，將示范性子集114中的全部樣本分別與全部聚類再現(xiàn)120相比較或者以其它方式相對于全部聚類再現(xiàn)120進行考慮。類似地，可以使用并行化整合操作器124，將樣本子集116中的全部樣本分別與全部聚類再現(xiàn)120進行比較。類似地，類似注釋適用于相對于聚類再現(xiàn)120的樣本子集118以及并行化整合操作器126。通過這樣的方式，可以發(fā)現(xiàn)，總體上，可以以利用高等級的非常高效的并行化的方式來將全部樣本104分別與聚類106中的每ー個進行比較。結(jié)果，系統(tǒng)100的操作者或者其它用戶可以快速得到期望的結(jié)果。舉例來說，如下面所提供的更為詳細的例子中那樣，系統(tǒng)100的操作者可能接下來能夠以期望方式快速定義并且形成聚類106，以便由此之后以其它傳統(tǒng)方式來使用聚類106。在圖I的特定例子中，聚類管理器102示出為包括屬性選擇器128。如上所述，樣本104可以分別與針對正在討論的樣本定義的或者以其它方式與正在討論的樣本相關(guān)的ー個或多個屬性關(guān)聯(lián)。眾所周知，并且如這里詳細描述的那樣，這些屬性的數(shù)目和類型以及其可能值或者值的范圍，可以依賴于系統(tǒng)100的使用場景而變化很大。在系統(tǒng)100的一個給定實施方式中，可以出現(xiàn)可用屬性的僅ー個子集或者一部分可能被期望用于相應(yīng)計算中。另夕卜，或者可替換地，可以出現(xiàn)某些屬性應(yīng)當(dāng)被重視或者被區(qū)別對待(例如，視為較重要或較不重要)。因此，屬性選擇器128可以被配置為使系統(tǒng)100的用戶能夠以期望方式選擇可用樣本屬性和/或描述可用樣本屬性的特征。舉例來說，盡管在圖I的例子中未具體示出，但是可以為系統(tǒng)100的用戶提供合適的圖形用戶界面，其中，如應(yīng)當(dāng)認(rèn)識到的那樣，這樣的圖形用戶界面的形式和格式將依賴于系統(tǒng)100的特定使用場景。聚類選擇器130可以被配置為使系統(tǒng)100的用戶能夠定義聚類106的期望本質(zhì)或者以其它方式描述聚類106的期望本質(zhì)的特性。舉例來說，例如，依賴于正在使用的相關(guān)聚類算法或者其它因素，聚類選擇器130可以使系統(tǒng)100的用戶能夠定義將要計算的聚類106的數(shù)目。另外，或者可替換地，聚類選擇器130可以使系統(tǒng)100的用戶能夠進ー步描述聚類106的特性。舉例來說，用戶可以定義聚類106的最大大小，或者聚類106相互之間的相對大小，或者聚類106的任意其它特征或者特性。與屬性選擇器128 —祥，可以由聚類選擇器130提供合適的圖形用戶界面，以供系統(tǒng)100的用戶在執(zhí)行剛剛提到的聚類106的并行化時使用。舉例來說，如圖I中所示，聚類106可以包括M個聚類，在圖I中示出為第一聚類106(1)以及第M聚類106 (M)。然后，在該例子中，可以認(rèn)為聚類選擇器130使系統(tǒng)100的用戶能夠定義參數(shù)M，以使得如所描述的那樣，可以將全部M個聚類復(fù)制為在可用核108、110、112處的聚類再現(xiàn)120。樣本劃分器132可以被配置為執(zhí)行將樣本104劃分為樣本子集114、116、118。如上所述，樣本劃分器132可以通過將樣本104劃分為一定數(shù)目的樣本子集——該數(shù)目等于可用核的任意數(shù)目——來執(zhí)行，其中樣本子集中的每ー個可以彼此大小近似相等。然而，如上所述，樣本劃分器132還可以與圖形用戶界面或者可以使系統(tǒng)100的用戶能夠以更加定制化的方式配置樣本子集的其它輸入技術(shù)相關(guān)聯(lián)。舉例來說，樣本子集114、116、118可以大小不同。在其它例子中，可以基于樣本子集的指定參數(shù)屬性來定義及劃分樣本子集，而非通過樣本104的簡單分割來定義和劃分。聚類再現(xiàn)器134可以被配置為在核108、110、112中的每ー個處將聚類106再現(xiàn)為聚類再現(xiàn)120。相關(guān)再現(xiàn)技木本身是公知的，因此這里不再進一步詳細描述。合并器136可以被配置為整合、同步、聚合(aggregate)或者以其它方式合并來自核108、110、112的處理結(jié)果。舉例來說，合并器136可以被配置為合并作為聚類管理器102的較大操作集的部分的中間處理結(jié)果以及合并最終結(jié)果集。在并行處理的場景中這樣的合并操作本身是公知的，并且可以包括，舉例來說，以來自每個相關(guān)的處理核的結(jié)果填充公共數(shù)據(jù)庫或者其它存儲器，和/或執(zhí)行每個相關(guān)處理核的關(guān)聯(lián)處理(具體來說，執(zhí)行可以僅在中央處理器處執(zhí)行的數(shù)據(jù)的處理，這樣的處理的例子是公知的和/或?qū)⒃谙旅嬖敿毺峁?。舉例來說，在圖I的例子中，并行化整合操作器138可以被配置為執(zhí)行上面針對操作器122、124、126所述的多種類型的操作。一般來說，例如，如前所述，這樣的整合操作可以包括將樣本104 (或者其子集)與聚類106中的每ー個単獨比較。下面的例子討論了相似性比較以及相關(guān)處理，作為這樣的整合操作的ー個例子。然而，將認(rèn)識到，也可以由聚類管理器102執(zhí)行其它類型的整合操作以及相關(guān)處理。雖然如此，但是在圖I的特定例子中，為了說明起見，并行化整合操作器138可以包括比較器140。比較器140可以被配置為例如，用于將樣本104(或者其子集)分別地與聚類106中的每ー個進行比較?；谶@些比較的結(jié)果，樣本指派器或者樣本重新指派器142可以被配置為將樣本中的每ー個與聚類106中給定的ー個關(guān)聯(lián)。隨后，中心選擇器144可以被配置為分析如此形成的聚類以及所包含的樣本，以便由此確定新的或者更新的中心或者與每個聚類關(guān)聯(lián)的其它度量。隨后，比較器140可以通過重復(fù)將單個樣本與新定義的聚類中的每ー個進行比較來以迭代方式繼續(xù)，以使得樣本重新指派器142可以因此根據(jù)需要針對當(dāng)前的聚類定義重新指派樣本。該迭代過程可以繼續(xù)直到例如聚類到達所定義的穩(wěn)定程度(例如，根據(jù)在新迭代中被重新指派的樣本數(shù)目或者百分比小于一定的閾值來定義的，和/或基于這些迭代到達某ー閾值的預(yù)定義次數(shù)定義的)。如上所述，在圖I的系統(tǒng)100的特定示范性實施方式中，比較器140可以使用相似性比較器140a來執(zhí)行所述比較，所述相似性比較器140被配置為比較每個單個樣本(例如，樣本子集的每個單個樣本)與聚類106中的每ー個的相似程度。這些相似性測量本身是公知的，并且對于本領(lǐng)域技術(shù)人員來說應(yīng)當(dāng)是清楚的，因此除了對于理解圖I的系統(tǒng)100的操作是必要的或者有幫助的內(nèi)容之外不對其詳細描述。然而，一般說來，會認(rèn)識到，可以針對樣本104的各種屬性(或者其子集)來執(zhí)行這些相似性測量。例如，如上所述，屬性選擇器128可以被配置為使系統(tǒng)100的用戶能夠定義樣本104的屬性(和/或其特征或值)，以使得相似性比較器140A可以由此被配置為基于所定義的屬性(或者其特征或值)來執(zhí)行每個單個樣本與聚類106中的每ー個之間的相似性測量。在許多情況下，如下面詳細描述的那樣(例如，針對圖2)，可以出現(xiàn)樣本104中的每ー個與相對較大數(shù)目的屬性關(guān)聯(lián)，這些屬性被定義或者指定用干與聚類106中的每ー個的相似性比較中。因此，可能期望在較大的并行處理相對于聚類106的樣本本身的場景內(nèi)，但是針對正在討論的屬性，使用并行處理。換句話說，例如，以與樣本劃分器132可以被配置為將樣本104劃分為樣本子集114、116、118幾乎ー樣的方式,屬性劃分器140b可以被配置為劃分或者以其它方式分割或者指定所選擇的屬性。因此，會認(rèn)識到，通過已經(jīng)被指定用于相似性比較的樣本的屬性子集的并行處理的使用，可以加速相似性比較器140a的相似性比較。正如所述，下面將例如參考圖2提供對于在單個樣本和聚類106之間的相似性比較的場景中使用樣本屬性的這種并行處理的示范性技木。在圖I的例子中，聚類管理器102、樣本104和聚類106被示出為通過使用至少ー個計算裝置146——其可以包括或者合并至少一個處理器146a以及計算機可讀存儲介質(zhì)146b——來實現(xiàn)。在此上下文中，一般會認(rèn)識到，圖I示出系統(tǒng)100的特征和功能可以通過使用利用計算機可讀存儲介質(zhì)146b存儲并且由至少ー個處理器146a運行的指令或者其它代碼來識別。具體地說，例如，圖I示出單個計算裝置146 ;然而，會認(rèn)識到，至少ー個計算裝置146可以表示多個計算裝置，其中每個計算裝置都可以使用也許如這里所述并行運行的兩個或更多處理器。舉例來說，在一些不范性實施方式中，至少一個處理器146a可以由一個或多個核108、110、112中的ー個或多個表示，而在其它示范性實施方式中，至少ー個計算裝置146可以表示與服務(wù)器或者容納核108、110、112的其它計算機通信的中央計算機。因此，盡管聚類管理器102及其組件被示出為包括在至少ー個計算裝置146中或者結(jié)合至少ー個計算裝置146運行，但是會認(rèn)識到，可以使用多個不同的計算裝置——例如，ー個或多個核108、110、112來運行聚類管理器102中的部分或者全部。也就是說，舉例來說，在一些實施方式中，聚類管理器102的部分可以在第一計算裝置以及關(guān)聯(lián)的處理器上運行，而聚類管理器102的其它部分可以使用ー個或多個單獨的計算設(shè)備/處理器來運行。舉例來說，計算裝置146可以表示中央計算裝置，該中央計算裝置由系統(tǒng)100的用戶訪問并且運行聚類管理器102的組件，諸如像屬性選擇器128、聚類選擇器110、樣本劃分器132、聚類再現(xiàn)器134和合并器136。同時，如上所述并且如可以從圖I的例示會認(rèn)識到的那樣，并行化整合操作器138可以被實例化為相應(yīng)核108、110、112中的每ー個處的并行化整合操作器122、124、126和/或作為相應(yīng)核108、110、112中的每ー個處的并行化整合操作器122、124、126以其它方式運行。在其它實施例中，會認(rèn)識到，至少ー個計算裝置146可以表示在其中執(zhí)行這里所描述的并行處理的核中的ー個。系統(tǒng)100的架構(gòu)上的這些變化或者其它結(jié)構(gòu)對本領(lǐng)域技術(shù)人員來說是清楚的，并且因此在這里沒有更詳細地進行描述。而且，許多其它變化也是可能的并且應(yīng)當(dāng)是清楚的。舉例來說，可以使用或許在通過網(wǎng)絡(luò)彼此通信的不同計算裝置上運行的兩個或更多組件來運行聚類管理器102的任意單個組件。反之，可以使用單個組件運行聚類管理器102的兩個或更多組件。通過舉例在這里描述了許多其它實施方式，或者許多其它實施方式本來也是明顯的。圖2是圖I的系統(tǒng)100的更詳細的實施方式的框圖。具體地說，如上所述(例如，針對屬性劃分器140b)，圖2示出了這樣的示范性實施方式其中，聚類管理器102以另外并行處理樣本子集的屬性子集來補充樣本104的子集的并行處理。具體地說，在圖I的例子中，核108、110、112被示出并且大致上描述為表示可以被配置為彼此并行處理的幾乎任意類型、數(shù)量的多個核或者可以被配置為彼此并行處理的多個核的幾乎任意組合。在更具體的圖2的例子中，服務(wù)器202、204、206被示出為各自包括至少兩個處理核。換句話說，如圖所示，服務(wù)器202、204、206表示多核服務(wù)器。在示出的該具體例子中，如圖所示，服務(wù)器202包括核208、210，而服務(wù)器204包括核212、214，且服務(wù)器206包括核216、218。因此，在操作中，聚類管理器102可以被配置為將樣本104劃分為樣本子集220、222和224，然后它們可以被分別指派給服務(wù)器202、204、206，如圖所示。舉例來說，樣本劃分器132可以被配置為以上面針對圖I所描述的方式將樣本104劃分為樣本子集220、222、224。對于此點，會認(rèn)識到，上面針對圖I描述的聚類管理器102的許多特征和功能可以在圖2的場景中類似地執(zhí)行。舉例來說，屬性選擇器128可以接收對與將用于聚類生成過程中的樣本104中的每ー個相關(guān)聯(lián)的各種屬性的選擇，而聚類選擇器130和聚類再現(xiàn)器134可以也被配置為執(zhí)行它們的相應(yīng)功能(例如，盡管在圖2的例子中未具體示出，但是選擇聚類106的數(shù)目和/或特征，并且復(fù)制全部聚類106以便將其與服務(wù)器202、204、206關(guān)聯(lián))。類似注釋應(yīng)用于針對在圖2的場景中在執(zhí)行對應(yīng)功能時使用合并器136和并行化整合操作器138時合并器136和并行化整合操作器138的操作。因此，將認(rèn)識到，聚類管理器102的在圖2中的功能與其在圖I中的功能是相似的，因此在這里不再詳細重復(fù)了。至于樣本子集220 (要理解類似的注釋適用于樣本子集222和樣本子集224)，可以存在樣本子集220的每個樣本被相對于被復(fù)制以與服務(wù)器202相關(guān)聯(lián)并且由服務(wù)器202使用的聚類106中的每ー個都進行比較(例如，樣本子集220的每個樣本將具有一個經(jīng)判定的相似程度)。換句話說，如這里詳細描述的那樣，可以將樣本子集220中的第一樣本相對于聚類106中的每ー個都進行比較，以得到其與聚類106中的每ー個的相似性。隨后，樣本子集220中的第二樣本可以類似地與聚類106中的每ー個都進行比較，直到樣本子集220的全部樣本都被如此進行了比較為止。在圖2的示范性實施方式中，假定樣本104各自與相對較大數(shù)目的關(guān)聯(lián)屬性相關(guān)聯(lián)，并且假定已經(jīng)選擇了相對較大數(shù)目的這些可用屬性用于剛剛提到的相似性比較。于是，在圖2的例子中，這樣的一個相對較大的屬性池可以被劃分為相應(yīng)的屬性子集，例如，與服務(wù)器202的核208相關(guān)聯(lián)的屬性子集226以及與服務(wù)器202的核210相關(guān)聯(lián)的屬性子集228。具體地說，例如，屬性劃分器140b可以被配置為將待使用的屬性集劃分為期望數(shù)目的子集，例如，與位于用于處理與正在討論的屬性關(guān)聯(lián)的相應(yīng)樣本的相應(yīng)多核服務(wù)器處的可用核的數(shù)目相應(yīng)的數(shù)目。隨后，會認(rèn)識到，基于關(guān)聯(lián)屬性的比較可以彼此并行進行，以使得可以以更快且更及時的方式完成整體相似性比較。而且，如上所述并且如圖2的例子所示，類似注釋適用于服務(wù)器204、206。具體來說，如圖所示，與樣本子集222關(guān)聯(lián)的屬性可以被劃分為屬性子集230和232，用于使用服務(wù)器204的各個核212、214對其的并行處理。類似注釋適用于分別與服務(wù)器206的核216、218關(guān)聯(lián)的屬性子集234、236。圖3是示出圖I的系統(tǒng)100和圖2的系統(tǒng)200的示范性操作的流程圖300。在圖3的例子中，操作302-312被示為單獨的、順序的操作。然而，將認(rèn)識到，在其它示范性實施方式中，可以以部分或者完全重疊或并行的方式實現(xiàn)兩個或更多操作302、312。而且，操作302-312可以以不同于圖示的次序執(zhí)行，包括例如，以嵌套的、循環(huán) 的或者迭代的方式。另夕卜，還可以包括未在圖3的例子中具體示出的附加操作或者替換操作，和/或可以省去ー個或多個操作或者其部分。在圖3的例子中，可以確定存儲在數(shù)據(jù)庫中的具有關(guān)聯(lián)屬性的多個樣本(302)。舉例來說，屬性選擇器128可以被配置為接收對與樣本104相關(guān)聯(lián)地存儲的指定屬性的選擇?？梢源_定多個樣本聚類(304)。舉例來說，聚類選擇器110可以被配置為標(biāo)識、特征化、參數(shù)化和/或以其它方式標(biāo)識或者確定聚類106。多個樣本聚類可以在多個處理核中的每ー個處被再現(xiàn)(306)。舉例來說，聚類再現(xiàn)器134可以被配置為在核108、110、112中的每ー個處(或者，在圖2的例子中，在服務(wù)器202,204,206中的每ー個處)再現(xiàn)相對于相關(guān)樣本104定義或者標(biāo)識的全部聚類106。多個樣本可以被劃分為數(shù)目與多個處理核的數(shù)目相應(yīng)的樣本子集(308)。舉例來說，樣本劃分器132可以被配置為將樣本104劃分為樣本子集114、116、118(或者，在圖2的例子中，劃分為樣本子集220、222、224)。該數(shù)目的樣本子集中的每ー個都可以與多個處理核中的相應(yīng)ー個處理核相關(guān)聯(lián)(310)。舉例來說，樣本劃分器132可以被配置為復(fù)制或者以其它方式提供樣本104的樣本子集(例如，圖I的樣本子集114、116、118，或者圖2的樣本子集220、222、224)。舉例來說，樣本劃分器132可以被配置為將樣本子集中的每ー個復(fù)制到與所述多個處理核中的相應(yīng)ー個處理核(例如，圖I的核108、110、112，或者圖2的服務(wù)器202、204、206)相關(guān)聯(lián)的存儲器，所述存儲器例如可以由相應(yīng)處理核讀取。基于在多個處理核中的每個相應(yīng)核處的每個樣本子集中的每個樣本的關(guān)聯(lián)屬性，執(zhí)行所述每個樣本相對于在相應(yīng)處理核處再現(xiàn)的多個樣本聚類中的每個樣本聚類的比較(312)。舉例來說，并行化整合操作器138 (例如，或者其實例122、124、126)可以被配置為執(zhí)行這樣的比較。舉例來說，并行化整合操作器122可以被配置為基于樣本子集114的每個樣本的屬性，將樣本子集114的每個樣本與核108所關(guān)聯(lián)的再現(xiàn)聚類120中的每ー個相比較。當(dāng)然，類似注釋適用于并行化整合操作器124、126以及各個樣本子集116、118。在這里描述的具體例子中，所述比較可以包括子集樣本中的每ー個與在處理核中的每ー個處再現(xiàn)的多個聚類中的每ー個之間的相似性比較。舉例來說，與特定樣本子集中的特定樣本相關(guān)聯(lián)的屬性可以被用于執(zhí)行與多個再現(xiàn)聚類中的每ー個的這種相似性比較，如這里詳細描述的那樣。具體地說，例如，如上相對于圖2所述，將用于這種相似性比較的、相對較大數(shù)目的這些樣本屬性可以被進一步劃分為樣本屬性子集，以供隨后在這種相似性比較的場景中的另外的并行化處理中使用。會認(rèn)識到，可以如上針對圖I和圖2所述的那樣來執(zhí)行這樣的并行處理的附加方面或者替換方面，或者這樣的并行處理的附加方面或者替換方面可以以清楚的其它方式運行。舉例來說，在這樣的并行處理完成時或者在其中間步驟完成時，可以進行適當(dāng)?shù)暮喜⒉僮?，以便組合或者以其它方式合并該并行處理(或者其中間操作的)的結(jié)果。舉例來說，合并器136可以被配置為組合與給定子集樣本相關(guān)聯(lián)的屬性子集226、228的并行處理，以便完成該子集樣本與給定樣本聚類的相似性比較。類似地，合并器136可以被配置為合并在圖I的場景中與樣本子集114、116、118中的每ー個關(guān)聯(lián)的比較結(jié)果，或者合并在圖2的場景中的樣本子集220、222、224的比較結(jié)果。當(dāng)然，可以根據(jù)給定示范性實施方式的特定場景，包括更多附加或者替換操作。下面圖4、圖5A和圖5B將提供k均值算法的的例子。具體地說，圖4和圖5A、圖5B提供了在實現(xiàn)k均值算法(k-means algorithm)的場景中圖I-圖3的系統(tǒng)和操作的實施方式的例子。如上所述，并且眾所周知，k均值算法是ー種分析方法被設(shè)計為將“N”個樣本(例如，樣本104)分割為“k”個聚類(例如，聚類106)，以使得“ N”個樣本中的每ー個都屬于具有最近均值的第k個聚類。因為k均值算法本身是具有許多已知實現(xiàn)領(lǐng)域的公知算法，除了可能對理解這里描述的系統(tǒng)和操作的特征和功能是必要的或者有幫助的內(nèi)容之外，k均值算法本身和許多實現(xiàn)領(lǐng)域的例子這里都不詳細提供。雖然如此，但是為了說明和示范起見，圖4示出包含k均值算法的完整運行的操作402-412。在圖4和圖5A、圖5B的場景中并且如上所述，參考具體例子或者例子集合，其中“ N”個樣本104可以包括提供能源和相關(guān)服務(wù)的公用事業(yè)公司的客戶的大量(例如，3百萬)客戶簡檔。在這樣的例子中，客戶簡檔中的每ー個都可以具有已定義數(shù)目的屬性(例如，300個屬性)。舉例來說，如在這樣的場景中公知的那樣，這樣的屬性可以包括，例如，家庭收入或者與對應(yīng)客戶簡檔關(guān)聯(lián)的財務(wù)特性、能源使用歷史、住所特性(例如，關(guān)聯(lián)的客戶是住套房(house)還是公寓(apartment))或者可能與客戶關(guān)聯(lián)的以及可能與按時且有利地向其遞送公共設(shè)施相關(guān)的任意其它特性或者屬性。而且，還是如上所述，在圖I和圖2的系統(tǒng)中，以及一般而言在k均值算法中，對于用戶來說可以選擇以及以其它方式描述將要形成的一定數(shù)目的k聚類的特性。為了所提供的例子起見，假定k均值算法的示范性實施方式將使用與3百萬個客戶簡檔中的每ー個關(guān)聯(lián)的300個屬性的對應(yīng)值，將該3百萬客戶簡檔聚類為100個聚類。因此，在圖4的例子中，操作可以ー開始以隨機選擇k個聚類中心開始(402)。也就是說，正如所述的那樣，用戶可能想要數(shù)目為k的聚類，其等于例如100個聚類。在這里所描述的k均值算法的場景中，每個這樣聚類可以相對于其中心來定義，“N”個樣本中的每ー個都與該中心來比較，以得到其相似度。也就是說，如k均值算法中所已知的，并且如下所述，應(yīng)當(dāng)形成理想的或者期望的k = 100個聚類的最終集合，以使得全部N = 3百萬個樣本被指派給這樣的聚類其中心在所有中心中與正在討論的樣本最相似。因此，在該場景中，并且如一般在k均值算法實施方式的場景中公知的那樣，術(shù)語“中心”或者“聚類中心”應(yīng)當(dāng)理解為指代代表性的屬性或者定義的屬性，或者屬性的集合或者組合，這些屬性可以用于描述聚類的特性，以將聚類相互區(qū)分。舉例來說，在一個簡單例子中，3百萬客戶簡檔的300個屬性中的一個可以包括對應(yīng)客戶的地理位置(例如，使用位置的郵政編碼或者經(jīng)/緯度表示)。在這樣的例子中，可以存在這些位置屬性被指定為100個聚類的定義的基礎(chǔ)，以使得3百萬個地理位置中的100個可以用于定義該聚類(也即，用于定義聚類中心)。在這樣的例子中，使用如下所述的方法，3百萬客戶中的每ー個都將與對應(yīng)聚類和聚類中心相關(guān)聯(lián)，該聚類中心在所有聚類中相對于正在討論的特定客戶來說具有最接近的地理位置。通過這樣的方式，全部3百萬客戶可以被指派給對應(yīng)的、地理上定義的聚類。當(dāng)然，在其它更為詳細的例子中，可以相對于屬性集合或者組合定義聚類中心。舉例來說，可以歸ー化屬性的值，例如，通過給300個屬性中的每ー個賦予0到I之間的屬性值，以使得3百萬客戶中的每ー個都具有針對300個屬性中的每ー個的0到I之間的對應(yīng)屬性值。在這樣的例子中，可以選擇期望的屬性集合或者組合，并且可以使用所選擇的屬性的歸ー化值來計算100個聚類的中心的對應(yīng)集合。再有，這樣的技木本身是公知的，因此除了對于理解圖4和圖5A、5B的例子是必要的或者有幫助的內(nèi)容之外，在這里不更為詳細地進行描述。如上所述，在圖4的例子中，操作402因此表示對所選擇的k個聚類中心的初始的、最佳猜測的(best guess)或者隨機的選擇，僅僅作為開始圖4的算法的迭代的手段。舉例來說，在上面描述的簡化的基于地理的聚類中，操作402可以包括隨機從3百萬客戶中選擇100個，并且使用對應(yīng)的100個地理位置作為聚類中心的初始集合。在上面所述的其它例子中，操作402可以包括隨機選擇100個客戶，然后分析相關(guān)的、關(guān)聯(lián)歸一化屬性值以計算對應(yīng)的100個中心。—旦正如上所述已經(jīng)選擇了聚類中心的初始集合，就可以計算N= 3百萬個樣本中的每ー個與k = 100個聚類中心之間的相似性(404)。舉例來說，如關(guān)于上面圖I-圖3的描述應(yīng)當(dāng)清楚的那樣，操作404的計算一般應(yīng)當(dāng)需要3百萬乘300再乘100次計算(假定將使用全部300個屬性)。雖然如此，但是使用上面相對于圖I-圖3描述的特征和功能，可以以有助于快速且及時執(zhí)行這樣的計算方式來并行化這樣的計算。具體地說，如上相對于圖I所述，可以將N = 3百萬個樣本劃分為數(shù)目為S的樣本子集，該數(shù)目S等于可用服務(wù)器或者處理核的數(shù)目。然后，如上所述，可以針對S個服務(wù)器/核中的每ー個再現(xiàn)全部k= 100個聚類中心。然后，如上所述，可以針對S個服務(wù)器/核中的每ー個再現(xiàn)全部k= 100個聚類中心。如可以看到的那樣，這樣的再現(xiàn)可以是實際且直接明了的，假定期望的聚類中心的數(shù)目k比待分組的樣本的數(shù)目N小，因此k個聚類中心的復(fù)制不會產(chǎn)生相對可觀的開銷。盡管沒有相對于圖I具體討論，但是可以存在可以使用描述相對于對應(yīng)聚類中心中的每ー個的相關(guān)屬性(或者其集合或者組合)的特性的相似性表格，進行將在如此劃分的樣本子集中的每ー個樣本子集中的每個樣本與對應(yīng)聚類中心中的每ー個之間執(zhí)行的相似性測量，從而可以確定它們之間的相對相似度。這樣的相似性表格本身及其使用是公知的。然而，在圖I-圖4的例子中，并且如下面將相對于圖5A和圖5B更為詳細地描述的那樣，這樣的相似性表格可以被類似地分割為S個部分，并且與相同服務(wù)器或者處理核相關(guān)聯(lián)地存儲。換句話說，如這里所述，N = 3百萬個樣本可以被劃分為數(shù)目為S的樣本子集，S=可用服務(wù)器/核，并且對應(yīng)的相似性表格可以類似地被劃分為數(shù)目為S的相似性表格子集，S=可用服務(wù)器/核。圖5A和圖5B用圖示出將結(jié)合操作404執(zhí)行的計算的本質(zhì)，以及如這里所述這些計算可以被并行化的方式。具體地說，如圖所示，N = 3百萬個樣本被示為樣本502、504. 506，并且被示為分別與對應(yīng)聚類中心508,510. 512相比較。因此，圖5A概念性地示出上面所述的將針對N = 3百萬個樣本執(zhí)行相對于k = 100個聚類的所述類型的相似性計算或者其它整合操作的資源密集的本質(zhì)(resource-intensive nature)。同吋，圖5B概念性地示出可以使用這里所描述的技術(shù)并行化操作404的資源密集的整合操作的方式。如上所述，參照圖5B描述的技術(shù)可以例如使用具有多個服務(wù)器的群和/或使用包括多個核的單個服務(wù)器來實現(xiàn)。因此，在所提供的示例中，可以認(rèn)識到，對服務(wù) 器/核或多個服務(wù)器/多個核的引用應(yīng)當(dāng)被理解為指代這些選擇中的其中之一或者它們ニ者，以供實現(xiàn)。具體地說，如圖所示，由服務(wù)器514、516...51 8示出數(shù)目為S或C的可用服務(wù)器/核。如圖所示并且所描述的那樣，N = 3百萬個樣本可以被劃分為對應(yīng)于并且被指派給可用服務(wù)器/核514、516. . . 518中的每ー個的樣本子集。具體地說，如圖所示，樣本(I N/S)或(I N/C)(在圖5B中示出為樣本502. . . 520)可以被指派給第一服務(wù)器/核514。類似地，對應(yīng)數(shù)目的樣本以及第ニ樣本子集(在圖5B中以樣本522表示)將被指派給第二服務(wù)器/核516，等等，直到最后的服務(wù)器/核518，最后的服務(wù)器/核518將接收最后的樣本子集，其包括第N(l-(1/S))或N(l-(1/C))樣本524到最后的樣本506。從以上內(nèi)容，可以認(rèn)識到，在下面的內(nèi)容中，為了簡潔并且僅僅為了注解，一般使用標(biāo)號“ S”自己，但是無論如何標(biāo)號“ S”要被理解為指代多個服務(wù)器中的一個或者在單個服務(wù)器上運行的多個核中的ー個。如圖5B所示，服務(wù)器/核514、516. . . 51 8中的每ー個也將接收全部k個聚類中心508. . . 512，或者已經(jīng)向服務(wù)器/核514、516. . . 518中的每ー個指派了全部k個聚類中心508. . . 512。而且，如圖所示以及如上所述，也可以將針對給定樣本子集的樣本的任意相似性表格項和/或樣本-聚類映射復(fù)制或者存儲到服務(wù)器/核514、516. . . 518中的對應(yīng)ー個中。舉例來說,如圖所示,接收樣本502. . . 520的服務(wù)器/核514將類似地接收針對樣本子集(也即，N個樣本中的第一到第N/S樣本)中的相應(yīng)樣本的相應(yīng)相似性表格項以及樣本-聚類映射。同時，并且類似地，服務(wù)器/核518將接收針對對應(yīng)于相關(guān)樣本子集(也即，第N(l-(1/S)...第N樣本)的樣本的相似性表格項和樣本-聚類映射。盡管未具體不出，但是可以認(rèn)識到，可以針對樣本子集中的每ー個和關(guān)聯(lián)服務(wù)器/核執(zhí)行相關(guān)相似性表格項和樣本-聚類映射的類似的關(guān)聯(lián)和指派。因此，可以認(rèn)識到，可以在S個服務(wù)器/核上并行化操作404，否則操作404會昂貴，并且此后彼此獨立地執(zhí)行。具體地說，可以在相關(guān)樣本子集中的每個樣本與聚類中心中的每ー個之間都進行相似性測量和比較。在該上下文中，如上所述，這樣的相似性比較可以包括或者基干與在這里描述的例子中為定義相似性而選擇的M = 300個屬性相關(guān)聯(lián)的計算。舉例來說，相對于圖5B，可以認(rèn)識到，樣本502可以與300個屬性的對應(yīng)值關(guān)聯(lián)，并且可以針對這300個屬性類似地定義中心508. . . 512。此后，可以ー開始將第一樣本502與第一中心508相比較，以便確定與其的相對相似性。
舉例來說，可以使用已知的歐式距離計算這樣的相似性，如下面的公式I的例子所示d = Im (X廠 X/)2 公式 I舉例來說，對于表不為“樣本A”的第一樣本502以及對于表不為“樣本B”的第一中心508來說，可以根據(jù)公式2來計算公式I的歐式距離d 樣本A= [X1, X2, , xM]樣本B= [x/ , x2’，，xM’ ]d(A，B) = y(ろ-A1 Y + (A2 -A2 )' + …+ (xM -Xm )2.公式 2其中，如所示，對于樣本A、B中的每ー個來說M個屬性被示為X1. . . Xmo 因此，在這樣的例子中，可以依次計算該歐式距離，作為對于第一樣本502與聚類508. . . 512中的姆ー個的相對相似性的相似性量度(measurement),此后對于指派給第一服務(wù)器/核514的樣本子集中的每個剩余樣本，直到并且包括相關(guān)樣本子集的最后ー個這樣的樣本，也即，第N/S樣本520，進行這樣的計算。類似注釋將適用于在剩余服務(wù)器/核516…518處執(zhí)行的計算。而且，如上所述，例如，相對于屬性劃分器140b，可以以類似于針對N= 3百萬個樣本整體的相似性計算的并行化的方式，進ー步并行化剛剛提到的相似性計算。具體地說，如上所述，可以存在服務(wù)器/核514、516. ..518可以表示圖2的多核服務(wù)器202、204、206。然后，300個屬性可以被劃分為相應(yīng)的屬性子集，用于在與每個這樣的多核服務(wù)器相關(guān)聯(lián)的多個核處對其的并行化處理。在ー個具體例子中，參考圖2，可以存在樣本子集220將包括3百萬客戶簡檔中的一百萬個客戶簡檔，而核208將與包括300個屬性中的150個屬性的屬性子集226相關(guān)聯(lián)，第二核210將包括屬性子集228中的其余150個屬性。通過這樣的方式，還可以在一定數(shù)目的可用屬性上進ー步并行化公式1-2的相似性計算，以便更進ー步促進快速和及時的相似性計算。一旦已經(jīng)計算出每個樣本子集中的每ー樣本與每個聚類中心之間的相似性量度，就可以基于該相似性量度在k個聚類中心內(nèi)以及在k個聚類中心之間重新指派樣本(406)。舉例來說，相對于圖5B的第一服務(wù)器/核514，如上所述，可以計算樣本502. . . 520中的每ー個與中心508. . . 512中的每ー個之間的相似性量度。因此，舉例來說，第一樣本502將具有最接近聚類中心508. . . 512中之一的相似性量度，并且因此將被指派給該聚類中心。可以針對指派給服務(wù)器/核514的樣本子集中的其余樣本，直到并且包括N/S樣本520，進行類似指派，從而，在操作406的結(jié)束時，全部樣本502. . . 520都已經(jīng)指派給核中心508. . . 512中的ー個。當(dāng)然，類似注釋適用于將服務(wù)器/核516處的樣本子集中的樣本重新指派成服務(wù)器/核518處的樣本子集524. . . 506的樣本。因此，可以明確地看到，在圖4和圖5B的例子中，以并行化的方式將全部N = 3百萬個樣本與k = 100個聚類中心中的每ー個都進行了比較，因此這是以高效方式進行計算。在操作406之后，可以做出穩(wěn)定性確定(408)。舉例來說，在一個簡單例子中，可以簡單地基于圖4的流程圖400的迭代的次數(shù)來確定k = 100個聚類中心的聚類結(jié)果的穩(wěn)定性。也就是說，例如，在假定其穩(wěn)定性之后可以定義迭代的最大次數(shù)。另外，或者可替換地，可以基于其它衡量標(biāo)準(zhǔn)(metric)來判定穩(wěn)定性。舉例來說，穩(wěn)定性可以被確定為在操作406期間被重新指派給k = 100個聚類中心的樣本的數(shù)目。也就是說，如在k均值算法的傳統(tǒng)實施方式中已知的那樣，一旦在流程圖400的一次迭代的操作406期間在聚類之間重新指派了最小數(shù)目的樣本，就可以進一歩假定迭代將對k = 100個聚類的樣本指派產(chǎn)生微小的影響，和/或事實上N =3百萬個樣本中的大多數(shù)或者全部被指派給最相似的聚類中心。在至少部分地基于被重新指派的樣本的數(shù)目來判定穩(wěn)定性的情況下，可能需要例如使用合并器136合并來自可用服務(wù)/核的數(shù)據(jù)。也就是說，參考作為示例的圖I的例子，可能出現(xiàn)單個樣本被重新指派到在核108、110、112中的每ー個處的新的中心。因此，合并器136可能合并來自核108、110、112的數(shù)據(jù)，以確定已發(fā)生總共三次重新指派。因此，如果確定了期望的穩(wěn)定程度(408)，那么流程圖400的算法就可以完成 (410)。否則(408)，可能需要或者期望計算正在討論的k = 100個聚類中的更新的聚類中心(412)。也就是說，如上所述，例如，相對于操作402，流程圖400的算法可以ー開始以隨機選擇k個聚類中心開始。舉例來說，在上述所給定的簡化例子中，聚類中心是基于客戶的地理位置來定義的，那么操作402就可以ー開始隨機地選擇關(guān)聯(lián)地理位置中的100個客戶。然而，因為這樣的選擇是隨機的，所以可能存在如此選擇的聚類中心是非代表性的或者要不然的話就是非期望的。舉例來說，可能存在所有100個地理位置都位于彼此非常接近的位置。因此，正如所述的那樣，操作412可以被設(shè)計為計算新的、經(jīng)更新的聚類中心——其可以更能代表相關(guān)樣本(例如，客戶)的期望特性或者屬性的實際的、期望的分布。換句話說，可以確定新的、更新的聚類中心，其使得可能最小化N= 3百萬個樣本中的每ー個與至少ー個相應(yīng)聚類中心之間的距離。在k均值算法的傳統(tǒng)實施方式中，可以通過計算每個樣本與其當(dāng)前或者(如果適用的話)新指派的聚類中心之間的總距離來執(zhí)行操作412。然后，可以確定每個聚類中所有樣本的均值或者平均數(shù)，并且每個這樣的計算出的均值在之后都可以用作k = 100個聚類中心的新的聚類中心。在圖4的實施方式中，可以在每個服務(wù)器/核處并行計算樣本中的每ー個與它們被新指派到的(如果已經(jīng)發(fā)生了重新指派)聚類的當(dāng)前中心之間的總距離。隨后，可以集中執(zhí)行新中心的實際計算，并且該算法可以接下來進行操作404。換句話說，如已知并且如圖4中所示，相似性計算之后可以如上所述針對操作404繼續(xù)進行，直到達到穩(wěn)定(408)，并且流程圖400的算法完成(410)。下面提供的偽碼部分1-3示出了根據(jù)圖4的流程圖400的示范性實施方式。具體地說，如下所示，偽碼I示出了用于計算公式I和2的歐式距離的示范性函數(shù)，而偽碼2示出了使用一定數(shù)目的核C并行計算距離(例如，相似性)的例子。最后偽碼3示出了圖4的K均值算法的實施方式，其可以包括偽碼部分I和2的計算。偽碼II. FUNCTION Euclidean_Distance(Vector x_vec, Vector y_vec)2. BEGIN
3. for i:=0 to size (x_vec) do4. distance+ = (x_vec [i]-y_vec [i]) "25. end for6. distance := sqrt (distance)7. return distance8. END偽碼2I. % C the number of cores 2. FUNCTION Euclidean—Distance (Vector x_vec, Vector y_vec)3. BEGIN4. N = size (x_vec)5. Vector distance = new Vector[C]6. On Core I 7.for i = 0 to INT (N/C) do8.distance[l]+= (x_vec[i]-y_vec[i]) "29.end for10. On Core 2 11.for i = INT (N/C) to 2*INT(N/C)do12.distance [2]+ = (x_vec [i]-y_vec [i]) "213.end for14.......15. On Core C 16.for i := INT (N(l_l/C)) to N do17.distance [C_l] + = (x_vec [i]-y_vec [i]) "218.end for19. result := sqrt (sum(distance))20. return resultEND偽碼3I. FUNCTION K—Means—Parallel2. % K the number of cluster3. % nSamples the number of samples4. % nDimensions the number of dimensions5. % [nSamples, nDimensions] := size (inputData)6. % nServers the number of servers7.8. % Set up the maximum number of iterations9.MAX—ITER: = 10010.
11. Matrix center = new Matrix[K][nDimensions]12. center = random select K samples13.14. % Set up storage for the cluster id of samples15. Vector cluster—id : = new Vector[nSamples]16. Vector old—cluster—id : = new Vector[nSamples]17. old—cluster—id := ones (nSamples) 18.19. % Set up storage for the cluster result20. Matrix cluster—result := new Matrix [K][]21.22. while cluster—id ! = old—cluster—id && iter く MAX—ITER do23. Copy the new centers to S servers24. old—cluster—id : = cluster—id25. On server I 26.% Set up storage for the similarity between samples on thisserver and centers27.Matrix similarity_on_Server_l = new Matrix [num—SampIes_on_Server_l][K]28.29. Matrix sum—on—Server—I := new Matrix [K] [nDimensions]30.% Compute similarity between the samples on this server andcenters31. for i = 0 to num_Samples_on_Server_l do32.for j = 0 to K do33.similarity—on—Server—I [i] [j] : = Euclidean—Distance (Samples—on—Serverl [i]，center—copy—I [j])34.35.end for36.end for37.38.% Find out the cluster id (with minimum distance) for eachsample39.for i = 0 to num—Samples—on—Server—I do40.id := min_index (similarity_on_Server_l)41.cluster—id[i] := id42.cluster—result [id]. pushback [i]43. end for44.
45.% For each cluster，compute the sum of the corresponding sampleson this server46.for i = 0 to num_Samples_on_Server_l do47.if Samples_on_ServerI [i]. cluster_id = = m then48.sum—on—Server—I [m]+ = Samples—on—Serverl [i]49.end if50.end for51.52.On server 2 53.% Set up storage for the similarity between samples on thisserver and centers54.Matrix similarity_on_Server_2 = new Matrix [num—SampIes_on_Server—2][K]55.56.Matrix sum_on_Server_2 = new Matrix [K] [nDimensions]57.% Compute similarity between the samples on this server andcenters58.for i : = 0 to num—Samples—on—Server—2 do 59.for j = 0 to K do60.similarity—on—Server—2 [i] [j] : = Euclidean—Distance (Sampl es_on_Server2 [i]，center_copy_2 [ j])61.end for62.end for63.64.for i : = 0 to num—Samples—on—Server—2 do65.id := min_index (similarity_on_Server_2)66.cluster—id [i+num—Sample—on—Server I] := id67.cluster—result [id] pushback [i+num—Sample_on_ServerI]68.end for69.70.for i : = 0 to num—Samples—on—Server—2 do71.if Samples_on_Server2 [i]. cluster_id = = m then72.sum—on—Server—2 [m] + = Samples—on—Server2 [i]73.end if74.end for75.......76.On server S 77.% Set up storage for the similarity between samples on thisserver and centers
78.Matrix similarity_on_Server_S = new Matrix [num—SampIes_on_Server—S][K]79.80.Matrix sum_on_Server_S = new Matrix [K] [nDimensions]81.% Compute similarity between the samples on this server andcenters82.for i : = 0 to num—Samples on—Server—S do83.for j = 0 to K do84.similarity—on—Server—S [i] [j] : = Euclidean—Distance ( Sampl es_on_ServerS [i]，center_copy_S [ j])85.end for86.end for87.88.for i : = 0 to num—Samples—on_Server_S do89.id := min_index (similarity_on_Server_S)90.cluster—id[i+nSamples-num—Samples—on—Server—S] = id91.cluster—result [id] pushback [i+nSamples-num—Samples—on—Server—S]92.end for93.94.for i : = 0 to num—Samples—on—Server—S do95.if Samples_on_ServerS[i]. cluster_id = = m then96.sum—on—Server—S [m] + = Samples—on—ServerS [i]97.end if98.end for99.100.% Update the centers101.Matrix sum = new Matirx [K] [nDimensions]102.for i = 0 to K do103.sum+ = sum—on—Server—i104.end for105.for i = 0 to K do106.center [i] : = sum[i]/size (cluster—result [i])107.end for108.109. end while110. return cluster—result111. END因此，圖1-5B的特征和功能提供使用這里描述的并行處理技術(shù)將樣本快速、高效且及時分組到期望數(shù)目的聚類。當(dāng)然，會認(rèn)識到，提供的例子僅為了圖示的目的，而不意在以某種方式進行限制。舉例來說，會認(rèn)識到，可以在幾乎任意如下場景中利用這里描述的技術(shù)，在所述場景中希望針對相對較大數(shù)據(jù)集和相對小得多的數(shù)據(jù)集來實現(xiàn)這里所述的類型的整合操作。如所述的那樣，在這樣的場景中，相對較小的數(shù)據(jù)集的全部都可以被復(fù)制到多個可用核中的每ー個中，并且較大數(shù)據(jù)集可以細分為數(shù)目對應(yīng)于可用核的數(shù)目的子集。之后，可以進行并行化處理，從而當(dāng)合并運行的整合操作時，保證在兩個數(shù)據(jù)集的所有組合上的計算結(jié)果都被包括在內(nèi)。因此，在這種整合操作先前局限于傳統(tǒng)的串行處理的這樣的場景和背景中，可以獲得并行處理的好處。這里描述的各種技術(shù)的實現(xiàn)方式可以被實施在數(shù)字電子電路中，或者實施在計算機硬件、固件、軟件，或者它們的組合中。實現(xiàn)方式可以實施為計算機程序產(chǎn)品，即有形地具體實施在信息載體中的計算機程序，信息載體例如在機器可讀存儲設(shè)備中或者在傳播的信號中，以供數(shù)據(jù)處理裝置執(zhí)行或者控制數(shù)據(jù)處理裝置的操作，所述數(shù)據(jù)處理裝置例如可編
程處理裝置、計算機或多個計算機。計算機程序，諸如上面描述的計算機程序，可以用任何形式的編程語言編寫，包括匯編語言或解釋語言，并且，它可以被以任何形式部署，包括作為獨立的程序或者作為模塊、組件、子程序或其他適于在計算環(huán)境中使用的単元。計算機程序可以被部署為在ー個計算機上執(zhí)行或在位于ー個地點或跨過多個地點分布并被通信網(wǎng)絡(luò)互連起來的多個計算機上執(zhí)行。方法步驟可以被ー個或多個可編程處理器執(zhí)行，所述可編程處理器執(zhí)行計算機程序，以便通過對輸入數(shù)據(jù)操作和產(chǎn)生輸出來執(zhí)行功能。方法步驟還可以被專用邏輯電路執(zhí)行，或者裝置可以被實施為專用邏輯電路，所述專用邏輯電路例如FPGA(現(xiàn)場可編程門陣列)或ASIC (專用集成電路)。作為例子，適于執(zhí)行計算機程序的處理器包括通用和專用微處理器，以及任何類型的數(shù)字計算機的任意一個或多個處理器。一般來說，處理器將從只讀存儲器或隨機存取存儲器接收指令和數(shù)據(jù)，或者從兩者都接收指令和數(shù)據(jù)。計算機的元件可以包括至少ー個用于執(zhí)行指令的處理器，和用于存儲指令和數(shù)據(jù)的ー個或多個存儲器設(shè)備。一般來說，計算機還可以包括，或者被可操作地連接，以從ー個或多個用于存儲數(shù)據(jù)的海量儲存設(shè)備接收數(shù)據(jù)，或把數(shù)據(jù)傳送到海量儲存設(shè)備，或者二者皆有，所述海量儲存設(shè)備例如磁盤、磁光盤或光盤。適于具體實施計算機程序指令和數(shù)據(jù)的信息載體包括所有形式的非易失性存儲器，作為例子，包括半導(dǎo)體存儲器器件，例如EPR0M、EEPROM和閃存設(shè)備、磁盤，例如內(nèi)置硬盤或可移動磁盤、磁光盤和⑶-ROM以及DVD-ROM盤。處理器和存儲器可以以專用邏輯電路補充，或者被包含在專用邏輯電路中。為了提供和用戶的交互，實現(xiàn)方式可以在具有顯示設(shè)備和鍵盤以及定點設(shè)備的計算機上實施，顯示設(shè)備例如陰極射線管(CRT)或液晶顯示器(LCD)監(jiān)視器，用于向用戶顯示信息，鍵盤和指示設(shè)備例如鼠標(biāo)或軌跡球，用戶利用它們可以提供到計算機的輸入。其他種類的設(shè)備也可以被用來提供和用戶的交互；例如，提供給用戶的反饋可以是任何形式的感覺反饋，例如視覺反饋、聽覺反饋或觸覺反饋，并且，可以以任何形式接收來自用戶的輸入，包括聲音、語音或觸覺輸入。實現(xiàn)方式可以被在包括后端組件或包括中間件組件或包括前端組件的計算系統(tǒng)中實施，或者在這些后端、中間件、前端組件的任意組合中實施，后端組件例如數(shù)據(jù)服務(wù)器，中間件組件例如應(yīng)用服務(wù)器，前端組件例如具有圖形用戶界面，或Web瀏覽器的客戶端計算機，通過圖形用戶界面或Web瀏覽器，用戶可以和實現(xiàn)方式進行交互?？梢岳脭?shù)字?jǐn)?shù)據(jù)通信的任何形式或介質(zhì)互連組件，數(shù)字?jǐn)?shù)據(jù)通信介質(zhì)例如通信網(wǎng)絡(luò)。通信網(wǎng)絡(luò)的例子包括局域網(wǎng)(LAN)和廣域網(wǎng)(WAN)，例如因特網(wǎng)。雖然如這里所描述的那樣已經(jīng)示出了所描述的實現(xiàn)方式的某些特征，但是本領(lǐng)域普通技術(shù)人員現(xiàn)在應(yīng)當(dāng)想到很多修改、替換、變化或等同物。因此應(yīng)當(dāng)理解，所附權(quán)利要求旨在覆蓋落入實施例的實質(zhì)精神內(nèi)的所有這樣的修改和變化。
權(quán)利要求
1.ー種包括記錄在計算機可讀介質(zhì)上的指令的計算機系統(tǒng)，該系統(tǒng)包括聚類選擇器，其被配置為確定多個樣本聚類，以及在多個處理核中的每ー個處再現(xiàn)所述多個樣本聚類；樣本劃分器，其被配置為將存儲在數(shù)據(jù)庫中的具有關(guān)聯(lián)屬性的多個樣本劃分為數(shù)目對應(yīng)于所述多個處理核的數(shù)目的樣本子集，并且還被配置為將所述數(shù)目的樣本子集中的每ー個與所述多個處理核中的對應(yīng)ー個相關(guān)聯(lián)；以及整合操作器，其被配置為基于所述多個處理核中的每個對應(yīng)核處的每個樣本子集中的每個樣本的關(guān)聯(lián)屬性，執(zhí)行所述每個樣本相對于在所述對應(yīng)處理核處再現(xiàn)的多個樣本聚類中的每ー個的比較。
2.如權(quán)利要求I所述的系統(tǒng)，其中，所述聚類選擇器被配置為通過圖形用戶界面(GUI)從用戶接收多個樣本聚類的數(shù)目。
3.如權(quán)利要求I所述的系統(tǒng)，包括合并器，其被配置為合并所述在多個處理核中的每一個處執(zhí)行的比較的比較結(jié)果，以便由此以所述多個樣本來填充所述樣本聚類。
4.如權(quán)利要求I所述的系統(tǒng),其中,樣本子集的數(shù)目等于所述多個處理核的數(shù)目，并且其中，每個樣本子集包括相等數(shù)目的樣本。
5.如權(quán)利要求I所述的系統(tǒng)，還包括屬性劃分器，其被配置為將與每個樣本關(guān)聯(lián)的屬性劃分為屬性子集，以便在執(zhí)行所述比較期間對其進行并行處理。
6.如權(quán)利要求I所述的系統(tǒng)，其中，所述比較包括在多個處理核中的每ー個處執(zhí)行的、每個樣本子集中的每個樣本與每個聚類的中心之間的相似性比較。
7.如權(quán)利要求6所述的系統(tǒng)，其中，使用包括在每個聚類中的樣本的平均屬性值來確定每個聚類的中心。
8.如權(quán)利要求6所述的系統(tǒng)，其中，所述整合操作器被配置為基于所述比較將樣本從第一聚類重新指派到第二聚類。
9.如權(quán)利要求8所述的系統(tǒng)，包括合并器，其被配置為合并所述比較的比較結(jié)果以及被配置為根據(jù)需要使用經(jīng)合并的比較結(jié)果來更新每個聚類的每個中心的值。
10.如權(quán)利要求9所述的系統(tǒng)，其中，所述合并器被配置為基于被重新指派的樣本的數(shù)目來確定每個聚類內(nèi)樣本的穩(wěn)定性。
11.一種計算機實現(xiàn)方法，包括確定存儲在數(shù)據(jù)庫中的具有關(guān)聯(lián)屬性的多個樣本；確定多個樣本聚類；在多個處理核中的每ー個處再現(xiàn)所述多個樣本聚類；將所述多個樣本劃分為數(shù)目與所述多個處理核的數(shù)目相對應(yīng)的樣本子集；將所述數(shù)目的樣本子集中的每ー個與所述多個處理核中的對應(yīng)ー個相關(guān)聯(lián)；以及基于在所述多個處理核的每個對應(yīng)核處的每個樣本子集中的每個樣本的關(guān)聯(lián)屬性，執(zhí)行所述每個樣本相對于在對應(yīng)處理核處再現(xiàn)的多個樣本聚類中的每ー個的比較。
12.如權(quán)利要求11所述的方法，還包括合并所述在多個處理核中的每ー個處執(zhí)行的比較的比較結(jié)果，以便由此以所述多個樣本來填充所述樣本聚類。
13.如權(quán)利要求11所述的方法，執(zhí)行所述比較還包括將與每個樣本相關(guān)聯(lián)的屬性劃分為屬性子集，以便在執(zhí)行所述比較期間對其進行并行處理。
14.如權(quán)利要求11所述的方法，其中，執(zhí)行所述比較進ー步包括在多個處理核中的每一個處執(zhí)行每個樣本子集中的每個樣本與每個聚類的中心之間的相似性比較。
15.一種計算機程序產(chǎn)品，該計算機程序產(chǎn)品被有形地具體實施在計算機可讀介質(zhì)上并且包括指令，所述指令當(dāng)被運行時被配置為執(zhí)行如下步驟確定存儲在數(shù)據(jù)庫中的具有關(guān)聯(lián)屬性的多個樣本；確定多個樣本聚類；在多個處理核中的每ー個處再現(xiàn)所述多個樣本聚類；將所述多個樣本劃分為數(shù)目與所述多個處理核的數(shù)目相對應(yīng)的樣本子集；將所述數(shù)目的樣本子集中的每ー個與所述多個處理核中的對應(yīng)ー個相關(guān)聯(lián)；以及基于在所述多個處理核的每個對應(yīng)核處的每個樣本子集中的每個樣本的關(guān)聯(lián)屬性，執(zhí)行所述每個樣本相對于在對應(yīng)處理核處再現(xiàn)的多個樣本聚類中的每ー個的比較。
16.如權(quán)利要求15所述的計算機程序產(chǎn)品，其中，所述指令當(dāng)被運行時被配置為合并所述在多個處理核中的每ー個處執(zhí)行的比較的比較結(jié)果，以便由此以所述多個樣本來填充所述樣本聚類。
17.如權(quán)利要求15所述的計算機程序產(chǎn)品，其中，所述指令當(dāng)被運行時被配置為將與每個樣本關(guān)聯(lián)的屬性劃分為屬性子集，以便在執(zhí)行所述比較期間對其進行并行處理。
18.如權(quán)利要求15所述的計算機程序產(chǎn)品，其中，所述比較包括在多個處理核中的每一個處執(zhí)行的、每個樣本子集中的每個樣本與每個聚類的中心之間的相似性比較。
19.如權(quán)利要求15所述的計算機程序產(chǎn)品，其中，所述指令當(dāng)被運行時被配置為基于所述比較將樣本從第一聚類重新指派到第二聚類。
20.如權(quán)利要求19所述的計算機程序產(chǎn)品，其中，所述指令當(dāng)被運行時被配置為基于所述被重新指派的樣本的數(shù)目確定每個聚類內(nèi)的樣本的穩(wěn)定性。
全文摘要
本發(fā)明提供大規(guī)模數(shù)據(jù)聚類分析的并行化處理的方法和系統(tǒng)。聚類選擇器可以確定多個樣本聚類，以及可以在多個處理核中的每一個處再現(xiàn)所述多個樣本聚類。樣本劃分器可以將存儲在數(shù)據(jù)庫中的具有關(guān)聯(lián)屬性的多個樣本劃分為數(shù)目相應(yīng)于所述多個處理核的數(shù)目的樣本子集，并且可以將所述數(shù)目的樣本子集中的每一個與所述多個處理核中的對應(yīng)一個關(guān)聯(lián)。整合操作器可以基于所述多個處理核中的每個對應(yīng)核處的每個樣本子集的每個樣本的關(guān)聯(lián)屬性，執(zhí)行所述每個樣本相對于在所述對應(yīng)處理核處再現(xiàn)的多個樣本聚類中的每一個的比較。
文檔編號G06F17/30GK102855259SQ20111018388
公開日2013年1月2日申請日期2011年6月30日優(yōu)先權(quán)日2011年6月30日
發(fā)明者黎文憲, 孫谷飛申請人:Sap股份公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黎文憲;孫谷飛
技術(shù)所有人：SAP股份公司
我是此專利的發(fā)明人

上一篇：電子白板中失真投影面內(nèi)觸摸點屏幕坐標(biāo)的精確計算方法
上一篇：一種廣告自動投放系統(tǒng)及方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

并行聚類算法相關(guān)技術(shù)

大規(guī)模并行處理數(shù)據(jù)庫相關(guān)技術(shù)

聚類數(shù)據(jù)集相關(guān)技術(shù)

數(shù)據(jù)聚類相關(guān)技術(shù)

數(shù)據(jù)挖掘聚類分析案例相關(guān)技術(shù)

kmeans聚類算法數(shù)據(jù)集相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

大規(guī)模數(shù)據(jù)聚類分析的并行化的制作方法