国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于本體的聚類服務(wù)方法

      文檔序號(hào):9432625閱讀:724來源:國(guó)知局
      一種基于本體的聚類服務(wù)方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)與聚類算法領(lǐng)域,具體設(shè)及一種根據(jù)用戶目標(biāo),采用本 體服務(wù)框架實(shí)現(xiàn)自動(dòng)匹配,執(zhí)行聚類算法并評(píng)價(jià)聚類算法結(jié)果的方法。
      【背景技術(shù)】
      [0002] 聚類算法是數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典方法。大數(shù)據(jù)時(shí)代,通過聚類算法分析海量數(shù)據(jù), 從中得到更有價(jià)值的信息,從而獲得更好的決策能力。目前隨著對(duì)聚類算法研究的不斷深 入,研究人員提出了越來越多不同的聚類算法,包括基于劃分的聚類、基于網(wǎng)格的聚類、基 于密度的聚類W及基于層次的聚類,運(yùn)些算法針對(duì)不同維度、規(guī)模,類型的數(shù)據(jù)集提出,針 對(duì)相同的數(shù)據(jù)集,使用兩個(gè)不同的聚類算法,得到的結(jié)果可能會(huì)有很大差異。用戶由于缺乏 對(duì)具體聚類算法的了解,無法把握數(shù)據(jù)特征,從而選擇了錯(cuò)誤的聚類算法,導(dǎo)致聚類結(jié)果不 理想。根據(jù)此問題,利用已有的領(lǐng)域知識(shí),實(shí)現(xiàn)聚類算法的自動(dòng)匹配與執(zhí)行,W及評(píng)估聚類 算法的結(jié)果,是一種理想的解決方案。
      [0003]目前已有的聚類服務(wù)方案,主要分為兩類:一是指定固定的聚類算法,實(shí)施聚類算 法并返回結(jié)果,該類服務(wù)方案不需要處理種類繁多的聚類算法,但是有限的選擇也導(dǎo)致最 終聚類結(jié)果不理想;另一類是針對(duì)特定的應(yīng)用領(lǐng)域,提供聚類算法選擇方案,該類服務(wù)方案 的優(yōu)點(diǎn)是,針對(duì)特定應(yīng)用領(lǐng)域,可W更細(xì)致地劃分聚類任務(wù)與聚類目標(biāo),從而更精確地匹配 聚類算法,最終聚類結(jié)果也更符合用戶目標(biāo),該類服務(wù)方案的缺點(diǎn)是應(yīng)用范圍單一。

      【發(fā)明內(nèi)容】

      [0004] 為了克服現(xiàn)有技術(shù)中聚類服務(wù)所存在的不足,本發(fā)明提供了一種結(jié)合歷史聚類任 務(wù),基于本體進(jìn)行任務(wù)相似度計(jì)算,能夠?yàn)橛脩籼峁┳顑?yōu)的聚類算法的聚類服務(wù)方法。
      [0005] 本發(fā)明實(shí)現(xiàn)上述目的所采用的技術(shù)方案是由W下步驟組成:
      [0006] (1)構(gòu)建頂層本體,該頂層本體包含數(shù)據(jù)類、任務(wù)類W及聚類算法類;
      [0007] 其中數(shù)據(jù)類的屬性包括數(shù)據(jù)量大小、數(shù)據(jù)維度、數(shù)據(jù)類型和數(shù)據(jù)主題;任務(wù)類的屬 性包括任務(wù)動(dòng)作、任務(wù)對(duì)象、任務(wù)聚類結(jié)果和任務(wù)預(yù)期聚類簇?cái)?shù);所述聚類算法類的屬性包 括聚類算法名、聚類數(shù)據(jù)類型、聚類數(shù)據(jù)量大小、聚類數(shù)據(jù)維度、相似度衡量方法、噪音點(diǎn)敏 感、聚類結(jié)果、是否設(shè)定簇?cái)?shù);
      [0008] 上述的數(shù)據(jù)量大小、數(shù)據(jù)維度、聚類數(shù)據(jù)量大小、聚類數(shù)據(jù)維度、任務(wù)預(yù)期聚類簇 數(shù)、噪音點(diǎn)敏感W及是否設(shè)定簇?cái)?shù)屬性均為布爾類型屬性;
      [0009] 設(shè)定數(shù)據(jù)中,若數(shù)據(jù)量大于20萬條,則數(shù)據(jù)量大小屬性取值為1;否則取值為0; 若數(shù)據(jù)維度大于16,則數(shù)據(jù)維度屬性取值為1;否則取值為0;
      [0010] 設(shè)定聚類算法中,若聚類算法時(shí)間復(fù)雜度T> 0(t2),t為數(shù)據(jù)量的規(guī)模,則聚類數(shù) 據(jù)量大小屬性取值為1 ;否則為0 ;
      [0011] 若聚類算法適合處理多于16個(gè)維度的數(shù)據(jù)集,則聚類數(shù)據(jù)維度取值為1 ;否則,取 值為0 ;
      [0012] 若聚類算法對(duì)噪音點(diǎn)不敏感,則噪音點(diǎn)敏感屬性取值為1 ;否則,取值為0 ;
      [0013] 若聚類算法需要用戶提供聚類簇?cái)?shù)作為參數(shù),則是否設(shè)定簇?cái)?shù)屬性取值為1 ;否 則,取值為0 ;
      [0014] 上述的數(shù)據(jù)類型、任務(wù)動(dòng)作、任務(wù)對(duì)象、任務(wù)聚類結(jié)果、聚類數(shù)據(jù)類型、相似度衡量 方法W及聚類形狀均為枚舉型屬性;
      [0015] 上述的任務(wù)預(yù)期聚類簇?cái)?shù)為數(shù)值型屬性;
      [0016] 數(shù)據(jù)類型和聚類數(shù)據(jù)類型的值域均為數(shù)值型、二進(jìn)制型和字符型;任務(wù)動(dòng)作的值 域?yàn)槠ヅ?、分割和查找;任?wù)對(duì)象的值域?yàn)閿?shù)據(jù)中的所有維度;任務(wù)聚類結(jié)果和聚類結(jié)果 的值域?yàn)橥剐魏推渌螤睿幌嗨贫群饬糠椒ㄖ涤驗(yàn)榫嚯x、密度、網(wǎng)格分割和混合模型;
      [0017] (2)根據(jù)所構(gòu)建的頂層本體對(duì)聚類算法庫(kù)中的每一個(gè)聚類算法進(jìn)行標(biāo)注,得到聚 類算法實(shí)例;
      [0018] (3)用戶輸入待聚類數(shù)據(jù)集,使用頂層本體對(duì)該待聚類數(shù)據(jù)集進(jìn)行標(biāo)注,得到數(shù)據(jù) 實(shí)例;
      [0019] (4)構(gòu)建用戶任務(wù)選擇菜單,引導(dǎo)用戶將聚類目標(biāo)分解為聚類任務(wù),并使用頂層本 體進(jìn)行標(biāo)注,得到任務(wù)實(shí)例;
      [0020] 用戶任務(wù)選擇菜單包括四項(xiàng)一級(jí)菜單,對(duì)應(yīng)任務(wù)類的4個(gè)屬性,每個(gè)一級(jí)菜單附 屬一個(gè)二級(jí)菜單,二級(jí)菜單項(xiàng)為對(duì)應(yīng)屬性的值域,用戶將菜單選擇完畢后,即確定四個(gè)屬性 的取值,將屬性值寫入RDF規(guī)則文件,生成一個(gè)任務(wù)實(shí)例;
      [0021] (5)根據(jù)步驟(3)與步驟(4)所得的數(shù)據(jù)實(shí)例與任務(wù)實(shí)例,選取其中所包含的除任 務(wù)對(duì)象W外的布爾型、枚舉型和數(shù)值型的屬性,經(jīng)正二進(jìn)制轉(zhuǎn)換得到本任務(wù)事務(wù),同時(shí)從歷 史任務(wù)事務(wù)庫(kù)中獲取歷史任務(wù)事務(wù),用余弦相似度法計(jì)算歷史任務(wù)事務(wù)與本任務(wù)事務(wù)的相 似度;
      [0022] (6)根據(jù)步驟(5)所得相似度,確定與本任務(wù)事務(wù)相似度最大的歷史任務(wù)事務(wù),選 取該歷史任務(wù)事務(wù)所對(duì)應(yīng)的聚類算法作為第一候選聚類算法;
      [0023] (7)根據(jù)步驟(3)與步驟(4)所得的數(shù)據(jù)實(shí)例與任務(wù)實(shí)例,選取任務(wù)實(shí)例中的任 務(wù)聚類結(jié)果、任務(wù)預(yù)期聚類簇?cái)?shù)和數(shù)據(jù)類中的數(shù)據(jù)量大小、數(shù)據(jù)維度W及數(shù)據(jù)類型,經(jīng)正二 進(jìn)制轉(zhuǎn)換,得到任務(wù)-數(shù)據(jù)實(shí)例;同理,根據(jù)步驟(2)中的聚類算法實(shí)例選取聚類結(jié)果、是 否設(shè)定簇?cái)?shù)、聚類數(shù)據(jù)量大小、聚類數(shù)據(jù)維度W及聚類數(shù)據(jù)類型,經(jīng)正二進(jìn)制轉(zhuǎn)換,得到任 務(wù)-聚類實(shí)例;用余弦相似度法計(jì)算任務(wù)-數(shù)據(jù)實(shí)例與任務(wù)-聚類實(shí)例之間的相似度,并根 據(jù)所得相似度,確定與任務(wù)-數(shù)據(jù)實(shí)例相似度最大的任務(wù)-聚類實(shí)例,選取該任務(wù)-聚類實(shí) 例對(duì)應(yīng)的聚類算法作為第二候選聚類算法;
      [0024] (8)根據(jù)步驟(6)和步驟(7),執(zhí)行第一候選聚類算法與第二候選聚類算法并得到 聚類結(jié)果,利用Dunn聚類算法評(píng)價(jià)指標(biāo)分別對(duì)其聚類結(jié)果進(jìn)行評(píng)價(jià),選取Dunn指標(biāo)值較大 的聚類結(jié)果,呈現(xiàn)給用戶;
      [00巧](9)用戶判斷是否對(duì)所呈現(xiàn)的聚類結(jié)果滿意,若用戶對(duì)聚類結(jié)果滿意,將執(zhí)行本次 任務(wù)生成的任務(wù)事務(wù)存入歷史任務(wù)事務(wù)數(shù)據(jù)庫(kù),并關(guān)聯(lián)此次任務(wù)選取的聚類算法,結(jié)束本 次任務(wù);否則,執(zhí)行步驟(10);
      [002引 (10)重復(fù)執(zhí)行(4)到巧)。
      [0027]上述步驟(2)中的聚類算法的標(biāo)注方法具體是:針對(duì)每個(gè)聚類算法,人工審查聚 類算法的實(shí)現(xiàn)代碼,依據(jù)代碼內(nèi)容,確定聚類算法類中各個(gè)屬性的取值,將所有的屬性值寫 入RDF規(guī)則文件,生成聚類算法實(shí)例。
      [0028] 上述步驟(3)中的聚類數(shù)據(jù)集的標(biāo)注方法具體是:系統(tǒng)根據(jù)用戶上傳的數(shù)據(jù)集, 自動(dòng)執(zhí)行查詢程序,查詢數(shù)據(jù)特征,確定數(shù)據(jù)類中數(shù)據(jù)維度,數(shù)據(jù)量大小W及數(shù)據(jù)類型=個(gè) 屬性的取值,數(shù)據(jù)主題屬性值由人工根據(jù)數(shù)據(jù)集所表示的專業(yè)領(lǐng)域確定;確定各屬性值后, 將所有屬性值寫入RDF規(guī)則文件,生成數(shù)據(jù)實(shí)例。
      [0029] 上述正二進(jìn)制轉(zhuǎn)換的具體方法是:依次處理每個(gè)屬性,對(duì)于布爾型屬性,若值為 真,則對(duì)應(yīng)二進(jìn)制位為1,否則為0 ;對(duì)于枚舉型屬性,每個(gè)枚舉值對(duì)應(yīng)一個(gè)二進(jìn)制位,對(duì)每 個(gè)枚舉值,若屬性取該枚舉值,對(duì)應(yīng)二進(jìn)制位為1,否則為0 ;對(duì)于數(shù)值型屬性,若值為0,則 對(duì)應(yīng)二進(jìn)制位為0,否則為1。
      [0030] 上述步驟妨中所述余弦相似度法的計(jì)算方法為:
      [0031]
      [003引其中,J與云表示兩個(gè)向量,|間|與I同I分別表示2與i的模,Ai與Bi分別表示向 量2與5的第i個(gè)分量,使用cos( 0 )衡量?jī)蓚€(gè)向量的相似性,其值域?yàn)?1到1,-1表示兩 個(gè)向量正好截然相反,1表示兩個(gè)向量完全相同,0通常表示它們之間是獨(dú)立的,位于-1與 1之間的值則表示兩個(gè)向量的相似性。
      [0033] 上述步驟(8)的Dunn指標(biāo)的計(jì)算公式如下:
      [0034]
      [003引其中,Cp表示簇P,聚類結(jié)果中共有m個(gè)簇,d(cP,Cq)是簇Cp與Cq之間的不一致性 度量,表示兩個(gè)簇中差異最小的兩個(gè)點(diǎn)之間的距離,diam(Ck)是簇Ck的直徑,用于度量簇內(nèi) 的離散程度,它的定義如下:
      [0036]
      [0037] X,y表示簇Ck中的點(diǎn),dist(x,y)為點(diǎn)X,y的距離,該式表明,簇Ck的直徑數(shù)值等 于簇內(nèi)距離最大的兩個(gè)點(diǎn)的距離數(shù)值;Dunn指標(biāo)用類間的最大距離和所有類的最大直徑 的比值來判定聚類效果,Dunn指標(biāo)越大,說明聚類效果越好。
      [0038] 本發(fā)明所提供的基于本體的聚類服務(wù)方法,是結(jié)合歷史聚類任務(wù),基于本體進(jìn)行 任務(wù)相似度計(jì)算,W選擇合適的聚類算法,運(yùn)行聚類算法并應(yīng)用評(píng)價(jià)指標(biāo)評(píng)價(jià)聚類算法,最 終向用戶提供最優(yōu)聚類算法的聚類服務(wù)方法。
      [0039] 與現(xiàn)有聚類服務(wù)方法相比,本發(fā)明具有如下優(yōu)點(diǎn):
      [0040] (1)本發(fā)明適用范圍廣泛,不局限于單一應(yīng)用領(lǐng)域;
      [0041] (2)本發(fā)明充分利用歷史聚類任務(wù),W計(jì)算新的聚類任務(wù)所應(yīng)采取的聚類算法;
      [0042] (3)本發(fā)明利用頂層本體,對(duì)聚類任務(wù)、聚類數(shù)據(jù)與聚類算法分別進(jìn)行標(biāo)注,并基 于被標(biāo)注的本體實(shí)例計(jì)算相似度,使聚類算法的選擇過程更準(zhǔn)確。
      [0043] (4)本發(fā)明在選擇并執(zhí)行聚類算法之后,使用聚類評(píng)價(jià)方法對(duì)聚類進(jìn)行評(píng)價(jià),并將 結(jié)果返回給用戶,根據(jù)用戶的反饋選擇完成任務(wù)或繼續(xù)選擇并執(zhí)行聚類算法。
      當(dāng)前第1頁(yè)1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1