国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于聚類的大規(guī)模多標(biāo)簽分類方法

      文檔序號:9376299閱讀:614來源:國知局
      基于聚類的大規(guī)模多標(biāo)簽分類方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明實(shí)施例涉及數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種基于聚類的大規(guī)模多標(biāo)簽分類方法。
      【背景技術(shù)】
      [0002]SVM(Support Vector Machine)是目前使用最廣泛的分類器之一。SVM可以解決的基本問題是二分類問題。它的根本思想是通過凸優(yōu)化算法從訓(xùn)練數(shù)據(jù)中找到一個或者一組可以將兩類數(shù)據(jù)分開的超平面。從而在預(yù)測時,就可以通過這組超平面來判斷預(yù)測數(shù)據(jù)屬于哪一類。對于多標(biāo)簽分類問題,SVM需要針對每一個標(biāo)簽建立一個二分類器用于判定當(dāng)前預(yù)測數(shù)據(jù)是否包含這個標(biāo)簽。
      [0003]因此,如果數(shù)據(jù)中有N個標(biāo)簽,需要建立N個SVM 二分類器。當(dāng)N很大時(目前的數(shù)據(jù)通常有10000甚至100000個標(biāo)簽),對于每一個標(biāo)簽訓(xùn)練一個二分類器效率很低。

      【發(fā)明內(nèi)容】

      [0004]本發(fā)明實(shí)施例提供一種基于聚類的大規(guī)模多標(biāo)簽分類方法,以克服現(xiàn)有技術(shù)中適用于規(guī)模較小的分類問題,不能解決大規(guī)模標(biāo)簽分類的技術(shù)問題。
      [0005]本發(fā)明實(shí)施例的基于聚類的大規(guī)模多標(biāo)簽分類方法,包括:
      [0006]建立分類模型;
      [0007]根據(jù)已知的訓(xùn)練數(shù)據(jù)的特征數(shù)據(jù)和標(biāo)簽,采用Kmeans算法對所述標(biāo)簽進(jìn)行聚類,并根據(jù)聚類后標(biāo)簽訓(xùn)練所述分類模型;
      [0008]采用所述訓(xùn)練后的分類模型預(yù)測數(shù)據(jù)包含的標(biāo)簽。
      [0009]進(jìn)一步地,所述根據(jù)已知的訓(xùn)練數(shù)據(jù)的特征數(shù)據(jù)和標(biāo)簽,采用Kmeans算法對所述標(biāo)簽進(jìn)行聚類,并根據(jù)聚類后標(biāo)簽訓(xùn)練所述分類模型,包括:
      [0010]根據(jù)訓(xùn)練數(shù)據(jù)的數(shù)據(jù)個數(shù)、特征數(shù)據(jù)以及標(biāo)簽得到特征矩陣和標(biāo)簽矩陣;
      [0011]根據(jù)所述特征矩陣和標(biāo)簽矩陣計(jì)算所述訓(xùn)練數(shù)據(jù)的標(biāo)簽向量;
      [0012]根據(jù)所述標(biāo)簽向量,采用Kmeans算法將所述標(biāo)簽聚類為若干簇,并將所述標(biāo)簽對應(yīng)的訓(xùn)練數(shù)據(jù)分發(fā)到所述若干簇中;
      [0013]分別根據(jù)分發(fā)后的訓(xùn)練數(shù)據(jù)采用梯度下降法訓(xùn)練子分類器;
      [0014]保存訓(xùn)練后的模型,所述模型包括若干個子分類器和若干個中心點(diǎn)。
      [0015]進(jìn)一步地,所述根據(jù)所述特征矩陣和標(biāo)簽矩陣計(jì)算所述訓(xùn)練數(shù)據(jù)的標(biāo)簽向量,包括:
      [0016]計(jì)算所述標(biāo)簽矩陣中任一標(biāo)簽對應(yīng)的所有特征向量的平均值,得到所述訓(xùn)練數(shù)據(jù)的標(biāo)簽向量;
      [0017]所述并將所述標(biāo)簽對應(yīng)的訓(xùn)練數(shù)據(jù)分發(fā)到所述若干簇中,包括:
      [0018]計(jì)算所述訓(xùn)練數(shù)據(jù)的標(biāo)簽被所述若干簇覆蓋的個數(shù);
      [0019]將所述訓(xùn)練數(shù)據(jù)分發(fā)給所述覆蓋個數(shù)最大的簇。
      [0020]進(jìn)一步地,所述將所述訓(xùn)練數(shù)據(jù)分發(fā)給所述覆蓋個數(shù)最大的簇,包括:
      [0021]若所述覆蓋個數(shù)最大的簇為至少兩個,則將所述訓(xùn)練數(shù)據(jù)分發(fā)至中心點(diǎn)至所述訓(xùn)練數(shù)據(jù)之間的歐幾里得距離最小的簇;
      [0022]將所述訓(xùn)練數(shù)據(jù)中與所述距離最小的簇不同的標(biāo)簽過濾掉。
      [0023]進(jìn)一步地,所述采用所述訓(xùn)練后的模型預(yù)測數(shù)據(jù)包含的標(biāo)簽,包括:
      [0024]將所述預(yù)測數(shù)據(jù)進(jìn)行預(yù)處理,得到特征矩陣;
      [0025]計(jì)算所述特征向量與所述若干個中心點(diǎn)之間的歐幾里得距離;
      [0026]將所述預(yù)測數(shù)據(jù)分發(fā)到所述歐幾里得距離中最小的簇;
      [0027]根據(jù)所述距離最小簇對應(yīng)的子分類器對所述預(yù)測數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測。
      [0028]本發(fā)明實(shí)施例,建立分類模型,并根據(jù)已知的訓(xùn)練數(shù)據(jù)的特征數(shù)據(jù)和標(biāo)簽采用Kmeans算法對標(biāo)簽進(jìn)行聚類,聚類后的標(biāo)簽用于訓(xùn)練所述分類模型,訓(xùn)練后的分類模型用于預(yù)測數(shù)據(jù)包含的標(biāo)簽,解決了的現(xiàn)有技術(shù)中訓(xùn)練數(shù)據(jù)過程和預(yù)測標(biāo)簽過程慢的問題,提高了工作效率。
      【附圖說明】
      [0029]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
      [0030]圖1為本發(fā)明基于聚類的大規(guī)模多標(biāo)簽分類方法流程圖;
      [0031]圖2為本發(fā)明基于聚類的大規(guī)模多標(biāo)簽分類方法訓(xùn)練流程圖。
      【具體實(shí)施方式】
      [0032]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
      [0033]圖1為本發(fā)明基于聚類的大規(guī)模多標(biāo)簽分類方法流程圖,如圖1所示,本實(shí)施例方法,包括:
      [0034]步驟101、建立分類模型;
      [0035]步驟102、根據(jù)已知的訓(xùn)練數(shù)據(jù)的特征數(shù)據(jù)和標(biāo)簽,采用Kmeans算法對所述標(biāo)簽進(jìn)行聚類,并根據(jù)聚類后的每簇標(biāo)簽訓(xùn)練所述分類模型;
      [0036]步驟103、采用所述訓(xùn)練后的分類模型預(yù)測數(shù)據(jù)包含的標(biāo)簽。
      [0037]進(jìn)一步地,所述根據(jù)已知的訓(xùn)練數(shù)據(jù)的特征數(shù)據(jù)和標(biāo)簽,采用Kmeans算法對所述標(biāo)簽進(jìn)行聚類,并對聚類后標(biāo)簽訓(xùn)練所述分類模型,包括:
      [0038]根據(jù)訓(xùn)練數(shù)據(jù)的數(shù)據(jù)個數(shù)、特征數(shù)據(jù)以及標(biāo)簽得到特征矩陣和標(biāo)簽矩陣;
      [0039]根據(jù)所述特征矩陣和標(biāo)簽矩陣計(jì)算所述訓(xùn)練數(shù)據(jù)的標(biāo)簽向量;
      [0040]根據(jù)所述標(biāo)簽向量,采用Kmeans算法將所述標(biāo)簽聚類為若干簇,并將所述標(biāo)簽對應(yīng)的訓(xùn)練數(shù)據(jù)分發(fā)到所述若干簇中;
      [0041]分別根據(jù)分發(fā)后的訓(xùn)練數(shù)據(jù)采用梯度下降法訓(xùn)練子分類器;
      [0042]保存訓(xùn)練后的模型,所述模型包括若干個子分類器和若干個中心點(diǎn)。
      [0043]進(jìn)一步地,所述根據(jù)所述特征矩陣和標(biāo)簽矩陣計(jì)算所述訓(xùn)練數(shù)據(jù)的標(biāo)簽向量,包括:
      [0044]計(jì)算所述標(biāo)簽矩陣中任一標(biāo)簽對應(yīng)的所有特征向量的平均值,得到所述訓(xùn)練數(shù)據(jù)的標(biāo)簽向量;
      [0045]所述并將所述標(biāo)簽對應(yīng)的訓(xùn)練數(shù)據(jù)分發(fā)到所述若干簇中,包括:
      [0046]計(jì)算所述訓(xùn)練數(shù)據(jù)的標(biāo)簽被所述若干簇覆蓋的個數(shù);
      [0047]將所述訓(xùn)練數(shù)據(jù)分發(fā)給所述覆蓋個數(shù)最大的簇。
      [0048]進(jìn)一步
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1