国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      公共標(biāo)識(shí)分類(lèi)方法及裝置與流程

      文檔序號(hào):12470081閱讀:192來(lái)源:國(guó)知局
      公共標(biāo)識(shí)分類(lèi)方法及裝置與流程
      本發(fā)明涉及網(wǎng)絡(luò)
      技術(shù)領(lǐng)域
      ,特別涉及一種公共標(biāo)識(shí)分類(lèi)方法及裝置。
      背景技術(shù)
      :互聯(lián)網(wǎng)應(yīng)用作為一個(gè)為智能終端提供語(yǔ)音、視頻、圖片、文字等信息交互服務(wù)的應(yīng)用程序,憑借其可跨通信運(yùn)營(yíng)商、跨操作系統(tǒng)平臺(tái)發(fā)送語(yǔ)音、視頻、圖片和文字等優(yōu)點(diǎn),受到了廣大用戶(hù)的青睞。隨著互聯(lián)網(wǎng)應(yīng)用功能的日臻完善,開(kāi)發(fā)者或商家在互聯(lián)網(wǎng)應(yīng)用平臺(tái)上申請(qǐng)公共標(biāo)識(shí),通過(guò)該公共標(biāo)識(shí),開(kāi)發(fā)者或商家可在互聯(lián)網(wǎng)應(yīng)用平臺(tái)上,基于文字、圖片、語(yǔ)音、視頻等方式,實(shí)現(xiàn)向廣大用戶(hù)全方位地進(jìn)行信息推送、與廣大用戶(hù)進(jìn)行溝通或互動(dòng)等。一般情況下,公共標(biāo)識(shí)在建立時(shí)并沒(méi)有給定其所屬的行業(yè)類(lèi)別,而后續(xù)過(guò)程中為了能夠向用戶(hù)精準(zhǔn)推送多媒體數(shù)據(jù),還需對(duì)公共標(biāo)識(shí)進(jìn)行分類(lèi)?,F(xiàn)有技術(shù)在進(jìn)行公共標(biāo)識(shí)分類(lèi)時(shí),基于監(jiān)督學(xué)習(xí)分類(lèi)模型實(shí)現(xiàn)。具體包括:基于公共標(biāo)識(shí)的描述信息人工建立公共標(biāo)識(shí)類(lèi)目;給定訓(xùn)練樣本,該訓(xùn)練樣本中包括一定數(shù)量的已標(biāo)注公共標(biāo)識(shí),該已標(biāo)注公共標(biāo)識(shí)基于公共標(biāo)識(shí)類(lèi)目人工標(biāo)注完成;對(duì)該訓(xùn)練樣本進(jìn)行特征提取,并根據(jù)提取的特征信息訓(xùn)練出一個(gè)監(jiān)督學(xué)習(xí)分類(lèi)模型。對(duì)于一個(gè)未知類(lèi)別的公共標(biāo)識(shí),在提取其特征信息后,基于該監(jiān)督學(xué)習(xí)分類(lèi)模型給出分類(lèi)結(jié)果。在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問(wèn)題:由于類(lèi)目建立和樣本標(biāo)注均需通過(guò)人工完成,所以消耗了大量的人力,束縛了模型的進(jìn)一步優(yōu)化,對(duì)公眾標(biāo)識(shí)的分類(lèi)效果產(chǎn)生了不良影響。技術(shù)實(shí)現(xiàn)要素:為了解決現(xiàn)有技術(shù)的問(wèn)題,本發(fā)明實(shí)施例提供了一種公共標(biāo)識(shí)分類(lèi)方法及裝置。所述技術(shù)方案如下:一方面,提供了一種公共標(biāo)識(shí)分類(lèi)方法,所述方法包括:確定與用戶(hù)行為關(guān)聯(lián)的多個(gè)公共標(biāo)識(shí),得到公共標(biāo)識(shí)列表;根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量,對(duì)所述公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi),得到多個(gè)聚類(lèi)結(jié)果;基于每一個(gè)公共標(biāo)識(shí)的描述信息,在所述多個(gè)聚類(lèi)結(jié)果中確定聚類(lèi)純凈度大于預(yù)設(shè)閾值的第一類(lèi)聚類(lèi)結(jié)果;根據(jù)所述第一類(lèi)聚類(lèi)結(jié)果,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi),所述第二類(lèi)聚類(lèi)結(jié)果的聚類(lèi)純凈度小于所述預(yù)設(shè)閾值。另一方面,提供了一種公共標(biāo)識(shí)分類(lèi)裝置,所述裝置包括:公共標(biāo)識(shí)確定模塊,用于確定與用戶(hù)行為關(guān)聯(lián)的多個(gè)公共標(biāo)識(shí),得到公共標(biāo)識(shí)列表;公共標(biāo)識(shí)聚類(lèi)模塊,用于根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量,對(duì)所述公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi),得到多個(gè)聚類(lèi)結(jié)果;聚類(lèi)結(jié)果確定模塊,用于基于每一個(gè)公共標(biāo)識(shí)的描述信息,在所述多個(gè)聚類(lèi)結(jié)果中確定聚類(lèi)純凈度大于預(yù)設(shè)閾值的第一類(lèi)聚類(lèi)結(jié)果;公共標(biāo)識(shí)分類(lèi)模塊,用于根據(jù)所述第一類(lèi)聚類(lèi)結(jié)果,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi),所述第二類(lèi)聚類(lèi)結(jié)果的聚類(lèi)純凈度小于所述預(yù)設(shè)閾值。本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果是:在確定與用戶(hù)行為關(guān)聯(lián)的多個(gè)公共標(biāo)識(shí)得到公共標(biāo)識(shí)列表后,根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量對(duì)公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi);基于每一個(gè)公共標(biāo)識(shí)的描述信息,在多個(gè)聚類(lèi)結(jié)果中確定聚類(lèi)純凈度大于預(yù)設(shè)閾值的第一類(lèi)聚類(lèi)結(jié)果;根據(jù)第一類(lèi)聚類(lèi)結(jié)果,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi),由于基于用戶(hù)行為和公共標(biāo)識(shí)的描述信息對(duì)公共標(biāo)識(shí)自動(dòng)進(jìn)行分類(lèi),因此不但無(wú)需人工參與,節(jié)省了大量的人力,而且公共標(biāo)識(shí)的分類(lèi)效果較優(yōu)。附圖說(shuō)明為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實(shí)施例提供的一種公共標(biāo)識(shí)分類(lèi)方法的流程圖;圖2是本發(fā)明實(shí)施例提供的一種公共標(biāo)識(shí)分類(lèi)方法的流程圖;圖3是本發(fā)明實(shí)施例提供的一種skip-gram模型示意圖;圖4是本發(fā)明實(shí)施例提供的一種公共標(biāo)識(shí)分類(lèi)裝置的結(jié)構(gòu)示意圖;圖5是本發(fā)明實(shí)施例提供的一種服務(wù)器的結(jié)構(gòu)示意圖。具體實(shí)施方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。圖1是本發(fā)明實(shí)施例提供的一種公共標(biāo)識(shí)分類(lèi)方法的流程圖。參見(jiàn)圖1,本發(fā)明實(shí)施例提供的方法流程包括:101、確定與用戶(hù)行為關(guān)聯(lián)的多個(gè)公共標(biāo)識(shí),得到公共標(biāo)識(shí)列表。102、根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量,對(duì)公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi),得到多個(gè)聚類(lèi)結(jié)果。103、基于每一個(gè)公共標(biāo)識(shí)的描述信息,在多個(gè)聚類(lèi)結(jié)果中確定聚類(lèi)純凈度大于預(yù)設(shè)閾值的第一類(lèi)聚類(lèi)結(jié)果。104、根據(jù)第一類(lèi)聚類(lèi)結(jié)果,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi),第二類(lèi)聚類(lèi)結(jié)果的聚類(lèi)純凈度小于預(yù)設(shè)閾值。本發(fā)明實(shí)施例提供的方法,在確定與用戶(hù)行為關(guān)聯(lián)的多個(gè)公共標(biāo)識(shí)得到公共標(biāo)識(shí)列表后,根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量對(duì)公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi);基于每一個(gè)公共標(biāo)識(shí)的描述信息,在多個(gè)聚類(lèi)結(jié)果中確定聚類(lèi)純凈度大于預(yù)設(shè)閾值的第一類(lèi)聚類(lèi)結(jié)果;根據(jù)第一類(lèi)聚類(lèi)結(jié)果,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi),由于基于用戶(hù)行為和公共標(biāo)識(shí)的描述信息對(duì)公共標(biāo)識(shí)自動(dòng)進(jìn)行分類(lèi),因此不但無(wú)需人工參與,節(jié)省了大量的人力,而且公共標(biāo)識(shí)的分類(lèi)效果較優(yōu)??蛇x地,根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量,對(duì)公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi)之前,該方法還包括:獲取公共標(biāo)識(shí)列表對(duì)應(yīng)的行為矩陣;根據(jù)行為矩陣,基于特定模型計(jì)算公共標(biāo)識(shí)列表中每一個(gè)公共標(biāo)識(shí)的特征向量。可選地,基于每一個(gè)公共標(biāo)識(shí)的描述信息,在多個(gè)聚類(lèi)結(jié)果中確定聚類(lèi)純凈度大于預(yù)設(shè)閾值的第一類(lèi)聚類(lèi)結(jié)果,包括:對(duì)于一個(gè)聚類(lèi)結(jié)果中每一個(gè)公共標(biāo)識(shí),根據(jù)公共標(biāo)識(shí)的描述信息,計(jì)算公共標(biāo)識(shí)的文本特征信息;對(duì)于每一個(gè)聚類(lèi)結(jié)果,計(jì)算聚類(lèi)結(jié)果中任兩個(gè)公共標(biāo)識(shí)的文本特征信息的相似度平均值,得到聚類(lèi)結(jié)果的聚類(lèi)純凈度;判斷聚類(lèi)結(jié)果的聚類(lèi)純凈度是否大于預(yù)設(shè)閾值;當(dāng)聚類(lèi)結(jié)果的聚類(lèi)純凈度大于預(yù)設(shè)閾值時(shí),將聚類(lèi)結(jié)果確定為第一類(lèi)聚類(lèi)結(jié)果??蛇x地,應(yīng)用如下公式,計(jì)算聚類(lèi)結(jié)果中任兩個(gè)公共標(biāo)識(shí)的文本特征信息的相似度平均值,得到聚類(lèi)結(jié)果的聚類(lèi)純凈度,包括:purityk=1n*nΣi=0nΣj=0nvki*vkj]]>其中,purityk指代第k個(gè)聚類(lèi)結(jié)果的聚類(lèi)純凈度,n指代第k個(gè)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)個(gè)數(shù),vki指代第k個(gè)聚類(lèi)結(jié)果中公共標(biāo)識(shí)i的文本特征信息,vkj指代第k個(gè)聚類(lèi)結(jié)果中公共標(biāo)識(shí)j的文本特征信息??蛇x地,根據(jù)第一類(lèi)聚類(lèi)結(jié)果,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi),包括:根據(jù)第一類(lèi)聚類(lèi)結(jié)果,訓(xùn)練公共標(biāo)識(shí)分類(lèi)模型;通過(guò)公共標(biāo)識(shí)分類(lèi)模型,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi)??蛇x地,根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量,對(duì)公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi),包括:在全部公共標(biāo)識(shí)中,隨機(jī)選取預(yù)設(shè)數(shù)目個(gè)初始聚類(lèi)中心;對(duì)于剩余的每一個(gè)公共標(biāo)識(shí),根據(jù)公共標(biāo)識(shí)和各個(gè)初始聚類(lèi)中心的特征向量,計(jì)算公共標(biāo)識(shí)與各個(gè)初始聚類(lèi)中心在向量空間中的距離;將公共標(biāo)識(shí)分配至距離公共標(biāo)識(shí)最近的初始聚類(lèi)中心;當(dāng)剩余的公共標(biāo)識(shí)分配完畢后,對(duì)于每一個(gè)中間聚類(lèi)結(jié)果,重復(fù)執(zhí)行上述聚類(lèi)過(guò)程,直至滿(mǎn)足聚類(lèi)終止條件。上述所有可選技術(shù)方案,可以采用任意結(jié)合形成本發(fā)明的可選實(shí)施例,在此不再一一贅述。圖2是本發(fā)明實(shí)施例提供的一種公共標(biāo)識(shí)分類(lèi)方法的流程圖。參見(jiàn)圖2,本發(fā)明實(shí)施例提供的方法流程包括:201、確定與用戶(hù)行為關(guān)聯(lián)的多個(gè)公共標(biāo)識(shí),得到公共標(biāo)識(shí)列表。其中,公共標(biāo)識(shí)指代公眾號(hào)。開(kāi)發(fā)者或商家在互聯(lián)網(wǎng)應(yīng)用平臺(tái)上可申請(qǐng)公眾號(hào),通過(guò)該公眾號(hào),開(kāi)發(fā)者或商家可在互聯(lián)網(wǎng)應(yīng)用平臺(tái)上,基于文字、圖片、語(yǔ)音、視頻等方式,實(shí)現(xiàn)向廣大用戶(hù)進(jìn)行信息推送、與廣大用戶(hù)進(jìn)行溝通或互動(dòng)等。用戶(hù)行為可指代用戶(hù)對(duì)公眾號(hào)的關(guān)注行為、訂閱行為等等,本發(fā)明實(shí)施例對(duì)此不進(jìn)行具體限定。也即,與用戶(hù)行為關(guān)聯(lián)的多個(gè)公共標(biāo)識(shí)指代用戶(hù)訂閱的公眾號(hào)或用戶(hù)關(guān)注的公眾號(hào)等。對(duì)于在互聯(lián)網(wǎng)應(yīng)用平臺(tái)上進(jìn)行注冊(cè)的用戶(hù)來(lái)講,在登錄互聯(lián)網(wǎng)應(yīng)用后,均可通過(guò)互聯(lián)網(wǎng)應(yīng)用訂閱或關(guān)注公眾號(hào)等,所以服務(wù)器在確定與用戶(hù)行為關(guān)聯(lián)的多個(gè)公共標(biāo)識(shí)時(shí),是針對(duì)全部注冊(cè)用戶(hù)而言的。也即,得到的公共標(biāo)識(shí)列表中包括海量用戶(hù)訂閱或關(guān)注的海量公眾號(hào)。比如,用戶(hù)A關(guān)注了公眾號(hào)1、公眾號(hào)2及公眾號(hào)3,用戶(hù)B關(guān)注了公號(hào)1,公眾號(hào)4,則上述4個(gè)公眾號(hào)均會(huì)出現(xiàn)在公共標(biāo)識(shí)列表中。進(jìn)一步地,服務(wù)器還可存儲(chǔ)公眾號(hào)與用戶(hù)之間的對(duì)應(yīng)關(guān)系,即記錄某一公眾號(hào)具體被哪些用戶(hù)訂閱或關(guān)注,本發(fā)明實(shí)施例對(duì)此同樣不進(jìn)行具體限定。202、根據(jù)公共標(biāo)識(shí)列表,基于特定模型計(jì)算公共標(biāo)識(shí)列表中每一個(gè)公共標(biāo)識(shí)的特征向量。其中,可為公共標(biāo)識(shí)列表初始化一個(gè)隨機(jī)行為矩陣。其中,隨機(jī)行為矩陣中的每一項(xiàng)可隨機(jī)初始化為[0,1]之間的值。其維度可為幾十維或幾百維等,本發(fā)明實(shí)施例對(duì)初始化數(shù)值大小和維度大小均不進(jìn)行具體限定,可視情況而定。在本發(fā)明實(shí)施例中,特定模型在本發(fā)明實(shí)施例中指代word2vec模型。其中,word2vec模型可以通過(guò)特征學(xué)習(xí)的方法將詞語(yǔ)表示成低維特征空間中的向量。傳統(tǒng)word2vec模型的輸入是一個(gè)文檔,如果文檔中的兩個(gè)詞在一定大小的窗口中出現(xiàn),則將兩個(gè)詞的特征向量調(diào)整的近一些,即表明兩個(gè)詞相似。在本發(fā)明實(shí)施中,我們將公共標(biāo)識(shí)列表看做一個(gè)文檔,公共標(biāo)識(shí)列表中的公共標(biāo)識(shí)看做文檔中的詞,與傳統(tǒng)word2vec模型不同的是,我們將文檔中任意兩個(gè)詞的向量均調(diào)整的靠近一些。其中,word2vec模型可分為下述兩種模型:CBOW(ContinuousBag-of-WordsModel,連續(xù)詞袋)模型和skip-gram模型;CBOW模型簡(jiǎn)單來(lái)講就是上下文決定當(dāng)前詞出現(xiàn)的概率。在CBOW模型中上下文所有的詞對(duì)當(dāng)前詞出現(xiàn)概率的影響的權(quán)重是一樣的。skip-gram模型可如圖3所示,用于根據(jù)當(dāng)前詞預(yù)測(cè)語(yǔ)境。其中,語(yǔ)境指代以某一個(gè)單詞為中心,向前k個(gè)單詞,向后k個(gè)單詞所形成的短語(yǔ)中包含的單詞。在圖3中,根據(jù)當(dāng)前單詞w(t),預(yù)測(cè)向前2個(gè)單詞,w(t-1)、w(t-2),向后2個(gè)單詞,w(t+1)、w(t+2)。以表示當(dāng)前公共標(biāo)識(shí)的特征向量、表示當(dāng)前公共標(biāo)識(shí)的上下文的特征向量。比如,用戶(hù)A關(guān)注了當(dāng)前公共標(biāo)識(shí),則其上下文指代用戶(hù)A關(guān)注的其他公共標(biāo)識(shí)。其中,和是從公共標(biāo)識(shí)列表對(duì)應(yīng)的行為矩陣中得到的,具體可為一個(gè)固定維數(shù)的列向量。以邏輯回歸函數(shù)為f(hk)為例,則f(hk)=exp(hk)exp(hk+1)---(1)]]>其中,hk的值越大,邏輯回歸函數(shù)為f(hk)的值越接近于1,hk的值越小,邏輯回歸函數(shù)為f(hk)的值越接近于0。目標(biāo)函數(shù)的優(yōu)化基于最大似然估計(jì),給定當(dāng)前公共標(biāo)識(shí)和當(dāng)前公共標(biāo)識(shí)的上下文,目標(biāo)函數(shù)的值為maxlog(f(hk)),高于在其他公共標(biāo)識(shí)和當(dāng)前公共標(biāo)識(shí)的上下文的情況。其中,skip-gram模型基于梯度下降算法進(jìn)行優(yōu)化,梯度的計(jì)算方式如下:gradhk=f(hk)-yk---(2)]]>gradCk→=gradhk·Ci→---(3)]]>gradCi→=gradhk·Ck→---(4)]]>其中,yk代表目標(biāo)函數(shù)的值,其中,當(dāng)該第k個(gè)公眾標(biāo)識(shí)為通過(guò)正采樣獲取時(shí),yk=1;當(dāng)該第k個(gè)公眾標(biāo)識(shí)為通過(guò)負(fù)采樣獲取時(shí),yk=0。其中,正采樣為該第k個(gè)公眾標(biāo)識(shí)是通過(guò)從用戶(hù)關(guān)注行為矩陣中提取的,負(fù)采樣為該第k個(gè)公眾標(biāo)識(shí)通過(guò)從預(yù)設(shè)語(yǔ)料庫(kù)所包括的公眾標(biāo)識(shí)中隨機(jī)抽取得到。以代表優(yōu)化后的代表優(yōu)化后的為例,則Ck′→=Ck→+λk·gradCk→---(5)]]>Ci′→=Ci→+λk·gradCi→---(6)]]>其中,λk代表學(xué)習(xí)率,通常選取的經(jīng)驗(yàn)值是0.1,通過(guò)上述公式(5)和(6)便得到當(dāng)前公共標(biāo)識(shí)的特征向量和當(dāng)前公共標(biāo)識(shí)的上下文的特征向量。類(lèi)似地,我們可以得到公共標(biāo)識(shí)列表中每一個(gè)公共標(biāo)識(shí)對(duì)應(yīng)的低維度特征向量。203、根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量,對(duì)公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi),得到多個(gè)聚類(lèi)結(jié)果。在經(jīng)過(guò)word2vec模型后,對(duì)于每一個(gè)公共標(biāo)識(shí)來(lái)說(shuō),均會(huì)得到一個(gè)與其匹配的特征向量,該特征向量為低維特征空間中的向量。也即,word2vec模型輸出的是特征向量。而在得到特征向量后,便可進(jìn)行諸如下述操作:根據(jù)特征向量計(jì)算兩個(gè)公共標(biāo)識(shí)之間的相似度、列出包括所有相似的公共標(biāo)識(shí)額列表、對(duì)公共標(biāo)識(shí)進(jìn)行聚類(lèi)等。在本發(fā)明實(shí)施例中,為了對(duì)公共標(biāo)識(shí)進(jìn)行分類(lèi),在得到每一個(gè)公共標(biāo)識(shí)的特征向量后,對(duì)公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi)。其中,在對(duì)公共標(biāo)識(shí)進(jìn)行聚類(lèi)時(shí)本發(fā)明實(shí)施例采用K-均值算法,具體過(guò)程如下:第一步、在全部公共標(biāo)識(shí)中,隨機(jī)選取預(yù)設(shè)數(shù)目個(gè)初始聚類(lèi)中心。其中,預(yù)設(shè)數(shù)目可為幾十或幾百,本發(fā)明實(shí)施例對(duì)此不進(jìn)行具體限定,可視公共標(biāo)識(shí)的數(shù)量而定。在第一步中,一個(gè)初始聚類(lèi)中心即指代一個(gè)公共標(biāo)識(shí)。第二步、對(duì)于剩余的每一個(gè)公共標(biāo)識(shí),根據(jù)公共標(biāo)識(shí)和各個(gè)初始聚類(lèi)中心的特征向量,計(jì)算公共標(biāo)識(shí)與各個(gè)初始聚類(lèi)中心在向量空間中的距離。其中,剩余的公共標(biāo)識(shí)指代全部公共標(biāo)識(shí)中除預(yù)設(shè)數(shù)目個(gè)初始聚類(lèi)中心之外的其他公共標(biāo)識(shí)。第三步、將該公共標(biāo)識(shí)分配至距離該公共標(biāo)識(shí)最近的初始聚類(lèi)中心。在本發(fā)明實(shí)施例中,兩個(gè)公共標(biāo)識(shí)的特征向量在向量空間中的距離越近,代表兩個(gè)公共標(biāo)識(shí)越相似。所以在進(jìn)行聚類(lèi)時(shí),對(duì)于一個(gè)待分配的公共標(biāo)識(shí)來(lái)說(shuō),依據(jù)向量空間中的距離大小,將其分配至距離其最近的初始聚類(lèi)中心。第四步、當(dāng)剩余的公共標(biāo)識(shí)分配完畢后,對(duì)于每一個(gè)中間聚類(lèi)結(jié)果,重復(fù)執(zhí)行上述聚類(lèi)過(guò)程,直至滿(mǎn)足聚類(lèi)終止條件。其中,聚類(lèi)終止條件可為下述三個(gè)條件之一:沒(méi)有(或最小數(shù)目)公共標(biāo)識(shí)被重新分配給不同的聚類(lèi),或,沒(méi)有(或最小數(shù)目)聚類(lèi)中心再發(fā)生變化,或,誤差平方和局部最小。具體選擇哪一個(gè)條件作為聚類(lèi)終止條件,本發(fā)明實(shí)施例對(duì)此不進(jìn)行具體限定,可視情況而定。在進(jìn)行聚類(lèi)時(shí),初始聚類(lèi)中心以及分配給它們的公共標(biāo)識(shí)就代表一個(gè)聚類(lèi)結(jié)果。當(dāng)根據(jù)上述第一步至第三步完成第一輪的聚類(lèi)后,得到的是中間聚類(lèi)結(jié)果。即,一旦全部公共標(biāo)識(shí)都被分配完畢,每個(gè)聚類(lèi)結(jié)果的聚類(lèi)中心會(huì)根據(jù)聚類(lèi)中現(xiàn)有的公共標(biāo)識(shí)被重新計(jì)算。這個(gè)過(guò)程將不斷重復(fù)直到滿(mǎn)足上述聚類(lèi)終止條件。至此,上述步驟201至步驟203完成了基于用戶(hù)行為的公共標(biāo)識(shí)聚類(lèi)。204、基于每一個(gè)公共標(biāo)識(shí)的描述信息,在多個(gè)聚類(lèi)結(jié)果中確定聚類(lèi)純凈度大于預(yù)設(shè)閾值的第一類(lèi)聚類(lèi)結(jié)果。其中,公共標(biāo)識(shí)的描述信息通常指代用于描述公共標(biāo)識(shí)的文本信息。比如,當(dāng)某一公共標(biāo)識(shí)對(duì)應(yīng)一家餐廳時(shí),那么該描述信息可包括餐廳簡(jiǎn)介、特色菜品、最近優(yōu)惠活動(dòng)、新推菜單等等,本發(fā)明實(shí)施例對(duì)此不進(jìn)行具體限定。聚類(lèi)純凈度用于描述聚類(lèi)結(jié)果的好壞。當(dāng)多個(gè)聚類(lèi)結(jié)果均在描述同一類(lèi)主題,比如兩個(gè)或兩個(gè)以上聚類(lèi)結(jié)果都在描述少兒教育、汽車(chē)等主題,或,一個(gè)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)之間主題相差較大,比如一部分在描述家居用品一部分在描述食品,或,一些聚類(lèi)結(jié)果描述的是跟地域相關(guān)的商場(chǎng)、餐廳等,這些公共標(biāo)識(shí)與地域相關(guān),而跟公共號(hào)類(lèi)目不相關(guān),上述聚類(lèi)結(jié)果的聚類(lèi)純凈度較小,聚類(lèi)效果很差。而當(dāng)某一聚類(lèi)純凈度的數(shù)值較大時(shí),比如大于預(yù)設(shè)閾值,則說(shuō)明聚類(lèi)效果較好。在本發(fā)明實(shí)施例中,聚類(lèi)純凈度的計(jì)算基于公共標(biāo)識(shí)的描述信息得到,聚類(lèi)純凈度的計(jì)算和判定過(guò)程,也即建立一個(gè)公共號(hào)純凈度判定模型的過(guò)程。本發(fā)明實(shí)施例基于該公共號(hào)純凈度判定模型,對(duì)基于用戶(hù)行為的公共標(biāo)識(shí)聚類(lèi)結(jié)果進(jìn)行進(jìn)一步地凈化。其中,在基于每一個(gè)公共標(biāo)識(shí)的描述信息,在多個(gè)聚類(lèi)結(jié)果中確定聚類(lèi)純凈度大于預(yù)設(shè)閾值的第一類(lèi)聚類(lèi)結(jié)果時(shí),可采取下述方式實(shí)現(xiàn):第一步、對(duì)于一個(gè)聚類(lèi)結(jié)果中每一個(gè)公共標(biāo)識(shí),根據(jù)公共標(biāo)識(shí)的描述信息,計(jì)算公共標(biāo)識(shí)的文本特征信息。在本發(fā)明實(shí)施例中,公共標(biāo)識(shí)的文本特征信息可用一定維度的特征向量進(jìn)行表示。其中,維數(shù)大小可視情況而定,本發(fā)明實(shí)施例對(duì)此不進(jìn)行具體限定。在根據(jù)公共標(biāo)識(shí)的描述信息計(jì)算公共標(biāo)識(shí)的文本特征信息時(shí),既可通過(guò)word2vec模型實(shí)現(xiàn),還可通過(guò)其他模型實(shí)現(xiàn),本發(fā)明實(shí)施例對(duì)此同樣不進(jìn)行具體限定。第二步、對(duì)于每一個(gè)聚類(lèi)結(jié)果,計(jì)算該聚類(lèi)結(jié)果中任兩個(gè)公共標(biāo)識(shí)的文本特征信息的相似度平均值,得到聚類(lèi)結(jié)果的聚類(lèi)純凈度。其中,在計(jì)算一個(gè)聚類(lèi)結(jié)果的聚類(lèi)純凈度時(shí),可基于下述公式(7)實(shí)現(xiàn):purityk=1n*nΣi=0nΣj=0nvki*vkj---(7)]]>其中,purityk指代第k個(gè)聚類(lèi)結(jié)果的聚類(lèi)純凈度,k值下限為1,上限為聚類(lèi)結(jié)果的個(gè)數(shù);n指代第k個(gè)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)個(gè)數(shù),vki指代第k個(gè)聚類(lèi)結(jié)果中公共標(biāo)識(shí)i的文本特征信息,vkj指代第k個(gè)聚類(lèi)結(jié)果中公共標(biāo)識(shí)j的文本特征信息。第三步、判斷該聚類(lèi)結(jié)果的聚類(lèi)純凈度是否大于預(yù)設(shè)閾值;當(dāng)該聚類(lèi)結(jié)果的聚類(lèi)純凈度大于預(yù)設(shè)閾值時(shí),將該聚類(lèi)結(jié)果確定為第一類(lèi)聚類(lèi)結(jié)果。其中,第一類(lèi)聚類(lèi)結(jié)果中包括多個(gè)聚類(lèi)純凈度大于預(yù)設(shè)閾值的聚類(lèi)結(jié)果,這些聚類(lèi)結(jié)果統(tǒng)稱(chēng)為第一類(lèi)聚類(lèi)結(jié)果。對(duì)于第一類(lèi)聚類(lèi)結(jié)果而言,聚類(lèi)結(jié)果的主題或語(yǔ)義即代表公共標(biāo)識(shí)的類(lèi)目、聚類(lèi)結(jié)果中包括的公共標(biāo)識(shí)即代表該類(lèi)目下的標(biāo)注樣本。此外,預(yù)設(shè)閾值的大小可基于先驗(yàn)知識(shí)或?qū)嶋H情況分析得出,本發(fā)明實(shí)施例對(duì)此不進(jìn)行具體限定。其中,公共標(biāo)識(shí)的類(lèi)目用于表征公共標(biāo)識(shí)的所屬行業(yè)類(lèi)別。本發(fā)明實(shí)施例通過(guò)后續(xù)不斷的完善,建立的類(lèi)目能夠盡可能全的覆蓋到已有的公共標(biāo)識(shí)和未來(lái)可能會(huì)建立的公共標(biāo)識(shí)。類(lèi)目的設(shè)計(jì)具有層級(jí),且類(lèi)目之間不重合。其中,完善后的類(lèi)目可表示為下述表1的形式。表1一級(jí)類(lèi)目ID一級(jí)類(lèi)目名稱(chēng)二級(jí)類(lèi)目ID二級(jí)類(lèi)目名稱(chēng)6家居601家裝建材6家居602家居服務(wù)6家居603家居家紡6家居604家用電器205、根據(jù)第一類(lèi)聚類(lèi)結(jié)果,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi),第二類(lèi)聚類(lèi)結(jié)果的聚類(lèi)純凈度小于預(yù)設(shè)閾值。在本發(fā)明實(shí)施例中,在多個(gè)聚類(lèi)結(jié)果中確定第一類(lèi)聚類(lèi)結(jié)果后,剩余的聚類(lèi)純凈度小于預(yù)設(shè)閾值的聚類(lèi)結(jié)果,我們稱(chēng)之為第二類(lèi)聚類(lèi)結(jié)果。由于第二類(lèi)聚類(lèi)結(jié)果的聚類(lèi)效果欠佳,而第一類(lèi)聚類(lèi)結(jié)果的聚類(lèi)效果較好,所以我們可根據(jù)第一類(lèi)聚類(lèi)結(jié)果,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi)。也即,首先基于第一類(lèi)聚類(lèi)結(jié)果建立一個(gè)公共標(biāo)識(shí)分類(lèi)模型,之后通過(guò)該公共標(biāo)識(shí)分類(lèi)模型,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi)。由于第一類(lèi)聚類(lèi)結(jié)果中聚類(lèi)結(jié)果的主題或語(yǔ)義對(duì)應(yīng)公共標(biāo)識(shí)類(lèi)目,該聚類(lèi)結(jié)果中的各個(gè)公共標(biāo)識(shí)對(duì)應(yīng)該類(lèi)目下的標(biāo)注樣本,所以建立的公共標(biāo)識(shí)分類(lèi)模型是一個(gè)基于監(jiān)督學(xué)習(xí)的分類(lèi)模型。其中,監(jiān)督學(xué)習(xí)指代利用一組已知類(lèi)別的樣本調(diào)整分類(lèi)器的參數(shù),使其達(dá)到所要求性能的過(guò)程,也稱(chēng)為監(jiān)督訓(xùn)練或有教師學(xué)習(xí)。也即,在初始化公共標(biāo)識(shí)分類(lèi)模型的參數(shù)后,基于第一類(lèi)聚類(lèi)結(jié)果,優(yōu)化公共標(biāo)識(shí)分類(lèi)模型中的各個(gè)參數(shù),得到訓(xùn)練好的公共標(biāo)識(shí)分類(lèi)模型。在訓(xùn)練好公共標(biāo)識(shí)分類(lèi)模型后,對(duì)于第二類(lèi)聚類(lèi)結(jié)果中每一個(gè)公共標(biāo)識(shí)而言,在獲取到其特征向量后,經(jīng)過(guò)該公共標(biāo)識(shí)分類(lèi)模型,便可得到該公共標(biāo)識(shí)所歸屬的類(lèi)目。也即,實(shí)現(xiàn)對(duì)第二類(lèi)聚類(lèi)結(jié)果中全部公共標(biāo)識(shí)的重新分類(lèi)。在對(duì)公共標(biāo)識(shí)進(jìn)行分類(lèi)后,可應(yīng)用于多種場(chǎng)景中,比如可應(yīng)用于個(gè)性化的推薦場(chǎng)景中?;诠矘?biāo)識(shí)的分類(lèi)結(jié)果,我們可在一個(gè)新用戶(hù)沒(méi)有任何歷史行為的情況下進(jìn)行個(gè)性化的多媒體數(shù)據(jù)推送,比如推送廣告、視頻或圖片等等。比如,獲取新用戶(hù)在其他業(yè)務(wù)中的行為信息,比如用戶(hù)關(guān)注過(guò)的或訂閱過(guò)的公共標(biāo)識(shí),基于上述公共標(biāo)識(shí)的類(lèi)別,確定用戶(hù)的興趣點(diǎn),之后基于用戶(hù)的諸如年齡、地域、性別等基本屬性信息,為該新用戶(hù)建立一個(gè)興趣畫(huà)像,從而可在冷啟動(dòng)的情況下給該新用戶(hù)推薦個(gè)性化的多媒體數(shù)據(jù)。本發(fā)明實(shí)施例提供的方法,在確定與用戶(hù)行為關(guān)聯(lián)的多個(gè)公共標(biāo)識(shí)得到公共標(biāo)識(shí)列表后,根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量對(duì)公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi);基于每一個(gè)公共標(biāo)識(shí)的描述信息,在多個(gè)聚類(lèi)結(jié)果中確定聚類(lèi)純凈度大于預(yù)設(shè)閾值的第一類(lèi)聚類(lèi)結(jié)果;根據(jù)第一類(lèi)聚類(lèi)結(jié)果,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi),由于基于用戶(hù)行為和公共標(biāo)識(shí)的描述信息對(duì)公共標(biāo)識(shí)自動(dòng)進(jìn)行分類(lèi),因此不但無(wú)需人工參與,節(jié)省了大量的人力,而且公共標(biāo)識(shí)的分類(lèi)效果較優(yōu)。圖4是本發(fā)明實(shí)施例提供的一種公共標(biāo)識(shí)分類(lèi)裝置的結(jié)構(gòu)示意圖。參見(jiàn)圖4,該裝置包括:公共標(biāo)識(shí)確定模塊401、公共標(biāo)識(shí)聚類(lèi)模塊402、聚類(lèi)結(jié)果確定模塊403、公共標(biāo)識(shí)分類(lèi)模塊404。其中,公共標(biāo)識(shí)確定模塊401與公共標(biāo)識(shí)聚類(lèi)模塊402連接,用于確定與用戶(hù)行為關(guān)聯(lián)的多個(gè)公共標(biāo)識(shí),得到公共標(biāo)識(shí)列表;公共標(biāo)識(shí)聚類(lèi)模塊402與聚類(lèi)結(jié)果確定模塊403連接,用于根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量,對(duì)公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi),得到多個(gè)聚類(lèi)結(jié)果;聚類(lèi)結(jié)果確定模塊403與公共標(biāo)識(shí)分類(lèi)模塊404連接,用于基于每一個(gè)公共標(biāo)識(shí)的描述信息,在多個(gè)聚類(lèi)結(jié)果中確定聚類(lèi)純凈度大于預(yù)設(shè)閾值的第一類(lèi)聚類(lèi)結(jié)果;公共標(biāo)識(shí)分類(lèi)模塊404,用于根據(jù)第一類(lèi)聚類(lèi)結(jié)果,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi),第二類(lèi)聚類(lèi)結(jié)果的聚類(lèi)純凈度小于預(yù)設(shè)閾值??蛇x地,該裝置還包括:行為矩陣獲取模塊,用于獲取公共標(biāo)識(shí)列表對(duì)應(yīng)的行為矩陣;特征向量計(jì)算模塊,用于根據(jù)行為矩陣,基于特定模型計(jì)算公共標(biāo)識(shí)列表中每一個(gè)公共標(biāo)識(shí)的特征向量??蛇x地,聚類(lèi)結(jié)果確定模塊,用于對(duì)于一個(gè)聚類(lèi)結(jié)果中每一個(gè)公共標(biāo)識(shí),根據(jù)公共標(biāo)識(shí)的描述信息,計(jì)算公共標(biāo)識(shí)的文本特征信息;對(duì)于每一個(gè)聚類(lèi)結(jié)果,計(jì)算聚類(lèi)結(jié)果中任兩個(gè)公共標(biāo)識(shí)的文本特征信息的相似度平均值,得到聚類(lèi)結(jié)果的聚類(lèi)純凈度;判斷聚類(lèi)結(jié)果的聚類(lèi)純凈度是否大于預(yù)設(shè)閾值;當(dāng)聚類(lèi)結(jié)果的聚類(lèi)純凈度大于預(yù)設(shè)閾值時(shí),將聚類(lèi)結(jié)果確定為第一類(lèi)聚類(lèi)結(jié)果??蛇x地,聚類(lèi)結(jié)果確定模塊,用于應(yīng)用如下公式,計(jì)算聚類(lèi)結(jié)果中任兩個(gè)公共標(biāo)識(shí)的文本特征信息的相似度平均值,得到聚類(lèi)結(jié)果的聚類(lèi)純凈度:purityk=1n*nΣi=0nΣj=0nvki*vkj]]>其中,purityk指代第k個(gè)聚類(lèi)結(jié)果的聚類(lèi)純凈度,n指代第k個(gè)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)個(gè)數(shù),vki指代第k個(gè)聚類(lèi)結(jié)果中公共標(biāo)識(shí)i的文本特征信息,vkj指代第k個(gè)聚類(lèi)結(jié)果中公共標(biāo)識(shí)j的文本特征信息。可選地,公共標(biāo)識(shí)分類(lèi)模塊,用于根據(jù)第一類(lèi)聚類(lèi)結(jié)果,訓(xùn)練公共標(biāo)識(shí)分類(lèi)模型;通過(guò)公共標(biāo)識(shí)分類(lèi)模型,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi)。可選地,公共標(biāo)識(shí)聚類(lèi)模塊,用于在全部公共標(biāo)識(shí)中,隨機(jī)選取預(yù)設(shè)數(shù)目個(gè)初始聚類(lèi)中心;對(duì)于剩余的每一個(gè)公共標(biāo)識(shí),根據(jù)公共標(biāo)識(shí)和各個(gè)初始聚類(lèi)中心的特征向量,計(jì)算公共標(biāo)識(shí)與各個(gè)初始聚類(lèi)中心在向量空間中的距離;將公共標(biāo)識(shí)分配至距離公共標(biāo)識(shí)最近的初始聚類(lèi)中心;當(dāng)剩余的公共標(biāo)識(shí)分配完畢后,對(duì)于每一個(gè)中間聚類(lèi)結(jié)果,重復(fù)執(zhí)行上述聚類(lèi)過(guò)程,直至滿(mǎn)足聚類(lèi)終止條件。本發(fā)明實(shí)施例提供的裝置,在確定與用戶(hù)行為關(guān)聯(lián)的多個(gè)公共標(biāo)識(shí)得到公共標(biāo)識(shí)列表后,根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量對(duì)公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi);基于每一個(gè)公共標(biāo)識(shí)的描述信息,在多個(gè)聚類(lèi)結(jié)果中確定聚類(lèi)純凈度大于預(yù)設(shè)閾值的第一類(lèi)聚類(lèi)結(jié)果;根據(jù)第一類(lèi)聚類(lèi)結(jié)果,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi),由于基于用戶(hù)行為和公共標(biāo)識(shí)的描述信息對(duì)公共標(biāo)識(shí)自動(dòng)進(jìn)行分類(lèi),因此不但無(wú)需人工參與,節(jié)省了大量的人力,而且公共標(biāo)識(shí)的分類(lèi)效果較優(yōu)。需要說(shuō)明的是:上述實(shí)施例提供的公共標(biāo)識(shí)分類(lèi)裝置在進(jìn)行公共標(biāo)識(shí)分類(lèi)時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說(shuō)明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供的公共標(biāo)識(shí)分類(lèi)裝置與公共標(biāo)識(shí)分類(lèi)方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過(guò)程詳見(jiàn)方法實(shí)施例,這里不再贅述。圖5是根據(jù)一示例性實(shí)施例示出的一種服務(wù)器,該服務(wù)器可以用于實(shí)施上述任一示例性實(shí)施例示出的文本圖片檢測(cè)方法。具體來(lái)講:參見(jiàn)圖5,該服務(wù)器500可因配置或性能不同而產(chǎn)生比較大的差異,可以包括一個(gè)或一個(gè)以上中央處理器(CentralProcessingUnit,CPU)522(例如,一個(gè)或一個(gè)以上處理器)和存儲(chǔ)器532,一個(gè)或一個(gè)以上存儲(chǔ)應(yīng)用程序542或數(shù)據(jù)544的存儲(chǔ)介質(zhì)530(例如一個(gè)或一個(gè)以上海量存儲(chǔ)設(shè)備)。其中,存儲(chǔ)器532和存儲(chǔ)介質(zhì)530可以是短暫存儲(chǔ)或持久存儲(chǔ)。存儲(chǔ)在存儲(chǔ)介質(zhì)530的程序可以包括一個(gè)或一個(gè)以上模塊(圖示沒(méi)標(biāo)出)。服務(wù)器500還可以包括一個(gè)或一個(gè)以上電源526,一個(gè)或一個(gè)以上有線或無(wú)線網(wǎng)絡(luò)接口550,一個(gè)或一個(gè)以上輸入輸出接口558,和/或,一個(gè)或一個(gè)以上操作系統(tǒng)541,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,F(xiàn)reeBSDTM等等。一個(gè)或者一個(gè)以上程序存儲(chǔ)于存儲(chǔ)器中,且經(jīng)配置以由一個(gè)或者一個(gè)以上處理器執(zhí)行,一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:確定與用戶(hù)行為關(guān)聯(lián)的多個(gè)公共標(biāo)識(shí),得到公共標(biāo)識(shí)列表;根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量,對(duì)公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi),得到多個(gè)聚類(lèi)結(jié)果;基于每一個(gè)公共標(biāo)識(shí)的描述信息,在多個(gè)聚類(lèi)結(jié)果中確定聚類(lèi)純凈度大于預(yù)設(shè)閾值的第一類(lèi)聚類(lèi)結(jié)果;根據(jù)第一類(lèi)聚類(lèi)結(jié)果,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi),第二類(lèi)聚類(lèi)結(jié)果的聚類(lèi)純凈度小于預(yù)設(shè)閾值??蛇x地,根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量,對(duì)公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi)之前,該方法還包括:獲取公共標(biāo)識(shí)列表對(duì)應(yīng)的行為矩陣;根據(jù)行為矩陣,基于特定模型計(jì)算公共標(biāo)識(shí)列表中每一個(gè)公共標(biāo)識(shí)的特征向量??蛇x地,基于每一個(gè)公共標(biāo)識(shí)的描述信息,在多個(gè)聚類(lèi)結(jié)果中確定聚類(lèi)純凈度大于預(yù)設(shè)閾值的第一類(lèi)聚類(lèi)結(jié)果,包括:對(duì)于一個(gè)聚類(lèi)結(jié)果中每一個(gè)公共標(biāo)識(shí),根據(jù)公共標(biāo)識(shí)的描述信息,計(jì)算公共標(biāo)識(shí)的文本特征信息;對(duì)于每一個(gè)聚類(lèi)結(jié)果,計(jì)算聚類(lèi)結(jié)果中任兩個(gè)公共標(biāo)識(shí)的文本特征信息的相似度平均值,得到聚類(lèi)結(jié)果的聚類(lèi)純凈度;判斷聚類(lèi)結(jié)果的聚類(lèi)純凈度是否大于預(yù)設(shè)閾值;當(dāng)聚類(lèi)結(jié)果的聚類(lèi)純凈度大于預(yù)設(shè)閾值時(shí),將聚類(lèi)結(jié)果確定為第一類(lèi)聚類(lèi)結(jié)果??蛇x地,應(yīng)用如下公式,計(jì)算聚類(lèi)結(jié)果中任兩個(gè)公共標(biāo)識(shí)的文本特征信息的相似度平均值,得到聚類(lèi)結(jié)果的聚類(lèi)純凈度,包括:purityk=1n*nΣi=0nΣj=0nvki*vkj]]>其中,purityk指代第k個(gè)聚類(lèi)結(jié)果的聚類(lèi)純凈度,n指代第k個(gè)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)個(gè)數(shù),vki指代第k個(gè)聚類(lèi)結(jié)果中公共標(biāo)識(shí)i的文本特征信息,vkj指代第k個(gè)聚類(lèi)結(jié)果中公共標(biāo)識(shí)j的文本特征信息??蛇x地,根據(jù)第一類(lèi)聚類(lèi)結(jié)果,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi),包括:根據(jù)第一類(lèi)聚類(lèi)結(jié)果,訓(xùn)練公共標(biāo)識(shí)分類(lèi)模型;通過(guò)公共標(biāo)識(shí)分類(lèi)模型,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi)??蛇x地,根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量,對(duì)公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi),包括:在全部公共標(biāo)識(shí)中,隨機(jī)選取預(yù)設(shè)數(shù)目個(gè)初始聚類(lèi)中心;對(duì)于剩余的每一個(gè)公共標(biāo)識(shí),根據(jù)公共標(biāo)識(shí)和各個(gè)初始聚類(lèi)中心的特征向量,計(jì)算公共標(biāo)識(shí)與各個(gè)初始聚類(lèi)中心在向量空間中的距離;將公共標(biāo)識(shí)分配至距離公共標(biāo)識(shí)最近的初始聚類(lèi)中心;當(dāng)剩余的公共標(biāo)識(shí)分配完畢后,對(duì)于每一個(gè)中間聚類(lèi)結(jié)果,重復(fù)執(zhí)行上述聚類(lèi)過(guò)程,直至滿(mǎn)足聚類(lèi)終止條件。本發(fā)明實(shí)施例提供的服務(wù)器,在確定與用戶(hù)行為關(guān)聯(lián)的多個(gè)公共標(biāo)識(shí)得到公共標(biāo)識(shí)列表后,根據(jù)每一個(gè)公共標(biāo)識(shí)的特征向量對(duì)公共標(biāo)識(shí)列表中的全部公共標(biāo)識(shí)進(jìn)行聚類(lèi);基于每一個(gè)公共標(biāo)識(shí)的描述信息,在多個(gè)聚類(lèi)結(jié)果中確定聚類(lèi)純凈度大于預(yù)設(shè)閾值的第一類(lèi)聚類(lèi)結(jié)果;根據(jù)第一類(lèi)聚類(lèi)結(jié)果,對(duì)第二類(lèi)聚類(lèi)結(jié)果中的公共標(biāo)識(shí)重新進(jìn)行分類(lèi),由于基于用戶(hù)行為和公共標(biāo)識(shí)的描述信息對(duì)公共標(biāo)識(shí)自動(dòng)進(jìn)行分類(lèi),因此不但無(wú)需人工參與,節(jié)省了大量的人力,而且公共標(biāo)識(shí)的分類(lèi)效果較優(yōu)。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過(guò)硬件來(lái)完成,也可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤(pán)或光盤(pán)等。以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁(yè)1 2 3 
      當(dāng)前第1頁(yè)1 2 3 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1