元素之間連接邊的權(quán)值。然后利用主題模型算法(Topicmodeling)基于該矩陣 進行聚類。
[0080] 通過主題模型算法可以得到聚類為群組類別的各個群組,以及聚類為用戶類別的 各個用戶。其中群組類別為群組所對應(yīng)的類別,用戶類別為用戶所對應(yīng)的類別。比如聚類 為群組類別1的群組包括群組1、群組2和群組5,聚類為群組類別2的群組包括群組3、群 組4和群組6 ;聚類為用戶類別1的用戶2、用戶4、用戶5和用戶7,聚類為用戶類別2的用 戶1、用戶3、用戶6和用戶8等。
[0081] 208,計算聚類后屬于同一個初始類別的對象的數(shù)目;
[0082] 聚類后,每一種聚類類別中可以包含很多對象,這些對象在經(jīng)過步驟203時已經(jīng) 確定了初始類別,此時則可以統(tǒng)計該聚類類別中每個初始類別所對應(yīng)的對象的數(shù)目。
[0083] 209,將數(shù)目最多的初始類別確定為擴散類別;
[0084] 210,將聚類后其他各個對象的類別均確定為擴散類別。
[0085] 很顯然,在一種可能的實現(xiàn)方式中,可以將聚類后其他各個對象的類別均增加該 擴散類別,也可以將聚類后其他各個對象的類別均替換為擴散類別。
[0086]舉例來講,聚類類別為"籃球",該聚類類別中包含有20個群組,其中有16個群組 的初始類別為"籃球",3個群組的初始類別為"排球",1個群組的初始類別為"網(wǎng)球"。此時 則可以將初始類別"籃球"確定為擴散類別。然后將初始類別為"排球"的群組以及初始類 別為"網(wǎng)球"的群組的類別均增加一個"籃球"類別,或者將初始類別為"排球"的群組以及 初始類別為"網(wǎng)球"的群組的類別均替換為"籃球"類別。
[0087] 綜上所述,本發(fā)明實施例中提供的基于社交網(wǎng)絡(luò)的對象分類方法,通過將對象的 特征信息表示成語義向量,將該語義向量輸入預(yù)定分類器,得到對象被分類后的初始類別; 解決了現(xiàn)有技術(shù)中由于用戶信息和群組信息有數(shù)億的規(guī)模,空間向量的維度非常大,導(dǎo)致 計算的時間復(fù)雜度與空間復(fù)雜度都非常大,甚至還會嚴重損害到向量空間模型的處理效率 以及性能的問題;由于語義向量是用于反映各個分詞在特征信息中同時出現(xiàn)時的相關(guān)性特 征的向量,因此語義向量的維度遠小于空間向量的維度,達到了可以大大降低計算的復(fù)雜 度,提高向量空間模型的處理效率以及性能的效果。
[0088]請參見圖3所示,其示出了本發(fā)明一個實施例中提供的基于社交網(wǎng)絡(luò)的對象分類 裝置的結(jié)構(gòu)示意圖。該基于社交網(wǎng)絡(luò)的對象分類裝置可以應(yīng)用于服務(wù)器或其他需要進行分 類的設(shè)備中。該基于社交網(wǎng)絡(luò)的對象分類裝置可以包括:第一獲取模塊302、表示模塊304 和分類模塊306。
[0089]第一獲取模塊302,可以用于獲取對象的特征信息;
[0090]表示模塊304,可以用于將特征信息表示成語義向量,語義向量用于反映各個分詞 在特征信息中同時出現(xiàn)時的相關(guān)性特征;
[0091] 分類模塊306,可以用于將對象的特征信息的語義向量輸入預(yù)定分類器,得到對象 被分類后的初始類別。
[0092] 綜上所述,本發(fā)明實施例中提供的基于社交網(wǎng)絡(luò)的對象分類裝置,通過將對象的 特征信息表示成語義向量,將該語義向量輸入預(yù)定分類器,得到對象被分類后的初始類別; 解決了現(xiàn)有技術(shù)中由于用戶信息和群組信息有數(shù)億的規(guī)模,空間向量的維度非常大,導(dǎo)致 計算的時間復(fù)雜度與空間復(fù)雜度都非常大,甚至還會嚴重損害到向量空間模型的處理效率 以及性能的問題;由于語義向量是用于反映各個分詞在特征信息中同時出現(xiàn)時的相關(guān)性特 征的向量,因此語義向量的維度遠小于空間向量的維度,達到了可以大大降低計算的復(fù)雜 度,提高向量空間模型的處理效率以及性能的效果。
[0093]請參見圖4所示,其示出了本發(fā)明另一個實施例中提供的基于社交網(wǎng)絡(luò)的對象分 類裝置的結(jié)構(gòu)示意圖。該基于社交網(wǎng)絡(luò)的對象分類裝置可以應(yīng)用于服務(wù)器或其他需要進 行分類的設(shè)備中。該基于社交網(wǎng)絡(luò)的對象分類裝置可以包括:第一獲取模塊402、表示模塊 404和分類模塊406。
[0094]第一獲取模塊402,可以用于獲取對象的特征信息;
[0095]表示模塊404,可以用于將特征信息表示成語義向量,語義向量用于反映各個分詞 在特征信息中同時出現(xiàn)時的相關(guān)性特征;
[0096] 分類模塊406,可以用于將對象的特征信息的語義向量輸入預(yù)定分類器,得到對象 被分類后的初始類別。
[0097] 在圖4所示實施例中的第一種可能的實現(xiàn)方式中,該基于社交網(wǎng)絡(luò)的對象分類裝 置還可以包括:第一確定模塊408、組成模塊410、構(gòu)造模塊412和聚類模塊414。
[0098] 第一確定模塊408,可以用于對于每個對象,利用對象的特征信息的語義向量,確 定與對象對應(yīng)的預(yù)定個數(shù)相似對象;
[0099] 組成模塊410,可以用于將對象分別與各個相似對象組成對象對;
[0100] 構(gòu)造模塊412,可以用于利用組成模塊410組成的對象對以及群組與群組中的用 戶之間的對應(yīng)關(guān)系構(gòu)造二分圖;
[0101] 聚類模塊414,可以用于利用主題模型算法對二分圖中的對象進行聚類;
[0102] 其中,二分圖包含至少一組由第一元素和第二元素組成的對應(yīng)關(guān)系,當對應(yīng)關(guān)系 的第一元素為一個群組時,則第二元素為群組中的一個用戶或為與群組在同一組對象對的 群組,或,當對應(yīng)關(guān)系的第一元素為用戶時,則第二元素為與用戶在同一組對象對的用戶。
[0103] 在圖4所示實施例中的第二種可能的實現(xiàn)方式中,該基于社交網(wǎng)絡(luò)的對象分類裝 置還可以包括:計算模塊416、第二確定模塊418和第三確定模塊420。
[0104] 計算模塊416,可以用于計算聚類后屬于同一個初始類別的對象的數(shù)目;
[0105] 第二確定模塊418,可以用于將計算模塊416計算出的數(shù)目最多的初始類別確定 為擴散類別;
[0106] 第三確定模塊420,可以用于將聚類后其他各個對象的類別均確定為擴散類別。
[0107] 在圖4所示實施例中的第三種可能的實現(xiàn)方式中,第一確定模塊408可以包括:計 算單元408a、排序單元408b和確定單元408c。
[0108] 計算單元408a,可以用于利用對象的特征信息的語義向量,計算對象與其他同類 型對象之間的相似度;
[0109] 排序單元408b,可以用于按照計算單元408a計算得到的相似度由高到低排序同 類型對象;
[0110] 確定單元408c,可以用于依次從排序后的同類型對象中選取預(yù)定個數(shù)對象,將選 取出的預(yù)定個數(shù)對象確定為對象的相似對象。
[0111] 在圖4所示實施例中的第四種可能的實現(xiàn)方式中,計算單元408a可以包括:計算 子單元408al和確定子單元408a2。
[0112] 計算子單元408al,可以用于計算對象的語義向量與其他同類型對象的語義向量 之間的余弦夾角值;
[0113] 確定子單元408a2,可以用于將計算子單元408al計算得到的余弦夾角值確定為 相似度。
[0114] 在圖4所示實施例中的第五種可能的實現(xiàn)方式中,該基于社交網(wǎng)絡(luò)的對象分類裝 置還可以包括:第二獲取模塊422和歸類模塊424。
[0115] 第二獲取模塊422,可以用于獲取對象在被預(yù)定分類器分類時所確定的置信度 值;
[0116] 歸類模塊424,可以用于當置信度值大于預(yù)定置信度閾值時,將置信度值所對應(yīng)的 對象歸類為分類器所確定的類別。
[0117] 在圖4所示實施例中的第六種可能的實現(xiàn)方式中,表示模塊404可以包括:統(tǒng)計單 元404a、求解單元404b和相加單元404c。
[0118] 統(tǒng)計單元404a,可以用于利用預(yù)存的語料庫,統(tǒng)計出分詞在預(yù)定個數(shù)指定分詞后 出現(xiàn)的概率,分詞以及預(yù)定個數(shù)指定分詞構(gòu)成特征信息;
[0119] 求解單元404b,可以用于利用反向傳播算法求解預(yù)定數(shù)學模型,得到特征信息中 各個分詞的語義向量;
[0120] 相加單元404c,可以用于將同一個特征信息中各個分詞的語義向量相加后歸一 化,得到特征信息的語義向量。
[0121] 在圖4所示實施例中的第七種可能的實現(xiàn)方式中,該預(yù)定數(shù)學模型可以為:
[0122] y=softmax(U?tanh(Hx+d)+ffx+b),
[0123] 其中,y為分詞在各個特征信息中出現(xiàn)的概率所組成的矩陣,x是各個特征信息中 的預(yù)定個數(shù)指定分詞的語義向量首尾相接得到的向量,d和b為偏置項,tanh和softmax均 為激活函數(shù),U是預(yù)定數(shù)學模型的隱含層到輸出層的參數(shù),W是從預(yù)定數(shù)學模型的輸入層直 接到輸出層的線性變換。
[0124] 綜上所述,本發(fā)明實施例中提供的基于社交網(wǎng)絡(luò)的對象分類裝置,通過將對象的 特征信息表示成語義向量,將該語義向量輸入預(yù)定分類器,得到對象被分類后的初始類別; 解決了現(xiàn)有技術(shù)中由于用戶信息和群組信息有數(shù)億的規(guī)模,空間向量的維度非常大,導(dǎo)致 計算的時間復(fù)雜度與空間復(fù)雜度都非常大,甚至還會嚴重損害到向量空間模型的處理效率 以及性能的問題;由于語義向量是用于反映各個分詞在特征信息中同時出現(xiàn)時的相關(guān)性特 征的向量,因此語義向量的維度遠小于空間向量的維度