基于社交網絡的對象分類方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及計算機技術領域,特別涉及一種基于社交網絡的對象分類方法及裝 置。
【背景技術】
[0002] 社交網絡通常具有龐大的用戶群,這些用戶相互交流分享形成很多群組。由于用 戶有不同的興趣,因此他們相互形成的群組也有不同的偏好,譬如〃籃球〃類群,"小區(qū)〃類 群,"瑜伽"類群等。用戶要從這海量的數據中找到與自己有類似興趣的用戶或者相似偏 好的群組是相當困難的。因此急需一種能夠自動地把興趣相同的用戶或者話題相似的群組 進行整理歸類的聚類方法。
[0003] 在傳統(tǒng)的對用戶或者群組進行整理歸類的聚類方法中,首先把每一個用戶信息或 每一個群組信息用0/1表示方法(即對于每條用戶信息或群組信息所對應的特征信息,如 果某些分詞在該特征信息中出現,則將對應的用于表示該分詞的向量值設置為1,否則將用 于表示該分詞的向量值設置為〇)表示成空間向量,該空間向量的維度為全部特征的總詞 數;然后基于特征信息的空間向量利用分類器VSM(VectorSpaceModel,向量空間模型) 進行聚類分析。
[0004] 在實現本發(fā)明的過程中,發(fā)明人發(fā)現現有技術至少存在以下問題:由于用戶信息 和群組信息有數億的規(guī)模,空間向量的維度非常大,導致計算的時間復雜度與空間復雜度 都非常大,甚至還會嚴重損害到向量空間模型的處理效率以及性能。
【發(fā)明內容】
[0005] 為了解決現有技術中由于用戶信息和群組信息有數億的規(guī)模,空間向量的維度非 常大,導致計算的時間復雜度與空間復雜度都非常大,甚至還會嚴重損害到向量空間模型 的處理效率以及性能的問題,本發(fā)明實施例提供了一種基于社交網絡的對象分類方法及裝 置。所述技術方案如下:
[0006] 第一方面,提供了一種基于社交網絡的對象分類方法,所述方法包括:
[0007] 獲取對象的特征信息;
[0008] 將所述特征信息表示成語義向量,所述語義向量用于反映各個分詞在所述特征信 息中同時出現時的相關性特征;
[0009] 將所述對象的特征信息的語義向量輸入預定分類器,得到所述對象被分類后的初 始類別。
[0010] 第二方面,提供了一種基于社交網絡的對象分類裝置,所述裝置包括:
[0011] 第一獲取模塊,用于獲取對象的特征信息;
[0012] 表示模塊,用于將所述特征信息表示成語義向量,所述語義向量用于反映各個分 詞在所述特征信息中同時出現時的相關性特征;
[0013] 分類模塊,用于將所述對象的特征信息的語義向量輸入預定分類器,得到所述對 象被分類后的初始類別。
[0014] 本發(fā)明實施例提供的技術方案帶來的有益效果是:
[0015] 通過將對象的特征信息表示成語義向量,將該語義向量輸入預定分類器,得到對 象被分類后的初始類別;解決了現有技術中由于用戶信息和群組信息有數億的規(guī)模,空間 向量的維度非常大,導致計算的時間復雜度與空間復雜度都非常大,甚至還會嚴重損害到 向量空間模型的處理效率以及性能的問題;由于語義向量是用于反映各個分詞在特征信息 中同時出現時的相關性特征的向量,因此語義向量的維度遠小于空間向量的維度,達到了 可以大大降低計算的復雜度,提高向量空間模型的處理效率以及性能的效果。
【附圖說明】
[0016] 為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據這些附圖獲得其他 的附圖。
[0017] 圖1是本發(fā)明一個實施例中提供的基于社交網絡的對象分類方法的方法流程圖;
[0018] 圖2A是本發(fā)明另一個實施例中提供的基于社交網絡的對象分類方法的方法流程 圖;
[0019] 圖2B是本發(fā)明一個實施例中提供的將特征信息表示成語義向量的方法的流程示 意圖;
[0020] 圖2C是本發(fā)明一個實施例中提供的確定與對象對應的預定個數相似對象的方法 的流程示意圖;
[0021] 圖2D是本發(fā)明一個實施例中提供的二分圖的示意圖;
[0022] 圖3是本發(fā)明一個實施例中提供的基于社交網絡的對象分類裝置的結構示意圖;
[0023] 圖4是本發(fā)明另一個實施例中提供的基于社交網絡的對象分類裝置的結構示意 圖。
【具體實施方式】
[0024] 為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明實施方 式作進一步地詳細描述。
[0025] 請參見圖1所示,其示出了本發(fā)明一個實施例中提供的基于社交網絡的對象分類 方法的方法流程圖。該基于社交網絡的對象分類方法可以應用于服務器或其他需要進行分 類的設備中。該基于社交網絡的對象分類方法可以包括:
[0026] 101,獲取對象的特征信息;
[0027] 102,將特征信息表示成語義向量,語義向量用于反映各個分詞在特征信息中同時 出現時的相關性特征;
[0028] 103,將對象的特征信息的語義向量輸入預定分類器,得到對象被分類后的初始類 別。
[0029] 綜上所述,本發(fā)明實施例中提供的基于社交網絡的對象分類方法,通過將對象的 特征信息表示成語義向量,將該語義向量輸入預定分類器,得到對象被分類后的初始類別; 解決了現有技術中由于用戶信息和群組信息有數億的規(guī)模,空間向量的維度非常大,導致 計算的時間復雜度與空間復雜度都非常大,甚至還會嚴重損害到向量空間模型的處理效率 以及性能的問題;由于語義向量是用于反映各個分詞在特征信息中同時出現時的相關性特 征的向量,因此語義向量的維度遠小于空間向量的維度,達到了可以大大降低計算的復雜 度,提高向量空間模型的處理效率以及性能的效果。
[0030] 請參見圖2A所示,其示出了本發(fā)明另一個實施例中提供的基于社交網絡的對象 分類方法的方法流程圖。該基于社交網絡的對象分類方法可以應用于服務器或其他需要進 行分類的設備中。該基于社交網絡的對象分類方法可以包括:
[0031] 201,獲取對象的特征信息;
[0032] 這里所講的對象可以包括用戶和/或群組。通常群組中可以包含多個用戶,一個 用戶可以同時加入在多個群組中,也可以不存在于任何一個群組中。
[0033] 當對象為用戶時,對象的特征信息則可以為用戶信息,比如可以包括用戶名、用戶 的興趣信息、用戶發(fā)表的心情或說說內容、用戶發(fā)表的日志等。特性信息可以包括文本信息 和/或非文本信息。
[0034] 當對象為群組時,對象的特征信息則可以為群組信息,比如可以包括群名稱等。
[0035] 202,將特征信息表示成語義向量;
[0036] 這里所講的語義向量可以用于反映各個分詞在特征信息中同時出現時的相關性 特征。通常來講,語義向量是利用預定數學模型為每個分詞尋找一個連續(xù)向量空間中的表 示,考慮到上下文語境,利用分詞之間在同一個語境中出現的頻率來刻畫分詞的相關性特 征。也就是說,一個特征信息的語音向量可以涵蓋該特征信息的上下文語境信息。
[0037] 也正因為語義向量可以涵蓋該特征信息的上下文語境信息,因此可以將語義向量 的維度降低到非常小的維度,比如可以為200維。
[0038] 請參見圖2B所示,其示出了本發(fā)明一個實施例中提供的將特征信息表示成語義 向量的方法的流程示意圖,將特征信息表示成語義向量,可以包括:
[0039] 202a,利用預存的語料庫,統(tǒng)計出分詞在預定個數指定分詞后出現的概率,分詞以 及預定個數指定分詞構成特征信息;
[0040] 語料庫中包含有各種特征信息,語料庫中的特征信息的來源比較多,比如,服務器 可以從其他服務器中獲取各種特征信息,用戶也可以向服務器上傳特征信息。
[0041] 舉例來講,在語料庫中的各種特征信息中,當一個分詞為"大學"時,統(tǒng)計該分詞在 "北京" + "科技"之后出現的概率,其中特征信息為"北京科技大學"。
[0042] 202b,利用反向傳播算法求解預定數學模型,得到特征信息中各個分詞的語義向 量;
[0043] 這里所講的預定數學模型的公式如下:
[0044]y=softmax(U?tanh(Hx+d)+ffx+b),
[0045] 其中,y為分詞在各個特征信息中出現的概率所組成的矩陣,x是各個特征信息中 的預定個數指定分詞的語義向量首尾相接得到的向量,d和b為偏置項,tanh和softmax均 為激活函數,U是預定數學模型的隱含層到輸出層的參數,W是從預定數學模型的輸入層直 接到輸出層的線性變換。
[0046] 在實際應用中,語義向量需要能涵蓋詞的上下文語境信息,這樣語義相似的分詞, 其對應的語義向量的余弦夾角值會比較大,因此在確定相似度的特征信息時具有很好的識 別效果。這里通??梢杂脳l件概率來刻畫詞的上下文語境,也就是每個分詞的概率只受前 面出現過的分詞的影響,條件概率即為P(W1IW1,...,W1i)。為了簡化計算,一般只考慮每個 分詞受其前11