專利名稱:網(wǎng)絡(luò)標(biāo)簽聚類方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種網(wǎng)絡(luò)標(biāo)簽聚類方法和系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)資源越來(lái)越豐富?;ヂ?lián)網(wǎng)上的網(wǎng)絡(luò)資源可以包括:網(wǎng)絡(luò)上的視頻、音樂(lè)、圖片文件,或者話題、課件等文件;網(wǎng)絡(luò)標(biāo)簽(Tag)是用戶根據(jù)自己的需要、理解和偏好,對(duì)網(wǎng)絡(luò)資源進(jìn)行標(biāo)注得到的,用于描述網(wǎng)絡(luò)資源的主題、類型、功能等多種特征。網(wǎng)絡(luò)標(biāo)簽具有揭示資源的隱含內(nèi)容或信息、分類的作用,并在此基礎(chǔ)上實(shí)現(xiàn)網(wǎng)絡(luò)資源聚合、協(xié)同與推薦等功能。通過(guò)對(duì)網(wǎng)絡(luò)標(biāo)簽的向量化,得到網(wǎng)絡(luò)標(biāo)簽向量;現(xiàn)有網(wǎng)絡(luò)標(biāo)簽向量是由用戶數(shù)據(jù)、網(wǎng)絡(luò)資源和網(wǎng)絡(luò)標(biāo)簽三維屬性來(lái)表征的,現(xiàn)有網(wǎng)絡(luò)標(biāo)簽向量中每一個(gè)元素表示每個(gè)用戶數(shù)據(jù)與每個(gè)網(wǎng)絡(luò)資源與網(wǎng)絡(luò)標(biāo)簽三者之間的總關(guān)聯(lián)度。在對(duì)網(wǎng)絡(luò)標(biāo)簽向量化后,可以針對(duì)向量化后網(wǎng)絡(luò)標(biāo)簽進(jìn)行聚類算法的計(jì)算,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)標(biāo)簽的聚類;對(duì)網(wǎng)絡(luò)標(biāo)簽聚類后,有助于挖掘出范圍更廣、程度更深的與網(wǎng)絡(luò)標(biāo)簽相關(guān)的網(wǎng)絡(luò)資源,可以提高以網(wǎng)絡(luò)標(biāo)簽來(lái)搜索、推薦網(wǎng)絡(luò)資源等互聯(lián)網(wǎng)應(yīng)用的效率。所謂對(duì)向量化后的網(wǎng)絡(luò)標(biāo)簽的聚類,就是對(duì)于由多個(gè)網(wǎng)絡(luò)標(biāo)簽向量所構(gòu)成的網(wǎng)絡(luò)標(biāo)簽向量集,使用某種算法將該網(wǎng)絡(luò)標(biāo)簽向量集劃分成若干網(wǎng)絡(luò)標(biāo)簽向量子集,使得聚在同一網(wǎng)絡(luò)標(biāo)簽向量子集中的網(wǎng)絡(luò)標(biāo)簽向量之間的相似度較高;這樣,通過(guò)對(duì)網(wǎng)絡(luò)標(biāo)簽向量的聚類,也就實(shí)現(xiàn)了網(wǎng)絡(luò)標(biāo)簽向量所對(duì)應(yīng)的網(wǎng)絡(luò)標(biāo)簽的聚類;即同一網(wǎng)絡(luò)標(biāo)簽向量子集中的網(wǎng)絡(luò)標(biāo)簽向量所對(duì)應(yīng)的網(wǎng)絡(luò)標(biāo)簽之間具有較高的相似度。通常,將網(wǎng)絡(luò)標(biāo)簽向量子集定義為一個(gè)簇;對(duì)簇中的全部網(wǎng)絡(luò)標(biāo)簽向量求平均后得到一個(gè)平均向量,將該簇內(nèi)與該平均向量距離最小的網(wǎng)絡(luò)標(biāo)簽向量定義為該簇的質(zhì)心;計(jì)算簇內(nèi)任意兩個(gè)網(wǎng)絡(luò)標(biāo)簽向量之間的距離,將計(jì)算出的最大距離定義為該簇的直徑;網(wǎng)絡(luò)標(biāo)簽向量之間的距離與網(wǎng)絡(luò)標(biāo)簽向量之間的相似度互為倒數(shù)關(guān)系。常用的網(wǎng)絡(luò)標(biāo)簽向量聚類算法有層次聚類算法和k-means (k均值)聚類算法等,由于層次聚類算法在網(wǎng)絡(luò)標(biāo)簽向量數(shù)目較大時(shí),計(jì)算復(fù)雜而耗時(shí)較長(zhǎng),因此對(duì)于大數(shù)目的網(wǎng)絡(luò)標(biāo)簽向量,一般采用k-means聚類算法。如圖1所示,對(duì)網(wǎng)絡(luò)標(biāo)簽向量集的k-means聚類算法的具體步驟如下:SlOl:進(jìn)行初始化,令迭代次數(shù)j=l。具體的,在對(duì)網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行k-means聚類之前,先進(jìn)行初始化:設(shè)定網(wǎng)絡(luò)標(biāo)簽向量集中的簇的數(shù)目(即簇?cái)?shù)目),和用于判斷k-means聚類過(guò)程中迭代步驟是否結(jié)束的準(zhǔn)則函數(shù)閾值;從網(wǎng)絡(luò)標(biāo)簽向量集中隨機(jī)選擇與設(shè)定的簇?cái)?shù)目相同數(shù)目的網(wǎng)絡(luò)標(biāo)簽向量,分別作為各簇的初始質(zhì)心,即第I次迭代過(guò)程中的各簇的質(zhì)心。S102:根據(jù)第j次迭代過(guò)程中的各簇的質(zhì)心,進(jìn)行第j次迭代過(guò)程中的一次聚類,從而確定第j次迭代過(guò)程中的網(wǎng)絡(luò)標(biāo)簽向量集的各簇所包含的網(wǎng)絡(luò)標(biāo)簽向量。具體的,根據(jù)各簇的第j次迭代過(guò)程中的各簇的質(zhì)心,進(jìn)行第j次迭代過(guò)程中的一次聚類過(guò)程為:針對(duì)網(wǎng)絡(luò)標(biāo)簽向量集中每個(gè)非質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量,分別計(jì)算該非質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量與各簇的第j次迭代過(guò)程中的質(zhì)心之間的距離;確定出與該非質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量之間的距離最小的質(zhì)心;將該非質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量聚類到(即劃分到)確定出的質(zhì)心所在的簇中;由此,確定出第j次迭代過(guò)程中的網(wǎng)絡(luò)標(biāo)簽向量集的各簇所包含的網(wǎng)絡(luò)標(biāo)簽向量。其中,非質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量具體指的是,網(wǎng)絡(luò)標(biāo)簽向量集中除第j次迭代過(guò)程中的各簇的質(zhì)心之外的其它網(wǎng)絡(luò)標(biāo)簽向量。S103:根據(jù)第j次迭代過(guò)程中的網(wǎng)絡(luò)標(biāo)簽向量集的各簇所包含的網(wǎng)絡(luò)標(biāo)簽向量,計(jì)算第j次迭代過(guò)程中的準(zhǔn)則函數(shù)值。具體地,在確定第j次迭代過(guò)程中的網(wǎng)絡(luò)標(biāo)簽向量集的各簇所包含的網(wǎng)絡(luò)標(biāo)簽向量后,針對(duì)第j次迭代過(guò)程中的網(wǎng)絡(luò)標(biāo)簽向量集中的每個(gè)簇,確定該簇的距離評(píng)估值:k-means聚類算法的準(zhǔn)則函數(shù)一般 采用平方誤差準(zhǔn)則函數(shù)(squared-error crkterkon)進(jìn)行距離評(píng)估值的計(jì)算,具體可以用如下公式I來(lái)表示:F= Σ Pec|P-m|2 (公式 I)公式I中,簇C為網(wǎng)絡(luò)標(biāo)簽向量集中的任一個(gè)簇,F(xiàn)為第j次迭代過(guò)程中簇C的距離評(píng)估值,P表示簇C中的任一個(gè)非質(zhì)心網(wǎng)絡(luò)標(biāo)簽向量,m表示簇C的質(zhì)心,p-m表示P與m的差值,即P到m之間的距離。將第j次迭代過(guò)程中的各簇的距離評(píng)估值進(jìn)行累加,得到第j次迭代過(guò)程中的準(zhǔn)則函數(shù)值。S104:將第j次迭代過(guò)程中的準(zhǔn)則函數(shù)值與設(shè)定的準(zhǔn)則函數(shù)閾值進(jìn)行比較;若第j次迭代過(guò)程中的準(zhǔn)則函數(shù)值大于準(zhǔn)則函數(shù)閾值,則執(zhí)行步驟S105;否則,結(jié)束迭代,執(zhí)行步驟 S106。S105:計(jì)算各簇的新質(zhì)心,分別作為第j+Ι次迭代過(guò)程中的各簇的質(zhì)心后,令j=j+l,跳轉(zhuǎn)到步驟S102。具體的,對(duì)于步驟S102中第j次迭代過(guò)程中的一次聚類后得到的網(wǎng)絡(luò)標(biāo)簽向量集的各簇,針對(duì)每簇,計(jì)算該簇中全部網(wǎng)絡(luò)標(biāo)簽向量的平均向量,選擇該簇中與計(jì)算出的平均向量距離最小的網(wǎng)絡(luò)標(biāo)簽向量作為該簇的新質(zhì)心,即第j+Ι次迭代過(guò)程中的該簇的質(zhì)心。在確定出第j+Ι次迭代過(guò)程中的各簇的質(zhì)心后,令j=j+l,跳轉(zhuǎn)到步驟S102。S106:將第j次迭代過(guò)程中的一次聚類后得到的網(wǎng)絡(luò)標(biāo)簽向量集的各簇,作為此次k-means聚類所得到的最終的聚類結(jié)果,結(jié)束此次k-means聚類過(guò)程。具體的,將第j次迭代過(guò)程中的一次聚類后得到的網(wǎng)絡(luò)標(biāo)簽向量集的各簇,亦即將第j次迭代過(guò)程中確定的網(wǎng)絡(luò)標(biāo)簽向量集的各簇所包含的網(wǎng)絡(luò)標(biāo)簽向量,作為此次k-means聚類所得到的最終的聚類結(jié)果,并結(jié)束此次k-means聚類過(guò)程。事實(shí)上,上述的每一次迭代過(guò)程,完成了對(duì)網(wǎng)絡(luò)標(biāo)簽向量集的一次聚類;其中后一次迭代過(guò)程的準(zhǔn)則函數(shù)值會(huì)小于前一次迭代過(guò)程的準(zhǔn)則函數(shù)值,即后一次對(duì)網(wǎng)絡(luò)標(biāo)簽集的聚類精度要高于或等于前一次的聚類精度。多次迭代過(guò)程,實(shí)際上是對(duì)網(wǎng)絡(luò)標(biāo)簽向量集的多次聚類,且聚類精度是逐次提高的,當(dāng)聚類精度恒定時(shí),完成本次k-means聚類。然而,本發(fā)明的發(fā)明人發(fā)現(xiàn),現(xiàn)有的網(wǎng)絡(luò)標(biāo)簽聚類方法即使采用多次迭代的聚類算法,達(dá)到聚類精度恒定時(shí),其精度仍然不高。其原因有兩個(gè):其一,在對(duì)網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法時(shí),簇?cái)?shù)目是固定的;如果設(shè)定的簇?cái)?shù)目過(guò)多,則互相之間距離較小(相似度較大)的網(wǎng)絡(luò)標(biāo)簽向量也有可能被聚類到不同的簇中,造成簇間精度降低和簇冗余;如果設(shè)定的簇?cái)?shù)目過(guò)少,則互相之間距離較大(相似度較小)的網(wǎng)絡(luò)標(biāo)簽向量也有可能被聚類到同一個(gè)簇中,造成簇內(nèi)精度降低??傊?,不合適的簇?cái)?shù)目,會(huì)造成聚類結(jié)果的精度降低。另一個(gè)原因則是,由于在對(duì)網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法前,每個(gè)簇的初始質(zhì)心為隨機(jī)選取,如果個(gè)別的,如介詞、助詞等組成的無(wú)意義的網(wǎng)絡(luò)標(biāo)簽向量化后的網(wǎng)絡(luò)標(biāo)簽向量、不常用詞匯組成的網(wǎng)絡(luò)標(biāo)簽向量化后的網(wǎng)絡(luò)標(biāo)簽向量等噪聲性質(zhì)的網(wǎng)絡(luò)標(biāo)簽向量被選取為初始質(zhì)心,則導(dǎo)致初始質(zhì)心所在的簇將沒(méi)有聚類的意義或者簇內(nèi)聚類精度降低,總體上降低了聚類的精度。綜上所述,現(xiàn)有技術(shù)的網(wǎng)絡(luò)標(biāo)簽聚類方法所得到的聚類結(jié)果精度低,有必要提供一種聚類結(jié)果精度更高的網(wǎng)絡(luò)標(biāo)簽聚類方法。
發(fā)明內(nèi)容
針對(duì)上述現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提供了一種網(wǎng)絡(luò)標(biāo)簽聚類方法和系統(tǒng),用以提高聚類結(jié)果的精度。本發(fā)明的技術(shù)方案公開(kāi)了一種網(wǎng)絡(luò)標(biāo)簽聚類方法,包括:計(jì)算網(wǎng)絡(luò)標(biāo)簽向量集中各網(wǎng)絡(luò)標(biāo)簽向量的模值,并根據(jù)模值大小對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行排序;其中,所述網(wǎng)絡(luò)標(biāo)簽向量是對(duì)網(wǎng)絡(luò)標(biāo)簽進(jìn)行向量化后得到的:對(duì)于一個(gè)網(wǎng)絡(luò)標(biāo)簽,其網(wǎng)絡(luò)標(biāo)簽向量是由該網(wǎng)絡(luò)標(biāo)簽與各網(wǎng)絡(luò)資源的關(guān)聯(lián)度作為向量元素構(gòu)成的;根據(jù)排序結(jié)果,選取數(shù)目與簇?cái)?shù)目相一致的、所述網(wǎng)絡(luò)標(biāo)簽向量集中排序在前的網(wǎng)絡(luò)標(biāo)簽向量,分別作為所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心;所述簇?cái)?shù)目為所述網(wǎng)絡(luò)標(biāo)簽向量集中待聚類 的簇的數(shù)目;根據(jù)所述簇?cái)?shù)目,以及確定的各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇。其中,所述簇?cái)?shù)目為預(yù)先設(shè)定的;或者所述簇?cái)?shù)目根據(jù)如下方法確定:對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)該參考簇?cái)?shù)目,以及所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,將得到的參考性聚類后的各參考簇作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果;根據(jù)該參考簇?cái)?shù)目的參考性聚類結(jié)果,計(jì)算每個(gè)參考簇的直徑;將計(jì)算出的直徑中的最大值作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考簇最大直徑;根據(jù)對(duì)各參考簇?cái)?shù)目的排序結(jié)果,針對(duì)兩兩相鄰的參考簇?cái)?shù)目,計(jì)算出該相鄰的參考簇?cái)?shù)目所對(duì)應(yīng)的參考簇最大直徑之間的差值,將計(jì)算出的差值作為對(duì)應(yīng)于該相鄰的參考簇?cái)?shù)目的直徑差值;將計(jì)算出的差值與設(shè)定的差值閾值進(jìn)行比較,找出小于所述差值閾值的最大差值;根據(jù)找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目,確定出所述簇?cái)?shù)目。其中,所述一組參考簇?cái)?shù)目為預(yù)先設(shè)定的一組數(shù)目;或者所述一組參考簇?cái)?shù)目是根據(jù)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量個(gè)數(shù)確定的:對(duì)I η的自然數(shù),從中間隔選取設(shè)定個(gè)數(shù)的數(shù)字作為所述一組參考簇?cái)?shù)目,或者從中以指數(shù)間隔或等值間隔選取數(shù)字作為所述一組參考簇?cái)?shù)目;其中,η為所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量個(gè)數(shù)。較優(yōu)的,所述根據(jù)找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目,確定出所述簇?cái)?shù)目,具體包括:以找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目中的較大的參考簇?cái)?shù)目作為上限參考簇?cái)?shù)目;以找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目中的較小的參考簇?cái)?shù)目作為下限參考簇?cái)?shù)目;選取所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的數(shù)目作為所述簇?cái)?shù)目。較優(yōu)的,所述選取所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的數(shù)目作為所述簇?cái)?shù)目,具體包括:將位于所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的自然數(shù)作為待選簇?cái)?shù)目集合中的元素,構(gòu)成所述待選簇?cái)?shù)目集合;判斷所述待選簇?cái)?shù)目集合中的元素個(gè)數(shù)是否小于設(shè)定的元素?cái)?shù)目閾值;若小于,則從所述待選簇?cái)?shù)目集合中任選一個(gè)數(shù)目作為所述簇?cái)?shù)目;否則:將所述一組參考簇?cái)?shù)目作為第I次迭代過(guò)程中的一組參考簇?cái)?shù)目,所述待選簇?cái)?shù)目集合作為第I次迭代過(guò)程中的待選簇?cái)?shù)目集合后,對(duì)所述待選簇?cái)?shù)目集合進(jìn)行以下方法的迭代:將從第i次迭代過(guò)程中的待選簇?cái)?shù)目集合中選取的一組參考簇?cái)?shù)目,作為第i+1次迭代過(guò)程中的一組參考簇?cái)?shù)目;針對(duì)第i+ι次迭代過(guò)程中的一組參考簇?cái)?shù)目,確定第i+1次迭代過(guò)程中的待選簇?cái)?shù)目集合;若判斷第i+ι次迭代過(guò)程中的待選簇?cái)?shù)目集合中的元素個(gè)數(shù)小于所述元素?cái)?shù)目閾值,則結(jié)束迭代,從最后一次迭代過(guò)程中的待選簇?cái)?shù)目集合中任選一個(gè)數(shù)目作為所述簇?cái)?shù)目;否則,進(jìn)行下次迭代;其中,I為自然數(shù)。較優(yōu)的,所述根據(jù)該參考簇?cái)?shù)目,以及所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,具體包括:
針對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中每個(gè)非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量,分別計(jì)算該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量與各簇的初始質(zhì)心之間的距離;確定出與該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量之間的距離最小的初始質(zhì)心;將該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量聚類到確定出的初始質(zhì)心所在的簇中;以及所述聚類算法具體為k均值聚類算法。本發(fā)明的技術(shù)方案還公開(kāi)了一種網(wǎng)絡(luò)標(biāo)簽聚類方法,包括:對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)該參考簇?cái)?shù)目,以及網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,將得到的參考性聚類后的各參考簇作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果;根據(jù)該參考簇?cái)?shù)目的參考性聚類結(jié)果,計(jì)算每個(gè)參考簇的直徑;將計(jì)算出的直徑中的最大值作為對(duì)應(yīng)于該參考族數(shù)目的參考族最大直徑;根據(jù)對(duì)各參考簇?cái)?shù)目的排序結(jié)果,針對(duì)兩兩相鄰的參考簇?cái)?shù)目,計(jì)算出該相鄰的參考簇?cái)?shù)目所對(duì)應(yīng)的參考簇最大直徑之間的差值,將計(jì)算出的差值作為對(duì)應(yīng)于該相鄰的參考簇?cái)?shù)目的直徑差值;將計(jì)算出的差值與設(shè)定的差值閾值進(jìn)行比較,找出小于所述差值閾值的最大差值;根據(jù)找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目,確定出簇?cái)?shù)目;根據(jù)確定出的簇?cái)?shù)目,以及數(shù)目與所述簇?cái)?shù)目相應(yīng)的、所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇;其中,所述網(wǎng)絡(luò)標(biāo)簽向量是對(duì)網(wǎng)絡(luò)標(biāo)簽進(jìn)行向量化后得到的:對(duì)于一個(gè)網(wǎng)絡(luò)標(biāo)簽,其網(wǎng)絡(luò)標(biāo)簽向量是由該網(wǎng)絡(luò)標(biāo)簽與各網(wǎng)絡(luò)資源的關(guān)聯(lián)度作為向量元素構(gòu)成的。其中,所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心是從所述網(wǎng)絡(luò)標(biāo)簽向量集中隨機(jī)選取的;或者所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心根據(jù)如下方法確定:計(jì)算所述網(wǎng)絡(luò)標(biāo)簽向量集中各網(wǎng)絡(luò)標(biāo)簽向量的模值,并根據(jù)模值大小對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行排序;根據(jù)排序結(jié)果,選取數(shù)目與簇?cái)?shù)目相一致的、排序在前的網(wǎng)絡(luò)標(biāo)簽向量,分別作為所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心。其中,所述一組參考簇?cái)?shù)目為預(yù)先設(shè)定的一組數(shù)目;或者所述一組參考簇?cái)?shù)目是根據(jù)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量個(gè)數(shù)確定的:對(duì)I η的自然數(shù),從中間隔選取設(shè)定個(gè)數(shù)的數(shù)字作為所述一組參考簇?cái)?shù)目,或者從中以指數(shù)間隔或等值間隔選取數(shù)字作為所述一組參考簇?cái)?shù)目;其中,η為所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量個(gè)數(shù)。較優(yōu)的,所述根據(jù)找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目,確定出所述簇?cái)?shù)目,具體包括:以找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目中的較大的參考簇?cái)?shù)目作為上限參考簇?cái)?shù)目;以找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目中的較小的參考簇?cái)?shù)目作為下限參考簇?cái)?shù)目;選取所述上限參 考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的數(shù)目作為所述簇?cái)?shù)目。較優(yōu)的,所述選取所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的數(shù)目作為所述簇?cái)?shù)目,具體包括:將位于所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的自然數(shù)作為待選簇?cái)?shù)目集合中的元素,構(gòu)成所述待選簇?cái)?shù)目集合;判斷所述待選簇?cái)?shù)目集合中的元素個(gè)數(shù)是否小于設(shè)定的元素?cái)?shù)目閾值;若小于,則從所述待選簇?cái)?shù)目集合中任選一個(gè)數(shù)目作為所述簇?cái)?shù)目;否則:將所述一組參考簇?cái)?shù)目作為第I次迭代過(guò)程中的一組參考簇?cái)?shù)目,所述待選簇?cái)?shù)目集合作為第I次迭代過(guò)程中的待選簇?cái)?shù)目集合后,對(duì)所述待選簇?cái)?shù)目集合進(jìn)行以下方法的迭代:將從第i次迭代過(guò)程中的待選簇?cái)?shù)目集合中選取的一組參考簇?cái)?shù)目,作為第i+1次迭代過(guò)程中的一組參考簇?cái)?shù)目;針對(duì)第i+ι次迭代過(guò)程中的一組參考簇?cái)?shù)目,確定第i+1次迭代過(guò)程中的待選簇?cái)?shù)目集合;若判斷第i+ι次迭代過(guò)程中的待選簇?cái)?shù)目集合中的元素個(gè)數(shù)小于所述元素?cái)?shù)目閾值,則結(jié)束迭代,從最后一次迭代過(guò)程中的待選簇?cái)?shù)目集合中任選一個(gè)數(shù)目作為所述簇?cái)?shù)目;否則,進(jìn)行下次迭代;其中,I為自然數(shù)。較優(yōu)的,所述根據(jù)該參考簇?cái)?shù)目,以及所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,具體包括:針對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中每個(gè)非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量,分別計(jì)算該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量與各簇的初始質(zhì)心之間的距離;確定出與該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量之間的距離最小的初始質(zhì)心;將該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量聚類到確定出的初始質(zhì)心所在的簇中;以及所述聚類算法具體為k均值聚類算法。本發(fā)明的技術(shù)方案還公開(kāi)了一種網(wǎng)絡(luò)標(biāo)簽聚類系統(tǒng),包括:模值確定模塊,用于計(jì)算網(wǎng)絡(luò)標(biāo)簽向量集中各網(wǎng)絡(luò)標(biāo)簽向量的模值;其中,所述網(wǎng)絡(luò)標(biāo)簽向量是對(duì)網(wǎng)絡(luò)標(biāo)簽進(jìn)行向量化后得到的:對(duì)于一個(gè)網(wǎng)絡(luò)標(biāo)簽,其網(wǎng)絡(luò)標(biāo)簽向量是由該網(wǎng)絡(luò)標(biāo)簽與各網(wǎng)絡(luò)資源的關(guān)聯(lián)度作為向量元素構(gòu)成的;模值排序模塊,用于根據(jù)所述模值確定模塊計(jì)算出的各網(wǎng)絡(luò)標(biāo)簽向量的模值的大小,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行排序;初始質(zhì)心確定模塊,用于根據(jù)排序結(jié)果,選取數(shù)目與簇?cái)?shù)目相一致的、所述網(wǎng)絡(luò)標(biāo)簽向量集中排序在前的網(wǎng)絡(luò)標(biāo)簽向量,分別作為所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心;所述簇?cái)?shù)目為所述網(wǎng)絡(luò)標(biāo)簽向量集中待聚類的簇的數(shù)目;聚類模塊,用于根據(jù)所述簇?cái)?shù)目,以及所述初始質(zhì)心確定模塊確定的各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇。較優(yōu)的,所述網(wǎng)絡(luò)標(biāo)簽聚類系統(tǒng)還包括:簇?cái)?shù)目確定模塊,用于對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)該參考簇?cái)?shù)目,以及所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,將得到的參考性聚類后的各參考簇作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果;根據(jù)該參考簇?cái)?shù)目的參考性聚類結(jié)果,計(jì)算每個(gè)參考簇的直徑;將計(jì)算出的直徑中的最大值作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考簇最大直徑;根據(jù)對(duì)各參考簇?cái)?shù)目的排序結(jié)果,針對(duì)兩兩相鄰的參考簇?cái)?shù)目,計(jì)算出該相鄰的參考簇?cái)?shù)目所對(duì)應(yīng)的參考簇最大直徑之間的差值,將計(jì)算出的差值作為對(duì)應(yīng)于該相鄰的參考簇?cái)?shù)目的直徑差值;將計(jì)算出的差值與設(shè)定的差值閾值進(jìn)行比較,找出小于所述差值閾值的最大差值;根據(jù)找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目,確定出所述簇?cái)?shù)目;以及所述聚類模塊具體用于根據(jù)所述簇?cái)?shù)目確定模塊確定出的簇?cái)?shù)目,以及所述初始質(zhì)心確定模塊確定的各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇。本發(fā)明的技術(shù)方案還公開(kāi)了一種網(wǎng)絡(luò)標(biāo)簽聚類系統(tǒng),包括:簇?cái)?shù)目確定模塊和聚類模塊;其中,所述簇?cái)?shù)目確定模塊包括:參考性聚類單元用于對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)該參考簇?cái)?shù)目,以及所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,將得到的參考性聚類后的各參考簇作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果;參考簇最大直徑確定單元用于對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)所述參考性聚類單元確定出的對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果,計(jì)算每個(gè)參考簇的直徑;將計(jì)算出的直徑中的最大值作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考簇最大直徑;直徑差值確定單元用于根據(jù)對(duì)各參考簇?cái)?shù)目的排序結(jié)果,針對(duì)兩兩相鄰的參考簇?cái)?shù)目,計(jì)算出該相鄰的參考簇?cái)?shù)目所對(duì)應(yīng)的參考簇最大直徑之間的差值,將計(jì)算出的差值作為對(duì)應(yīng)于該相鄰的參考簇?cái)?shù)目的直徑差值;簇?cái)?shù)目確定單元用于將所述直徑差值確定單元計(jì)算出的直徑差值與設(shè)定的差值閾值進(jìn)行比較,找出小于所述差值閾值的最大差值;根據(jù)找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目,確定出簇?cái)?shù)目;
所述聚類模塊用于根據(jù)所述簇?cái)?shù)目確定單元確定出的簇?cái)?shù)目,以及數(shù)目與所述簇?cái)?shù)目相應(yīng)的、所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇。較優(yōu)的,所述簇?cái)?shù)目確定模塊還包括:初始質(zhì)心確定單元,用于對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目執(zhí)行如下操作:計(jì)算所述網(wǎng)絡(luò)標(biāo)簽向量集中各網(wǎng)絡(luò)標(biāo)簽向量的模值,并根據(jù)模值大小對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行排序;根據(jù)排序結(jié)果,選取數(shù)目與該參考簇?cái)?shù)目相一致的、所述網(wǎng)絡(luò)標(biāo)簽向量集中排序在前的網(wǎng)絡(luò)標(biāo)簽向量,分別作為所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心;以及所述參考性聚類單元具體用于對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)該參考簇?cái)?shù)目,以及所述初始質(zhì)心確定單元針對(duì)該參考簇?cái)?shù)目確定出的所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,將得到的參考性聚類后的各參考簇作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果。本發(fā)明的技術(shù)方案中,由于根據(jù)網(wǎng)絡(luò)標(biāo)簽向量的模值優(yōu)先出初始質(zhì)心,相比于現(xiàn)有技術(shù)采用隨機(jī)方法選取的初始質(zhì)心,其與網(wǎng)絡(luò)資源關(guān)聯(lián)更多,為重要網(wǎng)絡(luò)標(biāo)簽向量,采用重要網(wǎng)絡(luò)標(biāo)簽向量作為初始質(zhì)心,可以提高網(wǎng)絡(luò)標(biāo)簽向量集的簇內(nèi)、簇間聚類精度。本發(fā)明的技術(shù)方案中,由于根據(jù)多次參考性聚類后得到的簇的最大直徑來(lái)選擇合適的簇?cái)?shù)目,可以同時(shí)得到該網(wǎng)絡(luò)標(biāo)簽向量集的較高的簇內(nèi)和簇間聚類精度,有效達(dá)到提高聚類結(jié)果精度的目的。
圖1為現(xiàn)有技術(shù)的對(duì)網(wǎng)絡(luò)標(biāo)簽進(jìn)行k-means聚類的方法流程圖;圖2a為本發(fā)明的進(jìn)行參考性聚類后的網(wǎng)絡(luò)標(biāo)簽向量集的簇最大直徑與簇?cái)?shù)目關(guān)系曲線圖;圖2b為本發(fā)明實(shí)施例一的網(wǎng)絡(luò)標(biāo)簽聚類方法的流程圖;圖2c為本發(fā)明實(shí)施例一的網(wǎng)絡(luò)標(biāo)簽聚類的內(nèi)部結(jié)構(gòu)框圖;圖3a為本發(fā)明實(shí)施例二的網(wǎng)絡(luò)標(biāo)簽聚類方法的流程圖;圖3b、3c為本發(fā)明實(shí)施例二的采用參考性聚類方法優(yōu)選簇?cái)?shù)目的方法流程圖;圖4為本發(fā)明實(shí)施例二的網(wǎng)絡(luò)標(biāo)簽聚類的內(nèi)部結(jié)構(gòu)框圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下參照附圖并舉出優(yōu)選實(shí)施例,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。然而,需要說(shuō)明的是,說(shuō)明書(shū)中列出的許多細(xì)節(jié)僅僅是為了使讀者對(duì)本發(fā)明的一個(gè)或多個(gè)方面有一個(gè)透徹的理解,即便沒(méi)有這些特定的細(xì)節(jié)也可以實(shí)現(xiàn)本發(fā)明的這些方面。本申請(qǐng)使用的“模塊”、“系統(tǒng)”等術(shù)語(yǔ)旨在包括與計(jì)算機(jī)相關(guān)的實(shí)體,例如但不限于硬件、固件、軟硬件組合、軟件或者執(zhí)行中的軟件。例如,模塊可以是,但并不僅限于:處理器上運(yùn)行的進(jìn)程、處理器、網(wǎng)絡(luò)標(biāo)簽、可執(zhí)行程序、執(zhí)行的線程、程序和/或計(jì)算機(jī)。舉例來(lái)說(shuō),計(jì)算設(shè)備上運(yùn)行的應(yīng)用程序和此計(jì)算設(shè)備都可以是模塊。一個(gè)或多個(gè)模塊可以位于執(zhí)行中的一個(gè)進(jìn)程和/或線程內(nèi),一個(gè)模塊也可以位于一臺(tái)計(jì)算機(jī)上和/或分布于兩臺(tái)或更多臺(tái)計(jì)算機(jī)之間。
本發(fā)明的發(fā)明人,在對(duì)現(xiàn)有技術(shù)的網(wǎng)絡(luò)標(biāo)簽聚類方法所得到的聚類結(jié)果精度低的原因進(jìn)行分析后,分別針對(duì)這兩個(gè)原因,采用如下技術(shù)手段來(lái)達(dá)到提高聚類結(jié)果精度的目的:其一,優(yōu)選初始質(zhì)心;其二,優(yōu)選簇?cái)?shù)目。為采用上述技術(shù)手段,本發(fā)明的技術(shù)方案中,對(duì)現(xiàn)有技術(shù)的三維網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行改進(jìn),改進(jìn)后,使用二維網(wǎng)絡(luò)標(biāo)簽向量來(lái)表征網(wǎng)絡(luò)標(biāo)簽:本發(fā)明的網(wǎng)絡(luò)標(biāo)簽向量是對(duì)網(wǎng)絡(luò)標(biāo)簽進(jìn)行二維向量化后得到的:對(duì)于一個(gè)網(wǎng)絡(luò)標(biāo)簽,其網(wǎng)絡(luò)標(biāo)簽向量是由該網(wǎng)絡(luò)標(biāo)簽與各網(wǎng)絡(luò)資源的關(guān)聯(lián)度作為向量元素構(gòu)成的;也就是說(shuō),本發(fā)明的網(wǎng)絡(luò)標(biāo)簽向量中的各元素分別表示各網(wǎng)絡(luò)資源與該網(wǎng)絡(luò)標(biāo)簽的關(guān)聯(lián)度。例如,網(wǎng)絡(luò)標(biāo)簽向量具體表征為D=W1,…屯,..,dN],其中Cli表示第i個(gè)網(wǎng)絡(luò)資源與該網(wǎng)絡(luò)標(biāo)簽的關(guān)聯(lián)度;一種簡(jiǎn)單向量化后得到的二維網(wǎng)絡(luò)標(biāo)簽向量中,Cli的取值為I或者0,取I表示第i個(gè)網(wǎng)絡(luò)資源與該網(wǎng)絡(luò)標(biāo)簽相關(guān)聯(lián),取O表示第i個(gè)網(wǎng)絡(luò)資源與該網(wǎng)絡(luò)標(biāo)簽不相關(guān);其中,i為I N的自然數(shù),N為網(wǎng)絡(luò)資源的總數(shù)。采用二維網(wǎng)絡(luò)標(biāo)簽向量后,呈現(xiàn)出網(wǎng)絡(luò)標(biāo)簽向量的模值與網(wǎng)絡(luò)標(biāo)簽向量的重要程度相關(guān)聯(lián)的特點(diǎn);依據(jù)這個(gè)特點(diǎn),可以根據(jù)網(wǎng)絡(luò)標(biāo)簽向量的模值來(lái)選擇初始質(zhì)心,達(dá)到優(yōu)選初始質(zhì)心的目的;從而提高聚類結(jié)果的精度。與網(wǎng)絡(luò)資源關(guān)聯(lián)數(shù)多的網(wǎng)絡(luò)標(biāo)簽對(duì)應(yīng)的網(wǎng)絡(luò)標(biāo)簽向量(以下簡(jiǎn)稱重要網(wǎng)絡(luò)標(biāo)簽向量)比與網(wǎng)絡(luò)資源關(guān)聯(lián)數(shù)少的網(wǎng)絡(luò)標(biāo)簽對(duì)應(yīng)的網(wǎng)絡(luò)標(biāo)簽向量(以下簡(jiǎn)稱非重要網(wǎng)絡(luò)標(biāo)簽向量)更重要,重要網(wǎng)絡(luò)標(biāo)簽向量是噪聲性質(zhì)的網(wǎng)絡(luò)標(biāo)簽向量的概率,小于非重要網(wǎng)絡(luò)標(biāo)簽向量是噪聲性質(zhì)的網(wǎng)絡(luò)標(biāo)簽向量的概率,因此選擇若干個(gè)重要網(wǎng)絡(luò)標(biāo)簽向量來(lái)作為網(wǎng)絡(luò)標(biāo)簽向量集中簇的初始質(zhì)心,可以提高網(wǎng)絡(luò)標(biāo)簽向量集的簇內(nèi)聚類精度升高的概率。另一方面,由于網(wǎng)絡(luò)資源集的資源數(shù)目通常都很大,而網(wǎng)絡(luò)標(biāo)簽向量的維數(shù)在數(shù)值上等于網(wǎng)絡(luò)資源數(shù)目,導(dǎo)致網(wǎng)絡(luò)標(biāo)簽向量的維數(shù)也很大,使得重要網(wǎng)絡(luò)標(biāo)簽向量之間被同一個(gè)資源都關(guān)聯(lián)的概率很小,從而重要網(wǎng)絡(luò)標(biāo)簽向量之間的距離較小(相似度較大)的概率很小,進(jìn)而選擇確定個(gè)數(shù)的重要網(wǎng)絡(luò)標(biāo)簽向量來(lái)作為網(wǎng)絡(luò)標(biāo)簽向量集的族的初始質(zhì)心,可以提聞族間聚類精度。采用二維網(wǎng)絡(luò)標(biāo)簽向量后,網(wǎng)絡(luò)標(biāo)簽向量集的簇的最大直徑呈現(xiàn)出隨該網(wǎng)絡(luò)標(biāo)簽向量集中簇?cái)?shù)目變化而變化的規(guī)律特點(diǎn);依據(jù)這個(gè)特點(diǎn),可以對(duì)網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行多次參考性聚類,計(jì)算參考性聚類后得到的簇的最大直徑,根據(jù)多次參考性聚類后得到的簇的最大直徑來(lái)選擇合適的簇?cái)?shù)目,達(dá)到優(yōu)選簇?cái)?shù)目的目的;從而提高最終聚類后得到的聚類結(jié)果的精度。圖2a示出了多次參考性聚類后網(wǎng)絡(luò)標(biāo)簽向量集的簇的最大直徑隨簇?cái)?shù)目(k)的變化曲線:橫向方向?yàn)榫W(wǎng)絡(luò)標(biāo)簽向量集的簇?cái)?shù)目(k)的變化趨勢(shì),從左到右逐漸增大,縱向方向?yàn)榫W(wǎng)絡(luò)標(biāo)簽向量集的簇的最大直徑的變化趨勢(shì),從上到下逐漸減?。粡膱D2a可以看出,隨網(wǎng)絡(luò)標(biāo)簽向量集的簇?cái)?shù)目的增加,網(wǎng)絡(luò)標(biāo)簽向量集的簇的最大直徑逐漸減少而且減少的幅度也越來(lái)越小。圖2a所示曲線中存在一個(gè)拐點(diǎn),大于該拐點(diǎn)的網(wǎng)絡(luò)標(biāo)簽向量集的簇?cái)?shù)目再增加,網(wǎng)絡(luò)標(biāo)簽向量集的簇的最大直徑變化量也很小,此時(shí)說(shuō)明,拐點(diǎn)附近的網(wǎng)絡(luò)標(biāo)簽向量集的簇內(nèi)的聚類精度基本已經(jīng)達(dá)到最高程度,同時(shí)網(wǎng)絡(luò)標(biāo)簽向量集的簇冗余現(xiàn)象還沒(méi)有出現(xiàn),網(wǎng)絡(luò)標(biāo)簽向量集的簇間聚類精度降低的概率還很小。因此,參考拐點(diǎn)選取合適的簇?cái)?shù)目作為該網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法時(shí)所采用的簇?cái)?shù)目,可以同時(shí)得到該網(wǎng)絡(luò)標(biāo)簽向量集的較高的簇內(nèi)和簇間聚類精度,有效達(dá)到提高聚類結(jié)果精度的目的。
基于上述的分析,本發(fā)明提供了兩個(gè)具體實(shí)施例來(lái)說(shuō)明本發(fā)明的技術(shù)方案。實(shí)施例一是以優(yōu)化初始質(zhì)心為主要技術(shù)手段的網(wǎng)絡(luò)標(biāo)簽聚類技術(shù)方案;實(shí)施例二是以優(yōu)化簇?cái)?shù)目為主要技術(shù)手段的網(wǎng)絡(luò)標(biāo)簽聚類技術(shù)方案。下面結(jié)合附圖詳細(xì)說(shuō)明本發(fā)明的技術(shù)方案。實(shí)施例一本發(fā)明實(shí)施例一提供的網(wǎng)絡(luò)標(biāo)簽聚類方法,具體流程圖如圖2b所示,具體包括如下步驟:S201:計(jì)算網(wǎng)絡(luò)標(biāo)簽向量集中各網(wǎng)絡(luò)標(biāo)簽向量的模值,并根據(jù)模值大小對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行排序。具體的,對(duì)于本發(fā)明的二維網(wǎng)絡(luò)標(biāo)簽向量所構(gòu)成的網(wǎng)絡(luò)標(biāo)簽向量集,針對(duì)其中每個(gè)網(wǎng)絡(luò)標(biāo)簽向量取模;網(wǎng)絡(luò)標(biāo)簽向量的模值越大,表示與該網(wǎng)絡(luò)標(biāo)簽向量對(duì)應(yīng)的網(wǎng)絡(luò)標(biāo)簽相關(guān)聯(lián)的網(wǎng)絡(luò)資源越多,即為該網(wǎng)絡(luò)標(biāo)簽向量對(duì)應(yīng)的網(wǎng)絡(luò)標(biāo)簽出現(xiàn)頻次越多;反之,網(wǎng)絡(luò)標(biāo)簽向量的模值越小,即為該網(wǎng)絡(luò)標(biāo)簽向量對(duì)應(yīng)網(wǎng)絡(luò)標(biāo)簽出現(xiàn)頻次越少。在對(duì)網(wǎng)絡(luò)標(biāo)簽向量集中每個(gè)網(wǎng)絡(luò)標(biāo)簽向量取模,得到每個(gè)網(wǎng)絡(luò)標(biāo)簽向量的模值后,將網(wǎng)絡(luò)標(biāo)簽向量集中各網(wǎng)絡(luò)標(biāo)簽向量,根據(jù)各網(wǎng)絡(luò)標(biāo)簽向量的模值從大到小進(jìn)行排序;排序后得到一個(gè)根據(jù)模值大小排序的網(wǎng)絡(luò)標(biāo)簽向量序列。S202:根據(jù)排序結(jié)果,選取數(shù)目與簇?cái)?shù)目相一致的、所述網(wǎng)絡(luò)標(biāo)簽向量集中排序在前的網(wǎng)絡(luò)標(biāo)簽向量,分別作為所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心。具體的,根據(jù)步驟S201得到的根據(jù)模值大小排序的網(wǎng)絡(luò)標(biāo)簽向量序列,選擇該序列中模值較大的網(wǎng)絡(luò)標(biāo)簽向量,即選擇排序在前的網(wǎng)絡(luò)標(biāo)簽向量,分別作為該網(wǎng)絡(luò)標(biāo)簽向量集待聚類過(guò)程中的各簇的初始質(zhì)心;其中,選取的網(wǎng)絡(luò)標(biāo)簽向量的數(shù)目與簇?cái)?shù)目相一致,該簇?cái)?shù)目為所述網(wǎng)絡(luò)標(biāo)簽向量集中待聚類的簇的數(shù)目;該簇?cái)?shù)目為預(yù)先設(shè)定的,或者是采用參考性聚類方法優(yōu)選出來(lái)的。如何采用參考性聚類方法優(yōu)選簇?cái)?shù)目的方法將在后面的實(shí)施例二中詳細(xì)介紹。S203:根據(jù)所述簇?cái)?shù)目,以及確定的各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇。具體地,可以根據(jù)所述簇?cái)?shù)目,以及確定的各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用現(xiàn)有的聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇;例如,可以運(yùn)用k-means聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇。本發(fā)明實(shí)施例一提供的一種網(wǎng)絡(luò)標(biāo)簽聚類系統(tǒng),內(nèi)部結(jié)構(gòu)框圖如圖2c所示,包括:模值確定模塊211、模值排序模塊212、初始質(zhì)心確定模塊213、聚類模塊214。模值確定模塊211用于計(jì)算網(wǎng)絡(luò)標(biāo)簽向量集中各網(wǎng)絡(luò)標(biāo)簽向量的模值;其中,所述網(wǎng)絡(luò)標(biāo)簽向量是對(duì)網(wǎng)絡(luò)標(biāo)簽進(jìn)行向量化后得到的:對(duì)于一個(gè)網(wǎng)絡(luò)標(biāo)簽,其網(wǎng)絡(luò)標(biāo)簽向量是由該網(wǎng)絡(luò)標(biāo)簽與各網(wǎng)絡(luò)資源的關(guān)聯(lián)度作為向量元素構(gòu)成的;模值排序模塊212用于根據(jù)所述模值確定模塊211計(jì)算出的各網(wǎng)絡(luò)標(biāo)簽向量的模值的大小,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行排序;初始質(zhì)心確定模塊213用于根據(jù)模值排序模塊212的排序結(jié)果,選取數(shù)目與簇?cái)?shù)目相應(yīng)的、所述網(wǎng)絡(luò)標(biāo)簽向量集中模值較大的網(wǎng)絡(luò)標(biāo)簽向量,分別作為所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心;所述簇?cái)?shù)目為所述網(wǎng)絡(luò)標(biāo)簽向量集中待聚類的簇的數(shù)目;聚類模塊214用于根據(jù)所述簇?cái)?shù)目,以及初始質(zhì)心確定模塊213確定的各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇。進(jìn)一步,圖2c所示的網(wǎng)絡(luò)標(biāo)簽聚類系統(tǒng)中還可包括:簇?cái)?shù)目確定模塊215。簇?cái)?shù)目確定模塊,用于采用參考性聚類方法優(yōu)選出簇?cái)?shù)目,其具體方法將在后續(xù)進(jìn)行詳細(xì)介紹。由此,上述的聚類模塊214具體用于根據(jù)簇?cái)?shù)目確定模塊215確定出的簇?cái)?shù)目,以及初始質(zhì)心確定模塊213確定的各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇。本發(fā)明實(shí)施例一的技術(shù)方案中,由于根據(jù)網(wǎng)絡(luò)標(biāo)簽向量的模值優(yōu)先出初始質(zhì)心,相比于現(xiàn)有技術(shù)采用隨機(jī)方法選取的初始質(zhì)心,其與網(wǎng)絡(luò)資源關(guān)聯(lián)更多,為重要網(wǎng)絡(luò)標(biāo)簽向量,采用重要網(wǎng)絡(luò)標(biāo)簽向量作為初始質(zhì)心,可以提高網(wǎng)絡(luò)標(biāo)簽向量集的簇內(nèi)、簇間聚類精度。進(jìn)一步,采用參考性聚類方法優(yōu)選簇?cái)?shù)目,也可達(dá)到提高最終聚類后得到的聚類結(jié)果的精度的目的。實(shí)施例二本發(fā)明實(shí)施例二提供的網(wǎng)絡(luò)標(biāo)簽聚類方法,具體流程圖如圖3a所示,具體包括如下步驟:S331:采用參考性聚類方法優(yōu)選簇?cái)?shù)目。S332:根據(jù)上述步驟S331優(yōu)選確定出的簇?cái)?shù)目,以及數(shù)目與所述簇?cái)?shù)目相應(yīng)的、所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇;其中,所述網(wǎng)絡(luò)標(biāo)簽向量是對(duì)網(wǎng)絡(luò)標(biāo)簽進(jìn)行向量化后得到的:對(duì)于一個(gè)網(wǎng)絡(luò)標(biāo)簽,其網(wǎng)絡(luò)標(biāo)簽向量是由該網(wǎng)絡(luò)標(biāo)簽與各網(wǎng)絡(luò)資源的關(guān)聯(lián)度作為向量元素構(gòu)成的;所述的數(shù)目與所述簇?cái)?shù)目相應(yīng)的、所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心具體可以是隨機(jī)選取的,或者是優(yōu)先得到的:計(jì)算所述網(wǎng)絡(luò)標(biāo)簽向量集中各網(wǎng)絡(luò)標(biāo)簽向量的模值,并根據(jù)模值大小對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行排序;根據(jù)排序結(jié)果,選取數(shù)目與簇?cái)?shù)目相應(yīng)的、模值較大的網(wǎng)絡(luò)標(biāo)簽向量,分別作為所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心。上述實(shí)施例一中的步驟S202,以及本實(shí)施例二中的步驟S331所提到的采用參考性聚類方法優(yōu)選簇?cái)?shù)目的方法,主要流程步驟可以如圖3b所示,包括如下步驟:S361:對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)該參考簇?cái)?shù)目,以及網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類。其中,網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量是對(duì)網(wǎng)絡(luò)標(biāo)簽進(jìn)行向量化后得到的:對(duì)于一個(gè)網(wǎng)絡(luò)標(biāo)簽,其網(wǎng)絡(luò)標(biāo)簽向量是由該網(wǎng)絡(luò)標(biāo)簽與各網(wǎng)絡(luò)資源的關(guān)聯(lián)度作為向量元素構(gòu)成的。具體地,本步驟中對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)該參考簇?cái)?shù)目,以及數(shù)目與該參考簇?cái)?shù)目相應(yīng)的、網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類的具體過(guò)程為:針對(duì)網(wǎng)絡(luò)標(biāo)簽向量集中每個(gè)非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量,分別計(jì)算該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量與各簇的初始質(zhì)心之間的距離;確定出與該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量之間的距離最小的初始質(zhì)心;將該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量聚類到(即劃分到)確定出的初始質(zhì)心所在的簇中。
上述的數(shù)目與該參考簇?cái)?shù)目相應(yīng)的、網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心既可以是隨機(jī)選取的,也可以是采用與上述實(shí)施例一的步驟S201-S202中相同的方法優(yōu)化得到的:計(jì)算網(wǎng)絡(luò)標(biāo)簽向量集中各網(wǎng)絡(luò)標(biāo)簽向量的模值,并根據(jù)模值大小對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行排序;根據(jù)排序結(jié)果,選取數(shù)目與該參考簇?cái)?shù)目相應(yīng)的、所述網(wǎng)絡(luò)標(biāo)簽向量集中模值較大的網(wǎng)絡(luò)標(biāo)簽向量,分別作為所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心。S362:分別針對(duì)每個(gè)參考簇?cái)?shù)目,確定出對(duì)應(yīng)于該參考簇?cái)?shù)目的參考簇最大直徑。具體地,將分別針對(duì)每個(gè)參考簇?cái)?shù)目,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類后,得到的參考性聚類后的各參考簇作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果;根據(jù)該參考簇?cái)?shù)目的參考性聚類結(jié)果,計(jì)算每個(gè)參考簇的直徑;將計(jì)算出的直徑中的最大值作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考簇最大直徑。其中,所述一組參考簇?cái)?shù)目可以是預(yù)先設(shè)定一組自然數(shù),或者是根據(jù)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量個(gè)數(shù)確定的:對(duì)I η的自然數(shù),從中間隔選取設(shè)定個(gè)數(shù)的數(shù)字作為所述一組參考簇?cái)?shù)目,或者從中以指數(shù)間隔或等值間隔選取數(shù)字作為所述一組參考簇?cái)?shù)目;其中,η為所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量個(gè)數(shù)。S363:根據(jù)對(duì)各參考簇?cái)?shù)目的排序結(jié)果,針對(duì)兩兩相鄰的參考簇?cái)?shù)目,計(jì)算出該相鄰的參考簇?cái)?shù)目所對(duì)應(yīng)的參考簇最大直徑之間的差值,將計(jì)算出的差值作為對(duì)應(yīng)于該相鄰的參考簇?cái)?shù)目的直徑差值。具體地,對(duì)各參考簇?cái)?shù)目進(jìn)行排序后,根據(jù)對(duì)各參 考簇?cái)?shù)目的排序結(jié)果,計(jì)算相鄰的兩個(gè)參考簇?cái)?shù)目所對(duì)應(yīng)的參考簇最大直徑之間的差值,將計(jì)算出的差值作為對(duì)應(yīng)于該相鄰的兩個(gè)參考簇?cái)?shù)目的直徑差值。S364:將計(jì)算出的差值與設(shè)定的差值閾值進(jìn)行比較,找出小于所述差值閾值的最
大差值。其中,差值閾值由技術(shù)人員根據(jù)經(jīng)驗(yàn)設(shè)置,例如可以設(shè)置差值閾值為4.6。S365:根據(jù)步驟S364中找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目,確定出所述簇?cái)?shù)目(所述簇?cái)?shù)目為所述網(wǎng)絡(luò)標(biāo)簽向量集中待聚類的簇的數(shù)目)。具體地,以找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目中的較大的參考簇?cái)?shù)目作為上限參考簇?cái)?shù)目;以找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目中的較小的參考簇?cái)?shù)目作為下限參考簇?cái)?shù)目;選取所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的數(shù)目作為優(yōu)選出的所述簇?cái)?shù)目。事實(shí)上,一種較優(yōu)地選取所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的數(shù)目作為所述簇?cái)?shù)目的方法,可以是多次迭代后,從上限參考簇?cái)?shù)目和下限參考簇?cái)?shù)目之間優(yōu)選出簇?cái)?shù)目:將位于所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的自然數(shù)作為待選簇?cái)?shù)目集合中的元素,構(gòu)成所述待選簇?cái)?shù)目集合后,判斷所述待選簇?cái)?shù)目集合中的元素個(gè)數(shù)是否小于設(shè)定的元素?cái)?shù)目閾值;若小于,則從所述待選簇?cái)?shù)目集合中任選一個(gè)數(shù)目作為所述簇?cái)?shù)目;否則:將所述一組參考簇?cái)?shù)目作為第I次迭代過(guò)程中的一組參考簇?cái)?shù)目,所述待選簇?cái)?shù)目集合作為第I次迭代過(guò)程中的待選簇?cái)?shù)目集合后,對(duì)所述待選簇?cái)?shù)目集合進(jìn)行以下方法的迭代:將從第i次迭代過(guò)程中的待選簇?cái)?shù)目集合中選取的一組參考簇?cái)?shù)目,作為第i + 1次迭代過(guò)程中的一組參考簇?cái)?shù)目;其中,i為自然數(shù)。針對(duì)第i+Ι次迭代過(guò)程中的一組參考簇?cái)?shù)目,確定第i+ι次迭代過(guò)程中的待選簇?cái)?shù)目集合;若判斷第i+ι次迭代過(guò)程中的待選簇?cái)?shù)目集合中的元素個(gè)數(shù)小于所述元素?cái)?shù)目閾值,則結(jié)束迭代,從最后一次迭代過(guò)程中的待選簇?cái)?shù)目集合中任選一個(gè)數(shù)目作為所述簇?cái)?shù)目;否則,進(jìn)行下次迭代。其中,元素?cái)?shù)目閾值由技術(shù)人員根據(jù)經(jīng)驗(yàn)預(yù)先設(shè)置,比如可以設(shè)置元素?cái)?shù)目閾值為10。圖3c示出了采用參考性聚類方法的多次迭代優(yōu)選簇?cái)?shù)目的具體流程,包括如下步驟:S301:進(jìn)行初始化,令迭代次數(shù)i=l。具體的,在初始化過(guò)程中,選取一組參考簇?cái)?shù)目作為第I次迭代過(guò)程中的一組參考簇?cái)?shù)目;具體地,預(yù)先設(shè)定一組自然數(shù)作為第I次迭代過(guò)程中的一組參考簇?cái)?shù)目,或者根據(jù)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量個(gè)數(shù)確定第I次迭代過(guò)程中的一組參考簇?cái)?shù)目:對(duì)I η的自然數(shù),從 中間隔選取設(shè)定個(gè)數(shù)的數(shù)字作為所述一組參考簇?cái)?shù)目,或者從中以設(shè)定間隔選取數(shù)字作為所述一組參考簇?cái)?shù)目;其中,η為所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量個(gè)數(shù)。 之后,令迭代次數(shù)i=l。S302:對(duì)于第i次迭代過(guò)程中的一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)該參考簇?cái)?shù)目,以及所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,得到對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果。具體地,本步驟中對(duì)于第i次迭代過(guò)程中的一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)該參考簇?cái)?shù)目,以及數(shù)目與該參考簇?cái)?shù)目相應(yīng)的、網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類的具體過(guò)程為:針對(duì)網(wǎng)絡(luò)標(biāo)簽向量集中每個(gè)非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量,分別計(jì)算該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量與各簇的初始質(zhì)心之間的距離;確定出與該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量之間的距離最小的初始質(zhì)心;將該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量聚類到(即劃分到)確定出的初始質(zhì)心所在的簇中;在將網(wǎng)絡(luò)標(biāo)簽向量中的各網(wǎng)絡(luò)標(biāo)簽向量聚類到簇中之后,得到對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果。S303:對(duì)于第i次迭代過(guò)程中的一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)該參考簇?cái)?shù)目的參考性聚類結(jié)果,計(jì)算該參考性聚類結(jié)果中每個(gè)參考簇的直徑;將計(jì)算出的直徑中的最大值作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考簇最大直徑。S304:根據(jù)對(duì)第i次迭代過(guò)程中的一組參考簇?cái)?shù)目的排序結(jié)果,針對(duì)排序后兩兩相鄰的參考簇?cái)?shù)目,計(jì)算出該相鄰的參考簇?cái)?shù)目所對(duì)應(yīng)的參考簇最大直徑之間的差值,將計(jì)算出的差值作為對(duì)應(yīng)于該相鄰的兩個(gè)參考簇?cái)?shù)目的直徑差值。S305:在第i次迭代過(guò)程中,將步驟S304中計(jì)算出的直徑差值與設(shè)定的差值閾值進(jìn)行比較,找出小于所述差值閾值的最大的差值。S306:確定第i次迭代過(guò)程中的待選簇?cái)?shù)目集合。具體的,在第i次迭代過(guò)程中,確定出步驟S305中找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目;以所述兩個(gè)相鄰的參考簇?cái)?shù)目中的較大的參考簇?cái)?shù)目作為上限參考簇?cái)?shù)目,以所述兩個(gè)相鄰的參考簇?cái)?shù)目中的較小的參考簇?cái)?shù)目作為下限參考簇?cái)?shù)目,選取所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的自然數(shù)作為第i次迭代過(guò)程中的待選簇?cái)?shù)目集合中的各元素,從而構(gòu)成第i次迭代過(guò)程中的待選簇?cái)?shù)目集合。S307:判定第i次迭代過(guò)程中的待選簇?cái)?shù)目集合中的元素個(gè)數(shù)是否小于設(shè)定的元素?cái)?shù)目閾值;若是,結(jié)束迭代,執(zhí)行步驟S309 ;否則,執(zhí)行步驟S308。S308:從第i次迭代過(guò)程中的待選簇?cái)?shù)目集合中選取一組參考簇?cái)?shù)目,作為第i+1次迭代過(guò)程中的一組參考簇?cái)?shù)目后,令迭代次數(shù)i=i+l,跳轉(zhuǎn)到步驟S302。具體地,從第i次迭代過(guò)程中的待選簇?cái)?shù)目集合中,間隔選取設(shè)定個(gè)數(shù)的數(shù)字作為第i+ι次迭代過(guò)程中的一組參考簇?cái)?shù)目;或者從第i次迭代過(guò)程中的待選簇?cái)?shù)目集合中以設(shè)定間隔選取數(shù)字作為第i+ι次迭代過(guò)程中的一組參考簇?cái)?shù)目。S309:從第i次迭代過(guò)程中的待選簇?cái)?shù)目集合中任選一個(gè)數(shù)目作為所述簇?cái)?shù)目。在本發(fā)明中,任意兩個(gè)網(wǎng)絡(luò)標(biāo)簽向量之間的距離被定義為任意兩個(gè)網(wǎng)絡(luò)標(biāo)簽向量之間相似度的倒數(shù)。因此,只要計(jì)算兩個(gè)網(wǎng)絡(luò)標(biāo)簽向量之間的相似度,即可確定兩個(gè)網(wǎng)絡(luò)標(biāo)簽向量之間的距離。
進(jìn)一步的,可以根據(jù)兩個(gè)網(wǎng)絡(luò)標(biāo)簽向量之間的夾角,來(lái)計(jì)算兩個(gè)網(wǎng)絡(luò)標(biāo)簽向量之間的相似度,具體根據(jù)如下公式2計(jì)算兩個(gè)網(wǎng)絡(luò)標(biāo)簽向量之間的相似度:
權(quán)利要求
1.一種網(wǎng)絡(luò)標(biāo)簽聚類方法,其特征在于,包括: 計(jì)算網(wǎng)絡(luò)標(biāo)簽向量集中各網(wǎng)絡(luò)標(biāo)簽向量的模值,并根據(jù)模值大小對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行排序;其中,所述網(wǎng)絡(luò)標(biāo)簽向量是對(duì)網(wǎng)絡(luò)標(biāo)簽進(jìn)行向量化后得到的:對(duì)于一個(gè)網(wǎng)絡(luò)標(biāo)簽,其網(wǎng)絡(luò)標(biāo)簽向量是由該網(wǎng)絡(luò)標(biāo)簽與各網(wǎng)絡(luò)資源的關(guān)聯(lián)度作為向量元素構(gòu)成的; 根據(jù)排序結(jié)果,選取數(shù)目與簇?cái)?shù)目相一致的、所述網(wǎng)絡(luò)標(biāo)簽向量集中排序在前的網(wǎng)絡(luò)標(biāo)簽向量,分別作為所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心;所述簇?cái)?shù)目為所述網(wǎng)絡(luò)標(biāo)簽向量集中待聚類的簇的數(shù)目; 根據(jù)所述簇?cái)?shù)目,以及確定的各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇。
2.如權(quán)利要求1所述的方法,其中,所述簇?cái)?shù)目為預(yù)先設(shè)定的;或者 所述簇?cái)?shù)目根據(jù)如下方法確定: 對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)該參考簇?cái)?shù)目,以及所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,將得到的參考性聚類后的各參考簇作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果;根據(jù)該參考簇?cái)?shù)目的參考性聚類結(jié)果,計(jì)算每個(gè)參考簇的直徑;將計(jì)算出的直徑中的最大值作為對(duì)應(yīng)于該參考族數(shù)目的參考族最大直徑; 根據(jù)對(duì)各參考簇?cái)?shù)目的排序結(jié)果,針對(duì)兩兩相鄰的參考簇?cái)?shù)目,計(jì)算出該相鄰的參考簇?cái)?shù)目所對(duì)應(yīng)的參考簇最大直徑之間的差值,將計(jì)算出的差值作為對(duì)應(yīng)于該相鄰的參考簇?cái)?shù)目的直徑差值; 將計(jì)算出的差值與設(shè)定的差值閾值進(jìn)行比較,找出小于所述差值閾值的最大差值; 根據(jù)找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目,確定出所述簇?cái)?shù)目。
3.如權(quán)利要求2所述的方法,其特征在于,所述一組參考簇?cái)?shù)目為預(yù)先設(shè)定的一組數(shù)目;或者 所述一組參考簇?cái)?shù)目是根據(jù)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量個(gè)數(shù)確定的:對(duì)I η的自然數(shù),從中間隔選取設(shè)定個(gè)數(shù)的數(shù)字作為所述一組參考簇?cái)?shù)目,或者從中以指數(shù)間隔或等值間隔選取數(shù)字作為所述一組參考簇?cái)?shù)目;其中,η為所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量個(gè)數(shù)。
4.如權(quán)利要求3所述的方法,其特征在于,所述根據(jù)找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目,確定出所述簇?cái)?shù)目,具體包括: 以找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目中的較大的參考簇?cái)?shù)目作為上限參考簇?cái)?shù)目; 以找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目中的較小的參考簇?cái)?shù)目作為下限參考簇?cái)?shù)目; 選取所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的數(shù)目作為所述簇?cái)?shù)目。
5.如權(quán)利要求4所述的方法,其特征在于,所述選取所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的數(shù)目作為所述簇?cái)?shù)目,具體包括: 將位于所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的自然數(shù)作為待選簇?cái)?shù)目集合中的元素, 構(gòu)成所述待選簇?cái)?shù)目集合;判斷所述待選簇?cái)?shù)目集合中的元素個(gè)數(shù)是否小于設(shè)定的元素?cái)?shù)目閾值;若小于,則從所述待選簇?cái)?shù)目集合中任選一個(gè)數(shù)目作為所述簇?cái)?shù)目;否則: 將所述一組參考簇?cái)?shù)目作為第I次迭代過(guò)程中的一組參考簇?cái)?shù)目,所述待選簇?cái)?shù)目集合作為第I次迭代過(guò)程中的待選簇?cái)?shù)目集合后,對(duì)所述待選簇?cái)?shù)目集合進(jìn)行以下方法的迭代: 將從第i次迭代過(guò)程中的待選簇?cái)?shù)目集合中選取的一組參考簇?cái)?shù)目,作為第i+ι次迭代過(guò)程中的一組參考簇?cái)?shù)目; 針對(duì)第i+ι次迭代過(guò)程中的一組參考簇?cái)?shù)目,確定第i+ι次迭代過(guò)程中的待選簇?cái)?shù)目集合; 若判斷第i+ι次迭代過(guò)程中的待選簇?cái)?shù)目集合中的元素個(gè)數(shù)小于所述元素?cái)?shù)目閾值,則結(jié)束迭代,從最后一次迭代過(guò)程中的待選簇?cái)?shù)目集合中任選一個(gè)數(shù)目作為所述簇?cái)?shù)目;否則,進(jìn)行下次迭代; 其中,i為自然數(shù)。
6.如權(quán)利要求2-5任一所述的方法,其特征在于,所述根據(jù)該參考簇?cái)?shù)目,以及所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,具體包括: 針對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中每個(gè)非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量,分別計(jì)算該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量與各簇的初始質(zhì)心之間的距離;確定出與該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量之間的距離最小的初始質(zhì)心;將該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量聚類到確定出的初始質(zhì)心所在的簇中;以及 所述聚類算法具體為 k均值聚類算法。
7.—種網(wǎng)絡(luò)標(biāo)簽聚類方法,其特征在于,包括: 對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目執(zhí)行如下操作:根據(jù)該參考簇?cái)?shù)目,以及網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,將得到的參考性聚類后的各參考簇作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果;根據(jù)該參考簇?cái)?shù)目的參考性聚類結(jié)果,計(jì)算每個(gè)參考簇的直徑;將計(jì)算出的直徑中的最大值作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考簇最大直徑; 根據(jù)對(duì)各參考簇?cái)?shù)目的排序結(jié)果,針對(duì)兩兩相鄰的參考簇?cái)?shù)目,計(jì)算出該相鄰的參考簇?cái)?shù)目所對(duì)應(yīng)的參考簇最大直徑之間的差值,將計(jì)算出的差值作為對(duì)應(yīng)于該相鄰的參考簇?cái)?shù)目的直徑差值; 將計(jì)算出的差值與設(shè)定的差值閾值進(jìn)行比較,找出小于所述差值閾值的最大差值; 根據(jù)找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目,確定出簇?cái)?shù)目; 根據(jù)確定出的簇?cái)?shù)目,以及數(shù)目與所述簇?cái)?shù)目相應(yīng)的、所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇; 其中,所述網(wǎng)絡(luò)標(biāo)簽向量是對(duì)網(wǎng)絡(luò)標(biāo)簽進(jìn)行向量化后得到的:對(duì)于一個(gè)網(wǎng)絡(luò)標(biāo)簽,其網(wǎng)絡(luò)標(biāo)簽向量是由該網(wǎng)絡(luò)標(biāo)簽與各網(wǎng)絡(luò)資源的關(guān)聯(lián)度作為向量元素構(gòu)成的。
8.如權(quán)利要求7所述的方法,其特征在于,所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心是從所述網(wǎng)絡(luò)標(biāo)簽向量集中隨機(jī)選取的;或者所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心根據(jù)如下方法確定: 計(jì)算所述網(wǎng)絡(luò)標(biāo)簽向量集中各網(wǎng)絡(luò)標(biāo)簽向量的模值,并根據(jù)模值大小對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行排序; 根據(jù)排序結(jié)果,選取數(shù)目與簇?cái)?shù)目相一致的、排序在前的網(wǎng)絡(luò)標(biāo)簽向量,分別作為所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心。
9.如權(quán)利要求8所述的方法,其特征在于,所述一組參考簇?cái)?shù)目為預(yù)先設(shè)定的一組數(shù)目;或者 所述一組參考簇?cái)?shù)目是根據(jù)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量個(gè)數(shù)確定的:對(duì)I η的自然數(shù),從中間隔選取設(shè)定個(gè)數(shù)的數(shù)字作為所述一組參考簇?cái)?shù)目,或者從中以指數(shù)間隔或等值間隔選取數(shù)字作為所述一組參考簇?cái)?shù)目;其中,η為所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量個(gè)數(shù)。
10.如權(quán)利要求9所述的方法,其特征在于,所述根據(jù)找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目,確定出所述簇?cái)?shù)目,具體包括: 以找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目中的較大的參考簇?cái)?shù)目作為上限參考簇?cái)?shù)目; 以找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目中的較小的參考簇?cái)?shù)目作為下限參考簇?cái)?shù)目; 選取所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的數(shù)目作為所述簇?cái)?shù)目。
11.如權(quán)利要求10所述的方法,其特征在于,所述選取所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的數(shù)目作為所述簇?cái)?shù)目,具體包括: 將位于所述上限參考簇?cái)?shù)目和所述下限參考簇?cái)?shù)目之間的自然數(shù)作為待選簇?cái)?shù)目集合中的元素,構(gòu)成所述待選簇?cái)?shù)目集合; 判斷所述待選簇?cái)?shù)目集合中的元素個(gè)數(shù)是否小于設(shè)定的元素?cái)?shù)目閾值;若小于,則從所述待選簇?cái)?shù)目集合中任選一個(gè)數(shù)目作為所述簇?cái)?shù)目;否則: 將所述一組參考簇?cái)?shù)目作為第I次迭代過(guò)程中的一組參考簇?cái)?shù)目,所述待選簇?cái)?shù)目集合作為第I次迭代過(guò)程中的待選簇?cái)?shù)目集合后,對(duì)所述待選簇?cái)?shù)目集合進(jìn)行以下方法的迭代: 將從第i次迭代過(guò)程中的待選簇?cái)?shù)目集合中選取的一組參考簇?cái)?shù)目,作為第i+ι次迭代過(guò)程中的一組參考簇?cái)?shù)目; 針對(duì)第i+ι次迭代過(guò)程中的一組參考簇?cái)?shù)目,確定第i+ι次迭代過(guò)程中的待選簇?cái)?shù)目集合; 若判斷第i+ι次迭代過(guò)程中的待選簇?cái)?shù)目集合中的元素個(gè)數(shù)小于所述元素?cái)?shù)目閾值,則結(jié)束迭代,從最后一次迭代過(guò)程中的待選簇?cái)?shù)目集合中任選一個(gè)數(shù)目作為所述簇?cái)?shù)目;否則,進(jìn)行下次迭代; 其中,i為自然數(shù)。
12.如權(quán)利要求7-11任一所述的方法,其特征在于,所述根據(jù)該參考簇?cái)?shù)目,以及所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,具體包括: 針對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中每個(gè)非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量,分別計(jì)算該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量與各簇的初始質(zhì)心之間的距離;確定出與該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量之間的距離最小的初始質(zhì)心;將該非初始質(zhì)心的網(wǎng)絡(luò)標(biāo)簽向量聚類到確定出的初始質(zhì)心所在的簇中;以及 所述聚類算法具體為k均值聚類算法。
13.一種網(wǎng)絡(luò)標(biāo)簽聚類系統(tǒng),其特征在于,包括: 模值確定模塊,用于計(jì)算網(wǎng)絡(luò)標(biāo)簽向量集中各網(wǎng)絡(luò)標(biāo)簽向量的模值;其中,所述網(wǎng)絡(luò)標(biāo)簽向量是對(duì)網(wǎng)絡(luò)標(biāo)簽進(jìn)行向量化后得到的:對(duì)于一個(gè)網(wǎng)絡(luò)標(biāo)簽,其網(wǎng)絡(luò)標(biāo)簽向量是由該網(wǎng)絡(luò)標(biāo)簽與各網(wǎng)絡(luò)資源的關(guān)聯(lián)度作為向量元素構(gòu)成的; 模值排序模塊,用于根據(jù)所述模值確定模塊計(jì)算出的各網(wǎng)絡(luò)標(biāo)簽向量的模值的大小,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行排序; 初始質(zhì)心確定模塊,用于根據(jù)排序結(jié)果,選取數(shù)目與簇?cái)?shù)目相一致的、所述網(wǎng)絡(luò)標(biāo)簽向量集中排序在前的網(wǎng)絡(luò)標(biāo)簽向量,分別作為所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心;所述簇?cái)?shù)目為所述網(wǎng)絡(luò)標(biāo)簽向量集中待聚類的簇的數(shù)目; 聚類模塊,用于根據(jù)所述簇?cái)?shù)目,以及所述初始質(zhì)心確定模塊確定的各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇。
14.如權(quán)利要求13所述的系統(tǒng),其特征在于,還包括: 簇?cái)?shù)目確定模塊,用于對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)該參考簇?cái)?shù)目,以及所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,將得到的參考性聚類后的各參考簇作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果;根據(jù)該參考簇?cái)?shù)目的參考性聚類結(jié)果,計(jì)算每個(gè)參考簇的直徑;將計(jì)算出的直徑中的最大值作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考簇最大直徑;根據(jù)對(duì)各參考簇?cái)?shù)目的排序結(jié)果,針對(duì)兩兩相鄰的參考簇?cái)?shù)目,計(jì)算出該相鄰的參考簇?cái)?shù)目所對(duì)應(yīng)的參考簇最大直徑之間的差值,將計(jì)算出的差值作為對(duì)應(yīng)于該相鄰的參考簇?cái)?shù)目的直徑差值;將計(jì)算出的差值與設(shè)定的差值閾值進(jìn)行比較,找出小于所述差值閾值的最大差值;根據(jù)找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目,確定出所述簇?cái)?shù)目;以及 所述聚類模塊具體用于根據(jù)所述簇?cái)?shù)目確定模塊確定出的簇?cái)?shù)目,以及所述初始質(zhì)心確定模塊確定的各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇。
15.一種網(wǎng)絡(luò)標(biāo)簽聚類系統(tǒng),其特征在于,包括:簇?cái)?shù)目確定模塊和聚類模塊;其中,所述簇?cái)?shù)目確定模塊包括: 參考性聚類單元用于對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)該參考簇?cái)?shù)目,以及所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,將得到的參考性聚類后的各參考簇作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果; 參考簇最大直徑確定單元用于對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)所述參考性聚類單元確定出的對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果,計(jì)算每個(gè)參考簇的直徑;將計(jì)算出的直徑中的最大值作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考簇最大直徑; 直徑差值確定單元用于根據(jù)對(duì)各參考簇?cái)?shù)目的排序結(jié)果,針對(duì)兩兩相鄰的參考簇?cái)?shù)目,計(jì)算出該相鄰的參考簇?cái)?shù)目所對(duì)應(yīng)的參考簇最大直徑之間的差值,將計(jì)算出的差值作為對(duì)應(yīng)于該相鄰的參考簇?cái)?shù)目的直徑差值; 簇?cái)?shù)目確定單元用于將所述直徑差值確定單元計(jì)算出的直徑差值與設(shè)定的差值閾值進(jìn)行比較,找出小于所述差值閾值的最大差值;根據(jù)找出的差值所對(duì)應(yīng)的兩個(gè)相鄰的參考簇?cái)?shù)目,確定出簇?cái)?shù)目; 所述聚類模塊用于根據(jù)所述簇?cái)?shù)目確定單元確定出的簇?cái)?shù)目,以及數(shù)目與所述簇?cái)?shù)目相應(yīng)的、所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇。
16.如權(quán)利要求15所述的系統(tǒng),其特征在于,所述簇?cái)?shù)目確定模塊還包括: 初始質(zhì)心確定單元,用于對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目執(zhí)行如下操作:計(jì)算所述網(wǎng)絡(luò)標(biāo)簽向量集中各網(wǎng)絡(luò)標(biāo)簽向量的模值,并根據(jù)模值大小對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集中的網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行排序;根據(jù)排序結(jié)果,選取數(shù)目與該參考簇?cái)?shù)目相一致的、所述網(wǎng)絡(luò)標(biāo)簽向量集中排序在前的網(wǎng)絡(luò)標(biāo)簽向量,分別作為所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心;以及 所述參考性聚類單元具體用于對(duì)于一組參考簇?cái)?shù)目,分別針對(duì)其中每個(gè)參考簇?cái)?shù)目,根據(jù)該參考簇?cái)?shù)目 ,以及所述初始質(zhì)心確定單元針對(duì)該參考簇?cái)?shù)目確定出的所述網(wǎng)絡(luò)標(biāo)簽向量集中各參考簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集進(jìn)行參考性聚類,將得到的參考性聚類后的各參考簇作為對(duì)應(yīng)于該參考簇?cái)?shù)目的參考性聚類結(jié)果。
全文摘要
本發(fā)明公開(kāi)了一種網(wǎng)絡(luò)標(biāo)簽聚類方法和系統(tǒng),所述方法包括根據(jù)網(wǎng)絡(luò)標(biāo)簽向量集中各網(wǎng)絡(luò)標(biāo)簽向量的模值大小對(duì)二維化的網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行排序;根據(jù)排序結(jié)果,選取數(shù)目與簇?cái)?shù)目相一致的、網(wǎng)絡(luò)標(biāo)簽向量集中排序在前的網(wǎng)絡(luò)標(biāo)簽向量,分別作為所述網(wǎng)絡(luò)標(biāo)簽向量集中各簇的初始質(zhì)心;所述簇?cái)?shù)目為所述網(wǎng)絡(luò)標(biāo)簽向量集中待聚類的簇的數(shù)目;根據(jù)簇?cái)?shù)目,以及確定的各簇的初始質(zhì)心,對(duì)所述網(wǎng)絡(luò)標(biāo)簽向量集運(yùn)用聚類算法得到所述網(wǎng)絡(luò)標(biāo)簽向量集中聚類后的各簇。本發(fā)明將網(wǎng)絡(luò)標(biāo)簽向量二維化,從而可以采用優(yōu)化初始質(zhì)心和或優(yōu)化簇?cái)?shù)目的技術(shù)手段,來(lái)提高網(wǎng)絡(luò)標(biāo)簽向量進(jìn)行聚類的精度,即提高了網(wǎng)絡(luò)標(biāo)簽向量對(duì)應(yīng)的網(wǎng)絡(luò)標(biāo)簽的聚類精度。
文檔編號(hào)G06F17/30GK103218419SQ20131010937
公開(kāi)日2013年7月24日 申請(qǐng)日期2013年3月29日 優(yōu)先權(quán)日2013年3月29日
發(fā)明者陳玉焓 申請(qǐng)人:新浪網(wǎng)技術(shù)(中國(guó))有限公司