對包含多個文檔的源數(shù)據(jù)進行聚類的裝置和方法
【技術領域】
[0001] 本發(fā)明涉及自然語言處理、數(shù)據(jù)挖掘領域,具體地涉及對包含多個文檔的源數(shù)據(jù) 進行聚類的裝置和方法。
【背景技術】
[0002] 這個部分提供了與本公開有關的背景信息,這不一定是現(xiàn)有技術。
[0003] 文本聚類是指通過聚類算法,將文本集合劃分成多個類別,每個類別之內(nèi)的文本 相似度較大,類別之間的文本相似度較小。文本聚類多應用于文檔自動文摘、搜索引擎結果 聚類、信息過濾/推送、數(shù)字圖書館服務等技術。
[0004] 文本聚類的方法依賴于核心聚類算法,聚類算法有很多種,其中多數(shù)算法都需要 提前設定最終的聚類數(shù)量,才可以完成聚類過程。例如K-means算法,這種方法最大的問題 就是K值的設定,通常情況下,需要人的先驗知識或者感覺設定K值,由此這種方法過于主 觀而很難取得令人滿意的結果。
【發(fā)明內(nèi)容】
[0005] 這個部分提供了本公開的一般概要,而不是其全部范圍或其全部特征的全面披 露。
[0006] 本公開的目的在于提供一種改進的文本聚類方法,將常規(guī)的聚類結果作為中間結 果,通過子類劃分、二次聚類的方法使不同的聚類結果趨向同一個聚類數(shù)(k值),然后從選 定的k值中選擇最終的聚類結果。
[0007] 根據(jù)本公開的一方面,提供了一種對包含多個文檔的源數(shù)據(jù)進行聚類的裝置,包 括:設置單元,其設置聚類數(shù)的集合;聚類單元,其針對設置單元設置的集合中的每一個聚 類數(shù),使用文檔中的詞作為特征對源數(shù)據(jù)進行聚類,以將源數(shù)據(jù)聚類成數(shù)目等于聚類數(shù)的 簇;劃分單元,其針對聚類單元聚類的每一個簇,使用文檔中的主題作為特征對簇執(zhí)行劃 分過程,在劃分過程中,簇被劃分成兩個部分,并且如果兩個部分的相似度小于第一預定閾 值,則將簇劃分成兩個子簇;合并單元,其對劃分單元劃分后的簇執(zhí)行合并過程,在合并過 程中,計算簇和子簇中的任意兩個之間的相似度,并且如果簇和子簇中的任意兩個之間的 相似度大于或等于第二預定閾值,則將其合并為一個簇;計數(shù)單元,其對合并單元合并后的 簇進行計數(shù),以獲得更新聚類數(shù);以及聚類數(shù)確定單元,其對計數(shù)單元獲得的相同的更新聚 類數(shù)進行計數(shù),并且將數(shù)目最多的更新聚類數(shù)確定為最佳聚類數(shù)。
[0008] 根據(jù)本公開的另一方面,提供了 一種對包含多個文檔的源數(shù)據(jù)進行聚類的方法, 該方法包括:設置聚類數(shù)的集合;針對集合中的每一個聚類數(shù),使用文檔中的詞作為特征 對源數(shù)據(jù)進行聚類,以將源數(shù)據(jù)聚類成數(shù)目等于聚類數(shù)的簇;針對集合中的每一個聚類數(shù), 并且針對每一個簇,使用文檔中的主題作為特征對簇執(zhí)行劃分過程,在劃分過程中,簇被劃 分成兩個部分,并且如果兩個部分的相似度小于第一預定閾值,則將簇劃分成兩個子簇;針 對集合中的每一個聚類數(shù),對劃分后的簇執(zhí)行合并過程,在合并過程中,計算簇和子簇中的 任意兩個之間的相似度,并且如果簇和子簇中的任意兩個之間的相似度大于或等于第二預 定閾值,則將其合并為一個簇;針對集合中的每一個聚類數(shù),對合并后的簇進行計數(shù),以獲 得更新聚類數(shù);以及對相同的更新聚類數(shù)進行計數(shù),并且將數(shù)目最多的更新聚類數(shù)確定為 最佳聚類數(shù)。
[0009] 根據(jù)本公開的另一方面,提供了一種程序產(chǎn)品,該程序產(chǎn)品包括存儲在其中的機 器可讀指令代碼,其中,所述指令代碼當由計算機讀取和執(zhí)行時,能夠使所述計算機執(zhí)行根 據(jù)本公開的對包含多個文檔的源數(shù)據(jù)進行聚類的方法。
[0010] 根據(jù)本公開的另一方面,提供了一種機器可讀存儲介質,其上攜帶有根據(jù)本公開 的程序產(chǎn)品。
[0011] 使用根據(jù)本公開的對包含多個文檔的源數(shù)據(jù)進行聚類的裝置和方法,將常規(guī)的聚 類結果作為中間結果,通過子類劃分、二次聚類的方法使不同的聚類結果趨向同一個聚類 數(shù)(k值),然后從選定的k值中選擇最終的聚類結果,并且在聚類過程中以更高層次的特征 如主題進行特征提取,從而進一步改進聚類的結果。
[0012] 這個概要中的描述和特定例子只是為了示意的目的,而不旨在限制本公開的范 圍。
【附圖說明】
[0013] 在此描述的附圖只是為了所選實施例的示意的目的而非全部可能的實施,并且不 旨在限制本公開的范圍。在附圖中:
[0014] 圖1為示例性的現(xiàn)有聚類方法的流程;
[0015] 圖2為本公開的示例性文本聚類的流程;
[0016] 圖3為根據(jù)本公開的實施例的文本聚類裝置的框圖;
[0017] 圖4為根據(jù)本公開的實施例聚類后的具有較佳聚類質量的簇的結果;
[0018] 圖5為根據(jù)本公開的實施例聚類后的具有較差聚類質量的簇的結果;
[0019] 圖6為根據(jù)本公開的示例性簇的劃分的實施例;
[0020] 圖7為根據(jù)本公開的另一個實施例的文本聚類裝置的框圖;
[0021] 圖8為根據(jù)本公開的另一個實施例的文本聚類裝置的一部分的框圖;
[0022] 圖9為根據(jù)本公開的實施例的文本聚類裝置的一部分的框圖;
[0023] 圖10為根據(jù)本公開的實施例的文本聚類方法的流程圖;以及
[0024] 圖11為其中可以實現(xiàn)根據(jù)本公開的實施例的文本聚類裝置和方法的通用個人計 算機的示例性結構的框圖。
[0025] 雖然本公開容易經(jīng)受各種修改和替換形式,但是其特定實施例已作為例子在附圖 中示出,并且在此詳細描述。然而應當理解的是,在此對特定實施例的描述并不打算將本公 開限制到公開的具體形式,而是相反地,本公開目的是要覆蓋落在本公開的精神和范圍之 內(nèi)的所有修改、等效和替換。要注意的是,貫穿幾個附圖,相應的標號指示相應的部件。
[0026] 實施方式
[0027] 現(xiàn)在參考附圖來更加充分地描述本公開的示例。以下描述實質上只是示例性的, 而不旨在限制本公開、應用或用途。
[0028] 下面提供了示例實施例,以便本公開將會變得詳盡,并且將會向本領域技術人員 充分地傳達其范圍。闡述了眾多的特定細節(jié)如特定單元、裝置和方法的示例,以提供對本公 開的實施例的詳盡理解。對于本領域技術人員而言將會明顯的是,不需要使用特定的細節(jié), 示例實施例可以用許多不同的形式來實施,它們都不應當被解釋為限制本公開的范圍。在 某些示例實施例中,沒有詳細地描述眾所周知的過程、眾所周知的結構和眾所周知的技術。
[0029] 文本聚類的方法依賴于核心聚類算法。聚類算法有很多種,其中多數(shù)算法都需要 提前設定最終的聚類數(shù)量,才可以完成聚類過程。例如K-means算法,這種方法最大的問題 就是聚類數(shù)k的值的設定。通常情況下,需要憑借人的先驗知識或者感覺來設定聚類數(shù)k 的值。由此,這種方法過于主觀而很難取得令人滿意的結果。
[0030] 針對聚類數(shù)k的值的選取,已經(jīng)存在一些方法,主要思路是將k取不同的值。圖1 示出了現(xiàn)有聚類方法的流程。如圖1所示,通過使用聚類算法對源數(shù)據(jù)進行聚類。這里,源 數(shù)據(jù)可以涉及多個文檔。聚類之后可以得到針對不同k值(如k = 2、k = 3、k = 4或k = 5等)的聚類結果。然后,根據(jù)各種評判標準選取最優(yōu)的聚類結果。例如,假定通過某種比 較策略確定當k = 4時聚類結果最優(yōu),則可以選擇k = 4作為最優(yōu)的聚類結果。然而,這種 方法的問題在于評判方法計算出來的分數(shù)往往比較接近,不足以充分地區(qū)別正確的k值。 而且,文本聚類通常采用的是通用的聚類算法,一次聚類的結果也并不理想。這是因為聚類 算法需要提取特征,而文本的特征用詞匯來表示。然而,文本具有更高層次的特征如主題, 這些更高層次的特征可以用來改進聚類的結果。
[0031] 使用根據(jù)本公開的文本聚類裝置和方法,可以將常規(guī)的聚類結果作為中間結果。 通過簇的劃分、二次聚類的方法,可以使不同的聚類結果趨向同一個聚類數(shù)(k值)。然后, 可以從選定的k值中選擇最終的聚類結果。并且,在聚類過程中可以以更高層次的特征如 主題進行特征提取,從而進一步改進聚類的結果。
[0032] 圖2示出了本公開的示例性技術方案的文本聚類流程。結合圖1,如從圖2中可以 看到的那樣,在使用聚類算法對源數(shù)據(jù)進行聚類以獲得針對不同k值的聚類結果之后,可 以對聚類結果進行細化處理(稍后將會詳細描述),以使得聚類結果趨向同一個k'值(圖 2中k'趨向4)。接下來,可以將該k'作為最佳聚類數(shù)(圖2中最佳聚類數(shù)=4)。對于該 最佳k',可能存在不同的聚類結果。例如,在圖2中對于最佳聚類數(shù)4至少存在3種不同 的聚類結果。因此,優(yōu)選地,接下來可以針對最佳k'確定最佳聚類結果作為源數(shù)據(jù)聚類結 果。
[0033] 上面簡要描述了根據(jù)本公開的技術方案的基本思路。接下來參考附圖來進一步詳 細地描述本公開的技術方案。
[0034] 圖3示出了根據(jù)本公開的實施例的文本聚類裝置300。如圖3所示,根據(jù)本公開的 實施例的文本聚類裝置300可以包括設置單元310、聚類單元320、劃分單元330、合并單元 340、計數(shù)單元350和聚類數(shù)確定單元360。
[0035] 設置單元310可以設置聚類數(shù)的集合。接下來,聚類單元320可以針對設置單元 310設置的集合中的每一個聚類數(shù),使用文檔中的詞作為特征對源數(shù)據(jù)進行聚類,以將源數(shù) 據(jù)聚類成數(shù)目等于聚類數(shù)的簇。接下來,劃分單元330可以針對聚類單元320聚類的每一 個簇,使用文檔中的主題作為特征對簇執(zhí)行劃分過程。在劃分過程中,簇可以被劃分成兩個 部分,并且如果兩個部分的相似度小于第一預定閾值,則可以將簇劃分成兩個子簇。接下 來,合并單元340可以對劃分單元330劃分后的簇執(zhí)行合并過程。在合并過程中,可以計算 簇和子簇中的任意兩個之間的相似度,并且如果簇和子簇中的任意兩個之間的相似度大于 或等于第二預定閾值,則可以將其合并為一個簇。接下來,計數(shù)單元350可以對合并單元 340合并后的簇進行計數(shù),以獲得更新聚類數(shù)。接下來,聚類數(shù)確定單元360可以對計數(shù)單 元350獲得的相同的更新聚類數(shù)進行計數(shù),