專利名稱:文檔聚類系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文檔聚類系統(tǒng)和方法,其能夠確定文檔之間的相似度并基于確定的相似度對相似文檔進(jìn)行聚類。
背景技術(shù):
近年來,文檔檢索系統(tǒng)已經(jīng)得到廣泛使用,其能夠處理大量的文檔信息,提取對應(yīng)于用戶需要的信息,并且將所提取的信息提供給用戶。
即,文檔檢索或者信息檢索是指從大量文檔和信息中搜索用戶期望的文檔或者信息。為了檢索文檔或信息,對自然語言文本來執(zhí)行關(guān)鍵詞處理,為每個關(guān)鍵詞分配權(quán)值,然后進(jìn)行檢索和排序。
現(xiàn)有技術(shù)的文檔檢索系統(tǒng)接收用戶的查詢(query),并將普通系統(tǒng)提取出的普通結(jié)果輸出給用戶。這里,一般檢索系統(tǒng)僅基于從用戶接收的查詢范圍(area)來搜索文檔,因此難以為用戶提供針對其喜好和特點而定制的信息。
而且,由于現(xiàn)有技術(shù)的檢索系統(tǒng)僅搜索關(guān)于用戶輸入的查詢的信息,所以這樣會建立錯誤的檢索范圍。由于這個原因,用戶期望的信息和檢索結(jié)果出現(xiàn)明顯的差異,從而導(dǎo)致檢索結(jié)果的精確度和可靠性下降。
另外,當(dāng)從用戶接收查詢時,現(xiàn)有技術(shù)的文檔檢索系統(tǒng)依賴于提供信息的網(wǎng)站所使用的檢索系統(tǒng)來執(zhí)行操作。因此,被檢索信息的精確度降低,并且難以實時提供信息。然而,對于應(yīng)當(dāng)在生成時盡快檢索到或者應(yīng)當(dāng)在生成后長時間過去之前檢索到的文檔(例如專利文檔)而言,需要一種針對用戶定制的文檔訪問方法和檢索方法。
發(fā)明內(nèi)容
因此,本發(fā)明提供一種文檔聚類系統(tǒng)和方法,其用于本質(zhì)上消除由于現(xiàn)有技術(shù)的限制和缺點而產(chǎn)生的一個或多個問題。
本發(fā)明的目的旨在提供一種文檔聚類系統(tǒng)和方法,其能夠為用戶提供被檢索文檔之間的相互關(guān)系和相似度。
本發(fā)明的額外的優(yōu)點、目的和特征將再下面的說明書中部分地提出,并且對本領(lǐng)域技術(shù)人員來講,在接下來的詳查之后,本發(fā)明的部分的額外優(yōu)點、目的和特征將變得清楚,或者可以從本發(fā)明的實踐中學(xué)習(xí)。本發(fā)明的目的和其他優(yōu)點可以通過在所編寫的說明書及其權(quán)利要求以及附圖中特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
為了實現(xiàn)這些目的和其他優(yōu)點并且依據(jù)本發(fā)明的目的,如其中所實施的并廣泛描述的,提供了一種文檔聚類系統(tǒng),包括文檔數(shù)據(jù)庫,用于存儲文檔;文檔特征編寫單元,用于提取在所述文檔數(shù)據(jù)庫中存儲的文檔的屬性信息,并且基于所述屬性信息編寫關(guān)于各文檔的索引;文檔檢索單元,利用所述索引來檢索包含用戶輸入的查詢的文檔;聚類處理單元,包括用于計算檢索到的文檔的特征向量和代表向量的代表向量計算器,以及使用所述特征向量和所述代表向量計算文檔之間相似度的相似度計算器;以及聚類數(shù)據(jù)庫,存儲由聚類處理單元聚類的文檔。
在本發(fā)明的另一目的中,提供了一種文檔聚類方法,包括從存儲在文檔數(shù)據(jù)庫中的每個文檔中提取關(guān)鍵詞,并且利用所提取的關(guān)鍵詞編寫單元索引;利用所編寫的文檔索引選擇用于組成每個文檔的代表關(guān)鍵詞;利用所述代表關(guān)鍵詞確定所述文檔的特征向量;確定特征向量中的代表向量,以對檢索到的文檔進(jìn)行聚類處理;利用所述代表向量和所述特征向量進(jìn)行計算,來確定檢索到文檔的相似度;以及根據(jù)所述相似度對所述文檔進(jìn)行聚類。
應(yīng)該理解的是,本發(fā)明前面的一般描述和下面的詳細(xì)描述是可實施的和說明性的,并且旨在提供本發(fā)明的進(jìn)一步解釋。
所包含的附圖提供了對本發(fā)明的進(jìn)一步理解并且被合并于本申請和構(gòu)成了本申請的一部分,本發(fā)明所示出實施例與說明書一起用于解釋本發(fā)明的原理。在附圖中圖1是示出根據(jù)本發(fā)明實施例的文檔聚類系統(tǒng)的框圖;圖2是示出每個文檔的屬性信息的示意圖;
圖3是文檔檢索結(jié)果的用戶界面;圖4是示出基于所選文檔的關(guān)鍵詞出現(xiàn)頻率的索引文件的示意圖;圖5是示出關(guān)于每個文檔計算出的特征向量的示意圖;和圖6是對新文檔進(jìn)行自動聚類處理的方法的流程圖。
具體實施例方式
現(xiàn)在將詳細(xì)參考本發(fā)明優(yōu)選實施例,其實例在附圖中示出。
現(xiàn)在將參考附圖詳細(xì)描述根據(jù)本發(fā)明實施例的文檔聚類系統(tǒng)和方法。
圖1是用于描述根據(jù)本發(fā)明實施例的文檔聚類系統(tǒng)的框圖。
參考圖1,根據(jù)本發(fā)明實施例的文檔聚類系統(tǒng)包括客戶端200,用戶向其輸入用于文檔檢索的查詢或者在其上顯示關(guān)于輸入的查詢的文檔檢索結(jié)果;和聚類系統(tǒng)100,其通過網(wǎng)絡(luò)210連接至客戶端200,以根據(jù)查詢執(zhí)行文檔檢索,并對檢索到的文檔進(jìn)行聚類。
客戶端200包括輸入單元,用戶使用該輸入單元來發(fā)送預(yù)定查詢到聚類系統(tǒng)100,和輸出單元,接收從聚類系統(tǒng)100發(fā)送的文檔信息并將所接收的信息顯示給用戶。
這里,盡管術(shù)語“聚類”被用在聚類系統(tǒng)100中,但是文檔聚類不是聚類系統(tǒng)100的唯一功能。聚類系統(tǒng)100執(zhí)行關(guān)于從客戶端200輸入的查詢的文檔檢索,和對檢索到的文檔的進(jìn)行聚類兩種處理。
在聚類系統(tǒng)100和客戶端200之間的通信介質(zhì)可以是多種通信網(wǎng)絡(luò)210,例如因特網(wǎng)、LAN等。
聚類系統(tǒng)100從輸入查詢提取關(guān)鍵詞,使用所提取的關(guān)鍵詞檢索文檔,并且基于檢索到的文檔之間的相互關(guān)系或相似度來對檢索到的文檔進(jìn)行聚類處理。聚類系統(tǒng)100包括查詢輸入單元190、文檔檢索單元160、文檔數(shù)據(jù)庫(DB)110、文檔特征編寫單元120、文檔特征DB 130、聚類DB 140、聚類處理單元150、文檔檢索單元160,和字典DB 170。
聚類系統(tǒng)100的硬件配置沒有特別限制。例如,聚類系統(tǒng)100可以用包括中央處理單元(CPU)或者存儲設(shè)備(例如ROM、RAN)和硬盤的計算機來實現(xiàn)。
本公開文件中使用的術(shù)語“查詢”是指為了從文檔DB 110、文檔特征DB 130、聚類DB 140、和字典DB 170選擇部分文檔的文本輸入,并且包括邏輯表達(dá)式或者自然語言的多個查詢。
公開的專利文檔或者已注冊登記的專利文檔主要存儲于本發(fā)明的文檔DB 110,但是本發(fā)明不限于此。下文中,基于這樣的假設(shè)來進(jìn)行描述,即公開的專利文檔或者已注冊登記的專利文檔被存儲于文檔DB 110中,其中的每個文檔包括“發(fā)明背景”、“發(fā)明摘要”、“優(yōu)選實施例的詳細(xì)描述”內(nèi)容作為識別文檔各部分的標(biāo)記項。
在文檔DB 110中,存儲了多個專利文檔。盡管沒有示出,專利文檔可以從通過網(wǎng)絡(luò)機器人(web robot)與網(wǎng)絡(luò)相連的另一網(wǎng)絡(luò)服務(wù)器獲得。
對于在文檔DB 110中存儲的文檔,由文檔特征編寫單元120提取文檔的屬性信息,并且基于屬性信息編寫關(guān)于文檔的索引。
即,文檔特征編寫單元120從存儲于文檔DB 110的文檔中獲取文本,并且將關(guān)于每個關(guān)鍵詞的出現(xiàn)頻率的索引信息提供給文檔特DB 130。這里,每個關(guān)鍵詞的出現(xiàn)頻率是指每個關(guān)鍵詞在每個文檔中出現(xiàn)的次數(shù)。當(dāng)通過查詢輸入單元190輸入預(yù)定查詢時,文檔檢索單元160使用存儲在文檔特征DB 130中的各文檔的索引文件來檢索包含預(yù)定查詢的文檔。
以圖3所描述的界面的形式,通過輸出單元180向客戶端200提供由文檔檢索單元160檢索的文檔。
當(dāng)通過查詢輸入單元190輸入預(yù)定查詢或者通過網(wǎng)絡(luò)機器人將新文檔提供給文檔DB 110時,文檔特征編寫單元120創(chuàng)建相應(yīng)文檔的索引文件,并且使用索引文件為每個文檔確定特征向量。
現(xiàn)在將參考圖2來描述。
圖2是示出各文檔的屬性信息的示意圖。
圖2中所示的文檔的屬性信息可以通過文檔特征編寫單元120以索引文件的形式來編寫,并且編寫的索引文件被存儲于文檔特征DB 130。
文檔特征編寫單元120可以使用存儲于文檔特征DB 130中的索引文件來確定每個文檔的特征向量,并且還可以將特征向量存儲于文檔特征DB 130中。
圖2示出關(guān)鍵詞A、B、C、D、M、I、K、O、P、Q和Z的出現(xiàn)頻率的信息。例如,文檔1包括關(guān)鍵詞A 35次、關(guān)鍵詞B 19次、關(guān)鍵詞C 15次、和關(guān)鍵詞D 13次。這里,例如,關(guān)鍵詞A的字符“A”不表示字母A,而表示字詞,該字詞是名詞、專有名詞或者復(fù)合名詞。
可以創(chuàng)建各文檔中包含的關(guān)鍵詞出現(xiàn)頻率表,以便按照出現(xiàn)頻率從高到低的順序,依次地排列關(guān)鍵詞。
盡管在圖2中沒有顯示,可以在表中排列各文檔中關(guān)鍵詞出現(xiàn)頻率的百分比,以代替關(guān)鍵詞出現(xiàn)頻率。
例如,可以創(chuàng)建文檔1的索引文件,以包含(A、B、C、D)→(4.5%、2.4%、1.9%、1.7%)的含義,以表示在文檔1中分別以4.5%、2.4%、1.9%和1.7%的比例包含關(guān)鍵詞A、關(guān)鍵詞B、關(guān)鍵詞C,和關(guān)鍵詞D。
以多種方式創(chuàng)建各文檔的檢索文件。使用所創(chuàng)建的檢索文件,可以提取各文檔的特征向量。
詳細(xì)地,文檔特征編寫單元120基于各文檔中的各關(guān)鍵詞的出現(xiàn)頻率來創(chuàng)建表,還使用該表創(chuàng)建各文檔的特征向量。
這里,由文檔特征編寫單元120確定的特征向量使用各文檔的估計值作為分量。例如,在各文檔的關(guān)鍵詞總數(shù)為n的情況下,各文檔的特征向量可以被表達(dá)為n維空間向量,如下面的表達(dá)式1所示特征向量=(關(guān)鍵詞A的估計值w1、關(guān)鍵詞B的估計值w2、...、關(guān)鍵詞n的估計值wn)-----(等式1)為了計算估計值,可以使用在文檔“Salton,GAutomatic Text ProcessingThe transformation,Analysis,and Retrieval of Information by Computer,Addision-Wesely”中公開的tf.idf方案。根據(jù)tf.idf方案,計算出不為零的值作為對應(yīng)于文檔1的n維特征向量的分量的估計值,該分量對應(yīng)于包含在文檔1中的關(guān)鍵詞。計算出的零作為對應(yīng)于不包含在文檔1中的關(guān)鍵詞的分量(例如,字出現(xiàn)頻率為0的關(guān)鍵詞的分量)的估計值。
在這方面,作為特征向量的一個分量的關(guān)鍵詞的估計值可以被認(rèn)為是各文檔中的各關(guān)鍵詞的出現(xiàn)頻率。
在上面的描述中,已經(jīng)描述了由文檔特征編寫單元120創(chuàng)建的各文檔的索引文件和特征向量。現(xiàn)在,將描述用于確定各文檔的代表向量,并對檢索到的文檔進(jìn)行聚類的系統(tǒng)的配置,及其方法。
當(dāng)用戶通過客戶端200輸入預(yù)定查詢時,文檔檢索單元160使用存儲在文檔特征DB 130中的索引文件,通過輸出單元180將包含相應(yīng)查詢的文檔檢索結(jié)果列表顯示到客戶端200。這里,在圖3中示出了提供給客戶端200的文檔檢索結(jié)果的用戶界面。
參考圖3,標(biāo)題(TITLE)、IPC(IPC)、申請?zhí)?Appl.No.)、受讓人(Assignee),和文檔間的相似度(SIMILIARY)可以作為檢索結(jié)果來顯示。這里,由標(biāo)識部分文檔的各字段來確定和輸出文檔的相似度。
如上面所描述的,當(dāng)存儲在文檔DB 110中的文檔是公開或者已注冊登記的專利文檔時,各文檔可以包括諸如“權(quán)利要求”、“摘要”、“發(fā)明背景”、“發(fā)明內(nèi)容”、“
”、和“優(yōu)選實施例的詳細(xì)描述”這樣的標(biāo)記項。這些指示項可以分別被定義為組成文檔的字段。
這里,當(dāng)由用戶輸入的查詢是多個字詞的數(shù)學(xué)組合時,文檔的各字段的相似度基于文檔的各字段中對應(yīng)關(guān)鍵詞的出現(xiàn)頻率。
例如,文檔檢索單元160對于用戶輸入的多個查詢,在文檔DB 110的各文檔中以字段為單位執(zhí)行檢索,并且基于各字段中對應(yīng)查詢的出現(xiàn)頻率來確定對應(yīng)字段的相似度。
如圖3所示,聚類系統(tǒng)100的輸出單元180將作為檢索結(jié)果所獲得的文檔列表提供給客戶端200。輸出單元180包括文檔選擇部分310,允許用戶單獨選擇檢索到的文檔;和聚類請求部分320,基于所選文檔的相似度來執(zhí)行文檔的聚類處理。
用戶可以設(shè)置對于所選文檔執(zhí)行的聚類處理的條件。為此,客戶端200配置有聚類數(shù)量輸入部分330和文檔數(shù)量輸入部分340,其中通過該聚類數(shù)量輸入部分330輸入文檔聚類的數(shù)量,以及通過該文檔數(shù)量輸入部分340輸入每個聚類的文檔數(shù)量。
因此,用戶可以通過聚類數(shù)量輸入部分330和文檔數(shù)量輸入部分340來設(shè)置文檔聚類的數(shù)量和每個聚類的文檔數(shù)量,作為關(guān)于所選文檔的聚類條件。
在下文中,將以通過文檔選擇部分310來選擇上部的十個文檔的情況下的實例來說明文檔的聚類。
當(dāng)用戶從提供給客戶端200的檢索到的文檔列表中選擇十個文檔時,將十個所選文檔的索引文件從文檔特征DB 130提供給聚類處理單元150。
聚類處理單元150的代表向量計算器151確定從索引文件選擇的各文檔的特征向量,并且計算在這些確定的特征向量中用于聚類所需的代表向量。這里,不應(yīng)該因為其名字而認(rèn)為計算代表向量是代表向量計算器151的唯一功能。
圖4示出基于所選文檔的關(guān)鍵詞出現(xiàn)頻率的索引文件,并且特別地,按照出現(xiàn)頻率從高到低的順序排列關(guān)鍵詞A、B、E、D、M、I、K、O、Q,和Z。
這里,代表向量計算器151可以提取在各文檔的關(guān)鍵詞中具有最高頻率的代表關(guān)鍵詞。例如,可以從各文檔的索引文件中選擇對應(yīng)于四個最高出現(xiàn)頻率的四個關(guān)鍵詞。
在這種情況下,可以在文檔1中選擇關(guān)鍵詞A、關(guān)鍵詞B、關(guān)鍵詞E,和關(guān)鍵詞D,以及可以在文檔10中選擇關(guān)鍵詞O、關(guān)鍵詞B、關(guān)鍵詞Q,和關(guān)鍵詞C。
代表向量計算器151可以計算各文檔中各所選關(guān)鍵詞的出現(xiàn)頻率的百分比。例如,代表向量計算器151可以計算各關(guān)鍵詞的出現(xiàn)頻率的百分比,如下關(guān)鍵詞A為4.5%、關(guān)鍵詞B為24%、關(guān)鍵詞C為1.9%、關(guān)鍵詞D為1.7%。
以上面提到的方式,計算關(guān)于每一所選文檔的各關(guān)鍵詞的出現(xiàn)頻率百分比。
在用戶所選的這十個文檔上執(zhí)行該處理之后,按照關(guān)于這十個所選文檔的各關(guān)鍵詞來對百分比進(jìn)行累加,并且選擇與通過累加運算所獲得的值的四個最大值對應(yīng)的四個特定關(guān)鍵詞作為代表關(guān)鍵詞。
例如,當(dāng)通過按照全部十個文檔的各關(guān)鍵詞對百分比進(jìn)行累加所獲得的值以關(guān)鍵詞B、關(guān)鍵詞A、關(guān)鍵詞E、關(guān)鍵詞D、關(guān)鍵詞O、關(guān)鍵詞C,和關(guān)鍵詞K的順序遞減時,可以選擇關(guān)鍵詞B、關(guān)鍵詞A、關(guān)鍵詞E,和關(guān)鍵詞D作為用于對所選文檔進(jìn)行聚類的代表關(guān)鍵詞。
所選代表關(guān)鍵詞被用作代表向量的分量,因此計算關(guān)于各文檔的特征向量。
即,按照出現(xiàn)頻率從高到低的順序,依次排列所選代表關(guān)鍵詞。這些代表關(guān)鍵詞被選出作為代表向量的分量。
基于所選關(guān)鍵詞B、A、E和D編寫各文檔的特征向量。這里,四個所選關(guān)鍵詞對應(yīng)于文檔索引文件中的四個最高出現(xiàn)頻率。在當(dāng)前實施例中,四個代表關(guān)鍵詞被選出作為代表向量的分量,并且使用在文檔中的以最高頻率出現(xiàn)的四個關(guān)鍵詞來編寫各文檔的特征向量。但是,這只是本發(fā)明的實例,可以由系統(tǒng)管理員任意改變。
當(dāng)所選代表關(guān)鍵詞包含在相應(yīng)文檔中時,將向量分量設(shè)為“1”,如果所選代表關(guān)鍵詞沒有包含在相應(yīng)文檔中,則將向量分量設(shè)為“0”。代替1和0,可以將對各關(guān)鍵詞計算權(quán)值而獲得的值編寫為向量分量。
參考圖5,當(dāng)代表關(guān)鍵詞包含在相應(yīng)文檔中時,每個文檔的特征向量通過設(shè)置為“1”來完成,并且在代表關(guān)鍵詞被包含其中時設(shè)置為“0”。
通過上述過程,文檔1的特征向量被確定為(1,1,1,1),文檔2的特征向量被確定為(1,1,0,1)。盡管在當(dāng)前實施例中各特征向量的分量是1或0,但是根據(jù)代表關(guān)鍵詞的出現(xiàn)頻率,可以分配不同的值作為向量分量。
使用這些文檔的特征向量來執(zhí)行代表向量(或者中心向量)的選擇處理。這里,可以選擇特征向量大小最大的特征向量作為代表向量。
在這種情況下,可選擇文檔1的特征向量(1,1,1,1)作為圖5所示的特征向量的代表向量??梢愿鶕?jù)文檔1的特征向量(下文中,稱為代表向量)和多個文檔的特征向量之間的內(nèi)積值來確定文檔之間的相似度。
詳細(xì)地,特征向量可以表示各相應(yīng)文檔,并且可以在這些特征向量中選擇代表向量,以根據(jù)文檔的相似度來執(zhí)行聚類處理。
另外,可以使用所選代表向量的內(nèi)積來計算各文檔的相似度。例如,當(dāng)通過代表向量和文檔2的特征向量之間的內(nèi)積而獲得的值落在預(yù)設(shè)范圍內(nèi)時,與文檔2的特征向量對應(yīng)的文檔可以聚類為與代表向量對應(yīng)的一個文檔。
假設(shè)代表向量被稱為代表向量A,并且為了確定相似度而與代表向量A比較的文檔的特征向量是特征向量B,聚類處理單元150的相似度計算器152根據(jù)“1”與一個值(這個值是代表向量A和特征向量B之間的內(nèi)積值除以|A|2所獲得的值)之間的差值來確定對應(yīng)于代表向量A的文檔和對應(yīng)于特征向量B的文檔之間的相似度。
但是,如果由各文檔的代表向量和特征向量之間的內(nèi)積獲得的值落在預(yù)設(shè)范圍內(nèi),則對應(yīng)于特征向量的文檔不能與代表向量的文檔聚類到一起,而用作另一個聚類的文檔。
即,如果例如代表向量(文檔1的特征向量)和文檔2的特征向量之間的內(nèi)積獲得的值落在預(yù)設(shè)范圍內(nèi),則對應(yīng)于特征向量的文檔2可以與對應(yīng)于代表向量的文檔1聚類,但是如果沒有落在預(yù)設(shè)范圍內(nèi),則文檔2不與文檔1聚類。
對于沒有與文檔1聚類的文檔,執(zhí)行另一個代表向量的計算處理。在這種情況下,以如圖5所示的相同方式再次計算各文檔的特征向量。
即,與文檔1聚類的文檔可以分類為第一組。對于沒有被分為第一組的其他文檔,執(zhí)行如下處理從文檔的索引文件中選擇代表關(guān)鍵詞,使用所選的代表關(guān)鍵詞選擇文檔的特征向量,從所選特征向量中選擇代表向量,并且使用所選代表向量和其他文件的各特征向量之間的內(nèi)積值來確定文檔的相似度。
通過上述處理來設(shè)置與第一組不同的第二組文檔。由聚類處理單元50聚類的文檔按每組進(jìn)行分類,并存儲在聚類DB 140中。
在當(dāng)前實施例中,對各文檔來提取特征向量,從提取的特征向量中選擇代表向量,并且由所選代表向量和每一特征向量之間的內(nèi)積獲得的值與預(yù)設(shè)參考值相比較,由此對文檔進(jìn)行分類。因此,可以對相似文檔進(jìn)行聚類。
上述文檔聚類教導(dǎo)了可以執(zhí)行下面的功能。
如圖3所示,用戶可以通過聚類數(shù)量輸入單元330來設(shè)置文檔聚類的數(shù)量,并且可以通過文檔數(shù)量輸入單元340來設(shè)定每個聚類的文檔數(shù)量的限制。
由代表向量和各文檔的特征向量之間的內(nèi)積獲得的值與參考值比較,并且確定對應(yīng)于特征向量的文檔是否可以與對應(yīng)于代表向量的文檔一起聚類。這個事實表明根據(jù)參考值來確定待聚類文檔的數(shù)量范圍。
用于將多個文檔聚類為組的代表向量與被聚類的文檔一起通過聚類處理單元150的聚類DB管理器153存儲在聚類DB 140中。
由于存儲了用于聚類的代表向量,可以利用所使用的代表向量來確定新文檔的相似度。
這里,組成代表向量分量的代表關(guān)鍵詞必須與代表向量一起存儲。
由于文檔被聚類,所以用戶可以選擇和研究已分類的組的文檔。因此,可以將更精確的,而不僅僅是大量的信息提供給用戶。
在本發(fā)明的上述實施例中,使用對存儲在文檔DB 110中的文檔所編寫的索引文件來提取文檔的特征向量,并且使用所提取的特征向量選擇代表向量和計算文檔的相似度。在下文中,將描述存儲在文檔DB 110中的新文檔的自動聚類。
根據(jù)本發(fā)明的聚類處理單元150包括聚類DB管理器153,用于管理存儲在聚類DB 140中的被聚類的文檔。當(dāng)將新文檔存儲到文檔DB 110中時,聚類DB管理器153使得通過使用聚類DB 140中的多個預(yù)選的代表向量對新文檔進(jìn)行自動聚類。
現(xiàn)在參考圖6,詳細(xì)描述自動聚類。
圖6是根據(jù)本發(fā)明實施例的對新文檔進(jìn)行自動聚類的方法的流程圖。
圖6示出當(dāng)通過網(wǎng)絡(luò)機器人提供新文檔給系統(tǒng)的文檔DB 110時的自動聚類方法。
首先,將新文檔存儲在文檔DB 110中(S601),并且由文檔特征編寫單元120編寫新文檔的索引文件。
聚類處理單元150的代表向量計算器151使用所編寫的索引文件來確定關(guān)于新文檔的特征向量(S603)。這里,由代表向量計算器151編寫的特征向量分量的數(shù)量被設(shè)定為預(yù)設(shè)數(shù)量。在前面的圖4和圖5的實施例中,對于特征向量設(shè)置四個向量分量。
聚類處理單元150的相似度計算器152通過新文檔的特征向量和聚類DB 140中預(yù)先存儲的代表向量之間的內(nèi)積值來確定新文檔的相似度(S605)。
即,文檔向量計算器151根據(jù)新文檔的索引文件確定關(guān)于新文檔的特征向量,并且聚類DB管理器153通過對新文檔所確定的特征向量和預(yù)先存儲的代表向量之間的內(nèi)積值來確定相似度。
這里,如上所述,隨著由代表向量A和新文檔的特征向量C之間的內(nèi)積值除以|A|2而得到的值與“1”越接近,則新文檔和對應(yīng)于代表向量A的文檔之間的相似度越高。
因此,聚類DB管理器153可以使用多個預(yù)先存儲的代表向量來確定新文檔的相似度,并且可以將新文檔聚類到對應(yīng)于代表向量的具有高相似度的文檔所屬的組(S607)。
通過上述處理,當(dāng)由網(wǎng)絡(luò)機器人將新文檔提供給文檔DB 110時,新文檔可以自動聚類到最相似的組,而不需要用戶執(zhí)行聚類操作。
在前面的實施例中,從文檔中提取關(guān)鍵詞,根據(jù)所提取的關(guān)鍵詞編寫索引文件,并且使用所編寫的索引文件來計算特征向量和代表向量,并且使用計算出的向量來確定文檔之間的相似度,以用于聚類。
另外,可以編寫關(guān)于文檔的特定字段的索引文件,因此可以通過所編寫的索引文件將具有相似特定字段的文檔聚類到一起。
聚類處理單元150包括字段聚類部分154,用于根據(jù)字段(即,標(biāo)記項)之間的相似度對文檔進(jìn)行聚類。字段聚類部分154可以將具有相似特定字段的文檔聚類在一起。
即,如果本發(fā)明中使用的文檔是專利文檔,那么每個專利文檔包括諸如“權(quán)利要求”、“摘要”、“背景技術(shù)”、“發(fā)明內(nèi)容”、“
”和“優(yōu)選實施例的詳細(xì)說明”這樣的標(biāo)記項。這里,專利文檔可以根據(jù)特定標(biāo)記項(或字段)被聚類。
由于例如“背景技術(shù)”和“發(fā)明內(nèi)容”的字段而彼此相似的專利文檔可以被聚類到一起。
在這種情況下,文檔特征編寫單元120從文檔DB 110中存儲的專利文檔的“背景技術(shù)”和“發(fā)明內(nèi)容”的字段中提取關(guān)鍵詞,利用所提取的關(guān)鍵詞編寫文檔的索引文件,并且將索引文件存儲在文檔特征DB 130中。
聚類處理單元150的代表向量計算器151使用包含在文檔的“背景技術(shù)”和“發(fā)明內(nèi)容”字段中的關(guān)鍵詞的出現(xiàn)頻率來選擇特征向量和代表向量。
因此,代表向量和特征向量之間的內(nèi)積,和文檔之間的相似度,使用相似度計算器,參考文檔的“背景技術(shù)”和“發(fā)明內(nèi)容”的字段來確定。
因此,具有相似的字段的專利文檔可以被聚類到一起。這樣,具有相似的背景技術(shù)問題的專利文檔可以被聚類。另外,使用“背景技術(shù)”和“發(fā)明內(nèi)容”的字段彼此相似的專利文檔可以聚類到一起。
可以以特定字段為單位對文檔進(jìn)行聚類的事實表明可以由字段聚類部分154以特定字段為單位對新文檔進(jìn)行自動聚類。
本領(lǐng)域技術(shù)人員應(yīng)該明白,可以對本發(fā)明做出各種修改和變化。因此,本發(fā)明旨在覆蓋在所屬權(quán)利要求及其等同物的范圍內(nèi)對本發(fā)明所進(jìn)行的修改和變化。
權(quán)利要求
1.一種文檔聚類系統(tǒng),包括文檔數(shù)據(jù)庫,用于存儲文檔;文檔特征編寫單元,用于提取在所述文檔數(shù)據(jù)庫中存儲的文檔的屬性信息,并且基于所述屬性信息編寫關(guān)于各文檔的索引;文檔檢索單元,利用所述索引來檢索包含用戶輸入的查詢的文檔;聚類處理單元,包括用于計算檢索到的文檔的特征向量和代表向量的代表向量計算器,以及使用所述特征向量和所述代表向量計算文檔之間相似度的相似度計算器;以及聚類數(shù)據(jù)庫,存儲由聚類處理單元聚類的文檔。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述代表向量計算器基于在每個檢索到的文檔中包含的關(guān)鍵詞的出現(xiàn)頻率來計算特征向量。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述代表向量是具有在多個文檔特征向量的絕對值中最大絕對值的向量。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述相似度計算器利用代表向量和特征向量之間的內(nèi)積而獲得的值來確定文檔之間的相似度。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述文檔是專利文檔,并且所述聚類處理單元還包括字段聚類部分,其使用組成所述專利文檔的標(biāo)記項對彼此相似的文檔進(jìn)行聚類處理。
6.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述聚類處理單元將所述代表向量計算器計算的代表向量和所聚類的文檔存儲在所述聚類數(shù)據(jù)庫中。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中所述文檔數(shù)據(jù)庫存儲由網(wǎng)絡(luò)機器人提供的新文檔,以及在新文檔提供給文檔數(shù)據(jù)庫時,所述聚類處理單元使用關(guān)于新文檔的特征向量和存儲在所述聚類數(shù)據(jù)庫中的代表向量來對新文檔進(jìn)行聚類處理。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中所述聚類處理單元還包括聚類數(shù)據(jù)庫管理器,用于管理在所述聚類數(shù)據(jù)庫中存儲的已聚類的文檔和用于聚類處理的代表向量,以及所述聚類數(shù)據(jù)庫管理器執(zhí)行新文檔的聚類處理。
9.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述文檔特征編寫單元利用包含在每個文檔中的特定字段的關(guān)鍵詞來編寫索引,以及所述聚類處理單元計算關(guān)于文檔的特定字段的特征向量和代表向量。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述聚類處理單元還包括字段聚類部分,用于根據(jù)文檔之間的特定字段相似度對文檔進(jìn)行聚類,其中所述字段聚類處理單元基于由所述代表向量和所述特征向量之間的內(nèi)積值除以所述特征向量的絕對值的平方而獲得的值來確定字段相似度。
11.一種文檔聚類方法,所述方法包括從存儲在文檔數(shù)據(jù)庫中的每個文檔中提取關(guān)鍵詞,并且利用所提取的關(guān)鍵詞編寫單元索引;利用所編寫的文檔索引選擇用于組成每個文檔的代表關(guān)鍵詞;利用所述代表關(guān)鍵詞確定文檔的特征向量;確定特征向量中的代表向量,以對檢索到的文檔進(jìn)行聚類處理;利用所述代表向量和所述特征向量進(jìn)行計算,來確定檢索到文檔的相似度;以及根據(jù)所述相似度對文檔進(jìn)行聚類。
12.根據(jù)權(quán)利要求11所述的方法,其中通過將預(yù)設(shè)參考值與代表向量和特征向量之間的內(nèi)積值除以所述代表向量的絕對值的平方而獲得的值進(jìn)行比較,來確定所述相似度。
13.根據(jù)權(quán)利要求11所述的方法,其中對文檔的聚類包括存儲用于對文檔進(jìn)行聚類的代表向量。
14.根據(jù)權(quán)利要求13所述的方法,其中當(dāng)新文檔存儲到所述文檔數(shù)據(jù)庫中時,計算關(guān)于新文檔的特征向量,并且利用預(yù)先存儲的代表向量和新文檔的特征向量之間的內(nèi)積而獲得的值自動執(zhí)行對新文檔的聚類處理。
15.根據(jù)權(quán)利要求11所述的方法,其中文檔是專利文檔,并且關(guān)于所述專利文檔的標(biāo)記項的特定字段計算所述特征向量和所述代表向量。
全文摘要
提供一種文檔聚類系統(tǒng)和方法。該方法包括用于存儲文檔的文檔DB、文檔特征編寫單元、文檔檢索單元、聚類處理單元以及聚類DB。文檔DB存儲文檔。文檔特征編寫單元提取在文檔數(shù)據(jù)庫中存儲的文檔的屬性信息,以及基于屬性信息編寫關(guān)于各文檔的索引。文檔檢索單元使用索引來檢索包括用戶輸入的查詢的文檔。聚類處理單元包括代表向量計算器,用于計算檢索到的文檔的特征向量和代表向量,和相似度計算器,用于使用特征向量和代表向量來計算文檔間的相似度。聚類數(shù)據(jù)庫存儲由聚類處理單元聚類的文檔。
文檔編號G06F17/30GK101055585SQ200710085458
公開日2007年10月17日 申請日期2007年3月5日 優(yōu)先權(quán)日2006年4月13日
發(fā)明者車完奎, 金晶中, 安漢峻 申請人:Lg電子株式會社