基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法及其系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法,包括:網(wǎng)絡(luò)信息爬取、信息預(yù)處理、關(guān)鍵詞提取、評(píng)論文檔重組和細(xì)粒度的標(biāo)記LDA學(xué)習(xí);本發(fā)明還公開(kāi)了一種基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取系統(tǒng),包括:網(wǎng)絡(luò)信息爬取模塊、信息預(yù)處理模塊、關(guān)鍵詞提取模塊、評(píng)論文檔重組模塊和細(xì)粒度的標(biāo)記LDA學(xué)習(xí)模塊。本發(fā)明可以使得提取出來(lái)的商品各個(gè)方面的描述更加明確、方面之間的區(qū)別更加清晰;另外,本發(fā)明生成的方面結(jié)構(gòu)(順序和內(nèi)容)能與預(yù)先定義在種子詞集中的商品方面結(jié)構(gòu)保持一致,從而,本發(fā)明具有能有效地將消費(fèi)者描述同一商品方面的不同用語(yǔ)進(jìn)行語(yǔ)義聚類(lèi),并可以在對(duì)商品進(jìn)行觀(guān)點(diǎn)挖掘時(shí)減少人工干預(yù)等優(yōu)點(diǎn)。
【專(zhuān)利說(shuō)明】基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種商品觀(guān)點(diǎn)挖掘技術(shù),特別涉及一種基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法及其系統(tǒng)。
【背景技術(shù)】
[0002]隨著電子商務(wù)的日益普及,越來(lái)越多的消費(fèi)者都選擇在網(wǎng)上購(gòu)買(mǎi)商品和服務(wù),尤其是近幾年的蓬勃發(fā)展,不同模式(B2B、B2C、C3C等)、不同領(lǐng)域的各類(lèi)型電子商務(wù)網(wǎng)站不斷涌現(xiàn),競(jìng)爭(zhēng)不斷加劇,用戶(hù)需求也不斷提高。生產(chǎn)和銷(xiāo)售廠(chǎng)商總是試圖及時(shí)獲取公眾或消費(fèi)者對(duì)它們產(chǎn)品和服務(wù)的評(píng)價(jià)觀(guān)點(diǎn)以提升產(chǎn)品質(zhì)量及銷(xiāo)量;而潛在的消費(fèi)者在享受一種服務(wù)或購(gòu)買(mǎi)一種產(chǎn)品之前,也想知道當(dāng)前消費(fèi)者的評(píng)價(jià)觀(guān)點(diǎn),以便選擇真正適合自身的產(chǎn)品。通過(guò)對(duì)網(wǎng)絡(luò)上大量的消費(fèi)者評(píng)論反饋進(jìn)行自動(dòng)化的觀(guān)點(diǎn)挖掘有助于解決上述問(wèn)題,自動(dòng)化的觀(guān)點(diǎn)挖掘有以下三個(gè)方面的優(yōu)勢(shì):首先,該方法總結(jié)的結(jié)果可以避免用手工閱卷中公司的人員變動(dòng)使得評(píng)價(jià)結(jié)果出現(xiàn)不一致的現(xiàn)象。其次,該類(lèi)系統(tǒng)可以近實(shí)時(shí)地從網(wǎng)上吸收大量的信息進(jìn)行分析,這使得調(diào)查成本相對(duì)較低。第三,觀(guān)點(diǎn)挖掘系統(tǒng)還可以處理多種語(yǔ)言的文檔,這在傳統(tǒng)方法中,對(duì)于一般人員是很難達(dá)到掌握多種語(yǔ)言的要求。然而,在當(dāng)前主流的觀(guān)點(diǎn)挖掘框架中,對(duì)于商品方面的提取往往是整個(gè)框架的瓶頸,因?yàn)樵摬襟E需要將描述相同商品方面的不同用語(yǔ)進(jìn)行語(yǔ)義歸類(lèi)。此問(wèn)題是目前該領(lǐng)域的一個(gè)研究熱點(diǎn)。
[0003]當(dāng)前商品方面提取的方法主要有:基于頻繁字符串和基于主題模型(topicmodel)的挖掘算法。前者的主要不足是不能將描述同一商品方面的語(yǔ)義相關(guān)的用語(yǔ)進(jìn)行歸類(lèi),這導(dǎo)致該類(lèi)方法無(wú)法用一種有結(jié)構(gòu)的方式幫助用戶(hù)快速、直觀(guān)地了解商品的各個(gè)方面特征;對(duì)于后者,大部分方法采用的是無(wú)監(jiān)督式的學(xué)習(xí)方式,這導(dǎo)致了以下的缺點(diǎn)與不足:
[0004]1.模型生成方面的粒度和分類(lèi)標(biāo)準(zhǔn)可能與人的認(rèn)知習(xí)慣相悖,使得結(jié)果難以被理解。
[0005]2.無(wú)監(jiān)督模型每次生成的方面序列不能保持一個(gè)穩(wěn)定的結(jié)構(gòu),導(dǎo)致難以在自動(dòng)化的分析算法中應(yīng)用。
[0006]3.由于大部分評(píng)論都包含相同或相似的商品方面,這將使得基于單詞共現(xiàn)性原理的主題模型方法難以將各個(gè)相關(guān)但不同的方面清晰地加以區(qū)分。
[0007]因此,為了更有效地從商品評(píng)論中提取商品方面,需要引入一些先驗(yàn)知識(shí)來(lái)監(jiān)督主題模型的學(xué)習(xí)過(guò)程,使得模型提取出來(lái)的商品方面分類(lèi)更加清晰、更好地滿(mǎn)足人們的認(rèn)知習(xí)慣、并以一種較穩(wěn)定的結(jié)構(gòu)輸出。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的首要目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法,該方法通過(guò)同時(shí)在文檔層次和詞層次對(duì)LDA模型進(jìn)行標(biāo)記學(xué)習(xí),可以使得提取出來(lái)的各個(gè)商品方面的相關(guān)的信息描述得更加明確,方面之間的區(qū)別更加清晰。[0009]本發(fā)明的另一目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取系統(tǒng),該系統(tǒng)能與預(yù)先定義的方面種子詞的結(jié)構(gòu)保持一致,從而有效地將消費(fèi)者描述同一商品方面的不同用語(yǔ)進(jìn)行語(yǔ)義聚類(lèi),并可以在對(duì)商品進(jìn)行觀(guān)點(diǎn)挖掘時(shí)減少人工干預(yù)。
[0010]本發(fā)明的首要目的通過(guò)下述技術(shù)方案實(shí)現(xiàn):基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法,包括:
[0011]網(wǎng)絡(luò)信息爬取,從電子商務(wù)網(wǎng)站上爬取消費(fèi)者對(duì)于關(guān)注商品的評(píng)論,以及電子商務(wù)網(wǎng)站中對(duì)于商品半結(jié)構(gòu)化的商品細(xì)節(jié)描述信息;
[0012]信息預(yù)處理,將爬取到的評(píng)論進(jìn)行分詞、詞性標(biāo)注和去除停頓詞處理,并提取評(píng)論中的特征單詞;
[0013]關(guān)鍵詞提取,從電子商務(wù)網(wǎng)站中半結(jié)構(gòu)化的商品細(xì)節(jié)描述信息中提取每個(gè)方面類(lèi)別的關(guān)鍵詞作為半監(jiān)督主題模型的種子詞集,獲取由電商網(wǎng)站中的專(zhuān)業(yè)領(lǐng)域定義的或符合人們認(rèn)知習(xí)慣的商品方面分類(lèi)作為半監(jiān)督方法的先驗(yàn)知識(shí);
[0014]評(píng)論文檔重組,將評(píng)論中各個(gè)句子利用提取的所述關(guān)鍵詞進(jìn)行標(biāo)記,然后將含有相同關(guān)鍵詞的句子重新組合成新的文檔,得到主題鮮明、共現(xiàn)商品方面較少的學(xué)習(xí)文檔;
[0015]細(xì)粒度的標(biāo)記LDA學(xué)習(xí),通過(guò)半監(jiān)督的LDA主題模型識(shí)別評(píng)論中的產(chǎn)品特征,將所述的產(chǎn)品特征的屬于同一方面的特征進(jìn)行歸類(lèi);所述半監(jiān)督的LDA主題模型是通過(guò)加入方面-詞的約束關(guān)系來(lái)監(jiān)督模型生成更加易于理解、清晰的分類(lèi),并獲得順序和種子詞集中定義相一致的商品方面集;所述的方面-詞的約束關(guān)系是指在評(píng)論中,關(guān)鍵詞具有特定的方面傾向,如:“LCD”更多的是用來(lái)描述“屏幕”方面;
[0016]其中,所述方面類(lèi)別Ci中的第j個(gè)細(xì)節(jié)描述短語(yǔ)Pi,j中的關(guān)鍵詞Wt的定義為以下三種定義中的任意一種定義:
【權(quán)利要求】
1.基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法,其特征在于,包括: 網(wǎng)絡(luò)信息爬取,從電子商務(wù)網(wǎng)站上爬取消費(fèi)者對(duì)于關(guān)注商品的評(píng)論,以及電子商務(wù)網(wǎng)站中對(duì)于商品半結(jié)構(gòu)化的商品細(xì)節(jié)描述信息; 信息預(yù)處理,將爬取到的評(píng)論進(jìn)行分詞、詞性標(biāo)注和去除停頓詞處理,并提取評(píng)論中的特征單詞; 關(guān)鍵詞提取,從電子商務(wù)網(wǎng)站中半結(jié)構(gòu)化的商品細(xì)節(jié)描述信息中提取每個(gè)方面類(lèi)別的關(guān)鍵詞作為半監(jiān)督主題模型的種子詞集,獲取由電商網(wǎng)站中的專(zhuān)業(yè)領(lǐng)域定義的或符合人們認(rèn)知習(xí)慣的商品方面分類(lèi)作為半監(jiān)督方法的先驗(yàn)知識(shí); 評(píng)論文檔重組,將評(píng)論中各個(gè)句子利用提取的所述關(guān)鍵詞進(jìn)行標(biāo)記,然后將含有相同關(guān)鍵詞的句子重新組合成新的文檔,得到學(xué)習(xí)文檔; 細(xì)粒度的標(biāo)記LDA學(xué)習(xí),通過(guò)半監(jiān)督的LDA主題模型識(shí)別評(píng)論中的產(chǎn)品特征,將所述的產(chǎn)品特征的屬于同一方面的特征進(jìn)行歸類(lèi);所述半監(jiān)督的LDA主題模型是通過(guò)加入方面-詞的約束關(guān)系來(lái)監(jiān)督模型生成分類(lèi),并獲得順序與種子詞集中定義相一致的商品方面集;所述的方面-詞的約束關(guān)系是指在評(píng)論中,關(guān)鍵詞具有特定的方面傾向; 其中,所述方面類(lèi)別Ci中的第j個(gè)細(xì)節(jié)描述短語(yǔ)ρ。中的關(guān)鍵詞Wt的定義為以下三種定義中的任意一種定義:
2.根據(jù)權(quán)利要求1所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法,其特征在于,所述的細(xì)粒度的標(biāo)記LDA學(xué)習(xí)包括以下步驟: (5a)利用種子詞集初始化詞-主題相關(guān)性變量P;:相關(guān)性變量的設(shè)置表達(dá)式如下:
3.根據(jù)權(quán)利要求1所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法,其特征在于,所述的評(píng)論文檔重組包括以下步驟: (4a)將評(píng)論拆分為句子,并對(duì)包含了細(xì)節(jié)描述或種子詞的句子,使用細(xì)節(jié)描述短語(yǔ)和種子詞進(jìn)行標(biāo)記,如果某個(gè)句子同時(shí)包含了單詞\和\_,當(dāng)&為\的字串時(shí),該句子只會(huì)被標(biāo)記為h; (4b)將包含了相同字符串標(biāo)記的句子重新組合成新的文檔。
4.根據(jù)權(quán)利要求1所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法,其特征在于,所述的網(wǎng)絡(luò)信息爬取包括以下步驟: (Ia)利用Scrapy爬蟲(chóng)引擎打開(kāi)一個(gè)域名,定位出處理該域名的蜘蛛,所述蜘蛛指用戶(hù)自定義的類(lèi),用于從解析回應(yīng)、提取網(wǎng)頁(yè)中相應(yīng)的項(xiàng)或者提取出特定的URL用于后續(xù)爬取,Scrapy爬蟲(chóng)引擎再請(qǐng)求蜘蛛提供種子URL ; (Ib)引擎從蜘蛛獲取種子URL,再包裝為請(qǐng)求在調(diào)度器中進(jìn)行調(diào)度,引擎從調(diào)度器獲取下一個(gè)待爬取的請(qǐng)求; (Ic)調(diào)度器將下一個(gè)待爬取的請(qǐng)求返回給引擎,引擎將下一個(gè)待爬取的請(qǐng)求發(fā)送到下載器; (Id)當(dāng)網(wǎng)頁(yè)被下載器下載完成以后,把響應(yīng)內(nèi)容發(fā)送到引擎; (Ie)引擎在收到下載 器的響應(yīng)內(nèi)容后,將響應(yīng)內(nèi)容發(fā)送到蜘蛛進(jìn)行處理; (If)蜘蛛處理響應(yīng)內(nèi)容并返回爬取到的項(xiàng),然后給引擎發(fā)送新的請(qǐng)求; (Ig)引擎將抓取到的項(xiàng)放入項(xiàng)目流水線(xiàn),并向調(diào)度器發(fā)送請(qǐng)求; (Ih)重復(fù)執(zhí)行步驟(Ib)至(lg),直到調(diào)度器中所有請(qǐng)求都完成為止,最后斷開(kāi)引擎與域之間的聯(lián)系。
5.根據(jù)權(quán)利要求1所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法,其特征在于,所述的信息預(yù)處理包括以下步驟: (2a)對(duì)于英文,首先將所有字符轉(zhuǎn)換為小寫(xiě),再將所有評(píng)論進(jìn)行分詞及詞性標(biāo)注;對(duì)于中文,直接對(duì)評(píng)論進(jìn)行分詞及詞性標(biāo)注; (2b)對(duì)于英文,去除停頓詞、包含數(shù)字和URL的字符串,再將所有單詞進(jìn)行詞干化以得到單詞原型,最后提取詞性為名詞或名詞短語(yǔ)的單詞作為評(píng)論文檔的特征詞;對(duì)于中文,直接提取詞性為名詞或名詞短語(yǔ)的單詞作為評(píng)論文檔的特征詞; 所述的關(guān)鍵詞提取包括以下步驟: (3a)對(duì)于每一個(gè)商品細(xì)節(jié)描述短語(yǔ)進(jìn)行分詞、去除數(shù)字、標(biāo)點(diǎn)符號(hào)和停頓詞處理; (3b)遍歷所有細(xì)節(jié)描述短語(yǔ)中的各個(gè)單詞,計(jì)算出每個(gè)單詞Wm在各個(gè)方面類(lèi)別Ci中的詞頻、TFIDF值,并記錄下每個(gè)類(lèi)別Ci中的最大詞頻和TFIDF值; (3c)遍歷每個(gè)商品方面Ci中每個(gè)描述短語(yǔ)Pu的單詞Wt,判斷Wt是否是Pu中擁有最大TFIDF值的詞且Pi,j中只有唯一的單詞擁有最大的TFIDF值,如果是,則將Wt加入到方面類(lèi)別Ci的種子詞集Si ;否則,判斷Wt是否是P。中擁有最大TF值的詞且ρ。中只有唯一的單詞擁有最大的TF值,如果是,則將Wt加入到方面類(lèi)別Ci的種子詞集Si ;否則,判斷Wt的TFIDF值是否等于1,如果是,則將Wt加入到方面類(lèi)別Ci的種子詞集Si ;否則,將Wt排除在方面Ci的種子詞集Si之外。
6.基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取系統(tǒng),其特征在于,包括:網(wǎng)絡(luò)信息爬取模塊,用于從電子商務(wù)網(wǎng)站上爬取消費(fèi)者對(duì)于關(guān)注商品的評(píng)論,以及電子商務(wù)網(wǎng)站中對(duì)于商品的半結(jié)構(gòu)化的商品細(xì)節(jié)描述信息; 信息預(yù)處理模塊,用于將爬取到的評(píng)論進(jìn)行分詞、詞性標(biāo)注、去除停頓詞,提取評(píng)論中的特征單詞處理; 關(guān)鍵詞提取模塊,用于從電子商務(wù)網(wǎng)站中半結(jié)構(gòu)的商品細(xì)節(jié)描述信息中提取每個(gè)方面類(lèi)別的關(guān)鍵詞作為半監(jiān)督主題模型的種子詞集,獲取由電商網(wǎng)站中的專(zhuān)業(yè)領(lǐng)域定義的或符合人們認(rèn)知習(xí)慣的商品方面分類(lèi)作為半監(jiān)督方法的先驗(yàn)知識(shí); 評(píng)論文檔重組模塊,用于將評(píng)論中各個(gè)句子利用提取的所述關(guān)鍵詞進(jìn)行標(biāo)記,然后將含有相同關(guān)鍵詞的句子重新組合成新的文檔,得到學(xué)習(xí)文檔; 細(xì)粒度的標(biāo)記LDA學(xué)習(xí)模塊,用于通過(guò)半監(jiān)督的LDA主題模型識(shí)別評(píng)論中的產(chǎn)品特征并將所述的產(chǎn)品特征的屬于同一方面的特征進(jìn)行歸類(lèi);所述半監(jiān)督的LDA主題模型是通過(guò)加入方面-詞的約束關(guān)系來(lái)監(jiān)督模型生成分類(lèi),并獲得順序和種子詞集中定義相一致的商品方面集;所述的方面-詞的約束關(guān)系是指在評(píng)論中,關(guān)鍵詞具有特定的方面傾向; 其中,所述方面類(lèi)別Ci中的第j個(gè)細(xì)節(jié)描述短語(yǔ)ρ。中的關(guān)鍵詞Wt的定義為以下三種定義中的任意一種定義:
7.根據(jù)權(quán)利要求6所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取系統(tǒng),其特征在,所述的細(xì)粒度的標(biāo)記LDA學(xué)習(xí)模塊具體用于: 利用種子詞集初始化詞-主題相關(guān)性變量p]f,所述相關(guān)性變量P。的設(shè)置表達(dá)式如下:
8.根據(jù)權(quán)利要求6所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取系統(tǒng),其特征在,所述的評(píng)論文檔重組模塊具體用于:將評(píng)論拆分為句子,并對(duì)包含了細(xì)節(jié)描述或種子詞的句子使用細(xì)節(jié)描述短語(yǔ)和種子詞進(jìn)行標(biāo)記,如果某個(gè)句子同時(shí)包含了單詞ti和當(dāng)h為ti的字串時(shí),該句子只會(huì)被標(biāo)記為ti; 將包含了相同字符串標(biāo)記的句子重新組合成新的文檔。
9.根據(jù)權(quán)利要求6所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取系統(tǒng),其特征在,所述的網(wǎng)絡(luò)信息爬取模塊具體用于: 利用Scrapy爬蟲(chóng)引擎打開(kāi)一個(gè)域名,定位出處理該域名的蜘蛛,再請(qǐng)求蜘蛛提供種子URL,所述的蜘蛛指用戶(hù)自定義的類(lèi),用于從解析回應(yīng)、提取網(wǎng)頁(yè)中相應(yīng)的項(xiàng)或者提取出特定的URL用于后續(xù)爬??; 引擎從蜘蛛獲取種子URL,再包裝為請(qǐng)求在調(diào)度器中進(jìn)行調(diào)度,最后引擎從調(diào)度器獲取下一個(gè)待爬取的請(qǐng)求; 調(diào)度器將下一個(gè)待爬取的請(qǐng)求返回給引擎,引擎將下一個(gè)待爬取的請(qǐng)求發(fā)送到下載器; 當(dāng)網(wǎng)頁(yè)被下載器下載完成以后,把響應(yīng)內(nèi)容發(fā)送到引擎; 引擎在收到下載器的響應(yīng)內(nèi)容后,將響應(yīng)內(nèi)容發(fā)送到蜘蛛進(jìn)行處理; 蜘蛛處理響應(yīng)內(nèi)容并返回爬取到的項(xiàng),然后給引擎發(fā)送新的請(qǐng)求; 引擎將抓取到的項(xiàng)放入項(xiàng)目流水線(xiàn)并向調(diào)度器發(fā)送請(qǐng)求; 依次重復(fù)執(zhí)行 引擎蜘蛛獲取種子URL,再包裝為請(qǐng)求在調(diào)度器中進(jìn)行調(diào)度,引擎從調(diào)度器獲取下一個(gè)待爬取的請(qǐng)求; 調(diào)度器將下一個(gè)待爬取的請(qǐng)求返回給引擎,引擎將下一個(gè)待爬取的請(qǐng)求發(fā)送到下載器; 當(dāng)網(wǎng)頁(yè)被下載器下載完成以后,把響應(yīng)內(nèi)容發(fā)送到引擎; 引擎在收到下載器的響應(yīng)內(nèi)容后,將響應(yīng)內(nèi)容發(fā)送到蜘蛛進(jìn)行處理; 蜘蛛處理響應(yīng)內(nèi)容并返回爬取到的項(xiàng),然后給引擎發(fā)送新的請(qǐng)求;以及引擎將抓取到的項(xiàng)放入項(xiàng)目流水線(xiàn)并向調(diào)度器發(fā)送請(qǐng)求,直到調(diào)度器中所有請(qǐng)求都完成為止,最后斷開(kāi)引擎與域之間聯(lián)系。
10.根據(jù)權(quán)利要求6所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取系統(tǒng),其特征在,所述的信息預(yù)處理模塊具體用于: 對(duì)于英文,首先將所有字符轉(zhuǎn)換為小寫(xiě),再將所有評(píng)論進(jìn)行分詞及詞性標(biāo)注;對(duì)于中文,直接對(duì)評(píng)論進(jìn)行分詞及詞性標(biāo)注; 對(duì)于英文,去除停頓詞、包含數(shù)字和URL的字符串,再將所有單詞進(jìn)行詞干化以得到單詞原型,最后提取詞性為名詞或名詞短語(yǔ)的單詞作為評(píng)論文檔的特征詞;對(duì)于中文,直接提取詞性為名詞或名詞短語(yǔ)的單詞作為評(píng)論文檔的特征詞; 所述的關(guān)鍵詞提取模塊具體用于: 對(duì)于每一個(gè)商品細(xì)節(jié)描述短語(yǔ)進(jìn)行分詞、去除數(shù)字、標(biāo)點(diǎn)符號(hào)和停頓詞處理; 遍歷所有細(xì)節(jié)描述短語(yǔ)中的各個(gè)單詞,計(jì)算出每個(gè)單詞wm在各個(gè)方面類(lèi)別Ci中的詞頻、TFIDF值,并記錄下每個(gè)類(lèi)別Ci中的最大詞頻和TFIDF值; 遍歷每個(gè)商品方面Ci中每個(gè)描述短語(yǔ)Pu的單詞wt,判斷Wt是否是ρ。中擁有最大TFIDF值的詞且Pi,j中只有唯一的單詞擁有最大的TFIDF值,如果是,則將Wt加入到方面Ci的種子詞集Si ;否則,判斷Wt是否是P。中擁有最大TF值的詞且ρ。中只有唯一的單詞擁有最大的TF值, 如果是,則將Wt加入到方面Ci的種子詞集Si ;否則,判斷Wt的TFIDF值是否等于1,如果是,則將Wt加入到方面Ci的種子詞集Si ;否則,將Wt排除在方面Ci的種子詞集Si之外。
【文檔編號(hào)】G06Q30/02GK103903164SQ201410114328
【公開(kāi)日】2014年7月2日 申請(qǐng)日期:2014年3月25日 優(yōu)先權(quán)日:2014年3月25日
【發(fā)明者】蔡毅, 王濤, 梁浩鋒, 閔華清 申請(qǐng)人:華南理工大學(xué)