基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法及其系統(tǒng)的制作方法

文檔序號(hào)：6541817閱讀：159來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法及其系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法，包括：網(wǎng)絡(luò)信息爬取、信息預(yù)處理、關(guān)鍵詞提取、評(píng)論文檔重組和細(xì)粒度的標(biāo)記LDA學(xué)習(xí)；本發(fā)明還公開(kāi)了一種基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取系統(tǒng)，包括：網(wǎng)絡(luò)信息爬取模塊、信息預(yù)處理模塊、關(guān)鍵詞提取模塊、評(píng)論文檔重組模塊和細(xì)粒度的標(biāo)記LDA學(xué)習(xí)模塊。本發(fā)明可以使得提取出來(lái)的商品各個(gè)方面的描述更加明確、方面之間的區(qū)別更加清晰；另外，本發(fā)明生成的方面結(jié)構(gòu)（順序和內(nèi)容）能與預(yù)先定義在種子詞集中的商品方面結(jié)構(gòu)保持一致，從而，本發(fā)明具有能有效地將消費(fèi)者描述同一商品方面的不同用語(yǔ)進(jìn)行語(yǔ)義聚類(lèi)，并可以在對(duì)商品進(jìn)行觀(guān)點(diǎn)挖掘時(shí)減少人工干預(yù)等優(yōu)點(diǎn)。
【專(zhuān)利說(shuō)明】基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種商品觀(guān)點(diǎn)挖掘技術(shù)，特別涉及一種基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法及其系統(tǒng)。
【背景技術(shù)】
[0002]隨著電子商務(wù)的日益普及，越來(lái)越多的消費(fèi)者都選擇在網(wǎng)上購(gòu)買(mǎi)商品和服務(wù)，尤其是近幾年的蓬勃發(fā)展，不同模式(B2B、B2C、C3C等)、不同領(lǐng)域的各類(lèi)型電子商務(wù)網(wǎng)站不斷涌現(xiàn)，競(jìng)爭(zhēng)不斷加劇，用戶(hù)需求也不斷提高。生產(chǎn)和銷(xiāo)售廠(chǎng)商總是試圖及時(shí)獲取公眾或消費(fèi)者對(duì)它們產(chǎn)品和服務(wù)的評(píng)價(jià)觀(guān)點(diǎn)以提升產(chǎn)品質(zhì)量及銷(xiāo)量；而潛在的消費(fèi)者在享受一種服務(wù)或購(gòu)買(mǎi)一種產(chǎn)品之前，也想知道當(dāng)前消費(fèi)者的評(píng)價(jià)觀(guān)點(diǎn)，以便選擇真正適合自身的產(chǎn)品。通過(guò)對(duì)網(wǎng)絡(luò)上大量的消費(fèi)者評(píng)論反饋進(jìn)行自動(dòng)化的觀(guān)點(diǎn)挖掘有助于解決上述問(wèn)題，自動(dòng)化的觀(guān)點(diǎn)挖掘有以下三個(gè)方面的優(yōu)勢(shì):首先，該方法總結(jié)的結(jié)果可以避免用手工閱卷中公司的人員變動(dòng)使得評(píng)價(jià)結(jié)果出現(xiàn)不一致的現(xiàn)象。其次，該類(lèi)系統(tǒng)可以近實(shí)時(shí)地從網(wǎng)上吸收大量的信息進(jìn)行分析，這使得調(diào)查成本相對(duì)較低。第三，觀(guān)點(diǎn)挖掘系統(tǒng)還可以處理多種語(yǔ)言的文檔，這在傳統(tǒng)方法中，對(duì)于一般人員是很難達(dá)到掌握多種語(yǔ)言的要求。然而，在當(dāng)前主流的觀(guān)點(diǎn)挖掘框架中，對(duì)于商品方面的提取往往是整個(gè)框架的瓶頸，因?yàn)樵摬襟E需要將描述相同商品方面的不同用語(yǔ)進(jìn)行語(yǔ)義歸類(lèi)。此問(wèn)題是目前該領(lǐng)域的一個(gè)研究熱點(diǎn)。
[0003]當(dāng)前商品方面提取的方法主要有:基于頻繁字符串和基于主題模型(topicmodel)的挖掘算法。前者的主要不足是不能將描述同一商品方面的語(yǔ)義相關(guān)的用語(yǔ)進(jìn)行歸類(lèi)，這導(dǎo)致該類(lèi)方法無(wú)法用一種有結(jié)構(gòu)的方式幫助用戶(hù)快速、直觀(guān)地了解商品的各個(gè)方面特征；對(duì)于后者，大部分方法采用的是無(wú)監(jiān)督式的學(xué)習(xí)方式，這導(dǎo)致了以下的缺點(diǎn)與不足:
[0004]1.模型生成方面的粒度和分類(lèi)標(biāo)準(zhǔn)可能與人的認(rèn)知習(xí)慣相悖，使得結(jié)果難以被理解。
[0005]2.無(wú)監(jiān)督模型每次生成的方面序列不能保持一個(gè)穩(wěn)定的結(jié)構(gòu)，導(dǎo)致難以在自動(dòng)化的分析算法中應(yīng)用。
[0006]3.由于大部分評(píng)論都包含相同或相似的商品方面，這將使得基于單詞共現(xiàn)性原理的主題模型方法難以將各個(gè)相關(guān)但不同的方面清晰地加以區(qū)分。
[0007]因此，為了更有效地從商品評(píng)論中提取商品方面，需要引入一些先驗(yàn)知識(shí)來(lái)監(jiān)督主題模型的學(xué)習(xí)過(guò)程，使得模型提取出來(lái)的商品方面分類(lèi)更加清晰、更好地滿(mǎn)足人們的認(rèn)知習(xí)慣、并以一種較穩(wěn)定的結(jié)構(gòu)輸出。

【發(fā)明內(nèi)容】

[0008]本發(fā)明的首要目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足，提供一種基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法，該方法通過(guò)同時(shí)在文檔層次和詞層次對(duì)LDA模型進(jìn)行標(biāo)記學(xué)習(xí)，可以使得提取出來(lái)的各個(gè)商品方面的相關(guān)的信息描述得更加明確，方面之間的區(qū)別更加清晰。[0009]本發(fā)明的另一目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足，提供一種基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取系統(tǒng)，該系統(tǒng)能與預(yù)先定義的方面種子詞的結(jié)構(gòu)保持一致，從而有效地將消費(fèi)者描述同一商品方面的不同用語(yǔ)進(jìn)行語(yǔ)義聚類(lèi)，并可以在對(duì)商品進(jìn)行觀(guān)點(diǎn)挖掘時(shí)減少人工干預(yù)。
[0010]本發(fā)明的首要目的通過(guò)下述技術(shù)方案實(shí)現(xiàn):基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法，包括:
[0011]網(wǎng)絡(luò)信息爬取，從電子商務(wù)網(wǎng)站上爬取消費(fèi)者對(duì)于關(guān)注商品的評(píng)論，以及電子商務(wù)網(wǎng)站中對(duì)于商品半結(jié)構(gòu)化的商品細(xì)節(jié)描述信息；
[0012]信息預(yù)處理，將爬取到的評(píng)論進(jìn)行分詞、詞性標(biāo)注和去除停頓詞處理，并提取評(píng)論中的特征單詞；
[0013]關(guān)鍵詞提取，從電子商務(wù)網(wǎng)站中半結(jié)構(gòu)化的商品細(xì)節(jié)描述信息中提取每個(gè)方面類(lèi)別的關(guān)鍵詞作為半監(jiān)督主題模型的種子詞集，獲取由電商網(wǎng)站中的專(zhuān)業(yè)領(lǐng)域定義的或符合人們認(rèn)知習(xí)慣的商品方面分類(lèi)作為半監(jiān)督方法的先驗(yàn)知識(shí)；
[0014]評(píng)論文檔重組，將評(píng)論中各個(gè)句子利用提取的所述關(guān)鍵詞進(jìn)行標(biāo)記，然后將含有相同關(guān)鍵詞的句子重新組合成新的文檔，得到主題鮮明、共現(xiàn)商品方面較少的學(xué)習(xí)文檔；
[0015]細(xì)粒度的標(biāo)記LDA學(xué)習(xí)，通過(guò)半監(jiān)督的LDA主題模型識(shí)別評(píng)論中的產(chǎn)品特征，將所述的產(chǎn)品特征的屬于同一方面的特征進(jìn)行歸類(lèi)；所述半監(jiān)督的LDA主題模型是通過(guò)加入方面-詞的約束關(guān)系來(lái)監(jiān)督模型生成更加易于理解、清晰的分類(lèi)，并獲得順序和種子詞集中定義相一致的商品方面集；所述的方面-詞的約束關(guān)系是指在評(píng)論中，關(guān)鍵詞具有特定的方面傾向，如:“LCD”更多的是用來(lái)描述“屏幕”方面；
[0016]其中，所述方面類(lèi)別Ci中的第j個(gè)細(xì)節(jié)描述短語(yǔ)Pi，j中的關(guān)鍵詞Wt的定義為以下三種定義中的任意一種定義:
【權(quán)利要求】
1.基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法，其特征在于，包括: 網(wǎng)絡(luò)信息爬取，從電子商務(wù)網(wǎng)站上爬取消費(fèi)者對(duì)于關(guān)注商品的評(píng)論，以及電子商務(wù)網(wǎng)站中對(duì)于商品半結(jié)構(gòu)化的商品細(xì)節(jié)描述信息；信息預(yù)處理，將爬取到的評(píng)論進(jìn)行分詞、詞性標(biāo)注和去除停頓詞處理，并提取評(píng)論中的特征單詞；關(guān)鍵詞提取，從電子商務(wù)網(wǎng)站中半結(jié)構(gòu)化的商品細(xì)節(jié)描述信息中提取每個(gè)方面類(lèi)別的關(guān)鍵詞作為半監(jiān)督主題模型的種子詞集，獲取由電商網(wǎng)站中的專(zhuān)業(yè)領(lǐng)域定義的或符合人們認(rèn)知習(xí)慣的商品方面分類(lèi)作為半監(jiān)督方法的先驗(yàn)知識(shí)；評(píng)論文檔重組，將評(píng)論中各個(gè)句子利用提取的所述關(guān)鍵詞進(jìn)行標(biāo)記，然后將含有相同關(guān)鍵詞的句子重新組合成新的文檔，得到學(xué)習(xí)文檔；細(xì)粒度的標(biāo)記LDA學(xué)習(xí)，通過(guò)半監(jiān)督的LDA主題模型識(shí)別評(píng)論中的產(chǎn)品特征，將所述的產(chǎn)品特征的屬于同一方面的特征進(jìn)行歸類(lèi)；所述半監(jiān)督的LDA主題模型是通過(guò)加入方面-詞的約束關(guān)系來(lái)監(jiān)督模型生成分類(lèi)，并獲得順序與種子詞集中定義相一致的商品方面集；所述的方面-詞的約束關(guān)系是指在評(píng)論中，關(guān)鍵詞具有特定的方面傾向；其中，所述方面類(lèi)別Ci中的第j個(gè)細(xì)節(jié)描述短語(yǔ)ρ。中的關(guān)鍵詞Wt的定義為以下三種定義中的任意一種定義:
2.根據(jù)權(quán)利要求1所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法，其特征在于，所述的細(xì)粒度的標(biāo)記LDA學(xué)習(xí)包括以下步驟: (5a)利用種子詞集初始化詞-主題相關(guān)性變量P；:相關(guān)性變量的設(shè)置表達(dá)式如下:
3.根據(jù)權(quán)利要求1所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法，其特征在于，所述的評(píng)論文檔重組包括以下步驟: (4a)將評(píng)論拆分為句子，并對(duì)包含了細(xì)節(jié)描述或種子詞的句子，使用細(xì)節(jié)描述短語(yǔ)和種子詞進(jìn)行標(biāo)記，如果某個(gè)句子同時(shí)包含了單詞\和\_，當(dāng)&為\的字串時(shí)，該句子只會(huì)被標(biāo)記為h； (4b)將包含了相同字符串標(biāo)記的句子重新組合成新的文檔。
4.根據(jù)權(quán)利要求1所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法，其特征在于，所述的網(wǎng)絡(luò)信息爬取包括以下步驟: (Ia)利用Scrapy爬蟲(chóng)引擎打開(kāi)一個(gè)域名，定位出處理該域名的蜘蛛,所述蜘蛛指用戶(hù)自定義的類(lèi)，用于從解析回應(yīng)、提取網(wǎng)頁(yè)中相應(yīng)的項(xiàng)或者提取出特定的URL用于后續(xù)爬取，Scrapy爬蟲(chóng)引擎再請(qǐng)求蜘蛛提供種子URL ； (Ib)引擎從蜘蛛獲取種子URL，再包裝為請(qǐng)求在調(diào)度器中進(jìn)行調(diào)度，引擎從調(diào)度器獲取下一個(gè)待爬取的請(qǐng)求； (Ic)調(diào)度器將下一個(gè)待爬取的請(qǐng)求返回給引擎，引擎將下一個(gè)待爬取的請(qǐng)求發(fā)送到下載器; (Id)當(dāng)網(wǎng)頁(yè)被下載器下載完成以后，把響應(yīng)內(nèi)容發(fā)送到引擎； (Ie)引擎在收到下載器的響應(yīng)內(nèi)容后，將響應(yīng)內(nèi)容發(fā)送到蜘蛛進(jìn)行處理； (If)蜘蛛處理響應(yīng)內(nèi)容并返回爬取到的項(xiàng)，然后給引擎發(fā)送新的請(qǐng)求； (Ig)引擎將抓取到的項(xiàng)放入項(xiàng)目流水線(xiàn)，并向調(diào)度器發(fā)送請(qǐng)求； (Ih)重復(fù)執(zhí)行步驟(Ib)至(lg)，直到調(diào)度器中所有請(qǐng)求都完成為止，最后斷開(kāi)引擎與域之間的聯(lián)系。
5.根據(jù)權(quán)利要求1所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法，其特征在于，所述的信息預(yù)處理包括以下步驟: (2a)對(duì)于英文，首先將所有字符轉(zhuǎn)換為小寫(xiě)，再將所有評(píng)論進(jìn)行分詞及詞性標(biāo)注；對(duì)于中文，直接對(duì)評(píng)論進(jìn)行分詞及詞性標(biāo)注； (2b)對(duì)于英文，去除停頓詞、包含數(shù)字和URL的字符串，再將所有單詞進(jìn)行詞干化以得到單詞原型，最后提取詞性為名詞或名詞短語(yǔ)的單詞作為評(píng)論文檔的特征詞；對(duì)于中文，直接提取詞性為名詞或名詞短語(yǔ)的單詞作為評(píng)論文檔的特征詞；所述的關(guān)鍵詞提取包括以下步驟: (3a)對(duì)于每一個(gè)商品細(xì)節(jié)描述短語(yǔ)進(jìn)行分詞、去除數(shù)字、標(biāo)點(diǎn)符號(hào)和停頓詞處理； (3b)遍歷所有細(xì)節(jié)描述短語(yǔ)中的各個(gè)單詞，計(jì)算出每個(gè)單詞Wm在各個(gè)方面類(lèi)別Ci中的詞頻、TFIDF值，并記錄下每個(gè)類(lèi)別Ci中的最大詞頻和TFIDF值； (3c)遍歷每個(gè)商品方面Ci中每個(gè)描述短語(yǔ)Pu的單詞Wt，判斷Wt是否是Pu中擁有最大TFIDF值的詞且Pi，j中只有唯一的單詞擁有最大的TFIDF值，如果是，則將Wt加入到方面類(lèi)別Ci的種子詞集Si ;否則，判斷Wt是否是P。中擁有最大TF值的詞且ρ。中只有唯一的單詞擁有最大的TF值，如果是，則將Wt加入到方面類(lèi)別Ci的種子詞集Si ;否則，判斷Wt的TFIDF值是否等于1，如果是，則將Wt加入到方面類(lèi)別Ci的種子詞集Si ;否則，將Wt排除在方面Ci的種子詞集Si之外。
6.基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取系統(tǒng)，其特征在于，包括:網(wǎng)絡(luò)信息爬取模塊，用于從電子商務(wù)網(wǎng)站上爬取消費(fèi)者對(duì)于關(guān)注商品的評(píng)論，以及電子商務(wù)網(wǎng)站中對(duì)于商品的半結(jié)構(gòu)化的商品細(xì)節(jié)描述信息；信息預(yù)處理模塊，用于將爬取到的評(píng)論進(jìn)行分詞、詞性標(biāo)注、去除停頓詞，提取評(píng)論中的特征單詞處理；關(guān)鍵詞提取模塊，用于從電子商務(wù)網(wǎng)站中半結(jié)構(gòu)的商品細(xì)節(jié)描述信息中提取每個(gè)方面類(lèi)別的關(guān)鍵詞作為半監(jiān)督主題模型的種子詞集，獲取由電商網(wǎng)站中的專(zhuān)業(yè)領(lǐng)域定義的或符合人們認(rèn)知習(xí)慣的商品方面分類(lèi)作為半監(jiān)督方法的先驗(yàn)知識(shí)；評(píng)論文檔重組模塊，用于將評(píng)論中各個(gè)句子利用提取的所述關(guān)鍵詞進(jìn)行標(biāo)記，然后將含有相同關(guān)鍵詞的句子重新組合成新的文檔，得到學(xué)習(xí)文檔；細(xì)粒度的標(biāo)記LDA學(xué)習(xí)模塊，用于通過(guò)半監(jiān)督的LDA主題模型識(shí)別評(píng)論中的產(chǎn)品特征并將所述的產(chǎn)品特征的屬于同一方面的特征進(jìn)行歸類(lèi)；所述半監(jiān)督的LDA主題模型是通過(guò)加入方面-詞的約束關(guān)系來(lái)監(jiān)督模型生成分類(lèi)，并獲得順序和種子詞集中定義相一致的商品方面集；所述的方面-詞的約束關(guān)系是指在評(píng)論中，關(guān)鍵詞具有特定的方面傾向；其中，所述方面類(lèi)別Ci中的第j個(gè)細(xì)節(jié)描述短語(yǔ)ρ。中的關(guān)鍵詞Wt的定義為以下三種定義中的任意一種定義:
7.根據(jù)權(quán)利要求6所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取系統(tǒng)，其特征在，所述的細(xì)粒度的標(biāo)記LDA學(xué)習(xí)模塊具體用于: 利用種子詞集初始化詞-主題相關(guān)性變量p]f，所述相關(guān)性變量P。的設(shè)置表達(dá)式如下:
8.根據(jù)權(quán)利要求6所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取系統(tǒng)，其特征在，所述的評(píng)論文檔重組模塊具體用于:將評(píng)論拆分為句子，并對(duì)包含了細(xì)節(jié)描述或種子詞的句子使用細(xì)節(jié)描述短語(yǔ)和種子詞進(jìn)行標(biāo)記，如果某個(gè)句子同時(shí)包含了單詞ti和當(dāng)h為ti的字串時(shí)，該句子只會(huì)被標(biāo)記為ti; 將包含了相同字符串標(biāo)記的句子重新組合成新的文檔。
9.根據(jù)權(quán)利要求6所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取系統(tǒng)，其特征在，所述的網(wǎng)絡(luò)信息爬取模塊具體用于: 利用Scrapy爬蟲(chóng)引擎打開(kāi)一個(gè)域名，定位出處理該域名的蜘蛛，再請(qǐng)求蜘蛛提供種子URL，所述的蜘蛛指用戶(hù)自定義的類(lèi)，用于從解析回應(yīng)、提取網(wǎng)頁(yè)中相應(yīng)的項(xiàng)或者提取出特定的URL用于后續(xù)爬??；引擎從蜘蛛獲取種子URL，再包裝為請(qǐng)求在調(diào)度器中進(jìn)行調(diào)度，最后引擎從調(diào)度器獲取下一個(gè)待爬取的請(qǐng)求；調(diào)度器將下一個(gè)待爬取的請(qǐng)求返回給引擎，引擎將下一個(gè)待爬取的請(qǐng)求發(fā)送到下載器；當(dāng)網(wǎng)頁(yè)被下載器下載完成以后，把響應(yīng)內(nèi)容發(fā)送到引擎；引擎在收到下載器的響應(yīng)內(nèi)容后，將響應(yīng)內(nèi)容發(fā)送到蜘蛛進(jìn)行處理；蜘蛛處理響應(yīng)內(nèi)容并返回爬取到的項(xiàng)，然后給引擎發(fā)送新的請(qǐng)求；引擎將抓取到的項(xiàng)放入項(xiàng)目流水線(xiàn)并向調(diào)度器發(fā)送請(qǐng)求；依次重復(fù)執(zhí)行引擎蜘蛛獲取種子URL，再包裝為請(qǐng)求在調(diào)度器中進(jìn)行調(diào)度，引擎從調(diào)度器獲取下一個(gè)待爬取的請(qǐng)求；調(diào)度器將下一個(gè)待爬取的請(qǐng)求返回給引擎，引擎將下一個(gè)待爬取的請(qǐng)求發(fā)送到下載器；當(dāng)網(wǎng)頁(yè)被下載器下載完成以后，把響應(yīng)內(nèi)容發(fā)送到引擎；引擎在收到下載器的響應(yīng)內(nèi)容后，將響應(yīng)內(nèi)容發(fā)送到蜘蛛進(jìn)行處理；蜘蛛處理響應(yīng)內(nèi)容并返回爬取到的項(xiàng)，然后給引擎發(fā)送新的請(qǐng)求；以及引擎將抓取到的項(xiàng)放入項(xiàng)目流水線(xiàn)并向調(diào)度器發(fā)送請(qǐng)求，直到調(diào)度器中所有請(qǐng)求都完成為止，最后斷開(kāi)引擎與域之間聯(lián)系。
10.根據(jù)權(quán)利要求6所述的基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取系統(tǒng)，其特征在，所述的信息預(yù)處理模塊具體用于: 對(duì)于英文，首先將所有字符轉(zhuǎn)換為小寫(xiě)，再將所有評(píng)論進(jìn)行分詞及詞性標(biāo)注；對(duì)于中文，直接對(duì)評(píng)論進(jìn)行分詞及詞性標(biāo)注；對(duì)于英文，去除停頓詞、包含數(shù)字和URL的字符串，再將所有單詞進(jìn)行詞干化以得到單詞原型，最后提取詞性為名詞或名詞短語(yǔ)的單詞作為評(píng)論文檔的特征詞；對(duì)于中文，直接提取詞性為名詞或名詞短語(yǔ)的單詞作為評(píng)論文檔的特征詞；所述的關(guān)鍵詞提取模塊具體用于: 對(duì)于每一個(gè)商品細(xì)節(jié)描述短語(yǔ)進(jìn)行分詞、去除數(shù)字、標(biāo)點(diǎn)符號(hào)和停頓詞處理；遍歷所有細(xì)節(jié)描述短語(yǔ)中的各個(gè)單詞，計(jì)算出每個(gè)單詞wm在各個(gè)方面類(lèi)別Ci中的詞頻、TFIDF值，并記錄下每個(gè)類(lèi)別Ci中的最大詞頻和TFIDF值；遍歷每個(gè)商品方面Ci中每個(gè)描述短語(yǔ)Pu的單詞wt，判斷Wt是否是ρ。中擁有最大TFIDF值的詞且Pi，j中只有唯一的單詞擁有最大的TFIDF值，如果是，則將Wt加入到方面Ci的種子詞集Si ;否則，判斷Wt是否是P。中擁有最大TF值的詞且ρ。中只有唯一的單詞擁有最大的TF值，如果是，則將Wt加入到方面Ci的種子詞集Si ;否則，判斷Wt的TFIDF值是否等于1，如果是，則將Wt加入到方面Ci的種子詞集Si ;否則，將Wt排除在方面Ci的種子詞集Si之外。
【文檔編號(hào)】G06Q30/02GK103903164SQ201410114328
【公開(kāi)日】2014年7月2日申請(qǐng)日期:2014年3月25日優(yōu)先權(quán)日:2014年3月25日
【發(fā)明者】蔡毅, 王濤, 梁浩鋒, 閔華清申請(qǐng)人:華南理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔡毅;王濤;梁浩鋒;閔華清
技術(shù)所有人：華南理工大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種數(shù)據(jù)獲取方法及裝置制造方法
上一篇：一種基于幾何比例關(guān)系的擴(kuò)展目標(biāo)跟蹤方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于領(lǐng)域信息的半監(jiān)督方面自動(dòng)提取方法及其系統(tǒng)的制作方法