專利名稱:一種產(chǎn)品參數(shù)獲取系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種產(chǎn)品參數(shù)獲取系統(tǒng)和方法,尤其是涉及一種面向 領(lǐng)域的產(chǎn)品評論中自動獲耳又產(chǎn)品各項(xiàng)參tt的系統(tǒng)和方法。
背景技術(shù):
目前,從產(chǎn)品評論中自動獲取產(chǎn)品參數(shù)已經(jīng)有了一些研究,主要有兩種方法基于詞頻統(tǒng)計(jì)的方法和基于規(guī)則的方法。基于詞頻統(tǒng)計(jì)的方法,主要是通過統(tǒng)計(jì)評論中各個(gè)詞或短語出現(xiàn) 的頻率,將出現(xiàn)頻率較高的名詞或名詞短語作為備選的產(chǎn)品參數(shù),并 通過一些去噪規(guī)則去掉一些噪音。現(xiàn)有的基于詞頻統(tǒng)計(jì)的方法,前才是 假設(shè)是出現(xiàn)頻率高的才可能是產(chǎn)品參數(shù),但是有些時(shí)候評論數(shù)據(jù)中可 能會存在出現(xiàn)頻率很低的產(chǎn)品參數(shù),這樣利用基于詞頻統(tǒng)計(jì)的方法就 獲取不到這些低頻的參數(shù)了。而且通過去噪規(guī)則處理以后,得到的產(chǎn) 品參數(shù)中仍然會存在大量的噪音?;谝?guī)則的方法,主要是通過事先手工的設(shè)定一些獲取規(guī)則,然 后將這些獲取規(guī)則應(yīng)用到用戶提交的產(chǎn)品評論中,獲取滿足規(guī)則的詞 或短語,作為產(chǎn)品的參數(shù)?;谝?guī)則的方法比較簡單,最大的缺陷是 這些事先設(shè)定的規(guī)則不能跨領(lǐng)域使用,不同類的產(chǎn)品需要不同的獲耳又 規(guī)則。現(xiàn)有的方法存在很大的應(yīng)用缺陷,不是滿足不了跨領(lǐng)域的需求, 就是達(dá)不到較高的召回率。發(fā)明內(nèi)容本發(fā)明是鑒于上述技術(shù)問題而產(chǎn)生的。本發(fā)明的一個(gè)目的是提出 一種一種產(chǎn)品參數(shù)獲取系統(tǒng)和方法。在一個(gè)方面中,根據(jù)本發(fā)明的產(chǎn)品參數(shù)獲取系統(tǒng)包括目標(biāo)評論 詞頻統(tǒng)計(jì)單元,用于統(tǒng)計(jì)目標(biāo)評"i侖中各個(gè)名詞或名詞詞組出現(xiàn)的頻率 并排序,并得到一個(gè)詞表;產(chǎn)品評^r詞頻統(tǒng)計(jì)單元,用于統(tǒng)計(jì)詞表中 的每個(gè)詞在不同領(lǐng)域內(nèi)的產(chǎn)品評論的出現(xiàn)頻率并記錄,同時(shí)查看出現(xiàn)該詞的每個(gè)評論子句中出現(xiàn)形容詞的子句數(shù)目并記錄;相關(guān)度計(jì)算單 元,用于利用目標(biāo)評論詞頻統(tǒng)計(jì)單元和產(chǎn)品評論詞頻統(tǒng)計(jì)單元的統(tǒng)計(jì) 結(jié)果來計(jì)算詞表中每個(gè)詞的相關(guān)度,并且將相關(guān)度大于某個(gè)設(shè)定值的 詞作為結(jié)果表中的產(chǎn)品參數(shù);表達(dá)模式抽取單元,用于抽取結(jié)果表中 的每個(gè)產(chǎn)品參數(shù)在目標(biāo)產(chǎn)品評論中的表達(dá)模式并將其記錄成一個(gè)產(chǎn)品 參數(shù)表達(dá)模式表;以及匹配單元,用于通過在目標(biāo)評論句子中匹配這 些表達(dá)模式來找到那些隱藏的出現(xiàn)頻率不高的產(chǎn)品參數(shù)詞。在這個(gè)方面中,其中利用以下公式來計(jì)算詞表中每個(gè)詞的相關(guān)度/at w,在這個(gè)方面中,其中表達(dá)模式抽取單元進(jìn)一步包括檢查模塊, 用于對包含結(jié)果表中的某個(gè)詞的每條目標(biāo)評論句子進(jìn)行檢查;提取模 塊,用于提取從該詞開始到周圍最近的形容詞的這部分句子片段以作 為該詞在該句子中的表達(dá)才莫式。在這個(gè)方面中,其中匹配單元進(jìn)一步包括查找模塊,用于在表 達(dá)模式表中從出現(xiàn)頻率最高的表達(dá)模式開始查找目標(biāo)評論句子中與該 表達(dá)模式相匹配的評論;新參數(shù)詞獲取模塊,用于在查找到匹配評論 的情況下從匹配的評論中得到新的產(chǎn)品參數(shù)詞;以及新參數(shù)詞添加模塊,用于在結(jié)果表中不存在該新參數(shù)詞的情況下將該新參數(shù)詞加入到 結(jié)果參數(shù)表中。在另一個(gè)方面中,根據(jù)本發(fā)明的產(chǎn)品參數(shù)獲取方法包括A、統(tǒng)計(jì)B、 統(tǒng)計(jì)詞表中的每個(gè)詞在不同領(lǐng)域內(nèi)的產(chǎn)品評論的出現(xiàn)頻率并記錄, 同時(shí)查看出現(xiàn)該詞的每個(gè)評論子句中出現(xiàn)形容詞的子句數(shù)目并記錄;C、 利用步驟A和B的統(tǒng)計(jì)結(jié)果來計(jì)算詞表中每個(gè)詞的相關(guān)度,并且 將相關(guān)度大于某個(gè)設(shè)定值的詞作為結(jié)果表中的產(chǎn)品參數(shù);D、抽取結(jié)果 表中的每個(gè)產(chǎn)品參數(shù)在目標(biāo)產(chǎn)品評論中的表達(dá)模式并將其記錄成一個(gè) 產(chǎn)品參數(shù)表達(dá)模式表;E、通過在目標(biāo)評論句子中匹配這些表達(dá)模式來 找到那些隱藏的出現(xiàn)頻率不高的產(chǎn)品參數(shù)詞。在這個(gè)方面中,其中利用以下公式來計(jì)算詞表中每個(gè)詞的相關(guān)度D04 (嗎=在這個(gè)方面中,其中步驟D進(jìn)一步包括對包含結(jié)果表中的某個(gè) 詞的每條目標(biāo)評論句子進(jìn)行檢查;提取從該詞開始到周圍最近的形容 詞的這部分句子片段以作為該詞在該句子中的表達(dá)模式。在這個(gè)方面中,其中步驟E進(jìn)一步包括在表達(dá)模式表中從出現(xiàn) 頻率最高的表達(dá)模式開始查找目標(biāo)評論句子中與該表達(dá)模式相匹配的 評論;在查找到匹配評論的情況下從匹配的評論中得到新的產(chǎn)品參數(shù) 詞;以及在結(jié)果表中不存在該新參數(shù)詞的情況下將該新參數(shù)詞加入到 結(jié)果參數(shù)表中。通過本發(fā)明,可以有效的支持跨領(lǐng)域的產(chǎn)品參數(shù)詞獲取。通過借 助不同領(lǐng)域的產(chǎn)品評論數(shù)據(jù),并且能夠自動的獲取已有產(chǎn)品參數(shù)的表達(dá)模式,而不需要人為來設(shè)定該領(lǐng)域內(nèi)的表達(dá)規(guī)則,可以有效的支持 跨領(lǐng)域的產(chǎn)品參數(shù)獲取,同時(shí)又保證了較高的效率。同時(shí),本發(fā)明通過限制候選詞的相關(guān)度提高去噪的效率,使結(jié)果更加準(zhǔn)確;并且通過 獲取已經(jīng)得到的產(chǎn)品參數(shù)的表達(dá)模式,用這些模式可以獲取更多的隱 藏的產(chǎn)品參數(shù),提高了召回率。
結(jié)合隨后的附圖,從下面的詳細(xì)說明中可顯而易見的得出本發(fā)明 的上述及其他目的、特征及優(yōu)點(diǎn)。在附圖中 圖1給出了目標(biāo)評論數(shù)據(jù)的一個(gè)示例; 圖2給出了表達(dá)模式表的一個(gè)示例; 圖3給出了根據(jù)本發(fā)明的產(chǎn)品參數(shù)獲取方法的流程圖; 圖4給出了根據(jù)本發(fā)明的產(chǎn)品參數(shù)獲取系統(tǒng)的方框圖; 圖5給出了根據(jù)本發(fā)明的表達(dá)模式抽取單元的詳細(xì)方框圖; 圖6給出了根據(jù)本發(fā)明的匹配單元的詳細(xì)方框圖; 圖7給出了能夠?qū)嵤┍景l(fā)明的一個(gè)示例環(huán)境的示意圖。
具體實(shí)施方式
為了更全面地理解本發(fā)明及其優(yōu)點(diǎn),下面結(jié)合附圖及具體實(shí)施例 對本發(fā)明做進(jìn)一步詳細(xì)地說明。首先,本發(fā)明給定的是一系列具體產(chǎn)品的用戶評論信息,作為文 本格式存儲。圖1是目標(biāo)評論數(shù)據(jù)的一個(gè)實(shí)例說明,其中下劃線標(biāo)出的那些詞 就是要獲取的產(chǎn)品參數(shù)詞。對于任意給定的一個(gè)具體產(chǎn)品名稱而言, 該產(chǎn)品名稱對應(yīng)一篇目標(biāo)評論文本和若干不同領(lǐng)域的產(chǎn)品評論文本。接下來,參考圖3,對根據(jù)本發(fā)明的產(chǎn)品參數(shù)獲取方法進(jìn)行說明。如圖3所示,根據(jù)本發(fā)明的產(chǎn)品參數(shù)獲取方法包括步驟A、 統(tǒng)計(jì)目標(biāo)評-i侖中各個(gè)名詞或名詞詞組出現(xiàn)的頻率(即詞頻)并 排序,并得到一個(gè)詞表。這些名詞和名詞短語將作為候選的產(chǎn)品參數(shù) 進(jìn)行后面的方法的篩選。通過這個(gè)步驟,可以將目標(biāo)評論中所出現(xiàn)的 高頻的產(chǎn)品參數(shù)排在前面。在下文中,將詞表中的所有詞統(tǒng)稱為候選 詞。B、 對步驟A中得到的詞表中的每個(gè)詞,借助于不同領(lǐng)域內(nèi)的產(chǎn)品 評論(這里的不同領(lǐng)域的產(chǎn)品評論是事先給定的輸入數(shù)據(jù))得到其出 現(xiàn)頻率并記錄,同時(shí)查看出現(xiàn)該詞的每個(gè)中出現(xiàn)形容詞的子句數(shù)目并 記錄。在這里,所謂"評論子句"是指某條完整評論的用標(biāo)點(diǎn)分隔的 某個(gè)句子片段。如圖1中可以看出第一句評論"用完感覺不錯(cuò),好像 有潤色效果,味道也很清淡,推薦。",該句中"用完感覺不錯(cuò)","好 像有潤色效果"等子句均為一條"評論子句"。C、 利用步驟A和B的統(tǒng)計(jì)結(jié)果,根據(jù)以下公式來得到詞表中每 個(gè)詞的相關(guān)度。將相關(guān)度大于某個(gè)設(shè)定值的詞作為結(jié)果表中的產(chǎn)品參數(shù) p 。 /F呵"http://at 1其中Wi是步驟B所得的詞表中的詞, "是Wi在目標(biāo)產(chǎn)品評 論中出現(xiàn)的頻率, ,是Wi在不同領(lǐng)域產(chǎn)品評論中出現(xiàn)的頻率,^是目標(biāo)產(chǎn)品評論的條數(shù),!f是不同領(lǐng)域產(chǎn)品評論的條數(shù),(,一是目標(biāo)評 論中在詞^周圍存在形容詞的產(chǎn)品評論的條數(shù),f是當(dāng)分母為0時(shí)的平 滑參數(shù)。式中乘號左邊的式子表示當(dāng)前詞附在目標(biāo)產(chǎn)品評論句子和不同領(lǐng)域的產(chǎn)品評論句子中各自出現(xiàn)的比例的比值,乘號右邊的式子表 示附在目標(biāo)評論句子中周圍存在形容詞的句子所占的比例。這兩個(gè)比值是本發(fā)明給出的關(guān)于每個(gè)詞與產(chǎn)品參數(shù)的相關(guān)度。該相關(guān)度越大, 表明該詞越可能是產(chǎn)品參數(shù)。D、 抽取結(jié)果表中的每個(gè)產(chǎn)品參數(shù)在目標(biāo)產(chǎn)品評論中的表達(dá)模式, 并將其記錄成一個(gè)產(chǎn)品參數(shù)表達(dá)模式表。具體地說,對于產(chǎn)品參數(shù)結(jié)果表(步驟C產(chǎn)生的結(jié)果表)中的某 個(gè)詞Wi而言,檢查包含該詞的每條目標(biāo)評論句子,提取從該詞開始到 周圍最近的形容詞(包括形容詞)的這部分句子片段作為該詞在該句 子中的表達(dá)模式。表達(dá)模式是形如"W+XXXXX"或"XXXXX+W"這樣 的形式,"W,,表示一個(gè)泛指的產(chǎn)品參數(shù)詞,"XXXXX"是該產(chǎn)品參數(shù)詞 到最近的形容詞(包含該形容詞)的句子片段。例如 一條評論"泡沫相當(dāng)豐富",假設(shè)由前面的步驟得知"泡 沫,,是產(chǎn)品參數(shù)詞,則其對應(yīng)的表達(dá)模式是"W+相當(dāng)豐富"。圖2給 出的是從圖1所給的實(shí)例中獲取的產(chǎn)品參數(shù)詞的表達(dá)模式實(shí)例。E、 通過在目標(biāo)評論句子中匹配這些表達(dá)模式,找到那些隱藏的出 現(xiàn)頻率不高的產(chǎn)品參數(shù)詞。從圖2中可以看出表達(dá)模式表中每個(gè)表達(dá) 模式的樣式以及該表達(dá)模式出現(xiàn)的頻率。具體地說,對于表達(dá)模式表中的表達(dá)模式而言,從出現(xiàn)頻率最高 的表達(dá)模式開始,查找目標(biāo)評論句子中是否存在與該表達(dá)模式相匹配 的評論,若存在匹配,則得到新的產(chǎn)品參數(shù)詞并查找結(jié)果參數(shù)表中是 否存在該新參數(shù)詞,若已經(jīng)存在,則跳過;若不存在,則將該新參數(shù) 詞加入到結(jié)果參數(shù)表中。這樣通過處理所有的表達(dá)模式,將新產(chǎn)生的 參數(shù)詞加入到結(jié)果表中,形成最終的產(chǎn)品參數(shù)詞表。例如已知表達(dá)模式"『+相當(dāng)豐富",而且若目標(biāo)評論中存在一 條評論"氣泡相當(dāng)豐富,,,則該模式能夠匹配這條評論,且得出"氣 泡"是一個(gè)新詞。此外,優(yōu)選地,根據(jù)本發(fā)明的方法還可在執(zhí)行步驟A之前執(zhí)行步驟利用現(xiàn)有詞性標(biāo)注方法(為現(xiàn)有技術(shù))對目標(biāo)產(chǎn)品評論進(jìn)行詞性標(biāo)注,每個(gè)標(biāo)注單元都對應(yīng)一個(gè)詞性標(biāo)記,如名詞,形容詞等,例如氣泡/n相當(dāng)/d 豐富/a。接下來,參考圖4,對根據(jù)本發(fā)明的產(chǎn)品參數(shù)獲取系統(tǒng)進(jìn)行說明。 如圖4所示,才艮據(jù)本發(fā)明的產(chǎn)品參數(shù)獲耳又系統(tǒng)包括目標(biāo)評論詞頻統(tǒng)計(jì)單元、產(chǎn)品評i侖詞頻統(tǒng)計(jì)單元、相關(guān)度計(jì)算單元、表達(dá)一莫式抽耳又單元、以及匹配單元。目標(biāo)評i侖詞頻統(tǒng)計(jì)單元用于統(tǒng)計(jì)目標(biāo)評i侖中各個(gè)名詞或名詞詞組出現(xiàn)的頻率(即詞頻)并排序,并得到一個(gè)詞表。這些名詞和名詞短語將作為候選的產(chǎn)品參數(shù)進(jìn)行后面的方法的篩選。由此,可以將目標(biāo)評論中所出現(xiàn)的高頻的產(chǎn)品參數(shù)排在前面;產(chǎn)品評-淪詞頻統(tǒng)計(jì)單元用于統(tǒng)計(jì)詞表中的每個(gè)詞在不同領(lǐng)域內(nèi)的 產(chǎn)品評論(這里的不同領(lǐng)域的產(chǎn)品評論是事先給定的輸入數(shù)據(jù))的出 現(xiàn)頻率并記錄,同時(shí)查看出現(xiàn)該詞的每個(gè)評論子句中出現(xiàn)形容詞的子 句數(shù)目并記錄。統(tǒng)計(jì)單元的統(tǒng)計(jì)結(jié)果來計(jì)算詞表中每個(gè)詞的相關(guān)度。將相關(guān)度大于某 個(gè)設(shè)定值的詞作為結(jié)果表中的產(chǎn)品參數(shù)。具體地說,根據(jù)以下公式來 計(jì)算每個(gè)詞的相關(guān)度<formula>formula see original document page 11</formula>表達(dá)模式抽取單元用于抽取結(jié)果表中的每個(gè)產(chǎn)品參數(shù)在目標(biāo)產(chǎn)品 評論中的表達(dá)模式并將其記錄成一個(gè)產(chǎn)品參數(shù)表達(dá)模式表。具體地說,如圖5所示,該表達(dá)模式抽取單元進(jìn)一步包括檢查模塊和提取模塊。檢查模塊用于對包含產(chǎn)品參數(shù)結(jié)果表中的某個(gè)詞Wi的每條目標(biāo) 評論句子進(jìn)行檢查。提取模塊用于提取從該詞開始到周圍最近的形容詞(包括形容詞) 的這部分句子片段作為該詞在該句子中的表達(dá)模式。表達(dá)模式是形如"W+XXXXX,,或"XXXXX+w"這樣的形式,"w"表示 一 個(gè)泛指的產(chǎn)品參 數(shù)詞,"xxxxx"是該產(chǎn)品參數(shù)詞到最近的形容詞(包含該形容詞)的句子片l殳。些隱藏的出現(xiàn)頻率不高的產(chǎn)品參數(shù)詞。具體地說,如圖6所示,該匹配單元進(jìn)一步查找模塊、新參數(shù)詞 獲取模塊、以及新參數(shù)詞添加模塊。查找模塊用于在表達(dá)模式表中從出現(xiàn)頻率最高的表達(dá)模式開始查 找目標(biāo)評論句子中與該表達(dá)才莫式相匹配的評論;新參數(shù)詞獲取^莫塊用于在查找到匹配評論的情況下從匹配的評論 中得到新的產(chǎn)品參數(shù)詞。新參數(shù)詞添加模塊用于在結(jié)果參數(shù)表中不存在該新參數(shù)詞的情況 下將該新參數(shù)詞加入到結(jié)果參數(shù)表中。此外,優(yōu)選地,根據(jù)本發(fā)明的系統(tǒng)還進(jìn)一步包括詞性標(biāo)注模塊, 該詞性標(biāo)注模塊用于利用現(xiàn)有詞性標(biāo)注方法對目標(biāo)產(chǎn)品評論進(jìn)行詞性 標(biāo)注,每個(gè)標(biāo)注單元都對應(yīng)一個(gè)詞性標(biāo)記,如名詞,形容詞等,例如 氣泡/n相當(dāng)/d 豐富/a。下面參考圖7,對本發(fā)明的硬件結(jié)構(gòu)示例進(jìn)行說明。毫無疑問,圖 4-6所示的每個(gè)單元或模塊都可以用 一個(gè)專用硬件來構(gòu)成,同時(shí)這些 塊同樣也可以用通用信息處理設(shè)備來實(shí)現(xiàn)。如圖7所示,該計(jì)算機(jī)包括CPU外網(wǎng)單元,其中該單元包含了 CPU、RAM、 ROM、以及輸入/輸出控制器,并且所有這些部件是透過主機(jī)控 制器而互連。該計(jì)算機(jī)還包括通信接口、存儲設(shè)備、軟盤驅(qū)動器、以 及圖形控制器。特別地,軟盤驅(qū)動器可對軟盤進(jìn)行讀寫,圖形控制器 則驅(qū)動顯示器。CPU依照存儲在ROM、 BIOS、以及RAM中的程序來操作,并且 由此控制每一個(gè)部分。目標(biāo)評論和產(chǎn)品評論可通過多種方式輸入設(shè)備 輸入,如光驅(qū),鍵盤輸入或通過網(wǎng)絡(luò)傳輸。目標(biāo)評論和產(chǎn)品評論隨后 會被讀入存儲設(shè)備。存儲設(shè)備還存儲供計(jì)算機(jī)使用的本發(fā)明的程序、 應(yīng)用、OS等等的代碼和數(shù)據(jù)。此后,程序和數(shù)據(jù)將一皮加載到RAM中 以供CPIH吏用。從上述結(jié)構(gòu)實(shí)例中可以看出,任何具有通用計(jì)算機(jī)功能的硬件都可 以用作本發(fā)明需要的硬件。應(yīng)該指出的是,圖7僅示出了用于實(shí)施本 發(fā)明實(shí)施例的硬件結(jié)構(gòu)。相應(yīng)地,對其他各種結(jié)構(gòu)來說,只要對其可 以應(yīng)用本發(fā)明實(shí)施例,那么這些結(jié)構(gòu)都是可4亍的。此外,每一個(gè)上述 例示組件未必是本發(fā)明的必要組件。另外,本發(fā)明還可以使用硬件、 軟件、或者軟硬件組合來實(shí)現(xiàn)。至此,已對本發(fā)明進(jìn)行了描述。通過上述可知,本發(fā)明既提高了從 產(chǎn)品評論中自動獲取產(chǎn)品參數(shù)的準(zhǔn)確度,又提高了獲取的召回率。本 發(fā)明正是通過限制候選詞的相關(guān)度提高去噪的效率,使結(jié)果更加準(zhǔn)確, 并且通過獲取已經(jīng)得到的產(chǎn)品參數(shù)的表達(dá)模式,用這些模式可以獲取 更多的隱藏的產(chǎn)品參數(shù),提高了召回率。此外,本發(fā)明有效的支持跨 領(lǐng)域的產(chǎn)品參數(shù)詞獲取。通過借助不同領(lǐng)域的產(chǎn)品評論數(shù)據(jù),并且能 夠自動的獲取已有產(chǎn)品參數(shù)的表達(dá)規(guī)則,而不需要人為的設(shè)定,可以 有效的支持跨領(lǐng)域的產(chǎn)品參數(shù)獲取,同時(shí)又保證了較高的效率。對于本領(lǐng)域的普通技術(shù)人員來說可顯而易見的得出其他優(yōu)點(diǎn)和修述的具體說明及示例性實(shí)施例。因此,在不脫離由隨后4又利要求及其 等價(jià)體所定義的 一般發(fā)明構(gòu)思的精神和范圍的情況下,可對其做出各 種小務(wù)改。
權(quán)利要求
1、一種產(chǎn)品參數(shù)獲取系統(tǒng)包括目標(biāo)評論詞頻統(tǒng)計(jì)單元,用于統(tǒng)計(jì)目標(biāo)評論中各個(gè)名詞或名詞詞組出現(xiàn)的頻率并排序,并得到一個(gè)詞表;產(chǎn)品評論詞頻統(tǒng)計(jì)單元,用于統(tǒng)計(jì)詞表中的每個(gè)詞在不同領(lǐng)域內(nèi)的產(chǎn)品評論的出現(xiàn)頻率并記錄,同時(shí)查看出現(xiàn)該詞的每個(gè)評論子句中出現(xiàn)形容詞的子句數(shù)目并記錄;相關(guān)度計(jì)算單元,用于利用目標(biāo)評論詞頻統(tǒng)計(jì)單元和產(chǎn)品評論詞頻統(tǒng)計(jì)單元的統(tǒng)計(jì)結(jié)果來計(jì)算詞表中每個(gè)詞的相關(guān)度,并且將相關(guān)度大于某個(gè)設(shè)定值的詞作為結(jié)果表中的產(chǎn)品參數(shù);表達(dá)模式抽取單元,用于抽取結(jié)果表中的每個(gè)產(chǎn)品參數(shù)在目標(biāo)產(chǎn)品評論中的表達(dá)模式并將其記錄成一個(gè)產(chǎn)品參數(shù)表達(dá)模式表;匹配單元,用于通過在目標(biāo)評論句子中匹配這些表達(dá)模式來找到那些隱藏的出現(xiàn)頻率不高的產(chǎn)品參數(shù)詞。
2、 根據(jù)權(quán)利要求l的系統(tǒng),其中利用以下公式來計(jì)算詞表中每個(gè)詞 的相關(guān)度,=
3、 根據(jù)權(quán)利要求l的系統(tǒng),其中表達(dá)模式抽取單元進(jìn)一步包括 檢查模塊,用于對包含結(jié)果表中的某個(gè)詞的每條目標(biāo)評論句子進(jìn)行才全查;提取模塊,用于提取從該詞開始到周圍最近的形容詞的這部分句 子片段以作為該詞在該句子中的表達(dá)模式。
4、 根據(jù)權(quán)利要求l的系統(tǒng),其中匹配單元進(jìn)一步包括查找模塊,用于在表達(dá)模式表中從出現(xiàn)頻率最高的表達(dá)模式開始查找目標(biāo)評論句子中與該表達(dá)模式相匹配的評論;新參數(shù)詞獲取模塊,用于在查找到匹配評論的情況下從匹配的評 論中得到新的產(chǎn)品參凄t詞;以及新參數(shù)詞添加模塊,用于在結(jié)果表中不存在該新參數(shù)詞的情況下 將該新參數(shù)詞加入到結(jié)果參數(shù)表中。
5 、 一種產(chǎn)品參數(shù)獲取方法包括A、統(tǒng)計(jì)目標(biāo)評論中各個(gè)名詞或名詞詞組出現(xiàn)的頻率并排序,并得 到一個(gè)詞表;B 、統(tǒng)計(jì)詞表中的每個(gè)詞在不同領(lǐng)域內(nèi)的產(chǎn)品評論的出現(xiàn)頻率并記 錄,同時(shí)查看出現(xiàn)該詞的每個(gè)評論子句中出現(xiàn)形容詞的子句數(shù)目并記錄;C、 利用步驟A和B的統(tǒng)計(jì)結(jié)果來計(jì)算詞表中每個(gè)詞的相關(guān)度, 并且將相關(guān)度大于某個(gè)設(shè)定值的詞作為結(jié)果表中的產(chǎn)品參數(shù);D、 抽取結(jié)果表中的每個(gè)產(chǎn)品參數(shù)在目標(biāo)產(chǎn)品評論中的表達(dá)模式并將其記錄成一個(gè)產(chǎn)品參數(shù)表達(dá)模式表;E、 通過在目標(biāo)評論句子中匹配這些表達(dá)模式來找到那些隱藏的出 現(xiàn)頻率不高的產(chǎn)品參數(shù)詞。
6、 根據(jù)權(quán)利要求5的方法,其中利用以下公式來計(jì)算詞表中每個(gè)詞 的相關(guān)度
7、 根據(jù)權(quán)利要求5的方法,其中步驟C進(jìn)一步包括對包含結(jié)果表中的某個(gè)詞的每條目標(biāo)評論句子進(jìn)行檢查; 提取從該詞開始到周圍最近的形容詞的這部分句子片段以作為該詞在該句子中的表達(dá)模式。
8、 根據(jù)權(quán)利要求5的方法,其中步驟E進(jìn)一步包括在表達(dá)模式表中從出現(xiàn)頻率最高的表達(dá)模式開始查找目標(biāo)評論句子中與該表達(dá)模式相匹配的評論;在查找到匹配評論的情況下從匹配的評論中得到新的產(chǎn)品參數(shù)詞;以及參數(shù)表中。
全文摘要
一種產(chǎn)品參數(shù)獲取系統(tǒng)和方法,其中該系統(tǒng)包括目標(biāo)評論詞頻統(tǒng)計(jì)單元,用于統(tǒng)計(jì)目標(biāo)評論中各個(gè)名詞的詞頻并得到一個(gè)詞表;產(chǎn)品評論詞頻統(tǒng)計(jì)單元,用于統(tǒng)計(jì)每個(gè)詞在產(chǎn)品評論的詞頻,同時(shí)查看出現(xiàn)該詞的中出現(xiàn)形容詞的子句數(shù)目;相關(guān)度計(jì)算單元,用于計(jì)算詞表中每個(gè)詞的相關(guān)度;表達(dá)模式抽取單元,用于抽取每個(gè)產(chǎn)品參數(shù)在目標(biāo)產(chǎn)品評論中的表達(dá)模式并將其記錄成表達(dá)模式表;以及匹配單元,用于通過在目標(biāo)評論句子中匹配這些表達(dá)模式來找到那些出現(xiàn)頻率不高的產(chǎn)品參數(shù)詞。
文檔編號G06F17/30GK101576907SQ200910078790
公開日2009年11月11日 申請日期2009年3月3日 優(yōu)先權(quán)日2009年3月3日
發(fā)明者軍 何, 劉紅巖, 杜小勇, 慧 楊, 巍 魏 申請人:杜小勇