專利名稱:基于用戶評論文本特征的自動摘要方法及其自動摘要系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種針對用戶評論的文本特征進(jìn)行文本自動摘要的自動摘要方 法及其自動摘要系統(tǒng),屬于知識挖掘技術(shù)領(lǐng)域。
背景技術(shù):
基于文本特征的自動摘要技術(shù)是使用計算機(jī)技術(shù)自動地為電子文檔生成 "一段較原文短小且涵蓋了原文中重要信息的文本"。隨著互聯(lián)網(wǎng)的深入發(fā)展, 信息爆炸式增長使得文本自動摘要技術(shù)的應(yīng)用越來越廣泛。根據(jù)處理對象的不 同,文本摘要可分為單文檔自動摘要和多文檔自動摘要兩類。
單文檔自動摘要技術(shù)是為單一文檔自動生成摘要的技術(shù),主要采用基于句 子抽取的方法,即首先依據(jù)詞頻、句子的位置、句法結(jié)構(gòu)、文檔結(jié)構(gòu)等因素計 算句子的得分,然后選取得分最高的若干句子作為文摘句,將所有文摘句按它 們在原文中的順序組織成文摘。此外,單文檔自動摘要還可以采用基于自然語 言理解的文摘生成方法,利用語言學(xué)知識分析文本的深層語言結(jié)構(gòu),并且利用 領(lǐng)域知識對語義進(jìn)行判斷、推理,得到文檔的語義表示,然后根據(jù)文檔的語義 表示生成摘要。相較而言,句子抽取的方法較簡單,適用范圍廣;而基于自然 語言理解的文摘生成方法十分復(fù)雜,且依賴于領(lǐng)域知識庫,具有嚴(yán)格領(lǐng)域受限 的特性。因此,目前主流的單文檔自動摘要仍然采取基于句子抽取的方法。
多文檔自動摘要是為同一主題下的多個文檔自動生成摘要,需要考慮不同 文檔內(nèi)容上的冗余與沖突。多文檔自動摘要主要有三類方法(1)使用信息抽
取技術(shù)抽取各個文檔中的重要信息,人工定制或半自動地生成摘要的模板,將 抽取的信息填入模板生成摘要;(2)首先使用單文檔文摘技術(shù)為各個文檔生成 摘要,然后過濾其中冗余和沖突的內(nèi)容,將剩余內(nèi)容組織生成摘要;(3)首先 對組成文檔的所有句子進(jìn)行分類或聚類,然后從各個集合中選取表現(xiàn)主題的句
5子組織成文摘。采用第三種方法的一個典型工具是MEAD,具體參見Radev D R, Jing H, Stys M, et al. Centroid-based summarization of multiple documents. Information Processing and Management, 2004, 40:919-938。 MEAD是一個基 于文檔聚類和文檔集合特征的多文檔自動摘要系統(tǒng),MEAD先對多文檔中的句子 進(jìn)行聚類,使用統(tǒng)計方法選取各個句子集合中詞頻最高的詞和短語組成偽句子 作為集合的"質(zhì)心",然后計算集合中其他句子與質(zhì)心的相似度作為句子的得分, 最后選取各個集合中得分最高的句子作為文摘句,將文摘句組織起來生成文檔 摘要。
隨著Web2. 0的發(fā)展,互聯(lián)網(wǎng)逐漸成為一個人們可以自由發(fā)表言論的平臺, 網(wǎng)絡(luò)上開始出現(xiàn)大量的包含豐富的主觀見解的文本,如用戶評論等。目前,文 本自動摘要的研究對象主要是科技文獻(xiàn)和新聞等具有嚴(yán)謹(jǐn)?shù)奈臋n結(jié)構(gòu)、語言風(fēng) 格相對統(tǒng)一、陳述客觀事實(shí)的文本;而用戶評論往往是針對事物特定方面表達(dá) 主觀見解的文本,其具有結(jié)構(gòu)靈活松散、語言風(fēng)格多樣化特點(diǎn)??紤]到用戶評 論的以上特點(diǎn),本發(fā)明采用了基于特征的分類方法,即首先分析大量評論,從 中識別出用戶評論的所有特征,然后根據(jù)句子評價的特征對單個評論句進(jìn)行分 類。目前情感分析領(lǐng)域提出了一些從用戶評論中識別特征的方法,如頻繁項(xiàng)集 挖掘方法,基于概率語言模型的方法,模式發(fā)現(xiàn)與模式匹配的方法,以及基于 啟發(fā)式規(guī)則的無監(jiān)督學(xué)習(xí)方法等。
這些主觀性本文數(shù)量巨大且分布比較分散,所以要獲得其中包含的豐富的 知識往往要花費(fèi)大量的時間和精力。本發(fā)明主要采用第三類方法為用戶評論生 成摘要,提出一種特征識別與過濾算法,通過對比實(shí)驗(yàn)說明特征識別的查準(zhǔn)率 和Fl值都有較大的提高。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)結(jié)構(gòu)的不足,本發(fā)明提供一種基于用戶評論文本特征的 自動摘要方法及其自動摘要系統(tǒng),其能夠自動為大量的用戶評論生成簡潔、全面的摘要,以幫助人們更快更好地從用戶評論中獲取知識。本發(fā)明特征識別的查 準(zhǔn)率和Fl值都有較顯著的提高。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是
一種基于用戶評論文本特征的自動摘要方法,其包括以下歩驟
步驟l,用戶評論預(yù)處理爬取并解析用戶評論網(wǎng)頁,得到用戶評論,然后 對所述用戶評論進(jìn)行預(yù)處理,得到預(yù)處理后的用戶評論;
步驟2,特征識別通過分析所述預(yù)處理后的用戶評論,從中識別出被用戶 評價的特征,然后從所述被用戶評價的特征中,使用統(tǒng)計方法識別出候選特征;
歩驟3,評論句分類將所述預(yù)處理后的用戶評論句按所述候選特征分類, 從而得到相應(yīng)候選特征的評論句類;
步驟4,特征過濾根據(jù)所述評論句類對候選特征進(jìn)行過濾,從而得到最終 特征及其所對應(yīng)的候選評論句類;
步驟5,摘要生成計算所述候選評論句類中每個句子的得分,抽取若干 文摘句生成摘要。
上述步驟l中進(jìn)一步包括,所述爬取并解析用戶評論網(wǎng)頁是指,針對選取 的特定的事物爬取該事物的所有用戶評論網(wǎng)頁,得到爬取的用戶評論,然后解 析所述爬取的用戶評論,獲得用戶評論文本。
上述歩驟1中,對所述用戶評論進(jìn)行預(yù)處理是指,標(biāo)注用戶評論中的所所 有詞語的詞性,去除其中的停用詞,并對剩余詞語進(jìn)行詞干抽取,得到預(yù)處理 后的用戶評論文本。
上述步驟2中,所述被用戶評價的特征是指是用戶在評價某件事物時著眼 的某個側(cè)面、某個細(xì)節(jié)、某個屬性或者某個組成部分。
上述步驟2中,所述使用統(tǒng)計方法識別出候選特征是指提取所述被用戶 評價的特征相應(yīng)的用戶評論句中的所有名詞,計算單個名詞出現(xiàn)的頻率以及任 意兩個名詞共現(xiàn)的頻率;選取出現(xiàn)頻率最高的單個名詞和共現(xiàn)頻率最高的名詞作為候選特征。
上述步驟4中所述的對候選特征進(jìn)行過濾是指,根據(jù)組成特征的名詞在評 論句中出現(xiàn)的相對位置,以及各個特征之間意義上的泛化與特化關(guān)系,過濾無 意義和冗余的候選特征。
上述步驟5中進(jìn)一歩包括釆用統(tǒng)計方法計算山表現(xiàn)各個評論句類主題的關(guān) 鍵詞,然后根據(jù)評論句內(nèi)容與主題的契合度、評論句的長度以及評論句在整篇 評論中出現(xiàn)的位置,計算評論句的得分,然后抽取用戶評論句類中得分最高的 若干原評論句組織生成摘要。
種基于用戶評論文本特征的自動摘要方法,進(jìn)一步包括所述采用統(tǒng)計方 法計算出表現(xiàn)各個評論句類主題的關(guān)鍵詞是指,在對評論句分類的基礎(chǔ)上,使 用統(tǒng)計的方法找出每個類的關(guān)鍵詞,構(gòu)造表示該評論句類主題的偽句子一質(zhì)心, 計算基于評論句與質(zhì)心的相似度;所述評論句內(nèi)容與主題的契合度是指評論句
與質(zhì)心的相似度。
一種基于用戶評論文本特征的自動摘要系統(tǒng),其包括
用戶評論預(yù)處理模塊其用于爬取并解析用戶評論,然后對所述用戶評論 進(jìn)行預(yù)處理;
特征識別模塊其通過分析所述預(yù)處理后的用戶評論,從用戶評論中識別 出被用戶評價的特征,然后從所述被用戶評價的特征中,使用統(tǒng)計方法識別出 候選特征。
評論句分類模塊其將用戶評論句按所述候選特征分類,從而得到相應(yīng)候 選特征的評論句類;
特征過濾模塊其根據(jù)評論句分類的結(jié)果對候選特征進(jìn)行進(jìn)一歩過濾,從 而得到感興趣的候選特征作為最終特征,以及得到所對應(yīng)的候選評論句類;
摘要生成模塊其用來計算所述候選評論句類的得分,抽取若干文摘句牛 成摘要。其中,用戶評論預(yù)處理模塊將預(yù)處理結(jié)果發(fā)送到特征識別模塊,得到識別 出的候選特征,將經(jīng)過所述用戶評論模塊預(yù)處理后的用戶評論文本和特征識別 模塊識別出的候選特征送入評論句分類模塊進(jìn)行分類,得到評論句類;對所述 候選特征進(jìn)行過濾得到最終特征及其對應(yīng)的候選評論句類;摘要生成模塊以所 述候選評論句類和所述最終特征作為輸入進(jìn)行統(tǒng)計分析并生成摘要。
本發(fā)明的有益效果
本發(fā)明提出了一種基于用戶評論文本的自動摘要方法,第一次將文本自動 摘要技術(shù)應(yīng)用于包含豐富主觀信息的用戶評論,并且針對用戶評論的特點(diǎn)提出 了基于特征的分類方法。
本發(fā)明方法能夠生成簡潔、全面的用戶評論摘要,大大縮短用戶閱讀評論 獲取有用信息的時間,提高知識利用率;基于特征的本方法是切合用戶評論自 身特點(diǎn)的,本發(fā)明提出的特征識別與特征過濾算法的査準(zhǔn)率可達(dá)81%以上,査全 率可達(dá)52%,査準(zhǔn)率和F1值較選取的對比算法都有較大的提高。在網(wǎng)絡(luò)時代信息 爆炸式增長的背景下,根據(jù)本發(fā)明的用戶評論自動摘要方法具有重大的意義, 可以廣泛應(yīng)用于電子商務(wù)等諸多領(lǐng)域,能夠顯著提高從海量信息中獲取知識的 質(zhì)量和效率。
圖l為根據(jù)本發(fā)明的基于用戶評論文本特征的自動摘要方法的總流程圖2為根據(jù)本發(fā)明方法的評論句分類的流程圖3為根據(jù)本發(fā)明方法的摘要生成的流程圖。
具體實(shí)施例方式
下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明作進(jìn)一歩詳細(xì)描述 實(shí)施例l:
以下結(jié)合一個在電子商務(wù)中為用戶評論生成摘要的例子,詳細(xì)描述本發(fā)明 的具體實(shí)施方式
。電子商務(wù)是互聯(lián)網(wǎng)上重要的Web應(yīng)用,電子商務(wù)網(wǎng)站往往允許用戶對商品
發(fā)表評論,這些包含著用戶對商品購買和使用的主觀性體驗(yàn)的評論,常常可以 作為其他用戶挑選商家和商品的參考,也可以作為商家改進(jìn)服務(wù)的依據(jù)。大型 網(wǎng)站匕的熱門商品往往包含成百上千條用戶評論,閱讀十分耗時。本發(fā)明可以 為大量用戶評論自動生成簡潔、全面的摘要,大大提高知識獲取的效率。
如圖l所示,基于特征的用戶評論自動摘要方法主要包括以下幾個步驟 步驟1用戶評論預(yù)處理爬取并解析用戶評論,然后對所述用戶評論進(jìn)行 預(yù)處理。
為電子商務(wù)中商品的用戶評論生成摘要,首先需要從電子商務(wù)網(wǎng)站上爬取
針對該商品的所有用戶評論網(wǎng)頁。在本實(shí)施例中,從www. amazon. com上爬取針 對商品Apple iPod touch的所有用戶評論網(wǎng)頁,解析網(wǎng)頁得到939條用戶評論。
在開始自動摘要之前,需要對用戶評論進(jìn)行一系列預(yù)處理。使用Stanford Part-of-Speech Tagger對用戶評論進(jìn)行詞性標(biāo)注,Stanford Part-of—Speech Tagger是一個使用最大熵模型的詞性標(biāo)注器,準(zhǔn)確率可達(dá)96.86%。此外,刪除 用戶評論中的刪除停用詞,使用Porter Stemmer為剩余的詞語抽取詞干。處理 后的評論句采用向量空間模型表示和存儲。
步驟2特征識別通過分析大量用戶評論,從用戶評論中識別出被用戶評價 的特征,然后從所述被用戶評價的特征屮,使用統(tǒng)計方法識別出候選特征。
如前所述,事物的特征是用戶在評價某件事物時著眼的某個側(cè)面、某個細(xì) 節(jié)或者某個屬性、某個組成部分。在電子商務(wù)領(lǐng)域中,用戶著眼的往往是商品 本身的屬性或組成部分,或者購物過程中的某個側(cè)面或細(xì)節(jié),這些被統(tǒng)稱為特 征。這些特征往往是名詞或者兩個名詞組成的詞組;因?yàn)椴煌脩舨捎孟嗤?詞語表示特征,而往往用不同的詞語表達(dá)他們的購物和用戶體驗(yàn),所以表示特 征的詞語出現(xiàn)的頻率較其他詞語更高?;诖?,本發(fā)明采用一種基于頻繁項(xiàng)集 挖掘的統(tǒng)計方法進(jìn)行特征識別,能夠自適應(yīng)地識別各種商品的特征。
頻繁項(xiàng)集挖掘的問題描述是〉是一個含N個項(xiàng)集的集合,其
10中>,/ = 1,2,...,^是一個^項(xiàng)集,/7,/ = 1,2,...,",是一個項(xiàng)。給定一個參數(shù)
最小支持度^V^^p^"頻繁項(xiàng)集挖掘是為了找出所有滿足以下條件的項(xiàng)集S: D中至少存在/V* //7.w/^o;^個項(xiàng)集& ,使得S ^ & 。
Apriori算法是頻繁項(xiàng)集挖掘的經(jīng)典算法之一。它采用寬度優(yōu)先搜索策略, 利用Apriori性質(zhì),即滿足最小支持度要求的m項(xiàng)集一定是所有滿足要求的n 項(xiàng)集的并集的子集(m〉n),有效地縮小了搜索空間。
與Apriori算法不同,本文的特征算法僅識別單字和雙字特征,即1-項(xiàng)集 和2-項(xiàng)集,尤其特別為兩者指定了不同的最小支持度/^/7sz//^0rW和 啦'77^/A^r^。之所以如此,是因?yàn)榻M成雙字特征兩個詞語共現(xiàn)的頻率要遠(yuǎn)低于 單字特征出現(xiàn)的頻率。若兩者采用同樣的最小支持度,則參數(shù)太大會導(dǎo)致無法 有效識別雙字特征,參數(shù)太小會導(dǎo)致識別大量錯誤的單字特征。該算法步驟如 下
1) 抽取用戶評論中所有名詞生成事務(wù)文件,文件每行為一個評論句中出現(xiàn) 的名詞;
2) 遍歷事務(wù)文件,統(tǒng)計每個名詞的支持度;事務(wù)文件的總行數(shù),即評論句 總數(shù)為
3) 選取支持度不小于/z/i/^,pw^的名詞為單字特征;
4) 以所有支持度不小于^i/^w/^or^的名詞作為雙字特征候選集;
5) 遍歷事務(wù)文件,統(tǒng)計任意兩個名詞所組成的詞組的支持度,選取支持度 不小于/wV s,por"的詞組作為雙字特征。
如算法步驟4)所示,選取支持度不小于/77i/7s,por"的名詞而不是所有名 詞作為雙字特征候選集,是利用Apriori性質(zhì)以縮小搜索空間。算法中的兩個 參數(shù)啦'刀s砂/ oi^7和肌V^w/^or^通過一些列實(shí)驗(yàn)學(xué)習(xí)得到,其中單字特征支 持度/w'/LSi/ftwrW為0. 012,雙字特征支持度/w'/7s,/ orz^為0. 005。
步驟3評論句分類將用戶評論句按所述候選特征分類,從而得到相應(yīng)候 選特征的評論句類。識別出商品的所有被評價的特征后,依次分析每一個評論句評價的特征, 將評論句分到該特征對應(yīng)的評論句類中。于是得到一系列評論句類,其中每一 個類對應(yīng)一個特征,包含評價該特征的所有評論句。
步驟4特征過濾根據(jù)評論句分類的結(jié)果對候選特征進(jìn)行過濾,從而得到 感興趣的候選特征及其所對應(yīng)的候選評論句。
完成評論句分類后,需要根據(jù)分類的結(jié)果,考慮組成雙字特征的兩個詞語 在評論句中出現(xiàn)的位置以及出現(xiàn)的次數(shù),過濾無意義的雙字特征;然后根據(jù)候 選單字特征在概念上與雙字特征的包含關(guān)系過濾冗余的單字特征。
對于雙字特征過濾,觀察到組成雙字特征的兩個詞語在評論句屮的出現(xiàn)往 往距離較近,而且保持一致的相對順序。為此定義了有效的雙字特征的概念。 定義1 一個有效的雙字特征f^ ,w^應(yīng)滿足以下條件
(1) f-〈WpW,在評論句S中共現(xiàn),w,和^保持w,在前w,在后的相對順序, 且兩者出現(xiàn)位置的距離小于給定閾值W'/7^『i》e;
(2) 更新雙字特征的支持度為滿足條件(1)的評論句的數(shù)目,雙字特征
的支持度必須大于給定閾值歷i^ wp/ 。
若雙字特征,< ,^>的支持度小于給定閾值,則該雙字特征是無意義的。 對于單字特征過濾,定義了單字特征的純支持度(pure support)的概念。 定義2 已知所有雙字特征/;,/2,...,/;,,2 。 一個單字特征w的純支持度,是指w 出現(xiàn)且/;,/2,...,/ ,2不出現(xiàn)的評論句的總數(shù)。
有效的單字特征是指純支持度不小于給定閾值巡i^o^^p的單字特征,純支 持度小于歷i"; s,p的單字特征是冗余的。
例如,battery life和life為算法1識別出的特征,battery life的支持度為20, life的支持度為30,則life的純支持度為30-20=10。若給定 肌V AWA^20,則life是冗余的單字特征。
評論句分類與特征過濾算法的具體描述如下
輸入經(jīng)過預(yù)處理的用戶評論,以及算法l識別出的候選特征 輸出經(jīng)過過濾的特征,以及各個特征對應(yīng)的評論句類
過禾呈Classifier(V&c/oprw'ze, / i/75"〃巡啦'邵6"〃卯)
2while讀入一個評論句5,
3 for A中的每一個詞語w,
4 if ,是算法1識別出的一個單字特征then
5 《-^在^中出現(xiàn)的位置
6 =恥wm u <y7 , )
7 將評論句&分到單字特征w,對應(yīng)的評論句類。
8 for腳ns中的每一對名詞(w"《),(Wi,《)
9 if <w,,wt >是雙字特征&& 《〈w油麗fee then
10 將A分到雙字特征《^,vn >對應(yīng)的評論句類^
11 else if <wt,,->是3又字牛寺個正&& o#,<vw>^cws/ze then
12 將s,分到雙字特征〈^, >對應(yīng)的評論句類
13 for每一個雙字特征< W/,w, >
14 根據(jù)定義1更新 的支持度
15 if s,, < yz i776""淨(jìng)then
16 刪除雙字特征
1317 for在雙字特征中出現(xiàn)的每一個名詞w,
18 根據(jù)定義1計算w,的純支持度戸"w,
19 if 戸p巧〈邁i邵幼; p then
20 刪除單字特征w,
算法2第1-12行成評論句分類,如圖2所示,給定一個評論句,算法先判斷其中出現(xiàn)的每 -個名詞是否是單字特征,然后判斷每兩個單字特征組成的名詞對是否是雙字特征,然后將該評論句分到相應(yīng)的單字特祉或雙字特征對應(yīng)的評論句類。具體評論句分類過程如下
(l)讀入一個評論句s,記錄其中出現(xiàn)的名詞^,2,...,,,判斷,力(—l,…t)是單字特征?如果不是,繼續(xù)處理s中下-個名詞w,+,直到處理完s中出現(xiàn)的所有名詞;(2)如果w,是單字特征,則將s分到w,對應(yīng)的類c,,將w,加入nouns;對nouns中的每一對名詞< >,判斷〈",w'p是雙字特征?如果是,那么將s分到<勺,^>對應(yīng)的類^;否則,繼續(xù)回到(1)繼續(xù)處理s中下一個名詞。
算法2第13-16行根據(jù)定義1進(jìn)行雙字特征過濾,第17-20行根據(jù)定義2完成單字特征過濾。三個參數(shù)r^^H^ 'ze,肌';isw/^和啦V7/^WAD分別表示組成雙字特征的兩個名詞在評論句中出現(xiàn)位置間的最大距離,雙字特征的最小支持度,和單字特征的最小純支持度。經(jīng)過系列實(shí)驗(yàn)學(xué)習(xí),『力7t/o^ize取值為2,瓜i/ s〃/ p禾口 /z i/^swp/3的取f直:^另ij與歷j'/ 5"〃/ parz^禾口 /w'/ sw/^orz^相同,為0. 005和0,012。
歩驟5摘要生成計算所述候選評論句的得分,抽取若干文摘句生成摘要。在評論句分類的基礎(chǔ)上,本發(fā)明使用句子抽取的方法生成摘要。圖3為摘要生成的流程圖。如圖3所示,對于每一個評論句類,先計算組成評論句詞語
的權(quán)重,抽取若干權(quán)重最高的關(guān)鍵詞組成表示該評論句類主題的質(zhì)心向量;然后基于評論句與質(zhì)心的相似度、評論句長度以及句子在整篇評論中的位置計算評論句的得分,按照壓縮率抽取得分最高的若干評論句作為該分類的文摘句;最后按照一定順序排列各個評論句類的文摘句生成摘要。
^="1^2,...,^>為某種產(chǎn)品某個特征的評論句分類,w是d中評論句的數(shù)目。
& =<、,,、,.., ,,、hl,2,…,.V是評論句5,的向量模型表示,"是整個評論句分類中出現(xiàn)的詞語的總數(shù),w,中f是評論句的標(biāo)識符,而J是詞語的全局標(biāo)識符。
=,("'"',/ = 1,2,...義/' = 1,2,...^是詞語,的權(quán)值。特別地,當(dāng)巧沒有在a中出現(xiàn)時、=0.
評論句分類d的質(zhì)心是個能反映該分類的主題的偽句子,同樣采用向量模型表示,ce"的^W)=<、,、,.,、 >。其中、為關(guān)鍵詞v^的權(quán)重,計算方法為
《=log
出現(xiàn)的句子數(shù)
對于每個評論句,計算以卜三種得分
(1) 基于質(zhì)心的得分如下<formula>formula see original document page 15</formula>
即表示評論句的向量與質(zhì)心向量的余弦相似度。因?yàn)橘|(zhì)心是表示文檔集合主題的偽句子,與質(zhì)心越相似的評論句越能反映文檔集合的主題,故而得分越高。
(2) 基于評論句長度的得分如下
,、j中最短句的長度n, , W1
長度越短的句子得分越高,可以使相同長度的摘要包含更多的句子,從而包含更加豐富的信息。(3)基于段落首句的得分如下
,、卩,如果si是段落首句
f '、 否則
根據(jù)Baxendale的研究,句子在文檔中的位置對句子重要性的影響重大,段落首句是該段落中心句的概率為85%。因此,段落首句得分為l。
對于一個評論句、,其初始得分為基于質(zhì)心和基于長度的得分的線性和,即score。
) = " * score乙) +々* score, (s,) + y承score, )
其中"為基于質(zhì)心得分的權(quán)值,/ 是基于評論句長度的得分的權(quán)值,^是基
于段落首句的得分的權(quán)值,0<",/ ,7<1且《 + / + 7 = 1。通過一系列實(shí)驗(yàn)考量生成摘要的質(zhì)量和實(shí)際的應(yīng)用需求,選取"=0.5,^ = 0.3,y = 0.2 。
得到評論句的初始得分后,依次從各分類中抽取得分最高的句子加入摘要;若摘要長度未達(dá)到壓縮率的限制,則在每次迭代后重新計算各分類中剩余評論句的得分,然后抽取得分最高的句子加入摘要,直到摘要長度達(dá)到限制時迭代結(jié)束。第(k+l)次迭代時,評論句x,的得分計算方法為
scorek+l") = scorek") — ;scorek 0:)
其中^是第k次迭代后選取的得分最高的評論句。每次迭代后重新計算句子
得分的目的是為了為與已選取的句子內(nèi)容不相似的句子賦予更高的得分,以降低所生成的摘要的冗余度。
最終生成摘要吋需要考慮從各個評論句類中選取的文摘句之間的相對順序。這里先將特征按支持度的降序排列,依次各個特征對應(yīng)的評論句類中選取一個文摘句加入摘要。
性能評測
基于特征的用戶評論自動摘要方法首先需要分析用戶評論識別出被評價的特征,然后將所有評論句按照所評價的特征進(jìn)行分類,使用句子抽取的方法從各個評論句類中抽取文摘生成摘要。因此,特征識別的質(zhì)量對于生成摘要的質(zhì)
16評測特征識別的質(zhì)量的指標(biāo)主要有以下三
杳全率(Recall) ^正確識別的特征數(shù)—— 人工標(biāo)注的特征數(shù)二水.
査準(zhǔn)率(Precision) w =確另歸魏
識別的特征總數(shù)
Fl值(Fl-measure) fi= 2p7
p + i
在用戶評論摘要的應(yīng)用中,有些特征往往只被很少的用戶評價,而在摘要篇幅受限的情況下應(yīng)該優(yōu)先考慮被用戶普遍關(guān)注的特征,所以特征識別的査準(zhǔn)率比查全率更重要。
實(shí)驗(yàn)選定的對比算法是Hu & Liu在情感分析系統(tǒng)FBS研究中采用的Apriori算法(Hu Minqing, Liu Bing. Mining and Summarizing Customer Reviews.SIGKDD, 2004, 168-177)。實(shí)驗(yàn)數(shù)據(jù)是從電子商務(wù)網(wǎng)站amazon、cnet、和印inions上收集的5種商品的英文用戶評論,包括2款移動電話、l款筆記本電腦、l款MP3播放器和1款數(shù)碼相機(jī),每種商品有數(shù)百條用戶評論。
首先選取一個標(biāo)注者閱讀所有用戶評論,人工標(biāo)注出其中的特征,表1第2列為各種商品人工標(biāo)注的特征數(shù)。然后比較算法識別的特征與人工標(biāo)注特征,第3列和第7列分別為算法識別出的特征數(shù);統(tǒng)計算法識別正確的特征數(shù),計算查準(zhǔn)率、査全率和F1值。實(shí)驗(yàn)結(jié)果表明,本發(fā)明采用的特征識別與過濾算法的查全率為51.9%,査準(zhǔn)率為81.0%,而F1值為62. 7%,相較于對比算法查準(zhǔn)率提高了24%, Fl值提高了6。/。。
表l特征識別的質(zhì)量評測產(chǎn)品名稱人工標(biāo) 注的特 征數(shù)FBS特征識別與特征過濾算法特征 數(shù)査準(zhǔn)率査全 率Fl值特征 數(shù)查準(zhǔn) 率.查全 率Fl值
移動電話183630. 6830. 5180. 589430. 8370. 4340. 571
移動電話2100640. 7500. 4800. 585610. 8030. 4900. 609
筆記本65600. 6330. 5850. 608430. 8370. 5540. 667
MP3播放器68700. 5860. 6030. 594530. 7740. 6030. 678
數(shù)碼相機(jī)62570. 6320. 5810.605400.8000. 5460. 627
平均值75. 662. 80. 6570. 5530. 59648. 00.8100. 5丄90. 630
在準(zhǔn)確的特征識別的前提下,給定壓縮率(實(shí)驗(yàn)中取1%),基于特征的用戶
評論白動摘耍方法能夠生成覆蓋所有被識別出的特征(查全率為51. 9%)的摘耍, 而且能夠大大縮短閱讀時間(1%),從而顯著提高用戶從海量用戶評論中獲取有
用信息的效率,這在信息爆炸式增長的網(wǎng)絡(luò)時代具有重大的實(shí)踐意義和應(yīng)用前
旦 足。
以上僅為本發(fā)明較佳的具體實(shí)施方式
,但木發(fā)明的保護(hù)范圍并不局限于此, 本發(fā)明方法同樣適用于電子產(chǎn)品、電子書籍、手機(jī)和提高用戶關(guān)聯(lián)度的擴(kuò)大銷 售領(lǐng)域。此外,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi), 可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種基于用戶評論文本特征的自動摘要方法,其包括以下步驟步驟1,用戶評論預(yù)處理爬取并解析用戶評論網(wǎng)頁,得到用戶評論,然后對所述用戶評論進(jìn)行預(yù)處理,得到預(yù)處理后的用戶評論;步驟2,特征識別通過分析所述預(yù)處理后的用戶評論,從中識別出被用戶評價的特征,然后從所述被用戶評價的特征中,使用統(tǒng)計方法識別出候選特征;步驟3,評論句分類將所述預(yù)處理后的用戶評論句按所述候選特征分類,從而得到相應(yīng)候選特征的評論句類;步驟4,特征過濾根據(jù)所述評論句類對所述候選特征進(jìn)行過濾,從而得到最終特征及其所對應(yīng)的候選評論句類;步驟5,摘要生成計算所述候選評論句類中每個句子的得分,抽取若干文摘句生成摘要。
2. 根據(jù)權(quán)利要求l所述的基于用戶評論文本特征的自動摘要方法,其特征 是步驟1中,所述爬取并解析用戶評論網(wǎng)頁是指,針對選取的特定的事物爬 取該事物的所有用戶評論網(wǎng)頁,得到爬取的用戶評論,然后解析所述爬取的用 戶評論,獲得用戶評論文本。
3. 根據(jù)權(quán)利要求1所述的基于用戶評論文本特征的自動摘要方法,其特 征是步驟1中,對所述用戶評論進(jìn)行預(yù)處理是指,標(biāo)注所述用戶評論中的所 有詞語的詞性,去除其中的停用詞,并對剩余詞語進(jìn)行詞干抽取,得到所述預(yù) 處理后的用戶評論。
4. 根據(jù)權(quán)利要求1所述的基于用戶評論文本特征的自動摘要方法,其特 征是,步驟2中所述被用戶評價的特征是指是用戶在評價某件事物時著眼的某 個側(cè)面、某個細(xì)節(jié)、某個屬性或者某個組成部分。
5. 根據(jù)權(quán)利要求l所述的基于用戶評論文本特征的自動摘要方法,其特征 是,步驟2中所述使用統(tǒng)計方法識別出候選特征是指提取所述被用戶評價的特 征相應(yīng)的用戶評論句中的所有名詞,計算單個名詞出現(xiàn)的頻率以及任意兩個名 詞共現(xiàn)的頻率;選取出現(xiàn)頻率最高的單個名詞和共現(xiàn)頻率最高的名詞作為候選 特征。
6. 根據(jù)權(quán)利要求l所述的基于用戶評論文本特征的自動摘要方法,其特征是步驟4中所述的對候選特征進(jìn)行過濾是指,根據(jù)組成特征的名詞在評論句中 出現(xiàn)的相對位置,以及各個特征之間意義上的泛化與特化關(guān)系,過濾無意義和 冗余的候選特征。
7. 根據(jù)權(quán)利要求l所述的基于用戶評論文本特征的自動摘要方法,其特征 是步驟5中所述計算所述候選評論句的得分是指根據(jù)所述候選評論句的K度、 位置和內(nèi)容計算所述候選評論句的得分。
8. 根據(jù)權(quán)利要求1或7所述的基于用戶評論文本特征的自動摘要方法,其特征是步驟5進(jìn)一步包括采用統(tǒng)計方法計算山表現(xiàn)各個評論句類主題的關(guān)鍵詞, 然后根據(jù)評論句內(nèi)容與主題的契合度、評論句的長度以及評論句在整篇評論中 出現(xiàn)的位置,計算評論句的得分,然后抽取用戶評論句類中得分最高的若干原 評論句組織生成摘要。
9.根據(jù)權(quán)利要求8所述的基于用戶評論文本特征的自動摘要方法,其特征是所述采用統(tǒng)計方法計算出表現(xiàn)各個評論句類主題的關(guān)鍵詞是指,在對評論 句分類的基礎(chǔ)上,使用統(tǒng)計的方法找出每個類的關(guān)鍵詞,構(gòu)造作為表示該評論 句類主題的偽句子的質(zhì)心,計算基于評論句與質(zhì)心的相似度;所述評論句內(nèi)容與主題的契合度是指評論句與質(zhì)心的相似度。
10. —種基于用戶評論文本特征的自動摘要系統(tǒng),其包括 用戶評論預(yù)處理模塊其用于爬取并解析用戶評論網(wǎng)頁,得到用戶評論,然后對所述用戶評論進(jìn)行預(yù)處理,得到預(yù)處理后的用戶評論;特征識別模塊其通過分析所述預(yù)處理后的用戶評論,從中識別出被用戶評價的特征,然后從所述被用戶評價的特征中,使用統(tǒng)計方法識別出候選特征; 評論句分類模塊其將所述預(yù)處理后的用戶評論句按所述候選特征分類,從而得到相應(yīng)候選特征的評論句類;特征過濾模塊其根據(jù)所述評論句分類對所述候選特征進(jìn)行過濾,從而得到最終特征及其所對應(yīng)的候選評論句類;摘要生成模塊計算所述候選評論句類中每個句子的得分,抽取若干文摘句生成摘要,其中,用戶評論預(yù)處理模塊將預(yù)處理結(jié)果發(fā)送到特征識別模塊,得到識別 出的候選特征;將經(jīng)過所述用戶評論模塊預(yù)處理后的用戶評論文本和特征識別 模塊識別出的候選特征送入評論句分類模塊進(jìn)行分類,得到評論句類;對所述 候選特征進(jìn)行過濾得到最終特征及其對應(yīng)的候選評論句類;摘耍生成模塊以所 述候選評論句類和所述最終特征作為輸入進(jìn)行統(tǒng)計分析并生成摘要。
全文摘要
一種基于用戶評論文本特征的自動摘要方法及其自動摘要系統(tǒng),該方法包括以下步驟爬取并解析用戶評論網(wǎng)頁,并對用戶評論進(jìn)行一系列預(yù)處理;從用戶評論中識別出被用戶評價的特征;將用戶評論句按其評價的特征進(jìn)行分類,并根據(jù)評論句分類的結(jié)果過濾特征;以及計算評論句的得分,抽取若干文摘句生成摘要。本發(fā)明能夠從大量用戶評論中準(zhǔn)確地識別用戶關(guān)注的特征,根據(jù)評論的特征進(jìn)行評論句分類,然后使用基于句子抽取的文本摘要方法自動生成簡潔、全面的摘要,從而幫助用戶顯著提高獲取知識的效率和質(zhì)量;本發(fā)明應(yīng)用于電子商務(wù)領(lǐng)域能夠縮短用戶挑選商品的時間,提高購物效率,改善購物體驗(yàn)。
文檔編號G06F17/30GK101667194SQ200910093409
公開日2010年3月10日 申請日期2009年9月29日 優(yōu)先權(quán)日2009年9月29日
發(fā)明者銘 張, 章彥星 申請人:北京大學(xué)