国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于條件隨機場的網絡短評論情感傾向性挖掘系統(tǒng)的制作方法

      文檔序號:6375834閱讀:407來源:國知局
      專利名稱:一種基于條件隨機場的網絡短評論情感傾向性挖掘系統(tǒng)的制作方法
      技術領域
      本發(fā)明涉及web數據挖掘領域,特別涉及一種基于條件隨機場的網絡短評論情感傾向性挖掘系統(tǒng)。
      背景技術
      評論挖掘是當前研究的熱點,主要任務是對評論進行主客觀識別、詞匯傾向性分類、文本傾向性分類和觀點的抽取等,并且涉及到機器學習、自然語言處理、信息檢索等多個領域的知識。近年來,國內外很多研究者在情感傾向性分類上做了很多研究工作,但是從國內外的研究現狀發(fā)現,區(qū)分評論中的情感趨向是比較困難的,由兩個或多個單詞構成的短語、復合詞、句式結構等語言元素一起出現時才會表達了非常顯著的情感傾向,而那些單詞并沒有顯著傾向性。通過研究國內外評論挖掘技術發(fā)現,短評論文本具有文本短小、內容稀疏、主觀性 強、構詞不規(guī)律、領域依賴性強的特點。由于國內的評論挖掘相關研究起步較晚,評論挖掘的相關產品在國內還比較少,其在技術以及功能上還存在著很多的不足。而國外的起步比較早,技術已經趨于成熟,但基于中英文的差異,其相關技術在中文的應用上不能直接運用。

      發(fā)明內容
      本發(fā)明為了克服現有技術存在的缺點與不足,提供一種基于條件隨機場的網絡短評論情感傾向性挖掘系統(tǒng)。本發(fā)明所采用的技術方案一種基于條件隨機場的網絡短評論情感傾向性挖掘系統(tǒng),包括提取模塊、識別模塊、構建模塊、分類模塊;所述提取模塊,用于提取短評論中的特征詞;所述識別模塊,用條件隨機場模型的方法識別特征詞對應的情感詞,并與特征詞匹配組合成元組;所述構建模塊,用于構建與情感詞相關的情感詞典;所述分類模塊,用于將元組在情感詞典中查找分類,進而挖掘出短評論的情感傾向性。所述提取模塊采用基于統(tǒng)計的方法和有向圖理論的方法提取特征詞。所述特征詞同時符合如下條件(I)在一個文本中多次出現,(2)在詞的前面或后面加上其他詞形成新的詞后,在文本中出現的頻率降低。所述構建模塊采用如下步驟構建情感詞典,具體為(I)選擇與特征詞對應的帶有三種感情色彩的情感詞,系統(tǒng)將其劃分為褒義詞、中性詞、貶義詞;
      (2)基于同義詞詞林擴展上述褒義詞、中性詞、貶義詞,得到褒義詞集、中性詞集、貶義詞集;(3)在(2)得到的詞集中過濾掉屬于同義詞詞林中的第一大類、第二大類、第四大類、第十大類和第十一大類的詞;(4)系統(tǒng)過濾掉在上述詞集重復出現的情感詞和不具有描述能力的情感詞,然后將其它詞標上情感色彩,所述褒義詞標為gg,中性詞標為nn,貶義詞標為bb,得到情感詞典
      并保存。所述識別模塊采用如下步驟完成識別情感詞,并與特征詞匹配組合成元組;
      所述步驟為,根據短評論中詞語的構詞規(guī)律,把每一個詞語分類標注得到標注模型,然后通過條件隨機場進行詞語搭配的概率統(tǒng)計,得到需要的特征詞-情感詞元組。所述系統(tǒng)進行情感傾向性判斷后,對情感詞的前綴詞是否存在否定詞進行判斷。本發(fā)明的有益效果本發(fā)明能夠自動挖掘出網頁上有關產品和服務的短評論,并將其中的特征詞-情感詞元組抽取出來,建立情感詞典,對該元組的情感傾向性進行精確的判斷,最后系統(tǒng)以這種精煉的特征詞-情感詞的元組形式將短評內容展示出來,這不僅為消費者提供了一種一目了然的消費參考,并且也對關注用戶滿意度及消費焦點等方面的企業(yè)具有非常大的戰(zhàn)略意義。


      圖I為本發(fā)明的流程圖。
      具體實施例方式下面結合實施例及附圖,對本發(fā)明作進一步地詳細說明,但本發(fā)明的實施方式不限于此。實施例如圖I所示,一種基于條件隨機場的網絡短評論情感傾向性挖掘系統(tǒng),包括提取模塊、識別模塊、構建模塊、分類模塊;所述提取模塊,用于提取短評論中的特征詞;所述特征詞同時符合如下條件(I)在一個文本中多次出現,(2)在詞的前面或后面加上其他詞形成新的詞后,在文本中出現的頻率降低。本發(fā)明基于統(tǒng)計的方法,根據組合詞在語料庫中出現的頻率來判定是否符合構詞的規(guī)律,如果符合采用有向圖理論構建詞語共現的單詞網絡,再根據詞頻以及詞性提取候選特征詞。在提取出候選的特征詞之后,本發(fā)明采用了基于詞性規(guī)則來過濾這些候選特征詞得到特征詞。漢語中有些詞性是沒有構詞能力的,例如助詞、嘆詞、標點等。由于詞性信息有限,可以通過手工處理來篩選出沒有沒有構詞能力的詞性。目前本文認為數字串、時間串、助詞、嘆詞、標點等70多個詞性標記沒有構詞能力,收集它們到一起構成停用詞性集,在新詞識別過程中只要遇到此集合中的詞性就認為此詞不能構成新詞。對于停用詞性集以外的詞性,本文認為它們都有一定的構詞能力。但是觀察發(fā)現,它們有的不能做新詞首,有的不能做新詞尾。對這些詞性本文做了區(qū)分后構造出了新詞首停用詞性集和新詞尾停用詞性集,利用這兩個集合可以去掉一大部分垃圾串。所述識別模塊,用條件隨機場模型識別特征詞對應的情感詞,并與特征詞匹配組合成元組;所述識別模塊采用如下步驟完成識別與特征詞對應的情感詞,并與特征詞匹配組合成元組;所述步驟為,根據短評論中詞語的構詞規(guī)律,把每一個詞語分類標注得到標注模型,然后通過條件隨機場進行詞語搭配的概率統(tǒng)計,得到需要的特征詞-情感詞元組。所述構建模塊,用于構建與情感詞相關的情感詞典;
      所述構建模塊采用如下步驟構建情感詞典,具體步驟為( I)選擇與特征詞對應的帶有三種感情色彩的情感詞,系統(tǒng)將其劃分為褒義詞、中性詞、貶義詞;(2)基于同義詞詞林擴展上述褒義詞、中性詞、貶義詞,得到褒義詞集、中性詞集、貶義詞集;(3)在(2)得到的詞集中過濾掉屬于同義詞詞林中的第一大類、第二大類、第四大類、第十大類和第十一大類的詞;(4)系統(tǒng)過濾掉在上述詞集重復出現的情感詞和不具有描述能力的情感詞后,將其它詞標上情感色彩,所述褒義詞標為gg,中性詞標為nn,貶義詞標為bb,得到情感詞典并保存。所述分類模塊,用于將元組在情感詞典中查找分類,進而挖掘出短評論的情感傾向性。所述元組是有特征詞和情感詞匹配而成的,例如“服務很好”中的“服務”就是一個特征詞,而“很好”是一個情感詞。這樣的一對特征詞和情感詞的匹配構成了一個特征情
      感詞信息元組。基于條件隨機場的方法是一種監(jiān)督機器學習訪求,對于要識別特征詞情感信息的句子,用條件隨機場模型的方法對其進行狀態(tài)標注,把每一個詞標注為對應的狀態(tài),然后通過這些狀態(tài)信息,我們便可得到我們所要的特征情感信息元組。一般來說在兩個并列的特征詞之間,例如“水煮魚和麻辣田螺都很入味”中的水煮魚和麻辣田螺都是特征詞,而中間的“和”起了并列連接詞的作用,所以我們用標注f來表示。而特征詞前面及后面都由相關的連詞及助詞來構成,我們將所有連詞或謂語g來表示,例如“聽說麻辣誘惑蛙很好吃”,“聽說”將標注為g。此外,特征詞前面一般會帶有連詞、量詞,我們稱之為前綴詞一、前綴詞二并將其標為d,e,而情感詞前面一般會存在否定詞和程度副詞,我們將其標為i,j,在情感詞后面后面一般會存在語氣助詞,我們將其標為m,而將標點符號一律標為z,對且客觀句的所有詞語全部標為n,至此,我們便得到了標注模型所述標注模型中設定有15個狀態(tài)標注,分別為a :由多個詞構成的特征詞的首詞;b :由多個詞構成的特征詞的中間詞;c :由多個詞構成的特征詞的尾詞;
      d :特征詞的第一個前綴詞(與情感特征描述對象關系較遠);e :特征詞的第二個前綴詞(與情感特征描述對象關系較近);f :特征詞的中間連接詞(當并排羅列多個特征詞時有用);g :特征詞與情感對象的連詞或謂語;h :由單個詞構成的特征詞;i :情感詞的第一個前綴詞(一般為否定修飾詞,與情感詞的距離較遠);j :情感詞的第二個前綴詞(一般為程度修飾詞,與情感詞的距離較近);k :情感詞; I :附加的情感詞結尾詞(如果網絡短評文本中的情感詞由兩個分詞構成則匹配);m:情感詞的后綴詞;η :不相關詞;ζ :標點符號。情感詞的前綴對于我們來說是有意義的,因為前綴詞一、前綴詞二一般都為否定詞或副詞,而否定詞對于判定情感詞的語義傾向性是有關聯的,所以在提取情感詞的時候需要連同前綴詞一同提取出來。提取任務的第二部分是匹配特征詞和情感詞,就特征詞和情感詞的匹配來說,可以存在以下情況一個特征詞,一個情感詞;多個特征詞,一個情感詞;一個特征詞,多個情感詞;多個特征詞,多個情感詞;一個或多個特征詞,無情感詞;無特征詞,一個或多個情感詞;除了以上所列的多種匹配情況之外,特征詞和情感詞中間間隔的距離以及標點符號也是影響匹配準確度的主要因素。所以匹配算法時需要考慮以上的各種情況。通過對評論的觀察得知,特征詞與情感詞一般是存在鄰近關系,所以通過匹配相鄰近的特征詞與情感詞就可以得到,但前提是這個距離不能太遠,所以本系統(tǒng)所定義的鄰近關系是3個分詞,也就是說特征詞尾詞與情感首詞中間的分詞數如果大于等于3個時,則認為該特征詞與情感詞是不匹配的。由于條件隨機場模型計算出來的詞序列在斷句是空一行,所以算法可以此來界定句子的邊界,而對于同一句子內的不同子句(也就是用逗號或分號等隔開的小句),算法依然要體現句中優(yōu)先的原則,也就是說優(yōu)先匹配同一子句中的特征和情感詞。根據以上總結的設計原則,設計匹配算法如下I、維護提取出來的特征詞和情感詞數組,每次提取出來的特征詞和情感詞都放到數組里面去;2、維護一個表示特征詞間、情感詞間或特征詞與情感詞間的間隔計數,當某一個特征詞或情感詞在其前后的特征詞或情感詞中間間隔計數大于3時,丟棄該特征詞或情感詞;3、當特征詞和情感詞數組不為空時,匹配兩個數組中的數據;4、當特征詞和情感詞只有一方為空時,將該特征詞或情感詞添加到上一個匹配結果中去。由于情感詞經過同義詞詞林擴展之后可能會出現多個種子情感詞擴展出來的情感詞集存在交集的情況,甚至出現同一個詞出現在褒義和貶義的詞集當中,這是由于漢語中存在一詞多義的情況。此外某些擴展出來的同義詞集并不具有具體的描述能力,而只是被當成色彩相同而被擴展出來,所以這些都應該被過濾掉??紤]到詞典對于后續(xù)工作的重要性,決定通過手工過濾的方式來完善情感詞詞典,確保情感詞典的質量。情感詞典采用的人工過濾需要花費的時間并不多,因為需要過濾的詞集已經比較小,人工過濾對接下來工作的進展又很有幫助,所以比較值得。最后我們提取到的情感詞集保存到數據庫表中去,并為他們標上情感色彩,褒義的標為gg,中性的標為nn,貶義的標為bb。本發(fā)明通過挖掘出來的情感詞的標注來判定其語義傾向性,如果該情感詞存在于 褒義詞典中則標注該情感詞為褒義,如果存在于貶義詞典中,則為貶義,如果都不存在,則為中性詞。上述實施例為本發(fā)明較佳的實施方式,但本發(fā)明的實施方式并不受所述實施例的限制,其他的任何未背離本發(fā)明的精神實質與原理下所作的改變、修飾、替代、組合、簡化,均應為等效的置換方式,都包含在本發(fā)明的保護范圍之內。
      權利要求
      1.一種基于條件隨機場的網絡短評論情感傾向性挖掘系統(tǒng),其特征在于,包括提取模塊、識別模塊、構建模塊、分類模塊; 所述提取模塊,用于提取短評論中的特征詞; 所述識別模塊,用條件隨機場模型識別特征詞對應的情感詞,并與特征詞匹配組合成元組; 所述構建模塊,用于構建與情感詞相關的情感詞典; 所述分類模塊,用于將元組在情感詞典中查找分類,進而挖掘出短評論的情感傾向性。
      2.根據權利要求I所述的一種基于條件隨機場的網絡短評論情感傾向性挖掘系統(tǒng),其特征在于,所述提取模塊采用基于統(tǒng)計的方法和有向圖理論的方法提取符合條件的特征ο
      3.根據權利要求2所述的一種基于條件隨機場的網絡短評論情感傾向性挖掘系統(tǒng),其特征在于,所述特征詞同時符合如下條件 (1)在一個文本中多次出現, (2)在詞的前面或后面加上其他詞形成新的詞后,在文本中出現的頻率降低。
      4.根據權利要求I所述的一種基于條件隨機場的網絡短評論情感傾向性挖掘系統(tǒng),其特征在于,所述構建模塊采用如下步驟構建情感詞典,具體為 (1)選擇與特征詞對應的帶有三種感情色彩的情感詞,系統(tǒng)將其劃分為褒義詞、中性詞、貶義詞; (2)基于同義詞詞林擴展上述褒義詞、中性詞、貶義詞,得到褒義詞集、中性詞集、貶義詞集; (3)在(2)得到的詞集中過濾掉屬于同義詞詞林中的第一大類、第二大類、第四大類、第十大類和第十一大類的詞; (4)系統(tǒng)過濾掉在上述詞集重復出現的情感詞和不具有描述能力的情感詞后,將其它詞標上情感色彩,保存為情感詞典。
      5.根據權利要求I所述的一種基于條件隨機場的網絡短評論情感傾向性挖掘系統(tǒng),其特征在于,所述識別模塊采用如下步驟完成識別特征詞對應的情感詞,并與特征詞匹配組合成元組; 所述步驟為,根據短評論中詞語的構詞規(guī)律,把每一個詞語分類標注得到標注模型,然后通過條件隨機場模型進行詞語搭配的概率統(tǒng)計,得到需要的特征詞-情感詞元組。
      6.根據權利要求I所述的一種基于條件隨機場的網絡短評論情感傾向性挖掘系統(tǒng),其特征在于,所述系統(tǒng)進行情感傾向性判斷后,對情感詞的前綴詞是否存在否定詞進行判斷。
      全文摘要
      本發(fā)明公開了一種基于條件隨機場的網絡短評論情感傾向性挖掘系統(tǒng),包括包括提取模塊、識別模塊、構建模塊、分類模塊;所述提取模塊,用于提取短評論中的特征詞;識別模塊,用條件隨機場模型的識別特征詞對應的情感詞,并與特征詞匹配組合成元組;構建模塊,用于構建與情感詞相關的情感詞典;分類模塊,用于將元組在情感詞典中查找分類,進而挖掘出短評論的情感傾向性。本發(fā)明能夠自動挖掘出網頁上的短評論,并將其中的特征詞-情感詞元組抽取出來,建立情感詞典,對該元組的情感傾向性進行精確的判斷。
      文檔編號G06F17/30GK102890707SQ20121031153
      公開日2013年1月23日 申請日期2012年8月28日 優(yōu)先權日2012年8月28日
      發(fā)明者馬千里, 吳澤銀, 林澤鑫, 陳威彪 申請人:華南理工大學
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1