国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)絡(luò)短文本聚類方法

      文檔序號:8543770閱讀:719來源:國知局
      一種網(wǎng)絡(luò)短文本聚類方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明設(shè)及Web文本聚類技術(shù)領(lǐng)域,具體地說是一種實用性強的網(wǎng)絡(luò)短文本聚類 方法。
      【背景技術(shù)】
      [0002] 如今網(wǎng)絡(luò)已經(jīng)成為人們獲取信息、互動交流的首要平臺,例如中關(guān)村在線、汽車之 家、太平洋電腦等,人們可W通過該些互動口戶了解產(chǎn)品咨詢、發(fā)表自己的觀點,因此該些 互動信息中往往包含網(wǎng)友對相關(guān)產(chǎn)品提出的各種優(yōu)缺點及意見,其中有大量的價值信息需 要人們來挖掘。
      [0003] 例如我們在購買某款手機(jī)前往往會到類似中關(guān)村在線該種網(wǎng)站上去了解其他用 戶對此款手機(jī)的評價,像是"很可惜它不是4G網(wǎng)絡(luò)失望,電源適配器在夏天很熱!"、"主屏 材質(zhì)采用柔性0LED,是很好的選擇,非常喜歡。"、"機(jī)很大,很沉穩(wěn),2000萬像素足W應(yīng)付各 種日常拍照,虹膜識別系統(tǒng)可W省略開機(jī)鎖步驟。",該些用戶評價中都有此手機(jī)的優(yōu)缺點, 我們通常會借鑒他們的評論來衡量此款手機(jī)是否值得自己購買。同時商家也會借鑒用戶的 評論來有針對的修改此款手機(jī)的缺點,W便開發(fā)出更人性化的手機(jī)利于用戶使用。
      [0004] 但網(wǎng)站上的評論信息一般都是大量出現(xiàn),依次瀏覽需要耗費相當(dāng)多的時間,并且 該些評論中還會出現(xiàn)許多像"我就是來湊熱鬧的。"、"搶沙發(fā)!"等此類與話題無關(guān)的信息 滲雜在其中,想要在該些海量的評論中巧棄無用信息并獲取對自己有利的信息就要設(shè)及到 短文本處理的相關(guān)技術(shù)。而評論又是一種W短文本的形式出現(xiàn),W非結(jié)構(gòu)化數(shù)據(jù)的形式存 在,內(nèi)容雜亂無章,褒貶不一的網(wǎng)絡(luò)形式的短文本,想要處理此類文本就必須要根據(jù)它的特 點對現(xiàn)有的相關(guān)技術(shù)進(jìn)行改進(jìn)。
      [0005] 在現(xiàn)有技術(shù)中,獲取的文本首先要經(jīng)過預(yù)處理才能進(jìn)行相應(yīng)的文本聚類,在預(yù)處 理過程中需要將文本中分割出的關(guān)鍵詞進(jìn)行權(quán)重計算,目前對計算權(quán)重的TFIDF公式的改 進(jìn)都是針對長文本的,而網(wǎng)絡(luò)短文本較長文本最顯著的區(qū)別就是數(shù)量很多、話題很廣、無邏 輯、內(nèi)容復(fù)雜但字?jǐn)?shù)都相對較少,若用目前改進(jìn)后的TFIDF公式來對網(wǎng)絡(luò)短文本進(jìn)行權(quán)重 計算并不能很好的區(qū)分特征項,而傳統(tǒng)的TFIDF公式在衡量關(guān)鍵詞上也有缺陷,不能按照 網(wǎng)絡(luò)短文本的特點使出現(xiàn)文本數(shù)較多或是較少的特征項其權(quán)值較低,而出現(xiàn)一定文本數(shù)的 特征項其權(quán)值較高。
      [0006] 同樣,由于評論該種網(wǎng)絡(luò)形式的短文本,一般都是大量出現(xiàn),而且其內(nèi)容涵蓋廣 泛,話題各異,數(shù)據(jù)集不規(guī)則,根據(jù)各聚類方法的概念可知:
      [0007] 基于層次聚類方法炬irch聚類方法、化re聚類方法等),不能確定終止條件,不能 回溯處理,很難適應(yīng)動態(tài)的數(shù)據(jù)集,因此不擅長處理非球形聚類;
      [0008] 基于密度聚類方法值bscan聚類方法等)不適合密度變化比較大的樣本數(shù)據(jù),且 隨著數(shù)據(jù)量的增大需要很大的內(nèi)存支持跟開銷;
      [0009] 基于網(wǎng)格的聚類方法(Clique聚類方法等)因為網(wǎng)格聚類的處理時間與每維空間 劃分的單元格數(shù)有關(guān),對于孤立點處理比較敏感且無法處理大型數(shù)據(jù),所W在一定程度上 降低了算法聚類的質(zhì)量跟準(zhǔn)確性;
      [0010] 基于劃分的聚類方法較經(jīng)典的就是傳統(tǒng)的K-means聚類方法,因其初始聚類中屯、 是隨機(jī)選取的會導(dǎo)致聚類結(jié)果精確度降低,并且算法對異常值(outliers)非常敏感,而目 前對K-means聚類方法的改進(jìn)都是針對普通文本的,對網(wǎng)絡(luò)短文本聚類研究并不多,由于 普通文本的特性與網(wǎng)絡(luò)短文本特性不同,若按照現(xiàn)有根據(jù)普通文本改進(jìn)的K-means聚類方 法進(jìn)行聚類其聚類結(jié)果并不理想。因此現(xiàn)有的技術(shù)并不能根據(jù)網(wǎng)絡(luò)短文本自身特點來進(jìn)行 聚類。
      [0011] 基于此,現(xiàn)提供一種網(wǎng)絡(luò)短文進(jìn)行聚類時其精確度高、實用性強、基于改進(jìn)的 K-means聚類算法的網(wǎng)絡(luò)短文本聚類方法。

      【發(fā)明內(nèi)容】

      [0012] 本發(fā)明的技術(shù)任務(wù)是針對W上不足之處,提供一種實用性強、網(wǎng)絡(luò)短文本聚類方 法。
      [0013] 一種網(wǎng)絡(luò)短文本聚類方法,其具體實現(xiàn)過程為:
      [0014] 首先獲取網(wǎng)絡(luò)評論;
      [0015] 對獲取的網(wǎng)絡(luò)評論進(jìn)行預(yù)處理,該預(yù)處理過程為;將網(wǎng)絡(luò)評論進(jìn)行分詞,然后去除 停用詞、分割出關(guān)鍵詞,對該關(guān)鍵詞進(jìn)行權(quán)重計算;
      [0016] 對經(jīng)過預(yù)處理的文本進(jìn)行文本聚類。
      [0017] 所述文本預(yù)處理過程具體包括:
      [0018] 將獲取到的網(wǎng)絡(luò)評論用分詞軟件進(jìn)行分詞,分成相應(yīng)的詞或是詞語;
      [0019] 依據(jù)相應(yīng)的停用詞表去除停用詞;
      [0020] 計算詞語權(quán)重;
      [0021] 對計算好的權(quán)重進(jìn)行表示,W便于計算機(jī)對其做聚類操作。
      [0022] 所述詞語權(quán)重計算采用改進(jìn)的TFIDF公式進(jìn)行,該改進(jìn)的TFIDF公式為:
      [0023] IDFi=log(| dj} |)*log(|D|/|U:tiGdj}I);
      [0024] 當(dāng)文本集中沒有詞ti時,式中的I{j:tiGdj}I選取為Idj} 1+1。
      [00巧]用n表示詞語出現(xiàn)的次數(shù),N表示文本集中的文本數(shù),則函數(shù)的增減性W及極值如 下:
      [0026] 當(dāng)"<^/兩,IDF' > 0時,此時函數(shù)遞增;當(dāng)《 = ^/方,IDF' = 0時,到達(dá)極值;當(dāng) ? > ,IDF' < 0時,函數(shù)遞減;即當(dāng)" > 時得到的權(quán)值會與n<上的某個數(shù)的權(quán) 值相同,當(dāng)某個詞出現(xiàn)的次數(shù)多于極值時,就認(rèn)為它的權(quán)值降低,重要程度在降低且無法區(qū) 分文本。
      [0027] 所述文本聚類采用改進(jìn)的K-means聚類方法,該改進(jìn)的K-means聚類方法首先選 擇初始聚類中屯、,然后將大量文本集劃分后再進(jìn)行聚類。
      [0028] 所述改進(jìn)的K-means聚類方法的具體過程為:
      [0029] 1)將進(jìn)行預(yù)處理后的全部數(shù)據(jù)視為輸入的數(shù)據(jù)集,從輸入的數(shù)據(jù)集中隨機(jī)抽取a 個數(shù)據(jù)作為樣本集A,其中a〉k,該k為聚類后類的數(shù)目;
      [0030] 2)對樣本集A中每個點都分別計算與整個數(shù)據(jù)集中點相似的個數(shù),記為點的相似 密度,計算樣本集A中各個樣本基于相似度闊值t的點相似密度r,相似度闊值t是給定介 于[0,U之間的數(shù),當(dāng)^m/4k時,m為整個數(shù)據(jù)集總量,則轉(zhuǎn)到步驟4),否則執(zhí)行下一步;
      [0031] 3)取出點相似密度最大的樣本放入數(shù)據(jù)集K中;
      [0032] 4)在整個樣本集中去除數(shù)據(jù)集K中的樣本后重新取樣本集A,重復(fù)步驟1)、2),直 到數(shù)據(jù)集K中的樣本個數(shù)為k為止,將數(shù)據(jù)集K中的樣本作為算法的初始聚類中屯、;
      [003引 5)用選取的初始聚類中屯、來進(jìn)行K-means聚類方法的聚類。
      [0034]所述相似度采用向量夾角余弦來計算,相似度取值在[0,1]之間,數(shù)值越大相似 程度越低,為0時代表完全相似,為1時代表完全不相似,相似度闊值t取值為0.8。
      [00巧]本發(fā)明的一種網(wǎng)絡(luò)短文本聚類方法,具有W下優(yōu)點:
      [0036] 本發(fā)明提出的一種網(wǎng)絡(luò)短文本聚類方法,通過網(wǎng)絡(luò)短文本自身特點來進(jìn)行聚類, 聚類效果理想,從而實現(xiàn)對網(wǎng)上海量信息的收集、分析,方便用戶查詢到有價值的信息,使 用該方法可使得網(wǎng)絡(luò)短文本的聚類精確度高,滿足人們的實際需求,實用性強,易于推廣。
      【附圖說明】
      [0037] 附圖1為本發(fā)明的文本預(yù)處理實現(xiàn)流程圖。
      [0038] 附圖2為本發(fā)明中改進(jìn)的K-means聚類方法流程圖。
      【具體實施方式】
      [0039] 下面結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步說明。
      [0040] 本發(fā)明提供一種網(wǎng)絡(luò)短文本聚類方法,首先根據(jù)網(wǎng)絡(luò)短文本的特點對傳統(tǒng)TFIDF 公式進(jìn)行改進(jìn),實現(xiàn)根據(jù)網(wǎng)絡(luò)短文本的特點使出現(xiàn)文本
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1