国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      輿情熱點(diǎn)自動(dòng)監(jiān)測(cè)系統(tǒng)的制作方法_2

      文檔序號(hào):8922598閱讀:來(lái)源:國(guó)知局
      AB既可以切分成AB,又可切分成A/B,即AB是詞,A、B也 是詞;
      [0051] 3.混合歧義:是前兩種歧義形式的自身嵌套或者由兩者交叉組合而產(chǎn)生的;
      [0052] 主要解決切分歧義的方法有兩種:基于規(guī)則的方法,基于統(tǒng)計(jì)的方法。
      [0053] 進(jìn)一步,所述的特征表示單元一般設(shè)置3個(gè)詞典,主詞典,同義詞詞典,蘊(yùn)含詞詞 典,同時(shí)進(jìn)行詞頻統(tǒng)計(jì),進(jìn)行詞頻統(tǒng)計(jì)和特征提取時(shí),以主詞典中的主詞條為表示詞條進(jìn)行 處理,其詞條頻數(shù)統(tǒng)計(jì)公式為:
      [0055] 即表示詞條在文檔中的出現(xiàn)頻數(shù)是由主詞條、同義詞詞條、蘊(yùn)含詞詞條3部分的 詞頻數(shù)加權(quán)累計(jì)得到;
      [0056] 其中:
      [0057] Tf:主詞條f的詞頻
      [0058] TMf:主詞條f的詞頻權(quán)值
      [0059]TTfi:同義詞條&的詞頻權(quán)值,共有叫個(gè)同義詞 [0060] TIA:蘊(yùn)含詞條&的詞頻權(quán)值,共有m2個(gè)蘊(yùn)含詞
      [0061] e:加權(quán)值
      [0062] 在VSM中,將文本文檔視為由一組詞條(Tl,T2,….Tn)構(gòu)成,每一詞條都賦以一 定的權(quán)值wi,從而每一篇文檔都被映射為由一組詞條矢量構(gòu)成的向量空間中的一個(gè)向量, 文本的匹配問(wèn)題便可轉(zhuǎn)化為向量空間中的向量匹配問(wèn)題處理。
      [0063] 進(jìn)一步,所述的向量空間模型單元的基本思想是以向量來(lái)表示文本:(wl,w2,…, wn),其中Wi為第i個(gè)特征項(xiàng)的權(quán)重,那么選取什么作為特征項(xiàng)呢,一般可以選擇字、詞或詞 組,根據(jù)實(shí)驗(yàn)結(jié)果,普遍認(rèn)為選取詞作為特征項(xiàng)要優(yōu)于字和詞組,因此,要將文本表示為向 量空間中的一個(gè)向量,就首先要將文本分詞,由這些詞作為向量的維數(shù)來(lái)表示文本,最初的 向量表示完全是〇、1形式,即,如果文本中出現(xiàn)了該詞,那么文本向量的該維為1,否則為〇, 這種方法無(wú)法體現(xiàn)這個(gè)詞在文本中的作用程度,所以逐漸〇、1被更精確的詞頻代替,詞頻 分為絕對(duì)詞頻和相對(duì)詞頻,絕對(duì)詞頻,即使用詞在文本中出現(xiàn)的頻率表示文本,相對(duì)詞頻為 歸一化的詞頻,其計(jì)算方法主要運(yùn)用TFIDF公式,目前存在多種TFIDF公式,我們?cè)谙到y(tǒng)中 采用了一種比較普遍的TFIDF公式:
      [0065] 其中,WYtidY為詞t在文本d中的權(quán)重,而tfYtidY為詞t在文本d中的詞頻,N 為訓(xùn)練文本的總數(shù),h為訓(xùn)練文本集中出現(xiàn)t的文本數(shù),分母為歸一化因子;
      [0066] 另外還存在其他的TFIDF公式,例如:
      [0067] ff(t,d)=(l+log2tf(t,d))Xlog2 (N/ni)tGd(l+log2tf(t,d))Xlog2 (N/ni) 2
      [0068] 該公式中參數(shù)的含義與上式相同;
      [0069]TFIDF向量反映了訓(xùn)練文檔集的單字空間,它的每個(gè)向量分量對(duì)應(yīng)一個(gè)單字,分量 的大小刻畫(huà)了這個(gè)單字區(qū)分文檔內(nèi)容屬性的能力,一個(gè)單字在文檔集中出現(xiàn)的范圍越廣, 說(shuō)明它區(qū)分文檔屬性的能力越低,另一方面,它在一個(gè)特定的文檔中出現(xiàn)的頻度越高,說(shuō)明 它在區(qū)分該文檔內(nèi)容屬性方面的能力越強(qiáng),它屬于以文檔的詞集表示法,即所有的詞從文 檔中抽取出來(lái),而放棄考慮詞間的次序以及文本的結(jié)構(gòu)。
      [0070] 本發(fā)明的優(yōu)點(diǎn)在于,該系統(tǒng)熱點(diǎn)自動(dòng)監(jiān)測(cè)技術(shù)是關(guān)鍵環(huán)節(jié)。輿情熱點(diǎn)的自動(dòng)發(fā)現(xiàn) 可以使得政府用戶對(duì)互聯(lián)網(wǎng)上的當(dāng)前熱點(diǎn)有及時(shí)快捷的了解和掌握,為全面掌握網(wǎng)絡(luò)輿情 都將起到了很大的推動(dòng)作用,信息監(jiān)測(cè)分析包括兩種:一是根據(jù)用戶設(shè)置的關(guān)注內(nèi)容產(chǎn)生 的"關(guān)注信息";二是根據(jù)用戶設(shè)置的關(guān)鍵詞、網(wǎng)絡(luò)瀏覽數(shù)量變化、論壇回帖數(shù)量變化等指 標(biāo),系統(tǒng)分別進(jìn)行熱點(diǎn)監(jiān)測(cè),再綜合各個(gè)類(lèi)別熱點(diǎn)選擇出的"新聞熱點(diǎn)"。每個(gè)關(guān)注信息和熱 點(diǎn)信息會(huì)給出原文標(biāo)題、來(lái)源、時(shí)間、點(diǎn)擊數(shù)量、內(nèi)容摘要等,輿情監(jiān)測(cè)分析系統(tǒng)根據(jù)用戶實(shí) 際需要的形式,生成熱點(diǎn)報(bào)警。
      【附圖說(shuō)明】
      [0071] 下面結(jié)合附圖和【具體實(shí)施方式】來(lái)詳細(xì)說(shuō)明本發(fā)明:
      [0072] 圖1是本發(fā)明提出輿情熱點(diǎn)自動(dòng)監(jiān)測(cè)流程圖;
      【具體實(shí)施方式】
      [0073] 為了使本發(fā)明實(shí)現(xiàn)的技術(shù)手段、創(chuàng)作特征、達(dá)成目的與功效易于明白了解,下面結(jié) 合圖示與具體實(shí)施例,進(jìn)一步闡述本發(fā)明。
      [0074]本發(fā)明提出的輿情熱點(diǎn)自動(dòng)監(jiān)測(cè)系統(tǒng),該系統(tǒng)包括有漢語(yǔ)自動(dòng)分詞模塊、特征提 取豐吳塊;
      [0075] 文本挖掘的前提就是進(jìn)行漢語(yǔ)自動(dòng)分詞。漢語(yǔ)的書(shū)面表達(dá)方式是以漢字作為最小 單位的,但是在自然語(yǔ)言理解當(dāng)中詞是有意義的最小處理單位。把沒(méi)有分割標(biāo)志即沒(méi)有詞 的邊界的漢字串轉(zhuǎn)換到符合語(yǔ)言實(shí)際的詞串,即在書(shū)面漢語(yǔ)中建立詞的邊界,這就是漢語(yǔ) 自動(dòng)分詞。這樣,包括漢-外機(jī)器翻譯在內(nèi)的漢語(yǔ)自然語(yǔ)言理解,首先遇到的是不能逾越 的漢語(yǔ)自動(dòng)分詞階段。漢語(yǔ)自動(dòng)分詞不僅是機(jī)器翻譯的必要環(huán)節(jié),也是各種漢語(yǔ)信息處理 包括語(yǔ)音處理、詞頻統(tǒng)計(jì)、主題詞標(biāo)引、文摘生成、情報(bào)檢索、漢語(yǔ)句法分析等工作的基礎(chǔ)工 程。
      [0076]現(xiàn)代漢語(yǔ)文本自動(dòng)分詞是中文信息處理的基礎(chǔ)。中文文本沒(méi)有類(lèi)似英文空格之類(lèi) 的顯式標(biāo)示詞的邊界標(biāo)志。漢語(yǔ)自動(dòng)分詞的任務(wù)就是要由機(jī)器在中文文本中詞與詞之間自 動(dòng)加上空格。
      [0077]漢語(yǔ)自動(dòng)分詞研究的主要內(nèi)容包括:
      [0078] 1.分詞規(guī)范問(wèn)題:確定什么是詞、哪些可以作為分詞單位。
      [0079] 2.切分算法問(wèn)題:如何進(jìn)行詞的切分,以建立符合實(shí)際涵義的詞的邊界。
      [0080] 3.歧義消除問(wèn)題:采取什么樣的方法消除切分歧義。
      [0081] 4.未登錄詞識(shí)別:如何進(jìn)行詞典中未登錄詞的識(shí)別,如地名、人名和譯名。
      [0082] 漢語(yǔ)自動(dòng)分詞模塊包括有自動(dòng)分詞的基本算法單元、未登陸詞的識(shí)別單元、漢語(yǔ) 自動(dòng)分詞的切分歧義及其消除單元;
      [0083] 特提提取模塊包括有特征表示單元、向量空間模型單元;
      [0084] 該系統(tǒng)的自動(dòng)監(jiān)測(cè)方法的步驟如下:
      [0085] 1、從數(shù)據(jù)源讀入一篇報(bào)道,對(duì)多個(gè)網(wǎng)絡(luò)新聞數(shù)據(jù)源進(jìn)行不間斷地監(jiān)測(cè),從網(wǎng)絡(luò)中 自動(dòng)抓取新聞報(bào)道,解析出新聞報(bào)道的時(shí)間、標(biāo)題和正文信息等,如果沒(méi)有從報(bào)道中找到時(shí) 間,則以抓取時(shí)間為準(zhǔn);
      [0086] 由于多個(gè)數(shù)據(jù)源之間存在相當(dāng)?shù)闹貜?fù),對(duì)新抓取的新聞報(bào)道,根據(jù)報(bào)道的文本內(nèi) 容進(jìn)行消重處理;如果新報(bào)道和之前已經(jīng)處理的新聞報(bào)道重復(fù)度大于重復(fù)閾值ed,則認(rèn) 為是重復(fù)的新聞報(bào)道,本實(shí)施例中設(shè)定的重復(fù)閾值0d為0. 9 ;
      [0087] 由于新聞報(bào)道的范圍過(guò)于寬泛,采用基于來(lái)源的規(guī)則分類(lèi)以及基于內(nèi)容的自動(dòng)分 類(lèi)相結(jié)合的方法,對(duì)新聞報(bào)道進(jìn)行分類(lèi),規(guī)則分類(lèi)根據(jù)新聞來(lái)源以及作者等進(jìn)行分類(lèi),基于 內(nèi)容的自動(dòng)分類(lèi)采用向量空間模型(VSM)和支持向量機(jī)算法(SVM),根據(jù)報(bào)道內(nèi)容和標(biāo)題 對(duì)新聞報(bào)道進(jìn)行自動(dòng)分類(lèi);并且按照所屬類(lèi)別c進(jìn)行步驟2 -步驟7的處理;
      [0088] 2、采用質(zhì)心比較策略,將報(bào)道與所屬類(lèi)別c內(nèi)現(xiàn)有監(jiān)測(cè)到的新聞主題進(jìn)行比較, 同時(shí)考慮時(shí)間特征和內(nèi)容特征,計(jì)算報(bào)道和主題間的相似度,并記錄最大相似度Smax以及 相似度最大的主題Es,確定與當(dāng)前報(bào)道最相近的主題;主題本身通過(guò)主題內(nèi)部所有新聞中 綜合權(quán)重最高的若干個(gè)特征詞來(lái)表達(dá);新聞報(bào)道和主題之間的相似度基于向量空間模型, 通過(guò)兩者的夾角余弦值(cosine)來(lái)計(jì)算,同時(shí)新聞報(bào)道的標(biāo)題賦予較高權(quán)重;
      [0089] 3、根據(jù)步驟2計(jì)算得到的最大相似度Smax以及相似度最大的主題Es,對(duì)當(dāng)前報(bào)道 采取如下措施:
      [0090]E.如果Smax小于創(chuàng)新閾值0n(本實(shí)施例中為0.25):在該報(bào)道所屬類(lèi)別內(nèi)創(chuàng)建 一個(gè)新主題;
      [0091]F.如果Smax大于0n而小于聚類(lèi)閾值0c(本實(shí)施例中為0. 30):不作處理,返回 步驟1);
      [0092] G.如果Smax大于0c而小于貢獻(xiàn)閾值0t(本實(shí)施例中為0. 35):歸入當(dāng)前主題;
      [0093]H.如果Smax大于0t:歸入主題Es,并調(diào)整Es;
      [0094] 上述的Smax、0n、0c、0t的取值范圍均大于0而小于等于1;
      [0095] 4、當(dāng)一個(gè)類(lèi)處理用戶確定的固定數(shù)量的新增報(bào)道之后,對(duì)該類(lèi)別內(nèi)新聞主題兩兩 比較;如果兩個(gè)主題的相似度大于合并閾值0u,則將其合并,主題之間的相似度計(jì)算公式 可以采用傳統(tǒng)聚類(lèi)算法中計(jì)算兩個(gè)聚類(lèi)相似度的方法,綜合考慮兩個(gè)主題中所有新聞報(bào)道 之間的兩兩相似度,采用如下公式:
      [0097]其中,El,E2是兩個(gè)監(jiān)測(cè)到的新聞主題,di,dj分別為El,E2中的新聞報(bào)道,Sim (El,E2)是兩個(gè)新聞報(bào)道之間的相似度,|E」,|E2|分別為兩個(gè)主題中包含的新聞報(bào)道數(shù)目;
      [0098] 5、當(dāng)一個(gè)類(lèi)處理用戶確定的固定數(shù)量的新增報(bào)道之后,對(duì)各主題內(nèi)的新聞報(bào)道進(jìn) 行淘汰:重新計(jì)算新聞報(bào)道和該主題的相似度,對(duì)相似度低于聚類(lèi)閾值9c、或者不滿足限 制條件的新聞報(bào)道進(jìn)行淘汰;然后再重新計(jì)算主題內(nèi)部表示及其權(quán)重;
      [0099] 6、若當(dāng)前類(lèi)別內(nèi)的主題數(shù)量超過(guò)主題窗口大小,對(duì)類(lèi)別內(nèi)的所有新聞主題進(jìn)行排 序:結(jié)合新聞主題的時(shí)間特性和數(shù)量特性,計(jì)算新聞主題的得分值并排序;計(jì)算得分值時(shí) 同時(shí)考慮多個(gè)不同的排序,同時(shí)考慮最近12個(gè)小時(shí)、1天、3天、7天、30天等,只有當(dāng)主題在 任何排序中都不在主題窗口內(nèi)時(shí),才將該主題淘汰;這樣,多重排序就給用戶提供了不同粒 度的信息參考,系統(tǒng)將不在主題窗中的新聞主題淘汰,用于提高系統(tǒng)處理的效率;
      [0100] 7、根據(jù)用戶要求,對(duì)外輸出監(jiān)測(cè)結(jié)果:對(duì)于類(lèi)別內(nèi)的當(dāng)前所有主題,計(jì)算其描述; 同時(shí),結(jié)合主題的時(shí)間特性和主題內(nèi)的新聞報(bào)道數(shù)量特性,從所有類(lèi)別中選擇出得分最高 的若干個(gè)新聞主題,作為該類(lèi)別最熱點(diǎn)的新聞主題,輸出主題描述和包含的新聞報(bào)道列表, 其中,主題描述的生成過(guò)程如下:
      [0101] D.讀取主題內(nèi)部權(quán)重最高的若干個(gè)特征詞;
      [0102] E.在與主題相似度大于主題閾值0e的主題內(nèi)新聞報(bào)
      當(dāng)前第2頁(yè)1 2 3 4 5 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1