国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種面向網(wǎng)絡(luò)文本大數(shù)據(jù)的話題檢測或跟蹤方法

      文檔序號:6635186閱讀:186來源:國知局
      一種面向網(wǎng)絡(luò)文本大數(shù)據(jù)的話題檢測或跟蹤方法
      【專利摘要】本發(fā)明公開了一種面向網(wǎng)絡(luò)文本大數(shù)據(jù)的話題檢測或跟蹤方法,其基本思路如下:通過檢測不同文檔中共同出現(xiàn)的關(guān)鍵詞,構(gòu)造關(guān)鍵詞的圖模型及對應(yīng)的鄰接矩陣,并將其與譜聚類相結(jié)合,提出了一種新的話題檢測模型,計算得到每篇文檔關(guān)于話題的概率分布,當新文檔到達時計算其與歷史話題所表示屬性集的相似度,實現(xiàn)話題的自動檢測或跟蹤,并通過MapReduce編程模型來實現(xiàn)分布式的方法。本發(fā)明的特點在于,用關(guān)鍵詞的共現(xiàn)關(guān)系對話題進行顯示挖掘,而非隱式,面向大數(shù)據(jù)采用分布式計算,將互聯(lián)網(wǎng)中的數(shù)據(jù)信息進行聚類,可拓展性更強,可處理的數(shù)據(jù)量更大,極大地提高了吞吐率。
      【專利說明】一種面向網(wǎng)絡(luò)文本大數(shù)據(jù)的話題檢測或跟蹤方法

      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明屬于大數(shù)據(jù)分析和機器學習交叉的【技術(shù)領(lǐng)域】,更具體地,涉及一種面向文 本大數(shù)據(jù)的話題檢測或跟蹤方法。

      【背景技術(shù)】
      [0002] 隨著互聯(lián)網(wǎng)信息的大幅膨脹,信息量呈指數(shù)增長,浩瀚的網(wǎng)絡(luò)數(shù)據(jù)遠遠超出了人 類的掌控能力,用戶難以從眾多信息中快捷地提取自己所需要的信息。話題檢測或跟蹤 (Topic Detection and Tracking,TDT)是一項針對新聞媒體信息流進行新話題的自動檢 測和已知話題的后續(xù)跟蹤的信息處理技術(shù)。由于話題檢測和跟蹤與信息檢索和數(shù)據(jù)挖掘等 自然語言處理技術(shù)存在著很多的共性,而且它直接面向具備突發(fā)性特征的新聞?wù)Z料,因此 逐漸成為大數(shù)據(jù)分析的研宄熱點。這項技術(shù)以自然語言處理為依托,涉及機器學習、人工智 能等多種學科的相關(guān)技術(shù)。它的發(fā)展與應(yīng)用息息相關(guān),在信息安全、私人訂制、金融證券分 析等領(lǐng)域都有一定的需求。例如,TDT可以發(fā)展成為一種對用戶進行有針對性的信息傳送 的嶄新信息服務(wù)模式。
      [0003] 目前的研宄仍然以傳統(tǒng)基于統(tǒng)計策略的文本分類、信息過濾和聚類等技術(shù)為主, 忽視了新聞?wù)Z料本身具備的特點,比如話題的突發(fā)性與跳躍性、相關(guān)報道的延續(xù)與繼承性、 新聞內(nèi)容的層次性以及時序性等。針對這一問題,當前的研宄趨勢是將多種方法進行融合, 并嵌入新聞?wù)Z料特性實現(xiàn)話題的識別與追蹤,,比如結(jié)合命名實體的話題模型描述、以時間 為參數(shù)的權(quán)重與閾值估計等等。雖然這些方法能夠在一定程度上提高TDT系統(tǒng)性能,但只 是對傳統(tǒng)統(tǒng)計策略的一種補充與修正,并沒有形成獨立于話題檢測或跟蹤領(lǐng)域特有的研宄 框架與模型。


      【發(fā)明內(nèi)容】

      [0004] 本發(fā)明的目的在于提供一種面向文本大數(shù)據(jù)的話題檢測或跟蹤方法,其可有效解 決對新話題進行檢測和對已出現(xiàn)話題的識別和跟蹤問題,通過引入一種譜聚類和檢測共同 出現(xiàn)的關(guān)鍵字相結(jié)合的方法,提出了一種新的話題檢測模型,并通過MapReduce編程模型 來實現(xiàn)分布式的方法,使吞吐率得以顯著提高。
      [0005] 本發(fā)明提供了一種面向文本大數(shù)據(jù)的話題檢測或跟蹤方法,包括如下步驟:
      [0006] (1)對中文分詞后的文檔集構(gòu)造圖模型,每個關(guān)鍵詞都視為圖的一個結(jié)點,用關(guān)鍵 詞的共現(xiàn)關(guān)系構(gòu)造結(jié)點間的邊,得到圖及其鄰接矩陣;
      [0007] (2)構(gòu)造拉普拉斯矩陣,采用分布式的方法進行特征分解并計算其前k個特征向 量;
      [0008] (3)對拉普拉斯矩陣的前k個特征向量構(gòu)成的矩陣使用K-means算法進行聚類,聚 類的結(jié)果中每一行所屬的類別就是原來圖中的節(jié)點亦即最初的η個數(shù)據(jù)點分別所屬的類 別;
      [0009] (4)構(gòu)造話題的屬性向量,根據(jù)話題的屬性向量及上述聚類結(jié)果計算每篇文檔關(guān) 于話題的概率分布;
      [0010] (5)利用步驟(1)-(4)的方法進行話題檢測與追蹤的相關(guān)應(yīng)用。
      [0011] 在本發(fā)明的一個實施例中,所述步驟(1)具體包括如下子步驟:
      [0012] (I. 1)對文檔集進行中文分詞后,每個名詞短語或命名實體作為一個關(guān)鍵詞,將每 個關(guān)鍵詞視為圖的一個結(jié)點;
      [0013] (1. 2)構(gòu)造結(jié)點間的邊,將共同在同一文檔出現(xiàn)的關(guān)鍵詞連接起來,邊的權(quán)重用于 表示在文檔中所有關(guān)鍵詞序列共同出現(xiàn)次數(shù)的規(guī)范化值,所述規(guī)范化是令所有的權(quán)重和為 1,即邊的權(quán)重表示該關(guān)鍵詞序列共同出現(xiàn)次數(shù)/所有關(guān)鍵詞序列共同出現(xiàn)次數(shù);所述關(guān)鍵 詞序列是指共同在一篇文檔中出現(xiàn)的兩個關(guān)鍵詞;
      [0014] (1. 3)將上述圖模型用鄰接矩陣的形式表示為N階方陣,記為W e Rnxn,其中n為 關(guān)鍵詞的總數(shù)。
      [0015] 在本發(fā)明的一個實施例中,所述步驟(2)具體包括如下子步驟:
      [0016] (2. 1)把鄰接矩陣W的每一列元素加起來得到η個數(shù),將它們放在對角線上,令其 余元素都為零,組成一個ηΧη的矩陣,記為D e Rnxn;并令L = D-W,L即為拉普拉斯矩陣;
      [0017] (2. 2)采用MapReduce模型進行分布式特征分解,將矩陣L橫向分割為p個數(shù)據(jù)片 段,每一臺計算機存儲矩陣的n/p行,設(shè)定p臺計算機存儲的n/p X η矩陣分別為LpL2,…, Lp,其中ρ為集群中的計算機的個數(shù);
      [0018] (2. 3)在各個計算機上分別對其存儲的1^進行奇異值分解,其中i = 1,2,···,?, 對矩陣Li進行奇異值分解后計算其前k個特征向量,即前k個特征值〖λ?# =:ι對應(yīng)的特征 向量{v;#=1,其中k值是預(yù)先設(shè)定的話題簇的數(shù)量;
      [0019] (2.4)計算出矩陣Li的前k個特征向量{\^#=1后,構(gòu)造矩陣V iE Rn/pXk,Vi的每 一列元素是特征分解后的特征向量{Vi}y=1,再將P臺計算機上的矩陣\^按i = 1,2,…, P的次序整合成矩陣V e Rnxk,則V的每一列元素是特征向量{ν0=1,再將矩陣V進行規(guī)范 化得到矩陣U e RnXk。
      [0020] 在本發(fā)明的一個實施例中,所述步驟(3)具體包括如下子步驟:
      [0021] (3. 1)將矩陣U的每一行視為k維空間中的一個向量μ』,j = 1,2,"·,η,在k維 空間中向量Uj可以看作是一個數(shù)據(jù)點;
      [0022] (3. 2)使用K-means算法對矩陣U聽向量進行聚類,K-means算法是一個迭代的過 程。
      [0023] 在本發(fā)明的一個實施例中,所述步驟(3. 2)具體包括如下子步驟:
      [0024] (3. 2. 1)選定k個中心點{c}f=1的初值,初值為隨機選定或者根據(jù)經(jīng)驗值;
      [0025] (3. 2. 2)將每個數(shù)據(jù)點μ』歸類到它最近的那個中心點所代表的簇中;
      [0026] (3. 2. 3)用公式Cfc = My計算出每個簇的新的中心點;
      [0027] (3. 2. 4)計算平方誤差函數(shù)I = I |μ> - G |丨2,最大迭代步數(shù)為μ,若 迭代次數(shù)沒有達到M,且計算出的J值與上次計算的J值之差不小于閾值ζ,轉(zhuǎn)向(3.2. 2);
      [0028] (3. 2. 5)若迭代次數(shù)達到最大步數(shù)M或者相鄰兩次J值相差小于閾值ζ,迭代結(jié) 束;聚類的結(jié)果中每一行所屬的類別就是原來圖中的節(jié)點亦即最初的η個數(shù)據(jù)點分別所屬 的類別。
      [0029] 在本發(fā)明的一個實施例中,所述步驟(4)具體包括如下子步驟:
      [0030] (4. 1)聚類的結(jié)果將圖分為了相互之間無聯(lián)系的簇,而簇內(nèi)部的各結(jié)點緊密相連, 把每一個簇視為一個話題Τ,簇內(nèi)結(jié)點表示的每一個關(guān)鍵詞視為話題屬性,它表征話題的內(nèi) 容;將這些屬性排列在一起組成了話題t e T的一個屬性向量ft;
      [0031] (4. 2)文檔d屬于話題t的概率函數(shù)由d和屬性向量ft的余弦相似度決定,公式 為

      【權(quán)利要求】
      1. 一種面向文本大數(shù)據(jù)的話題檢測或跟蹤方法,其特征在于,所述方法包括: (1) 對中文分詞后的文檔集構(gòu)造圖模型,每個關(guān)鍵詞都視為圖的一個結(jié)點,用關(guān)鍵詞的 共現(xiàn)關(guān)系構(gòu)造結(jié)點間的邊,得到圖及其鄰接矩陣; (2) 構(gòu)造拉普拉斯矩陣,采用分布式的方法進行特征分解并計算其前k個特征向量; (3) 對拉普拉斯矩陣的前k個特征向量構(gòu)成的矩陣使用K-means算法進行聚類,聚類的 結(jié)果中每一行所屬的類別就是原來圖中的節(jié)點亦即最初的η個數(shù)據(jù)點分別所屬的類別; (4) 構(gòu)造話題的屬性向量,根據(jù)話題的屬性向量及上述聚類結(jié)果計算每篇文檔關(guān)于話 題的概率分布; (5) 利用步驟(1)-(4)的方法進行話題檢測與追蹤的相關(guān)應(yīng)用。
      2. 如權(quán)利要求1所述的方法,其特征在于,所述步驟(1)具體包括如下子步驟: (1. 1)對文檔集進行中文分詞后,每個名詞短語或命名實體作為一個關(guān)鍵詞,將每個關(guān) 鍵詞視為圖的一個結(jié)點; (1. 2)構(gòu)造結(jié)點間的邊,將共同在同一文檔出現(xiàn)的關(guān)鍵詞連接起來,邊的權(quán)重用于表示 在文檔中所有關(guān)鍵詞序列共同出現(xiàn)次數(shù)的規(guī)范化值,所述規(guī)范化是令所有的權(quán)重和為1,即 邊的權(quán)重表示該關(guān)鍵詞序列共同出現(xiàn)次數(shù)/所有關(guān)鍵詞序列共同出現(xiàn)次數(shù);所述關(guān)鍵詞序 列是指共同在一篇文檔中出現(xiàn)的兩個關(guān)鍵詞; (1. 3)將上述圖模型用鄰接矩陣的形式表示為N階方陣,記為WeRnxn,其中n為關(guān)鍵 詞的總數(shù)。
      3. 如權(quán)利要求1或2所述的方法,其特征在于,所述步驟(2)具體包括如下子步驟: (2. 1)把鄰接矩陣W的每一列元素加起來得到η個數(shù),將它們放在對角線上,令其余元 素都為零,組成一個ηΧη的矩陣,記為DeRnxn;并令L=D-W,L即為拉普拉斯矩陣; (2. 2)采用MapReduce模型進行分布式特征分解,將矩陣L橫向分割為p個數(shù)據(jù)片段, 每一臺計算機存儲矩陣的n/p行,設(shè)定p臺計算機存儲的η/ρΧη矩陣分別為LpL2,…,Lp, 其中P為集群中的計算機的個數(shù); (2. 3)在各個計算機上分別對其存儲的1^進行奇異值分解,其中i= 1,2,-·,ρ,對矩 陣Li進行奇異值分解后計算其前k個特征向量,即前k個特征值{λ 應(yīng)的特征向量 ,其中k值是預(yù)先設(shè)定的話題簇的數(shù)量; (2.4)計算出矩陣Li的前k個特征向量{v$=1g,構(gòu)造矩陣VieRn7pxk, \的每一列 元素是特征分解后的特征向量{vi}f=i,再將P臺計算機上的矩陣\按i= 1,2,…,p的 次序整合成矩陣VeRnxk,則V的每一列元素是特征向量{v#=1,再將矩陣V進行規(guī)范化得 到矩陣UeRnXk。
      4. 如權(quán)利要求1或2所述的方法,其特征在于,所述步驟(3)具體包括如下子步驟: (3. 1)將矩陣U的每一行視為k維空間中的一個向量= 1,2, ···,!!,在k維空間 中向量Uj可以看作是一個數(shù)據(jù)點; (3. 2)使用K-means算法對矩陣U聽向量進行聚類,K-means算法是一個迭代的過程。
      5. 如權(quán)利要求4所述的方法,其特征在于,所述步驟(3. 2)具體包括如下子步驟: (3. 2. 1)選定k個中心點|cjf=1的初值,初值為隨機選定或者根據(jù)經(jīng)驗值; (3.2.2)將每個數(shù)據(jù)點h歸類到它最近的那個中心點所代表的簇中; (3. 2. 3)用公式Q= &XyEchiSterfc ?計算出每個簇的新的中心點; (3. 2. 4)計算平方誤差函數(shù)I=Σ?=ι 1_A112,最大迭代步數(shù)為M,若迭代 次數(shù)沒有達到M,且計算出的J值與上次計算的J值之差不小于閾值ζ,轉(zhuǎn)向(3.2. 2); (3. 2. 5)若迭代次數(shù)達到最大步數(shù)M或者相鄰兩次J值相差小于閾值ζ,迭代結(jié)束;聚 類的結(jié)果中每一行所屬的類別就是原來圖中的節(jié)點亦即最初的η個數(shù)據(jù)點分別所屬的類 別。
      6. 如權(quán)利要求1或2所述的方法,其特征在于,所述步驟(4)具體包括如下子步驟: (4. 1)聚類的結(jié)果將圖分為了相互之間無聯(lián)系的簇,而簇內(nèi)部的各結(jié)點緊密相連,把每 一個簇視為一個話題Τ,簇內(nèi)結(jié)點表示的每一個關(guān)鍵詞視為話題屬性,它表征話題的內(nèi)容; 將這些屬性排列在一起組成了話題teT的一個屬性向量ft; (4. 2)文檔d屬于話題t的概率函數(shù)由d和屬性向量ft的余弦相似度決定,公式為
      每篇文檔代表了一些話題所構(gòu)成的一個概率分布,將每篇文檔屬于所有話題的概率進 行排序,文檔內(nèi)容最貼近于序列位排第一的話題; (4. 3)對于所有的話題&和t」,定義重疊部分為&和t」中共同出現(xiàn)的關(guān)鍵詞,重疊比 率為重疊部分占&和t」所有關(guān)鍵詞總數(shù)的比率,若tJPt」的重疊比率比閾值ω要大,則將 tJPtj合并成一個新的話題t,且定義Λ=Ai + ,重新計算概率函數(shù),進入步驟(4. 2); 閾值ω根據(jù)經(jīng)驗值設(shè)置。
      7. 如權(quán)利要求1或2所述的方法,其特征在于,所述步驟(5)具體為: 話題檢測:網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)上爬取出一篇新的文檔后,利用上述步驟將文檔表示成 一系列屬性的集合,計算它與所有的歷史文檔的屬性集的相似度,選擇具有最大相似度的 話題簇,歸類其中;若低于相似度門檻H1,則定義為新話題。
      8. 如權(quán)利要求1或2所述的方法,其特征在于,所述步驟(5)具體為: 話題追蹤:在歷史訓練文檔中,事先指定一個話題,在新文檔到達時計算其與指定話題 的相似度,判斷當前文檔是否屬于該話題,若相似度大于閾值η2,則判斷當前文檔屬于指 定話題,實現(xiàn)了對已知話題的追蹤;若相似度小于η2,則不屬于該話題。
      9. 如權(quán)利要求2所述的方法,其特征在于,所述步驟(1)還包括: (1.4)采用K最近鄰分類算法稀疏化矩陣,或者預(yù)先設(shè)定一個閾值ε,將矩陣W中小于 閾值ε的元素都設(shè)置為0,從而稀疏化矩陣;并且當位置(i,j)或(j,i)上任一元素不為 0,則將對應(yīng)的兩個元素都改為Sij,其中SijQe[〇,n-1],je[〇,n-1])為矩陣W中的元 素。
      【文檔編號】G06F17/30GK104462253SQ201410670235
      【公開日】2015年3月25日 申請日期:2014年11月20日 優(yōu)先權(quán)日:2014年11月20日
      【發(fā)明者】鄒復(fù)好, 周可, 范瑞, 鄭勝, 張勝, 陳進才, 李春花 申請人:武漢數(shù)為科技有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1