一種基于深度學習的非監(jiān)督命名實體語義消歧方法

文檔序號：6627849閱讀：1272來源：國知局

一種基于深度學習的非監(jiān)督命名實體語義消歧方法
【專利摘要】本發(fā)明提供了一種基于深度學習的非監(jiān)督命名實體語義消歧方法，針對某一特定領(lǐng)域，在垂直網(wǎng)站上抓取評論數(shù)據(jù)并進行預(yù)處理；對評論數(shù)據(jù)中文分詞；利用主題模型對詞進行主題聚類，生成包含主題信息的文檔主題詞分布；對詞集合中的所有詞，使用基于深度學習的詞聚類方法word2vec進行關(guān)鍵詞聚類，提取和關(guān)鍵詞語義接近的詞；使用條件隨機場該模型識別評論數(shù)據(jù)中的命名實體；根據(jù)步驟4主題聚類的聚類結(jié)果，構(gòu)建不同主題下的詞集合，計算文檔和詞集合的相似度，選取文檔主題，得出文檔中命名實體的語境含義，從而消除語義岐義。本發(fā)明實現(xiàn)了以比較高的可解釋度和精確度來進行命名實體消歧，滿足了特定領(lǐng)域且需要大量的知識庫的要求。
【專利說明】一種基于深度學習的非監(jiān)督命名實體語義消歧方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于互聯(lián)網(wǎng)信息【技術(shù)領(lǐng)域】，涉及命名實體消歧，具體是一種非監(jiān)督的基于語義的方法對命名實體進行語義消歧的技術(shù)。

【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展，人們的生活越來越離不開互聯(lián)網(wǎng)，人們利用互聯(lián)網(wǎng) 搜索引擎搜索關(guān)注的信息，搜索商品信息，利用電商網(wǎng)站搜索想要購買的物品，搜索方面的需求量逐漸增大，在情感分析領(lǐng)域，獲取用戶中的評論數(shù)據(jù)，詞語的含義不僅影響分詞和命名實體的準確性，還影響情感分析的準確性。但是互聯(lián)網(wǎng)的快速發(fā)展和中文本身的特點給這些操作帶來了困難，由于中文存在很多近義詞和多義詞，對這些詞的識別率造成了很大的影響，因此對具有多義詞的詞語進行歧義消除是亟需解決的問題。
[0003] -般的論文研究主要基于知識庫、Wordnet語義網(wǎng)絡(luò)和基于統(tǒng)計進行研究，基于知識的語義消歧包括基于規(guī)則和基于詞典的方法，基于知識庫的消歧方法主要依賴語言學家的語言知識構(gòu)造知識庫，通過分析多義詞所在上下文，選取其中滿足某一項規(guī)則的義項。基于Wordnet語義網(wǎng)絡(luò)主要是根據(jù)Wordnet中詞和詞在網(wǎng)絡(luò)中的關(guān)系進行分析?；诮y(tǒng)計的方法則需要以大型語料庫作為知識源，從標注或者未標注的數(shù)據(jù)中學習消歧特征。這些方法中需要的知識和語料庫獲取過程不僅長而且可信度比較低，也不具有領(lǐng)域通用性，在特定領(lǐng)域下，效果就變得很差，不能有效實現(xiàn)命名實體語義消歧的目的。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明針對現(xiàn)有的命名實體語義消歧方法無法滿足特定領(lǐng)域的需求而且需要大量的知識庫的現(xiàn)狀，提供了一種基于深度學習的非監(jiān)督命名實體語義消歧方法，旨在實現(xiàn) 以比較高的可解釋度和精確度來進行命名實體消歧。
[0005] 本發(fā)明提供的基于深度學習的非監(jiān)督命名實體語義消歧方法，針對某一特定領(lǐng) 域，包括如下步驟：
[0006] 步驟1 :構(gòu)建爬蟲程序，在垂直網(wǎng)站上抓取領(lǐng)域內(nèi)的評論數(shù)據(jù)；
[0007] 步驟2 :對評論數(shù)據(jù)進行預(yù)處理，包括：去重處理，根據(jù)數(shù)據(jù)長度進行清洗，去除垃圾廣告，去除評論數(shù)據(jù)中的網(wǎng)址，去除自動評論數(shù)據(jù)；將預(yù)處理后的評論數(shù)據(jù)用于下面步驟；
[0008] 步驟3 :對評論數(shù)據(jù)進行中文分詞，去除停用詞，獲取詞集合；
[0009] 步驟4:對詞集合中的詞建立索引，利用主題模型對詞進行主題聚類，生成包含主題信息的文檔主題詞分布；
[0010] 步驟5 :對詞集合中的所有詞，使用基于深度學習的詞聚類方法W〇rd2vec進行關(guān) 鍵詞聚類，提取和關(guān)鍵詞語義接近的前X個關(guān)鍵詞；
[0011] 步驟6 :使用條件隨機場模型識別評論數(shù)據(jù)中的命名實體；
[0012] 步驟7 :根據(jù)步驟4主題聚類的聚類結(jié)果，構(gòu)建不同主題下的詞集合，計算文檔和詞集合的相似度，取相似度最高的前Y個主題，作分析和比較，得出文檔中命名實體的語境含義，從而消除語義岐義，X和Υ均為正整數(shù)。
[0013] 相對于現(xiàn)有技術(shù)，本發(fā)明的非監(jiān)督命名實體語義消歧方法，其優(yōu)點和積極效果在于：
[0014] (1)利用Bloom filter技術(shù)對抓取的海量評論數(shù)據(jù)去重，數(shù)據(jù)處理效率高；基于給定的規(guī)則集對評論數(shù)據(jù)進行清洗，有效精簡數(shù)據(jù)；
[0015] (2)利用基于深度學習的W〇rd2VeC技術(shù)提取詞語的近義詞集，對海量數(shù)據(jù)處理的效率高、準確度高；
[0016] (3)利用條件隨機場模型進行命名實體識別，可有效識別命名實體；利用非監(jiān)督的主題聚類模型對命名實體進行語義主題聚類，采用基于上下文窗口技術(shù)進行命名實體語義理解，實現(xiàn)了以比較高的可解釋度和精確度來進行命名實體消歧。

【專利附圖】

【附圖說明】
[0017] 圖1是本發(fā)明的非監(jiān)督命名實體語義消歧方法的整體流程圖；
[0018] 圖2是本發(fā)明的非監(jiān)督命名實體語義消歧方法中抓取評論數(shù)據(jù)的流程圖；
[0019] 圖3是本發(fā)明的非監(jiān)督命名實體語義消歧方法步驟2?4的流程示意圖；
[0020] 圖4是本發(fā)明的非監(jiān)督命名實體語義消歧方法命名實體語義消歧模塊流程圖；
[0021] 圖5是本發(fā)明方法中步驟4中利用LDA主題模型獲取字分布概率的示意圖；
[0022] 圖6是給定詞"佛教"在詞上的分布概率示意圖。

【具體實施方式】
[0023] 下面將結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明。
[0024] 本發(fā)明提供的一種基于深度學習的非監(jiān)督命名實體語義消歧方法，可以比較準確地理解不同的詞語在不同語境下的真正含義。本發(fā)明通過對命名實體識別，通過語義聚類方式構(gòu)建主題聚類，得到命名實體所屬某一主題的概率，結(jié)合谷歌提出的利用深度學習技術(shù)的 W〇rd2VeC技術(shù)構(gòu)建主題向量，計算在不同主題下的相似度。同時根據(jù)所屬同一主題的其他命名實體，在進行語義消歧的時候，聯(lián)系上下文，根據(jù)上下文中詞在同一個主題中的共現(xiàn)概率進行語義理解，正確的理解命名實體在不同語境下的真實含義。
[0025] 本發(fā)明實施例中針對汽車網(wǎng)站數(shù)據(jù)，根據(jù)汽車網(wǎng)站的評論數(shù)據(jù)，采用條件隨機場模型對命名實體識別，采用非監(jiān)督聚類模型和基于上下文的分析技術(shù)對命名實體進行語義消歧。如圖1所示，具體本發(fā)明的非監(jiān)督命名實體語義消歧方法通過如下步驟1?步驟7 實現(xiàn)。
[0026] 步驟1 :構(gòu)建爬蟲程序，抓取汽車行業(yè)的評論數(shù)據(jù)，這里主要包括汽車之家等垂直網(wǎng)站的數(shù)據(jù)。本步驟分為如下兩個子步驟，如圖2所示：
[0027] 步驟101 :構(gòu)建分布式爬蟲程序，對汽車網(wǎng)站數(shù)據(jù)進行頁面抓?。?br> [0028] 步驟102 :根據(jù)抓取到的html頁面生成頁面的Dom樹結(jié)構(gòu)，根據(jù)標簽提取爬到頁面中包含的評論數(shù)據(jù)。
[0029] 步驟2 :對評論數(shù)據(jù)進行預(yù)處理，去除噪音。本步驟中（1)利用Bloom filter方法對海量數(shù)據(jù)進行處理，Bloom filter處理速度很快，避免了普通方法中的兩兩比較，因而是線性復(fù)雜度，適合處理海量數(shù)據(jù)。（2)利用下面的規(guī)則集對行業(yè)評論數(shù)據(jù)進一步預(yù)處理：規(guī) 則1:評論數(shù)據(jù)長度小于5 ;規(guī)則2 :評論數(shù)據(jù)中含有特定的廣告詞；規(guī)則3 :基于網(wǎng)絡(luò)特定回復(fù)模板的自動回復(fù)；規(guī)則4:評論數(shù)據(jù)中含有網(wǎng)址的，去除網(wǎng)址，然后再重新判斷是否符合規(guī)則1?3。步驟2可分為步驟201?步驟204。將預(yù)處理后的評論數(shù)據(jù)用于下面步驟中。
[0030] 步驟201 :根據(jù)評論數(shù)據(jù)長度進行清洗，利用正則表達式和制定的規(guī)則集去除垃圾廣告信息。
[0031] 步驟202 :利用Bloom filter首先對評論數(shù)據(jù)利用N個hash函數(shù)映射到位數(shù)組中，然后對后面的評論計算N個hash值，進而判斷該評論數(shù)據(jù)是否已經(jīng)存在，如果存在就過濾掉。
[0032] 步驟203 :設(shè)計匹配網(wǎng)址的正則表達式，去除評論數(shù)據(jù)中的網(wǎng)址，再次計算句子的長度，然后在此基礎(chǔ)上進行二次清洗，主要清洗長度不滿足規(guī)則中設(shè)置的條件的。
[0033] 步驟204 :統(tǒng)計網(wǎng)絡(luò)自動評論模板，然后根據(jù)自動評論模板去除評論數(shù)據(jù)中包含的自動評論。
[0034] 步驟3 :對評論數(shù)據(jù)進行中文分詞處理，獲取對應(yīng)的詞集合。對所有評論數(shù)據(jù)進行中文分詞，去除停用詞，獲取分詞結(jié)果。步驟3包括步驟301和302。
[0035] 步驟301 :調(diào)用中文分詞程序分詞，然后根據(jù)停用詞表去除停用詞，對其中包含的英文詞進行形態(tài)變換，轉(zhuǎn)換到統(tǒng)一形式。
[0036] 步驟302 :計算詞的文檔頻率df、詞頻tf和逆向文件頻率idf，設(shè)詞的權(quán)值使用計算公式log(tf7(idf+l)+l)得到，然后根據(jù)設(shè)定的權(quán)值閾值進行詞集篩選，提取權(quán)值大于設(shè)定的權(quán)值閾值的詞，從而提取到能夠體現(xiàn)評論特征的詞集合，同時通過詞集篩選后也適當?shù)亟档土嗽~集合的維度。
[0037] 步驟4 :利用主題模型對步驟3得到的詞集合中的詞進行主題聚類，生成包含主題信息的文檔主題詞分布，如圖3所示。每條評論為一個文檔。
[0038] 步驟401 :對所有詞建立索引，創(chuàng)建文檔和詞對應(yīng)的數(shù)據(jù)文件。
[0039] 步驟 402 :使用基于吉布斯抽樣方法（Gibbs Sampling)的 LDA (latent dirichlet allocation)主題模型對詞進行主題聚類。LDA是一個三層貝葉斯概率模型，包含詞、主題和文檔三層結(jié)構(gòu)。文檔到主題服從狄利克雷（Dirichlet)分布，主題到詞服從多項式分布。 LDA是一種非監(jiān)督機器學習技術(shù)，可以用來識別大規(guī)模文檔集（document collection)或語料庫（corpus)中潛藏的主題信息。
[0040] 從主題模型的角度，對于一篇文檔，生成包含主題信息的文檔主題詞分布如下：
[0041] 1.設(shè)文檔的長度為N，N服從Poisson ( ε )分布；Poisson ( ε )表不泊松分布，ε 是該分布的參數(shù)；
[0042] 2.選擇θ，Θ服從Dirichlet分布Dir(a)，Θ是列向量，代表的是各主題發(fā)生的概率，a是Dirichlet分布的參數(shù)；
[0043] 3.對文檔N個單詞中的每一個單詞：
[0044] a)選擇主題Zp Zi服從多項分布Multinomial ( Θ )。Zi代表當前選擇的主題。Θ 是多項分布的參數(shù)；i = 1，2,…，Κ，K表示主題的數(shù)量；
[0045] b)選擇單詞W」，根據(jù)P (W」| Zi ; β i;」），得到在Zi條件下的多項分布。P (W」| Zi ; β i;p 表示在主題Zi下生成單詞Wj的概率β i，」，η = 1，2, ···，Ν。
[0046] 設(shè)β是KXW的矩陣，W表示所有文檔的單詞數(shù)量，β記錄了某個主題條件下生成某個單詞的概率。
[0047] 如圖5所示，Τ表示主題空間，設(shè)共有Κ個主題，D表示文檔空間，設(shè)共有D個文檔，乂表示某個文檔對應(yīng)的詞空間，T，D，Nd^表示為矩陣向量形式，各主題Ζ發(fā)生的概率分布為 Θ，各主題下生成的單詞的概率分布為φ，φ是一個自變量為主題和單詞的函數(shù)。
[0048] 在LDA主題模型中，有下面公式：
[0049]

【權(quán)利要求】
1. 一種基于深度學習的非監(jiān)督命名實體語義消歧方法，針對某一特定領(lǐng)域，其特征在于，進行如下步驟：步驟1 :構(gòu)建爬蟲程序，在垂直網(wǎng)站上抓取領(lǐng)域內(nèi)的評論數(shù)據(jù)；步驟2 :對評論數(shù)據(jù)進行預(yù)處理，包括：去重處理，根據(jù)數(shù)據(jù)長度進行清洗，去除垃圾廣告，去除評論數(shù)據(jù)中的網(wǎng)址，去除自動評論數(shù)據(jù)；將預(yù)處理后的評論數(shù)據(jù)用于下面步驟；步驟3 :對評論數(shù)據(jù)進行中文分詞，去除停用詞，獲取詞集合；步驟4 :對詞集合中的詞建立索引，利用主題模型對詞進行主題聚類，生成包含主題信息的文檔主題詞分布；步驟5 :使用基于深度學習的詞聚類方法W〇rd2vec進行關(guān)鍵詞聚類，提取和關(guān)鍵詞語義接近的前X個關(guān)鍵詞；X為正整數(shù)；步驟6 :使用條件隨機場該模型識別評論數(shù)據(jù)中的命名實體；步驟7 :根據(jù)步驟4主題模型的聚類結(jié)果，構(gòu)建不同主題下的詞集合，計算文檔和詞集合的相似度，取相似度最高的前Y個主題作分析和比較，得出文檔中命名實體的語境含義，從而消除語義岐義；Y為正整數(shù)。
2. 根據(jù)權(quán)利要求1所述的非監(jiān)督命名實體語義消歧方法，其特征在于，所述的步驟2，利用下面的規(guī)則集對評論數(shù)據(jù)進行預(yù)處理，去除符合規(guī)則1?3中任意一條規(guī)則的評論數(shù) 據(jù)：規(guī)則1 :評論數(shù)據(jù)的長度小于5個字；規(guī)則2 :評論數(shù)據(jù)中含有特定的廣告詞；規(guī)則3 :基于網(wǎng)絡(luò)特定回復(fù)模板的自動回復(fù)；規(guī)則4 :評論數(shù)據(jù)中含有網(wǎng)址，去除網(wǎng)址后再重新判斷是否符合規(guī)則1?3。
3. 根據(jù)權(quán)利要求1所述的非監(jiān)督命名實體語義消歧方法，其特征在于，所述的步驟3獲取詞集合時，計算詞的逆向文件頻率idf和詞頻tf，得到詞的權(quán)值log(tf/(idf+l)+l)，提取權(quán)值大于設(shè)定的權(quán)值閾值的詞形成詞集合。
4. 根據(jù)權(quán)利要求1所述的非監(jiān)督命名實體語義消歧方法，其特征在于，所述的步驟5中 X取值為50。
5. 根據(jù)權(quán)利要求1所述的非監(jiān)督命名實體語義消歧方法，其特征在于，所述的步驟7中 Y取值為10。
【文檔編號】G06F17/27GK104268200SQ201410488048
【公開日】2015年1月7日申請日期:2014年9月22日優(yōu)先權(quán)日:2013年9月22日
【發(fā)明者】余雷, 鄧攀, 閆碧瑩, 袁偉, 李玉成, 萬安格申請人:中科嘉速(北京)并行軟件有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：余雷;鄧攀;閆碧瑩;袁偉;李玉成;萬安格
技術(shù)所有人：中科嘉速(北京)并行軟件有限公司
我是此專利的發(fā)明人

上一篇：復(fù)合絕緣子的陡波電壓耐受裕度的估算方法
上一篇：一種基于深度學習的命名實體關(guān)系抽取與構(gòu)建方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于深度學習的非監(jiān)督命名實體語義消歧方法