一種基于深度學習的非監(jiān)督命名實體語義消歧方法
【專利摘要】本發(fā)明提供了一種基于深度學習的非監(jiān)督命名實體語義消歧方法,針對某一特定領(lǐng)域,在垂直網(wǎng)站上抓取評論數(shù)據(jù)并進行預(yù)處理;對評論數(shù)據(jù)中文分詞;利用主題模型對詞進行主題聚類,生成包含主題信息的文檔主題詞分布;對詞集合中的所有詞,使用基于深度學習的詞聚類方法word2vec進行關(guān)鍵詞聚類,提取和關(guān)鍵詞語義接近的詞;使用條件隨機場該模型識別評論數(shù)據(jù)中的命名實體;根據(jù)步驟4主題聚類的聚類結(jié)果,構(gòu)建不同主題下的詞集合,計算文檔和詞集合的相似度,選取文檔主題,得出文檔中命名實體的語境含義,從而消除語義岐義。本發(fā)明實現(xiàn)了以比較高的可解釋度和精確度來進行命名實體消歧,滿足了特定領(lǐng)域且需要大量的知識庫的要求。
【專利說明】一種基于深度學習的非監(jiān)督命名實體語義消歧方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于互聯(lián)網(wǎng)信息【技術(shù)領(lǐng)域】,涉及命名實體消歧,具體是一種非監(jiān)督的基于 語義的方法對命名實體進行語義消歧的技術(shù)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,人們的生活越來越離不開互聯(lián)網(wǎng),人們利用互聯(lián)網(wǎng) 搜索引擎搜索關(guān)注的信息,搜索商品信息,利用電商網(wǎng)站搜索想要購買的物品,搜索方面的 需求量逐漸增大,在情感分析領(lǐng)域,獲取用戶中的評論數(shù)據(jù),詞語的含義不僅影響分詞和 命名實體的準確性,還影響情感分析的準確性。但是互聯(lián)網(wǎng)的快速發(fā)展和中文本身的特點 給這些操作帶來了困難,由于中文存在很多近義詞和多義詞,對這些詞的識別率造成了很 大的影響,因此對具有多義詞的詞語進行歧義消除是亟需解決的問題。
[0003] -般的論文研究主要基于知識庫、Wordnet語義網(wǎng)絡(luò)和基于統(tǒng)計進行研究,基于知 識的語義消歧包括基于規(guī)則和基于詞典的方法,基于知識庫的消歧方法主要依賴語言學家 的語言知識構(gòu)造知識庫,通過分析多義詞所在上下文,選取其中滿足某一項規(guī)則的義項。基 于Wordnet語義網(wǎng)絡(luò)主要是根據(jù)Wordnet中詞和詞在網(wǎng)絡(luò)中的關(guān)系進行分析?;诮y(tǒng)計的 方法則需要以大型語料庫作為知識源,從標注或者未標注的數(shù)據(jù)中學習消歧特征。這些方 法中需要的知識和語料庫獲取過程不僅長而且可信度比較低,也不具有領(lǐng)域通用性,在特 定領(lǐng)域下,效果就變得很差,不能有效實現(xiàn)命名實體語義消歧的目的。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明針對現(xiàn)有的命名實體語義消歧方法無法滿足特定領(lǐng)域的需求而且需要大 量的知識庫的現(xiàn)狀,提供了一種基于深度學習的非監(jiān)督命名實體語義消歧方法,旨在實現(xiàn) 以比較高的可解釋度和精確度來進行命名實體消歧。
[0005] 本發(fā)明提供的基于深度學習的非監(jiān)督命名實體語義消歧方法,針對某一特定領(lǐng) 域,包括如下步驟:
[0006] 步驟1 :構(gòu)建爬蟲程序,在垂直網(wǎng)站上抓取領(lǐng)域內(nèi)的評論數(shù)據(jù);
[0007] 步驟2 :對評論數(shù)據(jù)進行預(yù)處理,包括:去重處理,根據(jù)數(shù)據(jù)長度進行清洗,去除垃 圾廣告,去除評論數(shù)據(jù)中的網(wǎng)址,去除自動評論數(shù)據(jù);將預(yù)處理后的評論數(shù)據(jù)用于下面步 驟;
[0008] 步驟3 :對評論數(shù)據(jù)進行中文分詞,去除停用詞,獲取詞集合;
[0009] 步驟4:對詞集合中的詞建立索引,利用主題模型對詞進行主題聚類,生成包含主 題信息的文檔主題詞分布;
[0010] 步驟5 :對詞集合中的所有詞,使用基于深度學習的詞聚類方法W〇rd2vec進行關(guān) 鍵詞聚類,提取和關(guān)鍵詞語義接近的前X個關(guān)鍵詞;
[0011] 步驟6 :使用條件隨機場模型識別評論數(shù)據(jù)中的命名實體;
[0012] 步驟7 :根據(jù)步驟4主題聚類的聚類結(jié)果,構(gòu)建不同主題下的詞集合,計算文檔和 詞集合的相似度,取相似度最高的前Y個主題,作分析和比較,得出文檔中命名實體的語境 含義,從而消除語義岐義,X和Υ均為正整數(shù)。
[0013] 相對于現(xiàn)有技術(shù),本發(fā)明的非監(jiān)督命名實體語義消歧方法,其優(yōu)點和積極效果在 于:
[0014] (1)利用Bloom filter技術(shù)對抓取的海量評論數(shù)據(jù)去重,數(shù)據(jù)處理效率高;基于給 定的規(guī)則集對評論數(shù)據(jù)進行清洗,有效精簡數(shù)據(jù);
[0015] (2)利用基于深度學習的W〇rd2VeC技術(shù)提取詞語的近義詞集,對海量數(shù)據(jù)處理的 效率高、準確度高;
[0016] (3)利用條件隨機場模型進行命名實體識別,可有效識別命名實體;利用非監(jiān)督 的主題聚類模型對命名實體進行語義主題聚類,采用基于上下文窗口技術(shù)進行命名實體語 義理解,實現(xiàn)了以比較高的可解釋度和精確度來進行命名實體消歧。
【專利附圖】
【附圖說明】
[0017] 圖1是本發(fā)明的非監(jiān)督命名實體語義消歧方法的整體流程圖;
[0018] 圖2是本發(fā)明的非監(jiān)督命名實體語義消歧方法中抓取評論數(shù)據(jù)的流程圖;
[0019] 圖3是本發(fā)明的非監(jiān)督命名實體語義消歧方法步驟2?4的流程示意圖;
[0020] 圖4是本發(fā)明的非監(jiān)督命名實體語義消歧方法命名實體語義消歧模塊流程圖;
[0021] 圖5是本發(fā)明方法中步驟4中利用LDA主題模型獲取字分布概率的示意圖;
[0022] 圖6是給定詞"佛教"在詞上的分布概率示意圖。
【具體實施方式】
[0023] 下面將結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明。
[0024] 本發(fā)明提供的一種基于深度學習的非監(jiān)督命名實體語義消歧方法,可以比較準確 地理解不同的詞語在不同語境下的真正含義。本發(fā)明通過對命名實體識別,通過語義聚類 方式構(gòu)建主題聚類,得到命名實體所屬某一主題的概率,結(jié)合谷歌提出的利用深度學習技 術(shù)的 W〇rd2VeC技術(shù)構(gòu)建主題向量,計算在不同主題下的相似度。同時根據(jù)所屬同一主題的 其他命名實體,在進行語義消歧的時候,聯(lián)系上下文,根據(jù)上下文中詞在同一個主題中的共 現(xiàn)概率進行語義理解,正確的理解命名實體在不同語境下的真實含義。
[0025] 本發(fā)明實施例中針對汽車網(wǎng)站數(shù)據(jù),根據(jù)汽車網(wǎng)站的評論數(shù)據(jù),采用條件隨機場 模型對命名實體識別,采用非監(jiān)督聚類模型和基于上下文的分析技術(shù)對命名實體進行語義 消歧。如圖1所示,具體本發(fā)明的非監(jiān)督命名實體語義消歧方法通過如下步驟1?步驟7 實現(xiàn)。
[0026] 步驟1 :構(gòu)建爬蟲程序,抓取汽車行業(yè)的評論數(shù)據(jù),這里主要包括汽車之家等垂直 網(wǎng)站的數(shù)據(jù)。本步驟分為如下兩個子步驟,如圖2所示:
[0027] 步驟101 :構(gòu)建分布式爬蟲程序,對汽車網(wǎng)站數(shù)據(jù)進行頁面抓?。?br>
[0028] 步驟102 :根據(jù)抓取到的html頁面生成頁面的Dom樹結(jié)構(gòu),根據(jù)標簽提取爬到頁 面中包含的評論數(shù)據(jù)。
[0029] 步驟2 :對評論數(shù)據(jù)進行預(yù)處理,去除噪音。本步驟中(1)利用Bloom filter方法 對海量數(shù)據(jù)進行處理,Bloom filter處理速度很快,避免了普通方法中的兩兩比較,因而是 線性復(fù)雜度,適合處理海量數(shù)據(jù)。(2)利用下面的規(guī)則集對行業(yè)評論數(shù)據(jù)進一步預(yù)處理:規(guī) 則1:評論數(shù)據(jù)長度小于5 ;規(guī)則2 :評論數(shù)據(jù)中含有特定的廣告詞;規(guī)則3 :基于網(wǎng)絡(luò)特定回 復(fù)模板的自動回復(fù);規(guī)則4:評論數(shù)據(jù)中含有網(wǎng)址的,去除網(wǎng)址,然后再重新判斷是否符合 規(guī)則1?3。步驟2可分為步驟201?步驟204。將預(yù)處理后的評論數(shù)據(jù)用于下面步驟中。
[0030] 步驟201 :根據(jù)評論數(shù)據(jù)長度進行清洗,利用正則表達式和制定的規(guī)則集去除垃 圾廣告信息。
[0031] 步驟202 :利用Bloom filter首先對評論數(shù)據(jù)利用N個hash函數(shù)映射到位數(shù)組中, 然后對后面的評論計算N個hash值,進而判斷該評論數(shù)據(jù)是否已經(jīng)存在,如果存在就過濾 掉。
[0032] 步驟203 :設(shè)計匹配網(wǎng)址的正則表達式,去除評論數(shù)據(jù)中的網(wǎng)址,再次計算句子的 長度,然后在此基礎(chǔ)上進行二次清洗,主要清洗長度不滿足規(guī)則中設(shè)置的條件的。
[0033] 步驟204 :統(tǒng)計網(wǎng)絡(luò)自動評論模板,然后根據(jù)自動評論模板去除評論數(shù)據(jù)中包含 的自動評論。
[0034] 步驟3 :對評論數(shù)據(jù)進行中文分詞處理,獲取對應(yīng)的詞集合。對所有評論數(shù)據(jù)進行 中文分詞,去除停用詞,獲取分詞結(jié)果。步驟3包括步驟301和302。
[0035] 步驟301 :調(diào)用中文分詞程序分詞,然后根據(jù)停用詞表去除停用詞,對其中包含的 英文詞進行形態(tài)變換,轉(zhuǎn)換到統(tǒng)一形式。
[0036] 步驟302 :計算詞的文檔頻率df、詞頻tf和逆向文件頻率idf,設(shè)詞的權(quán)值使用計 算公式log(tf7(idf+l)+l)得到,然后根據(jù)設(shè)定的權(quán)值閾值進行詞集篩選,提取權(quán)值大于 設(shè)定的權(quán)值閾值的詞,從而提取到能夠體現(xiàn)評論特征的詞集合,同時通過詞集篩選后也適 當?shù)亟档土嗽~集合的維度。
[0037] 步驟4 :利用主題模型對步驟3得到的詞集合中的詞進行主題聚類,生成包含主題 信息的文檔主題詞分布,如圖3所示。每條評論為一個文檔。
[0038] 步驟401 :對所有詞建立索引,創(chuàng)建文檔和詞對應(yīng)的數(shù)據(jù)文件。
[0039] 步驟 402 :使用基于吉布斯抽樣方法(Gibbs Sampling)的 LDA (latent dirichlet allocation)主題模型對詞進行主題聚類。LDA是一個三層貝葉斯概率模型,包含詞、主題 和文檔三層結(jié)構(gòu)。文檔到主題服從狄利克雷(Dirichlet)分布,主題到詞服從多項式分布。 LDA是一種非監(jiān)督機器學習技術(shù),可以用來識別大規(guī)模文檔集(document collection)或 語料庫(corpus)中潛藏的主題信息。
[0040] 從主題模型的角度,對于一篇文檔,生成包含主題信息的文檔主題詞分布如下:
[0041] 1.設(shè)文檔的長度為N,N服從Poisson ( ε )分布;Poisson ( ε )表不泊松分布,ε 是該分布的參數(shù);
[0042] 2.選擇θ,Θ服從Dirichlet分布Dir(a),Θ是列向量,代表的是各主題發(fā)生 的概率,a是Dirichlet分布的參數(shù);
[0043] 3.對文檔N個單詞中的每一個單詞:
[0044] a)選擇主題Zp Zi服從多項分布Multinomial ( Θ )。Zi代表當前選擇的主題。Θ 是多項分布的參數(shù);i = 1,2,…,Κ,K表示主題的數(shù)量;
[0045] b)選擇單詞W」,根據(jù)P (W」| Zi ; β i;」),得到在Zi條件下的多項分布。P (W」| Zi ; β i;p 表示在主題Zi下生成單詞Wj的概率β i,」,η = 1,2, ···,Ν。
[0046] 設(shè)β是KXW的矩陣,W表示所有文檔的單詞數(shù)量,β記錄了某個主題條件下生成 某個單詞的概率。
[0047] 如圖5所示,Τ表示主題空間,設(shè)共有Κ個主題,D表示文檔空間,設(shè)共有D個文檔, 乂表示某個文檔對應(yīng)的詞空間,T,D,Nd^表示為矩陣向量形式,各主題Ζ發(fā)生的概率分布為 Θ,各主題下生成的單詞的概率分布為φ,φ是一個自變量為主題和單詞的函數(shù)。
[0048] 在LDA主題模型中,有下面公式:
[0049]
【權(quán)利要求】
1. 一種基于深度學習的非監(jiān)督命名實體語義消歧方法,針對某一特定領(lǐng)域,其特征在 于,進行如下步驟: 步驟1 :構(gòu)建爬蟲程序,在垂直網(wǎng)站上抓取領(lǐng)域內(nèi)的評論數(shù)據(jù); 步驟2 :對評論數(shù)據(jù)進行預(yù)處理,包括:去重處理,根據(jù)數(shù)據(jù)長度進行清洗,去除垃圾廣 告,去除評論數(shù)據(jù)中的網(wǎng)址,去除自動評論數(shù)據(jù);將預(yù)處理后的評論數(shù)據(jù)用于下面步驟; 步驟3 :對評論數(shù)據(jù)進行中文分詞,去除停用詞,獲取詞集合; 步驟4 :對詞集合中的詞建立索引,利用主題模型對詞進行主題聚類,生成包含主題信 息的文檔主題詞分布; 步驟5 :使用基于深度學習的詞聚類方法W〇rd2vec進行關(guān)鍵詞聚類,提取和關(guān)鍵詞語 義接近的前X個關(guān)鍵詞;X為正整數(shù); 步驟6 :使用條件隨機場該模型識別評論數(shù)據(jù)中的命名實體; 步驟7 :根據(jù)步驟4主題模型的聚類結(jié)果,構(gòu)建不同主題下的詞集合,計算文檔和詞集 合的相似度,取相似度最高的前Y個主題作分析和比較,得出文檔中命名實體的語境含義, 從而消除語義岐義;Y為正整數(shù)。
2. 根據(jù)權(quán)利要求1所述的非監(jiān)督命名實體語義消歧方法,其特征在于,所述的步驟2, 利用下面的規(guī)則集對評論數(shù)據(jù)進行預(yù)處理,去除符合規(guī)則1?3中任意一條規(guī)則的評論數(shù) 據(jù): 規(guī)則1 :評論數(shù)據(jù)的長度小于5個字; 規(guī)則2 :評論數(shù)據(jù)中含有特定的廣告詞; 規(guī)則3 :基于網(wǎng)絡(luò)特定回復(fù)模板的自動回復(fù); 規(guī)則4 :評論數(shù)據(jù)中含有網(wǎng)址,去除網(wǎng)址后再重新判斷是否符合規(guī)則1?3。
3. 根據(jù)權(quán)利要求1所述的非監(jiān)督命名實體語義消歧方法,其特征在于,所述的步驟3獲 取詞集合時,計算詞的逆向文件頻率idf和詞頻tf,得到詞的權(quán)值log(tf/(idf+l)+l),提 取權(quán)值大于設(shè)定的權(quán)值閾值的詞形成詞集合。
4. 根據(jù)權(quán)利要求1所述的非監(jiān)督命名實體語義消歧方法,其特征在于,所述的步驟5中 X取值為50。
5. 根據(jù)權(quán)利要求1所述的非監(jiān)督命名實體語義消歧方法,其特征在于,所述的步驟7中 Y取值為10。
【文檔編號】G06F17/27GK104268200SQ201410488048
【公開日】2015年1月7日 申請日期:2014年9月22日 優(yōu)先權(quán)日:2013年9月22日
【發(fā)明者】余雷, 鄧攀, 閆碧瑩, 袁偉, 李玉成, 萬安格 申請人:中科嘉速(北京)并行軟件有限公司