基于Word2Vec和Querylog抽取關(guān)鍵詞方法

文檔序號：8457260閱讀：550來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于Word2Vec和Query log抽取關(guān)鍵詞方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理領(lǐng)域，尤其涉及一種基于Word2Vec和Query log抽取關(guān)鍵詞方法。
【背景技術(shù)】
[0002] 通過文檔關(guān)鍵詞，人們可以迅速地了解文本內(nèi)容，把握文檔主題。關(guān)鍵詞廣泛應(yīng)用于新聞報道、科技論文等領(lǐng)域，以方便人們高效地管理和檢索文檔。除了幫助人們快速篩選感興趣的內(nèi)容之外，文檔關(guān)鍵詞還可以用于搜索結(jié)果排序、文本摘要、文檔分類、文檔聚類、用戶建模等上層應(yīng)用領(lǐng)域。
[0003] 傳統(tǒng)的關(guān)鍵詞抽取方法分為兩種，分別為無監(jiān)督方法和有監(jiān)督方法。其中無監(jiān)督方法包括TFIDF、Chi-squared、Text Rank、LDA等方法，而有監(jiān)督方法將關(guān)鍵詞抽取問題轉(zhuǎn)換為判斷每個詞是否為關(guān)鍵詞的二分類問題，在之前曾有人通過Naive Bayes和決策樹 C4. 5等有監(jiān)督方法進行關(guān)鍵詞抽取。無監(jiān)督方法和有監(jiān)督方法各有其優(yōu)勢和劣勢：無監(jiān)督方法不需要人工標(biāo)注訓(xùn)練集合，因此更加快捷，但由于無法綜合利用多種信息對候選詞排序，所以效果上可能不如有監(jiān)督方法；而有監(jiān)督方法可以通過訓(xùn)練學(xué)習(xí)調(diào)節(jié)多種信息對于判斷關(guān)鍵詞的影響程度，因此效果更好，但是在現(xiàn)今的數(shù)據(jù)時代，標(biāo)注訓(xùn)練集合非常耗時耗力。
[0004] 現(xiàn)有TFIDF是一種用于信息檢索和文本挖掘的常用加權(quán)技術(shù)。TFIDF是一種統(tǒng) 計方法，用以評估一個字詞對于文檔集合中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加，但同時會隨著它在文檔集合中出現(xiàn)的頻率成反比下降。TFIDF的主要思想是：如果某個詞或短語在一份文件中出現(xiàn)的頻率TF高，并且在其他文章中很少出現(xiàn)（IDF值很大），則認(rèn)為這個詞或者短語具有很好的類別區(qū)分能力，那么我們就給予在此文檔中的這個詞或者短語一個較大的權(quán)重，代表這個詞或者短語對此文檔內(nèi)容的表征能力。利用TFIDF可以進行關(guān)鍵詞抽取工作，對文檔中每個不同的詞計算其TFIDF 值，并且按照數(shù)值從大到小的順序進行排序，從而選取排名靠前的若干個詞作為此篇文檔的關(guān)鍵詞。
[0005] 但是在實際工作中，一般用TFIDF作為baseline。在特定領(lǐng)域的關(guān)鍵詞抽取工作中，因為大量口語化詞匯在文檔及文檔集合中的分布與特定領(lǐng)域詞匯極為相似以及TFIDF 算法本身基于統(tǒng)計的局限性，所以按照TFIDF算法抽取出來的關(guān)鍵詞會含有大量口語化詞匯和不是那么重要的詞匯，從而導(dǎo)致關(guān)鍵詞抽取的效果不佳。
[0006] 受到PageRank算法在IR領(lǐng)域中的廣泛應(yīng)用和巨大成功的啟發(fā)，Mihalcea和 Tarau提出了一種與PageRank類似基于圖排序的算法TextRank，用于進行關(guān)鍵詞抽取。 TextRank的算法思想是構(gòu)建一個網(wǎng)絡(luò)，網(wǎng)絡(luò)中的頂點代表文本中不同的詞，邊代表共現(xiàn)的詞之間的鏈接。兩個詞之間相隔的詞的個數(shù)如果在事先規(guī)定的范圍之內(nèi)，那么TextRank就認(rèn)為這兩個詞滿足共現(xiàn)關(guān)系。網(wǎng)絡(luò)中的邊具有權(quán)重，利用PageRank算法對其進行賦值。與 PageRank算法類似，TextRank認(rèn)為一個詞的重要程度由鏈向它的其他詞的重要程度來決定，利用PageRank算法迭代地計算網(wǎng)絡(luò)中每個詞的重要程度，然后根據(jù)詞的PageRank值進行排序，從而選取排名靠前的若干個詞作為此篇文檔的關(guān)鍵詞。
[0007] 但是TextRank關(guān)鍵詞提取算法需要迭代計算每個詞的PageRank值，通常迭代次數(shù)在20到30次之間。因為計算復(fù)雜度較高，所以這種算法很少使用在大規(guī)模文本關(guān)鍵詞抽取工作中。
[0008] 綜上，傳統(tǒng)的關(guān)鍵詞抽取方法存在關(guān)鍵詞抽取的效果不佳、關(guān)鍵詞抽取效率低和適用范圍受限的問題。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明的目的在于提供一種基于Word2Vec和Query log抽取關(guān)鍵詞方法，從而解決現(xiàn)有技術(shù)中存在的前述問題。
[0010] 為了實現(xiàn)上述目的，本發(fā)明所述基于Word2Vec和Query log抽取關(guān)鍵詞方法，該方法包括以下步驟：
[0011] S1，利用query log數(shù)據(jù)，構(gòu)建目標(biāo)領(lǐng)域的特定詞表；
[0012] S2,在文檔集合和特定詞表的基礎(chǔ)上，獲取文檔集合中每個文檔的候選關(guān)鍵詞；
[0013] S3,訓(xùn)練得到目標(biāo)領(lǐng)域的W〇rd2VeC模型，將每個文檔中的候選關(guān)鍵詞代入所述模型，得到每個所述候選關(guān)鍵詞的若干維的詞向量；
[0014] S4,計算任意一個文檔A中任意一個候選關(guān)鍵詞L對應(yīng)的詞向量與所述文檔A的中心向量的余弦相似度，判斷候選關(guān)鍵詞L是否出現(xiàn)在特定詞表中，如果出現(xiàn)，則直接進入 55 ;如果不出現(xiàn)，則進入S6 ;
[0015] S5,將所述候選關(guān)鍵詞L的余弦相似度乘以加權(quán)因子i，得到新余弦相似度，進入 56 ；
[0016] S6,將得到的余弦相似度的數(shù)值按照從大到小的順序排序，然后按照預(yù)先設(shè)定的關(guān)鍵詞數(shù)量m，從所述排序中余弦相似度數(shù)值最大開始輸出m個余弦相似度的數(shù)值，m個余弦相似度的數(shù)值所對應(yīng)的候選關(guān)鍵詞即為最終關(guān)鍵詞。
[0017] 優(yōu)選地，步驟Sl，具體按照下述步驟實現(xiàn)：
[0018] A1，獲取p天共q條用戶在目標(biāo)領(lǐng)域的查詢記錄；所述p大于等于50,所述q大于等于10000 ;
[0019] A2,將所述q條查詢記錄進行分組，并統(tǒng)計每查詢記錄組出現(xiàn)的次數(shù)，去除出現(xiàn)次數(shù)小于閾值A(chǔ)的查詢記錄組，得到目標(biāo)查詢記錄組；
[0020] A3,對目標(biāo)查詢記錄組中的查詢記錄進行分詞，統(tǒng)計任意一個查詢詞在所有目標(biāo) 查詢記錄組中重復(fù)出現(xiàn)的次數(shù)，去除出現(xiàn)次數(shù)小于閾值B的查詢詞，得到熱門搜索詞；
[0021] A4,將所述熱門搜索詞與已有所述目標(biāo)領(lǐng)域的詞進行合并去重，得到目標(biāo)領(lǐng)域的特定詞表。
[0022] 優(yōu)選地，步驟S2中，所述文本是字節(jié)長度大于等于字節(jié)長度閾值C。
[0023] 更優(yōu)選地，步驟S2,具體按照下述步驟實現(xiàn)：
[0024] B1，獲取目標(biāo)領(lǐng)域的文檔集合，從中篩選并獲得字節(jié)長度大于等于字節(jié)長度閾值C 的文本；
[0025] B2,采用TF-IDF算法提取候選關(guān)鍵詞，在此過程中，對出現(xiàn)在所述文本的Title或目標(biāo)領(lǐng)域的特定詞表的詞進行加權(quán)，得到每個詞出現(xiàn)的次數(shù)；
[0026] 步驟B2中，所述Title中詞的加權(quán)因子為X，所述目標(biāo)領(lǐng)域的特定詞表中詞的加權(quán) 因子為y ;
[0027] B3,去除出現(xiàn)次數(shù)小于0.00003Xj的詞，最終得到每個文檔的候選關(guān)鍵詞；所述j 表示文本總數(shù)。
[0028] 更優(yōu)選地，在步驟B2中還存在以下步驟：利用停用詞表去除文本中存在的停用 O
[0029] 優(yōu)選地，步驟S3,具體按照下述步驟實現(xiàn)：
[0030] Cl，對所述文檔集合中的每個文檔進行分詞；
[0031] C2,利用分詞后的文檔訓(xùn)練Word2Vec模型，得到所述目標(biāo)領(lǐng)域的Word2Vec模型；
[0032] C3,將每個文檔中每個所述候選關(guān)鍵詞代入所述目標(biāo)領(lǐng)域的W〇rd2Ve C模型，得到每個文檔中所述候選關(guān)鍵詞的若干維的詞向量。
[0033] 更優(yōu)選地，步驟C3中，所述每個所述候選關(guān)鍵詞的詞向量維數(shù)預(yù)先設(shè)定。
[0034] 優(yōu)選地，步驟S4,具體按照下述步驟實現(xiàn)：
[0035] Dl，獲取任意一個文檔A中候選關(guān)鍵詞的總數(shù)a ;
[0036] D2,將文檔A中所有候選關(guān)鍵詞的詞向量相加，得到b ;
[0037] D3,將b除以a，得到所述文檔A的中心向量c ;
[0038] D4,計算文檔A每個所述候選關(guān)鍵詞的詞向量與文檔A的中心向量的余弦相似度 d ;
[0039] D5,候選關(guān)鍵詞L是否出現(xiàn)在特定詞表中，如果出現(xiàn)，則直接進入S5 ;如果不出現(xiàn)，則進入S6。
[0040] 本發(fā)明的有益效果是：
[0041] 本發(fā)明所述方法，可以針對特定領(lǐng)域文本迅速高效地提取出質(zhì)量較為理想的關(guān)鍵詞，避免引入口語化詞匯。且在不需要人工標(biāo)注關(guān)鍵詞訓(xùn)練模型和對文本進行詞性標(biāo)記的前提下，不僅可以迅速高效地抽取出質(zhì)量較為理想、可以滿足業(yè)務(wù)需求的特定領(lǐng)域關(guān)鍵詞，而且可以方便快捷地被移植到其他特定領(lǐng)域。
[0042] 通過本發(fā)明提取出的關(guān)鍵詞質(zhì)量高，這些關(guān)鍵詞不僅可以通過精煉冗長query或者輔助建立索引的方式提升搜索效果，而且還可以用于文本標(biāo)記、文本分類、文本聚類、用戶建模、廣告投放等多種上層應(yīng)用領(lǐng)域。
【附圖說明】
[0043] 圖1是實施例中所述基于Word2Vec和Query log抽取關(guān)鍵詞方法的結(jié)構(gòu)流程示意圖；
[0044] 圖2是實施例中步驟Sl的流程示意圖；
[0045] 圖3是實施例中步驟S2的流程示意圖；
[0046] 圖4是實施例中步驟S3的流程示意圖；
[0047] 圖5是實施例中步驟S4的流程示意圖。
【具體實施方式】
[0048] 為了使本發(fā)明的目的

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張平;
技術(shù)所有人：車智互聯(lián)（北京）科技有限公司;
我是此專利的發(fā)明人

上一篇：基于最大熵的主題分類器的訓(xùn)練方法及系統(tǒng)的制作方法
上一篇：一種英語作文內(nèi)容切題分析方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于Word2Vec和Querylog抽取關(guān)鍵詞方法