、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖,對本發(fā)明進(jìn) 行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的【具體實施方式】僅僅用以解釋本發(fā)明,并不用于 限定本發(fā)明。
[0049] 實施例
[0050] 參照圖1,本實施例中所述基于Word2Vec和Query log抽取關(guān)鍵詞方法,該方法包 括以下步驟:
[0051] S1,利用query log數(shù)據(jù),構(gòu)建目標(biāo)領(lǐng)域的特定詞表;
[0052] S2,在文檔集合和特定詞表的基礎(chǔ)上,獲取文檔集合中每個文檔的候選關(guān)鍵詞;
[0053] S3,訓(xùn)練得到目標(biāo)領(lǐng)域的W〇rd2VeC模型,將每個文檔中的候選關(guān)鍵詞代入所述模 型,得到每個所述候選關(guān)鍵詞的若干維的詞向量;
[0054] S4,計算任意一個文檔A中任意一個候選關(guān)鍵詞L對應(yīng)的詞向量與所述文檔A的 中心向量的余弦相似度,判斷候選關(guān)鍵詞L是否出現(xiàn)在特定詞表中,如果出現(xiàn),則直接進(jìn)入 55 ;如果不出現(xiàn),則進(jìn)入S6 ;
[0055] S5,將所述候選關(guān)鍵詞L的余弦相似度乘以加權(quán)因子i,得到新余弦相似度,進(jìn)入 56 ;在本實施例中設(shè)定加權(quán)因子i = 100 ;
[0056] S6,將得到的余弦相似度的數(shù)值按照從大到小的順序排序,然后按照預(yù)先設(shè)定的 關(guān)鍵詞數(shù)量m= 10,從所述排序中余弦相似度數(shù)值最大開始輸出10個余弦相似度的數(shù)值, 10個余弦相似度的數(shù)值所對應(yīng)的候選關(guān)鍵詞即為最終關(guān)鍵詞。
[0057] 參照圖2,在本實施例中,步驟Sl,具體按照下述步驟實現(xiàn):
[0058] Al,獲取88天共21342445條用戶在目標(biāo)領(lǐng)域的查詢記錄;
[0059] A2,將所述21342445條查詢記錄進(jìn)行分組,并統(tǒng)計每查詢記錄組出現(xiàn)的次數(shù),去 除出現(xiàn)次數(shù)小于閾值500的查詢記錄組,得到目標(biāo)查詢記錄組;
[0060] A3,對目標(biāo)查詢記錄組中的查詢記錄進(jìn)行分詞,統(tǒng)計任意一個查詢詞在所有目標(biāo) 查詢記錄組中重復(fù)出現(xiàn)的次數(shù),去除出現(xiàn)次數(shù)小于閾值800的查詢詞,得到熱門搜索詞;
[0061] A4,將所述熱門搜索詞與已有所述目標(biāo)領(lǐng)域的詞進(jìn)行合并去重,得到目標(biāo)領(lǐng)域的 特定詞表。
[0062] 參照圖3,在本實施例中,步驟S2中,所述文本是字節(jié)長度大于等于字節(jié)長度閾值 560個字節(jié),步驟S2,具體按照下述步驟實現(xiàn):
[0063] B1,獲取目標(biāo)領(lǐng)域的文檔集合,從中篩選并獲得字節(jié)長度大于等于字節(jié)長度閾值 560個字節(jié)的文本;
[0064] B2,采用TF-IDF算法提取候選關(guān)鍵詞,在此過程中,對出現(xiàn)在所述文本的Title或 目標(biāo)領(lǐng)域的特定詞表的詞進(jìn)行加權(quán),得到每個詞出現(xiàn)的次數(shù);
[0065] 步驟B2中,所述Title中詞的加權(quán)因子為2. 5,所述目標(biāo)領(lǐng)域的特定詞表中詞的加 權(quán)因子為5. 0 ;
[0066] B3,去除出現(xiàn)次數(shù)小于0. 00003Xj的詞,最終得到每個文檔的20個候選關(guān)鍵詞, 所述j表示文本總數(shù)。
[0067] 其中,在步驟B2中還存在以下步驟:利用停用詞表去除文本中存在的停用詞。
[0068] 參照圖4,在本實施例中,步驟S3,具體按照下述步驟實現(xiàn):
[0069] Cl,對所述文檔集合中的每個文檔進(jìn)行分詞;
[0070] C2,利用分詞后的文檔訓(xùn)練Word2Vec模型,得到所述目標(biāo)領(lǐng)域的Word2Vec模型;
[0071] C3,將每個文檔中每個所述候選關(guān)鍵詞代入所述目標(biāo)領(lǐng)域的W〇rd2Ve C模型,得到 每個文檔中所述候選關(guān)鍵詞的若干維的詞向量;其中,所述每個所述候選關(guān)鍵詞的詞向量 維數(shù)預(yù)先設(shè)定,在本實施例中設(shè)定為300維。
[0072] 參照圖5,在本實施例中,步驟S4,具體按照下述步驟實現(xiàn):
[0073] Dl,獲取任意一個文檔A中候選關(guān)鍵詞的總數(shù)a ;
[0074] D2,將文檔A中所有候選關(guān)鍵詞的詞向量相加,得到b ;
[0075] D3,將b除以a,得到所述文檔A的中心向量c ;
[0076] D4,計算文檔A每個所述候選關(guān)鍵詞的詞向量與文檔A的中心向量的余弦相似度 d ;
[0077] 其中,步驟D4中,所述余弦相似度R是按照下述公式計算:
【主權(quán)項】
1. 一種基于Word2Vec和Querylog抽取關(guān)鍵詞方法,其特征在于,該方法包括以下步 驟: Sl,利用querylog數(shù)據(jù),構(gòu)建目標(biāo)領(lǐng)域的特定詞表; 52, 在文檔集合和特定詞表的基礎(chǔ)上,獲取文檔集合中每個文檔的候選關(guān)鍵詞; 53, 訓(xùn)練得到目標(biāo)領(lǐng)域的W〇rd2VeC模型,將每個文檔中的候選關(guān)鍵詞代入所述模型, 得到每個所述候選關(guān)鍵詞的若干維的詞向量; 54, 計算任意一個文檔A中任意一個候選關(guān)鍵詞L對應(yīng)的詞向量與所述文檔A的中心 向量的余弦相似度,判斷候選關(guān)鍵詞L是否出現(xiàn)在特定詞表中,如果出現(xiàn),則直接進(jìn)入S5 ; 如果不出現(xiàn),則進(jìn)入S6; 55, 將所述候選關(guān)鍵詞L的余弦相似度乘以加權(quán)因子i,得到新余弦相似度,進(jìn)入S6; 56, 將得到的余弦相似度的數(shù)值按照從大到小的順序排序,然后按照預(yù)先設(shè)定的關(guān)鍵 詞數(shù)量m,從所述排序中余弦相似度數(shù)值最大開始輸出m個余弦相似度的數(shù)值,m個余弦相 似度的數(shù)值所對應(yīng)的候選關(guān)鍵詞即為最終關(guān)鍵詞。
2. 根據(jù)權(quán)利要求1所述抽取關(guān)鍵詞方法,其特征在于,步驟S1,具體按照下述步驟實 現(xiàn): Al,獲取p天共q條用戶在目標(biāo)領(lǐng)域的查詢記錄;所述p大于等于50,所述q大于等于10000 ; A2,將所述q條查詢記錄進(jìn)行分組,并統(tǒng)計每查詢記錄組出現(xiàn)的次數(shù),去除出現(xiàn)次數(shù)小 于閾值A(chǔ)的查詢記錄組,得到目標(biāo)查詢記錄組; A3,對目標(biāo)查詢記錄組中的查詢記錄進(jìn)行分詞,統(tǒng)計任意一個查詢詞在所有目標(biāo)查詢 記錄組中重復(fù)出現(xiàn)的次數(shù),去除出現(xiàn)次數(shù)小于閾值B的查詢詞,得到熱門搜索詞; A4,將所述熱門搜索詞與已有所述目標(biāo)領(lǐng)域的詞進(jìn)行合并去重,得到目標(biāo)領(lǐng)域的特定 詞表。
3. 根據(jù)權(quán)利要求1所述抽取關(guān)鍵詞方法,其特征在于,步驟S2中,所述文本是字節(jié)長度 大于等于字節(jié)長度閾值C。
4. 根據(jù)權(quán)利要求書3所述抽取關(guān)鍵詞方法,其特征在于,步驟S2,具體按照下述步驟實 現(xiàn): B1,獲取目標(biāo)領(lǐng)域的文檔集合,從中篩選并獲得字節(jié)長度大于等于字節(jié)長度閾值C的 文本; B2,采用TF-IDF算法提取候選關(guān)鍵詞,在此過程中,對出現(xiàn)在所述文本的Title或目標(biāo) 領(lǐng)域的特定詞表的詞進(jìn)行加權(quán),得到每個詞出現(xiàn)的次數(shù); 步驟B2中,所述Title中詞的加權(quán)因子為X,所述目標(biāo)領(lǐng)域的特定詞表中詞的加權(quán)因子 為y; B3,去除出現(xiàn)次數(shù)小于0. 00003Xj的詞,最終得到每個文檔的候選關(guān)鍵詞;所述j表示 文本總數(shù)。
5. 根據(jù)權(quán)利要求書4所述抽取關(guān)鍵詞方法,其特征在于,在步驟B2中還存在以下步驟: 利用停用詞表去除文本中存在的停用詞。
6. 根據(jù)權(quán)利要求書1所述抽取關(guān)鍵詞方法,其特征在于,步驟S3,具體按照下述步驟實 現(xiàn): Cl,對所述文檔集合中的每個文檔進(jìn)行分詞; C2,利用分詞后的文檔訓(xùn)練W〇rd2VeC模型,得到所述目標(biāo)領(lǐng)域的W〇rd2VeC模型; C3,將每個文檔中每個所述候選關(guān)鍵詞代入所述目標(biāo)領(lǐng)域的W〇rd2VeC模型,得到每個 文檔中所述候選關(guān)鍵詞的若干維的詞向量。
7. 根據(jù)權(quán)利要求書6所述抽取關(guān)鍵詞方法,其特征在于,步驟C3中,所述每個所述候選 關(guān)鍵詞的詞向量維數(shù)預(yù)先設(shè)定。
8. 根據(jù)權(quán)利要求書1所述抽取關(guān)鍵詞方法,其特征在于,步驟S4,具體按照下述步驟實 現(xiàn): Dl,獲取任意一個文檔A中候選關(guān)鍵詞的總數(shù)a; D2,將文檔A中所有候選關(guān)鍵詞的詞向量相加,得到b; D3,將b除以a,得到所述文檔A的中心向量c; D4,計算文檔A每個所述候選關(guān)鍵詞的詞向量與文檔A的中心向量的余弦相似度d;D5,候選關(guān)鍵詞L是否出現(xiàn)在特定詞表中,如果出現(xiàn),則直接進(jìn)入S5 ;如果不出現(xiàn),則進(jìn) 入S6〇
【專利摘要】本發(fā)明公開了一種基于Word2Vec和Query log抽取關(guān)鍵詞方法,涉及信息處理領(lǐng)域。該方法包括:S1,構(gòu)建目標(biāo)領(lǐng)域的特定詞表;S2,獲取文檔集合中每個文檔的候選關(guān)鍵詞;S3,獲取每個所述候選關(guān)鍵詞的若干維的詞向量;S4,計算任意一個候選關(guān)鍵詞L的詞向量與所述中心向量的余弦相似度,判斷候選關(guān)鍵詞L是否出現(xiàn)在特定詞表中,如果出現(xiàn),則直接進(jìn)入S5;如果不出現(xiàn),則進(jìn)入S6;S5,將得到余弦相似度乘以加權(quán)因子i,獲得新余弦相似度,進(jìn)入S6;S6,將余弦相似度的數(shù)值從大到小順序排序,從余弦相似度數(shù)值最大開始輸出m個余弦相似度的數(shù)值,即得最終關(guān)鍵詞。本發(fā)明可針對特定領(lǐng)域文本迅速高效地提取出質(zhì)量較為理想的關(guān)鍵詞,避免引入口語化詞匯且提取出的關(guān)鍵詞質(zhì)量高。
【IPC分類】G06F17-30, G06F17-27
【公開號】CN104778161
【申請?zhí)枴緾N201510219784
【發(fā)明人】張平
【申請人】車智互聯(lián)(北京)科技有限公司
【公開日】2015年7月15日
【申請日】2015年4月30日