基于中心詞確定搜索建議的方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及計算機技術領域,具體而言,本發(fā)明涉及一種基于中心詞確定搜索建議的方法及裝置。
【背景技術】
[0002]隨著網(wǎng)絡的迅猛發(fā)展,互聯(lián)網(wǎng)可對幾乎現(xiàn)有的一切日常問題提供解決方案或相關解決方案,為人們的生活和工作提供了極大的便利。用戶在使用網(wǎng)絡搜索引擎進行相關查詢時,現(xiàn)有的網(wǎng)絡搜索引擎可根據(jù)用戶輸入的搜索關鍵詞向用戶提供與搜索關鍵詞相關的搜索建議,用戶可從搜索建議中選擇與其查詢意圖更為匹配的關鍵詞進行搜索查詢,現(xiàn)有的獲取與搜索關鍵相關的搜索建議的方法為通過人工預標注的方式提取搜索關鍵詞的中心詞,并根據(jù)提取的中心詞向用戶推薦其最可能感興趣的搜索關鍵詞。但是,人工預標注的中心詞提取方式只適用于極少量的搜索關鍵詞,隨著搜索引擎的普通使用,隨之相應的搜索關鍵詞激增,通過人工預標注的中心詞提取方式無法滿足龐大數(shù)量級的搜索關鍵詞提取需求。一方面,人工標注提取中心詞的方式無法對中心詞實現(xiàn)自動化的提取,同時,需要較多的人力和時間才能完成提取相應的中心詞,且提取效率太低;另一方面,由于每個人對同一中心詞的主觀評價不同,因此對同一中心詞的標注也不同,可能會導致提取的中心詞與實際用戶的真實搜索目標偏差較大。
[0003]因此,需要一種自動化提取搜索關鍵詞的中心詞的方法,實現(xiàn)高效準確的提取數(shù)量巨大的搜索關鍵詞中的中心詞的目的。
【發(fā)明內容】
[0004]為克服上述技術問題或者至少部分地解決上述技術問題,特提出以下技術方案:
[0005]本發(fā)明的實施例提出了一種基于中心詞確定搜索建議的方法,包括:
[0006]獲取來自終端設備的用戶輸入的搜索關鍵詞;
[0007]提取與搜索關鍵詞對應的中心詞;
[0008]根據(jù)中心詞確定向用戶推薦的與搜索關鍵詞相關聯(lián)的搜索建議。
[0009]優(yōu)選地,提取與搜索關鍵詞對應的中心詞,包括:
[0010]通過機器學習算法提取與搜索關鍵詞對應的中心詞。
[0011]優(yōu)選地,該方法還包括:
[0012]獲取對應同一統(tǒng)一資源定位符的多個歷史搜索關鍵詞,并生成對應于同一統(tǒng)一資源定位符的搜索關鍵詞集合;
[0013]對搜索關鍵詞集合中的多個歷史搜索關鍵詞進行處理,并對處理結果進行模型訓練來生成機器學習算法。
[0014]優(yōu)選地,獲取對應同一統(tǒng)一資源定位符的多個歷史搜索關鍵詞,具體包括:
[0015]獲取針對多個用戶的歷史搜索點擊記錄;
[0016]提取歷史搜索點擊記錄中歷史搜索關鍵詞與搜索結果項、及搜索結果項與統(tǒng)一資源定位符的對應關系;
[0017]根據(jù)對應關系來獲取對應同一統(tǒng)一資源定位符的多個歷史搜索關鍵詞。
[0018]優(yōu)選地,提取歷史搜索點擊記錄中歷史搜索關鍵詞與搜索結果項、及搜索結果項與統(tǒng)一資源定位符的對應關系,具體包括:
[0019]提取歷史搜索點擊記錄中多個用戶分別輸入的歷史搜索關鍵詞,及多個用戶基于其各自輸入的歷史搜索關鍵詞所點擊的搜索結果項之間的對應關系;及
[0020]提取搜索結果項與相對應的統(tǒng)一資源定位符的對應關系。
[0021]優(yōu)選地,對搜索關鍵詞集合中的多個歷史搜索關鍵詞進行處理,并對處理結果進行模型訓練來生成機器學習算法,具體包括:
[0022]對搜索關鍵詞集合中的多個歷史搜索關鍵詞進行分詞處理,以獲取包括多個分詞片段的中心詞訓練集;
[0023]基于中心詞訓練集進行模型訓練來生成機器學習算法。
[0024]優(yōu)選地,對搜索關鍵詞集合中的歷史搜索關鍵詞進行分詞處理,以獲取包括多個分詞片段的中心詞訓練集,包括:
[0025]對搜索關鍵詞集合中的歷史搜索關鍵詞分別進行分詞處理,以獲取多個分詞片段;
[0026]將多個分詞片段進行篩選處理,并將篩選結果確定為中心詞訓練集。
[0027]優(yōu)選地,基于中心詞訓練集進行模型訓練來生成機器學習算法,包括:
[0028]將各個分詞片段通過向量維度的方式來表不;
[0029]提取中心詞訓練集中各個分詞片段的特征屬性;
[0030]基于特征屬性,對以向量維度的方式來表示的分詞片段進行分類訓練來生成機器學習算法。
[0031]其中,特征屬性包括單不限于以下任一項:
[0032]詞性相關信息;
[0033]與相應的歷史搜索關鍵詞的關系信息;
[0034]TF-1DF;
[0035]特殊詞相關信息;
[0036]實體詞相關信息。
[0037]本發(fā)明的另一實施例提出了一種基于中心詞確定搜索建議的裝置,包括:
[0038]獲取模塊,用于獲取來自終端設備的用戶輸入的搜索關鍵詞;
[0039]提取模塊,用于提取與所述搜索關鍵詞對應的中心詞;
[0040]推薦模塊,用于根據(jù)所述中心詞確定向用戶推薦的與所述搜索關鍵詞相關聯(lián)的搜索建議。
[0041 ]優(yōu)選地,所述提取模塊包括:
[0042]第一提取單元,用于通過機器學習算法提取與所述搜索關鍵詞對應的中心詞。
[0043]優(yōu)選地,該裝置還包括:
[0044]獲取生成模塊,用于獲取對應同一統(tǒng)一資源定位符的多個歷史搜索關鍵詞,并生成對應于所述同一統(tǒng)一資源定位符的搜索關鍵詞集合;
[0045]處理模塊,用于對所述搜索關鍵詞集合中的多個歷史搜索關鍵詞進行處理,并對處理結果進行模型訓練來生成所述機器學習算法。
[0046]優(yōu)選地,所述獲取生成模塊具體包括:
[0047]第一獲取單元,用于獲取針對多個用戶的歷史搜索點擊記錄;
[0048]第二提取單元,用于提取所述歷史搜索點擊記錄中歷史搜索關鍵詞與搜索結果項、及搜索結果項與統(tǒng)一資源定位符的對應關系;
[0049]第二獲取單元,用于根據(jù)所述對應關系來獲取對應同一統(tǒng)一資源定位符的多個歷史搜索關鍵詞。
[0050]優(yōu)選地,所述第二提取單元具體用于
[0051]提取所述歷史搜索點擊記錄中多個用戶分別輸入的歷史搜索關鍵詞,及多個用戶基于其各自輸入的歷史搜索關鍵詞所點擊的搜索結果項之間的對應關系;及提取所述搜索結果項與相對應的統(tǒng)一資源定位符的對應關系。
[0052]優(yōu)選地,所述處理模塊具體包括:
[0053]處理單元,用于對所述搜索關鍵詞集合中的多個歷史搜索關鍵詞進行分詞處理,以獲取包括多個分詞片段的中心詞訓練集;
[0054]生成單元,用于基于所述中心詞訓練集進行模型訓練來生成所述機器學習算法。
[0055]優(yōu)選地,所述處理單元包括:
[0056]處理子單元,用于對所述搜索關鍵詞集合中的歷史搜索關鍵詞分別進行分詞處理,以獲取多個分詞片段;
[0057]篩選子單元,用于將所述多個分詞片段進行篩選處理,并將篩選結果確定為中心詞訓練集。
[0058]優(yōu)選地,所述生成單元包括:
[0059]表示子單元,用于將所述各個分詞片段通過向量維度的方式來表示;
[0060]提取子單元,用于提取所述中心詞訓練集中各個分詞片段的特征屬性;
[0061]生成子單元,用于基于所述特征屬性,對以向量維度的方式來表示的所述分詞片段進行分類訓練來生成所述機器學習算法。
[0062]其中,所述特征屬性包括以下至少任一項:
[0063]詞性相關信息;
[0064]與相應的歷史搜索關鍵詞的關系信息;
[0065]TF-1DF;
[0066]特殊詞相關信息;
[0067]實體詞相關信息。
[0068]本發(fā)明的實施例中,提出了一種基于中心詞確定搜索建議的方案,根據(jù)獲取來自終端設備的用戶輸入的搜索關鍵詞,可提取與搜索關鍵詞對應的中心詞,隨后根據(jù)中心詞確定向用戶推薦的與搜索關鍵詞相關聯(lián)的搜索建議。本方案通過機器學習算法提取與搜索關鍵詞對應的中心詞,可實現(xiàn)中心詞的自動提取,通過標準化且客觀的方式準確地提取巨大數(shù)量級的搜索關鍵詞的中心詞,從而極大地節(jié)約了提取中心詞的人力及時間成本;同時,通過機器學習算法在中心詞提取過程中進行分類訓練,使得提取到的中心詞更符合用戶的真實搜索意圖,避免了因人為主觀評價中心詞的不同標準而導致提取的中心詞與實際用戶的真實搜索意圖偏差較大的情況,實現(xiàn)了高效準確提取巨大數(shù)量級搜索關鍵詞的中心詞的目的,并根據(jù)提取到的中心詞向用戶推薦最符合其感興趣的搜索關鍵詞,幫助用戶快速且準確地搜索到其所需的查詢結果,提高用戶的搜索體驗。
[0069]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0070]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0071]圖1為本發(fā)明中一個實施例的基于中心詞確定搜索建議的方法的流程圖;
[0072]圖2為本發(fā)明中一個優(yōu)選實施例的基于中心詞確定搜索建議的方法的流程圖;
[007