挖掘相關(guān)詞的方法、搜索方法、搜索系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及信息檢索領(lǐng)域,尤其設(shè)及一種挖掘相關(guān)詞的方法、一種捜索方法W及 一種捜索系統(tǒng)。
【背景技術(shù)】
[0002] 捜索引擎是網(wǎng)站建設(shè)中針對(duì)"用戶使用網(wǎng)站的便利性"所提供的必要功能,同時(shí)也 是"研究網(wǎng)站用戶行為的一個(gè)有效工具"。高效的站內(nèi)檢索可W讓用戶快速準(zhǔn)確地找到目標(biāo) 信息,從而有效地解決用戶問題,也能更有效地促進(jìn)產(chǎn)品/服務(wù)的銷售,而且通過對(duì)網(wǎng)站訪 問者捜索行為的深度分析,對(duì)于進(jìn)一步制定更為有效的網(wǎng)絡(luò)營(yíng)銷策略具有重要價(jià)值。
[0003] 用戶在使用捜索引擎進(jìn)行捜索時(shí),通過捜索引擎的檢索頁(yè)面,輸入檢索關(guān)鍵詞,捜 索引擎檢索并返回檢索結(jié)果。一般捜索引擎會(huì)直接使用用戶輸入的關(guān)鍵詞進(jìn)行原詞捜索, 或者使用檢索詞的同義詞進(jìn)行捜索。
[0004] 但是,使用檢索詞原詞或者同義詞進(jìn)行捜索時(shí),捜索結(jié)果有限。常常有一些好結(jié) 果,它們的詞語本身與檢索詞并不一致,但是語義上與捜索詞非常相關(guān),導(dǎo)致運(yùn)樣結(jié)果的網(wǎng) 頁(yè)無法召回。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明所要解決的技術(shù)問題是解決傳統(tǒng)捜索引擎只通過原詞或同義詞進(jìn)行檢索 得到的檢索結(jié)果有限的問題,提供一種挖掘相關(guān)詞的方法、一種捜索方法W及一種捜索系 統(tǒng)。
[0006] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種挖掘相關(guān)詞的方法。
[0007] 一種挖掘相關(guān)詞的方法,包括:
[0008] 基于大規(guī)模用戶捜索行為數(shù)據(jù)獲取采用不同表述形式來表達(dá)相同含義的平行句 對(duì);
[0009] 對(duì)每組所述平行句對(duì)進(jìn)行分詞處理;
[0010] 對(duì)所述分詞處理后的平行句對(duì)進(jìn)行詞對(duì)齊處理,W獲取第一對(duì)齊詞對(duì);
[0011] 計(jì)算所述第一對(duì)齊詞對(duì)的共現(xiàn)頻率;
[0012] 將共現(xiàn)頻率高于預(yù)定闊值的所述第一對(duì)齊詞對(duì)確定為相關(guān)詞。
[0013] 運(yùn)樣,通過該挖掘相關(guān)詞方法,可W挖掘出更高相關(guān)度的相關(guān)詞,也可W擴(kuò)大檢索 詞捜索的范圍,提高找到更好的捜索結(jié)果的概率。
[0014] 優(yōu)選地,所述獲取平行句對(duì)的步驟包括:
[0015] 根據(jù)兩個(gè)句子的字面相似度,濾除含義不同的平行句對(duì)。
[0016] 運(yùn)樣,通過兩個(gè)句子的字面相似度濾除含義不同的平行句對(duì),從而獲取表達(dá)含義 相同但說法不同的平行句對(duì)。
[0017] 優(yōu)選地,該方法還包括記錄所述相關(guān)詞的上下文語境詞。
[0018] 通過記錄該相關(guān)詞的上下文語境,通過判斷兩個(gè)相關(guān)詞的上下文語境是否相同或 者相近,有利于進(jìn)一步判斷相關(guān)詞之間的相關(guān)度。
[0019] 優(yōu)選地,所述詞對(duì)齊處理包括規(guī)則詞對(duì)齊處理和/或統(tǒng)計(jì)詞對(duì)齊處理。
[0020] 優(yōu)選地,所述規(guī)則詞對(duì)齊處理包括字面完全相同詞對(duì)齊處理、字面部分相同詞對(duì) 齊處理或臨近詞對(duì)齊處理中的至少一種。
[0021] 運(yùn)樣,可W挖掘出相關(guān)度程度不同的相關(guān)詞。
[0022] 優(yōu)選地,所述統(tǒng)計(jì)詞對(duì)齊處理為使用GIZA++工具進(jìn)行統(tǒng)計(jì)詞對(duì)齊處理。
[0023] 優(yōu)選地,該方法還包括:
[0024] 使用線性模型過濾所述大規(guī)模用戶捜索行為數(shù)據(jù)獲取第二對(duì)齊詞對(duì);
[00巧]獲取能夠體現(xiàn)所述相關(guān)詞之間的相關(guān)度的統(tǒng)計(jì)特征;
[00%] W所述第一對(duì)齊詞對(duì)為正樣本,所述第二對(duì)齊詞對(duì)為負(fù)樣本,基于所述統(tǒng)計(jì)特征, 采用梯度提升決策樹(G抓T)算法,訓(xùn)練所述正樣本和所述負(fù)樣本,獲取所述相關(guān)詞置信度 計(jì)算模型。
[0027] 運(yùn)樣,通過建立相關(guān)詞置信度計(jì)算模型,通過該模型可W區(qū)分相關(guān)詞之間的相關(guān) 度。
[0028] 優(yōu)選地,所述相關(guān)詞置信度計(jì)算模型為GBDT非線性回歸模型。
[0029] 根據(jù)本發(fā)明的另一個(gè)方面,還公開了一種捜索方法。
[0030] 一種捜索方法,包括如下步驟:
[0031] 基于相關(guān)詞詞庫(kù)獲取檢索詞的相關(guān)詞;
[0032] 基于置信度計(jì)算模型計(jì)算所述檢索詞與每個(gè)所述相關(guān)詞之間的置信度;
[0033] 根據(jù)對(duì)應(yīng)的置信度對(duì)使用所述檢索詞和所述相關(guān)詞進(jìn)行檢索所得到的結(jié)果進(jìn)行 排序。
[0034] 運(yùn)樣,通過該捜索方法,可W針對(duì)檢索詞找到其對(duì)應(yīng)的相關(guān)詞,擴(kuò)大了捜索的范 圍,擴(kuò)大了捜索結(jié)果,可W防止詞語本身與檢索詞并不一致,但是語義上與檢索詞非常相 時(shí),運(yùn)樣的捜索結(jié)果無法召回的結(jié)果發(fā)生。
[0035] 優(yōu)選地,所述相關(guān)詞詞庫(kù)是通過根據(jù)上述挖掘相關(guān)詞的方法建立的。
[0036] 通過上述挖掘相關(guān)詞的方法,可W挖掘出更高相關(guān)度的相關(guān)詞,也可W擴(kuò)大檢索 詞捜索的范圍,提高找到更好的捜索結(jié)果的概率。
[0037] 優(yōu)選地,該方法還包括對(duì)檢索語句進(jìn)行分詞處理W獲取所述檢索詞。
[0038] 當(dāng)用戶輸入檢索語句時(shí),通過將檢索語句進(jìn)行分詞,從而獲取若干檢索詞,從而通 過該檢索方法檢索出與上述若干檢索詞相關(guān)的檢索結(jié)果,進(jìn)一步擴(kuò)大了捜索的范圍。
[0039] 優(yōu)選地,基于置信度計(jì)算模型計(jì)算所述檢索詞與每個(gè)所述相關(guān)詞之間的置信度的 步驟包括:
[0040] 獲取每個(gè)所述檢索詞與對(duì)應(yīng)的每個(gè)所述相關(guān)詞之間的特征值;
[0041] 將所述特征值作為所述置信度計(jì)算模型的輸入,基于所述置信度計(jì)算模型計(jì)算所 述置信度。
[0042] 優(yōu)選地,所述特征值包括:
[0043] 相關(guān)程度信息,用于衡量每個(gè)所述檢索詞與每個(gè)對(duì)應(yīng)的相關(guān)詞之間的相關(guān)程度; 和/或
[0044] 可替換程度信息,用于衡量在所述相關(guān)詞的上下文語境中,所述檢索詞與所述相 關(guān)詞之間的可替換程度;和/或 W45] 共現(xiàn)關(guān)系信息,用于衡量所述檢索詞之間的共現(xiàn)關(guān)系;和/或
[0046] 語言模型得分信息,用于顯示所述相關(guān)詞替換所述檢索詞前后的檢索語句的語言 模型得分;和/或
[0047] 權(quán)重值信息,用于表示所述相關(guān)詞的權(quán)重。
[0048] 優(yōu)選地,所述相關(guān)程度信息包括第一翻譯概率Pi和/或第二翻譯概率P2;
[0049]
[00加]counti(A, · ) =ΣjCounti(A,Wj),counti( · ,A' ) =ΣiCounti(w;,A');
[0051] 其中,檢索詞A與相關(guān)詞A'構(gòu)成第一詞對(duì)(A,A'),counti(A,A')表示在平行句 對(duì)中第一詞對(duì)(A,A')被對(duì)齊的次數(shù),counti(A, ·)表示在平行句對(duì)中檢索詞A被對(duì)齊的 總次數(shù),counti(·,A')表示在平行句對(duì)中相關(guān)詞A'被對(duì)齊的總次數(shù),Wj表示在平行句對(duì) 中所有與檢索詞A對(duì)齊的詞中的第j個(gè),表示在平行句對(duì)中所有與相關(guān)詞A'對(duì)齊的詞中 的第i個(gè),counti(A,Wj)表示在平行句對(duì)中檢索詞A與詞Wj對(duì)齊的次數(shù),count1(Wi,A')表 示在平行句對(duì)中詞與相關(guān)詞A'對(duì)齊的次數(shù),i和j均為自然數(shù)。
[0052] 優(yōu)選地,所述可替換程度信息包括第一可替換程度score值,曲和/或第二可替換 程度score(D,Q');
陽(yáng)化5] 其中,檢索詞A與相關(guān)詞A'構(gòu)成第一詞對(duì)(A,A'),
[0056] 檢索詞A與相關(guān)詞A'的所有上下文詞作為文檔D,|D|為D的長(zhǎng)度,
[0057] Q為檢索語句,為所述檢索語句Q的第i個(gè)檢索詞,η是所述檢索語句Q中檢索 詞的總個(gè)數(shù),
[005引 Q'為檢索詞A附近的m個(gè)詞的檢索詞組合,m<n,q',為所述檢索詞組合Q'的 第j個(gè)檢索詞,
[0059] avgdl為檢索詞A的所有相關(guān)詞的上下文構(gòu)成的文檔的平均長(zhǎng)度,
[0060] ki為第一常數(shù),b為第二常數(shù), W61]f(Qi,D)表示qi在文檔D中的出現(xiàn)頻率,
[0062] f(q'i,D)表示q'i在文檔D中的出現(xiàn)頻率。
[0063] 優(yōu)選地,所述共現(xiàn)關(guān)系信息包括基于共現(xiàn)關(guān)系指數(shù)PMI得到的第一共現(xiàn)關(guān)系信息 和/或第二共現(xiàn)關(guān)系信息,其中,
[0064]
[00化] counts(A, ·) =ΣjCountz(A,Wj);
[0066] count2( · ,B) =ΣiC〇unt2(Wi,B);
[0067] count2( · , ·) = Σ jCountz (w;, Wj);
[0068] count2(A,·)表示在檢索資源中檢索詞A與其它檢索詞同時(shí)出現(xiàn)的總次數(shù), count2(,,B)表示在檢索資源中檢索詞B與其它檢索詞同時(shí)出現(xiàn)的總次數(shù),count2(A,B)表 示在檢索資源中兩個(gè)檢索詞A、B同時(shí)出現(xiàn)的次數(shù),W,表示在檢索資源中所有與檢索詞A同 時(shí)出現(xiàn)的詞中的第j個(gè),表示在檢索資源中所有與相關(guān)詞B同時(shí)出現(xiàn)的詞中的第i個(gè), count2(A,Wj)表示在檢索資源中兩個(gè)檢索詞A、Wj同時(shí)出現(xiàn)的次數(shù),count2(Wi,B)表示在檢 索資源中兩個(gè)檢索詞Wi、B同時(shí)出現(xiàn)的次數(shù),counts表示在檢索資源中兩個(gè)檢索詞 同時(shí)出現(xiàn)的次數(shù),i和j均為自然數(shù);
[0069] 第一共現(xiàn)關(guān)系信息是檢索詞與檢索語句中其它詞的共現(xiàn)關(guān)系指數(shù)PMI的平均值;
[0070] 第二共現(xiàn)關(guān)系信息是相關(guān)詞與檢索語句中其它詞的共現(xiàn)關(guān)系指數(shù)PMI的平均值。
[0071] 優(yōu)選地,該方法還包括基于大規(guī)模用戶捜索行為數(shù)據(jù)訓(xùn)練N-gram語言模型獲取 所述語言模型。
[0072] 優(yōu)選地,所述根據(jù)對(duì)應(yīng)的置信度對(duì)使用所述檢索詞和所述相關(guān)詞進(jìn)行檢索所得到 的結(jié)果進(jìn)行排序的步驟,為通過排序模型根據(jù)所述對(duì)應(yīng)的置信度對(duì)使用所述檢索詞和所述 相關(guān)詞進(jìn)行檢索所得到的結(jié)果進(jìn)行排序。
[0073] 優(yōu)選地,該方法還包括所述排序模型根據(jù)所述檢索語句和檢索資源頁(yè)面信息對(duì)所 述檢索資源進(jìn)行初排序的步驟。
[0074] 優(yōu)選地,所述檢索資源為網(wǎng)頁(yè)資源和/或文檔資源。
[00巧]根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種捜索系統(tǒng)。
[0076]-種捜索系統(tǒng),包括: 陽(yáng)077] 相關(guān)詞詞庫(kù)存儲(chǔ)裝置;
[0078] 相關(guān)詞獲取裝置,用于基于所述相關(guān)詞詞庫(kù)存儲(chǔ)裝置存儲(chǔ)的相關(guān)詞