詞的方法,包括: 基于大規(guī)模用戶搜索行為數(shù)據(jù)獲取采用不同表述形式來(lái)表達(dá)相同含義的平行句對(duì); 對(duì)每組所述平行句對(duì)進(jìn)行分詞處理; 對(duì)所述分詞處理后的平行句對(duì)進(jìn)行詞對(duì)齊處理,以獲取第一對(duì)齊詞對(duì); 計(jì)算所述第一對(duì)齊詞對(duì)的共現(xiàn)頻率; 將共現(xiàn)頻率高于預(yù)定閾值的所述第一對(duì)齊詞對(duì)確定為相關(guān)詞。2. 根據(jù)權(quán)利要求1所述的方法,其中,所述獲取平行句對(duì)的步驟包括: 根據(jù)兩個(gè)句子的字面相似度,濾除含義不同的平行句對(duì)。3. 根據(jù)權(quán)利要求1所述的方法,還包括: 記錄所述相關(guān)詞的上下文語(yǔ)境詞。4. 根據(jù)權(quán)利要求1所述的方法,其中, 所述詞對(duì)齊處理包括規(guī)則詞對(duì)齊處理和/或統(tǒng)計(jì)詞對(duì)齊處理; 所述規(guī)則詞對(duì)齊處理包括字面完全相同詞對(duì)齊處理、字面部分相同詞對(duì)齊處理或臨近 詞對(duì)齊處理中的至少一種; 所述統(tǒng)計(jì)詞對(duì)齊處理為使用GIZA++工具進(jìn)行統(tǒng)計(jì)詞對(duì)齊處理。5. 根據(jù)權(quán)利要求1所述的方法,還包括: 使用線性模型過(guò)濾所述大規(guī)模用戶搜索行為數(shù)據(jù)獲取第二對(duì)齊詞對(duì); 獲取能夠體現(xiàn)所述相關(guān)詞之間的相關(guān)度的統(tǒng)計(jì)特征; 以所述第一對(duì)齊詞對(duì)為正樣本,所述第二對(duì)齊詞對(duì)為負(fù)樣本,基于所述統(tǒng)計(jì)特征,采用 梯度提升決策樹(shù)(GBDT)算法,訓(xùn)練所述正樣本和所述負(fù)樣本,獲取所述相關(guān)詞置信度計(jì)算 模型。6. 根據(jù)權(quán)利要求5所述的方法,其中,所述相關(guān)詞置信度計(jì)算模型為GBDT非線性回歸 模型。7. -種搜索方法,包括如下步驟: 基于相關(guān)詞詞庫(kù)獲取檢索詞的相關(guān)詞; 基于置信度計(jì)算模型計(jì)算所述檢索詞與每個(gè)所述相關(guān)詞之間的置信度; 根據(jù)對(duì)應(yīng)的置信度對(duì)使用所述檢索詞和所述相關(guān)詞進(jìn)行檢索所得到的結(jié)果進(jìn)行排序。8. 根據(jù)權(quán)利要求7所述的方法,其中,所述相關(guān)詞詞庫(kù)是通過(guò)根據(jù)權(quán)利要求1至6中任 何一項(xiàng)所述的方法建立。9. 根據(jù)權(quán)利要求7所述的方法,還包括: 對(duì)檢索語(yǔ)句進(jìn)行分詞處理以獲取所述檢索詞。10. 根據(jù)權(quán)利要求9所述的方法,其中,基于置信度計(jì)算模型計(jì)算所述檢索詞與每個(gè)所 述相關(guān)詞之間的置信度的步驟包括: 獲取每個(gè)所述檢索詞與對(duì)應(yīng)的每個(gè)所述相關(guān)詞之間的特征值; 將所述特征值作為所述置信度計(jì)算模型的輸入,基于所述置信度計(jì)算模型計(jì)算所述置 信度。11. 根據(jù)權(quán)利要求10所述的方法,其中,所述特征值包括: 相關(guān)程度信息,用于衡量每個(gè)所述檢索詞與每個(gè)對(duì)應(yīng)的相關(guān)詞之間的相關(guān)程度;和/ 或 可替換程度信息,用于衡量在所述相關(guān)詞的上下文語(yǔ)境中,所述檢索詞與所述相關(guān)詞 之間的可替換程度;和/或 共現(xiàn)關(guān)系信息,用于衡量所述檢索詞之間的共現(xiàn)關(guān)系;和/或 語(yǔ)言模型得分信息,用于顯示所述相關(guān)詞替換所述檢索詞前后的檢索語(yǔ)句的語(yǔ)言模型 得分;和/或 權(quán)重值信息,用于表示所述相關(guān)詞的權(quán)重。12. 根據(jù)權(quán)利要求11所述的方法,其中,所述相關(guān)程度信息包括第一翻譯概率P 4口 / 或第二翻譯概率P2;其中,檢索詞A與相關(guān)詞A'構(gòu)成第一詞對(duì)(A,A'),counti (A,A')表示在平行句對(duì)中 第一詞對(duì)(A,A')被對(duì)齊的次數(shù),countjA,·)表示在平行句對(duì)中檢索詞A被對(duì)齊的總次 數(shù),countj ·,A')表示在平行句對(duì)中相關(guān)詞A'被對(duì)齊的總次數(shù),表示在平行句對(duì)中所 有與檢索詞A對(duì)齊的詞中的第j個(gè),Wl表示在平行句對(duì)中所有與相關(guān)詞A'對(duì)齊的詞中的第 i個(gè),counti (A,wj表示在平行句對(duì)中檢索詞A與詞Wj對(duì)齊的次數(shù),count丨(Wp A')表示在 平行句對(duì)中詞^與相關(guān)詞A'對(duì)齊的次數(shù),i和j均為自然數(shù)。13. 根據(jù)權(quán)利要求11所述的信息檢索方法,其中,所述可替換程度信息包括第一可替 換程度score (D,Q)和/或第二可替換程度score (D,Q');其中,檢索詞A與相關(guān)詞A'構(gòu)成第一詞對(duì)(A,A'), 檢索詞A與相關(guān)詞A'的所有上下文詞作為文檔D,|D|為D的長(zhǎng)度, Q為檢索語(yǔ)句,&為所述檢索語(yǔ)句Q的第i個(gè)檢索詞,η是所述檢索語(yǔ)句Q中檢索詞的 總個(gè)數(shù), Q'為檢索詞Α附近的m個(gè)詞的檢索詞組合,πΚη,Υ ,為所述檢索詞組合Q'的第j個(gè)檢 索詞, avgdl為檢索詞A的所有相關(guān)詞的上下文構(gòu)成的文檔的平均長(zhǎng)度, 4為第一常數(shù),b為第二常數(shù), f (qi,D)表示qi在文檔D中的出現(xiàn)頻率, f (q' _j,D)表示q' j在文檔D中的出現(xiàn)頻率。14. 根據(jù)權(quán)利要求11所述的方法,其中,所述共現(xiàn)關(guān)系信息包括基于共現(xiàn)關(guān)系指數(shù)PMI 得到的第一共現(xiàn)關(guān)系信息和/或第二共現(xiàn)關(guān)系信息,其中,c〇unt2(A,·)表示在檢索資源中檢索詞A與其它檢索詞同時(shí)出現(xiàn)的總次數(shù),c〇unt 2(·, B)表示在檢索資源中檢索詞B與其它檢索詞同時(shí)出現(xiàn)的總次數(shù),c〇unt2(A,B)表示在檢索 資源中兩個(gè)檢索詞A、B同時(shí)出現(xiàn)的次數(shù),W]表示在檢索資源中所有與檢索詞A同時(shí)出現(xiàn)的 詞中的第j個(gè),Wl表示在檢索資源中所有與相關(guān)詞B同時(shí)出現(xiàn)的詞中的第i個(gè),count 2(A, wj表示在檢索資源中兩個(gè)檢索詞A、Wj同時(shí)出現(xiàn)的次數(shù),count 2(wp B)表示在檢索資源中 兩個(gè)檢索詞WpB同時(shí)出現(xiàn)的次數(shù),countjwi,wj表示在檢索資源中兩個(gè)檢索詞Wp'Wj同時(shí) 出現(xiàn)的次數(shù),i和j均為自然數(shù); 第一共現(xiàn)關(guān)系信息是檢索詞與檢索語(yǔ)句中其它詞的共現(xiàn)關(guān)系指數(shù)PMI的平均值; 第二共現(xiàn)關(guān)系信息是相關(guān)詞與檢索語(yǔ)句中其它詞的共現(xiàn)關(guān)系指數(shù)PMI的平均值。15. 根據(jù)權(quán)利要求11所述的信息檢索方法,其中,還包括基于大規(guī)模用戶搜索行為數(shù) 據(jù)訓(xùn)練N-gram語(yǔ)言模型獲取所述語(yǔ)言模型。16. 根據(jù)權(quán)利要求7或9所述的方法,其中,所述根據(jù)對(duì)應(yīng)的置信度對(duì)使用所述檢索詞 和所述相關(guān)詞進(jìn)行檢索所得到的結(jié)果進(jìn)行排序的步驟,為通過(guò)排序模型根據(jù)所述對(duì)應(yīng)的置 信度對(duì)使用所述檢索詞和所述相關(guān)詞進(jìn)行檢索所得到的結(jié)果進(jìn)行排序。17. 根據(jù)權(quán)利要求16所述的方法,其中,還包括所述排序模型根據(jù)所述檢索語(yǔ)句和檢 索資源頁(yè)面信息對(duì)所述檢索資源進(jìn)行初排序的步驟。18. 根據(jù)權(quán)利要求17所述的方法,其中, 所述檢索資源為網(wǎng)頁(yè)資源和/或文檔資源。19. 一種搜索系統(tǒng),包括: 相關(guān)詞詞庫(kù)存儲(chǔ)裝置; 相關(guān)詞獲取裝置,用于基于所述相關(guān)詞詞庫(kù)存儲(chǔ)裝置存儲(chǔ)的相關(guān)詞詞庫(kù)獲取檢索詞的 相關(guān)詞; 置信度計(jì)算裝置,用于基于相關(guān)詞置信度計(jì)算模型計(jì)算所述檢索詞與每個(gè)所述相關(guān)詞 之間的置信度; 排序裝置,用于根據(jù)所述對(duì)應(yīng)的置信度對(duì)使用所述檢索詞和所述相關(guān)詞進(jìn)行檢索所得 到的結(jié)果進(jìn)行排序。20. 根據(jù)權(quán)利要求19所述的搜索系統(tǒng),其中, 還包括相關(guān)詞詞庫(kù)建立裝置,用于建立所述相關(guān)詞詞庫(kù),包括: 平行句獲取模塊,用于基于大規(guī)模用戶搜索行為數(shù)據(jù)獲取采用不同表述形式來(lái)表達(dá)相 同含義的平行句對(duì); 分詞器,用于對(duì)每組所述平行句對(duì)進(jìn)行分詞處理; 詞對(duì)齊模塊,用于將所述分詞處理后的平行句對(duì)進(jìn)行詞對(duì)齊處理以獲取第一對(duì)齊詞 對(duì); 共現(xiàn)頻率獲取模塊,用于計(jì)算所述第一對(duì)齊詞對(duì)的共現(xiàn)頻率; 相關(guān)詞確定模塊,用于將共現(xiàn)頻率高于預(yù)定閾值的所述第一對(duì)齊詞對(duì)確定為相關(guān)詞。21. 根據(jù)權(quán)利要求20所述的搜索系統(tǒng),其中,所述相關(guān)詞詞庫(kù)建立裝置還包括: 語(yǔ)境獲取模塊,用于獲取所述相關(guān)詞的上下文語(yǔ)境詞。22. 根據(jù)權(quán)利要求20所述的搜索系統(tǒng),其中,還包括相關(guān)詞置信度計(jì)算模型建立裝置, 用于建立所述相關(guān)詞置信度計(jì)算模型,包括: 線性模型過(guò)濾模塊,用于使用線性模型過(guò)濾所述大規(guī)模用戶搜索行為數(shù)據(jù)以獲取第二 對(duì)齊詞對(duì); 訓(xùn)練模塊,用于以所述第一對(duì)齊詞對(duì)為正樣本,以所述第二對(duì)齊詞對(duì)為負(fù)樣本,基于 GBDT算法訓(xùn)練所述正樣本和所述負(fù)樣本,獲取所述相關(guān)詞置信度計(jì)算模型。23. 根據(jù)權(quán)利要求22所述的搜索系統(tǒng),其中,所述相關(guān)詞置信度計(jì)算模型為GBDT非線 性回歸模型。24. 根據(jù)權(quán)利要求20所述的搜索系統(tǒng),其中, 所述分詞器還用于對(duì)檢索語(yǔ)句進(jìn)行分詞處理以獲取檢索詞。25. 根據(jù)權(quán)利要求24所述的搜索系統(tǒng),其中,所述置信度計(jì)算裝置包括: 特征值提取模塊,用于提取每個(gè)所述檢索詞與對(duì)應(yīng)的每個(gè)所述相關(guān)詞之間的特征值; 置信度計(jì)算模塊,用于將所述特征值作為所述相關(guān)詞置信度計(jì)算模型的輸入,基于所 述相關(guān)詞置信度計(jì)算模型計(jì)算所述置信度。26. 根據(jù)權(quán)利要求25所述的搜索系統(tǒng),其中,所述特征值提取模塊包括: 相關(guān)程度信息獲取單元,用于獲取相關(guān)程度信息,所述相關(guān)程度信息用于衡量每個(gè)所 述檢索詞與每個(gè)對(duì)應(yīng)的相關(guān)詞之間的相關(guān)程度;和/或 可替換程度信息獲取單元,用于獲取可替換程度信息,所述可替換程度信息用于衡量 在所述相關(guān)詞的上下文語(yǔ)境中,所述檢索詞與所述相關(guān)詞之間的可替換程度;和/或 共現(xiàn)關(guān)系信息獲取單元,用于獲取共現(xiàn)關(guān)系信息,所述共現(xiàn)關(guān)系信息用于衡量所述檢 索詞之間的共現(xiàn)關(guān)系;和/或 語(yǔ)言模型得分信息獲取單元,用于獲取語(yǔ)言模型得分信息,所述語(yǔ)言模型得分信息用 于顯示所述相關(guān)詞替換所述檢索詞前后的檢索語(yǔ)句的語(yǔ)言模型得分;和/或 權(quán)重值信息獲取單元,用于獲取權(quán)重值信息,所述權(quán)重值信息用于表示所述相關(guān)詞的 權(quán)重。27. 根據(jù)權(quán)利要求26所述的搜索系統(tǒng),其中,所述特征值提取模塊還包括: 語(yǔ)言模型獲取單元,用于基于所述大規(guī)模用戶搜索行為數(shù)據(jù)訓(xùn)練N-gram語(yǔ)言模型獲 取所述語(yǔ)言模型。28. 根據(jù)權(quán)利要求19所述的搜索系統(tǒng),其中,所述排序裝置為通過(guò)排序模型根據(jù)所述 對(duì)應(yīng)的置信度對(duì)使用所述檢索詞和所述相關(guān)詞進(jìn)行檢索所得到的結(jié)果進(jìn)行排序。29. 根據(jù)權(quán)利要求28所述的搜索系統(tǒng),其中,所述排序裝置還用于通過(guò)所述排序模型 根據(jù)檢索語(yǔ)句和檢索資源頁(yè)面信息對(duì)所述檢索資源進(jìn)行初排序。
【專利摘要】本發(fā)明公開(kāi)了一種挖掘相關(guān)詞的方法,包括:基于大規(guī)模用戶搜索行為數(shù)據(jù)獲取采用不同表述形式來(lái)表達(dá)相同含義的平行句對(duì);對(duì)每組平行句對(duì)進(jìn)行分詞處理;對(duì)所述分詞處理后的平行句對(duì)進(jìn)行詞對(duì)齊處理,以獲取第一對(duì)齊詞對(duì);計(jì)算所述第一對(duì)齊詞對(duì)的共現(xiàn)頻率;將共現(xiàn)頻率高于預(yù)定閾值的所述第一對(duì)齊詞對(duì)確定為相關(guān)詞。這樣,通過(guò)該挖掘相關(guān)詞方法,可以挖掘出更高相關(guān)度的相關(guān)詞,也可以擴(kuò)大檢索詞搜索的范圍,提高找到更好的搜索結(jié)果的概率。同時(shí),本發(fā)明還公開(kāi)了一種搜索方法和一種搜索系統(tǒng)。
【IPC分類】G06F17/27, G06F17/30
【公開(kāi)號(hào)】CN105279252
【申請(qǐng)?zhí)枴緾N201510657691
【發(fā)明人】韓增新, 蔣冠軍, 董良
【申請(qǐng)人】廣州神馬移動(dòng)信息科技有限公司
【公開(kāi)日】2016年1月27日
【申請(qǐng)日】2015年10月12日