挖掘相關(guān)詞的方法、搜索方法、搜索系統(tǒng)的制作方法_5

文檔序號(hào)：9524287閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>挖掘相關(guān)詞的方法、搜索方法、搜索系統(tǒng)的制作方法

詞的方法，包括：基于大規(guī)模用戶搜索行為數(shù)據(jù)獲取采用不同表述形式來(lái)表達(dá)相同含義的平行句對(duì)；對(duì)每組所述平行句對(duì)進(jìn)行分詞處理；對(duì)所述分詞處理后的平行句對(duì)進(jìn)行詞對(duì)齊處理，以獲取第一對(duì)齊詞對(duì)；計(jì)算所述第一對(duì)齊詞對(duì)的共現(xiàn)頻率；將共現(xiàn)頻率高于預(yù)定閾值的所述第一對(duì)齊詞對(duì)確定為相關(guān)詞。2. 根據(jù)權(quán)利要求1所述的方法，其中，所述獲取平行句對(duì)的步驟包括：根據(jù)兩個(gè)句子的字面相似度，濾除含義不同的平行句對(duì)。3. 根據(jù)權(quán)利要求1所述的方法，還包括：記錄所述相關(guān)詞的上下文語(yǔ)境詞。4. 根據(jù)權(quán)利要求1所述的方法，其中，所述詞對(duì)齊處理包括規(guī)則詞對(duì)齊處理和/或統(tǒng)計(jì)詞對(duì)齊處理；所述規(guī)則詞對(duì)齊處理包括字面完全相同詞對(duì)齊處理、字面部分相同詞對(duì)齊處理或臨近詞對(duì)齊處理中的至少一種；所述統(tǒng)計(jì)詞對(duì)齊處理為使用GIZA++工具進(jìn)行統(tǒng)計(jì)詞對(duì)齊處理。5. 根據(jù)權(quán)利要求1所述的方法，還包括：使用線性模型過(guò)濾所述大規(guī)模用戶搜索行為數(shù)據(jù)獲取第二對(duì)齊詞對(duì)；獲取能夠體現(xiàn)所述相關(guān)詞之間的相關(guān)度的統(tǒng)計(jì)特征；以所述第一對(duì)齊詞對(duì)為正樣本，所述第二對(duì)齊詞對(duì)為負(fù)樣本，基于所述統(tǒng)計(jì)特征，采用梯度提升決策樹(shù)（GBDT)算法，訓(xùn)練所述正樣本和所述負(fù)樣本，獲取所述相關(guān)詞置信度計(jì)算模型。6. 根據(jù)權(quán)利要求5所述的方法，其中，所述相關(guān)詞置信度計(jì)算模型為GBDT非線性回歸模型。7. -種搜索方法，包括如下步驟：基于相關(guān)詞詞庫(kù)獲取檢索詞的相關(guān)詞；基于置信度計(jì)算模型計(jì)算所述檢索詞與每個(gè)所述相關(guān)詞之間的置信度；根據(jù)對(duì)應(yīng)的置信度對(duì)使用所述檢索詞和所述相關(guān)詞進(jìn)行檢索所得到的結(jié)果進(jìn)行排序。8. 根據(jù)權(quán)利要求7所述的方法，其中，所述相關(guān)詞詞庫(kù)是通過(guò)根據(jù)權(quán)利要求1至6中任何一項(xiàng)所述的方法建立。9. 根據(jù)權(quán)利要求7所述的方法，還包括：對(duì)檢索語(yǔ)句進(jìn)行分詞處理以獲取所述檢索詞。10. 根據(jù)權(quán)利要求9所述的方法，其中，基于置信度計(jì)算模型計(jì)算所述檢索詞與每個(gè)所述相關(guān)詞之間的置信度的步驟包括：獲取每個(gè)所述檢索詞與對(duì)應(yīng)的每個(gè)所述相關(guān)詞之間的特征值；將所述特征值作為所述置信度計(jì)算模型的輸入，基于所述置信度計(jì)算模型計(jì)算所述置信度。11. 根據(jù)權(quán)利要求10所述的方法，其中，所述特征值包括：相關(guān)程度信息，用于衡量每個(gè)所述檢索詞與每個(gè)對(duì)應(yīng)的相關(guān)詞之間的相關(guān)程度；和/ 或可替換程度信息，用于衡量在所述相關(guān)詞的上下文語(yǔ)境中，所述檢索詞與所述相關(guān)詞之間的可替換程度；和/或共現(xiàn)關(guān)系信息，用于衡量所述檢索詞之間的共現(xiàn)關(guān)系；和/或語(yǔ)言模型得分信息，用于顯示所述相關(guān)詞替換所述檢索詞前后的檢索語(yǔ)句的語(yǔ)言模型得分；和/或權(quán)重值信息，用于表示所述相關(guān)詞的權(quán)重。12. 根據(jù)權(quán)利要求11所述的方法，其中，所述相關(guān)程度信息包括第一翻譯概率P 4口 / 或第二翻譯概率P2;其中，檢索詞A與相關(guān)詞A'構(gòu)成第一詞對(duì)（A，A'），counti (A，A'）表示在平行句對(duì)中第一詞對(duì)（A，A'）被對(duì)齊的次數(shù)，countjA，·）表示在平行句對(duì)中檢索詞A被對(duì)齊的總次數(shù)，countj ·，A'）表示在平行句對(duì)中相關(guān)詞A'被對(duì)齊的總次數(shù)，表示在平行句對(duì)中所有與檢索詞A對(duì)齊的詞中的第j個(gè)，Wl表示在平行句對(duì)中所有與相關(guān)詞A'對(duì)齊的詞中的第 i個(gè)，counti (A，wj表示在平行句對(duì)中檢索詞A與詞Wj對(duì)齊的次數(shù)，count丨(Wp A'）表示在平行句對(duì)中詞^與相關(guān)詞A'對(duì)齊的次數(shù)，i和j均為自然數(shù)。13. 根據(jù)權(quán)利要求11所述的信息檢索方法，其中，所述可替換程度信息包括第一可替換程度score (D，Q)和/或第二可替換程度score (D，Q'）；其中，檢索詞A與相關(guān)詞A'構(gòu)成第一詞對(duì)（A，A'），檢索詞A與相關(guān)詞A'的所有上下文詞作為文檔D，|D|為D的長(zhǎng)度， Q為檢索語(yǔ)句，&為所述檢索語(yǔ)句Q的第i個(gè)檢索詞，η是所述檢索語(yǔ)句Q中檢索詞的總個(gè)數(shù)， Q'為檢索詞Α附近的m個(gè)詞的檢索詞組合，πΚη,Υ ,為所述檢索詞組合Q'的第j個(gè)檢索詞， avgdl為檢索詞A的所有相關(guān)詞的上下文構(gòu)成的文檔的平均長(zhǎng)度， 4為第一常數(shù)，b為第二常數(shù)， f (qi，D)表示qi在文檔D中的出現(xiàn)頻率， f (q' _j，D)表示q' j在文檔D中的出現(xiàn)頻率。14. 根據(jù)權(quán)利要求11所述的方法，其中，所述共現(xiàn)關(guān)系信息包括基于共現(xiàn)關(guān)系指數(shù)PMI 得到的第一共現(xiàn)關(guān)系信息和/或第二共現(xiàn)關(guān)系信息，其中，c〇unt2(A，·）表示在檢索資源中檢索詞A與其它檢索詞同時(shí)出現(xiàn)的總次數(shù)，c〇unt 2(·， B)表示在檢索資源中檢索詞B與其它檢索詞同時(shí)出現(xiàn)的總次數(shù)，c〇unt2(A，B)表示在檢索資源中兩個(gè)檢索詞A、B同時(shí)出現(xiàn)的次數(shù)，W]表示在檢索資源中所有與檢索詞A同時(shí)出現(xiàn)的詞中的第j個(gè)，Wl表示在檢索資源中所有與相關(guān)詞B同時(shí)出現(xiàn)的詞中的第i個(gè)，count 2(A， wj表示在檢索資源中兩個(gè)檢索詞A、Wj同時(shí)出現(xiàn)的次數(shù)，count 2(wp B)表示在檢索資源中兩個(gè)檢索詞WpB同時(shí)出現(xiàn)的次數(shù)，countjwi，wj表示在檢索資源中兩個(gè)檢索詞Wp'Wj同時(shí) 出現(xiàn)的次數(shù)，i和j均為自然數(shù)；第一共現(xiàn)關(guān)系信息是檢索詞與檢索語(yǔ)句中其它詞的共現(xiàn)關(guān)系指數(shù)PMI的平均值；第二共現(xiàn)關(guān)系信息是相關(guān)詞與檢索語(yǔ)句中其它詞的共現(xiàn)關(guān)系指數(shù)PMI的平均值。15. 根據(jù)權(quán)利要求11所述的信息檢索方法，其中，還包括基于大規(guī)模用戶搜索行為數(shù) 據(jù)訓(xùn)練N-gram語(yǔ)言模型獲取所述語(yǔ)言模型。16. 根據(jù)權(quán)利要求7或9所述的方法，其中，所述根據(jù)對(duì)應(yīng)的置信度對(duì)使用所述檢索詞和所述相關(guān)詞進(jìn)行檢索所得到的結(jié)果進(jìn)行排序的步驟，為通過(guò)排序模型根據(jù)所述對(duì)應(yīng)的置信度對(duì)使用所述檢索詞和所述相關(guān)詞進(jìn)行檢索所得到的結(jié)果進(jìn)行排序。17. 根據(jù)權(quán)利要求16所述的方法，其中，還包括所述排序模型根據(jù)所述檢索語(yǔ)句和檢索資源頁(yè)面信息對(duì)所述檢索資源進(jìn)行初排序的步驟。18. 根據(jù)權(quán)利要求17所述的方法，其中，所述檢索資源為網(wǎng)頁(yè)資源和/或文檔資源。19. 一種搜索系統(tǒng)，包括：相關(guān)詞詞庫(kù)存儲(chǔ)裝置；相關(guān)詞獲取裝置，用于基于所述相關(guān)詞詞庫(kù)存儲(chǔ)裝置存儲(chǔ)的相關(guān)詞詞庫(kù)獲取檢索詞的相關(guān)詞；置信度計(jì)算裝置，用于基于相關(guān)詞置信度計(jì)算模型計(jì)算所述檢索詞與每個(gè)所述相關(guān)詞之間的置信度；排序裝置，用于根據(jù)所述對(duì)應(yīng)的置信度對(duì)使用所述檢索詞和所述相關(guān)詞進(jìn)行檢索所得到的結(jié)果進(jìn)行排序。20. 根據(jù)權(quán)利要求19所述的搜索系統(tǒng)，其中，還包括相關(guān)詞詞庫(kù)建立裝置，用于建立所述相關(guān)詞詞庫(kù)，包括：平行句獲取模塊，用于基于大規(guī)模用戶搜索行為數(shù)據(jù)獲取采用不同表述形式來(lái)表達(dá)相同含義的平行句對(duì)；分詞器，用于對(duì)每組所述平行句對(duì)進(jìn)行分詞處理；詞對(duì)齊模塊，用于將所述分詞處理后的平行句對(duì)進(jìn)行詞對(duì)齊處理以獲取第一對(duì)齊詞對(duì)；共現(xiàn)頻率獲取模塊，用于計(jì)算所述第一對(duì)齊詞對(duì)的共現(xiàn)頻率；相關(guān)詞確定模塊，用于將共現(xiàn)頻率高于預(yù)定閾值的所述第一對(duì)齊詞對(duì)確定為相關(guān)詞。21. 根據(jù)權(quán)利要求20所述的搜索系統(tǒng)，其中，所述相關(guān)詞詞庫(kù)建立裝置還包括：語(yǔ)境獲取模塊，用于獲取所述相關(guān)詞的上下文語(yǔ)境詞。22. 根據(jù)權(quán)利要求20所述的搜索系統(tǒng)，其中，還包括相關(guān)詞置信度計(jì)算模型建立裝置，用于建立所述相關(guān)詞置信度計(jì)算模型，包括：線性模型過(guò)濾模塊，用于使用線性模型過(guò)濾所述大規(guī)模用戶搜索行為數(shù)據(jù)以獲取第二對(duì)齊詞對(duì)；訓(xùn)練模塊，用于以所述第一對(duì)齊詞對(duì)為正樣本，以所述第二對(duì)齊詞對(duì)為負(fù)樣本，基于 GBDT算法訓(xùn)練所述正樣本和所述負(fù)樣本，獲取所述相關(guān)詞置信度計(jì)算模型。23. 根據(jù)權(quán)利要求22所述的搜索系統(tǒng)，其中，所述相關(guān)詞置信度計(jì)算模型為GBDT非線性回歸模型。24. 根據(jù)權(quán)利要求20所述的搜索系統(tǒng)，其中，所述分詞器還用于對(duì)檢索語(yǔ)句進(jìn)行分詞處理以獲取檢索詞。25. 根據(jù)權(quán)利要求24所述的搜索系統(tǒng)，其中，所述置信度計(jì)算裝置包括：特征值提取模塊，用于提取每個(gè)所述檢索詞與對(duì)應(yīng)的每個(gè)所述相關(guān)詞之間的特征值；置信度計(jì)算模塊，用于將所述特征值作為所述相關(guān)詞置信度計(jì)算模型的輸入，基于所述相關(guān)詞置信度計(jì)算模型計(jì)算所述置信度。26. 根據(jù)權(quán)利要求25所述的搜索系統(tǒng)，其中，所述特征值提取模塊包括：相關(guān)程度信息獲取單元，用于獲取相關(guān)程度信息，所述相關(guān)程度信息用于衡量每個(gè)所述檢索詞與每個(gè)對(duì)應(yīng)的相關(guān)詞之間的相關(guān)程度；和/或可替換程度信息獲取單元，用于獲取可替換程度信息，所述可替換程度信息用于衡量在所述相關(guān)詞的上下文語(yǔ)境中，所述檢索詞與所述相關(guān)詞之間的可替換程度；和/或共現(xiàn)關(guān)系信息獲取單元，用于獲取共現(xiàn)關(guān)系信息，所述共現(xiàn)關(guān)系信息用于衡量所述檢索詞之間的共現(xiàn)關(guān)系；和/或語(yǔ)言模型得分信息獲取單元，用于獲取語(yǔ)言模型得分信息，所述語(yǔ)言模型得分信息用于顯示所述相關(guān)詞替換所述檢索詞前后的檢索語(yǔ)句的語(yǔ)言模型得分；和/或權(quán)重值信息獲取單元，用于獲取權(quán)重值信息，所述權(quán)重值信息用于表示所述相關(guān)詞的權(quán)重。27. 根據(jù)權(quán)利要求26所述的搜索系統(tǒng)，其中，所述特征值提取模塊還包括：語(yǔ)言模型獲取單元，用于基于所述大規(guī)模用戶搜索行為數(shù)據(jù)訓(xùn)練N-gram語(yǔ)言模型獲取所述語(yǔ)言模型。28. 根據(jù)權(quán)利要求19所述的搜索系統(tǒng)，其中，所述排序裝置為通過(guò)排序模型根據(jù)所述對(duì)應(yīng)的置信度對(duì)使用所述檢索詞和所述相關(guān)詞進(jìn)行檢索所得到的結(jié)果進(jìn)行排序。29. 根據(jù)權(quán)利要求28所述的搜索系統(tǒng)，其中，所述排序裝置還用于通過(guò)所述排序模型根據(jù)檢索語(yǔ)句和檢索資源頁(yè)面信息對(duì)所述檢索資源進(jìn)行初排序。
【專利摘要】本發(fā)明公開(kāi)了一種挖掘相關(guān)詞的方法，包括：基于大規(guī)模用戶搜索行為數(shù)據(jù)獲取采用不同表述形式來(lái)表達(dá)相同含義的平行句對(duì)；對(duì)每組平行句對(duì)進(jìn)行分詞處理；對(duì)所述分詞處理后的平行句對(duì)進(jìn)行詞對(duì)齊處理，以獲取第一對(duì)齊詞對(duì)；計(jì)算所述第一對(duì)齊詞對(duì)的共現(xiàn)頻率；將共現(xiàn)頻率高于預(yù)定閾值的所述第一對(duì)齊詞對(duì)確定為相關(guān)詞。這樣，通過(guò)該挖掘相關(guān)詞方法，可以挖掘出更高相關(guān)度的相關(guān)詞，也可以擴(kuò)大檢索詞搜索的范圍，提高找到更好的搜索結(jié)果的概率。同時(shí)，本發(fā)明還公開(kāi)了一種搜索方法和一種搜索系統(tǒng)。
【IPC分類】G06F17/27, G06F17/30
【公開(kāi)號(hào)】CN105279252
【申請(qǐng)?zhí)枴緾N201510657691
【發(fā)明人】韓增新, 蔣冠軍, 董良
【申請(qǐng)人】廣州神馬移動(dòng)信息科技有限公司
【公開(kāi)日】2016年1月27日
【申請(qǐng)日】2015年10月12日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第5頁(yè)1 2 3 4 5

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

挖掘相關(guān)詞的方法、搜索方法、搜索系統(tǒng)的制作方法_5

挖掘相關(guān)詞的方法、搜索方法、搜索系統(tǒng)的制作方法_5