搜索引擎及其實(shí)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本公開(kāi)一般涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及信息檢索領(lǐng)域,尤其涉及一種搜索引 擎及其實(shí)現(xiàn)方法。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)提供了對(duì)各種各樣的資源的訪問(wèn)入口,這些資源例如包括圖像文件、音頻 文件、視頻文件和網(wǎng)頁(yè)等。用戶可以通過(guò)搜索系統(tǒng)或搜索引擎來(lái)搜索希望訪問(wèn)的資源。
[0003] 在搜索過(guò)程中,通常由用戶輸入一個(gè)查詢(Query),搜索引擎返回與查詢匹配的結(jié) 果。查詢可以是文本查詢,包括一個(gè)或多個(gè)搜索詞語(yǔ)(Term)或短語(yǔ)。搜索引擎例如可以通 過(guò)文本相關(guān)的匹配方法返回與搜索查詢對(duì)應(yīng)的搜索結(jié)果。
[0004] 在實(shí)際搜索過(guò)程中,通過(guò)文本相關(guān)的匹配方法返回的結(jié)果往往與用戶的查詢需求 不匹配,發(fā)生轉(zhuǎn)義。例如,用戶搜某明星A,搜索結(jié)果中可能包含"A座駕"相關(guān)的文本;搜 "中國(guó)國(guó)旗",可能出來(lái)"海里有掛滿中國(guó)國(guó)旗的漁船"的結(jié)果。
[0005] 現(xiàn)有的文本匹配方案主要有:查詢與搜索結(jié)果文本的共有部分占查詢以及搜索結(jié) 果的比例、BM25的相關(guān)性方式等。但是這些匹配方案無(wú)法解決上面提到的轉(zhuǎn)義問(wèn)題。
【發(fā)明內(nèi)容】
[0006] 鑒于現(xiàn)有技術(shù)中的上述缺陷或不足,期望提供一種能夠有效解決搜索結(jié)果轉(zhuǎn)義問(wèn) 題的方案。
[0007] 第一方面,本申請(qǐng)實(shí)施例提供了一種搜索引擎的實(shí)現(xiàn)方法。該方法包括:接收用戶 輸入的查詢請(qǐng)求;獲取與查詢請(qǐng)求匹配的候選結(jié)果;基于點(diǎn)擊轉(zhuǎn)義模型確定查詢請(qǐng)求與每 個(gè)候選結(jié)果之間的語(yǔ)義相關(guān)度;以及根據(jù)語(yǔ)義相關(guān)度對(duì)候選結(jié)果進(jìn)行排序;其中,點(diǎn)擊轉(zhuǎn) 義模型包括轉(zhuǎn)義詞典和/或非轉(zhuǎn)義詞典,轉(zhuǎn)義詞典包括確定發(fā)生轉(zhuǎn)義的搜索結(jié)果的對(duì)應(yīng)詞 語(yǔ)及其上下文,非轉(zhuǎn)義詞典包括確定未發(fā)生轉(zhuǎn)義的搜索結(jié)果的對(duì)應(yīng)詞語(yǔ)及其上下文。
[0008] 第二方面,本申請(qǐng)實(shí)施例還提供了一種搜索引擎,包括:接收單元,用于接收用戶 輸入的查詢請(qǐng)求;搜索單元,用于搜索與所述查詢請(qǐng)求匹配的候選結(jié)果;語(yǔ)義相關(guān)度確定 單元,用于基于點(diǎn)擊轉(zhuǎn)義模型確定所述查詢請(qǐng)求與每個(gè)候選結(jié)果之間的語(yǔ)義相關(guān)度;以及 排序單元,用于根據(jù)所述語(yǔ)義相關(guān)度對(duì)候選結(jié)果進(jìn)行排序。其中,點(diǎn)擊轉(zhuǎn)義模型包括轉(zhuǎn)義 詞典和/或非轉(zhuǎn)義詞典,所述轉(zhuǎn)義詞典包括確定發(fā)生轉(zhuǎn)義的搜索結(jié)果的對(duì)應(yīng)詞語(yǔ)及其上下 文,所述非轉(zhuǎn)義詞典包括確定未發(fā)生轉(zhuǎn)義的搜索結(jié)果的對(duì)應(yīng)詞語(yǔ)及其上下文。
[0009] 本申請(qǐng)實(shí)施例提供的搜索引擎及其實(shí)現(xiàn)方法,通過(guò)基于點(diǎn)擊獲取與URL關(guān)聯(lián)的 HTTP請(qǐng)求鏈,能夠得到較為全面的URL關(guān)聯(lián)的網(wǎng)頁(yè)內(nèi)容,從而能夠?qū)阂饩W(wǎng)址進(jìn)行準(zhǔn)確檢 測(cè)。按照本申請(qǐng)實(shí)施例的技術(shù)方案,根據(jù)語(yǔ)義相關(guān)度對(duì)搜索的候選結(jié)果進(jìn)行排序,能夠提高 搜索結(jié)果的排序效果,避免不符合用戶搜索需求的結(jié)果(也即轉(zhuǎn)義結(jié)果)出現(xiàn)在搜索結(jié)果 列表的前列,從而確保用戶具有良好的使用體驗(yàn)。
【附圖說(shuō)明】
[0010] 通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本申請(qǐng)的其它 特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0011] 圖1示出了可以應(yīng)用本申請(qǐng)實(shí)施例的示例性系統(tǒng)架構(gòu)100 ;
[0012] 圖2示出了根據(jù)本申請(qǐng)實(shí)施例的構(gòu)建點(diǎn)擊轉(zhuǎn)義模型的方法的示例性流程圖;
[0013] 圖3示出了根據(jù)本申請(qǐng)實(shí)施例的利用詞對(duì)齊獲取相鄰上下文的一個(gè)示例性實(shí)現(xiàn);
[0014] 圖4示出了根據(jù)本申請(qǐng)實(shí)施例的搜索引擎的實(shí)現(xiàn)方法的示例性流程圖;
[0015] 圖5示出了根據(jù)本申請(qǐng)實(shí)施例的基于點(diǎn)擊轉(zhuǎn)義模型確定查詢請(qǐng)求與候選結(jié)果之 間的語(yǔ)義相關(guān)度的方法的示例性流程圖;
[0016] 圖6示出了根據(jù)本申請(qǐng)實(shí)施例的對(duì)語(yǔ)句進(jìn)行處理的結(jié)果的示意圖;
[0017] 圖7示出了根據(jù)本申請(qǐng)實(shí)施例的基于點(diǎn)擊轉(zhuǎn)義模型調(diào)整分詞相似度權(quán)重的方法 的一種示例性流程圖;
[0018] 圖8示出了根據(jù)本申請(qǐng)實(shí)施例的搜索引擎的示例性結(jié)構(gòu)框圖;以及
[0019] 圖9示出了適于用來(lái)實(shí)現(xiàn)本申請(qǐng)實(shí)施例的服務(wù)器的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0020] 下面結(jié)合附圖和實(shí)施例對(duì)本申請(qǐng)作進(jìn)一步的詳細(xì)說(shuō)明??梢岳斫獾氖?,此處所描 述的具體實(shí)施例僅僅用于解釋相關(guān)發(fā)明,而非對(duì)該發(fā)明的限定。另外還需要說(shuō)明的是,為了 便于描述,附圖中僅示出了與發(fā)明相關(guān)的部分。
[0021] 需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相 互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本申請(qǐng)。
[0022] 如【背景技術(shù)】中所提到的,在文本搜索中,通常會(huì)因?yàn)槲谋镜木植科ヅ涠鴮?dǎo)致轉(zhuǎn)義 問(wèn)題。例如,搜索蚊香,結(jié)果包含蚊香盒子;搜索手機(jī),結(jié)果包含手機(jī)皮套;搜索常山,結(jié)果 包含常山大白菜等。這種問(wèn)題在利用文本搜索圖片中尤其明顯。例如,搜索"明星A"的圖 片,結(jié)果包含:明星A攝影圖、明星A寫(xiě)真高清圖片、明星A演唱會(huì)、明星A座駕等。這些結(jié) 果里面,明星A座駕是轉(zhuǎn)義的結(jié)果,并非用戶真正想要的結(jié)果。
[0023] 鑒于現(xiàn)有技術(shù)的上述缺陷,本申請(qǐng)實(shí)施例提供了一種按照語(yǔ)義轉(zhuǎn)義度對(duì)搜索結(jié)果 進(jìn)行排序的方案,以解決上述轉(zhuǎn)義問(wèn)題??梢岳斫猓ǔT谒阉鬟^(guò)程所展現(xiàn)的結(jié)果中,點(diǎn)擊 次數(shù)高的結(jié)果往往是用戶想要的結(jié)果。換言之,點(diǎn)擊次數(shù)高的結(jié)果相對(duì)于用戶的查詢Query 而言不發(fā)生轉(zhuǎn)義的概率很高。與之相反,對(duì)于多次展現(xiàn),但是點(diǎn)擊次數(shù)低甚至無(wú)點(diǎn)擊的結(jié)果 通常是用戶不想要的,也即這些結(jié)果相對(duì)于用戶的Query而言發(fā)生轉(zhuǎn)義的概率很高。另外, 在對(duì)轉(zhuǎn)義的數(shù)據(jù)進(jìn)行分析時(shí)發(fā)現(xiàn),大多數(shù)的轉(zhuǎn)義都是發(fā)生在相鄰的上下文中,而對(duì)于距離 較遠(yuǎn)的上下文基本沒(méi)有影響。因此,基于上述分析提出了本申請(qǐng)諸實(shí)施例的搜索引擎的實(shí) 現(xiàn)方法。
[0024] 請(qǐng)參考圖1,其示出了可以應(yīng)用本申請(qǐng)實(shí)施例的示例性系統(tǒng)架構(gòu)100。
[0025] 如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設(shè)備101、102、網(wǎng)絡(luò)103和服務(wù)器104。網(wǎng) 絡(luò)103用以在終端設(shè)備101、102和服務(wù)器104之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)103可以包 括各種連接類(lèi)型,例如有線、無(wú)線通信鏈路或者光纖電纜等等。
[0026] 用戶110可以使用終端設(shè)備101、102通過(guò)網(wǎng)絡(luò)103與服務(wù)器104交互,以訪問(wèn)各 種服務(wù),例如搜索信息、瀏覽網(wǎng)頁(yè)、下載數(shù)據(jù)等。終端設(shè)備1〇1、1〇2上可以安裝有各種客戶 端應(yīng)用,例如可以接入統(tǒng)一資源定位符URL云服務(wù)的應(yīng)用,包括但不限于瀏覽器、安全應(yīng)用 等。
[0027] 終端設(shè)備101、102可以是各種電子設(shè)備,例如可以包括但不限于,各種可移動(dòng)便 攜設(shè)備,諸如智能手機(jī)、平板電腦、個(gè)人數(shù)字助理、電子書(shū)閱讀器等,以及各種固定式終端設(shè) 備,諸如個(gè)人電腦、智能電視、查詢服務(wù)終端等。
[0028] 服務(wù)器104可以是提供各種服務(wù)的服務(wù)器。服務(wù)器可以響應(yīng)于用戶的服務(wù)請(qǐng)求而 提供服務(wù)。可以理解,一個(gè)服務(wù)器可以提供一種或多種服務(wù),同一種服務(wù)也可以由多個(gè)服務(wù) 器來(lái)提供。在本申請(qǐng)的實(shí)施例中,所涉及的服務(wù)器104可以是搜索服務(wù)器。
[0029] 應(yīng)該理解,圖1中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目?jī)H僅是示意性的。根據(jù)實(shí)現(xiàn)需 要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。
[0030] 為了描述本申請(qǐng)實(shí)施例的搜索引擎的實(shí)現(xiàn)方法,首先描述本申請(qǐng)實(shí)施例中提出的 點(diǎn)擊轉(zhuǎn)義模型的構(gòu)建。如前面所分析的,點(diǎn)擊次數(shù)高的搜索結(jié)果相對(duì)于對(duì)應(yīng)的查詢Query 不發(fā)生轉(zhuǎn)義的概率高;而點(diǎn)擊次數(shù)低甚至無(wú)點(diǎn)擊的搜索結(jié)果相對(duì)于對(duì)應(yīng)的Query發(fā)生轉(zhuǎn)義 的概率高。另外,大多數(shù)的轉(zhuǎn)義都是發(fā)生在相鄰的上下文中,而對(duì)于距離較遠(yuǎn)的上下文基本 沒(méi)有影響。因此,在本申請(qǐng)的實(shí)施例中,通過(guò)學(xué)習(xí)查詢請(qǐng)求與搜索結(jié)果(例如以網(wǎng)頁(yè)標(biāo)題表 示)Query-Title對(duì)的點(diǎn)擊數(shù),同時(shí)考慮轉(zhuǎn)義發(fā)生的上下文來(lái)構(gòu)建點(diǎn)擊轉(zhuǎn)義模型。具體而 言,點(diǎn)擊轉(zhuǎn)義模型可以包括轉(zhuǎn)義詞典和/或非轉(zhuǎn)義詞典,其中轉(zhuǎn)義詞典包括確定發(fā)生轉(zhuǎn)義 的搜索結(jié)果的對(duì)應(yīng)詞語(yǔ)及其上下文,非轉(zhuǎn)義詞典包括確定未發(fā)生轉(zhuǎn)義的搜索結(jié)果的對(duì)應(yīng)詞 語(yǔ)及其上下文。
[0031] 圖2示出了根據(jù)本申請(qǐng)實(shí)施例的構(gòu)建點(diǎn)擊轉(zhuǎn)義模型的方法的示例性流程圖。
[0032] 如圖2所示,在步驟210中,獲取Query-Title對(duì)的點(diǎn)擊展現(xiàn)比。
[0033] 點(diǎn)擊轉(zhuǎn)義模型可以通過(guò)學(xué)習(xí)歷史Q(chēng)uery-Title對(duì)來(lái)構(gòu)建。這些歷史Q(chēng)uery-Title 對(duì)可以保存在Query日志中。Query日志例如記錄了每次用戶查詢會(huì)話中所使用的查詢請(qǐng) 求Query、展現(xiàn)的搜索結(jié)果以及用戶對(duì)搜索結(jié)果的點(diǎn)擊操作等。這些搜索結(jié)果例如可以用網(wǎng) 頁(yè)標(biāo)題Title來(lái)表征,因此,Query-Title對(duì)指的是查詢-搜索結(jié)果對(duì)。
[0034] 可以對(duì)每個(gè)Query-Title對(duì)的展現(xiàn)情況和點(diǎn)擊情況進(jìn)行統(tǒng)計(jì),從而得到 Query-Title對(duì)的點(diǎn)擊展現(xiàn)比。這里,點(diǎn)擊展現(xiàn)比為點(diǎn)擊數(shù)與展現(xiàn)數(shù)之比,其中展現(xiàn)數(shù)指示 搜索結(jié)果Title響應(yīng)于查詢請(qǐng)求Query而被展現(xiàn)的次數(shù),點(diǎn)擊數(shù)指示搜索結(jié)果Title響應(yīng) 于查詢請(qǐng)求Query而展現(xiàn)時(shí)被用戶點(diǎn)擊的次數(shù)。
[0035] 從前面分析可知,點(diǎn)擊次數(shù)高的搜索結(jié)果相對(duì)于對(duì)應(yīng)的查詢Query不發(fā)生轉(zhuǎn)義的 概率高,而點(diǎn)擊次數(shù)低甚至無(wú)點(diǎn)擊的搜索結(jié)果相對(duì)于對(duì)應(yīng)的Query發(fā)生轉(zhuǎn)義的概率高。因 此,Query-Title對(duì)的點(diǎn)擊展現(xiàn)比可以較好地表征Title相對(duì)于Query的轉(zhuǎn)義度或轉(zhuǎn)義概 率。本領(lǐng)域技術(shù)人員可以理解,也可以使用諸如展現(xiàn)點(diǎn)擊比或構(gòu)建基于點(diǎn)擊次數(shù)的其他參 數(shù)來(lái)表征轉(zhuǎn)義度或轉(zhuǎn)義概率,本申請(qǐng)?jiān)诖朔矫鏇](méi)有限制。
[0036] 接著,在步驟220中,利用詞對(duì)齊在搜索結(jié)果Title中獲取與查詢Query語(yǔ)句中詞 語(yǔ)對(duì)齊的相鄰上下文。