国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      搜索引擎及其實(shí)現(xiàn)方法_2

      文檔序號:8922689閱讀:來源:國知局
      [0037] 對于每個(gè)Query-Title對,首先可以對Query和Title分別進(jìn)行分詞。然后利用 詞對齊,針對Query中的每個(gè)詞,找到其在Title中的對應(yīng)位置。這里的詞對齊也包括同義 對齊。例如,如果完全對應(yīng)的詞沒有出現(xiàn),則考慮其同義詞。最后,在Title中獲取Query中首詞對齊和末詞對齊的相鄰上下文。
      [0038] 圖3示出了根據(jù)本申請實(shí)施例的利用詞對齊獲取相鄰上下文的一個(gè)示例性實(shí)現(xiàn)。 在圖3的示例中,Query為"中國國旗",Title為"海里有掛滿中國國旗的漁船"。
      [0039] 如圖3所示,分別對Query和Title進(jìn)行分詞。具體的,Query分為"中國"和"國 旗";Title分為"海里"、"有"、"掛滿"、"中國"、"國旗"、"的"和"漁船",在圖中用方框分隔 各個(gè)詞語。
      [0040] 然后利用詞對齊,針對Query中的每個(gè)詞,找到其在Title中的對應(yīng)位置。在圖3 的示例中,Query中的每個(gè)詞"中國"和"國旗"均能在Title中找到完全對應(yīng)的詞語,如圖 中的箭頭所示。
      [0041] 最后,在Title中獲取Query中首詞對齊和末詞對齊的相鄰上下文。更具體的,獲 取首詞對齊的相鄰上文和末詞對齊的相鄰下文。在此示例中,首詞"中國"的相鄰上文為"掛 滿",末詞"國旗"的相鄰下文為"的",過濾掉停用詞"的",繼續(xù)搜索后面的非停用詞作為下 文,也即"國旗"的相鄰下文為"漁船"。
      [0042] 人類語言包含很多功能詞。與其他詞相比,功能詞沒有什么實(shí)際含義。最普遍的 功能詞是限定詞("這"、"這個(gè)"、"那"、"那些"、"the"、"a"、"an"、"that"、和 "those"), 這些詞幫助在文本中描述名詞和表達(dá)概念,如地點(diǎn)或數(shù)量。介詞如:"在…上"、"在..下"、 "over","under","above"等表示兩個(gè)詞的相對位置。這些功能詞極其普遍,記錄這些詞在 每一個(gè)文檔中的數(shù)量需要很大的磁盤空間。另外,由于它們的普遍性和功能,這些詞很少單 獨(dú)表達(dá)文檔相關(guān)程度的信息。如果在檢索過程中考慮每一個(gè)詞而不是短語,這些功能詞基 本沒有什么幫助。
      [0043] 在信息檢索中,這些功能詞的另一個(gè)名稱是:停用詞(stopword)。稱它們?yōu)橥S?詞是因?yàn)樵谖谋咎幚磉^程中如果遇到它們,則立即停止處理,將其扔掉。將這些詞扔掉減少 了索引量,增加了檢索效率,并且通常都會(huì)提高檢索的效果。停用詞主要包括英文字符、數(shù) 字、數(shù)學(xué)字符、標(biāo)點(diǎn)符號及使用頻率特高的單漢字等。
      [0044] 返回圖2,在步驟230中,基于點(diǎn)擊展現(xiàn)比相應(yīng)地構(gòu)建轉(zhuǎn)義詞典和/或非轉(zhuǎn)義詞典。 具體而言,將點(diǎn)擊展現(xiàn)比低于第一閾值的Query-Title對中的對應(yīng)詞語及其上下文加入轉(zhuǎn) 義詞典中;和/或?qū)Ⅻc(diǎn)擊展現(xiàn)比高于第二閾值的Query-Title對中的對應(yīng)詞語及其上下文 加入非轉(zhuǎn)義詞典中。第一閾值可以與第二閾值相同或不同。
      [0045] 針對歷史Query-Title對中的每條Query-Title對執(zhí)行圖2所示的處理,累加所 有點(diǎn)擊展現(xiàn)比低于第一閾值的Query-Title對中的詞語以及合并對應(yīng)的上下文,可以建立 轉(zhuǎn)義詞典;累加所有點(diǎn)擊展現(xiàn)比高于第二閾值的Query-Title對中的詞語以及合并對應(yīng)的 上下文,可以建立非轉(zhuǎn)義詞典。由于上述轉(zhuǎn)義詞典和非轉(zhuǎn)義詞典的生成過程中,未對Query 中的詞語進(jìn)行擴(kuò)展,因此這里生成的轉(zhuǎn)義詞典也可以稱為原生轉(zhuǎn)義詞典,相應(yīng)的非轉(zhuǎn)義詞 典可以稱為原生非轉(zhuǎn)義詞典。
      [0046] 可選的或附加的,在一些實(shí)施例中,為了將統(tǒng)計(jì)的上下文推廣到更大的范圍,可以 通過對Query中的詞語的語義類別進(jìn)行泛化,來生成泛化轉(zhuǎn)義詞典和/或泛化非轉(zhuǎn)義詞典。
      [0047] 在這些實(shí)施例中,可以對Query中的詞語進(jìn)行語義類別標(biāo)注,從而通過詞語的語 義類別進(jìn)行泛化。例如,如果詞語為某明星A的名字,則可以標(biāo)注其語義類別為明星;如果 詞語為九寨溝,則可以標(biāo)注其語義類別為景點(diǎn)。通過語義類別標(biāo)注,可以將一些實(shí)體的詞語 用語義類別來代替。
      [0048]可以采用多種方式對詞語進(jìn)行語義類別標(biāo)注,例如,可以采用通用的最大熵分類 器對詞語進(jìn)行分類識別。語義類別例如可以包括但不限于以下類別:娛樂明星、體育明星、 科技人物、景點(diǎn)、影視、汽車、動(dòng)漫、動(dòng)物、植物,等等。
      [0049]接著,可以利用所標(biāo)注的語義類別來構(gòu)建與原生轉(zhuǎn)義詞典和原生非轉(zhuǎn)義詞典對應(yīng) 的泛化轉(zhuǎn)義詞典和泛化非轉(zhuǎn)義詞典。在一種實(shí)現(xiàn)中,可以簡單地將原生轉(zhuǎn)義詞典/原生非 轉(zhuǎn)義詞典中的原詞替換為泛化的語義類別,從而生成泛化轉(zhuǎn)義詞典/泛化非轉(zhuǎn)義詞典。
      [0050]前面描述了本申請實(shí)施例的點(diǎn)擊語義模型的構(gòu)建,下面將結(jié)合流程圖來描述基于 點(diǎn)擊語義模型改善搜索引擎的搜索結(jié)果的方案。
      [0051]圖4示出了根據(jù)本申請一個(gè)實(shí)施例的搜索引擎的實(shí)現(xiàn)方法的示例性流程圖。圖4 所示的方法可以由搜索引擎所在的服務(wù)器(例如圖1的服務(wù)器104)執(zhí)行。
      [0052] 如圖4所示,在步驟410中,接收用戶輸入的查詢請求。
      [0053]用戶可以通過各種終端設(shè)備(例如圖1所示的終端設(shè)備101、102)進(jìn)行搜索查詢。 這些終端設(shè)備可以向用戶呈現(xiàn)用戶界面(例如,瀏覽器界面)以輸入查詢請求。用戶可以 經(jīng)由各種輸入工具,例如觸控屏、手寫筆、鍵盤、麥克風(fēng)等來輸入查詢請求。查詢請求可以是 文本查詢、語音查詢或其他類型的查詢。如果查詢請求為非文本查詢,則可以采用各種適當(dāng) 的技術(shù),諸如光學(xué)字符識別OCR、語音識別等,將文本查詢轉(zhuǎn)換為文本查詢。繼而,終端設(shè)備 可以將原始接收的或者經(jīng)轉(zhuǎn)換的查詢請求發(fā)送給搜索服務(wù)器(例如,圖1的服務(wù)器104)。
      [0054] 接著,在步驟420中,搜索與所接收的查詢請求匹配的候選結(jié)果。
      [0055]可以采取多種方式來搜索與查詢請求匹配的候選結(jié)果。在一些實(shí)現(xiàn)中,可以使 用文本匹配,例如詞匹配的方法來搜索與查詢請求匹配的候選結(jié)果。詞匹配方法的一些 常用算法例如可以包括,BM25(BestMatch,最佳匹配)算法、proximity(Termproximity scoring,詞近鄰得分)算法等。通過詞匹配算法計(jì)算所搜索文檔與查詢請求的匹配程度, 繼而可以基于匹配程度給出與查詢請求匹配的候選結(jié)果。上述搜索方法可以使用目前已知 的各種算法來實(shí)現(xiàn),此處不再贅述。
      [0056] 繼而,在步驟430中,基于點(diǎn)擊轉(zhuǎn)義模型確定查詢請求與每個(gè)候選結(jié)果之間的語 義相關(guān)度。
      [0057]在實(shí)際檢索中,對與查詢請求匹配的候選結(jié)果,通常選取一定數(shù)量的候選結(jié)果進(jìn) 行細(xì)化處理。例如,可以選取2000個(gè)候選結(jié)果,分析這些結(jié)果中每個(gè)候選結(jié)果與查詢請求 的語義相關(guān)度。
      [0058]如前面結(jié)合圖2和圖3所描述的,點(diǎn)擊轉(zhuǎn)義模型通過學(xué)習(xí)查詢請求與搜索結(jié)果Query-Title對的點(diǎn)擊數(shù),同時(shí)考慮轉(zhuǎn)義發(fā)生的上下文來構(gòu)建。具體而言,點(diǎn)擊轉(zhuǎn)義模型可 以包括轉(zhuǎn)義詞典和/或非轉(zhuǎn)義詞典,其中轉(zhuǎn)義詞典包括確定發(fā)生轉(zhuǎn)義的搜索結(jié)果的對應(yīng)詞 語及其上下文,非轉(zhuǎn)義詞典包括確定未發(fā)生轉(zhuǎn)義的搜索結(jié)果的對應(yīng)詞語及其上下文。
      [0059]因此,基于點(diǎn)擊轉(zhuǎn)義模型確定的語義相關(guān)度考慮了Query-Title對的點(diǎn)擊數(shù),還 考慮了轉(zhuǎn)義發(fā)生的上下文,從而所確定的語義相關(guān)度可以準(zhǔn)確地表示候選結(jié)果相對于查詢 請求的轉(zhuǎn)義概率?;邳c(diǎn)擊轉(zhuǎn)義模型確定語義相關(guān)度的詳細(xì)方法將在下文描述。
      [0060] 最后,在步驟440中,根據(jù)語義相關(guān)度對候選結(jié)果進(jìn)行排序。
      [0061] 本步驟中,可以按照每個(gè)候選結(jié)果與查詢請求的語義相關(guān)度由高至低的順序,對 搜索得到的候選結(jié)果進(jìn)行排序和顯示,使得顯示在前的始終為與查詢請求較相關(guān)的搜索結(jié) 果,從而使得用戶可以從顯示的搜索結(jié)果中快速獲得更想要的關(guān)聯(lián)文檔,滿足自己的搜索 需求,提高搜索效率??梢岳斫獾氖?,本步驟也可以根據(jù)需要采用其他順序進(jìn)行排序處理。
      [0062] 圖5示出了根據(jù)本申請實(shí)施例的基于點(diǎn)擊轉(zhuǎn)義模型確定查詢請求與候選結(jié)果之 間的語義相關(guān)度的方法的示例性流程圖。也即,圖5示出了圖4中的步驟430的一個(gè)示例 性實(shí)現(xiàn)。
      [0063] 如圖5所示,在步驟510中,確定查詢請求與候選結(jié)果的一個(gè)或多個(gè)語句之間的語 義相關(guān)度。
      [0064] 候選結(jié)果也即各種網(wǎng)頁信息,其可以使用文檔(document)來表示。通常而言,文 檔由多個(gè)語句組成,其從結(jié)構(gòu)上劃分例如可以包括標(biāo)題(Title)、錨文本(Anchortext)和 正文等。標(biāo)題簡單、精煉地描述了文檔的主題。錨文本又稱錨文本鏈接,是鏈接的一種形式, 和超鏈接類似,把關(guān)鍵詞做一個(gè)鏈接,指向別的網(wǎng)頁,這種形式的鏈接就叫作錨文本。錨文 本實(shí)際上是建立了文本關(guān)鍵詞與URL鏈接的關(guān)系。正文通常會(huì)包括較多內(nèi)容。
      [0065] 由于候選結(jié)果通常具有較多語句,因此,可以分別確定查詢請求與候選結(jié)果的一 個(gè)或多個(gè)語句之間的語義相關(guān)度。這些語句例如可以選自:標(biāo)題、錨文本、正文中的核心句 子等。正文中的核心句子可以采取現(xiàn)有技術(shù)中已知或未來開發(fā)的多種方式來確定。在一種 實(shí)現(xiàn)中,可以認(rèn)為正文中的首句為其核心句子。
      [0066] 接著,在步驟520中,根據(jù)所確定的查詢請求與候選結(jié)果的一個(gè)或多個(gè)語句之間 的語義相關(guān)度來確定查詢請求與該候選結(jié)果之間的語義相關(guān)度。
      [0067] 可以通過多種方式來確定查詢請求與候選結(jié)果之間的最終語義相關(guān)度。在一種實(shí) 現(xiàn)中,可以從所確定的多個(gè)語義相關(guān)度中選擇其最大值作為查詢請求與該候選結(jié)果之間的 語義相關(guān)度。在另一種實(shí)現(xiàn)中,可以將所確定的多個(gè)語義相關(guān)度的平均值作為查詢請求與 該候選結(jié)果之間的語義相關(guān)度。本領(lǐng)域技術(shù)人員可以理解,也可以使用其他函數(shù)關(guān)系、基于
      當(dāng)前第2頁1 2 3 4 5 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1