国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      自動地生成訓(xùn)練數(shù)據(jù)的制作方法

      文檔序號:6427471閱讀:238來源:國知局
      專利名稱:自動地生成訓(xùn)練數(shù)據(jù)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及搜索技術(shù),尤其涉及自動生成訓(xùn)練數(shù)據(jù)。
      背景技術(shù)
      Web搜索已經(jīng)變得用于查找信息的普通技術(shù)。流行的搜索引擎允許用戶根據(jù)由用戶在由搜索引擎所提供的用戶界面(例如,在客戶端設(shè)備上顯示的搜索引擎網(wǎng)頁)中輸入的搜索項(xiàng)來執(zhí)行廣泛的基于web的搜索。廣泛的搜索可以返回可包括來自各種域(其中, 域是指特定類別的信息)的結(jié)果。在某些情況下,用戶可能希望搜索特定域所特定的信息。例如,用戶可以試圖執(zhí)行音樂搜索或執(zhí)行產(chǎn)品搜索。這樣的搜索(被稱為“域特定搜索”)是其中當(dāng)執(zhí)行搜索時(例如,搜索特定歌曲或記錄歌星,搜索特定產(chǎn)品等等)用戶在心中具有對于來自特定域的信息的特定查詢意圖??梢酝ㄟ^垂直搜索服務(wù)來提供域特定搜索,垂直搜索服務(wù)可以是由通用搜索引擎所提供的,或者可替換地,由垂直搜索引擎所提供的服務(wù)。垂直搜索服務(wù)提供來自特定域的搜索結(jié)果,并通常不從不與特定域相關(guān)的域返回搜索結(jié)果。一種特殊類型的垂直搜索服務(wù)的一個示例此處被稱為即時應(yīng)答服務(wù)。即時應(yīng)答是指作為對在主要搜索結(jié)果網(wǎng)頁上向用戶提供的搜索查詢的應(yīng)答或響應(yīng)的搜索結(jié)果。即,響應(yīng)于查詢,在搜索結(jié)果頁面向用戶呈現(xiàn)域特定內(nèi)容,而用戶可能需要以另外的方式選擇搜索結(jié)果網(wǎng)頁內(nèi)的鏈接以導(dǎo)航到另一個網(wǎng)頁,此后,進(jìn)一步搜索所希望的信息。例如,假設(shè)用戶搜索查詢是“西雅圖的天氣”。搜索結(jié)果網(wǎng)頁內(nèi)的算法結(jié)果可包括到weather, com的URL。在這樣的情況下,用戶可以選擇URL,轉(zhuǎn)移到該網(wǎng)頁,此后,輸入 kattle(西雅圖)以獲取西雅圖的天氣。通過比較,在搜索結(jié)果網(wǎng)頁上呈現(xiàn)的即時應(yīng)答包含西雅圖的天氣,以便用戶不需要導(dǎo)航到另一個網(wǎng)頁以查找天氣。可以理解,即時應(yīng)答可以涉及任何主題,包括,例如,天氣、新聞、地區(qū)碼、貨幣兌換、詞典術(shù)語、百科全書條目、金融、 航班、健康、假日、日期、賓館、本地列表、數(shù)學(xué)、電影、音樂、購物、體育、包裹跟蹤等等。即時應(yīng)答可以采取圖標(biāo)、按鈕、鏈接、文本、視頻、圖像、照片、音頻、其組合等等形式。查詢意圖分類器可以被用來確定由搜索引擎接收到的查詢是否應(yīng)該觸發(fā)諸如,例如,即時應(yīng)答服務(wù)的垂直搜索服務(wù)。例如,詞典一定義意圖分類器可以確定接收到的查詢是否可能與詞典一定義搜索相關(guān)聯(lián)。如果接收到的查詢被分類為與詞典一定義搜索關(guān)聯(lián),那么,可以調(diào)用對應(yīng)的垂直搜索服務(wù)以標(biāo)識詞典一定義搜索域中的搜索結(jié)果(可包括,例如, 涉及詞典一定義搜索的網(wǎng)站)。在一個具體示例中,詞典一定義意圖分類器可以將包含搜索階段“定義保真度(fidelity),,的查詢分類為如詞典一定義意圖搜索那樣正的,因此,該查詢將觸發(fā)對包括“保真度(fidelity)”的單詞和詞組的詞典定義的垂直搜索。另一方面,詞典一定義意圖分類器可能將包含搜索短語“Fidelity”(這是一家著名的金融機(jī)構(gòu)的名稱) 的查詢分類為對于詞典一定義意圖搜索是負(fù)的(或不是正的),因此,將不會觸發(fā)垂直搜索服務(wù)。由于“Fidelity”是一家著名的公司的名稱,“保真度(fidelity)”在搜索短語中的單獨(dú)存在不一定應(yīng)該觸發(fā)詞典一定義相關(guān)的域特定搜索或即時應(yīng)答。
      查詢一意圖分類器的開發(fā)人員所面臨的挑戰(zhàn)是,典型的訓(xùn)練技術(shù)(用于訓(xùn)練查詢一意圖分類器)必須配備有足夠的訓(xùn)練數(shù)據(jù)量。在某些情況下,查詢一意圖分類器是使用被標(biāo)記為對于查詢意圖是正的或者負(fù)的的訓(xùn)練數(shù)據(jù)來訓(xùn)練的,而在其他情況下,查詢一意圖分類器只是使用被標(biāo)識為正的訓(xùn)練數(shù)據(jù)的訓(xùn)練數(shù)據(jù)來訓(xùn)練的。用不夠的訓(xùn)練數(shù)據(jù)來構(gòu)建分類器會導(dǎo)致不準(zhǔn)確的分類器。傳統(tǒng)上,標(biāo)識給定查詢是否是特定域的一部分(諸如,例如,音樂、電影、職業(yè)、詞典定義等等)的機(jī)器一學(xué)習(xí)二元查詢分類器,以及將一個查詢分段為幾個部分的集合的實(shí)體提取器,在大規(guī)模構(gòu)建方面是昂貴的,因?yàn)槊恳粋€都要求數(shù)以萬計正的訓(xùn)練一查詢樣本。 這些樣本歷史上是由鑒定人標(biāo)記的,鑒定人通常每天只產(chǎn)生幾百個樣本,并導(dǎo)致大量的管理費(fèi)。

      發(fā)明內(nèi)容
      提供本發(fā)明內(nèi)容是為了以簡化的形式介紹將在以下具體實(shí)施方式
      中進(jìn)一步描述的一些概念。本發(fā)明內(nèi)容不旨在標(biāo)識所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于確定所要求保護(hù)的主題的范圍。本發(fā)明的各實(shí)施方式促進(jìn)分類器和實(shí)體提取器正的訓(xùn)練數(shù)據(jù)的自動生成。通過實(shí)現(xiàn)本發(fā)明的各實(shí)施方式的各方面,搜索服務(wù)可以大規(guī)模地生成正的域內(nèi)訓(xùn)練數(shù)據(jù),允許以足夠高的速率創(chuàng)建高質(zhì)量的分類器以跟上搜索引擎,例如,連續(xù)地擴(kuò)展為以跨多個域構(gòu)建豐富的體驗(yàn)的分類器。此處所描述的方法可以完全自動化,從而不需要手動標(biāo)記初始查詢 (或標(biāo)記任何類型)。另外,此處所描述的算法可以有效地在任意數(shù)量的服務(wù)器、機(jī)器等等上運(yùn)行。在本發(fā)明的各實(shí)施方式的某些方面,分類器是通過接收將查詢與由查詢所標(biāo)識的統(tǒng)一資源定位符(URL)進(jìn)行關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)來構(gòu)建的。選擇種子(例如,初始)URL的集合,并基于URL,標(biāo)識包括一個或多個子域的域。然后,檢查數(shù)據(jù)結(jié)構(gòu),以標(biāo)識數(shù)據(jù)結(jié)構(gòu)中的具有匹配的子域的每一個URL。將與每一個標(biāo)識的URL相關(guān)聯(lián)的全部查詢添加到潛在的訓(xùn)練數(shù)據(jù)的集合中,從該集合中選擇滿足某一準(zhǔn)則的查詢。然后,使用所選查詢作為訓(xùn)練分類器的訓(xùn)練數(shù)據(jù)。在本發(fā)明的各實(shí)施方式的某些方面,實(shí)體提取器是通過接收將查詢與由查詢所標(biāo)識的統(tǒng)一資源定位符(URL)進(jìn)行關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)來構(gòu)建的。選擇種子(例如,初始)URL的集合,基于URL,標(biāo)識包括一個或多個實(shí)體(并可包括排列、朝向等等)的實(shí)體模式。然后, 檢查數(shù)據(jù)結(jié)構(gòu),以標(biāo)識數(shù)據(jù)結(jié)構(gòu)中的具有實(shí)體模式的每一個URL。將與每一個標(biāo)識的URL相關(guān)聯(lián)的全部查詢添加到潛在的訓(xùn)練數(shù)據(jù)的集合中,從該集合中選擇滿足某一準(zhǔn)則的查詢。 然后,使用所選查詢作為訓(xùn)練實(shí)體提取器的訓(xùn)練數(shù)據(jù)。對于上下文,假設(shè)某一 URL 模式(例如,www. contoso. com/music/artist/)被標(biāo)識為特定域的一部分(例如,音樂),那么,在某些實(shí)施方式中,可以假設(shè),帶有到該同一模式的URL的點(diǎn)擊的大多數(shù)查詢還具有對于同一個域的意圖(例如,{coldplay albums}導(dǎo)致在www. contoso. com/music/artist/coldplay/albums. jhtml 上的點(diǎn)擊,如此,{coldplay albums}可能是與音樂相關(guān)的)。此外,還以這樣的方式來構(gòu)建某些這樣的URL,以便可以從 URL本身中提取相關(guān)的實(shí)體名稱,這可以促進(jìn)將相同實(shí)體名稱標(biāo)記為查詢的組件(在上面的相同URL示例中,跟隨"/artist/"后面的URL段是實(shí)際歌星名稱,“Coldplay”,然后, 可以使用該名稱來標(biāo)記到示例查詢中的第一項(xiàng))。此處所描述的技術(shù)提供了用于從點(diǎn)擊數(shù)據(jù)生成大量的訓(xùn)練查詢的可縮放的解決方案。例如,大型搜索引擎可以具有點(diǎn)擊圖,該點(diǎn)擊圖包含,例如,與從比方說2009年6月到當(dāng)前的每一個查詢相關(guān)聯(lián)的由每個用戶所發(fā)出的每個查詢,以及每個用戶對每個URL的點(diǎn)擊。一旦標(biāo)識了幾個URL模式,可以將它們自動地針對點(diǎn)擊圖運(yùn)行,并應(yīng)用某一閾值。此過程的輸出是正的查詢樣本的足夠大的集合,用于現(xiàn)有的機(jī)器學(xué)習(xí)算法中,以創(chuàng)建二進(jìn)制分類器和實(shí)體提取器分類器模型。這些模型可以在運(yùn)行時被托管,并可以被用來分類和分段用戶查詢。將被視為具有對于某一域(例如,音樂)的意圖的那些查詢分段為它們的構(gòu)成部分,并饋送給域的即時應(yīng)答服務(wù),以便檢索域內(nèi)的內(nèi)容(例如,一個歌星的最流行的歌曲,包括歌詞、歌曲播放鏈接、等等)。從下面的描述、附圖、以及從權(quán)利要求書,其他或替換的特征將變得顯而易見。


      下面將參考附圖詳細(xì)描述本發(fā)明的各實(shí)施方式,在附圖中圖1是適用于實(shí)現(xiàn)本發(fā)明的各實(shí)施方式的示例性計算設(shè)備的框圖;圖2是適用于實(shí)現(xiàn)本發(fā)明的各實(shí)施方式的示例性網(wǎng)絡(luò)環(huán)境的框圖;圖3描繪了根據(jù)本發(fā)明的各實(shí)施方式的點(diǎn)擊圖的說明性顯示;圖4是示出了根據(jù)本發(fā)明的各實(shí)施方式的增強(qiáng)即時應(yīng)答服務(wù)的示例性方法的流程圖;圖5是示出了根據(jù)本發(fā)明的各實(shí)施方式的使用分類器和實(shí)體提取器來觸發(fā)即時應(yīng)答服務(wù)的示例性方法的流程圖;圖6是示出了根據(jù)本發(fā)明的各實(shí)施方式的相對于內(nèi)容域來標(biāo)識點(diǎn)擊數(shù)據(jù)中的查詢和統(tǒng)一資源定位符(URL)之間的正關(guān)聯(lián)的示例性方法的流程圖;圖7是示出了根據(jù)本發(fā)明的各實(shí)施方式的生成正的分類器訓(xùn)練數(shù)據(jù)的示例性方法的流程圖;以及圖8是示出了根據(jù)本發(fā)明的各實(shí)施方式的從數(shù)據(jù)結(jié)構(gòu)生成實(shí)體一提取器訓(xùn)練數(shù)據(jù)的示例性方法的流程圖。
      具體實(shí)施例方式此處用具體細(xì)節(jié)描述此處所公開的本發(fā)明的各實(shí)施方式的主題以滿足法定要求。 然而,描述本身并不旨在限制本專利的范圍。相反,發(fā)明人設(shè)想,所要求保護(hù)的主題還可結(jié)合其他當(dāng)前或未來技術(shù)按照其他方式來具體化,以包括不同的步驟或類似于本文中所描述的步驟的步驟組合。此外,雖然此處可以使用術(shù)語“步驟”和/或“框”來指示所使用的方法的不同元素,但是除非而且僅當(dāng)明確描述了各個步驟的順序時,這些術(shù)語不應(yīng)該被解釋為意味著此處所公開的各步驟之間的任何特定順序。此處所描述的本發(fā)明的各實(shí)施方式包括計算設(shè)備和計算機(jī)程序產(chǎn)品(例如,包括軟件的產(chǎn)品),用于促進(jìn)自動生成訓(xùn)練數(shù)據(jù),用于訓(xùn)練查詢一意圖分類器和實(shí)體提取器。在第一說明性實(shí)施方式中,計算機(jī)可執(zhí)行指令集合提供相對于內(nèi)容域標(biāo)識點(diǎn)擊數(shù)據(jù)中的查詢和統(tǒng)一資源定位符(URL)之間的正關(guān)聯(lián)的示例性方法。在各實(shí)施方式中,說明性方法的各方面包括接收將查詢與由查詢所標(biāo)識的URL相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu),并標(biāo)識與內(nèi)容域相關(guān)聯(lián)的第一 URL模式。在各實(shí)施方式中,說明性方法的各方面還包括確定點(diǎn)擊圖中的第一 URL的至少一部分與第一 URL模式相匹配,以及標(biāo)識與第一 URL相關(guān)聯(lián)的第一查詢。該方法的各實(shí)施方式包括確定第一查詢和第一 URL相對于內(nèi)容域具有正關(guān)聯(lián)。在第二說明性實(shí)施方式中,計算機(jī)可執(zhí)行指令集合提供生成正的分類器訓(xùn)練數(shù)據(jù)的示例性方法。該方法的各實(shí)施方式包括,例如,接收將查詢與由查詢所標(biāo)識的URL相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)。標(biāo)識包括URL域的URL模式,還標(biāo)識數(shù)據(jù)結(jié)構(gòu)中的匹配的URL以及它們的對應(yīng)的查詢。說明性方法的各實(shí)施方式還包括,將與匹配的URL相連接的每一個查詢添加到潛在訓(xùn)練查詢的集合中;以及從潛在訓(xùn)練查詢的集合中選擇訓(xùn)練查詢的集合。在第三說明性實(shí)施方式中,計算機(jī)可執(zhí)行指令集合提供用于從存儲了點(diǎn)擊數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)生成實(shí)體一提取器訓(xùn)練數(shù)據(jù),其中,該數(shù)據(jù)結(jié)構(gòu)包括捕捉到的搜索查詢和對應(yīng)于選定的查詢結(jié)果的統(tǒng)一資源定位符(URL)之間的關(guān)聯(lián)。說明性方法的各實(shí)施方式包括選定種子URL,并從該種子URL提取第一實(shí)體模式,該第一實(shí)體模式包括第一實(shí)體?;谒崛〉膶?shí)體模式,標(biāo)識數(shù)據(jù)結(jié)構(gòu)中的匹配的URL。在各實(shí)施方式中,說明性方法的各方面包括將與匹配的URL相連接的每一個查詢添加到潛在訓(xùn)練查詢的集合中;以及從潛在訓(xùn)練查詢的集合中選擇訓(xùn)練查詢的集合。本發(fā)明的各實(shí)施方式的各個方面可以在包括計算機(jī)代碼或機(jī)器可使用指令(包括由計算機(jī)或諸如個人數(shù)據(jù)助理或其他手持式設(shè)備之類的其他機(jī)器執(zhí)行的諸如程序模塊之類的計算機(jī)可執(zhí)行指令)的計算機(jī)程序產(chǎn)品的一般上下文中來描述。一般而言,包括例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等的程序模塊是指執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的代碼。本發(fā)明的各實(shí)施方式可以在各種系統(tǒng)配置中實(shí)施,包括專用服務(wù)器、通用計算機(jī)、膝上型計算機(jī)、更專用計算設(shè)備等等。本發(fā)明也可以在其中任務(wù)由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行的分布式計算環(huán)境中實(shí)施。計算機(jī)可讀介質(zhì)包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì),并設(shè)想可由數(shù)據(jù)庫、處理器以及各種其他聯(lián)網(wǎng)的計算設(shè)備讀取的介質(zhì)。作為示例而非限制,計算機(jī)可讀介質(zhì)包括以任何方法或技術(shù)實(shí)現(xiàn)的用于存儲信息的介質(zhì)。存儲的信息的示例包括計算機(jī)可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊,及其他數(shù)據(jù)表示形式。介質(zhì)示例包括,但不僅限于, 信息傳送介質(zhì)、RAM、ROM、EEPR0M、閃存或其他存儲技術(shù),CD-ROM、數(shù)字多功能盤(DVD)、全息介質(zhì)或其他光盤存儲、磁帶盒、磁帶、磁盤存儲器,及其他磁存儲設(shè)備。這些技術(shù)可以臨時或永久地存儲數(shù)據(jù)。下面將描述其中可以實(shí)現(xiàn)本發(fā)明的各個方面的示例性操作環(huán)境,以便為本發(fā)明的各個方面提供一般上下文。首先具體參考圖1,示出了用于實(shí)現(xiàn)本發(fā)明的各實(shí)施方式的示例性操作環(huán)境,并將其概括地指定為計算設(shè)備100。計算設(shè)備100只是合適的計算環(huán)境的一個示例,而非旨在對本發(fā)明的使用范圍或功能提出任何限制。計算設(shè)備100也不應(yīng)被解釋成對于所示出的任一組件或其組合有任何依賴或要求。計算設(shè)備100包括直接地或間接地耦合下面的設(shè)備的總線110 存儲器112、一個或多個處理器114、一個或多個呈現(xiàn)組件116、輸入/輸出端口 118、I/O組件120以及說明性電源122??偩€110表示一個或多個總線(諸如地址總線、數(shù)據(jù)總線或其組合)。雖然為了清楚起見利用線條示出了圖1的各塊,但是,實(shí)際上,描述各種組件不如此清楚,只是個比喻,更準(zhǔn)確地,線條將是灰色而模糊的。例如,可以將諸如顯示設(shè)備之類的呈現(xiàn)組件視為 I/O組件。同樣,處理器具有存儲器。我們認(rèn)識到這是本領(lǐng)域的特性,并重申,圖1的圖示只是例示可以結(jié)合本發(fā)明的一個或多個實(shí)施例來使用的示例性計算設(shè)備。在諸如“工作站”、 “服務(wù)器”、“膝上型計算機(jī)”、“手持式設(shè)備”等等之類的類別之間不進(jìn)行區(qū)別,因?yàn)樗羞@些都在圖1的范圍內(nèi)并都被稱作“計算設(shè)備”。存儲器112包括存儲在易失性和/或非易失性存儲器中的計算機(jī)可執(zhí)行指令115。 存儲器可以是可移動的,不可移動的,或兩者的組合。示例性硬件設(shè)備包括固態(tài)存儲器、硬盤驅(qū)動器、光盤驅(qū)動器等等。計算設(shè)備100包括與從諸如存儲器112或I/O組件120之類的各種實(shí)體讀取數(shù)據(jù)的系統(tǒng)總線110耦合的一個或多個處理器114。在一個實(shí)施方式中,一個或多個處理器114執(zhí)行計算機(jī)可執(zhí)行指令115,以執(zhí)行由計算機(jī)可執(zhí)行指令115所定義的各種任務(wù)和方法。呈現(xiàn)組件116耦合到系統(tǒng)總線110并向用戶或其他設(shè)備呈現(xiàn)數(shù)據(jù)指示。 示例性呈現(xiàn)組件116包括顯示設(shè)備、揚(yáng)聲器、打印組件等等。I/O端口 118可允許計算設(shè)備100在邏輯上耦合到包括I/O組件120在內(nèi)的其他設(shè)備,其中一些可以是內(nèi)置的。說明性組件包括麥克風(fēng)、游戲桿、游戲操縱桿、碟形衛(wèi)星天線、掃描儀、打印機(jī)、無線設(shè)備、鍵盤、筆、語音輸人設(shè)備、觸摸輸人設(shè)備、觸摸屏設(shè)備、交互式顯示設(shè)備,或鼠標(biāo)。I/O組件120還可以包括通信連接121,這些通信連接121可以促進(jìn)可通信地將計算設(shè)備100連接到諸如,例如,其他計算設(shè)備、服務(wù)器、路由器等等之類的遠(yuǎn)程設(shè)備。根據(jù)一些實(shí)施方式,自動地生成用于訓(xùn)練查詢一意圖分類器的訓(xùn)練數(shù)據(jù)的技術(shù)或機(jī)制包括接收將查詢與由查詢所標(biāo)識的URL進(jìn)行關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu),并基于該數(shù)據(jù)結(jié)構(gòu),產(chǎn)生用于訓(xùn)練查詢一意圖分類器的訓(xùn)練數(shù)據(jù)。查詢一意圖分類器是用于將查詢指定到表示對應(yīng)的查詢是否與用戶從特定域搜索信息的特定意圖(例如,對單詞的定義執(zhí)行搜索的意圖,對特定產(chǎn)品執(zhí)行搜索的意圖,搜索音樂的意圖,搜索電影的意圖等等)相關(guān)聯(lián)的類的分類器。這樣的類被稱為“查詢一意圖類”?!坝颉?或者,可另選地,“查詢一意圖域”)是指用戶希望在其中進(jìn)行搜索的特定類別的信息。相比之下,如此處所使用的,“URL域”和“URL子域”分別是指因特網(wǎng)域和子域,一般是由URL的一部分所定義的。應(yīng)該理解,在某些情況下,URL域和URL子域也可以被表征為查詢一意圖域(或者甚至多個域)的子域,如果查詢一意圖是特定URL域(諸如,例如, 流行的零售網(wǎng)站域)所特定的。術(shù)語“查詢”是指任何類型的請求,其中,包含一個或多個搜索項(xiàng),這些搜索項(xiàng)可以被提交到一個用于基于查詢中所包含的搜索項(xiàng)來標(biāo)識搜索結(jié)果的搜索引擎(或多個搜索引擎)。由數(shù)據(jù)結(jié)構(gòu)中的查詢所標(biāo)識的“項(xiàng)”是響應(yīng)于查詢所產(chǎn)生的搜索結(jié)果的表示。例如,項(xiàng)可以是統(tǒng)一資源定位符(URL)或其他信息,它們標(biāo)識包含搜索結(jié)果(例如,網(wǎng)頁)的地址或位置(例如,網(wǎng)站)的其他標(biāo)識符。在一個實(shí)施方式中,將查詢與由查詢所標(biāo)識的項(xiàng)進(jìn)行關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)可以是點(diǎn)擊圖,該點(diǎn)擊圖基于點(diǎn)進(jìn)數(shù)據(jù)來將查詢與URL進(jìn)行關(guān)聯(lián)。“點(diǎn)進(jìn)數(shù)據(jù)”(或更簡單地,“點(diǎn)擊數(shù)據(jù)”)是指表示由一個或多個用戶在由一個或多個查詢所標(biāo)識的搜索結(jié)果中作出的選擇的數(shù)據(jù)。點(diǎn)擊圖包含從表示查詢的節(jié)點(diǎn)到表示URL的節(jié)點(diǎn)的鏈接(邊緣),其中,特定查詢和特定URL之間的每一個鏈接表示用戶作出選擇(例如,在web瀏覽器中點(diǎn)擊)以從由特定查詢所標(biāo)識的搜索結(jié)果導(dǎo)航到特定URL的至少一次發(fā)生。點(diǎn)擊圖也可以包括不鏈接的某些查詢和URL,意味著,在這樣的查詢和URL之間關(guān)聯(lián)沒有被標(biāo)識。在隨后的討論中,將參考點(diǎn)擊圖,點(diǎn)擊圖包含查詢和URL的表示,至少一些查詢和 URL是(通過鏈接連接)相關(guān)聯(lián)的。然而,值得注意的是,可以對于除點(diǎn)擊圖以外的其他類型的數(shù)據(jù)結(jié)構(gòu)應(yīng)用相同或類似的技術(shù)。在各實(shí)施方式中,將查詢與URL進(jìn)行關(guān)聯(lián)的點(diǎn)擊圖首先包括相對于查詢意圖類未被(諸如由一個或多個人)標(biāo)記的大量的查詢。在某些實(shí)施方式中,點(diǎn)擊圖包括某些被標(biāo)記的查詢。一般而言,查詢意圖類可以是二進(jìn)制類,包括相對于特定查詢意圖的正的類和負(fù)的類。用“正的類”標(biāo)記的查詢表示查詢相對于特定查詢意圖是正的,而用“負(fù)的類”標(biāo)記的查詢意味著,查詢相對于查詢意圖是負(fù)的。除相對于查詢意圖類被標(biāo)記的查詢之外,點(diǎn)擊圖首先還可以包含相對于查詢意圖類未被標(biāo)記的相對大量的查詢。未作標(biāo)記的查詢是那些未被指定到查詢意圖類中的任何一個的查詢。現(xiàn)在轉(zhuǎn)向圖2,示出了適用于實(shí)現(xiàn)本發(fā)明的各實(shí)施方式的示例性網(wǎng)絡(luò)環(huán)境200的框圖。網(wǎng)絡(luò)環(huán)境200包括用戶設(shè)備210、網(wǎng)絡(luò)212、搜索服務(wù)214、索引216,以及即時應(yīng)答服務(wù)218。用戶設(shè)備210通過網(wǎng)絡(luò)212與搜索服務(wù)214和即時應(yīng)答服務(wù)218進(jìn)行通信,網(wǎng)絡(luò) 212可包括諸如,例如,局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、因特網(wǎng)、蜂窩網(wǎng)絡(luò)、對等(P2P)網(wǎng)絡(luò)、移動網(wǎng)絡(luò)之類的任意數(shù)量的網(wǎng)絡(luò),或網(wǎng)絡(luò)的組合。圖2所示出的示例性網(wǎng)絡(luò)環(huán)境200是一種合適的網(wǎng)絡(luò)環(huán)境200的示例,而非旨在對在本文檔中所公開的本發(fā)明的各實(shí)施方式的使用范圍或功能提出任何限制。該示例性網(wǎng)絡(luò)環(huán)境200也不應(yīng)被解釋成對于此處所示出的任一組件或其組合有任何依賴或要求。用戶設(shè)備210可以是能夠允許用戶向搜索服務(wù)214提交搜索查詢的任何類型的計算設(shè)備,并響應(yīng)于搜索查詢,從搜索服務(wù)214接收搜索結(jié)果網(wǎng)頁。例如,在一個實(shí)施方式中, 用戶設(shè)備210可以是諸如計算設(shè)備100之類的計算設(shè)備。在各實(shí)施方式中,用戶設(shè)備210 可以是個人計算機(jī)(PC)、膝上型計算機(jī)、工作站、移動計算設(shè)備、PDA、蜂窩電話等等。搜索服務(wù)214,以及圖2中所示出的其他組件216、218中的任何或全部可以被實(shí)現(xiàn)為服務(wù)器系統(tǒng)、程序模塊、虛擬機(jī)、一個服務(wù)器或多個服務(wù)器、網(wǎng)絡(luò)的組件、等等。在一個實(shí)施方式中,例如,組件214、216,以及218中的都被實(shí)現(xiàn)為單獨(dú)的服務(wù)器。在另一個實(shí)施方式中,組件214、216,以及218中的全部都在在單一服務(wù)器上或一排服務(wù)器上實(shí)現(xiàn)。在一個實(shí)施方式中,用戶設(shè)備210是單獨(dú)的,并不同于圖2中所示出的搜索服務(wù) 214和/或其他組件。在另一個實(shí)施方式中,用戶設(shè)備210與組件214、216,以及218中的一個或多個集成。為清楚起見,我們應(yīng)該描述其中用戶設(shè)備210,以及組件214、216,以及218 中的每一個都是單獨(dú)的,盡管可以理解,這可能不是本發(fā)明構(gòu)想的各種配置中的情況。如圖2所示,用戶設(shè)備210與搜索服務(wù)214進(jìn)行通信。搜索服務(wù)214接收搜索查詢,即,由用戶經(jīng)由用戶設(shè)備210提交的搜索請求。從用戶接收到的搜索查詢可包括由用戶手動地或口頭地輸入的搜索查詢,向用戶建議并由用戶選定的查詢,以及由搜索服務(wù)214 接收到的由于某種原因被用戶批準(zhǔn)的任何其他搜索查詢。搜索服務(wù)214可以是,或包括,例如,搜索引擎、爬行器等等,并可以與索引216進(jìn)行交互,以執(zhí)行搜索。在某些實(shí)施方式中, 搜索服務(wù)214被配置成使用通過用戶設(shè)備210提交的查詢來執(zhí)行搜索。
      在各實(shí)施方式中,搜索服務(wù)214可以提供一個用戶界面,用于促進(jìn)與用戶設(shè)備210 進(jìn)行通信的用戶的搜索體驗(yàn)。在一個實(shí)施方式中,搜索服務(wù)214監(jiān)視搜索活動,并可以產(chǎn)生表示搜索活動、先前提交的查詢、獲取的搜索結(jié)果等等的一個或多個記錄或日志??梢砸栽S多不同的方式來利用這些服務(wù)來改進(jìn)搜索體驗(yàn)。如在圖2中進(jìn)一步示出的,搜索服務(wù)214 與即時應(yīng)答服務(wù)218進(jìn)行通信。在各實(shí)施方式中,即時應(yīng)答服務(wù)218可以是任何類型的垂直一搜索服務(wù),包括,但不僅限于,響應(yīng)于查詢來提供即時應(yīng)答的服務(wù)。如圖2所示,搜索服務(wù)214包括搜索組件220、日志組件222、點(diǎn)擊日志224、訓(xùn)練數(shù)據(jù)生成器226、圖生成器228、點(diǎn)擊圖230,以及模型生成器232。圖2所示出的示例性搜索服務(wù)214是一種配置的示例,而非旨在對在本文檔中所公開的本發(fā)明的各實(shí)施方式的使用范圍或功能提出任何限制。該示例性搜索服務(wù)214也不應(yīng)被解釋成對于此處所示出的任一組件或其組合有任何依賴或要求。搜索組件220被配置成接收已提交的查詢,并使用該查詢來執(zhí)行搜索。在一個實(shí)施方式中,在發(fā)現(xiàn)滿足提交的查詢的查詢結(jié)果時,搜索組件220通過由搜索服務(wù)214維護(hù)的圖形界面,向用戶設(shè)備210返回查詢結(jié)果。查詢結(jié)果可包括任何類型的內(nèi)容,諸如,文檔、文件的列表,滿足提交的查詢的內(nèi)容的其他情況。在另一個實(shí)施方式中,查詢結(jié)果包括滿足提交的查詢的實(shí)際內(nèi)容。在更進(jìn)一步的實(shí)施方式中,查詢結(jié)果包括到內(nèi)容的鏈接,對于未來查詢的建議等等。在一個實(shí)施方式中,如果提交的查詢不產(chǎn)生任何結(jié)果,則搜索組件220將消息傳遞到用戶設(shè)備210。消息通知用戶設(shè)備210,提交的查詢沒有產(chǎn)生任何結(jié)果。在一個實(shí)施方式中,在標(biāo)識滿足搜索查詢的搜索結(jié)果時,搜索組件220通過諸如搜索結(jié)果頁面之類的圖形界面,向用戶設(shè)備210返回搜索結(jié)果集合。搜索結(jié)果集合包括被視為與用戶定義的搜索查詢有關(guān)的內(nèi)容或內(nèi)容站點(diǎn)(例如,包含內(nèi)容的網(wǎng)頁、數(shù)據(jù)庫等等) 的表示。例如,可以以內(nèi)容鏈接、片斷、縮略圖、概要、即時應(yīng)答等等,來呈現(xiàn)搜索結(jié)果。內(nèi)容鏈接是指對應(yīng)于相關(guān)聯(lián)的內(nèi)容的地址的內(nèi)容或內(nèi)容站點(diǎn)的可選擇的表示。例如,內(nèi)容鏈接可以是對應(yīng)于統(tǒng)一資源定位符(URL)、IP地址或其他類型的地址的可選擇的表示。如此,對內(nèi)容鏈接的選擇可以導(dǎo)致將用戶的瀏覽器重定向到對應(yīng)的地址,從而用戶可以訪問相關(guān)聯(lián)的內(nèi)容。一個通常使用的內(nèi)容鏈接的示例是超鏈接。日志組件222捕捉在用戶的與搜索服務(wù)214的交互過程中生成的點(diǎn)擊數(shù)據(jù)。在各實(shí)施方式中,日志組件222將捕捉到的點(diǎn)擊數(shù)據(jù)存儲在日志224中。日志2 可以是,或包括存儲模塊(例如,數(shù)據(jù)庫、索引、表或其他存儲器),歷史管理器等等。日志2M維護(hù)與用戶搜索行為相關(guān)聯(lián)的點(diǎn)擊數(shù)據(jù)。如此處所使用的,“點(diǎn)擊數(shù)據(jù)”是指反映用戶相對于搜索服務(wù)214的活動的信息,并可包括從由用戶所發(fā)出的搜索查詢捕捉到的數(shù)據(jù),響應(yīng)于搜索查詢向用戶提供的搜索結(jié)果,用戶選定(例如,“點(diǎn)擊”)了搜索結(jié)果或其他內(nèi)容鏈接的指示, 與內(nèi)容鏈接相關(guān)聯(lián)的URL、停留時間(表示在返回到搜索引擎或查看搜索結(jié)果網(wǎng)頁之前用戶在特定內(nèi)容站點(diǎn)花費(fèi)的時間量),以及可以通過跟蹤用戶的輸入來監(jiān)視和記錄的任何其他類型的活動。訓(xùn)練數(shù)據(jù)生成器226自動地生成用于訓(xùn)練分類器234和/或?qū)嶓w提取器236的正的訓(xùn)練數(shù)據(jù)。通過使用訓(xùn)練數(shù)據(jù)生成器,標(biāo)識URL模式和實(shí)體。訓(xùn)練數(shù)據(jù)生成器2 標(biāo)識點(diǎn)擊圖230的每一個節(jié)點(diǎn),點(diǎn)擊圖230是由圖生成器2 從點(diǎn)擊日志2 生成的,其對應(yīng)于匹配模式和/或包括實(shí)體的URL。將與每一個匹配節(jié)點(diǎn)相關(guān)聯(lián)的查詢添加到潛在的訓(xùn)練數(shù)據(jù)的集合中。可以從潛在的訓(xùn)練數(shù)據(jù)中選擇訓(xùn)練數(shù)據(jù),并將其用于訓(xùn)練分類器234和/或?qū)嶓w提取器236。暫時轉(zhuǎn)到圖3,描繪了點(diǎn)擊圖300的一個示例。圖3的點(diǎn)擊圖300僅僅是與全部都對應(yīng)于共同的查詢一意圖域的URL相關(guān)聯(lián)的點(diǎn)擊圖的一部分的代表。圖3所示出的示例性點(diǎn)擊圖300是一種合適的數(shù)據(jù)結(jié)構(gòu)的示例,而非旨在對在本文檔中所公開的本發(fā)明的各實(shí)施方式的使用范圍或功能提出任何限制。該示例性點(diǎn)擊圖300也不應(yīng)被解釋成對于此處所示出的任一組件或其組合有任何依賴或要求。如圖3所示,示例性點(diǎn)擊圖300在左邊具有許多查詢節(jié)點(diǎn)302,在右邊具有許多 URL節(jié)點(diǎn)304。在圖3中沒有描繪對節(jié)點(diǎn)302和304的標(biāo)記,因?yàn)闃?biāo)記節(jié)點(diǎn)不一定與當(dāng)前討論有密切關(guān)系。鏈接(或邊緣)306連接某一對查詢節(jié)點(diǎn)302和URL節(jié)點(diǎn)304。注意,并非所有的查詢節(jié)點(diǎn)302或URL節(jié)點(diǎn)304都是鏈接的。例如,對應(yīng)于搜索短語“what is prudence" 的查詢節(jié)點(diǎn) 302 僅僅鏈接到 URL 節(jié)點(diǎn)“dictionary, referencebook. com/browse/ “ 和〃 ourfreedictionary.com",而不鏈接到點(diǎn)擊圖300中的其他URL節(jié)點(diǎn)。這意味著,響應(yīng)于包含搜索短語“what is prudence”的搜索查詢的搜索結(jié)果,用戶在搜索結(jié)果中作出導(dǎo)航至丨J URL “ dictionary, referencebook. com/browse/ “禾口 “ ourfreedictionary. com/ “ 的選擇,并不進(jìn)行導(dǎo)航到圖3中所描繪的其他URL的選擇(或者,其他URL不表現(xiàn)為響應(yīng)于包含搜索短語"what is prudence”的查詢的搜索結(jié)果)。類似地,對應(yīng)于搜索項(xiàng)“fidelity”的查詢節(jié)點(diǎn)302不連接到圖3中所描繪的URL 節(jié)點(diǎn)304中的任何一個,例如,因?yàn)榕c對應(yīng)于查詢節(jié)點(diǎn)302的查詢相關(guān)聯(lián)的占優(yōu)勢的意圖是與名為Fidelity的著名的公司相關(guān)聯(lián)的網(wǎng)站。如此處所使用的,“占優(yōu)勢的意圖”是指比與特定查詢相關(guān)聯(lián)的任何其他可能的查詢意圖具有更高的對應(yīng)于用戶的實(shí)際意圖的概率的可能的查詢意圖。此外,在各實(shí)施方式中,圖3中的每一個鏈接306與邊緣權(quán)重308(此處可互換地簡稱為“權(quán)重”,在圖3中在概念上通過所描繪的各種線條樣式來表示)相關(guān)聯(lián), 在一個示例中,邊緣權(quán)重308可以是特定的查詢節(jié)點(diǎn)和URL節(jié)點(diǎn)對之間作出的點(diǎn)擊的統(tǒng)計 (或基于該統(tǒng)計的某種其他值)。在其他實(shí)施方式中,也可以使用其他權(quán)重定義,如由特定用戶作出的點(diǎn)擊的統(tǒng)計等等。通過使用根據(jù)某些實(shí)施方式的技術(shù),可以檢查點(diǎn)擊圖300中的查詢的相對大的部分(或者甚至全部)以標(biāo)識潛在的訓(xùn)練數(shù)據(jù)。在圖3的示例中,點(diǎn)擊圖300是二分圖,其包含表示查詢的第一組節(jié)點(diǎn)和表示URL的第二組節(jié)點(diǎn),邊緣(鏈接)連接相關(guān)聯(lián)的查詢節(jié)點(diǎn)和URL節(jié)點(diǎn)。在其他實(shí)施方式中,也可以使用用于基于點(diǎn)擊數(shù)據(jù)將查詢與URL相關(guān)聯(lián)的其他類型的數(shù)據(jù)結(jié)構(gòu)。另外,點(diǎn)擊圖300示出了表示對應(yīng)的單個URL的URL節(jié)點(diǎn)。注意,在替換實(shí)施方式中,并非每一個URL節(jié)點(diǎn)都表示單個URL,節(jié)點(diǎn)304可以表示基于某些相似度度量聚集在一起的URL的集群。構(gòu)建點(diǎn)擊圖的一種方式是基于收集的點(diǎn)擊數(shù)據(jù)來簡單地構(gòu)成相對大的點(diǎn)擊圖。在某些情況下,特別是使用已知的方法,這會是效率低下的。如此,為更好地使用已知的方法, 常常使用更加有效的構(gòu)建點(diǎn)擊圖的方式,該方式包括,構(gòu)建緊湊的點(diǎn)擊圖,然后反復(fù)展開點(diǎn)擊圖,直到點(diǎn)擊圖到達(dá)目標(biāo)大小。然而,本發(fā)明的各實(shí)施方式允許使用較大的點(diǎn)擊圖,免除了生成緊湊的點(diǎn)擊圖的必要性。例如,在一個實(shí)施方式中,可以使用可用的全部點(diǎn)擊數(shù)據(jù), 來生成與本發(fā)明的各方面一起使用的點(diǎn)擊圖。在某些情況下,搜索服務(wù)可以一次地為許多月構(gòu)建點(diǎn)擊日志,這些日志包含每一個查詢以及由每一個用戶作出的對應(yīng)的點(diǎn)擊的記錄。返回到圖2,如上文所指出的,訓(xùn)練數(shù)據(jù)生成器226自動地通過走查(walk)點(diǎn)擊圖并標(biāo)識匹配選定的或已標(biāo)識的種子模式的模式來生成訓(xùn)練數(shù)據(jù)。根據(jù)各實(shí)施方式,訓(xùn)練數(shù)據(jù)生成器2 從用戶那里接受域(或子域)作為輸入。這樣的域可以是,例如,“contoso. go. com”或“contosa. com/football/"的形式。訓(xùn)練數(shù)據(jù)生成器2 通過查看點(diǎn)擊圖中的每個URL節(jié)點(diǎn),并選擇其URL (至少部分地)匹配域輸入中的至少一個的那些節(jié)點(diǎn),來標(biāo)識點(diǎn)擊圖中的匹配節(jié)點(diǎn)。對于每一個匹配的URL節(jié)點(diǎn),訓(xùn)練數(shù)據(jù)生成器2 可以將連接到點(diǎn)擊圖中的該節(jié)點(diǎn)的每一個查詢,以及該查詢的邊緣權(quán)重,添加到潛在的結(jié)果集中,該邊緣權(quán)重通過檢查當(dāng)發(fā)出該查詢時為此URL所產(chǎn)生的點(diǎn)擊的數(shù)量來求得。在某些實(shí)施方式中,可能有這樣的情況為兩個不同的URL節(jié)點(diǎn),添加同一個查詢一一在此情況下,例如,訓(xùn)練數(shù)據(jù)生成器2 可以添加它們的權(quán)重。然后,訓(xùn)練數(shù)據(jù)生成器2 從潛在的結(jié)果集中選擇其中相對權(quán)重(例如,累加的權(quán)重除以該查詢的印象的總數(shù))超出閾值(例如,0. 1)的那些查詢作為訓(xùn)練查詢。如此,對于閾值0. 1,查詢“chris brown”可能已經(jīng)導(dǎo)致對所選定的體育URL節(jié)點(diǎn)的25 個點(diǎn)擊,但是,如果向搜索服務(wù)214發(fā)出的“chris brown”的總次數(shù)大于250,它將不會被用作自動化訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)生成器226向模型生成器232提供所選訓(xùn)練數(shù)據(jù)。模型生成器232可以是任何類型的程序、模塊、API或代碼,它們促進(jìn)諸如,分類器234和實(shí)體提取器236之類的模型的生成。在各實(shí)施方式中,模型生成器232可以生成模型234和236,并使用由訓(xùn)練數(shù)據(jù)生成器2 生成的訓(xùn)練數(shù)據(jù)來訓(xùn)練模型234和236。在某些實(shí)施方式中,用戶可以與模型生成器232進(jìn)行交互,以向模型生成過程提供輸入。根據(jù)本發(fā)明的各實(shí)施方式,分類器234是用于確定與用戶查詢相關(guān)聯(lián)的域的二元查詢一意圖分類器。在其他實(shí)施方式中,分類器可以是用于分類傳入的用戶搜索查詢的任何類型的分類器。分類器234可以采取任何數(shù)量和類型的數(shù)據(jù)作為用于分類傳入的查詢的輸入。在各實(shí)施方式中,可以使用分類器234來將查詢分類為屬于或不屬于一個特定域。在其他實(shí)施方式中,可以使用分類器234來標(biāo)識查詢所對應(yīng)的域。根據(jù)本發(fā)明的各實(shí)施方式, 可以由于任意數(shù)量的原因來使用分類器234,根據(jù)本發(fā)明的各實(shí)施方式,其可以根據(jù)任意數(shù)量的配置來實(shí)現(xiàn)。在各實(shí)施方式中,實(shí)體提取器236從查詢中提取實(shí)體,并促進(jìn)將查詢分段為多個部分。實(shí)體可包括字母、字符、單詞、短語等等。在各實(shí)施方式中,實(shí)體是可以與另一實(shí)體相比較的一些東西。即,例如,實(shí)體可以是產(chǎn)品、服務(wù)、人、位置、活動等等。根據(jù)本發(fā)明的各實(shí)施方式,實(shí)體提取器236可以標(biāo)識(例如,“提取”)實(shí)體、實(shí)體的模式、實(shí)體之間的關(guān)系、關(guān)于實(shí)體的上下文信息,等等。在各實(shí)施方式中,實(shí)體提取器236從給定查詢中提取實(shí)體和實(shí)體模式的許多不同的組合。如此處所使用的,“實(shí)體模式”是指至少一個實(shí)體的任何排列。在各實(shí)施方式中,實(shí)體模式可包括單一實(shí)體、兩個實(shí)體,或多于兩個實(shí)體。在一個實(shí)施方式中,實(shí)體模式包括兩個或更多實(shí)體之間的關(guān)聯(lián)或關(guān)系的表示。例如,實(shí)體模式可以反映實(shí)體原始搜索查詢中的位置。在各實(shí)施方式中實(shí)體模式可以是指存在于種子URL中的數(shù)據(jù)的類型。例如,假設(shè)選定的種子URL的集合具有與音樂相關(guān)聯(lián)的各種實(shí)體,諸如,例如,歌星名稱、歌曲標(biāo)題,以及專輯名稱。這三種類型的實(shí)體的集合可被稱為實(shí)體模式,因此,具有這三種類型中的一種類型的實(shí)體的任何URL都可以被標(biāo)識為匹配的URL。通過使用本發(fā)明的一些實(shí)施方式,可以以自動化方式展開可用于訓(xùn)練查詢一意圖分類器的訓(xùn)練數(shù)據(jù)量,以更有效地訓(xùn)練查詢一意圖分類器和/或?qū)嶓w提取器,并改進(jìn)這樣的分類器和提取器的性能。在某些情況下,利用可以根據(jù)一些實(shí)施方式獲取的大量的訓(xùn)練數(shù)據(jù),僅僅使用查詢單詞或短語作為特征的查詢一意圖分類器或?qū)嶓w提取器可以相對準(zhǔn)確,并可以,例如,增強(qiáng)即時應(yīng)答服務(wù)的利用相關(guān)內(nèi)容動態(tài)地對用戶作出響應(yīng)的能力。一旦查詢一意圖分類器已經(jīng)被訓(xùn)練,輸出查詢一意圖分類器,用于分類查詢。例如,查詢一意圖分類器可與搜索引擎一起使用。查詢一意圖分類器能夠?qū)⒃谒阉饕嬷薪邮盏降牟樵兎诸悶橄鄬τ诓樵円鈭D是正的或負(fù)的。如果是正的,那么,搜索引擎可以調(diào)用垂直搜索服務(wù)。另一方面,如果查詢一意圖分類器將接收到的查詢分類為對于查詢意圖是負(fù)的,那么,搜索引擎可以執(zhí)行通用搜索。另外,通過實(shí)現(xiàn)本發(fā)明的各實(shí)施方式,可以生成點(diǎn)擊圖,并使用該點(diǎn)擊圖來表示此點(diǎn)擊數(shù)據(jù)的全部。因?yàn)樵诒景l(fā)明的各實(shí)施方式中,不需要手動地標(biāo)記任何查詢或?qū)?fù)雜標(biāo)記算法應(yīng)用到點(diǎn)擊圖,而是選擇具有匹配的子域的URL的過程,可以以最少成本的搜索服務(wù)生成大量的訓(xùn)練數(shù)據(jù)。概括起來,本發(fā)明描述了用于自動地生成用于訓(xùn)練分類器和/或?qū)嶓w提取器中的正的訓(xùn)練數(shù)據(jù)的系統(tǒng)、機(jī)器、介質(zhì)、方法、技術(shù)、過程和選項(xiàng)。轉(zhuǎn)向圖4,示出了流程圖,示出了通過利用此處所描述的訓(xùn)練數(shù)據(jù)生成概念的各方面來增強(qiáng)即時應(yīng)答服務(wù)的示例性方法 500。第一說明性步驟,步驟410,包括捕捉用戶查詢和對應(yīng)的點(diǎn)擊。在各實(shí)施方式中,搜索服務(wù)可以捕捉在用戶的與搜索服務(wù)的交互過程中生成的任意數(shù)量的不同類型的點(diǎn)擊數(shù)據(jù)。 根據(jù)本發(fā)明的各實(shí)施方式,捕捉由用戶提交的查詢,如對應(yīng)于用戶選擇的(例如,“點(diǎn)擊的”) 搜索結(jié)果的URL。在各實(shí)施方式中,點(diǎn)擊數(shù)據(jù)可以存儲在點(diǎn)擊日志中。如步驟412所示,使用捕捉到的點(diǎn)擊數(shù)據(jù),生成點(diǎn)擊圖。如上所述,點(diǎn)擊圖一般包括表示查詢的第一組節(jié)點(diǎn)和表示URL的第二組節(jié)點(diǎn),邊緣(鏈接)連接相關(guān)聯(lián)的查詢節(jié)點(diǎn)和URL節(jié)點(diǎn)。根據(jù)本發(fā)明的各實(shí)施方式,所生成的點(diǎn)擊圖可以是任何大小,包括非常大。例如,在一個實(shí)施方式中,點(diǎn)擊圖可包括在某個時間段內(nèi)(諸如,例如,一周、一個月、年、等等)與每個用戶的每個交互相關(guān)聯(lián)的點(diǎn)擊數(shù)據(jù)。在步驟414中,說明性方法400的實(shí)施方式包括為分類器或?qū)嶓w提取器自動地生成訓(xùn)練數(shù)據(jù)。在各實(shí)施方式中,可以通過標(biāo)識具有匹配指定的URL模式的URL節(jié)點(diǎn)并為訓(xùn)練數(shù)據(jù)選擇對應(yīng)的查詢來生成訓(xùn)練數(shù)據(jù)。在步驟416中,使用訓(xùn)練數(shù)據(jù)來訓(xùn)練分類器和/ 或提取器,如最后一個說明性步驟(步驟418)所示,搜索服務(wù)向即時應(yīng)答服務(wù)提供分類器和/或?qū)嶓w提取器,用于促進(jìn)觸發(fā)即時應(yīng)答服務(wù)和標(biāo)識相關(guān)即時應(yīng)答內(nèi)容。轉(zhuǎn)向圖5,流程圖描繪了使用分類器和實(shí)體提取器來觸發(fā)即時應(yīng)答服務(wù)的說明性方法500。如說明性第一步驟(步驟510)所示,搜索服務(wù)接收用戶搜索查詢。在步驟512 中,使用分類器來確定查詢是否反映用戶對于特定域的意圖。即,使用分類器來確定用戶的搜索是否涉及信息的特定分類,諸如,例如,電影、音樂、圖像、職業(yè)等等。如步驟514所示,使用實(shí)體提取器,將被標(biāo)識為反映對于特定域的意圖的查詢分段為諸部分的集合。在各實(shí)施方式中,將查詢分段為(諸)部分是基于意圖的域的特征來進(jìn)行的。如在圖2中進(jìn)一步示出的,在步驟516中,搜索服務(wù)提供意圖的域的指示,在步驟 518中,將分段的查詢提供給即時應(yīng)答服務(wù)。在步驟520中,搜索服務(wù)從即時應(yīng)答服務(wù)接收即時應(yīng)答(例如,內(nèi)容、鏈接等等),在最后一個說明性步驟522中,向用戶顯示即時應(yīng)答。
      現(xiàn)在轉(zhuǎn)向圖6,另一個流程圖描繪了用于標(biāo)識點(diǎn)擊數(shù)據(jù)中的相對于內(nèi)容域的查詢和統(tǒng)一資源定位符(URL)之間的正關(guān)聯(lián)的說明性方法600。在各實(shí)施方式中,說明性方法 600包括,如步驟610所示,接收數(shù)據(jù)結(jié)構(gòu)。在各實(shí)施方式中,數(shù)據(jù)結(jié)構(gòu)包括點(diǎn)擊數(shù)據(jù),并以這樣的方式排列,以將查詢與由查詢所標(biāo)識的URL進(jìn)行關(guān)聯(lián)。根據(jù)某些實(shí)施方式,數(shù)據(jù)結(jié)構(gòu)是具有表示查詢的第一組節(jié)點(diǎn)和表示URL的第二組節(jié)點(diǎn)的點(diǎn)擊圖,邊緣連接相關(guān)聯(lián)的查詢節(jié)點(diǎn)和URL節(jié)點(diǎn)。 在步驟612中,標(biāo)識與內(nèi)容域相關(guān)聯(lián)的URL模式。在各實(shí)施方式中,可以通過檢查從數(shù)據(jù)結(jié)構(gòu)中選擇的種子URL的集合來標(biāo)識URL模式。在其他實(shí)施方式中,可以基于正在進(jìn)行搜索的用戶,對即時應(yīng)答服務(wù)的等等,來指定URL模式。在一個實(shí)施方式中,也可以標(biāo)識許多URL模式。顯而易見,URL模式包括URL域。在各實(shí)施方式中,URL模式還包括至少一個子域,該子域可以是域本身。在各實(shí)施方式中,URL模式可以是實(shí)體模式,如此處具體參考圖2和3所描述的。如步驟614所示,標(biāo)識匹配的URL。在各實(shí)施方式中,匹配的URL是數(shù)據(jù)結(jié)構(gòu)中的至少部分地匹配URL模式的URL。即,在各實(shí)施方式中,匹配的URL的至少一部分與已標(biāo)識的URL模式相匹配。在本發(fā)明的某些實(shí)施方式中,標(biāo)識許多URL模式,匹配的URL是至少部分地與已標(biāo)識的URL模式中的任何一個或多個相匹配的URL。在更進(jìn)一步的實(shí)施方式中,可以使用任意數(shù)量的其他準(zhǔn)則來確定匹配的URL。例如,在一個實(shí)施方式中,在一個實(shí)施方式中有用的,例如,用于訓(xùn)練分類器,URL包括匹配URL模式的URL子域的URL子域。在其他實(shí)施方式中,匹配的URL可包括實(shí)體模式,該實(shí)體模式匹配與種子URL相關(guān)聯(lián)的實(shí)體模式。繼續(xù)參考圖6,在步驟616中,標(biāo)識與每一個匹配的URL相關(guān)聯(lián)的每一個查詢,在步驟618中,標(biāo)識和/或確定每一個相關(guān)聯(lián)的查詢的每一個邊緣權(quán)重。在一個實(shí)施方式中,基于當(dāng)響應(yīng)于第一查詢而提供第一 URL時與第一 URL相關(guān)聯(lián)的許多的點(diǎn)擊通過計算函數(shù),來確定與查詢相關(guān)聯(lián)的邊緣權(quán)重。在步驟620中,如圖6所示,將已標(biāo)識的查詢以及它們的對應(yīng)的權(quán)重添加到潛在訓(xùn)練數(shù)據(jù)的集合中。在步驟622中,說明性方法600的各實(shí)施方式包括計算潛在的訓(xùn)練查詢集合中的每一個查詢的意圖參數(shù)值,在步驟擬4中,將其與閾值進(jìn)行比較。在各實(shí)施方式中,例如,計算意圖參數(shù)的值包括計算查詢的相對權(quán)重。根據(jù)本發(fā)明的各實(shí)施方式,查詢的相對權(quán)重可包括查詢的總的累加權(quán)重與查詢的印象的總數(shù)的比率。在某些實(shí)施方式中,可以標(biāo)識附加的與URL相關(guān)聯(lián)的查詢。例如,在此情況下,可以將對應(yīng)于兩個關(guān)聯(lián)的邊緣相加,以生成查詢的總的累加的權(quán)重。如最后一個說明性步驟(步驟626)所示,說明性方法600的各實(shí)施方式包括確定哪些查詢相對于內(nèi)容域以它們的相關(guān)聯(lián)的URL具有正關(guān)聯(lián)。在各實(shí)施方式中,具有這樣的正關(guān)聯(lián)的查詢(此處可互換地簡稱為“正的查詢”或“正的數(shù)據(jù)”)可以在點(diǎn)擊圖或其他數(shù)據(jù)結(jié)構(gòu)中那樣被標(biāo)記。在某些實(shí)施方式中,可以選擇正的查詢作為用于訓(xùn)練分類器、實(shí)體提取器等等的訓(xùn)練數(shù)據(jù)。確定正的數(shù)據(jù)可包括將意圖參數(shù)與閾值進(jìn)行比較,對查詢數(shù)據(jù)應(yīng)用概率算法及其他機(jī)器學(xué)習(xí)功能,等等。
      現(xiàn)在轉(zhuǎn)向圖7,另一個流程圖描繪了用于生成正的分類器訓(xùn)練數(shù)據(jù)的說明性方法 700。根據(jù)本發(fā)明的各實(shí)施方式,說明性方法700包括,在步驟710中,接收將查詢與由查詢所標(biāo)識的URL相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)。例如,在一個實(shí)施方式中,數(shù)據(jù)結(jié)構(gòu)是具有表示查詢的第一組節(jié)點(diǎn)和表示URL的第二組節(jié)點(diǎn)的點(diǎn)擊圖,邊緣連接相關(guān)聯(lián)的查詢節(jié)點(diǎn)和URL節(jié)點(diǎn)。在步驟712中,說明性方法700的實(shí)施方式包括標(biāo)識URL模式,該模式包括第一 URL域和至少一個URL子域。在步驟714中,通過將數(shù)據(jù)結(jié)構(gòu)中的URL的子域與已標(biāo)識的 URL模式進(jìn)行比較來標(biāo)識匹配的URL。例如,在一個實(shí)施方式中,數(shù)據(jù)結(jié)構(gòu)中的匹配的URL 是其中匹配的URL的至少一部分與第一 URL域的至少一部分相匹配的那個。在一個實(shí)施方式中,第一 URL域包括第一 URL子域,匹配的URL包括第二 URL子域,該第二 URL子域與第一 URL子域相匹配。在步驟716中,標(biāo)識連接到每一個匹配的URL的每一個查詢。如步驟718所示,將每一個已標(biāo)識的查詢添加到潛在訓(xùn)練數(shù)據(jù)的集合中,如最后一個說明性步驟(步驟718)所示,選擇訓(xùn)練查詢的集合。在各實(shí)施方式中,例如,從潛在訓(xùn)練查詢的集合中選擇訓(xùn)練查詢的集合是基于與匹配的URL相連接的每一個查詢的邊緣權(quán)重來進(jìn)行的?,F(xiàn)在轉(zhuǎn)向圖8,另一個流程圖描繪了用于從存儲了點(diǎn)擊數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)生成實(shí)體一提取器培訓(xùn)數(shù)據(jù)的說明性方法800,其中,該數(shù)據(jù)結(jié)構(gòu)包括捕捉到的搜索查詢和對應(yīng)于選定的查詢結(jié)果的統(tǒng)一資源定位符(URL)之間的關(guān)聯(lián)。在第一說明性步驟,步驟810,選擇種子URL。在各實(shí)施方式中,種子URL可以自動地選擇、由用戶輸入、由網(wǎng)絡(luò)管理員指定、由應(yīng)用程序選擇,或用來開始過程的選擇URL的任何其他合適的方法。另外,在各實(shí)施方式中,可以選擇許多種子URL,以便URL所共有的模式可以被標(biāo)識,并用于生成訓(xùn)練數(shù)據(jù)。在步驟812中,提取實(shí)體模式。在各實(shí)施方式中,實(shí)體模式可以包括單一實(shí)體,而在其他實(shí)施方式中,實(shí)體模式可包括許多實(shí)體。實(shí)體可以具有任意數(shù)量的排列,而在一些實(shí)現(xiàn)中,實(shí)體的排列與標(biāo)識正的訓(xùn)練數(shù)據(jù)有關(guān)。在其他實(shí)施方式中,訓(xùn)練數(shù)據(jù)生成器可能只關(guān)心實(shí)體本身。在某些實(shí)施方式中,可以提取任意數(shù)量的實(shí)體模式。例如,在一個實(shí)施方式中, 可以從第一種子URL中選擇第一組實(shí)體模式,并可以從第二 URL中選擇第二組實(shí)體模式。在各實(shí)施方式中,可以選擇兩個或更多URL所共有的實(shí)體模式。本領(lǐng)域技術(shù)人員應(yīng)了解,可以根據(jù)本發(fā)明的各實(shí)施方式實(shí)現(xiàn)前面的任何一個,其組合,其修改等等。如步驟814所示,說明性方法800包括標(biāo)識數(shù)據(jù)結(jié)構(gòu)中的匹配的URL。在某些實(shí)施方式中,標(biāo)識數(shù)據(jù)結(jié)構(gòu)中的匹配的URL包括確定匹配的URL包括實(shí)體模式。在一個實(shí)施方式中,匹配的URL可包括實(shí)體模式和/或?qū)嶓w中的全部。在一個實(shí)施方式中,匹配的URL包括實(shí)體模式、實(shí)體等等的至少一部分。可以使用任意數(shù)量的其他合適的準(zhǔn)則來確定與一個 URL包括的實(shí)體模式的數(shù)量相關(guān)聯(lián)的諸如閾值之類的匹配的URL等等。在步驟816中,將每一個相關(guān)聯(lián)的查詢以及其權(quán)重添加到潛在的訓(xùn)練查詢的集合中,在最后一個說明性步驟,步驟818,從潛在的訓(xùn)練查詢中選擇訓(xùn)練查詢的集合。如上文參考為分類器自動生成訓(xùn)練數(shù)據(jù)所討論的,可以通過為每一個查詢計算意圖參數(shù)來選擇諸如此處所描述的實(shí)體提取器之類的實(shí)體提取器的訓(xùn)練查詢。意圖參數(shù)可以是,例如,基于每一個查詢的邊緣權(quán)重。此外,可以在數(shù)字上,或以其他方式,分析和表征匹配的URL中的所提取的實(shí)體模式和模式之間的差別,用于與準(zhǔn)則、閾值等等進(jìn)行比較。本發(fā)明的各實(shí)施方式是說明性的而非限制性的。在不偏離本發(fā)明的各實(shí)施方式的范圍的情況下,替換實(shí)施方式將變得顯而易見??梢岳斫猓承┨卣骱妥咏M合是有用的,并且可以在不參考其他特征和子組合的情況下使用。這由權(quán)利要求所構(gòu)想的,并在權(quán)利要求的范圍內(nèi)。
      權(quán)利要求
      1.在其上包含計算機(jī)可執(zhí)行指令的一個或多個計算機(jī)可讀介質(zhì),所述計算機(jī)可執(zhí)行指令在由與搜索服務(wù)相關(guān)聯(lián)的計算設(shè)備中的處理器執(zhí)行時,使所述計算設(shè)備執(zhí)行相對于內(nèi)容域標(biāo)識點(diǎn)擊數(shù)據(jù)中的查詢和統(tǒng)一資源定位符URL之間的正關(guān)聯(lián)的方法;所述方法包括接收將查詢與由所述查詢所標(biāo)識的URL相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu);標(biāo)識與所述內(nèi)容域相關(guān)聯(lián)的第一 URL模式;確定所述點(diǎn)擊圖中的第一 URL的至少一部分與所述第一 URL模式相匹配;標(biāo)識與所述第一 URL相關(guān)聯(lián)的第一查詢;以及確定所述第一查詢和所述第一 URL相對于所述內(nèi)容域具有正關(guān)聯(lián)。
      2.如權(quán)利要求1所述的介質(zhì),其特征在于,所述搜索查詢包括第一實(shí)體,并且,其中確定所述點(diǎn)擊圖中的所述第一 URL的所述至少一部分與所述第一 URL模式相匹配包括確定所述第一 URL的所述至少一部分包括所述第一實(shí)體。
      3.如權(quán)利要求1所述的介質(zhì),其特征在于,所述第一URL模式包括第一 URL域,所述第一 URL域包含第一 URL子域。
      4.如權(quán)利要求3所述的介質(zhì),其特征在于,所述第一URL的所述至少一部分包括第二 URL子域,并且,其中確定所述第一 URL的所述至少一部分與所述第一 URL模式相匹配包括確定所述第二 URL子域與所述第一 URL子域相匹配。
      5.如權(quán)利要求1所述的介質(zhì),其特征在于,確定所述第一查詢和所述第一URL相對于所述內(nèi)容域具有正關(guān)聯(lián)包括計算意圖參數(shù)的值,其中所述意圖參數(shù)基于與所述第一 URL相關(guān)聯(lián)的權(quán)重;以及確定所述值超出指定的閾值。
      6.如權(quán)利要求5所述的介質(zhì),其特征在于,還包括確定與所述第一查詢相關(guān)聯(lián)的第一邊緣權(quán)重,其中當(dāng)響應(yīng)于所述第一查詢提供所述第一 URL時,所述第一查詢的所述第一邊緣權(quán)重基于與所述第一 URL相關(guān)聯(lián)的點(diǎn)擊的數(shù)量,并且,其中計算意圖參數(shù)的值包括計算所述第一查詢的相對權(quán)重,所述相對權(quán)重包括所述第一查詢的總的累加權(quán)重與所述第一查詢的印象的總數(shù)的比率。
      7.如權(quán)利要求6所述的介質(zhì),還包括確定所述第一查詢也與所述點(diǎn)擊圖中的第二 URL相關(guān)聯(lián);確定所述第一查詢的第二邊緣權(quán)重,其中當(dāng)響應(yīng)于所述第一查詢提供所述第二 URL 時,所述第一查詢的所述第二邊緣權(quán)重基于與所述第二 URL相關(guān)聯(lián)的點(diǎn)擊的數(shù)量;以及通過將所述第一邊緣權(quán)重和所述第二邊緣權(quán)重相加,來計算所述第一查詢的所述總的累加權(quán)重。
      8.如權(quán)利要求1或9所述的方法,其特征在于,所述數(shù)據(jù)結(jié)構(gòu)是具有表示查詢的第一組節(jié)點(diǎn)和表示URL的第二組節(jié)點(diǎn)的點(diǎn)擊圖,帶有邊緣連接相關(guān)聯(lián)的查詢節(jié)點(diǎn)和URL節(jié)點(diǎn)。
      9.在其上包含計算機(jī)可執(zhí)行指令的一個或多個計算機(jī)可讀介質(zhì),所述計算機(jī)可執(zhí)行指令在由與搜索服務(wù)相關(guān)聯(lián)的計算設(shè)備中的處理器執(zhí)行時,使所述計算設(shè)備執(zhí)行生成正的分類器訓(xùn)練數(shù)據(jù)的方法,所述方法包括接收將查詢與由所述查詢所標(biāo)識的URL進(jìn)行關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu);標(biāo)識包括第一 URL域的第一 URL模式;標(biāo)識所述數(shù)據(jù)結(jié)構(gòu)中的匹配的URL,其中所述匹配的URL的至少一部分與所述第一 URL域的至少一部分相匹配;將與所述匹配的URL相連接的每一個查詢添加到潛在訓(xùn)練查詢的集合中;以及從所述潛在訓(xùn)練查詢的集合中選擇訓(xùn)練查詢的集合。
      10.如權(quán)利要求9所述的介質(zhì),其特征在于,所述第一 URL域包括第一 URL子域,并且, 其中所述匹配的URL包括第二 URL子域,并且,其中標(biāo)識匹配的URL包括確定所述第二子域匹配所述第一子域。
      全文摘要
      本發(fā)明揭示了自動生成訓(xùn)練數(shù)據(jù)的技術(shù)。計算機(jī)可讀介質(zhì)、計算機(jī)系統(tǒng),以及計算設(shè)備促進(jìn)生成二進(jìn)制分類器和實(shí)體提取器訓(xùn)練數(shù)據(jù)。選擇種子URL,并標(biāo)識種子URL內(nèi)的URL模式。標(biāo)識數(shù)據(jù)結(jié)構(gòu)中的匹配URL,并將對應(yīng)的查詢以及它們的相關(guān)聯(lián)的權(quán)重添加到從其中選擇訓(xùn)練數(shù)據(jù)的潛在的訓(xùn)練數(shù)據(jù)集中。
      文檔編號G06F17/30GK102289459SQ20111017895
      公開日2011年12月21日 申請日期2011年6月20日 優(yōu)先權(quán)日2010年6月18日
      發(fā)明者A·麥克戈文, G·比勒, M·納拉辛漢, P·沃拉, S·阿哈里 申請人:微軟公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1