国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于為具有多個(gè)書寫系統(tǒng)的語言識(shí)別相關(guān)查詢的系統(tǒng)和方法

      文檔序號(hào):6454091閱讀:212來源:國(guó)知局
      專利名稱:用于為具有多個(gè)書寫系統(tǒng)的語言識(shí)別相關(guān)查詢的系統(tǒng)和方法
      技術(shù)領(lǐng)域
      本發(fā)明一般地提供了用于識(shí)別與根據(jù)具有多個(gè)書寫系統(tǒng)(writing system)的語言(language)書寫的給定搜索査詢(search query)相關(guān)的 一個(gè)或多個(gè)查詢的方法和系統(tǒng)。更具體而言,本發(fā)明提供了用于接收根據(jù) 具有多個(gè)書寫系統(tǒng)的語言的一個(gè)或多個(gè)書寫系統(tǒng)的組合來書寫的搜索查詢 并且從查詢的候選集合(candidate set of queries)中識(shí)別一個(gè)或多個(gè)相關(guān) 查詢的方法和系統(tǒng)。
      背景技術(shù)
      由于因特網(wǎng)的出現(xiàn)和萬維網(wǎng)("web")上用戶可獲得的眾多網(wǎng)頁、 媒體內(nèi)容、廣告等等,向用戶提供流線型的方法以從web獲得有關(guān)信息己
      經(jīng)成為一種需求。搜索系統(tǒng)和過程已經(jīng)被開發(fā)出來滿足用戶獲得這種信息
      的需求。這種技術(shù)的示例可通過Yahoo!、 Google和其他搜索提供商網(wǎng)站來 得到。
      目前,用戶可以使用能夠接入廣域網(wǎng)(例如因特網(wǎng))的客戶端設(shè)備 (例如個(gè)人計(jì)算機(jī)(PC) 、 PDA、智能電話等等)來搜索和檢索出內(nèi)容。 一般來說,用戶經(jīng)由客戶端設(shè)備輸入查詢,并且搜索進(jìn)程返回與查詢相關(guān) 的一個(gè)或多個(gè)內(nèi)容項(xiàng),例如鏈接、文檔、網(wǎng)頁、廣告,等等。響應(yīng)于給定 查詢而返回的內(nèi)容項(xiàng)可能與用戶實(shí)際在尋找的主題或題目緊密相關(guān),也可 能完全無關(guān)。給定査詢的成功度可以基于所檢索出的內(nèi)容項(xiàng)與給定查詢?nèi)?何緊密相關(guān)來衡量,它很大程度上可能取決于對(duì)搜索査詢的適當(dāng)解釋。
      查詢是由一個(gè)或多個(gè)單詞和短語構(gòu)成的。但是,人類用戶輸入的查詢 經(jīng)常無法恰當(dāng)?shù)孛枋鼋o定用戶可能在尋找的內(nèi)容。另外,用戶可能只擁有 關(guān)于其可能在尋找的內(nèi)容的概括的或含糊的想法。例如,用戶可能希望利 用Yahoo!搜索引擎對(duì)在電視上作廣告的產(chǎn)品進(jìn)行搜索。用戶可能不知道產(chǎn) 品的名稱、制造商等等,并且可能只能概括性地描述產(chǎn)品。因此,用戶所 制定的査詢可能太寬泛了,從而導(dǎo)致所檢索出的內(nèi)容項(xiàng)與用戶尋找的內(nèi)容 完全無關(guān)。類似地,用戶所選擇的査詢?cè)~語(query term)可能無法恰當(dāng)?shù)?描述產(chǎn)品,從而導(dǎo)致只檢索出少量?jī)?nèi)容項(xiàng),或者甚至不檢索出任何內(nèi)容 項(xiàng)。
      已知當(dāng)前的用于生成可能與給定查詢相關(guān)的査詢的候選集合的技術(shù)。 例如,用戶可輸入查詢"Apple MP3 player",并且被呈現(xiàn)以一個(gè)或多個(gè) 相關(guān)查詢,例如"IPOD " 、 "Itunes ",等等。但是,搜索提供商面臨 著從查詢的候選集合中識(shí)別在含義上與給定查詢最有關(guān)或緊密相關(guān)的一個(gè) 或多個(gè)査詢的挑戰(zhàn)。另外,諸如日語之類的某些語言具有多個(gè)書寫系統(tǒng), 這進(jìn)一步增大了從查詢的候選集合中識(shí)別在含義上與給定查詢最有關(guān)或相 似的查詢的復(fù)雜度。例如,提交給搜索引擎的單個(gè)日語查詢可能是根據(jù)諸 如漢字(Kanji)、片假名(Katakana)、平假名(hiragana) 、 JASCII、 ASCII等等之類的一個(gè)或多個(gè)日語書寫系統(tǒng)的不同組合來書寫的。根據(jù)日 語的漢字書寫系統(tǒng)書寫的査詢看起來可能完全不同于根據(jù)日語的片假名和
      平假名書寫系統(tǒng)書寫的查詢,但是兩個(gè)查詢可能具有非常相似或相同的含 義。
      此外,諸如Yahoo!、 MSN或Google之類的搜索提供商可利用競(jìng)價(jià)市 場(chǎng)(bidding market),通過該市場(chǎng),廣告主(advertiser)可以為詞語出價(jià) (bid),以便使得一個(gè)或多個(gè)廣告響應(yīng)于查詢而被顯示。例如, 一個(gè)或多 個(gè)廣告主可能希望顯示膝上型計(jì)算機(jī)的一個(gè)或多個(gè)廣告,并且相應(yīng)地可為 "notebook computer (筆記本計(jì)算機(jī))"出價(jià)。但是,詞語"notebook computer"可能是根據(jù)具有多個(gè)書寫系統(tǒng)的語言(例如日語)的一個(gè)或多 個(gè)書寫系統(tǒng)來書寫的。例如,詞語"notebook computer"可能是根據(jù)曰語 平假名書寫系統(tǒng)、日語片假名書寫系統(tǒng)等等來書寫的。
      用戶可以向給定的搜索提供商(例如Yahoo!)提交包括根據(jù)日語片假 名書寫系統(tǒng)書寫的詞語"notebook computer"的查詢。具有相關(guān)聯(lián)的對(duì)片 假名詞語"notebook computer"的出價(jià)一個(gè)或多個(gè)廣告可被檢索出并顯示 給用戶。在競(jìng)價(jià)市場(chǎng)中,與為片假名詞語"notebook computer"提供最大 出價(jià)的廣告主相關(guān)聯(lián)的廣告可以被顯示在網(wǎng)頁的最突出位置,例如,在被 排名的廣告列表中排名第一、顯示在給定的搜索結(jié)果頁面的頂部,等等。
      如果用戶選擇了一個(gè)或多個(gè)所顯示的廣告,則搜索提供商可以例如通 過基于廣告主的出價(jià)向與所選擇的廣告相關(guān)聯(lián)的廣告主收取某一數(shù)額的貨 幣,來使用戶的選擇貨幣化。但是,僅僅檢索出和顯示具有相關(guān)聯(lián)的對(duì)一 個(gè)或多個(gè)詞語的出價(jià)的廣告,可能導(dǎo)致給定搜索提供商的收入大受損失。 例如,如果用戶輸入由未被一個(gè)或多個(gè)廣告主出價(jià)的詞語組成的查詢,則 搜索提供商可能無法向用戶返回任何廣告,從而導(dǎo)致搜索提供商的收入損 失,因?yàn)橛脩魧⒉荒苓x擇任何結(jié)果。參考上述示例,如果用戶輸入的查詢 不包括片假名詞語"notebook computer",而是包括平假名詞語"laptop computer (膝上型計(jì)算機(jī))",則搜索提供商可能不會(huì)顯示有適當(dāng)針對(duì)性 的廣告,盡管片假名査詢"laptop computer"和平假名査詢"notebook computer"的含義是相似的。
      雖然存在用于從査詢的候選集合中識(shí)別在含義上與給定查詢相同或相 似的一個(gè)或多個(gè)查詢的技術(shù),但是現(xiàn)有技術(shù)限于根據(jù)單個(gè)書寫系統(tǒng)書寫的
      語言。當(dāng)前的技術(shù)因而無法支持對(duì)在含義上與根據(jù)具有多個(gè)書寫系統(tǒng)的語 言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的原始查詢最有關(guān)或緊密相關(guān)的查詢的識(shí) 別。為了克服與現(xiàn)有技術(shù)相關(guān)聯(lián)的缺點(diǎn),本發(fā)明提供了系統(tǒng)和方法,用于 從相關(guān)查詢的候選集合中識(shí)別與根據(jù)具有多個(gè)書寫系統(tǒng)的語言的一個(gè)或多 個(gè)書寫系統(tǒng)書寫的給定搜索查詢?cè)诤x上最相似的一個(gè)或多個(gè)查詢。

      發(fā)明內(nèi)容
      本發(fā)明涉及用于識(shí)別與給定查詢相關(guān)的一個(gè)或多個(gè)査詢的方法和系 統(tǒng)。本發(fā)明的方法包括接收根據(jù)具有多個(gè)書寫系統(tǒng)的語言的一個(gè)或多個(gè)書 寫系統(tǒng)書寫的查詢。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所接收的查詢包括根據(jù)一 個(gè)或多個(gè)日語書寫系統(tǒng)的組合來書寫的査詢,所述一個(gè)或多個(gè)日語書寫系
      統(tǒng)包括日語平假名、片假名、假名、羅馬字、JAScn和漢字書寫系統(tǒng)。
      識(shí)別與接收的查詢相關(guān)聯(lián)的、根據(jù)該具有多個(gè)書寫系統(tǒng)的語言的一個(gè) 或多個(gè)書寫系統(tǒng)書寫的查詢的候選集合。根據(jù)本發(fā)明的一個(gè)實(shí)施例,查詢
      的候選集合包括如一個(gè)或多個(gè)査詢?nèi)罩?query log)中所指示的與接收的 査詢相關(guān)的一個(gè)或多個(gè)査詢。
      該方法還包括為候選集合中的一個(gè)或多個(gè)查詢計(jì)算指示出該一個(gè)或多 個(gè)査詢與接收的查詢的相似性的得分。為候選集合中的一個(gè)或多個(gè)查詢計(jì) 算的得分指示出來自候選的給定査詢與接收的查詢?cè)诤x上的相似性。根 據(jù)本發(fā)明的一個(gè)實(shí)施例,計(jì)算得分包括在將每個(gè)査詢中的一個(gè)或多個(gè)字符 轉(zhuǎn)換成羅馬字符之后計(jì)算接收的查詢和從候選集合中選擇的查詢之間的字 符編輯距離(character edit distance)。根據(jù)本發(fā)明的另一個(gè)實(shí)施例,計(jì)算 得分包括在將每個(gè)査詢中的一個(gè)或多個(gè)字符轉(zhuǎn)換成羅馬字符并且從每個(gè)査 詢中去除空格字符之后計(jì)算接收的査詢和從候選集合中選擇的査詢之間的 字符編輯距離。根據(jù)本發(fā)明的另一個(gè)實(shí)施例,計(jì)算得分包括將接收的査詢 和從候選集合中選擇的查詢的字符轉(zhuǎn)換成羅馬字符,并且計(jì)算一 ("1")與下述商(quotient)之間的差接收的查詢和選擇的查詢中的 獨(dú)特空格分隔共現(xiàn)單詞(unique space-separated co-occurring words)的數(shù)目 與兩個(gè)査詢中的獨(dú)特空格分隔單詞的總數(shù)的商。
      根據(jù)本發(fā)明的另一個(gè)實(shí)施例,計(jì)算得分包括識(shí)別某一數(shù)字是否是接收 的査詢和從候選集合中選擇的查詢所特有的。根據(jù)另一個(gè)實(shí)施例,計(jì)算得 分包括計(jì)算值一 ("1")與下述商之間的差接收的查詢和從候選集合 中選擇的查詢中的共現(xiàn)日語漢字字符的數(shù)目與接收的査詢和從候選集合中 選擇的査詢中的獨(dú)特日語漢字字符的總數(shù)的商。根據(jù)本發(fā)明的另一個(gè)實(shí)施 例,計(jì)算得分包括將接收的查詢和從候選集合中選擇的査詢的一個(gè)或多個(gè) 字符轉(zhuǎn)換成羅馬字符,并且計(jì)算這些査詢共有的羅馬字符的數(shù)目。根據(jù)本 發(fā)明的另一個(gè)實(shí)施例,計(jì)算得分包括識(shí)別接收的査詢或者從候選集合中選 擇的査詢是否包含非羅馬字符。根據(jù)本發(fā)明的另一個(gè)實(shí)施例,計(jì)算得分包 括在將每個(gè)查詢的日語漢字字符轉(zhuǎn)換成日語假名字符并且從每個(gè)查詢中 去除所有非日語字符之后,計(jì)算接收的査詢和從候選集合中選擇的查詢之 間的字符編輯距離。根據(jù)本發(fā)明的另一個(gè)實(shí)施例,計(jì)算得分包括計(jì)算在一 個(gè)或多個(gè)査詢?nèi)罩局袕暮蜻x集合中選擇的查詢跟隨接收的查詢的頻率與在 一個(gè)或多個(gè)查詢?nèi)罩局薪邮盏臇嗽兊念l率的商。
      該方法還包括從候選集合的査詢中選擇一個(gè)或多個(gè)査詢以便分發(fā)。根 據(jù)本發(fā)明的一個(gè)實(shí)施例,從候選集合中選擇以便分發(fā)的一個(gè)或多個(gè)查詢包 括具有超過給定閾值的得分的一個(gè)或多個(gè)查詢。被選擇以便分發(fā)的一個(gè)或 多個(gè)查詢可被分發(fā)。根據(jù)本發(fā)明的一個(gè)實(shí)施例,被選擇以便分發(fā)的查詢被 嵌入在一個(gè)或多個(gè)網(wǎng)頁中。
      本發(fā)明還涉及一種用于識(shí)別與給定查詢相關(guān)的一個(gè)或多個(gè)査詢的系 統(tǒng)。本發(fā)明的系統(tǒng)包括搜索引擎,該搜索引擎可操作以用于接收根據(jù)具有 多個(gè)書寫系統(tǒng)的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的査詢。根據(jù)本發(fā)明的一 個(gè)實(shí)施例,搜索引擎可操作以用于接收根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫 的查詢。搜索引擎還可操作以用于識(shí)別與接收的查詢相關(guān)聯(lián)的、根據(jù)該具 有多個(gè)書寫系統(tǒng)的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的一個(gè)或多個(gè)査詢的候 選集合。根據(jù)本發(fā)明的一個(gè)實(shí)施例,搜索引擎可操作以用于識(shí)別由如一個(gè) 或多個(gè)査詢?nèi)罩局兴甘镜呐c接收的查詢相關(guān)的一個(gè)或多個(gè)查詢組成的候 選集合。
      轉(zhuǎn)換組件可操作以用于將接收的查詢和候選集合中的一個(gè)或多個(gè)査詢
      轉(zhuǎn)換成一個(gè)或多個(gè)書面格式。根據(jù)本發(fā)明的一個(gè)實(shí)施例,轉(zhuǎn)換組件可操作 以用于將查詢轉(zhuǎn)換成根據(jù)一個(gè)或多個(gè)書寫系統(tǒng)的一個(gè)或多個(gè)書面格式。
      相似性組件可操作以用于為候選集合中的一個(gè)或多個(gè)査詢計(jì)算指示出 該一個(gè)或多個(gè)查詢與接收的查詢的相似性的得分。相似性組件可操作以用 于計(jì)算指示出從候選集合中選擇的査詢與接收的查詢?cè)诤x上的相似性的 得分。根據(jù)本發(fā)明的一個(gè)實(shí)施例,相似性組件可操作以用于計(jì)算接收的查 詢和從候選集合中選擇的査詢之間的字符編輯距離。根據(jù)本發(fā)明的另一個(gè) 實(shí)施例,相似性組件可操作以用于計(jì)算一 ("1")與下述商之間的差 接收的查詢和從候選集合中選擇的査詢中的獨(dú)特空格分隔共現(xiàn)單詞的數(shù)目 與兩個(gè)查詢中的獨(dú)特空格分隔單詞的總數(shù)的商。根據(jù)本發(fā)明的另一個(gè)實(shí)施 例,相似性組件可操作以用于識(shí)別某一數(shù)字是否是接收的査詢或從候選集 合中選擇的査詢所特有的。
      根據(jù)另一個(gè)實(shí)施例,相似性組件可操作以用于計(jì)算一 ("1")與下 述商之間的差接收的査詢和從候選集合中選擇的查詢中的共現(xiàn)日語漢字 字符的數(shù)目與兩個(gè)査詢中的獨(dú)特日語漢字字符的總數(shù)的商。根據(jù)本發(fā)明的 另一個(gè)實(shí)施例,相似性組件可操作以用于計(jì)算接收的查詢和從候選集合中 選擇的査詢共有的字符的數(shù)目。根據(jù)本發(fā)明的另一個(gè)實(shí)施例,相似性組件 可操作以用于識(shí)別接收的查詢或者從候選集合中選擇的査詢是否包含給定 書寫系統(tǒng)的一個(gè)或多個(gè)字符。根據(jù)本發(fā)明的另一個(gè)實(shí)施例,相似性組件可 操作以用于計(jì)算在一個(gè)或多個(gè)査詢?nèi)罩局袕暮蜻x集合中選擇的査詢跟隨接 收的查詢的頻率與在這些査詢?nèi)罩局薪邮盏牟樵兊念l率的商。


      本發(fā)明在想要為示例性而非限制性的附圖中示出,在附圖中類似的標(biāo) 號(hào)意圖指代類似或相應(yīng)的部件,其中
      圖1是給出根據(jù)本發(fā)明一個(gè)實(shí)施例用于識(shí)別根據(jù)具有多個(gè)書寫系統(tǒng)的 語言的一個(gè)或多個(gè)書寫系統(tǒng)的組合書寫的一個(gè)或多個(gè)相關(guān)查詢的系統(tǒng)的框 圖2是示出根據(jù)本發(fā)明一個(gè)實(shí)施例用于選擇根據(jù)具有多個(gè)書寫系統(tǒng)的
      語言的一個(gè)或多個(gè)書寫系統(tǒng)的組合書寫的一個(gè)或多個(gè)相關(guān)查詢的方法的一
      個(gè)實(shí)施例的流程圖3是示出根據(jù)本發(fā)明一個(gè)實(shí)施例用于計(jì)算根據(jù)具有多個(gè)書寫系統(tǒng)的 語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的兩個(gè)查詢之間的字符編輯距離的方法的 一個(gè)實(shí)施例的流程圖4是示出根據(jù)本發(fā)明一個(gè)實(shí)施例用于計(jì)算根據(jù)具有多個(gè)書寫系統(tǒng)的 語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的兩個(gè)査詢之間的字符編輯距離的另一個(gè) 實(shí)施例的流程圖5是示出根據(jù)本發(fā)明一個(gè)實(shí)施例用于計(jì)算根據(jù)具有多個(gè)書寫系統(tǒng)的 語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的兩個(gè)査詢之間的單詞編輯距離的方法的 一個(gè)實(shí)施例的流程圖6是示出根據(jù)本發(fā)明一個(gè)實(shí)施例用于識(shí)別在根據(jù)具有多個(gè)書寫系統(tǒng) 的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的兩個(gè)查詢中出現(xiàn)的數(shù)字的差別的方法 的一個(gè)實(shí)施例的流程圖7是示出根據(jù)本發(fā)明一個(gè)實(shí)施例用于在只考慮一個(gè)書寫系統(tǒng)的字符 的情況下計(jì)算根據(jù)具有多個(gè)書寫系統(tǒng)的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的 兩個(gè)查詢之間的字符編輯距離的方法的一個(gè)實(shí)施例的流程圖8是示出根據(jù)本發(fā)明一個(gè)實(shí)施例用于識(shí)別在根據(jù)具有多個(gè)書寫系統(tǒng) 的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的兩個(gè)査詢的前綴中重疊的字符的數(shù)目 的方法的一個(gè)實(shí)施例的流程圖9是示出根據(jù)本發(fā)明一個(gè)實(shí)施例用于識(shí)別根據(jù)具有多個(gè)書寫系統(tǒng)的 語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的兩個(gè)査詢是否具有非羅馬字符的方法的 一個(gè)實(shí)施例的流程圖10是示出根據(jù)本發(fā)明一個(gè)實(shí)施例用于在根據(jù)具有多個(gè)書寫系統(tǒng)的 語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的兩個(gè)查詢都被轉(zhuǎn)換到給定書寫系統(tǒng)之后 計(jì)算這兩個(gè)査詢之間的字符編輯距離的方法的一個(gè)實(shí)施例的流程圖;以及
      圖11是示出根據(jù)本發(fā)明一個(gè)實(shí)施例用于計(jì)算根據(jù)具有多個(gè)書寫系統(tǒng) 的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的兩個(gè)査詢的查詢和短語替換概率的方 法的一個(gè)實(shí)施例的流程圖。
      具體實(shí)施例方式
      在以下描述中,參考了形成本說明書一部分的附圖,在附圖中以圖示 方式示出了可用來實(shí)現(xiàn)本發(fā)明的具體實(shí)施例。應(yīng)當(dāng)理解,在不脫離本發(fā)明 的范圍的情況下,可以利用其他實(shí)施例,并且可以進(jìn)行結(jié)構(gòu)上的改變。
      圖1給出了繪出用于識(shí)別與根據(jù)具有多個(gè)書寫系統(tǒng)的語言的一個(gè)或多 個(gè)書寫系統(tǒng)書寫的給定查詢相關(guān)的一個(gè)或多個(gè)查詢的系統(tǒng)的一個(gè)實(shí)施例。
      根據(jù)圖1的實(shí)施例,客戶端設(shè)備124a、 124b和124c可通信地耦合到網(wǎng)絡(luò) 122,該網(wǎng)絡(luò)122可包括與一個(gè)或多個(gè)局域網(wǎng)和/或廣域網(wǎng)(例如因特網(wǎng)) 的連接。根據(jù)本發(fā)明的一個(gè)實(shí)施例,客戶端設(shè)備124a、 124b和124c是通 用個(gè)人計(jì)算機(jī),其包括處理器、暫時(shí)性和永久性存儲(chǔ)設(shè)備、輸入/輸出子系 統(tǒng)和用于在構(gòu)成通用個(gè)人計(jì)算機(jī)的組件之間提供通信路徑的總線。例如, 具512 MB的RAM、 40GB的硬盤驅(qū)動(dòng)器存儲(chǔ)空間和到網(wǎng)絡(luò)的以太網(wǎng)接口 的3.5 GHz Pentium 4個(gè)人計(jì)算機(jī)。其他客戶端設(shè)備被認(rèn)為落在本發(fā)明的范 圍內(nèi),包括但不限于手持式設(shè)備、機(jī)頂終端、移動(dòng)手持機(jī)、PDA,等等。
      可通信地耦合到網(wǎng)絡(luò)122的客戶端設(shè)備124a、 124b和124c的用戶可 以向搜索提供商100提交包括一個(gè)或多個(gè)詞語的搜索査詢。用戶經(jīng)由網(wǎng)絡(luò) 122向搜索提供商100提交的搜索查詢可包括根據(jù)具有多個(gè)書寫系統(tǒng)的語 言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的一個(gè)或多個(gè)字符、詞語或短語。例如,客 戶端設(shè)備124a、 124b和124c的用戶可以制定包括日語漢字字符、日語片 假名字符和JASCII字符的查詢。類似地,客戶端設(shè)備124a、 124b和124c 的用戶可以制定包括日語羅馬字(Romaji)字符、日語平假名字符和數(shù)字 的查詢。例如,用戶可以提交根據(jù)日語片假名、平假名、漢字和ASCII書 寫系統(tǒng)書寫的以下查詢1 y 、7卜,O涙沢尻工y力。
      客戶端設(shè)備124a、 124b和124c的用戶提交的可能包括根據(jù)具有多個(gè) 書寫系統(tǒng)的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的字符和詞語的一個(gè)或多個(gè)搜 索查詢可以被搜索提供商100處的搜索引擎107用來識(shí)別相關(guān)查詢的候選 集合。構(gòu)成相關(guān)查詢的候選集合的一個(gè)或多個(gè)査詢可分別被維護(hù)在一個(gè)或 多個(gè)本地或遠(yuǎn)程數(shù)據(jù)存儲(chǔ)102和108中,數(shù)據(jù)存儲(chǔ)102和108可操作以用
      于維護(hù)可能與給定查詢相關(guān)的一個(gè)或多個(gè)查詢。根據(jù)本發(fā)明的一個(gè)實(shí)施
      例,數(shù)據(jù)存儲(chǔ)102和108可操作以用于維護(hù)具有標(biāo)識(shí)與一個(gè)或多個(gè)查詢或 詞語相關(guān)的一組査詢的條目的索引。數(shù)據(jù)存儲(chǔ)102和108所維護(hù)的索引可 以被補(bǔ)充有指示出相關(guān)的詞語或査詢的人類編輯信息。例如,數(shù)據(jù)存儲(chǔ) 102和108中的索引條目可包括根據(jù)日語片假名、平假名、漢字和ASCII
      書寫系統(tǒng)書寫的查詢"i y y卜々o涙沢尻工y力",以及根據(jù)一個(gè)或
      多個(gè)日語書寫系統(tǒng)書寫的一個(gè)或多個(gè)相關(guān)査詢或詞語。
      數(shù)據(jù)存儲(chǔ)102和108可實(shí)現(xiàn)為數(shù)據(jù)庫或能夠支持對(duì)一組或多組查詢的 檢索和存儲(chǔ)的任何其他類型的存儲(chǔ)結(jié)構(gòu),例如數(shù)據(jù)庫、CD-ROM、磁帶、 數(shù)字存儲(chǔ)庫、等等。數(shù)據(jù)存儲(chǔ)102和108中維護(hù)的查詢可包括根據(jù)具有多 個(gè)書寫系統(tǒng)的給定語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的査詢。例如,數(shù)據(jù)存 儲(chǔ)102和108中維護(hù)的查詢可包括根據(jù)日語漢字、平假名、片假名、 JASCII和羅馬字書寫系統(tǒng)書寫的查詢。
      根據(jù)本發(fā)明的另一實(shí)施例,由搜索引擎107識(shí)別的相關(guān)查詢的候選集 合可包括在統(tǒng)計(jì)上顯著地共現(xiàn)于一個(gè)或多個(gè)査詢?nèi)罩局械囊粋€(gè)或多個(gè)有序 查詢對(duì)(sequential pair of queries)。搜索引擎107可利用查詢?nèi)罩緛碜R(shí)別 包括與從客戶端設(shè)備124a、 124b和124c接收的查詢相關(guān)的一個(gè)或多個(gè)查 詢的候選集合。用戶向搜索提供商100提交的可能根據(jù)具有多個(gè)書寫系統(tǒng) 的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的多個(gè)查詢可被維護(hù)在查詢?nèi)罩窘M件 106中。査詢?nèi)罩窘M件106可實(shí)現(xiàn)為數(shù)據(jù)庫或能夠支持對(duì)根據(jù)一個(gè)或多個(gè) 書寫系統(tǒng)書寫的一個(gè)或多個(gè)查詢的存儲(chǔ)的類似存儲(chǔ)結(jié)構(gòu)。
      查詢?nèi)罩窘M件106可維護(hù)這樣的信息該信息標(biāo)識(shí)出查詢被提供給搜 索提供商100的頻率。類似地,査詢?nèi)罩窘M件106可維護(hù)這樣的信息該 信息標(biāo)識(shí)出給定査詢跟隨相關(guān)查詢的頻率。例如,在給定會(huì)話期間,進(jìn)行 搜索的用戶可提交包括根據(jù)具有多個(gè)書寫系統(tǒng)的語言(例如日語)的一個(gè) 或多個(gè)書寫系統(tǒng)書寫的詞語"intellectual property (知識(shí)產(chǎn)權(quán))"的查詢。
      在同一會(huì)話期間,用戶可提交包括根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的詞 語"patent attorney (專利代理人)"的查詢。查詢?nèi)罩窘M件106可維護(hù)標(biāo) 識(shí)出在給定用戶的會(huì)話期間査詢"patent attorney"跟隨查詢"intellectualproperty"的頻率。
      搜索引擎107可利用由查詢?nèi)罩窘M件106維護(hù)的查詢?nèi)罩緛碜R(shí)別候選 集合,該候選集合包括與從給定的客戶端設(shè)備124a、 124b和124c接收的 査詢?cè)诮y(tǒng)計(jì)上顯著地相關(guān)的一個(gè)或多個(gè)查詢。如查詢?nèi)罩窘M件106中維護(hù) 的查詢?nèi)罩舅甘镜?,被識(shí)別為與給定査詢相關(guān)的一個(gè)或多個(gè)査詢可用于 補(bǔ)充或生成相關(guān)查詢的候選集合。相關(guān)查詢的候選集合可包括根據(jù)具有多 個(gè)書寫系統(tǒng)的給定語言(例如日語)的一個(gè)或多個(gè)書寫系統(tǒng)書寫的查詢。 用于利用査詢?nèi)罩緛碜R(shí)別與給定査詢相關(guān)的一個(gè)或多個(gè)查詢的示例性方法 在與本申請(qǐng)屬于同一申請(qǐng)人的題為"SYSTEM AND METHOD FOR DETERMINING ALTERNATE SEARCH QUERIES"的美國(guó)專利申請(qǐng)No. 11/200,851和題為"MODULAR OPTIMIZED DYNAMIC SETS"的美國(guó)臨 時(shí)申請(qǐng)No. 60/736,133中有所記載,特此通過引用將上述申請(qǐng)的公開內(nèi)容 全部并入。
      相似性組件104使用由搜索引擎107識(shí)別出的候選集合來為相關(guān)查詢 的候選集合中的一個(gè)或多個(gè)查詢計(jì)算相似性得分(similarity score)。相似 性組件104可操作以用于從相關(guān)査詢的候選集合中選擇給定查詢Q'并為 Q'計(jì)算相似性得分,該相似性得分指示出Q'與從給定客戶端設(shè)備124a、 124b和124c接收的給定査詢Q的在含義上的相似性的強(qiáng)度。相似性組件 104可操作以用于根據(jù)這里描述的方法為搜索引擎107識(shí)別的相關(guān)查詢的 候選集合中的一個(gè)或多個(gè)查詢中的每一個(gè)計(jì)算相似性得分。
      相似性組件104可利用轉(zhuǎn)換組件110來為搜索引擎107識(shí)別的相關(guān)査 詢的候選集合中的每個(gè)査詢Q'計(jì)算相似性得分。根據(jù)本發(fā)明的一個(gè)實(shí)施 例,轉(zhuǎn)換組件110將給定查詢轉(zhuǎn)換成一個(gè)或多個(gè)書面格式(written format)。由轉(zhuǎn)換組件110生成的給定査詢Q'的一個(gè)或多個(gè)書面格式可被 遞送到相似性組件104,以幫助計(jì)算相似性得分。例如,相似性組件104 可針對(duì)從用戶接收的給定査詢Q和從相關(guān)查詢的候選集合中選擇的相關(guān)査 詢Q'執(zhí)行許多比較來計(jì)算準(zhǔn)確的相似性得分。但是,如前所述,相關(guān)査詢 的候選集合中的一個(gè)或多個(gè)查詢可能是根據(jù)具有多個(gè)書寫系統(tǒng)的給定語言 的一個(gè)或多個(gè)書寫系統(tǒng)來書寫的。類似地,從給定的客戶端設(shè)備124a、
      124b和124c接收的查詢可能是根據(jù)具有多個(gè)書寫系統(tǒng)的給定語言的一個(gè) 或多個(gè)書寫系統(tǒng)書寫的。相似性組件104所執(zhí)行的一個(gè)或多個(gè)比較可能要 求從用戶接收的查詢Q和從相關(guān)查詢的候選集合選擇的給定查詢Q'是根 據(jù)特定的書寫系統(tǒng)來表達(dá)的。例如,相似性組件104可能要求給定查詢Q 和相關(guān)查詢Q'的一個(gè)或多個(gè)JASCII字符被轉(zhuǎn)換成ASCII字符以便比較兩 個(gè)查詢。
      為了比較可能根據(jù)不同的書寫系統(tǒng)書寫的査詢Q和查詢Q',相似性 組件104可將給定的査詢遞送到轉(zhuǎn)換組件110。根據(jù)本發(fā)明的一個(gè)實(shí)施 例,轉(zhuǎn)換組件110可操作以用于識(shí)別與給定查詢相關(guān)聯(lián)的語言和書寫系 統(tǒng),并將該查詢轉(zhuǎn)換成一個(gè)或多個(gè)替代的書面格式。由搜索引擎107識(shí)別 的候選集合可包括根據(jù)具有多個(gè)書寫系統(tǒng)的給定語言的多種書寫系統(tǒng)書寫 的查詢,例如根據(jù)日語漢字、假名、JASCII和羅馬字書寫系統(tǒng)書寫的査 詢。轉(zhuǎn)換組件110可操作以用于識(shí)別出査詢是根據(jù)一個(gè)或多個(gè)日語書寫系 統(tǒng)書寫的并將該查詢轉(zhuǎn)換成一個(gè)或多個(gè)替代書寫系統(tǒng)。例如,轉(zhuǎn)換組件 110可操作以用于識(shí)別出査詢是根據(jù)日語片假名書寫系統(tǒng)書寫的并根據(jù)日 語羅馬字書寫系統(tǒng)來轉(zhuǎn)換該査詢。類似地,轉(zhuǎn)換組件110可操作以用于識(shí) 別出查詢包括一個(gè)或多個(gè)JASCII字符并將該一個(gè)或多個(gè)JASCII字符轉(zhuǎn)換 成ASCII字符,以幫助相似性組件104計(jì)算相似性得分。
      根據(jù)本發(fā)明的一個(gè)實(shí)施例,由相似性組件104為相關(guān)查詢的候選集合 中的一個(gè)或多個(gè)查詢計(jì)算的相似性得分被分發(fā)組件116用于從候選集合中 選擇一個(gè)或多個(gè)査詢以便進(jìn)行分發(fā)?;谙嗨菩缘梅謥磉x擇査詢使得可以 選擇與給定査詢Q在含義上最相似的查詢。例如,分發(fā)組件116可以從相 關(guān)査詢的候選集合中選擇具有超過給定閾值的相似性得分的一個(gè)或多個(gè)查 詢。類似地,分發(fā)組件可從候選集合中選擇具有最大相似性得分的W個(gè)查 詢。本領(lǐng)域的技術(shù)人員明白其他的用于利用相似性得分從候選集合中選擇 一個(gè)或多個(gè)査詢的技術(shù)。
      分發(fā)組件116可分發(fā)從候選集合選擇的一個(gè)或多個(gè)査詢。根據(jù)本發(fā)明 的一個(gè)實(shí)施例,分發(fā)組件116經(jīng)由網(wǎng)絡(luò)122將從候選集合選擇的査詢作為 "建議替代查詢"或"含義相似的查詢"顯示給用戶。作為前述內(nèi)容的替
      代或與前述內(nèi)容相結(jié)合,分發(fā)組件116可操作以用于將該選擇的一個(gè)或多
      個(gè)查詢遞送給搜索引擎107,搜索引擎107可將所選擇的查詢嵌入在搜索 結(jié)果網(wǎng)頁中,該搜索結(jié)果網(wǎng)頁可以被可通信地耦合到網(wǎng)絡(luò)122的客戶端設(shè) 備124a、 124b和124c的給定用戶所査看。
      由相似性組件104為候選集合中的一個(gè)或多個(gè)查詢計(jì)算出的相似性得 分還可用于選擇一個(gè)或多個(gè)內(nèi)容項(xiàng)(包括廣告),以便響應(yīng)于給定請(qǐng)求而 分發(fā)。根據(jù)本發(fā)明的一個(gè)實(shí)施例,廣告可被維護(hù)在上述數(shù)據(jù)存儲(chǔ)102和 108中,或被維護(hù)在一個(gè)或多個(gè)不同的數(shù)據(jù)存儲(chǔ)中(未示出)。 一個(gè)或多 個(gè)本地?cái)?shù)據(jù)存儲(chǔ)102、遠(yuǎn)程數(shù)據(jù)存儲(chǔ)108或不同的數(shù)據(jù)存儲(chǔ)可操作以用于 維護(hù)一個(gè)或多個(gè)廣告以及相關(guān)聯(lián)的對(duì)與廣告相對(duì)應(yīng)的詞語的出價(jià)。例如, 給定的廣告主可能希望顯示針對(duì)筆記本計(jì)算機(jī)的給定廣告。廣告主因此可 為詞語"notebook computer"出價(jià),并且識(shí)別出將要響應(yīng)于包括詞語 "notebook computer"的査詢而顯示的廣告。當(dāng)搜索提供商100接收到查 詢時(shí),搜索引擎107可搜索本地和遠(yuǎn)程數(shù)據(jù)存儲(chǔ)102和108,或者一個(gè)或 多個(gè)不同的數(shù)據(jù)存儲(chǔ),以判定是否有一個(gè)或多個(gè)廣告主為構(gòu)成所接收的査 詢的一個(gè)或多個(gè)詞語提供了出價(jià)。如果識(shí)別出針對(duì)構(gòu)成查詢的詞語的一個(gè) 或多個(gè)出價(jià),那么利用分發(fā)組件116,與對(duì)一個(gè)或多個(gè)詞語的出價(jià)相關(guān)聯(lián) 的廣告可被檢索出并在用戶的客戶端設(shè)備124a、 124b和124c上被顯示給 用戶。如果用戶選擇了所顯示的給定廣告,則與所選擇的廣告相關(guān)聯(lián)的廣 告主可以根據(jù)該廣告主的出價(jià)而被收取某一貨幣金額。
      但是,廣告主可選擇為只根據(jù)具有多個(gè)書寫系統(tǒng)的語言的單個(gè)書寫系 統(tǒng)書寫的詞語出價(jià)。例如,廣告主可選擇為只根據(jù)日語平假名書寫系統(tǒng)書 寫的詞語出價(jià)。但是,如前所述,由客戶端設(shè)備124a、 124b和124c的用 戶提交的一個(gè)或多個(gè)搜索查詢可包括根據(jù)一個(gè)或多個(gè)書寫系統(tǒng)書寫的詞語 和短語。搜索引擎107因而可利用具有超過給定閾值的相似性得分的查詢 來擴(kuò)展響應(yīng)于給定查詢而檢索出的廣告的范圍。根據(jù)本發(fā)明的一個(gè)實(shí)施 例,搜索引擎107識(shí)別響應(yīng)于構(gòu)成具有超過給定閾值的相似性得分的一個(gè) 或多個(gè)査詢的詞語的一個(gè)或多個(gè)廣告。被識(shí)別為響應(yīng)于構(gòu)成具有超過給定 閾值的相似性得分的查詢的詞語的一個(gè)或多個(gè)廣告被選擇以便分發(fā)到一個(gè)
      或多個(gè)客戶端設(shè)備124a、 124b和124c。
      例如,客戶端設(shè)備124a、 124b和124c的用戶可制定根據(jù)日語漢字和 羅馬字書寫系統(tǒng)兩者書寫的日語詞語組成的搜索查詢Q。用戶可經(jīng)由網(wǎng)絡(luò) 122將該査詢提交給搜索提供商100。搜索引擎107可確定沒有廣告主為 用戶所利用的漢字和羅馬字詞語提供了出價(jià)。作為前述內(nèi)容的替代或與前 述內(nèi)容相結(jié)合,搜索引擎107可確定顯示對(duì)應(yīng)于與用戶所利用的漢字和羅 馬字詞語相關(guān)聯(lián)的出價(jià)的廣告將會(huì)產(chǎn)生很少的收入,或者甚至不產(chǎn)生收 入。但是,搜索引擎107可利用構(gòu)成從候選集合中選擇的具有超過給定閾 值的相似性得分的一個(gè)或多個(gè)査詢的詞語來識(shí)別具有相關(guān)聯(lián)的出價(jià)的一個(gè) 或多個(gè)詞語。類似,搜索引擎107可利用構(gòu)成從候選集合中選擇的具有超 過給定閾值的相似性得分的一個(gè)或多個(gè)查詢的詞語來識(shí)別具有超過給定閾 值的出價(jià)的一個(gè)或多個(gè)詞語。搜索引擎107然后可利用具有相關(guān)聯(lián)的出價(jià) 的一個(gè)或多個(gè)詞語,或者具有相關(guān)聯(lián)的超過給定閾值的出價(jià)的一個(gè)或多個(gè) 詞語,來選擇響應(yīng)于由用戶制定的搜索查詢Q的一個(gè)或多個(gè)廣告。
      根據(jù)另一示例,假定從候選集合中選擇的具有超過給定閾值的相似性 得分的給定査詢Q'包括平假名詞語,而上述由用戶制定的查詢Q包括漢 字和羅馬字詞語。搜索引擎可利用構(gòu)成査詢Q'的一個(gè)或多個(gè)平假名詞語來 判定是否有一個(gè)或多個(gè)廣告主為構(gòu)成查詢Q'的平假名詞語出了價(jià)。類似 地,搜索引擎可判定是否有一個(gè)或多個(gè)廣告主為構(gòu)成查詢Q'的一個(gè)或多個(gè) 平假名詞語提供了超過給定閾值的出價(jià)。搜索引擎107可檢索出具有相關(guān) 聯(lián)的對(duì)構(gòu)成查詢Q'的詞語的出價(jià)的一個(gè)或多個(gè)廣告,并將該一個(gè)或多個(gè)廣 告遞送到分發(fā)組件。根據(jù)本發(fā)明的一個(gè)實(shí)施例,搜索引擎107檢索出具有 最大的相關(guān)聯(lián)的對(duì)于構(gòu)成查詢Q'的一個(gè)或多個(gè)詞語的出價(jià)的一個(gè)或多個(gè)廣 告。分發(fā)組件116隨后可以將該一個(gè)或多個(gè)廣告遞送給提交了査詢Q的用 戶。
      雖然上述實(shí)施例描述了對(duì)査詢的接收和處理,但是圖1所示的搜索提 供商100系統(tǒng)不限于接收查詢并計(jì)算査詢的相似性得分,而是還可用于為 構(gòu)成一個(gè)或多個(gè)文本串的一個(gè)或多個(gè)詞語計(jì)算相似性得分??蛻舳嗽O(shè)備 124a、 124b和124c的用戶可向搜索提供商100遞送包括一個(gè)或多個(gè)詞語
      的一個(gè)或多個(gè)文本串,包括但不限于根據(jù)具有多個(gè)書寫系統(tǒng)的語言的一個(gè) 或多個(gè)書寫系統(tǒng)書寫的短語、句子、段落和文檔。相應(yīng)地,搜索提供商
      100可將這一個(gè)或多個(gè)文本串的日志記錄在一個(gè)或多個(gè)日志文件中。搜索 提供商100可操作以用于從其日志文件中識(shí)別出包括一個(gè)或多個(gè)項(xiàng)目的候 選集合,其中給定項(xiàng)目包括與由客戶端設(shè)備124a、 124b和124c的給定用 戶遞送的一個(gè)或多個(gè)詞語相關(guān)的一組或多組詞語。例如,候選集合中的給 定項(xiàng)目可包括短語或句子。類似地,候選集合中的給定項(xiàng)目可包括段落或 整個(gè)文檔。搜索提供商可為候選集合中的一個(gè)或多個(gè)項(xiàng)目計(jì)算相似性得 分,該相似性得分指示出一個(gè)項(xiàng)目與從客戶端設(shè)備124a、 124b和124c接 收的一個(gè)或多個(gè)詞語在含義上的相似性的強(qiáng)度。
      圖2示出了用于從候選集合中選擇在含義上與給定査詢Q相關(guān)的一個(gè) 或多個(gè)查詢Q'的方法的一個(gè)實(shí)施例,其中查詢Q和Q'是根據(jù)具有多個(gè)書 寫系統(tǒng)的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的。如圖2所示,從給定用戶接 收搜索查詢,步驟205。該査詢可以是從可通信地耦合到諸如因特網(wǎng)之類 的網(wǎng)絡(luò)的客戶端設(shè)備接收的,并且可包括根據(jù)具有多個(gè)書寫系統(tǒng)的語言的 一個(gè)或多個(gè)書寫系統(tǒng)的組合來書寫的一個(gè)或多個(gè)詞語或短語。例如,從用 戶接收的查詢可包括根據(jù)漢字、片假名和平假名書寫系統(tǒng)書寫的日語詞 語。
      識(shí)別由與用戶制定的給定査詢Q相關(guān)的査詢組成的候選集合,步驟 210。候選集合可由根據(jù)與用戶的查詢相關(guān)聯(lián)的語言的一個(gè)或多個(gè)書寫系 統(tǒng)書寫的査詢組成。例如,給定査詢Q可包括根據(jù)日語片假名書寫系統(tǒng)書 寫的詞語,例如査詢"歹夕亍y"。相關(guān)查詢的候選集合因而可以包括根 據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)的一個(gè)或多個(gè)組合書寫的一個(gè)或多個(gè)査詢。例 如,與上述平假名查詢",夕亍y"相關(guān)的査詢的候選集合可包括羅馬字 査詢"rakuten"、漢字查詢"楽天"、平假名查詢"b〈TA/',等等。
      與給定查詢Q相關(guān)的查詢的候選集合可利用一個(gè)或多個(gè)查詢?nèi)罩緛砩?成。根據(jù)本發(fā)明的一個(gè)實(shí)施例,査詢?nèi)罩究蓸?biāo)識(shí)在給定的査詢會(huì)話期間由 用戶制定的一個(gè)或多個(gè)查詢。例如,在給定的查詢會(huì)話期間,用戶可以制 定包括根據(jù)日語平假名和漢字書寫系統(tǒng)書寫的詞語的査詢。在同一查詢會(huì)
      話期間,用戶還可制定包括根據(jù)日語片假名和羅馬字書寫系統(tǒng)書寫的詞語 的査詢??梢詧?zhí)行分析以判定兩個(gè)査詢是否在統(tǒng)計(jì)上顯著地共現(xiàn)于一個(gè)或
      多個(gè)査詢?nèi)罩局小8鶕?jù)本發(fā)明的一個(gè)實(shí)施例,統(tǒng)計(jì)顯著性(statistical significance)閾值可用于選擇如一個(gè)或多個(gè)査詢?nèi)罩舅甘镜呐c給定查詢 Q最相關(guān)的一個(gè)或多個(gè)查詢。
      可以利用如一個(gè)或多個(gè)査詢?nèi)罩舅甘镜谋蛔R(shí)別為在統(tǒng)計(jì)上顯著地與 給定查詢相關(guān)或者以超過給定閾值的統(tǒng)計(jì)顯著性與給定查詢相關(guān)的一個(gè)或 多個(gè)査詢來生成候選集合。構(gòu)成相關(guān)查詢的候選集合的一個(gè)或多個(gè)查詢可 根據(jù)在以上標(biāo)識(shí)出的通過引用全部并入的申請(qǐng)中描述的用于利用查詢?nèi)罩?來確定統(tǒng)計(jì)上顯著相關(guān)的査詢的方法來選擇。
      從相關(guān)查詢的候選集合選擇給定查詢Q',步驟215。根據(jù)圖2所示的 實(shí)施例,為所選擇的查詢Q'計(jì)算相似性得分,步驟220。為給定査詢Q'計(jì) 算相似性得分提供了指示出查詢Q'的含義與根據(jù)具有多個(gè)書寫系統(tǒng)的語言 的一個(gè)或多個(gè)書寫系統(tǒng)書寫的給定査詢Q的含義的相似性的強(qiáng)度的數(shù)值。 表A示出了可用于為給定査詢Q'計(jì)算相似性得分的式子的一個(gè)實(shí)施例。
      表A中給出的式子可用于計(jì)算指示出給定查詢Q'與給定查詢Q在含 義上的相似性的強(qiáng)度的得分,所述給定査詢Q可以是根據(jù)一個(gè)或多個(gè)日語 書寫系統(tǒng)來書寫的,所述一個(gè)或多個(gè)日語書寫系統(tǒng)包括但不限于漢字、假 名、JASCII、假名、片假名、羅馬字和平假名。本領(lǐng)域的技術(shù)人員明白, 表A中所示的式子可以被修改,以支持為其他具有多個(gè)書寫系統(tǒng)的語言計(jì) 算相似性得分。
      相似性得分(Q,) <formula>formula see original document page 22</formula>
      表A
      根據(jù)表A中給出的式子,Q表示根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的 給定查詢。Q,表示從與查詢Q相關(guān)的查詢的候選集合中選擇的查詢。丄ew 是用于將所有日語字符轉(zhuǎn)換成羅馬字符之后計(jì)算Q和Q'之間的字符編輯
      距離的函數(shù)。丄W"是用于在將所有日語字符轉(zhuǎn)換為羅馬字符并去除空格
      后計(jì)算Q和Q'之間的字符編輯距離的函數(shù)。是在將所有日語字符轉(zhuǎn) 換成羅馬字符之后Q和Q'之間的單詞編輯距離。"&a是用于識(shí)別Q是否 包含任何未出現(xiàn)在Q'中的數(shù)字以及識(shí)別Q'是否包含任何未出現(xiàn)在Q中的 數(shù)字的函數(shù)。i^w力W是用于判定Q或Q'是否包含漢字字符并且在包含的 情況下識(shí)別Q和Q'之間的漢字不一致的函數(shù)。C^r是這樣一個(gè)函數(shù),該函 數(shù)用于計(jì)算在每個(gè)查詢中的所有日語字符都已被轉(zhuǎn)換成羅馬字符之后,從 每個(gè)査詢的最左邊字符起直到第一個(gè)字符不一致為止,Q和Q'共同具有的 字符的數(shù)目。丄eW是用于計(jì)算在所有漢字字符都已被轉(zhuǎn)換成假名字符并且 所有的非日語字符都被去除之后Q和Q'之間的字符編輯距離的函數(shù)。 戶/^m7z是用于計(jì)算在用戶查詢會(huì)話的日志中查詢Q'跟隨著查詢Q的査詢 替換概率的函數(shù)。表A中所示的相似性得分函數(shù)所利用的函數(shù)的示例在圖 3至圖11中示出。
      執(zhí)行檢查以判定是否已為候選集合中的一個(gè)或多個(gè)査詢計(jì)算相似性得 分,步驟225。如果候選集合中的一個(gè)或多個(gè)査詢不具有相關(guān)聯(lián)的相似性 得分,則從候選集合中選擇另外的査詢Q',步驟215?;蛘?,如果已經(jīng)為 候選集合中的一個(gè)或多個(gè)查詢計(jì)算了相似性得分,則從候選集合中選擇給 定查詢Q',步驟230。執(zhí)行檢査以判定與從候選集合中選擇的查詢Q'相關(guān) 聯(lián)的相似性得分是否超過給定的相似性得分閾值,步驟235。根據(jù)本發(fā)明 的一個(gè)實(shí)施例,相似性得分閾值包括可用于執(zhí)行與下述相似性得分的比較 的數(shù)值該相似性得分與給定查詢Q'相關(guān)聯(lián)。因?yàn)橄嗨菩缘梅种甘境鼋o定 查詢Q,與查詢Q在含義上的相似性的強(qiáng)度,因此對(duì)相似性得分閾值的使 用幫助了從候選集合中選擇在含義上與查詢Q最相似的一個(gè)或多個(gè)査詢。
      如果與給定査詢Q'相關(guān)聯(lián)的相似性得分超過相似性得分閾值,則查詢 Q'被添加到分發(fā)集合,步驟245。根據(jù)本發(fā)明的一個(gè)實(shí)施例,分發(fā)集合包 括從候選集合中選擇的具有超過相似性得分閾值的相似性得分的一個(gè)或多 個(gè)查詢。如果與給定査詢Q'相關(guān)聯(lián)的相似性得分不超過相似性得分閾值, 則査詢Q'不被添加到分發(fā)集合,步驟240。
      執(zhí)行檢査以判定在候選集合中是否有另外的査詢需要分析,步驟
      250。如果在候選中有一個(gè)或多個(gè)査詢需要分析,則從候選集合中選擇另 外的査詢Q,,步驟230。或者,在候選集合中的所有査詢都已被分析,并 且分發(fā)集合已被填充以超過相似性得分閾值的一個(gè)或多個(gè)查詢之后,分發(fā) 集合中的一個(gè)或多個(gè)查詢被分發(fā),步驟255。
      超過相似性得分閾值的查詢的分發(fā)集合中的一個(gè)或多個(gè)查詢可被遞送 給提交了査詢Q的用戶。根據(jù)本發(fā)明的一個(gè)實(shí)施例,分發(fā)集合中的一個(gè)或 多個(gè)查詢可在結(jié)果網(wǎng)頁中被顯示給用戶。例如,用戶可被呈現(xiàn)以網(wǎng)頁,該 網(wǎng)頁包括結(jié)果,例如指向響應(yīng)于查詢Q的內(nèi)容項(xiàng)的鏈接,以及構(gòu)成分發(fā)集 合的在含義上與查詢Q最相似的一個(gè)或多個(gè)Q'查詢。遞送給給定用戶的 分發(fā)集合中的一個(gè)或多個(gè)査詢可根據(jù)相似性得分被顯示在排名列表中,以 向用戶指示出給定查詢Q,與查詢Q在含義上的相似性的相對(duì)強(qiáng)度。
      圖3至11示出了表A中給出的可用于為從查詢的候選集合選擇的給 定查詢Q'計(jì)算相似性得分的函數(shù)的實(shí)施例。如前所述,在表A中示出并 在圖3至11中進(jìn)一步描述的多個(gè)函數(shù)可用于計(jì)算指示出給定查詢Q'與根 據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的查詢Q在含義上的相似性的強(qiáng)度的相似 性得分。但是,本領(lǐng)域的技術(shù)人員明白,圖3至11所示的函數(shù)的實(shí)施例 是示例性的,而并不想要限于日語語言和書寫系統(tǒng),并且可以被修改以支 持為其他具有多個(gè)書寫系統(tǒng)的語言計(jì)算相似性得分。本領(lǐng)域的技術(shù)人員還 明白,圖3至11所示的函數(shù)并不限于為包括與給定查詢相關(guān)的一個(gè)或多 個(gè)查詢的候選集合計(jì)算相似性得分,而是可用于為包括根據(jù)多個(gè)技術(shù)選擇 的一個(gè)或多個(gè)查詢的查詢候選集合計(jì)算相似性得分。此外,本領(lǐng)域的技術(shù) 人員明白,圖3至11所示的函數(shù)并不限于為包括一個(gè)或多個(gè)查詢的候選 集合計(jì)算相似性得分,而是可被修改以為包括但不限于短語、句子、段落 和文檔在內(nèi)的一組或多組詞語計(jì)算相似性得分。
      圖3示出了用于計(jì)算根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的給定查詢Q 和從査詢的候選集合中選擇的查詢Q'之間的字符編輯距離的方法的一個(gè)實(shí) 施例。圖3中給出的方法示出了表A所示的相似性得分函數(shù)所利用的/evA: 函數(shù)的一個(gè)實(shí)施例。
      將構(gòu)成査詢Q的一個(gè)或多個(gè)字符轉(zhuǎn)換成羅馬字符,步驟305,其中查
      詢Q可能是根據(jù)諸如漢字、片假名、平假名等等之類的一個(gè)或多個(gè)日語書 寫系統(tǒng)書寫的。從由一個(gè)或多個(gè)查詢組成的候選集合中選擇給定査詢Q',
      步驟310。從候選集合中選擇的查詢Q'可能是根據(jù)與查詢Q相關(guān)聯(lián)的語言 的一個(gè)或多個(gè)書寫系統(tǒng)來書寫的。例如,Q'可能是根據(jù)與查詢Q相同的書 寫系統(tǒng)書寫的,或者是根據(jù)諸如日語羅馬字書寫系統(tǒng)、曰語假名書寫系統(tǒng) 等等之類的一個(gè)或多個(gè)替代的日語書寫系統(tǒng)書寫的。執(zhí)行檢查以判定構(gòu)成 Q'的字符是否是羅馬字符形式的,步驟315。如果査詢Q'不是羅馬字符形 式的,則構(gòu)成Q'的一個(gè)或多個(gè)字符被轉(zhuǎn)換成羅馬字符,步驟320。如果構(gòu) 成Q'的一個(gè)或多個(gè)詞語已經(jīng)是羅馬字符形式的,或者在Q'中的所有字符 都被轉(zhuǎn)換成羅馬字符形式之后,執(zhí)行計(jì)算以識(shí)別查詢Q和查詢Q'之間的 字符編輯距離,步驟325。字符編輯距離值可以被提供給表A中示出的相 似性得分函數(shù)以為Q'計(jì)算相似性得分。
      圖4示出了用于計(jì)算根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的給定查詢Q 和從査詢的候選集合中選擇的査詢Q'之間的字符編輯距離的方法的一個(gè)實(shí) 施例。圖4中示出的實(shí)施例提供了表A所示的相似性得分函數(shù)所使用的 /ev^函數(shù)的一個(gè)實(shí)施例。
      根據(jù)圖4所示的實(shí)施例,將根據(jù)諸如漢字、片假名、平假名等等之類 的一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的查詢Q轉(zhuǎn)換成羅馬字符形式,步驟 405。然后,去除羅馬字符形式的查詢Q中出現(xiàn)的所有空格字符,步驟 408。例如,給定査詢Q可包括漢字詞語"電車男"。在轉(zhuǎn)換到羅馬字符 形式之后,査詢Q可包括詞語"densha otoko",而在去除空格之后,查 詢Q可包括字符"denshaotoko"。
      從包括一個(gè)或多個(gè)查詢的候選集合中選擇給定查詢Q',步驟410。執(zhí) 行檢查以判定Q'是否是羅馬字符形式的,步驟415。如果查詢Q'不是羅馬 字符形式的,則構(gòu)成Q'的一個(gè)或多個(gè)字符被轉(zhuǎn)換成羅馬字符,步驟420。 如果構(gòu)成Q,的字符已經(jīng)是羅馬字符形式的,或者在構(gòu)成查詢Q'的字符都 已被轉(zhuǎn)換成羅馬字符形式之后,查詢Q'內(nèi)的所有空格被去除,步驟425。 然后,計(jì)算査詢Q和Q,的羅馬字符形式之間的字符編輯距離,步驟430。 所計(jì)算出的查詢Q和Q'之間的字符編輯距離可被表A中所示的相似性得
      分函數(shù)用來為Q'計(jì)算相似性得分。
      圖5示出了表A中所示的won/r函數(shù)的一個(gè)實(shí)施例。圖5中所示的
      vvw會(huì)函數(shù)的實(shí)施例支持計(jì)算根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的給定査
      詢Q和從査詢的候選集合選擇的査詢Q'之間的單詞編輯距離。根據(jù)本發(fā) 明的一個(gè)實(shí)施例,給定査詢Q和查詢Q,之間的單詞編輯距離是值一
      ("1")與下述商之間的差Q和Q'中的獨(dú)特空格分隔共現(xiàn)單詞的數(shù)目 與Q和Q'兩者中的獨(dú)特空格分隔單詞的總數(shù)的商。
      將構(gòu)成根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的給定査詢Q的字符轉(zhuǎn)換成 羅馬字符形式,步驟505。然后,從查詢的候選集合中選擇給定査詢Q', 步驟506。執(zhí)行檢査以判定査詢Q'是否是羅馬字符形式的,步驟508。如 果查詢Q'不是羅馬字符形式的,則構(gòu)成Q'的字符被轉(zhuǎn)換成羅馬字符,步 驟510。如果構(gòu)成査詢Q'的字符已經(jīng)是羅馬字符形式的,或者在構(gòu)成Q'的 字符已被轉(zhuǎn)換成羅馬字符形式之后,識(shí)別Q和Q'中的獨(dú)特空格分隔共現(xiàn) 單詞的數(shù)目,步驟515。計(jì)算Q和Q'中的獨(dú)特空格分隔共現(xiàn)單詞的數(shù)目與 Q和Q'兩者中的獨(dú)特空格分隔單詞的總數(shù)的商,步驟520。根據(jù)本發(fā)明的 一個(gè)實(shí)施例,獨(dú)特空格分隔共現(xiàn)單詞的數(shù)目包括在給定査詢Q和給定査詢 Q,兩者之中都出現(xiàn)的獨(dú)特單詞的數(shù)目。此外,Q和Q,兩者中的獨(dú)特空格分 隔單詞的總數(shù)包括給定査詢Q和査詢Q'中的獨(dú)特空格分隔單詞的總和。 計(jì)算值一 ("1")和計(jì)算出的商之間的差,步驟525,并將其賦予
      "wordr"寄存器,步驟530。根據(jù)本發(fā)明的一個(gè)實(shí)施例,"wordr"寄存 器包括用于存儲(chǔ)給定數(shù)值的存儲(chǔ)設(shè)備。賦予"wordr"寄存器的值可被表A 中所示的相似性得分函數(shù)用來為查詢Q'計(jì)算相似性得分。
      例如,羅馬字符形式的給定查詢Q可由詞語"kurumakemuri"組成。 類似地,羅馬字符形式的給定查詢Q'可由詞語"somkemuri"組成。Q和 Q,中的獨(dú)特空格分隔共現(xiàn)單詞的數(shù)目是一 ("1"),即單詞"kemuri", 其中Q和Q,兩者中獨(dú)特空格分隔單詞的總數(shù)是三("3"),即單詞
      "kuruma" 、 "sora"和"kemuri"。因此,Q和Q,中的獨(dú)特空格分隔共 現(xiàn)單詞的數(shù)目與Q和Q,兩者中的獨(dú)特空格分隔單詞的總數(shù)的商為1/3。此 外,一 ()與計(jì)算出的商之間的差是2/3。值2/3可被賦予"wordr"
      寄存器,并且可被表A中所示的相似性得分函數(shù)用來為查詢Q'計(jì)算相似
      性得分。
      圖6示出了這樣一個(gè)方法的一個(gè)實(shí)施例,該方法用于判定與從查詢的 候選集合選擇的査詢Q'相比,某一數(shù)字是否是根據(jù)一個(gè)或多個(gè)日語書寫系 統(tǒng)書寫的給定查詢Q所特有的。圖6中給出的方法提供了表A所示的相似 性得分函數(shù)所使用的^'g^函數(shù)的一個(gè)實(shí)施例。
      從由根據(jù)一個(gè)或多個(gè)書寫系統(tǒng)書寫的查詢組成的候選集合中選擇給定 查詢Q',步驟605。執(zhí)行檢查以判定給定查詢Q中的數(shù)字是否未出現(xiàn)在査 詢Q'中。例如,給定查詢Q可包含日語漢字?jǐn)?shù)字"六十八"(對(duì)應(yīng)于由 阿拉伯?dāng)?shù)字"68"所表達(dá)的值),并且給定查詢Q'可包含日語漢字?jǐn)?shù)字 "九十八"(對(duì)應(yīng)于由阿拉伯?dāng)?shù)字"98"所表達(dá)的值)。在步驟610執(zhí)行 的檢查因此確定日語漢字?jǐn)?shù)字"六"是查詢Q所特有的,因?yàn)樗闯霈F(xiàn)在 査詢Q'中。類似地,給定查詢Q可包括日語漢字字符和阿拉伯?dāng)?shù)字"楽 天2005",并且給定查詢Q'可包括日語漢字字符和阿拉伯?dāng)?shù)字"楽天 2004"。在步驟610執(zhí)行的檢査將會(huì)確定阿拉伯?dāng)?shù)字5是査詢Q所特有 的,因?yàn)樗闯霈F(xiàn)在査詢Q'中。
      如果某一數(shù)字被識(shí)別為出現(xiàn)在查詢Q中,但未出現(xiàn)在查詢Q'中,則 "digit"寄存器被設(shè)置到值一 ("1"),表明查詢Q包含不在査詢Q'中 的數(shù)字,步驟620。根據(jù)本發(fā)明的一個(gè)實(shí)施例,"digit"寄存器包括用于 存儲(chǔ)給定數(shù)值的存儲(chǔ)設(shè)備。
      或者,如果Q'包含出現(xiàn)在查詢Q中的一個(gè)或多個(gè)數(shù)字中的每一個(gè), 則執(zhí)行額外的檢査以判定查詢Q'中的數(shù)字是否未出現(xiàn)在查詢Q中,步驟 615。如果查詢Q,包含未出現(xiàn)在查詢Q中的數(shù)字,則上述"digit"寄存器 被設(shè)置到值一 ("1"),表明査詢Q,包含Q,所特有的數(shù)字,步驟620。 或者,如果査詢Q包含Q'中的一個(gè)或多個(gè)數(shù)字中的每一個(gè),則"digit"寄 存器被設(shè)置到零("0"),步驟625,表明查詢Q'中的一個(gè)或多個(gè)數(shù)字 出現(xiàn)查詢Q中,反之亦然。賦予"digit"寄存器的值零("0")或一 ("1")可被表A中所示的相似性得分函數(shù)用來為査詢Q,計(jì)算相似性得 分。
      圖7給出了被表A中所示的相似性得分函數(shù)使用的^m力W函數(shù)的一個(gè)
      實(shí)施例。接收可能根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的給定查詢Q,步驟 705。執(zhí)行檢査以判定査詢Q是否包含一個(gè)或多個(gè)日語漢字字符,步驟 710。如果查詢Q不包含任何漢字字符,則"kanjid"寄存器被設(shè)置到零 ("0"),步驟708,其中"kanjid"寄存器可包括用于存儲(chǔ)給定數(shù)值的 存儲(chǔ)設(shè)備?;蛘?,如果査詢Q包含一個(gè)或多個(gè)漢字字符,則從查詢的候選 集合中選擇査詢Q',步驟715。
      執(zhí)行檢査以判定從候選集合中選擇的查詢Q'是否包含一個(gè)或多個(gè)漢字 字符,步驟720。如果查詢Q,不包含任何漢字字符,則上述"kanjid"寄 存器被設(shè)置到零("0"),步驟708。相反,如果Q'包含一個(gè)或多個(gè)漢 字字符,則Q和Q'中的一個(gè)或多個(gè)非漢字字符被去除,步驟722。然后識(shí) 別查詢Q和查詢Q'中共現(xiàn)的獨(dú)特漢字字符的數(shù)目,步驟725。例如,如果 在去除非漢字字符后查詢Q由漢字字符"楽天巿場(chǎng)"組成,并且如果在去 除非漢字字符后查詢Q,由漢字字符"楽天"組成,則Q和Q'中的獨(dú)特共 現(xiàn)漢字字符的數(shù)目是二 ( "2"),即"楽天"。
      然后識(shí)別Q和Q'兩者之中的獨(dú)特漢字字符的總數(shù),步驟727。例如, 在由漢字字符"楽天巿場(chǎng)"組成的Q和由漢字字符"楽天"組成的Q'兩 者之中的獨(dú)特漢字字符的總數(shù)是六("6"),即來自查詢Q的獨(dú)特漢字 字符"楽天巿場(chǎng)"和來自查詢Q'的獨(dú)特漢字字符"楽天"。計(jì)算共現(xiàn)漢字 字符的數(shù)目與總獨(dú)特漢字字符的商,步驟730。將"kanjid"寄存器設(shè)置到 一 ("1")與計(jì)算出的商之間的差值,步驟735。 "kanjid"寄存器的值 可被表A中所示的相似性得分函數(shù)用來為Q'計(jì)算相似性得分。
      圖8示出了用于識(shí)別根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫給定査詢Q和 從查詢的候選集合中選擇的查詢Q,的前綴中重疊的字符數(shù)目的方法的一個(gè) 實(shí)施例,該方法開始于比較每個(gè)査詢的最左邊字符,并且繼續(xù)到第一個(gè)字 符不一致為止。圖8中給出的方法示出了被表A中所示的相似性得分函數(shù) 利用的wr函數(shù)的一個(gè)實(shí)施例。
      將根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的給定査詢Q轉(zhuǎn)換成羅馬字符形 式,步驟805。從查詢的候選集合中選擇查詢Q',步驟810。執(zhí)行檢査以
      判定構(gòu)成査詢Q'的一個(gè)或多個(gè)字符是否是羅馬字符形式的,步驟815。如 果構(gòu)成查詢Q'的一個(gè)或多個(gè)字符不是羅馬字符形式的,則將這些字符轉(zhuǎn)換 成羅馬字符,步驟820。如果構(gòu)成Q,的字符已經(jīng)是羅馬字符形式的,或者 在構(gòu)成Q,的一個(gè)或多個(gè)字符已被轉(zhuǎn)換成羅馬字符形式之后,選擇查詢Q 和査詢Q'的第一羅馬字符,步驟825。
      執(zhí)行檢査以判定從査詢Q中選擇的第一字符和從査詢Q'中選擇的第 一字符是否匹配,步驟835。如果從Q和Q'選擇的第一字符不匹配,則處 理終止,步驟830?;蛘撸绻x擇的字符匹配,則使字符匹配計(jì)數(shù)寄存 器遞增,步驟850,表明識(shí)別出查詢Q和查詢Q'的字符匹配。根據(jù)本發(fā)明 的一個(gè)實(shí)施例,字符匹配計(jì)數(shù)寄存器被初始化為值零("0"),并且在 來自查詢Q和査詢Q'的字符被識(shí)別為匹配時(shí)被遞增。
      選擇來自Q和Q'的下一字符,步驟840,并且執(zhí)行檢查以判定下一字 符是否匹配,步驟835。如果從Q和Q'選擇的字符不匹配,則字符匹配計(jì) 數(shù)寄存器不被遞增,并且處理結(jié)束,步驟830。當(dāng)處理終止時(shí),步驟 830,字符匹配計(jì)數(shù)寄存器中的值將指示出Q和Q'中匹配的字符的數(shù)目。 字符匹配計(jì)數(shù)寄存器中的值被表A中所示的相似性得分函數(shù)利用來為查詢 Q'計(jì)算相似性得分。
      圖9示出了用于識(shí)別根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的給定查詢Q 或者從査詢的候選集合中選擇的查詢Q'是否包含非羅馬字符的方法的一個(gè) 實(shí)施例。圖9給出的實(shí)施例示出了可被表A中所示的相似性得分函數(shù)使用 的y,腦e函數(shù)。
      接收根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的給定查詢Q,步驟905。執(zhí) 行檢査以判定查詢Q是否包含一個(gè)或多個(gè)非羅馬字符,步驟910。如果查 詢Q包含一個(gè)或多個(gè)非羅馬字符,則"Japanese"寄存器被設(shè)置到值一 ("1"),步驟908。根據(jù)本發(fā)明的一個(gè)實(shí)施例,"Japanese"寄存器包 括用于存儲(chǔ)給定數(shù)值的存儲(chǔ)設(shè)備。
      如果查詢Q不包含一個(gè)或多個(gè)非羅馬字符,則從包括一個(gè)或多個(gè)査詢 的候選集合中選擇査詢Q,,步驟915。執(zhí)行檢查以判定查詢Q'是否包含一 個(gè)或多個(gè)非羅馬字符,步驟920。如果査詢Q'包含一個(gè)或多個(gè)非羅馬字
      符,則"janapese"寄存器被設(shè)置到值("1"),步驟908。或者,如果 Q,僅包含非羅馬字符,則"Japanese"寄存器被設(shè)置到值零("0"),步 驟922,并且處理隨后終止,步驟925。 "Japanese"寄存器中維護(hù)的值可 被表A中所示的相似性得分函數(shù)利用來為查詢Q'計(jì)算相似性得分。
      圖10示出了用于在所有漢字和非日語字符已被從每個(gè)相應(yīng)的查詢中 去除之后確定給定査詢Q和查詢Q,之間的字符編輯距離的方法的一個(gè)實(shí) 施例。圖10給出的方法示出了可被表A中所示的相似性得分函數(shù)利用的 fevA函數(shù)的一個(gè)實(shí)施例。
      如圖10所示,從查詢的候選集合中選擇給定査詢Q',步驟1005。執(zhí) 行檢査以判定根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的查詢Q,或給定査詢Q 是否包含一個(gè)或多個(gè)漢字字符,步驟1010。如果查詢Q或査詢Q'包含一 個(gè)或多個(gè)漢字字符,則每個(gè)相應(yīng)的查詢中的漢字字符被轉(zhuǎn)換成假名字符, 步驟1015。例如,查詢Q可由漢字字符和阿拉伯?dāng)?shù)字兩者組成,例如 "人200"。在將漢字字符轉(zhuǎn)換成假名字符之后,查詢Q可包括字符"t> ^ 200"。
      如果查詢Q或査詢Q'都不包含漢字字符,或者在每個(gè)相應(yīng)查詢中的 所有漢字字符都已被轉(zhuǎn)換成假名字符之后,執(zhí)行額外的檢查以判定任一查 詢是否包含非日語字符,步驟1020。根據(jù)本發(fā)明的一個(gè)實(shí)施例,非日語字 符包括不是根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的字符。例如,如果查詢Q 包括假名字符和阿拉伯?dāng)?shù)字,例如"!>i: 200",則阿拉伯?dāng)?shù)字"200"可 包括非日語字符。
      如果查詢Q或查詢Q'包含非日語字符,則非日語字符被去除,步驟 1025。參考上述示例,在從査詢Q去除非日語字符即阿拉伯?dāng)?shù)字"200" 之后,查詢Q可包括假名字符"t>ir"。如果查詢Q或査詢Q'都不包含 非日語字符,或者在所有非日語字符都已被去除之后,Q和Q,之間字符編 輯距離被計(jì)算,步驟1030。查詢Q和查詢Q'之間的字符編輯距離可被表 A中所示的相似性得分函數(shù)用來為Q'計(jì)算相似性得分。
      圖11給出了被表A中所示的相似性得分函數(shù)利用的函數(shù)的一 個(gè)實(shí)施例。根據(jù)本發(fā)明的一個(gè)實(shí)施例,^"mz>z函數(shù)計(jì)算給定查詢Q'跟隨
      給定查詢Q的査詢替換概率,并且也可用來計(jì)算短語P'跟隨給定短語P的 短語替換。例如,可以維護(hù)一個(gè)或多個(gè)査詢?nèi)罩?,這一個(gè)或多個(gè)查詢?cè)恢?標(biāo)識(shí)出在査詢會(huì)話期間由給定用戶提交的一個(gè)或多個(gè)查詢和短語。查詢?nèi)?志例如可標(biāo)識(shí)用戶提交的一個(gè)或多個(gè)查詢和短語的順序,以提供關(guān)于用戶
      如何改進(jìn)查詢Q、用戶如何改寫查詢Q、用戶如何利用具有多個(gè)書寫系統(tǒng) 的語言的一個(gè)或多個(gè)替代書寫系統(tǒng)來表達(dá)査詢Q等等的指示。査詢?nèi)罩具€ 可指示出一個(gè)或多個(gè)用戶提交一個(gè)或多個(gè)查詢或短語的頻率。
      識(shí)別給定査詢Q出現(xiàn)在一個(gè)或多個(gè)查詢?nèi)罩局械念l率,步驟1105。 從查詢的候選集合中選擇給定査詢Q',步驟1110。執(zhí)行檢查以判定在一 個(gè)或多個(gè)查詢?nèi)罩局械娜魏我粋€(gè)中查詢Q'是否跟隨査詢Q,步驟115。根 據(jù)本發(fā)明的一個(gè)實(shí)施例,執(zhí)行檢査以判定在針對(duì)給定用戶的査詢會(huì)話的查 詢?nèi)罩局袞嗽僎'是否跟隨查詢Q,其中査詢會(huì)話可包括在給定時(shí)間段期間 由用戶提交的一個(gè)或多個(gè)查詢。
      如果在一個(gè)或多個(gè)查詢?nèi)罩局械娜魏我粋€(gè)之中查詢Q'都不跟隨査詢 Q,貝U "pl2min"寄存器被設(shè)置到零("0"),步驟1125,其中
      "pl2min"寄存器可包括用于存儲(chǔ)給定數(shù)值的存儲(chǔ)設(shè)備?;蛘?,如果查詢 Q'被識(shí)別為在一個(gè)或多個(gè)査詢?nèi)罩局懈SQ,則識(shí)別在查詢?nèi)罩局胁樵僎' 跟隨查詢Q的頻率,步驟1120。 "pl2min"寄存器被設(shè)置到在查詢?nèi)罩?中查詢Q'跟隨查詢Q的頻率與査詢?nèi)罩局胁樵僎的頻率的商的值,步驟 1140。例如,如果査詢Q在査詢?nèi)罩局谐霈F(xiàn)十二 ( "12")次并且在査詢 日志中Q'跟隨查詢Q七("7")次,則"pl2min"寄存器可被設(shè)置到值
      "7/12"。
      本領(lǐng)域的技術(shù)人員明白,在圖3至11中示出并被表A中所示的相似 性得分函數(shù)所利用的函數(shù)并不限于日語語言,而是可被修改用于一個(gè)或多 個(gè)具有多個(gè)書寫系統(tǒng)的語言。本領(lǐng)域的技術(shù)人員還明白,表A中所示的相 似性得分函數(shù)可利用圖3至11所示的函數(shù)的一個(gè)或多個(gè)組合,以為根據(jù) 具有多個(gè)書寫系統(tǒng)的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的給定査詢計(jì)算相似 性得分。
      雖然己經(jīng)結(jié)合優(yōu)選實(shí)施例描述和示出了本發(fā)明,但是在不脫離本發(fā)明
      的精神和范圍的情況下可以進(jìn)行對(duì)于本領(lǐng)域的技術(shù)人員來說顯而易見的許 多變化和修改,本發(fā)明因而不限于以上闡述的方法或構(gòu)造的確切細(xì)節(jié),因 為這種變化和修改想要被包括在本發(fā)明的范圍之內(nèi)。
      權(quán)利要求
      1. 一種用于識(shí)別與給定查詢相關(guān)的一個(gè)或多個(gè)查詢的方法,該方法包括接收根據(jù)具有多個(gè)書寫系統(tǒng)的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的查詢;識(shí)別根據(jù)所述具有多個(gè)書寫系統(tǒng)的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的查詢的候選集合;以及為所述候選集合中的一個(gè)或多個(gè)查詢計(jì)算指示出所述一個(gè)或多個(gè)查詢與接收的查詢的相似性的得分。
      2. 如權(quán)利要求1所述的方法,其中,接收査詢包括接收根據(jù)一個(gè)或多 個(gè)日語書寫系統(tǒng)的組合書寫的査詢。
      3. 如權(quán)利要求1所述的方法,其中,識(shí)別查詢的候選集合包括識(shí)別與 所述接收的查詢相關(guān)的一個(gè)或多個(gè)查詢的集合。
      4. 如權(quán)利要求3所述的方法,其中,識(shí)別與接收的查詢相關(guān)的査詢的 候選集合包括識(shí)別如一個(gè)或多個(gè)查詢?nèi)罩局兴甘镜呐c所述接收的查詢相 關(guān)的一個(gè)或多個(gè)査詢。
      5. 如權(quán)利要求1所述的方法,其中,接收查詢包括接收根據(jù)日語平假 名書寫系統(tǒng)書寫的査詢。
      6. 如權(quán)利要求1所述的方法,其中,接收査詢包括接收根據(jù)日語片假 名書寫系統(tǒng)書寫的查詢。
      7. 如權(quán)利要求1所述的方法,其中,接收査詢包括接收根據(jù)日語假名 書寫系統(tǒng)書寫的查詢。
      8. 如權(quán)利要求1所述的方法,其中,接收查詢包括接收根據(jù)日語羅馬 字書寫系統(tǒng)書寫的查詢。
      9. 如權(quán)利要求1所述的方法,其中,接收查詢包括接收根據(jù)曰語 JASCII書寫系統(tǒng)書寫的査詢。
      10. 如權(quán)利要求1所述的方法,其中,接收查詢包括接收根據(jù)日語漢 字書寫系統(tǒng)書寫的查詢。
      11. 如權(quán)利要求1所述的方法,其中,接收査詢包括接收構(gòu)成短語的 詞語的集合。
      12. 如權(quán)利要求1所述的方法,其中,為所述候選集合中的一個(gè)或多 個(gè)查詢計(jì)算得分包括計(jì)算指示出來自所述候選的給定查詢與所述接收的查 詢?cè)诤x上的相似性的得分。
      13. 如權(quán)利要求1所述的方法,其中,計(jì)算得分包括將所述接收的查詢的一個(gè)或多個(gè)字符轉(zhuǎn)換成羅馬字符; 將從所述候選集合中選擇的査詢的一個(gè)或多個(gè)字符轉(zhuǎn)換成羅馬字符;以及計(jì)算所述接收的査詢和所述從所述候選集合中選擇的査詢之間的字符 編輯距離。
      14. 如權(quán)利要求1所述的方法,其中,計(jì)算得分包括 將所述接收的査詢的一個(gè)或多個(gè)字符轉(zhuǎn)換成羅馬字符; 將從所述候選集合中選擇的査詢的一個(gè)或多個(gè)字符轉(zhuǎn)換成羅馬字符; 從所述接收的查詢和所述從所述候選集合中選擇的查詢中去除空格字符;以及計(jì)算所述接收的査詢和所述從所述候選集合中選擇的查詢之間的字符 編輯距離。
      15. 如權(quán)利要求1所述的方法,其中,計(jì)算得分包括 將所述接收的查詢的一個(gè)或多個(gè)字符轉(zhuǎn)換成羅馬字符; 將從所述候選集合中選擇的查詢的一個(gè)或多個(gè)字符轉(zhuǎn)換成羅馬字符; 識(shí)別所述接收的查詢和所述選擇的査詢中的獨(dú)特空格分隔共現(xiàn)單詞的數(shù)目;識(shí)別所述接收的查詢和所述選擇的查詢兩者之中的獨(dú)特空格分隔單詞 的總數(shù);計(jì)算所述獨(dú)特空格分隔共現(xiàn)單詞的數(shù)目與兩個(gè)查詢中的所述獨(dú)特空格 分隔單詞的總數(shù)的商;以及計(jì)算數(shù)值一 ("1")與計(jì)算出的商之間的差。
      16. 如權(quán)利要求1所述的方法,其中,計(jì)算得分包括識(shí)別某一數(shù)字是 否是所述接收的査詢或者從所述候選集合中選擇的査詢所特有的。
      17. 如權(quán)利要求1所述的方法,其中,計(jì)算得分包括識(shí)別所述接收的査詢和從所述候選集合中選擇的查詢中的共現(xiàn)日語漢 字字符的數(shù)目;識(shí)別所述接收的查詢和所述從所述候選集合中選擇的查詢中的獨(dú)特日 語漢字字符的總數(shù);計(jì)算所述共現(xiàn)日語漢字字符的數(shù)目與所述獨(dú)特日語漢字字符的總數(shù)的 商;以及計(jì)算數(shù)值一 ("1")與計(jì)算出的商之間的差。
      18. 如權(quán)利要求1所述的方法,其中,計(jì)算得分包括 將所述接收的查詢的一個(gè)或多個(gè)字符轉(zhuǎn)換成羅馬字符; 將從所述候選集合中選擇的查詢的一個(gè)或多個(gè)字符轉(zhuǎn)換成羅馬字符;以及計(jì)算所述接收的查詢和所述選擇的查詢共有的羅馬字符的數(shù)目。
      19. 如權(quán)利要求1所述的方法,其中,計(jì)算得分包括識(shí)別所述接收的 查詢或者從所述候選集合中選擇的查詢是否包含非羅馬字符。
      20. 如權(quán)利要求1所述的方法,其中,計(jì)算得分包括 將所述接收的查詢的一個(gè)或多個(gè)日語漢字字符轉(zhuǎn)換成日語假名字符; 將從所述候選集合中選擇的査詢的一個(gè)或多個(gè)日語漢字字符轉(zhuǎn)換成日語假名字符;從所述接收的査詢和所述從所述候選集合中選擇的査詢中去除所有非 日語字符;以及計(jì)算所述接收的查詢和所述從所述候選集合中選擇的査詢之間的字符 編輯距離。
      21. 如權(quán)利要求1所述的方法,其中,計(jì)算得分包括計(jì)算在一個(gè)或多 個(gè)查詢?nèi)罩局袕乃龊蜻x集合中選擇的查詢跟隨所述接收的査詢的頻率與 在所述一個(gè)或多個(gè)査詢?nèi)罩局兴鼋邮盏臇嗽兊念l率的商。
      22. 如權(quán)利要求1所述的方法,包括從所述候選集合的査詢中選擇一 個(gè)或多個(gè)査詢以便分發(fā)。
      23. 如權(quán)利要求22所述的方法,其中,從所述候選集合的査詢中選擇 一個(gè)或多個(gè)査詢以便分發(fā)包括選擇具有超過給定閾值的得分的一個(gè)或多個(gè) 查詢。
      24. 如權(quán)利要求1所述的方法,包括分發(fā)來自所述候選集合的具有超 過給定閾值的得分的一個(gè)或多個(gè)查詢。
      25. 如權(quán)利要求24所述的方法,其中,分發(fā)來自所述候選集合的一個(gè) 或多個(gè)査詢包括將所述一個(gè)或多個(gè)查詢嵌入在網(wǎng)頁中。
      26. —種用于識(shí)別與給定查詢相關(guān)的一個(gè)或多個(gè)查詢的系統(tǒng),該系統(tǒng) 包括搜索引擎,該搜索引擎可操作以用于接收根據(jù)具有多個(gè)書寫系統(tǒng)的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的 査詢,以及識(shí)別根據(jù)所述具有多個(gè)書寫系統(tǒng)的語言的一個(gè)或多個(gè)書寫系統(tǒng)書 寫的一個(gè)或多個(gè)查詢的候選集合;轉(zhuǎn)換組件,該轉(zhuǎn)換組件可操作以用于將接收的査詢和所述候選集合中 的所述一個(gè)或多個(gè)查詢轉(zhuǎn)換成一個(gè)或多個(gè)書面格式;以及相似性組件,該相似性組件可操作以用于為所述候選集合中的所述一 個(gè)或多個(gè)查詢計(jì)算指示出所述一個(gè)或多個(gè)查詢與所述接收的査詢的相似性 的得分。
      27. 如權(quán)利要求26所述的系統(tǒng),其中,所述搜索引擎可操作以用于接 收根據(jù)一個(gè)或多個(gè)日語書寫系統(tǒng)書寫的查詢。
      28. 如權(quán)利要求26所述的系統(tǒng),其中,所述搜索引擎可操作以用于識(shí) 別由與所述接收的査詢相關(guān)的一個(gè)或多個(gè)查詢組成的候選集合。
      29. 如權(quán)利要求28所述的系統(tǒng),其中,所述搜索引擎可操作以用于搜 索一個(gè)或多個(gè)査詢?nèi)罩疽宰R(shí)別與所述接收的査詢相關(guān)的査詢的一個(gè)或多個(gè) 查詢。
      30. 如權(quán)利要求26所述的系統(tǒng),其中,所述轉(zhuǎn)換組件可操作以用于將査詢轉(zhuǎn)換成根據(jù)一個(gè)或多個(gè)書寫系統(tǒng)的一個(gè)或多個(gè)書面格式。
      31. 如權(quán)利要求26所述的系統(tǒng),其中,所述相似性組件可操作以用于 計(jì)算指示出從所述候選集合中選擇的查詢與所述接收的查詢?cè)诤x上的相 似性的得分。
      32. 如權(quán)利要求26所述的系統(tǒng),其中,所述相似性組件可操作以用于 計(jì)算所述接收的査詢和從所述候選集合中選擇的查詢之間的字符編輯距 離。
      33. 如權(quán)利要求26所述的系統(tǒng),其中,所述相似性組件可操作以用于識(shí)別所述接收的查詢和所述選擇的査詢中的獨(dú)特空格分隔共現(xiàn)單詞的 數(shù)目;識(shí)別所述接收的査詢和所述選擇的查詢兩者之中的獨(dú)特空格分隔單詞 的總數(shù);計(jì)算所述獨(dú)特空格分隔共現(xiàn)單詞的數(shù)目與兩個(gè)査詢中的所述獨(dú)特空格 分隔單詞的總數(shù)的商;以及計(jì)算數(shù)值一 ("1")與計(jì)算出的商之間的差。
      34. 如權(quán)利要求26所述的系統(tǒng),其中,所述相似性組件可操作以用于 識(shí)別某一數(shù)字是否是所述接收的査詢或者從所述候選集合中選擇的査詢所 特有的。
      35. 如權(quán)利要求26所述的系統(tǒng),其中,所述相似性組件可操作以用于識(shí)別所述接收的査詢和從所述候選集合中選擇的査詢中的共現(xiàn)日語漢 字字符的數(shù)目;識(shí)別所述接收的査詢和所述從所述候選集合中選擇的查詢中的獨(dú)特日 語漢字字符的總數(shù);計(jì)算所述共現(xiàn)日語漢字字符的數(shù)目與所述獨(dú)特日語漢字字符的總數(shù)的 商;以及計(jì)算數(shù)值一 ("1")與計(jì)算出的商之間的差。
      36. 如權(quán)利要求26所述的系統(tǒng),其中,所述相似性組件可操作以用于 計(jì)算所述接收的査詢和從所述候選集合中選擇的查詢共有的字符的數(shù)目。
      37. 如權(quán)利要求26所述的系統(tǒng),其中,所述相似性組件可操作以用于 識(shí)別所述接收的査詢或者從所述候選集合中選擇的查詢是否包含給定書寫 系統(tǒng)的一個(gè)或多個(gè)字符。
      38.如權(quán)利要求26所述的系統(tǒng),其中,所述相似性組件可操作以用于 計(jì)算在一個(gè)或多個(gè)査詢?nèi)罩局袕乃龊蜻x集合中選擇的查詢跟隨所述接收 的査詢的頻率與在所述一個(gè)或多個(gè)査詢?nèi)罩局兴鼋邮盏臇嗽兊念l率的 商。
      全文摘要
      本發(fā)明涉及用于識(shí)別與給定查詢相關(guān)的一個(gè)或多個(gè)查詢的系統(tǒng)和方法。本發(fā)明的方法包括接收根據(jù)具有多個(gè)書寫系統(tǒng)的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的查詢。識(shí)別根據(jù)該具有多個(gè)書寫系統(tǒng)的語言的一個(gè)或多個(gè)書寫系統(tǒng)書寫的查詢的候選集合。為候選集合中的一個(gè)或多個(gè)查詢計(jì)算指示出該一個(gè)或多個(gè)查詢與接收的查詢的相似性的得分。
      文檔編號(hào)G06F17/30GK101390097SQ200780006965
      公開日2009年3月18日 申請(qǐng)日期2007年2月27日 優(yōu)先權(quán)日2006年2月28日
      發(fā)明者凱文·巴茲, 本杰明·雷, 羅斯·瓊斯 申請(qǐng)人:雅虎公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1