專利名稱:通過分類而自動(dòng)匹配主體到客戶的內(nèi)容的機(jī)制的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及因特網(wǎng)搜索,更具體地涉及搜索結(jié)果的內(nèi)容匹配。
背景技術(shù):
為了快速匹配因特網(wǎng)上的相似內(nèi)容,對(duì)于在萬維網(wǎng)(Web)進(jìn)行 廣告和交叉參考,廣告商和發(fā)行商已試圖通過手工或通過自動(dòng)關(guān)鍵字 交叉參考建立交叉參考。手工建立交叉參考不能跟上萬維網(wǎng)的快速擴(kuò) 展已使得自動(dòng)關(guān)鍵字交叉參考成為眾人矚目的。將來訪者業(yè)務(wù)從搜索 引擎推動(dòng)到萬維網(wǎng)站點(diǎn)的需要,連同流行交叉參考關(guān)鍵字的存在,已 鼓勵(lì)萬維網(wǎng)站點(diǎn)所有者包括這些關(guān)鍵字,而不論這些單詞的含義是否 實(shí)際出現(xiàn)在他們的站點(diǎn)內(nèi)。這些虛假的單詞使得關(guān)鍵字交叉參考對(duì)于 包含流行關(guān)鍵字的任何站點(diǎn)產(chǎn)生大部分為假的肯定結(jié)果。
在克服上述缺點(diǎn)的一種方法中,自動(dòng)交叉參考的建立者試圖通過 分析萬維網(wǎng)超鏈接推斷萬維網(wǎng)站點(diǎn)的真實(shí)含義。超鏈接交叉參考的流 行性鼓勵(lì)萬維網(wǎng)站點(diǎn)所有者包括到他們的站點(diǎn)和到其他流行站點(diǎn)的 鏈接,而不論這些額外超鏈接是否連接到對(duì)于廣告或交叉參考目的有 任何關(guān)系或價(jià)值的站點(diǎn)。這些虛假的鏈接使得超鏈接交叉參考對(duì)于被 以這種方式超鏈接的任何流行站點(diǎn)產(chǎn)生大部分為假的肯定結(jié)果。
為了克服這些缺點(diǎn),自動(dòng)交叉參考的建立者在致力于推斷萬維網(wǎng) 站點(diǎn)的真實(shí)含義時(shí)采用了語義技術(shù)。這些語義技術(shù)涉及相對(duì)于包含在 一個(gè)分類中的語義項(xiàng)剖析站點(diǎn)內(nèi)容,然后匹配具有相似的語義項(xiàng)的站點(diǎn)。然而,這些技術(shù)的主要局限是該分類的覆蓋范圍,該分類是手工 建立的,通常比萬維網(wǎng)上的單詞和/或短語的詞匯小若干數(shù)量級(jí)。
這種方法的其他局限來自包含在任意一個(gè)文檔中的語義項(xiàng)的巨 大數(shù)目。這些項(xiàng)中的一些項(xiàng)比其他項(xiàng)對(duì)于文檔的基本含義更為突出。 然而,這些項(xiàng)在分類中的位置不能確定實(shí)際文檔中的哪些項(xiàng)最好地代
表文檔的含義。因此,諸如Lu (美國專利No. 7,107,264 B2)的基于
簡單的分類匹配萬維網(wǎng)站點(diǎn)和/或文檔的常規(guī)技術(shù)不能實(shí)現(xiàn)萬維網(wǎng)站 點(diǎn)和/或文檔的 一致準(zhǔn)確的匹配。
為了實(shí)現(xiàn)萬維網(wǎng)站點(diǎn)和/或文檔的更一致準(zhǔn)確的匹配,自動(dòng)交叉 參考的建立者嘗試的一種方法是采用統(tǒng)計(jì)技術(shù)推斷萬維網(wǎng)站點(diǎn)的真 實(shí)含義。例如,試圖追蹤通過超鏈接從一個(gè)站點(diǎn)到另一個(gè)站點(diǎn)的點(diǎn)擊 序列,以便確定哪些站點(diǎn)傾向于被從其他站點(diǎn)點(diǎn)擊。然而,這些統(tǒng)計(jì) 技術(shù)具有兩個(gè)主要缺點(diǎn)(1)不能分析很少被訪問但是有意義的站 點(diǎn)上的點(diǎn)擊的小樣本組;和(2)不能分析被頻繁訪問的站點(diǎn)的罕見 含義。當(dāng)使用這種方法在站點(diǎn)間進(jìn)行匹配時(shí),這些缺點(diǎn)引起了大量假
的肯定和假的否定。
因此,為了實(shí)現(xiàn)防止大量假的肯定和/或假的否定匹配的目標(biāo), 可能需要一種使用比常規(guī)技術(shù)產(chǎn)生更準(zhǔn)確的結(jié)果的技術(shù)來準(zhǔn)確地匹 配文檔和/或其他內(nèi)容單元的方法。
發(fā)明內(nèi)容
公開了 一種利用分類而自動(dòng)匹配主體到客戶的內(nèi)容的機(jī)制的各 種實(shí)施例。寬泛地講,構(gòu)想了一種使用特定的分類技術(shù)準(zhǔn)確匹配文檔 和/或其他內(nèi)容單元諸如萬維網(wǎng)站點(diǎn)或段落的機(jī)制。更具體地,通過使 用準(zhǔn)確分類技術(shù),尤其是下面描述的那些,可將內(nèi)容單元的突出含義 更準(zhǔn)確地映射到其他內(nèi)容單元,從而有效地匹配內(nèi)容單元以便創(chuàng)建與 被匹配的內(nèi)容單元共享相似含義的其他內(nèi)容單元的視圖。除了更準(zhǔn)確 匹配之外,分類匹配還可以提供結(jié)果匹配的分類。另外,使用下面描 述的方法,圍繞著由實(shí)際內(nèi)容引入的語義進(jìn)行分類,從而即使當(dāng)新的語義項(xiàng)是內(nèi)容單元中最突出的項(xiàng)時(shí),也能使分類準(zhǔn)確。
通過使得能夠進(jìn)行準(zhǔn)確的分類匹配,該自動(dòng)匹配機(jī)制還使得廣告
鍵字上投標(biāo),過度使用的關(guān)鍵字的價(jià)值由于各竟?fàn)帍V告商過度對(duì)流行 關(guān)鍵字投標(biāo)而被哄抬價(jià)格,并且過度使用的關(guān)鍵字提供不良的產(chǎn)品區(qū) 分。
該自動(dòng)匹配機(jī)制還可以使得能夠進(jìn)行因特網(wǎng)廣告拷貝編輯以便 包括更突出的特定類別短語,并且提供立刻評(píng)估改進(jìn)的拷貝是否通過 到其他萬維網(wǎng)站點(diǎn)的散布產(chǎn)生改進(jìn)的廣告覆蓋的機(jī)會(huì)。通過使得廣告 商能夠通過創(chuàng)造新的特定類別短語而不是哄抬關(guān)鍵字的價(jià)格來改進(jìn) 廣告覆蓋,該自動(dòng)匹配機(jī)制可以減小關(guān)鍵字廣告膨脹,并且將萬維網(wǎng) 廣告的使用擴(kuò)寬到更廣大的廣告商群體。通過在從公司廣告拷貝中自 動(dòng)剖析出的短語上投標(biāo)而不需搜索引擎優(yōu)化專家的花費(fèi),該自動(dòng)匹配 機(jī)制可以有效地使小公司能夠?yàn)樘囟I(lǐng)域產(chǎn)品和服務(wù)^t廣告,否則需 要雇用搜索引擎優(yōu)化專家調(diào)整廣告拷貝的關(guān)鍵字。另外,本發(fā)明的方 法和系統(tǒng)可以有效地消除需要雇用搜索引擎優(yōu)化專家以購買關(guān)鍵字 集合的花費(fèi)。
在一個(gè)實(shí)施例中,一種自動(dòng)匹配機(jī)制包括一種用于將內(nèi)容單元映 射到其他內(nèi)容單元的方法。該方法包括主體顯示發(fā)送對(duì)客戶內(nèi)容的請(qǐng) 求。該方法還可以包括主體用戶服務(wù)器例如在類別內(nèi)容索引中查詢客 戶內(nèi)容,并且提供相應(yīng)于該請(qǐng)求的索引且分類的內(nèi)容。該方法還包括 響應(yīng)于確定該索引且分類的內(nèi)容既不是新內(nèi)容也不是更新的內(nèi)容,提 供所述索引且分類的內(nèi)容以便顯示。該方法還包括在主體顯示上顯示 該分類的內(nèi)容。
在一個(gè)特定實(shí)現(xiàn)中,該方法包括響應(yīng)于確定該索引且分類的內(nèi)容 是新內(nèi)容和更新的內(nèi)容中的任意一種,將該索引且分類的內(nèi)容添加到 語義內(nèi)容索引中。另外,該方法可以包括從內(nèi)容語義索引中收集類別 相關(guān)的語義內(nèi)容信息,并且對(duì)收集的類別相關(guān)的語義內(nèi)容信息重新分 類。在另一個(gè)特定實(shí)現(xiàn)中,該方法可以包括提供搜索項(xiàng)和包括該搜索 項(xiàng)的查詢請(qǐng)求,使用搜索項(xiàng)搜索數(shù)據(jù)存儲(chǔ),并且選擇相應(yīng)于查詢請(qǐng)求 的文檔集合。該文檔集合可以包括具有與搜索項(xiàng)相關(guān)的語義短語的文 檔。
在另 一個(gè)實(shí)施例中,該自動(dòng)匹配機(jī)制包括產(chǎn)生匹配客戶內(nèi)容以便 在主體顯示上使用的方法。該方法包括發(fā)送對(duì)預(yù)覽匹配的內(nèi)容的客戶 請(qǐng)求,并且在類別內(nèi)容索引中查詢客戶匹配內(nèi)容。該方法還可以包括 提供相應(yīng)于該請(qǐng)求的所請(qǐng)求的索引且分類的客戶內(nèi)容,并且將該索引 且分類的客戶內(nèi)容添加到語義內(nèi)容索引。該方法還可以包括從語義內(nèi) 容索引中收集類別相關(guān)的語義內(nèi)容信息,并且對(duì)收集的類別相關(guān)的語 義內(nèi)容信息重新分類。另外,該方法可以包括將重新分類的類別相關(guān) 的語義內(nèi)容信息添加到類別內(nèi)容索引,并且報(bào)告匹配客戶請(qǐng)求的分類 的匹配內(nèi)容。
圖1是示出了用于將內(nèi)容單元自動(dòng)匹配到其他內(nèi)容單元的機(jī)制
的一個(gè)實(shí)施例的圖2是示出了圖1所示的主體顯示內(nèi)容單元的示例實(shí)施例的圖3是示出了圖1所示的客戶顯示的示例實(shí)施例的圖4是示出了用于語義索引新的或更新的主體內(nèi)容,并且將語義
索引的新的或更新的主體內(nèi)容與被分類顯示的語義相關(guān)內(nèi)容合并的
方法的一個(gè)實(shí)施例的流程圖5是示出了客戶內(nèi)容的所有者或創(chuàng)建者將客戶內(nèi)容的部分內(nèi)
容散布到主體內(nèi)容單元,并且為了支付該散布竟?fàn)幍赝稑?biāo)的方法的一
個(gè)實(shí)施例的流程圖6是可以實(shí)施自動(dòng)匹配機(jī)制的計(jì)算機(jī)系統(tǒng)的一個(gè)實(shí)施例的框
圖7是可以實(shí)施自動(dòng)匹配機(jī)制的通信系統(tǒng)的一個(gè)實(shí)施例的框圖; 圖8是示出了用于自動(dòng)分類數(shù)據(jù)的方法的一個(gè)實(shí)施例的流程圖;圖9是示出了用于將文檔剖析為語義項(xiàng)和語義組的方法的一個(gè) 實(shí)施例的流程圖10是示出了用于對(duì)語義項(xiàng)分級(jí)以便尋找最優(yōu)語義種子集合的 方法的 一 個(gè)實(shí)施例的流程圖11是示出了用于圍繞核心最優(yōu)語義種子集合積累語義項(xiàng)的方 法的一個(gè)實(shí)施例的流程圖12是示出了用于將語句剖析為主語、動(dòng)詞和賓語(SVO)短 語的方法的一個(gè)實(shí)施例的流程圖13是示出了用于消解主語、動(dòng)詞和賓語短語中嵌入的指代的 方法的一個(gè)實(shí)施例的流程圖14是示出了用于分析短語標(biāo)記列表中嵌入的語義項(xiàng),輸出語 義項(xiàng)的索引和語義項(xiàng)被共同定位的位置的索引的方法的一個(gè)實(shí)施例 的流程圖15是示出了使用萬維網(wǎng)頁的自動(dòng)分類將搜索結(jié)果概括為四類 的萬維網(wǎng)入口萬維網(wǎng)搜索用戶接口的實(shí)施例的圖16是示出了圖15的萬維網(wǎng)入口萬維網(wǎng)搜索用戶接口的實(shí)施例 的搜索結(jié)果的圖17是圖15的萬維網(wǎng)入口萬維網(wǎng)搜索用戶接口的實(shí)施例的附加 搜索結(jié)果的圖18是示出了用于使用圖8的自動(dòng)分類器的實(shí)施例自動(dòng)擴(kuò)增語 義網(wǎng)絡(luò)字典詞匯的方法的一個(gè)實(shí)施例的流程圖;以及
圖19是示出了使用圖ll所示的自動(dòng)擴(kuò)增器恰好在搜索引擎入口 需要新詞匯之前增加新詞匯的方法的一個(gè)實(shí)施例的流程圖。
雖然本發(fā)明能夠有各種修改和可替換形式,在附圖中以示例的方 式給出了其特定的實(shí)施例,并且將在此進(jìn)行詳細(xì)描述。然而,應(yīng)當(dāng)理 解,附圖和其詳細(xì)描述不旨在將本發(fā)明局限于公開的特定形式,而是 相反,本發(fā)明要覆蓋落在由所附權(quán)利要求書確定的本發(fā)明的精神和范 圍內(nèi)的所有修改、等同物和替換物。注意,整個(gè)本申請(qǐng)中詞"可以"被 在允許的意義上(即,具有可能性,能夠)而不是在強(qiáng)制的意義上(即,必須)使用。
具體實(shí)施例方式
現(xiàn)在轉(zhuǎn)到圖1,示出了用于將內(nèi)容單元自動(dòng)匹配到其他內(nèi)容單元 的機(jī)制的實(shí)施例的圖。由于萬維網(wǎng)上和/或其他大型信息存儲(chǔ)系統(tǒng)上的 內(nèi)容的巨大數(shù)量, 一種高效訪問這種內(nèi)容的方法是在信息處理體系結(jié) 構(gòu)的核心處使用索引。然而,可以使用其他方法諸如內(nèi)容可編址存儲(chǔ) 器訪問這種內(nèi)容。
在示出的實(shí)施例中,自動(dòng)匹配機(jī)制100使用至少兩個(gè)大型的索
引。這兩個(gè)大型索引中的一個(gè)可以是例如語義內(nèi)容到站點(diǎn)(scs)索
引105,其描述語義項(xiàng)和每個(gè)項(xiàng)的實(shí)際使用,諸如內(nèi)容單元(例如, 文檔或萬維網(wǎng)站點(diǎn))中的內(nèi)容中的實(shí)際語句。當(dāng)執(zhí)行匹配內(nèi)容單元時(shí), SCS索引105可被中央語義含義倉庫用于分類。兩個(gè)大型索引中的第 二個(gè)可以是例如主體到客戶分類內(nèi)容(HTGC)索引107,其包括被 配置為快速檢索匹配內(nèi)容單元的在先分類的結(jié)果的中央索引。在各種 實(shí)施例中,這些索引可以提供出眾的響應(yīng)時(shí)間和可伸縮性。這些索引 可以建立在例如基數(shù)樹或TRIE樹結(jié)構(gòu)之上,其可以提供比散列表更 好的總響應(yīng)時(shí)間。尤其是對(duì)于大于例如100, OOO個(gè)元素的索引集合。 在一個(gè)實(shí)施例中,為了實(shí)現(xiàn)可伸縮性,索引(例如,105和107)可 被分散在多個(gè)服務(wù)器上,每個(gè)服務(wù)器可以支持整個(gè)索引的截?cái)嗟淖訕?部分,并且每個(gè)子樹可以指向其他分布式服務(wù)器上的其他子樹??梢?通過從服務(wù)器向葉向服務(wù)器傳遞直到達(dá)到終端樹葉的分組來計(jì)算索 引遍歷。
另外,在一個(gè)實(shí)施例中使用的兩個(gè)中央索引(例如,105和107) 還消除了額外的不希望的索引遍歷。例如,如美國專利No. 7,107,264B2 ( "Lu")中所述,Lu教導(dǎo)使用"提取器"將主體內(nèi)容提取 到索引的主體內(nèi)容數(shù)據(jù)庫和用于查詢索引的客戶內(nèi)容數(shù)據(jù)庫的查詢 的后續(xù)組成中。除了連接兩個(gè)遍歷的中間查詢的組成之外,Lu需要 主體內(nèi)容索引和客戶內(nèi)容索引兩者的遍歷。由于涉及嵌套的混合布爾條件的復(fù)雜查詢通常被數(shù)據(jù)庫系統(tǒng)不正確地優(yōu)化,Lu的教導(dǎo)不僅因?yàn)楸闅v兩個(gè)索引浪費(fèi)處理器能力,而且還以不必要的查詢組成、投遞和優(yōu)化浪費(fèi)處理器能力。這與圖1中的SCS索引105的單個(gè)遍歷相反。另外,由于無錯(cuò)誤地將復(fù)雜文檔提取為簡單關(guān)鍵字查詢可能是不現(xiàn)實(shí)的,Lu的查詢使用的教導(dǎo)還可能在匹配中產(chǎn)生假的肯定和假的否定結(jié)果。由于嵌套的布爾查詢是對(duì)含義的不良語義表示,無錯(cuò)誤地將復(fù)雜文檔提取為復(fù)雜的嵌套的布爾查詢可能是不現(xiàn)實(shí)的。另外,沒有數(shù)據(jù)庫設(shè)計(jì)師手工設(shè)計(jì)和規(guī)格化數(shù)據(jù)庫表的干預(yù),數(shù)據(jù)庫不能準(zhǔn)確地捕捉語義含義。因此,基于數(shù)據(jù)庫設(shè)計(jì)的查詢不能準(zhǔn)確地檢索作為萬維
含義。、 , ^ - ' y , 、
因此,在一個(gè)實(shí)施例中,通過直接使用SCS索引105中的一組語義項(xiàng)作為客戶到主體候選分類優(yōu)化匹配器(GHCCOM )106的輸入,自動(dòng)匹配機(jī)制IOO可以完全避免查詢、數(shù)據(jù)庫和相關(guān)的性能以及語義限制。 一組語義項(xiàng),與每個(gè)項(xiàng)在內(nèi)容中的實(shí)際使用一起,可以為常規(guī)的統(tǒng)計(jì)分類器或更準(zhǔn)確的分類器諸如下面更詳細(xì)描述的分類器的分類提供極佳的基礎(chǔ)。由于Lii教導(dǎo)使用簡單的分類,而不是能夠自動(dòng)應(yīng)付新分類語義項(xiàng)的優(yōu)化分類器,Lii的"評(píng)估器"的匹配內(nèi)容的覆蓋范圍通常不足以匹配一般的萬維網(wǎng)內(nèi)容。Lu在非常有限的環(huán)境中執(zhí)行合理的匹配(例如,當(dāng)Lu的分類覆蓋足以小到詞典編幕者手工映射的有限主題中的所有必要語義項(xiàng)時(shí))。注意,下面進(jìn)一步描述圖1的其余框。
現(xiàn)在參考圖2,示出了主體顯示內(nèi)容單元,諸如包括其他類別匹配內(nèi)容單元中的內(nèi)容的萬維網(wǎng)站點(diǎn)或文檔頁面的一個(gè)實(shí)施例。在主體顯示200的左上手側(cè)是下面具有簡要情節(jié)的標(biāo)題"Proposed SubwayTunnel Revisited",其右邊是相關(guān)的按關(guān)系類型分類的贊助廣告。在主體顯示200的下半部中,示出了按關(guān)系類型分類的相關(guān)內(nèi)容單元。通過以到相關(guān)內(nèi)容的鏈接給類別提供標(biāo)題,主體顯示200簡明地解釋為何客戶內(nèi)容i者如(<www.arlowburgers> )與圖2的主體內(nèi)容相關(guān)。因此,分類使得主體內(nèi)容的閱讀者能夠跳過當(dāng)前不太感興趣的客戶內(nèi)容。另外,分類還壓縮了解釋為何用戶應(yīng)當(dāng)點(diǎn)擊客戶內(nèi)容所需的空間,
因此節(jié)省了主體顯示上有價(jià)值的顯示空間。因此,為了實(shí)現(xiàn)分類的上述益處,使用分類器諸如下面更加詳細(xì)描述的分類器以便執(zhí)行圖1中
的GHCCOM 106的分類器功能可能是有用的。
轉(zhuǎn)到圖3,給出了一個(gè)示出了客戶顯示的示例實(shí)施例的圖??蛻麸@示300可以允許其他內(nèi)容的所有者或創(chuàng)建者在主體顯示的內(nèi)容單元內(nèi)自動(dòng)分類顯示這種其他內(nèi)容的部分。通過在客戶顯示300頂部處的URL輸入框305中輸入統(tǒng) 一 資源定位符(URL )諸如www.bore-maker.com ,并且按壓預(yù)覽匹配按鈕340,客戶內(nèi)容的所有者或創(chuàng)建者可以發(fā)起對(duì)客戶用戶的請(qǐng)求??偟貐⒖紙D1到圖3,圖1的客戶用戶接口服務(wù)器108可以訪問所提供的URL處的客戶站點(diǎn)內(nèi)容109。通過勾選"Spider Whole Site"選擇框310,客戶用戶內(nèi)容還將訪問相同站點(diǎn)中的鏈接的內(nèi)容URL的客戶用戶內(nèi)容。在語義分類索引器103剖析并且在例如SCS索引105中存儲(chǔ)了語義和它們的相關(guān)內(nèi)容諸如語句之后,相同或同義條目之下的所有更新的和相關(guān)的條目被傳遞到GHCCOM 106,以l更如客戶顯示300的可滾動(dòng)區(qū)域315中所示,產(chǎn)生關(guān)系類別和匹配主體內(nèi)容單元。滾動(dòng)條320被示出為右側(cè)上的細(xì)長矩形。由于可滾動(dòng)區(qū)域315的內(nèi)容尚未超出其顯示長度,滾動(dòng)條320被顯示為空白,代表休眠狀態(tài)??蓾L動(dòng)區(qū)域315提供了由自動(dòng)匹配機(jī)制100自動(dòng)產(chǎn)生的匹配關(guān)系的快照??蓾L動(dòng)區(qū)域315還提供了反饋,以便為客戶內(nèi)容的所有者或創(chuàng)建者提供快速修訂內(nèi)容的機(jī)會(huì)。例如,創(chuàng)建者可以調(diào)節(jié)術(shù)語和費(fèi)解的短語,并且隨后再次按壓預(yù)覽匹配按鈕340,從而可以實(shí)現(xiàn)更好的覆蓋和分級(jí),而不需對(duì)類別項(xiàng)進(jìn)行更高的投標(biāo)。這個(gè)特征使得廣告商能夠通過更好地描述其提供物竟?fàn)?,而不是僅僅通過支付更多的用于廣告的金錢竟?fàn)?。從而,前者可以減少將銷售者映射到購買者的總社會(huì)成本,并且后者僅僅起到使得廣告價(jià)格膨脹,同時(shí)危及不能支付高的廣告定價(jià)的直接特定環(huán)境銷售者的經(jīng)濟(jì)價(jià)值的作用。
13在一個(gè)實(shí)施例中,對(duì)于實(shí)現(xiàn)的分級(jí)的快速縱覽,客戶顯示300提供了各種分級(jí)類別的匹配數(shù)的柱狀圖350。對(duì)于涉及多于12個(gè)匹配的計(jì)算,檢查這種柱狀圖可能比在可滾動(dòng)區(qū)域中滾動(dòng)匹配細(xì)節(jié)列表更容易。
如果客戶內(nèi)容的所有者或創(chuàng)建者滿意匹配結(jié)果,所有者或創(chuàng)建者可以在投標(biāo)框325中輸入投標(biāo)數(shù)量,并且按壓客戶顯示300底部的提交你的投標(biāo)按鈕330。在大多數(shù)情況下,在按壓了提交按鈕之后,所有者或創(chuàng)建者將對(duì)在投標(biāo)框325中輸入的投標(biāo)價(jià)格在金融上負(fù)有義務(wù)。構(gòu)想該義務(wù)將是當(dāng)主體內(nèi)容的觀看者在客戶內(nèi)容鏈接上點(diǎn)擊時(shí)觸發(fā)的每個(gè)點(diǎn)擊的幾個(gè)美圓的貨幣單位。然而,在其他方法中,該義務(wù)還可被貨幣化為每個(gè)客戶內(nèi)容鏈接的顯示的貨幣單位,基于在客戶內(nèi)容鏈接的點(diǎn)入上進(jìn)行的商業(yè)交易的百分比的貨幣單位。在某些實(shí)施例中,貨幣單位甚至可以是通過非金融單位推薦(例如,代幣值諸如投票)估價(jià)的非商業(yè)方法,該定價(jià)在一個(gè)系統(tǒng)的參與者中流通,以便為了共同目標(biāo)促進(jìn)工作,諸如國際語義往致力于雇用志愿人員以幫助進(jìn)行萬維網(wǎng)的交叉索引。
在圖4中,示出了一個(gè)流程圖,該流程圖示出了用于語義索引新的或更新的主體內(nèi)容,并且將語義索引的新的或更新的主體內(nèi)容與分類顯示的語義相關(guān)的內(nèi)容合并的方法的一個(gè)實(shí)施例??偟貐⒖紙Dl到圖4,在圖4的框405中,主體顯示200向主體用戶接口服務(wù)器101發(fā)送對(duì)客戶內(nèi)容的請(qǐng)求。主體用戶接口服務(wù)器IOI提取顯示內(nèi)容(框410)。主體用戶接口服務(wù)器101通過查詢主體到客戶類別內(nèi)容索引107提取該顯示內(nèi)容(框415)。然而,可以跳過被標(biāo)記為臨時(shí)的任意信息。主體用戶接口服務(wù)器IOI從主體到客戶類別內(nèi)容索引107接收索引的最佳分類的候選內(nèi)容。主體用戶接口服務(wù)器IOI確定提取的顯示內(nèi)容是否是新的或更新的。如果主體顯示內(nèi)容不是新的或改變后的(框420),主體用戶接口服務(wù)器101返回針對(duì)主體的索引的最佳分類候選內(nèi)容(框425)。然后主體顯示200顯示針對(duì)主體的最佳分類候選內(nèi)容(框430)。與美國專利No. 7,107,264B2中描述的Lu的教導(dǎo)不同,在圖1到圖4的實(shí)施例中,除非主體或相關(guān)客戶內(nèi)容的含義改變了,不重新計(jì)算以前索引的相關(guān)內(nèi)容。這極大地減少了圖1的主體用戶接口服務(wù)器101的處理器需求。另外,與上述Lu的教導(dǎo)相反,圖1到圖4的實(shí)施例不創(chuàng)建查詢,它們也不涉及用于索引內(nèi)容的數(shù)據(jù)庫,從而避免了在無邊界的語義域諸如萬維網(wǎng)或其他大規(guī)模信息內(nèi)容倉庫上將自然語義轉(zhuǎn)換為數(shù)據(jù)庫語義的缺陷。
然而,如果主體顯示內(nèi)容是新的或改變后的(框420),語義分類索引器103通過轉(zhuǎn)變主體顯示內(nèi)容更新語義內(nèi)容到站點(diǎn)索引105(框435 ) 。 GHCCOM 106接收更新的語義內(nèi)容到站點(diǎn)索引結(jié)果(框440 )。然后GHCCOM 106從語義內(nèi)容到站點(diǎn)索引中收集類別相關(guān)的語義內(nèi)容站點(diǎn)信息,并且對(duì)該結(jié)果重新分類。GHCCOM 106更新主體到客戶類別內(nèi)容索引107 (框445)。
另外,與Lu的教導(dǎo)相反,圖1到圖4的實(shí)施例避免了對(duì)于主體內(nèi)容域來說是有限的分類。對(duì)于主體內(nèi)容域來說是有限的分類的誘惑是它們通過在分類中存儲(chǔ)關(guān)鍵字同義詞提供對(duì)關(guān)鍵字匹配中的局限的快速彌補(bǔ)。然而,當(dāng)關(guān)鍵字是含糊的時(shí),這種方法導(dǎo)致許多假的肯定。流行的關(guān)鍵字諸如貨款和抵押相對(duì)于任何文檔多半是含糊的,除非使用下面進(jìn)一步描述的分類技術(shù)消除它們的真實(shí)語義含義的歧義。因此,當(dāng)與圖1到圖4的實(shí)施例比較時(shí),Lu的采用對(duì)于主體內(nèi)容域來說是有限的分類的方法可能是不成熟并且易于出錯(cuò)的,這是由于在準(zhǔn)確去除歧義和可以執(zhí)行后續(xù)的內(nèi)容匹配之前,必須考慮主體和客戶內(nèi)容的完整的域。例如,作為金融手段的"抵押,,的含義不同于作為比喻的"抵押某人的未來"。主體內(nèi)容可能暗示著兩種含義,在該情況下匹配客戶內(nèi)容應(yīng)當(dāng)暗示兩種含義。客戶內(nèi)容可以包含"抵押某人的未來,,的同義詞諸如"目光短淺",這可以通過分析客戶內(nèi)容被計(jì)算,而不能通過分析主體內(nèi)容被計(jì)算。因此,語義去歧義優(yōu)化必須被延遲,直到客戶內(nèi)容和主體內(nèi)容的完整語義描述被收集并且被優(yōu)化,以便計(jì)算最佳描述類別描述符作為語義匹配的基礎(chǔ)。如Lu公開的,通過采用特定化的分類并且僅描述主體內(nèi)容,不能正確解決多含義的語義內(nèi)容匹配。
相反,使用如下所述的分類技術(shù),圖1的GHCCOM106可以提供使用與主體內(nèi)容和一般字典內(nèi)容語義一致的示例的實(shí)際客戶內(nèi)容去除含義的歧義的能力,主體內(nèi)容和一般字典內(nèi)容具有比主體內(nèi)容分類獨(dú)自大得多的語義覆蓋范圍和完整性。這可以導(dǎo)致語義內(nèi)容匹配的正確得多的基礎(chǔ),尤其是當(dāng)需要對(duì)多個(gè)含義去除歧義時(shí)。
在圖5中,示出了一個(gè)流程圖,示出了由客戶內(nèi)容的所有者或創(chuàng)建者將客戶內(nèi)容的部分散布到主體內(nèi)容單元,以及竟?fàn)幍赝稑?biāo)以便支付該散布的方法的一個(gè)實(shí)施例。總地參考圖l到圖5,通過使用預(yù)覽
投標(biāo)條目,可以為圖4和圖5兩者中的處理使用單個(gè)統(tǒng)一的索引。單個(gè)統(tǒng)一的索引減少了由索引占據(jù)的空間數(shù)量。
開始于圖5的框505,客戶顯示300發(fā)送對(duì)預(yù)覽匹配的請(qǐng)求。例如,如上所述,用戶可以在客戶顯示300上輸入U(xiǎn)RL,并且按壓預(yù)覽匹配按鈕340??蛻粲脩艚涌诜?wù)器108在客戶投標(biāo)索引113中存儲(chǔ)客戶投標(biāo)信息(框510)。在一個(gè)實(shí)施例中,客戶用戶接口服務(wù)器108可以上傳將被客戶投標(biāo)索引器112索引然后存儲(chǔ)在客戶投標(biāo)索引113中的客戶投標(biāo)信息111??蛻粲脩艚涌诜?wù)器108在語義內(nèi)容到站點(diǎn)索引105中存儲(chǔ)客戶內(nèi)容(框515)。在一個(gè)實(shí)施例中,客戶用戶接口服務(wù)器108可以上傳將被語義分類索引器110索引然后被存儲(chǔ)在語義內(nèi)容到站點(diǎn)索引105中的客戶站點(diǎn)內(nèi)容109。 GHCCOM 106接收更新的語義內(nèi)容到站點(diǎn)索引結(jié)果(框520) 。 GHCCOM106從語義內(nèi)容到站點(diǎn)索引105收集類別相關(guān)的語義內(nèi)容站點(diǎn)信息,并且對(duì)接收的結(jié)果重新分類。GHCCOM 106還以被標(biāo)記為由預(yù)覽功能使用的臨時(shí)信息更新主體到客戶類別內(nèi)容索引(框525)。如上所述,在一個(gè)實(shí)施例中,自動(dòng)匹配機(jī)制IOO可以使用下面描述的GHCCOM 106中的功能以便產(chǎn)生一組最優(yōu)類別。這些類別中的每一個(gè)例如可以包含一組內(nèi)容源諸如萬維網(wǎng)站點(diǎn),以及一組示例內(nèi)容諸如語句。僅從包含主體內(nèi)容源或示例主體內(nèi)容的類別中選擇內(nèi)容,GHCCOM 106可以快速地為每個(gè)主體產(chǎn)生分類的客戶候選內(nèi)容。
客戶用戶接口服務(wù)器108報(bào)告穿過所有主體顯示站點(diǎn)的分類的匹配(框530)。如果用戶按壓提交投標(biāo)按鈕330 (框535),從主體到客戶類別內(nèi)容索引中被標(biāo)記為由預(yù)覽匹配功能使用的信息中去除臨時(shí)標(biāo)簽(框545)。
然而,如果用戶不按壓提交投標(biāo)按鈕330 (框535),主體到客戶類別內(nèi)容索引中的被標(biāo)記為由預(yù)覽匹配功能使用的信息可被從主體到客戶類別內(nèi)容索引107中消除或以其它方式丟棄(框540)。
注意在其他實(shí)施例中,可以使用其他方法諸如統(tǒng)計(jì)分組或基于規(guī)則的分類遍歷為每個(gè)主體產(chǎn)生分類的客戶候選內(nèi)容。然而,如下所述,這些其他方法可能不是最優(yōu)的。例如,它們可能受有限的分類覆蓋范圍、統(tǒng)計(jì)停用字列表中的不希望的或缺失的項(xiàng)、或來自文檔級(jí)而不是名詞短語,動(dòng)詞短語和賓語短語級(jí)剖析的不明確性的固有缺點(diǎn)的不利影響。
在一個(gè)實(shí)施例中,為了對(duì)每個(gè)主體的分類的客戶候選內(nèi)容排序,可以4吏用類似于下述的方法。例如如下所述,就〗象通過按語義名詞短語、動(dòng)詞短語和賓語短語級(jí)屬性給種子項(xiàng)分級(jí)來選擇最佳候選項(xiàng),類
選內(nèi)容元素是最佳的。
可替換地,可以使用其他方法諸如統(tǒng)計(jì)分組或基于規(guī)則的分類遍
佳;。然而,這些方法受有限的分類覆蓋范圍、統(tǒng)計(jì)停用;列表中的不希望的或缺失的項(xiàng)、或來自文檔或語句級(jí)而不是名詞短語,動(dòng)詞短語和賓語短語級(jí)剖析的未消解的指代的不明確性的固有缺點(diǎn)的不利影響。
具體地,Lu描述的采用部分基于主體分類的搜索參數(shù)的方法受難以定義與分類器諸如下面描述的分類器可以容易地檢測(cè)的新術(shù)語相關(guān)的精確搜索參數(shù)所固有的不確定性的不利影響。由于必須在可以
17計(jì)算準(zhǔn)確語義匹配之前在語義名詞短語、動(dòng)詞短語和賓語短語級(jí)上分析主體或客戶內(nèi)容自身,搜索參數(shù)一般不能準(zhǔn)確定義這種內(nèi)容的含義。例如,就像大多數(shù)人喜歡通過實(shí)際閱讀書并且比較它們中的段落
而不是比較這些書背后的索引來匹配書,自動(dòng)匹配機(jī)制ioo公開了作為內(nèi)容匹配的基礎(chǔ),如何通過深入剖析實(shí)際內(nèi)容和比較在語句語法級(jí)別上收集的實(shí)際內(nèi)容,近似人們對(duì)語義的理解。
相反,Lii公開了使用"提取器"的方法,"提取器"產(chǎn)生僅僅掠過內(nèi)容表面的搜索參數(shù)和搜索查詢,從而留下了未解決的嚴(yán)重的含義不確定性,并且隨后產(chǎn)生表面級(jí)別的內(nèi)容匹配所固有的頻繁的假的肯定和假的否定匹配。另外,Lu所教導(dǎo)的主體分類的有限的覆蓋范圍不能覆蓋大型數(shù)據(jù)倉庫諸如萬維網(wǎng)的完整語義含義。
注意不是簡單地提交用于分析和匹配主體內(nèi)容的URL,在可替換的實(shí)施例中,當(dāng)支持語言去歧義的用戶接口支持時(shí),客戶用戶可以在客戶用戶服務(wù)器的客戶顯示中進(jìn)行關(guān)于匹配類別的聊天。關(guān)于匹配類別的聊天使得客戶用戶能夠指定對(duì)于匹配和投標(biāo)偏好哪些類別或子類別,因此提供了用于更準(zhǔn)確定位目標(biāo)廣告而不用編輯廣告拷貝或改變投標(biāo)價(jià)格的可替換方案。
參考圖6,示出了示例的計(jì)算機(jī)系統(tǒng)600的實(shí)施例。計(jì)算機(jī)系統(tǒng)600包括一個(gè)或多個(gè)處理器,諸如處理器604。處理器604連接到通信基礎(chǔ)設(shè)施606 (例如,通信總線,交互開關(guān)或其他網(wǎng)絡(luò))。計(jì)算機(jī)系統(tǒng)600還包括顯示接口 602,其可以被配置為轉(zhuǎn)發(fā)來自通信基礎(chǔ)設(shè)施606 (或來未示出的自幀緩沖區(qū))的圖形、文本和其他數(shù)據(jù)以便在顯示單元630上顯示。計(jì)算機(jī)系統(tǒng)600還可以包括主存儲(chǔ)器608,諸如例如隨機(jī)訪問存儲(chǔ)器(RAM),并且還包括輔助存儲(chǔ)器610。輔助存儲(chǔ)器610可以包括例如硬盤驅(qū)動(dòng)器612和/或代表軟盤驅(qū)動(dòng)器、磁帶驅(qū)動(dòng)器、光盤驅(qū)動(dòng)器等的可移動(dòng)存儲(chǔ)驅(qū)動(dòng)器614??梢苿?dòng)存儲(chǔ)驅(qū)動(dòng)器614從可移動(dòng)存儲(chǔ)單元618中讀或向可移動(dòng)存儲(chǔ)單元618中寫。在各種實(shí)施例中,可移動(dòng)存儲(chǔ)單元618可以表示軟盤、磁帶、光盤等。如應(yīng)當(dāng)理解的,可移動(dòng)存儲(chǔ)單元618包括可以存儲(chǔ)計(jì)算機(jī)可執(zhí)行軟件和
18/或數(shù)據(jù)的計(jì)算機(jī)可使用存儲(chǔ)介質(zhì)。
在可替換的實(shí)施例中,輔助存儲(chǔ)器610可以包括類似設(shè)備以便允許將計(jì)算機(jī)程序或其他指令裝入計(jì)算機(jī)系統(tǒng)600。這種設(shè)備可以包括例如可移動(dòng)存儲(chǔ)單元622和接口 620。這種設(shè)備的例子可以包括程序盒式存儲(chǔ)器和盒式存儲(chǔ)器接口 (諸如可見于視頻游戲設(shè)備中的),可移動(dòng)存儲(chǔ)器芯片(諸如電可擦除可編程只讀存儲(chǔ)器(EEPROM)或可編程只讀存儲(chǔ)器(PROM))和相關(guān)插座,以及允許將軟件和數(shù)據(jù)從可移動(dòng)存儲(chǔ)單元622傳輸?shù)接?jì)算機(jī)系統(tǒng)600的其他可移動(dòng)存儲(chǔ)單元622和接口 620。
計(jì)算機(jī)系統(tǒng)600還可以包括通信接口 624,其允許在計(jì)算機(jī)系統(tǒng)600和外部設(shè)備之間傳輸軟件和數(shù)據(jù)。通信接口 624的例子可以包括調(diào)制解調(diào)器,網(wǎng)絡(luò)接口 (諸如以太網(wǎng)卡),通信端口,個(gè)人計(jì)算機(jī)存儲(chǔ)器卡國際協(xié)會(huì)(PCMCIA)插槽和卡等。通過通信接口 624傳輸?shù)能浖蛿?shù)據(jù)是信號(hào)628的形式,信號(hào)628可以是能夠被通信接口 624接收的電子,電磁,光或其他信號(hào)。這些信號(hào)628被通過通信路徑(例如,信道)626提供給通信接口 624。路徑626承載信號(hào)628,并且被使用電線、電纜、光纖、電話線、蜂窩鏈路、射頻(RF)鏈路和/或其他通信信道實(shí)現(xiàn)。在本文檔中,使用術(shù)語"計(jì)算機(jī)程序介質(zhì)"和"計(jì)算機(jī)可使用介質(zhì)"一般地指介質(zhì),諸如可移動(dòng)存儲(chǔ)驅(qū)動(dòng)器680、安裝在硬盤驅(qū)動(dòng)器670中的硬盤、以及信號(hào)628。這些計(jì)算機(jī)程序產(chǎn)品給計(jì)算機(jī)系統(tǒng)600提供軟件。
計(jì)算機(jī)程序(也稱為計(jì)算機(jī)控制邏輯)存儲(chǔ)在主存儲(chǔ)器608和/或輔助存儲(chǔ)器610中。還可以通過通信接口 624接收計(jì)算機(jī)程序。當(dāng)被執(zhí)行時(shí)這種計(jì)算機(jī)程序使得計(jì)算機(jī)系統(tǒng)600能夠此處描述的本發(fā)明的特征。具體地,當(dāng)被執(zhí)行時(shí)計(jì)算機(jī)程序使得處理器610執(zhí)行各個(gè)實(shí)施例中描述的特征。因此,這種計(jì)算機(jī)程序代表計(jì)算機(jī)系統(tǒng)600的控制器。
在使用軟件實(shí)現(xiàn)本發(fā)明的一個(gè)實(shí)施例中,軟件可被存儲(chǔ)在計(jì)算機(jī)程序產(chǎn)品中,并且使用可移動(dòng)存儲(chǔ)驅(qū)動(dòng)器614、硬驅(qū)動(dòng)器612或通信接口 620裝入計(jì)算機(jī)系統(tǒng)600。當(dāng)被處理器604執(zhí)行時(shí),控制邏輯(軟件)使得處理器604執(zhí)行此處描述的本發(fā)明的功能。在另一個(gè)實(shí)施例中,主要使用例如硬件組件諸如專用集成電路(ASIC )以硬件實(shí)現(xiàn)本發(fā)明。實(shí)現(xiàn)硬件狀態(tài)機(jī)以便執(zhí)行此處描述的功能對(duì)于相關(guān)鄰域的技術(shù)人員是顯而易見的。在另一個(gè)實(shí)施例中,使用硬件和軟件兩者的組合實(shí)現(xiàn)本發(fā)明。
轉(zhuǎn)到圖7,示出了通信系統(tǒng)的一個(gè)實(shí)施例的框圖。通信系統(tǒng)700包括一個(gè)或多個(gè)訪問器740, 745(此處也被互換地稱為一個(gè)或多個(gè)"用戶,,)和一個(gè)或多個(gè)端子諸如725和735。在一個(gè)實(shí)施例中,例如通過端子725和735以訪問器740和745輸入和/或訪問根據(jù)本發(fā)明使用的數(shù)據(jù)。在各種實(shí)施例中,端子725和735可以表示任意類型或計(jì)算機(jī)端子,諸如個(gè)人計(jì)算機(jī)(PC)、小型計(jì)算機(jī)、大型計(jì)算機(jī)、微型計(jì)算機(jī)、電話設(shè)備、或無線設(shè)備諸如個(gè)人數(shù)字助理("PDA")或手持無線設(shè)備。這種端子可被連接到服務(wù)器710,服務(wù)器710代表PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、微型計(jì)算機(jī)或具有處理器和數(shù)據(jù)倉庫和/或到處理器和/或數(shù)據(jù)參考的連接的其他設(shè)備。端子725和735可以通過例如網(wǎng)絡(luò)705諸如因特網(wǎng)或內(nèi)聯(lián)網(wǎng)和連接715、 720和730與服務(wù)器710通信。連接715、 720和730可以包括任意類型的鏈路諸如例如有線的、無線的或光纖鏈路。
因此,在聯(lián)網(wǎng)環(huán)境中實(shí)現(xiàn)的實(shí)施例諸如圖7所示的系統(tǒng)使得主體用戶接口服務(wù)器IOI和客戶用戶接口服務(wù)器108能夠利用用于在網(wǎng)絡(luò)諸如局域網(wǎng)和因特網(wǎng)上分布索引和用戶接口顯示兩者的分布式計(jì)算和存儲(chǔ)資源的優(yōu)勢(shì)。
然而,雖然自動(dòng)匹配機(jī)制IOO被示出為使用聯(lián)網(wǎng)環(huán)境,在其他實(shí)施例中可以構(gòu)想自動(dòng)匹配機(jī)制IOO可以操作于獨(dú)立環(huán)境中,諸如操作在多個(gè)終端上。
特定實(shí)現(xiàn)的詳情
上面已經(jīng)敘述了自動(dòng)匹配機(jī)制100的各個(gè)功能模塊的各種實(shí)現(xiàn)細(xì)節(jié)。例如,結(jié)合圖l到圖7,各個(gè)實(shí)施例涉及可被在圖l的GHCCOM106中實(shí)現(xiàn)的分類器和分類器功能。因此,下面的實(shí)施例描述可被結(jié)合在上述的自動(dòng)匹配機(jī)制100的各個(gè)功能模塊內(nèi)的功能。
參考圖8,給出了示出了用于自動(dòng)分類數(shù)據(jù)的方法的一個(gè)實(shí)施例的流程圖。在示出的實(shí)施例中,查詢請(qǐng)求發(fā)起自一個(gè)人,諸如應(yīng)用的用戶。例如,萬維網(wǎng)搜索入口的用戶可以通過用戶輸入提交被用作查詢請(qǐng)求的搜索項(xiàng)(框805)??商鎿Q地,大型醫(yī)學(xué)數(shù)據(jù)庫的用戶可以提名一個(gè)醫(yī)療過程,其含義將被用作查詢請(qǐng)求。然后該查詢請(qǐng)求作為語義或關(guān)鍵字索引的輸入(框810),這又檢索出相應(yīng)于該查詢請(qǐng)求的文檔集合。
如果使用語義索引,查詢請(qǐng)求的語義含義將從萬維網(wǎng)或其他大型數(shù)據(jù)存儲(chǔ)中選擇具有語義相關(guān)的短語的文檔。如果使用關(guān)鍵字索引,查詢請(qǐng)求的文字單詞將從萬維網(wǎng)或其他大型數(shù)據(jù)存儲(chǔ)中選擇具有相同文字單詞的文檔。當(dāng)然如上所述,語義索引遠(yuǎn)比關(guān)鍵字索引準(zhǔn)確。
在示出的實(shí)施例中,語義或關(guān)鍵字索引的輸出是文檔集合,其可以是到文檔的一列指針諸如URL,或文檔自身,或文檔的較小的特定部分諸如段落、語句或短語,所有這些被以到文檔的指針標(biāo)記。然后文檔集合被輸入語義剖析器(框815),語義剖析器將文檔集合中的數(shù)據(jù)分段為有意義的語義單元,如果產(chǎn)生文檔集合的語義索引尚未這樣做的話。有意義的語義單元包括語句、主語短語、動(dòng)詞短語和賓語短語。
如圖9所示,示出了語句剖析器815。通過首先使文檔集合通過語句剖析器模塊905,通過尋找語句結(jié)束標(biāo)點(diǎn)諸如"? "、 "."、 "!"和雙換行,文檔集合可被首先消化為單個(gè)語句。語句剖析器905可以輸出被以到文檔的指針標(biāo)記的單獨(dú)語句,產(chǎn)生文檔-語句列表。
如圖12所示,然后可以使用語義網(wǎng)絡(luò)字典、同義詞字典和詞性字典將語句剖析為更小的語義單元。對(duì)于每個(gè)單獨(dú)語句,候選項(xiàng)標(biāo)記
器通過尋找可能的一、二和三單詞標(biāo)記,計(jì)算每個(gè)語句內(nèi)可能的標(biāo)記(框1205)。例如,語句"time flies like an arrow"可被轉(zhuǎn)換為候選標(biāo)記"time","flies,,, "like", "an", "arrow", "time flies", "flies like","like an,,, "an arrow", "time flies like", "flies like an", "like anarrow"。候選項(xiàng)標(biāo)記器產(chǎn)生包含〗矣選標(biāo)記的文檔-語句- <吳選-標(biāo)記列表,候選標(biāo)記被以它們的源語句和源文檔標(biāo)記。然后動(dòng)詞短語定位器一 句 一 句地在詞性字典中查找候選標(biāo)記,以便尋找可能的候選動(dòng)詞
短語(框1210)。動(dòng)詞短語定位器產(chǎn)生包含候選動(dòng)詞短語的文檔-語句 -候選-動(dòng)詞短語-候選標(biāo)記列表,候選動(dòng)詞短語凈皮以它們的源語句和源文檔標(biāo)記。候選緊密性計(jì)算器考察該列表(框1215),候選緊密性計(jì)算器在同義詞字典和語義網(wǎng)絡(luò)字典中查找候選標(biāo)記,以便計(jì)算為每個(gè)語句而竟?fàn)幍拿總€(gè)候選動(dòng)詞短語的緊密性。每個(gè)候選的緊密性可以是動(dòng)詞短語候選到相同語句中的其他短語的語義距離,或動(dòng)詞短語的標(biāo)記彼此之間的共同定位距離,或到相同語句中的代用同義詞的共同定位或語義距離的組合。候選緊密性計(jì)算器產(chǎn)生文檔-語句_緊密性 一候選—?jiǎng)釉~短語 一候選—標(biāo)記列表,其中以緊密性數(shù)和它們的源語句和源文檔標(biāo)記每個(gè)候選動(dòng)詞短語。
然后由候選緊密性分級(jí)器篩選文檔-語句-緊密性-候選-動(dòng)詞短語-候選-標(biāo)記列表,候選緊密性分級(jí)器為每個(gè)語句選擇語義上最緊密的竟?fàn)幒蜻x動(dòng)詞短語(框1220)。然后候選緊密性分級(jí)器為每
短語,從而產(chǎn)生以它們的源語句和源文檔標(biāo)記的短語標(biāo)記的文檔 - 語句-SVO -短語-標(biāo)記列表。
再參考圖9,文檔-語句-SVO -短語-標(biāo)記列表被輸入指代消解剖析器915。由于一個(gè)語句的主要含義通常通過指代與隨后的語句相聯(lián)系,在進(jìn)行含義群分類之前鏈接指代是非常重要的。例如"在國內(nèi)戰(zhàn)爭期間亞伯拉罕.林肯是總統(tǒng)。他編寫了解放黑奴宣言。,,暗示著"亞伯拉罕.林肯編寫了解放黑奴宣言"。將指代詞"他"鏈接到"亞伯拉罕.林肯"消解了該暗示。在圖6中指代標(biāo)記檢測(cè)器使用詞性字典查找指代標(biāo)記諸如他、她、它、他們、我們。指代標(biāo)記檢測(cè)器產(chǎn)生指代標(biāo)記的文檔-語句-SVO-短語-指代-標(biāo)記列表,以源文檔、語句、主語、動(dòng)詞或賓語短語給指代標(biāo)記加標(biāo)記。指代鏈接器將這些未消解的指代鏈接到最近的主語、動(dòng)詞或賓語短語??梢酝ㄟ^指代標(biāo)記到相同語句中的其他短語的語義距離,或指代標(biāo)記到相同語句中的其他短
語的共同定位距離,或到之前或之后語句中的短語的共同定位或語義
距離的組合計(jì)算未消解的指代的鏈接。
指代鏈接器產(chǎn)生短語標(biāo)記的文檔-鏈接的-語句-svo -短語-標(biāo)記列表,以短語標(biāo)記在指代上鏈接的語句-短語-標(biāo)記、源語句和源文檔給這些短語加標(biāo)記。
文檔-鏈接的-語句-svo -短語-標(biāo)記列表被輸入主題項(xiàng)索
引器920。主題項(xiàng)索引器對(duì)文檔-鏈接的-語句-SVO-短語-標(biāo)記列表中的每個(gè)短語標(biāo)記進(jìn)行循環(huán),將短語標(biāo)記的拼寫記錄在語義項(xiàng)索引中。主題項(xiàng)索引器還以指向指代鏈接的語句-短語-標(biāo)記、源語句和源文檔,將短語標(biāo)記的拼寫記錄在語義項(xiàng)-組索引中。作為來自主題項(xiàng)索引器的輸出,傳遞語義項(xiàng)-組索引和語義項(xiàng)索引兩者。為了節(jié)省存儲(chǔ)器,語義項(xiàng)-組索引可以取代語義項(xiàng)索引,從而作為來自主題項(xiàng)索引器的輸出僅傳遞一個(gè)索引。
再參考圖8,語義項(xiàng)索引、語義項(xiàng)-組索引和來自用戶的任意指示項(xiàng)被作為輸入傳遞到種子分級(jí)器820。指示項(xiàng)包括對(duì)種子分級(jí)處理具有特殊含義的來自用戶輸入或調(diào)用自動(dòng)數(shù)據(jù)分類器的自動(dòng)處理的任意項(xiàng)。特殊含義包括將被從種子分級(jí)中排除的項(xiàng),或必須作為語義種子包括在種子分級(jí)處理中的項(xiàng)。例如,用戶可以指出從語義種子項(xiàng)中排除"rental"并且包括"hybrid",圍繞著這些語義種子項(xiàng)形成類別。
在圖10中,種子分級(jí)器流程圖示出了如何計(jì)算指示項(xiàng)、語義項(xiàng)索引和語義項(xiàng)-組索引的輸入,以便產(chǎn)生最優(yōu)間隔的種子項(xiàng)。指示解釋器取輸入指示項(xiàng)諸如"Not rental but hybrid",并且剖析"Not"和"but,,的標(biāo)記符,以便產(chǎn)生"rental,,的阻止項(xiàng)列表和"hybrid"的所需項(xiàng)列表。可基于關(guān)鍵字、基于同義詞或以語義距離方法進(jìn)行這種剖析。如果基于關(guān)鍵字進(jìn)行,剖析將非常快,但是不像基于同義詞那樣準(zhǔn)確。如果基于同義詞進(jìn)行,剖析將較快,但是不像基于語義距離進(jìn)行剖析那樣準(zhǔn)確。阻止項(xiàng)列表、語義項(xiàng)索引和精確組合大小被輸入項(xiàng)組合器和阻止
器IOIO。精確組合大小控制候選組合中的種子項(xiàng)的數(shù)目。例如,如果語義項(xiàng)索引包含N個(gè)項(xiàng),可能的兩項(xiàng)組合的數(shù)目將是NxN-l。可能的三項(xiàng)組合的數(shù)目將是Nx (N-l) x (N-2)。因此,本發(fā)明的單處理器實(shí)現(xiàn)將精確組合大小限制為小數(shù)目例如2或3。并行處理實(shí)現(xiàn)或非??斓膯翁幚砥骺梢杂?jì)算更高精確組合大小的所有組合。
項(xiàng)組合器和阻止器1010防止將阻止項(xiàng)列表中的任何阻止項(xiàng)包括在允許的語義項(xiàng)組合中。項(xiàng)組合器和阻止器1010還防止任意阻止項(xiàng)與其他項(xiàng)一起參與允許的語義項(xiàng)組合的組合。項(xiàng)組合器和阻止器1010產(chǎn)生允許的語義項(xiàng)組合作為輸出。
所需項(xiàng)列表和語義項(xiàng)-組索引與允許的語義項(xiàng)組合一起被輸入候選精確種子組合分級(jí)器1015。此處分析每個(gè)允許的語義項(xiàng)組合以便計(jì)算項(xiàng)組合的平衡合意性。平衡合意性考慮相對(duì)于不希望的組合項(xiàng)的總接近性的希望的組合項(xiàng)的總流行性。
通常通過計(jì)數(shù)與語義項(xiàng)_組索引的短語內(nèi)的組合項(xiàng)共同定位的被稱為對(duì)等項(xiàng)的不同項(xiàng)的數(shù)目計(jì)算總流行性。總流行性的略微更為準(zhǔn)確的測(cè)量還包括與該流行數(shù)的不同對(duì)等項(xiàng)共同定位的其他不同項(xiàng)的數(shù)目。然而,這種改進(jìn)趨于在計(jì)算上是昂貴的,因?yàn)橄嗤N類的改進(jìn)是類似的,諸如語義地映射同義詞并且將它們包括在對(duì)等項(xiàng)中??梢允褂每偭餍行缘钠渌谟?jì)算上快速的測(cè)量,諸如組合項(xiàng)出現(xiàn)在文檔集合中的總次數(shù),但是這些其他測(cè)量趨于在語義上較不準(zhǔn)確。
通常通過計(jì)數(shù)被稱為反對(duì)項(xiàng)的不同項(xiàng)的數(shù)目計(jì)算組合項(xiàng)的總接近性,這些反對(duì)項(xiàng)是與兩個(gè)或多個(gè)組合的種子項(xiàng)共同定位的項(xiàng)。這些反對(duì)項(xiàng)是對(duì)種子項(xiàng)實(shí)際上含義沖突的指示。反對(duì)項(xiàng)不能被用于計(jì)算組合的流行性,并且在組合的總流行性的上述計(jì)算中被排除出對(duì)等項(xiàng)集合。
項(xiàng)組合的平衡合意性是其總流行性除以其總接近性。如果需要,該公式可被以某種非線性的方式調(diào)整為偏向于流行性或接近性。例如,文檔集合諸如數(shù)據(jù)表可能在每個(gè)語句中具有異常小數(shù)量的不同項(xiàng),從而小值流行性需要提升以便與接近性平衡。在這些情況下,該公式可以是總流行性乘以總流行性除以總接近性。
對(duì)于計(jì)算種子項(xiàng)的平衡合意性的一個(gè)例子,語義項(xiàng)gas/hydrid和"hybrid electric"頻繁地共同定位在以關(guān)于"hybrid car"的關(guān)鍵字或語義索引產(chǎn)生的文檔的語句內(nèi)。因此,精確組合大小2可以產(chǎn)生gas/hydrid和"hybrid electric"的允許的語義項(xiàng)組合,但是在偏好組成項(xiàng)之間略小的總流行性但是很小的沖突的允許的語義項(xiàng)組合諸如"hybrid technologies,,和"mainstream hybrid cars,,時(shí),候選精確種子組合分級(jí)器將拒絕它。在種子語義項(xiàng)之間共享的共同定位項(xiàng)被作為反對(duì)項(xiàng)列表輸出。不是反對(duì)項(xiàng)但是與各種子語義項(xiàng)共同定位的共同定位項(xiàng)被作為逐種子描述符項(xiàng)列表輸出。最佳分級(jí)的允許的語義項(xiàng)組合中的種子語義項(xiàng)被作為最優(yōu)間隔的語義種子組合輸出。輸入的允許的語義項(xiàng)組合中的所有其他語義項(xiàng)被作為允許的語義項(xiàng)列表輸出。
在可獲得足夠的計(jì)算資源以便以等于最優(yōu)間隔的種子項(xiàng)的所希望數(shù)目的精確組合大小進(jìn)行計(jì)算的本發(fā)明的變型中,上述輸出是來自種子分級(jí)器的最終輸出,跳過圖10中的候選近似種子分級(jí)器1020中的所有計(jì)算,并且僅傳遞反對(duì)項(xiàng)列表、允許的語義項(xiàng)列表、逐種子描述符項(xiàng)列表和最優(yōu)間隔的語義項(xiàng)組合作為直接來自候選精確種子組合分級(jí)器1015的輸出。
然而,本發(fā)明的大部分實(shí)現(xiàn)不具有足夠的計(jì)算資源以便使得候選精確種子組合分級(jí)器1020以大于2或3的精確組合大小計(jì)算。因此,需要候選近似種子分級(jí)器1020,以便產(chǎn)生4或5或更多種子項(xiàng)的較大的種子組合。利用兩個(gè)或三個(gè)種子項(xiàng)的最優(yōu)集合定義用于尋找附加種子的良好錨點(diǎn),獲得幾個(gè)更近似最優(yōu)的種子的趨勢(shì),如圖10所示,候選近似種子分級(jí)器1020利用最優(yōu)間隔的語義種子組合、允許的語義項(xiàng)、逐種子描述符項(xiàng)和反對(duì)項(xiàng)的輸入。
候選近似種子分級(jí)器1020 —項(xiàng)一項(xiàng)地檢查允許的語義項(xiàng)列表,尋找這樣的候選項(xiàng),該候選項(xiàng)到最優(yōu)間隔的語義種子組合的添加就包括相應(yīng)于與該候選項(xiàng)共同定位的新的不同項(xiàng)的附加對(duì)等項(xiàng)的新總流行性,以及包括已有的最優(yōu)間隔語義種子組合和該候選項(xiàng)之間的共同定位項(xiàng)沖突的新總接近性而言具有最大的平衡合意性。在選擇了最佳新候選項(xiàng)并且將其添加到最優(yōu)間隔的語義種子組合之后,候選近似種
子分級(jí)器1020存儲(chǔ)具有最佳候選項(xiàng)的對(duì)等項(xiàng)的新的擴(kuò)增的逐種子描述符項(xiàng)列表,具有已有的最優(yōu)間隔的語義種子組合和最佳候選項(xiàng)之間的項(xiàng)沖突的新的擴(kuò)增的反對(duì)項(xiàng)列表,和排除了新的反對(duì)項(xiàng)列表或逐種子描述符項(xiàng)列表中的任意項(xiàng)的新的較小的允許語義項(xiàng)列表。
系統(tǒng)循環(huán)進(jìn)行候選近似種子分級(jí)器1020積累種子項(xiàng),直到達(dá)到目標(biāo)種子計(jì)數(shù)。當(dāng)達(dá)到目標(biāo)種子計(jì)數(shù)時(shí),當(dāng)前反對(duì)項(xiàng)列表、允許的語義項(xiàng)列表、逐種子描述符項(xiàng)列表和最優(yōu)間隔的語義種子組合成為圖10的種子分級(jí)器的最終輸出。
圖8示出了圖10的輸出,種子分級(jí)器1000以及語義項(xiàng)-組索引被作為輸入傳遞到類別積累器825。圖11示出了類別積累器IIOO諸如圖8的類別積累器825的典型計(jì)算的詳細(xì)流程圖。類別積累器1100的目的是加深為最優(yōu)間隔的語義種子組合的每個(gè)種子存在的描述符項(xiàng)列表。雖然圖10的種子分級(jí)器將逐種子描述符項(xiàng)輸出到最優(yōu)間隔的語義種子組合的每個(gè)種子的列表中,允許的語義項(xiàng)列表一般包含與特定種子有關(guān)的語義項(xiàng)。
為了將這些有關(guān)的語義項(xiàng)添加到適當(dāng)種子的逐種子描述符項(xiàng)列表,類別積累器1100以項(xiàng)流行性順序?qū)υ试S的語義項(xiàng)排序,其中通常通過計(jì)數(shù)與語義項(xiàng)-組索引的短語內(nèi)的允許項(xiàng)共同定位的被稱為對(duì)等項(xiàng)的不同項(xiàng)的數(shù)目計(jì)算項(xiàng)流行性。項(xiàng)流行性的略微更準(zhǔn)確的測(cè)量還包括與該流行數(shù)的不同對(duì)等項(xiàng)共同定位其他不同項(xiàng)的數(shù)目。然而,這種改進(jìn)趨于在計(jì)算上是昂貴的,因?yàn)橄嗤N類的改進(jìn)是類似的,諸如語義地映射同義詞并且將它們包括在對(duì)等項(xiàng)中??梢允褂庙?xiàng)流行性的其他在計(jì)算上快速的測(cè)量,諸如允許項(xiàng)出現(xiàn)在文檔集合中的總次數(shù),但是這些其他測(cè)量趨于在語義上較不準(zhǔn)確。
然后類別積累器IIOO遍歷允許的語義項(xiàng)的有序列表, 一次對(duì)一個(gè)候選允許項(xiàng)操作。如果候選允許項(xiàng)在語義項(xiàng)-組的短語內(nèi)與唯--個(gè)種子的種子描述符項(xiàng)共同定位,則將該候選允許項(xiàng)移到該種子的逐種子描述符項(xiàng)列表。然而,如果該候選允許項(xiàng)在語義項(xiàng)-組的短.語內(nèi)與多于一個(gè)種子的逐種子描述符項(xiàng)列表共同定位,該候選允許項(xiàng)被移到反對(duì)項(xiàng)列表。如果候選允許項(xiàng)在語義項(xiàng)-組的短語中不與種子的種子描述符項(xiàng)共同定位,該候選允許項(xiàng)是孤兒項(xiàng),并且被簡單地從允許項(xiàng)列表中刪除。
類別積累器1100繼續(xù)在有序的允許語義項(xiàng)中循環(huán),刪除它們,
或?qū)⑺鼈円频椒磳?duì)項(xiàng)列表,或移到逐種子描述符項(xiàng)列表中的一個(gè),直到耗盡所有允許語義項(xiàng)并且允許語義項(xiàng)列表為空。任何不貢獻(xiàn)逐種子描述符項(xiàng)的語義項(xiàng)-組可被組織為屬于單獨(dú)的"其他"類別,它自己的其他描述符項(xiàng)構(gòu)成了從允許語義項(xiàng)列表中刪除的允許語義項(xiàng)。
作為最終輸出,類別積累器IOO將最優(yōu)間隔的語義種子組合的每
個(gè)種子項(xiàng)與相應(yīng)的逐種子描述符項(xiàng)列表,和文檔集合的語義項(xiàng)-組索引中的使用位置諸如文檔、語句、主語、動(dòng)詞或賓語短語的相應(yīng)列表
打包。這種輸出包被總地稱為類別描述符,它是類別積累器1100的輸出。
本發(fā)明的某些變型以積累的順序保持逐種子描述符項(xiàng)列表。其他的將如上所述以流行順序?qū)χ鸱N子描述符項(xiàng)列表排序,或當(dāng)為用戶接口的需要而調(diào)用自動(dòng)分類器的應(yīng)用的用戶希望時(shí),按到指示項(xiàng)的語義距離,或甚至按字母順序排序。
在圖8中,類別描述符被輸入用戶接口設(shè)備830。用戶接口設(shè)備830向使用應(yīng)用諸如萬維網(wǎng)搜索應(yīng)用、聊天萬維網(wǎng)搜索應(yīng)用、或蜂窩電話聊天萬維網(wǎng)搜索應(yīng)用的人顯示或口頭傳達(dá)類別描述符作為有意義的類別。圖15示出了萬維網(wǎng)搜索應(yīng)用的例子,其具有左上部處的用戶輸入框,右上部處的啟動(dòng)對(duì)用戶輸入的處理的搜索按鈕,和在它們之下的處理用戶輸入的結(jié)果。用戶輸入框示出"Cars"作為用戶輸入。對(duì)"Cars"的搜索結(jié)果被示出為三個(gè)類別,這三個(gè)類別被以它們的種子項(xiàng)"rental cars","new cars", "used cars"顯示。不對(duì)這三個(gè)種子項(xiàng)的逐種子描述符項(xiàng)列表做出貢獻(xiàn)的文檔和它們的語義項(xiàng)-組被概括到"其他"類別。
圖16示出了圖15的用戶接口設(shè)備,點(diǎn)擊打開了"rental cars"的 三角圖標(biāo)以便展示"daily,,和"monthly"的子類別??梢詮念悇e的逐種 子描述符項(xiàng)列表中的高度流行項(xiàng)中,或可以通過對(duì)"rental cars"類別 的類別描述符所指的文檔集合的子集合完整地重新運(yùn)行自動(dòng)數(shù)據(jù)分 類器,選擇類似顯示的子類別。
圖17示出了圖15的用戶接口設(shè)備,其中點(diǎn)擊打開了 "used cars" 的三角圖標(biāo),以l更示出各個(gè)萬維網(wǎng)站點(diǎn)URL和這些萬維網(wǎng)站點(diǎn)URL 的最佳URL描述符。當(dāng)類別諸如"used cars"僅具有由"used cars,,類 別的類別描述符所指的幾個(gè)萬維網(wǎng)站點(diǎn)時(shí),用戶一般希望一次看到它 們的全部,或在電話用戶接口設(shè)備的情況下,當(dāng)被語音合成器朗讀時(shí), 用戶將希望一次聽到它們的全部??蓮挠?used cars"類別的類別描述 符所指的最流行項(xiàng)中選擇最佳URL描述符。在兩個(gè)或多個(gè)流行項(xiàng)對(duì) 于最流行性幾乎不相上下的情況下,可將它們連接在一起,以便作為 混合項(xiàng)諸如"dealer warranty "顯示或由語音合成器朗讀。
圖18示出了自動(dòng)擴(kuò)增語義網(wǎng)絡(luò)字典的方法的高層流程圖。傳統(tǒng) 語義網(wǎng)絡(luò)字典的顯著缺點(diǎn)之一是手工建立的字典能夠?qū)崿F(xiàn)的通常不 充分的語義覆蓋范圍。存在通過與應(yīng)用用戶會(huì)話擴(kuò)增語義網(wǎng)絡(luò)字典的 自動(dòng)方法。然而,這些應(yīng)用的質(zhì)量極大地依賴語義網(wǎng)絡(luò)字典預(yù)先存在 的語義覆蓋范圍。
不是使得用戶疲于自舉階段,其中用戶必須煩瑣地進(jìn)行關(guān)于建立 塊功能語義項(xiàng)的會(huì)話,本質(zhì)上通過會(huì)話定義術(shù)語表,終端用戶應(yīng)用可 以即時(shí)獲取術(shù)語以便智能地進(jìn)行關(guān)于它的會(huì)話。通過獲取用戶的會(huì)話 式輸入,并且將其視為對(duì)語義或關(guān)鍵字索引的查詢請(qǐng)求,以從該查詢 得到的文檔集合運(yùn)行圖8的自動(dòng)數(shù)據(jù)分類器。得自于該運(yùn)行的類別描 述符可被用于指示在會(huì)話地響應(yīng)用戶之前,與用戶會(huì)話式輸入相關(guān)的 語義準(zhǔn)確的詞匯的自動(dòng)構(gòu)建。因此,對(duì)用戶的響應(yīng)利用在接收用戶會(huì) 話式輸入之前語義網(wǎng)絡(luò)字典中不存在的詞匯。因此,為智能響應(yīng)即時(shí) 產(chǎn)生的詞匯可以取代煩瑣的關(guān)于建立塊功能語義項(xiàng)的會(huì)話。例如,如果用戶的會(huì)話式輸入提及混合汽車,并且語義網(wǎng)絡(luò)字典不具有術(shù)語
gas - electric或"hybrid electric"的詞匯,在繼續(xù)與用戶進(jìn)4亍關(guān)于 "hybrid cars"的會(huì)話之前,這些術(shù)語可^皮迅速地自動(dòng)地添加到語義網(wǎng) 絡(luò)字典中。
圖18獲取查詢請(qǐng)求的輸入或?qū)⒈惶砑拥阶值渲械男g(shù)語諸如 "hybrid cars",并且通過圖8的方法發(fā)送,該方法返回相應(yīng)的類別描 述符。類別描述符中的每個(gè)種子項(xiàng)可被用于定義"hybrid cars"的多義 含義。例如,即使種子項(xiàng)不是詞典編幕者所定義的確切含義,諸如 "Toyota Hybrid", "Honda Hybrid"和"Fuel cell Hybrid",每個(gè)種子 項(xiàng)可以產(chǎn)生由"hybrid cars"的各個(gè)單獨(dú)多義節(jié)點(diǎn)所繼承的相同拼寫 的語義網(wǎng)絡(luò)節(jié)點(diǎn)。圖18的多義節(jié)點(diǎn)產(chǎn)生器創(chuàng)建這些節(jié)點(diǎn)。然后,如 詞典編纂者所理解的,通過以被作為"hybrid cars,,的各個(gè)單獨(dú)多義節(jié) 點(diǎn)的繼承項(xiàng)鏈接的每個(gè)描述符項(xiàng)重新查詢語義或關(guān)鍵字索引,可以進(jìn) 一步定義"hybrid cars"的每個(gè)各個(gè)單獨(dú)多義節(jié)點(diǎn)的含義。因此例如 "Toyota Hybrid"將被用作圖8的方法的輸入,以便產(chǎn)生描述"Toyota Hybrid"的類別描述符種子項(xiàng),諸如"hybrid System", "Hybrid Lexus" 和"ToyotaPrius"。如果尚未在語義網(wǎng)絡(luò)字典中,圖18的繼承節(jié)點(diǎn)產(chǎn) 生器創(chuàng)建這些拼寫的節(jié)點(diǎn),并且鏈接它們,以便使得它們被相應(yīng)的各 個(gè)單獨(dú)的多義節(jié)點(diǎn)諸如被創(chuàng)建以便描述"Toyota Hybrid"的"hybrid cars"繼承。
自動(dòng)產(chǎn)生語義網(wǎng)絡(luò)字典的一個(gè)優(yōu)點(diǎn)是低的勞動(dòng)代價(jià)和最新的節(jié) 點(diǎn)含義。雖然可以創(chuàng)建非常大數(shù)量的節(jié)點(diǎn),即使在檢查以便確保不存 在相同拼寫或通過形態(tài)學(xué)相關(guān)的相同拼寫(諸如與car相關(guān)的cars) 的節(jié)點(diǎn)之后,可以使用各種方法以便以后通過當(dāng)兩個(gè)節(jié)點(diǎn)本質(zhì)上具有 相同語義含義時(shí)以一個(gè)節(jié)點(diǎn)取代另一個(gè)節(jié)點(diǎn)簡化語義網(wǎng)絡(luò)。
圖19示出了在會(huì)話用戶接口中部署的圖18的方法。來自應(yīng)用用 戶的輸入查詢請(qǐng)求被用作圖18的方法的輸入以便自動(dòng)地?cái)U(kuò)增語義網(wǎng) 絡(luò)字典。以圖18的方法產(chǎn)生的語義網(wǎng)絡(luò)節(jié)點(diǎn)加入作為搜索引擎萬維 網(wǎng)入口或搜索引擎聊天機(jī)器人所使用的會(huì)話或語義搜索方法的基礎(chǔ)
29的語義網(wǎng)絡(luò)字典。搜索引擎萬維網(wǎng)入口或搜索引擎聊天機(jī)器人在語義 網(wǎng)絡(luò)字典中查找用戶請(qǐng)求,以便更好地從語義視角理解用戶實(shí)際請(qǐng)求 的是什么。以這種方式,萬維網(wǎng)入口可以避免檢索相應(yīng)于在搜索請(qǐng)求
中偶然拼寫的關(guān)鍵字的無關(guān)的數(shù)據(jù)。例如,傳遞到關(guān)鍵字引擎的"token praise" 的用戶請(qǐng)求可以返回所希望的語句諸如"This memorial will last long past the time that token praise will be long forgotten."。 然 而,遺失關(guān)于"token praise,,的含義的詞匯的關(guān)鍵字引擎或語義引擎將 返回?zé)o關(guān)的i吾句,諸3口兒童4亍為建i義"pair werbal praise with the presentation of a token"和"Priase: tokens and coins shipped promptly and sold exactly as advertised...four star rating"的代幣商 顧客評(píng)價(jià)。通過圖19公開的即時(shí)的詞匯擴(kuò)增,"token praise"的含義 和其他完善的語義項(xiàng)可被即時(shí)添加到語義字典中,以便使用其他方法 從搜索結(jié)果集合中去除無關(guān)數(shù)據(jù)。另外,通過更準(zhǔn)確地關(guān)聯(lián)語義同義 詞和語義相關(guān)的拼寫,從而當(dāng)計(jì)算含義流行性時(shí)可以準(zhǔn)確地檢測(cè)含義 的共同定位,圖19公開的即時(shí)的詞匯擴(kuò)增可以使得后續(xù)自動(dòng)分類更 為準(zhǔn)確。通過不僅基于共同定位的拼寫,而且基于共同定位的同義詞 和共同定位的密切相關(guān)含義檢測(cè)描述符項(xiàng)和反對(duì)項(xiàng),語義同義詞和語 義相關(guān)拼寫的更準(zhǔn)確的關(guān)聯(lián)還能夠?qū)崿F(xiàn)圖10中的逐種子描述符項(xiàng)和 反對(duì)項(xiàng)更準(zhǔn)確的檢測(cè)。
注意,可以使用硬件、軟件或其組合實(shí)現(xiàn)上述實(shí)施例,并且可以 在如上所述的一個(gè)或多個(gè)計(jì)算機(jī)系統(tǒng)或其他處理系統(tǒng)中實(shí)現(xiàn)這些實(shí) 施例。
雖然已經(jīng)相當(dāng)詳細(xì)地描述了上述實(shí)施例,但是一旦完整理解了上 述公開,本領(lǐng)域的技術(shù)人員將會(huì)明了各種變形和修改。打算將所附的 權(quán)利要求書解釋為包括所有這些變形和修改。
權(quán)利要求
1.一種用于將內(nèi)容單元映射到其他內(nèi)容單元的方法,該方法包括下列步驟主體顯示(200)發(fā)送對(duì)客戶內(nèi)容的請(qǐng)求;針對(duì)客戶內(nèi)容查詢類別內(nèi)容索引(107);提供相應(yīng)于該請(qǐng)求的索引且分類的內(nèi)容;響應(yīng)于確定該索引且分類的內(nèi)容既不是新內(nèi)容也不是更新的內(nèi)容,提供該索引且分類的內(nèi)容以便顯示;和顯示該分類的內(nèi)容。
2. 如權(quán)利要求1的方法,還包括響應(yīng)于確定該索引且分類的內(nèi)容 是新內(nèi)容和更新的內(nèi)容中的任一種,將該索引且分類的內(nèi)容添加到語 義內(nèi)容索引(105)。
3. 如權(quán)利要求2的方法,還包括 從語義內(nèi)容索引收集類別相關(guān)的語義內(nèi)容信息;和 對(duì)收集的類別相關(guān)的語義內(nèi)容信息重新分類。
4. 如權(quán)利要求3的方法,還包括將重新分類的類別相關(guān)的語義內(nèi) 容信息添加到類別內(nèi)容索引。
5. 如權(quán)利要求3的方法,其中收集類別相關(guān)的語義內(nèi)容信息包括 提供搜索項(xiàng)和包括該搜索項(xiàng)的查詢請(qǐng)求、使用該搜索項(xiàng)搜索數(shù)據(jù)存儲(chǔ) 并且選擇相應(yīng)于該查詢請(qǐng)求的文檔集合,其中所述文檔集合包括具有 與該搜索項(xiàng)相關(guān)的語義短語的文檔。
6. 如權(quán)利要求5的方法,其中文檔集合包括指向包括一個(gè)或多個(gè) 統(tǒng)一資源定位符(URL)的文檔、另一個(gè)文檔、和包括一個(gè)或多個(gè)段 落、語句和短語的文檔的一部分的指針列表。
7. —種被配置為將內(nèi)容單元映射到其他內(nèi)容單元的系統(tǒng)(600), 該系統(tǒng)包括處理器(604),被配置為執(zhí)行指令;和存儲(chǔ)器(608),其連接到處理器并且被配置為存儲(chǔ)程序指令,該程序指令可由處理器執(zhí)行以便發(fā)送對(duì)客戶內(nèi)容的請(qǐng)求;針對(duì)客戶內(nèi)容查詢類別內(nèi)容索引(107);提供相應(yīng)于該請(qǐng)求的索引且分類的內(nèi)容;響應(yīng)于確定該索引且分類的內(nèi)容既不是新內(nèi)容也不是更新的內(nèi) 容,提供該索引且分類的內(nèi)容以便顯示;和在主體顯示(200)中顯示該分類的內(nèi)容。
8. 如權(quán)利要求7的系統(tǒng),其中該程序指令還可由處理器執(zhí)行以便 響應(yīng)于確定該索引且分類的內(nèi)容是新內(nèi)容和更新的內(nèi)容中的任一種, 將該索引且分類的內(nèi)容添加到語義內(nèi)容索引(105)。
9. 如權(quán)利要求8的系統(tǒng),其中該程序指令還可由處理器執(zhí)行以便 從語義內(nèi)容索引收集類別相關(guān)的語義內(nèi)容信息;和 對(duì)收集的類別相關(guān)的語義內(nèi)容信息重新分類。
10. 如權(quán)利要求9的系統(tǒng),其中該程序指令還可由處理器執(zhí)行以 便將重新分類的類別相關(guān)的語義內(nèi)容信息添加到類別內(nèi)容索引。
11. 如權(quán)利要求9的系統(tǒng),其中該程序指令還可由處理器執(zhí)行以便提供搜索項(xiàng)和包括該搜索項(xiàng)的查詢請(qǐng)求;和 使用該搜索項(xiàng)搜索數(shù)據(jù)存儲(chǔ),并且選擇相應(yīng)于該查詢請(qǐng)求的文檔集合,其中所述文檔集合包括具有與該搜索項(xiàng)相關(guān)的語義短語的文檔。
12. 如權(quán)利要求11的系統(tǒng),其中數(shù)據(jù)存儲(chǔ)是萬維網(wǎng),并且文檔集 合包括指向包括一個(gè)或多個(gè)統(tǒng)一資源定位符(URL)的文檔、另一個(gè) 文檔、和包括一個(gè)或多個(gè)段落、語句和短語的文檔的一部分的指針列 表。
13. —種用于產(chǎn)生用于在主體顯示(200)上使用的匹配客戶內(nèi)容 的方法,該方法包括下列步驟發(fā)送對(duì)預(yù)覽匹配的內(nèi)容的客戶請(qǐng)求;針對(duì)客戶匹配的內(nèi)容查詢類別內(nèi)容索引(107);提供相應(yīng)于該請(qǐng)求的所請(qǐng)求的索引且分類的客戶內(nèi)容; 將該索引且分類的客戶內(nèi)容添加到語義內(nèi)容索引(107); 從語義內(nèi)容索引收集類別相關(guān)的語義內(nèi)容信息; 對(duì)收集的類別相關(guān)的語義內(nèi)容信息重新分類; 將重新分類的類別相關(guān)的語義內(nèi)容信息添加到類別內(nèi)容索引;和 報(bào)告匹配客戶請(qǐng)求的分類的匹配內(nèi)容。
14. 如權(quán)利要求13的方法,還包括將重新分類的收集的類別相關(guān) 的語義內(nèi)容信息標(biāo)記為臨時(shí)信息,然后存儲(chǔ)到類別內(nèi)容索引中。
15. 如權(quán)利要求13的方法,還包括響應(yīng)于用戶提交后續(xù)的預(yù)覽匹 配的內(nèi)容請(qǐng)求但是未提交針對(duì)先前的預(yù)覽匹配的內(nèi)容請(qǐng)求的投標(biāo)值, 從類別內(nèi)容索引中刪除被標(biāo)記為臨時(shí)信息的重新分類的收集的類別 相關(guān)的語義內(nèi)容信息。
16. 如權(quán)利要求13的方法,還包括基于對(duì)預(yù)覽匹配的內(nèi)容的請(qǐng)求 的結(jié)果,提交投標(biāo)值以便購買在一個(gè)或多個(gè)主體顯示上顯示分類的匹 配內(nèi)容的空間。
17. 如權(quán)利要求16的方法,還包括響應(yīng)于提交投標(biāo)值,從存儲(chǔ)在 類別內(nèi)容索引中的重新分類的收集的類別相關(guān)的語義內(nèi)容信息中刪 除臨時(shí)標(biāo)簽。
18. —種用于產(chǎn)生用于在主體顯示(200)上使用的匹配客戶內(nèi)容 的系統(tǒng)(600),該系統(tǒng)包括處理器(604),被配置為執(zhí)行指令;和存儲(chǔ)器(608),其連接到處理器并且被配置為存儲(chǔ)程序指令, 該程序指令可由處理器執(zhí)行以便發(fā)送對(duì)預(yù)覽匹配的內(nèi)容的客戶請(qǐng)求;針對(duì)客戶匹配的內(nèi)容查詢類別內(nèi)容索引(107);提供相應(yīng)于該請(qǐng)求的所請(qǐng)求的索引且分類的客戶內(nèi)容; 將該索引且分類的客戶內(nèi)容添加到語義內(nèi)容索引; 從語義內(nèi)容索引(105)收集類別相關(guān)的語義內(nèi)容信息; 對(duì)收集的類別相關(guān)的語義內(nèi)容信息重新分類;將重新分類的類別相關(guān)的語義內(nèi)容信息添加到類別內(nèi)容索引;和 報(bào)告匹配客戶請(qǐng)求的分類的匹配內(nèi)容。
19. 如權(quán)利要求18的系統(tǒng),其中該程序指令還可由處理器執(zhí)行以 便將重新分類的收集的類別相關(guān)的語義內(nèi)容信息標(biāo)記為臨時(shí)信息,然 后存儲(chǔ)到類別內(nèi)容索引中。
20. 如權(quán)利要求18的系統(tǒng),其中該程序指令還可由處理器執(zhí)行以 便響應(yīng)于用戶提交后續(xù)的預(yù)覽匹配的內(nèi)容請(qǐng)求但是未提交針對(duì)先前 的預(yù)覽匹配的內(nèi)容請(qǐng)求的投標(biāo)值,從類別內(nèi)容索引中刪除被標(biāo)記為臨時(shí)信息的重新分類的收集的類別相關(guān)的語義內(nèi)容信息。
全文摘要
一種自動(dòng)匹配機(jī)制包括用于將內(nèi)容單元映射到其他內(nèi)容單元的方法。該方法包括主體顯示(200)發(fā)送對(duì)客戶內(nèi)容的請(qǐng)求。該方法還可以包括針對(duì)客戶內(nèi)容查詢類別內(nèi)容索引(107),并且提供相應(yīng)于該請(qǐng)求的索引且分類的內(nèi)容;響應(yīng)于確定該索引且分類的內(nèi)容既不是新內(nèi)容也不是更新的內(nèi)容,提供該索引且分類的內(nèi)容以便顯示;和在主體顯示上顯示該分類的內(nèi)容。該自動(dòng)匹配機(jī)制可以包括用于產(chǎn)生用于主體顯示的匹配客戶內(nèi)容的方法。該方法包括發(fā)送客戶請(qǐng)求以便預(yù)覽匹配的內(nèi)容,并且針對(duì)客戶匹配的內(nèi)容查詢類別內(nèi)容索引;從語義內(nèi)容索引(105)收集類別相關(guān)的語義內(nèi)容信息;和報(bào)告匹配客戶請(qǐng)求的分類的匹配內(nèi)容。
文檔編號(hào)G06F17/30GK101606152SQ200780043235
公開日2009年12月16日 申請(qǐng)日期2007年10月3日 優(yōu)先權(quán)日2006年10月3日
發(fā)明者L·奧 申請(qǐng)人:Qps技術(shù)有限責(zé)任公司