通過分析內(nèi)容確定上下文并且基于該上下文提供相關(guān)內(nèi)容的制作方法
【專利摘要】本發(fā)明披露了一種通過分析內(nèi)容確定上下文并且基于該上下文提供相關(guān)內(nèi)容的方法。根據(jù)一個總的方面,本發(fā)明涉及一種用于向輸入內(nèi)容補充相關(guān)內(nèi)容的方法,所述方法包括接收所述輸入內(nèi)容以及從所述輸入內(nèi)容中識別出概念。所述方法還包括對與所述概念相關(guān)聯(lián)的分類法進行識別,并且使用該分類法對所述概念進行分析來生成一組經(jīng)過分類的概念集。所述方法還包括將經(jīng)過分類的概念發(fā)送至一數(shù)據(jù)庫來對所述相關(guān)內(nèi)容進行識別,以及將所述相關(guān)內(nèi)容補充至所述輸入內(nèi)容。
【專利說明】通過分析內(nèi)容確定上下文并且基于該上下文提供相關(guān)內(nèi)容
相關(guān)引用
[0001]本申請要求2005年12月22日提出的美國臨時專利申請N0.60/752,594的優(yōu)先權(quán)。之前申請的內(nèi)容通過引用全部引入本申請。
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及通過分析內(nèi)容確定上下文以及基于所述上下文來識別廣告或者其它相關(guān)的或有價值的內(nèi)容,并且進一步,本發(fā)明還涉及一種用于多域知識管理的語義內(nèi)容路由器。
【背景技術(shù)】
[0003]由于互聯(lián)網(wǎng)上可用電子內(nèi)容的增長和用于為互聯(lián)網(wǎng)上用戶提供廣告和其它內(nèi)容的方法的多樣性,導(dǎo)致在基于互聯(lián)網(wǎng)用戶搜索的或者在線閱讀的信息為用戶提供有關(guān)或者相關(guān)廣告和有關(guān)或者相關(guān)內(nèi)容時,持續(xù)存在根本性的困難。
[0004]分類法可以被用來對互聯(lián)網(wǎng)的電子內(nèi)容進行分類或歸類來建立上下文的相關(guān)性,典型地,用于對多個電子內(nèi)容歸類的分類法通常針對一個單一域。但是,表示多個不同域的電子內(nèi)容可能需要歸類??梢蚤_發(fā)出一個包括針對所有域的分類規(guī)則的單一分類法。但是,對所在域有效的分類法通常要求大量規(guī)則而基于大量規(guī)則來對內(nèi)容進行分類可能會異常緩慢。此外,用于一個域的單一分類法中的分類規(guī)則可能會與用于另一個域的單一分類法的分類規(guī)則相沖突或者抵觸??蛇x擇地,可以開發(fā)出多個專用域的分類法來避免分類規(guī)則的沖突。但是,使用多個分類法中的每一個分類法來分類內(nèi)容也可能會異常緩慢。
【發(fā)明內(nèi)容】
[0005]上下文分析引擎對可能包括在所發(fā)布的電子內(nèi)容中且根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容(以下稱為“相關(guān)內(nèi)容”)進行識別。典型地,該相關(guān)內(nèi)容由編輯者手工進行識別,編輯者使用單獨的軟件系統(tǒng)使用的有意義的標志對基本內(nèi)容進行標識,或者手工地對嵌入在基本內(nèi)容中的相關(guān)內(nèi)容進行選擇。上下文分析弓I擎自動對電子基本內(nèi)容中的關(guān)鍵語義概念進行識別,然后將之與相關(guān)的高價值的數(shù)據(jù)或者其它相關(guān)內(nèi)容進行匹配。當發(fā)布者認為適當時則將此數(shù)據(jù)嵌入到內(nèi)容中。例如,上下文分析引擎可能會識別語義上相關(guān)的內(nèi)容作為每點擊成本(CPC)廣告、千人成本(CPM)橫幅廣告、企業(yè)聯(lián)合內(nèi)容或其它有價值的內(nèi)容導(dǎo)航的形式。該內(nèi)容可能會包括網(wǎng)頁、由RSS文件(RSSfeed)識別的文章、用于形式搜索查詢的關(guān)鍵詞、搜索查詢的搜索結(jié)果,或者任何可以轉(zhuǎn)換為純文本的其它電子內(nèi)容。
[0006]詞匯語義分析(LSA)可以用于識別包含在一段電子內(nèi)容中的概念。基于文檔的屬性,例如包含在文檔中的詞匯,可以將一大組文檔分離為多個集群??梢詮募褐忻恳粋€文檔中提取出概念,在集群中出現(xiàn)最頻繁的或者被認為對于所述集群重要的概念可以被識別為該集群的概念。當從文檔中提取概念時,所述文檔對應(yīng)的集群被識別。之前所識別的集群概念可以被標識為所述文檔的概念。[0007]執(zhí)行語義衡量過程的語義內(nèi)容路由器可以被更有效地用于對文檔中提取的所述概念進行歸類。所述語義內(nèi)容路由器(或簡稱“路由器”)可以從多個可以合適地歸類概念的可用分類法中識別出一個子集,并且隨后由概念路由到合適的分類法。語義衡量過程分析所述概念以快速確定概念或者一組詞匯可能屬于的域。從此分析產(chǎn)生的信息可以被多個分類法中的一個或者多個分類法使用,來有效地歸類所述概念。使用一組概念訓(xùn)練所述路由器,所述概念是被多個分類法中的那些應(yīng)該被用來歸類所述概念的指示來標記。對多個分類法中的每一個分類法中概念的權(quán)重進行識別,使用其識別出的權(quán)重超過閥值的分類法對概念進行分類。
[0008]此上下文分析引擎可以被用于在網(wǎng)站上實現(xiàn)有價值的貨幣化和導(dǎo)航功能。這種類型的導(dǎo)航應(yīng)用的一個例子是“贊助導(dǎo)航”。此過程的工作方式如下。使用形成上下文分析引擎的各種軟件模塊來分析發(fā)布者的整個網(wǎng)站,對所有頁面上的所有概念使用一個或多個分類法來進行提取和索引。對網(wǎng)站的每個頁面上的概念和與所述概念相關(guān)聯(lián)的相關(guān)內(nèi)容(基于分類法)做超鏈接處理。這些“超鏈接”以能夠被廣告商贊助的廣告單元的形式顯示(例如“贊助導(dǎo)航”)。在廣告單元內(nèi)點擊這些超鏈接中的任何一個將能夠“觸發(fā)”多個廣告遞送選擇,例如關(guān)于主題的“轉(zhuǎn)換廣告”、“直線”文本廣告或者圖形廣告。轉(zhuǎn)換之后,用戶可以瀏覽所述廣告或者被鏈接到顯示所述概念附加“內(nèi)容”的網(wǎng)站部分。
[0009]使用上下文分析引擎實現(xiàn)貨幣化應(yīng)用的另一個例子是“網(wǎng)賺”(TM) (ClickSense(TM))應(yīng)用。此應(yīng)用可以分析搜索查詢、URL (例如,網(wǎng)頁)、RSS文件、博客或者任何文本塊,并且通過使用語義內(nèi)容路由器和可用的廣告清單,定位與所述搜索查詢、URL、RSS文件、博客或者任何文本塊高度相關(guān)并且具有較高價值的廣告,然后將這些廣告發(fā)布到互聯(lián)網(wǎng)用戶所請求的頁面上。
[0010]根據(jù)本發(fā)明的一個總的方面,一種向輸入內(nèi)容中補充相關(guān)內(nèi)容的方法,包括接收將為其識別相關(guān)內(nèi)容的輸入內(nèi)容,提取與所述輸入內(nèi)容相關(guān)的文本,在所提取的文本中識別概念。所述方法還包括識別至少一個和所述概念相關(guān)的分類法,以及使用所述至少一個分類法來分析所述概念從而產(chǎn)生和所述至少一個分類法的一個或者多個分類相關(guān)的一組已經(jīng)分類的概念。所述方法還包括向數(shù)據(jù)庫提交所述已分類的概念。所述數(shù)據(jù)庫存儲基于其類別進行了索引的數(shù)據(jù)。所述方法也包括從數(shù)據(jù)庫請求與所述已分類概念關(guān)聯(lián)的相關(guān)內(nèi)容,響應(yīng)所述請求從數(shù)據(jù)庫接收所述相關(guān)內(nèi)容,補充所述相關(guān)內(nèi)容到輸入內(nèi)容,以及使得用戶可以瀏覽所述相關(guān)內(nèi)容。
[0011]以上本發(fā)明的總的方面的實施例可以包括一個或者多個以下特征。例如,所述輸入內(nèi)容可以包括用于獲取搜索結(jié)果的搜索查詢,提取和輸入內(nèi)容相關(guān)的文本可以包括提取包含所述搜索查詢的關(guān)鍵字??商鎿Q地或者附加地,提取和輸入內(nèi)容相關(guān)的文本還可以包括獲取所述搜索結(jié)果并且從所獲取的搜索結(jié)果中提取所述文本。
[0012]在本發(fā)明的另一個實施例中,接收輸入內(nèi)容可以包括接收統(tǒng)一資源定位符,提取和所述輸入內(nèi)容相關(guān)的文本包括獲取位于所述統(tǒng)一資源定位符的網(wǎng)頁以及提取和所述網(wǎng)頁相關(guān)的文本??商鎿Q地或者附加地,接收輸入內(nèi)容可以包括接收RSS文件,提取和所述輸入內(nèi)容相關(guān)的文本可以包括提取包含在所述RSS文件中的文本??商鎿Q地或者附加地,接收輸入內(nèi)容可以包括接收博客內(nèi)的入口,提取和輸入內(nèi)容相關(guān)的文本可以包括提取所述博客內(nèi)的所述入口。[0013]相關(guān)內(nèi)容可以包括廣告或贊助鏈接,所述廣告和贊助鏈接對應(yīng)于輸入內(nèi)容相關(guān)的一個或多個每點擊成本、每次印象費用或者每行動成本。識別所提取文本中的概念可以包括識別包含在所述文本中的一個名詞短語或者恰當?shù)拿~。接收相關(guān)內(nèi)容還可以包括識別已分類概念的種類,以及將數(shù)據(jù)庫中顯示的并且與所識別類別相關(guān)的內(nèi)容標識為相關(guān)內(nèi)容。
[0014]根據(jù)本發(fā)明的另一個總的方面,一種基于一個用戶接口來補充文檔的方法,所述用戶接口包括與所述文檔中出現(xiàn)的一個或者多個概念關(guān)聯(lián)的相關(guān)內(nèi)容,所述方法包括提取存儲器中存儲的文檔中出現(xiàn)的概念,并且識別和所提取的概念關(guān)聯(lián)的分類法。所述方法還包括使用所述分類法分析所提取的概念來產(chǎn)生一組分類概念,并且使用所述分類法或者另一個相關(guān)分類法從存儲于相同或者不同存儲器中的多個其它文檔中識別和所述已分類概念關(guān)聯(lián)的相關(guān)內(nèi)容。所述方法還包括對所提取的概念和相關(guān)內(nèi)容進行超鏈接處理,在用戶接口中顯示經(jīng)過超鏈接處理的概念和相關(guān)內(nèi)容,其中所述用戶接口由內(nèi)容提供商提供贊助。
[0015]上述總的方面的實施例可以包括一個或者多個以下特征。例如,提取概念可以包括提取和所述文檔相關(guān)聯(lián)的文本以及提取包含在所述文本中的一個名詞短語或恰當?shù)拿~。恰當?shù)拿~可以包括人名、機構(gòu)名稱、公司名稱或者產(chǎn)品名稱??商娲鼗蛘吒郊拥?,提取概念可以包括提取出現(xiàn)在網(wǎng)站的網(wǎng)頁中的概念。
[0016]上述總的方面的實施例還可以包括接收一個選擇所顯示超鏈接中的一個超鏈接的指示,對所述接收到的指示進行響應(yīng),顯示和所選擇的超鏈接相關(guān)聯(lián)的網(wǎng)頁,其中,所述網(wǎng)頁包括和所提取概念相關(guān)的附加內(nèi)容。贊助的內(nèi)容提供商可以和發(fā)布者為同一實體??商娲鼗蛘吒郊拥?,贊助的內(nèi)容提供商可以為不同于發(fā)布者的實體。
[0017]使用所述分類法或者另一相關(guān)分類法可以包括使用分類法在存儲在同一或者不同存儲器中的多個其它文檔中識別和所述已分類概念關(guān)聯(lián)的相關(guān)內(nèi)容,其中,所述相關(guān)內(nèi)容和所述已分類概念屬于同一類別。附加地,使用所述分類法或者另一相關(guān)分類法也可以包括確定所述分類法是否和另一分類法相關(guān),如果確定所述分類法和另一分類法相關(guān),則使用其它相關(guān)分類法在同一或者不同存儲器中的多個其它文檔中識別和所述已分類概念關(guān)聯(lián)的相關(guān)內(nèi)容。所述相關(guān)內(nèi)容可以屬于和所述已分類概念的類別不同但相關(guān)的一個類別。
[0018]所述方法還可以包括,通過參照與另一分類法互相鏈接的分類法的列表,對其它相關(guān)分類法進行識別,從而對與所提取概念的分類法相關(guān)聯(lián)的其它相關(guān)分類法進行識別。所述相關(guān)內(nèi)容可以與所述已分類概念屬于同一類別??商娲鼗蛘吒郊拥?,所述相關(guān)內(nèi)容可以屬于和所述已分類概念的類別不同但相關(guān)的類別。
[0019]根據(jù)本發(fā)明的另一個總的方面,一種從多個用于分類輸入短語的分類法中對分類法進行識別的方法,包括提供多個分類法,該多個分類法的每一個分類法對應(yīng)于知識的一特定域,接收將由所述多個分類法的至少一個分類法進行分類的輸入短語,并且將所接收到的輸入短語表征為一個或者多個單詞。所述方法還包括:從所述多個分類法中選擇第一分類法;對于所選擇的第一分類法,識別出所存儲的與所述一個或者多個單詞中的每一個單詞相關(guān)聯(lián)的權(quán)重;對于所選擇的第一分類法,累計所存儲的與所述一個或者多個單詞中的每一個單詞相關(guān)聯(lián)的權(quán)重,從而識別與所述輸入短語相關(guān)聯(lián)的第一權(quán)重。所述方法還包括從所述多個分類法中選擇第二分類法;對于所選擇的第二分類法,識別出所存儲的與所述一個或者多個單詞中的每一個單詞相關(guān)聯(lián)的權(quán)重;對于所選擇的第二分類法,累計所存儲的與所述一個或者多個單詞中的每一個單詞相關(guān)聯(lián)的權(quán)重,從而識別與所述輸入短語相關(guān)聯(lián)的第二權(quán)重。所述方法還包括,將與所述輸入短語相關(guān)聯(lián)的第一權(quán)重和第二權(quán)重與一閾值進行比較,并且基于比較結(jié)果,將所述輸入短語路由到所述第一分類法或者第二分類法進行分類。
[0020]上述總的方面的實施例可以包括一個或者多個以下特征。例如,接收所述輸入短語,可以包括接收包含在電子內(nèi)容中的概念,所述電子內(nèi)容的補充的和相關(guān)的電子內(nèi)容將被識別。表征所述輸入短語,可以包括將輸入短語劃分為單個的單詞。
[0021]對于所選擇的第一分類法和第二分類法,對所存儲的與每個所述的一個或者多個單詞相關(guān)聯(lián)的權(quán)重進行識別,可以包括通過參照包含有與所述一個或者多個單詞相關(guān)聯(lián)的權(quán)重的列表來識別所存儲的權(quán)重。所述列表中可以包括對應(yīng)于字典中的每個單詞的行、對應(yīng)多個分類法中的每一個分類法的列和位于每個行列交叉點處的分值。每個交叉點上的分值可以顯示出一種可能性,即包括對應(yīng)于每個交叉點的單詞的輸入短語可以通過對應(yīng)于此交叉點的列的特定分類法進行分類。對輸入短語進行路由可以包括將所述輸入短語路由至所述第一分類法和第二分類法進行分類。
[0022]所述技術(shù)的實現(xiàn)可以包括硬件、方法或者過程、或者存儲于計算機可存取介質(zhì)上的計算機軟件。
[0023]結(jié)合附圖和以下說明提出一個或者多個實施例的詳細說明。通過以下說明和附圖,以及權(quán)利要求書,本發(fā)明的其它特征將得到更清晰的說明。
【專利附圖】
【附圖說明】
[0024]圖1為示例性網(wǎng)絡(luò)計算環(huán)境的框圖;
[0025]圖2為用于提供與發(fā)布的電子內(nèi)容相關(guān)的、根據(jù)上下文有價值的相關(guān)內(nèi)容或者廣告的過程的流程圖;
[0026]圖3為用于識別和電子內(nèi)容相關(guān)的高價值數(shù)據(jù)的過程的流程圖;
[0027]圖4為用于識別包括在相關(guān)電子文檔集群中的概念的過程的流程圖;
[0028]圖5為用于識別包括在電子文檔中的概念的過程的流程圖;
[0029]圖6為包括路由器的概念分類器的框圖;
[0030]圖7為表示特定概念對應(yīng)于特定概念類別的可能性的表格;
[0031]圖8為用于識別一個短語對應(yīng)于一個或者多個分類法的可能性的過程的流程圖;
[0032]圖9為用于訓(xùn)練概念分類器的路由器以將概念路由至一個或多個相關(guān)分類法進行分類的過程的流程圖;
[0033]圖10為用于路由短語到一個或者多個相關(guān)分類法以進行分類的過程的流程圖;
[0034]圖11為贊助導(dǎo)航應(yīng)用所使用的示例性過程的流程圖,所述過程用于分析與發(fā)布者的網(wǎng)站相關(guān)聯(lián)的網(wǎng)頁以及使用一個或者多個分類法提取和索引出現(xiàn)在其中的概念;
[0035]圖12為一網(wǎng)頁的屏幕截圖,該網(wǎng)頁已經(jīng)采用超鏈接至發(fā)布者網(wǎng)站中其它頁面上的信息的概念短語進行了補充。具體實施例
[0036]參見圖1,網(wǎng)絡(luò)計算環(huán)境100能夠識別包含在發(fā)布的電子內(nèi)容中的高價值數(shù)據(jù)。網(wǎng)絡(luò)計算環(huán)境包括上下文分析引擎105,所述上下文分析引擎105識別內(nèi)容提供商110提供的有關(guān)和/或相關(guān)高價值數(shù)據(jù)以將其包括在內(nèi)容發(fā)布者115發(fā)布的內(nèi)容中。上下文分析弓I擎105包括文本提取器120、概念提取器125、概念濾波器130、概念分類器135和相關(guān)性識別模塊140。上下文分析引擎105、內(nèi)容提供商110和內(nèi)容發(fā)布者115使用網(wǎng)絡(luò)(例如,互聯(lián)網(wǎng))145通信。
[0037]上下文分析弓丨擎105對將被包括在由內(nèi)容發(fā)布者115提供的內(nèi)容中的適當高價值數(shù)據(jù)進行識別。上下文分析引擎105對所述內(nèi)容進行處理以此識別包括在所述內(nèi)容中的概念,并且識別將被包括在所述內(nèi)容中的補充內(nèi)容,諸如根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容或者提議。上下文分析引擎105可以間接從外部資源請求補充內(nèi)容,所述外部資源諸如使用包括在電子內(nèi)容中的概念或概念的類別的內(nèi)容提供商110。
[0038]內(nèi)容提供商110提供補充內(nèi)容以將其包括在內(nèi)容發(fā)布者115提供的內(nèi)容中。內(nèi)容提供商110可以直接將內(nèi)容提供給內(nèi)容發(fā)布者115,或者提供給上下文分析引擎105,上下文分析引擎105將會提供補充內(nèi)容給內(nèi)容發(fā)布者110。內(nèi)容提供商110可以對來自上下文分析引擎105的請求做出響應(yīng)來提供補充內(nèi)容。例如,所述請求可以包括一個或者多個每點擊成本(CPC)、每次印象費用(CPM)或者每行動成本(CPA)條件和/或多段內(nèi)容。CPM內(nèi)容可以是文本、圖形橫幅或者語義上相關(guān)的內(nèi)容。每點擊成本條件是一個已經(jīng)拍賣給企業(yè)的條件,其使得與該企業(yè)相關(guān)的補充內(nèi)容顯不在與每點擊成本條件相關(guān)的電子內(nèi)容中。每當瀏覽所顯示的補充內(nèi)容的最終用戶確實點擊所顯示的補充內(nèi)容時,企業(yè)將向內(nèi)容提供商110或者內(nèi)容發(fā)布者115支付費用。為響應(yīng)一個包含每點擊成本條件的請求,內(nèi)容提供商110識別并且返回有價值的或者相關(guān)的內(nèi)容給競拍得每點擊成本條件的企業(yè)。在每次印象費用模型中,企業(yè)在其補充內(nèi)容被顯示給最終用戶每一千次時進行支付。在每行動成本模型中,針對補充內(nèi)容被顯示給最終用戶的每一次動作,企業(yè)進行支付。上下文分析引擎105的特征可以應(yīng)用于CPC、CPM或者CPA以外的廣告模型。
[0039]內(nèi)容發(fā)布者115為可以包括補充內(nèi)容的電子內(nèi)容的發(fā)布者。例如,內(nèi)容發(fā)布者115可以為提供包括可以顯示根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容的空間的網(wǎng)頁的網(wǎng)絡(luò)服務(wù)器。內(nèi)容發(fā)布者115可以出售網(wǎng)頁上的顯示空間,使得有關(guān)和/或相關(guān)的根據(jù)上下文有價值的內(nèi)容可以被包括在空間中。內(nèi)容發(fā)布者115可以對將其根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容包括在網(wǎng)頁中的企業(yè)進行限制。內(nèi)容發(fā)布者115可以接收來自內(nèi)容提供商110的有關(guān)和/或相關(guān)的根據(jù)上下文有價值的內(nèi)容,并且可以是電子內(nèi)容中根據(jù)上下文有價值的。
[0040]在一個實施例中,上下文分析引擎105分析文本段(從內(nèi)容中提取出來的)并且將已感知為高“價值”的內(nèi)容返回。所述價值可以基于多種計價模型,包括但不限于CPC和CPM。文本提取器120從將要包括補充電子內(nèi)容的電子內(nèi)容中提取文本。例如,文本提取器120可以接收一個可以獲取電子內(nèi)容的URL。該URL可以從RSS文件獲得。除了獲取位于RSS文件中被識別的URL上的所有文本,文本提取器120還可以提取包括在RSS文件中的其它文本,諸如標題或者描述位于URL上的項目的其它文本。
[0041]概念提取器125從由文本提取器120提取的文本中提取概念。在一個實施例中,文本中的概念為出現(xiàn)在文本中的名詞短語。在此實施例中,包含在文本中的每一個詞可以使用一部分語音進行標記,語音部分可用于識別包含在文本中的每一個詞可以使用一部分語音進行標記,語音部分可用于識別包含在文本中的名詞短語。可替代地或者附加地,包含在文本中的適當名詞可以被識別為概念。由適當名詞構(gòu)成的列表可被用于從文本中識別出適當?shù)拿~。適當?shù)拿~可以包括人名(例如,名人、政治家、運動員和作家)、地名(例如,城市、州、國家和地區(qū))、企業(yè)名稱、公司名稱和產(chǎn)品名稱。用戶能夠修改適當名詞列表從而使其僅包括那些用戶所感興趣的企業(yè)對應(yīng)的適當名詞。在另一個實施例中,語匯語義分析(LSA)可被用于對包含在提取文本中的概念進行識別。隨后將參照圖4和圖5對LSA進行更為詳細的描述。
[0042]概念提取器125也可以加權(quán)從文本提取的概念,例如,使用TF.1DF加權(quán)算法或者另一合適的加權(quán)算法。概念的權(quán)重可以基于文本中概念出現(xiàn)的頻率。具有低權(quán)重或者在文本中不像其它概念那樣頻繁出現(xiàn)的概念可以被認為與上下文非相關(guān)而被排除。
[0043]概念濾波器130過濾由概念提取器125識別的概念。在一個實施例中,概念濾波器130可以移除不會進一步處理的概念,使得涉及不能采用的或者不期望的主題的概念從這組提取的概念中被移除。例如,概念濾波器130可以過濾涉及成人內(nèi)容、賭博或者已注冊商標的內(nèi)容的概念。概念濾波器130也可以特別強調(diào)感興趣的或者重要的其它概念。
[0044]概念分類器135對所提取的還沒有被概念濾波器130過濾掉的概念進行分類。概念分類器135可以將每一個提取出的概念傳送到一個或者多個分類法進行分類。將參照附圖6-10對概念分類器135做詳細描述。
[0045]相關(guān)性識別模塊140可以識別一個或多個根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容,以便根據(jù)概念提取器125和概念分類器135識別的概念和分類將其包括在內(nèi)容發(fā)布者110的電子內(nèi)容中。在一個實施例中,通過向內(nèi)容提供商110提供與所識別的類別相關(guān)的每點擊成本條件,相關(guān)性識別模塊140從內(nèi)容提供商110請求根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容。由相關(guān)識別模塊140識別的每點擊成本條件可能是能夠使得上下文分析引擎105、內(nèi)容提供商110或者內(nèi)容發(fā)布者115獲得最大收益的每點擊成本條件。
[0046]參見圖2,過程200用于識別一個或多個根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容,以將其包括在將要顯示給最終用戶的一段發(fā)布的電子內(nèi)容中。過程200可以由上下文分析引擎執(zhí)行,例如圖1中的上下文分析引擎105。當發(fā)布內(nèi)容時執(zhí)行過程200 —次,從而使得根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容能夠在發(fā)布內(nèi)容顯示之前被包括在發(fā)布內(nèi)容中??蛇x擇地或附加地,過程200可以在每次將發(fā)布的電子內(nèi)容顯示給最終用戶時執(zhí)行一次,從而使得顯示時根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容能夠被包括在內(nèi)容中。
[0047]上下文分析引擎105接收內(nèi)容發(fā)布者,如圖1中的內(nèi)容發(fā)布者115,所發(fā)布的內(nèi)容標識(步驟205)。發(fā)布內(nèi)容的標識可以從內(nèi)容發(fā)布者或者顯示發(fā)布內(nèi)容的計算機系統(tǒng)上接收。該標識可以包括能夠獲得所述內(nèi)容的URL的標識。在一個實施例中,電子內(nèi)容可以為從搜索查詢獲得的搜索結(jié)果,電子內(nèi)容的標識可以是構(gòu)成搜索查詢的關(guān)鍵詞??商娲鼗蚋郊拥?,電子內(nèi)容的標識可以是電子內(nèi)容自身。該標識還可以包括一個或多個描述可能包括在內(nèi)容中的有價值內(nèi)容的參數(shù),例如可能會包括在內(nèi)容中的內(nèi)容大小或內(nèi)容類型(例如,純文本,圖形,flash,視頻)。
[0048]上下文分析弓丨擎105對將要包括在內(nèi)容中的根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容進行識別(步驟210)。在一個實施例中,上下文分析引擎105識別對應(yīng)于與內(nèi)容有前和/或相關(guān)的一個或多個每點擊成本條件的廣告或贊助鏈接。所述上下文分析引擎識別根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容的方式將參照圖3進一步進行描述。
[0049]上下文分析引擎105從內(nèi)容提供商,例如圖1中的內(nèi)容提供商110,請求所識別出的根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容(步驟215 )。例如,上下文分析弓丨擎105可以將CPC條件提供給內(nèi)容提供商110,該內(nèi)容提供商可以提供與購買CPC條件的企業(yè)有關(guān)的根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容。上下文分析引擎105從內(nèi)容提供商110接收所請求的根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容,并且將所請求的根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容提供給發(fā)出內(nèi)容標識的系統(tǒng)(步驟220 )。例如,如果內(nèi)容標識是從內(nèi)容發(fā)布者115接收的,則上下文分析引擎105可以將根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容提供給內(nèi)容發(fā)布者115??商鎿Q地或附加地,內(nèi)容提供商110可以將根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容直接提供給發(fā)出內(nèi)容標識的系統(tǒng)。
[0050]參照圖3,過程300用于識別將要包括在發(fā)布的電子內(nèi)容中的根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容或其它補充內(nèi)容。過程300可以由上下文分析引擎執(zhí)行,例如圖1中的上下文分析引擎105。過程300可以表示圖2中的步驟210的一個實施例。過程300可以在發(fā)布內(nèi)容的同時執(zhí)行一次,從而使得根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容可以在發(fā)布的內(nèi)容被顯示之前被包括在發(fā)布內(nèi)容中??商鎿Q地或附加地,過程300可以在每次顯示發(fā)布的電子內(nèi)容時執(zhí)行,從而使得顯示時根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容被包括在內(nèi)容中。
[0051]上下文分析引擎105接收到將要進行處理的內(nèi)容標識(步驟305)。例如,上下文分析引擎105可以接收一個URL,該URL標識了可能包括一個或多個根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容的電子內(nèi)容。該URL可以被包括在一個RSS文件中。可替換地或附加地,內(nèi)容標識可以是為獲得搜索結(jié)果所使用的搜索查詢的標識(例如,實際使用的關(guān)鍵詞)??商鎿Q地或附加地,內(nèi)容標識可以是用戶生成網(wǎng)站中的一個入口標識,例如博客。上下文分析引擎105從電子內(nèi)容提取文本(步驟310)。例如,上下文分析引擎105可以使用文本提取器,例如圖1中的文本提取器120,來提取文本。提取文本的步驟可以包括獲得URL處的文本以及其它描述所獲取文本的其它文本,例如包括在RSS文件中的其它文本。如果內(nèi)容標識是搜索查詢,則文本提取器可以從所述搜索查詢產(chǎn)生的搜索結(jié)果中提取文本,或者簡單地,可以將形成搜索查詢的關(guān)鍵詞標識為所提取文本。如果內(nèi)容標識是用戶生成網(wǎng)站中的一個入口標識(例如博客),則文本提取器可以提取博客中的該入口。
[0052]上下文分析引擎105對包括在所提取文本中的概念進行識別(步驟315)。更具體地,上下文分析引擎可以使用概念提取器,例如圖1中的概念提取器125,來提取文本。概念提取器125可以將包括在所提取文本中的名詞短語和適當名詞標識為所提取文本的概念,如前所述,可替換地或附加地,概念提取器可以使用LSA來識別概念,以下將參照圖4和圖5對此進行更加詳細地描述。如果所提取文本是一個或多個構(gòu)成搜索查詢的關(guān)鍵詞,則整個搜索查詢可以被標識為包括在所提取文本中的單個概念(或基于關(guān)鍵詞的多個概念)。
[0053]上下文分析引擎105對識別出的概念進行過濾(步驟320)。更具體地,上下文分析引擎可以使用概念過濾器,如圖1中的概念濾波器130,來過濾概念。概念濾波器130可以濾除涉及不能采用的或者不期望的主題的概念,例如,由所述根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容將要插入的電子內(nèi)容的發(fā)布者定義的概念。概念濾波器130還可以特別強調(diào)對于內(nèi)容特別有關(guān)和/或相關(guān)或非常重要的一些概念。
[0054]上下文分析引擎105對過濾后的概念的類別進行識別(步驟325)。例如,上下文分析引擎可以使用概念分類器,例如圖1中的概念分類器135,來對概念進行分類。概念分類器135包括用于將每個概念路由到一個或多個知識域的語義內(nèi)容路由器,所述一個或多個知識域由包括在概念分類器中用于分類的分類法或其它表示方式表示。概念分類器的路由器中的語義內(nèi)容路由功能可以在多個知識域中識別出用于分類所述概念的知識域。語義內(nèi)容路由器還可以簡單地確定在分類過程中應(yīng)當使用的分類法的順序。語義內(nèi)容路由器還可以用于快速猜測一具體文本屬于哪個域。
[0055]上下文分析引擎105對與所識別類別有關(guān)的高價值或高相關(guān)性的數(shù)據(jù)進行識別(步驟330)。更具體地,上下文分析引擎105可以使用相關(guān)性識別模塊,例如圖1中的相關(guān)性識別模塊140,來對高價值或高相關(guān)性數(shù)據(jù)進行識別。高價值數(shù)據(jù)可能包括用來請求對應(yīng)的根據(jù)上下文有價值的有關(guān)和/或有相關(guān)內(nèi)容或贊助鏈接的一個或多個CPC條件,所述請求可以來自例如圖1的內(nèi)容提供商110??商鎿Q地或附加地,高價值數(shù)據(jù)可以包括根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容或贊助鏈接自身。
[0056]例如,搜索引擎用戶可以輸入一系列形成互聯(lián)網(wǎng)搜索查詢基礎(chǔ)的關(guān)鍵詞,并且通過單擊“Enter”鍵將搜索查詢發(fā)送給搜索引擎。搜索引擎根據(jù)關(guān)鍵詞完成搜索,并以URL列表或互聯(lián)網(wǎng)頁鏈接列表的形式返回可能與關(guān)鍵詞有關(guān)和/或相關(guān)的搜索結(jié)果網(wǎng)頁。搜索引擎還可以將關(guān)鍵詞轉(zhuǎn)發(fā)給上下文分析引擎105,上下文分析引擎105對關(guān)鍵詞進行分析并將其識別為一個或多個概念。上下文分析引擎105隨后通過在此描述的一個或多個分類法對概念進行處理,并返回或生成與所述一個或多個分類法相關(guān)聯(lián)的一組分類概念。然后由上下文分析引擎105將分類后的概念提交給數(shù)據(jù)庫。數(shù)據(jù)庫可以位于上下文分析引擎105內(nèi)或者遠離上下文分析引擎105,例如,位于內(nèi)容提供商110內(nèi)。在任何一種情況下,數(shù)據(jù)庫存儲基于其類別進行了索引的數(shù)據(jù)。
[0057]上下文分析引擎105從數(shù)據(jù)庫請求與所分類概念相關(guān)聯(lián)的相關(guān)內(nèi)容,并且響應(yīng)于所述請求,上下文分析引擎105從數(shù)據(jù)庫接收相關(guān)內(nèi)容。具體地,響應(yīng)于所述請求,搜索模塊可以對已分類概念的類別進行識別,并且可以將數(shù)據(jù)庫內(nèi)與所識別類別相關(guān)聯(lián)的內(nèi)容識別為相關(guān)內(nèi)容。在一個例子中,所述相關(guān)內(nèi)容包括具有高相關(guān)性和/或高價值的數(shù)據(jù)。
[0058]相關(guān)內(nèi)容可以在搜索結(jié)果網(wǎng)頁的指定區(qū)域顯示。具體地,相關(guān)內(nèi)容可以在網(wǎng)頁上顯示并且可以表示為鏈接,該鏈接可鏈接到一個將要列出一系列與概念短語有關(guān)和/或相關(guān)的贊助URL或根據(jù)上下文有價值的有關(guān)和/或相關(guān)內(nèi)容的新的網(wǎng)頁。廣告商可以支付款項以便擁有他們特定的贊助鏈接或者其它與所顯示的概念短語相關(guān)聯(lián)的適當?shù)膹V告。
[0059]在一個實施例中,上下文分析引擎105可以識別出多個相關(guān)內(nèi)容。每個相關(guān)內(nèi)容可具有與其相關(guān)聯(lián)的價值。相關(guān)內(nèi)容的價值可以位于數(shù)據(jù)庫或另一個遠程存儲單元中,并且該價值可以基于內(nèi)容提供商(例如,廣告商)為每個相關(guān)內(nèi)容支付的價格??商鎿Q地或附加地,相關(guān)內(nèi)容的價值可以基于每個相關(guān)內(nèi)容可能產(chǎn)生或在過去已經(jīng)產(chǎn)生的收益。上下文分析引擎105使用該信息來從多個相關(guān)內(nèi)容中進行選擇或者對多個相關(guān)內(nèi)容進行排序。在一個具體例子中,上下文分析引擎105僅顯示具有最高價值的相關(guān)內(nèi)容。在另一個例子中,上下文分析引擎105僅顯示具有最高價值的兩個相關(guān)內(nèi)容塊。在又一個例子中,上下文分析引擎105顯示所有的多個相關(guān)內(nèi)容,并且根據(jù)它們的價值對它們進行排序,從而將具有最高價值的相關(guān)內(nèi)容排在第一位而將最有最低價值的相關(guān)內(nèi)容排在最后。
[0060]參照圖4,過程400用于識別通常映射于相關(guān)文檔集中的概念集。概念集是通過LSA分析大量的電子文檔來進行識別的,LSA是一種最小二乘算法,該算法通過降低訓(xùn)練集的維度來分析概念是如何相關(guān)的。該維度的降低聚類了在高維度空間中相靠近的具有相近語義的文檔。當對與該文檔集中的文檔相關(guān)的一個文檔中所包括的概念進行識別時,可以使用識別出的一個相關(guān)文檔集的概念。當要對文檔的概念進行識別時,過程400可以由概念提取器執(zhí)行,例如圖1中的概念提取器125。
[0061]概念提取器125通過所有文檔的文檔矩陣創(chuàng)建一個詞典(步驟405)??梢愿鶕?jù)帶有標記的新聞稿的一個大的集合,例如路透社21578文本分類測試集,生成該矩陣。當對應(yīng)于元素行的單詞包括在對應(yīng)于元素列的文檔中時,該矩陣包括一個非零元素。在一個實施例中,非零元素可以表示相應(yīng)單詞出現(xiàn)在對應(yīng)文檔中的頻率。
[0062]概念提取器125使用奇異值分解(SVD)生成LSA矩陣(步驟410)。SVD在原有矩陣上進行。SVD是可選擇的,就識別有關(guān)和/或相關(guān)程度更高的概念而言,其提高了識別性能。SVD將通過文檔矩陣創(chuàng)建的詞典表示的空間的維度減少到大約150。概念提取器將通過文檔矩陣創(chuàng)建的原詞典與LSA矩陣相乘(步驟415),并且將文檔聚類在結(jié)果矩陣中(步驟420)。在一個實施例中,可以使用例如K-均值算法的標準聚類算法來聚類文檔。
[0063]概念提取器125選擇一個結(jié)果聚類(步驟425),并且從該結(jié)果聚類中的每個文檔中提取出概念(步驟430)。在一個實施例中,從文檔中提取出概念可以包括從文檔提取名詞短語和適當?shù)拿~,如前所述??梢詫奈臋n提取出的概念進行過濾從而產(chǎn)生一個簡化的提取概念集,如前所述??梢詫奈臋n提取現(xiàn)的概念進行過濾從而產(chǎn)生一個簡化的提取的概念集,如前所述。概念提取器根據(jù)所提取出的概念對于聚類的重要性以及其在聚類中出現(xiàn)的頻率,對所提取出的概念進行加權(quán),例如,使用TF.1DF加權(quán)算法(步驟435)。概念提取器將一個或多個具有最高權(quán)重的概念作為聚類的代表加以緩存(步驟440)。
[0064]概念提取器125對是否要對更多的文檔聚類提取概念進行判斷(步驟445)。如果是,則概念提取器選擇一個不同的聚類(步驟425)并且提取(步驟430)、加權(quán)(步驟435)以及緩存包括在不同聚類中的文檔的概念(步驟440)。在對每個聚類依次提取概念和緩存之后,過程400完成(步驟450 )。
[0065]參照圖5,過程500用于對包括在電子文檔中的概念進行識別。所識別概念是包括在與電子文檔相關(guān)的文檔中的概念。更具體地,LSA用于識別與電子文檔最接近的文檔聚類。所識別的聚類可能具有可用于更好描述文檔的相關(guān)聯(lián)的概念緩存。過程500由概念提取器執(zhí)行,例如圖1中的概念提取器125。過程500的執(zhí)行需要事先執(zhí)行圖4的過程400。
[0066]概念提取器125為要被提取概念的文檔計算出稀疏向量(步驟505)。稀疏向量中的每個元素對應(yīng)于可能出現(xiàn)在文檔中的詞典中的一個單詞。當文檔包括對應(yīng)于所述元素的單詞時,稀疏向量中的一元素為非零。
[0067]概念提取器125將稀疏向量與LSA矩陣相乘,該LSA矩陣為例如在之前執(zhí)行圖4的過程400期間生成的LSA矩陣(步驟515)。結(jié)果向量代表位于由LSA矩陣代表的高維度空間中的一個位置。概念提取器識別出最接近于結(jié)果向量的聚類(步驟515),并且對為所識別聚類緩存的概念進行識別(步驟520)。概念提取器針對所識別概念掃描文檔(步驟525)并且判斷文檔是否包括所識別概念(步驟530)。如果是,則概念提取器將包括在文檔中的緩存概念識別為文檔的概念(步驟535)。否則,概念提取器從文檔提取概念,例如,通過從文檔識別出名詞短語和適當?shù)拿~來提取概念(步驟540)。概念提取器還根據(jù)所提取概念對聚類的重要性對其進行加權(quán)(步驟545)。在一些實施例中,所識別概念可以作為聚類的代表被緩存。在其它的實施例中,可以執(zhí)行上述兩個過程,即識別緩存概念和提取新概念。
[0068]在過程500的一些實施例中,可以進一步分析文檔來識別哪些概念使得文檔與包括在所識別聚類中的其它文檔產(chǎn)生了最大不同。例如,來自沒有包括在所識別聚類的文檔中的文檔的概念,可以使得該文檔與所識別聚類中的文檔產(chǎn)生最大不同。這樣的概念可以被識別為與該文檔高度相關(guān)的概念。
[0069]參照圖6,概念分類器600用于從多個分類法605a_605n中識別出哪個分類法可以用于對短語進行分類。例如,概念分類器600可用于從分類法605a-605n中識別出哪個分類法可以用于分類包含在其附加相關(guān)電子內(nèi)容正在被識別的電子內(nèi)容中的一個概念。所識別的分類法可以是對應(yīng)于與將要進行分類的短語相關(guān)的域的分類法。概念分類器600包括一個語義內(nèi)容路由器610,該路由器用于識別出要分類的短語將被路由至分類法605a-605n中的哪一個分類法。概念分類器600可以為圖1中的概念分類器135的一個實施例。
[0070]分類法610a_610n中的每一個都用于對提供至分類法的短語進行分類。分類法610a-610n中的每一個都可以對應(yīng)于一個具體的域,并且分類法可以對輸入短語進行分類,將其作為與具體域相關(guān)的分類的代表。例如,分類法610a可以對應(yīng)于一個計算機域,在這種情況下分類法610a可以識別出輸入短語是否標識了某種計算機類型、某種計算機部件類型或者某種計算機軟件類型。然而,分類法610a可能不能夠識別出輸入短語是否標識了一家酒店,因為酒店與計算機域沒有關(guān)聯(lián)。但是,另一個分類法,例如分類法610b可能與旅游領(lǐng)域相關(guān),從而使得分類法610b可以確定輸入短語是否標識了一家酒店。
[0071]分類法610a_610n中的每一個都包括與相應(yīng)域相關(guān)的分類層次。每個分類與一個或多個鉤子規(guī)則有關(guān)。每個鉤子規(guī)則對代表相應(yīng)分類的典型短語中包含的一個或多個單詞進行識別。當輸入短語或其一部分與一個鉤子規(guī)則相匹配時,該輸入短語便被識別為所匹配鉤子規(guī)則對應(yīng)的分類代表。當鉤子規(guī)則的所有單詞均包含在輸入短語中時,無論單詞出現(xiàn)在輸入短語中的順序如何,該短語可能與該鉤子規(guī)則相匹配。例如,一個對應(yīng)于個人金融的分類法可能會包括用于信托基金的分類。信托基金分類可以包括用于可以購買的每個信托基金的鉤子規(guī)則。如果輸入短語包含一個信托基金的名稱,則輸入短語可能被識別為對應(yīng)于該信托基金分類的短語,這是因為該輸入短語與信托基金分類的一個鉤子規(guī)則(例如,識別信托基金名稱的鉤子規(guī)則)相匹配。
[0072]分類法中分類的分層結(jié)構(gòu)是專用于域的知識表示,也是一個學(xué)習(xí)數(shù)據(jù)集。另外,其用于對相關(guān)性判定中有幫助的分類進行加權(quán)。更特別地,層次結(jié)構(gòu)可以提供更多用于加權(quán)分類的信息。例如,如果具有相同親代分類的幾個分類鎖定了一個文件,則該親代分類也應(yīng)當作為更一般的分類被返回。
[0073]在一些實施例中,一個分類可以包括否定鉤子規(guī)則。一個否定鉤子規(guī)則對沒有包含在代表相應(yīng)分類的典型短語中的一個或多個單詞進行識別。當輸入短語與一個分類的否定鉤子規(guī)則相匹配時,輸入短語不被分類為屬于該相應(yīng)的分類。這樣,否定鉤子規(guī)則也稱為排除規(guī)則,用于在某些情況下代替鉤子規(guī)則。例如,對“BarryBonds”的排除可能會位于“證券和債券”分類中,從而防止棒球運動員被鎖定向金融相關(guān)的分類。
[0074]在一些實施例中,可以在匹配鉤子規(guī)則之前對輸入短語進行處理。例如,可以糾正輸入短語中存在拼寫錯誤的單詞。輸入短語的單詞可以用其基本形式或詞干形式代替。例如,名詞可以變?yōu)槠鋯螖?shù)形式,動詞可以變?yōu)槠洳欢ㄊ叫问健A硗?,可以根?jù)一個或多個替換規(guī)則來替換輸入短語的單詞。一種替換規(guī)則可以識別出一個第一單詞和一個第二單詞,當?shù)谝粏卧~出現(xiàn)在輸入短語中時對該第一單詞進行替換。所述的第一單詞和第二單詞可以是同義單詞,或者是可以相互替換的。根據(jù)替換規(guī)則替換輸入短語中的單詞減少了分類法610a-610n需要的鉤子規(guī)則的數(shù)量。在一個實施例中,在修改輸入短語之前可能會需要用戶確認。
[0075]語義內(nèi)容路由器610根據(jù)圖10所示的過程識別出分類法610a_610n中哪個分類法適合對輸入短語進行分類。在一個實施例中,語義內(nèi)容路由器610是一種簡單的線性結(jié)合子,其使用圖9所示的“Widrow-Hoff ”誤差修正算法來學(xué)習(xí)決定哪個分類法最可能對輸入短語進行適當?shù)奶幚?。語義內(nèi)容路由器610根據(jù)圖8所示的過程針對分類法610a-610n中的每個分類法給輸入短語賦值。如果根據(jù)一個具體的分類法,輸入短語的分值超過一個閥值,則該具體的分類法被識別為適合用于該輸入短語。語義內(nèi)容路由器610根據(jù)分值表給輸入短語賦值,所述分值表表明了輸入短語的每個單詞代表分類法610a-610n中的每個分類法所對應(yīng)的域的可能性。
[0076]參照圖7,表700被概念分類器的語義內(nèi)容路由器,例如圖6的語義內(nèi)容路由器610,用來給輸入短語賦值,從而使得該輸入短語能夠被路由至適當?shù)姆诸惙ㄟM行分類。表700包括用于列出路由器詞典中每個單詞的行,其中包含了可能出現(xiàn)在輸入短語中的單詞。例如,表 700 包括行 705a-705d,分別用于單詞 “fund”、“l(fā)aptop”、“asthma” 和 “text”。另夕卜,所述表包括用于列出輸入短語為進行分類可能會路由至的每個分類法的列。例如,所述表包括列710a-710d,分別用于對應(yīng)于計算機、個人金融、健康和旅游領(lǐng)域的分類法。
[0077]在具體的行和列的交點處的分值表示,包含對應(yīng)于一具體行的單詞的輸入短語可能通過一相應(yīng)于一具體列的分類法被分類的可能性。換句話說,該分值表示來自具體列的域的典型內(nèi)容包括具體行的單詞的可能性。高分值可能表示高的可能性,低分值可能表示低的可能性。例如,單詞“fund”具有對應(yīng)于個人金融領(lǐng)域的高可能性,以及對應(yīng)于計算機、健康或旅游領(lǐng)域的相對低的可能性,如行705a所示。
[0078]參照圖,語義加權(quán)過程800用于針對多個分類法中的每個分類法,識別出輸入短語作為可能被該分類法分類的短語域的代表的可能性的分值。針對輸入短語中的每個單詞以及多個分類法中的每個分類法,通過一個表來識別該單詞被包含在可以被該分類法正確分類的輸入短語中的可能性的分值。例如,過程800可以使用圖7的表700來執(zhí)行。例如,當要對短語的分值進行識別時,當對短語應(yīng)當被路由至的一個或多個分類法進行識別時,或者當對路由器進行訓(xùn)練從而正確地識別一個或多個分類法時,過程800可以由概念分類器的路由器來執(zhí)行,例如圖6的語義內(nèi)容路由器610。
[0079]路由器首先接收到一個短語(步驟805)。短語可能是一個將要被分類的短語或者正在用來訓(xùn)練路由器的短語。例如,短語可能是電子內(nèi)容的概念。路由器將接受到的短語表征為單詞(步驟810)。在一個實施例中,路由器可以簡單地將接收到的短語表征為單個單詞。在另一個實施例中,路由器可以對所接收到的短語進行處理從而識別出是否有任何組成單詞構(gòu)成一個不可分割的短語。例如,如果輸入短語為“buypersonalcomputer”,則路由器可以表明輸入短語具有三個組成部分(例如,“buy”和“personal”和“computer”)或兩個組成部分(例如,“buy” 和 personal computer O ο
[0080]路由器同時針對每個分類法給輸入短語計算單個權(quán)重。單個權(quán)重的計算基于輸入短語中每個單詞的權(quán)重的加權(quán)之和。對于每個分類法(步驟815)和短語中的單詞(步驟820),路由器確定所選擇的單詞是否包括在路由器的一個詞典中(步驟825)。換句話說,路由器確定表中的一個行是否對應(yīng)于所選擇的單詞。如果不是,則路由器丟棄所選擇的單詞(步驟830),因為對于所選擇的分類法,所選擇的單詞不能對所接收到的短語的分值有所貢獻。如果所選擇的單詞包括在表中,則路由器針對所選擇的分類法識別出所選擇單詞的存儲分值(步驟835)。例如,路由器可以在表中根據(jù)所選擇的單詞對應(yīng)的行和所選擇的分類法對應(yīng)的列識別出一個元素。對于所選擇的分類法,路由器將識別出的權(quán)權(quán)重添加到短語的權(quán)重中(步驟840)。
[0081]路由器判斷輸入短語是否包括更多的單詞(步驟845)。如果是,則路由器從短語中選擇一個不同的單詞(步驟820)并且判斷該不同的單詞是否在路由器的詞典中(步驟825)。如果不是,則丟棄該單詞(步驟830)。如果是,則識別出該不同單詞的存儲權(quán)重(步驟835)并且將該存儲權(quán)重添加到針對所選擇分類法的短語權(quán)重中(步驟840)。通過這種方式,針對所選擇分類法的短語的總權(quán)重被識別。在針對每個分類法識別出短語的分值之后,將該分值與所定義的閥值進行比較。然后文檔被發(fā)送給所有加權(quán)分值超過閥值的分類法。如果沒有一個分類法的分值超過閥值,則將該文檔發(fā)送給具有最高加權(quán)分值的分類法。這個步驟之后過程800結(jié)束(步驟855)。
[0082]舉例而言,過程800使用圖7的表700來識別出短語“l(fā)aptoptext”的權(quán)重。這個短語包括兩個單詞(“ laptop”和“text”)。對于計算機分類法,單詞“ laptop”具有權(quán)重
0.68,單詞“text”具有權(quán)重-0.03,從而整個短語的權(quán)重為0.65。對于個人金融分類法,單詞“l(fā)aptop”具有權(quán)重-0.30,單詞“text”具有權(quán)重-0.17,從而整個短語的權(quán)重為-0.47。對于健康分類法,單詞“ laptop”具有權(quán)重-0.32,單詞“text”具有權(quán)重-0.19,從而整個短語的權(quán)重為-0.51。對于旅游分類法,單詞“l(fā)aptop”具有權(quán)重-0.07,單詞“text”具有權(quán)重0.39,從而整個短語的權(quán)重為0.32。因此,短語“l(fā)aptoptext”對于計算機分類法具有最高權(quán)重,而對于其它分類法具有相對低的權(quán)重。
[0083]在過程800的一些實施例中,當針對每個分類法對輸入短語的分值進行識別時,語義內(nèi)容路由器可能不僅要考慮獨立出現(xiàn)在輸入短語中的單詞,而且要考慮這些單詞如何分布在輸入短語中。為此,語義內(nèi)容路由器可能在其中神經(jīng)網(wǎng)絡(luò)中包括一個非線性的附加層。例如,在對輸入短語的單詞分別進行分析之后,可以使用S形函數(shù)。
[0084]參照圖9,過程900用于訓(xùn)練與概念分類器相關(guān)聯(lián)的路由器,例如圖6的語義內(nèi)容路由器610,從而使得路由器可以正確地識別可以對輸入短語進行分類的一個或多個分類法。在這個短語學(xué)習(xí)過程中,路由器被提供了一系列作為對應(yīng)于分類法的短語代表的經(jīng)標記的短語。對于每個短語,路由器對對應(yīng)于每個分類法的域的可能性的分值進行識別。然后路由器修改所述分值以使得這些分值更清楚地表明電子短語與分類法的一個具體域的相關(guān)性。當路由器610和概念分類法125被初始配置后,可以執(zhí)行過程900??商鎿Q地或附加地,可以周期性重視的方式執(zhí)行過程900,從而對路由器610進行更新。路由器的短語學(xué)習(xí)通過提供專用于域的附加單詞的過程來增強。
[0085]針對每個可能的分類法,路由器610將路由器的詞典中的每個單詞的權(quán)重初始化為零(步驟905 )。例如,路由器可以生成一個表,例如圖7中的表700,其中所有的分值均為零。如果之前已經(jīng)執(zhí)行了過程900,則路由器可以不將權(quán)重初始化為零。
[0086]路由器識別出一個將要用來訓(xùn)練路由器的短語集(步驟910)。例如,該短語集可以由正在訓(xùn)練路由器的用戶提供。短語集可以列在文件中或者從可以由路由器存取的數(shù)據(jù)庫獲取。短語集可以從電子內(nèi)容段識別,所述電子內(nèi)容段對于與路由器相應(yīng)的域是典型的。路由器選擇一個短語(步驟915),并且將短語的稀疏向量與當前的權(quán)重矩陣相乘(步驟920)。路由器可以使用圖8的過程800針對每個分類法識別出所選擇短語的權(quán)重。
[0087]路由器針對每個分類法識別出所選擇短語的目標權(quán)重(步驟925)。目標權(quán)重可以識別應(yīng)當與所選擇短語相對應(yīng)的一個分類法。所選擇短語的目標權(quán)重可以由所選擇短語自身提供。例如,從中選擇出短語的文件或數(shù)據(jù)庫可以包括所選擇短語的目標權(quán)重的標識。在一個實施例中,短語集中的所有短語的目標權(quán)重可以是相同的。
[0088]路由器調(diào)整當前的權(quán)重矩陣,從而使得它能夠生成更接近于期望結(jié)果的結(jié)果(步驟930)。換句話說,根據(jù)所存儲權(quán)重是否正確地表明了所選擇短語應(yīng)當被路由至的由目標權(quán)重所表明的分類法,路由器可以從每個存儲的權(quán)重上增加或減去一個預(yù)定的數(shù)值。例如,針對目標權(quán)重所指示的分類法,路由器可以向包括在所選擇短語中的一個或多個單詞的所存儲的權(quán)重上增加一個預(yù)定的數(shù)值。另外,路由器可以針對其它每個分類法從所選擇短語的一個或多個單詞的所存儲的權(quán)重上減去一個預(yù)定的數(shù)值。路由器可以調(diào)整所存儲的權(quán)重,從而使得所識別的權(quán)重更加接近目標權(quán)重。
[0089]路由器判斷路由器是否將通過所述短語集中的更多的短語進行訓(xùn)練(步驟935)。如果是,則路由器選擇一個不同的短語(步驟915),將短語的稀疏向量與當前的權(quán)重矩陣相乘(步驟920),針對每個分類法識別出不同短語的目標權(quán)重(步驟925),并且調(diào)整當前的權(quán)重矩陣使得它生成一個更加接近于期望結(jié)果的結(jié)果(步驟930)。通過這種方式,路由器通過短語集中的每個短語進行訓(xùn)練,直至路由器已經(jīng)通過短語集中的所有短語進行了訓(xùn)練,這種情況下過程900結(jié)束(步驟940)。
[0090]在每次重復(fù)步驟915-940的過程中,表的一個或多個元素得到調(diào)整,從而使得表的至少一個元素具有非零值。在對足夠大量的充分代表了對應(yīng)于分類法的不同域的短語進行訓(xùn)練之后,表中的權(quán)重將能夠正確地標識出包括對應(yīng)單詞的電子內(nèi)容的各個域。
[0091]參照圖10,過程1000用于將短語路由至適當?shù)姆诸惙ㄒ员氵M行分類。適當?shù)姆诸惙ū蛔R別為對應(yīng)于可能代表短語的域的分類法。過程1000由概念分類器的路由器執(zhí)行,例如圖6的語義內(nèi)容路由器610。
[0092]路由器接收到將要進行分類的短語(步驟1005)。短語可以在路由器正在被訓(xùn)練時被接收,或者當與包括短語的電子內(nèi)容相關(guān)的高價值數(shù)據(jù)正在被識別時被接收,例如當語義加權(quán)過程800輸出時(例如,從步驟855)。路由器針對多個可用分類法中的每個分類法對短語的權(quán)重進行識別(步驟1010)。針對分類法的短語的權(quán)重可以使用圖8的過程800進行識別。
[0093]路由器將針對分類法的短語的權(quán)重與一個閥值進行比較(步驟1015)。閥值可以由用戶進行配置。在將權(quán)重與閥值進行比較之前,可以將權(quán)重標準化。例如,最高的權(quán)重可以被設(shè)為1.0,而其它權(quán)重則進行相應(yīng)的依比例調(diào)整。
[0094]然后路由器可以將針對分類法的短語權(quán)重返回到一個外部應(yīng)用(步驟1020)。外部應(yīng)用可以使用所返回的權(quán)重來識別出哪個分類法應(yīng)當被用于分類短語,或者用于與分類短語無關(guān)的其它目的。在一些實施例中,權(quán)重可以被直接返回到外部應(yīng)用,而不用先進行標準化或與閥值進行比較。
[0095]在另一個實施例中,路由器去除沒有超出閥值的短語權(quán)重(步驟1030)。因此,對應(yīng)于被去除的權(quán)重的分類法將不被用于分類短語。路由器可以對剩余的權(quán)重進行排序,例如,使得最大的權(quán)重位于最前面(步驟1035)。然后路由器將對應(yīng)于剩余權(quán)重的分類法標識符列表返回到外部應(yīng)用(步驟1040)。作為結(jié)果,外部應(yīng)用并未被提供權(quán)重的標識,而是被提供了應(yīng)當用于分類短語的分類法的標識。外部應(yīng)用可以將短語發(fā)送到被標識的分類法進行分類。在權(quán)重被排序的實施例中,第一個被標識的分類法可以表示短語具有最高分值的分類法,該分類法可能是具有正確分類所述短語的最大可能性的分類法。
[0096]上下文分析引擎105可用于在網(wǎng)站上實現(xiàn)有價值的貨幣化和導(dǎo)航應(yīng)用。在一個例子中,貨幣化的應(yīng)用可以包括一個網(wǎng)賺?應(yīng)用。在一個例子中,網(wǎng)賺?應(yīng)用在網(wǎng)頁上顯示廣告,這些廣告與網(wǎng)頁的內(nèi)容或者用于獲得網(wǎng)頁的搜索查詢的內(nèi)容具有很高的相關(guān)性。舉例來說,網(wǎng)賺?應(yīng)用對搜索查詢、URL (例如,網(wǎng)頁)、RSS文件、博客或任何文本塊進行分析,并且使用語義內(nèi)容路由器和可用的廣告目錄,網(wǎng)賺?應(yīng)用定位與搜索查詢、URL、RSS文件、博客或文本塊有關(guān)和/或相關(guān)的內(nèi)容(例如,廣告),并且將這些內(nèi)容(例如,廣告)放到互聯(lián)網(wǎng)用戶所請求的網(wǎng)頁上。
[0097]貨幣化和導(dǎo)航應(yīng)用的另一個可以使用上下文分析引擎105實現(xiàn)的例子是贊助導(dǎo)航應(yīng)用。贊助導(dǎo)航應(yīng)用使用上下文分析引擎105來分析或搜索與發(fā)布者網(wǎng)站相關(guān)聯(lián)的文檔(例如,網(wǎng)頁),并且使用一個或多個分類法來提取和分類出現(xiàn)在其中的概念。為此,贊助導(dǎo)航應(yīng)用識別出與所提取出的概念相關(guān)聯(lián)的分類法,并且使用該分類法來分析所提取的概念以及生成一個分類后的概念集。然后該分類后的概念集被用于與所述分類法或另一個相關(guān)的分類法聯(lián)合使用來對與所提取出的概念相關(guān)聯(lián)的相關(guān)內(nèi)容進行識別。在識別所提取概念的相關(guān)內(nèi)容時,贊助導(dǎo)航應(yīng)用對所提取的概念和相關(guān)內(nèi)容(使用分類法被識別)進行超鏈接處理,并且在網(wǎng)頁中以廣告單元的形式顯示所述超鏈接。該廣告單元可以由廣告商進行贊助,因此其名稱為“贊助導(dǎo)航”。點擊廣告單元中的這些超鏈接則會將用戶鏈接至具有關(guān)于所述概念的附加“內(nèi)容”的網(wǎng)頁。上面描述的過程將在下面參照圖11進行更加詳細的描述,并且稍后會以圖12中所示的例子中進行說明。
[0098]圖11描述了一個贊助導(dǎo)航應(yīng)用使用的示例性的過程1100,該過程能夠分析與發(fā)布者的網(wǎng)站相關(guān)聯(lián)的網(wǎng)頁以及使用一個或多個分類法對出現(xiàn)在其中的概念進行提取和分類。使用上下文分析引擎105中的各個軟件模塊,過程1100首先在網(wǎng)頁中提取與發(fā)布者網(wǎng)站相關(guān)聯(lián)的概念(步驟1110)。在一個例子中,提取概念包括提取與網(wǎng)頁相關(guān)聯(lián)的文本并且提取出現(xiàn)在文本中的名詞短語。可替換地或附加地,提取概念可以包括提取與網(wǎng)頁相關(guān)聯(lián)的文本并且提取出現(xiàn)在文本中的適當名詞。適當名詞的列表可用于從文本中識別出適當?shù)拿~。適當名詞可以包括人名(例如,名人、政治家、運動員和作家)、地名(例如,城市、州、國家和地區(qū))、企業(yè)名稱、公司名稱以及產(chǎn)品名稱。用戶可以修改適當名詞列表來僅包括那些與用戶感興趣的企業(yè)相關(guān)的適當名詞。在另一個實施例中,LSA可用于識別包括在所提取文本中的概念。這個實施例已經(jīng)在前面參照圖4和圖5進行了詳細的描述,在此不再進一步描述。
[0099]在從網(wǎng)頁提取概念之后,贊助導(dǎo)航應(yīng)用識別出至少一個分類法來對提取出的概念進行分析并且生成一組分類后的概念集(步驟1120)。分類法可以對應(yīng)于與所提取出的概念相關(guān)的域。在一個實施例中,贊助導(dǎo)航應(yīng)用可以使用例如過程800、900和1000之類的過程來對與所提取出的概念相關(guān)的分類法進行識別,這些過程已經(jīng)參照圖8-10進行了詳細地描述,所以在此不再進一步進行描述。
[0100]贊助導(dǎo)航應(yīng)用使用分類法來生成一組分類后的概念集。在一個例子中,經(jīng)分類的概念可以包括與一個或多個類別或信道特別地相關(guān)聯(lián)的提取概念,所述類別或信道為例如體育、信托基金和/或計算機類別。生成一組分類后的概念集之后,贊助導(dǎo)航應(yīng)用使用分類法來識別與所提取出的概念相關(guān)聯(lián)的出現(xiàn)在發(fā)布者網(wǎng)站上的其它網(wǎng)頁中的其它相關(guān)內(nèi)容和/或有關(guān)數(shù)據(jù)(步驟1130)??商鎿Q地或附加地,贊助導(dǎo)航應(yīng)用使用分類法來識別出現(xiàn)在其它網(wǎng)站的網(wǎng)頁中的相關(guān)內(nèi)容和/或有關(guān)數(shù)據(jù)。
[0101]為了識別相關(guān)內(nèi)容,在一個實施例中,贊助導(dǎo)航應(yīng)用弓I用一個數(shù)據(jù)庫。該數(shù)據(jù)庫可以位于上下文分析引擎105中或可以遠離上下文分析引擎105,例如,位于內(nèi)容提供商110中。在任何一種情況下,該數(shù)據(jù)庫存儲有基于類別進行索引的數(shù)據(jù)。該數(shù)據(jù)可以包括出現(xiàn)在發(fā)布者網(wǎng)站或其它網(wǎng)站的網(wǎng)頁中并與所提取出的概念相關(guān)聯(lián)的相關(guān)內(nèi)容。該相關(guān)內(nèi)容使用分類法進行分類。
[0102]贊助導(dǎo)航應(yīng)用訪問所述數(shù)據(jù)庫并對與所分類概念具有相同類別的相關(guān)內(nèi)容進行識別??商鎿Q地或附加地,贊助導(dǎo)航應(yīng)用可以對類別類似或相關(guān)于與所分類概念相關(guān)聯(lián)的類別的內(nèi)容進行識別。在一個例子中,贊助導(dǎo)航應(yīng)用可以參照一個將一個或多個類別與一個或多個其它類別相聯(lián)系(例如,將健康類別與體育類別相聯(lián)系)的表,用于判斷屬于其它類別的其它內(nèi)容是否應(yīng)當被識別為所分類內(nèi)容的相關(guān)內(nèi)容。如果是,則贊助導(dǎo)航應(yīng)用在數(shù)據(jù)庫中識別出該內(nèi)容并且在網(wǎng)頁上顯示該內(nèi)容。用一個特定的例子進行說明,當所分類概念屬于健康類別時,贊助導(dǎo)航應(yīng)用訪問數(shù)據(jù)庫來識別屬于健康類別的相關(guān)內(nèi)容。可替換地或附加地,贊助導(dǎo)航應(yīng)用可以參照上述表,從而認識到健康類別是與體育類別(或其它不同于健康類別的類別)相關(guān)聯(lián)的。在這種情況下,贊助導(dǎo)航應(yīng)用在數(shù)據(jù)庫中識別出屬于體育類別的相關(guān)內(nèi)容。
[0103]在另一個實施例中,不訪問事先存儲有與發(fā)布者網(wǎng)站或其它網(wǎng)站的網(wǎng)頁相關(guān)聯(lián)的相關(guān)內(nèi)容的數(shù)據(jù)庫,取而代之的是,贊助導(dǎo)航應(yīng)用可以使用分類法來直接搜索發(fā)布者網(wǎng)站或其它網(wǎng)站的網(wǎng)頁,以識別出與所分類內(nèi)容具有相同或近似類別的內(nèi)容。在任一種情況下,贊助導(dǎo)航應(yīng)用對所提取的概念和相關(guān)內(nèi)容進行超鏈接處理,并且在發(fā)布者網(wǎng)站的網(wǎng)頁中以廣告單元的形式顯示這個信息(步驟1140)。所述廣告單元可以由廣告商贊助(例如,“贊助導(dǎo)航”)。在一個稍有不同的情況下,贊助導(dǎo)航應(yīng)用可以在與發(fā)布者有合同關(guān)系的其它內(nèi)容提供商的網(wǎng)頁中顯示廣告單元。
[0104]在該廣告單元中選擇(例如,“點擊”)任何超鏈接將會“觸發(fā)”多個廣告遞送選擇,例如有關(guān)主題的“轉(zhuǎn)換廣告”、“直線”文本廣告或圖形廣告。轉(zhuǎn)換之后,用戶可以瀏覽到廣告或者被鏈接到所述概念的附加“內(nèi)容”被顯示的網(wǎng)站的相應(yīng)部分。
[0105]圖12所示為補充有由Hyprave?提供贊助的廣告單元的網(wǎng)頁屏幕截圖1200。該廣告單元包括超鏈接至出現(xiàn)在發(fā)布者網(wǎng)站的其它網(wǎng)頁上的相關(guān)內(nèi)容的概念短語。具體地,發(fā)布者的網(wǎng)站被分析,并且使用精確確定的分類法對概念進行提取和分類。例如,如圖所示,使用過程1100識別出現(xiàn)在網(wǎng)頁1200上的例如“高血壓性心臟病”之類的概念以及例如出現(xiàn)在同一網(wǎng)頁或發(fā)布者網(wǎng)站的其它網(wǎng)頁上的諸如“缺血性心臟病”之類的其它相關(guān)內(nèi)容,將他們做超鏈接處理并在得到贊助的廣告單元1210中顯示。同樣的,網(wǎng)頁1200的瀏覽者可以容易地瀏覽與“高血壓性心臟病”相關(guān)聯(lián)的出現(xiàn)在發(fā)布者網(wǎng)站的其它網(wǎng)頁中的其它相關(guān)內(nèi)容。
[0106]其它實施例也落入本發(fā)明權(quán)利要求書的范圍中。例如,雖然前面描述的是贊助導(dǎo)航應(yīng)用分析與發(fā)布者網(wǎng)站相關(guān)聯(lián)的網(wǎng)頁來提取和索引所有出現(xiàn)在其中的概念,但是贊助導(dǎo)航應(yīng)用也可以容易地對出現(xiàn)在其它數(shù)據(jù)庫中的其它文檔進行相同的操作。
【權(quán)利要求】
1.一種通過一個用戶界面補充文檔的方法,所述用戶界面包括與一個或多個出現(xiàn)在所述文檔中的概念相關(guān)聯(lián)的相關(guān)內(nèi)容,所述方法包括: 提取出現(xiàn)在被存儲于存儲器中的文檔中的概念; 識別出與所述提取出的概念相關(guān)聯(lián)的一個分類法; 使用所述分類法分析所述提取出的概念來生成一組經(jīng)過分類的概念集; 使用所述分類法或另一個相關(guān)分類法,在存儲在相同或不同存儲器中的多個其它文檔中,識別出與所述經(jīng)過分類的概念相關(guān)聯(lián)的相關(guān)內(nèi)容; 對所述提取的概念和相關(guān)內(nèi)容進行超鏈接處理;以及 在用戶界面中顯示所述經(jīng)過超鏈接處理的概念和相關(guān)內(nèi)容,其中,所述用戶界面由內(nèi)容提供商提供贊助。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述提取概念包括: 提取與所述文檔相關(guān)聯(lián)的文本;以及 提取出包括在所述文本中的一個名詞短語或適當名詞。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述適當名詞包括人名、企業(yè)名稱、公司名稱或產(chǎn)品名稱。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述提取概念包括提取出現(xiàn)在網(wǎng)站的網(wǎng)頁中的概念。
5.根據(jù)權(quán)利要求1所述的方法,`所述方法還包括: 從所顯示的超鏈接中接收超鏈接選擇標識;以及 響應(yīng)于所述接收到的標識,顯示與所選擇的超鏈接相關(guān)聯(lián)的網(wǎng)頁,其中,所述網(wǎng)頁包括與所述提取的概念相關(guān)的附加內(nèi)容。
6.根據(jù)權(quán)利要求1所述的方法,其中,贊助的內(nèi)容提供商與所述發(fā)布者為同一實體。
7.根據(jù)權(quán)利要求1所述的方法,其中,贊助的內(nèi)容提供商與所述發(fā)布者為不同實體。
8.根據(jù)權(quán)利要求1所述的方法,其中,使用所述分類法或另一個相關(guān)分類法包括使用所述分類法在存儲于相同或不同存儲器中的多個其它文檔中識別出與經(jīng)過分類的概念相關(guān)聯(lián)的相關(guān)內(nèi)容,其中,所述相關(guān)內(nèi)容與所述經(jīng)過分類的概念屬于相同的類別。
9.根據(jù)權(quán)利要求8所述的方法,其中,使用所述分類法或另一個相關(guān)分類法的步驟還包括: 判斷所述分類法是否與另一個分類法相關(guān);以及 如果判斷結(jié)果是所述分類法與另一個分類法相關(guān),則使用其它相關(guān)的分類法在相同或不同存儲器中的多個其它文檔中識別出與所述經(jīng)過分類的概念相關(guān)聯(lián)的相關(guān)內(nèi)容。
10.根據(jù)權(quán)利要求9所述的方法,其中,所述相關(guān)內(nèi)容屬于與所述經(jīng)過分類的概念的類別不同但相關(guān)的類別。
11.根據(jù)權(quán)利要求1所述的方法,所述方法還包括通過參照列出了相互關(guān)聯(lián)的分類法的表來識別所述其它相關(guān)分類法,從而識別出與所述提取出的概念的分類法相關(guān)聯(lián)的所述其它相關(guān)分類法。
12.根據(jù)權(quán)利要求1所述的方法,其中,所述相關(guān)內(nèi)容與所述經(jīng)過分類的概念屬于相同的類別。
13.根據(jù)權(quán)利要求1所述的方法,其中,所述相關(guān)內(nèi)容屬于與所述經(jīng)過分類的概念的類別不同但相關(guān)的類別。
14.一種用于從多個對一輸入短語進行分類的分類法中識別出一個分類法的方法,所述方法包括: 提供多個分類法,其中每個所述分類法對應(yīng)于一特定的知識域; 接收一輸入短語,所述輸入短語將由所述多個分類法中的至少一個分類法進行分類; 將所述接收到的輸入短語表征為一個或多個單詞; 從所述多個分類法中選擇出一第一分類法; 對于選擇的所述第一分類法,識別出與所述一個或多個單詞中的每個單詞相關(guān)聯(lián)的存儲權(quán)重; 對于選擇的所述第一分類法,對與所述一個或多個單詞中的每個單詞相關(guān)聯(lián)的存儲權(quán)重進行累加,從而識別出與所述輸入短語相關(guān)聯(lián)的第一權(quán)重; 從所述多個分類法中選擇出一第二分類法; 對于選擇的所述第二分類法,識別出與所述一個或多個單詞中的每個單詞相關(guān)聯(lián)的存儲權(quán)重; 對于選擇的所述第二分類法,對與所述一個或多個單詞中的每個單詞相關(guān)聯(lián)的存儲權(quán)重進行累加,從而識別出與所述輸入短語相關(guān)聯(lián)的第二權(quán)重; 將與所述輸入短語相關(guān)聯(lián)的所述第一權(quán)重和第二權(quán)重與一個閥值進行比較; 根據(jù)比較的結(jié)果,將所述輸入短語路由到所述第一分類法或第二分類法進行分類。`
15.根據(jù)權(quán)利要求14所述的方法,其中,接收所述輸入短語包括接收概念,所述概念包括在正在為其識別補充的相關(guān)電子內(nèi)容的電子內(nèi)容中。
16.根據(jù)權(quán)利要求14所述的方法,其中,表征所述輸入短語包括將所述輸入短語分割為個別的單詞。
17.根據(jù)權(quán)利要求14所述的方法,其中,對于所述第一分類法和第二分類法,識別出與所述一個或多個單詞中的每個單詞相關(guān)聯(lián)的存儲權(quán)重包括通過參照一個表來對所存儲的權(quán)重進行識別,所述表包括與所述一個或多個單詞相關(guān)聯(lián)的權(quán)重。
18.根據(jù)權(quán)利要求17所述的方法,其中,所述表包括: 一用于列出詞典中的每個單詞的行; 一用于列出所述多個分類法中的每個分類法的列; 位于每個行和列交叉處的分值,其中,每個交叉處的所述分值表示包括對應(yīng)于每個交又處的單詞的所述輸入短語可以由對應(yīng)于交叉處的列的一特定分類法進行分類的可能性。
19.根據(jù)權(quán)利要求14所述的方法,其中,對所述輸入短語進行路由包括將所述輸入短語路由至所述第一分類法和第二分類法進行分類。
【文檔編號】G06Q30/00GK103870523SQ201310495692
【公開日】2014年6月18日 申請日期:2006年12月22日 優(yōu)先權(quán)日:2005年12月22日
【發(fā)明者】阿杰·斯拉瓦納普蒂, 邁克爾·布朗·薩特勒, 塞勒·迪旺德, 拉維·卡拉普塔普, 阿沙沃·布萊克威爾 申請人:清晰傳媒廣告有限公司