專利名稱:交互式互聯(lián)網(wǎng)實體名稱的消歧方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索技術(shù),更具體地說,涉及一種能夠在網(wǎng)絡(luò)上精確查找實體的交互式互聯(lián)網(wǎng)實體名稱的消歧方法。
背景技術(shù):
在諸如社交網(wǎng)絡(luò)是的網(wǎng)絡(luò)上,每一個“人”被看做是一個“實體”,用來識別或者查找這個實體(即“人”)的主要手段就是查找這個實體的互聯(lián)網(wǎng)實體名稱(webappearance)。網(wǎng)絡(luò),由其實近來風(fēng)靡的社交網(wǎng)絡(luò)的一個最主要的功能是縮短了人與人之間的距離,使得每個人與自己的朋友或者親人能夠保持密切的聯(lián)系。所以,在社交網(wǎng)絡(luò)上,使用真實姓名的比例很高,如果在社交網(wǎng)絡(luò)上使用真實姓名,那么這個姓名就是這個人(實體)的互聯(lián)網(wǎng)實體名稱。真實的姓名所帶來的一個問題就是重名的概率比較高?!o論是在社交網(wǎng)絡(luò)還是一般的互聯(lián)網(wǎng)上,如果要查找一個人或者一個網(wǎng)絡(luò)實體,那么基于文字的關(guān)鍵字搜索是主要的方式。在查找自己感興趣的人的時候,以姓名作為關(guān)鍵字進行查找是最常用的方式。上面提到,因為重名的現(xiàn)象比較普遍,所以很難實現(xiàn)“精確搜索”,往往搜索引擎會提供許多重名的人的信息或者頁面,用戶必須一個一個地進行瀏覽,才能夠確定哪一個才是自己真正想要查詢的人。這需要花費用戶大量的時間。此外,一般的搜索引擎不提供頁面的合并功能,這就使得用戶可能會得到很多個重復(fù)的結(jié)果。再者,搜索引擎有自己的結(jié)果排序規(guī)則,提供給用戶的搜索結(jié)果是按照搜索引擎自己的排序規(guī)則排列,但這對于用戶來說并不是理想的順序。在找人的時候,用戶顯然希望能夠按照與目標(biāo)人物(實體)的符合程度來進行排列,這樣才能夠節(jié)省用戶的時間。
發(fā)明內(nèi)容
本發(fā)明旨在提出一種通過與用戶的交互來獲取信息,并借助于這些信息對搜索結(jié)果進行合并和優(yōu)化排序的交互式互聯(lián)網(wǎng)實體名稱的消歧方法。根據(jù)本發(fā)明的一實施例,提出一種交互式互聯(lián)網(wǎng)實體名稱的消歧方法。該方法包括三個主要的步驟預(yù)處理步驟、迭代排序步驟和呈現(xiàn)步驟。在預(yù)處理步驟中,接收查詢信息并基于查詢信息檢索與實體相關(guān)的互聯(lián)網(wǎng)實體名稱,查找包含查詢信息的互聯(lián)網(wǎng)實體名稱,將與同一個實體相關(guān)的互聯(lián)網(wǎng)實體名稱初始聚合。在迭代排序步驟中,循環(huán)執(zhí)行下述步驟直至滿足終止條件根據(jù)排序模型按照與實體的類似程度對互聯(lián)網(wǎng)實體名稱進行排序;產(chǎn)生交互問題,交互問題包含選項;向用戶呈現(xiàn)交互問題并接收用戶選擇的選項作為用戶反饋;根據(jù)用戶反饋對排序模型進行優(yōu)化,并根據(jù)優(yōu)化的排序模型對互聯(lián)網(wǎng)實體名稱重新進行排序。在一個實施例中,終止條件包括排序模型不再產(chǎn)生新的信息或者收到用戶的終止指令。在呈現(xiàn)步驟中,選擇排序最前的互聯(lián)網(wǎng)實體名稱,基于該互聯(lián)網(wǎng)實體名稱生成總結(jié)頁面,該總結(jié)頁面與被查詢的實體相關(guān),向用戶呈現(xiàn)總結(jié)頁面。根據(jù)本發(fā)明的一實施例,提出交互式互聯(lián)網(wǎng)實體名稱的消歧裝置。該裝置包括預(yù)處理裝置、迭代排序裝置和呈現(xiàn)裝置。預(yù)處理裝置接收查詢信息并基于查詢信息檢索與實體相關(guān)的互聯(lián)網(wǎng)實體名稱,查找包含查詢信息的互聯(lián)網(wǎng)實體名稱,將與同一個實體相關(guān)的互聯(lián)網(wǎng)實體名稱初始聚合。迭代排序裝置包括依次連接并依次工作的排序模型、問題產(chǎn)生模塊、問題呈現(xiàn)模塊和模型優(yōu)化模塊。迭代排序裝置循環(huán)工作直至滿足終止條件,在一個實施例中,迭代排序裝置的終止條件包括排序模型不再產(chǎn)生新的信息或者收到用戶的終止指令。迭代排序裝置所包含的模塊中,排序模型按照與實體的類似程度對互聯(lián)網(wǎng)實體名稱進行排序。問題產(chǎn)生模塊產(chǎn)生包含選項的交互問題。問題呈現(xiàn)模塊向用戶呈現(xiàn)交互問題并接收用戶選擇的選項作為用戶反饋。模型優(yōu)化模塊根據(jù)用戶反饋對排序模型進行優(yōu)化,并指示經(jīng)過優(yōu)化的排序模型對互聯(lián)網(wǎng)實體名稱重新進行排序。呈現(xiàn)裝置選擇排序最前的互聯(lián)網(wǎng)實體名稱,基于該互聯(lián)網(wǎng)實體名稱生成總結(jié)頁面,該總結(jié)頁面與被查詢的實體相關(guān),向用戶呈現(xiàn)總結(jié)頁面。根據(jù)本發(fā)明的一實施例,提出一種交互式互聯(lián)網(wǎng)實體名稱的消歧方法。該方法首先接收與被查詢的實體相關(guān)的查詢信息。然后檢索與實體相關(guān)的互聯(lián)網(wǎng)實體名稱并查找包含查詢信息的互聯(lián)網(wǎng)實體名稱,將與同一個實體相關(guān)的互聯(lián)網(wǎng)實體名稱初始聚合。該方法之后循環(huán)執(zhí)行下述步驟,直至滿足終止條件根據(jù)排序模型按照與實體的類似程度對互聯(lián)網(wǎng)實體名稱進行排序;與用戶交互并收集用戶的反饋;依據(jù)用戶的反饋對排序模型進行優(yōu)·化,并根據(jù)優(yōu)化的排序模型對互聯(lián)網(wǎng)實體名稱重新進行排序;選擇排序最前的互聯(lián)網(wǎng)實體名稱,基于該互聯(lián)網(wǎng)實體名稱生成總結(jié)頁面,該總結(jié)頁面與被查詢的實體相關(guān)。在一個實施例中,終止條件包括排序模型不再產(chǎn)生新的信息;或者收到用戶的終止指令。在一個實施例中,與用戶交互并收集用戶的反饋包括產(chǎn)生包含選項的交互問題并向用戶呈現(xiàn)交互問題并接收用戶選擇的選項作為用戶反饋。該方法最后向用戶呈現(xiàn)總結(jié)頁面。
本發(fā)明的上述的以及其他的特征、性質(zhì)和優(yōu)勢將通過下面結(jié)合附圖和實施例的描述而變得更加明顯,在附圖中,相同的附圖標(biāo)記始終表示相同的特征,其中圖I揭示了根據(jù)本發(fā)明的一實施例的交互式互聯(lián)網(wǎng)實體名稱的消歧方法的流程圖。圖2揭示了根據(jù)本發(fā)明的一實施例的交互式互聯(lián)網(wǎng)實體名稱的消歧裝置的結(jié)構(gòu)圖。圖3揭示了根據(jù)本發(fā)明的一實施例的交互式互聯(lián)網(wǎng)實體名稱的消歧方法的流程圖。圖4揭示了根據(jù)本發(fā)明的一具體實現(xiàn),iKnoweb的交互過程。
具體實施例方式參考圖I所示,揭示了根據(jù)本發(fā)明的一實施例的交互式互聯(lián)網(wǎng)實體名稱的消歧方法。該方法100包括如下的步驟預(yù)處理步驟102、迭代排序步驟104和呈現(xiàn)步驟106。在預(yù)處理步驟102中接收查詢信息并基于查詢信息檢索與實體相關(guān)的互聯(lián)網(wǎng)實體名稱,查找包含查詢信息的互聯(lián)網(wǎng)實體名稱,將與同一個實體相關(guān)的互聯(lián)網(wǎng)實體名稱初始聚合(initial clustering)。在一個實施例中,初始聚合應(yīng)用啟發(fā)式規(guī)則。這里,以利用本發(fā)明的技術(shù)的一個具體實現(xiàn)iKnoweb為例來對本發(fā)明的方法進行更加具體的說明。當(dāng)用戶來到iKnoweb時,即開始了預(yù)處理步驟(pre-processing part)。通常,用戶會輸入希望查詢的人的姓名,輸入查詢姓名(query name)就被視為是輸入了查詢信息。iKnoweb會檢索所有的互聯(lián)網(wǎng)實體名稱,并且找到那些該查詢姓名至少出現(xiàn)一次的互聯(lián)網(wǎng)實體名稱。iKnoweb從這些互聯(lián)網(wǎng)實體名稱中提取一些預(yù)先設(shè)定的特征,這些特征包括詞組出現(xiàn)頻率、網(wǎng)頁上的名字實體、查詢?nèi)说恼鎸嵭畔⒌鹊?。由于存在多個社交網(wǎng)絡(luò),并且有許多的應(yīng)用都提供實體名稱的服務(wù),因此,同一個人在互聯(lián)網(wǎng)上可能擁有許多個實體名稱,這些實體名稱都是與同一個人相關(guān)。對于使用iKnoweb進行查找的用戶來說,用戶所關(guān)心的是“人”(實體本身)而不是某一個實體名稱或者某一個網(wǎng)頁,因此,對于這些與同一個人(實體)相關(guān)的實體名稱,需要將它們進行合并。合并與同一個實體相關(guān)的實體名稱是有利于加快與用戶的交互進程和搜索效率的。在iKnoweb中,利用聚合組件(clustering component)來將比較類似的互聯(lián)網(wǎng)實體名稱進行合并,合并成組(group)。此處將這個合并的過程稱之為初始聚合(initial clustering)。在初始聚合過程中,使用的初始聚合算法需要十分精確。因為iKnoweb的目標(biāo)是提供給用戶100%精確的實體名稱。將類似(與同一個人關(guān)聯(lián))的實體名稱合并到一個單一的組中·能夠節(jié)省用戶的時間。如果組是不精確的,那么用戶還是需要重新展開這些組并且仔細地瀏覽族中的每一個頁面,這將耗費用戶大量的時間。在該初始聚合的過程中使用了一些啟發(fā)式(heuristic)的規(guī)則。進行初始聚合的目的是將類似的(與同一個人相關(guān)的)頁面進行聚合。通常由搜索引擎返回的互聯(lián)網(wǎng)實體名稱可能包含重復(fù)的或者近似重復(fù)的頁面。為了減少用戶瀏覽并標(biāo)記每一個類似的實體名稱,使用一種聚合算法來將實體名稱聚合成小型的組,這些組稱之為最大識別單元(maximum recognition unit,MRU)。最大識別單元的尺寸不需要很大,但是最大識別單元需要十分精確,其含義是,在每一個最大識別單元中的網(wǎng)頁需要是關(guān)于同一個人的。用戶只需要瀏覽一個最大識別單元中的一個網(wǎng)頁就可以獲得信息,并且確定是否這些網(wǎng)頁就是所要查詢的人的。有時候用戶希望要查看所有的網(wǎng)頁,這時也可以通過簡單的方法來在用戶界面中展開最大識別單元。在iKnoweb中,應(yīng)用啟發(fā)式(heuristic)的規(guī)則來完成該初始聚合步驟。所有的實體名稱被視為無方向的圖形(undirected graph),而每一個實體名稱是一個節(jié)點(node)。如果至少一個規(guī)則在兩個端節(jié)點處被滿足,則使用一條無方向的邊連接兩個節(jié)點。之后基于連接的組件來聚合互聯(lián)網(wǎng)實體名稱。下面是iKnoweb使用的啟發(fā)性規(guī)則的三個例子I)兩個文件具有10個相同的標(biāo)記(token);2)有5個以上的人(除了被查詢的人)是相同的;3)兩個文件進行的相同的提取操作。這些啟發(fā)式的規(guī)則是嚴(yán)格的并且在大多數(shù)時候是正確的。這些最大識別單元被視為下面所要描述的重新排序算法(re-ranking algorithm)中最小的信息單元。在完成了初始聚合之后,后續(xù)的操作會利用到這些聚合得到的組,這會進一步地節(jié)省用戶的時間。在預(yù)處理步驟中,本發(fā)明還提供了多種開始進程的方式,除了上面介紹的輸入查詢名字以外,還可以通過如下的方式來開始iKnoweb的預(yù)處理步驟通過登陸社交網(wǎng)絡(luò),利用社交網(wǎng)絡(luò)提供的應(yīng)用程序編程接口(API)來開始預(yù)處理步驟。在社交網(wǎng)絡(luò)上通常會提供數(shù)個應(yīng)用程序編程接口(API)來訪問這些用戶的信息。用戶也可以通過輸入用戶名和口令的方式登錄,之后利用這些API來獲取用戶的信息。因此在iKnoweb上也提供了用戶通過輸入社交網(wǎng)絡(luò)以及社交網(wǎng)絡(luò)的介紹(profile)來啟動查詢的方式。利用社交網(wǎng)絡(luò),除了名字以外,還可以利用介紹中的關(guān)鍵字,例如職業(yè)、教育背景等等來實現(xiàn)查詢。迭代排序步驟104循環(huán)執(zhí)行下述步驟直至滿足終止條件,終止條件包括排序模型不再產(chǎn)生新的信息,例如沒有新的互聯(lián)網(wǎng)實體名稱產(chǎn)生、互聯(lián)網(wǎng)實體名稱的順序不再變動;或者收到用戶的終止指令。迭代排序步驟104循環(huán)執(zhí)行的步驟包括140.根據(jù)排序模型(ranking model)按照與實體的類似程度對互聯(lián)網(wǎng)實體名稱進行排序。142.產(chǎn)生交互問題,交互問題包含選項。144.向用戶呈現(xiàn)交互問題并接收用戶選擇的選項作為用戶反饋,還包括對交互問·題進行選擇并呈現(xiàn)被選中的交互問題。146.根據(jù)用戶反饋對排序模型進行優(yōu)化,并根據(jù)優(yōu)化的排序模型對聚合體重新進行排序。在一個實施例中,排序模型進行優(yōu)化包括基于歸一化期望標(biāo)準(zhǔn)對排序模型進行優(yōu)化。在迭代排序步驟104中,對由預(yù)處理步驟102獲得的互聯(lián)網(wǎng)實體名稱進行排序,得到一個排序列表。最終的目的是,這個排序列表中排在最前面的互聯(lián)網(wǎng)實體名稱應(yīng)當(dāng)是最有可能與所查詢的實體相關(guān)的。在具體的實現(xiàn),例如上面所描述的iKnoweb的實現(xiàn)中,迭代排序步驟在開始階段,在對于所查詢的實體,即查詢的人沒有預(yù)先的了解的情況下,第一次迭代中的初始排序表是依據(jù)網(wǎng)絡(luò)搜索引擎(Web Search Engine)的排序結(jié)果。本發(fā)明的方案中,為了使得搜索結(jié)果能夠更加符合用戶的需求,希望對特征進行排序,這些特征反映了搜索到的實體與所查詢的實體的類似程度。本發(fā)明試圖對特征進行排序并且從這些特征中產(chǎn)生交互問題。在獲取經(jīng)過排序的互聯(lián)網(wǎng)實體名稱與特征后,iKnoweb自動在這些數(shù)據(jù)中進行選擇。只有可以確定與所查詢的實體相關(guān)的實體名稱以及與所查詢的實體相關(guān)的問題被選擇,選擇的內(nèi)容被呈現(xiàn)給用戶。為了節(jié)省用戶的而時間,可以限制呈現(xiàn)給用戶的項目的數(shù)量。在用戶接收到這些內(nèi)容之后,用戶給所呈現(xiàn)的實體名稱標(biāo)記以三種標(biāo)記“是”、“否”或者“不確定”。iKnoweb不會自動為用戶選擇一個實體名稱作為最終確定的實體名稱搜索結(jié)果,即使iKnoweb可以確定該互聯(lián)網(wǎng)實體名稱有很高的可能性就是用戶需要的那個實體的實體名稱,iKnoweb也不會這么做。如此設(shè)計的目的有二 I)凈化(pure)結(jié)果的準(zhǔn)確性;2) iKnoweb是一項搜索服務(wù),用戶通過閱讀由搜索服務(wù)查詢到的信息來進行選擇,iKnoweb不進行任何的最終確定工作可以確保用戶不會遺漏閱讀任何有價值的實體名稱。在用戶標(biāo)記了所有了項目之后,這些被標(biāo)記的實例和問題將被用作新的訓(xùn)練數(shù)據(jù)(training data)。用戶回答的問題可以而被認(rèn)為是對特征的標(biāo)記,于是就可以得到兩種訓(xùn)練數(shù)據(jù)經(jīng)標(biāo)記的實例(instance)和經(jīng)標(biāo)記的特征(feature)。這些訓(xùn)練數(shù)據(jù)被用于訓(xùn)練多項邏輯回歸模型(multinomial logistic regression model),該多項邏輯回歸模型依據(jù)歸一化期望標(biāo)準(zhǔn)(generalized expectation criteria)對所有的互聯(lián)網(wǎng)實體名稱進行排序。歸一化期望標(biāo)準(zhǔn)具有模型化經(jīng)標(biāo)記的實例和經(jīng)標(biāo)記的特征的能力。當(dāng)iKnoweb得到一個新的重新經(jīng)過訓(xùn)練的模型時,重新開始這個過程,對所有未經(jīng)確認(rèn)的實體名稱進行重新排序,并基于用戶的反饋產(chǎn)生新的問題。iKnoweb反復(fù)執(zhí)行如下的四個步驟對互聯(lián)網(wǎng)實體名稱進行排序并產(chǎn)生問題、選擇實體名稱以及問題、用戶反饋、重新訓(xùn)練模型。上述的步驟將被反復(fù)進行直至出現(xiàn)下列之一的條件I) 沒有關(guān)于所查詢的實體的新的實體名稱出現(xiàn),或者這些實體名稱的排列順序不再改變;2)用戶終止了交互進程。下面,對上述四個步驟中的關(guān)鍵過程進行詳細的說明重新排序算法(Re-rankingalgorithm)在用戶提供了他們的反饋之后,重新排序算法首先基于這些用戶反饋重新訓(xùn)練模型,然后嘗試對余下的實體名稱進行重新排序。在iKnoweb中,接收兩種類型的用戶反饋選擇/刪除實體名稱以及回答問題。被選擇的或者被刪除的實體名稱被視為經(jīng)標(biāo)記的實例,而回答的問題被視為經(jīng)標(biāo)記的特征。例如,如果用戶回答一個問題“你認(rèn)識A么? ”,如果用戶回答“是”,那么,將所有包含有關(guān)鍵字“A”的實體名稱與所查詢的實體之間的關(guān)聯(lián)可能性設(shè)置為一個十分接近“I”的值,例如“0. 99”,可以理解為這是一個條件概率。于是,每一個回答的問題都可以被視為是一個條件概率分布。將每一個實體名稱dsi作為一個特征向量xsi。每一個實體名稱可被標(biāo)記為“是”或者“否”,分別以標(biāo)記ysi = I或者ysi = 0來表示。訓(xùn)練問題可以被描述如下在一個集合Ds所包含的所有實體名稱中,一個子集L被標(biāo)記,其中ZcA。V之eZ,可以得到一個標(biāo)記ysi。同時得到一個關(guān)于所有的特征的集合F,其中V/, e F,得到一個估計的分布例^ I / > 0)。從DS、L和F中,希望訓(xùn)練一個模型M,模型M被用于對未經(jīng)確認(rèn)的部分Ds-L進行排序,排序的順序是依據(jù)與查詢實體Ps的類似程度。歸一化期望標(biāo)準(zhǔn)被用于考慮這些輸入。歸一化期望標(biāo)準(zhǔn)(generalizedexpectation criteria)傳統(tǒng)的可能性模型的參數(shù)是按照最大(后驗)似然估計(maximum aposteriorilikelihood estimation)、動差擬合(moment matching)或者是最大熵原貝丨J (maximumentropy principle) 而歸一化期望標(biāo)準(zhǔn)從另一個角度提供了一種估計參數(shù)的方法。歸一化期望標(biāo)準(zhǔn)是一個參數(shù)估計對象函數(shù)項,該函數(shù)表示了模型對于變量值的一些傾向性。該項(term)可以是多種類型,例如,可以將該項(term)定義為模型的期望值與目標(biāo)值之間的距離。目標(biāo)值可以是來自于外部的知識源,例如訓(xùn)練數(shù)據(jù)、已知知識或者來自專家的幫助。歸一化期望標(biāo)準(zhǔn)的一個主要的好處是提供了一種人類直接展示他們頭腦中的知識并且方便地使用期望與模型進行交互的方法。設(shè)F為一些特征的集合,并指定f E F。設(shè)0為定義F的概率分布的模型的參數(shù)Pe(F)0可以定義歸一化期望標(biāo)準(zhǔn)項為函數(shù)G。G(Ee [f(X)]) — R其中f (X)是特征X的任意函數(shù),產(chǎn)生一些標(biāo)量(scalar)或者向量值。Ee [f (X)]是根據(jù)模型對f的期望。一般,距離函數(shù)G可以是兩個分布之間的KL偏離(KL divergency),或者是兩個期望之間的標(biāo)準(zhǔn)距離(norm distance)。在本實施例中,使用KL偏離(KLdivergency)來度量用戶輸入的參考分布與模型估計的特征分布之間的距離。該項可被用作目標(biāo)函數(shù)的一部分。通過最小化目標(biāo)函數(shù)就能夠得到優(yōu)化的參數(shù)
權(quán)利要求
1.一種交互式互聯(lián)網(wǎng)實體名稱(web appearance)的消歧方法,其特征在于,包括 預(yù)處理步驟,接收查詢信息并基于查詢信息檢索與實體相關(guān)的互聯(lián)網(wǎng)實體名稱,查找包含所述查詢信息的互聯(lián)網(wǎng)實體名稱,將與同一個實體相關(guān)的互聯(lián)網(wǎng)實體名稱初始聚合(initial clustering); 迭代排序步驟,循環(huán)執(zhí)行下述步驟直至滿足終止條件 根據(jù)排序模型(ranking model),按照與實體的類似程度對互聯(lián)網(wǎng)實體名稱進行排序; 產(chǎn)生交互問題,所述交互問題包含選項; 向用戶呈現(xiàn)交互問題并接收用戶選擇的選項作為用戶反饋; 根據(jù)用戶反饋對排序模型進行優(yōu)化,并根據(jù)優(yōu)化的排序模型對互聯(lián)網(wǎng)實體名稱重新進行排序; 呈現(xiàn)步驟,選擇排序最前的互聯(lián)網(wǎng)實體名稱,基于該互聯(lián)網(wǎng)實體名稱生成總結(jié)頁面(summarization page),該總結(jié)頁面與被查詢的實體相關(guān),向用戶呈現(xiàn)所述總結(jié)頁面。
2.如權(quán)利要求I所述的交互式互聯(lián)網(wǎng)實體名稱的消歧方法,其特征在于,所述終止條件包括 排序模型不再產(chǎn)生新的信息;或者 收到用戶的終止指令。
3.如權(quán)利要求I所述的交互式互聯(lián)網(wǎng)實體名稱的消歧方法,其特征在于,向用戶呈現(xiàn)交互問題包括對交互問題進行選擇并呈現(xiàn)被選中的交互問題。
4.如權(quán)利要求I所述的交互式互聯(lián)網(wǎng)實體名稱的消歧方法,其特征在于,將與同一個實體相關(guān)的互聯(lián)網(wǎng)實體名稱初始聚合包括應(yīng)用啟發(fā)式規(guī)則。
5.如權(quán)利要求I所述的交互式互聯(lián)網(wǎng)實體名稱的消歧方法,其特征在于,對排序模型進行優(yōu)化包括基于歸一化期望標(biāo)準(zhǔn)對排序模型進行優(yōu)化。
6.如權(quán)利要求I所述的交互式互聯(lián)網(wǎng)實體名稱的消歧方法,其特征在于,所述呈現(xiàn)步驟還包括 利用所述排序模型對新獲取的互聯(lián)網(wǎng)實體名稱進行分類并通知用戶。
7.一種交互式互聯(lián)網(wǎng)實體名稱的消歧裝置,其特征在于,包括 預(yù)處理裝置,接收查詢信息并基于查詢信息檢索與實體相關(guān)的互聯(lián)網(wǎng)實體名稱,查找包含所述查詢信息的互聯(lián)網(wǎng)實體名稱,將與同一個實體相關(guān)的互聯(lián)網(wǎng)實體名稱初始聚合;迭代排序裝置,迭代排序裝置包括依次連接并依次工作的下述模塊,迭代排序裝置循環(huán)工作直至滿足終止條件 排序模型(ranking model),按照與實體的類似程度對互聯(lián)網(wǎng)實體名稱進行排序; 問題產(chǎn)生模塊,產(chǎn)生交互問題,所述交互問題包含選項; 問題呈現(xiàn)模塊,向用戶呈現(xiàn)交互問題并接收用戶選擇的選項作為用戶反饋; 模型優(yōu)化模塊,根據(jù)用戶反饋對排序模型進行優(yōu)化,并指示經(jīng)過優(yōu)化的排序模型對互聯(lián)網(wǎng)實體名稱重新進行排序; 呈現(xiàn)裝置,選擇排序最前的互聯(lián)網(wǎng)實體名稱,基于該互聯(lián)網(wǎng)實體名稱生成總結(jié)頁面,該總結(jié)頁面與被查詢的實體相關(guān),向用戶呈現(xiàn)所述總結(jié)頁面。
8.如權(quán)利要求7所述的交互式互聯(lián)網(wǎng)實體名稱的消歧裝置,其特征在于,迭代排序裝置的終止條件包括 排序模型不再產(chǎn)生新的信息;或者 收到用戶的終止指令。
9.如權(quán)利要求7所述的交互式互聯(lián)網(wǎng)實體名稱的消歧裝置,其特征在于,問題呈現(xiàn)模塊進一步包括問題選擇模塊,問題選擇模塊對交互問題進行選擇,問題呈現(xiàn)模塊呈現(xiàn)被問題選擇模塊選中的交互問題。
10.如權(quán)利要求7所述的交互式互聯(lián)網(wǎng)實體名稱的消歧裝置,其特征在于,預(yù)處理裝置應(yīng)用啟發(fā)式規(guī)則將與同一個實體相關(guān)的互聯(lián)網(wǎng)實體名稱初始聚合。
11.如權(quán)利要求7所述的交互式互聯(lián)網(wǎng)實體名稱的消歧裝置,其特征在于,模型優(yōu)化模塊對排序模型進行優(yōu)化包括基于歸一化期望標(biāo)準(zhǔn)對排序模型進行優(yōu)化。
12.如權(quán)利要求7所述的交互式互聯(lián)網(wǎng)實體名稱的消歧裝置,其特征在于,所述呈現(xiàn)裝置還包括 分類及通知模塊,利用所述排序模型對新獲取的互聯(lián)網(wǎng)實體名稱進行分類并通知用戶。
13.一種交互式互聯(lián)網(wǎng)實體名稱的消歧方法,其特征在于,包括 接收查詢信息,該查詢信息與被查詢的實體相關(guān); 檢索互聯(lián)網(wǎng)實體名稱,所述互聯(lián)網(wǎng)實體名稱與實體相關(guān),查找包含所述查詢信息的互聯(lián)網(wǎng)實體名稱,將與同一個實體相關(guān)的互聯(lián)網(wǎng)實體名稱初始聚合; 循環(huán)執(zhí)行下述步驟,直至滿足終止條件 根據(jù)排序模型對互聯(lián)網(wǎng)實體名稱進行排序,排序的順序是按照與實體的類似程度; 與用戶交互并收集用戶的反饋; 依據(jù)用戶的反饋對排序模型進行優(yōu)化,并根據(jù)優(yōu)化的排序模型對互聯(lián)網(wǎng)實體名稱重新進行排序; 選擇排序最前的互聯(lián)網(wǎng)實體名稱,基于該互聯(lián)網(wǎng)實體名稱生成總結(jié)頁面,該總結(jié)頁面與被查詢的實體相關(guān); 向用戶呈現(xiàn)所述總結(jié)頁面。
14.如權(quán)利要求13所述的交互式互聯(lián)網(wǎng)實體名稱的消歧方法,其特征在于,所述終止條件包括 排序模型不再產(chǎn)生新的信息;或者 收到用戶的終止指令。
15.如權(quán)利要求13所述的交互式互聯(lián)網(wǎng)實體名稱的消歧方法,其特征在于,與用戶交互并收集用戶的反饋包括 產(chǎn)生包含選項的交互問題; 向用戶呈現(xiàn)交互問題并接收用戶選擇的選項作為用戶反饋。
16.如權(quán)利要求15所述的交互式互聯(lián)網(wǎng)實體名稱的消歧方法,其特征在于,與用戶交互并收集用戶的反饋包括 向用戶呈現(xiàn)交互問題包括對交互問題進行選擇并呈現(xiàn)被選中的交互問題。
17.如權(quán)利要求13所述的交互式互聯(lián)網(wǎng)實體名稱的消歧方法,其特征在于,將包含查詢信息的互聯(lián)網(wǎng)實體名稱初始聚合包括應(yīng)用啟發(fā)式規(guī)則。
18.如權(quán)利要求13所述的交互式互聯(lián)網(wǎng)實體名稱的消歧方法,其特征在于,對排序模型進行優(yōu)化包括基于歸一化期望標(biāo)準(zhǔn)對排序模型進行優(yōu)化。
19.如權(quán)利要求13所述的交互式互聯(lián)網(wǎng)實體名稱的消歧方法,其特征在于,還包括 利用所述排序模型對新獲取的互聯(lián)網(wǎng)實體名稱進行分類并通知用戶。
全文摘要
本發(fā)明揭示了一種交互式互聯(lián)網(wǎng)實體名稱的消歧方法。該方法包括三個主要的步驟預(yù)處理步驟、迭代排序步驟和呈現(xiàn)步驟。在預(yù)處理步驟中,接收查詢信息并基于查詢信息檢索與實體相關(guān)的互聯(lián)網(wǎng)實體名稱,將與同一個實體相關(guān)的互聯(lián)網(wǎng)實體名稱初始聚合。在迭代排序步驟中,循環(huán)執(zhí)行下述步驟直至滿足終止條件根據(jù)排序模型按照與實體的類似程度對互聯(lián)網(wǎng)實體名稱進行排序;產(chǎn)生包含選項的交互問題;向用戶呈現(xiàn)交互問題并接收用戶選擇的選項作為用戶反饋;根據(jù)用戶反饋對排序模型進行優(yōu)化,并重新對互聯(lián)網(wǎng)實體名稱進行排序。在呈現(xiàn)步驟中,選擇排序最前的互聯(lián)網(wǎng)實體名稱并生成與被查詢的實體相關(guān)的總結(jié)頁面,向用戶呈現(xiàn)總結(jié)頁面。
文檔編號G06F17/30GK102968419SQ20111026673
公開日2013年3月13日 申請日期2011年8月31日 優(yōu)先權(quán)日2011年8月31日
發(fā)明者劉曉江, 聶再清, 曹涌, 呂正東, 羅剛, 文繼榮, 馬維英 申請人:微軟公司