專(zhuān)利名稱(chēng):用于web數(shù)據(jù)庫(kù)模型匹配的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
所述技術(shù)一般涉及web數(shù)據(jù)庫(kù)模式的確定。
背景技術(shù):
萬(wàn)維網(wǎng)(“web”)提供大量可經(jīng)網(wǎng)頁(yè)訪(fǎng)問(wèn)的信息。網(wǎng)頁(yè)可以包含靜態(tài)的內(nèi)容或動(dòng)態(tài)的內(nèi)容。靜態(tài)內(nèi)容一般涉及停留在許多訪(fǎng)問(wèn)網(wǎng)頁(yè)的相同交叉上的信息。動(dòng)態(tài)內(nèi)容一般涉及存儲(chǔ)在一個(gè)web數(shù)據(jù)庫(kù)中并響應(yīng)搜索請(qǐng)求增加到網(wǎng)頁(yè)的信息。動(dòng)態(tài)內(nèi)容表示被稱(chēng)為深層web或隱藏web的內(nèi)容。
許多搜索引擎服務(wù)允許用戶(hù)搜索web的靜態(tài)內(nèi)容。當(dāng)一個(gè)用戶(hù)提交一個(gè)搜索請(qǐng)求或包括檢索詞的查詢(xún)后,搜索引擎服務(wù)識(shí)別可能涉及那些檢索詞的網(wǎng)頁(yè)。該網(wǎng)頁(yè)就是搜索結(jié)果。為了快速識(shí)別涉及的網(wǎng)頁(yè),搜索引擎服務(wù)可以保存一個(gè)關(guān)鍵詞到網(wǎng)頁(yè)的映射??梢酝ㄟ^(guò)“爬行(crawl)”web生成映射以識(shí)別每一網(wǎng)頁(yè)的關(guān)鍵詞。為了爬行web,搜索引擎服務(wù)可以采用主頁(yè)列表來(lái)識(shí)別通過(guò)主頁(yè)接入的所有網(wǎng)頁(yè)。任何特定網(wǎng)頁(yè)的關(guān)鍵詞可以用各種眾所周知的信息檢索技術(shù)來(lái)識(shí)別,例如識(shí)別標(biāo)題文字、網(wǎng)頁(yè)元數(shù)據(jù)中提供的文字、突出顯示的文字等等。
然而,這些搜索引擎一般不提供動(dòng)態(tài)內(nèi)容的搜索,所述動(dòng)態(tài)內(nèi)容也被認(rèn)為是不可爬行的內(nèi)容。搜索動(dòng)態(tài)內(nèi)容伴隨的問(wèn)題是,如果沒(méi)有提供web數(shù)據(jù)庫(kù)的網(wǎng)站的配合,要直接得到相應(yīng)web數(shù)據(jù)庫(kù)的模式,是很困難或是不可能的。一個(gè)模式定義存儲(chǔ)在數(shù)據(jù)庫(kù)中的信息或?qū)傩?。例如,一個(gè)書(shū)商的web數(shù)據(jù)庫(kù)可以具有一個(gè)書(shū)籍目錄(即web數(shù)據(jù)庫(kù))的模式,包括每一本書(shū)的標(biāo)題和作者。在不知道模式的情況下,對(duì)搜索引擎服務(wù)來(lái)說(shuō),通過(guò)爬行web數(shù)據(jù)庫(kù)的內(nèi)容來(lái)確定什么信息對(duì)于搜索是可用的,是很困難的。即使web數(shù)據(jù)庫(kù)的模式是已知的,搜索引擎服務(wù)仍需確定怎樣爬行web數(shù)據(jù)庫(kù)來(lái)檢索它的內(nèi)容。假設(shè)搜索引擎可以檢索web數(shù)據(jù)庫(kù)的內(nèi)容,該搜索引擎仍需識(shí)別什么時(shí)候不同模式的屬性在語(yǔ)法上表示相同屬性。例如,售書(shū)網(wǎng)站可以有一個(gè)規(guī)定該書(shū)是平裝本、硬裝本或光盤(pán)的目錄。一個(gè)售書(shū)網(wǎng)站也許把該屬性叫做“類(lèi)型”,另一售書(shū)網(wǎng)站也許會(huì)把同樣的屬性叫做“格式”。為了允許通過(guò)多個(gè)網(wǎng)站對(duì)動(dòng)態(tài)內(nèi)容進(jìn)行有效的搜索,搜索引擎服務(wù)需要知道web數(shù)據(jù)庫(kù)屬性的含義或語(yǔ)義。
需要這樣一項(xiàng)技術(shù),可以自動(dòng)識(shí)別相應(yīng)web數(shù)據(jù)庫(kù)的模式,并識(shí)別表示相同語(yǔ)義內(nèi)容的不同模式的屬性。
發(fā)明內(nèi)容
提供一種識(shí)別web數(shù)據(jù)庫(kù)模式的方法和系統(tǒng)。模式匹配系統(tǒng)生成一個(gè)web數(shù)據(jù)庫(kù)的界面模式和結(jié)果模式之間的映射,用來(lái)表示底層數(shù)據(jù)庫(kù)模式。所述模式匹配系統(tǒng)也生成一個(gè)web數(shù)據(jù)庫(kù)的界面屬性和結(jié)果屬性到全局模式的全局屬性的映射,所述全局模式的語(yǔ)義是已知的。利用這些映射,搜索引擎服務(wù)可以用全局屬性把查詢(xún)公式化,映射那些查詢(xún)至相應(yīng)的界面屬性,提交所述查詢(xún),并從對(duì)應(yīng)期望全局屬性的結(jié)果屬性中檢索數(shù)值。
附圖簡(jiǎn)介
圖1表示一個(gè)書(shū)商的web數(shù)據(jù)庫(kù)的各種模式的框圖。
圖2表示一個(gè)實(shí)施例中的內(nèi)部站(intra-site)匹配和相互站(inter-site)匹配。
圖3表示一個(gè)實(shí)施例中模式匹配系統(tǒng)的分區(qū)的一個(gè)通道。
圖4表示一個(gè)實(shí)施例中模式匹配系統(tǒng)部件方框圖。
圖5表示一個(gè)實(shí)施例中intra-site匹配部件處理過(guò)程的流程圖。
圖6表示一個(gè)實(shí)施例中立方體生成部件處理過(guò)程的流程圖。
圖7表示一個(gè)實(shí)施例中立方體更新部件處理過(guò)程的流程圖。
圖8表示一個(gè)實(shí)施例中立方體投影部件處理過(guò)程的流程圖。
圖9表示一個(gè)實(shí)施例中EMI計(jì)算部件處理過(guò)程的流程圖。
圖10表示一個(gè)實(shí)施例中匹配矩陣生成部件處理過(guò)程的流程圖。
圖11表示一個(gè)實(shí)施例中inter-site匹配部件的處理過(guò)程的流程圖。
圖12表示一個(gè)實(shí)施例中計(jì)算估計(jì)向量相似性的部件處理過(guò)程的流程圖。
圖13表示一個(gè)實(shí)施例中交叉確認(rèn)(cross-validate)部件處理過(guò)程的流程圖。
具體實(shí)施例方式
提供一種識(shí)別web數(shù)據(jù)庫(kù)模式的方法和系統(tǒng)。在一個(gè)實(shí)施例中,模式匹配系統(tǒng)生成一個(gè)web數(shù)據(jù)庫(kù)的界面模式和結(jié)果模式之間的映射,用來(lái)表示基礎(chǔ)的數(shù)據(jù)庫(kù)模式。Web數(shù)據(jù)庫(kù)的界面模式表示可用于搜索的數(shù)據(jù)庫(kù)屬性。Web數(shù)據(jù)庫(kù)的結(jié)果模式表示作為搜索結(jié)果部分顯示的數(shù)據(jù)庫(kù)屬性。所述映射指示哪些界面屬性與哪些結(jié)果屬性具有相同的(也涉及相當(dāng)?shù)幕蛳嗥ヅ涞?含義。模式匹配系統(tǒng)也生成web數(shù)據(jù)庫(kù)中的界面屬性和結(jié)果屬性到全局模式中的全局屬性的映射,所述全局屬性的語(yǔ)義是已知的。利用這些映射,搜索引擎服務(wù)可以用全局屬性把查詢(xún)公式化,映射所述查詢(xún)至相應(yīng)的界面屬性,提交所述查詢(xún),并從對(duì)應(yīng)期望全局屬性的結(jié)果屬性中檢索數(shù)值。這樣,該模式匹配系統(tǒng)識(shí)別web數(shù)據(jù)庫(kù)的模式,該模式可用于搜索web數(shù)據(jù)庫(kù)。
圖1表示一個(gè)書(shū)商的web數(shù)據(jù)庫(kù)的各種模式的框圖。該Web數(shù)據(jù)庫(kù)包括一個(gè)數(shù)據(jù)庫(kù)模式101,一個(gè)界面模式102和一個(gè)結(jié)果模式103。該數(shù)據(jù)庫(kù)模式表示web數(shù)據(jù)庫(kù)的底層模式,在本例中包括屬性標(biāo)題、作者、出版商、ISBN號(hào)、格式和出版日期。網(wǎng)站提供一個(gè)搜索網(wǎng)頁(yè),以便用戶(hù)可以訪(fǎng)問(wèn)來(lái)查找書(shū)籍。該web數(shù)據(jù)庫(kù)的界面模式包括屬性標(biāo)題、作者、格式和ISBN號(hào)。用戶(hù)可以為任何界面屬性的組合指定搜索字符串,來(lái)搜索書(shū)籍?dāng)?shù)據(jù)庫(kù)。網(wǎng)頁(yè)中“你的搜索”字段允許用戶(hù)在web數(shù)據(jù)庫(kù)的所有屬性中進(jìn)行搜索。搜索的結(jié)果顯示在一個(gè)結(jié)果網(wǎng)頁(yè)上。該web數(shù)據(jù)庫(kù)的結(jié)果模式包括標(biāo)題、作者、出版商、格式和出版日期。搜索結(jié)果典型地提供多個(gè)多個(gè)條目,這些條目對(duì)應(yīng)于與搜索請(qǐng)求匹配的數(shù)據(jù)庫(kù)的每個(gè)條目。結(jié)果的每一條目一般包含每個(gè)結(jié)果屬性的一個(gè)值。在本例中,所述界面模式有一個(gè)未包括在結(jié)果模式中的屬性(即ISBN號(hào)),結(jié)果模式有一個(gè)未包括在界面模式中的屬性(即出版日期)。
除了使用web數(shù)據(jù)庫(kù)的界面模式和結(jié)果模式外,模式匹配系統(tǒng)還使用一個(gè)特殊區(qū)域(domain-specific)的全局模式。一個(gè)區(qū)域的全局模式表示在該區(qū)域內(nèi)web數(shù)據(jù)庫(kù)通常使用的屬性設(shè)置。例如,在書(shū)籍區(qū)域內(nèi)的web數(shù)據(jù)庫(kù)典型地具有包括標(biāo)題、作者和出版商的屬性,并且在汽車(chē)區(qū)域內(nèi)的web數(shù)據(jù)庫(kù)典型地具有包括構(gòu)造、型號(hào)和年代的屬性。一個(gè)全局模式也可以具有與其對(duì)應(yīng)的樣本全局屬性值。例如,書(shū)籍區(qū)域的出版商屬性可以具有包括“Random House”和“MITPress”的全局屬性值。
為了生成映射,該模式匹配系統(tǒng)一開(kāi)始就識(shí)別web數(shù)據(jù)庫(kù)的區(qū)域全局模式,和web數(shù)據(jù)庫(kù)的界面模式和結(jié)果模式。(識(shí)別所述模式的技術(shù)在下面進(jìn)行描述)。模式匹配系統(tǒng)從全局屬性的全局屬性值(例如,從一組樣本值)生成查詢(xún),并通過(guò)界面網(wǎng)頁(yè)向web數(shù)據(jù)庫(kù)提交查詢(xún)(例如,通過(guò)搜索網(wǎng)頁(yè)發(fā)送一個(gè)對(duì)應(yīng)提交查詢(xún)的HTTP請(qǐng)求)。模式匹配系統(tǒng)分析結(jié)果網(wǎng)頁(yè)給出的結(jié)果,來(lái)確定那些界面屬性對(duì)應(yīng)哪些結(jié)果屬性(“界面-結(jié)果對(duì)應(yīng)”),哪些全局屬性對(duì)應(yīng)哪些界面屬性(“全局-界面對(duì)應(yīng)”),哪些全局屬性對(duì)應(yīng)哪些結(jié)果屬性(“全局-結(jié)果對(duì)應(yīng)”)。因?yàn)榻缑婧徒Y(jié)果模式對(duì)應(yīng)單個(gè)網(wǎng)站的模式,因此該對(duì)應(yīng)關(guān)系稱(chēng)為“內(nèi)部站(intra-site)”匹配。當(dāng)搜索時(shí)使用的界面屬性的值與結(jié)果屬性的值相匹配時(shí),模式匹配系統(tǒng)識(shí)別一個(gè)界面屬性可以對(duì)應(yīng)一個(gè)結(jié)果屬性。例如,當(dāng)給出標(biāo)題界面屬性的值為“Harry Potter”時(shí),許多結(jié)果條目都可能在標(biāo)題界面屬性里具有“Harry Potter”值。相反,當(dāng)給出作者界面屬性的值為“Harry Potter”來(lái)搜索時(shí),只有少數(shù)的結(jié)果條目可能在標(biāo)題界面屬性里具有“Harry Potter”值。同樣的,所述標(biāo)題界面屬性可能對(duì)應(yīng)標(biāo)題結(jié)果屬性,但是作者界面屬性可能不對(duì)應(yīng)標(biāo)題結(jié)果屬性。
在一個(gè)實(shí)施例中,該模式匹配系統(tǒng)也可以產(chǎn)生不同網(wǎng)站的界面模式和結(jié)果模式之間的映射。模式匹配系統(tǒng)分析如上述提交的查詢(xún)結(jié)果,并識(shí)別某一網(wǎng)站模式的哪個(gè)界面屬性對(duì)應(yīng)另一網(wǎng)站模式的哪個(gè)界面屬性(“界面-界面對(duì)應(yīng)”),和某一網(wǎng)站模式的哪個(gè)結(jié)果屬性對(duì)應(yīng)另一網(wǎng)站模式的哪個(gè)結(jié)果屬性(“結(jié)果-結(jié)果對(duì)應(yīng)”)。例如,該模式匹配系統(tǒng)可以識(shí)別,某一網(wǎng)站的類(lèi)型(type)界面屬性可以對(duì)應(yīng)另一網(wǎng)站的格式(format)界面屬性。因?yàn)槭窃诓煌W(wǎng)站之間進(jìn)行模式的匹配,所以該對(duì)應(yīng)關(guān)系稱(chēng)為“相互站(inter-site)”匹配。該inter-site匹配信息可以在一個(gè)區(qū)域中搜索多個(gè)web數(shù)據(jù)庫(kù)時(shí)使用。所述inter-site匹配信息也可以用來(lái)幫助確認(rèn)intra-site匹配是否正確。
圖2表示一個(gè)實(shí)施例中的intra-site匹配和inter-site匹配。橢圓202表示關(guān)于在一個(gè)書(shū)籍區(qū)域內(nèi)的web數(shù)據(jù)庫(kù)的模式。每個(gè)站點(diǎn)1…N具有一個(gè)界面模式(“IS”)和一個(gè)結(jié)果模式(“RS”),并且所述區(qū)域具有一個(gè)全局模式(“GS”)。模式間的連線(xiàn)表示“intra-site”匹配和“inter-site”匹配。例如,站點(diǎn)1的IS和GS之間的線(xiàn)表示intra-site的全局-界面對(duì)應(yīng),站點(diǎn)1的IS和站點(diǎn)1的RS之間的線(xiàn)表示intra-site的界面-結(jié)果對(duì)應(yīng),站點(diǎn)1的IS和站點(diǎn)2的IS之間的線(xiàn)表示站點(diǎn)1和站點(diǎn)2間inter-site的界面-界面對(duì)應(yīng)。
在一個(gè)實(shí)施例中,模式匹配系統(tǒng)生成一個(gè)事件立方體(occurrence cube),對(duì)應(yīng)web數(shù)據(jù)庫(kù)的全局屬性、界面屬性和結(jié)果屬性的每一組合,當(dāng)搜索時(shí)全局屬性值被用作該界面屬性值時(shí),該立方體識(shí)別該全局屬性的全局屬性值在該結(jié)果屬性中出現(xiàn)的次數(shù)。模式匹配系統(tǒng)為每一界面屬性提交多個(gè)查詢(xún)。每個(gè)查詢(xún)具有設(shè)為不同全局屬性值的該界面屬性值。例如,如果全局屬性包括一個(gè)附帶平裝本、硬裝本和光盤(pán)值的格式屬性,和一個(gè)附帶Rowling值的作者屬性,那么模式匹配系統(tǒng)提交一個(gè)附帶設(shè)為平裝本的標(biāo)題屬性的查詢(xún),一個(gè)附帶設(shè)為硬裝本的標(biāo)題屬性的查詢(xún),一個(gè)附帶設(shè)為光盤(pán)的標(biāo)題屬性的查詢(xún),和一個(gè)附帶設(shè)為Rowling的標(biāo)題屬性的查詢(xún)。該模式匹配系統(tǒng)為每個(gè)界面屬性提交平裝本、硬裝本、光盤(pán)和Rowling的全局屬性值的查詢(xún)。該模式匹配系統(tǒng)為每一查詢(xún)結(jié)果計(jì)數(shù)查詢(xún)的全局屬性值作為每一結(jié)果屬性值出現(xiàn)的次數(shù)。例如,當(dāng)提交一個(gè)帶有設(shè)為平裝本標(biāo)題界面屬性的查詢(xún)時(shí),可能只有很少或沒(méi)有匹配,這表示該標(biāo)題界面屬性很可能與格式全局屬性不匹配。相反,當(dāng)提交一個(gè)帶有設(shè)為平裝本格式界面屬性的查詢(xún)時(shí),可能找到許多匹配,且可以在格式結(jié)果屬性?xún)?nèi)許多結(jié)果條目中找到搜索項(xiàng)“平裝本”,這表示格式全局屬性、格式界面屬性和格式結(jié)果屬性是相互對(duì)應(yīng)的。特定的全局屬性、界面屬性和結(jié)果屬性組合尤其是相對(duì)于其它的組合的高次數(shù),表示所述屬性很可能是對(duì)應(yīng)的,即它們表示相同的語(yǔ)義內(nèi)容。
生成事件立方體后,模式匹配系統(tǒng)創(chuàng)建用于全局-界面對(duì)應(yīng)、全局-結(jié)果對(duì)應(yīng)和界面-結(jié)果對(duì)應(yīng)的事件矩陣。在一個(gè)實(shí)施例中,模式匹配系統(tǒng)通過(guò)把事件立方體的維數(shù)投影到一個(gè)平面上,來(lái)創(chuàng)建一個(gè)事件矩陣。為了生成全局-界面對(duì)應(yīng)的事件矩陣,模式匹配系統(tǒng)把每一全局屬性和界面屬性的組合的所有結(jié)果屬性出現(xiàn)的次數(shù)相加。該模式匹配系統(tǒng)以類(lèi)似的方式生成全局-結(jié)果對(duì)應(yīng)和界面-結(jié)果對(duì)應(yīng)的生成事件矩陣。表1是一個(gè)全局-界面對(duì)應(yīng)的事件矩陣的例子。
表1標(biāo)題GS作者GS出版商GSISBNGS作者IS93534 0標(biāo)題IS 345 501 0出版商IS62 184 2關(guān)鍵詞IS120 248 143 ISBNIS0 0 0 258雖然計(jì)算的值是成對(duì)屬性之間對(duì)應(yīng)關(guān)系的一個(gè)指示,但是相對(duì)值比絕對(duì)值更能指示匹配關(guān)系。尤其是,一個(gè)高出現(xiàn)次數(shù)不一定表示對(duì)應(yīng)的屬性。例如,作者IS和出版商GS的矩陣元素(534)在矩陣中是最大值,但是作者IS和出版商GS在語(yǔ)義上不是相互對(duì)應(yīng)的。通常,給出一個(gè)特定矩陣元素mij,在界面屬性i和全局屬性j的所有元素中,它的相對(duì)值比它的絕對(duì)值更加重要。例如,可能包括“你的搜索”字段,并且不是書(shū)籍區(qū)域的真正屬性的關(guān)鍵詞IS,具有一個(gè)與全局屬性相似的特性,表示其不可以與任何一個(gè)全局屬性很好得匹配。出版商IS和出版商GS(468)的元素不是出版商GS元素中最高的。然而,與其它出版商IS的元素相比,它較大。
為了識(shí)別哪一對(duì)屬性是對(duì)應(yīng)的,所述模式匹配系統(tǒng)估計(jì)屬性對(duì)的一個(gè)交互信息內(nèi)容。交互信息內(nèi)容也可以被稱(chēng)為交叉熵(cross-entropy)和信息增益(information gain)。所述模式匹配系統(tǒng)根據(jù)模式的屬性,假設(shè)每一模式代表一個(gè)web數(shù)據(jù)庫(kù)的分區(qū)。來(lái)自分區(qū)重疊最大的不同模式的成對(duì)屬性可能對(duì)應(yīng)。在一個(gè)實(shí)施例中,所述模式匹配系統(tǒng)根據(jù)下列方程式估計(jì)一對(duì)屬性間的交互信息EMI(S1i,S2j)=mijMlogmijMmi+M*m+jM---(1)]]>其中EMI是估計(jì)的模式S1i的第i屬性和模式S2j的第j屬性之間的交互信息,M是 mi+是 m+j是 表1事件矩陣的EMI矩陣如表2所示。
表2標(biāo)題GS作者GS出版商GSISBNGS作者IS-0.04 0.060.00標(biāo)題IS -0.03 -0.01 0.00出版商IS -0.03 -0.02 -0.01關(guān)鍵詞IS -0.01 0.01 -0.07 0.17ISBNIS0.00 0.00 0.00當(dāng)一個(gè)EMI矩陣元素大于其它相同界面屬性的元素(即在同一行中),并且也大于其它相同全局屬性的元素(即在同一列中)時(shí),所述模式匹配系統(tǒng)檢測(cè)屬性間的匹配關(guān)系。如長(zhǎng)方形所示的,相應(yīng)的屬性彼此之間在信息內(nèi)容上,比與相反模式的其它屬性具有更大重疊。例如,對(duì)應(yīng)作者界面屬性和作者全局屬性,作者IS和作者GS的EMI矩陣元素(即0.11)是最大的,并是正確的匹配。屬性的匹配由下列方程表示MAP(S1i,S2j)=match爓hen eij≥eik|k≠j燼d爘ij≥eikk≠i(2)其中,MAP表示模式S1的第i屬性和模式S2的第j屬性是否相匹配,eij是對(duì)應(yīng)模式S1的第i屬性和模式S2的第j屬性的EMI矩陣元素。
在一個(gè)實(shí)施例中,所述模式匹配系統(tǒng)識(shí)別不同web數(shù)據(jù)庫(kù)的屬性間的匹配關(guān)系。該模式匹配系統(tǒng)基于web數(shù)據(jù)庫(kù)的對(duì)應(yīng)事件矩陣的向量之間的相似性,來(lái)識(shí)別匹配關(guān)系。例如,表3表示模式S1的全局-界面事件矩陣,表4表示模式S2的全局-界面事件矩陣。全局模式GS是{標(biāo)題,作者,出版商,ISBN},站點(diǎn)1的界面模式IS1是{作者1,題目1,出版商1,關(guān)鍵詞1,ISBN1},站點(diǎn)2的界面模式IS2是{題目2,作者2,ISBN2}。
表3TGAGPGIGA193 4985340T14513455010P162 1844682K1120248143275I10 0 0 258表4TGAGPGIGT21661771180A2(P) 39 3314060I20 0 0 18屬性A1由表3中第一行的向量表示,屬性A2由表4中第二行的向量表示。該模式匹配系統(tǒng)用下列方程來(lái)計(jì)算兩屬性間的相似性EVS(S1i,S2j)=ΣkaikbjkΣkaik2*Σkbjk2--(3)]]>其中EVS是模式S1的第i屬性和模式S2的第j屬性間的估計(jì)向量相似性,aik表示模式S1的事件矩陣的值,bjk表示模式S2的事件矩陣的值。
表5表示從表3和表4中導(dǎo)出的估計(jì)向量相似性。
表5T2A2(P)I2A10.840T10.84 0P10.71 0.95 0.01K10.72 0.67 0.66I10 0當(dāng)一個(gè)EVS矩陣元素大于同一網(wǎng)站的相同界面屬性的其它元素,并也大于其它網(wǎng)站的相同界面屬性的其它元素時(shí),所述模式匹配系統(tǒng)檢測(cè)屬性間的匹配關(guān)系。表5中的長(zhǎng)方形表示行和列中的最大相似性值,也表示正確的匹配。雖然IS2,作者2的第二屬性不能與GS的出版商2正確匹配,但是模式匹配系統(tǒng)運(yùn)用inter-site匹配來(lái)校正所述匹配。
在一個(gè)實(shí)施例中,所述模式匹配系統(tǒng)交叉確認(rèn)(cross-validates)全局-界面對(duì)應(yīng)、全局-結(jié)果對(duì)應(yīng)、界面-結(jié)果對(duì)應(yīng)、界面-界面對(duì)應(yīng)和結(jié)果-結(jié)果對(duì)應(yīng),以便識(shí)別和校正可能錯(cuò)誤的匹配。該模式匹配系統(tǒng)基于匹配的全局屬性將界面屬性(和類(lèi)似的結(jié)果屬性)集群為多個(gè)群集(cluster)。例如,與某一個(gè)全局屬性匹配的各種web數(shù)據(jù)庫(kù)的屬性表示一個(gè)群集。該群集是基于intra-site匹配的。inter-site匹配也可以用于交叉確認(rèn)群集。如果intra-site和inter-site匹配完全正確,那么web數(shù)據(jù)庫(kù)的每一屬性將只映射到在相同群集中其它web數(shù)據(jù)庫(kù)的屬性。換句話(huà)說(shuō),web數(shù)據(jù)庫(kù)的屬性一向是彼此映射,且被映射到全局屬性。在一個(gè)實(shí)施例中,模式匹配系統(tǒng)表示web數(shù)據(jù)庫(kù)模式的屬性為頂點(diǎn),inter-site匹配為頂點(diǎn)之間的邊緣。模式匹配系統(tǒng)劃分頂點(diǎn),這樣使邊緣切割(edge-cut)最小化。所述邊緣切割(edge-cut)是分區(qū)間所有邊緣加權(quán)和(例如,每一邊緣具有相同的權(quán))。通過(guò)最小化邊緣切割(edge-cut),模式匹配系統(tǒng)使不同群集的頂點(diǎn)之間的邊緣數(shù)目最小化。
在一個(gè)實(shí)施例中,使用初始群集作為初始分區(qū),且只要切割的數(shù)目降低就把頂點(diǎn)從一個(gè)群集移動(dòng)到另一群集,模式匹配系統(tǒng)將邊緣切割(edge-cut)近似于最小化。通常,一個(gè)頂點(diǎn)被移動(dòng)至其中有它大多數(shù)相鄰頂點(diǎn)的群集。相鄰的頂點(diǎn)之間具有一個(gè)邊緣。因?yàn)槿绻鄠€(gè)臨近頂點(diǎn)發(fā)生移動(dòng),這個(gè)頂點(diǎn)就需要移動(dòng),那么模式匹配系統(tǒng)可以使用多通道以便邊緣切割(edge-cut)集中到局部最佳。當(dāng)邊緣切割(edge-cut)集中時(shí),模式匹配系統(tǒng)分解交叉的群集,該群集通過(guò)放棄交叉群集匹配在站點(diǎn)S1的Ai屬性和站點(diǎn)S2的Bj屬性之間匹配,所述站點(diǎn)S2包含在兩個(gè)群集C1和C2中,并再匹配Ai到站點(diǎn)S2的Bk屬性,所述站點(diǎn)S2群集到C1,反之亦然。
圖3表示一個(gè)實(shí)施例中模式匹配系統(tǒng)的分區(qū)的一個(gè)通道。在該例中,全局模式包含兩個(gè)屬性{作者,出版商},5個(gè)web數(shù)據(jù)庫(kù)包含IS屬性IS1={Aa},IS2={Ba,Bp},IS3={Ca,Cp},IS4={Da,Dp}和IS5={Ea,Ep}。群集301和302基于其匹配(intra-site匹配)的全局屬性來(lái)指示屬性(用頂點(diǎn)表示)的初始群集,成對(duì)屬性之間的邊緣指示屬性匹配(inter-site匹配)。在初始狀態(tài),Aa不能與出版商全局屬性正確匹配,也不能與Bp正確匹配,但是它在作者范疇里已經(jīng)與其它三個(gè)屬性正確匹配。因此,該模式匹配系統(tǒng)將交叉群集邊緣數(shù)目從3減少到1來(lái)移動(dòng)Aa。該移動(dòng)把Aa的屬性從出版商校正到作者全局屬性。該移動(dòng)之后,模式匹配系統(tǒng)消除Aa和Bp之間的邊緣,并增加Aa和Ba之間新的邊緣(站點(diǎn)2的屬性匹配到作者全局屬性)。群集311和312表示校正后的對(duì)應(yīng)。
全局模式、界面模式和結(jié)果模式可以用各種技術(shù)來(lái)識(shí)別。一些識(shí)別全局模式的技術(shù)依靠屬性的名字和元素的結(jié)構(gòu)。(參見(jiàn)S.Castano,V.Antonellis,andS.Vimercati.Global Viewing of Heterogeneous Data Sources.IEEE Trans.Data andKnowledge Eng.,vol.13,no.2,2001;和B.He,and C.C.Chang.Statistical SchemaMatching across Web Query Interfaces.Proc.ACM SIGMOD conf.,2003,這里引入作為參考)其它技術(shù)依靠形式本體論(參見(jiàn)B.He,and C.C Chang.Statistical SchemaMatching across Web Query Interfaces.Proc.ACM SIGMOD Conf.,2003;和F.Hakimpour,and A.Geppert.Global Schema Generation Using FormalOntologies.Proc.21st Conf.on Conceptual Modeling,2002,這里引入作為參考)全局屬性值樣本可以從各種web數(shù)據(jù)庫(kù)樣本中收集或手動(dòng)產(chǎn)生。Web數(shù)據(jù)庫(kù)的界面模式可以從作為HTML說(shuō)明的查詢(xún)網(wǎng)頁(yè)的輸入關(guān)聯(lián)(input-related)標(biāo)簽中識(shí)別。(參見(jiàn)A.Arasu,and H.Garcia-Molina.Extracing Structured Data from WebPages.Proc.ACM SIGMOD Conf.,2003;C.H.Chang,and S.C.Lui.IEPADInformationExtraction based on Pattern Discovery.Proc.10th World Wide WebConf.,681-688,2001;V.Crescenzi,G.Mecca and P.Merialdo.ROADRUNNERTowardsAutomatic Data Extraction from Large Web Sites.Proc.27thVLDB.Conf.,109-118,2001;和J.Wang and F.Lochovsky.Data Extraction and LabelAssignment for Web Databases.Proc.12th World Wide Web Conf.,187-196,2003,這里引入作為參考)一項(xiàng)技術(shù)基于嵌套在HTML頁(yè)面中的重復(fù)圖案(repeated-pattern)來(lái)生成一個(gè)規(guī)則表達(dá)式(regular-expression)(參見(jiàn)J.Wang and F.Lochovsky.DataExtraction and Label Assignment for Web Databases.Proc.12th World Wide WebConf.,187-196,2003,這里引入作為參考)本領(lǐng)域普通技術(shù)人員可以理解,每一模式也可以手動(dòng)或結(jié)合手動(dòng)來(lái)識(shí)別,也可以用自動(dòng)化設(shè)備識(shí)別。
圖4表示一個(gè)實(shí)施例中模式匹配系統(tǒng)的部件的方框圖。模式匹配系統(tǒng)410通過(guò)通信鏈路402連接到多個(gè)web數(shù)據(jù)庫(kù)站點(diǎn)401。該模式匹配系統(tǒng)包括一個(gè)內(nèi)部站(intra-site)部件411,一個(gè)相互站(inter-site)匹配部件412,一個(gè)交叉確認(rèn)(cross-validate)部件413,一個(gè)立方體生成部件414,一個(gè)立方體投影部件415,一個(gè)EMI計(jì)算部件416,和一個(gè)匹配矩陣生成部件417。該模式匹配系統(tǒng)還包括一個(gè)立方體存儲(chǔ)器421,一個(gè)投影存儲(chǔ)器422,一個(gè)EMI存儲(chǔ)器423,和一個(gè)匹配存儲(chǔ)器424。intra-site匹配部件調(diào)用立方體生成部件來(lái)生成一個(gè)事件立方體,并調(diào)用立方體投影部件來(lái)生成全局-界面、全局-結(jié)果和界面-結(jié)果事件矩陣。intra-site匹配部件也調(diào)用EMI計(jì)算部件基于事件矩陣計(jì)算估計(jì)交互信息,并調(diào)用匹配矩陣生成部件來(lái)識(shí)別哪個(gè)屬性對(duì)是匹配的。cross-validate部件改變沒(méi)有正確匹配的屬性間的匹配。立方體存儲(chǔ)器包含事件立方體,投影存儲(chǔ)器包含事件矩陣,EMI存儲(chǔ)器包含EMI矩陣,匹配存儲(chǔ)器包含匹配矩陣。
模式匹配系統(tǒng)上的計(jì)算裝置包括一個(gè)中央處理單元、內(nèi)存、輸入裝置(例如,鍵盤(pán)和點(diǎn)擊設(shè)備)、輸出設(shè)備(例如,顯示設(shè)備)和存儲(chǔ)設(shè)備(例如磁盤(pán)驅(qū)動(dòng)器)。所述內(nèi)存和存儲(chǔ)設(shè)備是計(jì)算機(jī)可讀介質(zhì),可以包含實(shí)現(xiàn)所述模式匹配系統(tǒng)的指令。另外,數(shù)據(jù)結(jié)構(gòu)和消息結(jié)構(gòu)可被存儲(chǔ)或通過(guò)數(shù)據(jù)傳輸媒體被發(fā)送,例如作為通信鏈路上的信號(hào)??梢圆捎酶鞣N通信鏈路,如因特網(wǎng)、局域網(wǎng)、廣域網(wǎng)或點(diǎn)對(duì)點(diǎn)的撥號(hào)連接。
該模式匹配系統(tǒng)可以在各種操作環(huán)境下實(shí)現(xiàn),包括個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手提或膝上計(jì)算機(jī)、多處理器系統(tǒng)、微處理器系統(tǒng)、可編程電子消費(fèi)裝置、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括任何上述系統(tǒng)或設(shè)備分布式計(jì)算環(huán)境,等等。
該模式匹配系統(tǒng)在上下文中可以概括地描述為計(jì)算機(jī)可執(zhí)行指令,例如由一個(gè)或更多計(jì)算機(jī)或其它裝置執(zhí)行程序模塊。通常,程序模塊包括例程、程序、對(duì)象、分量、數(shù)據(jù)結(jié)構(gòu)等等,可執(zhí)行特定的任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類(lèi)型。典型地,在各種實(shí)施例中程序模塊的功能可以按期望的進(jìn)行結(jié)合或分配。
圖5表示一個(gè)實(shí)施例中intra-site匹配部件處理過(guò)程的流程圖。該部件識(shí)別web數(shù)據(jù)庫(kù)的全局-界面、全局-結(jié)果和界面-結(jié)果的對(duì)應(yīng)關(guān)系。在方框501中,該部件調(diào)用立方體生成部件來(lái)生成事件立方體。在方框502-506中,該部件循環(huán)選擇成對(duì)的模式(即全局和界面,全局和結(jié)果,界面和結(jié)果),并生成表示每對(duì)對(duì)應(yīng)關(guān)系的匹配矩陣。在方框502中,該部件選擇下一對(duì)模式。在判別方框503中,如果所有的成對(duì)模式都已經(jīng)選定,那么該部件工作完成,否則該部件繼續(xù)到方框504。在方框504中,該部件調(diào)用立方體投影部件來(lái)生成選定成對(duì)模式的事件矩陣。在方框505中,該部件調(diào)用EMI計(jì)算部件,來(lái)估計(jì)選定成對(duì)模式的成對(duì)屬性之間的交互信息。在方框506中,該部件調(diào)用匹配矩陣生成部件,來(lái)生成指示選定成對(duì)模式的屬性對(duì)應(yīng)關(guān)系的匹配矩陣。然后該部件循環(huán)至方框502,選擇下一對(duì)模式。
圖6表示一個(gè)實(shí)施例中立方體生成部件處理過(guò)程的流程圖。該部件基于全局模式、界面模式和結(jié)果模式,生成一個(gè)web數(shù)據(jù)庫(kù)的事件立方體。一個(gè)事件立方體是一個(gè)三維矩陣,它把每一全局屬性、界面屬性和結(jié)果屬性的組合映射為計(jì)數(shù)。該計(jì)數(shù)是查詢(xún)的結(jié)果條目在該結(jié)果屬性中具有該全局屬性值的次數(shù),其中查詢(xún)具有被設(shè)置為該全局屬性的全局屬性值的該結(jié)果屬性。在方框601中,該部件選擇下一全局屬性。在判定方框602中,如果所有的全局屬性都已經(jīng)選定,該部件返回,否則該部件繼續(xù)到方框603。在方框603中,該部件選擇已選定全局屬性的下一全局屬性值。在判定方框604中,如果所有的已選定全局屬性的全局屬性值都已經(jīng)選定,該部件循環(huán)至方框601來(lái)選擇下一全局屬性。否則該部件繼續(xù)到方框605。在方框605-609中,該部件循環(huán)選擇每一界面屬性并提交一個(gè)帶有設(shè)為選定全局屬性值的那個(gè)界面屬性的查詢(xún)。本領(lǐng)域普通技術(shù)人員可以理解,一些界面屬性的值域是可以有限制的。例如,如果一個(gè)界面屬性是用HTML SELECT元素來(lái)表示的,那么它的值域可以限制為與OPTION元素相關(guān)的值。在這種情況下,該部件可以只提交用于與選擇(option)值“相似”的全局屬性值的查詢(xún)。如果一個(gè)全局屬性值包含一個(gè)option值,可以認(rèn)為它是相似的。本領(lǐng)域普通技術(shù)人員可以理解,也可以采用其它衡量相似性的方法。CHECKBOX和RADIOBOX元素的查詢(xún)可以按類(lèi)似的方式處理。因?yàn)門(mén)EXTBOX的值域可能未知,該部件可以完全提交所有使用TEXTBOX表示界面屬性的全局屬性值的查詢(xún)。在一個(gè)實(shí)施例中,該部件只為每一查詢(xún)的一個(gè)界面屬性設(shè)置數(shù)值。其它界面屬性的值可以具有一個(gè)網(wǎng)站定義的默認(rèn)值。在方框605中,該部件選擇下一界面屬性。在判定方框606中,如果所有界面屬性已經(jīng)選定,該部件循環(huán)至方框603來(lái)為選定的全局屬性選擇下一全局屬性值。在方框607中,該部件利用選定的界面屬性和選定的全局屬性值,來(lái)公式化查詢(xún)。在方框608中,該部件將公式化的查詢(xún)提交至網(wǎng)站。在方框609中,該部件基于查詢(xún)結(jié)果更新事件立方體,并循環(huán)至方框605來(lái)選擇下一界面屬性。
圖7表示一個(gè)實(shí)施例中立方體更新部件處理過(guò)程的流程圖。該部件傳送一個(gè)全局屬性、一個(gè)全局屬性值、一個(gè)界面屬性和一個(gè)查詢(xún)結(jié)果的指示。在方框701中,該部件選擇結(jié)果的下一條目或行。在判定方框702中,如果所有結(jié)果條目都已經(jīng)選定,該部件返回,否則該部件繼續(xù)到方框703。在方框703中,該部件選擇下一結(jié)果屬性或列。在判定方框704中,如果所有的結(jié)果屬性已經(jīng)選定,該部件循環(huán)至方框701來(lái)選擇下一結(jié)果條目,否則該部件繼續(xù)到方框705。在方框705中,如果全局屬性值等于選定條目的選定結(jié)果屬性值,那么該部件繼續(xù)到方框706,否則該部件循環(huán)至方框703來(lái)選擇下一選定條目的結(jié)果屬性。在方框706中,該部件在通過(guò)全局屬性、通過(guò)界面屬性和選定結(jié)果屬性的事件立方體內(nèi)增加計(jì)數(shù)。然后該部件循環(huán)至方框703來(lái)選擇下一選定條目的結(jié)果屬性。
圖8表示一個(gè)實(shí)施例中立方體投影部件處理過(guò)程的流程圖。在該實(shí)施例中,該部件生成全局-界面對(duì)應(yīng)的事件矩陣。所述模式匹配系統(tǒng)可以以相似的方式生成全局-結(jié)果對(duì)應(yīng)和界面-結(jié)構(gòu)對(duì)應(yīng)的事件矩陣。在該實(shí)施例中,該部件對(duì)全局屬性的結(jié)果屬性和界面屬性對(duì)的結(jié)果求和,來(lái)將事件立方體的三維投影為相應(yīng)矩陣的二維。本領(lǐng)域普通技術(shù)人員可以理解,除直接求和外還可以采用其它投影技術(shù)。例如,該部件可以采用加權(quán)求和,其中加權(quán)是基于在結(jié)果模式的自動(dòng)識(shí)別期間得到的可信度。在方框801中,該部件選擇下一全局屬性。在判定方框802中,如果所有的全局屬性都已經(jīng)選定,該部件返回,否則該部件繼續(xù)到方框803。在方框803中,該部件選擇下一界面屬性。在判定方框804中,如果所有的界面屬性已經(jīng)選定,該部件循環(huán)至方框801來(lái)選擇下一全局屬性,否則該部件繼續(xù)到方框805。在方框805中,該部件選擇下一結(jié)果屬性。在判定方框806中,如果所有的結(jié)果屬性已經(jīng)選定,該部件循環(huán)至方框803來(lái)選擇下一界面屬性,否則該部件繼續(xù)到方框807。在方框807中,該部件將選定界面屬性和結(jié)果屬性的事件立方體中的計(jì)數(shù)加上選定全局屬性,界面屬性和全局屬性的事件矩陣中的計(jì)數(shù)。然后該部件循環(huán)至方框805來(lái)選擇下一結(jié)果屬性。
圖9表示一個(gè)實(shí)施例中EMI計(jì)算部件處理過(guò)程的流程圖。該部件采用方程式1估計(jì)在一個(gè)事件矩陣中成對(duì)屬性的交互信息。本領(lǐng)域普通技術(shù)人員可以理解,可以采用各種技術(shù)來(lái)估計(jì)成對(duì)屬性匹配的似然性。該部件傳送一個(gè)事件矩陣并返回EMI矩陣。在方框901中,該部件計(jì)算事件矩陣內(nèi)所有計(jì)數(shù)的和。在方框902中,該部件計(jì)算事件矩陣的每一行內(nèi)計(jì)數(shù)的和。在方框903中,該部件計(jì)算事件矩陣的每一列內(nèi)計(jì)數(shù)的和。在方框904-908中,該部件循環(huán)選擇事件矩陣每一對(duì)事件矩陣屬性,并確定屬性匹配的似然性。在方框904中,該部件選擇事件矩陣的下一行。在判定模塊905中,如果事件矩陣的所有行都已經(jīng)選定,那么該部件返回,否則該部件繼續(xù)到方框906。在方框906中,該部件選擇事件矩陣的下一列。在判定方框907中,如果事件矩陣的所有列都已經(jīng)選定,那么該部件循環(huán)至方框904來(lái)選擇事件矩陣的下一行,否則該部件繼續(xù)到方框908。在方框908中,該部件計(jì)算由選定的行和列來(lái)表示的屬性的估計(jì)交互信息。然后該部件循環(huán)至方框906來(lái)選擇下一列。
圖10表示一個(gè)實(shí)施例中匹配矩陣生成部件處理過(guò)程的流程圖。該部件傳送一個(gè)矩陣,例如EMI矩陣,該矩陣指示成對(duì)屬性匹配的似然性。如果一對(duì)屬性的似然性是雙屬性中最高的(例如,在表示一個(gè)屬性的行中最高的和表示其它屬性的列中最高的),該部件找出所述的屬性匹配。在方框1001中,該部件選擇傳送矩陣(passed matrix)的下一行。在判定方框1002中,如果傳送矩陣(passedmatrix)的所有行都已經(jīng)選定,那么該部件返回,否則該部件繼續(xù)到方框1003。在方框1003,該部件選擇傳送矩陣(passed matrix)的下一列。在判定方框1004中,如果傳送矩陣(passed matrix)的所有列都已經(jīng)選定,那么該部件循環(huán)至方框1101來(lái)選擇傳送矩陣(passed matrix)的下一行,否則該部件繼續(xù)到方框1005。在判定方框1005中,如果選定行和列的值是該行內(nèi)最高的,那么該部件繼續(xù)到方框1006,否則該部件循環(huán)至方框1003來(lái)選擇下一列。在判定方框1006中,如果選定行和列的值是該列內(nèi)最高的,那么該部件繼續(xù)到方框1007,否則該部件循環(huán)至方框1003來(lái)選擇下一列。在方框1007中,該部件設(shè)定選定行和列的匹配矩陣的值,來(lái)指示匹配關(guān)系,然后循環(huán)至方框1003來(lái)選擇選定行的下一列。
圖11表示一個(gè)實(shí)施例中inter-site匹配部件處理過(guò)程的流程圖。該部件識(shí)別一個(gè)網(wǎng)站的哪一屬性(界面和結(jié)果)與另一網(wǎng)站的哪一屬性相匹配。該部件使用網(wǎng)站的全局-界面對(duì)應(yīng)的事件矩陣,來(lái)識(shí)別界面模式的匹配,使用網(wǎng)站的全局-結(jié)果對(duì)應(yīng)的事件矩陣,來(lái)識(shí)別結(jié)果模式的匹配。在方框1101中,該部件調(diào)用立方體生成部件來(lái)生成站點(diǎn)A的事件立方體。在方框1102中,該部件調(diào)用立方體投影部件來(lái)生成站點(diǎn)A的事件矩陣。在方框1103中,該部件調(diào)用立方體生產(chǎn)部件來(lái)生成站點(diǎn)B的事件立方體。在方框1104中,該部件調(diào)用立方體投影部件來(lái)生成站點(diǎn)B的事件矩陣。在方框1105中,該部件調(diào)用一個(gè)計(jì)算界面屬性的估計(jì)向量相似性的部件,來(lái)生成來(lái)自站點(diǎn)A和站點(diǎn)B的界面屬性的匹配似然性。本領(lǐng)域普通技術(shù)人員可以理解,可以采用許多不同技術(shù)來(lái)估計(jì)這個(gè)似然性,向量相似性只是一個(gè)例子。在方框1106中,該部件調(diào)用匹配矩陣生成部件,來(lái)生成一個(gè)指示哪些成對(duì)界面屬性是相匹配的矩陣,該匹配矩陣生成部件傳送估計(jì)界面屬性的矢量相似性矩陣。在方框1107中,該部件調(diào)用一個(gè)計(jì)算估計(jì)向量相似性的部件,來(lái)生成結(jié)果屬性的估計(jì)向量相似性矩陣。在方框1108中,該部件調(diào)用一個(gè)匹配矩陣生成部件,來(lái)生成一個(gè)指示哪些成對(duì)結(jié)果屬性相匹配的矩陣。然后該部件完成處理。
圖12表示一個(gè)實(shí)施例中計(jì)算估計(jì)向量相似性的部件處理過(guò)程的流程圖。該部件傳送一個(gè)界面-界面對(duì)應(yīng)的或一個(gè)結(jié)果-結(jié)果對(duì)應(yīng)的事件矩陣,并確定每一對(duì)屬性匹配的似然性。在方框1201中,該部件選擇站點(diǎn)A的下一屬性。在判定方框1202中,如果站點(diǎn)A的所有屬性已經(jīng)選定,那么該部件返回,否則該部件繼續(xù)到方框1203。在方框1203中,該部件選擇站點(diǎn)B的下一屬性。在判定方框1204中。如果站點(diǎn)B的所有屬性已經(jīng)選定,那么該部件循環(huán)至方框1201來(lái)選擇站點(diǎn)A的下一屬性,否則繼續(xù)到方框1205。在方框1205中,該部件按照方程式3計(jì)算選定屬性的估計(jì)向量的相似性,然后循環(huán)至方框1203來(lái)選擇站點(diǎn)B的下一屬性。
圖13表示一個(gè)實(shí)施例中cross-validate部件處理過(guò)程的流程圖。當(dāng)inter-site匹配指示一個(gè)intra-site匹配不正確時(shí),該部件改變屬性的匹配。在方框1301中,該部件選擇下一全局屬性。在判定方框1302中,如果所有的全局屬性已經(jīng)選定,那么該部件完成處理,否則該部件繼續(xù)到方框1303。在方框1303中,該部件選擇下一網(wǎng)站。在判定方框1304中,如果所有網(wǎng)站已經(jīng)選定,那么該部件循環(huán)至方框1301中來(lái)選擇下一全局屬性,否則該部件繼續(xù)到方框1305。在方框1305中,如果選定網(wǎng)站具有一個(gè)屬性與選定的全局屬性相匹配,那么該部件繼續(xù)到方框1306,否則該部件循環(huán)至方框1303來(lái)選擇下一網(wǎng)站。在判定方框1306中,如果該選定屬性移動(dòng)至另一全局屬性,那么該部件繼續(xù)到方框1307,否則該部件循環(huán)至方框1303來(lái)選擇下一網(wǎng)站。在方框1307中,該部件改變選定屬性來(lái)匹配不同的全局屬性。在方框1308中,該部件改變選定屬性的intra-site匹配。然后該部件循環(huán)至方框1303來(lái)選擇下一網(wǎng)站。
本領(lǐng)域普通技術(shù)人員可以理解,雖然在這里結(jié)合附圖描述了模式匹配系統(tǒng)的特定實(shí)施例,但是可以在不背離本發(fā)明精神和范圍的情況下做出各種改變。因此,本發(fā)明不僅限于所附的權(quán)利要求。
權(quán)利要求
1.一種在計(jì)算機(jī)系統(tǒng)中生成事件立方體的方法,該方法包括向數(shù)據(jù)庫(kù)提交查詢(xún),每一查詢(xún)具有數(shù)據(jù)庫(kù)的界面屬性值,該值被設(shè)置為數(shù)據(jù)庫(kù)的域內(nèi)的全局屬性的全局屬性值;和對(duì)應(yīng)每一個(gè)提交查詢(xún)的結(jié)果,對(duì)界面屬性值在結(jié)果的每一結(jié)果屬性中出現(xiàn)的次數(shù)進(jìn)行計(jì)數(shù)。
2.如權(quán)利要求1所述的方法,其特征在于,包括從事件立方體生成與全局屬性和界面屬性相關(guān)的事件矩陣。
3.如權(quán)利要求1所述的方法,其特征在于,包括從事件立方體生成與全局屬性和結(jié)果屬性相關(guān)的事件矩陣。
4.如權(quán)利要求1所述的方法,其特征在于,包括從事件立方體生成與界面屬性和結(jié)果屬性相關(guān)的事件矩陣。
5.如權(quán)利要求1所述的方法,其特征在于,為全局屬性值和界面屬性的每一組合提交查詢(xún)。
6.如權(quán)利要求1所述的方法,其特征在于,所述事件立方體包括對(duì)每一全局屬性、界面屬性和結(jié)果屬性組合的計(jì)數(shù)。
7.一種在計(jì)算機(jī)系統(tǒng)中識(shí)別域內(nèi)數(shù)據(jù)庫(kù)屬性的方法,該方法包括提供與域內(nèi)的全局模式的全局屬性以及數(shù)據(jù)庫(kù)的界面模式的界面屬性和結(jié)果模式的結(jié)果屬性相關(guān)的出現(xiàn)次數(shù)的計(jì)數(shù);基于提供的計(jì)數(shù)來(lái)估計(jì)成對(duì)模式間的交互信息;和從估計(jì)的交互信息中識(shí)別哪些屬性相匹配。
8.如權(quán)利要求7所述的方法,其特征在于,提供計(jì)數(shù)包括投影提供對(duì)應(yīng)全局屬性、界面屬性和結(jié)果屬性出現(xiàn)次數(shù)的計(jì)數(shù)的事件立方體而得到與成對(duì)模式相關(guān)的矩陣。
9.如權(quán)利要求8所述的方法,其特征在于,包括通過(guò)提交查詢(xún)至數(shù)據(jù)庫(kù)來(lái)生成事件立方體,所述查詢(xún)具有被設(shè)置為全局屬性的全局屬性值的界面屬性值。
10.如權(quán)利要求9所述的方法,其特征在于,事件立方體內(nèi)的出現(xiàn)次數(shù)計(jì)數(shù)表示,用作查詢(xún)中的界面屬性值的全局屬性的全局屬性值在查詢(xún)結(jié)果的結(jié)果屬性中出現(xiàn)的次數(shù)。
11.如權(quán)利要求7所述的方法,其特征在于,基于HTML輸入關(guān)聯(lián)的單元識(shí)別界面屬性。
12.如權(quán)利要求7所述的方法,其特征在于,利用規(guī)則表達(dá)式包裝來(lái)識(shí)別結(jié)果屬性。
13.如權(quán)利要求7所述的方法,其特征在于,通過(guò)提交查詢(xún)至數(shù)據(jù)庫(kù)來(lái)提供出現(xiàn)次數(shù)的計(jì)數(shù),所述查詢(xún)具有設(shè)置為全局屬性的全局屬性值的界面屬性值。
14.如權(quán)利要求7所述的方法,其特征在于,交互信息用下面的方程式估EMI(S1i,S2j)=mijMlogmijMmi+M*m+jM]]>算
15.如權(quán)利要求7所述的方法,其特征在于,當(dāng)一個(gè)模式的屬性對(duì)于另一個(gè)模式的屬性具有最高估算交互信息而對(duì)于另一個(gè)模式的另一屬性沒(méi)有較高估算交互信息時(shí),識(shí)別一對(duì)模式中屬性間的匹配。
16.一種在計(jì)算機(jī)系統(tǒng)中對(duì)數(shù)據(jù)庫(kù)模式進(jìn)行模型化的方法,該方法包括識(shí)別用于向數(shù)據(jù)庫(kù)提交查詢(xún)的界面屬性;識(shí)別表示提交至數(shù)據(jù)庫(kù)的查詢(xún)的結(jié)果的結(jié)果屬性;確定哪些識(shí)別的界面屬性與哪些識(shí)別的結(jié)果屬性相映射。
17.如權(quán)利要求16所述的方法,其特征在于,界面屬性到結(jié)果屬性的映射表示數(shù)據(jù)庫(kù)的部分模式。
18.如權(quán)利要求16所述的方法,其特征在于,所述數(shù)據(jù)庫(kù)是web數(shù)據(jù)庫(kù)。
19.如權(quán)利要求16所述的方法,其特征在于,還包括提交具有設(shè)置為域中的全局屬性的全局屬性值的所識(shí)別的界面屬性的。
20.如權(quán)利要求19所述的方法,其特征在于,還包括基于提交的查詢(xún)的結(jié)果,對(duì)與全局屬性、界面屬性和結(jié)果屬性相關(guān)的出現(xiàn)進(jìn)行計(jì)數(shù)。
21.如權(quán)利要求20所述的方法,其特征在于,計(jì)數(shù)包括生成事件立方體。
22.如權(quán)利要求19所述的方法,其特征在于,確定包括基于提交的查詢(xún)的結(jié)果估計(jì)成對(duì)模式的屬性之間的交互信息。
23.如權(quán)利要求16所述的方法,其特征在于,還包括確定哪些識(shí)別的界面屬性與域的哪些全局屬性相映射,哪些識(shí)別的結(jié)果屬性與域的那些全局屬性相映射。
24.一種在計(jì)算機(jī)系統(tǒng)中確定第一數(shù)據(jù)庫(kù)的第一數(shù)據(jù)庫(kù)屬性和第二數(shù)據(jù)庫(kù)的第二數(shù)據(jù)庫(kù)屬性間映射的方法,所述第一數(shù)據(jù)庫(kù)和第二數(shù)據(jù)庫(kù)在一域中,該方法包括提供與第一數(shù)據(jù)庫(kù)屬性和域的全局屬性相關(guān)的出現(xiàn)次數(shù)的計(jì)數(shù);提供與第二數(shù)據(jù)庫(kù)屬性和域的全局屬性相關(guān)的出現(xiàn)次數(shù)的計(jì)數(shù);基于提供的出現(xiàn)計(jì)數(shù),估計(jì)成對(duì)的第一數(shù)據(jù)庫(kù)屬性和第二數(shù)據(jù)庫(kù)屬性之間的向量相似性;從估計(jì)的向量相似性中識(shí)別哪一第一數(shù)據(jù)庫(kù)屬性與哪一第二數(shù)據(jù)庫(kù)屬性相匹配。
25.如權(quán)利要求24所述的方法,其特征在于,提供計(jì)數(shù)包括投影提供全局屬性、界面屬性和結(jié)果屬性相關(guān)出現(xiàn)計(jì)數(shù)的所述事件立方體而得到事件矩陣。
26.如權(quán)利要求25所述的方法,其特征在于,還包括通過(guò)提交具有設(shè)置為全局屬性的全局值的界面屬性值的查詢(xún)至數(shù)據(jù)庫(kù),來(lái)生成事件立方體。
27.如權(quán)利要求26所述的方法,其特征在于,事件立方體中的出現(xiàn)計(jì)數(shù),表示查詢(xún)的全局值在查詢(xún)的結(jié)果的結(jié)果屬性中的出現(xiàn)次數(shù)。
28.如權(quán)利要求24所述的方法,其特征在于,數(shù)據(jù)庫(kù)屬性是界面屬性。
29.如權(quán)利要求24所述的方法,其特征在于,數(shù)據(jù)庫(kù)屬性是結(jié)果屬性。
30.如權(quán)利要求24所述的方法,其特征在于,通過(guò)提交具有設(shè)置為全局屬性的全局值的數(shù)據(jù)庫(kù)界面屬性值的查詢(xún)至數(shù)據(jù)庫(kù),來(lái)提供計(jì)數(shù)。
31.如權(quán)利要求24所述的方法,其特征在于,用下面的方程式來(lái)估算向量相似性EVS(S1i,S2j)=ΣkaikbjkΣkaik2*Σkbjk2]]>
32.如權(quán)利要求24所述的方法,其特征在于,當(dāng)?shù)谝粩?shù)據(jù)庫(kù)屬性對(duì)于第二數(shù)據(jù)庫(kù)屬性具有最高估算向量相似性而對(duì)于另一第二數(shù)據(jù)庫(kù)屬性沒(méi)有較高估算向量相似性時(shí),識(shí)別匹配。。
33.一種在計(jì)算機(jī)系統(tǒng)中修正數(shù)據(jù)庫(kù)模式的方法,該方法包括為每一數(shù)據(jù)庫(kù)模式,提供一數(shù)據(jù)庫(kù)模式到每一其它數(shù)據(jù)庫(kù)模式的映射;和提供一數(shù)據(jù)庫(kù)模式到全局?jǐn)?shù)據(jù)庫(kù)模式的映射;和當(dāng)數(shù)據(jù)庫(kù)模式的數(shù)據(jù)庫(kù)屬性映射到所述全局?jǐn)?shù)據(jù)庫(kù)模式的全局屬性,并映射到不與所述全局?jǐn)?shù)據(jù)庫(kù)模式相映射的其它數(shù)據(jù)庫(kù)模式的數(shù)據(jù)庫(kù)屬性時(shí),設(shè)置該數(shù)據(jù)庫(kù)模式的屬性以映射到所述全局?jǐn)?shù)據(jù)庫(kù)模式的另一屬性。
34.如權(quán)利要求33所述的方法,其特征在于,還包括應(yīng)用邊緣切割算法來(lái)確定何時(shí)設(shè)置數(shù)據(jù)庫(kù)模式的屬性以映射到全局?jǐn)?shù)據(jù)庫(kù)模式的另一屬性。
35.如權(quán)利要求34所述的方法,其特征在于,所述屬性表示為頂點(diǎn)表示,映射表示為一個(gè)頂點(diǎn)到另一頂點(diǎn)的邊。
36.如權(quán)利要求33所述的方法,其特征在于,數(shù)據(jù)庫(kù)屬性最初基于其匹配的全局屬性進(jìn)行群集。
37.如權(quán)利要求33所述的方法,其特征在于,為數(shù)據(jù)庫(kù)模式提供映射的步驟包括生成與所述數(shù)據(jù)庫(kù)模式的全局屬性和數(shù)據(jù)庫(kù)屬性相關(guān)的出現(xiàn)的計(jì)數(shù)。
38.如權(quán)利要求37所述的方法,其特征在于,生成出現(xiàn)計(jì)數(shù)的步驟包括基于所述全局屬性的全局屬性值為每一個(gè)數(shù)據(jù)庫(kù)提交查詢(xún)。
全文摘要
提供一種識(shí)別web數(shù)據(jù)庫(kù)模式的的方法和裝置。模式匹配系統(tǒng)生成一個(gè)web數(shù)據(jù)庫(kù)的界面模式和結(jié)果模式之間的映射,用于表示底層數(shù)據(jù)庫(kù)模式。該模式匹配系統(tǒng)也生成一個(gè)web數(shù)據(jù)庫(kù)的界面屬性和結(jié)果屬性到全局模式的全局屬性的映射,所述全局模式的語(yǔ)義是已知的。利用所述映射,搜索引擎服務(wù)可以用全局屬性把查詢(xún)公式化,映射那些查詢(xún)至對(duì)應(yīng)的界面屬性,提交所述查詢(xún),并從對(duì)應(yīng)期望的全局屬性的結(jié)果屬性中檢索數(shù)值。
文檔編號(hào)G06F13/00GK1716258SQ20051008373
公開(kāi)日2006年1月4日 申請(qǐng)日期2005年5月14日 優(yōu)先權(quán)日2004年5月14日
發(fā)明者J-R·文, 馬維英 申請(qǐng)人:微軟公司