專利名稱:只提供簡單查詢接口的深層網頁數據庫的分類方法
技術領域:
本發(fā)明涉及一種信息檢索的方法,尤其涉及一種關于只提供簡單查詢接口的深層 網頁數據庫的分類方法,用以實現關于只提供簡單查詢接口的深層網頁數據庫的自動分 類。
背景技術:
國際互聯網上存在著大量的信息頁面,通常,搜索引擎可以通過網絡爬蟲 (Crawler)搜索到這些頁面,從而使訪問者能夠根據關鍵詞獲取其所需要的信息頁面。然 而,隨著Web數據庫的廣泛應用,國際互聯網正在加速“深化”,其中的大量頁面是由后臺數 據庫動態(tài)產生的,這部分頁面信息不能直接通過靜態(tài)鏈接獲取,只能通過填寫表單提交查 詢來獲取。由于傳統(tǒng)的網絡爬蟲不能高效地搜索到這些頁面,因此,現有的搜索引擎無法有 效地提供這類數據庫生成頁面的信息,從而導致這部分信息對搜索引擎的使用者是隱藏、 不可見的,可以稱之為深層網頁(De印Web,又稱為Invisible Web, Hidden Web)。深層網 頁是一個與表層網頁(Surface Web)相對應的概念,最初由Dr. Jill Ellsworth于1994年 提出,指那些由普通搜索引擎難以發(fā)現其信息內容的網頁頁面。深層網頁信息一般存儲在 數據庫中,和靜態(tài)網頁相比通常信息量更大,主題更專一,信息質量更好,信息結構化更好, 增長速度更快。研究表明,深層網頁信息是表層網頁信息的500倍,有近450,000個深層網 頁站點。因而,實現大規(guī)模深層網頁數據集成是方便用戶使用深層網頁信息的一個有效途 徑。要有效地利用深層網頁數據庫中的信息,需要將網頁按領域進行分類,如果手工 地來完成對所有深層網頁數據庫分類是個龐大而費時的工程,因此需要以盡可能自動的方 式來完成對深層網頁數據庫的分類,如何實現深層網頁數據庫的分類是深層網頁數據集成 中最基礎也是最重要的一個問題,實現深層網頁數據庫的分類是實現大規(guī)模集成檢索的關 鍵問題(步驟)之一?,F有技術中,使用的分類方法大致分為兩類pre-query和post-query。 Pre-query基本依賴于深層網頁數據庫表單(forms)的可視特征和表單所在頁面的 信息,表單可視化特征主要包括數據庫表單中的屬性標簽和其他可利用信息。文獻 Peng Q, Meng WY, He H, Yu C. WISE-Cluster :Clusteringe-commerce search engines automaticalIy[C]. In :Proc. of the 6th ACMInt' 1 Workshop on Web Information and Data Management. Washington :ACM Press, 2004. 104-111.針對應用意義最廣泛的電子 商務的深層網頁數據庫提出了一種有效的分類方法,主要利用了電子商務的深層網頁數 據庫的查詢接口所在頁面上的可用特征信息。文獻He B, Tao T,Chang KCC. Clustering structured Web sources :A schema-based, model-differentiationapproach[C]. In :Proc. of the 9th Int ' 1 Conf. on Extending DatabaseTechnology. Heraklion Springer-Verlag, 2004. 536-546.根據統(tǒng)計特性認為查詢接口的模式信息可以作為對深層 網頁數據庫分類的依據,基于這樣的統(tǒng)計結論,提出了完全利用查詢接口的模式信息的一種更一般的深層網頁數據庫分類解決方案。通過建立概率模型來表示所有可能出現的屬性 在每個領域中出現的可能性,對于一個給定的查詢接口,考察其屬性集合,在這個模型上計 算出這個查詢接口與每個領域的相似性。但是當深層網頁數據庫只提供簡單查詢接口(只 包含一個文本輸入框)時,則這些分類方法不能對深層網頁數據庫進行有效分類。文 獻 Barbosa L, Freire J. Combining classifiers to identify onlinedatabases[C]. In :Proc. of the World Wide Web Conference. In :WilliamsonCL, Zurko ME, Patel-Schneider PF, Shenoy PJ, eds. ACM, 2007. 431-440.提出了一種僅使用包 含數據庫表單網頁的內容文本作為數據庫內容描述的上下文對深層網頁數據庫進行分類 的算法,這種方法取得了較好的效果,但是包含簡單查詢接口的網頁往往也只包含非常少 的領域信息,此外一個網頁可能同時包含多個不同領域的深層網頁數據庫,例如,飛機票預 訂網頁除了包含飛機票深層網頁數據庫的查詢接口外還常常同時包含酒店預訂和汽車租 賃的深層網頁數據庫查詢接口,該方法沒有討論如何對這些情況進行分類。Post-query是通過對深層網頁數據庫提交查詢,利用返回結果對數據庫進行分 類,即利用提交樣本查詢來實現分類的方法。但目前有關Post-query的工作都是針對文本 數據庫,而不是本發(fā)明討論的結構化數據庫。綜上所述,目前已有的工作仍未很好地解決深層網頁數據庫的分類問題,尤其是 針對只提供簡單查詢接口的結構化深層網頁數據庫的分類。為了方便用戶查詢,只提供簡 單查詢接口的網頁廣泛存在,如音樂和圖書等領域,因此高效地分類只提供簡單查詢接口 的深層網頁數據庫,對于拓展Web信息集成的深度和廣度非常重要。
發(fā)明內容
本發(fā)明目的是提供一種關于只提供簡單查詢接口的深層網頁數據庫的分類方法, 以應用于深層頁面搜索,實現只提供簡單查詢接口的深層頁面數據庫的自動準確分類。為達到上述目的,本發(fā)明采用的技術方案是一種只提供簡單查詢接口的深層網 頁數據庫的分類方法,基于深層網頁數據庫的結果模式和結果頁面數據區(qū)域內容特征的組 合實現,基本思想是利用深層網頁數據庫的兩種特征(結果模式和結果頁面數據區(qū)域內 容)組合分類深層網頁數據庫,包括下列步驟(1)設置深層網頁數據庫的結果模式和結果頁面數據區(qū)域內容作為兩種分類特 征,根據兩種分類特征分別建立基于結果模式的分類器和基于結果頁面數據區(qū)域內容的分 類器;(2)基于結果模式的分類基于樸素貝葉斯分類方法,利用從簡單查詢接口提交 查詢返回的結果頁面的結果模式對深層網頁數據庫分類,獲得該簡單查詢接口基于結果模 式屬于領域D的概率ω ;(3)基于結果頁面數據區(qū)域內容的分類基于傳統(tǒng)的特征提取方法提取結果頁面 數據區(qū)域的特征詞,再利用這些特征詞以及文本分類方法進行分類,獲得該簡單查詢接口 基于結果頁面數據區(qū)域內容屬于領域D的概率θ ;(4)集成兩種分類方法的結果,確定待分類深層網頁數據庫的類別,如果(Wlco+W2 θ )彡σ,則該深層網頁數據庫屬于領域D ;其中(Wl+W2) = Lw1, W2為兩種分類器的權重;ω和θ分別為結果模式與數據區(qū)域的屬于該領域D的概率;0為分類閾值。具體地,上述技術方案中,基于結果模式的分類,包括下列步驟(1)獲取領域查詢樣本;(2)基于領域高級查詢接口構建樸素貝葉斯分類器;2-1)輸入學習集(領域高級查詢接口);2-2)對學習集進行預處理;2-3)特征抽取得到原始高級查詢接口的特征標簽向量。某高級查詢接口 f的特 征標簽向量可表示為f = (I1, I2, .... , IJ其中n為原始高級查詢接口包括的標簽總數;Ii為第i個標簽的名稱。2-4)通過高級查詢接口的特征標簽向量,訓練得到樸素貝葉斯分類器;(3)向待分類深層網頁數據庫的查詢接口提交領域查詢樣本,獲取返回結果頁面 集ρ = {p1 p2,——,pm}其中m為返回結果頁面總數;Pi為第i個結果頁面。(4)從查詢結果頁面中抽取結果模式,從P中抽取的所有結果模式的集合為;RS= Krs^tf1), (rs2, tf2)(rst, tft)}其中t為獲得的不同結果模式總數;rSi為第i個結果模式,rSi表示為12,. . . .,IJ,Ii為結果模式rSi的第i個 屬性;tfi為第i個結果結果模式在P中出現的頻率。同一個簡單查詢接口提交不同的查詢返回的結果頁面可能存在多個結果模式,主 要是因為一個查詢接口可能集成了多個領域的數據源。(5)基于結果頁面的結果模式為特征分類只提供簡單查詢接口的深層網頁數據 庫;5-1)以結果頁面的結果模式為特征,利用樸素貝葉斯分類器對結果模式進行分由于一個簡單查詢接口接口可能集成多個領域的數據庫,因此我們在進行分類時 需要對獲得的所有模式進行考察,根據出現領域模式的比例來進行分類。5-2)根據對RS中所有結果模式的分類結果,確定該深層網頁數據庫的屬于該領 域的概率,概率ω為其中Κ為屬于該領域所有結果模式之和,尺= ^χΡ。
/=1當一個簡單查詢接口集成多個領域的數據庫時,只要它包含該領域的數據庫就可
類,得到該結果模式的分類結果P
該結果模式屬于該領域 否則以判別它屬于該領域,因此它可以屬于多個領域。通過大量實驗發(fā)現利用一個特定領域的 查詢樣本提交到集成多個領域的簡單查詢接口返回結果中大部分為該領域的數據,只包含 很少比例的其他領域的數據。因此該方法已能適用于分類集成多個領域的簡單查詢接口。上述技術方案中,基于結果模式分類的基礎是基于以下事實深層網頁數據庫高級查詢接口的接口模式能表示數據庫所屬領域的特征,已被廣 泛接受,并大量應用于提供高級查詢極口的深層網頁數據庫分類。如圖3所示,結果頁面的 結果模式和高級查詢接口的接口模式都是數據庫全局視圖的子視圖,結果模式和接口模式 之間存在著較大的相似性,甚至有些數據庫的接口模式和結果模式完全相同。因此深層網 頁數據庫的結果模式已能較好的表示數據庫所屬領域的特征。上述技術方案,根據結果模 式和接口模式之間的近似關系,使用容易獲取的領域高級查詢接口模式特征構建分類器, 使用結果模式表示深層頁面數據庫所述領域的特征,實現只提供簡單查詢接口的深層網頁 數據庫的類別預測。上述技術方案中,基于結果頁面數據區(qū)域內容的分類,包括以下步驟(1)獲取領域查詢樣本;(2)基于領域知識構建SVM文本分類器;(3)向待分類深層網頁數據庫的查詢接口提交領域查詢樣本,獲取返回結果頁面 集(參見2-(3))(4)使用基于視覺的頁面分割技術(VIPS)從查詢結果頁面中識別返回結果的數 據區(qū)域,從P中抽取的所有數據區(qū)域的集合為;D = Id1, d2,· · · .,dm}其中m為D中結果頁面數據區(qū)域的總數;Cli為第i個數據區(qū)域。(5)基于結果頁面的數據區(qū)域為特征分類只提供簡單查詢接口的深層網頁數據 庫;5-1)在分類時,把數據區(qū)域作為文本處理,以數據區(qū)域的頻率向量為特征, 利用基于領域知識構建的SVM文本分類器進行分類,得到該結果頁面的分類結果 p = Jl該結果頁面屬于該領域
=
①表單<F0RM>標記中的表單屬性標簽②表單<F0RM>標記中的表單名稱③INPUT、SELECT控件和TEXTAREA控件的名稱④INPUT、SELECT 控件和 TEXTAREA 控件的值2-2)標準化在訓練和分類前,對抽取出來的特征進行標準化以提高分類的準確 性①特征中出現的英文字母統(tǒng)一轉化為小寫;②去除所有括號中的內容,如注釋等;③如果特征中出現的內容由多個詞組成,則要進行分詞,去除停用詞;④用WordNet對英文單詞進行詞根還原,轉化成規(guī)整的形式。進過以上處理得到高級查詢接口的特征向量。某高級查詢接口 f的特征向量可表 示為f = (I1, I2, .... , IJ其中n為原始高級查詢接口包括的特征總數;Ii為第i個特征的名稱。(3)通過訓練和測試得到基于樸素貝葉斯的分類器。3.構建基于結果頁面數據區(qū)域內容的文本分類器;(1)訓練集選取了圖書領域文檔600篇作為領域訓練文本,選取了包括電影、汽 車、賓館等5個領域各60篇文檔作為非領域訓練文本。測試集采用了圖書領域的100篇作 為領域測試文本,采用其他5個領域各20篇作為非領域測試文本。(2)對訓練和測試集進行預處理,包括分詞、去除停用詞、詞頻統(tǒng)計等。(3)在文本預處理完成后,初步利用文檔頻率(DF)去掉低頻詞,選取1000個特征 詞,構成文類特征空間。特征詞的權重采用TF-IDF方法。(4)文本分類器的構建采用了支持向量機(SVM)算法進行領域文本分類,支持向 量機(SVM)是基于統(tǒng)計的機器學習模型,它在結構風險最小化原理德近似實現,因為它同 時是最小化經驗和VC的界,它在解決小樣本、非線性及高維模式識別問題中表現出許多特 有的優(yōu)勢。在文本分類任務中,這種分類方法得到了廣泛應用,相關的研究工作非常多。因 此本文選擇SVM這種成熟模式構建文本分類器。4.獲取只提供簡單查詢接口的待分類深層網頁數據庫的結果頁面;向待分類深層網頁數據庫的簡單查詢接口提交領域查詢樣本,獲取返回結果頁面 集
ρ = {p1 p2,——,pm}其中m為返回結果頁面總數;Pi為第i個結果頁面。5.結果模式抽取及分類結果模式;從查詢結果頁面中抽取結果模式,從P中抽取的所有結果模式的集合為;RS = {(rsi; tf\),(rs2, tf2),····,(rst, tft)}其中t為獲得的不同結果模式總數;rSi為第i個結果結果模式,rSi為η個模式屬性的集合12,. . . .,IJ ;tfi為第i個結果結果模式在P中出現的頻率。基于結果頁面的結果模式為特征分類只提供簡單查詢接口的深層網頁數據庫;5-1)以結果頁面的結果模式為特征,利用樸素貝葉斯分類器對結果模式進行分 5-2)根據對RS中所有結果模式的分類結果,確定該深層網頁數據庫的屬于該領 域的概率,概率ω為6.抽取結果頁面數據區(qū)域及分類數據區(qū)域;使用基于視覺的頁面分割技術(VIPS)從查詢結果頁面中識別返回結果的數據區(qū) 域,從P中抽取的所有數據區(qū)域的集合為; 其中m為P中結果頁面總數;Cli為第i個結果頁面的數據區(qū)域?;诮Y果頁面的數據區(qū)域為特征分類只提供簡單查詢接口的深層網頁數據庫;6-1)在分類時,把數據區(qū)域作為文本處理,以數據區(qū)域的頻率向量為特 征,利用基于領域知識構建的文本分類器進行分類,得到該結果頁面的分類結果 ρ = Jl該結果頁面屬于該領域
=Io否則;6-2)根據D中所有數據區(qū)域的分類結果,確定該深層網頁數據庫的屬于該領域的 概率,概率θ為θ =——,其中L為屬于該領域的所有數據區(qū)域之和J = ΣΡ;
./=1m為從該深層網頁數據庫抽取的數據區(qū)域總數。7.結合前面的分類結果分類深層網頁數據庫。關于只提供簡單查詢接口的深層網頁數據庫的分類方法,其特征在于,所述結合
類,得到該結果模式的分類結果P =
ι該結果模式屬于該領域 0否則 其中K為屬于該領域所有結果模式之和,火二 Σ甙*P。基于結果模式和領域內容的分類結果分類深層網頁數據庫如果(W1 ω+W2 θ )彡σ,則Web數據庫屬于領域D。其中(Wl+W2) = Lw1, W2由兩種分類器的相對重要性決定;ω和θ分別為結果模 式與數據區(qū)域的屬于該領域的概論;σ為給定的分類閾值。實驗結果分析針對Book、Job、Movie、Music等四個領域,利用上述分類方法進行實驗;以Book領域為例,首先,經過訓練和測試得到基于結果模式的分類器和基于結果頁面數據區(qū)域內容 的分類器。然后結合兩種分類器的分類結果分類只提供簡單查詢接口的Deep Web數據庫。在實驗中設一個閾值為π。當θ > π,基于結果模式的分類器預測該Web數據 庫為屬于Book領域;否則,不屬于Book領域。同理,當ω彡π,基于結果頁面數據區(qū)域內 容的分類器預測該Web數據庫屬于Book領域;否則,不屬于Book領域。結合兩種分類特征分類的結果為當(Wlco+W2 θ) ^ σ,結合兩種分類特征的分類 方法預測該Web數據庫為屬于Book領域;否則,不屬于Book領域。其中權重W1, W2由基于 結果模式分類器和基于結果頁面數據區(qū)域內容分類器的相對重要性決定。Web數據庫分類通常可采用信息檢索中的召回率(Recall)、準確率(Precision) 和F-measure值來評價系統(tǒng)的性能。召回率等于系統(tǒng)正確判定Web數據庫的結果占所有可 能正確結果的比例,準確率等于系統(tǒng)正確判定Web數據庫的結果占所有查詢表單的比例。 召回率考察找全分類結果的能力,而準確率考察找準分類結果的能力,兩者相輔相成,從兩 個不同側面較為全面地反映了系統(tǒng)性能。F值是一個把準確率和召回率結合起來的指標。 F-measure可以表不為 本實驗中使用測試得到的這兩種分類器分類的F-measure的比例決定權重,哪種 分類特征分類的性能越好,那種分類特征的權重就越大。權重計算方法如下W1 = (F-Ineasure1)/ (F-measure^F-measures)w2 = I-W1其中,F-meaSUrei,F-meaSUre2*別為基于結果模式和基于結果頁面數據區(qū)域內容 分類的F-measure值。當設置π = 0. 65,ο = 0. 65時,基于結果模式的分類方法、基于結果頁面數據區(qū) 域內容分類方法和結合兩種分類特征的分類方法的實驗結果如下表4De印Web分類的實驗結果 以上數據可以看出,以Book領域為例結合兩種分類特征的分類方法的分類結果 比單獨使用任意一種的分類方法的分類的Percision,Recall, F-measure都要好。其他幾 個領域,結合兩種分類特征的分類方法都取得了與Book相似的效果。以上實驗數據說明結 合結果模式和結果頁面數據區(qū)域內容兩種分類特征的分類方法能較好的分類只提供簡單 查詢接口的web數據庫,并且性能優(yōu)于采用其中任意一種特征的分類方法。通過以上實驗和實例數據分析,基于結果模式的分類方法的性能優(yōu)于基于結果頁 面數據區(qū)域內容分類方法?;诮Y果頁面數據區(qū)域內容的分類方法分類結果不太理想。主 要原因是一般結果頁面包含的數據庫記錄有限(一個結果頁面一般包含10條數據庫記 錄),特征詞的頻率都比較低,一些低頻領域特征詞被忽略。尤其是,當返回的結果頁面包含 的數據庫記錄較少時(一個結果頁面包含2-3條數據庫記錄),基于結果頁面數據區(qū)域內容 的分類器很難準確分類。相反,由于結果模式具有較強的領域區(qū)分性,基于結果模式的分類 方法有不錯的效果。π,σ的值由用戶根據分類實際應用對精確度和覆蓋率的要求來進行確定。對于Wl,W2的選取,如果用戶對分類的精確度和覆蓋率要求不高可以選擇基于結 果模式的分類方法和基于結果頁面數據區(qū)域內容的分類方法的任意一種方法進行分類。即=W1 = l,w2 = 0 或者 W1 = 0,w2 = 1。如果單獨使用一種分類方法的分類效果不能滿足應用需要,可以集成使用兩種分 類特征分類。精確的Wl,W2取值前面所述權重求值方法決定。如果不需要精確的確定Wl,W2 值,可以根據如下方法選取W1, W2的值。根據實驗分析,基于結果模式的分類性能通常優(yōu)于 基于結果頁面數據區(qū)域內容的分類性能,因此,可依據如下規(guī)則選取權重^ W2, Wl+W2 =
權利要求
一種只提供簡單查詢接口的深層網頁數據庫的分類方法,其特征在于,所述方法包括(1)設置深層網頁數據庫的結果模式和結果頁面數據區(qū)域內容作為兩種分類特征,根據兩種分類特征分別建立基于結果模式的分類器和基于結果頁面數據區(qū)域內容的分類器;(2)基于結果模式的分類基于樸素貝葉斯分類方法,利用從簡單查詢接口提交查詢返回的結果頁面的結果模式對深層網頁數據庫分類,獲得該簡單查詢接口基于結果模式屬于領域D的概率ω;(3)基于結果頁面數據區(qū)域內容的分類基于傳統(tǒng)的特征提取方法提取結果頁面數據區(qū)域的特征詞,再利用這些特征詞以及文本分類方法進行分類,獲得該簡單查詢接口基于結果頁面數據區(qū)域內容屬于領域D的概率θ;(4)集成兩種分類方法的結果,確定待分類深層網頁數據庫的類別,如果(w1ω+w2θ)≥σ,則該深層網頁數據庫屬于領域D;其中(w1+w2)=1,w1,w2為兩種分類器的權重;ω和θ分別為結果模式與數據區(qū)域的屬于該領域D的概率;σ為分類閾值。
2.根據權利要求1所述的只提供簡單查詢接口的深層網頁數據庫的分類方法,其特征 在于所述基于結果模式的分類步驟包括(1)獲取領域查詢樣本;(2)基于領域高級查詢接口構建樸素貝葉斯分類器; 2-1)輸入學習集;2-2)對學習集進行預處理;2-3)特征抽取得到原始高級查詢接口的特征標簽向量,某高級查詢接口 f的特征標 簽向量可表示為f {11 ?工2,· · · ·,InI其中m為原始高級查詢接口包括的標簽總數; Ii為第i個標簽的名稱;2-4)通過高級查詢接口的特征標簽向量,訓練和測試得到樸素貝葉斯分類器;(3)向待分類深層網頁數據庫的查詢接口提交領域查詢樣本,獲取返回結果頁面集 P = {Pi,P2'——,Pml其中m為返回結果頁面總數; Pi為第i個結果頁面;(4)從查詢結果頁面中抽取結果模式,從P中抽取的所有結果模式的集合為; RS = { Crs1, tf\), (rs2, tf2),...., (rst, tft)}其中t為獲得的不同結果模式總數;rs,為第i個結果模式,rSi表示為12,. . . .,IJ,Ii為結果模式rSi的第i個屬性; tfi為第i個結果模式在P中出現的頻率;(5)基于結果頁面的結果模式為特征分類深層網頁數據庫;5-1)以結果頁面的結果模式為特征,利用建立的樸素貝葉斯分類器對結果模式進行分類,翻該結果模式的分類結果P = β _麗;5-2)根據對RS中所有結果模式的分類結果,確定該深層網頁數據庫的屬于該領域的 概率,概率ω為^ = KlYjflI /=1其中κ為屬于該領域所有結果模式之和,火=1>/,χρ。
3.根據權利要求1所述的只提供簡單查詢接口的深層網頁數據庫的分類方法,其特征 在于,所述基于結果頁面數據區(qū)域內容的分類步驟包括(1)獲取領域查詢樣本;(2)基于領域知識構建SVM文本分類器;(3)向待分類深層網頁數據庫的查詢接口提交領域查詢樣本,獲取返回結果頁面集;(4)使用基于視覺的頁面分割技術從查詢結果頁面中識別返回結果的數據區(qū)域,從P 中抽取的所有數據區(qū)域的集合為;D= ((I1, d2, . . . . , dm}其中m為抽取的數據區(qū)域總數;Cli為第i個數據區(qū)域;(5)基于結果頁面的數據區(qū)域為特征分類深層網頁數據庫;5-1)在分類時,把數據區(qū)域作為文本處理,以數據區(qū)域的頻率向量為特征, 利用基于領域知識構建的文本分類器進行分類,得到該結果頁面的分類結果 p = Jl該結果頁面屬于該領域· _ |θ否則;5-2)根據D中所有數據區(qū)域的分類結果,確定該深層網頁數據庫的屬于該領域的概 率,概率θ為mm其中L為屬于該領域的所有數據區(qū)域之和J = Σρ;J=Im為從該深層網頁數據庫抽取的數據區(qū)域總數。
4.根據權利要求1所述的只提供簡單查詢接口的深層網頁數據庫的分類方法,其特征 在于步驟(4)中,W1彡w2。
5.根據權利要求1所述的只提供簡單查詢接口的深層網頁數據庫的分類方法,其特征 在于步驟(4)中,0.5彡σ < 1。
6.根據權利要求5所述的只提供簡單查詢接口的深層網頁數據庫的分類方法,其特征 在于0. 6 彡 σ <0. 8。
7.根據權利要求1所述的只提供簡單查詢接口的深層網頁數據庫的分類方法,其特征 在于步驟⑷中,W2 = I-W1其中,F-Hieasurei,F-measure2分別為基于結果模式和基于結果頁面數據區(qū)域內容分類 的 F-measure 值, Recall為召回率,即系統(tǒng)正確判定Web數據庫的結果占所有可能正確結果的比例; Precision為準確率,即系統(tǒng)正確判定Web數據庫的結果占所有查詢表單的比例。
全文摘要
本發(fā)明公開了一種只提供簡單查詢接口的深層網頁數據庫的分類方法,設置深層網頁數據庫的結果模式和結果頁面數據區(qū)域內容作為兩種分類特征,根據兩種分類特征分別建立基于結果模式的分類器和基于結果頁面數據區(qū)域內容的分類器;進行基于結果模式的分類獲得簡單查詢接口基于結果模式屬于領域D的概率ω;進行基于結果頁面數據區(qū)域內容的分類獲得該簡單查詢接口基于結果頁面數據區(qū)域內容屬于領域D的概率θ;集成兩種分類方法的結果,根據權重和分類閾值確定待分類深層網頁數據庫的類別。本發(fā)明可以實現只提供簡單查詢接口的深層網頁數據庫的自動分類。實驗證明,本發(fā)明的方法具有較高的準確度。
文檔編號G06F17/30GK101923560SQ201010147339
公開日2010年12月22日 申請日期2010年4月3日 優(yōu)先權日2010年4月3日
發(fā)明者崔志明, 趙朋朋, 鮮學豐 申請人:崔志明;鮮學豐;趙朋朋