基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘方法及裝置。
【背景技術(shù)】
[0002]數(shù)據(jù)挖掘領(lǐng)域里,文本分類是常用的技術(shù)手段,廣泛應(yīng)用于用戶興趣分類、人口統(tǒng)計(jì)屬性建模、垃圾郵件識別等場景。作為典型的有監(jiān)督學(xué)習(xí)方法,文本分類的質(zhì)量高度依賴于標(biāo)注樣本的質(zhì)量。而傳統(tǒng)的樣本標(biāo)注通過人工方式來完成,成本高,主觀性強(qiáng),不利于標(biāo)注樣本的收集,從而影響到文本分類的質(zhì)量和效率。
[0003]現(xiàn)有技術(shù)提供了一種基于點(diǎn)擊協(xié)同的方式,用以完成樣本的自動挖掘。其原理是人工標(biāo)注點(diǎn)擊域名(host)的分類,然后在點(diǎn)擊host與文本之間建立起對應(yīng)關(guān)系,通過待標(biāo)注文本與標(biāo)注host之間的協(xié)同關(guān)系,完成文本的自動標(biāo)注過程。由于待標(biāo)注的host通常較少,而文本則較多,所以通過這種方案能夠在一定程度上緩解標(biāo)注樣本的工作量。但是,host本身仍然需要人工標(biāo)注,所以本方案的可擴(kuò)展性不高。
[0004]現(xiàn)有技術(shù)還提供了一種基于偽相關(guān)反饋的樣本挖掘策略。該方案中,首先為每個類目人工選取一定數(shù)量的種子詞,然后將這些種子詞送入搜索引擎,從搜索引擎的返回結(jié)果中提取排名靠前的部分中提取出高權(quán)重詞語,作為種子詞的擴(kuò)充,再送入搜索引擎,這些擴(kuò)充后的種子詞以及搜索結(jié)果中排名靠前的文本即作為標(biāo)注樣本。在該方案中,種子詞的擴(kuò)充容易往往在擴(kuò)充過程中會引入概念飄移,最終會影響到自動挖掘出的標(biāo)注樣本的質(zhì)量。
【發(fā)明內(nèi)容】
[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘方法及裝置。
[0006]根據(jù)本發(fā)明的一個方面,提供了一種基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘方法,所述搜索引擎數(shù)據(jù)庫中存儲有搜索詞與域名之間的多對多的對應(yīng)關(guān)系,所述搜索詞對應(yīng)的域名是指該搜索詞的搜索結(jié)果中所有被用戶點(diǎn)擊的網(wǎng)頁的域名;
[0007]所述方法包括:
[0008]獲取已標(biāo)注域名集合,所述已標(biāo)注域名集合中包含多個已標(biāo)注類目的第一域名;
[0009]在所述搜索弓|擎數(shù)據(jù)庫中查詢每個第一域名對應(yīng)的搜索詞,對搜索詞的類目進(jìn)行標(biāo)注,得到已標(biāo)注搜索詞集合;
[0010]在搜索引擎數(shù)據(jù)庫中查找每個已標(biāo)注類目的搜索詞對應(yīng)的未標(biāo)注類目的第二域名,對第二域名的類目進(jìn)行標(biāo)注,并將標(biāo)注完成的第二域名添加到所述已標(biāo)注域名集合中。
[0011]根據(jù)本發(fā)明的另一方面,提供了一種基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘裝置,包括:
[0012]搜索引擎數(shù)據(jù)庫,適于存儲有搜索詞與域名之間的多對多的對應(yīng)關(guān)系,所述搜索詞對應(yīng)的域名是指該搜索詞的搜索結(jié)果中所有被用戶點(diǎn)擊的網(wǎng)頁的域名;
[0013]第一域名標(biāo)注模塊,適于獲取已標(biāo)注域名集合,所述已標(biāo)注域名集合中包含多個已標(biāo)注類目的第一域名;
[0014]搜索詞標(biāo)注模塊,適于在所述搜索引擎數(shù)據(jù)庫中查詢每個第一域名對應(yīng)的搜索詞,對搜索詞的類目進(jìn)行標(biāo)注,得到已標(biāo)注搜索詞集合;
[0015]第二域名標(biāo)注模塊,適于在搜索引擎數(shù)據(jù)庫中查找每個已標(biāo)注類目的搜索詞對應(yīng)的未標(biāo)注類目的第二域名,對第二域名的類目進(jìn)行標(biāo)注,并將標(biāo)注完成的第二域名添加到所述已標(biāo)注域名集合中。
[0016]根據(jù)本發(fā)明提供的技術(shù)方案,借助已標(biāo)注域名集合完成其它未標(biāo)注的第二域名的挖掘,實(shí)現(xiàn)了已標(biāo)注域名集合的擴(kuò)展。相對于完全靠人工標(biāo)注域名的方式來說,有效減低了host人工標(biāo)注的成本。本方案通過較為精確的擴(kuò)展策略完成更豐富的host的挖掘,使得host的標(biāo)注質(zhì)量較高,較好的改善了文本分類問題中常見的樣本標(biāo)注的數(shù)量問題和質(zhì)量問題。
[0017]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0018]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0019]圖1示出了根據(jù)本發(fā)明一個實(shí)施例的基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘方法的流程圖;
[0020]圖2示出了根據(jù)本發(fā)明另一個實(shí)施例的基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘方法的流程圖;
[0021]圖3示出了根據(jù)本發(fā)明又一個實(shí)施例的基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘方法的流程圖;
[0022]圖4示出了根據(jù)本發(fā)明一個實(shí)施例的基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0023]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0024]本發(fā)明提供了一種基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘方法,這里樣本具體是指host,樣本自動挖掘是指對host的類目進(jìn)行自動標(biāo)注,而非完全借助人工標(biāo)注方式。具體地,借助通過人工方式標(biāo)注多個第一域名形成的已標(biāo)注域名集合,完成其它未標(biāo)注的第二域名的挖掘,從而實(shí)現(xiàn)已標(biāo)注域名集合的擴(kuò)展。在已標(biāo)注域名集合的擴(kuò)展過程中,host集合與搜索詞(query)集合構(gòu)成二部圖,在二部圖中,通過query的傳遞關(guān)系完成其它未標(biāo)注的第二域名的挖掘過程。
[0025]每個搜索引擎都有自己的數(shù)據(jù)庫系統(tǒng),搜索引擎數(shù)據(jù)庫存放著各種query以及各種URL的相關(guān)信息(包括host),這些信息是由爬蟲、蜘蛛或機(jī)器人搜集來的。搜索引擎數(shù)據(jù)庫存儲的是大數(shù)據(jù),它存儲有網(wǎng)內(nèi)使用該搜索引擎的所有用戶的搜索信息,包含query以及query對應(yīng)的搜索結(jié)果的URL和host等信息,本發(fā)明實(shí)施例中,搜索引擎數(shù)據(jù)庫中存儲有query與host之間的多對多的對應(yīng)關(guān)系,query對應(yīng)的host是指該query在搜索引擎給出的搜索結(jié)果中所有被用戶點(diǎn)擊的網(wǎng)頁的host。一個query對應(yīng)多個host, —個host對應(yīng)多個query。
[0026]舉例來說,某一用戶A輸入關(guān)鍵詞queryl,搜索引擎給出多個搜索結(jié)果,在這些搜索結(jié)果中,用戶A點(diǎn)擊2個網(wǎng)頁,這2個網(wǎng)頁的域名分別為hostl和host2 ;另一用戶B也輸入關(guān)鍵詞queryl,搜索引擎也給出多個搜索結(jié)果(搜索引擎對不同用戶使用同一 query可能得到的不同的搜索結(jié)果),在這些搜索結(jié)果中,用戶B點(diǎn)擊1個網(wǎng)頁,這1個網(wǎng)頁的域名為host3。對應(yīng)的,在搜索引擎數(shù)據(jù)庫中,與queryl對應(yīng)的host包括hostl、host2和host3??偨Y(jié)來說,與某一 query對應(yīng)的host應(yīng)包括所有用戶在搜索引擎給出的搜索結(jié)果中點(diǎn)擊的網(wǎng)頁的host。對于用戶未點(diǎn)擊的網(wǎng)頁本發(fā)明不予考慮,也即本發(fā)明搜索引擎數(shù)據(jù)庫中與query對應(yīng)的host都是點(diǎn)擊host (即產(chǎn)生用戶點(diǎn)擊行為的網(wǎng)頁的host)。
[0027]再舉例來說,某一用戶C輸入關(guān)鍵詞query2,搜索引擎給出多個搜索結(jié)果,在這些搜索結(jié)果中,用戶C點(diǎn)擊2個網(wǎng)頁,這2個網(wǎng)頁的域名分別為host4和host5 ;另一用戶D輸入關(guān)鍵詞query3,搜索引擎也給出多個搜索結(jié)果(搜索引擎對不同用戶使用不同query可能得到的某一相同的搜索結(jié)果),在這些搜索結(jié)果中,用戶D點(diǎn)擊1個網(wǎng)頁,這1個網(wǎng)頁的域名為host4。對應(yīng)的,在搜索引擎數(shù)據(jù)庫中,與host4對應(yīng)的query包括query2和query3??偨Y(jié)來說,與某一 host對應(yīng)的query應(yīng)包括所有用戶點(diǎn)擊該host所使用的query。
[0028]基于上述搜索引擎數(shù)據(jù)庫中提供的query與host之間的多對多的對應(yīng)關(guān)系,本發(fā)明提供了樣本自動挖掘方法,具體通過以下幾個實(shí)施例來說明。
[0029]圖1示出了根據(jù)本發(fā)明一個實(shí)施例的基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘方法的流程圖。如圖1所示,本方法包括如下步驟:
[0030]步驟S100,獲取已標(biāo)注域名集合,該已標(biāo)注域名集合中包含多個已標(biāo)注類目的第一域名。
[0031]本實(shí)施例樣本自動挖掘是基于初始的已標(biāo)注域名集合而完成的,這里初始的已標(biāo)注域名集合包含多個已標(biāo)注類目的第一域名,其標(biāo)注方式可以采用人工標(biāo)注方式。
[0032]步驟S101,在搜索引擎數(shù)據(jù)庫中查詢每個第一域名對應(yīng)的搜索詞,對搜索詞的類目進(jìn)行標(biāo)注,得到已標(biāo)注搜索詞集合。
[0033]對于上述已標(biāo)注域名集合中的每個第一域名,在搜索引擎數(shù)據(jù)庫中查詢與該第一域名對應(yīng)的多個query。所有第一域名對應(yīng)的query集合起來形成query集合,對query集合中的每個query進(jìn)行標(biāo)注,得到已標(biāo)注query集合。本步驟是基于已標(biāo)注的host完成query的自動標(biāo)注。
[0034]步驟S102,在搜索引擎數(shù)據(jù)庫中查找每個已標(biāo)注類目的搜索詞對應(yīng)的未標(biāo)注類目的第二域名,對第二域名的類目進(jìn)行標(biāo)注,并將標(biāo)注完成的第二域名添加到所述已標(biāo)注域女