專利名稱:正確數(shù)據(jù)的獲取方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種正確數(shù)據(jù)的獲取方法和裝置。
背景技術(shù):
數(shù)據(jù)處理包括對數(shù)據(jù)的采集、存儲、檢索、加工、變換和傳輸?shù)炔僮鳌?shù)據(jù)的形式可以是數(shù)字、文字、圖形或聲音等。數(shù)據(jù)經(jīng)過解釋并賦予一定的意義之后,便成為信息。數(shù)據(jù)處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對于某些特定的人們來說是有價值、有意義的數(shù)據(jù),即正確的數(shù)據(jù)。例如,對于同一個數(shù)據(jù),由于數(shù)據(jù)傳輸中的差錯等原因,用戶所得到的內(nèi)容可能會有多個版本,則需要從這多個版本中確定出一個正確的版本,得到正確的數(shù)據(jù)。然而,對如何確定數(shù)據(jù)的正確性,目前還沒有提出較合適的處理方案。
發(fā)明內(nèi)容
本發(fā)明提供的一種正確數(shù)據(jù)的獲取方法和裝置,以解決現(xiàn)有無法確定數(shù)據(jù)正確性的問題。為達(dá)到上述目的,本發(fā)明實(shí)施例采用了如下技術(shù)方案:本發(fā)明實(shí)施例提供了一種正確數(shù)據(jù)的獲取方法,根據(jù)獲取到的數(shù)據(jù)源建立索引數(shù)據(jù)庫,該方法包括:接收用戶的搜索請求,所述搜索請求中攜帶至少兩個關(guān)鍵詞,所述關(guān)鍵詞屬于同一數(shù)據(jù)的候選項(xiàng);在索引數(shù)據(jù)庫中分別搜索所述關(guān)鍵詞,并統(tǒng)計與關(guān)鍵詞所匹配的數(shù)據(jù)的搜索結(jié)果數(shù)目;比較所述搜索結(jié)果數(shù)目,將具有最大搜索結(jié)果數(shù)目的關(guān)鍵字作為獲取到的正確的數(shù)據(jù)。本發(fā)明實(shí)施例還提供了 一種正確數(shù)據(jù)的獲取裝置,該裝置包括數(shù)據(jù)庫建立單元,用于根據(jù)獲取到的數(shù)據(jù)源建立索引數(shù)據(jù)庫;搜索請求接收單元,用于接收用戶的搜索請求,所述搜索請求中攜帶至少兩個關(guān)鍵詞,所述關(guān)鍵詞屬于同一數(shù)據(jù)的候選項(xiàng);搜索統(tǒng)計單元,用于在索引數(shù)據(jù)庫中搜索分別所述關(guān)鍵詞,并統(tǒng)計與關(guān)鍵詞所匹配的數(shù)據(jù)的搜索結(jié)果數(shù)目;比較確認(rèn)單元,用于比較所述搜索結(jié)果數(shù)目,將具有最大搜索結(jié)果數(shù)目的關(guān)鍵字作為獲取到的正確的數(shù)據(jù)。本發(fā)明實(shí)施例的有益效果是:本發(fā)明實(shí)施例通過對數(shù)據(jù)使用和傳輸?shù)脑磉M(jìn)行分析,發(fā)現(xiàn)了一種數(shù)據(jù)處理的規(guī)律,該規(guī)律為數(shù)據(jù)的交互是建立在一套規(guī)范、統(tǒng)一的原則上且絕大部分所使用的數(shù)據(jù)都符合相同原則,從而通過對數(shù)據(jù)的搜索和對搜索結(jié)果的統(tǒng)計能夠得到正確的數(shù)據(jù)。
進(jìn)一步的,本方案能夠直接利用互聯(lián)網(wǎng)上的網(wǎng)頁信息生成所需的索引數(shù)據(jù)庫,能夠快速有效地建立起具有一定規(guī)模的索引數(shù)據(jù)庫,保證了正確獲取數(shù)據(jù)的實(shí)現(xiàn)。
圖1為本發(fā)明實(shí)施例一提供的一種正確數(shù)據(jù)的獲取方法流程示意圖;圖2為本發(fā)明實(shí)施例二提供的一種正確數(shù)據(jù)的獲取裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。參見圖1,為本發(fā)明實(shí)施例一提供的一種正確數(shù)據(jù)的獲取方法,具體如下:11:根據(jù)獲取到的數(shù)據(jù)源建立索引數(shù)據(jù)庫。進(jìn)一步的,本實(shí)施例中的所述數(shù)據(jù)源是利用互聯(lián)網(wǎng)中的網(wǎng)頁數(shù)據(jù)得到的。將互聯(lián)網(wǎng)中的各種資源納入索引數(shù)據(jù)庫,保證數(shù)據(jù)庫的規(guī)模并便于數(shù)據(jù)庫的建立。具體的,本實(shí)施例采用一種網(wǎng)頁抓取技術(shù)進(jìn)行網(wǎng)頁的自動收集,從而獲得上述數(shù)據(jù)源。在抓取開始時,先選取一個初始網(wǎng)頁,作為當(dāng)前網(wǎng)頁。將初始網(wǎng)頁的數(shù)據(jù)存儲至數(shù)據(jù)源中,并檢測出初始網(wǎng)頁上的所有統(tǒng)一資源定位符(URL),訪問所述URL所對應(yīng)網(wǎng)頁(如第一網(wǎng)頁至第三網(wǎng)頁)并將該網(wǎng)頁的數(shù)據(jù)存儲至數(shù)據(jù)源中。下一次抓取時,將第一網(wǎng)頁至第三網(wǎng)頁都作為當(dāng)前網(wǎng)頁,分別檢測出當(dāng)前網(wǎng)頁上的所有URL,訪問所述URL所對應(yīng)網(wǎng)頁并將該網(wǎng)頁的數(shù)據(jù)存儲至數(shù)據(jù)源中。即本實(shí)施例提供的網(wǎng)頁收集方案能自動訪問互聯(lián)網(wǎng),并沿著當(dāng)前網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,抓取到這些網(wǎng)頁并保存這些網(wǎng)頁的數(shù)據(jù)。重復(fù)上述抓取過程,把爬過的所有網(wǎng)頁的數(shù)據(jù)收集到數(shù)據(jù)源中。在一次網(wǎng)頁收集操作結(jié)束,獲取到數(shù)據(jù)源之后,本實(shí)施例還能夠在后續(xù)對所獲取的數(shù)據(jù)源進(jìn)行更新,更新的具體操作包括:獲取當(dāng)前網(wǎng)頁的更新標(biāo)簽信息,所述更新標(biāo)簽信息指示網(wǎng)頁的更新時間。例如,在執(zhí)行網(wǎng)頁抓取之前,向服務(wù)器發(fā)送超文本傳輸協(xié)議(HTTP)請求,服務(wù)器返回HTTP響應(yīng),該HTTP響應(yīng)中包括網(wǎng)頁的更新標(biāo)簽信息,從而獲知網(wǎng)頁的更新時間。根據(jù)所述更新標(biāo)簽信息判斷當(dāng)前網(wǎng)頁中的數(shù)據(jù)是否為新數(shù)據(jù),例如:若更新標(biāo)簽信息指示的網(wǎng)頁的更新時間為tl,上一次數(shù)據(jù)源獲取或更新過程的完成時間為t2,tl在t2之后時,表明當(dāng)前網(wǎng)頁中的數(shù)據(jù)為新數(shù)據(jù),tl在t2之前時,表明當(dāng)前網(wǎng)頁中的數(shù)據(jù)已經(jīng)被抓取過了,無需重復(fù)抓取。在當(dāng)前網(wǎng)頁中的數(shù)據(jù)是新數(shù)據(jù)時,抓取當(dāng)前網(wǎng)頁的數(shù)據(jù)存儲至數(shù)據(jù)源中,檢測所述當(dāng)前網(wǎng)頁上的所有URL,訪問并抓取所述URL所對應(yīng)網(wǎng)頁并將該網(wǎng)頁的數(shù)據(jù)存儲至數(shù)據(jù)源中,以及,將所述URL所對應(yīng)的網(wǎng)頁設(shè)置為當(dāng)前網(wǎng)頁。在收集到網(wǎng)頁數(shù)據(jù)之后,本實(shí)施例還對網(wǎng)頁數(shù)據(jù)進(jìn)行處理,以加快數(shù)據(jù)搜索的速度并提高搜索結(jié)果的準(zhǔn)確度。例如,對收集到的網(wǎng)頁數(shù)據(jù)進(jìn)行解析,剔除數(shù)據(jù)中的控制信息以及格式信息等與搜索無關(guān)的數(shù)據(jù),還可以對網(wǎng)頁數(shù)據(jù)中的冗余信息(如停用詞等)進(jìn)行剔除,保留與搜索相關(guān)的網(wǎng)頁內(nèi)容數(shù)據(jù)和數(shù)據(jù)編碼類型等,將這些與搜索相關(guān)的數(shù)據(jù)作為索引數(shù)據(jù),由索引數(shù)據(jù)建立索引數(shù)據(jù)庫。12:接收用戶的搜索請求,所述搜索請求中攜帶至少兩個關(guān)鍵詞,所述關(guān)鍵詞屬于同一數(shù)據(jù)的候選項(xiàng)。上述關(guān)鍵詞可以為一個詞語,或者由多個詞語組成的一段文本??梢岳斫?,所述關(guān)鍵詞也可以為用以標(biāo)識圖像或圖形的信息。本實(shí)施例中采用在多個候選項(xiàng)(關(guān)鍵詞)中確認(rèn)所需的正確信息的方案。例如,一個示例中搜索請求中可以攜帶兩個關(guān)鍵詞,“mathematics”和“mathmatics”,這兩個關(guān)鍵詞都屬于“數(shù)學(xué)”的正確英文拼寫的候選項(xiàng)。13:在索引數(shù)據(jù)庫中分別搜索所述關(guān)鍵詞,并統(tǒng)計與關(guān)鍵詞所匹配的數(shù)據(jù)的搜索結(jié)果數(shù)目。對上述示例,統(tǒng)計索引數(shù)據(jù)庫中與關(guān)鍵詞“mathematics”相匹配(或相一致)的搜索結(jié)果的數(shù)目,并統(tǒng)計索引數(shù)據(jù)庫中與關(guān)鍵詞“mathmatics”相匹配(或相一致)的搜索結(jié)果的數(shù)目,參見下表1,顯示所得到的一種統(tǒng)計結(jié)果。表I
權(quán)利要求
1.一種正確數(shù)據(jù)的獲取方法,其特征在于,根據(jù)獲取到的數(shù)據(jù)源建立索引數(shù)據(jù)庫,所述方法包括: 接收用戶的搜索請求,所述搜索請求中攜帶至少兩個關(guān)鍵詞,所述關(guān)鍵詞屬于同一數(shù)據(jù)的候選項(xiàng); 在索引數(shù)據(jù)庫中分別搜索所述關(guān)鍵詞,并統(tǒng)計與關(guān)鍵詞所匹配的數(shù)據(jù)的搜索結(jié)果數(shù)目; 比較所述搜索結(jié)果數(shù)目,將具有最大搜索結(jié)果數(shù)目的關(guān)鍵字作為獲取到的正確的數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述數(shù)據(jù)源是利用互聯(lián)網(wǎng)中的網(wǎng)頁數(shù)據(jù)得到的。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,通過如下方式獲取所述數(shù)據(jù)源: 抓取互聯(lián)網(wǎng)上的當(dāng)前網(wǎng)頁的數(shù)據(jù)存儲至數(shù)據(jù)源中; 檢測所述當(dāng)前網(wǎng)頁上的所有統(tǒng)一資源定位符URL,訪問并抓取所述URL所對應(yīng)網(wǎng)頁并將該網(wǎng)頁的數(shù)據(jù)存儲至數(shù)據(jù)源中;將所述URL所對應(yīng)的網(wǎng)頁設(shè)置為當(dāng)前網(wǎng)頁,繼續(xù)執(zhí)行所述抓取互聯(lián)網(wǎng)上的當(dāng)前網(wǎng)頁的數(shù)據(jù)存儲至數(shù)據(jù)源中。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,通過如下方式更新所獲取到的數(shù)據(jù)源: 獲取當(dāng)前網(wǎng)頁的更新標(biāo)簽信息,所述更新標(biāo)簽信息指示網(wǎng)頁的更新時間; 根據(jù)所述更新標(biāo)簽信息判斷當(dāng)前網(wǎng)頁中的數(shù)據(jù)是否為新數(shù)據(jù),若否,不再抓取當(dāng)前網(wǎng)頁中的數(shù)據(jù),若是,抓取當(dāng)前網(wǎng)頁的數(shù)據(jù)存儲至數(shù)據(jù)源中,檢測所述當(dāng)前網(wǎng)頁上的所有URL,訪問并抓取所述URL所對應(yīng)網(wǎng)頁并將該網(wǎng)頁的數(shù)據(jù)存儲至數(shù)據(jù)源中,以及,將所述URL所對應(yīng)的網(wǎng)頁設(shè)置為當(dāng)前網(wǎng)頁。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)獲取到的數(shù)據(jù)源建立索引數(shù)據(jù)庫包括: 對數(shù)據(jù)源中存儲的網(wǎng)頁數(shù)據(jù)進(jìn)行解析,提取出索引數(shù)據(jù),并利用該索引數(shù)據(jù)建立索引數(shù)據(jù)庫,所述索引數(shù)據(jù)包括網(wǎng)頁內(nèi)容數(shù)據(jù)和數(shù)據(jù)編碼類型。
6.一種正確數(shù)據(jù)的獲取裝置,其特征在于,所述裝置包括 數(shù)據(jù)庫建立單元,用于根據(jù)獲取到的數(shù)據(jù)源建立索引數(shù)據(jù)庫; 搜索請求接收單元,用于接收用戶的搜索請求,所述搜索請求中攜帶至少兩個關(guān)鍵詞,所述關(guān)鍵詞屬于同一數(shù)據(jù)的候選項(xiàng); 搜索統(tǒng)計單元,用于在索引數(shù)據(jù)庫中搜索分別所述關(guān)鍵詞,并統(tǒng)計與關(guān)鍵詞所匹配的數(shù)據(jù)的搜索結(jié)果數(shù)目; 比較確認(rèn)單元,用于比較所述搜索結(jié)果數(shù)目,將具有最大搜索結(jié)果數(shù)目的關(guān)鍵字作為獲取到的正確的數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于, 所述數(shù)據(jù)庫建立單元所使用的數(shù)據(jù)源是利用互聯(lián)網(wǎng)中的網(wǎng)頁數(shù)據(jù)得到的。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述數(shù)據(jù)庫建立單元包括數(shù)據(jù)存儲模塊和數(shù)據(jù)抓取模塊, 所述數(shù)據(jù)存儲模塊,用于抓取互聯(lián)網(wǎng)上的當(dāng)前網(wǎng)頁的數(shù)據(jù)存儲至數(shù)據(jù)源中; 所述數(shù)據(jù)抓取模塊,用于檢測所述當(dāng)前網(wǎng)頁上的所有統(tǒng)一資源定位符URL,訪問并抓取所述URL所對應(yīng)網(wǎng)頁; 所述數(shù)據(jù)存儲模塊,還用于將所述數(shù)據(jù)抓取模塊所訪問的網(wǎng)頁的數(shù)據(jù)存儲至數(shù)據(jù)源中,將所述URL所對應(yīng)的網(wǎng)頁設(shè)置為當(dāng)前網(wǎng)頁。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述數(shù)據(jù)庫建立單元還包括數(shù)據(jù)源更新模塊, 所述數(shù)據(jù)源更新模塊,用于獲取當(dāng)前網(wǎng)頁的更新標(biāo)簽信息,所述更新標(biāo)簽信息指示網(wǎng)頁的更新時間;根據(jù)所述更新標(biāo)簽信息判斷當(dāng)前網(wǎng)頁中的數(shù)據(jù)是否為新數(shù)據(jù),若否,不再抓取當(dāng)前網(wǎng)頁中的數(shù)據(jù),若是,抓取當(dāng)前網(wǎng)頁的數(shù)據(jù)存儲至數(shù)據(jù)源中,檢測所述當(dāng)前網(wǎng)頁上的所有URL,訪問并抓取所述URL所對應(yīng)網(wǎng)頁并將該網(wǎng)頁的數(shù)據(jù)存儲至數(shù)據(jù)源中,以及,將所述URL所對應(yīng)的網(wǎng)頁設(shè)置為當(dāng)前網(wǎng)頁。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于, 所述數(shù)據(jù)庫建立單元,具體用于對數(shù)據(jù)源中存儲的網(wǎng)頁數(shù)據(jù)進(jìn)行解析,提取出索引數(shù)據(jù),并利用該索引數(shù)據(jù)建立 索引數(shù)據(jù)庫,所述索引數(shù)據(jù)包括網(wǎng)頁內(nèi)容數(shù)據(jù)和數(shù)據(jù)編碼類型。
全文摘要
本發(fā)明公開了一種正確數(shù)據(jù)的獲取方法和裝置,能夠通過對數(shù)據(jù)的搜索和對搜索結(jié)果的統(tǒng)計得到正確的數(shù)據(jù)。本發(fā)明實(shí)施例提供的正確數(shù)據(jù)的獲取方法包括根據(jù)獲取到的數(shù)據(jù)源建立索引數(shù)據(jù)庫;接收用戶的搜索請求,所述搜索請求中攜帶至少兩個關(guān)鍵詞,所述關(guān)鍵詞屬于同一數(shù)據(jù)的候選項(xiàng);在索引數(shù)據(jù)庫中分別搜索所述關(guān)鍵詞,并統(tǒng)計與關(guān)鍵詞所匹配的數(shù)據(jù)的搜索結(jié)果數(shù)目;比較所述搜索結(jié)果數(shù)目,將具有最大搜索結(jié)果數(shù)目的關(guān)鍵字作為獲取到的正確的數(shù)據(jù)。
文檔編號G06F17/30GK103186618SQ20111045741
公開日2013年7月3日 申請日期2011年12月30日 優(yōu)先權(quán)日2011年12月30日
發(fā)明者張程 申請人:北京新媒傳信科技有限公司