海量信息處理方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種海量信息處理系統(tǒng),包括分布式文件系統(tǒng)和分布式數(shù)據(jù)庫,搜索平臺,以及搜索查詢前置節(jié)點,其中,所述搜索查詢前置節(jié)點配置成:將所述海量信息轉(zhuǎn)發(fā)并存儲在所述分布式文件系統(tǒng)和分布式數(shù)據(jù)庫中;在所述搜索平臺中建立所述海量信息的索引;接收用戶的查詢搜索請求;以及根據(jù)所述查詢搜索請求,選擇所述分布式數(shù)據(jù)庫或所述搜索平臺來進行處理。本發(fā)明還提供了一種海量信息處理方法。
【專利說明】海量信息處理方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機索引【技術(shù)領(lǐng)域】,特別地,涉及一種海量信息處理方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著電子化進程的發(fā)展,各種票據(jù)和憑證將會逐步電子化,包括發(fā)票、簽購單、收據(jù)、電影券、優(yōu)惠券等等。這些信息有著顯著特點——海量和非結(jié)構(gòu)化。
[0003]現(xiàn)有的關(guān)系型數(shù)據(jù)庫在處理海量數(shù)據(jù)時遇到困難。在面對數(shù)十億條甚至數(shù)百億條數(shù)據(jù)時,關(guān)系型數(shù)據(jù)庫處理的性能已經(jīng)大大降低。其次,現(xiàn)有關(guān)系型數(shù)據(jù)庫在處理非結(jié)構(gòu)化數(shù)據(jù)也面臨性能的降低,并且也不太適合存儲非結(jié)構(gòu)化的數(shù)據(jù)。在面向海量非結(jié)構(gòu)化的信息存儲、查詢和搜索時,現(xiàn)有的關(guān)系型數(shù)據(jù)庫已無法滿足需求。
【發(fā)明內(nèi)容】
[0004]為解決上述問題,本發(fā)明的發(fā)明人提出通過分布式存儲架構(gòu)分布式文件系統(tǒng)和分布式數(shù)據(jù)庫實現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化海量信息的存儲,以及通過搜索引擎平臺建立海量信息的索引,實現(xiàn)對海量信息的快速查詢。該方案通過索引技術(shù)建立海量信息的索引信息,并且海量信息的處理通過并行處理的架構(gòu)實施,可大大提高查詢和搜索的性能。
[0005]根據(jù)本發(fā)明的一個方面,提供了一種海量信息處理方法,包括:將所述海量信息轉(zhuǎn)發(fā)并存儲在分布式文件系統(tǒng)和分布式數(shù)據(jù)庫中;在搜索平臺中建立所述海量信息的索引;接收用戶的查詢搜索請求;以及根據(jù)所述查詢搜索請求,選擇所述分布式數(shù)據(jù)庫或所述搜索平臺來進行處理。
[0006]在上述海量信息處理方法中,所述海量信息是結(jié)構(gòu)化的海量信息、半結(jié)構(gòu)化的海量信息或非結(jié)構(gòu)化的海量信息。在這里,非結(jié)構(gòu)化的海量信息可以是發(fā)票、簽購單、收據(jù)、電影券、代金券以及優(yōu)惠券中的一種或多種。
[0007]在上述海量信息處理方法中,根據(jù)所述查詢搜索請求,選擇所述分布式數(shù)據(jù)庫或所述搜索平臺來進行處理包括:確定所述查詢搜索請求為單一字段查詢,以及選擇所述分布式數(shù)據(jù)庫來通過分布式并行處理架構(gòu)進行實時處理。
[0008]在上述海量信息處理方法中,根據(jù)所述查詢搜索請求,選擇所述分布式數(shù)據(jù)庫或所述搜索平臺來進行處理包括:確定所述查詢搜索請求為多字段查詢,以及選擇所述搜索平臺來通過分布式并行處理實現(xiàn)所述海量信息的索引。在一個優(yōu)選的實施例中,根據(jù)所述查詢搜索請求,選擇所述分布式數(shù)據(jù)庫或所述搜索平臺來進行處理進一步可包括:利用所述海量信息的索引在所述分布式文件系統(tǒng)或所述分布式數(shù)據(jù)庫中查詢。
[0009]根據(jù)本發(fā)明的另一個方面,提供了一種海量信息處理系統(tǒng),包括分布式文件系統(tǒng)和分布式數(shù)據(jù)庫,搜索平臺,以及搜索查詢前置節(jié)點,其中,所述搜索查詢前置節(jié)點配置成:接收待存儲的海量信息;將所述海量信息轉(zhuǎn)發(fā)并存儲在分布式文件系統(tǒng)和分布式數(shù)據(jù)庫中;接收用戶的查詢搜索請求;以及根據(jù)所述查詢搜索請求,選擇所述分布式數(shù)據(jù)庫或所述搜索平臺來進行處理,以便返回查詢結(jié)果。[0010]在上述海量信息處理系統(tǒng)中,所述海量信息是結(jié)構(gòu)化的海量信息、半結(jié)構(gòu)化的海量信息或非結(jié)構(gòu)化的海量信息。在這里,非結(jié)構(gòu)化的海量信息可以是發(fā)票、簽購單、收據(jù)、電影券、代金券以及優(yōu)惠券中的一種或多種。
[0011]在上述海量信息處理系統(tǒng)中,所述搜索查詢前置節(jié)點進一步配置成:確定所述查詢搜索請求為單一字段查詢,以及選擇所述分布式數(shù)據(jù)庫來通過分布式并行處理架構(gòu)進行實時處理。
[0012]在上述海量信息處理系統(tǒng)中,所述搜索查詢前置節(jié)點進一步配置成:確定所述查詢搜索請求為多字段查詢,以及選擇所述搜索平臺來通過分布式并行處理實現(xiàn)所述海量信息的索引。優(yōu)選地,所述搜索查詢前置節(jié)點還配置成:利用所述海量信息的索引在所述分布式文件系統(tǒng)或所述分布式數(shù)據(jù)庫中查詢。
[0013]本文所述的海量信息處理方法和系統(tǒng)能夠?qū)崿F(xiàn)對海量非結(jié)構(gòu)化數(shù)據(jù)電子票據(jù)和電子憑證的存儲、實時查詢和搜索,滿足用戶查詢搜索海量信息的需求。
【專利附圖】
【附圖說明】
[0014]在參照附圖閱讀了本發(fā)明的【具體實施方式】以后,本領(lǐng)域技術(shù)人員將會更清楚地了解本發(fā)明的各個方面。本領(lǐng)域技術(shù)人員應當理解的是:這些附圖僅僅用于配合【具體實施方式】說明本發(fā)明的技術(shù)方案,而并非意在對本發(fā)明的保護范圍構(gòu)成限制。
[0015]圖1是根據(jù)本發(fā)明的一個實施例、海量信息處理方法的示意圖;
圖2是根據(jù)本發(fā)明的一個實施例、海量信息處理系統(tǒng)的示意圖;
圖3示出根據(jù)本發(fā)明的一個實施例、面向海量的非結(jié)構(gòu)化數(shù)據(jù)電子票據(jù)和電子憑證的存儲以及實時查詢搜索的方法。
【具體實施方式】
[0016]下面介紹的是本發(fā)明的多個可能實施例中的一些,旨在提供對本發(fā)明的基本了解,并不旨在確認本發(fā)明的關(guān)鍵或決定性的要素或限定所要保護的范圍。容易理解,根據(jù)本發(fā)明的技術(shù)方案,在不變更本發(fā)明的實質(zhì)精神下,本領(lǐng)域的一般技術(shù)人員可以提出可相互替換的其它實現(xiàn)方式。因此,以下【具體實施方式】以及附圖僅是對本發(fā)明的技術(shù)方案的示例性說明,而不應當視為本發(fā)明的全部或者視為對本發(fā)明技術(shù)方案的限定或限制。
[0017]圖1示出了根據(jù)本發(fā)明的一個實施例的海量信息處理方法。圖1所示的海量信息處理方法包括:S110,將海量信息存儲在分布式文件系統(tǒng)和分布式數(shù)據(jù)庫中;S120,在搜索平臺中建立海量信息的索引;S130,接收用戶的查詢搜索請求;以及S140,根據(jù)查詢搜索請求,選擇分布式數(shù)據(jù)庫或搜索平臺來進行處理。在一個優(yōu)選的實施例中,在步驟SllO之前,可先對準備存儲的海量信息進行預處理,以便將海量的非結(jié)構(gòu)化信息電子票據(jù)和電子憑證等存儲在分布式的文件系統(tǒng)和數(shù)據(jù)庫中。在一個優(yōu)選的實施例中,在步驟S120中,將非結(jié)構(gòu)化信息根據(jù)內(nèi)容中的字段名稱建立面向字段值的索引。在步驟S140中,查詢和和搜索非結(jié)構(gòu)化信息時候通過字段名稱和字段值進行檢索,多字段查詢搜索時對符合所有條件的信息進行匹配。
[0018]有必要指出的是,海量信息可以是結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的海量信息。在這里,非結(jié)構(gòu)化的海量信息可以是例如發(fā)票、簽購單、收據(jù)、電影券、代金券以及優(yōu)惠券中的一種或多種。
[0019]參考圖2,它示出了根據(jù)本發(fā)明的一個實施例的海量信息處理系統(tǒng)。在該海量信息處理系統(tǒng)中,分布式文件系統(tǒng)和分布式數(shù)據(jù)庫具有良好的擴展能力,通過增加節(jié)點便可實現(xiàn)系統(tǒng)存儲能力的增強,在存儲海量數(shù)據(jù)時具有良好的優(yōu)勢。分布式并行處理架構(gòu)也隨著節(jié)點的增加,系統(tǒng)的整體處理能力也能夠得到提高。搜索平臺的并行處理架構(gòu)也能夠通過增加節(jié)點提高系統(tǒng)的處理和并發(fā)能力。分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、搜索平臺和并行處理架構(gòu)保證了系統(tǒng)存儲和處理能力的良好擴展性。分布式文件系統(tǒng)、分布式數(shù)據(jù)庫以及搜索平臺可采用集群技術(shù),依托并行處理技術(shù)來建設(shè)。
[0020]在海量信息處理系統(tǒng)中,海量的原始數(shù)據(jù)和處理結(jié)果數(shù)據(jù)將存儲在分布式文件系統(tǒng)和分布式數(shù)據(jù)庫中以及在搜索平臺中建立海量信息的索引。分布式數(shù)據(jù)庫提供海量信息的單一字段查詢功能。搜索平臺提供海量信息的多字段查詢搜索功能。搜索查詢前置節(jié)點處理海量信息存儲請求,將海量信息存儲到分布式文件系統(tǒng)、分布式數(shù)據(jù)庫和搜索平臺中,以及處理用戶的查詢搜索請求,將請求轉(zhuǎn)發(fā)到分布式數(shù)據(jù)庫或者搜索平臺進行處理。
[0021]另外,分布式數(shù)據(jù)庫在處理海量數(shù)據(jù)時,通過分布式并行處理架構(gòu)實現(xiàn)實時處理,并能提供單一字段的實時查詢。搜素平臺通過分布式并行處理實現(xiàn)海量信息的索引,并能夠提供多字段的實時查詢搜索。單一字段的查詢通過分布式數(shù)據(jù)庫實現(xiàn),有著比搜索平臺更好的性能,多字段查詢搜索通過搜索平臺實現(xiàn),有著比分布式數(shù)據(jù)庫更好的性能。
[0022]圖3示出根據(jù)本發(fā)明的一個實施例、面向海量的非結(jié)構(gòu)化數(shù)據(jù)電子票據(jù)和電子憑證的存儲以及實時查詢搜索的方法。在該方法中,如圖3所示,海量信息存儲在分布式文件系統(tǒng)、分布式數(shù)據(jù)庫以及搜索引擎平臺中。搜索引擎平臺根據(jù)字段名稱Tag建立值的索引。單一字段查詢可通過分布式數(shù)據(jù)庫進行處理,多字段查詢搜索通過搜索引擎平臺進行處理(圖3中僅描述多字段查詢流程)。單一字段查詢結(jié)果直接返回。針對多字段查詢搜索,搜索引擎平臺可以直接返回結(jié)果或者返回查詢結(jié)果的關(guān)鍵字Key,然后通過分布式文件系統(tǒng)或者分布式數(shù)據(jù)庫查詢得到最后的結(jié)果。
[0023]綜上所述,本文所述的海量信息處理方法和系統(tǒng)通過分布式數(shù)據(jù)庫的并行處理架構(gòu)模型滿足海量信息的單一字段查詢實時需求,通過搜索平臺建立海量信息的字段索引,以及并行處理架構(gòu)提供海量信息的多字段實時搜索查詢需求。解決了傳統(tǒng)關(guān)系型數(shù)據(jù)庫在處理海量非結(jié)構(gòu)化數(shù)據(jù)時面臨的困難,提高系統(tǒng)的處理能力和響應能力,滿足結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量信息的實時查詢和搜索。
[0024]上文中,參照附圖描述了本發(fā)明的【具體實施方式】。但是,本領(lǐng)域中的普通技術(shù)人員能夠理解,在不偏離本發(fā)明的精神和范圍的情況下,還可以對本發(fā)明的【具體實施方式】作各種變更和替換。這些變更和替換都落在本發(fā)明權(quán)利要求書所限定的范圍內(nèi)。
【權(quán)利要求】
1.一種海量信息處理方法,包括:
將所述海量信息轉(zhuǎn)發(fā)并存儲在分布式文件系統(tǒng)和分布式數(shù)據(jù)庫中;
在搜索平臺中建立所述海量信息的索引;
接收用戶的查詢搜索請求;以及
根據(jù)所述查詢搜索請求,選擇所述分布式數(shù)據(jù)庫或所述搜索平臺來進行處理。
2.如權(quán)利要求1所述的海量信息處理方法,其中,所述海量信息是結(jié)構(gòu)化的海量信息、半結(jié)構(gòu)化的海量信息或非結(jié)構(gòu)化的海量信息。
3.如權(quán)利要求2所述的海量信息處理方法,其中,所述非結(jié)構(gòu)化的海量信息是發(fā)票、簽購單、收據(jù)、電影券、代金券以及優(yōu)惠券中的一種或多種。
4.如權(quán)利要求1所述的海量信息處理方法,其中,根據(jù)所述查詢搜索請求,選擇所述分布式數(shù)據(jù)庫或所述搜索平臺來進行處理包括: 確定所述查詢搜索請求為單一字段查詢,以及 選擇所述分布式數(shù)據(jù)庫來通過分布式并行處理架構(gòu)進行實時處理。
5.如權(quán)利要求1所述的海量信息處理方法,其中,根據(jù)所述查詢搜索請求,選擇所述分布式數(shù)據(jù)庫或所述搜索平臺來進行處理包括: 確定所述查詢搜索請求為多字段查詢,以及 選擇所述搜索平臺來通 過分布式并行處理實現(xiàn)所述海量信息的索引。
6.如權(quán)利要求5所述的海量信息處理方法,其中,根據(jù)所述查詢搜索請求,選擇所述分布式數(shù)據(jù)庫或所述搜索平臺來進行處理還包括: 利用所述海量信息的索引在所述分布式文件系統(tǒng)或所述分布式數(shù)據(jù)庫中查詢。
7.—種海量信息處理系統(tǒng),包括分布式文件系統(tǒng)和分布式數(shù)據(jù)庫,搜索平臺,以及搜索查詢前置節(jié)點,其中,所述搜索查詢前置節(jié)點配置成: 接收待存儲的海量信息; 將所述海量信息轉(zhuǎn)發(fā)并存儲在分布式文件系統(tǒng)和分布式數(shù)據(jù)庫中;
接收用戶的查詢搜索請求;以及根據(jù)所述查詢搜索請求,選擇所述分布式數(shù)據(jù)庫或所述搜索平臺來進行處理,以便返回查詢結(jié)果。
8.如權(quán)利要求7所述的海量信息處理系統(tǒng),其中,所述海量信息是結(jié)構(gòu)化的海量信息、半結(jié)構(gòu)化的海量信息或非結(jié)構(gòu)化的海量信息。
9.如權(quán)利要求8所述的海量信息處理系統(tǒng),其中,所述非結(jié)構(gòu)化的海量信息是發(fā)票、簽購單、收據(jù)、電影券、代金券以及優(yōu)惠券中的一種或多種。
10.如權(quán)利要求7所述的海量信息處理系統(tǒng),其中,所述搜索查詢前置節(jié)點進一步配置成: 確定所述查詢搜索請求為單一字段查詢,以及 選擇所述分布式數(shù)據(jù)庫來通過分布式并行處理架構(gòu)進行實時處理。
11.如權(quán)利要求7所述的海量信息處理系統(tǒng),其中,所述搜索查詢前置節(jié)點進一步配置成: 確定所述查詢搜索請求為多字段查詢,以及 選擇所述搜索平臺來通過分 布式并行處理實現(xiàn)所述海量信息的索引。
12.如權(quán)利要求11所述的海量信息處理系統(tǒng),其中,所述搜索查詢前置節(jié)點進一步配置成: 利用所述海量信息的索引 在所述分布式文件系統(tǒng)或所述分布式數(shù)據(jù)庫中查詢。
【文檔編號】G06F17/30GK103885945SQ201210553775
【公開日】2014年6月25日 申請日期:2012年12月19日 優(yōu)先權(quán)日:2012年12月19日
【發(fā)明者】何東杰, 何朔 申請人:中國銀聯(lián)股份有限公司