1.一種海量文本數(shù)據(jù)處理方法,其特征在于,包括:
接收文本數(shù)據(jù);
根據(jù)預(yù)先配置的與所述文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)提取文本數(shù)據(jù);
將提取的文本數(shù)據(jù)以所述數(shù)據(jù)結(jié)構(gòu)分塊存儲(chǔ)至對(duì)應(yīng)的分區(qū)中;其中,每個(gè)分區(qū)對(duì)應(yīng)一個(gè)或者多個(gè)數(shù)據(jù)塊。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)先配置的與所述文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)提取文本數(shù)據(jù)包括:
獲取與所述文本數(shù)據(jù)對(duì)應(yīng)的配置文件,從所述配置文件中獲取與所述文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu);
根據(jù)所述數(shù)據(jù)結(jié)構(gòu)從所述文本數(shù)據(jù)中提取與所述數(shù)據(jù)結(jié)構(gòu)匹配的文本數(shù)據(jù)。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述將提取的文本數(shù)據(jù)以所述數(shù)據(jù)結(jié)構(gòu)分塊存儲(chǔ)至對(duì)應(yīng)的分區(qū)中包括:
獲取與所述文本數(shù)據(jù)對(duì)應(yīng)的分區(qū)信息;
根據(jù)所述分區(qū)信息將提取的所述文本數(shù)據(jù)以所述數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)至對(duì)應(yīng)的分區(qū)中。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
建立數(shù)據(jù)索引,所述數(shù)據(jù)索引保存有數(shù)據(jù)塊與存儲(chǔ)地址的對(duì)應(yīng)關(guān)系。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括:
響應(yīng)于數(shù)據(jù)查詢(xún)請(qǐng)求,根據(jù)所述數(shù)據(jù)索引保存的數(shù)據(jù)庫(kù)與存儲(chǔ)地址的對(duì)應(yīng)關(guān)系,獲取與所述數(shù)據(jù)查詢(xún)請(qǐng)求對(duì)應(yīng)的數(shù)據(jù)。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
根據(jù)預(yù)先設(shè)定的輸出條件,將存儲(chǔ)在所述分區(qū)中的文本數(shù)據(jù)輸出到指定文件中。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
針對(duì)具有同一數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)塊進(jìn)行排序處理,獲取排序后的文本數(shù)據(jù)。
8.一種海量文本數(shù)據(jù)處理裝置,其特征在于,包括:
接收模塊,用于接收文本數(shù)據(jù);
提取模塊,用于根據(jù)預(yù)先配置的與所述文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)提取文本數(shù)據(jù);
存儲(chǔ)模塊,用于將提取的文本數(shù)據(jù)以所述數(shù)據(jù)結(jié)構(gòu)分塊存儲(chǔ)至對(duì)應(yīng)的分區(qū)中;其中,每個(gè)分區(qū)對(duì)應(yīng)一個(gè)或者多個(gè)數(shù)據(jù)塊。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述提取模塊具體用于:
獲取與所述文本數(shù)據(jù)對(duì)應(yīng)的配置文件,從所述配置文件中獲取與所述文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu);根據(jù)所述數(shù)據(jù)結(jié)構(gòu)信息從所述文本數(shù)據(jù)中提取與所述數(shù)據(jù)結(jié)構(gòu)匹配的文本數(shù)據(jù)。
10.根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,所述存儲(chǔ)模塊具體用于:
獲取與所述文本數(shù)據(jù)對(duì)應(yīng)的分區(qū)信息;根據(jù)所述分區(qū)信息將提取的所述文本數(shù)據(jù)以所述數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)至對(duì)應(yīng)的分區(qū)中。
11.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括:
索引建立模塊,用于建立數(shù)據(jù)索引,所述數(shù)據(jù)索引保存有數(shù)據(jù)塊與存儲(chǔ)地址的對(duì)應(yīng)關(guān)系。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括:
查詢(xún)模塊,用于響應(yīng)于數(shù)據(jù)查詢(xún)請(qǐng)求,根據(jù)所述數(shù)據(jù)索引保存的數(shù)據(jù)庫(kù)與存儲(chǔ)地址的對(duì)應(yīng)關(guān)系,獲取與所述數(shù)據(jù)查詢(xún)請(qǐng)求對(duì)應(yīng)的數(shù)據(jù)。
13.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括:
輸出模塊,用于根據(jù)預(yù)先設(shè)定的輸出條件,將存儲(chǔ)在所述分區(qū)中的文本數(shù)據(jù)輸出到指定文件中。
14.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括:
排序模塊,用于針對(duì)具有同一數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)塊進(jìn)行排序處理,獲取排序后的文本數(shù)據(jù)。