1.一種分層模塊化的數(shù)據(jù)采集方法,其特征在于,包括:
收集原始數(shù)據(jù)信息,并將原始數(shù)據(jù)信息轉(zhuǎn)換成字符串類型;
根據(jù)設(shè)定的提取規(guī)則對上述字符串類型的原始數(shù)據(jù)信息進(jìn)行數(shù)據(jù)提取,得到包含有與預(yù)設(shè)數(shù)據(jù)字段對應(yīng)的數(shù)據(jù)字段信息的數(shù)據(jù)數(shù)組;
根據(jù)預(yù)設(shè)的輸出格式及輸出規(guī)則將上述數(shù)據(jù)數(shù)組輸出。
2.如權(quán)利要求1所述的分層模塊化的數(shù)據(jù)采集方法,其特征在于,所述根據(jù)設(shè)定的提取規(guī)則對上述字符串類型的原始數(shù)據(jù)信息進(jìn)行數(shù)據(jù)提取,具體為:
使用正則表達(dá)式對字符串類型的原始數(shù)據(jù)信息進(jìn)行數(shù)據(jù)匹配,得到與預(yù)設(shè)數(shù)據(jù)字段對應(yīng)的數(shù)據(jù)字段信息,并將得到的數(shù)據(jù)字段信息存儲到包含有相應(yīng)數(shù)據(jù)字段的數(shù)據(jù)數(shù)組中。
3.如權(quán)利要求1或2所述的分層模塊化的數(shù)據(jù)采集方法,其特征在于,在進(jìn)行數(shù)據(jù)提取后,還對提取的數(shù)據(jù)字段信息進(jìn)行篩選得到包含有與篩選后的數(shù)據(jù)字段對應(yīng)的數(shù)據(jù)字段信息的數(shù)據(jù)數(shù)組。
4.如權(quán)利要求1或2所述的分層模塊化的數(shù)據(jù)采集方法,其特征在于,所述收集原始數(shù)據(jù)信息具體為讀取文本文件信息或者監(jiān)聽網(wǎng)絡(luò)信息。
5.如權(quán)利要求1或2所述的分層模塊化的數(shù)據(jù)采集方法,其特征在于,所述根據(jù)預(yù)設(shè)的輸出格式及輸出規(guī)則將上述數(shù)據(jù)數(shù)組輸出,具體為:將上述數(shù)據(jù)數(shù)組寫入到文本文件,或者寫入數(shù)據(jù)庫,或者進(jìn)行網(wǎng)絡(luò)傳輸。
6.一種分層模塊化的數(shù)據(jù)采集裝置,其特征在于,包括數(shù)據(jù)收集模塊、數(shù)據(jù)提取模塊以及數(shù)據(jù)輸出模塊,其中:
所述數(shù)據(jù)收集模塊,用于收集原始數(shù)據(jù)信息,并將原始數(shù)據(jù)信息轉(zhuǎn)換成字符串類型;
所述數(shù)據(jù)提取模塊,用于根據(jù)設(shè)定的提取規(guī)則對上述字符串類型的原始數(shù)據(jù)信息進(jìn)行數(shù)據(jù)提取,得到包含有與預(yù)設(shè)數(shù)據(jù)字段對應(yīng)的數(shù)據(jù)字段信息的數(shù)據(jù)數(shù)組;
所述數(shù)據(jù)輸出模塊,用于根據(jù)預(yù)設(shè)的輸出格式及輸出規(guī)則將上述數(shù)據(jù)數(shù)組輸出。
7.如權(quán)利要求6所述的分層模塊化的數(shù)據(jù)采集裝置,其特征在于,所述數(shù)據(jù)提取模塊根據(jù)設(shè)定的提取規(guī)則對上述字符串類型的原始數(shù)據(jù)信息進(jìn)行數(shù)據(jù)提取,具體為:
使用正則表達(dá)式對字符串類型的原始數(shù)據(jù)信息進(jìn)行數(shù)據(jù)匹配,得到與預(yù)設(shè)數(shù)據(jù)字段對應(yīng)的數(shù)據(jù)字段信息,并將得到的數(shù)據(jù)字段信息存儲到包含有相應(yīng)數(shù)據(jù)字段的數(shù)據(jù)數(shù)組中。
8.如權(quán)利要求6或7所述的分層模塊化的數(shù)據(jù)采集裝置,其特征在于,所述數(shù)據(jù)提取模塊還用于,在進(jìn)行數(shù)據(jù)提取后,對提取的數(shù)據(jù)字段信息進(jìn)行篩選得到包含有與篩選后的數(shù)據(jù)字段對應(yīng)的數(shù)據(jù)字段信息的數(shù)據(jù)數(shù)組。
9.如權(quán)利要求6或7所述的分層模塊化的數(shù)據(jù)采集裝置,其特征在于,所述數(shù)據(jù)收集模塊收集原始數(shù)據(jù)信息具體為讀取文本文件信息或者監(jiān)聽網(wǎng)絡(luò)信息。
10.如權(quán)利要求6或7所述的分層模塊化的數(shù)據(jù)采集裝置,其特征在于,所述數(shù)據(jù)輸出模塊根據(jù)預(yù)設(shè)的輸出格式及輸出規(guī)則將上述數(shù)據(jù)數(shù)組輸出,具體為:將上述數(shù)據(jù)數(shù)組寫入到文本文件,或者寫入數(shù)據(jù)庫,或者進(jìn)行網(wǎng)絡(luò)傳輸。