基于知識(shí)庫(kù)面向大數(shù)據(jù)及普通數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種數(shù)據(jù)采集方法和系統(tǒng),方法包括:獲取采集條件,并根據(jù)采集條件獲取目標(biāo)數(shù)據(jù),其中,采集條件包括采集對(duì)象和采集屬性;從知識(shí)庫(kù)獲取對(duì)應(yīng)目標(biāo)數(shù)據(jù)的樣本數(shù)據(jù);根據(jù)目標(biāo)數(shù)據(jù)和樣本數(shù)據(jù)判斷目標(biāo)數(shù)據(jù)是否可信;若是,則采集目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫(kù)或大數(shù)據(jù)存儲(chǔ)庫(kù)。如此,可以根據(jù)知識(shí)庫(kù)中的樣本數(shù)據(jù)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行正確性驗(yàn)證,在判定目標(biāo)數(shù)據(jù)可信時(shí)才進(jìn)行采集,避免采集到錯(cuò)誤數(shù)據(jù),提高數(shù)據(jù)采集的正確率。
【專利說(shuō)明】
基于知識(shí)庫(kù)面向大數(shù)據(jù)及普通數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及數(shù)據(jù)采集技術(shù)領(lǐng)域,特別是涉及一種基于知識(shí)庫(kù)面向大數(shù)據(jù)及普通數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)。
【背景技術(shù)】
[0002]對(duì)數(shù)據(jù)進(jìn)行采集時(shí),例如對(duì)大數(shù)據(jù)進(jìn)行采集,傳統(tǒng)的方法通常只是根據(jù)系統(tǒng)或數(shù)據(jù)庫(kù)指定需要的數(shù)據(jù)類型進(jìn)行采集后,直接將被采集數(shù)據(jù)存入系統(tǒng)或數(shù)據(jù)庫(kù)以備用。例如,存放語(yǔ)言信息的語(yǔ)言數(shù)據(jù)庫(kù)需要某個(gè)字詞的正確釋義或發(fā)音時(shí),直接采集有這個(gè)字詞釋義或發(fā)音的語(yǔ)言信息放入語(yǔ)言數(shù)據(jù)庫(kù),而不會(huì)檢驗(yàn)被采集的語(yǔ)言信息對(duì)該字詞的釋義或發(fā)音是否正確。對(duì)于被采集數(shù)據(jù)的來(lái)源可信度不明確的情況,這種傳統(tǒng)的數(shù)據(jù)采集方法不會(huì)對(duì)數(shù)據(jù)的正確性進(jìn)行檢驗(yàn),采集正確率低。
【發(fā)明內(nèi)容】
[0003]基于此,有必要針對(duì)上述問(wèn)題,提供一種采集正確率的數(shù)據(jù)采集方法和系統(tǒng)。
[0004]—種數(shù)據(jù)采集方法,包括以下步驟:
[0005]獲取采集條件,并根據(jù)所述采集條件獲取目標(biāo)數(shù)據(jù),其中,所述采集條件包括采集對(duì)象和采集屬性;
[0006]從知識(shí)庫(kù)獲取對(duì)應(yīng)所述目標(biāo)數(shù)據(jù)的樣本數(shù)據(jù);
[0007]根據(jù)所述目標(biāo)數(shù)據(jù)和所述樣本數(shù)據(jù)判斷所述目標(biāo)數(shù)據(jù)是否可信;
[0008]若是,則采集所述目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫(kù)或大數(shù)據(jù)存儲(chǔ)庫(kù)。
[0009]—種數(shù)據(jù)采集系統(tǒng),包括:
[0010]目標(biāo)數(shù)據(jù)獲取模塊,用于獲取采集條件,并根據(jù)所述采集條件獲取目標(biāo)數(shù)據(jù),其中,所述采集條件包括采集對(duì)象和采集屬性;
[0011 ]樣本數(shù)據(jù)獲取模塊,用于從知識(shí)庫(kù)獲取對(duì)應(yīng)所述目標(biāo)數(shù)據(jù)的樣本數(shù)據(jù);
[0012]數(shù)據(jù)分析模塊,用于根據(jù)所述目標(biāo)數(shù)據(jù)和所述樣本數(shù)據(jù)判斷所述目標(biāo)數(shù)據(jù)是否可
?目;
[0013]數(shù)據(jù)采集模塊,用于在所述目標(biāo)數(shù)據(jù)可信時(shí),采集所述目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫(kù)或大數(shù)據(jù)存儲(chǔ)庫(kù)。
[0014]上述數(shù)據(jù)采集方法和系統(tǒng),通過(guò)獲取采集條件,并根據(jù)采集條件獲取目標(biāo)數(shù)據(jù),然后從知識(shí)庫(kù)獲取對(duì)應(yīng)目標(biāo)數(shù)據(jù)的樣本數(shù)據(jù),根據(jù)目標(biāo)數(shù)據(jù)和樣本數(shù)據(jù)判斷目標(biāo)數(shù)據(jù)是否可信,在目標(biāo)數(shù)據(jù)可信時(shí)采集目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫(kù)或大數(shù)據(jù)存儲(chǔ)庫(kù)。如此,可以根據(jù)知識(shí)庫(kù)中的樣本數(shù)據(jù)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行正確性驗(yàn)證,在判定目標(biāo)數(shù)據(jù)可信時(shí)才進(jìn)行采集,避免采集到錯(cuò)誤數(shù)據(jù),提高數(shù)據(jù)采集的正確率。
【附圖說(shuō)明】
[0015]圖1為一實(shí)施例中本發(fā)明數(shù)據(jù)采集方法的流程圖;
[0016]圖2為一實(shí)施例中本發(fā)明數(shù)據(jù)采集系統(tǒng)的模塊圖;
[0017]圖3為一實(shí)施例中數(shù)據(jù)分析模塊的單元圖。
【具體實(shí)施方式】
[0018]大數(shù)據(jù)指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,具有數(shù)量巨大、難于收集、處理、分析等特點(diǎn)。
[0019]本發(fā)明所指的普通數(shù)據(jù)指非大數(shù)據(jù)。
[0020]知識(shí)庫(kù)指采用某種(或若干)知識(shí)表示方式在計(jì)算機(jī)存儲(chǔ)器中存儲(chǔ)、組織、管理和使用的互相聯(lián)系的知識(shí)片集合。這些知識(shí)片包括與領(lǐng)域相關(guān)的理論知識(shí)、事實(shí)數(shù)據(jù)、由專家經(jīng)驗(yàn)得到的啟發(fā)式知識(shí),如某領(lǐng)域內(nèi)有關(guān)的定義、定理和運(yùn)算法則以及常識(shí)性知識(shí)等。樣本數(shù)據(jù)指知識(shí)庫(kù)中存儲(chǔ)的標(biāo)準(zhǔn)數(shù)據(jù)。
[0021]參考圖1,本發(fā)明一實(shí)施例中的一種數(shù)據(jù)采集方法,基于知識(shí)庫(kù)、面向大數(shù)據(jù)及普通數(shù)據(jù)實(shí)現(xiàn),包括以下步驟。
[0022]SI 10:獲取采集條件,并根據(jù)采集條件獲取目標(biāo)數(shù)據(jù)。
[0023]其中,采集條件指用于指定需要采集數(shù)據(jù)特征的信息,采集條件包括采集對(duì)象和采集屬性。通過(guò)根據(jù)采集條件可以獲取符合該采集條件的目標(biāo)數(shù)據(jù)。目標(biāo)數(shù)據(jù)可以是大數(shù)據(jù)或普通數(shù)據(jù)。
[0024]在其中一實(shí)施例中,采集數(shù)據(jù)為語(yǔ)音數(shù)據(jù),以采集條件為某個(gè)指定字詞的文本信息和/或語(yǔ)音信息為例,語(yǔ)音信息包括普通話發(fā)音信息、某種方言發(fā)音信息等,針對(duì)語(yǔ)音信息的采集條件中,其中采集對(duì)象即指需要被獲取語(yǔ)音的某個(gè)指定字詞,采集屬性即指語(yǔ)音類別,包括文本信息、普通話發(fā)音信息、某種方言發(fā)音信息等。對(duì)應(yīng)地,根據(jù)該采集條件獲取的目標(biāo)數(shù)據(jù)包括該指定字詞的文本信息和/或語(yǔ)音信息。
[0025]SI 30:從知識(shí)庫(kù)獲取對(duì)應(yīng)目標(biāo)數(shù)據(jù)的樣本數(shù)據(jù)。
[0026]樣本數(shù)據(jù)為標(biāo)準(zhǔn)數(shù)據(jù),可以用于檢驗(yàn)?zāi)繕?biāo)數(shù)據(jù)的準(zhǔn)確度。
[0027]S150:根據(jù)目標(biāo)數(shù)據(jù)和樣本數(shù)據(jù)判斷目標(biāo)數(shù)據(jù)是否可信。若是,則執(zhí)行步驟S170。
[0028]S170:采集目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫(kù)或大數(shù)據(jù)存儲(chǔ)庫(kù)。
[0029]其中,目標(biāo)數(shù)據(jù)庫(kù)指用于存儲(chǔ)普通數(shù)據(jù)的傳統(tǒng)數(shù)據(jù)庫(kù),例如關(guān)系型數(shù)據(jù)庫(kù);大數(shù)據(jù)存儲(chǔ)庫(kù)指用于存儲(chǔ)大數(shù)據(jù)的存儲(chǔ)庫(kù)。當(dāng)采集的數(shù)據(jù)為普通數(shù)據(jù)時(shí),存入目標(biāo)數(shù)據(jù)庫(kù),當(dāng)采集的數(shù)據(jù)為大數(shù)據(jù)時(shí),存入大數(shù)據(jù)存儲(chǔ)庫(kù)。
[0030]通過(guò)判斷目標(biāo)數(shù)據(jù)是否可信,在數(shù)據(jù)采集之前進(jìn)行正確性驗(yàn)證,提高數(shù)據(jù)采集的正確率。例如,目標(biāo)數(shù)據(jù)為某字詞的文本信息和/或語(yǔ)音信息的實(shí)施例中,采集目標(biāo)數(shù)據(jù)存入語(yǔ)言數(shù)據(jù)庫(kù)。
[0031 ]在其中一實(shí)施例中,步驟SI30包括:從目標(biāo)數(shù)據(jù)中選取待對(duì)比數(shù)據(jù),并從知識(shí)庫(kù)中獲取采集條件與待對(duì)比數(shù)據(jù)相同的標(biāo)準(zhǔn)數(shù)據(jù)作為樣本數(shù)據(jù)。
[0032]具體地,步驟S130可以選取多個(gè)目標(biāo)數(shù)據(jù)中的一部分?jǐn)?shù)據(jù)作為待對(duì)比數(shù)據(jù),也可以選取所有的目標(biāo)數(shù)據(jù)作為待對(duì)比數(shù)據(jù)。例如,獲取的目標(biāo)數(shù)據(jù)為某100個(gè)字詞的粵語(yǔ)發(fā)音信息,則可以選取其中的5個(gè)字詞作為待對(duì)比數(shù)據(jù),從知識(shí)庫(kù)中獲取該5個(gè)字詞的標(biāo)準(zhǔn)粵語(yǔ)發(fā)音信息作為樣本數(shù)據(jù);也可以將所有的100個(gè)字詞作為待對(duì)比數(shù)據(jù),從知識(shí)庫(kù)中獲取該100個(gè)字詞的標(biāo)準(zhǔn)粵語(yǔ)發(fā)音信息作為樣本數(shù)據(jù)。
[0033]對(duì)應(yīng)地,本實(shí)施例中,步驟S150包括步驟11和步驟12。
[0034]步驟11:分別提取待對(duì)比數(shù)據(jù)與樣本數(shù)據(jù)的預(yù)設(shè)特征。
[0035]其中,預(yù)設(shè)特征可以根據(jù)目標(biāo)數(shù)據(jù)的采集條件進(jìn)行選擇。例如,本實(shí)施例中,預(yù)設(shè)特征為采集條件中指定字詞的文本信息和/或語(yǔ)音信息。
[0036]步驟12:判斷待對(duì)比數(shù)據(jù)的預(yù)設(shè)特征與樣本數(shù)據(jù)的預(yù)設(shè)特征之間的匹配度是否大于或等于預(yù)設(shè)值。若是,表示目標(biāo)數(shù)據(jù)中對(duì)應(yīng)樣本數(shù)據(jù)的數(shù)據(jù)與樣本數(shù)據(jù)的預(yù)設(shè)特征很相似,判定目標(biāo)數(shù)據(jù)可信。
[0037]其中,預(yù)設(shè)值可以根據(jù)需要的數(shù)據(jù)采集正確率進(jìn)行具體設(shè)置。
[0038]通過(guò)將目標(biāo)數(shù)據(jù)中幾個(gè)或全部數(shù)據(jù)與對(duì)應(yīng)的樣本數(shù)據(jù)進(jìn)行比對(duì),判斷目標(biāo)數(shù)據(jù)與樣本數(shù)據(jù)預(yù)設(shè)特征的相似度是否滿足要求,從而對(duì)目標(biāo)數(shù)據(jù)進(jìn)行正確性驗(yàn)證,提高數(shù)據(jù)采集的正確率。
[0039]在另一實(shí)施例中,步驟S130包括:從知識(shí)庫(kù)中獲取與目標(biāo)數(shù)據(jù)的采集條件中采集對(duì)象不同、采集屬性相同的標(biāo)準(zhǔn)數(shù)據(jù)作為樣本數(shù)據(jù)。
[0040]例如,獲取的目標(biāo)數(shù)據(jù)為某100個(gè)字詞的粵語(yǔ)發(fā)音信息,則與該目標(biāo)數(shù)據(jù)采集對(duì)象不同、采集屬性相同的數(shù)據(jù)為其他字詞的粵語(yǔ)發(fā)音信息。例如,步驟S130具體為從知識(shí)庫(kù)中獲取另外5個(gè)字詞(不屬于目標(biāo)數(shù)據(jù)中的100個(gè)字詞)的標(biāo)準(zhǔn)粵語(yǔ)發(fā)音信息作為樣本數(shù)據(jù)。[0041 ] 對(duì)應(yīng)地,本實(shí)施例中,步驟S150包括步驟21至步驟23。
[0042]步驟21:獲取提供目標(biāo)數(shù)據(jù)的被采集對(duì)象,并獲取所述被采集對(duì)象提供的采集對(duì)象和采集屬性均與樣本數(shù)據(jù)相同的數(shù)據(jù)作為樣本采集數(shù)據(jù)。
[0043]例如,樣本數(shù)據(jù)為知識(shí)庫(kù)中某樣本字詞的標(biāo)準(zhǔn)文本信息和/或標(biāo)準(zhǔn)粵語(yǔ)發(fā)音信息時(shí),對(duì)應(yīng)獲取被采集對(duì)象提供或錄制的該樣本字詞的文本信息和/或粵語(yǔ)發(fā)音信息作為樣本采集數(shù)據(jù)。
[0044]本實(shí)施例中,被采集對(duì)象為人,即目標(biāo)數(shù)據(jù)由被采集人提供。例如,目標(biāo)數(shù)據(jù)為某字詞的語(yǔ)音信息,該語(yǔ)音消息由用戶A錄制,則用戶A為該目標(biāo)數(shù)據(jù)的被采集人??梢岳斫?,在其他的實(shí)施例中,被米集對(duì)象也可以是網(wǎng)站等。
[0045]步驟22:分別提取樣本采集數(shù)據(jù)和樣本數(shù)據(jù)的預(yù)設(shè)特征。
[0046]步驟23:判斷樣本采集數(shù)據(jù)的預(yù)設(shè)特征與樣本數(shù)據(jù)的預(yù)設(shè)特征之間的匹配度是否大于或等于預(yù)設(shè)值。若是,則判定目標(biāo)數(shù)據(jù)可信。
[0047]通過(guò)將樣本數(shù)據(jù)與被采集對(duì)象提供的樣本采集數(shù)據(jù)進(jìn)行預(yù)設(shè)特征的匹配度比對(duì),匹配度大于預(yù)設(shè)值表明該采集人可信,從而該采集人對(duì)應(yīng)的目標(biāo)數(shù)據(jù)可信,實(shí)現(xiàn)對(duì)目標(biāo)數(shù)據(jù)的正確性驗(yàn)證,提高數(shù)據(jù)采集的正確率。
[0048]上述數(shù)據(jù)采集方法,通過(guò)獲取采集條件,并根據(jù)采集條件獲取目標(biāo)數(shù)據(jù),然后從知識(shí)庫(kù)獲取對(duì)應(yīng)目標(biāo)數(shù)據(jù)的樣本數(shù)據(jù),根據(jù)目標(biāo)數(shù)據(jù)和樣本數(shù)據(jù)判斷目標(biāo)數(shù)據(jù)是否可信,在目標(biāo)數(shù)據(jù)可信時(shí)采集目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫(kù)或大數(shù)據(jù)存儲(chǔ)庫(kù)。如此,可以根據(jù)知識(shí)庫(kù)中的樣本數(shù)據(jù)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行正確性驗(yàn)證,在判定目標(biāo)數(shù)據(jù)可信時(shí)才進(jìn)行采集,避免采集到錯(cuò)誤數(shù)據(jù),提高數(shù)據(jù)采集的正確率。
[0049]參考圖2,本發(fā)明一實(shí)施例中的一種數(shù)據(jù)采集系統(tǒng),基于知識(shí)庫(kù)、面向大數(shù)據(jù)及普通數(shù)據(jù)實(shí)現(xiàn),包括目標(biāo)數(shù)據(jù)獲取模塊110、樣本數(shù)據(jù)獲取模塊130、數(shù)據(jù)分析模塊150和數(shù)據(jù)采集模塊170。
[0050]目標(biāo)數(shù)據(jù)獲取模塊110用于獲取采集條件,并根據(jù)采集條件獲取目標(biāo)數(shù)據(jù)。
[0051]其中,采集條件指用于指定需要采集數(shù)據(jù)特征的信息,采集條件包括采集對(duì)象和采集屬性。通過(guò)根據(jù)采集條件可以獲取符合該采集條件的目標(biāo)數(shù)據(jù)。目標(biāo)數(shù)據(jù)可以是大數(shù)據(jù)或普通數(shù)據(jù)。
[0052]在其中一實(shí)施例中,采集數(shù)據(jù)為語(yǔ)音數(shù)據(jù),以采集條件為某個(gè)指定字詞的文本信息和/或語(yǔ)音信息為例,語(yǔ)音信息包括普通話發(fā)音信息、某種方言發(fā)音信息等,針對(duì)語(yǔ)音信息的采集條件中,其中采集對(duì)象即指需要被獲取語(yǔ)音的某個(gè)指定字詞,采集屬性即指語(yǔ)音類別,包括文本信息、普通話發(fā)音信息、某種方言發(fā)音信息等。對(duì)應(yīng)地,根據(jù)該采集條件獲取的目標(biāo)數(shù)據(jù)包括該指定字詞的文本信息和/或語(yǔ)音信息。
[0053]樣本數(shù)據(jù)獲取模塊130用于從知識(shí)庫(kù)獲取對(duì)應(yīng)目標(biāo)數(shù)據(jù)的樣本數(shù)據(jù)。
[0054]樣本數(shù)據(jù)為標(biāo)準(zhǔn)數(shù)據(jù),可以用于檢驗(yàn)?zāi)繕?biāo)數(shù)據(jù)的準(zhǔn)確度。
[0055]數(shù)據(jù)分析模塊150用于根據(jù)目標(biāo)數(shù)據(jù)和樣本數(shù)據(jù)判斷目標(biāo)數(shù)據(jù)是否可信。
[0056]數(shù)據(jù)采集模塊170用于在目標(biāo)數(shù)據(jù)可信時(shí),采集目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫(kù)或大數(shù)據(jù)存儲(chǔ)庫(kù)。
[0057]其中,目標(biāo)數(shù)據(jù)庫(kù)指用于存儲(chǔ)普通數(shù)據(jù)的傳統(tǒng)數(shù)據(jù)庫(kù),例如關(guān)系型數(shù)據(jù)庫(kù);大數(shù)據(jù)存儲(chǔ)庫(kù)指用于存儲(chǔ)大數(shù)據(jù)的存儲(chǔ)庫(kù)。當(dāng)采集的數(shù)據(jù)為普通數(shù)據(jù)時(shí),存入目標(biāo)數(shù)據(jù)庫(kù),當(dāng)采集的數(shù)據(jù)為大數(shù)據(jù)時(shí),存入大數(shù)據(jù)存儲(chǔ)庫(kù)。
[0058]例如,目標(biāo)數(shù)據(jù)為某字詞的文本信息和/或語(yǔ)音信息的實(shí)施例中,數(shù)據(jù)采集模塊170采集目標(biāo)數(shù)據(jù)存入語(yǔ)言數(shù)據(jù)庫(kù)。通過(guò)判斷目標(biāo)數(shù)據(jù)是否可信,在數(shù)據(jù)采集之前進(jìn)行正確性驗(yàn)證,提高數(shù)據(jù)采集的正確率。
[0059]在其中一實(shí)施例中,樣本數(shù)據(jù)獲取模塊130具體用于:從目標(biāo)數(shù)據(jù)中選取待對(duì)比數(shù)據(jù),并從知識(shí)庫(kù)中獲取采集條件與待對(duì)比數(shù)據(jù)相同的標(biāo)準(zhǔn)數(shù)據(jù)作為樣本數(shù)據(jù)。
[0060]具體地,樣本數(shù)據(jù)獲取模塊130可以是選取多個(gè)目標(biāo)數(shù)據(jù)中的一部分?jǐn)?shù)據(jù)作為待對(duì)比數(shù)據(jù),也可以是選取所有的目標(biāo)數(shù)據(jù)作為待對(duì)比數(shù)據(jù)。例如,獲取的目標(biāo)數(shù)據(jù)為某100個(gè)字詞的粵語(yǔ)發(fā)音信息,則可以選取其中的5個(gè)字詞作為待對(duì)比數(shù)據(jù),從知識(shí)庫(kù)中獲取該5個(gè)字詞的標(biāo)準(zhǔn)粵語(yǔ)發(fā)音信息作為樣本數(shù)據(jù);也可以將所有的100個(gè)字詞作為待對(duì)比數(shù)據(jù),從知識(shí)庫(kù)中獲取該100個(gè)字詞的標(biāo)準(zhǔn)粵語(yǔ)發(fā)音信息作為樣本數(shù)據(jù)。
[0061]對(duì)應(yīng)地,本實(shí)施例中,數(shù)據(jù)分析模塊150具體用于:分別提取待對(duì)比數(shù)據(jù)與樣本數(shù)據(jù)的預(yù)設(shè)特征,判斷待對(duì)比數(shù)據(jù)的預(yù)設(shè)特征與樣本數(shù)據(jù)的預(yù)設(shè)特征之間的匹配度是否大于或等于預(yù)設(shè)值,并在匹配度大于或等于預(yù)設(shè)值時(shí),判定目標(biāo)數(shù)據(jù)可信。
[0062]其中,預(yù)設(shè)特征可以根據(jù)目標(biāo)數(shù)據(jù)的采集條件進(jìn)行選擇。例如,本實(shí)施例中,預(yù)設(shè)特征為采集條件中指定字詞的文本信息和/或語(yǔ)音信息。
[0063]其中,預(yù)設(shè)值可以根據(jù)需要的數(shù)據(jù)采集正確率進(jìn)行具體設(shè)置。
[0064]若待對(duì)比數(shù)據(jù)與樣本數(shù)據(jù)的預(yù)設(shè)特征之間的匹配度大于或等于預(yù)設(shè)值,表示待對(duì)比數(shù)據(jù)與樣本數(shù)據(jù)預(yù)設(shè)特征相似,該目標(biāo)數(shù)據(jù)可信。通過(guò)將目標(biāo)數(shù)據(jù)中幾個(gè)或全部數(shù)據(jù)與對(duì)應(yīng)的樣本數(shù)據(jù)進(jìn)行比對(duì),從而對(duì)目標(biāo)數(shù)據(jù)進(jìn)行正確性驗(yàn)證,提高數(shù)據(jù)采集的正確率。
[0065]在另一實(shí)施例中,樣本數(shù)據(jù)獲取模塊130具體用于:從知識(shí)庫(kù)中獲取與目標(biāo)數(shù)據(jù)的采集條件中采集對(duì)象不同、采集屬性相同的標(biāo)準(zhǔn)數(shù)據(jù)作為樣本數(shù)據(jù)。
[0066]例如,獲取的目標(biāo)數(shù)據(jù)為某100個(gè)字詞的粵語(yǔ)發(fā)音信息,則與該目標(biāo)數(shù)據(jù)采集對(duì)象不同、采集屬性相同的數(shù)據(jù)為其他字詞的粵語(yǔ)發(fā)音信息。例如,樣本數(shù)據(jù)獲取模塊130具體為從知識(shí)庫(kù)中獲取另外5個(gè)字詞(不屬于目標(biāo)數(shù)據(jù)中的100個(gè)字詞)的標(biāo)準(zhǔn)粵語(yǔ)發(fā)音信息作為樣本數(shù)據(jù)。
[0067]對(duì)應(yīng)地,本實(shí)施例中,參考圖3,數(shù)據(jù)分析模塊150包括樣本采集數(shù)據(jù)獲取單元151、特征提取單元152和匹配度分析單元153。
[0068]樣本采集數(shù)據(jù)獲取單元151用于獲取提供目標(biāo)數(shù)據(jù)的被采集對(duì)象,并獲取被采集對(duì)象提供的采集對(duì)象和采集屬性均與樣本數(shù)據(jù)相同的數(shù)據(jù)作為樣本采集數(shù)據(jù)。
[0069]例如,樣本數(shù)據(jù)為知識(shí)庫(kù)中某樣本字詞的標(biāo)準(zhǔn)文本信息和/或標(biāo)準(zhǔn)粵語(yǔ)發(fā)音信息時(shí),對(duì)應(yīng)獲取被采集對(duì)象提供或錄制的對(duì)應(yīng)該樣本字詞的文本信息和/或粵語(yǔ)發(fā)音信息作為樣本采集數(shù)據(jù)。
[0070]本實(shí)施例中,被采集對(duì)象為人,即目標(biāo)數(shù)據(jù)由被采集人提供。例如,目標(biāo)數(shù)據(jù)為某字詞的語(yǔ)音信息,該語(yǔ)音消息由用戶A錄制,則用戶A為該目標(biāo)數(shù)據(jù)的被采集人??梢岳斫?,在其他的實(shí)施例中,被米集對(duì)象也可以是網(wǎng)站等。
[0071]特征提取單元152用于分別提取樣本采集數(shù)據(jù)和樣本數(shù)據(jù)的預(yù)設(shè)特征。
[0072]匹配度分析單元153用于判斷樣本采集數(shù)據(jù)的預(yù)設(shè)特征與樣本數(shù)據(jù)的預(yù)設(shè)特征之間的匹配度是否大于或等于預(yù)設(shè)值,并在匹配度大于或等于預(yù)設(shè)值時(shí),判定目標(biāo)數(shù)據(jù)可信。
[0073]通過(guò)將樣本數(shù)據(jù)與被采集對(duì)象提供的樣本采集數(shù)據(jù)進(jìn)行預(yù)設(shè)特征的匹配度比對(duì),匹配度大于預(yù)設(shè)值表明該采集人可信,從而該采集人對(duì)應(yīng)的目標(biāo)數(shù)據(jù)可信,實(shí)現(xiàn)對(duì)目標(biāo)數(shù)據(jù)的正確性驗(yàn)證,提高數(shù)據(jù)采集的正確率。
[0074]上述數(shù)據(jù)采集系統(tǒng),通過(guò)數(shù)據(jù)獲取模塊110獲取采集條件,并根據(jù)采集條件獲取目標(biāo)數(shù)據(jù),然后樣本數(shù)據(jù)獲取模塊130從知識(shí)庫(kù)獲取對(duì)應(yīng)目標(biāo)數(shù)據(jù)的樣本數(shù)據(jù),數(shù)據(jù)分析模塊150根據(jù)目標(biāo)數(shù)據(jù)和樣本數(shù)據(jù)判斷目標(biāo)數(shù)據(jù)是否可信,數(shù)據(jù)采集模塊170在目標(biāo)數(shù)據(jù)可信時(shí)采集目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫(kù)或大數(shù)據(jù)存儲(chǔ)庫(kù)。如此,可以根據(jù)知識(shí)庫(kù)中的樣本數(shù)據(jù)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行正確性驗(yàn)證,在判定目標(biāo)數(shù)據(jù)可信時(shí)才進(jìn)行采集,避免采集到錯(cuò)誤數(shù)據(jù),提高數(shù)據(jù)采集的正確率。
[0075]以上所述實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡(jiǎn)潔,未對(duì)上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說(shuō)明書(shū)記載的范圍。
[0076]以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【主權(quán)項(xiàng)】
1.一種數(shù)據(jù)采集方法,其特征在于,包括以下步驟: 獲取采集條件,并根據(jù)所述采集條件獲取目標(biāo)數(shù)據(jù),其中,所述采集條件包括采集對(duì)象和采集屬性; 從知識(shí)庫(kù)獲取對(duì)應(yīng)所述目標(biāo)數(shù)據(jù)的樣本數(shù)據(jù); 根據(jù)所述目標(biāo)數(shù)據(jù)和所述樣本數(shù)據(jù)判斷所述目標(biāo)數(shù)據(jù)是否可信; 若是,則采集所述目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫(kù)或大數(shù)據(jù)存儲(chǔ)庫(kù)。2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)采集方法,其特征在于,所述從知識(shí)庫(kù)獲取對(duì)應(yīng)所述目標(biāo)數(shù)據(jù)的樣本數(shù)據(jù)的步驟包括: 從所述目標(biāo)數(shù)據(jù)中選取待對(duì)比數(shù)據(jù),并從所述知識(shí)庫(kù)中獲取所述采集條件與所述待對(duì)比數(shù)據(jù)相同的標(biāo)準(zhǔn)數(shù)據(jù)作為所述樣本數(shù)據(jù)。3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)采集方法,其特征在于,所述根據(jù)所述目標(biāo)數(shù)據(jù)和所述樣本數(shù)據(jù)判斷所述目標(biāo)數(shù)據(jù)是否可信的步驟包括: 分別提取所述待對(duì)比數(shù)據(jù)與所述樣本數(shù)據(jù)的預(yù)設(shè)特征; 判斷所述待對(duì)比數(shù)據(jù)的預(yù)設(shè)特征與所述樣本數(shù)據(jù)的預(yù)設(shè)特征之間的匹配度是否大于或等于預(yù)設(shè)值; 若是,則判定所述目標(biāo)數(shù)據(jù)可信。4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)采集方法,其特征在于,所述從知識(shí)庫(kù)獲取對(duì)應(yīng)所述目標(biāo)數(shù)據(jù)的樣本數(shù)據(jù)的步驟包括: 從所述知識(shí)庫(kù)中獲取與所述目標(biāo)數(shù)據(jù)的所述采集條件中采集對(duì)象不同、采集屬性相同的標(biāo)準(zhǔn)數(shù)據(jù)作為所述樣本數(shù)據(jù)。5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)采集方法,其特征在于,所述根據(jù)所述目標(biāo)數(shù)據(jù)和所述樣本數(shù)據(jù)判斷所述目標(biāo)數(shù)據(jù)是否可信的步驟包括: 獲取提供所述目標(biāo)數(shù)據(jù)的被采集對(duì)象,并獲取所述被采集對(duì)象提供的采集對(duì)象和采集屬性均與所述樣本數(shù)據(jù)相同的數(shù)據(jù)作為樣本采集數(shù)據(jù); 分別提取所述樣本采集數(shù)據(jù)和所述樣本數(shù)據(jù)的預(yù)設(shè)特征; 判斷所述樣本采集數(shù)據(jù)的預(yù)設(shè)特征與所述樣本數(shù)據(jù)的預(yù)設(shè)特征之間的匹配度是否大于或等于預(yù)設(shè)值; 若是,則判定所述目標(biāo)數(shù)據(jù)可信。6.一種數(shù)據(jù)采集系統(tǒng),其特征在于,包括: 目標(biāo)數(shù)據(jù)獲取模塊,用于獲取采集條件,并根據(jù)所述采集條件獲取目標(biāo)數(shù)據(jù),其中,所述采集條件包括采集對(duì)象和采集屬性; 樣本數(shù)據(jù)獲取模塊,用于從知識(shí)庫(kù)獲取對(duì)應(yīng)所述目標(biāo)數(shù)據(jù)的樣本數(shù)據(jù); 數(shù)據(jù)分析模塊,用于根據(jù)所述目標(biāo)數(shù)據(jù)和所述樣本數(shù)據(jù)判斷所述目標(biāo)數(shù)據(jù)是否可信;數(shù)據(jù)采集模塊,用于在所述目標(biāo)數(shù)據(jù)可信時(shí),采集所述目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫(kù)或大數(shù)據(jù)存儲(chǔ)庫(kù)。7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)采集系統(tǒng),其特征在于,所述樣本數(shù)據(jù)獲取模塊具體用于:從所述目標(biāo)數(shù)據(jù)中選取待對(duì)比數(shù)據(jù),并從所述知識(shí)庫(kù)中獲取所述采集條件與所述待對(duì)比數(shù)據(jù)相同的標(biāo)準(zhǔn)數(shù)據(jù)作為所述樣本數(shù)據(jù)。8.根據(jù)權(quán)利要求7所述的數(shù)據(jù)采集系統(tǒng),其特征在于,所述數(shù)據(jù)分析模塊具體用于:分別提取所述待對(duì)比數(shù)據(jù)與所述樣本數(shù)據(jù)的預(yù)設(shè)特征,判斷所述待對(duì)比數(shù)據(jù)的預(yù)設(shè)特征與所述樣本數(shù)據(jù)的預(yù)設(shè)特征之間的匹配度是否大于或等于預(yù)設(shè)值,并在所述匹配度大于或等于預(yù)設(shè)值時(shí),判定所述目標(biāo)數(shù)據(jù)可信。9.根據(jù)權(quán)利要求6所述的數(shù)據(jù)采集系統(tǒng),其特征在于,所述樣本數(shù)據(jù)獲取模塊具體用于:從所述知識(shí)庫(kù)中獲取與所述目標(biāo)數(shù)據(jù)的所述采集條件中采集對(duì)象不同、采集屬性相同的標(biāo)準(zhǔn)數(shù)據(jù)作為所述樣本數(shù)據(jù)。10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)采集系統(tǒng),其特征在于,所述數(shù)據(jù)分析模塊包括: 樣本采集數(shù)據(jù)獲取單元,用于獲取提供所述目標(biāo)數(shù)據(jù)的被采集對(duì)象,并獲取所述被采集對(duì)象提供的采集對(duì)象和采集屬性均與所述樣本數(shù)據(jù)相同的數(shù)據(jù)作為樣本采集數(shù)據(jù); 特征提取單元,用于分別提取所述樣本采集數(shù)據(jù)和所述樣本數(shù)據(jù)的預(yù)設(shè)特征; 匹配度分析單元,用于判斷所述樣本采集數(shù)據(jù)的預(yù)設(shè)特征與所述樣本數(shù)據(jù)的預(yù)設(shè)特征之間的匹配度是否大于或等于預(yù)設(shè)值,并在所述匹配度大于或等于預(yù)設(shè)值時(shí),判定所述目標(biāo)數(shù)據(jù)可信。
【文檔編號(hào)】G06F17/30GK105843890SQ201610164712
【公開(kāi)日】2016年8月10日
【申請(qǐng)日】2016年3月21日
【發(fā)明人】朱定局
【申請(qǐng)人】華南師范大學(xué)