一種產(chǎn)生數(shù)據(jù)的方法和裝置制造方法
【專利摘要】本發(fā)明提供一種產(chǎn)生數(shù)據(jù)的方法和裝置,涉及計(jì)算機(jī)領(lǐng)域,能夠利用小規(guī)模的樣本數(shù)據(jù)生成大數(shù)據(jù),同時還保留了原有小規(guī)模數(shù)據(jù)的特征規(guī)律,提高了生成的大數(shù)據(jù)的參考價(jià)值,并且不需要進(jìn)行數(shù)據(jù)的大規(guī)模移動,有效節(jié)省了存儲和網(wǎng)絡(luò)開銷。其方法為:通過主節(jié)點(diǎn)根據(jù)樣本數(shù)據(jù)制定數(shù)據(jù)生成的策略,并將數(shù)據(jù)生成的策略分發(fā)至至少一個從節(jié)點(diǎn),以便主節(jié)點(diǎn)和從節(jié)點(diǎn)根據(jù)數(shù)據(jù)生成策略產(chǎn)生數(shù)據(jù),并將產(chǎn)生的數(shù)據(jù)上傳至文件系統(tǒng)。使得最終產(chǎn)生的數(shù)據(jù)具有樣本數(shù)據(jù)的數(shù)值規(guī)律,并且在此基礎(chǔ)上提高了生成數(shù)據(jù)的參考價(jià)值,同時避免了數(shù)據(jù)的大規(guī)模移動,有效的節(jié)省了存儲和網(wǎng)絡(luò)開銷。本發(fā)明用于產(chǎn)生大數(shù)據(jù)。
【專利說明】一種產(chǎn)生數(shù)據(jù)的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種產(chǎn)生數(shù)據(jù)的方法和裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的不斷發(fā)展,大數(shù)據(jù)(Big Data)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),現(xiàn)在對大數(shù)據(jù)的研究已經(jīng)擴(kuò)展到生活的方方面面,通過對大數(shù)據(jù)進(jìn)行分析發(fā)掘,進(jìn)而獲得更有價(jià)值的信息。大數(shù)據(jù)已成為當(dāng)前很多行業(yè)研究的主題。
[0003]在對大數(shù)據(jù)進(jìn)行處理時,需要處理的數(shù)據(jù)量是極其龐大的,然而處于保密性的考慮,大數(shù)據(jù)處理方案的提供者只能得到小規(guī)模的樣本數(shù)據(jù),往往不能獲取到實(shí)際的大數(shù)據(jù)來進(jìn)行測試,并且獲取和傳輸大數(shù)據(jù)的過程中,會占用更多的資源,對相應(yīng)的存儲和網(wǎng)絡(luò)資源都有較高的要求。
[0004]現(xiàn)有大規(guī)模數(shù)據(jù)生成技術(shù)主要包括以下幾種:基于Hadoop (—個分布式系統(tǒng)基礎(chǔ)架構(gòu),用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序)基準(zhǔn)測試程序集,利用完全隨機(jī)的方式來產(chǎn)生大規(guī)模的數(shù)據(jù);或者,采用zipfian分布生成數(shù)據(jù),或按照均勻分布和高斯分布生成數(shù)據(jù)。
[0005]但是上述三種現(xiàn)有技術(shù)生成的大數(shù)據(jù)都不能反應(yīng)樣本數(shù)據(jù)的原有的規(guī)律性,使得新生成的數(shù)據(jù)參考性較低。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的實(shí)施例提供一種產(chǎn)生數(shù)據(jù)的方法和裝置,能夠利用小規(guī)模的樣本數(shù)據(jù)生成大數(shù)據(jù),同時還保留了原有小規(guī)模數(shù)據(jù)的特征規(guī)律,提高了生成的大數(shù)據(jù)的參考價(jià)值,并且不需要進(jìn)行數(shù)據(jù)的大規(guī)模移動,有效節(jié)省了存儲和網(wǎng)絡(luò)開銷。
[0007]為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:
[0008]第一方面,提供一種產(chǎn)生數(shù)據(jù)的方法,所述方法包括:
[0009]根據(jù)已獲得的樣本數(shù)據(jù)制定數(shù)據(jù)生成策略;
[0010]根據(jù)所述數(shù)據(jù)生成策略生成第一數(shù)據(jù),并將所述第一數(shù)據(jù)上傳至文件系統(tǒng);
[0011]將所述數(shù)據(jù)生成策略發(fā)送至從節(jié)點(diǎn),以便所述從節(jié)點(diǎn)根據(jù)所述數(shù)據(jù)生成策略生成第二數(shù)據(jù),并將所述第二數(shù)據(jù)上傳至所述文件系統(tǒng)。
[0012]在第一種可能的實(shí)現(xiàn)方式中,結(jié)合第一方面,所述樣本數(shù)據(jù)為m行η列的矩陣,其中m表示第一對象的總數(shù),η表示第二對象的總數(shù),所述矩陣中元素為r (u,i),所述r (u,i)表示第u個第一對象對第i個第二對象的評分。
[0013]在第二種可能的實(shí)現(xiàn)方式中,結(jié)合第一種可能的實(shí)現(xiàn)方式,所述根據(jù)已獲得的樣本數(shù)據(jù)制定數(shù)據(jù)生成策略包括:
[0014]確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展;
[0015]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則在所述矩陣的η列向量中選取至少一列作為第一參考向量集;或[0016]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則在所述矩陣的m行向量中選取至少一行作為第一參考向量集。
[0017]在第三種可能的實(shí)現(xiàn)方式中,結(jié)合第一種可能的實(shí)現(xiàn)方式,所述根據(jù)已獲得的樣本數(shù)據(jù)制定數(shù)據(jù)生成策略還包括:
[0018]確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展;
[0019]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則對所述矩陣的η列向量進(jìn)行聚類處理,并將聚類處理結(jié)果的中心點(diǎn)中的向量作為第一參考向量集;或
[0020]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則對所述矩陣的m行向量進(jìn)行聚類處理,并將聚類處理結(jié)果的中心點(diǎn)中的向量作為第一參考向量集。
[0021]在第四種可能的實(shí)現(xiàn)方式中,根據(jù)第二種或第三種可能的實(shí)現(xiàn)方式,所述根據(jù)所述數(shù)據(jù)生成策略生成第一數(shù)據(jù)包括:
[0022]記錄所述第一參考向量集中每個向量中的非空元素的位置信息;
[0023]根據(jù)所述第一參考向量集中每個向量中的非空兀素選取第一向量集,所述第一向量集中的每個向量不包含空元素;
[0024]利用向量相似性根據(jù)所述第一向量集生成第二向量集,所述第二向量集中的每個向量不包含空元素;
[0025]根據(jù)所述參考向量中每個向量中的非空元素的位置信息以及所述第二向量集生成第三向量集;
[0026]將所述第三向量集加入所述矩陣中形成新矩陣,將所述新矩陣作為所述第一數(shù)據(jù)。
[0027]在第五種可能的實(shí)現(xiàn)方式中,結(jié)合第一方面至第一方面的第四種可能的實(shí)現(xiàn)方式中的任意一項(xiàng),在所述將所述數(shù)據(jù)生成策略發(fā)送至從節(jié)點(diǎn)時,所述方法還包括:
[0028]將所述從節(jié)點(diǎn)需要生成數(shù)據(jù)的數(shù)據(jù)量及所述從節(jié)點(diǎn)向主節(jié)點(diǎn)返回完成生成數(shù)據(jù)消息的時間間隔至所述從節(jié)點(diǎn);
[0029]按照所述時間間隔,從所述從節(jié)點(diǎn)接收所述數(shù)據(jù)生成結(jié)果,所述完成生成數(shù)據(jù)消息包括所述從節(jié)點(diǎn)已生成的數(shù)據(jù)量和已完成數(shù)據(jù)生成的信息。
[0030]在第六中可能的實(shí)現(xiàn)方式中,結(jié)合第五種可能的實(shí)現(xiàn)方式,所述方法還包括:
[0031]若在所述時間間隔內(nèi),沒有接收到所述從節(jié)點(diǎn)發(fā)送的所述完成生成數(shù)據(jù)消息,則指定除所述從節(jié)點(diǎn)之外的其他從節(jié)點(diǎn)按照所述數(shù)據(jù)生成策略生成數(shù)據(jù)并將生成的數(shù)據(jù)上傳至所述文件系統(tǒng)。
[0032]第二方面,提供一種產(chǎn)生數(shù)據(jù)的方法,所述方法包括:
[0033]從主節(jié)點(diǎn)接收數(shù)據(jù)生成策略;
[0034]根據(jù)所述數(shù)據(jù)生成策略生成第二數(shù)據(jù),并將所述第二數(shù)據(jù)上傳至文件系統(tǒng)。
[0035]在第一種可能的實(shí)現(xiàn)方式中,結(jié)合第二方面,所述數(shù)據(jù)生成策略中包括:m行η列的矩陣,其中m表示第一對象的總數(shù),η表示第二對象的總數(shù),所述矩陣中元素為r (u,i),所述r (u, i)表示第u個第一對象對第i個第二對象的評分。
[0036]在第二種可能的實(shí)現(xiàn)方式中,結(jié)合第一種可能的實(shí)現(xiàn)方式,所述從主節(jié)點(diǎn)接收的數(shù)據(jù)生成策略包括:
[0037]確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展;[0038]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則在所述矩陣的η列向量中選取至少一列作為第二參考向量集;或
[0039]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則在所述矩陣的m行向量中選取至少一行作為第二參考向量集。
[0040]在第三種可能的實(shí)現(xiàn)方式中,結(jié)合第一種可能的實(shí)現(xiàn)方式,所述從主節(jié)點(diǎn)接收的數(shù)據(jù)生成策略包括:
[0041]確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展;
[0042]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則對所述矩陣的η列向量進(jìn)行聚類處理,并將聚類處理結(jié)果的中心點(diǎn)中的向量作為第二參考向量集;或
[0043]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則對所述矩陣的m行向量進(jìn)行聚類處理,并將聚類處理結(jié)果的中心點(diǎn)中的向量作為第二參考向量集。
[0044]在第四種可能的實(shí)現(xiàn)方式中,結(jié)合第二種或第三種可能的實(shí)現(xiàn)方式,所述根據(jù)所述數(shù)據(jù)生成策略生成第二數(shù)據(jù)包括:
[0045]記錄所述第二參考向量集中每個向量中的非空元素的位置信息;
[0046]選取所述第二參考向量集中每個向量中的非空元素作為第四向量集,所述第四向量集中的每個向量不包含空元素;
[0047]利用向量相似性根據(jù)所述第四向量集生成第五向量集,所述第五向量集中的每個向量不包含空元素;
[0048]根據(jù)所述參考向量中每個向量中的非空元素的位置信息以及所述第五向量集生成第六向量集;
[0049]將所述第六向量集加入所述矩陣中形成新矩陣,將所述新矩陣作為所述第二數(shù)據(jù)。
[0050]第三方面,提供一種產(chǎn)生數(shù)據(jù)的裝置,所述裝置包括:
[0051]策略制定單元,用于根據(jù)已獲得的樣本數(shù)據(jù)制定數(shù)據(jù)生成策略;
[0052]第一數(shù)據(jù)生成單元,用于根據(jù)所述數(shù)據(jù)生成策略生成第一數(shù)據(jù),并將所述第一數(shù)據(jù)上傳至文件系統(tǒng);
[0053]策略分發(fā)單元,用于將所述數(shù)據(jù)生成策略發(fā)送至從節(jié)點(diǎn),以便所述從節(jié)點(diǎn)根據(jù)所述數(shù)據(jù)生成策略生成第二數(shù)據(jù),并將所述第二數(shù)據(jù)上傳至所述文件系統(tǒng)。
[0054]在第一種可能的實(shí)現(xiàn)方式中,結(jié)合第三方面,所述樣本數(shù)據(jù)為m行η列的矩陣,其中m表示第一對象的總數(shù),η表示第二對象的總數(shù),所述矩陣中元素為r (u,i),所述r (u,i)表示第u個第一對象對第i個第二對象的評分。
[0055]在第三種可能的實(shí)現(xiàn)方式中,結(jié)合第二可能的實(shí)現(xiàn)方式,所述策略制定單元具體用于:
[0056]確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展;
[0057]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則在所述矩陣的η列向量中選取至少一列作為第一參考向量集;或
[0058]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則在所述矩陣的m行向量中選取至少一行作為第一參考向量集。
[0059]在第四種可能的實(shí)現(xiàn)方式中,結(jié)合第二種可能的實(shí)現(xiàn)方式,所述策略制定單元還用于:
[0060]確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展;
[0061]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則在所述矩陣的η列向量中選取至少一列作為第一參考向量集;或
[0062]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則在所述矩陣的m行向量中選取至少一行作為第一參考向量集。
[0063]在第五種可能的實(shí)現(xiàn)方式中,結(jié)合第二或第三種可能的實(shí)現(xiàn)方式,所述第一數(shù)據(jù)生成單元包括:
[0064]第一位置記錄單元,用于記錄所述第一參考向量集中每個向量中的非空元素的位置信息,并將所述位置信息發(fā)送至第一向量生成單元;
[0065]第一向量生成單元,用于根據(jù)所述第一參考向量集中每個向量中的非空元素選取第一向量集,所述第一向量集中的每個向量不包含空元素;
[0066]所述第一向量生成單元還用于利用向量相似性根據(jù)所述第一向量集生成第二向量集,所述第二向量集中的每個向量不包含空元素;
[0067]所述第一向量生成單元還用于根據(jù)所述參考向量中每個向量中的非空元素的位置信息以及所述第二向量集生成第三向量集,將所述第三向量集發(fā)送至第一合成子單元;
[0068]第一合成子單元,用于從所述第一向量生成單元接收所述第三向量集,將所述第三向量集加入所述矩陣中形成新矩陣,將所述新矩陣作為所述第一數(shù)據(jù)。
[0069]在第六種可能的實(shí)現(xiàn)方式中,結(jié)合第一方面至第一方面的第五種可能的實(shí)現(xiàn)方式中的任意一項(xiàng),所述策略分發(fā)單元還用于:
[0070]將所述從節(jié)點(diǎn)需要生成數(shù)據(jù)的數(shù)據(jù)量及所述從節(jié)點(diǎn)向主節(jié)點(diǎn)返回完成生成數(shù)據(jù)消息的時間間隔至所述從節(jié)點(diǎn);
[0071]按照所述時間間隔,從所述從節(jié)點(diǎn)接收所述數(shù)據(jù)生成結(jié)果,所述完成生成數(shù)據(jù)消息包括所述從節(jié)點(diǎn)已生成的數(shù)據(jù)量和已完成數(shù)據(jù)生成的信息。
[0072]在第七種可能的實(shí)現(xiàn)方式中,結(jié)合第六種可能的實(shí)現(xiàn)方式,所述策略分發(fā)單元還用于:
[0073]若在所述時間間隔內(nèi),沒有接收到所述從節(jié)點(diǎn)發(fā)送的所述完成生成數(shù)據(jù)消息,則指定除所述從節(jié)點(diǎn)之外的其他從節(jié)點(diǎn)按照所述數(shù)據(jù)生成策略生成數(shù)據(jù)并將生成的數(shù)據(jù)上傳至所述文件系統(tǒng)。
[0074]第四方面,提供一種產(chǎn)生數(shù)據(jù)的裝置,所述裝置包括:
[0075]策略接收單元,用于從主節(jié)點(diǎn)接收數(shù)據(jù)生成策略;
[0076]第二數(shù)據(jù)生成單元,用于根據(jù)所述數(shù)據(jù)生成策略生成第二數(shù)據(jù),并將所述第二數(shù)據(jù)上傳至文件系統(tǒng)。
[0077]在第一種可能的實(shí)現(xiàn)方式中,結(jié)合第四方面,所述數(shù)據(jù)生成策略中包括:m行η列的矩陣,其中m表示第一對象的總數(shù),η表示第二對象的總數(shù),所述矩陣中元素為r (u,i),所述r (u, i)表示第u個第一對象對第i個第二對象的評分。
[0078]在第二種可能的實(shí)現(xiàn)方式中,結(jié)合第一種可能的實(shí)現(xiàn)方式,所述策略接收單元接收到的所述數(shù)據(jù)生成策略包括:
[0079]確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展;[0080]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則在所述矩陣的η列向量中選取至少一列作為第二參考向量集;或
[0081]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則在所述矩陣的m行向量中選取至少一行作為第二參考向量集。
[0082]在第三種可能的實(shí)現(xiàn)方式中,結(jié)合第一種可能的實(shí)現(xiàn)方式,所述策略接收單元接收到的所述數(shù)據(jù)生成策略包括:
[0083]確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展;
[0084]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則對所述矩陣的η列向量進(jìn)行聚類處理,并將聚類處理結(jié)果的中心點(diǎn)中的向量作為第二參考向量集;或
[0085]若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則對所述矩陣的m行向量進(jìn)行聚類處理,并將聚類處理結(jié)果的中心點(diǎn)中的向量作為第二參考向量集。
[0086]在第四種可能的實(shí)現(xiàn)方式中,結(jié)合第四方面的第二種或第四方面第三種可能的實(shí)現(xiàn)方式,所述第二數(shù)據(jù)生成單元包括:
[0087]第二位置記錄單元,用于記錄所述第二參考向量集中每個向量中的非空元素的位置信息,并將所述位置信息發(fā)送至第二向量生成單元;
[0088]第二向量生成單元,用于選取所述第二參考向量集中每個向量中的非空元素作為第四向量集,所述第四向量集中的每個向量不包含空元素;
[0089]所述第二向量生成單元還用于利用向量相似性根據(jù)所述第四向量集生成第五向量集,所述第五向量集中的每個向量不包含空元素;
[0090]所述第二向量生成單元還用于根據(jù)所述參考向量中每個向量中的非空元素的位置信息以及所述第五向量集生成第六向量集,并將所述第六向量集發(fā)送至第二合成子單元;
[0091]第二合成子單元,用于從所述第二向量生成單元接收所述第六向量集,將所述第六向量集加入所述矩陣中形成新矩陣,將所述新矩陣作為所述第二數(shù)據(jù)。
[0092]本發(fā)明提供一種產(chǎn)生數(shù)據(jù)的方法和裝置,通過主節(jié)點(diǎn)根據(jù)樣本數(shù)據(jù)制定數(shù)據(jù)生成的策略,并將數(shù)據(jù)生成的策略分發(fā)至至少一個從節(jié)點(diǎn),以便主節(jié)點(diǎn)和從節(jié)點(diǎn)根據(jù)數(shù)據(jù)生成策略產(chǎn)生數(shù)據(jù),并將產(chǎn)生的數(shù)據(jù)上傳至文件系統(tǒng)。能夠利用小規(guī)模的樣本數(shù)據(jù)生成大數(shù)據(jù),還保留了原有小規(guī)模數(shù)據(jù)的特征規(guī)律,提高了生成的大數(shù)據(jù)的參考價(jià)值,同時避免了數(shù)據(jù)的大規(guī)模移動,有效的節(jié)省了存儲和網(wǎng)絡(luò)開銷。
【專利附圖】
【附圖說明】
[0093]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0094]圖1為本發(fā)明實(shí)施例提供另一種產(chǎn)生數(shù)據(jù)的方法的流程示意圖;
[0095]圖2為本發(fā)明實(shí)施例提供一種產(chǎn)生數(shù)據(jù)的方法的流程示意圖;
[0096]圖3為本發(fā)明實(shí)施例提供一種產(chǎn)生數(shù)據(jù)的方法的系統(tǒng)結(jié)構(gòu)示意圖;
[0097]圖4為本發(fā)明實(shí)施例提供一種產(chǎn)生數(shù)據(jù)的方法的示意圖;[0098]圖5為本發(fā)明實(shí)施例提供一種產(chǎn)生數(shù)據(jù)的方法的示意圖;
[0099]圖6本發(fā)明實(shí)施例提供一種產(chǎn)生數(shù)據(jù)的裝置的結(jié)構(gòu)示意圖;
[0100]圖7為本發(fā)明另一實(shí)施例提供另一種產(chǎn)生數(shù)據(jù)的裝置的結(jié)構(gòu)示意圖;
[0101]圖8為本發(fā)明實(shí)施例提供一種產(chǎn)生數(shù)據(jù)的裝置的結(jié)構(gòu)示意圖;
[0102]圖9為本發(fā)明實(shí)施例提供一種產(chǎn)生數(shù)據(jù)的裝置的結(jié)構(gòu)示意圖;
[0103]圖10為本發(fā)明實(shí)施例提供一種產(chǎn)生數(shù)據(jù)的裝置的結(jié)構(gòu)示意圖;
[0104]圖11為本發(fā)明實(shí)施例提供一種產(chǎn)生數(shù)據(jù)的裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0105]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0106]本發(fā)明實(shí)施例提供一種產(chǎn)生數(shù)據(jù)的方法,如圖1所示,基于主節(jié)點(diǎn)側(cè)的方法包括:
[0107]101、根據(jù)已獲得的樣本數(shù)據(jù)制定數(shù)據(jù)生成策略。
[0108]此處的數(shù)據(jù)生成策略為包含主節(jié)點(diǎn)和從節(jié)點(diǎn)在內(nèi)的所有節(jié)點(diǎn)生成數(shù)據(jù)的算法,是由主節(jié)點(diǎn)根據(jù)數(shù)據(jù)生成需求和對樣本數(shù)據(jù)類型進(jìn)行分析得到的方法,并將該方法發(fā)送給至少一個從節(jié)點(diǎn),以便包括主節(jié)點(diǎn)和至少一個從節(jié)點(diǎn)生成符合要求的大規(guī)模數(shù)據(jù),數(shù)據(jù)生成策略具體包括:
[0109]選取出的在樣本數(shù)據(jù)中進(jìn)行擴(kuò)展的方向,例如可以在橫向或縱向進(jìn)行擴(kuò)展;
[0110]根據(jù)擴(kuò)展方向選取出的作為參考向量的向量集合。
[0111]102、根據(jù)數(shù)據(jù)生成策略生成第一數(shù)據(jù),并將所述第一數(shù)據(jù)上傳至文件系統(tǒng)。
[0112]103、將數(shù)據(jù)生成策略發(fā)送至從節(jié)點(diǎn)。
[0113]需要說明的是,主節(jié)點(diǎn)向從節(jié)點(diǎn)發(fā)送數(shù)據(jù)生成策略和主節(jié)點(diǎn)本身根據(jù)數(shù)據(jù)生成策略生成數(shù)據(jù)兩個步驟之間沒有特定的時間先后順序,兩者發(fā)生的順序可以同時發(fā)生也可以互有先后。
[0114]本發(fā)明實(shí)施例提供另一種產(chǎn)生數(shù)據(jù)的方法,如圖2所示,基于從節(jié)點(diǎn)側(cè)的方法包括:
[0115]201、從主節(jié)點(diǎn)接收數(shù)據(jù)生成策略。
[0116]202、根據(jù)數(shù)據(jù)生成策略生成第二數(shù)據(jù),并將第二數(shù)據(jù)上傳至所述文件系統(tǒng)。
[0117]上述的文件系統(tǒng)為一個計(jì)算機(jī)集群,為便于設(shè)備存儲和用戶訪問,可以采用分布式文件系統(tǒng)的方案,在本發(fā)明中文件系統(tǒng)用來接收并存儲主節(jié)點(diǎn)和從節(jié)點(diǎn)生成的數(shù)據(jù),并將上述數(shù)據(jù)整合成一個完整的大規(guī)模數(shù)據(jù)矩陣。
[0118]上述的主節(jié)點(diǎn)和從節(jié)點(diǎn)可以為服務(wù)器和客戶機(jī)的關(guān)系,如圖3所示,主節(jié)點(diǎn)向從節(jié)點(diǎn)發(fā)送數(shù)據(jù)生成策略,從節(jié)點(diǎn)接收主節(jié)點(diǎn)發(fā)送的數(shù)據(jù)生成策略,主節(jié)點(diǎn)根據(jù)數(shù)據(jù)生成策略生成數(shù)據(jù),并將生成的數(shù)據(jù)發(fā)送至文件系統(tǒng),從節(jié)點(diǎn)也根據(jù)數(shù)據(jù)生成策略生成數(shù)據(jù),并將生成的數(shù)據(jù)發(fā)送至文件系統(tǒng)。
[0119]本發(fā)明提供一種產(chǎn)生數(shù)據(jù)的方法和裝置,通過主節(jié)點(diǎn)根據(jù)樣本數(shù)據(jù)制定數(shù)據(jù)生成的策略,并將數(shù)據(jù)生成的策略分發(fā)至至少一個從節(jié)點(diǎn),以便主節(jié)點(diǎn)和從節(jié)點(diǎn)根據(jù)數(shù)據(jù)生成策略產(chǎn)生數(shù)據(jù),并將產(chǎn)生的數(shù)據(jù)上傳至文件系統(tǒng)。能夠利用小規(guī)模的樣本數(shù)據(jù)生成大數(shù)據(jù),還保留了原有小規(guī)模數(shù)據(jù)的特征規(guī)律,提高了生成的大數(shù)據(jù)的參考價(jià)值,同時避免了數(shù)據(jù)的大規(guī)模移動,有效的節(jié)省了存儲和網(wǎng)絡(luò)開銷。
[0120]為了使本領(lǐng)域技術(shù)人員能夠更清楚地理解本發(fā)明實(shí)施例提供的技術(shù)方案,下面通過具體的實(shí)施例,對本發(fā)明實(shí)施例提供的另一種產(chǎn)生數(shù)據(jù)的方法進(jìn)行詳細(xì)說明。
[0121]本發(fā)明實(shí)施例提供另一種產(chǎn)生數(shù)據(jù)的方法,如圖4,該方法包括:
[0122]301、主節(jié)點(diǎn)根據(jù)已獲得的樣本數(shù)據(jù)制定數(shù)據(jù)生成策略。
[0123]示例性的,上述樣本數(shù)據(jù)可以為一個m行η列的矩陣,其中m表示第一對象的總數(shù),η表示第二對象的總數(shù),矩陣中元素為r (u,i),r(u, i)表示第u個第一對象對第i個第二對象的評分。
[0124]示例性的,上述m行η列矩陣中的具體內(nèi)容可以如表1所示:
[0125]表1
[0126]
【權(quán)利要求】
1.一種產(chǎn)生數(shù)據(jù)的方法,其特征在于,所述方法包括: 根據(jù)已獲得的樣本數(shù)據(jù)制定數(shù)據(jù)生成策略; 根據(jù)所述數(shù)據(jù)生成策略生成第一數(shù)據(jù),并將所述第一數(shù)據(jù)上傳至文件系統(tǒng); 將所述數(shù)據(jù)生成策略發(fā)送至從節(jié)點(diǎn),以便所述從節(jié)點(diǎn)根據(jù)所述數(shù)據(jù)生成策略生成第二數(shù)據(jù),并將所述第二數(shù)據(jù)上傳至所述文件系統(tǒng)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述樣本數(shù)據(jù)為m行η列的矩陣,其中m表示第一對象的總數(shù),η表示第二對象的總數(shù),所述矩陣中元素為r (U,1),所述1"(1!,i)表示第u個第一對象對第i個第二對象的評分。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)已獲得的樣本數(shù)據(jù)制定數(shù)據(jù)生成策略包括: 確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展; 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則在所述矩陣的η列向量中選取至少一列作為第一參考向量集;或 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則在所述矩陣的m行向量中選取至少一行作為第一參考向量集。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)已獲得的樣本數(shù)據(jù)制定數(shù)據(jù)生成策略還包括: 確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展; 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則對所述矩陣的η列向量進(jìn)行聚類處理,并將聚類處理結(jié)果的中心點(diǎn)中的向量作為第一參考向量集;或 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則對所述矩陣的m行向量進(jìn)行聚類處理,并將聚類處理結(jié)果的中心點(diǎn)中的向量作為第一參考向量集。
5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述根據(jù)所述數(shù)據(jù)生成策略生成第一數(shù)據(jù)包括: 記錄所述第一參考向量集中每個向量中的非空元素的位置信息; 根據(jù)所述第一參考向量集中每個向量中的非空兀素選取第一向量集,所述第一向量集中的每個向量不包含空元素; 利用向量相似性根據(jù)所述第一向量集生成第二向量集,所述第二向量集中的每個向量不包含空元素; 根據(jù)所述參考向量中每個向量中的非空元素的位置信息以及所述第二向量集生成第三向量集; 將所述第三向量集加入所述矩陣中形成新矩陣,將所述新矩陣作為所述第一數(shù)據(jù)。
6.根據(jù)權(quán)利要求1至5任意一項(xiàng)所述的方法,其特征在于,在所述將所述數(shù)據(jù)生成策略發(fā)送至從節(jié)點(diǎn)時,所述方法還包括: 將所述從節(jié)點(diǎn)需要生成數(shù)據(jù)的數(shù)據(jù)量及所述從節(jié)點(diǎn)向主節(jié)點(diǎn)返回完成生成數(shù)據(jù)消息的時間間隔發(fā)送至所述從節(jié)點(diǎn); 按照所述時間間隔,從所述從節(jié)點(diǎn)接收所述數(shù)據(jù)生成結(jié)果,所述完成生成數(shù)據(jù)消息包括所述從節(jié)點(diǎn)已生成的數(shù)據(jù)量和已完成數(shù)據(jù)生成的信息。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括:若在所述時間間隔內(nèi),沒有接收到所述從節(jié)點(diǎn)發(fā)送的所述完成生成數(shù)據(jù)消息,則指定除所述從節(jié)點(diǎn)之外的其他從節(jié)點(diǎn)按照所述數(shù)據(jù)生成策略生成數(shù)據(jù)并將生成的數(shù)據(jù)上傳至所述文件系統(tǒng)。
8.—種產(chǎn)生數(shù)據(jù)的方法,其特征在于,所述方法包括: 從主節(jié)點(diǎn)接收數(shù)據(jù)生成策略; 根據(jù)所述數(shù)據(jù)生成策略生成第二數(shù)據(jù),并將所述第二數(shù)據(jù)上傳至文件系統(tǒng)。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述數(shù)據(jù)生成策略中包括:m行η列的矩陣,其中m表示第一對象的總數(shù),η表示第二對象的總數(shù),所述矩陣中元素為r (u,i),所述r (u, i)表示第u個第一對象對第i個第二對象的評分。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述從主節(jié)點(diǎn)接收的數(shù)據(jù)生成策略包括: 確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展; 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則在所述矩陣的η列向量中選取至少一列作為第二參考向量集;或 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則在所述矩陣的m行向量中選取至少一行作為第二參考向量集。
11.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述從主節(jié)點(diǎn)接收的數(shù)據(jù)生成策略包括: 確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展; 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則對所述矩陣的η列向量進(jìn)行聚類處理,并將聚類處理結(jié)果的中心點(diǎn)中的向量作為第二參考向量集;或 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則對所述矩陣的m行向量進(jìn)行聚類處理,并將聚類處理結(jié)果的中心點(diǎn)中的向量作為第二參考向量集。
12.根據(jù)權(quán)利要求10或11所述的方法,其特征在于,所述根據(jù)所述數(shù)據(jù)生成策略生成第二數(shù)據(jù)包括: 記錄所述第二參考向量集中每個向量中的非空元素的位置信息; 選取所述第二參考向量集中每個向量中的非空元素作為第四向量集,所述第四向量集中的每個向量不包含空元素; 利用向量相似性根據(jù)所述第四向量集生成第五向量集,所述第五向量集中的每個向量不包含空元素; 根據(jù)所述參考向量中每個向量中的非空元素的位置信息以及所述第五向量集生成第六向量集; 將所述第六向量集加入所述矩陣中形成新矩陣,將所述新矩陣作為所述第二數(shù)據(jù)。
13.—種產(chǎn)生數(shù)據(jù)的裝置,其特征在于,所述裝置包括: 策略制定單元,用于根據(jù)已獲得的樣本數(shù)據(jù)制定數(shù)據(jù)生成策略; 第一數(shù)據(jù)生成單元,用于根據(jù)所述數(shù)據(jù)生成策略生成第一數(shù)據(jù),并將所述第一數(shù)據(jù)上傳至文件系統(tǒng); 策略分發(fā)單元,用于將所述數(shù)據(jù)生成策略發(fā)送至從節(jié)點(diǎn),以便所述從節(jié)點(diǎn)根據(jù)所述數(shù)據(jù)生成策略生成第二數(shù)據(jù),并將所述第二數(shù)據(jù)上傳至所述文件系統(tǒng)。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述樣本數(shù)據(jù)為m行η列的矩陣,其中m表示第一對象的總數(shù),η表示第二對象的總數(shù),所述矩陣中元素為r (u,i),所述r (u,i)表示第u個第一對象對第i個第二對象的評分。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述策略制定單元具體用于: 確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展; 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則在所述矩陣的η列向量中選取至少一列作為第一參考向量集;或 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則在所述矩陣的m行向量中選取至少一行作為第一參考向量集。
16.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述策略制定單元具體用于: 確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展; 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則在所述矩陣的η列向量中選取至少一列作為第一參考向量集;或 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則在所述矩陣的m行向量中選取至少一行作為第一參考向量集。
17.根據(jù)權(quán)利要求15或16所述的裝置,其特征在于,所述第一數(shù)據(jù)生成單元包括: 第一位置記錄單元,用于記錄所述第一參考向量集中每個向量中的非空元素的位置信息,并將所述位置信息發(fā)送至第一向量生成單元; 第一向量生成單兀,用于根據(jù)所述第一參考向量集中每個向量中的非空兀素選取第一向量集,所述第一向量集中的每個向量不包含空元素; 所述第一向量生成單元,還用于利用向量相似性根據(jù)所述第一向量集生成第二向量集,所述第二向量集中的每個向量不包含空元素; 所述第一向量生成單元,還用于從根據(jù)所述參考向量中每個向量中的非空元素的位置信息以及所述第二向量集生成第三向量集,將所述第三向量集發(fā)送至第一合成子單元; 第一合成子單元,用于從所述第一向量生成單元接收所述第三向量集,將所述第三向量集加入所述矩陣中形成新矩陣,將所述新矩陣作為所述第一數(shù)據(jù)。
18.根據(jù)權(quán)利要求12至17任意一項(xiàng)所述的裝置,其特征在于,所述策略分發(fā)單元還用于: 將所述從節(jié)點(diǎn)需要生成數(shù)據(jù)的數(shù)據(jù)量及所述從節(jié)點(diǎn)向主節(jié)點(diǎn)返回完成生成數(shù)據(jù)消息的時間間隔至所述從節(jié)點(diǎn); 按照所述時間間隔,從所述從節(jié)點(diǎn)接收所述數(shù)據(jù)生成結(jié)果,所述完成生成數(shù)據(jù)消息包括所述從節(jié)點(diǎn)已生成的數(shù)據(jù)量和已完成數(shù)據(jù)生成的信息。
19.根據(jù)權(quán)利要求18所述的裝置,其特征在于,所述策略分發(fā)單元還用于: 若在所述時間間隔內(nèi),沒有接收到所述從節(jié)點(diǎn)發(fā)送的所述完成生成數(shù)據(jù)消息,則指定除所述從節(jié)點(diǎn)之外的其他從節(jié)點(diǎn)按照所述數(shù)據(jù)生成策略生成數(shù)據(jù)并將生成的數(shù)據(jù)上傳至所述文件系統(tǒng)。
20.一種產(chǎn)生數(shù)據(jù)的裝置,其特征在于,所述裝置包括: 策略接收單元,用于從主節(jié)點(diǎn)接收數(shù)據(jù)生成策略; 第二數(shù)據(jù)生成單元,用于根據(jù)所述數(shù)據(jù)生成策略生成第二數(shù)據(jù),并將所述第二數(shù)據(jù)上傳至文件系統(tǒng)。
21.根據(jù)權(quán)利要求20所述的裝置,其特征在于,所述數(shù)據(jù)生成策略中包括:m行η列的矩陣,其中m表示第一對象的總數(shù),η表示第二對象的總數(shù),所述矩陣中元素為r (u,i),所述r(u, i)表示第u個第一對象對第i個第二對象的評分。
22.根據(jù)權(quán)利要求21所述的裝置,其特征在于,所述策略接收單元接收到的所述數(shù)據(jù)生成策略包括: 確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展; 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則在所述矩陣的η列向量中選取至少一列作為第二參考向量集;或 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則在所述矩陣的m行向量中選取至少一行作為 第二參考向量集。
23.根據(jù)權(quán)利要求21所述的裝置,其特征在于,所述策略接收單元接收到的所述數(shù)據(jù)生成策略包括: 確定數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展和/或沿所述矩陣的縱向擴(kuò)展; 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨臋M向擴(kuò)展,則對所述矩陣的η列向量進(jìn)行聚類處理,并將聚類處理結(jié)果的中心點(diǎn)中的向量作為第二參考向量集;或 若確定的數(shù)據(jù)生成的方向?yàn)檠厮鼍仃嚨目v向擴(kuò)展,則對所述矩陣的m行向量進(jìn)行聚類處理,并將聚類處理結(jié)果的中心點(diǎn)中的向量作為第二參考向量集。
24.根據(jù)權(quán)利要求22或23所述的裝置,其特征在于,所述第二數(shù)據(jù)生成單元包括: 第二位置記錄單元,用于記錄所述第二參考向量集中每個向量中的非空元素的位置信息,并將所述位置信息發(fā)送至第二向量生成單元; 第二向量生成單元,用于選取所述第二參考向量集中每個向量中的非空元素作為第四向量集,所述第四向量集中的每個向量不包含空元素; 所述第二向量生成單元還用于利用向量相似性根據(jù)所述第四向量集生成第五向量集,所述第五向量集中的每個向量不包含空元素; 所述第二向量生成單元還用于根據(jù)所述參考向量中每個向量中的非空元素的位置信息以及所述第五向量集生成第六向量集,并將所述第六向量集發(fā)送至第二合成子單元; 第二合成子單元,用于從所述第二向量生成單元接收所述第六向量集,將所述第六向量集加入所述矩陣中形成新矩陣,將所述新矩陣作為所述第二數(shù)據(jù)。
【文檔編號】H04L29/08GK103970738SQ201310027416
【公開日】2014年8月6日 申請日期:2013年1月24日 優(yōu)先權(quán)日:2013年1月24日
【發(fā)明者】羅純杰, 王磊, 詹劍鋒, 張立新 申請人:華為技術(shù)有限公司, 中國科學(xué)院計(jì)算技術(shù)研究所