專利名稱:高維分層抽樣的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及信息處理領(lǐng)域,更具體地,涉及對與信息處理系統(tǒng)數(shù)據(jù)庫相關(guān)聯(lián)的記錄進(jìn)行分層抽樣的技術(shù)。
背景技術(shù):
大型數(shù)據(jù)庫常常包括數(shù)百萬或更多記錄,每條記錄都具有很多屬性??梢岳贸闃蛹夹g(shù)對這樣的數(shù)據(jù)庫進(jìn)行統(tǒng)計(jì)操作,一般涉及到從數(shù)據(jù)庫隨機(jī)選擇記錄。然后可以分析所選的記錄以產(chǎn)生表征該數(shù)據(jù)庫中完整記錄集合的統(tǒng)計(jì)值。為了確保所得的統(tǒng)計(jì)值精確表征該數(shù)據(jù)庫,可以使用分層抽樣技術(shù)。在分層抽樣中,數(shù)據(jù)庫記錄被分成子組或“層”,然后隨機(jī)從每個(gè)子組中選擇一個(gè)或多個(gè)記錄加以分析。在題為“Stratified Sampling of Datain a Database System”的美國專利申請公開No. 2002/0198863中描述了常規(guī)分層抽樣技術(shù)的范例。常規(guī)分層抽樣技術(shù)的問題是這種技術(shù)通常試圖將記錄分成互相排斥的子組,因此可能僅考慮了有限數(shù)量的屬性。通常每條記錄的屬性數(shù)量被稱為該數(shù)據(jù)庫的“維數(shù)”,常規(guī)的分層抽樣技術(shù)實(shí)際上僅處于低維領(lǐng)域。不過,很多現(xiàn)代的數(shù)據(jù)庫,例如用于跟蹤電信應(yīng)用中連接數(shù)據(jù)的那些數(shù)據(jù)庫,具有非常高的維數(shù)。例如,考慮存儲了 N條記錄的數(shù)據(jù)庫,每條記錄有K個(gè)屬性,其中每個(gè)屬性取mk個(gè)離散值,I < k < K。如果K很小,就能夠簡單地連鎖這些屬性,以便將數(shù)據(jù)庫劃分成互相排斥的子組。在這種情況下,由給出子組的數(shù)目。不過,隨著K變大,這種方法就變得不切實(shí)際了。例如,如果mk = 5且K= 10,那么有接近IO7個(gè)子組,其中很多將不包含記錄或僅包含少量記錄。在這種高維上下文中,常規(guī)的分層抽樣技術(shù)不能針對K個(gè)屬性的每個(gè)提供適當(dāng)?shù)姆謱訕颖?。在眾多信息處理?yīng)用中,包括大規(guī)模數(shù)據(jù)庫集成和維護(hù)、數(shù)據(jù)挖掘、數(shù)據(jù)倉儲、查詢處理、電信網(wǎng)絡(luò)流量分析、意見調(diào)查等,這個(gè)問題都很明顯。
發(fā)明內(nèi)容
本發(fā)明的例示性實(shí)施例提供了高維分層抽樣技術(shù),適用于每條記錄的記錄數(shù)量N和屬性數(shù)量K都大的應(yīng)用中。這些實(shí)施例包括順序和最優(yōu)高維分層抽樣算法。前者對于在線抽樣尤其有用,而后者對于離線或周期性抽樣尤其有用,但兩者都還可以用于各種其他抽樣應(yīng)用中。根據(jù)本發(fā)明的一個(gè)方面,信息處理系統(tǒng)的處理裝置用于執(zhí)行數(shù)據(jù)庫的高維分層抽樣,所述數(shù)據(jù)庫包括多條布置在交疊子組中的記錄。對于給定記錄,處理裝置確定給定記錄與哪個(gè)子組相關(guān)聯(lián),對于與給定記錄相關(guān)聯(lián)的每個(gè)子組,檢查子組的抽樣率是否小于指定抽樣率。如果每個(gè)子組的抽樣率都小于指定抽樣率,處理裝置對所述給定記錄抽樣,否則,不對給定記錄抽樣。針對其他記錄重復(fù)確定、檢查和抽樣操作,處理抽樣操作獲得的樣本以產(chǎn)生表征數(shù)據(jù)庫的信息。根據(jù)本發(fā)明的另一方面,信息處理系統(tǒng)的處理裝置通過優(yōu)化表征要對多條記錄的哪條抽樣的目標(biāo)函數(shù)來執(zhí)行數(shù)據(jù)庫的高維分層抽樣,所述數(shù)據(jù)庫包括多條布置在交疊子組中的記錄。目標(biāo)函數(shù)可以基于例如被抽樣記錄的似然函數(shù),更具體而言,可以基于被抽樣記錄的似然函數(shù)的二項(xiàng)式-正態(tài)近似。通過迭代地更新二進(jìn)制指示符的分量來進(jìn)行目標(biāo)函數(shù)的優(yōu)化,二進(jìn)制指示符指定是否對多條記錄的相應(yīng)記錄抽樣。處理裝置基于二進(jìn)制指示符的已更新分量優(yōu)化目標(biāo)函數(shù)的值對多條記錄的特定記錄抽樣,處理所得的樣本以產(chǎn)生表征包括記錄子組的數(shù)據(jù)庫的信息。例示性實(shí)施例相對于常規(guī)方法提供了顯著優(yōu)點(diǎn)。例如,可以使用例示性實(shí)施例中的順序和最優(yōu)高維分層抽樣過程產(chǎn)生計(jì)算和存儲要求最小的可靠無偏樣本。從附圖和以下詳細(xì)描述,本發(fā)明的這些和其他特征和優(yōu)點(diǎn)將變得更加明顯。
圖1是本發(fā)明例示性實(shí)施例中實(shí)施高維分層抽樣的信息處理系統(tǒng)的方框圖。圖2示出了圖1系統(tǒng)的處理裝置的更詳細(xì)視圖。圖3是本發(fā)明例示性實(shí)施例中的順序高維分層抽樣過程的流程圖。圖4是本發(fā)明例示性實(shí)施例中的最優(yōu)高維分層抽樣過程的流程圖。圖5示出了可以應(yīng)用圖3或4的高維分層抽樣過程的網(wǎng)絡(luò)流量應(yīng)用中一組連接記錄的簡單范例。圖6是比較順序和最優(yōu)高維分層抽樣作為抽樣率的函數(shù)的估計(jì)誤差與常規(guī)隨機(jī)抽樣估計(jì)誤差的一組曲線。圖7示出了多組曲線,每組曲線比較了順序和最優(yōu)高維分層抽樣作為子組數(shù)量的函數(shù)的估計(jì)誤差與常規(guī)隨機(jī)抽樣估計(jì)誤差。
具體實(shí)施例方式這里將結(jié)合示范性信息處理系統(tǒng)、處理裝置和高維分層抽樣技術(shù)例示本發(fā)明。不過要理解,本發(fā)明不限于用于所公開的特定類型的系統(tǒng)、裝置和技術(shù)。例如,可以利用除結(jié)合例示性實(shí)施例描述的那些之外的處理裝置和工序在各種各樣的其他信息處理系統(tǒng)配置中實(shí)現(xiàn)本發(fā)明的各方面。圖1示出了信息處理系統(tǒng)100,包括通過網(wǎng)絡(luò)104耦合到數(shù)據(jù)庫系統(tǒng)105的控制
器102,數(shù)據(jù)庫系統(tǒng)包括多個(gè)服務(wù)器106-1、106-2、......106-N,也表不為服務(wù)器I、服務(wù)器
2.......服務(wù)器N。服務(wù)器106的每個(gè)都具有關(guān)聯(lián)的數(shù)據(jù)庫108。這些數(shù)據(jù)庫存儲記錄或
其他數(shù)據(jù)對象,供控制器102經(jīng)由網(wǎng)絡(luò)104訪問。本實(shí)施例中的控制器102包括抽樣模塊110,配置成實(shí)施下文更詳細(xì)描述的一種或多種高維分層抽樣技術(shù)。抽樣模塊110利用高維分層抽樣技術(shù)處理記錄集合,記錄集合被分成未必互相排斥的子組。由抽樣模塊110處理的記錄可以從數(shù)據(jù)源112接收或從數(shù)據(jù)庫系統(tǒng)105的一個(gè)或多個(gè)數(shù)據(jù)庫108檢索。可以由控制器102在樣本數(shù)據(jù)庫114中存儲得到的分層樣本。盡管在圖中被示為與數(shù)據(jù)庫系統(tǒng)105分開,但也可以在數(shù)據(jù)庫系統(tǒng)105之內(nèi)實(shí)現(xiàn)諸如控制器102和樣本數(shù)據(jù)庫114的系統(tǒng)元件??刂破?02可以包括適于通過網(wǎng)絡(luò)104與數(shù)據(jù)庫系統(tǒng)105通信的計(jì)算機(jī)或任何其他類型處理裝置的至少一部分。例如,控制器可以包括便攜式或膝上型計(jì)算機(jī)、移動電話、個(gè)人數(shù)字助理(PDA)、無線電子郵件裝置、電視機(jī)頂盒(STB)或其他通信裝置。
網(wǎng)絡(luò)104可以包括諸如因特網(wǎng)的廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、有線電視網(wǎng)、電話網(wǎng)、衛(wèi)星網(wǎng)絡(luò)以及這些或其他網(wǎng)絡(luò)的部分或組合。在其他實(shí)施例中,可以在一個(gè)或多個(gè)服務(wù)器106中或其關(guān)聯(lián)的數(shù)據(jù)庫108中,或在耦合到這些元件中一個(gè)或多個(gè)的獨(dú)立集中式控制器中實(shí)現(xiàn)抽樣模塊110。也可以通過分布式方式實(shí)現(xiàn)抽樣模塊,模塊的各部分布置于裝置102、106或108的相應(yīng)裝置或其子集中。數(shù)據(jù)庫108不必是任何特定配置,因此這里使用的術(shù)語“數(shù)據(jù)庫”意在被寬泛解釋為涵蓋存儲記錄的任何數(shù)量的不同布置。現(xiàn)在參考圖2,示出了系統(tǒng)100的控制器102的一種可能實(shí)施方式。在這一實(shí)施例中,控制器包括耦合到存儲器202的處理器200,還包括網(wǎng)絡(luò)接口電路204。假設(shè)存儲器202存儲記錄205或其部分以供抽樣模塊110處理。存儲的記錄205可以從數(shù)據(jù)源112接收或通過網(wǎng)絡(luò)104從數(shù)據(jù)庫系統(tǒng)105檢索。在這種實(shí)施方式中,控制器102的抽樣模塊110包括子組識別模塊210、抽樣率確定模塊212、抽樣決策模塊214、優(yōu)化模塊215和一組計(jì)數(shù)器220,包括統(tǒng)計(jì)每個(gè)子組的記錄數(shù)目的計(jì)數(shù)器222和統(tǒng)計(jì)每個(gè)子組的樣本數(shù)目的計(jì)數(shù)器224。下文將結(jié)合圖3和4更詳細(xì)地描述這些模塊和計(jì)數(shù)器的操作??梢詫⑻幚砥?00實(shí)現(xiàn)為微處理器、微控制器、專用集成電路(ASIC)或其他類型的處理裝置,以及這種裝置的部分或組合。存儲器202可以包括電子隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、基于磁盤的存儲器或其他類型的存儲裝置以及這種裝置的部分或組合??梢栽诖鎯蛨?zhí)行用于高維分層抽樣,以及用于執(zhí)行相關(guān)操作,例如與記錄存儲和處理相關(guān)聯(lián)的那些操作的一種或多種軟件程序時(shí)使用處理器和存儲器。因此可以至少部分利用這樣的軟件程序?qū)崿F(xiàn)模塊210、212、214和215。可以將存儲器202看做這里更一般地稱為計(jì)算機(jī)程序產(chǎn)品或更一般地稱為計(jì)算機(jī)可讀存儲介質(zhì)(其中包含可執(zhí)行程序代碼)的范例。計(jì)算機(jī)可讀存儲介質(zhì)的其他范例可以包括處于任何組合形式的磁盤或其他類型的磁性或光學(xué)介質(zhì)。處理器200、存儲器202和接口電路204可以包括經(jīng)適當(dāng)修改以工作于這里所述方式下的公知常規(guī)電路。而且,可以將圖2中所示的各種模塊視為用于實(shí)現(xiàn)關(guān)聯(lián)功能的電路范例。例如,這樣的電路的部分可以包括矩陣乘法電路或其他類型的運(yùn)算邏輯電路。這種電路的常規(guī)方面是本領(lǐng)域的技術(shù)人員公知的,因此這里將不會詳細(xì)描述。要認(rèn)識到,可以利用除圖1和2的示范性布置中具體示出的那些之外的部件和模塊實(shí)現(xiàn)這里公開的信息處理系統(tǒng)和關(guān)聯(lián)控制器?,F(xiàn)在將參考圖3和4的流程圖描述例示性實(shí)施例中的系統(tǒng)100的操作。這些流程圖例示了相應(yīng)的順序和最優(yōu)高維分層抽樣技術(shù)。對于這些實(shí)施例,將假設(shè)將抽樣技術(shù)用于存儲N條記錄的數(shù)據(jù)庫,每條記錄有K個(gè)屬性,其中每個(gè)屬性取mk個(gè)離散值,I < k < K。這個(gè)被抽樣的數(shù)據(jù)庫例如可以包括數(shù)據(jù)庫系統(tǒng)105中的一個(gè)或多個(gè)數(shù)據(jù)庫108或整個(gè)數(shù)據(jù)庫系統(tǒng)105。應(yīng)當(dāng)指出,在這種語境中,N是指所存儲記錄的總數(shù),不是如圖1語境中那樣的服務(wù)器106和數(shù)據(jù)庫108的數(shù)量。一般由感興趣字段及其組合的類別預(yù)定義子組。在以下描述的部分中,不帶限制性地假設(shè),記錄的每個(gè)子組都針對一個(gè)屬性取Hlk個(gè)離散值或類別值(對于連續(xù)的屬性,可以將它們離散化或分類成Hlk個(gè)值)的特定一個(gè),從而共有J = 個(gè)子組或?qū)?。因此,在這些實(shí)施例中子組可以具有很多交疊的記錄。這與常規(guī)的分層抽樣不同,如前所述,常規(guī)的分層抽樣將記錄分成互相排斥的子組。應(yīng)當(dāng)指出,對于大規(guī)模的復(fù)雜數(shù)據(jù)庫J可能非常大。而且,子組的數(shù)量J可能大于上述假設(shè)下得到的個(gè)子組每個(gè)子組針對一個(gè)屬性取Hlk個(gè)離散或類別值的特定一個(gè)。例如,可能通過取超過一個(gè)屬性的組合來定義子組。在很多典型實(shí)際應(yīng)用中,多個(gè)屬性的這種組合都可能很重要。因此,J可能大于但小于??梢匀缦掠霉奖硎居涗浐妥咏M之間的關(guān)系。令A(yù)是NX J的二元矩陣,其中Aij表示第i條記錄是否是第j個(gè)子組的部分,i = 1,…,N,j = l,…,J。為簡單起見,假設(shè)每條記錄都屬于至少一個(gè)子組,于是A的每排必須包含至少一個(gè)I。令c e
其中n是被抽樣的記錄數(shù)量,N是要從其抽樣的記錄數(shù)量,使得Ci表示第i條記錄是否被抽樣。令
N n} =
=1
NSj = YfAj分別是對于第j個(gè)子組而言的記錄數(shù)量和被抽樣記錄數(shù)量。由于J可能很大,可以將當(dāng)前語境中高維分層抽樣的目標(biāo)表征為選擇,使得= 1,…,J。如前所述,這里提到的用于高維分層抽樣的兩種不同技術(shù)為順序和最優(yōu)高維分層抽樣,并分別結(jié)合圖3和4描述。重要的是指出上述NX J的二元矩陣A通常非常稀疏,從而A可能被存儲于緊湊的存儲空間中。而且,可以利用本領(lǐng)域的技術(shù)人員公知的稀疏矩陣運(yùn)算有效率地進(jìn)行利用了A稀疏性的計(jì)算。圖5中示出了網(wǎng)絡(luò)流量應(yīng)用中一組連接記錄的簡單范例,其中可以應(yīng)用圖3或4的高維分層抽樣處理。在本范例中,示出了三條連接記錄,每條記錄都包括用于開始時(shí)間、終止時(shí)間、連接類型、失敗呼叫嘗試(FCA)和最強(qiáng)導(dǎo)頻的字段。不過要認(rèn)識到,可以將這里公開的技術(shù)應(yīng)用于任何類型的記錄,不要求使用任何特定的記錄格式。因此,這里使用的術(shù)語“記錄”應(yīng)當(dāng)做寬泛的解釋,以便涵蓋所存儲數(shù)據(jù)或其他數(shù)據(jù)對象的眾多不同布置?,F(xiàn)在參考圖3,示出了流程圖,例示了在圖I的系統(tǒng)100中實(shí)施的順序高維分層抽樣過程。本實(shí)施例中的抽樣過程一般涉及順序處理記錄,例如,在從數(shù)據(jù)源112接收這樣的記錄時(shí)。這是一種“在線”抽樣,因?yàn)榭梢栽诿織l新記錄可用時(shí)以順序方式實(shí)時(shí)對記錄抽樣。該過程包括圖示的步驟300到312。在步驟300中,獲得要考慮進(jìn)行抽樣的下一記錄。如前所述,這條記錄可以是從數(shù)據(jù)源112之一接收的新記錄,要存儲于數(shù)據(jù)庫108之一中。在一些實(shí)施例中,可以隨機(jī)變更考慮抽樣的記錄次序,以便確保抽樣不會被諸如本地存儲器結(jié)構(gòu)的因素影響。在步驟302中,確定這一特定記錄屬于J個(gè)子組的哪個(gè)。在這一實(shí)施例中,假設(shè)子組是以上述方式預(yù)定的。在其他實(shí)施例中,可以利用諸如關(guān)聯(lián)規(guī)則采掘算法的技術(shù)確定子組。在步驟304中,確定針對記錄所屬的每個(gè)子組的抽樣率是否小于指定的抽樣率P。利用每個(gè)子組計(jì)數(shù)器222記錄的對應(yīng)一個(gè)和每個(gè)子組計(jì)數(shù)器224樣本的對應(yīng)一個(gè)為給定子組確定抽樣率。每個(gè)子組計(jì)數(shù)器的記錄給出了以作為該子組一部分的記錄數(shù)衡量的子組大小度量。每個(gè)子組計(jì)數(shù)器的樣本給出了子組被抽樣的次數(shù)。確定子組被抽樣次數(shù)除以作為子組一部分的記錄數(shù)目作為子組的抽樣率。針對包括考慮要抽樣的記錄的每個(gè)子組獨(dú)立確定這一抽樣率。如果針對記錄所屬的每個(gè)子組的抽樣率小于指定抽樣率p,如步驟306中所示對記錄抽樣。否則,如步驟308中所示,不對記錄抽樣。于是,當(dāng)且僅當(dāng)對于記錄所屬的每個(gè)子組,由指定抽樣率P界定所實(shí)現(xiàn)抽樣率的上限時(shí),才對考慮中的給定記錄抽樣。然后該過程前進(jìn)到步驟310,以為被抽樣或未抽樣記錄所屬的子組更新適當(dāng)?shù)挠?jì)數(shù)器。然后在應(yīng)用于下一條考慮抽樣的記錄時(shí)在過程的下一次迭代中使用更新的計(jì)數(shù)器。如果在步驟306中對樣本抽樣,對于該記錄所屬的每個(gè)子組,更新每個(gè)子組記錄的計(jì)數(shù)器222的對應(yīng)一個(gè)和每個(gè)子組樣本的計(jì)數(shù)器224的對應(yīng)一個(gè)。不過,如果不對考慮的記錄抽樣,使得過程通過步驟308到達(dá)步驟310,僅需要更新每個(gè)子組計(jì)數(shù)器的記錄,因?yàn)槊總€(gè)子組的樣本數(shù)量將不變。 在步驟312中,確定是否有更多記錄要處理。如果有更多記錄,該過程返回到步驟300以獲得考慮進(jìn)行抽樣的下一記錄。否則,如圖所示結(jié)束該過程。一旦已經(jīng)利用圖3的過程產(chǎn)生了給定一組記錄的適當(dāng)樣本,樣本就可以被存儲在樣本數(shù)據(jù)庫114中或系統(tǒng)100中的別處,并用于執(zhí)行回歸分析、數(shù)據(jù)采掘或其他功能。更一般地,進(jìn)一步處理樣本操作的結(jié)果以產(chǎn)生表征包括記錄子組的數(shù)據(jù)庫的信息。現(xiàn)在參考圖4,示出了流程圖,例示了在圖I的系統(tǒng)100中實(shí)施的最優(yōu)高維分層抽樣過程。本實(shí)施例中的抽樣過程一般涉及按組處理記錄,例如,在從一個(gè)或多個(gè)數(shù)據(jù)庫108檢索時(shí)或在從一個(gè)或多個(gè)數(shù)據(jù)源112接收時(shí)??梢詫⒋艘暈橐环N“離線”或周期抽樣,因?yàn)椴皇窍駡D3實(shí)施例那樣順序處理記錄。該過程包括圖示的步驟400到410。在最優(yōu)抽樣過程中,優(yōu)化目標(biāo)函數(shù)獲得期望的抽樣方案。一種可能的目標(biāo)函數(shù)是
根據(jù)c使函數(shù)-〃J)2最小化。這是一個(gè)二次范數(shù),容易忽略小的層,因此在特定應(yīng)
r _ Y
用中不適宜。另一種可能性是使相對誤差;最小化,這更多注重小層。不過,作
\ ni J
為這兩個(gè)可能目標(biāo)函數(shù)的替代,下面將描述在大層和小層之間實(shí)現(xiàn)良好折衷的目標(biāo)函數(shù)。注意,如前所述,針對每個(gè)子組的樣本大小S」遵循二項(xiàng)式分布。通過獨(dú)立處理每個(gè)子組,能夠如下表示由樣本的似然函數(shù)給出的二項(xiàng)式目標(biāo)函數(shù)
fiA s. usQ p J (I-p) } 1其中r^_是第j個(gè)子組的大小。注意,對子組的獨(dú)立性假設(shè)并不表示子組不交疊。相反,僅僅意味著每個(gè)子組可能涉及到記錄的任意子集,與什么記錄與其他子組相關(guān)聯(lián)無關(guān)。因此,這暗中假設(shè)與不同子組相關(guān)聯(lián)的記錄間有隨機(jī)交疊。似然函數(shù)的最大化將獲得關(guān)于要對哪些記錄抽樣的方案?;诙?xiàng)式-正態(tài)近似,即,Sj大致遵守正態(tài)分布N (njP,njP (l_p)),可以如下用公式表示對應(yīng)的正常目標(biāo)函數(shù)
權(quán)利要求
1.一種設(shè)備,包括 處理裝置,包括具有關(guān)聯(lián)存儲器的處理器; 其中,所述處理裝置用于 對于給定記錄,確定所述給定記錄與多個(gè)子組中的哪個(gè)子組相關(guān)聯(lián); 對于與所述給定記錄相關(guān)聯(lián)的每個(gè)子組,檢查所述子組的抽樣率是否小于指定抽樣率; 如果每個(gè)子組的抽樣率都小于所述指定抽樣率,對所述給定記錄抽樣,否則,不對所述給定記錄抽樣;以及 對于多個(gè)其他記錄中的每個(gè),重復(fù)所述確定、檢查和抽樣操作; 其中,由所述抽樣操作所獲得的樣本被處理以產(chǎn)生表征包括所述子組的數(shù)據(jù)庫的信肩、O
2.根據(jù)權(quán)利要求I所述的設(shè)備,其中,所述處理裝置包括具有抽樣模塊的控制器,所述抽樣模塊被配置成,對于所述給定記錄和所述多個(gè)其他記錄,執(zhí)行所述確定、檢查和抽樣操作。
3.根據(jù)權(quán)利要求I所述的設(shè)備,其中,所述子組包括所述數(shù)據(jù)庫記錄的交疊集合。
4.根據(jù)權(quán)利要求3所述的設(shè)備,其中,所述處理裝置還用于為每個(gè)子組維持第一計(jì)數(shù)器和第二計(jì)數(shù)器,所述第一計(jì)數(shù)器指示與所述子組相關(guān)聯(lián)的記錄數(shù)量,所述第二計(jì)數(shù)器指示來自所述子組的所述記錄被抽樣的次數(shù)。
5.根據(jù)權(quán)利要求4所述的設(shè)備,其中,所述處理裝置還用于為每個(gè)子組確定抽樣率,所述抽樣率根據(jù)為所述子組維持的所述第一計(jì)數(shù)器的值和為所述子組維持的所述第二計(jì)數(shù)器的值確定。
6.根據(jù)權(quán)利要求5所述的設(shè)備,其中,所述處理裝置還用于基于所述給定記錄是否被抽樣,為與所述給定記錄相關(guān)聯(lián)的每個(gè)子組更新所述第一和第二計(jì)數(shù)器中的至少一個(gè)。
7.一種包括根據(jù)權(quán)利要求I所述的設(shè)備的集成電路。
8.一種處理器實(shí)現(xiàn)的方法,包括如下步驟 對于給定記錄,確定所述給定記錄與多個(gè)子組中的哪個(gè)子組相關(guān)聯(lián); 對于與所述給定記錄相關(guān)聯(lián)的每個(gè)子組,檢查所述子組的抽樣率是否小于指定抽樣率; 如果每個(gè)子組的抽樣率都小于所述指定抽樣率,對所述給定記錄抽樣,否則,不對所述給定記錄抽樣; 對于多個(gè)其他記錄中的每個(gè),重復(fù)所述確定、檢查和抽樣步驟;以及 處理由所述抽樣步驟獲得的樣本,以產(chǎn)生表征包括所述子組的數(shù)據(jù)庫的信息。
9.一種包括計(jì)算機(jī)可讀存儲介質(zhì)的產(chǎn)品,所述計(jì)算機(jī)可讀存儲介質(zhì)中包含可執(zhí)行程序代碼,在由處理裝置的處理器執(zhí)行時(shí),所述代碼令所述裝置執(zhí)行根據(jù)權(quán)利要求8所述方法的步驟。
10.一種設(shè)備,包括 處理裝置,包括具有關(guān)聯(lián)存儲器的處理器; 其中,所述處理裝置用于 通過迭代地更新指定多個(gè)記錄的各自記錄是否被抽樣的二進(jìn)制指示符的分量,優(yōu)化目標(biāo)函數(shù),所述目標(biāo)函數(shù)表征在交疊的記錄子組中多個(gè)記錄的哪個(gè)記錄被抽樣;以及 基于所述二進(jìn)制指示符的已更新分量優(yōu)化所述目標(biāo)函數(shù)的值,對所述多個(gè)記錄的特定記錄抽樣; 其中,由所述抽樣操作所獲得的樣本被處理以產(chǎn)生表征包括所述記錄子組的數(shù)據(jù)庫的信息。
11.一種處理器實(shí)現(xiàn)的方法,包括如下步驟 通過迭代地更新指定多個(gè)記錄的各自記錄是否被抽樣的二進(jìn)制指示符的分量,優(yōu)化目標(biāo)函數(shù),所述目標(biāo)函數(shù)表征在交疊的記錄子組中多個(gè)記錄的哪個(gè)記錄被抽樣; 基于所述二進(jìn)制指示符已更新分量優(yōu)化所述目標(biāo)函數(shù)的值,對所述多個(gè)記錄的特定記錄抽樣;以及 處理由所述抽樣步驟所獲得的樣本,以產(chǎn)生表征包括所述多個(gè)記錄的數(shù)據(jù)庫的信息。
全文摘要
在一個(gè)方面中,信息處理系統(tǒng)的處理裝置用于執(zhí)行數(shù)據(jù)庫的高維分層抽樣,所述數(shù)據(jù)庫包括多條布置在交疊子組中的記錄。對于給定記錄,處理裝置確定給定記錄與哪個(gè)子組相關(guān)聯(lián),對于與給定記錄相關(guān)聯(lián)的每個(gè)子組,檢查子組的抽樣率是否小于指定抽樣率。如果每個(gè)子組的抽樣率都小于指定抽樣率,處理裝置對所述給定記錄抽樣,否則不對給定記錄抽樣。針對其他記錄重復(fù)確定、檢查和抽樣操作,處理抽樣操作獲得的樣本以產(chǎn)生表征數(shù)據(jù)庫的信息。本發(fā)明的其他方面涉及通過迭代地優(yōu)化目標(biāo)函數(shù)來確定對哪些記錄抽樣,目標(biāo)函數(shù)可以基于例如被抽樣記錄的似然函數(shù)。
文檔編號G06F17/30GK102985923SQ201180032445
公開日2013年3月20日 申請日期2011年6月9日 優(yōu)先權(quán)日2010年6月28日
發(fā)明者陳愛友, 雄明 申請人:阿爾卡特朗訊