基于分組樸素貝葉斯模型的多因子在線預(yù)測方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了基于分組樸素貝葉斯模型的多因子在線預(yù)測方法及系統(tǒng),利用分類或聚類方式對多因子進(jìn)行分組,實(shí)現(xiàn)各因子組之間相互獨(dú)立而因子組內(nèi)部高度相關(guān),從而能夠適用樸素貝葉斯模型來進(jìn)行有效的模型學(xué)習(xí),使因子預(yù)測能滿足樸素貝葉斯模型的要求,以此來實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)集有限的條件下的多因子學(xué)習(xí);同時,還通過引入動態(tài)離散分級的方法,大大降低了在線學(xué)習(xí)的計(jì)算量和時間復(fù)雜度,實(shí)現(xiàn)在線實(shí)時學(xué)習(xí)和預(yù)測,可用于模型特征數(shù)據(jù)隨時間動態(tài)變化較快的復(fù)雜系統(tǒng)中進(jìn)行多因子在線預(yù)測,尤其適合用于股票數(shù)據(jù)模型中超額收益的在線預(yù)測。
【專利說明】
基于分組樸素貝葉斯模型的多因子在線預(yù)測方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及基于分組樸素貝葉斯模型的多因子在線 預(yù)測方法及系統(tǒng)。
【背景技術(shù)】
[0002] 數(shù)據(jù)挖掘的主要任務(wù)有兩個,它們分別為預(yù)測和分類。預(yù)測是指通過數(shù)據(jù)庫中已 存在的數(shù)據(jù)信息來推測其他可能存在的未知的數(shù)據(jù)情況,是一種連續(xù)函數(shù)值模型;分類是 根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并對新數(shù)據(jù)的分類,是一種離散 模型。分類技術(shù)是數(shù)據(jù)挖掘中最有應(yīng)用價值的技術(shù)之一,其應(yīng)用遍及社會各個領(lǐng)域。它的原 理是利用已知數(shù)據(jù)生成特定的模型或者函數(shù),然后通過該模型或函數(shù)將其他未知的數(shù)據(jù)分 派給某個類別,從而用于預(yù)測未知的樣本的類別或者取值。
[0003] 目前所使用的分類模型主要有以下幾種:貝葉斯分類、決策樹、粗糙集、神經(jīng)網(wǎng)絡(luò)、 遺傳算法等。眾多的分類方法中,貝葉斯分類器由于具有堅(jiān)實(shí)的數(shù)學(xué)理論基礎(chǔ)并能綜合先 驗(yàn)信息和數(shù)據(jù)樣本信息,成為當(dāng)前數(shù)據(jù)分類的研究熱點(diǎn)之一。貝葉斯學(xué)習(xí)理論將先驗(yàn)知識 與樣本信息相結(jié)合、依賴關(guān)系與概率表示相結(jié)合,是數(shù)據(jù)挖掘和不確定性知識表示的理想 模型。貝葉斯學(xué)習(xí)能夠方便地處理不完全數(shù)據(jù),還能夠?qū)W習(xí)變量間的因果關(guān)系。因果關(guān)系是 數(shù)據(jù)挖掘中極為重要的模式。原因有二:①在數(shù)據(jù)分析中,因果關(guān)系有利于對領(lǐng)域知識的理 解;②在干擾較多時,便于做出精確的預(yù)測。
[0004] 樸素貝葉斯方法是一種最簡單的非線性模型,它的原理是基于貝葉斯定理,即對 于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認(rèn)為待分 類項(xiàng)屬于哪個類別。樸素貝葉斯模型原理簡單、預(yù)測效果好。但是,樸素貝葉斯方法的一個 重要基礎(chǔ)是:在訓(xùn)練階段需要計(jì)算因子劃分對于每個類別的條件概率,這里要求各因子相 對于分類的條件概率相互獨(dú)立,彼此無相關(guān)性。對于許多復(fù)雜的系統(tǒng),所有因子可能都從一 個數(shù)據(jù)集中提煉得到,這樣在因子數(shù)量較大時難以保證其獨(dú)立性,因此,在實(shí)際運(yùn)用中進(jìn)行 多因子預(yù)測時可能出現(xiàn)不同的因子間高度相關(guān),這樣就不符合樸素貝葉斯方法的使用條 件。
[0005] 而且,利用樸素貝葉斯模型進(jìn)行估計(jì)所要求的樣本點(diǎn)數(shù)量隨著因子數(shù)量的增加而 呈指數(shù)級增加,所以,如采用樸素貝葉斯模型進(jìn)行多因子預(yù)測則需要有大量歷史數(shù)據(jù),進(jìn)而 計(jì)算量巨大,基于此,樸素貝葉斯模型在多因子預(yù)測領(lǐng)域的應(yīng)用受到極大的限制。
[0006] 此外,樸素貝葉斯模型一般不處理連續(xù)性數(shù)據(jù),在模型特征數(shù)據(jù)隨時間動態(tài)變化 較快或?qū)崟r性要求高的預(yù)測系統(tǒng)中,需要預(yù)先對各因子數(shù)據(jù)進(jìn)行離散化分級,為了實(shí)現(xiàn)在 線學(xué)習(xí),每一個新的實(shí)例到來時,會涉及到各因子的重新離散分級,這會耗費(fèi)大量時間,并 產(chǎn)生巨大的計(jì)算量。
[0007] 因此,現(xiàn)實(shí)情況下,迫切需要提出一種改進(jìn)的貝葉斯模型,以克服以上問題。
【發(fā)明內(nèi)容】
[0008] 有鑒于此,本發(fā)明的目的在于提供一種基于分組樸素貝葉斯模型的多因子在線預(yù) 測方法及系統(tǒng),以用于模型特征數(shù)據(jù)隨時間動態(tài)變化較快的復(fù)雜系統(tǒng)中進(jìn)行多因子在線預(yù) 測 。
[0009] -種基于分組樸素貝葉斯模型的多因子在線預(yù)測方法,包括以下步驟:
[0010] 1)從原始數(shù)據(jù)集中提取N個實(shí)例數(shù)據(jù),每個所述實(shí)例數(shù)據(jù)包含F(xiàn)個因子數(shù)據(jù)和1個 目標(biāo)數(shù)據(jù);
[0011] 2)對所提取的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,得到基于相同級別的時間粒度 的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù);然后,對預(yù)處理后的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)分別進(jìn)行離散化,并 按值大小將每個因子的數(shù)據(jù)分別劃分為BV個區(qū)間得到因子分級數(shù)據(jù),按值大小將目標(biāo)數(shù)據(jù) 劃分為BR個區(qū)間得到目標(biāo)分類數(shù)據(jù),所述因子分級數(shù)據(jù)和目標(biāo)分類數(shù)據(jù)構(gòu)成訓(xùn)練數(shù)據(jù)集;
[0012] 3)通過分類或聚類的方式對各因子進(jìn)行分組,將F個因子分為G組,使每組因子之 間相互獨(dú)立且組內(nèi)因子間有相關(guān)性;其中,BR X BVFA < < N;
[0013] 4)基于樸素貝葉斯模型對所述訓(xùn)練數(shù)據(jù)集進(jìn)行統(tǒng)計(jì),得到各因子組的先驗(yàn)分布概 率和各因子組相對于目標(biāo)分類的條件概率,并對所述先驗(yàn)分布概率和條件概率進(jìn)行拉普拉 斯(Laplace)校準(zhǔn),所述拉普拉斯校準(zhǔn)是指對于所述先驗(yàn)分布概率和條件概率的統(tǒng)計(jì)公式 中的分子、分母各加1;
[0014] 5)對于每一個新的實(shí)例,先對其經(jīng)預(yù)處理所得的相同級別的時間粒度的各因子數(shù) 據(jù)和目標(biāo)數(shù)據(jù)進(jìn)行離散化,并歸類到各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)相對應(yīng)的區(qū)間分級中,然后代 入分組樸素貝葉斯模型預(yù)測目標(biāo)分類的后驗(yàn)分布概率;其中,采用動態(tài)離散分級方法將離 散化后的所述因子數(shù)據(jù)歸類到相應(yīng)的區(qū)間分級中,具體如下:
[0015] 設(shè)所述BV個區(qū)間的每個區(qū)間中離散值的數(shù)量為M,當(dāng)取值屬于某一區(qū)間的因子離 散值插入所述區(qū)間時,]?£[]\^11,]\1_)(8_取正整數(shù)并且^]\1<]\1_),其中]\1_ = 21^11,則 直接將所述因子離散值歸類于所述區(qū)間并更新;當(dāng)取值屬于某一區(qū)間的因子離散值插入所 述區(qū)間時,M達(dá)到M max,則將所述因子離散值歸類于所述區(qū)間,并按取值大小將所述區(qū)間拆分 為2個M=MmiW區(qū)間并更新。
[0016] 本發(fā)明的步驟(1)中,所述N個實(shí)例數(shù)據(jù)可以是隨機(jī)提取,也可以是按時間序列提 取。
[0017] 本發(fā)明的步驟(3)中,所述分類可以先根據(jù)因子性質(zhì)人工做大致分類,也可直接利 用線性或非線性分類器進(jìn)行自動分類,分類完成后檢驗(yàn)組別之間的獨(dú)立性。
[0018] 本發(fā)明的步驟(3)中,所述的聚類優(yōu)選K均值(K-means)聚類算法:指定聚類后的目 標(biāo)類別數(shù)量K,算法不斷迭代,最終使每個觀測點(diǎn)到其所屬的聚類中心距離之和最小。
[0019] 本發(fā)明的再一個目的在于提供一種基于分組樸素貝葉斯模型的多因子在線預(yù)測 系統(tǒng),包括:
[0020] (1)訓(xùn)練數(shù)據(jù)提取模塊,用于從原始數(shù)據(jù)集中提取N個實(shí)例數(shù)據(jù),每個所述實(shí)例數(shù) 據(jù)包含F(xiàn)個因子數(shù)據(jù)和1個目標(biāo)數(shù)據(jù);
[0021] (2)訓(xùn)練數(shù)據(jù)預(yù)處理模塊,對所提取的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,得到基 于相同級別的時間粒度的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù);然后,對預(yù)處理后的各因子數(shù)據(jù)和目標(biāo) 數(shù)據(jù)分別進(jìn)行離散化,并按值大小將每個因子的數(shù)據(jù)分別劃分為BV個區(qū)間得到因子分級數(shù) 據(jù),按值大小將目標(biāo)數(shù)據(jù)劃分為BR個區(qū)間得到目標(biāo)分類數(shù)據(jù),所述因子分級數(shù)據(jù)和目標(biāo)分 類數(shù)據(jù)構(gòu)成訓(xùn)練數(shù)據(jù)集;
[0022] (3)訓(xùn)練因子分組歸類模塊,用于對各因子數(shù)據(jù)采用分類或聚類的方式進(jìn)行分組, 將F個因子分為G組,使每組因子之間相互獨(dú)立且組內(nèi)因子間有相關(guān)性;其中,BRXBV f/g<< N;
[0023] (4)貝葉斯預(yù)測分析模塊,用于基于樸素貝葉斯模型對所述訓(xùn)練數(shù)據(jù)集進(jìn)行統(tǒng)計(jì), 得到各因子組的先驗(yàn)分布概率和各因子組相對于目標(biāo)分類的條件概率,并對所述先驗(yàn)分布 概率和條件概率進(jìn)行拉普拉斯(Laplace)校準(zhǔn),所述拉普拉斯校準(zhǔn)是指對于所述先驗(yàn)分布 概率和條件概率的統(tǒng)計(jì)公式中的分子、分母各加1;
[0024] (5)數(shù)據(jù)預(yù)測模塊,用于對于每一個新的實(shí)例,先對其經(jīng)預(yù)處理所得的相同級別的 時間粒度的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)進(jìn)行離散化,并歸類到各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)相對應(yīng)的 區(qū)間分級中,然后代入分組樸素貝葉斯模型預(yù)測目標(biāo)分類的后驗(yàn)分布概率;其中,采用動態(tài) 離散分級模塊實(shí)現(xiàn)將離散化后的所述因子數(shù)據(jù)歸類到相應(yīng)的區(qū)間分級中,具體如下:
[0025] 設(shè)所述BV個區(qū)間的每個區(qū)間中離散值的數(shù)量為M,當(dāng)取值屬于某一區(qū)間的因子離 散值插入所述區(qū)間時,]?£[]\^11,]\1_)(8_取正整數(shù)并且^]\1<]\1_),其中]\1_ = 21^11,則 直接將所述因子離散值歸類于所述區(qū)間并更新;當(dāng)取值屬于某一區(qū)間的因子離散值插入所 述區(qū)間時,M達(dá)到M max,則將所述因子離散值歸類于所述區(qū)間,并按取值大小將所述區(qū)間拆分 為2個M=MmiW區(qū)間并更新。
[0026] 本發(fā)明所述的訓(xùn)練數(shù)據(jù)提取模塊中,所述N個實(shí)例數(shù)據(jù)可以是隨機(jī)提取,也可以是 按時間序列提取。
[0027] 本發(fā)明所述的訓(xùn)練因子分組歸類模塊中,所述分類可以先根據(jù)因子性質(zhì)人工做大 致分類,也可直接利用線性或非線性分類器進(jìn)行自動分類,分類完成后檢驗(yàn)組別之間的獨(dú) 立性。
[0028] 本發(fā)明所述的訓(xùn)練因子分組歸類模塊中,所述的聚類優(yōu)選K均值(K-means)聚類算 法:指定聚類后的目標(biāo)類別數(shù)量K,算法會不斷迭代最終使每個觀測點(diǎn)到其所屬的聚類中心 距離之和最小。
[0029] 本發(fā)明的又一個目的在于提供上述基于分組樸素貝葉斯模型的多因子在線預(yù)測 方法及系統(tǒng)在股票超額收益預(yù)測上的應(yīng)用。
[0030] -種基于分組樸素貝葉斯模型的多因子股票超額收益在線預(yù)測方法,包括以下步 驟:
[0031] 1)選取一段時間的股票數(shù)據(jù)提取N個實(shí)例數(shù)據(jù),每個所述實(shí)例數(shù)據(jù)包含F(xiàn)個因子數(shù) 據(jù)和1個目標(biāo)數(shù)據(jù);
[0032] 2)對所提取的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,得到基于相同級別的時間粒度 的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù);然后,對預(yù)處理后的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)分別進(jìn)行離散化,并 按值大小將每個因子的數(shù)據(jù)分別劃分為BV個區(qū)間得到因子分級數(shù)據(jù),按值大小將目標(biāo)數(shù)據(jù) 劃分為BR個區(qū)間得到目標(biāo)分類數(shù)據(jù),所述因子分級數(shù)據(jù)和目標(biāo)分類數(shù)據(jù)構(gòu)成訓(xùn)練數(shù)據(jù)集;
[0033] 3)通過分類或聚類的方式對各因子進(jìn)行分組,將F個因子分為G組,使每組因子之 間相互獨(dú)立且組內(nèi)因子間有相關(guān)性;其中,BR X BVFA < < N;
[0034] 4)基于樸素貝葉斯模型對所述訓(xùn)練數(shù)據(jù)集進(jìn)行統(tǒng)計(jì),得到各因子組的先驗(yàn)分布概 率和各因子組相對于目標(biāo)分類的條件概率,并對所述先驗(yàn)分布概率和條件概率進(jìn)行拉普拉 斯(Laplace)校準(zhǔn),所述拉普拉斯校準(zhǔn)是指對于所述先驗(yàn)分布概率和條件概率的統(tǒng)計(jì)公式 中的分子、分母各加1;
[0035] 5)對于每一個新的實(shí)例,先對其經(jīng)預(yù)處理所得的相同級別的時間粒度的各因子數(shù) 據(jù)和目標(biāo)數(shù)據(jù)進(jìn)行離散化,并歸類到各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)相對應(yīng)的區(qū)間分級中,然后代 入分組樸素貝葉斯模型預(yù)測目標(biāo)分類的后驗(yàn)分布概率;其中,采用動態(tài)離散分級方法將離 散化后的所述因子數(shù)據(jù)歸類到相應(yīng)的區(qū)間分級中,具體如下:
[0036] 設(shè)所述BV個區(qū)間的每個區(qū)間中離散值的數(shù)量為M,當(dāng)取值屬于某一區(qū)間的因子離 散值插入所述區(qū)間時,]?£[]\^11,]\1_)(8_取正整數(shù)并且^]\1<]\1_),其中]\1_ = 21^11,則 直接將所述因子離散值歸類于所述區(qū)間并更新;當(dāng)取值屬于某一區(qū)間的因子離散值插入所 述區(qū)間時,M達(dá)到M max,則將所述因子離散值歸類于所述區(qū)間,并按取值大小將所述區(qū)間拆分 為2個M=MmiW區(qū)間并更新。
[0037]本發(fā)明中,利用分類或聚類方式對多因子進(jìn)行分組,實(shí)現(xiàn)各因子組之間相互獨(dú)立 而因子組內(nèi)部高度相關(guān),從而能夠適用樸素貝葉斯模型來進(jìn)行有效的模型學(xué)習(xí),使因子預(yù) 測能滿足樸素貝葉斯模型的要求,以此來實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)集有限的條件下的多因子學(xué)習(xí);同 時,還通過引入動態(tài)離散分級的方法,大大降低了在線學(xué)習(xí)的計(jì)算量和時間復(fù)雜度,實(shí)現(xiàn)在 線實(shí)時學(xué)習(xí)和預(yù)測,可用于模型特征數(shù)據(jù)隨時間動態(tài)變化較快的復(fù)雜系統(tǒng)中進(jìn)行多因子在 線預(yù)測,特別適合用于股票超額收益在線預(yù)測。
[0038]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益的技術(shù)效果:
[0039] (1)基于樸素貝葉斯原理,通過對因子池進(jìn)行分組,使因子組能夠適用于樸素貝葉 斯模型,即在有限的訓(xùn)練數(shù)據(jù)集條件下也能進(jìn)行有效的分類訓(xùn)練,特別適合有大量信號因 子且部分因子相關(guān)性高以及歷史數(shù)據(jù)有限的目標(biāo)預(yù)測模型,例如股票超額收益預(yù)測模型。
[0040] (2)現(xiàn)有技術(shù)中因子區(qū)間中離散值的數(shù)量通常是固定的,當(dāng)一個新的因子值插入 時,一個因子區(qū)間的閾值發(fā)生改變,并且會引起隨后多個因子區(qū)間的閾值發(fā)生改變,因此, 先驗(yàn)分布都需要重新統(tǒng)計(jì),對于其它因子也是類似的情況,這樣,每一個新的實(shí)例進(jìn)來時, 若要能吸收新的信息,涉及到幾乎所有歷史數(shù)據(jù)一次新的學(xué)習(xí),這樣計(jì)算量巨大,在線學(xué)習(xí) 的時間復(fù)雜度高。或者,現(xiàn)有技術(shù)中的方法不能直接用于在線學(xué)習(xí)和預(yù)測,只能每次基于一 個數(shù)據(jù)集訓(xùn)練模型,不能在預(yù)測過程中動態(tài)的利用新信息完善模型,在模型特征隨時間動 態(tài)變化較快的場合下表現(xiàn)不佳。相對于此,本發(fā)明引入動態(tài)離散分級的方法,當(dāng)新的因子值 插入時,只要因子區(qū)間中離散值的數(shù)量在規(guī)定的范圍內(nèi),因子區(qū)間閾值不做調(diào)整,只有在因 子區(qū)間中離散值的數(shù)量達(dá)到最大值時,才對因子區(qū)間進(jìn)行拆分,這樣每次一個新的實(shí)例進(jìn) 來時只會影響一個或兩個因子區(qū)間,這樣就大大降低了在線學(xué)習(xí)的計(jì)算量和時間復(fù)雜度, 從而實(shí)現(xiàn)在線實(shí)時學(xué)習(xí)和預(yù)測,可用于模型特征數(shù)據(jù)隨時間動態(tài)變化較快的復(fù)雜系統(tǒng)中進(jìn) 行多因子在線預(yù)測,特別適合用于股票超額收益預(yù)測。
【具體實(shí)施方式】
[0041] 下面結(jié)合具體實(shí)施例,進(jìn)一步闡述本發(fā)明。應(yīng)理解,這些實(shí)施例僅用于說明本發(fā)明 而不用于限制本發(fā)明的范圍。
[0042] -種基于分組樸素貝葉斯模型的多因子在線預(yù)測方法,包括以下步驟:
[0043] 1)從原始數(shù)據(jù)集中提取N個實(shí)例數(shù)據(jù),每個所述實(shí)例數(shù)據(jù)包含F(xiàn)個因子數(shù)據(jù)和1個 目標(biāo)數(shù)據(jù);
[0044] 2)對所提取的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,得到基于相同級別的時間粒度 的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù);然后,對預(yù)處理后的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)分別進(jìn)行離散化,并 按值大小將每個因子的數(shù)據(jù)分別劃分為BV個區(qū)間得到因子分級數(shù)據(jù),按值大小將目標(biāo)數(shù)據(jù) 劃分為BR個區(qū)間得到目標(biāo)分類數(shù)據(jù),所述因子分級數(shù)據(jù)和目標(biāo)分類數(shù)據(jù)構(gòu)成訓(xùn)練數(shù)據(jù)集;
[0045] 3)通過分類或聚類的方式對各因子進(jìn)行分組,將F個因子分為G組,使每組因子之 間相互獨(dú)立且組內(nèi)因子間有相關(guān)性;其中,BR X BVFA < < N;
[0046] 4)基于樸素貝葉斯模型對所述訓(xùn)練數(shù)據(jù)集進(jìn)行統(tǒng)計(jì),得到各因子組的先驗(yàn)分布概 率和各因子組相對于目標(biāo)分類的條件概率,并對所述先驗(yàn)分布概率和條件概率進(jìn)行拉普拉 斯(Laplace)校準(zhǔn),所述拉普拉斯校準(zhǔn)是指對于所述先驗(yàn)分布概率和條件概率的統(tǒng)計(jì)公式 中的分子、分母各加1,以避免出現(xiàn)概率為〇的情況;
[0047] 5)對于每一個新的實(shí)例,先對其經(jīng)預(yù)處理所得的相同級別的時間粒度的各因子數(shù) 據(jù)和目標(biāo)數(shù)據(jù)進(jìn)行離散化,并歸類到各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)相對應(yīng)的區(qū)間分級中,然后代 入分組樸素貝葉斯模型預(yù)測目標(biāo)分類的后驗(yàn)分布概率;其中,采用動態(tài)離散分級方法將離 散化后的所述因子數(shù)據(jù)歸類到相應(yīng)的區(qū)間分級中,具體如下:
[0048]設(shè)所述BV個區(qū)間的每個區(qū)間中離散值的數(shù)量為M,當(dāng)取值屬于某一區(qū)間的因子離 散值插入所述區(qū)間時,]?£[]\^11,]\1_)(8_取正整數(shù)并且^]\1<]\1_),其中]\1_ = 21^11,則 直接將所述因子離散值歸類于所述區(qū)間并更新;當(dāng)取值屬于某一區(qū)間的因子離散值插入所 述區(qū)間時,M達(dá)到M max,則將所述因子離散值歸類于所述區(qū)間,并按取值大小將所述區(qū)間拆分 為2個M=MmiW區(qū)間并更新。
[0049] -種基于分組樸素貝葉斯模型的多因子在線預(yù)測系統(tǒng),包括:
[0050] (1)訓(xùn)練數(shù)據(jù)提取模塊,用于從原始數(shù)據(jù)集中提取N個實(shí)例數(shù)據(jù),每個所述實(shí)例數(shù) 據(jù)包含F(xiàn)個因子數(shù)據(jù)和1個目標(biāo)數(shù)據(jù);
[0051] (2)訓(xùn)練數(shù)據(jù)預(yù)處理模塊,對所提取的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,得到基 于相同級別的時間粒度的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù);然后,對預(yù)處理后的各因子數(shù)據(jù)和目標(biāo) 數(shù)據(jù)分別進(jìn)行離散化,并按值大小將每個因子的數(shù)據(jù)分別劃分為BV個區(qū)間得到因子分級數(shù) 據(jù),按值大小將目標(biāo)數(shù)據(jù)劃分為BR個區(qū)間得到目標(biāo)分類數(shù)據(jù),所述因子分級數(shù)據(jù)和目標(biāo)分 類數(shù)據(jù)構(gòu)成訓(xùn)練數(shù)據(jù)集;
[0052] (3)訓(xùn)練因子分組歸類模塊,用于對各因子數(shù)據(jù)采用分類或聚類的方式進(jìn)行分組, 將F個因子分為G組,使每組因子之間相互獨(dú)立且組內(nèi)因子間有相關(guān)性;其中,BRXBV f/g<< N;
[0053] (4)貝葉斯預(yù)測分析模塊,用于基于樸素貝葉斯模型對所述訓(xùn)練數(shù)據(jù)集進(jìn)行統(tǒng)計(jì), 得到各因子組的先驗(yàn)分布概率和各因子組相對于目標(biāo)分類的條件概率,并對所述先驗(yàn)分布 概率和條件概率進(jìn)行拉普拉斯(Laplace)校準(zhǔn),所述拉普拉斯校準(zhǔn)是指對于所述先驗(yàn)分布 概率和條件概率的統(tǒng)計(jì)公式中的分子、分母各加1,以避免出現(xiàn)概率為〇的情況;
[0054] (5)數(shù)據(jù)預(yù)測模塊,用于對于每一個新的實(shí)例,先對其經(jīng)預(yù)處理所得的相同級別的 時間粒度的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)進(jìn)行離散化,并歸類到各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)相對應(yīng)的 區(qū)間分級中,然后代入分組樸素貝葉斯模型預(yù)測目標(biāo)分類的后驗(yàn)分布概率;其中,采用動態(tài) 離散分級模塊實(shí)現(xiàn)將離散化后的所述因子數(shù)據(jù)歸類到相應(yīng)的區(qū)間分級中,具體如下:
[0055] 設(shè)所述BV個區(qū)間的每個區(qū)間中離散值的數(shù)量為M,當(dāng)取值屬于某一區(qū)間的因子離 散值插入所述區(qū)間時,]?£[]\^11,]\1_)(8_取正整數(shù)并且^]\1<]\1_),其中]\1_ = 21^11,則 直接將所述因子離散值歸類于所述區(qū)間并更新;當(dāng)取值屬于某一區(qū)間的因子離散值插入所 述區(qū)間時,M達(dá)到M max,則將所述因子離散值歸類于所述區(qū)間,并按取值大小將所述區(qū)間拆分 為2個M=MmiW區(qū)間并更新。
[0056] 上述實(shí)施例中,N個實(shí)例數(shù)據(jù)可以是隨機(jī)提取,也可以是按時間序列提取。
[0057]上述實(shí)施例中,通過分類方式對各因子進(jìn)行分組,可以先根據(jù)因子性質(zhì)人工做大 致分類,也可直接利用線性或非線性分類器進(jìn)行自動分類,分類完成后檢驗(yàn)組別之間的獨(dú) 立性。
[0058] 上述實(shí)施例中,通過聚類方式對各因子進(jìn)行分組,采用K均值(K-means)聚類算法: 指定聚類后的目標(biāo)類別數(shù)量K,算法不斷迭代,最終使每個觀測點(diǎn)到其所屬的聚類中心距離 之和最小。
[0059] 為了更加清楚說明上述方法和系統(tǒng)在實(shí)際中的應(yīng)用,以下將以股票超額收益預(yù)測 為例進(jìn)行詳細(xì)說明:
[0060] 一種基于分組樸素貝葉斯模型的多因子股票超額收益在線預(yù)測方法,包括以下步 驟:
[0061] 1)選取?個因子,建立因子池{¥1,¥2,¥3,¥4,.....Vf}:有眾多因子信號對未來的股 價有預(yù)測作用,包括基于量價特征的技術(shù)因子、基于股票基本面的價值、財(cái)務(wù)因子、基于投 資者短期行為偏差帶來的行為因子以及公司事件因子等;
[0062] 2)選擇以主要指數(shù)成分股作為交易范圍的S只股票在過去T年內(nèi)的日數(shù)據(jù),則選取 的實(shí)例樣本數(shù)為N=SXTX 250;此處選取滬深300+中證500成分股共800只股票,從2011-2014共4年數(shù)據(jù),則N大約為4 X 250 X 800 即80萬,每個股票有4 X 250 即1000個數(shù)據(jù)點(diǎn);
[0063] 3)由于不同的因子基于的數(shù)據(jù)粒度不同,在此統(tǒng)一采用日級別數(shù)據(jù)計(jì)算各因子值 并離散化,將其分為BV個區(qū)間得到因子分級數(shù)據(jù);同時,計(jì)算每日的目標(biāo)值超額收益并離散 化,將其分為BR個區(qū)間得到目標(biāo)分類數(shù)據(jù);因子分級數(shù)據(jù)和目標(biāo)分類數(shù)據(jù)構(gòu)成訓(xùn)練數(shù)據(jù)集;
[0064] 4)通過分類或聚類的方式對各因子進(jìn)行分組,將F個因子分為G組,使每組因子之 間相互獨(dú)立且組內(nèi)因子間有相關(guān)性;為了滿足有足夠的樣本點(diǎn)進(jìn)行模型估計(jì),需滿足BRX BVFA<<N,例如,當(dāng)F取值為24,G取值為6,每組內(nèi)有4個因子,為了估計(jì)一個因子組相對于 目標(biāo)分類的條件概率f (Vi,V2,V3,V41 r),需要4 X 44= 1024個樣本點(diǎn);
[0065] 這里通過分類方式對各因子進(jìn)行分組,可以先根據(jù)因子性質(zhì)人工做大致分類,也 可直接利用線性或非線性分類器進(jìn)行自動分類,分類完成后檢驗(yàn)組別之間的獨(dú)立性。
[0066] 這里通過聚類方式對各因子進(jìn)行分組,可以采用K-means聚類算法,即:指定聚類 后的目標(biāo)類別數(shù)量K,算法不斷迭代,最終使每個觀測點(diǎn)到其所屬的聚類中心距離之和最 小。
[0067] 5)基于樸素貝葉斯模型對所述訓(xùn)練數(shù)據(jù)集進(jìn)行統(tǒng)計(jì),得到各因子組的先驗(yàn)分布概 率和各因子組相對于目標(biāo)分類的條件概率,并對得到的先驗(yàn)分布概率和條件概率進(jìn)行拉普 拉斯(Laplace)校準(zhǔn),拉普拉斯校準(zhǔn)是指對于先驗(yàn)分布概率和條件概率的統(tǒng)計(jì)公式中的分 子、分母各加1,以避免出現(xiàn)概率為〇的情況;
[0068] 例如,當(dāng)F取值為24,G取值為6,每組內(nèi)有4個因子,則各因子組的先驗(yàn)分布記為:f (Vl,V2,V3,V4),f(V5,V6,V7,V8),???,f(V21,V22,V23,V24),各因子組相對于目標(biāo)分類的條件概 率記為出¥1,¥2,¥3,¥4^),汽¥5,¥6,¥7,¥8^),~彳(¥21,¥ 22,¥23,¥24卜),其中』代表預(yù)測的 目標(biāo):超額收益。
[0069] 6)根據(jù)分組樸素貝葉斯模型預(yù)測股票超額收益的后驗(yàn)分布:
[0070] 對于每一個新的實(shí)例,需要先計(jì)算其日級別的F個因子數(shù)據(jù)和1個目標(biāo)數(shù)據(jù),并進(jìn) 行離散化后歸類于相對應(yīng)的區(qū)間分級:
[0071 ]設(shè)當(dāng)前每個區(qū)間中離散值的數(shù)量M取值為3,因子I現(xiàn)在的區(qū)間劃分為:
[0072] [1.2,1.7,1.79],[1.9,2.24,2.5],[2.6,2.8,2.9],[3.04,3.12,3.15],[3.5, 3.67]
[0073]在現(xiàn)有技術(shù)中,若該實(shí)例中因子V:的離散值為2.44時,將該值插入第2個區(qū)間后, 第2個區(qū)間以及隨后3個區(qū)間的閾值都將發(fā)生調(diào)整,新的區(qū)間劃分為:
[0074] [1.2,1.7,1.79],[1.9,2.24,2.44],[2.5,2.6,2.8],[2.9,3.04,3.12],[3.15, 3.5.3.67]
[0075] 此時5個區(qū)間中的4個都發(fā)生了改變,之前統(tǒng)計(jì)的先驗(yàn)分布fai+V^Vi+hVi^WP 條件分布以1-1,^1+1,¥1+2|〇都需要重新統(tǒng)計(jì),對于其它因子也是類似的情況,每一個新 的實(shí)例進(jìn)來時,若要能吸收新的信息,涉及到幾乎所有歷史數(shù)據(jù)一次新的學(xué)習(xí)。
[0076] 而在本實(shí)施例中,若該實(shí)例中因子Vi的離散值為2.44時,將該值插入第2個區(qū)間 后,該區(qū)間中離散值的數(shù)量M值為4,因離散值的數(shù)量是動態(tài)的,MG[3,6)(即M取正整數(shù)并且 3<M<6),因此,所有區(qū)間的閾值均不發(fā)生調(diào)整,新的區(qū)間劃分為:
[0077] [1.2,1.7,1.79],[1.9,2.24,2.44,2.5],[2.6,2.8,2.9],[3.04,3.12,3.15], [3.5,3.67]
[0078] 可見,該因子值插入只影響一個因子區(qū)間,其它因子也是如此,只有當(dāng)插入?yún)^(qū)間后 離散值的數(shù)量M值到6時,會拆分為2個大小為3的區(qū)間,這樣也只影響2個因子區(qū)間,這樣在 線學(xué)習(xí)的計(jì)算量和時間復(fù)雜度就大大降低了。
[0079]在完成歸類后,由于G組因子之間相互獨(dú)立,可以對G組因子采用樸素貝葉斯模型 來估計(jì)超額收益的后驗(yàn)分布:
[0081] 其中,r代表預(yù)測的目標(biāo):超額收益;f(r)代表目標(biāo)的先驗(yàn)分布。比如,r分為3個區(qū) 間,r = 0,代表大跌;r = 1,代表小幅波動;r = 2,代表大漲,f (r)表示屬于這三個類別的先驗(yàn) 概率。對于每一個新的實(shí)例,就能算出后驗(yàn)概率HrzOlVhVs......)、f(r=1 |Vl, V2......),f(r = 2|Vi,V2......)分布的概率,哪個概率最大,就預(yù)測r屬于哪一個區(qū)間。
[0082] 本領(lǐng)域的技術(shù)人員應(yīng)理解,上述的實(shí)例數(shù)據(jù)可以采用日級別數(shù)據(jù),也可以統(tǒng)一采 用其他級別數(shù)據(jù),同樣能夠?qū)崿F(xiàn)本發(fā)明的技術(shù)效果。
[0083] 本領(lǐng)域的技術(shù)人員應(yīng)理解,上述描述中所示的本發(fā)明的實(shí)施例只作為舉例用于說 明本發(fā)明,而不應(yīng)視為限定本發(fā)明的范圍。
[0084]由此可見,本發(fā)明的目的已經(jīng)完整并有效的予以實(shí)現(xiàn)。本發(fā)明的功能及結(jié)構(gòu)原理 已在實(shí)施例中予以展示和說明,在不背離所述原理的情況下,實(shí)施方式可作任意修改。所 以,本發(fā)明包括了基于權(quán)利要求精神及權(quán)利要求范圍的所有變形實(shí)施方式。
【主權(quán)項(xiàng)】
1. 一種基于分組樸素貝葉斯模型的多因子在線預(yù)測方法,其特征在于,包括以下步驟: 1) 從原始數(shù)據(jù)集中提取N個實(shí)例數(shù)據(jù),每個所述實(shí)例數(shù)據(jù)包含F(xiàn)個因子數(shù)據(jù)和1個目標(biāo) 數(shù)據(jù); 2) 對所提取的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,得到基于相同級別的時間粒度的各 因子數(shù)據(jù)和目標(biāo)數(shù)據(jù);然后,對預(yù)處理后的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)分別進(jìn)行離散化,并按值 大小將每個因子的數(shù)據(jù)分別劃分為BV個區(qū)間得到因子分級數(shù)據(jù),按值大小將目標(biāo)數(shù)據(jù)劃分 為BR個區(qū)間得到目標(biāo)分類數(shù)據(jù),所述因子分級數(shù)據(jù)和目標(biāo)分類數(shù)據(jù)構(gòu)成訓(xùn)練數(shù)據(jù)集; 3) 通過分類或聚類的方式對各因子進(jìn)行分組,將F個因子分為G組,使每組因子之間相 互獨(dú)立且組內(nèi)因子間有相關(guān)性;其中,BRXBV f/g<<N; 4) 基于樸素貝葉斯模型對所述訓(xùn)練數(shù)據(jù)集進(jìn)行統(tǒng)計(jì),得到各因子組的先驗(yàn)分布概率和 各因子組相對于目標(biāo)分類的條件概率,并對所述先驗(yàn)分布概率和條件概率進(jìn)行拉普拉斯校 準(zhǔn); 5) 對于每一個新的實(shí)例,先對其經(jīng)預(yù)處理所得的相同級別的時間粒度的各因子數(shù)據(jù)和 目標(biāo)數(shù)據(jù)進(jìn)行離散化,并歸類到各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)相對應(yīng)的區(qū)間分級中,然后代入分 組樸素貝葉斯模型預(yù)測目標(biāo)分類的后驗(yàn)分布概率;其中,采用動態(tài)離散分級方法將離散化 后的所述因子數(shù)據(jù)歸類到相應(yīng)的區(qū)間分級中,具體如下: 設(shè)所述BV個區(qū)間的每個區(qū)間中離散值的數(shù)量為M,當(dāng)取值屬于某一區(qū)間的因子離散值 插入所述區(qū)間時,M e [Mmin,Mmax ),其中Mmax = 2Mmin,則直接將所述因子離散值歸類于所述區(qū) 間并更新;當(dāng)取值屬于某一區(qū)間的因子離散值插入所述區(qū)間時,M達(dá)到Mmax,則將所述因子離 散值歸類于所屬區(qū)間,并按取值大小將所述區(qū)間拆分為2個M=M min的區(qū)間并更新。2. 如權(quán)利要求1所述的基于分組樸素貝葉斯模型的多因子在線預(yù)測方法,其特征在于, 所述的聚類采用K均值聚類算法。3. -種基于分組樸素貝葉斯模型的多因子在線預(yù)測系統(tǒng),其特征在于,包括: (1) 訓(xùn)練數(shù)據(jù)提取模塊,用于從原始數(shù)據(jù)集中提取N個實(shí)例數(shù)據(jù),每個所述實(shí)例數(shù)據(jù)包 含F(xiàn)個因子數(shù)據(jù)和1個目標(biāo)數(shù)據(jù); (2) 訓(xùn)練數(shù)據(jù)預(yù)處理模塊,對所提取的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,得到基于相 同級別的時間粒度的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù);然后,對預(yù)處理后的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù) 分別進(jìn)行離散化,并按值大小將每個因子的數(shù)據(jù)分別劃分為BV個區(qū)間得到因子分級數(shù)據(jù), 按值大小將目標(biāo)數(shù)據(jù)劃分為BR個區(qū)間得到目標(biāo)分類數(shù)據(jù),所述因子分級數(shù)據(jù)和目標(biāo)分類數(shù) 據(jù)構(gòu)成訓(xùn)練數(shù)據(jù)集; (3) 訓(xùn)練因子分組歸類模塊,用于對各因子數(shù)據(jù)采用分類或聚類的方式進(jìn)行分組,將F 個因子分為G組,使每組因子之間相互獨(dú)立且組內(nèi)因子間有相關(guān)性;其中,BRXBVf/g<<N; (4) 貝葉斯預(yù)測分析模塊,用于基于樸素貝葉斯模型對所述訓(xùn)練數(shù)據(jù)集進(jìn)行統(tǒng)計(jì),得到 各因子組的先驗(yàn)分布概率和各因子組相對于目標(biāo)分類的條件概率,并對所述先驗(yàn)分布概率 和條件概率進(jìn)行拉普拉斯校準(zhǔn); (5) 數(shù)據(jù)預(yù)測模塊,用于對于每一個新的實(shí)例,先對其經(jīng)預(yù)處理所得的相同級別的時間 粒度的各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)進(jìn)行離散化,并歸類到各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)相對應(yīng)的區(qū)間 分級中,然后代入分組樸素貝葉斯模型預(yù)測目標(biāo)分類的后驗(yàn)分布概率;其中,采用動態(tài)離散 分級模塊實(shí)現(xiàn)將離散化后的所述因子數(shù)據(jù)歸類到相應(yīng)的區(qū)間分級中,具體如下: 設(shè)所述BV個區(qū)間的每個區(qū)間中離散值的數(shù)量為M,當(dāng)取值屬于某一區(qū)間的因子離散值 插入所述區(qū)間時,M e [Mmin,Mmax ),其中Mmax = 2Mmin,則直接將所述因子離散值歸類于所述區(qū) 間并更新;當(dāng)取值屬于某一區(qū)間的因子離散值插入所述區(qū)間時,M達(dá)到Mmax,則將所述因子離 散值歸類于所述區(qū)間,并按取值大小將所述區(qū)間拆分為2個M=M miW區(qū)間并更新。4. 如權(quán)利要求3所述的基于分組樸素貝葉斯模型的多因子在線預(yù)測系統(tǒng),其特征在于, 所述的聚類采用K均值聚類算法。5. 如權(quán)利要求1或2所述的基于分組樸素貝葉斯模型的多因子在線預(yù)測方法在股票超 額收益預(yù)測上的應(yīng)用。6. 如權(quán)利要求5所述的基于分組樸素貝葉斯模型的多因子在線預(yù)測方法在股票超額收 益預(yù)測上的應(yīng)用,其特征在于,包括以下步驟: 選取F個因子,選擇S只股票在過去T年內(nèi)的日數(shù)據(jù),則選取的實(shí)例樣本數(shù)為N = S X T X 250;統(tǒng)一采用日級別數(shù)據(jù)計(jì)算各因子值并離散化,將其分為BV個區(qū)間得到因子分級數(shù)據(jù); 同時,計(jì)算每日的目標(biāo)值超額收益并離散化,將其分為BR個區(qū)間得到目標(biāo)分類數(shù)據(jù);所述因 子分級數(shù)據(jù)和目標(biāo)分類數(shù)據(jù)構(gòu)成訓(xùn)練數(shù)據(jù)集; 通過分類或聚類的方式對各因子進(jìn)行分組,將F個因子分為G組,使每組因子之間相互 獨(dú)立且組內(nèi)因子間有相關(guān)性;其中,BR X BVfa << N; 基于樸素貝葉斯模型對所述訓(xùn)練數(shù)據(jù)集進(jìn)行統(tǒng)計(jì),得到各因子組的先驗(yàn)分布概率和各 因子組相對于目標(biāo)分類的條件概率,并對所述先驗(yàn)分布概率和條件概率進(jìn)行拉普拉斯校 準(zhǔn); 對于每一個新的實(shí)例,先計(jì)算其日級別的F個因子數(shù)據(jù)和1個目標(biāo)數(shù)據(jù),并進(jìn)行離散化, 然后歸類于各因子數(shù)據(jù)和目標(biāo)數(shù)據(jù)相對應(yīng)的區(qū)間分級中,最后代入分組樸素貝葉斯模型預(yù) 測目標(biāo)分類的后驗(yàn)分布概率;其中,采用動態(tài)離散分級方法將離散化后的所述因子數(shù)據(jù)歸 類到相應(yīng)的區(qū)間分級中,具體如下: 設(shè)所述BV個區(qū)間的每個區(qū)間中離散值的數(shù)量為M,當(dāng)取值屬于某一區(qū)間的因子離散值 插入所述區(qū)間時,M e [Mmin,Mmax ),其中Mmax = 2Mmin,則直接將所述因子離散值歸類于所述區(qū) 間并更新;當(dāng)取值屬于某一區(qū)間的因子離散值插入所述區(qū)間時,M達(dá)到Mmax,則將所述因子離 散值歸類于所述區(qū)間,并按取值大小將所述區(qū)間拆分為2個M=M miW區(qū)間并更新。7. 如權(quán)利要求6所述的基于分組樸素貝葉斯模型的多因子在線預(yù)測方法在股票超額收 益預(yù)測上的應(yīng)用,其特征在于,所述的聚類采用K均值聚類算法。8. 如權(quán)利要求3或4所述的基于分組樸素貝葉斯模型的多因子在線預(yù)測系統(tǒng)在股票超 額收益預(yù)測上的應(yīng)用。
【文檔編號】G06N5/02GK105912690SQ201610246700
【公開日】2016年8月31日
【申請日】2016年4月20日
【發(fā)明人】沈天瑞, 涂世濤
【申請人】上海壘土資產(chǎn)管理有限公司