9,L3和L2的組間方差=56
[0144] 這兩種方法都說明了 L3和L1更相似一些。
[0145] 這兩種算法相同的地方是,都能得到一個(gè)非負(fù)值,這個(gè)值越小,就說明可信度越 高。從實(shí)驗(yàn)數(shù)據(jù)來看,兩者的準(zhǔn)確率比較相近。但組間差的效率優(yōu)于組間方差,組間方差要 多用到一次乘法。
[0146] 本發(fā)明的數(shù)據(jù)流編碼的預(yù)測(cè)方法通過對(duì)編碼類型進(jìn)行區(qū)別,分別通過單字節(jié)分布 法和有窮狀態(tài)機(jī)識(shí)別方法,其中狀態(tài)機(jī)識(shí)別方法中只存在一個(gè)狀態(tài)機(jī),用來識(shí)別IS0-2022 編碼和ASCII碼。在第一遍掃描樣本后,就能得到信息,確定用哪種方法。計(jì)算最小組間差或 方差的時(shí)間復(fù)雜度也是0U),其中η為能猜測(cè)編碼的總數(shù)。因此,本發(fā)明的預(yù)測(cè)方法預(yù)測(cè)流 程非常簡(jiǎn)單,從而極大的提高了預(yù)測(cè)效率。
[0147] 并且,本發(fā)明中出現(xiàn)頻率表AFT是預(yù)先生成的,從而節(jié)約了大量的時(shí)間;空間復(fù)雜 度也很小,這里沒有讀入整張的AFT,而是每次只讀入其中的一個(gè)AFA,從而進(jìn)一步提高了預(yù) 測(cè)的效率。
[0148] 本發(fā)明實(shí)現(xiàn)的復(fù)雜性也非常低。具體來說,本發(fā)明實(shí)現(xiàn)的代碼量遠(yuǎn)低于Mozilla, 只有500行左右。而Mozilla用到很多狀態(tài)機(jī),而本發(fā)明實(shí)現(xiàn)只用到一個(gè)(有窮狀態(tài)自動(dòng)機(jī))。 本發(fā)明實(shí)現(xiàn)用的是單字節(jié)分布方法,所有的文本都統(tǒng)一處理,而Mozilla對(duì)多字節(jié)語(yǔ)言和單 字節(jié)語(yǔ)言分開處理,并且對(duì)于每一種編碼,需要單獨(dú)的表。雙字節(jié)編碼用512個(gè)常用字符,單 字節(jié)編碼用到64X64的常用雙字節(jié)序列表。
[0149] 參考圖2,本發(fā)明提供一種數(shù)據(jù)流編碼的預(yù)測(cè)裝置,所述數(shù)據(jù)流編碼的預(yù)測(cè)裝置2 包括:測(cè)試樣本獲取模塊21、測(cè)試樣本處理模塊22、數(shù)據(jù)流文本處理模塊23和編碼格式確定 模塊24。
[0150] 所述測(cè)試樣本獲取模塊21用于獲取各種編碼的測(cè)試樣本;所述測(cè)試樣本處理模塊 22用于根據(jù)第一類型編碼的測(cè)試樣本形成出現(xiàn)頻率表或根據(jù)第二類型編碼的測(cè)試樣本形 成有窮狀態(tài)自動(dòng)機(jī);
[0151] 參考圖3,本實(shí)施例中,所述測(cè)試樣本處理模塊22包括:第一去噪單元221、出現(xiàn)頻 率表形成單元222和有窮狀態(tài)自動(dòng)機(jī)形成單元223。
[0152] 所述第一去噪單元221用于對(duì)第一類型編碼的測(cè)試樣本進(jìn)行去噪處理;所述出現(xiàn) 頻率表形成單元222用于根據(jù)去噪處理后的測(cè)試樣本計(jì)算各編碼的出現(xiàn)頻率數(shù)組,以形成 出現(xiàn)頻率表;所述有窮狀態(tài)自動(dòng)機(jī)形成單元223用于根據(jù)第二類型編碼的測(cè)試樣本形成有 窮狀態(tài)自動(dòng)機(jī)。
[0153] 具體地,所述出現(xiàn)頻率表形成單元222可以包括:頻率計(jì)算單元和記錄單元(圖中 未示出),所述頻率計(jì)算單元用于計(jì)算去噪處理后的數(shù)據(jù)流文本中每個(gè)字節(jié)出現(xiàn)的頻率;所 述記錄單元用于將每個(gè)字節(jié)出現(xiàn)的頻率記錄進(jìn)數(shù)組以形成出現(xiàn)頻率數(shù)組。
[0154] 所述數(shù)據(jù)流文本處理模塊23用于獲取待預(yù)測(cè)的數(shù)據(jù)流文本,并對(duì)所述待預(yù)測(cè)的數(shù) 據(jù)流文本進(jìn)行去噪處理,所述去噪處理的結(jié)果包括第一結(jié)果或第二結(jié)果;
[0155]所述編碼格式確定模塊24用于當(dāng)去噪處理的結(jié)果為第一結(jié)果時(shí),根據(jù)有窮狀態(tài)自 動(dòng)機(jī)確定待預(yù)測(cè)的數(shù)據(jù)流文本的編碼格式;還用于當(dāng)去噪處理的結(jié)果為第二結(jié)果時(shí),計(jì)算 待預(yù)測(cè)的數(shù)據(jù)流文本的出現(xiàn)頻率數(shù)組;將待預(yù)測(cè)的數(shù)據(jù)流文本的出現(xiàn)頻率數(shù)組與出現(xiàn)頻率 表進(jìn)行比對(duì)以獲得待預(yù)測(cè)的數(shù)據(jù)流文本的編碼格式。
[0156]參考圖3,所述編碼格式確定模塊24包括:
[0157]第一確定單元241,用于當(dāng)去噪處理的結(jié)果為第一結(jié)果時(shí),根據(jù)有窮狀態(tài)自動(dòng)機(jī)確 定待預(yù)測(cè)的數(shù)據(jù)流文本的編碼格式;
[0158]計(jì)算單元242,用于計(jì)算待預(yù)測(cè)的數(shù)據(jù)流文本的出現(xiàn)頻率數(shù)組與出現(xiàn)頻率表之間 組間差或者組間方差;
[0159]第二確定單元243,用于將最小組間差或最小組間方差所對(duì)應(yīng)的編碼格式作為待 預(yù)測(cè)的數(shù)據(jù)流文本的編碼格式。
[0160] 本實(shí)施例的數(shù)據(jù)流編碼的預(yù)測(cè)裝置的具體實(shí)現(xiàn)過程可參考前述關(guān)于數(shù)據(jù)流編碼 的預(yù)測(cè)方法的詳細(xì)描述,在此不再贅述。
[0161] 綜上所述,本發(fā)明的數(shù)據(jù)流編碼的預(yù)測(cè)方法及數(shù)據(jù)流編碼的預(yù)測(cè)裝置,通過對(duì)編 碼類型進(jìn)行區(qū)別,在去噪處理后,快速的確定預(yù)測(cè)的方式,從而極大的提高了預(yù)測(cè)的效率; 并且,本發(fā)明可以實(shí)現(xiàn)對(duì)各種編碼的預(yù)測(cè),從而大大提高了預(yù)測(cè)的準(zhǔn)確度。所以,本發(fā)明有 效克服了現(xiàn)有技術(shù)中的種種缺點(diǎn)而具高度產(chǎn)業(yè)利用價(jià)值。
[0162]上述實(shí)施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何熟 悉此技術(shù)的人士皆可在不違背本發(fā)明的精神及范疇下,對(duì)上述實(shí)施例進(jìn)行修飾或改變。因 此,舉凡所屬技術(shù)領(lǐng)域中具有通常知識(shí)者在未脫離本發(fā)明所揭示的精神與技術(shù)思想下所完 成的一切等效修飾或改變,仍應(yīng)由本發(fā)明的權(quán)利要求所涵蓋。
【主權(quán)項(xiàng)】
1. 一種數(shù)據(jù)流編碼的預(yù)測(cè)方法,其特征在于,所述數(shù)據(jù)流編碼的預(yù)測(cè)方法包括以下步 驟: 獲取各種編碼的測(cè)試樣本; 根據(jù)第一類型編碼的測(cè)試樣本形成出現(xiàn)頻率表或根據(jù)第二類型編碼的測(cè)試樣本形成 有窮狀態(tài)自動(dòng)機(jī); 獲取待預(yù)測(cè)的數(shù)據(jù)流文本,并對(duì)所述待預(yù)測(cè)的數(shù)據(jù)流文本進(jìn)行去噪處理,所述去噪處 理的結(jié)果包括第一結(jié)果或第二結(jié)果; 當(dāng)去噪處理的結(jié)果為第一結(jié)果時(shí),根據(jù)有窮狀態(tài)自動(dòng)機(jī)確定待預(yù)測(cè)的數(shù)據(jù)流文本的編 碼格式; 當(dāng)去噪處理的結(jié)果為第二結(jié)果時(shí),計(jì)算待預(yù)測(cè)的數(shù)據(jù)流文本的出現(xiàn)頻率數(shù)組; 將待預(yù)測(cè)的數(shù)據(jù)流文本的出現(xiàn)頻率數(shù)組與出現(xiàn)頻率表進(jìn)行比對(duì)以獲得待預(yù)測(cè)的數(shù)據(jù) 流文本的編碼格式。2. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)流編碼的預(yù)測(cè)方法,其特征在于,所述根據(jù)第一類型編碼 的測(cè)試樣本形成出現(xiàn)頻率表步驟包括: 對(duì)第一類型編碼的測(cè)試樣本進(jìn)行去噪處理; 根據(jù)去噪處理后的測(cè)試樣本計(jì)算各編碼的出現(xiàn)頻率數(shù)組,以形成出現(xiàn)頻率表。3. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)流編碼的預(yù)測(cè)方法,其特征在于,所述計(jì)算待預(yù)測(cè)的數(shù)據(jù) 流文本的出現(xiàn)頻率數(shù)組的步驟包括: 計(jì)算去噪處理后的數(shù)據(jù)流文本中每個(gè)字節(jié)出現(xiàn)的頻率; 將每個(gè)字節(jié)出現(xiàn)的頻率記錄進(jìn)數(shù)組以形成出現(xiàn)頻率數(shù)組。4. 根據(jù)權(quán)利要求3所述的數(shù)據(jù)流編碼的預(yù)測(cè)方法,其特征在于,所述將每個(gè)字節(jié)出現(xiàn)的 頻率記錄進(jìn)數(shù)組以形成出現(xiàn)頻率數(shù)組的步驟包括:計(jì)算每個(gè)字節(jié)出現(xiàn)的頻率與一百有效字 節(jié)的比值以形成出現(xiàn)頻率數(shù)組,所述有效字節(jié)為對(duì)待預(yù)測(cè)的數(shù)據(jù)流文本進(jìn)行去噪處理后的 字節(jié)數(shù)。5. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)流編碼的預(yù)測(cè)方法,其特征在于,將待預(yù)測(cè)的數(shù)據(jù)流文本 的出現(xiàn)頻率數(shù)組與出現(xiàn)頻率表進(jìn)行比對(duì)以獲得待預(yù)測(cè)的數(shù)據(jù)流文本的編碼格式的步驟包 括: 計(jì)算待預(yù)測(cè)的數(shù)據(jù)流文本的出現(xiàn)頻率數(shù)組與出現(xiàn)頻率表之間組間差; 將最小組間差所對(duì)應(yīng)的編碼格式作為待預(yù)測(cè)的數(shù)據(jù)流文本的編碼格式。6. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)流編碼的預(yù)測(cè)方法,其特征在于,將待預(yù)測(cè)的數(shù)據(jù)流文本 的出現(xiàn)頻率數(shù)組與出現(xiàn)頻率表進(jìn)行比對(duì)以獲得待預(yù)測(cè)的數(shù)據(jù)流文本的編碼格式的步驟包 括: 計(jì)算待預(yù)測(cè)的數(shù)據(jù)流文本的出現(xiàn)頻率數(shù)組與出現(xiàn)頻率表之間組間方差; 將最小組間方差所對(duì)應(yīng)的編碼格式作為待預(yù)測(cè)的數(shù)據(jù)流文本的編碼格式。7. -種數(shù)據(jù)流編碼的預(yù)測(cè)裝置,其特征在于,所述數(shù)據(jù)流編碼的預(yù)測(cè)裝置包括: 測(cè)試樣本獲取模塊,用于獲取各種編碼的測(cè)試樣本; 測(cè)試樣本處理模塊,用于根據(jù)第一類型編碼的測(cè)試樣本形成出現(xiàn)頻率表或根據(jù)第二類 型編碼的測(cè)試樣本形成有窮狀態(tài)自動(dòng)機(jī); 數(shù)據(jù)流文本處理模塊,用于獲取待預(yù)測(cè)的數(shù)據(jù)流文本,并對(duì)所述待預(yù)測(cè)的數(shù)據(jù)流文本 進(jìn)行去噪處理,所述去噪處理的結(jié)果包括第一結(jié)果或第二結(jié)果; 編碼格式確定模塊,用于當(dāng)去噪處理的結(jié)果為第一結(jié)果時(shí),根據(jù)有窮狀態(tài)自動(dòng)機(jī)確定 待預(yù)測(cè)的數(shù)據(jù)流文本的編碼格式;還用于當(dāng)去噪處理的結(jié)果為第二結(jié)果時(shí),計(jì)算待預(yù)測(cè)的 數(shù)據(jù)流文本的出現(xiàn)頻率數(shù)組;將待預(yù)測(cè)的數(shù)據(jù)流文本的出現(xiàn)頻率數(shù)組與出現(xiàn)頻率表進(jìn)行比 對(duì)以獲得待預(yù)測(cè)的數(shù)據(jù)流文本的編碼格式。8. 根據(jù)權(quán)利要求7所述的數(shù)據(jù)流編碼的預(yù)測(cè)裝置,其特征在于,所述測(cè)試樣本處理模塊 包括: 第一去噪單元,用于對(duì)第一類型編碼的測(cè)試樣本進(jìn)行去噪處理; 出現(xiàn)頻率表形成單元,用于根據(jù)去噪處理后的測(cè)試樣本計(jì)算各編碼的出現(xiàn)頻率數(shù)組, 以形成出現(xiàn)頻率表; 有窮狀態(tài)自動(dòng)機(jī)形成單元,用于根據(jù)第二類型編碼的測(cè)試樣本形成有窮狀態(tài)自動(dòng)機(jī)。9. 根據(jù)權(quán)利要求8所述的數(shù)據(jù)流編碼的預(yù)測(cè)裝置,其特征在于,所述出現(xiàn)頻率表形成單 元包括: 頻率計(jì)算單元,用于計(jì)算去噪處理后的數(shù)據(jù)流文本中每個(gè)字節(jié)出現(xiàn)的頻率; 記錄單元,用于將每個(gè)字節(jié)出現(xiàn)的頻率記錄進(jìn)數(shù)組以形成出現(xiàn)頻率數(shù)組。10. 根據(jù)權(quán)利要求8所述的數(shù)據(jù)流編碼的預(yù)測(cè)裝置,其特征在于,所述編碼格式確定模 塊包括: 第一確定單元,用于當(dāng)去噪處理的結(jié)果為第一結(jié)果時(shí),根據(jù)有窮狀態(tài)自動(dòng)機(jī)確定待預(yù) 測(cè)的數(shù)據(jù)流文本的編碼格式; 計(jì)算單元,用于計(jì)算待預(yù)測(cè)的數(shù)據(jù)流文本的出現(xiàn)頻率數(shù)組與出現(xiàn)頻率表之間組間差或 者組間方差; 第二確定單元,用于將最小組間差或最小組間方差所對(duì)應(yīng)的編碼格式作為待預(yù)測(cè)的數(shù) 據(jù)流文本的編碼格式。
【專利摘要】本發(fā)明提供一種數(shù)據(jù)流編碼的預(yù)測(cè)方法及預(yù)測(cè)裝置。所述數(shù)據(jù)流編碼的預(yù)測(cè)方法包括以下步驟:獲取各種編碼的測(cè)試樣本;根據(jù)第一類型編碼的測(cè)試樣本形成出現(xiàn)頻率表或根據(jù)第二類型編碼的測(cè)試樣本形成有窮狀態(tài)自動(dòng)機(jī);獲取待預(yù)測(cè)的數(shù)據(jù)流文本,并對(duì)所述待預(yù)測(cè)的數(shù)據(jù)流文本進(jìn)行去噪處理,所述去噪處理的結(jié)果包括第一結(jié)果或第二結(jié)果;當(dāng)去噪處理的結(jié)果為第一結(jié)果時(shí),根據(jù)有窮狀態(tài)自動(dòng)機(jī)確定待預(yù)測(cè)的數(shù)據(jù)流文本的編碼格式;當(dāng)去噪處理的結(jié)果為第二結(jié)果時(shí),計(jì)算待預(yù)測(cè)的數(shù)據(jù)流文本的出現(xiàn)頻率數(shù)組;將待預(yù)測(cè)的數(shù)據(jù)流文本的出現(xiàn)頻率數(shù)組與出現(xiàn)頻率表進(jìn)行比對(duì)以獲得待預(yù)測(cè)的數(shù)據(jù)流文本的編碼格式。本發(fā)明方法提高了預(yù)測(cè)的準(zhǔn)確性和效率。
【IPC分類】G06F17/30
【公開號(hào)】CN105468724
【申請(qǐng)?zhí)枴緾N201510812568
【發(fā)明人】李文斌
【申請(qǐng)人】上海斐訊數(shù)據(jù)通信技術(shù)有限公司
【公開日】2016年4月6日
【申請(qǐng)日】2015年11月20日