專利名稱:一種文件自動(dòng)分類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文件自動(dòng)分類方法,屬于數(shù)據(jù)挖掘領(lǐng)域,適用于資源自動(dòng)歸類、網(wǎng) 絡(luò)內(nèi)容監(jiān)管、垃圾郵件過濾、數(shù)字圖書館等。
背景技術(shù):
文件自動(dòng)分類是數(shù)據(jù)挖掘領(lǐng)域較為熱點(diǎn)的研究問題。其目的是訓(xùn)練一個(gè)分類函數(shù) 或分類器,該函數(shù)或分類器能把待分文件映射到給定的相應(yīng)類別中。其目標(biāo)是找到分類速 度更快、更準(zhǔn)確的管理文本信息的方法。目前,大量的研究集中于文本文件分類的研究,如張曉丹等人在文獻(xiàn)《一種決策級(jí) 文本自動(dòng)分類融合方法》(國家專利,專利申請?zhí)?009100878443)中公開了一種決策級(jí)文 本自動(dòng)分類融合方法,其分類模型如圖1所示。該方法以信息融合為理論基礎(chǔ),以分類精度 較高的SVM、KNN、貝葉斯等文件自動(dòng)分類算法為研究對象,采用多層融合結(jié)構(gòu),串、并聯(lián)混和 的形式,建立了決策級(jí)的文件自動(dòng)分類融合模型。這種方法的缺點(diǎn)是由于其僅處理文件中 的本文信息,而沒有對待分類文件中的圖像、視頻、音頻等信息進(jìn)行處理,導(dǎo)致分類的準(zhǔn)確 率不理想。這主要是由于目前網(wǎng)絡(luò)數(shù)據(jù)中包含大量的多媒體數(shù)據(jù),如視頻、圖像、音頻等,因 此基于文本的分類技術(shù)已無法滿足人們的需要。從已公開的文獻(xiàn)中,還未見到同時(shí)處理多種媒體的文件分類方法。
發(fā)明內(nèi)容
本發(fā)明針對目前已有文本自動(dòng)分類方法存在準(zhǔn)確度不高的缺點(diǎn),在已有的決策級(jí) 文本自動(dòng)分類融合方法的基礎(chǔ)上,提出一種基于多種媒體(圖像、音頻、視頻和文本信息) 的文件自動(dòng)分類方法,得到準(zhǔn)確率更高的分類結(jié)果。本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的?!N文件自動(dòng)分類方法,其具體操作步驟如下第1步從待分類文件中抽取出文本信息、圖像信息、視頻信息、音頻信息;第2步在第1步的基礎(chǔ)上,對抽取出來的文本信息、圖像信息、視頻信息、音頻信 息分別進(jìn)行預(yù)處理;對文本信息進(jìn)行預(yù)處理包括分詞、特征提取、權(quán)重計(jì)算等;對圖像信息 進(jìn)行預(yù)處理包括圖像變換、增強(qiáng)、邊緣檢測、恢復(fù)、分割等;對視頻信息進(jìn)行預(yù)處理包括特征 提取、建視頻庫、對視頻數(shù)據(jù)進(jìn)行多維分析等;對音頻信息進(jìn)行預(yù)處理包括前端預(yù)處理、特 征提取、識(shí)別等;第3步在第2步的基礎(chǔ)上,對經(jīng)過預(yù)處理后的文本信息進(jìn)行分類;使用的分類方 法包括但不限于KNN、SVM、貝葉斯;第4步在第2步的基礎(chǔ)上,對經(jīng)過預(yù)處理后的圖像信息進(jìn)行分類;使用的分類方 法包括但不限于SVM、貝葉斯網(wǎng)絡(luò)、BP神經(jīng)網(wǎng)絡(luò);第5步在第2步的基礎(chǔ)上,對經(jīng)過預(yù)處理后的視頻信息進(jìn)行分類;使用的分類方 法包括但不限于KNN、SVM、Boosting算法;
第6步在第2步的基礎(chǔ)上,對經(jīng)過預(yù)處理后的音頻信息進(jìn)行分類;使用的分類方 法包括但不限于SVM、GMM算法;第7步收集第3步到第6步的分類結(jié)果,并采用決策級(jí)融合算法對收集的分類結(jié) 果進(jìn)行推理計(jì)算,得到最終的分類結(jié)果;所述決策級(jí)融合算法包括但不限于貝葉斯網(wǎng)絡(luò) 算法、D-S證據(jù)理論算法、投票算法。有益效果本發(fā)明方法采用對文件中的文本信息、圖像信息、視頻信息、音頻信息分別進(jìn)行分 類,然后采用決策級(jí)融合算法對分類結(jié)果進(jìn)行綜合處理,可以得到更高準(zhǔn)確率的文件分類結(jié)果。
圖1為已有技術(shù)的決策級(jí)文本自動(dòng)分類融合模型示意圖。
具體實(shí)施例方式根據(jù)上述技術(shù)方案,下面結(jié)合實(shí)施例對本發(fā)明進(jìn)行詳細(xì)說明。本實(shí)施例采用本發(fā)明方法建立一個(gè)文件分類系統(tǒng),該分類系統(tǒng)采用JAVA開發(fā)平 臺(tái),Oracle數(shù)據(jù)庫。采用6000篇為文本訓(xùn)練語料、5000篇為圖像訓(xùn)練語料、3000篇為視頻 訓(xùn)練語料、3000篇為音頻訓(xùn)練語料對該分類系統(tǒng)進(jìn)行訓(xùn)練,訓(xùn)練好以后,使用4000篇測試 語料進(jìn)行測試,具體步驟如下第1步從4000篇待分類文件中抽取出文本信息、圖像信息、視頻信息、音頻信 息;第2步對文本信息進(jìn)行預(yù)處理,包括分詞、特征提取、權(quán)重計(jì)算;對圖像信息進(jìn) 行預(yù)處理,包括圖像變換、增強(qiáng)、邊緣檢測、恢復(fù)、分割;對視頻信息進(jìn)行預(yù)處理,包括特征提 取、建視頻庫、對視頻數(shù)據(jù)進(jìn)行多維分析;對音頻信息進(jìn)行預(yù)處理,包括前端預(yù)處理、特征提 取、識(shí)別;第3步使用KNN方法對經(jīng)過預(yù)處理后的文本信息進(jìn)行分類;第4步使用SVM方法對經(jīng)過預(yù)處理后的圖像信息進(jìn)行分類;第5步使用SVM方法對經(jīng)過預(yù)處理后的視頻信息進(jìn)行分類;第6步使用GMM算法對經(jīng)過預(yù)處理后的音頻信息進(jìn)行分類;第7步收集第3步到第6步的分類結(jié)果,并采用D-S證據(jù)理論算法對收集的分類 結(jié)果進(jìn)行推理計(jì)算,得到最終的分類結(jié)果。經(jīng)過以上步驟的操作,得到試驗(yàn)結(jié)果如表1所示。同時(shí),為說明本發(fā)明的分類效果,在同等條件下,以相同的訓(xùn)練語料、測試語料以 及相同的分類體系分別采用KNN、SVM以及文獻(xiàn)《一種決策級(jí)文本自動(dòng)分類融合方法》(國 家專利,專利申請?zhí)?009100878443)中公開的一種決策級(jí)文本自動(dòng)分類融合方法進(jìn)行分 類,分類效果如表1所示表1三種算法分類效果比較
4
結(jié)論本發(fā)明提出的文件自動(dòng)分類方法采用了多種媒體的方式,發(fā)揮了多種分類 器的優(yōu)勢,得到了高于文獻(xiàn)方法和其他單分類器的準(zhǔn)確率和召回率,驗(yàn)證了其有效性。需要強(qiáng)調(diào)的是,對于本領(lǐng)域技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以 做出若干改進(jìn),這些也應(yīng)視為屬于本發(fā)明的保護(hù)范圍。
權(quán)利要求
一種文件自動(dòng)分類方法,其特征在于其具體操作步驟如下第1步從待分類文件中抽取出文本信息、圖像信息、視頻信息、音頻信息;第2步在第1步的基礎(chǔ)上,對抽取出來的文本信息、圖像信息、視頻信息、音頻信息分別進(jìn)行預(yù)處理;對文本信息進(jìn)行預(yù)處理包括分詞、特征提取、權(quán)重計(jì)算等;對圖像信息進(jìn)行預(yù)處理包括圖像變換、增強(qiáng)、邊緣檢測、恢復(fù)、分割等;對視頻信息進(jìn)行預(yù)處理包括特征提取、建視頻庫、對視頻數(shù)據(jù)進(jìn)行多維分析等;對音頻信息進(jìn)行預(yù)處理包括前端預(yù)處理、特征提取、識(shí)別等;第3步在第2步的基礎(chǔ)上,對經(jīng)過預(yù)處理后的文本信息進(jìn)行分類;第4步在第2步的基礎(chǔ)上,對經(jīng)過預(yù)處理后的圖像信息進(jìn)行分類;第5步在第2步的基礎(chǔ)上,對經(jīng)過預(yù)處理后的視頻信息進(jìn)行分類;第6步在第2步的基礎(chǔ)上,對經(jīng)過預(yù)處理后的音頻信息進(jìn)行分類;第7步收集第3步到第6步的分類結(jié)果,并采用決策級(jí)融合算法對收集的分類結(jié)果進(jìn)行推理計(jì)算,得到最終的分類結(jié)果。
2.如權(quán)利要求1所述的一種文件自動(dòng)分類方法,其特征在于第3步中所述對經(jīng)過預(yù) 處理后的文本信息進(jìn)行分類,使用的分類方法包括但不限于KNN、SVM、貝葉斯。
3.如權(quán)利要求1或2所述的一種文件自動(dòng)分類方法,其特征在于第4步中所述對經(jīng) 過預(yù)處理后的圖像信息進(jìn)行分類,使用的分類方法包括但不限于SVM、貝葉斯網(wǎng)絡(luò)、BP神 經(jīng)網(wǎng)絡(luò)。
4.如權(quán)利要求1或2所述的一種文件自動(dòng)分類方法,其特征在于第5步中所述對經(jīng)過 預(yù)處理后的視頻信息進(jìn)行分類,使用的分類方法包括但不限于KNN、SVM、Boosting算法。
5.如權(quán)利要求1或2所述的一種文件自動(dòng)分類方法,其特征在于第6步中所述對經(jīng) 過預(yù)處理后的音頻信息進(jìn)行分類,使用的分類方法包括但不限于SVM、GMM算法。
6.如權(quán)利要求1或2所述的一種文件自動(dòng)分類方法,其特征在于第7步中所述決策 級(jí)融合算法包括但不限于貝葉斯網(wǎng)絡(luò)算法、D-S證據(jù)理論算法、投票算法。
全文摘要
本發(fā)明涉及一種文件自動(dòng)分類方法,屬于數(shù)據(jù)挖掘領(lǐng)域,適用于資源自動(dòng)歸類、網(wǎng)絡(luò)內(nèi)容監(jiān)管、垃圾郵件過濾、數(shù)字圖書館等。本發(fā)明方法首先抽取文件中的文本信息、圖像信息、視頻信息、音頻信息,然后對這四類信息分別采用不同的分類方法進(jìn)行分類,再將四類信息的分類結(jié)果匯總,采用決策級(jí)融合算法進(jìn)行綜合處理,得到最終分類結(jié)果。本發(fā)明能夠得到更高準(zhǔn)確率的文件分類結(jié)果。
文檔編號(hào)G06F17/30GK101923561SQ201010179678
公開日2010年12月22日 申請日期2010年5月24日 優(yōu)先權(quán)日2010年5月24日
發(fā)明者喬曉東, 姚長青, 張曉丹, 朱禮軍 申請人:中國科學(xué)技術(shù)信息研究所