一種文件自動(dòng)分類方法

文檔序號(hào)：6602860閱讀：213來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種文件自動(dòng)分類方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種文件自動(dòng)分類方法，屬于數(shù)據(jù)挖掘領(lǐng)域，適用于資源自動(dòng)歸類、網(wǎng) 絡(luò)內(nèi)容監(jiān)管、垃圾郵件過濾、數(shù)字圖書館等。
背景技術(shù)：
文件自動(dòng)分類是數(shù)據(jù)挖掘領(lǐng)域較為熱點(diǎn)的研究問題。其目的是訓(xùn)練一個(gè)分類函數(shù) 或分類器，該函數(shù)或分類器能把待分文件映射到給定的相應(yīng)類別中。其目標(biāo)是找到分類速度更快、更準(zhǔn)確的管理文本信息的方法。目前，大量的研究集中于文本文件分類的研究，如張曉丹等人在文獻(xiàn)《一種決策級(jí) 文本自動(dòng)分類融合方法》(國家專利，專利申請?zhí)?009100878443)中公開了一種決策級(jí)文本自動(dòng)分類融合方法，其分類模型如圖1所示。該方法以信息融合為理論基礎(chǔ)，以分類精度較高的SVM、KNN、貝葉斯等文件自動(dòng)分類算法為研究對象，采用多層融合結(jié)構(gòu)，串、并聯(lián)混和的形式，建立了決策級(jí)的文件自動(dòng)分類融合模型。這種方法的缺點(diǎn)是由于其僅處理文件中的本文信息，而沒有對待分類文件中的圖像、視頻、音頻等信息進(jìn)行處理，導(dǎo)致分類的準(zhǔn)確率不理想。這主要是由于目前網(wǎng)絡(luò)數(shù)據(jù)中包含大量的多媒體數(shù)據(jù)，如視頻、圖像、音頻等，因此基于文本的分類技術(shù)已無法滿足人們的需要。從已公開的文獻(xiàn)中，還未見到同時(shí)處理多種媒體的文件分類方法。

發(fā)明內(nèi)容
本發(fā)明針對目前已有文本自動(dòng)分類方法存在準(zhǔn)確度不高的缺點(diǎn)，在已有的決策級(jí) 文本自動(dòng)分類融合方法的基礎(chǔ)上，提出一種基于多種媒體(圖像、音頻、視頻和文本信息) 的文件自動(dòng)分類方法，得到準(zhǔn)確率更高的分類結(jié)果。本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的?！N文件自動(dòng)分類方法，其具體操作步驟如下第1步從待分類文件中抽取出文本信息、圖像信息、視頻信息、音頻信息；第2步在第1步的基礎(chǔ)上，對抽取出來的文本信息、圖像信息、視頻信息、音頻信息分別進(jìn)行預(yù)處理；對文本信息進(jìn)行預(yù)處理包括分詞、特征提取、權(quán)重計(jì)算等；對圖像信息進(jìn)行預(yù)處理包括圖像變換、增強(qiáng)、邊緣檢測、恢復(fù)、分割等；對視頻信息進(jìn)行預(yù)處理包括特征提取、建視頻庫、對視頻數(shù)據(jù)進(jìn)行多維分析等；對音頻信息進(jìn)行預(yù)處理包括前端預(yù)處理、特征提取、識(shí)別等；第3步在第2步的基礎(chǔ)上，對經(jīng)過預(yù)處理后的文本信息進(jìn)行分類；使用的分類方法包括但不限于KNN、SVM、貝葉斯；第4步在第2步的基礎(chǔ)上，對經(jīng)過預(yù)處理后的圖像信息進(jìn)行分類；使用的分類方法包括但不限于SVM、貝葉斯網(wǎng)絡(luò)、BP神經(jīng)網(wǎng)絡(luò)；第5步在第2步的基礎(chǔ)上，對經(jīng)過預(yù)處理后的視頻信息進(jìn)行分類；使用的分類方法包括但不限于KNN、SVM、Boosting算法；
第6步在第2步的基礎(chǔ)上，對經(jīng)過預(yù)處理后的音頻信息進(jìn)行分類；使用的分類方法包括但不限于SVM、GMM算法；第7步收集第3步到第6步的分類結(jié)果，并采用決策級(jí)融合算法對收集的分類結(jié) 果進(jìn)行推理計(jì)算，得到最終的分類結(jié)果；所述決策級(jí)融合算法包括但不限于貝葉斯網(wǎng)絡(luò) 算法、D-S證據(jù)理論算法、投票算法。有益效果本發(fā)明方法采用對文件中的文本信息、圖像信息、視頻信息、音頻信息分別進(jìn)行分類，然后采用決策級(jí)融合算法對分類結(jié)果進(jìn)行綜合處理，可以得到更高準(zhǔn)確率的文件分類結(jié)果。

圖1為已有技術(shù)的決策級(jí)文本自動(dòng)分類融合模型示意圖。
具體實(shí)施例方式根據(jù)上述技術(shù)方案，下面結(jié)合實(shí)施例對本發(fā)明進(jìn)行詳細(xì)說明。本實(shí)施例采用本發(fā)明方法建立一個(gè)文件分類系統(tǒng)，該分類系統(tǒng)采用JAVA開發(fā)平臺(tái)，Oracle數(shù)據(jù)庫。采用6000篇為文本訓(xùn)練語料、5000篇為圖像訓(xùn)練語料、3000篇為視頻訓(xùn)練語料、3000篇為音頻訓(xùn)練語料對該分類系統(tǒng)進(jìn)行訓(xùn)練，訓(xùn)練好以后，使用4000篇測試語料進(jìn)行測試，具體步驟如下第1步從4000篇待分類文件中抽取出文本信息、圖像信息、視頻信息、音頻信息；第2步對文本信息進(jìn)行預(yù)處理，包括分詞、特征提取、權(quán)重計(jì)算；對圖像信息進(jìn) 行預(yù)處理，包括圖像變換、增強(qiáng)、邊緣檢測、恢復(fù)、分割；對視頻信息進(jìn)行預(yù)處理，包括特征提取、建視頻庫、對視頻數(shù)據(jù)進(jìn)行多維分析；對音頻信息進(jìn)行預(yù)處理，包括前端預(yù)處理、特征提取、識(shí)別；第3步使用KNN方法對經(jīng)過預(yù)處理后的文本信息進(jìn)行分類；第4步使用SVM方法對經(jīng)過預(yù)處理后的圖像信息進(jìn)行分類；第5步使用SVM方法對經(jīng)過預(yù)處理后的視頻信息進(jìn)行分類；第6步使用GMM算法對經(jīng)過預(yù)處理后的音頻信息進(jìn)行分類；第7步收集第3步到第6步的分類結(jié)果，并采用D-S證據(jù)理論算法對收集的分類結(jié)果進(jìn)行推理計(jì)算，得到最終的分類結(jié)果。經(jīng)過以上步驟的操作，得到試驗(yàn)結(jié)果如表1所示。同時(shí)，為說明本發(fā)明的分類效果，在同等條件下，以相同的訓(xùn)練語料、測試語料以及相同的分類體系分別采用KNN、SVM以及文獻(xiàn)《一種決策級(jí)文本自動(dòng)分類融合方法》(國家專利，專利申請?zhí)?009100878443)中公開的一種決策級(jí)文本自動(dòng)分類融合方法進(jìn)行分類，分類效果如表1所示表1三種算法分類效果比較
4
結(jié)論本發(fā)明提出的文件自動(dòng)分類方法采用了多種媒體的方式，發(fā)揮了多種分類器的優(yōu)勢，得到了高于文獻(xiàn)方法和其他單分類器的準(zhǔn)確率和召回率，驗(yàn)證了其有效性。需要強(qiáng)調(diào)的是，對于本領(lǐng)域技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)，這些也應(yīng)視為屬于本發(fā)明的保護(hù)范圍。
權(quán)利要求
一種文件自動(dòng)分類方法，其特征在于其具體操作步驟如下第1步從待分類文件中抽取出文本信息、圖像信息、視頻信息、音頻信息；第2步在第1步的基礎(chǔ)上，對抽取出來的文本信息、圖像信息、視頻信息、音頻信息分別進(jìn)行預(yù)處理；對文本信息進(jìn)行預(yù)處理包括分詞、特征提取、權(quán)重計(jì)算等；對圖像信息進(jìn)行預(yù)處理包括圖像變換、增強(qiáng)、邊緣檢測、恢復(fù)、分割等；對視頻信息進(jìn)行預(yù)處理包括特征提取、建視頻庫、對視頻數(shù)據(jù)進(jìn)行多維分析等；對音頻信息進(jìn)行預(yù)處理包括前端預(yù)處理、特征提取、識(shí)別等；第3步在第2步的基礎(chǔ)上，對經(jīng)過預(yù)處理后的文本信息進(jìn)行分類；第4步在第2步的基礎(chǔ)上，對經(jīng)過預(yù)處理后的圖像信息進(jìn)行分類；第5步在第2步的基礎(chǔ)上，對經(jīng)過預(yù)處理后的視頻信息進(jìn)行分類；第6步在第2步的基礎(chǔ)上，對經(jīng)過預(yù)處理后的音頻信息進(jìn)行分類；第7步收集第3步到第6步的分類結(jié)果，并采用決策級(jí)融合算法對收集的分類結(jié)果進(jìn)行推理計(jì)算，得到最終的分類結(jié)果。
2.如權(quán)利要求1所述的一種文件自動(dòng)分類方法，其特征在于第3步中所述對經(jīng)過預(yù) 處理后的文本信息進(jìn)行分類，使用的分類方法包括但不限于KNN、SVM、貝葉斯。
3.如權(quán)利要求1或2所述的一種文件自動(dòng)分類方法，其特征在于第4步中所述對經(jīng) 過預(yù)處理后的圖像信息進(jìn)行分類，使用的分類方法包括但不限于SVM、貝葉斯網(wǎng)絡(luò)、BP神經(jīng)網(wǎng)絡(luò)。
4.如權(quán)利要求1或2所述的一種文件自動(dòng)分類方法，其特征在于第5步中所述對經(jīng)過預(yù)處理后的視頻信息進(jìn)行分類，使用的分類方法包括但不限于KNN、SVM、Boosting算法。
5.如權(quán)利要求1或2所述的一種文件自動(dòng)分類方法，其特征在于第6步中所述對經(jīng) 過預(yù)處理后的音頻信息進(jìn)行分類，使用的分類方法包括但不限于SVM、GMM算法。
6.如權(quán)利要求1或2所述的一種文件自動(dòng)分類方法，其特征在于第7步中所述決策級(jí)融合算法包括但不限于貝葉斯網(wǎng)絡(luò)算法、D-S證據(jù)理論算法、投票算法。
全文摘要
本發(fā)明涉及一種文件自動(dòng)分類方法，屬于數(shù)據(jù)挖掘領(lǐng)域，適用于資源自動(dòng)歸類、網(wǎng)絡(luò)內(nèi)容監(jiān)管、垃圾郵件過濾、數(shù)字圖書館等。本發(fā)明方法首先抽取文件中的文本信息、圖像信息、視頻信息、音頻信息，然后對這四類信息分別采用不同的分類方法進(jìn)行分類，再將四類信息的分類結(jié)果匯總，采用決策級(jí)融合算法進(jìn)行綜合處理，得到最終分類結(jié)果。本發(fā)明能夠得到更高準(zhǔn)確率的文件分類結(jié)果。
文檔編號(hào)G06F17/30GK101923561SQ201010179678
公開日2010年12月22日申請日期2010年5月24日優(yōu)先權(quán)日2010年5月24日
發(fā)明者喬曉東, 姚長青, 張曉丹, 朱禮軍申請人:中國科學(xué)技術(shù)信息研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張曉丹;喬曉東;姚長青;朱禮軍
技術(shù)所有人：中國科學(xué)技術(shù)信息研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種文件自動(dòng)分類方法