一種基于分類決策樹的內(nèi)容發(fā)布智能分類方法

文檔序號：8339669閱讀：417來源：國知局

一種基于分類決策樹的內(nèi)容發(fā)布智能分類方法
【技術領域】
[0001] 本發(fā)明屬于內(nèi)容管理系統(tǒng)（Content Management System)和數(shù)據(jù)挖掘（Data Mining)領域，具體涉及一種基于分類決策樹的內(nèi)容發(fā)布智能分類方法，應用于并革新內(nèi) 容發(fā)布流程的智能分類機制，基于現(xiàn)有內(nèi)容信息生成的分類決策樹配置信息，以實現(xiàn)自動對用戶新發(fā)布的內(nèi)容進行智能分類，從而在保證效率的前提下改善用戶進行內(nèi)容發(fā)布的體驗。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)的廣泛普及尤其是社交化網(wǎng)絡的快速發(fā)展，網(wǎng)絡信息不僅在量上呈爆炸性的增長，而且內(nèi)容的類型亦更加的豐富。對于一個企業(yè)、組織、或者一個廣義上的社交分享平臺而言，內(nèi)容管理有了新的挑戰(zhàn)，比如內(nèi)容的存儲、分類，檢索等等。而本發(fā)明關注內(nèi) 容管理的發(fā)布流程的改善。在傳統(tǒng)的多類型內(nèi)容管理系統(tǒng)中，針對不同類型內(nèi)容，比如文章、鏈接、視頻、文檔等，它們各自的內(nèi)容發(fā)布流程時往往是被顯性進行區(qū)分，即每一種類型都各有其特殊的發(fā)布流程，以人人網(wǎng)（http ://www. renren. com)為例，日志、鏈接分享、狀態(tài)等內(nèi)容的發(fā)布途徑是不同的。同時，隨著智能終端的快速發(fā)展，一個應用的訪問形式不僅僅只有傳統(tǒng)的web形式，還有移動app形式。因此，一個體驗良好而且統(tǒng)一的內(nèi)容發(fā)布流程成為了內(nèi)容管理系統(tǒng)中內(nèi)容發(fā)布部分發(fā)展的趨勢。
[0003] 在傳統(tǒng)的內(nèi)容發(fā)布流程中，不同類型的內(nèi)容發(fā)布基于不同的發(fā)布途徑或過程。這些不同的發(fā)布途徑，帶來了許多的不便：1)從前端體驗的角度看，用戶需手動選擇內(nèi)容類型，同時頁面需要為所有類型的內(nèi)容發(fā)布提供入口鏈接；類型越多，所需要的屏幕空間越大，這點在移動智能終端上影響尤其大。2)從工程實踐的角度看，為不同類型的內(nèi)容提供特殊化的發(fā)布流程，架構(gòu)的擴展性差，每增加一類內(nèi)容，便要增加相應的代碼，同時不同類型的內(nèi)容發(fā)布流程的業(yè)務邏輯基本相似，容易造成代碼冗余。
[0004] 分類是一種數(shù)據(jù)分析形式，也是數(shù)據(jù)挖掘中一項非常重要的任務（可參考李彥華.決策樹分類器的研宄、實現(xiàn)及在數(shù)據(jù)挖掘中的應用[D].上海交通大學，2001.以及黃澤宇.決策樹分類器算法的研宄[D].北京交通大學，2006.)。它可用于在數(shù)據(jù)中抽取出決策支持所用的知識，即能在數(shù)據(jù)中抽取出描述重要數(shù)據(jù)集合或預測未來數(shù)據(jù)趨勢的模型。在數(shù)據(jù)挖掘中，分類的應用非常廣泛。例如銷售部門可以在收集的客戶資料上建立一個分類模型，來判斷客戶是潛在客戶還是忠實客戶。而在本場景下，可以基于現(xiàn)有的內(nèi)容類型的信息，建立分類模型，來判斷新發(fā)布內(nèi)容的類型。
[0005] 一般地，分類是依據(jù)某種分類模型，在具有類別信息的數(shù)據(jù)集合中學習出一個分類函數(shù)，即分類器。分類器能夠基于特征值集合所描述的待分類實例指派一個最適合的類另IJ，從而能夠應用于數(shù)據(jù)分類和預測。
[0006] 從機器學習方法中監(jiān)督學習和非監(jiān)督學習兩類方法看，分類器的學習策略還分為急切式學習策略和懶惰式學習策略。前者在分類器訓練過程中就建立能將待分類實例映射到具體類別的有清晰假設的分類器，然后隨著訓練改善分類器；而后者在訓練過程中沒有建立清晰的假設，分類過程即是利用訓練集合將給定實例與其類別匹配起來的過程。一般來說，急切式學習策略在效率上大大優(yōu)于懶惰式學習策略，然而后者在分類精確度上優(yōu)于急切式學習策略。
[0007] 結(jié)合機器學習和數(shù)據(jù)挖掘的理論體系，具體構(gòu)建分類器的算法亦有許多，如樸素貝葉斯方法、決策樹（請參考 Quinlan JR. Induction of decision trees. Machine Learning[J]，l :81106，1986,81~106)、神經(jīng)網(wǎng)絡、K-最鄰近以及支持向量機等。其中，決策樹分類是應用最多的分類方法之一，尤其對由"特征-值"對表達的實例和對目標函數(shù)要求具有離散的輸出值的場景有著極好的效果，同時對噪聲數(shù)據(jù)有著良好的健壯性，因此非常適合應用于對內(nèi)容管理系統(tǒng)中內(nèi)容分類這個場景。
[0008] 綜上所述，在一個富類型的內(nèi)容管理系統(tǒng)中，傳統(tǒng)的內(nèi)容發(fā)布流程存在不良好的體驗，如遇到不同類型需擁有其特殊化的內(nèi)容發(fā)布流程，造成不良好的前端用戶體驗以及發(fā)布子系統(tǒng)擴展性差等不足。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明的目的在于解決上述現(xiàn)有技術中存在的難題，提供一種基于分類決策樹的內(nèi)容發(fā)布智能分類方法，基于內(nèi)容管理系統(tǒng)現(xiàn)有內(nèi)容信息，運用數(shù)據(jù)挖掘的分類技術，制定一種針對內(nèi)容發(fā)布的內(nèi)容智能分類機制，以改善傳統(tǒng)內(nèi)容發(fā)布流程。
[0010] 本發(fā)明是通過以下技術方案實現(xiàn)的：
[0011] 一種基于分類決策樹的內(nèi)容發(fā)布智能分類方法，其應用的系統(tǒng)通用架構(gòu)包括：內(nèi) 容數(shù)據(jù)采集模塊、分類策略模塊、分類決策樹訓練模塊；所述方法結(jié)合機器學習的監(jiān)督學習方法，將內(nèi)容管理系統(tǒng)中已有的內(nèi)容信息作為訓練數(shù)據(jù)集合，并利用此訓練數(shù)據(jù)集合基于決策樹學習算法生成分類器；所有發(fā)布內(nèi)容都基于相同的發(fā)布途徑，發(fā)布后由所述分類器根據(jù)發(fā)布內(nèi)容的特征值判斷該發(fā)布內(nèi)容的類型，從而完成整個發(fā)布過程。
[0012] 所述方法利用所述內(nèi)容數(shù)據(jù)采集模塊分析新發(fā)布內(nèi)容的特征值信息；利用分類策略模塊加載分類決策樹配置信息，以及在其運行過程中根據(jù)提供的特征值信息返回類型信息；利用分類決策樹訓練模炔基于所述訓練數(shù)據(jù)集合進行離線處理，輸出分類決策樹配置信息，形成所述分類器；
[0013] 所述特征值信息包括：文本長度、是否包含鏈接、是否包含文檔附件、是否包含視頻鏈接和是否包含圖片；
[0014] 發(fā)布內(nèi)容的類型包括：文檔、話題、文章、分享鏈接和視頻。
[0015] 所述方法包括分類決策樹訓練步驟，具體如下：
[0016] (Al)對內(nèi)容管理系統(tǒng)中已有的內(nèi)容信息進行預處理，提取所需的特征值信息和類型信息，取1成作為驗證數(shù)據(jù)，9成作為訓練數(shù)據(jù)；
[0017] (A2)基于決策樹學習算法和算法參數(shù)，生成分類決策樹配置信息；
[0018] (A3)基于所述驗證數(shù)據(jù)，對步驟（A2)生成的決策樹配置信息進行測試，輸出測試結(jié)果；
[0019] (A4)輸出分類器。
[0020] 所述方法進一步包括內(nèi)容發(fā)布步驟，具體如下：
[0021] (BI)基于統(tǒng)一的頁面進行內(nèi)容發(fā)布提交；
[0022] (B2)提取特征值：根據(jù)用戶提供的內(nèi)容信息提取特征值信息；
[0023] (B3)分類器根據(jù)步驟（B2)得到的特征值信息判斷新發(fā)布內(nèi)容的類型；
[0024] (B4)將步驟（B3)判斷出的類別的信息存于內(nèi)容信息數(shù)據(jù)中，然后存于數(shù)據(jù)庫中。
[0025] 與現(xiàn)有技術相比，本發(fā)明的有益效果是：
[0026] (1)從用戶層面看，本發(fā)明改善了內(nèi)容發(fā)布的用戶體驗。發(fā)布后內(nèi)容的類別由系統(tǒng) 判斷，而非用戶選擇，發(fā)布流程更加智能化。
[0027] (2)從系統(tǒng)視覺和交互設計層面看，利用本發(fā)明講多種類型的內(nèi)容發(fā)布流程統(tǒng)一后，極大地釋放了原來多種類型的內(nèi)容發(fā)布內(nèi)容對前端頁面空間的低效占用，給予前端用戶界面在視覺上和交互上更多的優(yōu)化空間。
[0028] (3)從系統(tǒng)實現(xiàn)的層面看，本發(fā)明引進了智能業(yè)務，同時策略信息與具體的邏輯實現(xiàn)相分離，策略的變化能更加地靈活，而代碼結(jié)構(gòu)更加穩(wěn)定，不再需要跟隨內(nèi)容類型的增加或分類策略的改變而重寫。將策略作為單獨的面從系統(tǒng)抽離出來，使得內(nèi)容發(fā)布子系統(tǒng)有了更好的可擴展性。
【附圖說明】
[0029] 圖1是傳統(tǒng)的多類型的內(nèi)容發(fā)布過程示意圖。
[0030] 圖2是本發(fā)明的統(tǒng)一的內(nèi)容發(fā)布過程示意圖。
[0031] 圖3是本發(fā)明的系統(tǒng)通用架構(gòu)模型。
[0032] 圖4是本發(fā)明的分類決策樹訓練的總體框架圖。
[0033]

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：蘇森;徐鵬;雙鍇;溫鑒榮;王玉龍;
技術所有人：北京郵電大學;
我是此專利的發(fā)明人

上一篇：應用間內(nèi)容分享方法及其裝置的制造方法
上一篇：一種面向?qū)ο蟮臄?shù)據(jù)索引方法及裝置的制造方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

決策樹分類器相關技術

決策樹分類算法相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于分類決策樹的內(nèi)容發(fā)布智能分類方法