一種基于分類決策樹的內(nèi)容發(fā)布智能分類方法
【技術領域】
[0001] 本發(fā)明屬于內(nèi)容管理系統(tǒng)(Content Management System)和數(shù)據(jù)挖掘(Data Mining)領域,具體涉及一種基于分類決策樹的內(nèi)容發(fā)布智能分類方法,應用于并革新內(nèi) 容發(fā)布流程的智能分類機制,基于現(xiàn)有內(nèi)容信息生成的分類決策樹配置信息,以實現(xiàn)自動 對用戶新發(fā)布的內(nèi)容進行智能分類,從而在保證效率的前提下改善用戶進行內(nèi)容發(fā)布的體 驗。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)的廣泛普及尤其是社交化網(wǎng)絡的快速發(fā)展,網(wǎng)絡信息不僅在量上呈爆 炸性的增長,而且內(nèi)容的類型亦更加的豐富。對于一個企業(yè)、組織、或者一個廣義上的社交 分享平臺而言,內(nèi)容管理有了新的挑戰(zhàn),比如內(nèi)容的存儲、分類,檢索等等。而本發(fā)明關注內(nèi) 容管理的發(fā)布流程的改善。在傳統(tǒng)的多類型內(nèi)容管理系統(tǒng)中,針對不同類型內(nèi)容,比如文 章、鏈接、視頻、文檔等,它們各自的內(nèi)容發(fā)布流程時往往是被顯性進行區(qū)分,即每一種類型 都各有其特殊的發(fā)布流程,以人人網(wǎng)(http ://www. renren. com)為例,日志、鏈接分享、狀 態(tài)等內(nèi)容的發(fā)布途徑是不同的。同時,隨著智能終端的快速發(fā)展,一個應用的訪問形式不僅 僅只有傳統(tǒng)的web形式,還有移動app形式。因此,一個體驗良好而且統(tǒng)一的內(nèi)容發(fā)布流程 成為了內(nèi)容管理系統(tǒng)中內(nèi)容發(fā)布部分發(fā)展的趨勢。
[0003] 在傳統(tǒng)的內(nèi)容發(fā)布流程中,不同類型的內(nèi)容發(fā)布基于不同的發(fā)布途徑或過程。這 些不同的發(fā)布途徑,帶來了許多的不便:1)從前端體驗的角度看,用戶需手動選擇內(nèi)容類 型,同時頁面需要為所有類型的內(nèi)容發(fā)布提供入口鏈接;類型越多,所需要的屏幕空間越 大,這點在移動智能終端上影響尤其大。2)從工程實踐的角度看,為不同類型的內(nèi)容提供特 殊化的發(fā)布流程,架構(gòu)的擴展性差,每增加一類內(nèi)容,便要增加相應的代碼,同時不同類型 的內(nèi)容發(fā)布流程的業(yè)務邏輯基本相似,容易造成代碼冗余。
[0004] 分類是一種數(shù)據(jù)分析形式,也是數(shù)據(jù)挖掘中一項非常重要的任務(可參考李彥 華.決策樹分類器的研宄、實現(xiàn)及在數(shù)據(jù)挖掘中的應用[D].上海交通大學,2001.以及黃澤 宇.決策樹分類器算法的研宄[D].北京交通大學,2006.)。它可用于在數(shù)據(jù)中抽取出決策 支持所用的知識,即能在數(shù)據(jù)中抽取出描述重要數(shù)據(jù)集合或預測未來數(shù)據(jù)趨勢的模型。在 數(shù)據(jù)挖掘中,分類的應用非常廣泛。例如銷售部門可以在收集的客戶資料上建立一個分類 模型,來判斷客戶是潛在客戶還是忠實客戶。而在本場景下,可以基于現(xiàn)有的內(nèi)容類型的信 息,建立分類模型,來判斷新發(fā)布內(nèi)容的類型。
[0005] 一般地,分類是依據(jù)某種分類模型,在具有類別信息的數(shù)據(jù)集合中學習出一個分 類函數(shù),即分類器。分類器能夠基于特征值集合所描述的待分類實例指派一個最適合的類 另IJ,從而能夠應用于數(shù)據(jù)分類和預測。
[0006] 從機器學習方法中監(jiān)督學習和非監(jiān)督學習兩類方法看,分類器的學習策略還分為 急切式學習策略和懶惰式學習策略。前者在分類器訓練過程中就建立能將待分類實例映射 到具體類別的有清晰假設的分類器,然后隨著訓練改善分類器;而后者在訓練過程中沒有 建立清晰的假設,分類過程即是利用訓練集合將給定實例與其類別匹配起來的過程。一般 來說,急切式學習策略在效率上大大優(yōu)于懶惰式學習策略,然而后者在分類精確度上優(yōu)于 急切式學習策略。
[0007] 結(jié)合機器學習和數(shù)據(jù)挖掘的理論體系,具體構(gòu)建分類器的算法亦有許多,如樸 素貝葉斯方法、決策樹(請參考 Quinlan JR. Induction of decision trees. Machine Learning[J],l :81106,1986,81~106)、神經(jīng)網(wǎng)絡、K-最鄰近以及支持向量機等。其中,決 策樹分類是應用最多的分類方法之一,尤其對由"特征-值"對表達的實例和對目標函數(shù)要 求具有離散的輸出值的場景有著極好的效果,同時對噪聲數(shù)據(jù)有著良好的健壯性,因此非 常適合應用于對內(nèi)容管理系統(tǒng)中內(nèi)容分類這個場景。
[0008] 綜上所述,在一個富類型的內(nèi)容管理系統(tǒng)中,傳統(tǒng)的內(nèi)容發(fā)布流程存在不良好的 體驗,如遇到不同類型需擁有其特殊化的內(nèi)容發(fā)布流程,造成不良好的前端用戶體驗以及 發(fā)布子系統(tǒng)擴展性差等不足。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的目的在于解決上述現(xiàn)有技術中存在的難題,提供一種基于分類決策樹的 內(nèi)容發(fā)布智能分類方法,基于內(nèi)容管理系統(tǒng)現(xiàn)有內(nèi)容信息,運用數(shù)據(jù)挖掘的分類技術,制定 一種針對內(nèi)容發(fā)布的內(nèi)容智能分類機制,以改善傳統(tǒng)內(nèi)容發(fā)布流程。
[0010] 本發(fā)明是通過以下技術方案實現(xiàn)的:
[0011] 一種基于分類決策樹的內(nèi)容發(fā)布智能分類方法,其應用的系統(tǒng)通用架構(gòu)包括:內(nèi) 容數(shù)據(jù)采集模塊、分類策略模塊、分類決策樹訓練模塊;所述方法結(jié)合機器學習的監(jiān)督學習 方法,將內(nèi)容管理系統(tǒng)中已有的內(nèi)容信息作為訓練數(shù)據(jù)集合,并利用此訓練數(shù)據(jù)集合基于 決策樹學習算法生成分類器;所有發(fā)布內(nèi)容都基于相同的發(fā)布途徑,發(fā)布后由所述分類器 根據(jù)發(fā)布內(nèi)容的特征值判斷該發(fā)布內(nèi)容的類型,從而完成整個發(fā)布過程。
[0012] 所述方法利用所述內(nèi)容數(shù)據(jù)采集模塊分析新發(fā)布內(nèi)容的特征值信息;利用分類策 略模塊加載分類決策樹配置信息,以及在其運行過程中根據(jù)提供的特征值信息返回類型信 息;利用分類決策樹訓練模炔基于所述訓練數(shù)據(jù)集合進行離線處理,輸出分類決策樹配置 信息,形成所述分類器;
[0013] 所述特征值信息包括:文本長度、是否包含鏈接、是否包含文檔附件、是否包含視 頻鏈接和是否包含圖片;
[0014] 發(fā)布內(nèi)容的類型包括:文檔、話題、文章、分享鏈接和視頻。
[0015] 所述方法包括分類決策樹訓練步驟,具體如下:
[0016] (Al)對內(nèi)容管理系統(tǒng)中已有的內(nèi)容信息進行預處理,提取所需的特征值信息和類 型信息,取1成作為驗證數(shù)據(jù),9成作為訓練數(shù)據(jù);
[0017] (A2)基于決策樹學習算法和算法參數(shù),生成分類決策樹配置信息;
[0018] (A3)基于所述驗證數(shù)據(jù),對步驟(A2)生成的決策樹配置信息進行測試,輸出測試 結(jié)果;
[0019] (A4)輸出分類器。
[0020] 所述方法進一步包括內(nèi)容發(fā)布步驟,具體如下:
[0021] (BI)基于統(tǒng)一的頁面進行內(nèi)容發(fā)布提交;
[0022] (B2)提取特征值:根據(jù)用戶提供的內(nèi)容信息提取特征值信息;
[0023] (B3)分類器根據(jù)步驟(B2)得到的特征值信息判斷新發(fā)布內(nèi)容的類型;
[0024] (B4)將步驟(B3)判斷出的類別的信息存于內(nèi)容信息數(shù)據(jù)中,然后存于數(shù)據(jù)庫中。
[0025] 與現(xiàn)有技術相比,本發(fā)明的有益效果是:
[0026] (1)從用戶層面看,本發(fā)明改善了內(nèi)容發(fā)布的用戶體驗。發(fā)布后內(nèi)容的類別由系統(tǒng) 判斷,而非用戶選擇,發(fā)布流程更加智能化。
[0027] (2)從系統(tǒng)視覺和交互設計層面看,利用本發(fā)明講多種類型的內(nèi)容發(fā)布流程統(tǒng)一 后,極大地釋放了原來多種類型的內(nèi)容發(fā)布內(nèi)容對前端頁面空間的低效占用,給予前端用 戶界面在視覺上和交互上更多的優(yōu)化空間。
[0028] (3)從系統(tǒng)實現(xiàn)的層面看,本發(fā)明引進了智能業(yè)務,同時策略信息與具體的邏輯實 現(xiàn)相分離,策略的變化能更加地靈活,而代碼結(jié)構(gòu)更加穩(wěn)定,不再需要跟隨內(nèi)容類型的增加 或分類策略的改變而重寫。將策略作為單獨的面從系統(tǒng)抽離出來,使得內(nèi)容發(fā)布子系統(tǒng)有 了更好的可擴展性。
【附圖說明】
[0029] 圖1是傳統(tǒng)的多類型的內(nèi)容發(fā)布過程示意圖。
[0030] 圖2是本發(fā)明的統(tǒng)一的內(nèi)容發(fā)布過程示意圖。
[0031] 圖3是本發(fā)明的系統(tǒng)通用架構(gòu)模型。
[0032] 圖4是本發(fā)明的分類決策樹訓練的總體框架圖。
[0033]