一種基于屬性間相關(guān)系數(shù)的數(shù)據(jù)分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,涉及數(shù)據(jù)分類,具體地說是一種基于屬性間相關(guān)系數(shù) 的數(shù)據(jù)分類方法。
【背景技術(shù)】
[0002] 數(shù)據(jù)挖掘就是從數(shù)據(jù)庫(kù)中挖掘出數(shù)據(jù)間潛在的模式,再根據(jù)這些模式找出相應(yīng)的 規(guī)律。數(shù)據(jù)挖掘技術(shù)通過使用計(jì)算機(jī)來對(duì)數(shù)據(jù)庫(kù)中大量數(shù)據(jù)進(jìn)行快速、有效的分析和處理, 從中提取有用信息,并以一種形式化、可以理解的方式表達(dá),以便決策。數(shù)據(jù)挖掘?qū)ι虅?wù)決 策、知識(shí)庫(kù)、科學(xué)和醫(yī)學(xué)的研宄等都具有重要的應(yīng)用價(jià)值和十分廣闊的應(yīng)用前景。
[0003] 目前對(duì)數(shù)據(jù)挖掘的研宄主要集中在關(guān)聯(lián)規(guī)則挖掘、聚類、分類、序列模式發(fā)現(xiàn)、異 常和趨勢(shì)發(fā)現(xiàn)等方面,其中由于分類挖掘在商業(yè)等領(lǐng)域中的廣泛應(yīng)用,使它成為數(shù)據(jù)挖掘 中最活躍的研宄方向。分類的目的是提出一個(gè)分類函數(shù)或分類模型(分類器),該模型能把 數(shù)據(jù)庫(kù)中的數(shù)據(jù)映射到給定類別中的某一個(gè)。
[0004] 由于分類技術(shù)能夠?qū)Ω鱾€(gè)行業(yè)提供良好的決策支持,在不同的行業(yè)有著多種不同 領(lǐng)域方法的分類算法,例如決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、貝葉斯方法、粗略集方法等。在這些 算法中,決策樹方法最容易理解,應(yīng)用領(lǐng)域也特別廣泛。決策樹學(xué)習(xí)是一種逼近離散值目標(biāo) 函數(shù)的方法,將從一組訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的函數(shù)表示為一棵決策樹,它是一種常用于預(yù)測(cè) 模型的算法,通過將大量數(shù)據(jù)有目的的分類,從中找到一些具有價(jià)值的、潛在的信息。決策 樹雖然生成模式簡(jiǎn)單,但也存在如下問題:1)個(gè)別訓(xùn)練樣例的錯(cuò)誤,可能導(dǎo)致決策樹的精確 性較差;2)屬性間的相互關(guān)系強(qiáng)調(diào)不夠,容易導(dǎo)致決策樹中子樹的重復(fù)或有些屬性在決策 樹的某一路徑上被多次檢驗(yàn)。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于克服上述已有技術(shù)的缺點(diǎn),提出了一種基于屬性間相關(guān)系數(shù)的 數(shù)據(jù)分類方法,以降低了個(gè)別訓(xùn)練樣例錯(cuò)誤的敏感性;相關(guān)系數(shù)的引入,避免了屬性在路徑 上出現(xiàn)多次檢驗(yàn)的現(xiàn)象。
[0006] 本發(fā)明步驟:首先,輸入樣本集和待分類數(shù)據(jù)集,并計(jì)算訓(xùn)練樣本集所有屬性的信 息增益值GbM;其次,依據(jù)從大到小排序?qū)⒆畲笮畔⒃鲆嬷档膶傩赃x為決策樹中根 節(jié)點(diǎn)冢的測(cè)試屬性;然后,計(jì)算根節(jié)點(diǎn)屬性(上層節(jié)點(diǎn)屬性)與剩余屬性集之間相關(guān)系數(shù) 的絕對(duì)值再根據(jù)夂值和不同屬性的屬性值進(jìn)行每一層節(jié)點(diǎn)的建立過程,并更新剩余屬 性集i?;最后,直到所有屬性遍歷為止,生成決策樹,依據(jù)決策樹將待分類數(shù)據(jù)進(jìn)行分類,其 具體步驟包括如下: 步驟一、輸入樣本集和待分類數(shù)據(jù)集,計(jì)算訓(xùn)練樣本集所有屬性的信息增益值; 步驟二、對(duì)信息增益值依據(jù)從大到小排序,選取最大信息增益值Gb?的屬性作為 決策樹中根節(jié)點(diǎn)的測(cè)試屬性; 步驟三、計(jì)算根節(jié)點(diǎn)屬性(上一層節(jié)點(diǎn)屬性)與剩余屬性集之間相關(guān)系數(shù)的絕對(duì)值; 步驟四、根據(jù)值和不同屬性的屬性值進(jìn)行每一層節(jié)點(diǎn)的建立過程,并更新剩余屬性 集及; 步驟五、若剩余屬性集及不為空集,即所有屬性未遍歷完,繼續(xù)步驟三和四,直到所有 屬性遍歷完,生成決策樹; 步驟六、依據(jù)決策樹將待分類數(shù)據(jù)集進(jìn)行分類。
[0007] 本發(fā)明具有如下優(yōu)點(diǎn): 1、 本發(fā)明在建立決策樹過程中每一步都使用當(dāng)前的所有訓(xùn)練樣例,降低了個(gè)別訓(xùn)練樣 本錯(cuò)誤的敏感性,提高了分類的準(zhǔn)確性; 2、 本發(fā)明通過計(jì)算屬性間的相關(guān)系數(shù),強(qiáng)調(diào)了屬性之間的相關(guān)關(guān)系,解決了某些屬性 在決策樹的某一路徑上被多次檢驗(yàn)的問題。
【附圖說明】
[0008] 圖1是本發(fā)明流程圖; 圖2是本發(fā)明中決策樹子節(jié)點(diǎn)建立過程的流程圖; 圖3是本發(fā)明一實(shí)施例(某企業(yè)客戶購(gòu)買力)決策樹建立示意圖。
【具體實(shí)施方式】
[0009] 為了更清楚地說明本發(fā)明,根據(jù)對(duì)某公司客戶信息樣本數(shù)據(jù)這一實(shí)施例來進(jìn)行具 體描述,其中屬性包括銷售頻率(對(duì)應(yīng)的屬性值有210、<10 ),年生產(chǎn)總值(對(duì)應(yīng)的屬性值 有乏1000、< 1000 ),信譽(yù)程度(對(duì)應(yīng)的屬性值有不好、好),客戶性質(zhì)(對(duì)應(yīng)的屬性值有私營(yíng)、 國(guó)營(yíng)、民營(yíng)),產(chǎn)品行業(yè)(對(duì)應(yīng)的屬性值有工業(yè)和農(nóng)業(yè)),所屬省市(對(duì)應(yīng)的屬性值有湖南、江 西、上海),將使用本方法根據(jù)已分類的信息樣本數(shù)據(jù)建立決策樹,根據(jù)決策樹,可實(shí)現(xiàn)輸入 客戶信息輸出客戶購(gòu)買力的類別(對(duì)應(yīng)的類別有高、一般、低)。
[0010] 結(jié)合附圖和實(shí)施例,本發(fā)明的具體步驟如下: 步驟一、輸入樣本集和待分類數(shù)據(jù)集,計(jì)算訓(xùn)練樣本數(shù)據(jù)的所有屬性依據(jù)信息增益值 ,具體步驟如下: 1) 已知待分類數(shù)據(jù)集£),訓(xùn)練樣本集公具有屬性集兒可分為w個(gè)不同類 Gp= 1,2,...,;),即S= ,SsJ,其中勾表示類Cfi中的樣本數(shù);屬性集2具有界種屬性, 即3 = {4,4,...,4}且每種屬性40 =〗,2,...3)具有4個(gè)不同屬性值1[%,%2,...,%.」,則屬 性值將樣本集j劃分,其樣本數(shù)集合為,其中表示在屬性^下屬性值為 的樣本數(shù);參考圖3所示,在本例中,,《=6,屬性集』={銷售頻率,年生產(chǎn)總值,信 譽(yù)程度,客戶性質(zhì),產(chǎn)品行業(yè),所屬省市},類表示客戶購(gòu)買力高,類Q表示客戶購(gòu)買力一 般,類C3表示客戶購(gòu)買力低; 2) 求樣本分類所需的期望信息,即總的信息熵值為/(?,S2^s1J=-21巧Iog2 (巧),其 中Pi=Si/(S1+? +... +SM),IAS戰(zhàn);
【主權(quán)項(xiàng)】
1. 一種基于屬性間相關(guān)系數(shù)的數(shù)據(jù)分類方法,其特征在于,在數(shù)據(jù)分 類過程中,先輸入樣本集和待分類數(shù)據(jù)集,計(jì)算樣本所有屬性的信息增益值 并排序,然后根據(jù)所有屬性的信息增益值確定決策樹根節(jié)點(diǎn)的屬性,其次根據(jù) 屬性間相關(guān)系數(shù)的絕對(duì)值眾和不同屬性的屬性值,確定余下結(jié)點(diǎn)的屬性,最后直到所有屬 性遍歷完,生成決策樹,再依據(jù)決策樹將待分類數(shù)據(jù)集進(jìn)行分類,所述方法至少包括以下步 驟: 步驟一、輸入樣本集和待分類數(shù)據(jù)集,計(jì)算訓(xùn)練樣本集所有屬性的信息增益值; 步驟二、對(duì)信息增益值?依據(jù)從大到小排序,選取最大信息增益值(??的屬性作為 決策樹中根節(jié)點(diǎn)JF的測(cè)試屬性; 步驟三、計(jì)算根節(jié)點(diǎn)屬性(上一層節(jié)點(diǎn)屬性)與剩余屬性集之間相關(guān)系數(shù)的絕對(duì)值f ; 步驟四、根據(jù)#值和不同屬性的屬性值進(jìn)行每一層節(jié)點(diǎn)的建立過程,并更新剩余屬性 集M ; 步驟五、若剩余屬性集5不為空集,即所有屬性未遍歷完,繼續(xù)步驟三和四,直到所有 屬性遍歷完,生成決策樹; 步驟六、依據(jù)決策樹將待分類數(shù)據(jù)集進(jìn)行分類。
2. 根據(jù)權(quán)利要求1所述的一種基于屬性間相關(guān)系數(shù)的決策樹數(shù)據(jù)分類方法,其特征在 于根節(jié)點(diǎn)F的測(cè)試屬性選取過程,至少還包括以下步驟: 1) 已知待分類數(shù)據(jù)集I),訓(xùn)練樣本集公具有屬性集J,可分為μ個(gè)不同類 Ci p = ,即SffJ,其中巧表示類中的樣本數(shù);屬性集2具有》種屬性, 即j = {4,為,...,4}且每種屬性(先具有4個(gè)不同屬性值·,則屬 性值將樣本集S劃分,其樣本數(shù)集合為(?, %SfoJ,其中s%表示在屬性4下屬性值為 的樣本數(shù); 2) 求樣本分類所需的期望信息,即總的信息熵值為/(?...4;) = _Σ灼loS2 ,其 中Pi = ^/(?+?+...+sJ,1幻 ; 3) 計(jì)算樣本各屬性的平均信息期望
,zis聊'sm'…,= - Σog2 (pmh 其中 = sm/isw)+sm + 表示在屬性4下屬性值為%的類Ci的樣本數(shù),s為訓(xùn)練樣本總數(shù),lASm, 1 幻 Svfc ; 4) 求樣本各屬性的信息增益值GbwU),即外W..,?)-邱為,); 5) 根據(jù)信息增益值Gb?(為.)將屬性集』= 〖4,4^4)從大到小排序,并將最 大信息增益值所對(duì)應(yīng)的屬性選為決策樹中根節(jié)點(diǎn)ir的測(cè)試屬性,即該節(jié)點(diǎn)有 Gaira(JF) = max(Gfai?(為),...,〇
3. 根據(jù)權(quán)利要求1所述的一種基于屬性間相關(guān)系數(shù)的決策樹數(shù)據(jù)分類方法,其特征在 于根節(jié)點(diǎn)屬性(上一層節(jié)點(diǎn)屬性)與剩余屬性集之間相關(guān)系數(shù)的絕對(duì)值夂的計(jì)算,至少還包 括以下步驟: 1) 計(jì)算各屬性的方差和根節(jié)點(diǎn)屬性(上一層節(jié)點(diǎn)屬性)與剩余屬性集之 間的協(xié)方差,即方差/)(4) = 5(4-5(4))2, £)(為)=5(為-5(4)f,協(xié)方差 Cov'd為)=£(』4為)-·?(4〇五(為),其中?且; 2) 計(jì)算根節(jié)點(diǎn)屬性(上一層節(jié)點(diǎn)屬性)與剩余屬性集之間相關(guān)系數(shù)的絕對(duì)值P%即
其中 CUp1 <1。
4. 根據(jù)權(quán)利要求1所述的一種基于屬性間相關(guān)系數(shù)的決策樹數(shù)據(jù)分類方法,其特征在 于根據(jù)P1值和不同屬性的屬性值進(jìn)行每一層節(jié)點(diǎn)的建立過程,至少還包括以下步驟: ο初始化剩余屬性集及,即,其中辠表示根節(jié)點(diǎn)的屬性; 2) 將p'從大到小進(jìn)行排序,即#=^1,/^...4:11,再選取前%個(gè)彳,并把其對(duì)應(yīng)的 屬性作為根節(jié)點(diǎn)的子節(jié)點(diǎn)的測(cè)試屬性,并更新剩余屬性集Λ,即i?=l·[岑; 3) 依據(jù)屬性4斤=:1,2,...,4具有4個(gè)不同屬性值{%,^^...,%^,可將樣本集3 劃分為,計(jì)算根節(jié)點(diǎn)屬性Jff.(上一層節(jié)點(diǎn)屬性)下不同屬性值的信息量 ',...,= -Σ夕w(Pm),其中Pm = 5雨/(%1+5[? + ...+5附,),I。; 4) 求根節(jié)點(diǎn)屬性4r (上一層節(jié)點(diǎn)屬性)在不同屬性值~下,子節(jié)點(diǎn) 屬性的平均信息期望5(為),即
'勝XS)),其中巧(哪)=si(呵ft/(sp,)+s2(m冊(cè) + …^ 表示除根節(jié)點(diǎn)屬性外的剩余屬性,屬性為T是屬性為的父節(jié)點(diǎn)屬性,表示屬性Jfff 中屬性值為%下,其子節(jié)點(diǎn)屬性4中屬性值為%并屬于類Cfi的樣本數(shù),, l<x<vk, i<j<vt . 5) 求根節(jié)點(diǎn)屬性為^ (上一層節(jié)點(diǎn)屬性)在不同屬性值下子節(jié)點(diǎn)屬性 f目息增?值,即(為)4 bin,sIf^a,j (為),并分別將根節(jié)點(diǎn)屬性值 α...,i3WV下的(為)從大到小排序,選取(為M直大的作為根節(jié)點(diǎn)屬性(上一層 節(jié)點(diǎn)屬性)不同屬性值對(duì)應(yīng)的子節(jié)點(diǎn)測(cè)試屬性,完成根節(jié)點(diǎn)(上一層節(jié)點(diǎn))的子節(jié)點(diǎn)的建立 過程; 6) 計(jì)算當(dāng)前剩余屬性集與上一層屬性相關(guān)系數(shù)的絕對(duì)值P',比較同一剩余屬性與上 一層屬性的眾值,選取大的作為上一層屬性結(jié)點(diǎn)的子節(jié)點(diǎn)的測(cè)試屬性,并更新剩余屬性集 R ' 7) 依據(jù)根節(jié)點(diǎn)(上一層節(jié)點(diǎn))的子節(jié)點(diǎn)的建立過程中的步驟2)、3)、4)、5)以及步驟6), 來完成余下每層子節(jié)點(diǎn)的建立過程。
【專利摘要】本發(fā)明提出了一種基于屬性間相關(guān)系數(shù)的數(shù)據(jù)分類方法。本發(fā)明步驟:首先,輸入樣本集和待分類數(shù)據(jù)集,并計(jì)算訓(xùn)練樣本集所有屬性的信息增益值;其次,依據(jù)從大到小排序?qū)⒆畲笮畔⒃鲆嬷档膶傩赃x為決策樹中根節(jié)點(diǎn)的測(cè)試屬性;然后,計(jì)算根節(jié)點(diǎn)屬性(上一層節(jié)點(diǎn)屬性)與剩余屬性集之間相關(guān)系數(shù)的絕對(duì)值;再根據(jù)值和不同屬性的屬性值進(jìn)行每一層節(jié)點(diǎn)的建立過程,并更新剩余屬性集;最后,直到所有屬性遍歷為止,生成決策樹,依據(jù)決策樹將待分類數(shù)據(jù)進(jìn)行分類。本發(fā)明大大改善了傳統(tǒng)決策樹的效能,提高了決策樹的分類準(zhǔn)確性。
【IPC分類】G06F17-30
【公開號(hào)】CN104765839
【申請(qǐng)?zhí)枴緾N201510180290
【發(fā)明人】裴廷睿, 趙津鋒, 郭勛, 朱更明, 李哲濤, 田淑娟
【申請(qǐng)人】湘潭大學(xué)
【公開日】2015年7月8日
【申請(qǐng)日】2015年4月16日