專利名稱:一種基于excel的一種數(shù)據(jù)挖掘方法
技術領域:
本發(fā)明涉及數(shù)據(jù)挖掘領域,特別是涉及一種基于excel的數(shù)據(jù)挖掘,可以使數(shù)據(jù)挖掘簡單化、實用化。
背景技術:
隨著數(shù)據(jù)挖掘在學術界和工業(yè)界的影響越來越大,近年來,數(shù)據(jù)挖掘在研究和應用方面發(fā)展迅速,尤其是在商業(yè)和銀行領域的應用比研究的發(fā)展速度還要快。國內從事數(shù)據(jù)挖掘研究的人員主要在大學,也有部分在研究所或公司。所涉及的研究領域很多,一般集中于學習算法的研究、數(shù)據(jù)挖掘的實際應用以及有關數(shù)據(jù)挖掘理論方面的研究。目前進行的大多數(shù)研究項目是由政府資助進行的,如國家自然科學基金、863計劃、"九五"計劃等,但還沒有關于國內數(shù)據(jù)挖掘產品的報道。一份最近的Gartner報告中列舉了在今后3 5年內對工業(yè)將產生重要影響的五項關鍵技術,其中數(shù)據(jù)挖掘和人 工智能排名第一。同時,這份報告將并行計算機體系結構研究和數(shù)據(jù)挖掘列入今后5年內公司應該投資的10個新技術領域??梢钥闯觯瑪?shù)據(jù)挖掘的研究和應用受到了學術界和實業(yè)界越來越多的重視。但同時數(shù)據(jù)挖掘的用戶主要集中在大型銀行、保險公司、電信公司和銷售業(yè)等大型企業(yè)。因為數(shù)據(jù)挖掘項目需要花費大量的人力和財力,而且使用者也需要有統(tǒng)計學根底和熟悉關系數(shù)據(jù)庫技術,因為這些原因使很多中小企業(yè)望而卻步。為了使中小企業(yè)也能用上數(shù)據(jù)挖掘技術所帶來的巨大優(yōu)勢,需要降低費用和使用門檻。本方法能夠以比較少的費用來實現(xiàn)簡單的數(shù)據(jù)挖掘,滿足中小企業(yè)的迫切需求,而且使用者只需懂得excel的基本用法就可以了。
發(fā)明內容
本發(fā)明所要解決的技術問題是提供一種基于excel的數(shù)據(jù)挖掘,以減少現(xiàn)有數(shù)據(jù)挖掘項目的復雜性和建設數(shù)據(jù)挖掘項目所花費的巨大費用。為實現(xiàn)上述發(fā)明目的,本發(fā)明提供一種基于excel的數(shù)據(jù)挖掘方法,包括excel數(shù)據(jù)采集,excel數(shù)據(jù)預處理,excel數(shù)據(jù)挖掘模型訓練,挖掘模型的評估,報表的輸出;所述數(shù)據(jù)采集,用于收集企業(yè)的積累的經營數(shù)據(jù),營銷數(shù)據(jù),生產管理數(shù)據(jù)等,經過人工分類后導入到excel電子表格,選中所需要分析的數(shù)據(jù)并對其進行表格化;所述數(shù)據(jù)預處理,用于去除不符合格式的數(shù)據(jù),空值數(shù)據(jù)比較多的行,不符合規(guī)則的數(shù)據(jù),以及極值數(shù)據(jù)等異常數(shù)據(jù)。所述數(shù)據(jù)挖掘模型的訓練,用于選擇需要進行分析的字段,選擇相應的數(shù)據(jù)挖掘算法,配置好算法所需要的參數(shù),運行算法對模型進行訓練,得出相應的模式。所述挖掘模型的評估,用于對訓練出的挖掘模型進行評估,發(fā)現(xiàn)模型不夠理想,可以通過調整挖掘算法,或者調整算法的參數(shù),或者調整訓練用的源數(shù)據(jù),通過反復的調整和選擇最終定型最終的模型。
本發(fā)明還提供一種基于excel數(shù)據(jù)挖掘模型的運用,包括數(shù)據(jù)挖掘模型可以運用于多個場景,找出目標客戶群,首先收集客戶的人文統(tǒng)計學數(shù)據(jù)、經營業(yè)務的歷史數(shù)據(jù)、以及其他的相關數(shù)據(jù),導入excel 表;其次對收集的數(shù)據(jù)進行預處理;然后運用我們保存的數(shù)據(jù)挖掘模型,都這些數(shù)據(jù)進行運算,模型會運算輸出哪些客戶是我們的目標客戶(最可能購買我們產品的客戶),以及每個客戶可能購買我們產品的概率,我們可以根據(jù)概率對客戶進行排名,然后找出排名靠前的客戶進行營銷(精確營銷),這樣即可以減少營銷所帶來的成本,又可以提高營銷的成功率。由上述方案可以看出,本發(fā)明中的數(shù)據(jù)挖掘方法可以通過excel來實現(xiàn)數(shù)據(jù)挖掘。建模比較簡單易學,運用挖掘模型也很方便,不需要企業(yè)去開發(fā)一個復雜的數(shù)據(jù)挖掘項目,也不需要很專業(yè)的人員來操作。本方法可以簡單、快速、低價的來實現(xiàn)數(shù)據(jù)挖掘。維護也很方便,可以給中小企業(yè)節(jié)約成本,提高盈利率。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I為本發(fā)明實施例一較佳的excel數(shù)據(jù)挖掘的流程圖;圖2為本發(fā)明實施例一 excel數(shù)據(jù)挖掘中模型評估圖;圖3為本發(fā)明實施例一 excel實現(xiàn)數(shù)據(jù)挖掘的原理圖;圖4為本發(fā)明實施例一 excel數(shù)據(jù)挖掘中模型生成及運用過程圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。顯然,所描述的實施例僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。實施例一的原理,參加圖3。Excel通過SQLSERVER2008數(shù)據(jù)挖掘外接程序調用SQLSERVER2008數(shù)據(jù)庫里的數(shù)據(jù)挖掘引擎來進行數(shù)據(jù)挖掘,輸出結果到excel。excel數(shù)據(jù)挖掘需要安裝excel 2007,如果是早期版本,需要卸載,然后安裝excel 2007版本;安裝完后需要安裝excel數(shù)據(jù)挖掘插件,用來連接數(shù)據(jù)庫;可以在本機安裝sqlserver 2008數(shù)據(jù)庫或者連接的其他的安裝有sqlserver2008的數(shù)據(jù)上。實施例一實現(xiàn)流程,參見圖I。本發(fā)明提供一種基于excel的數(shù)據(jù)挖掘方法,所述方法包括excel模型的訓練和excel模型的運用所述excel模型的訓練包括,數(shù)據(jù)采集、數(shù)據(jù)預處理、模型運算、報表輸出等過程;
所述excel模型的運用包括,模型的評估和模型的實際運用。圖I為本發(fā)明實施例中一種較佳excel數(shù)據(jù)挖掘的實現(xiàn)方法的流程示意圖,參見圖I :步驟101,數(shù)據(jù)的采集。本步驟中,可以根據(jù)實際運用的需要來采集數(shù)據(jù)對象,也可以從txt文件等其他文件轉換數(shù)據(jù)到excel,或者從數(shù)據(jù)庫導出數(shù)據(jù)到excel,excel都支持這些操作。然后選中需要建模的數(shù)據(jù),對這些數(shù)據(jù)進行表格化,到此數(shù)據(jù)的采集工作完成。步驟102,數(shù)據(jù)的預處理。本步驟中,采集到的數(shù)據(jù)可能出現(xiàn)異常值、缺失值、極值等數(shù)據(jù),所以在進行數(shù)據(jù) 挖掘前需要對這些數(shù)據(jù)進行處理。首先通過excel里的數(shù)據(jù)瀏覽功能,選中表數(shù)據(jù),點擊瀏覽數(shù)據(jù)按鈕,然后選擇數(shù)據(jù)列進行瀏覽,可以查看是否有缺失值,如果有可以手動進行填充,還可以查看這列數(shù)據(jù)的分布情況,看是否復合邏輯,如果分布很不符合邏輯,可以去掉這列數(shù)據(jù),不參與建模,否則會影響模型的準確性。按照這樣的步驟對每列數(shù)據(jù)進行處理。可以通過excel的清除數(shù)據(jù)按鈕對離群值進行處理,或者去到離群值。點擊清除數(shù)據(jù)按鈕,選擇數(shù)據(jù)區(qū)域、選擇列,然后設定離群值的閥值,然后可以選擇對離群值的處理方式,方式有將值更改到指定范圍、將值更改為平均值、將值更改為null (空數(shù)據(jù))、刪除包含離群值的行??梢愿鶕?jù)需要進行選擇,我推薦選擇將值改為平均值。步驟103,數(shù)據(jù)挖掘模型的訓練,參加圖4。本步驟中,經過前面步驟的數(shù)據(jù)采集和數(shù)據(jù)預處理,到此這些數(shù)據(jù)基本復合訓練模型的要求,根據(jù)應用的場景選擇相應的數(shù)據(jù)算法分類,如要進行潛在用戶群的預測,我們就選擇分類里的各種算法。如要進行流失用戶群的分析,我們就選擇聚類分析里的各種算法。如我們要分析產品之間的關聯(lián)性,我們就選擇關聯(lián)里的各種算法。這里我們以預測潛在用戶群來舉例說明,首先我們點擊分類按鈕,選擇我們預處理過的數(shù)據(jù),然后選擇要分析的列,然后選擇輸入列,可以包含多列。要分析的列和輸入列都選好后,需要選擇參數(shù),參數(shù)包括算法的選擇,以及每個算法的參數(shù)配置。這里的算法有Microsoft決策樹算法、Micosoft
NaiVe Bayes算法、邏輯回歸算法、神經網絡算法。其中決策書算法包括HIDDEN_N0DE_RATI0 :指定用來確定隱藏層中的節(jié)點數(shù)的數(shù)字。算法采用以下公式計算隱藏層中的節(jié)點數(shù)HIDDEN_N0DE_RATI0*sqrt({輸入節(jié)點個數(shù)}*{輸出節(jié)點個數(shù)});H0LD0UT_PERCENTAGE :指定用來計算此算法維持錯誤的定型數(shù)據(jù)中的事例百分t匕。H0LD0UT_PERCENTAGE在定型挖掘模型期間用作停止條件的一部分。此值對于此算法是唯一的,與在挖掘結構中設置的任何維持參數(shù)無關。默認值為30 ;H0LD0UT_SEED :指定在隨機確定此算法的維持數(shù)據(jù)時用作偽隨機生成器種子的數(shù)。如果H0LD0UT_SEED設置為0,則算法將基于挖掘模型名稱生成種子,這可確保在重新處理時模型內容保持不變。此值對于此算法是唯一的,與在挖掘結構中設置的任何維持參數(shù)無關。默認值為O ;MAXIMUM_INPUT_ATTRIBUTES :指定算法在調用功能選擇之前可以處理的最大輸入屬性數(shù)。如果將此值設置為0,則為輸入屬性禁用功能選擇;MAXIMUM_OUTPUT_ATTRIBUTES :指定算法在調用功能選擇之前可以處理的最大輸出屬性數(shù)。如果將此值設置為0,則為輸出屬性禁用功能選擇;
MAXIMUM_STATUS :指定算法支持的最大屬性狀態(tài)數(shù)。如果屬性的狀態(tài)數(shù)大于該最大狀態(tài)數(shù),算法將使用該屬性的最常見狀態(tài),并將剩余狀態(tài)視為不存在;SAMPLE_SIZE :指定用來給模型定型的事例數(shù)。算法將從SAMPLE_SIZE指定的數(shù)或total_cases*(l-H0LD0UT_PERCENTAGE/100)的值中挑選較小的那個值來使用;在不是很了解這些算法的普通用戶我建議不要修改算法的參數(shù),保持默認就可以了,只要對算法進行選擇就可以了。選擇好算法后,就選擇要輸入模型進行運算的數(shù)據(jù)的百分比,因為要留下一定比例的數(shù)據(jù)進行驗證模型,我建議選擇30%的數(shù)據(jù)作為輸入。然后點完成,算法會對輸入的數(shù)據(jù)進行運算。得出訓練出的一種模式。步驟104,挖掘模型的評估本步驟中,對前面訓練并保存的模型(也就是模式)進行評估,看訓練出的模式是 否滿足我們的要求,如果不滿足要求,我們就要返回到前面的步驟,看是否數(shù)據(jù)預處理不夠好,選擇的算法不適合等等,我們要重復這個過程,形成一個閉包過程,直到訓練出來的模型滿足要求才算完成。點擊準確性圖表按鈕,選擇需要評估的模型,選擇要預測的挖掘列,要預測的挖掘值,選擇來自模型的測試數(shù)據(jù),或者表格里的數(shù)據(jù),點完成會輸出一副準確性圖表,圖形會顯示無模型狀態(tài),理想模型狀態(tài)、你訓練出模型的狀態(tài)進行比較,看你的模型是否滿足要求。如圖2,當你訓練出來的模型的曲線越接近理想模型就說明你訓練的模型越好,如果你訓練出來的模型越靠近無模型狀態(tài)下的曲線,則說明你訓練的模型有問題,需要返回前面的步驟重新訓練。還可以通過excel的分類矩陣、利潤圖、交叉驗證來評估模型。步驟105,報表的輸出本步驟中,在模型的訓練、評估等過程中都會輸出一些報表,其中的一些報表對我們分析業(yè)務很有幫助。我們可以參考這些報表的結果做出相應的決策。步驟106,數(shù)據(jù)挖掘模型的運用。本步驟中,經過評估的模型可以滿足我們的業(yè)務需要,我們可以用這些模型來進行預測了?,F(xiàn)以找出目標用戶群來說明,首先收集客戶的相關信息、如客戶的姓名、年齡、學歷、消費額等等用于訓練模型的那些列數(shù)據(jù),對數(shù)據(jù)進行預處理,然后選擇我們保存的模型,運算。經過模型的運算會輸出每個用戶是否是我們的目標用戶,以及概率。我們可以根據(jù)我們的需要,給客戶按照概率從大到小進行排序。然后我們選擇概率比較大的用戶進行營銷。這樣會提高營銷的命中率,降低營銷的成本,提高客戶的滿意度。由上可見,本發(fā)明提供的一種excel的數(shù)據(jù)挖掘方法,有以下優(yōu)點。(I)便于部署,降低成本本發(fā)明只需安裝excel2007, excel數(shù)據(jù)挖掘插件,安裝sqlserver2008數(shù)據(jù)庫,如果能連接到其他機器的sqlserverfOOS數(shù)據(jù)庫就不用在本機安裝了。(2)應用范圍廣因為部署實施成本低,操作也不需要很專業(yè)的數(shù)據(jù)挖掘或者數(shù)學統(tǒng)計方面的技術,只需要懂得excel的操作就可以了。所有大部分的中小企業(yè)都可以運用。以上所述僅是本發(fā)明的具體實施方式
,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。
權利要求
1.一種excel的數(shù)據(jù)挖掘方法,其特征在于,包括excel數(shù)據(jù)采集,數(shù)據(jù)預處理,數(shù)據(jù)挖掘模型的訓練,挖掘模型的評估,挖掘報表的輸出; 所述excel數(shù)據(jù)采集,用于導入企業(yè)經營的業(yè)務數(shù)據(jù),對業(yè)務數(shù)據(jù)進行數(shù)據(jù)清理,以及分析關鍵影響因素,檢測類別; 所述數(shù)據(jù)預處理,用于對導入的數(shù)據(jù)進行清理; 所述數(shù)據(jù)挖掘模型的訓練,用于eXCel采集數(shù)據(jù)后,運用適當?shù)臄?shù)據(jù)挖掘算法,對數(shù)據(jù)進行運算,得出相應的模式; 所述挖掘模型的評估,用于對訓練出的挖掘模型進行評估,選擇最優(yōu)的模型; 所述挖掘報表的輸出,用于數(shù)據(jù)經過數(shù)據(jù)挖掘算法的訓練,輸出相應的分析結果報表,便于分析結果。
2.—種excel的數(shù)據(jù)挖掘方法,其特征在于,包括數(shù)據(jù)挖掘模型的運用預測潛在的目標客戶群,預測流失客戶,分析成本和利潤的關系,找出實現(xiàn)利潤最大話的成本投入。
全文摘要
本發(fā)明公開了一種基于excel的數(shù)據(jù)挖掘方法,借助excel工具和數(shù)據(jù)挖掘外接程序以及數(shù)據(jù)庫來進來數(shù)據(jù)挖掘,通過對企業(yè)多年的經營的數(shù)據(jù)或者生產的數(shù)據(jù)進行挖掘,根據(jù)數(shù)據(jù)挖掘算法發(fā)現(xiàn)的有用的模式,可以運用這些模式來改善經營策略,提高勞動生產率,減少成本,增加企業(yè)利潤。一般要進行數(shù)據(jù)挖掘需要專業(yè)的人員和花費大量的金錢才能實現(xiàn),是一般中小企業(yè)所不能承受的。本文闡述用excel來實現(xiàn)數(shù)據(jù)挖掘,可以然大部分懂excel的人都可以進行數(shù)據(jù)挖掘。
文檔編號G06F17/30GK102890710SQ20121033731
公開日2013年1月23日 申請日期2012年9月8日 優(yōu)先權日2012年9月8日
發(fā)明者何健明, 劉世清, 湯湛成 申請人:佳都新太科技股份有限公司