一種商業(yè)智能云計算系統(tǒng)的構建方法
【專利摘要】本發(fā)明為一種商業(yè)智能云計算的系統(tǒng)構建方法。系統(tǒng)主要包括“數(shù)據(jù)檢查模塊”、“變量分析模塊”和“算法通用程序模塊”;用戶通過瀏覽器進入WebServer或應用程序連接APPServer,選擇算法、按規(guī)定格式提交數(shù)據(jù);“數(shù)據(jù)檢查模塊”對用戶提交的數(shù)據(jù)進行檢查;“變量分析模塊”根據(jù)用戶選擇的算法和對數(shù)據(jù)格式的要求,對用戶提交的數(shù)據(jù)進行分析確定變量參數(shù);“算法通用程序模塊”根據(jù)所確定的變量參數(shù)自動建立數(shù)學模型進行計算。采用本發(fā)明構建的商業(yè)智能云計算系統(tǒng),只要知道數(shù)據(jù)挖掘的算法能夠做什么,按要求提交數(shù)據(jù),系統(tǒng)就可自動建立數(shù)學模型進行計算,也可以直接嵌入到應用程序中進行數(shù)據(jù)挖掘,實現(xiàn)數(shù)據(jù)挖掘與應用程序的無縫銜接,便于應用和普及。
【專利說明】一種商業(yè)智能云計算系統(tǒng)的構建方法
【技術領域】
[0001]本發(fā)明涉及一種商業(yè)智能云計算系統(tǒng)的構建方法,屬于大數(shù)據(jù)、商業(yè)智能、數(shù)據(jù)挖掘和云計算領域。
【背景技術】
[0002]大數(shù)據(jù)的價值在于蘊藏在數(shù)據(jù)中的知識,如何從數(shù)據(jù)中挖掘知識是大數(shù)據(jù)、商業(yè)智能的核心。目前雖有SAS、SPSS、MATLAB等系統(tǒng)可進行數(shù)據(jù)挖掘,但存在非專業(yè)人員難以使用、不容易嵌入用戶的應用程序等問題,不僅需要用戶掌握數(shù)據(jù)挖掘數(shù)學理論,還要輸入變量描述和一定的數(shù)學表達式,甚至要掌握專門的語言(如:R語言等)。
【發(fā)明內(nèi)容】
[0003]為解決上述問題,本發(fā)明提出了一種商業(yè)智能云計算系統(tǒng)的構建方法,用本發(fā)明構建的系統(tǒng),無需用戶掌握數(shù)據(jù)挖掘理論、輸入數(shù)學表達式、變量描述,也無需用戶學習專門的語言,只要用戶知道系統(tǒng)包含的算法能做什么、選擇算法、按規(guī)定提交數(shù)據(jù),系統(tǒng)就可自動分析變量、建立數(shù)學模型進行計算,便于數(shù)據(jù)挖掘技術的普及和應用,并且可以很容易嵌入應用程序,實現(xiàn)數(shù)據(jù)挖掘與應用程序的無縫銜接。
[0004]本發(fā)明的目的是通過下述技術方案實現(xiàn)的:一種商業(yè)智能云計算系統(tǒng)的構建方法,在Internet或LAN上建立一個Web Server或APP Server,其特征在于:
[0005]系統(tǒng)主要包括“數(shù)據(jù)檢查模塊”、“變量分析模塊”和“算法通用程序模塊”;
[0006]“數(shù)據(jù)檢查模塊”用于檢查數(shù)據(jù),根據(jù)用戶選擇的算法和算法對數(shù)據(jù)格式的要求,對用戶提交的數(shù)據(jù),是否符合算法規(guī)定的數(shù)據(jù)格式進行檢查;
[0007]“變量分析模塊”用于分析數(shù)據(jù)確定變量,根據(jù)用戶選擇的算法和算法對數(shù)據(jù)格式的要求對用戶提交的數(shù)據(jù)進行分析,確定有多少個變量、變量的性質(zhì)和變量的取值范圍等變量參數(shù);
[0008]“算法通用程序模塊”用于自動建立數(shù)學模型和計算,模塊中為若干編寫好的算法通用程序,但不確定有多少個變量、變量的性質(zhì)和變量的取值范圍等變量參數(shù),也不確定具體的數(shù)學模型,只有算法流程,根據(jù)“變量分析模塊”所確定的變量參數(shù),系統(tǒng)自動建立數(shù)學模型進行計算;
[0009]系統(tǒng)流程為:用戶通過瀏覽器進入Web Server或應用程序連接APP Server,選擇算法、按算法規(guī)定的數(shù)據(jù)格式提交數(shù)據(jù),“數(shù)據(jù)檢查模塊”對用戶提交的數(shù)據(jù)進行檢查,“變量分析模塊”根據(jù)算法和算法對數(shù)據(jù)格式的要求,對用戶提交的數(shù)據(jù)進行分析、確定變量參數(shù),“算法通用程序模塊”根據(jù)“變量分析模塊”確定的變量參數(shù)自動建立數(shù)學模型進行計算。[0010]所述的“算法通用程序模塊”中包括“分類計算”、“聚類計算”、“PCA計算”、“關聯(lián)分析計算”、“序列分析計算”和“文本挖掘計算”程序。
[0011]對于“分類計算”程序:如果用戶提交TXT數(shù)據(jù),系統(tǒng)規(guī)定數(shù)據(jù)格式為:第I行為數(shù)據(jù)說明項所在行;第I列為“識別ID”,最后一列為“決策變量” D,其余列為m個“條件屬性變量” {Cl,C2,...,Ci,..., Cm},字符串之間用空格、逗號、Tab等分隔符分開;“變量分析模塊”以此來確定變量名、取值范圍等變量參數(shù),“算法通用程序模塊”以此來構建數(shù)學模型進行計算。
[0012]對于“分類計算”程序:如果數(shù)據(jù)存放在數(shù)據(jù)庫中,系統(tǒng)規(guī)定提交數(shù)據(jù)格式為:包括I個“識別ID”、I個“決策變量”和m個“條件屬性變量” {Cl, C2,...,Ci,...,Cm}變量;每行為一個變量說明,行中說明“變量屬性”、“變量名”、“數(shù)據(jù)庫表名”和“字段名”;“變量分析模塊”據(jù)此確定變量名、組成SQL串,從數(shù)據(jù)庫中查詢數(shù)據(jù)、確定取值范圍等變量參數(shù);“算法通用程序模塊”以此構建數(shù)學模型進行計算。
[0013]對于“聚類計算”或“PCA計算”程序:如果用戶提交TXT數(shù)據(jù),系統(tǒng)規(guī)定數(shù)據(jù)格式為:第I行為數(shù)據(jù)說明項所在行;第1列為“識別ID”,其余列為m個“屬性變量” {A1,A2,...,Ai,..., Am},字符串之間用空格、逗號、Tab等分隔符分開;“變量分析模塊”以此來確定變量名等變量參數(shù),“算法通用程序模塊”以此構建數(shù)學模型進行計算。
[0014]對于“聚類計算”或“PCA計算”程序:如果數(shù)據(jù)存放在數(shù)據(jù)庫中,系統(tǒng)規(guī)定提交數(shù)據(jù)格式為:包括I個“識別ID”和m個“屬性變量” {Al,A2,...,Ai,...,Am};每行為一個變量說明,行中說明“變量屬性”、“變量名”、“數(shù)據(jù)庫表名”和“字段名”;“變量分析模塊”據(jù)此確定變量名、組成SQL串,從數(shù)據(jù)庫中查詢數(shù)據(jù)、確定變量名等變量參數(shù);“算法通用程序模塊”以此構建數(shù)學模型進行計算。
[0015]對于“關聯(lián)分析計算”或“序列分析計算”程序:如果用戶提交TXT數(shù)據(jù),系統(tǒng)規(guī)定數(shù)據(jù)格式為:從第I行起全部為數(shù)據(jù);第I列為“識別ID”,其余列為“事物或商品”,字符串之間用空格、逗號、Tab等分隔符分開;每條記錄的列數(shù)可以不相同;“變量分析模塊”以此來確定變量名等變量參數(shù),“算法通用程序模塊”以此來構建數(shù)學模型進行計算。
[0016]對于“關聯(lián)分析計算”或“序列分析計算”程序:如果數(shù)據(jù)存放在數(shù)據(jù)庫中,系統(tǒng)規(guī)定提交數(shù)據(jù)格式為:包括“識別ID”和“事物或商品”兩種類型變量;每行為一個變量說明,包括“變量屬性”、“變量名”、“數(shù)據(jù)庫表名”和“字段名”;“變量分析模塊”據(jù)此確定變量名、組成SQL串,從數(shù)據(jù)庫中查詢數(shù)據(jù)、確定變量名等變量參數(shù);“算法通用程序模塊”以此來構建數(shù)學模型進行計算。
[0017]對于“文本挖掘計算”程序:用戶選擇某一 “文本挖掘”算法,提交一組文本、選擇文本代表詞數(shù)量;“變量分析模塊”根據(jù)數(shù)據(jù)格式規(guī)定來確定文本數(shù)量和算法需要的變量參數(shù);“算法通用程序模塊”以此來構建數(shù)學模型進行計算。
[0018]本發(fā)明與現(xiàn)有技術相比,具有如下優(yōu)點:
[0019]1、無需用戶掌握分類、聚類、文本挖掘等涉及的數(shù)學理論和算法知識,只要知道分類、聚類、文本挖掘能夠做什么,選擇算法并按規(guī)定提交數(shù)據(jù),系統(tǒng)就可以根據(jù)用戶選擇的算法和提交的數(shù)據(jù)進行計算,便于非數(shù)據(jù)挖掘專業(yè)人員使用。
[0020]2、不需要用戶定義變量、說明變量的數(shù)量和取值范圍,只需按規(guī)定提供數(shù)據(jù),系統(tǒng)就可以自動確定變量數(shù)量、名稱和取值范圍,根據(jù)用戶所選擇的算法,自動建立數(shù)學模型進行挖掘計算。
[0021]3、任何人只要通過Internet登錄本發(fā)明所構建的云計算系統(tǒng)webServer,或通過應用程序連接到APP Server,就可以進行商業(yè)智能云計算。[0022]4、很容易嵌入到應用程序中,應用程序向APP Server提交數(shù)據(jù),從大數(shù)據(jù)中發(fā)現(xiàn)知識,實現(xiàn)數(shù)據(jù)挖掘與應用程序的無縫銜接。
【具體實施方式】
[0023]在Internet 或 LAN 上建立一個 Web Server 或 APP Server。
[0024]系統(tǒng)構成及作用:
[0025]系統(tǒng)主要由3個程序模塊組成:
[0026]模塊1:數(shù)據(jù)檢查模塊
[0027]模塊中為數(shù)據(jù)檢查程序,用于檢查數(shù)據(jù),根據(jù)用戶選擇的算法和算法對數(shù)據(jù)格式的要求,對用戶提交的數(shù)據(jù),是否符合算法規(guī)定的數(shù)據(jù)格式進行檢查。
[0028]模塊2:數(shù)據(jù)分析模塊
[0029]模塊中為數(shù)據(jù)分析程序,用于分析數(shù)據(jù)確定變量,根據(jù)用戶選擇的算法和算法對數(shù)據(jù)格式的要求對用戶提交的數(shù)據(jù)進行分析,確定有多少個變量、變量的性質(zhì)和變量的取值范圍等變量參數(shù),“模塊3”據(jù)此來建立數(shù)學模型進行計算。
[0030]模塊3:算法通用程序模塊
[0031]模塊中為算法通用程序,用于自動建立數(shù)學模型和計算,模塊中為若干編寫好的算法通用程序,但不確定有多少個變量、變量的性質(zhì)和變量的取值范圍等變量參數(shù),也不確定具體的數(shù)學模型,只有算法流程,“模塊3”根據(jù)“模塊2”所確定的變量參數(shù),自動建立數(shù)學模型進行計算。
[0032]系統(tǒng)還有其他輔助程序,如:計算結果顯示模塊,應用程序接口等。
[0033]系統(tǒng)工作流程:
[0034]步驟一、用戶選擇算法,按算法對數(shù)據(jù)的規(guī)定格式提交數(shù)據(jù);
[0035]步驟二、“模塊I”對用戶選擇的算法和提交的數(shù)據(jù)進行檢查,如果不符合要求,返回錯誤信息,否則,調(diào)用“模塊2” ;
[0036]步驟三、“模塊2”根據(jù)用戶選擇的算法和數(shù)據(jù)格式要求,對用戶提交的數(shù)據(jù)進行分析,確定變量的數(shù)量和變量的取值范圍,調(diào)用“模塊3” ;
[0037]步驟四、“模塊3”根據(jù)“模塊2”確定的變量參數(shù)來建立具體數(shù)學模型、分配存儲單元,相應的算法通用程序進行計算。
[0038]各種算法的具體實施方法:
[0039]一、分類算法
[0040]分類屬于計算機學習范疇,現(xiàn)有很多分類算法,如:貝葉斯分類、ID3分類、粗糙集分類等。分類要解決的問題是:設有一樣本集,包括η條已知分類標簽的記錄,每條記錄包含I個“識別ID”、m個“條件屬性變量” (C1,C2,...,Ci,...,Cm)和I個“決策變量”D,每個“條件屬性變量” Ci和“決策變量” D有若干個取值。每條記錄為一個事例,記錄當m個“條件屬性變量” Ci取值一定時,“決策變量” D的取值。
[0041]分類的目的是,從樣本集中挖掘出分類規(guī)則:即,“條件屬性變量” Ci與“決策變量"D的函數(shù)關系f (C)=D,利用函數(shù)關系確定:當給定m個Ci的取值時,D的取值或概率。
[0042]無論采用哪種分類算法,都需要事先確定“條件屬性變量” Ci的數(shù)量m、變量名和取值范圍,“決策變量”D的變量名和取值范圍,這樣才可以建立具體的數(shù)學模型進行計算。[0043]本發(fā)明通過如下方法來自動分析變量數(shù)量和取值范圍,自動構建分類數(shù)學模型進行計算。
[0044](一)、數(shù)據(jù)格式規(guī)定
[0045]用戶可提交TXT或數(shù)據(jù)庫兩種數(shù)據(jù):
[0046]1、TXT數(shù)據(jù)格式規(guī)定
[0047](I)要求為TXT數(shù)據(jù);
[0048](2)包括η條記錄,每行為一條記錄;
[0049](3)每條記錄由I個“識別ID,,、m個“條件屬性變量Ci” {Cl,C2,...,Ci,…,Cm}和I個“決策變量” D組成;
[0050](4)文本的第I行為數(shù)據(jù)說明項所在行;
[0051](5)第I列為“識別ID”,最后I列為“決策變量D”所在列,其余列為“條件屬性變量” Ci ;
[0052](6)字符串用空格、逗號、Tab等分隔符分開。
[0053]如用戶提交數(shù)據(jù)為:
[0054]記錄號年齡收入學生否信譽購買
[0055]I<=30 高 N差 N
[0056]2<=30 高 N好 N
[0057]根據(jù)權利要求3限定,系統(tǒng)對數(shù)據(jù)解析為--第I行為數(shù)據(jù)說明項,第2、3行為數(shù)據(jù),第I列為“識別ID”(“記錄號”),最后一列為“決策變量”(“購買”),其余2、3、4、5列為“條件屬性變量”(“年齡”、“收入”、“學生否”、“信譽”)。
[0058]本發(fā)明不限于上述方法,還可以其他形式規(guī)定TXT數(shù)據(jù)格式,系統(tǒng)根據(jù)具體實施數(shù)據(jù)規(guī)定對數(shù)據(jù)進行解析。
[0059]2、存放在數(shù)據(jù)庫中的數(shù)據(jù)格式規(guī)定
[0060](I)包括I個“識別ID”、m個“條件屬性變量Ci” {Cl,C2,…,Ci,…,Cm}和I個“決策變量”D,三種類型變量;
[0061](2)每行為一個變量說明,有4個數(shù)據(jù)描述項:
[0062]“變量屬性”:“識別ID”、“條件屬性變量”、“決策變量”;
[0063]“變量名”:顯示時的變量名;
[0064]“數(shù)據(jù)庫表名”:數(shù)據(jù)存放在數(shù)據(jù)庫的哪個表中;
[0065]“字段名”:數(shù)據(jù)庫表中的字段名。
[0066](3)每個數(shù)據(jù)說明項用尖括號“〈>”擴起來,形式如下:
[0067]<變量屬性 >,< 變量名 >,< 數(shù)據(jù)庫表名 >,< 字段名>
[0068]如:“〈識別ID>,〈記錄號 >,〈表l>,〈ReCID>”,根據(jù)權利要求4限定,系統(tǒng)對數(shù)據(jù)解析為:
[0069]“變量屬性”為:“識別ID”,
[0070]“變量名”為:“記錄號”,
[0071]“數(shù)據(jù)庫表名”為:“表1”,
[0072]“字段名”為:“ReCID”。
[0073]如:“〈條件屬性變量 >,〈年齡 >,〈表l>,〈Age>”,根據(jù)權利要求4限定,系統(tǒng)對數(shù)據(jù)解析為:
[0074]變量屬性為:“條件屬性變量”,
[0075]變量名為:“年齡”,
[0076]數(shù)據(jù)存放在數(shù)據(jù)庫的“表1”中,
[0077]字段名為“Age”。
[0078]如:“〈決策變量 >,〈購買否 >,〈表1>,〈Buy〉”,根據(jù)權利要求4限定,系統(tǒng)對數(shù)據(jù)解析為:
[0079]變量屬性為:“決策變量”,
[0080]變量名為:“購買否”,
[0081]數(shù)據(jù)存放在數(shù)據(jù)庫的“表1”中,
[0082]字段名為“Buy”。
[0083]本發(fā)明不限于上述方法,還可以其他形式規(guī)定存放在數(shù)據(jù)庫中的數(shù)據(jù)格式,系統(tǒng)根據(jù)具體實施數(shù)據(jù)規(guī)定對數(shù)據(jù)進行解析。
[0084](二 )、系統(tǒng)運行具體實施方法
[0085]用戶可登錄Web Server或通過應用程序連接APP Server。
[0086]1、登錄 Web Server 使用
[0087](I)用戶提交數(shù)據(jù)
[0088]用戶通過瀏覽器登錄Web Server,選擇分類算法,根據(jù)算法對數(shù)據(jù)格式規(guī)定的要求提交數(shù)據(jù),說明提交的數(shù)據(jù)是TXT還是存放在數(shù)據(jù)庫中,系統(tǒng)調(diào)用“模塊I”。
[0089](2)檢查數(shù)據(jù)
[0090]“模塊I”根據(jù)用戶選擇的算法和數(shù)據(jù)格式要求,檢查數(shù)據(jù)是否符合規(guī)定,如果不符合規(guī)定,顯示錯誤信息,否則,調(diào)用“模塊2”。
[0091](3)分析數(shù)據(jù)
[0092]A、如果用戶提交TXT數(shù)據(jù),“模塊2”根據(jù)用戶所選擇的算法和數(shù)據(jù)規(guī)定對用戶提交的數(shù)據(jù)進行分析,用數(shù)據(jù)的第I行來確定Ci和D的所在列、“條件屬性變量”Ci的數(shù)量m、各Ci的變量名、“決策變量”D的變量名,根據(jù)變量的所在列對數(shù)據(jù)進行統(tǒng)計,得到各變量取值的并集,以此來確定變量的取值范圍,調(diào)用“模塊3”。
[0093]本發(fā)明不限于上述數(shù)據(jù)分析方法,如果規(guī)定格式為其他TXT數(shù)據(jù)格式,應理解可按實際數(shù)據(jù)格式規(guī)定分析數(shù)據(jù)。
[0094]B、如果數(shù)據(jù)存放在數(shù)據(jù)庫中,“模塊3”根據(jù)用戶所選擇的算法和數(shù)據(jù)規(guī)定對用戶提交的數(shù)據(jù)進行分析,建立數(shù)據(jù)庫連接,組成SQL串,從數(shù)據(jù)庫表中查詢出“識別ID”、m個“條件屬性變量”以{01,02,...,(^,...,011}和I個“決策變量” D組成記錄集Set,統(tǒng)計“條件屬性變量Ci ”的數(shù)量m,分別統(tǒng)計記錄集Set中“條件屬性變量” Ci和“決策變量” D取值的并集,以此來確定變量的取值范圍,調(diào)用“模塊3”。
[0095]本發(fā)明不限于上述數(shù)據(jù)分析方法,如果規(guī)定格式為其他數(shù)據(jù)庫存放數(shù)據(jù)格式,應理解可按實際規(guī)定格式分析數(shù)據(jù)。
[0096]( 4 )建立數(shù)學模型進行計算
[0097]“模塊3”根據(jù)“模塊2”確定的變量來分配存儲單元、建立數(shù)學模型,相應的通用算法程序進行計算。[0098]2、應用程序連接APP Server
[0099](I)用戶提交數(shù)據(jù)
[0100]用戶通過應用程序連接APP Server,提交算法標識和符合算法規(guī)定的數(shù)據(jù),說明提交的數(shù)據(jù)是TXT還是存放在數(shù)據(jù)庫中,調(diào)用“模塊I” ;
[0101](2)檢查數(shù)據(jù)
[0102]“模塊I”根據(jù)用戶選擇的算法和數(shù)據(jù)格式要求,檢查用戶提交的數(shù)據(jù)是否符合規(guī)定,如果不符合規(guī)定,返回錯誤信息,否則,調(diào)用“模塊2” ;
[0103](3)分析數(shù)據(jù)
[0104]A、如果用戶提交TXT數(shù)據(jù),“模塊2”根據(jù)用戶所選擇的算法和數(shù)據(jù)規(guī)定對用戶提交的數(shù)據(jù)進行分析,用數(shù)據(jù)的第I行來確定Ci和D的所在列、“條件屬性變量”Ci的數(shù)量m、各Ci的變量名、“決策變量”D的變量名,根據(jù)變量的所在列對數(shù)據(jù)進行統(tǒng)計,得到各變量取值的并集,以此來確定變量的取值范圍,調(diào)用“模塊3”進行建模、計算。
[0105]本發(fā)明不限于上述數(shù)據(jù)分析方法,如果規(guī)定格式為其他TXT數(shù)據(jù)格式,應理解可按實際數(shù)據(jù)規(guī)定格式分析數(shù)據(jù)。
[0106]B、如果數(shù)據(jù)存放在數(shù)據(jù)庫中,“模塊2”根據(jù)用戶所選擇的算法和數(shù)據(jù)規(guī)定對用戶提交的數(shù)據(jù)進行分析,建立數(shù)據(jù)庫連接,組成SQL串,從數(shù)據(jù)庫表中查詢出“識別ID”、m個“條件屬性變量”以{01,02,...,(^,...,011}和I個“決策變量” D組成記錄集Set,統(tǒng)計“條件屬性變量Ci ”的數(shù)量m,分別統(tǒng)計記錄集Set中“條件屬性變量” Ci和“決策變量” D取值的并集,以此來確定變量的取值范圍,調(diào)用“模塊3”進行建模、計算。
[0107]本發(fā)明不限于上述數(shù)據(jù)分析方法,如果規(guī)定格式為其他數(shù)據(jù)庫存放數(shù)據(jù)格式,應理解可按實際規(guī)定格式分析數(shù)據(jù)。
[0108](4)建立數(shù)學模型進行計算
[0109]“模塊3”根據(jù)“模塊2”確定的變量來分配存儲單元、建立數(shù)學模型,相應的通用算法程序進行計算,將計算結果放在APP Server上,用戶應用程序可直接使用計算結果。
[0110]二、“聚類算法”和“PCA算法”
[0111]聚類屬于計算機學習范疇,現(xiàn)有很多聚類算法,如:k-meanS算法、模糊聚類、SOM神經(jīng)網(wǎng)絡聚類等。聚類屬于“無監(jiān)督分類”,與分類比較,聚類樣本集中的η條記錄沒有“決策變量” D (分類標簽),只有m個“聚類屬性變量”(A1,A2,...,Ai,...,Am),由于沒有“決策變量” D,因此,不知道每條記錄屬于哪一分類,所以稱“無監(jiān)督分類”。
[0112]聚類的目的是,根據(jù)樣本集中η條記錄“聚類屬性變量”Ai的取值,
[0113]將相似的記錄劃分到相同的分類,屬于相同分類的記錄相似性最大,屬于不同分類的記錄差異最大。
[0114]
“PCXc…事物由多種因素構成,設有η個樣本,每`個樣本共I = ; A1 …個nXm階的成分數(shù)據(jù)矩陣,:*^.1:= >:
[0115]PCA算法的目的是:[0116](I)降低維度
[0117]當矩陣X的維數(shù)m較大時,在m維空間中考察問題比較麻煩,需要降低維度,在不影響對事物評價的基礎上,選擇較少的幾個主要指標P (P<m)來代替原來較多的變量指標m0
[0118](2)消除變量間的相關性
[0119]當用多個條件變量描述事物時,變量間將可能具有相關性,既,某些變量間會相互影響,并不能等獨立反映事物特征。由于降維是采用一個正交矩陣變換得到的P個綜合指標,因此,正交矩陣保證了 P個綜合指標的不相關性,變量之間是彼此獨立的,消除了原m個指標的相互影響;
[0120](3)分析指標體系中各個指標的對事物的區(qū)分性。衡量一個事物好壞由多個指標所決定,但指標對事物的區(qū)分性有強弱之分,通過PCA計算,可以分析哪些指標有更好的區(qū)分性,哪些指標的區(qū)分性較弱。
[0121]由于“聚類”和“PCA”計算對數(shù)據(jù)要求相同,因此,本發(fā)明將其歸為一類。
[0122]本發(fā)明通過如下方法來自動分析變量、構建“聚類”或“PCA”數(shù)學模型進行計算。
[0123](一)、數(shù)據(jù)格式規(guī)定
[0124]用戶可提交TXT或數(shù)據(jù)庫兩種數(shù)據(jù):
[0125]1、TXT數(shù)據(jù)格式規(guī)定
[0126](I)要求為TXT數(shù)據(jù);
[0127](2)包括η條記錄,每行為一條記錄;
[0128](3)每條記錄由I個“識別ID”、m個“屬性變量” {Al, A2,...,Ai,...,Am}兩種
類型的變量組成;
[0129](4)文本的第I行為數(shù)據(jù)說明項所在行;
[0130](5)第I列為“識別ID”,其余列為“屬性變量”Ai ;
[0131](6)字符串用空格、逗號或Tab等分隔符分開。
[0132]如用戶提交數(shù)據(jù)為:
[0133]地區(qū)⑶P 固定資產(chǎn)人力資本
[0134]北京2.0576 5.9489 1.360
[0135]天津1.8328 4.0308 1.399
[0136]根據(jù)權利要求5限定,系統(tǒng)對數(shù)據(jù)解析:第I行為數(shù)據(jù)說明項,第2、3行為數(shù)據(jù),第I列為“識別ID”(“地區(qū)”),其余第2、3、4列為“屬性變量”(“⑶P”、“固定資產(chǎn)”、“人力資本,,)。
[0137]本發(fā)明不限于上述方法,還可以其他形式規(guī)定TXT數(shù)據(jù)格式,系統(tǒng)根據(jù)具體實施數(shù)據(jù)規(guī)定對數(shù)據(jù)進行解析。
[0138]2、存放在數(shù)據(jù)庫中的數(shù)據(jù)格式規(guī)定
[0139](I)包括I個“識別ID”和m個“屬性變量” {Al,A2,...,Ai,...,Am}兩種類型變量;
[0140](2)每行為一個變量說明,有4個數(shù)據(jù)描述項:
[0141]“變量屬性”:“識別ID”、“屬性變量”?;
[0142]“變量名”:顯示時的變量名;[0143]“數(shù)據(jù)庫表名”:數(shù)據(jù)存放在數(shù)據(jù)庫的哪個表中;
[0144]“字段名”:數(shù)據(jù)庫表中的字段名。
[0145](3)每個數(shù)據(jù)說明項用尖括號“〈>”擴起來,形式如下:
[0146]<變量屬性 >,< 變量名 >,< 數(shù)據(jù)庫表名 >,< 字段名>
[0147]如:“〈識別ID>, <地區(qū) >,< 表1>,〈Area〉”,根據(jù)權利要求6限定,系統(tǒng)對數(shù)據(jù)解析為:
[0148]變量屬性為:“識別ID”,
[0149]變量名為:“地區(qū)”,
[0150]數(shù)據(jù)存放在數(shù)據(jù)庫的“表I”中,
[0151]字段名為“Area”。
[0152]如:“〈屬性變量 >,〈產(chǎn)值〉,〈表1>,〈⑶P〉”,根據(jù)權利要求6限定,系統(tǒng)對數(shù)據(jù)解析為:
[0153]變量屬性為:“屬性變量”,
[0154]變量名為:“產(chǎn)值”,
[0155]數(shù)據(jù)存放在數(shù)據(jù)庫的“表I”中,
[0156]字段名為“⑶P”。
[0157]本發(fā)明不限于上述方法,還可以其他形式規(guī)定存放在數(shù)據(jù)庫中的數(shù)據(jù)格式,系統(tǒng)根據(jù)具體實施數(shù)據(jù)規(guī)定對數(shù)據(jù)進行解析。
[0158](二 )、系統(tǒng)運行具體實施方法
[0159]用戶可登錄Web Server或通過應用程序連接APP Server。
[0160]1、登錄 Web Server
[0161](I)用戶提交數(shù)據(jù)
[0162]用戶通過瀏覽器登錄Web Server,選擇分類算法,根據(jù)算法對數(shù)據(jù)格式的要求提交數(shù)據(jù),說明提交的數(shù)據(jù)是TXT還是存放在數(shù)據(jù)庫中,系統(tǒng)調(diào)用“模塊I” ;
[0163](2)檢查數(shù)據(jù)
[0164]“模塊I”根據(jù)用戶選擇的算法和數(shù)據(jù)格式要求,檢查數(shù)據(jù)是否符合規(guī)定,如果不符合規(guī)定,顯示錯誤信息,否則,調(diào)用“模塊2” ;
[0165](3)分析數(shù)據(jù)
[0166]A、如果用戶提交TXT數(shù)據(jù),“模塊2”根據(jù)用戶所選擇的算法和數(shù)據(jù)規(guī)定對數(shù)據(jù)進行分析,用TXT的第I行來確定“識別ID”、“屬性變量”Ai的所在列,“屬性變量”Ai的數(shù)量m、Ai的變量名,調(diào)用“模塊3”,進行建模、計算;
[0167]本發(fā)明不限于上述數(shù)據(jù)分析方法,如果規(guī)定格式為其他TXT數(shù)據(jù)格式,應理解可按實際數(shù)據(jù)規(guī)定格式分析數(shù)據(jù)。
[0168]B、如果數(shù)據(jù)存放在數(shù)據(jù)庫中,“模塊2”根據(jù)用戶所選擇的算法和數(shù)據(jù)規(guī)定對數(shù)據(jù)進行分析,建立數(shù)據(jù)庫連接,組成SQL串,從數(shù)據(jù)庫表中查詢出從數(shù)據(jù)庫表中查詢出“識別ID”和“屬性變量” Ai組成記錄集Set,統(tǒng)計“屬性變量” Ai的數(shù)量m,調(diào)用“模塊3”進行建模、計算。
[0169]本發(fā)明不限于上述數(shù)據(jù)分析方法,如果規(guī)定格式為其他數(shù)據(jù)庫存放數(shù)據(jù)格式,應理解可按實際規(guī)定格式分析數(shù)據(jù)。[0170](4)建立數(shù)學模型進行計算
[0171]“模塊3”根據(jù)“模塊2”確定的變量來分配存儲單元、建立數(shù)學模型,相應的通用算法程序進行計算,在瀏覽器上顯示計算結果。
[0172]2、應用程序連接APP Server
[0173](I)用戶提交數(shù)據(jù)
[0174]用戶通過應用程序連接APP Server,提交算法標識和符合算法規(guī)定的數(shù)據(jù),說明提交的數(shù)據(jù)是TXT還是存放在數(shù)據(jù)庫中,調(diào)用“模塊I” ;
[0175](2)檢查數(shù)據(jù)
[0176]“模塊I”根據(jù)用戶選擇的算法和數(shù)據(jù)格式要求,檢查數(shù)據(jù)是否符合規(guī)定,如果不符合規(guī)定,返回錯誤信息,否則,調(diào)用“模塊2” ;
[0177](3)分析數(shù)據(jù)
[0178]A、如果用戶提交TXT數(shù)據(jù),“模塊2”根據(jù)用戶所選擇的算法和數(shù)據(jù)規(guī)定對數(shù)據(jù)進行分析,用TXT的第I行來確定“識別ID”、“屬性變量”Ai的所在列,“屬性變量”Ai的數(shù)量m、Ai的變量名,調(diào)用“模塊3”,進行建模、計算;
[0179]本發(fā)明不限于上述數(shù)據(jù)分析方法,如果規(guī)定格式為其他TXT數(shù)據(jù)格式,應理解可按實際規(guī)定分析數(shù)據(jù)。
[0180]B、如果數(shù)據(jù)存放在數(shù)據(jù)庫中,“模塊2”根據(jù)用戶所選擇的算法和數(shù)據(jù)規(guī)定對數(shù)據(jù)進行分析,建立數(shù)據(jù)庫連接,組成SQL串,從數(shù)據(jù)庫表中查詢出“識別ID”和“屬性變量”Ai組成記錄集Set,統(tǒng)計“屬性變量” Ai的數(shù)量m,調(diào)用“模塊3”,進行建模、計算。
[0181]本發(fā)明不限于上述數(shù)據(jù)分析方法,如果規(guī)定格式為其他數(shù)據(jù)庫存放數(shù)據(jù)格式,應理解可按實際規(guī)定分析數(shù)據(jù)。
[0182](4)建立數(shù)學模型進行計算
[0183]“模塊3”根據(jù)“模塊2”確定的變量來分配存儲單元、建立數(shù)學模型,相應的通用算法程序進行計算,將計算結果放在APP Server上,用戶應用程序可直接使用計算結果。
[0184]三、“關聯(lián)分析計算”和“序列分析計算”
[0185]“關聯(lián)”分析計算的目的是,一個“事物(或交易)”記錄由多個“事件(或交易)”構成,通過對記錄的統(tǒng)計分析,發(fā)現(xiàn)“事件(或交易)”的“關聯(lián)”規(guī)律。
[0186]“序列”分析計算的目的是,通過對記錄的統(tǒng)計分析,發(fā)現(xiàn)“事件(或交易)”先后順序的“序列”規(guī)律。
[0187]本發(fā)明通過如下方法來自動分析變量、構建數(shù)學模型進行計算。
[0188](一)、數(shù)據(jù)格式規(guī)定
[0189]用戶可提交TXT或數(shù)據(jù)庫兩種數(shù)據(jù):
[0190]1、TXT數(shù)據(jù)格式規(guī)定
[0191](I)要求為TXT數(shù)據(jù);
[0192](2)包括η條記錄,每行為一條記錄;
[0193](3)從第I行起全部為數(shù)據(jù);
[0194](4)列與列之間用空格、逗號或Tab等分隔符分開;
[0195](5)每行包括“識別ID”和“事件(或商品)”兩種類型變量,第I列為“識別ID”,其余列為“事件(或商品)”;[0196](6)每條記錄的列數(shù)可以不相同。
[0197]如用戶提交數(shù)據(jù)為:
[0198]Tl 牛奶、面包
[0199]T2 牛奶、面包、純凈水
[0200]T3 牛奶、純凈水
[0201]根據(jù)權利要求7限定進行解析:第I列為“識別ID”(Tl,T2,T3),第2列及以后的列為“事件(或商品)”。
[0202]本發(fā)明不限于上述方法,還可以其他形式規(guī)定TXT數(shù)據(jù)格式,系統(tǒng)根據(jù)具體實施數(shù)據(jù)規(guī)定對數(shù)據(jù)進行解析。
[0203]2、存放在數(shù)據(jù)庫中的數(shù)據(jù)格式規(guī)定
[0204](I)包括“識別ID”和“事件(或商品)”兩種類型變量;
[0205](2)每行為一個變量說明,有4個數(shù)據(jù)描述項:
[0206]“變量屬性”:“識別ID”、“事件(或商品)”?;
[0207]“變量名”:顯示時的變量名;
[0208]“數(shù)據(jù)庫表名”:數(shù)據(jù)存放在數(shù)據(jù)庫的哪個表中;
[0209]“字段名”:數(shù)據(jù)庫表中的字段名。
[0210](3)每個數(shù)據(jù)說明項用尖括號“〈>”擴起來,形式如下:
[0211]<變量屬性 >,< 變量名 >,< 數(shù)據(jù)庫表名 >,< 字段名>
[0212]如:“〈識別ID>,<交易記錄 >,< 表1>,<T>”,根據(jù)權利要求8限定對數(shù)據(jù)進行解析為:
[0213]變量屬性為:“識別ID”,
[0214]變量名為:“交易記錄”,
[0215]數(shù)據(jù)存放在數(shù)據(jù)庫的“表I”中,
[0216]字段名為“Τ”。
[0217]如:“〈事件(或商品)>,〈購買商品 >,〈表1>,〈Goods〉”,根據(jù)權利要求8限定對數(shù)據(jù)進行解析為:
[0218]變量屬性為:“事件(或商品)”,
[0219]變量名為:“購買商品”,
[0220]數(shù)據(jù)存放在數(shù)據(jù)庫的“表I”中,
[0221]字段名為“Goods”。
[0222]本發(fā)明不限于上述方法,還可以其他形式規(guī)定存放在數(shù)據(jù)庫中的數(shù)據(jù)格式,系統(tǒng)根據(jù)具體實施數(shù)據(jù)規(guī)定對數(shù)據(jù)進行解析。
[0223](二 )、系統(tǒng)運行具體實施方法
[0224]用戶可登錄Web Server或通過應用程序連接APP Server。
[0225]1、登錄 Web Server
[0226](I)用戶提交數(shù)據(jù)
[0227]用戶通過瀏覽器登錄Web Server,選擇“關聯(lián)”或“序列”算法,根據(jù)算法對數(shù)據(jù)格式的要求提交數(shù)據(jù),說明提交的數(shù)據(jù)是TXT還是存放在數(shù)據(jù)庫中,調(diào)用“模塊2” ;
[0228](2)檢查數(shù)據(jù)[0229]“模塊I”根據(jù)算法對數(shù)據(jù)的要求,檢查用戶提交的數(shù)據(jù)是否符合規(guī)定,如果不符合規(guī)定,顯示錯誤信息,否則,調(diào)用“模塊2” ;
[0230](3)分析數(shù)據(jù)
[0231]A、如果用戶提交TXT數(shù)據(jù),“模塊2”根據(jù)算法對數(shù)據(jù)格式的規(guī)定分析數(shù)據(jù),確定“識別ID”,“事件(或商品)”的所在列,“事件(或商品)”的數(shù)量,調(diào)用“模塊3”,進行建模、計算;
[0232]本發(fā)明不限于上述數(shù)據(jù)分析方法,如果規(guī)定格式為其他TXT數(shù)據(jù)格式,應理解可按實際數(shù)據(jù)規(guī)定格式分析數(shù)據(jù)。
[0233]B、如果數(shù)據(jù)存放在數(shù)據(jù)庫中,“模塊2”根據(jù)用戶所選擇的算法和數(shù)據(jù)規(guī)定對數(shù)據(jù)進行分析,建立數(shù)據(jù)庫連接,組成SQL串,從數(shù)據(jù)庫表中查詢出“識別ID”和“事件(或商品)”組成記錄集Set,其中只有兩個字段,第I個字段為“識別ID”,第2個字段為“事件(或商品)”,調(diào)用“模塊3”,進行建模、計算。
[0234]本發(fā)明不限于上述數(shù)據(jù)分析方法,如果規(guī)定格式為其他數(shù)據(jù)庫存放數(shù)據(jù)格式,應理解可按實際規(guī)定格式分析數(shù)據(jù)。
[0235]( 4 )建立數(shù)學模型進行計算
[0236]“模塊3”根據(jù)“模塊2”確定的變量來分配存儲單元、建立數(shù)學模型,通用的算法程序進行計算。
[0237]2、應用程序連接APP Server
[0238](I)用戶提交數(shù)據(jù)
[0239]用戶通過應用程序連接APP Server,提交算法標識和符合算法規(guī)定的數(shù)據(jù),說明提交的數(shù)據(jù)是TXT還是存放在數(shù)據(jù)庫中,調(diào)用“模塊I” ;
[0240](2)檢查數(shù)據(jù)
[0241]“模塊I”根據(jù)算法對數(shù)據(jù)的規(guī)定,檢查數(shù)據(jù)是否符合規(guī)定,如果不符合算法對數(shù)據(jù)的規(guī)定,返回錯誤信息,否則“模塊2” ;
[0242](3)分析數(shù)據(jù)
[0243]A、如果用戶提交TXT數(shù)據(jù),“模塊2”根據(jù)算法對數(shù)據(jù)格式的規(guī)定分析數(shù)據(jù),確定“識別ID”、“事件(或商品)”的所在列,“事件(或商品)”的數(shù)量,調(diào)用“模塊3”,進行建模、計算;
[0244]本發(fā)明不限于上述數(shù)據(jù)分析方法,如果規(guī)定格式為其他TXT數(shù)據(jù)格式,應理解可按實際數(shù)據(jù)規(guī)定格式分析數(shù)據(jù)。
[0245]B、如果數(shù)據(jù)存放在數(shù)據(jù)庫中,“模塊2”根據(jù)用戶所選擇的算法和數(shù)據(jù)規(guī)定對數(shù)據(jù)進行分析,建立數(shù)據(jù)庫連接,組成SQL串,從數(shù)據(jù)庫表中查詢出“識別ID”和“事件(或商品)”組成記錄集Set,其中只有兩個字段,第I個字段為“識別ID”,第2個字段為“事件(或商品)”,調(diào)用“模塊3”,進行建模、計算。
[0246]本發(fā)明不限于上述數(shù)據(jù)分析方法,如果規(guī)定格式為其他數(shù)據(jù)庫存放數(shù)據(jù)格式,應理解可按實際規(guī)定格式分析數(shù)據(jù)。
[0247]( 4 )建立數(shù)學模型進行計算
[0248]“模塊3”根據(jù)“模塊2”確定的變量來分配存儲單元、建立數(shù)學模型,通用算法程序進行計算,將計算結果放在APP Server上,用戶應用程序可直接使用計算結果。[0249]四、文本挖掘
[0250]所謂“文本”為一篇有內(nèi)容的文字串序列數(shù)據(jù),包括網(wǎng)頁、Word等電子文檔?!拔谋就诰颉睂儆谟嬎銠C學習范疇,目前主要有文本挖掘有:文本分類、文本聚類和文本內(nèi)容相似
度計算等。
[0251]本發(fā)明通過如下方法來自動分析變量、構建“文本挖掘”數(shù)學模型進行計算。
[0252](一)、數(shù)據(jù)格式規(guī)定
[0253]( I) 一組文本數(shù)據(jù)文件;
[0254](2) “代表詞組”中詞的數(shù)量,所謂“代表詞組”為一組權重最大的詞,用該詞組來代表文檔所表述的內(nèi)容。
[0255](二 )、系統(tǒng)運行具體實施方法
[0256]用戶可登錄Web Server或通過應用程序連接APP Server。
[0257]1、登錄 Web Server
[0258](I)用戶通過瀏覽器登錄Web Server,選擇某一“文本挖掘”算法,提交一組文本,選擇確定“代表詞組”中詞的數(shù)量,調(diào)用“模塊I” ;
[0259](2) “模塊I”檢查用戶提交數(shù)據(jù)的數(shù)據(jù)是否符合規(guī)定,如果不符合規(guī)定,顯示錯誤信息,否則調(diào)用“模塊2”;
[0260](3) “模塊2”根據(jù)“文本挖掘”計算的數(shù)據(jù)格式規(guī)定分析數(shù)據(jù),確定的文本數(shù)量和“代表詞組”中詞的數(shù)量,調(diào)用“模塊3”,進行建模、計算;
[0261](4) “模塊3”根據(jù)“模塊2”確定的變量來分配存儲單元、建立數(shù)學模型,算法通用程序進行計算。
[0262]2、應用程序連接APP Server
[0263](I)用戶通過應用程序連接APP Server,提交算法標識和符合算法規(guī)定的數(shù)據(jù),調(diào)用“模塊I”;
[0264](2) “模塊I”檢查用戶提交數(shù)據(jù)的數(shù)據(jù)是否符合規(guī)定,如果不符合規(guī)定,顯示錯誤信息,否則調(diào)用“模塊2”;
[0265](3) “模塊2”根據(jù)“文本挖掘”計算的數(shù)據(jù)格式規(guī)定分析數(shù)據(jù),確定文本的數(shù)量和“代表詞組”中詞的數(shù)量,調(diào)用“模塊3” ;
[0266](4) “模塊3”根據(jù)“模塊2”確定的變量來分配存儲單元、建立數(shù)學模型,算法通用程序進行計算,將計算結果放在APP Server上,用戶應用程序可直接使用計算結果。
[0267]實施例1
[0268]如有分類問題:對顧客購買商品行為進行貝葉斯分類計算,挖掘不同類型顧客購買行為的概率規(guī)則。具體實施方法為:
[0269]1、選擇算法
[0270]用戶登錄網(wǎng)站,選擇貝葉斯分類算法。
[0271]2、提交數(shù)據(jù)
[0272]如下“表I”所示,用戶按規(guī)定提交數(shù)據(jù),系統(tǒng)調(diào)用“模塊I”檢查數(shù)據(jù)的是否符合規(guī)定,如果不符合規(guī)定,提示錯誤信息,否則調(diào)用“模塊2”。
[0273]
【權利要求】
1.一種商業(yè)智能云計算系統(tǒng)的構建方法,在Internet或LAN上建立一個Web Server或APP Server,其特征在于: 系統(tǒng)主要包括“數(shù)據(jù)檢查模塊”、“變量分析模塊”和“算法通用程序模塊”; “數(shù)據(jù)檢查模塊”用于檢查數(shù)據(jù),根據(jù)用戶選擇的算法和算法對數(shù)據(jù)格式的要求,對用戶提交的數(shù)據(jù),是否符合算法規(guī)定的數(shù)據(jù)格式進行檢查; “變量分析模塊”用于分析數(shù)據(jù)確定變量,根據(jù)用戶選擇的算法和算法對數(shù)據(jù)格式的要求,對用戶提交的數(shù)據(jù)進行分析,確定有多少個變量、變量的性質(zhì)和變量的取值范圍等變量參數(shù); “算法通用程序模塊”用于自動建立數(shù)學模型和計算,模塊中為若干編寫好的算法通用程序,但不確定有多少個變量、變量的性質(zhì)和變量的取值范圍等變量參數(shù),也不確定具體的數(shù)學模型,只有算法流程,根據(jù)“變量分析模塊”所確定的變量參數(shù),系統(tǒng)自動建立數(shù)學模型進行計算; 系統(tǒng)流程為:用戶通過瀏覽器進入Web Server或應用程序連接APP Server,選擇算法、按算法規(guī)定的數(shù)據(jù)格式提交數(shù)據(jù),“數(shù)據(jù)檢查模塊”對用戶提交的數(shù)據(jù)進行檢查,“變量分析模塊”根據(jù)算法和算法對數(shù)據(jù)格式的要求,對用戶提交的數(shù)據(jù)進行分析、確定變量參數(shù),“算法通用程序模塊”根據(jù)“變量分析模塊”確定的變量參數(shù)自動建立數(shù)學模型進行計笪
ο
2.權利要求1所述的一種商業(yè)智能云計算系統(tǒng)的構建方法,其特征在于:所述的“算法通用程序模塊”中包括“分類計算”、“聚類計算”、“PCA計算”、“關聯(lián)分析計算”、“序列分析計算”和“文本挖掘計算”程序。
3.權利要求2所述的一種商業(yè)智能云計算系統(tǒng)的構建方法,其特征在于:對于“分類計算”程序,如果用戶提交TXT數(shù)據(jù),系統(tǒng)規(guī)定數(shù)據(jù)格式為:第I行為數(shù)據(jù)說明項所在行;第I列為“識別ID”,最后一列為“決策變量”D,其余列為m個“條件屬性變量” {Cl,C2,…,Ci, -,Cm}字符串之間用空格、逗號、Tab等分隔符分開;“變量分析模塊”以此來確定變量名、取值范圍等變量參數(shù),“算法通用程序模塊”以此來構建數(shù)學模型進行計算。
4.權利要求2所述的一種商業(yè)智能云計算系統(tǒng)的構建方法,其特征在于:對于“分類計算”程序,如果數(shù)據(jù)存放在數(shù)據(jù)庫中,系統(tǒng)規(guī)定提交數(shù)據(jù)格式為:包括I個“識別ID”、I個“決策變量”和m個“條件屬性變量” {Cl,C2,…,Ci,…,Cm}變量;每行為一個變量說明,行中說明“變量屬性”、“變量名”、“數(shù)據(jù)庫表名”和“字段名”;“變量分析模塊”據(jù)此確定變量名、組成SQL串,從數(shù)據(jù)庫中查詢數(shù)據(jù)、確定取值范圍等變量參數(shù);“算法通用程序模塊”以此構建數(shù)學模型進行計算。
5.根據(jù)權利要求2所述的一種商業(yè)智能云計算系統(tǒng)的構建方法,其特征在于:對于“聚類計算”或“PCA計算”程序,如果用戶提交TXT數(shù)據(jù),系統(tǒng)規(guī)定數(shù)據(jù)格式為:第I行為數(shù)據(jù)說明項所在行;第I列為“識別ID”,其余列為m個“屬性變量” {Al,A2,…,Ai,…,Am},字符串之間用空格、逗號、Tab等分隔符分開;“變量分析模塊”以此來確定變量名等變量參數(shù),“算法通用程序模塊”以此構建數(shù)學模型進行計算。
6.根據(jù)權利要求2所述的一種商業(yè)智能云計算系統(tǒng)的構建方法,其特征在于:對于“聚類計算”或“PCA計算”程序,如果數(shù)據(jù)存放在數(shù)據(jù)庫中,系統(tǒng)規(guī)定提交數(shù)據(jù)格式為:包括I個“識別ID”和m個“屬性變量” {A1,A2,…,Ai,-,Am};每行為一個變量說明,行中說明“變量屬性”、“變量名”、“數(shù)據(jù)庫表名”和“字段名”;“變量分析模塊”據(jù)此確定變量名、組成SQL串,從數(shù)據(jù)庫中查詢數(shù)據(jù)、確定變量名等變量參數(shù);“算法通用程序模塊”以此構建數(shù)學模型進行計算。
7.根據(jù)權利要求2所述的一種商業(yè)智能云計算系統(tǒng)的構建方法,其特征在于:對于“關聯(lián)分析計算”或“序列分析計算”程序,如果用戶提交TXT數(shù)據(jù),系統(tǒng)規(guī)定數(shù)據(jù)格式為:從第I行起全部為數(shù)據(jù);第I列為“識別ID”,其余列為“事物或商品”,字符串之間用空格、逗號、Tab等分隔符分開;每條記錄的列數(shù)可以不相同;“變量分析模塊”以此來確定變量名等變量參數(shù),“算法通用程序模塊”以此來構建數(shù)學模型進行計算。
8.根據(jù)權利要求2所述的一種商業(yè)智能云計算系統(tǒng)的構建方法,其特征在于:對于“關聯(lián)分析計算”或“序列分析計算”程序,如果數(shù)據(jù)存放在數(shù)據(jù)庫中,系統(tǒng)規(guī)定提交數(shù)據(jù)格式為:包括“識別ID”和“事物或商品”兩種類型變量;每行為一個變量說明,包括“變量屬性”、“變量名”、“數(shù)據(jù)庫表名”和“字段名”;“變量分析模塊”據(jù)此確定變量名、組成SQL串,從數(shù)據(jù)庫中查詢數(shù)據(jù)、確定變量名等變量參數(shù);“算法通用程序模塊”以此來構建數(shù)學模型進行計算。
9.根據(jù)權利要求2所述的一種商業(yè)智能云計算系統(tǒng)的構建方法:其特征在于:對于“文本挖掘計算”程序,用戶選擇某一“文本挖掘”算法,提交一組文本、選擇文本代表詞數(shù)量;“變量分析模塊”根據(jù)數(shù)據(jù)格式規(guī)定來確定文本數(shù)量和算法需要的變量參數(shù);“算法通用程序模塊”以此來構建數(shù)學 模型進行計算。
【文檔編號】G06F17/30GK103544299SQ201310530032
【公開日】2014年1月29日 申請日期:2013年10月30日 優(yōu)先權日:2013年10月30日
【發(fā)明者】劉峰 申請人:劉峰