本發(fā)明屬于高校資助,具體涉及一種基于改進(jìn)k-means算法的高校資助評定方法。
背景技術(shù):
1、目前,大部分高校資助的認(rèn)定方式仍然采用手工的方式進(jìn)行統(tǒng)計分析和記分,且具體的分析記分材料主要來源于學(xué)生自己所提供的相關(guān)證明材料,因此存在較大的人為主觀性,難以對學(xué)生實際情況進(jìn)行準(zhǔn)確全面的評價,進(jìn)而導(dǎo)致資助的認(rèn)定結(jié)果不夠準(zhǔn)確、客觀。
技術(shù)實現(xiàn)思路
1、鑒于此,為解決上述背景技術(shù)中所提出的問題,本發(fā)明的目的在于提供一種基于改進(jìn)k-means算法的高校資助評定方法。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種基于改進(jìn)k-means算法的高校資助評定方法,包括以下步驟:
4、獲取學(xué)生數(shù)據(jù),并對所述學(xué)生數(shù)據(jù)進(jìn)行預(yù)處理,且所述學(xué)生數(shù)據(jù)至少包括校園一卡通消費(fèi)數(shù)據(jù)、身份數(shù)據(jù)、家庭信息數(shù)據(jù)以及班級評價數(shù)據(jù);
5、通過預(yù)處理后的的家庭信息數(shù)據(jù)與班級評價數(shù)據(jù)計算資助指數(shù);
6、對預(yù)處理后的校園一卡通消費(fèi)數(shù)據(jù)進(jìn)行特征提取,并將所提取的特征組合形成樣本數(shù)據(jù)集,記u={u1,u2,u3......un},其中n為所述樣本數(shù)據(jù)集的樣本個數(shù);
7、初始化分類數(shù)量k,基于改進(jìn)k-means算法對與所述樣本數(shù)據(jù)集進(jìn)行聚類分類,并基于分類結(jié)果得到消費(fèi)指數(shù);
8、通過所述資助指數(shù)與所述消費(fèi)指數(shù)綜合計算資助等級。
9、優(yōu)選的,所述預(yù)處理包括去重、缺失處理和格式化;其中
10、所述去重為:根據(jù)學(xué)生校園一卡id進(jìn)行數(shù)據(jù)排序,通過比較相鄰數(shù)據(jù)來刪除重復(fù)數(shù)據(jù);
11、所述缺失處理為:使用平均值填充缺失數(shù)據(jù);
12、所述格式化為:將所有消費(fèi)數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的文本格式。
13、優(yōu)選的,所述身份數(shù)據(jù)包括學(xué)生性別和學(xué)生戶口類型。
14、優(yōu)選的,所述資助指數(shù)的計算公式為pi=(sex*hr*ncf*cdr)1/4;式中,sex表示學(xué)生性別,hr表示戶口類型,ncf表示家庭信息數(shù)據(jù),cdr表示班級評價數(shù)據(jù)。
15、優(yōu)選的,所述的對預(yù)處理后的校園一卡通消費(fèi)數(shù)據(jù)進(jìn)行特征提取包括:提取m個消費(fèi)指標(biāo),并將所提取的特征記錄為包含有該m個消費(fèi)指標(biāo)的指標(biāo)集合x=(x1,x2......xm);其中所述m個消費(fèi)指標(biāo)至少包括在預(yù)設(shè)時間段內(nèi)的總消費(fèi)次數(shù)、總消費(fèi)金額以及平均消費(fèi)金額。
16、優(yōu)選的,所述的基于改進(jìn)k-means算法對與所述樣本數(shù)據(jù)集進(jìn)行聚類分析包括:
17、1)從所述樣本數(shù)據(jù)集中隨機(jī)選取一個樣本作為初始聚類中心;
18、2)計算所述樣本數(shù)據(jù)集中每個樣本與最近的一個聚類中心之間的最短距離、以及每個樣本被選為下一個聚類中心的概率;
19、3)隨機(jī)產(chǎn)生一個[0~1]的隨機(jī)數(shù),計算每個樣本對應(yīng)概率與該隨機(jī)數(shù)的差值,并選取最小差值所對應(yīng)的一個樣本為下一個聚類中心(輪盤法);
20、4)重復(fù)步驟2)與步驟3)至得到k個聚類中心;
21、5)分別計算每個樣本與k個聚類中心的距離,并將每個樣本歸類到與之距離最近的一個聚類中心所在的類別中;
22、6)計算每個聚類類別中所有樣本的平均位置,以該平均位置為當(dāng)前聚類類別中新的聚類中心;
23、7)重復(fù)步驟5)與步驟6)至各聚類中心點(diǎn)不再發(fā)生變化或達(dá)到預(yù)設(shè)的迭代次數(shù);
24、8)輸出聚類分類結(jié)果。
25、優(yōu)選的,所述聚類分類結(jié)果為消費(fèi)等級分類,且所述消費(fèi)等級包括不資助消費(fèi)、一般資助消費(fèi)、資助消費(fèi)、特別資助消費(fèi)。
26、優(yōu)選的,根據(jù)不同消費(fèi)等級預(yù)設(shè)所述消費(fèi)指數(shù)。
27、優(yōu)選的,所述樣本與所述聚類中心之間的距離為歐式距離:
28、式中,uik表示樣本ui的位置坐標(biāo),ujk表示樣本uj的位置坐標(biāo)。
29、優(yōu)選的,所述資助等級計算公式為y=pi*a;且a表示消費(fèi)指數(shù)。
30、本發(fā)明與現(xiàn)有技術(shù)相比,具有以下有益效果:
31、本發(fā)明以學(xué)生校園一卡通消費(fèi)數(shù)據(jù)為基礎(chǔ),從該消費(fèi)數(shù)據(jù)中提取具有代表性的總消費(fèi)次數(shù)、總消費(fèi)金額以及平均消費(fèi)金額等消費(fèi)指標(biāo)作為消費(fèi)特征,結(jié)合改進(jìn)k-means算法執(zhí)行消費(fèi)特征分類,以此精準(zhǔn)確定學(xué)生的消費(fèi)情況,然后再結(jié)合身份數(shù)據(jù)、家庭信息數(shù)據(jù)以及班級評價數(shù)據(jù)來進(jìn)行資助等級的量化計算,為困難學(xué)生的資助評定提供科學(xué)、準(zhǔn)確的輔助分析依據(jù)。
1.一種基于改進(jìn)k-means算法的高校資助評定方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于改進(jìn)k-means算法的高校資助評定方法,其特征在于,所述預(yù)處理包括去重、缺失處理和格式化;
3.根據(jù)權(quán)利要求1所述的基于改進(jìn)k-means算法的高校資助評定方法,其特征在于:所述身份數(shù)據(jù)包括學(xué)生性別和學(xué)生戶口類型。
4.根據(jù)權(quán)利要求3所述的基于改進(jìn)k-means算法的高校資助評定方法,其特征在于:所述資助指數(shù)的計算公式為pi=(sex*hr*ncf*cdr)1/4;式中,sex表示學(xué)生性別,hr表示戶口類型,ncf表示家庭信息數(shù)據(jù),cdr表示班級評價數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的基于改進(jìn)k-means算法的高校資助評定方法,其特征在于,所述的對預(yù)處理后的校園一卡通消費(fèi)數(shù)據(jù)進(jìn)行特征提取包括:
6.根據(jù)權(quán)利要求1所述的基于改進(jìn)k-means算法的高校資助評定方法,其特征在于,所述的基于改進(jìn)k-means算法對與所述樣本數(shù)據(jù)集進(jìn)行聚類分析包括:
7.根據(jù)權(quán)利要求6所述的基于改進(jìn)k-means算法的高校資助評定方法,其特征在于:所述聚類分類結(jié)果為消費(fèi)等級分類,且所述消費(fèi)等級包括不資助消費(fèi)、一般資助消費(fèi)、資助消費(fèi)、特別資助消費(fèi)。
8.根據(jù)權(quán)利要求7所述的基于改進(jìn)k-means算法的高校資助評定方法,其特征在于:根據(jù)不同消費(fèi)等級預(yù)設(shè)所述消費(fèi)指數(shù)。
9.根據(jù)權(quán)利要求6所述的基于改進(jìn)k-means算法的高校資助評定方法,其特征在于:所述樣本與所述聚類中心之間的距離為歐式距離:
10.根據(jù)權(quán)利要求1所述的基于改進(jìn)k-means算法的高校資助評定方法,其特征在于:所述資助等級計算公式為y=pi*a;且a表示消費(fèi)指數(shù)。