時(shí)間:2022-03-04 02:39:36
導(dǎo)語:在大學(xué)生個(gè)人消費(fèi)總結(jié)的撰寫旅程中,學(xué)習(xí)并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領(lǐng)您探索更多的創(chuàng)作可能。

關(guān)鍵詞:數(shù)據(jù)挖掘;聚類;貧困生分析;校園一卡通 ;消費(fèi)數(shù)據(jù)
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)20-4934-03
Analysis of Impoverished College Students Based on Campus Card Consumption Data
FEI Xiao-dan1, DONG Xin-ke2,ZHANG Hui2
(1.School of National Defense Science and Technology, South West University of Science and Technology, Mianyang 621010, China;work Information Center, South West University of Science and Technology, Mianyang 621010, China)
Abstract:At present, most of the universities and colleges in China have established a comprehensive system for aiding impoverished students. However, two of the factors accounting for the fact that identifying poor students is still a difficult problem are that the poor students application information is somewhat subjective and that the degree of poverty is difficult to quantify. Seeking an objective and efficient evaluation criterion for identifying impoverished students is one of the most important research themes in college funding. In this paper, data mining tools such as the K-means clustering algorithm are used to analyze campus card consumption data. In addition, based on the clustering result, an impoverished students index algorithm for calculating each student’s poverty index is established, which assists in decision-making of college funding.
Key word: data mining; clustering; analysis of impoverished students; campus card ; consumption data
我國(guó)已逐步建立起“獎(jiǎng)、貸、助、補(bǔ)、減、免”等多種形式有機(jī)結(jié)合的較為完善的高校貧困生資助政策體系[1]。但是現(xiàn)有的基于人工的貧困生認(rèn)定工作難以甄別申請(qǐng)材料的真實(shí)性,在認(rèn)定中存在一定的主觀因素,同時(shí)也不能量化學(xué)生的貧困情況,如何客觀、高效地認(rèn)定貧困生依然是一件十分困難的工作。
校園信息化建設(shè)的飛速發(fā)展使得利用學(xué)生平時(shí)在校的消費(fèi)信息分析學(xué)生的消費(fèi)行為成為了可能[2]。該文以西南科技大學(xué)一卡通消費(fèi)數(shù)據(jù)為基礎(chǔ),采用開源的數(shù)據(jù)挖掘工具weka進(jìn)行二次開發(fā)來分析學(xué)生的消費(fèi)行為,同時(shí)提出了K-means聚類算法下的貧困指數(shù)計(jì)算方法來輔助高校中的貧困生認(rèn)定工作。
1 貧困生認(rèn)定與校園一卡通消費(fèi)數(shù)據(jù)
干凈而合乎要求的數(shù)據(jù)是數(shù)據(jù)挖掘成功應(yīng)用的基礎(chǔ)[3],如何從海量的校園一卡通數(shù)據(jù)中獲取準(zhǔn)確真實(shí)反映學(xué)生消費(fèi)行為的數(shù)據(jù)成為貧困生分析的關(guān)鍵之一。
本文的工作主要是以校園一卡通數(shù)據(jù)為基礎(chǔ),借鑒高校學(xué)生經(jīng)濟(jì)困難程度評(píng)估方法[4],分析學(xué)生的消費(fèi)數(shù)據(jù),客觀反映消費(fèi)數(shù)據(jù)中體現(xiàn)的學(xué)生貧困狀況。因此,需要全面考慮消費(fèi)數(shù)據(jù)中能夠反映貧困生的數(shù)據(jù)指標(biāo)。
根據(jù)對(duì)高校學(xué)生資助工作的調(diào)查了解和對(duì)現(xiàn)有貧困生的分析和調(diào)查,該文提出:貧困生使用校園一卡通在校內(nèi)消費(fèi)頻率較高的假設(shè)。
通過如圖1所示的流程進(jìn)行數(shù)據(jù)的提取分析。
在假設(shè)前提下,經(jīng)過以上的操作,提取最能反映學(xué)生消費(fèi)狀況的數(shù)據(jù)[5]。該文有針對(duì)性地選取了一卡通消費(fèi)數(shù)據(jù)中統(tǒng)計(jì)出的某段時(shí)間內(nèi)學(xué)生個(gè)人消費(fèi)總次數(shù)(xfzcs)、消費(fèi)總金額(xfzje)、次均消費(fèi)金額(cjxfje)和日均消費(fèi)金額(rjxfje)四個(gè)指標(biāo)作為數(shù)據(jù)挖掘的基礎(chǔ)參考特征指標(biāo)。
2 聚類算法與選擇數(shù)據(jù)預(yù)處理
為了達(dá)到高效、快捷、可擴(kuò)展性強(qiáng)等要求,該文采用在Weka開源工具二次開發(fā)[6]的基礎(chǔ)上,選擇聚類算法進(jìn)行貧困生數(shù)據(jù)的挖掘。選擇哪一個(gè)聚類算法和數(shù)據(jù)預(yù)處理的好壞關(guān)系到整個(gè)貧困生分析的效果。
2.1 聚類算法選擇
本文對(duì)Weka中所有自帶的聚類算法進(jìn)行了實(shí)驗(yàn)[7]。通過對(duì)聚類效率、算法靈活性、實(shí)施復(fù)雜程度、參數(shù)個(gè)數(shù)、聚類分布、是否適合貧困生分析等等方面進(jìn)行了對(duì)比分析。大量實(shí)驗(yàn)的結(jié)果顯示,K-means算法是這些聚類算法中最合適的算法。因此,該文選擇K-means算法作為貧困生消費(fèi)數(shù)據(jù)分析的聚類算法。
2.2 數(shù)據(jù)預(yù)處理
本文研究數(shù)據(jù)全部是西南科技大學(xué)校園一卡通數(shù)據(jù)庫中各項(xiàng)真實(shí)消費(fèi)數(shù)據(jù),首先對(duì)一卡通數(shù)據(jù)庫中的龐大數(shù)據(jù)進(jìn)行清洗、過濾、篩選[8]形成貧困生分析數(shù)據(jù)倉庫。為了使預(yù)處理后的數(shù)據(jù)符合weka的輸入,進(jìn)一步對(duì)數(shù)據(jù)倉庫中經(jīng)過規(guī)范、清洗、規(guī)約后得到的數(shù)據(jù)采用Weka預(yù)處理工具進(jìn)行了數(shù)據(jù)格式變換。
3 實(shí)驗(yàn)
在Weka 3.6.0平臺(tái)上進(jìn)行二次開發(fā),利用K-means聚類結(jié)果構(gòu)建學(xué)生貧困指數(shù)算法,計(jì)算出學(xué)生的貧困指數(shù),直觀反映學(xué)生的貧困狀況。
3.1 聚類處理
首先,參數(shù)選擇上本文實(shí)驗(yàn)采用如下參數(shù)設(shè)置:1) 最大迭代次數(shù)都設(shè)置均為500;2) 每次均隨機(jī)初始化聚類;3) 聚類的組數(shù)分別為5組至15組。
本實(shí)驗(yàn)在西南科技大學(xué)中的9個(gè)學(xué)院學(xué)生一學(xué)期的消費(fèi)數(shù)據(jù)上進(jìn)行,其中每個(gè)學(xué)院的人數(shù)都在1000人以上,能夠很好地反映全校各學(xué)院學(xué)生的消費(fèi)情況。
實(shí)驗(yàn)將前面預(yù)處理完成的符合K-means輸入格式的數(shù)據(jù)在Weka工具中進(jìn)行聚類,調(diào)整聚類組數(shù),依次得到每個(gè)組的聚類結(jié)果。
實(shí)驗(yàn)總共產(chǎn)生16組結(jié)果,聚類結(jié)果顯示:1) 被聚類的數(shù)據(jù)項(xiàng)為100%;2) 聚類的時(shí)間均在0.12s以下;3) 聚類的組數(shù)可控;4) 類別內(nèi)的誤差平方和在22以內(nèi),整體較低,反映了聚類的準(zhǔn)確率較高,其中,組數(shù)為5的時(shí)候最高為21.920955836779992,組數(shù)為15的時(shí)候最低為8.843188728817841;5) 聚類的組數(shù)越大聚類的準(zhǔn)確率越高。
3.2 貧困指數(shù)算法
在實(shí)驗(yàn)基礎(chǔ)上,對(duì)Weka進(jìn)行二次開發(fā),并設(shè)計(jì)出一個(gè)可以直觀反映貧困生貧困程度的貧困指數(shù)算法。該文算法是依據(jù)以下對(duì)貧困生的調(diào)查結(jié)果和基本思想提出的:
1) 貧困生使用一卡通消費(fèi)頻率高。
2) 貧困生消費(fèi)總金額相對(duì)較小。
3) 貧困生次均消費(fèi)金額較少。
4) 從實(shí)際情況分析可以得出,貧困生日均消費(fèi)金額比較少,而且日均消費(fèi)頻率較穩(wěn)定。
根據(jù)以上四點(diǎn),可以總結(jié)出:1) 貧困生消費(fèi)次數(shù)必須達(dá)到必要消費(fèi)次數(shù);2) 貧困指數(shù)和消費(fèi)次數(shù)呈正相關(guān),和消費(fèi)總金額、日均消費(fèi)金額和次均消費(fèi)金額呈負(fù)相關(guān)。根據(jù)總結(jié),提出了如下貧困指數(shù)計(jì)算公式,如公式1所示:
其中,PovertyIndex表示學(xué)生的貧困指數(shù),averageTime表示全部學(xué)生的平均消費(fèi)次數(shù),averageConsume表示全部學(xué)生的平均消費(fèi)金額,[?]表示必要消費(fèi)次數(shù)控制因子,[λ]表示貧困生消費(fèi)總金額控制因子。這兩個(gè)因子分別用于保證貧困生必須在必要消費(fèi)次數(shù)以上和貧困生的總消費(fèi)金額在平均消費(fèi)水平的多少以內(nèi)。
由貧困指數(shù)的定義可以看到貧困指數(shù)越大學(xué)生越貧困,反之則越不貧困。
必要消費(fèi)總次數(shù)EssentialTime可以用公式2來表示:
本文貧困指數(shù)的計(jì)算流程表示在圖2中。
3.3 實(shí)驗(yàn)結(jié)果
根據(jù)對(duì)資助工作的了解、貧困生的調(diào)查以及學(xué)生消費(fèi)行為的研究,并進(jìn)行實(shí)驗(yàn)分析驗(yàn)證,最終本文選取[?]的值為0.8,[λ]的值為2/3。
根據(jù)上述的條件,該文得到了各個(gè)學(xué)院的貧困生指數(shù)計(jì)算結(jié)果,表1顯示了聚類組數(shù)為7的情況下,某學(xué)院的貧困指數(shù)計(jì)算結(jié)果。
其中,所有數(shù)據(jù)均保留最后實(shí)驗(yàn)結(jié)果,貧困指數(shù)越大說明該類的學(xué)生越貧困。
4 實(shí)驗(yàn)結(jié)果分析與總結(jié)
根據(jù)表1的結(jié)果可以看到第2組的貧困指數(shù)最大屬于最貧困的一類同學(xué);第1組和第6組次之,屬于較為貧困的貧困一類;第3組和第4組的貧困指數(shù)更低,則屬于不太貧困的一類;第5組和第7組則基本上不在校內(nèi)消費(fèi),被認(rèn)為是不貧困的一類人。
同時(shí),還可以通過調(diào)節(jié)聚類的組數(shù)來改變實(shí)驗(yàn)結(jié)果的粒度,以便與真實(shí)的貧困生認(rèn)定情況更加吻合,選出符合要求數(shù)目的貧困生人數(shù)。
本文提出的基于校園一卡通消費(fèi)數(shù)據(jù)的貧困生分析可以總結(jié)如下,如圖3 所示:
從整個(gè)系統(tǒng)的分析來看,本實(shí)驗(yàn)提出的方法高效、快捷、可擴(kuò)展以及直觀性強(qiáng),對(duì)高校的貧困生認(rèn)定工作將有十分積極的貢獻(xiàn)。
5 結(jié)束語
本文首先在校園一卡通消費(fèi)數(shù)據(jù)的基礎(chǔ)上,采用Weka開源工具進(jìn)行二次開發(fā),選取K-means聚類算法挖掘?qū)W生的消費(fèi)行為;然后,結(jié)合西南科技大學(xué)的實(shí)際情況,在挖掘結(jié)果的基礎(chǔ)上構(gòu)建貧困生指數(shù)算法計(jì)算學(xué)生的貧困指數(shù)。該文提供了一種高效、快捷、可擴(kuò)展以及直觀的貧困生評(píng)價(jià)體系,不僅可以很好地為貧困生認(rèn)定提供直接的參考,而且能夠在此基礎(chǔ)上開發(fā)完善的貧困生評(píng)定系統(tǒng),為高校學(xué)生資助等管理部門提供了更科學(xué)的決策支持。
參考文獻(xiàn):
[1] 唐穎,李明江.數(shù)據(jù)挖掘在高校貧困生消費(fèi)信息管理中的應(yīng)用研究[J].湖南商學(xué)院學(xué)報(bào), 2011,18(6):45-49.
[2] 李劍波.數(shù)據(jù)挖掘技術(shù)在高校貧困生綜合評(píng)價(jià)中的應(yīng)用[J].商業(yè)文化, 2009(7):248.
[3] 邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M]. DynoMedia Inc., 2003.
[4] 張春生,聶風(fēng)華,邱顯清.高校學(xué)生經(jīng)濟(jì)困難程度評(píng)估方法研究[J].清華大學(xué)教育研究,2006(1).
[5] YANG D, XIONG Z. Study of the Cognizance Method of the University Poor Student[J]. Meitan Higher Education, 2007(5):19.
[6] 陳慧萍,林莉莉,王建東,等. WEKA 數(shù)據(jù)挖掘平臺(tái)及其二次開發(fā)[J].計(jì)算機(jī)工程與應(yīng)用, 2008, 44(19): 76-79.