本站小編為你精心準(zhǔn)備了基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績研究參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
摘要:信息技術(shù)的發(fā)展及應(yīng)用以及如何利用信息技術(shù)提高高校的管理水平,是高職院校面臨的重大課題。在學(xué)習(xí)和工作的過程中接觸到數(shù)據(jù)挖掘這一先進(jìn)的概念,力圖通過數(shù)據(jù)挖掘從學(xué)生的成績中找到隱含在其中的有效信息,這樣既可以幫助老師了解學(xué)生的學(xué)習(xí)情況,又可以幫助學(xué)生了解學(xué)習(xí)重點(diǎn),達(dá)到教學(xué)相長的目的。利用數(shù)據(jù)挖掘技術(shù)中的決策樹的相關(guān)知識和方法,以多屆學(xué)生的《計(jì)算機(jī)應(yīng)用基礎(chǔ)》成績,對學(xué)生的成績進(jìn)行分析。主要使用數(shù)據(jù)挖掘中的決策樹知識將決策樹應(yīng)用在學(xué)生成績數(shù)據(jù)挖掘的模型上,使用SPSSModeler軟件利用C5.0算法分析出哪些因素對于《計(jì)算機(jī)應(yīng)用基礎(chǔ)》考試的影響最大,揭示其中規(guī)律,為今后教學(xué)工作及教學(xué)安排提供有效的科學(xué)的指導(dǎo)依據(jù)。
關(guān)鍵詞:數(shù)據(jù)挖掘;考試成績;決策樹;關(guān)聯(lián)規(guī)則
1決策樹的基本概念
在已有的大量源數(shù)據(jù)中得到有效的分類器有許多種辦法,決策樹就是其中一種有效的辦法。他在數(shù)據(jù)挖掘中尤其在數(shù)據(jù)分類領(lǐng)域中應(yīng)用十分廣泛。決策樹算法主要是通過一組輸入樣本數(shù)據(jù)然后對樣本進(jìn)行決策樹歸納的一種方法。決策樹的表現(xiàn)形式是一個倒樹狀結(jié)構(gòu)圖,并且在樹枝的節(jié)點(diǎn)上一般還附帶概率結(jié)果,它是一種是直觀的使用統(tǒng)計(jì)概率來分析對象的圖表示方法。
2幾種常用的決策
樹算法常見的算法有CHAID、CART、Quest和C5.0。判斷決策樹算法是否合適,就看每一個決策樹分組的組之間的差別是否夠大,屬性差別越大就是算法越合適。決策樹算法擅長處理離散型數(shù)據(jù),并且處理非數(shù)值性數(shù)據(jù)時效率的方面也有不錯的表現(xiàn)。
3決策樹的評價標(biāo)準(zhǔn)
建立了決策樹模型后需要給出該模型的評估值,這樣才可以來判斷模型的優(yōu)劣。學(xué)習(xí)算法模型使用訓(xùn)練集(trainingset)建立模型,使用校驗(yàn)集(testset)來評估模型。經(jīng)過校驗(yàn)集評估后決策樹進(jìn)行評價。評估指標(biāo)有分類的準(zhǔn)確度,描述的簡潔性和計(jì)算的復(fù)雜程度等指標(biāo)。
4決策樹在計(jì)算機(jī)成績分析中的應(yīng)用
4.1確定挖掘?qū)ο?/p>
本次挖掘的對象是以《計(jì)算機(jī)基礎(chǔ)》為基礎(chǔ)信息,之所以選擇這門課程,是因?yàn)樗切律雽W(xué)的第一門與計(jì)算機(jī)相關(guān)的課程,也是今后繼續(xù)學(xué)習(xí)計(jì)算機(jī)相關(guān)課程的基礎(chǔ)。《計(jì)算機(jī)基礎(chǔ)》包含平時成績及期末考試成績。考試在新生入學(xué)的第一學(xué)期的期末,即每年的1月份進(jìn)行期末考試,期末考試總分為40分,占總成績的40%。期末考試的形式為上機(jī)操作,其中包括Word,Excel和powerpoint分別占總成績的40%,40%,20%。在平時成績中有3次隨堂測驗(yàn)同樣分別是Word,Excel和powerpoint,將其成績匯總作為平時成績,總分為60分,平時成績占總成績的60%。本論文決定使用決策樹方法研究《計(jì)算機(jī)基礎(chǔ)》考試中word,Excel和powerpoint幾個部分對最終成績的影響程度。通過構(gòu)造決策樹可以更容易找到哪些因素對最終成績影響更大。同時采用關(guān)聯(lián)規(guī)則中的Apriori算法研究《計(jì)算機(jī)基礎(chǔ)》和后續(xù)課程《fireworks》的關(guān)聯(lián)。
4.2數(shù)據(jù)的預(yù)處理
本文用到的2013至2015級學(xué)生的《計(jì)算機(jī)基礎(chǔ)》成績及《fireworks》成績,是在學(xué)校教務(wù)部門,使用我校教務(wù)部門的教務(wù)管理軟件下載得到,由于學(xué)校的管理軟件的功能有限,所以下載的成績是以班級為單位的。(1)數(shù)據(jù)的預(yù)處理。數(shù)據(jù)的預(yù)處理對與數(shù)據(jù)挖掘有著重要的作用,在本文研究的目標(biāo)模型是多界學(xué)生的《計(jì)算機(jī)基礎(chǔ)》及其后續(xù)學(xué)習(xí)課程的成績,并且這些成績是以Excel文件的形式保存的。其中包含的屬性包含學(xué)號、姓名、平時成績、期末成績、總成績、專業(yè)名稱、課程名稱、任課教師等。現(xiàn)在需要做的就是對這些數(shù)據(jù)進(jìn)行集成和預(yù)處理。(2)數(shù)據(jù)清理。數(shù)據(jù)預(yù)處理的第一步就是處理缺失數(shù)據(jù)。通常情況下對于缺失值的處理方法包括:人工填寫,使用最有可能的數(shù)值,忽略數(shù)值,平均值填充等方法。在處理《計(jì)算機(jī)基礎(chǔ)》考試成績的過程中發(fā)現(xiàn)大部分缺失值產(chǎn)生的原因是由于缺考造成的,所以對于缺失值的處理方法是忽略條目的方法。由計(jì)算機(jī)基礎(chǔ)是第一學(xué)期的考試科目,所以缺考學(xué)生沒有,得到有效數(shù)據(jù)2397條。(3)數(shù)據(jù)集成。我們需要將《計(jì)算機(jī)基礎(chǔ)》,《fireworks》等科目的成績集成在一個成績表中,也就是數(shù)據(jù)集成。集成后數(shù)據(jù)表格包含《計(jì)算機(jī)應(yīng)用基礎(chǔ)》,《fire-works》考試成績,每門課程包括平時成績,期末成績及總成績,任課教師等屬性。其中原始樣本為2397個,經(jīng)過預(yù)處理可以進(jìn)行數(shù)據(jù)挖掘的樣板數(shù)為2253個。本次數(shù)據(jù)挖掘樣本有效率為94%。(4)數(shù)據(jù)的歸約。經(jīng)過數(shù)據(jù)集成后,我們還需要對數(shù)據(jù)進(jìn)行歸約,對數(shù)據(jù)進(jìn)行離散化處理把連續(xù)型數(shù)據(jù)轉(zhuǎn)換為離散型數(shù)據(jù),可以使數(shù)據(jù)挖掘的結(jié)果更加直觀簡潔。在本文中我們通過數(shù)據(jù)集成,將學(xué)生的成績數(shù)據(jù)集成到一個包含學(xué)號、姓名、專業(yè)類別、平時成績、期末成績、總成績等屬性的數(shù)據(jù)文件。首先我們研究的課題是利用決策樹研究平時成績與期末成績和影響考試通過率因素。所以首先剔除《fireworks》的考試成績,以及專業(yè)類別、任課教師屬性。還因?yàn)樾彰c學(xué)號兩個屬性是屬于相關(guān)屬性,也就是說姓名與學(xué)號是對應(yīng)的關(guān)系,相互可以替代,但是姓名還有重名的可能,而學(xué)號是唯一的,所以將姓名的屬性剔除。只保留學(xué)號,平時成績,期末成績,總成績這些屬性。對于決策樹的構(gòu)成最好使用離散型數(shù)值,這樣可以使結(jié)果簡潔,減少計(jì)算量。所以,我們需要將成績庫中的數(shù)據(jù)進(jìn)行離散化處理。
目前,期末考試的總成績?yōu)?00分,而評價學(xué)生通過考試的分?jǐn)?shù)線為60分,所以,將總成績屬性離散化為兩個部分,即:將高于60分的學(xué)生成績轉(zhuǎn)換為“yes”,分?jǐn)?shù)低于60分的成績轉(zhuǎn)換為“no”。平時成績占總成績60%,滿分為60分,按照平時成績大于54分,小于等于60分;大于47分,小于等于53分;大于41分,小于等于47分;大于35分,小于等于41分;小于等于35分五個層次,將平時成績分為“Super”“Hi”,“Mid”,“Low”,“No”五個等級。平時成績分為Word,Excel,powerpoint及平時表現(xiàn)分?jǐn)?shù)四個部分,其滿分分別是20,20,10,10。將這些成績按照滿分的90%,80%,70%,60%分成“Super”“Hi”,“Mid”,“Low”,“No”五個等級。與此同時,期末成績占總成績的40%,共40分,按照期末成績分?jǐn)?shù)大于35分,小于等于40分;大于31分,小于等于35分;大于27分,小于等于31分;大于23分小于等于27分;小于等于23分,分為“Super”“Hi”,“Mid”,“Low”,“No”五個等級。
4.3利用決策樹做成績分析
使用SPSSModeler軟件中C5.0模型,得到運(yùn)算結(jié)果。通過對結(jié)果的查看得到對于考試成績影響最大的是“平時”部分,預(yù)測變量的重要性=0.36;然后是pow-erpoint和word部分,預(yù)測變量的重要性=0.23;而“出勤”部分對于是否通過考試的影響重要性為0.18。由此得出結(jié)論:對于判斷一個學(xué)生是否通過考試的幾個因素中平時成績最重要,word,powerpoint和出勤情況的占比差不多,但是對于Excel部分的相關(guān)性卻不是很強(qiáng),但是由于對于學(xué)生來說word與Excel和power-point的重要性在學(xué)習(xí)和以后的應(yīng)用中是同等重要的,所以應(yīng)該加強(qiáng)考試出題中Excel的難度比重。5總結(jié)信息化技術(shù)的發(fā)展,對于高校這既是機(jī)遇又是挑戰(zhàn),筆者所在的學(xué)校的各個管理部門也在引入先進(jìn)的管理系統(tǒng),完善各自部門的管理。比如近些年學(xué)校陸續(xù)上了教務(wù)管理系統(tǒng)、學(xué)生管理系統(tǒng)、人事管理系統(tǒng)等等。這樣使得筆者所在學(xué)校的管理水平上了一個臺階。升級新的管理系統(tǒng)為我校積累了大量數(shù)據(jù)資源。如何利用先進(jìn)管理系統(tǒng)帶來的寶貴的數(shù)據(jù)資源也為學(xué)校各界人士提出了問題。筆者嘗試?yán)脭?shù)據(jù)挖掘這樣一個新興的學(xué)科來對學(xué)校的數(shù)據(jù)進(jìn)行一些分析,力圖從中挖掘出一些隱藏在數(shù)據(jù)中的一些信息,為學(xué)校的建設(shè)提供科學(xué)的理論依據(jù)。
參考文獻(xiàn)
[1]范佳鳳,袁娟,許艷敏.基于成績分析的大學(xué)教與學(xué)現(xiàn)狀思考[J].現(xiàn)代商貿(mào)工業(yè),2013,(03).
[2]戎荷婷,王瑞玲,武晶,楊秋白.學(xué)生行為對學(xué)生成績的影響探究[J].現(xiàn)代商貿(mào)工業(yè),2016,(23).
[3]臧琛,李景平,劉海亮,王景磊.工程訓(xùn)練學(xué)生成績考核體系探討與設(shè)計(jì)[J].現(xiàn)代商貿(mào)工業(yè),2017,(09).
作者:狄曉嬌 單位:遼寧廣告職業(yè)學(xué)院