時(shí)間:2022-07-10 09:35:10
開篇:寫作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數(shù)據(jù)挖掘課程,希望這些內(nèi)容能成為您創(chuàng)作過(guò)程中的良師益友,陪伴您不斷探索和進(jìn)步。
1、數(shù)據(jù)挖掘類課程設(shè)計(jì)研究基礎(chǔ)
國(guó)外很多大學(xué)都開設(shè)了數(shù)據(jù)挖掘類課程,波士頓大學(xué)的“數(shù)據(jù)管理與商務(wù)智能”課程主要包括基礎(chǔ)、核心技術(shù)、應(yīng)用三部分。授課方式包括理論內(nèi)容講授、案例教學(xué),以及學(xué)生以團(tuán)隊(duì)合作方式完成項(xiàng)目并進(jìn)行課堂演講。從麻省理工學(xué)院開放性課程資料(斯隆管理學(xué)院)中可以看出,在每章講解一種算法之后都盡可能地安排了商務(wù)實(shí)例的分析,并在課程后期安排了客座講座的形式。國(guó)內(nèi)對(duì)于數(shù)據(jù)挖掘的教學(xué)類研究成果也很多,主要集中在三類問(wèn)題的研究上,較為普遍的是根據(jù)專業(yè)建立大綱的研究,例如針對(duì)電子商務(wù)專業(yè)進(jìn)行大綱設(shè)計(jì);另外也有專注研究某一種或多種適合數(shù)據(jù)挖掘或商務(wù)智能的教學(xué)方法,如專題研討法;還有的討論算法理解與程序設(shè)計(jì)、軟件應(yīng)用的關(guān)系。
2、基于模塊化方法的課程內(nèi)容分析
模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來(lái)設(shè)計(jì)教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標(biāo)指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標(biāo)準(zhǔn)或規(guī)則進(jìn)行分解,使其成為多個(gè)相對(duì)獨(dú)立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。該方法在20世紀(jì)70年代,由國(guó)際勞工組織引入教學(xué)之中,開發(fā)出以現(xiàn)場(chǎng)教學(xué)為主,以技能培訓(xùn)為核心的模塊化教學(xué)模式,在很多國(guó)家得到廣泛應(yīng)用。由于該教學(xué)法具有針對(duì)性、靈活性、現(xiàn)實(shí)性等特點(diǎn),越來(lái)越受到教育界的關(guān)注。模塊化教學(xué)本質(zhì)上是以知識(shí)點(diǎn)與實(shí)踐的細(xì)化為出發(fā)點(diǎn)研究,本課程的知識(shí)點(diǎn)細(xì)化分為兩個(gè)層次:一是從宏觀角度,參考ACM的SIGKDD的數(shù)據(jù)挖掘課程建設(shè)建議,設(shè)計(jì)課程的基礎(chǔ)內(nèi)容模塊和高級(jí)主題模塊;二是從微觀角度,針對(duì)較為復(fù)雜的算法進(jìn)行的知識(shí)點(diǎn)劃分。課程內(nèi)容的一至五章屬于基礎(chǔ)內(nèi)容模塊,介紹本課程的基礎(chǔ)理論和入門的數(shù)據(jù)挖掘技術(shù);六至第八章介于基礎(chǔ)內(nèi)容與高級(jí)主題之間,介紹數(shù)據(jù)挖掘的核心算法,可以根據(jù)學(xué)生情況進(jìn)行靈活處理,可強(qiáng)調(diào)應(yīng)用,也可深化算法介紹;第九、十章為高級(jí)主題模塊,可以作為擴(kuò)展材料介紹應(yīng)用,或?yàn)楦信d趣同學(xué)提供算法介紹;課程實(shí)踐模塊包含數(shù)據(jù)倉(cāng)庫(kù)建設(shè)與數(shù)據(jù)挖掘算法的應(yīng)用,難度居中,可以在引導(dǎo)學(xué)生思考的前提下給出實(shí)驗(yàn)步驟,并引導(dǎo)學(xué)生使用類似的方法處理不同的數(shù)據(jù)。
3、基于模塊化方法進(jìn)行重要知識(shí)點(diǎn)的模塊化分析
重要知識(shí)點(diǎn)內(nèi)涵較為豐富,一般體現(xiàn)在經(jīng)典數(shù)據(jù)挖掘算法上,通常一大類算法下還分有多個(gè)算法,不同算法的在難度上有漸進(jìn)層次,同一種算法也有很大改進(jìn)研究空間,講授彈性比較大。因此,適合使用模塊化方法進(jìn)行處理,并且需要在課程設(shè)計(jì)中明確一定課時(shí)量所要達(dá)到的內(nèi)容和難度?;A(chǔ)部分為必選內(nèi)容,介紹基本概念和基本原理;決策樹作為數(shù)據(jù)挖掘分類算法的最基礎(chǔ)算法也是必選內(nèi)容,決策樹算法有多種分類,需要進(jìn)行按照難易程度進(jìn)行選擇;最后要根據(jù)難度選擇其他分類算法進(jìn)行介紹。
4、結(jié)論
本文使用了模塊化教學(xué)的思想研究了數(shù)據(jù)挖掘類課程設(shè)計(jì)的過(guò)程,主要包括課程內(nèi)容的模塊化處理與重要知識(shí)點(diǎn)的模塊化處理。對(duì)課程內(nèi)容進(jìn)行模塊化處理,可以方便教師實(shí)行不同的授課方式和考查方式,可以使學(xué)生從宏觀角度明確課程重點(diǎn)和難點(diǎn)提高學(xué)生的聽課效果。對(duì)知識(shí)點(diǎn)的內(nèi)容進(jìn)行模塊化處理,可以幫助學(xué)生了解哪些是基礎(chǔ)知識(shí),哪些是需要擴(kuò)展和探索的內(nèi)容,為將來(lái)深入學(xué)習(xí)打下基礎(chǔ),同時(shí)也有助于教師及時(shí)了解學(xué)生對(duì)知識(shí)點(diǎn)的掌握程度。對(duì)于難度跨度較大的章節(jié),可以選用專題探討式教學(xué)方法提升學(xué)生上課的興趣、有效提高學(xué)生對(duì)知識(shí)點(diǎn)的理解程度,對(duì)于實(shí)踐教學(xué)環(huán)節(jié),選用商務(wù)智能和數(shù)據(jù)挖掘軟件幫助學(xué)生理解方法的應(yīng)用。隨著數(shù)據(jù)挖掘、云計(jì)算、大數(shù)據(jù)的發(fā)展,數(shù)據(jù)挖掘類課程的課時(shí)量、實(shí)踐教學(xué)環(huán)節(jié)都會(huì)在教學(xué)計(jì)劃調(diào)整過(guò)程中增加,對(duì)教學(xué)內(nèi)容的模塊化分類以及相應(yīng)的授課方式的研究成果仍可繼續(xù)發(fā)揮作用,并進(jìn)行更深入的研究和實(shí)踐。
作者:胡敏單位:北京信息科技大學(xué)信息管理學(xué)院
課程相關(guān)性分析數(shù)據(jù)挖掘相關(guān)分析典型相關(guān)分析關(guān)聯(lián)規(guī)則一、引言
課程是實(shí)現(xiàn)教學(xué)內(nèi)容傳遞的集中體現(xiàn),是學(xué)校教育的目的性、計(jì)劃性和組織性的集中體現(xiàn)。課程設(shè)置規(guī)定著課程類型、課程性質(zhì)、課程排序和學(xué)時(shí)分配,還規(guī)定各類各科課程的學(xué)習(xí)目標(biāo)、學(xué)習(xí)內(nèi)容和學(xué)習(xí)要求等,其合理與否將直接影響到所培養(yǎng)人才的質(zhì)量,關(guān)系到學(xué)生知識(shí)面的寬度、深度、動(dòng)手實(shí)踐和研究能力的高低,同時(shí)也已經(jīng)成為了影響大學(xué)生就業(yè)的主要因素之一。因此,課程結(jié)構(gòu)和課程內(nèi)容的合理設(shè)置尤為重要。
課程相關(guān)性分析可定量描述課程之間的相關(guān)性,可根據(jù)相關(guān)系數(shù)值的大小確定課程間關(guān)系的緊密程度,然后從順序性、整體性、關(guān)聯(lián)性和連續(xù)性四個(gè)方面為優(yōu)化課程設(shè)置提供參考信息,優(yōu)化課程結(jié)構(gòu)和課程內(nèi)容。近年來(lái),國(guó)內(nèi)外教育工作研究人員開展了大量的課程相關(guān)性方面的研究,國(guó)內(nèi)外多所著名高校已將課程相關(guān)性研究成果作為課程設(shè)置的基本依據(jù)。
目前課程相關(guān)性分析研究所采用的方法均基于數(shù)據(jù)分析,其方法主要包括傳統(tǒng)數(shù)據(jù)分析法和數(shù)據(jù)挖掘分析法兩種,而兩者又有著本質(zhì)的區(qū)別。在探索數(shù)據(jù)關(guān)系時(shí),傳統(tǒng)的分析方法一般是基于驗(yàn)證的方法,即用戶首先對(duì)數(shù)據(jù)之間的關(guān)系做出一定的假設(shè),然后通過(guò)數(shù)據(jù)分析來(lái)驗(yàn)證假設(shè)是否正確來(lái)得出相應(yīng)結(jié)論,其分析過(guò)程是基于假設(shè)驅(qū)動(dòng)的演繹型分析;數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型,數(shù)據(jù)挖掘在本質(zhì)上是一個(gè)完全基于發(fā)現(xiàn)驅(qū)動(dòng)的歸納型分析過(guò)程。
本文對(duì)課程相關(guān)性分析中的數(shù)據(jù)挖掘過(guò)程及基于數(shù)據(jù)挖掘技術(shù)的課程相關(guān)分析方法進(jìn)行介紹,以期為我國(guó)高校課程的優(yōu)化設(shè)置研究提供理論指導(dǎo)和方法借鑒。
二、數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining,DM)又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,通過(guò)使用成熟的數(shù)據(jù)挖掘模型,提取出隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí),得到數(shù)據(jù)中反映出來(lái)的數(shù)據(jù)內(nèi)在的關(guān)系,從而進(jìn)一步應(yīng)用到具體的數(shù)據(jù)分析研究中去。數(shù)據(jù)挖掘得到的信息具有先前未知、有效和實(shí)用三個(gè)特征。
目前,數(shù)據(jù)挖掘技術(shù)的已被應(yīng)用于關(guān)聯(lián)分析(Association Analysis)、概念/類別描述(Concept/Class Description)、分類與估值(Classification and Estimation)、聚類分析(Clustering Analysis)、時(shí)間序列分析(Time-Series Analysis)、偏差分析(Deviation Analysis)、孤立點(diǎn)分析(Outlier Analysis)等方面,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,可能還會(huì)繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能。課程相關(guān)性分析為其關(guān)聯(lián)分析功能中的一部分,所采用的分析方法主要有相關(guān)分析法、典型相關(guān)分析法和關(guān)聯(lián)規(guī)則分析法等。
數(shù)據(jù)挖掘分析過(guò)程各步驟之間互相影響、反復(fù)調(diào)整,形成一種螺旋式上升過(guò)程,具體分析流程見圖1所示。目前已建立的數(shù)據(jù)挖掘模型有CRISP-DM模型(Cross Industry Standard Process for Data Mining)、ODDM模型(OLE DB for Data Mining)、Oracle9i數(shù)據(jù)挖掘模型等多種,對(duì)于課程相關(guān)性分析來(lái)說(shuō),具有直觀、簡(jiǎn)單和可靠等特點(diǎn)的CRISP-DM模型最為適用,其模型見圖2所示。
三、基于數(shù)據(jù)挖掘的課程相關(guān)性分析方法
基于數(shù)據(jù)挖掘的課程相關(guān)性分析方法主要有相關(guān)分析法、典型相關(guān)分析法和關(guān)聯(lián)規(guī)則分析法,三種方法各具優(yōu)缺點(diǎn),互不可取代。
1.相關(guān)分析法
相關(guān)分析法又稱單因子相關(guān)分析法,主要用于研究?jī)蓚€(gè)變量因子間的相關(guān)關(guān)系。作為教育信息多元統(tǒng)計(jì)分析方法的一種,相關(guān)分析法主要用于測(cè)定現(xiàn)象之間相關(guān)關(guān)系的規(guī)律性,據(jù)此進(jìn)行預(yù)測(cè)和控制。將其用于課程相關(guān)性的探討研究,可直接量化兩門課程間的相關(guān)性,分析過(guò)程簡(jiǎn)單、快捷,顯示方式直觀,數(shù)據(jù)可信度高。
相關(guān)分析法在課程相關(guān)性分析研究中應(yīng)用,主要有以下幾個(gè)步驟:
闡明了主成分分析在數(shù)據(jù)降維的同時(shí)能夠保持原始數(shù)據(jù)的絕大部分能量信息沒(méi)有損失,是一種最優(yōu)的數(shù)據(jù)描述和表示方法。通過(guò)對(duì)主成份分析理論基礎(chǔ)的講述,讓學(xué)生不僅掌握了主成分分析的內(nèi)容和作用,搞清楚了相關(guān)的計(jì)算過(guò)程,這也對(duì)學(xué)生更好地實(shí)現(xiàn)主成分分析的程序設(shè)計(jì)和應(yīng)用情況有了清楚的認(rèn)識(shí)。對(duì)于教材中一些簡(jiǎn)單的內(nèi)容,比如數(shù)據(jù)分箱、K近鄰分類等,我們要求學(xué)生自己理解,然后隨機(jī)抽取學(xué)生為其他同學(xué)講授,這樣可以提高學(xué)生的主動(dòng)性,加深學(xué)生的理解。對(duì)于一些簡(jiǎn)單的問(wèn)題,如K-means聚類的類別中心為各類樣本的均值,我們可以讓學(xué)生自己證明,提高他們的理解力。在講授其他一些內(nèi)容時(shí),比如說(shuō)聚類分析,我們可以將聚類分析的各個(gè)過(guò)程用圖的形式表示出來(lái),用空間中的點(diǎn)表示聚類樣本,這樣就大大增強(qiáng)了學(xué)生的理解。
我們?cè)诮虒W(xué)的過(guò)程中,也比較比較注重案例教學(xué)。例如,在講授神經(jīng)網(wǎng)絡(luò)時(shí),我們可以用上海證券交易所中股市中股票隨時(shí)間變化的數(shù)據(jù)為例,讓學(xué)生討論如何應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)股票價(jià)格進(jìn)行預(yù)測(cè)。人工神經(jīng)網(wǎng)絡(luò)是一種模仿自然界動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型,能夠較好地處理具有一定復(fù)雜性的數(shù)據(jù),在預(yù)測(cè)、擬合等方面取得了很好的應(yīng)用效果。讓學(xué)生采用神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)際數(shù)據(jù)分析和處理,可以增強(qiáng)他們學(xué)習(xí)的積極性,更主動(dòng)地投入到學(xué)習(xí)中去。我們也要求他們使用回歸分析的方法對(duì)股票價(jià)格進(jìn)行預(yù)測(cè),然后和神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的結(jié)果進(jìn)行比較。通過(guò)這個(gè)過(guò)程,可以使學(xué)生們不但了解了神經(jīng)網(wǎng)絡(luò)與回歸分析算法的異同,加深他們對(duì)神經(jīng)網(wǎng)絡(luò)的認(rèn)識(shí)。
加強(qiáng)實(shí)驗(yàn)教學(xué),增強(qiáng)學(xué)生動(dòng)手能力
信息與計(jì)算科學(xué)專業(yè)是以信息領(lǐng)域?yàn)楸尘埃瑪?shù)學(xué)與信息、管理相結(jié)合的交叉學(xué)科專業(yè)。該專業(yè)培養(yǎng)的學(xué)生具有良好的數(shù)學(xué)基礎(chǔ),能熟練地使用計(jì)算機(jī),初步具備在信息與計(jì)算科學(xué)領(lǐng)域的某個(gè)方向上從事科學(xué)研究,解決實(shí)際問(wèn)題,設(shè)計(jì)開發(fā)有關(guān)軟件的能力。畢業(yè)生適合到企事業(yè)單位、高科技部門、高等院校、行政管理和經(jīng)濟(jì)管理部門,從事科研、教學(xué)和計(jì)算機(jī)應(yīng)用軟件的開發(fā)和管理工作,也可以繼續(xù)攻讀信息與計(jì)算科學(xué)及相關(guān)學(xué)科的碩士學(xué)位。從信息與計(jì)算科學(xué)專業(yè)的培養(yǎng)目標(biāo)可以看出信息與計(jì)算科學(xué)專業(yè)的本科生不但需要掌握理論知識(shí),還需要具有將所學(xué)知識(shí)用來(lái)解決實(shí)際問(wèn)題的能力。數(shù)據(jù)挖掘作為一門應(yīng)用性較強(qiáng)的課程,需要學(xué)生能夠運(yùn)用數(shù)據(jù)挖掘知識(shí)分析和解決實(shí)際問(wèn)題,要求學(xué)生能夠熟練掌握數(shù)據(jù)挖掘的程序設(shè)計(jì),以便在將來(lái)的就業(yè)中具有更好的適應(yīng)性,因此實(shí)驗(yàn)環(huán)節(jié)的教學(xué)有著其必要性。基于這些原因,我們?cè)谶@門課中引入實(shí)驗(yàn)環(huán)節(jié),并將其納入考核要求。我們實(shí)驗(yàn)所用的基本軟件是SAS統(tǒng)計(jì)分析軟件。SAS軟件是一個(gè)集統(tǒng)計(jì)分析、報(bào)表圖形、信息系統(tǒng)開發(fā)和大型數(shù)據(jù)庫(kù)管理等多種強(qiáng)大功能為一體的大型軟件系統(tǒng),是目前國(guó)際上主流的統(tǒng)計(jì)分析軟件之一。我們信息專業(yè)在大三時(shí)開設(shè)這門課程,之前已經(jīng)學(xué)過(guò)C語(yǔ)言和JAVA等程序設(shè)計(jì)方法,有了一定的編程基礎(chǔ),因此學(xué)習(xí)使用SAS軟件并不是特別困難。而且,在SAS軟件中,系統(tǒng)自帶了許多數(shù)據(jù)挖掘函數(shù),這方便了同學(xué)們的使用。我們?cè)谄綍r(shí)的學(xué)習(xí)中,將一些SAS軟件的基本程序設(shè)計(jì)基礎(chǔ)知識(shí)先發(fā)給同學(xué)們,讓他們利用課后時(shí)間自己在個(gè)人電腦上進(jìn)行熟悉,從而使得他們熟悉基本SAS程序設(shè)計(jì)方法,這樣可以在實(shí)驗(yàn)課上直接運(yùn)用SAS軟件進(jìn)行數(shù)據(jù)挖掘程序的編寫。在實(shí)驗(yàn)課上,我們主要將要實(shí)驗(yàn)的內(nèi)容和相關(guān)數(shù)據(jù)資料提供給同學(xué),要求同學(xué)自己用數(shù)據(jù)挖掘的知識(shí)和SAS軟件進(jìn)行編程實(shí)現(xiàn),并寫出實(shí)驗(yàn)分析和小結(jié)。另外,在實(shí)驗(yàn)中,我們也要求學(xué)生盡可能將一些實(shí)驗(yàn)結(jié)果用圖表的形式如崖底碎石圖等表示出來(lái),以利于進(jìn)一步分析。對(duì)于少部分學(xué)有余力的同學(xué),我們也引導(dǎo)他們自編相關(guān)的程序。比如說(shuō)在SAS軟件中進(jìn)行K-均值聚類用fastclus這個(gè)函數(shù)就可以了,但是學(xué)生對(duì)程序具體實(shí)現(xiàn)過(guò)程可能不是很清楚。如果學(xué)生能夠?qū)⒊绦騅-均值聚類詳細(xì)程序步驟自己編寫出來(lái),就可以表明學(xué)生對(duì)所K-均值聚類算法也有了較清楚的認(rèn)識(shí)。另外,對(duì)于屬于數(shù)學(xué)建模協(xié)會(huì)的同學(xué),我們也引導(dǎo)他們將數(shù)據(jù)挖掘的知識(shí)和數(shù)學(xué)建模中某些問(wèn)題相結(jié)合起來(lái),對(duì)于以往出現(xiàn)的一些可以利用數(shù)據(jù)挖掘知識(shí)分析的問(wèn)題讓他們利用相關(guān)的數(shù)據(jù)挖掘知識(shí)對(duì)其進(jìn)行分析和求解,通過(guò)這樣的方式,可以這樣拓展這些同學(xué)的思路,也為數(shù)學(xué)建模培養(yǎng)了人才。
靈活的課后作業(yè)形式,提高學(xué)生的綜合能力
對(duì)于我們講授的課題,每學(xué)完一個(gè)算法,我們要求學(xué)生在網(wǎng)絡(luò)上搜索該方法的運(yùn)用領(lǐng)域和技術(shù)要點(diǎn),加深對(duì)該算法的理解。然后,我們讓每一個(gè)同學(xué)自己挑選一個(gè)該算法可以解決的問(wèn)題,在網(wǎng)上搜集相關(guān)數(shù)據(jù),寫出實(shí)現(xiàn)程序,并寫出相應(yīng)的小論文。這也可以鍛煉學(xué)生的搜索、整理和分析處理數(shù)據(jù)的能力。對(duì)于課程中的某些案例,我們要求學(xué)生進(jìn)行重新總結(jié)思考。比如在運(yùn)用主成分分析進(jìn)行入侵檢測(cè)的這個(gè)案例,案例中的主要指標(biāo)是運(yùn)用兩類樣本協(xié)方差特征根的差異進(jìn)行分析和比較。我們讓學(xué)生思考該處理方法的優(yōu)缺點(diǎn),同時(shí)讓學(xué)生思考有沒(méi)有其他的思路,比如按照模式分類的思想來(lái)實(shí)現(xiàn)。即首先主成份分析進(jìn)行降維,然后運(yùn)用K-近鄰分類方法進(jìn)行分類。另外,也讓學(xué)生思考有沒(méi)有其他的思路,比如特征降維是否可以采用其他方法,如線性鑒別分析等;而分類方法是否可以采用BP神經(jīng)網(wǎng)絡(luò)等。進(jìn)一步,我們可以讓學(xué)生比較主成份分析和線性鑒別分析有什么異同之處;K-近鄰分類和BP神經(jīng)網(wǎng)絡(luò)運(yùn)用于分類時(shí)執(zhí)行過(guò)程有什么異同之處。讓學(xué)生對(duì)這些算法的理解更加透徹。另外,在課本的作業(yè)之外,我們也會(huì)自編一些題目,讓學(xué)生自己進(jìn)行思考分析。比如,對(duì)于圖1雙圈圖,我們可以設(shè)置這樣的問(wèn)題:將圖形的描點(diǎn)數(shù)據(jù)給大家,要求他們繪出圖形,說(shuō)明形狀。然后要求他們運(yùn)用K-means聚類聚為兩類,并且根據(jù)聚類的結(jié)果畫出圖形。然后將所得的圖形跟原始圖形進(jìn)行比較,說(shuō)明差異之處。通過(guò)這樣的問(wèn)題,既可以使得學(xué)生對(duì)數(shù)據(jù)整理、畫圖等有一定的掌握,還使得他們熟悉了K-means聚類算法的編程過(guò)程。另外,使得他們不僅了解了K-means聚類算法的優(yōu)點(diǎn),也使得他們理解K-means聚類算法作為一種線性方法的局限之處。四、小結(jié)綜上所述,“數(shù)據(jù)挖掘”課的教學(xué)既要注重基本理論與方法的講解,使得學(xué)生能夠掌握數(shù)據(jù)挖掘的基本理論和知識(shí);又要培養(yǎng)學(xué)生的思考和分析能力,提高他們運(yùn)用數(shù)據(jù)挖掘的相關(guān)程序解決實(shí)際問(wèn)題的能力。從而使得所學(xué)的知識(shí)能夠真正運(yùn)用于實(shí)踐中,提高學(xué)生的綜合能力。本文嘗試對(duì)本科數(shù)據(jù)挖掘教學(xué)做一些總結(jié),如何更好地提高《數(shù)據(jù)挖掘》這門課的教學(xué)質(zhì)量,期待更多的同行共同探討。
作者:徐春明單位:鹽城師范學(xué)院數(shù)學(xué)科學(xué)學(xué)院
Data Mining and Analysis for the Personalized Teaching of Multimedia Technology Course
YANG Nan-yue
(Industrial Training Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China)
Abstract: Since personalized teaching has been implemented in multimedia technology teaching in the past five years, a lot of teaching data accumulated from multimedia technology online learning platform. The article introduced data mining and analysis technology to process these data in order to obtain support and decision-making reference for the improvement of the quality of personalized teaching. First, the snowflake model of courses selection for data warehouse was built. Then the Apriori algorithm was used to dig out the inner link between the students’ media technology achievements and the final grade. And then cluster analysis with k-means algorithm on all students’ scores was conducted. Finally, the calculated results were visualized and analyzed. Practice proved that data mining and analysis technology is a useful tool for quantitative analysis in the teaching.
Key words: data mining; snowflake model; association rule; cluster analysis; personalized teaching
我校的多媒體技術(shù)公選課面向全校各年級(jí)各專業(yè)本科生開課,因此選修本課程的學(xué)生來(lái)源較復(fù)雜,其計(jì)算機(jī)基礎(chǔ)參差不齊。過(guò)往統(tǒng)一步調(diào)的授課模式滿足不了不同層次學(xué)生的需求,所以從2011年開始,本門課程實(shí)施教學(xué)改革,以多媒體技術(shù)在線學(xué)習(xí)平臺(tái)為基礎(chǔ),結(jié)合課堂授課開展個(gè)性化教學(xué),把多媒體技術(shù)包含的四大媒體技術(shù)課程:圖像處理、音頻處理、視頻處理和動(dòng)畫制作做成講座的形式,每一門課程分別包含兩到三次的講座,學(xué)生根據(jù)自己的情況選聽選學(xué)。每門媒體技術(shù)不同難易度的學(xué)習(xí)資料都放在學(xué)習(xí)平臺(tái)里,學(xué)生可以自由選擇學(xué)習(xí)資源,并通過(guò)網(wǎng)絡(luò)或課堂與同學(xué)和老師進(jìn)行學(xué)習(xí)交流。考核方式為每一門課程最后一次講座講完后在學(xué)習(xí)平臺(tái)上進(jìn)行隨堂考試,要求每位學(xué)生至少選考其中三門。本門課程期末考試也在學(xué)習(xí)平臺(tái)上進(jìn)行,要求全體學(xué)生都必須參加。本教改實(shí)施五年來(lái),學(xué)生反應(yīng)良好,同時(shí)多媒體技術(shù)學(xué)習(xí)平臺(tái)網(wǎng)站上存在著大量學(xué)生成績(jī)和教師教學(xué)及管理過(guò)程中的相關(guān)數(shù)據(jù),那么這些數(shù)據(jù)之間存在著怎樣的聯(lián)系,是否蘊(yùn)藏著教與學(xué)之間的知識(shí)和規(guī)律?由于數(shù)據(jù)挖掘技術(shù)能夠發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的潛在聯(lián)系和規(guī)則,從而預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)[1],因此我們把該技術(shù)引入學(xué)習(xí)平臺(tái)中的信息資源管理系統(tǒng),把大量積累的教學(xué)基礎(chǔ)數(shù)據(jù)建立數(shù)據(jù)倉(cāng)庫(kù)[2],在這基礎(chǔ)上運(yùn)用數(shù)據(jù)挖掘手段從中快速準(zhǔn)確地提取出重要的信息和有價(jià)值的知識(shí),找出影響學(xué)習(xí)成績(jī)的因素,為進(jìn)一步改善個(gè)性化教學(xué)的教學(xué)質(zhì)量提供數(shù)據(jù)支持和決策參考。
1 數(shù)據(jù)倉(cāng)庫(kù)多維數(shù)據(jù)模型的建立
數(shù)據(jù)倉(cāng)庫(kù)的邏輯數(shù)據(jù)模型是多維數(shù)據(jù)模型。目前使用的多維數(shù)據(jù)模型主要有星型模型和雪花模型。一個(gè)典型的星型模式包括一個(gè)大型的事實(shí)表和一組邏輯上圍繞這個(gè)事實(shí)表的維度表[3]。雪花模型是對(duì)星型模型的擴(kuò)展,將星型模型的維度表進(jìn)一步層次化,原來(lái)的各維度表被擴(kuò)展為小的事實(shí)表,形成一些局部的層次區(qū)域[3-4]。建立本課程數(shù)據(jù)倉(cāng)庫(kù)時(shí),為了減少數(shù)據(jù)冗余,改善查詢性能我們采用雪花模型結(jié)構(gòu),如圖1所示。建立以學(xué)生選課為中心的選課事實(shí)表,三個(gè)主維度表“學(xué)生表”、“成績(jī)表”和“時(shí)間表”分別通過(guò)“學(xué)生鍵”、“成績(jī)鍵”和“時(shí)間鍵”與事實(shí)表直接關(guān)聯(lián)。其中,主維度表中的“學(xué)生表”和“成績(jī)表”都有各自的二級(jí)維度表,與事實(shí)表間接關(guān)聯(lián)[5]。
2 采用Apriori算法的關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則用于揭示數(shù)據(jù)與數(shù)據(jù)之間未知的相互依賴關(guān)系,即在給定的一個(gè)事物數(shù)據(jù)庫(kù)D,在基于支持度-置信度框架中,發(fā)現(xiàn)數(shù)據(jù)與項(xiàng)目之間大量有趣的相關(guān)聯(lián)系,生成所有的支持度和可信度分別高于用戶給定的最小支持度(min_sup)和最小可信度(min_conf)的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘算法歸結(jié)為下面兩個(gè)問(wèn)題:(1)找到所有支持度大于等于最小支持度(min_sup)的項(xiàng)目集(Item Sets),即頻繁項(xiàng)目集(Frequent Item Sets)。(2)使用步驟(1)找到的頻繁項(xiàng)目集,產(chǎn)生期望的規(guī)則。兩步中,第(2)步是在第(1)步的基礎(chǔ)上進(jìn)行的,工作量非常小,因此挖掘的重點(diǎn)在步驟(1)上,即查找數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)目集和它的支持度[4]。本課題對(duì)多媒體技術(shù)課程學(xué)習(xí)平臺(tái)中所有考試成績(jī)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,采用Apriori算法查找頻繁項(xiàng)目集。
Apriori算法通過(guò)逐層迭代來(lái)找出所有的頻繁項(xiàng)目集L。用戶需要輸入事物數(shù)據(jù)庫(kù)D和最小支持度閥值min_sup。實(shí)現(xiàn)過(guò)程為:
1)單次掃描數(shù)據(jù)庫(kù)D計(jì)算出各個(gè)1項(xiàng)集的支持度,得到頻繁1項(xiàng)集構(gòu)成的集合L1。
2)連接:為了產(chǎn)生頻繁K項(xiàng)集構(gòu)成的集合,通過(guò)連接運(yùn)算預(yù)先生成一個(gè)潛在頻繁k項(xiàng)集的集合Ck。
3)剪枝:利用Apriori算法“任何非頻繁的(k-1)項(xiàng)集必定不是頻繁k項(xiàng)集的子集”的性質(zhì),從Ck中刪除掉含有非頻繁子集的那些潛在k項(xiàng)集。
4)再次掃描數(shù)據(jù)庫(kù)D,計(jì)算Ck中各個(gè)項(xiàng)集的支持度。
5)剔除Ck中不滿足最小支持度的項(xiàng)集,得到由頻繁k項(xiàng)集構(gòu)成的集合Lk。
Apriori算法如下:
[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠?;k++) do begin(3)Ck=apriori_gen(Lk-1); //新的潛在頻繁項(xiàng)集(4)for all transactions t∈D do begin(5) Ct=subset(Ck,t);//t中包含的潛在頻繁項(xiàng)集(6)for all candidates c∈Ct do begin(7) c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]
求出頻繁項(xiàng)集L后,1)對(duì)于L中的每一個(gè)頻繁項(xiàng)目集l,產(chǎn)生l的所有非空子集。2)對(duì)于l的每一個(gè)非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],則輸出規(guī)則:SL-S[4]。
本課題對(duì)近五年選修多媒體技術(shù)的學(xué)生所有成績(jī)數(shù)據(jù)進(jìn)行清洗,填補(bǔ)空缺值,去噪,類型轉(zhuǎn)換,集成等處理后放入數(shù)據(jù)倉(cāng)庫(kù)中,系統(tǒng)采用Apriori算法找出所有的頻繁項(xiàng)集。為了便于進(jìn)行關(guān)聯(lián)規(guī)則的挖掘,對(duì)成績(jī)數(shù)據(jù)進(jìn)行離散化處理,轉(zhuǎn)變成標(biāo)稱型變量[5]。成績(jī)score(簡(jiǎn)化為“s”)在85-100區(qū)間的表示“優(yōu)秀”,標(biāo)記為“1”,在70-84區(qū)間的表示“中等”,標(biāo)記為“2”,在60-70區(qū)間的表示“合格”,標(biāo)記為“3”。多媒體技術(shù)每門媒體技術(shù)課程:圖像處理、音頻處理、視頻處理、動(dòng)畫制作和最后的期末考試分別用A、B、C、D、E表示。學(xué)生的學(xué)號(hào)用StudentID表示,那么每個(gè)學(xué)生選修的N門課和最后期末考試的成績(jī)可以表示為{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范圍是{1,2,3}。例如{ 2011204543021,A3,B1,D3,E3}表示學(xué)號(hào)為2011204543021的學(xué)生,選修了圖像處理,音頻處理和動(dòng)畫制作這三門媒體技術(shù),其中圖像處理成績(jī)?yōu)楹细?,音頻處理成績(jī)?yōu)閮?yōu)秀,動(dòng)畫制作成績(jī)?yōu)楹细瘢谀┛荚嚦煽?jī)?yōu)楹细瘢撁麑W(xué)生沒(méi)有選修視頻處理,故沒(méi)有這門科目的成績(jī)。
設(shè)定最小支持度閥值min_sup為3%,最小置信度閥值min_conf為70%,系統(tǒng)采用Apriori算法進(jìn)行數(shù)據(jù)挖掘,得到滿足最小置信度閥值的規(guī)則和相應(yīng)的置信度如表1。
挖掘結(jié)果分析:表1的關(guān)聯(lián)規(guī)則體現(xiàn)學(xué)生選修的媒體技術(shù)課程種類、科目數(shù)量與期末考試成績(jī)之間的相互關(guān)系??梢钥吹狡谀┛荚嚦煽?jī)屬于中等(E2)或合格(E3)級(jí)別的,學(xué)生全選四門媒體技術(shù)比只選學(xué)三門的置信度高,即選課數(shù)量多的較容易及格或獲得中等的期末成績(jī)。另外,在選課種類方面,選B這門課,即選音頻處理的學(xué)生比較多,是一個(gè)概率比較高的事件,可能這門課內(nèi)容比較少和易掌握,因此選學(xué)選考的學(xué)生就多。但這門課的成績(jī)對(duì)期末考試成績(jī)影響不明顯,說(shuō)明教師這門課出的考題區(qū)分度低,沒(méi)能反映出學(xué)生的水平層次。在最小支持度閥值min_sup為3%的情況下,選A(圖像處理),C(視頻處理)和D(動(dòng)畫制作)這幾門課并獲得優(yōu)秀成績(jī)(A1,C1,D1)的很少,即小概率事件被過(guò)濾掉了,沒(méi)能挖掘出它們與期末成績(jī)之間的關(guān)聯(lián)性。但這幾門課程成績(jī)中等或合格與期末成績(jī)存在內(nèi)在關(guān)系,也就是說(shuō)如果這幾門課成績(jī)都是中等的,期末考試成績(jī)大部分都為中等,一小部分可以達(dá)到優(yōu)秀。如果這幾門課成績(jī)都是合格,期末考試成績(jī)就是合格。說(shuō)明這幾門課程的考題比較真實(shí)反映出學(xué)生掌握技能的實(shí)際水平,致使期末綜合性的考試成績(jī)與學(xué)生平時(shí)掌握程度相符合。這也意味著個(gè)性化教學(xué)具有一定的成效。
本課題對(duì)近五年的學(xué)生多媒體技術(shù)每科成績(jī)與期末成績(jī)進(jìn)行聚類分析,把學(xué)生劃分到若干不同的類中,分析各個(gè)類的特征,從而考察實(shí)施個(gè)性化教學(xué)后的效果。設(shè)定85分,75分和65分為三個(gè)初始的聚類中心,對(duì)學(xué)生的所有成績(jī)進(jìn)行聚類分析,找出同一類別學(xué)生的學(xué)號(hào),以此為索引,查找到該類中各個(gè)學(xué)生的專業(yè)與年級(jí),繪制出餅狀圖,再繪制出該類學(xué)生所選各門媒體技術(shù)的平均分柱狀圖,通過(guò)這幾個(gè)圖表考察不同專業(yè)不同年級(jí)學(xué)生在本門課程優(yōu)秀中等合格若干成績(jī)區(qū)間的分布情況,從而檢查實(shí)施個(gè)性化教學(xué)的效果,為今后的改進(jìn)方案提供參考。例如調(diào)整后得到的最終聚類中心為82分的學(xué)生,各門媒體技術(shù)的平均分和專業(yè)、年級(jí)分布如圖3~圖5所示。
從上面幾個(gè)圖可以看出,成績(jī)?yōu)閮?yōu)秀的學(xué)生主要來(lái)自美術(shù)、計(jì)算機(jī)和電信這幾個(gè)專業(yè),大三、大四的學(xué)生比較多。分析其中的原因,主要是美術(shù)學(xué)院很多專業(yè)課需要用二維、三維圖像軟件或視頻軟件進(jìn)行制作和處理,他們對(duì)這門課程已經(jīng)有一定的基礎(chǔ),所以學(xué)起來(lái)比較輕松,也容易取得高分。而計(jì)算機(jī)和電信專業(yè)中高年級(jí)的學(xué)生學(xué)習(xí)和使用軟件的能力比較強(qiáng),因此掌握多媒體技術(shù)各個(gè)媒體軟件較其他專業(yè)學(xué)生快,并且能夠靈活運(yùn)用,因而較易取得比較優(yōu)異的成績(jī)。
最終聚類中心為64分的學(xué)生,各門媒體技術(shù)的平均分和專業(yè)、年級(jí)分布如圖6~圖8所示。
從圖中可以看出,這個(gè)類別的學(xué)生主要來(lái)自文科方向的專業(yè),年級(jí)分布差異不大,大四所占百分比稍微比其他三個(gè)年級(jí)略高,有可能是學(xué)生們最后一年為了修滿選修課學(xué)分而選了這門課,目的是混個(gè)及格拿到學(xué)分,因此學(xué)習(xí)積極性和學(xué)習(xí)態(tài)度不佳,導(dǎo)致大部分成績(jī)徘徊在60來(lái)分。還有一種可能性是大四學(xué)生畢業(yè)在即,需要寫簡(jiǎn)歷找工作,做自我介紹作品等,覺(jué)得掌握一些多媒體技術(shù)可以作為輔助工具因此選了本門課程。可惜有效學(xué)習(xí)時(shí)間明顯不如前三年充足,加上文科方向的同學(xué)計(jì)算機(jī)基礎(chǔ)和軟件學(xué)習(xí)能力較理工類學(xué)生薄弱,因此成績(jī)不太理想。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù) 高等學(xué)校 教學(xué) 應(yīng)用研究
中圖分類號(hào):G421 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2013)05(a)-0201-01
21世紀(jì)是經(jīng)濟(jì)和社會(huì)不斷發(fā)展,科技水平不斷提高的信息化時(shí)代,從而促進(jìn)了整個(gè)社會(huì)的信息總量的增加,提高了人們利用信息技術(shù)尋找數(shù)據(jù)的能力??墒怯捎诜e累的數(shù)據(jù)不斷增多,可是在對(duì)數(shù)據(jù)進(jìn)行挖掘的過(guò)程中對(duì)所隱藏的知識(shí)知知曉的方法比較少,從而就出現(xiàn)了數(shù)據(jù)大爆炸,而知識(shí)上出現(xiàn)了嚴(yán)重的匱乏這樣的現(xiàn)象。
隨著人們對(duì)數(shù)據(jù)庫(kù)技術(shù)上的不斷掌握和成熟,以及在數(shù)據(jù)應(yīng)用上也得到相應(yīng)的普及,人們積累的數(shù)據(jù)資料很多,人們累積了比較多的數(shù)據(jù)資料,可是卻沒(méi)有充分的發(fā)揮與利用數(shù)據(jù)庫(kù)里蘊(yùn)含的豐富的知識(shí)和信息。由于在現(xiàn)代社會(huì)里數(shù)據(jù)庫(kù)的量在以幾何狀態(tài)不斷的增長(zhǎng)著,而從數(shù)據(jù)的中,人們要在挑選技術(shù)的需求下對(duì)信息去粗存精、去偽存真愈發(fā)強(qiáng)烈,日益期望計(jì)算機(jī)系統(tǒng)能夠提供更高層次的數(shù)據(jù)分析,從而有效的幫助領(lǐng)導(dǎo)者注意到數(shù)據(jù)之間容易被戶數(shù)可是又很重要的因素,在決策上得到了更好的支持效果。同時(shí)為了跟這項(xiàng)要求呈現(xiàn)迎合現(xiàn)象,應(yīng)挖掘數(shù)據(jù)庫(kù)的技術(shù)和發(fā)現(xiàn)數(shù)據(jù)庫(kù)中的知識(shí)KDD,才能順應(yīng)時(shí)代的發(fā)展,得到相應(yīng)的推廣和研發(fā)。
1 數(shù)據(jù)挖掘技術(shù)的具體含義和特點(diǎn)
數(shù)據(jù)挖掘技術(shù)的含義主要指的是從一些不完全、有噪聲、模糊的、大量的、隨機(jī)的數(shù)據(jù)當(dāng)中,對(duì)其隱藏在數(shù)據(jù)里面的信息進(jìn)行有效的提取,可是又不被人們事先知道,然而又十分有用的信息與知識(shí)的過(guò)程。通過(guò)比較分析數(shù)據(jù)挖掘的目標(biāo),人們可以采用一些手段和措施進(jìn)行挖掘,其中包含了人工智能、集合論或者統(tǒng)計(jì)學(xué)等,再運(yùn)用相對(duì)應(yīng)的數(shù)據(jù)挖掘算法進(jìn)行分析數(shù)據(jù)的基礎(chǔ),在通過(guò)可視化的工具來(lái)描述奪取的模式和表達(dá)其規(guī)則。
對(duì)于數(shù)據(jù)挖掘技術(shù)而言,其通常具有以下三個(gè)特點(diǎn)。首先數(shù)據(jù)挖掘技術(shù)能夠有效的發(fā)現(xiàn)能夠表現(xiàn)系統(tǒng)局部特征和規(guī)律的模型;其次數(shù)據(jù)挖掘技術(shù)可以自動(dòng)的對(duì)趨勢(shì)進(jìn)行有效的預(yù)測(cè),從而發(fā)掘新的知識(shí);最后數(shù)據(jù)挖掘技術(shù)能夠便捷的獲取規(guī)則,并進(jìn)行實(shí)時(shí)的更新。數(shù)據(jù)挖掘方法是一種開放性的思維方法,它能夠及時(shí)的使用和借鑒在模型法中的多項(xiàng)成果,例如神經(jīng)網(wǎng)絡(luò)、粗糙集、樸素貝葉斯算法等方法,這些方法無(wú)一例外都被數(shù)據(jù)挖掘方法所采用。
2 數(shù)據(jù)挖掘技術(shù)的目的和挖掘的過(guò)程
首先,對(duì)于數(shù)據(jù)挖掘技術(shù)而言,其希望能夠發(fā)現(xiàn)以下幾方面的知識(shí)的知識(shí):一方面是能夠有效的表現(xiàn)同類事物的共同性質(zhì)的泛化知識(shí);另一方面是期望能夠發(fā)現(xiàn)可以表現(xiàn)一種事物與其他事物之間的依賴或者關(guān)聯(lián)的關(guān)聯(lián)型知識(shí);第三是期望能夠發(fā)現(xiàn)可以詳細(xì)的展現(xiàn)同類事物的共同性質(zhì)的特征型知識(shí),以及在不同事物之間存在的區(qū)別的差異型知識(shí);最后采用數(shù)據(jù)挖掘技術(shù)還期望能夠獲得通過(guò)對(duì)歷史和當(dāng)前數(shù)據(jù)的分析,能夠預(yù)測(cè)未來(lái)的預(yù)測(cè)型知識(shí)。
數(shù)據(jù)挖掘技術(shù)挖掘的過(guò)程是從大型庫(kù)中挖掘出未知的、有效的并且具有實(shí)用價(jià)值的信息,再通過(guò)相關(guān)信息的綜合比較來(lái)做出具體決策。對(duì)其而言,通常可以將其分成準(zhǔn)備、數(shù)據(jù)挖掘、評(píng)價(jià)階段以及運(yùn)用這四個(gè)階段。
3 數(shù)據(jù)挖掘技術(shù)在高等學(xué)校教學(xué)中的具體應(yīng)用
3.1 了解高校學(xué)生的基本信息
采用數(shù)據(jù)挖掘技術(shù),不僅可以實(shí)時(shí)的分析,跟蹤和了解學(xué)生的出勤狀況,而且能夠針對(duì)學(xué)生的具體年齡和個(gè)人情況進(jìn)行有效的分析,在綜合的掌握和了解還可對(duì)學(xué)生的結(jié)構(gòu)和組合的基礎(chǔ)上,來(lái)為其安排合理的課程,從而為科學(xué)合理的評(píng)價(jià)學(xué)生的綜合素質(zhì)情況提供良好的理論和數(shù)據(jù)依據(jù)??梢圆捎每梢暬募夹g(shù)來(lái)對(duì)學(xué)生的相關(guān)數(shù)據(jù)進(jìn)行挖掘,或者給教師提供圖表和曲線圖,使教師能夠充分合理的利用學(xué)生的問(wèn)題資源,來(lái)科學(xué)合理的提高教學(xué)質(zhì)量。在另一方面,數(shù)據(jù)挖掘還能夠應(yīng)用于網(wǎng)上的考試系統(tǒng),挖掘考生的成績(jī)情況,從而為教師在之后的教學(xué)中更好的教導(dǎo)學(xué)生提供重要的幫助。
3.2 掌握學(xué)生的學(xué)習(xí)特征
所謂的學(xué)生學(xué)習(xí)特征一般包含兩方面的內(nèi)容:一方面是學(xué)生進(jìn)行學(xué)習(xí)上準(zhǔn)備,另一方面則是學(xué)生的學(xué)習(xí)風(fēng)格。學(xué)習(xí)準(zhǔn)備一般包含初始能力與一般特征。學(xué)生的初始能力是指學(xué)生在學(xué)習(xí)某一特定的課程內(nèi)容時(shí),學(xué)生已經(jīng)掌握的相關(guān)知識(shí)和技能,還有學(xué)生對(duì)這些學(xué)習(xí)內(nèi)容的具體認(rèn)識(shí)和態(tài)度。而學(xué)生的一般特征則是指學(xué)生在學(xué)習(xí)過(guò)程中能夠影響學(xué)生的心理、生理和社會(huì)的特點(diǎn),包括年齡、性別、年級(jí)、認(rèn)知成熟度、智力才能、學(xué)習(xí)動(dòng)機(jī)、個(gè)人對(duì)學(xué)習(xí)的期望、生活經(jīng)驗(yàn)、文化、社會(huì)、經(jīng)濟(jì)等背景因素。
3.3 教師要科學(xué)合理的設(shè)置課程
學(xué)生學(xué)校學(xué)習(xí)的過(guò)程中,其對(duì)課程的學(xué)習(xí)一般都是循序漸進(jìn)的,并且相關(guān)的課程之間都有一定的聯(lián)系和前后順序關(guān)系。因此學(xué)生在學(xué)習(xí)一門比較難的課程之前一定會(huì)先選擇一些基礎(chǔ)課程來(lái)做好充足的準(zhǔn)備。對(duì)于學(xué)生學(xué)習(xí)而言,不學(xué)好基礎(chǔ)課程,一定會(huì)對(duì)之后的課程學(xué)習(xí)帶來(lái)比較大的影響。此外,由于同一年級(jí)的學(xué)生,班級(jí)不同,因此授課教師和班級(jí)文化也會(huì)產(chǎn)生比較大的差異,這就會(huì)影響到學(xué)生的總體成績(jī)。因此合理科學(xué)的利用學(xué)校教學(xué)數(shù)據(jù)庫(kù)中存放的歷屆學(xué)生各門學(xué)科的考試成績(jī),再在綜合數(shù)據(jù)挖掘技術(shù)中對(duì)關(guān)聯(lián)分析和時(shí)間序列分析的功能基礎(chǔ)上,從這些海量的數(shù)據(jù)中探尋出對(duì)教師教學(xué)有用的信息,總結(jié)出一些具有價(jià)值的規(guī)則與信息,從而使教師能夠找到影響學(xué)生成績(jī)的具體原因,在此基礎(chǔ)上對(duì)課程設(shè)置進(jìn)行科學(xué)的挑選和合理的安排。
4 結(jié)語(yǔ)
總而言之,隨著科學(xué)技術(shù)的不斷發(fā)展和信息量的海量增加,依靠傳統(tǒng)方法很難在規(guī)模龐大的數(shù)據(jù)中找到科學(xué)決策的依據(jù)。因此這就需要我們借助數(shù)據(jù)挖掘技術(shù)去尋找蘊(yùn)藏在數(shù)據(jù)庫(kù)中的規(guī)律,從而為科學(xué)合理的決策提供有力的支持。數(shù)據(jù)挖掘技術(shù),作為一門輔助工具,永遠(yuǎn)無(wú)法動(dòng)搖教師在提高學(xué)生成績(jī)的地位,可是它能夠?yàn)榻處煹臎Q策提供科學(xué)的依據(jù),從而為傳統(tǒng)教學(xué)中很難獲取或者不能獲取的模型提供了可能。
參考文獻(xiàn)
[1] 惠向暉,王亞偉,蘇克勤,等.淺談數(shù)據(jù)挖掘技術(shù)及其在高等學(xué)校教學(xué)中的應(yīng)用[J].北計(jì)算機(jī)科學(xué),2010(11):41-45.
關(guān)鍵詞:學(xué)校教學(xué);數(shù)據(jù)挖掘技術(shù);應(yīng)用
中圖分類號(hào):G632文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)17-4177-03
1數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘始于上世紀(jì)90年代,是一門發(fā)展速度較快的交叉學(xué)科,數(shù)據(jù)挖掘技術(shù)包括人工智能、神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計(jì)、模式識(shí)別、數(shù)據(jù)庫(kù)、粗糙集等技術(shù)學(xué)科,數(shù)據(jù)挖掘能夠從大量數(shù)據(jù)中挖掘到隱含的、未知的、用戶可能感興趣的、對(duì)決策存在潛在價(jià)值的知識(shí)及規(guī)則,數(shù)據(jù)挖掘過(guò)程又稱為知識(shí)發(fā)現(xiàn),基本功能主要為分類、估計(jì)、預(yù)測(cè)、關(guān)聯(lián)分組、聚類、建檔、描述等。數(shù)據(jù)挖掘的對(duì)象較多,主要包括數(shù)據(jù)庫(kù)、圖像等各種結(jié)構(gòu)化和非結(jié)構(gòu)化的信息、文本等,有時(shí)無(wú)法直接對(duì)其進(jìn)行分析,因此要通過(guò)以下步驟進(jìn)行:第一,選擇數(shù)據(jù)。數(shù)據(jù)挖掘過(guò)程中所有需要的數(shù)據(jù)來(lái)源可能都不相同,可以通過(guò)不同的異數(shù)數(shù)據(jù)源來(lái)獲取數(shù)據(jù);第二,預(yù)處理。在初始數(shù)據(jù)中,會(huì)有一些不符合形式處理或是出現(xiàn)偏差的例外,因此要對(duì)這些數(shù)據(jù)進(jìn)行修正和剔除,為后期數(shù)據(jù)處理的正確性奠定基礎(chǔ);第三,變換。將不同數(shù)據(jù)源獲得的數(shù)據(jù)轉(zhuǎn)換為同一種格式,可以利用編碼或是其他一些方式來(lái)簡(jiǎn)化表示形式;第四,數(shù)據(jù)挖掘。利用數(shù)據(jù)挖掘算法,對(duì)變換之后的數(shù)據(jù)進(jìn)行挖掘并產(chǎn)生期望的挖掘結(jié)果;第五,解釋或評(píng)價(jià)。將數(shù)據(jù)挖掘之后的結(jié)果用適當(dāng)?shù)姆绞揭平唤o用戶。
數(shù)據(jù)挖掘技術(shù)的應(yīng)用十分廣泛,在電信業(yè)、農(nóng)業(yè)、工業(yè)、金融業(yè)等各個(gè)領(lǐng)域都得到了廣泛的應(yīng)用。數(shù)據(jù)挖掘方法主要為關(guān)聯(lián)規(guī)則、決策樹、聚類分析以及遺傳算法、神經(jīng)網(wǎng)絡(luò)等,關(guān)聯(lián)規(guī)則和決策樹是使用頻率最多、范圍最廣的兩種方法。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘最先研究的問(wèn)題之一,也是數(shù)據(jù)挖掘中最成熟、最主要的分析方法之一,能夠揭示出數(shù)據(jù)之間的隱含關(guān)系。關(guān)聯(lián)規(guī)則首先要對(duì)數(shù)據(jù)庫(kù)中的一組對(duì)象進(jìn)行關(guān)系分析,然后通過(guò)置信度和支持度來(lái)進(jìn)行篩選,最后得出被認(rèn)為具有價(jià)值的事實(shí)或是規(guī)律,例如購(gòu)物籃的分析中,通過(guò)對(duì)銷售數(shù)據(jù)的分析發(fā)現(xiàn)一些客戶的購(gòu)物習(xí)慣及規(guī)律。利用關(guān)聯(lián)規(guī)則最經(jīng)典的是由R . Agrawal , Hnielinski , Swam等人在1994年提出的Apriori算法,在生成特定關(guān)系候選項(xiàng)目集的基礎(chǔ)之上,對(duì)數(shù)據(jù)庫(kù)進(jìn)行掃描,并確定候選項(xiàng)目是否滿足要求。
決策樹算法主要用來(lái)解決分類問(wèn)題,通過(guò)對(duì)數(shù)據(jù)進(jìn)行歸納和學(xué)習(xí),將分類過(guò)程在構(gòu)建的一棵樹上進(jìn)行建模,完成后,便能夠應(yīng)用在數(shù)據(jù)庫(kù)中的元組得到分類結(jié)果,樹中每一個(gè)內(nèi)部節(jié)點(diǎn)都表示了一個(gè)屬性值的檢驗(yàn),分支便表示檢驗(yàn)結(jié)果,樹的葉節(jié)點(diǎn)代表類別。
通過(guò)上文的分析可知,數(shù)據(jù)挖掘技術(shù)具有以下特點(diǎn):第一,數(shù)據(jù)處理規(guī)模較大;第二,挖掘出的知識(shí)無(wú)法預(yù)知;第三,在發(fā)現(xiàn)潛在規(guī)則的基礎(chǔ)上,要維護(hù)并管理規(guī)則;第四,規(guī)則的發(fā)現(xiàn)是在大樣本統(tǒng)計(jì)規(guī)律的基礎(chǔ)之上,且當(dāng)置信度達(dá)到某一標(biāo)準(zhǔn)時(shí),便認(rèn)為規(guī)則成立。
2常用的數(shù)據(jù)挖掘技術(shù)
2.1關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是指各個(gè)數(shù)據(jù)項(xiàng)之間相互依存的關(guān)系,發(fā)現(xiàn)規(guī)則的任務(wù)為從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)一些置信度、支持度大于定閾值的強(qiáng)關(guān)聯(lián)規(guī)則,在大型數(shù)據(jù)庫(kù)中,每個(gè)字段之間都存在著多種多樣的關(guān)系,且都隱藏在數(shù)據(jù)庫(kù)包含的信息中,關(guān)聯(lián)規(guī)則的目的即為找出數(shù)據(jù)項(xiàng)之間隱藏關(guān)系。用來(lái)描述關(guān)聯(lián)規(guī)則挖掘問(wèn)題的數(shù)據(jù)模型為:令I(lǐng)={i1,i2,i3,……,in}為屬性可能取值,也稱為數(shù)據(jù)項(xiàng)集,模型中ik(1≤i≤n)為數(shù)據(jù)項(xiàng),I中的元素個(gè)數(shù)即為數(shù)據(jù)項(xiàng)集的長(zhǎng)度,如果長(zhǎng)度為n的數(shù)據(jù)項(xiàng)集,便成為n維數(shù)據(jù)項(xiàng)集(n-Item-set)。例如關(guān)聯(lián)規(guī)則的蘊(yùn)含式為XY,且X,Y包含于1,且X∩Y=ψ,則規(guī)則XY在事務(wù)集合D中成立。一般情況下,用置信度和支持度來(lái)描述規(guī)則屬性:置信度指如果D中包括C%的X事務(wù),且同時(shí)也包括Y,則C是關(guān)聯(lián)規(guī)則XY的置信度,置信度即為出現(xiàn)了數(shù)據(jù)項(xiàng)集X的事務(wù)中,Y相集同時(shí)出現(xiàn)的改了,置信度C%=The number of Transactions(X∩Y)/The number of Transaction(X)。換言之,只要數(shù)據(jù)庫(kù)中出現(xiàn)了X,那么Y出現(xiàn)的可能先變?yōu)镃%;支持度指如果D中有S%的事務(wù)既包括數(shù)據(jù)項(xiàng)集X,也包括數(shù)據(jù)項(xiàng)集Y,那么S%即為關(guān)聯(lián)規(guī)則XY的支持度,支持度S%=The number of Transactions(X∩Y)/The number of Transactions(D)。支持度越大,便說(shuō)明X和Y在數(shù)據(jù)庫(kù)中出現(xiàn)的機(jī)會(huì)越大。本著發(fā)現(xiàn)有意義關(guān)聯(lián)規(guī)則的原則,需要給出兩個(gè)閾值——最小支持度和最小置信度。關(guān)聯(lián)規(guī)則對(duì)給定事務(wù)集合D中所有產(chǎn)生滿足最小支持度及最小置信度的關(guān)聯(lián)規(guī)則進(jìn)行挖掘,可將關(guān)聯(lián)規(guī)則挖掘分為兩個(gè)子問(wèn)題:1)根據(jù)最小支持度,找出在數(shù)據(jù)集D中所有出現(xiàn)的頻繁項(xiàng)目集,此為關(guān)聯(lián)規(guī)則挖掘的中心問(wèn)題,也是衡量關(guān)聯(lián)規(guī)則算法的一項(xiàng)標(biāo)準(zhǔn);2)根據(jù)頻繁項(xiàng)目集以及最小置信度來(lái)形成關(guān)聯(lián)規(guī)則。
2.2決策樹算法
決策樹算法是較為常用、直觀、快速的一種分類方法,決策樹算法即創(chuàng)建一個(gè)樹狀結(jié)構(gòu),根據(jù)不同層次對(duì)結(jié)點(diǎn)進(jìn)行分類,每個(gè)節(jié)點(diǎn)都對(duì)應(yīng)一個(gè)樣本集,根節(jié)點(diǎn)要對(duì)應(yīng)整個(gè)樣本集,內(nèi)部節(jié)點(diǎn)應(yīng)對(duì)應(yīng)一個(gè)樣本集,葉節(jié)點(diǎn)對(duì)應(yīng)一個(gè)類標(biāo)志,然后根據(jù)結(jié)點(diǎn)包含的樣本屬性進(jìn)行測(cè)試,并依據(jù)測(cè)試結(jié)果,將樣本集進(jìn)行劃分,劃分出兩個(gè)或兩個(gè)以上的子集,每一個(gè)子集生成一個(gè)分支,并用測(cè)試屬性值來(lái)對(duì)分值進(jìn)行標(biāo)識(shí),葉節(jié)點(diǎn)包含一個(gè)類標(biāo)志,表示與之相對(duì)應(yīng)的樣本集類別。常用的決策樹計(jì)算方法有:1) ID3算法,此為最著名的一種決策樹算法,采用的是貪心搜索選擇分裂的特征和信息理論;2) C4.5算法,此為ID3算法的改進(jìn),也是基于信息增益比的特征選擇策略以及最小描述長(zhǎng)度的剪枝方法的首次提出,增加了缺失數(shù)據(jù)以及對(duì)連續(xù)性屬性的處理策略,并對(duì)分類規(guī)則的推導(dǎo)方法進(jìn)行提出,對(duì)連續(xù)性屬性采用的是安全搜索二分法,對(duì)于離散型屬性,采用的是多分法;3) EC4.5算法,此種算法是C4.5的改進(jìn)算法,在效率上較C4.5有一定的提高。除此之外,決策樹算法還包括很多其他算法,在處理不同的數(shù)據(jù)庫(kù)數(shù)據(jù)時(shí),要結(jié)合數(shù)據(jù)庫(kù)特征來(lái)選擇算法。
2.3聚類分析算法
一般情況下,人們對(duì)事物進(jìn)行認(rèn)知采用將認(rèn)知對(duì)象進(jìn)行分類的方法,分為同一類的事務(wù)一般都具有較多的相似特征,聚類的任務(wù)即在沒(méi)有訓(xùn)練數(shù)據(jù)樣本時(shí),根據(jù)對(duì)象自身相似性將一組對(duì)象劃分成為一系列具有意義的子集。經(jīng)常使用的聚類劃分方法為:K-means算法、PAM算法以及CLARA算法和CLARANS算法等,較為經(jīng)典的聚類分析算法為K-means和擴(kuò)展算法,即將對(duì)象D劃分為一組聚類{C1,C2,……Ck},始終K是要得到的聚類個(gè)數(shù),此種算法將一個(gè)對(duì)象最多分為一個(gè)聚類,每一個(gè)聚類都是全體對(duì)象的子集之一。聚類指本著找到一組聚類中心及隸屬矩陣的目的,讓目標(biāo)函數(shù)值趨近于最小,因此為了能夠解決函數(shù)值最小的問(wèn)題,可以采用K-means中的爬山算法,即首先隨機(jī)選擇K個(gè)初始聚類中心,將每一個(gè)對(duì)象都分配給離它的據(jù)點(diǎn),得到一組聚類,然后對(duì)當(dāng)前每一個(gè)聚類中心進(jìn)行計(jì)算并作為新聚點(diǎn),將每個(gè)對(duì)象重新進(jìn)行分配,分配要離對(duì)象最近的聚點(diǎn)中,如此循環(huán)計(jì)算,直到滿足終止條件位置。
3數(shù)據(jù)挖掘技術(shù)在學(xué)習(xí)特征分析中的應(yīng)用
在現(xiàn)代教育理論的指導(dǎo)下,教學(xué)設(shè)計(jì)是一套能夠促進(jìn)學(xué)生學(xué)習(xí)、發(fā)展的系統(tǒng)化程序,也是在教學(xué)問(wèn)題求解過(guò)程中,側(cè)重和問(wèn)題求解中方案的決策、尋找過(guò)程,其中,學(xué)習(xí)者的學(xué)習(xí)特征分析是重要的組成部分之一,我們所說(shuō)的學(xué)習(xí)特征,即學(xué)生的學(xué)習(xí)風(fēng)格、習(xí)慣、準(zhǔn)備狀態(tài)等,雖然和具體學(xué)科的內(nèi)容并沒(méi)有直接聯(lián)系,但是對(duì)教學(xué)者的內(nèi)容組織、選擇,教學(xué)方法的選擇等都能夠產(chǎn)生一定影響,因此通過(guò)對(duì)學(xué)習(xí)者的學(xué)習(xí)特點(diǎn)進(jìn)行分析,能夠明確學(xué)生的初始能力,從而確定下學(xué)習(xí)的起點(diǎn),為選擇教學(xué)內(nèi)容、方式方法提供參考。在利用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)習(xí)者學(xué)習(xí)特征進(jìn)行分析的過(guò)程中,首先要對(duì)于學(xué)習(xí)者相關(guān)的信息和數(shù)據(jù)進(jìn)行收集并整理,然后本著提高學(xué)習(xí)能力、規(guī)范學(xué)習(xí)行為、幫助學(xué)習(xí)者的目的來(lái)選擇數(shù)據(jù)挖掘的方法,例如關(guān)聯(lián)規(guī)則法或是決策樹法,根據(jù)對(duì)學(xué)習(xí)者信息和數(shù)據(jù)的分析,能夠挖掘到學(xué)習(xí)者的學(xué)習(xí)風(fēng)格、習(xí)慣等,通過(guò)與教學(xué)專家進(jìn)行交流或?qū)で髱椭?,能夠利用?shù)據(jù)挖掘法挖掘到的規(guī)則來(lái)確定質(zhì)量的好壞,可以采用聚類分析法來(lái)對(duì)學(xué)生進(jìn)行分類,然后根據(jù)結(jié)果對(duì)學(xué)生再次進(jìn)行關(guān)聯(lián)規(guī)則法的挖掘,或是決策樹法的挖掘,便能夠了解學(xué)生未來(lái)發(fā)展方向,指導(dǎo)學(xué)生進(jìn)行專業(yè)或課程的選擇,對(duì)具有潛力的學(xué)生進(jìn)行激發(fā),提供一些鍛煉和學(xué)習(xí)的機(jī)會(huì),有針對(duì)性的、實(shí)際性的進(jìn)行教學(xué),從而培養(yǎng)出不同層次、不同方面的人才。
4數(shù)據(jù)挖掘技術(shù)在教學(xué)決策中的應(yīng)用
利用數(shù)據(jù)挖掘技術(shù)來(lái)輔助教學(xué)過(guò)程中的決策,主要表現(xiàn)在以下方面。
4.1合理設(shè)置課程
合理設(shè)計(jì)課程,即將課程之間的結(jié)構(gòu)安排合理,包括開設(shè)的課程、課程的先后順序、課程之間的銜接等,通過(guò)將課程進(jìn)行合理設(shè)置,能夠讓學(xué)生通過(guò)學(xué)習(xí)課程,具備相應(yīng)的知識(shí)和能力。由于課程的開設(shè)本身就具有一定程度的潛在關(guān)聯(lián)和順序,因此通過(guò)數(shù)據(jù)挖掘技術(shù)能夠?qū)撛陉P(guān)聯(lián)、順序進(jìn)行明確,從而找到設(shè)置課程的依據(jù),調(diào)整課程之間的順序,達(dá)到最佳教學(xué)效果。
4.2改進(jìn)教學(xué)方式方法
在教學(xué)過(guò)程中,教師會(huì)通過(guò)運(yùn)用各種方式方法來(lái)完成教學(xué)任務(wù),并達(dá)到最佳教學(xué)效果,但是何種教學(xué)效果才算是最優(yōu)效果,何種方式方法能夠達(dá)到最優(yōu)效果還尚不明確,因此要通過(guò)對(duì)積累的大量教學(xué)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,來(lái)明確教學(xué)的方式方法及效果。利用數(shù)據(jù)挖掘技術(shù)的分類和聚類方法首先對(duì)學(xué)生的具體情況進(jìn)行分析,然后利用回歸線和關(guān)聯(lián)規(guī)則的方法來(lái)判斷不同專業(yè)、特征的學(xué)生應(yīng)當(dāng)采取怎樣的方式方法進(jìn)行教學(xué),以及教學(xué)內(nèi)容的深度和廣度等,讓教師能夠通過(guò)數(shù)據(jù)挖掘技術(shù),了解不同教學(xué)對(duì)象應(yīng)當(dāng)使用的教學(xué)方法、內(nèi)容、手段等,用發(fā)展的眼光來(lái)看待教學(xué)方法,不斷更新教學(xué)手段,激發(fā)起學(xué)生的學(xué)習(xí)興趣,從而提高教學(xué)質(zhì)量。
4.3合理化考試
考試作為教育教學(xué)活動(dòng)中的重要環(huán)節(jié),能夠檢驗(yàn)學(xué)生知識(shí)和能力的掌握理解程度,隨著教育改革進(jìn)程的不斷加快,考試也應(yīng)當(dāng)隨著教育的不斷發(fā)展而變化,教師在教學(xué)過(guò)程中不能因?yàn)榭荚嚩虒W(xué),也不能因?yàn)榻虒W(xué)而考試,考試僅僅是教學(xué)活動(dòng)中的一個(gè)組成部分??荚嚨膬?nèi)容和方法要根據(jù)教學(xué)的目標(biāo)、內(nèi)容、方法來(lái)確定,因此想要讓教學(xué)和考試能夠和諧發(fā)展,相互促進(jìn),共同提高,就必須要利用數(shù)據(jù)挖掘技術(shù)來(lái)輔助教學(xué)決策,提高評(píng)價(jià)、考試的合理化。
5數(shù)據(jù)挖掘技術(shù)在教學(xué)評(píng)價(jià)中的應(yīng)用
所謂教學(xué)評(píng)價(jià),即根據(jù)教學(xué)目標(biāo)中的要求,通過(guò)測(cè)量的工具或方法對(duì)學(xué)生學(xué)習(xí)結(jié)果進(jìn)行量化描述,并對(duì)量化結(jié)果進(jìn)行價(jià)值判斷。教學(xué)評(píng)價(jià)是教學(xué)管理中的重要環(huán)節(jié)之一,也是引導(dǎo)教育、利用教育成果、促進(jìn)教育發(fā)展的重要保障,但是在傳統(tǒng)的教學(xué)評(píng)價(jià)方法中,有許多缺陷,主要表現(xiàn)為:第一,主觀因素過(guò)多,無(wú)法真實(shí)反映出客觀實(shí)際問(wèn)題,由于教學(xué)管理部門采用的評(píng)價(jià)手段并不全面,因此獲得的教學(xué)評(píng)價(jià)數(shù)據(jù)也并不充分,多數(shù)教學(xué)管理部門都依據(jù)經(jīng)驗(yàn)來(lái)進(jìn)行評(píng)價(jià),讓自身的主觀因素來(lái)決定評(píng)價(jià)的結(jié)果;第二,內(nèi)容和形式過(guò)于簡(jiǎn)單,無(wú)法反映出教學(xué)中深層的問(wèn)題,在內(nèi)容方面,統(tǒng)計(jì)出來(lái)的數(shù)據(jù)不夠全面,直接或間接的影響教學(xué)效果的因素,如學(xué)生的基礎(chǔ)、教學(xué)的環(huán)境、課程的設(shè)計(jì)等都沒(méi)有表現(xiàn)出來(lái),且在形式上也較為單一,多采用學(xué)生打分、網(wǎng)評(píng)、教師互評(píng)、考試成績(jī)等,因此,制定評(píng)估指標(biāo)時(shí),也忽視了對(duì)以往數(shù)據(jù)中隱藏信息的利用,導(dǎo)致教學(xué)評(píng)估評(píng)價(jià)的制定沒(méi)有歷史依據(jù),僅僅是單純某次評(píng)估的結(jié)果,無(wú)法反映出分析數(shù)據(jù)的結(jié)果,以及教學(xué)過(guò)程中存在的問(wèn)題;第三,無(wú)法起到教學(xué)評(píng)價(jià)應(yīng)當(dāng)具有的作用,通常來(lái)講,教學(xué)評(píng)價(jià)僅僅為了評(píng)優(yōu)、晉升等活動(dòng)的依據(jù),但是實(shí)際上,教學(xué)評(píng)價(jià)的作用遠(yuǎn)不僅如此,客觀的、良好的教學(xué)評(píng)價(jià)能夠在教學(xué)過(guò)程中發(fā)揮出積極的、正面的作用,并能夠在整體上調(diào)節(jié)、激勵(lì)、促進(jìn)、控制教學(xué)活動(dòng)的進(jìn)行,保證教學(xué)活動(dòng)能夠?qū)崿F(xiàn)最終目標(biāo)。因此,通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生成績(jī)、基本信息、評(píng)價(jià)信息中的數(shù)據(jù)進(jìn)行處理,能夠進(jìn)行深層的數(shù)據(jù)分析,并發(fā)現(xiàn)各因素之間的關(guān)聯(lián)性關(guān)系,從而找到隱藏的規(guī)律以及對(duì)教學(xué)效果產(chǎn)生影響因素之間的關(guān)系,綜合的評(píng)定、評(píng)價(jià)教學(xué)成果,保證評(píng)價(jià)的全面、多元、科學(xué)、可靠以及客觀公正,促進(jìn)教學(xué)水平和質(zhì)量的整體提高。總之,建立起合理的教學(xué)評(píng)價(jià)體系,能夠強(qiáng)化學(xué)校教學(xué)管理,提高教學(xué)質(zhì)量,促進(jìn)教學(xué)基本建設(shè),促進(jìn)專業(yè)課程建設(shè),促進(jìn)師資隊(duì)伍建設(shè),從而提高學(xué)校凝聚力,增強(qiáng)學(xué)校競(jìng)爭(zhēng)優(yōu)勢(shì)。
6結(jié)束語(yǔ)
綜上所述,我們可以通過(guò)利用數(shù)據(jù)挖掘技術(shù)來(lái)明確各個(gè)要素之間的隱藏關(guān)聯(lián)關(guān)系,通過(guò)將數(shù)據(jù)挖掘技術(shù)應(yīng)用在學(xué)校教學(xué)中,能夠挖掘?qū)W習(xí)者的學(xué)習(xí)特征、輔助教學(xué)決策、幫助教學(xué)評(píng)價(jià)。筆者在對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行分析和研究的基礎(chǔ)之上,首先對(duì)兩種常用的數(shù)據(jù)挖掘技術(shù)——關(guān)聯(lián)規(guī)則和決策樹進(jìn)行敘述,然后針對(duì)數(shù)據(jù)挖掘技術(shù)在學(xué)校教學(xué)中的應(yīng)用提出一些個(gè)人觀點(diǎn),相信在不久的將來(lái),數(shù)據(jù)挖掘技術(shù)能夠代替以往傳統(tǒng)的數(shù)據(jù)分析技術(shù),幫助學(xué)校教育適應(yīng)現(xiàn)代化教育的潮流,緊跟現(xiàn)代化教育的腳步,提升學(xué)校教學(xué)水平。
參考文獻(xiàn):
[1]李瑞林.數(shù)據(jù)挖掘技術(shù)在教學(xué)過(guò)程中的應(yīng)用[J].制造業(yè)自動(dòng)化,2010,9(73).
[2]唐仕敏.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)中的應(yīng)用[J].產(chǎn)業(yè)與科技論壇,2011,1(38).
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);交互課堂;特點(diǎn)
課堂教學(xué)是一個(gè)具有一定周期性的過(guò)程,作為授業(yè)者的教師,通過(guò)不斷的教學(xué)實(shí)踐,對(duì)教學(xué)設(shè)計(jì)不斷地進(jìn)行優(yōu)化、更新、管理及評(píng)價(jià)的過(guò)程。本文探討通過(guò)數(shù)據(jù)挖掘技術(shù)建立一個(gè)可以對(duì)課堂交互中的信息進(jìn)行有效整理、合理分析的信息處理模型,從而有效促進(jìn)教學(xué)設(shè)計(jì)的不斷更新。
一、課堂互動(dòng)中信息的特點(diǎn)
在課堂教學(xué)中的信息交互是通過(guò)師生人際交流、教學(xué)過(guò)程等實(shí)現(xiàn)的,這決定了這些信息具有以下基本特點(diǎn):
1.信息采集工作量大
在課堂互動(dòng)中由于交流過(guò)程中所表達(dá)的信息類型較多,包括教師的講授、提問(wèn)、指示等方面的信息、教師接受學(xué)生的意見信息、教師給予學(xué)生的鼓勵(lì)表?yè)P(yáng)、對(duì)學(xué)生的建議批評(píng)、學(xué)生答問(wèn)信息、學(xué)生之間的討論、思考問(wèn)題等信息,還有一些是課堂上與正常教學(xué)行為不相關(guān)的其他信息、課堂外有學(xué)生的作業(yè)、教師的批改以及自身學(xué)習(xí)與發(fā)展方面信息等。對(duì)這些信息數(shù)據(jù)的采集、處理工作量比較大。
2.可量化性低
課堂內(nèi)外互動(dòng)中的信息絕大多數(shù)是由言語(yǔ)、肢體語(yǔ)言來(lái)交互的,其中一些類似如學(xué)生對(duì)教學(xué)內(nèi)容與方式的反應(yīng)、學(xué)習(xí)中的興趣愛(ài)好、教師與學(xué)生互動(dòng)中交流信息等不容易進(jìn)行定性量化,導(dǎo)致處理起來(lái)比較困難。
3.信息的包容性大
在教學(xué)互動(dòng)過(guò)程中的各類信息,如教師的教學(xué)方式、教學(xué)風(fēng)格、教學(xué)內(nèi)容的組織、師生的個(gè)人思維動(dòng)態(tài)等都包含了各種各類的信息綜合體,非常難以從這些信息的表面就判斷信息的類屬。同時(shí)這些信息有些還屬于生物信息范疇,難以分析。
4.信息的不確定性
在課堂互動(dòng)教學(xué)過(guò)程中對(duì)學(xué)生當(dāng)前學(xué)習(xí)狀態(tài)、知識(shí)的掌握程度的判斷是基于教師的個(gè)人理解,具有不確定性,是具有一定的誤差的。而在教學(xué)過(guò)程中對(duì)提問(wèn)中學(xué)生的反應(yīng),判定學(xué)生的回答正確與否,都具有教師的主觀性。
正是由于課堂互動(dòng)中的信息具有以上特征,從而使得數(shù)據(jù)信息采集工作量大,定性量化比較困難。所以很久以來(lái)從事教育信息整合的研究者常喜歡于用質(zhì)的定性研究來(lái)評(píng)價(jià),隨著當(dāng)前數(shù)據(jù)處理科學(xué)的進(jìn)步,如何更客觀地對(duì)課堂中的交互信息進(jìn)行定性、量化、處理變得尤為重要。通過(guò)對(duì)潛在信息數(shù)據(jù)中有價(jià)值的內(nèi)容的提煉、整合、處理,可以及時(shí)從里面發(fā)現(xiàn)有用的數(shù)據(jù)信息,從大量互動(dòng)數(shù)據(jù)中找到教育規(guī)律,用以教師對(duì)教學(xué)的改進(jìn)。歸根結(jié)底,我們對(duì)課堂互動(dòng)中信息的數(shù)據(jù)挖掘,是為了處理過(guò)后的信息反饋與我們的教學(xué),從而更加有效地改進(jìn)我們教學(xué)系統(tǒng)的設(shè)計(jì)、評(píng)價(jià)等系統(tǒng)。
二、數(shù)據(jù)挖掘及其技術(shù)
數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程,其目標(biāo)是支持利用數(shù)據(jù)進(jìn)行合理的決策。
根據(jù)信息存儲(chǔ)格式的不同,用于挖掘的對(duì)象有關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)以及Internet等。其任務(wù)主要是關(guān)聯(lián)分析、聚類分析、分類、預(yù)測(cè)、時(shí)序模式分析等。
數(shù)據(jù)挖掘的流程包括以下過(guò)程,這些過(guò)程不是一次完成的,其中某些步驟或者全過(guò)程可能要反復(fù)進(jìn)行:(1)問(wèn)題的定義;(2)數(shù)據(jù)準(zhǔn)備;(3)數(shù)據(jù)挖掘;(4)結(jié)果分析;(5)知識(shí)表示。
三、交互課堂中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
在交互課堂的設(shè)計(jì)中我們可以根據(jù)課堂互動(dòng)信息的相關(guān)特點(diǎn),通過(guò)整合數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)處理優(yōu)勢(shì),從包含海量信息的師生行動(dòng)和語(yǔ)言互動(dòng)中發(fā)掘并定性出有用的信息。然后通過(guò)對(duì)這些信息的統(tǒng)計(jì)等處理,讓隱藏在自然語(yǔ)言下的信息變成電子信息數(shù)據(jù),通過(guò)教師對(duì)數(shù)據(jù)挖掘規(guī)則的參與,有效利用這些信息,從而產(chǎn)生可以指導(dǎo)我們教學(xué)實(shí)踐的數(shù)據(jù)挖掘結(jié)果。下面我們深入探討一下課堂交互中的數(shù)據(jù)挖掘應(yīng)用。
1.課堂互動(dòng)中數(shù)據(jù)挖掘的主要任務(wù)
利用數(shù)據(jù)挖掘技術(shù)可從以下三個(gè)方面對(duì)零碎的、不容易識(shí)別的課堂互動(dòng)信息進(jìn)行挖掘。
(1)對(duì)教師教學(xué)信息的挖掘。①對(duì)教師教學(xué)風(fēng)格、特點(diǎn)的信息挖掘:包括對(duì)教師語(yǔ)言特點(diǎn)、提問(wèn)的比率、提問(wèn)的開放性程度、與學(xué)生的互動(dòng)能力等主觀性因素進(jìn)行量化,可視化。②對(duì)教學(xué)信息中可重復(fù)部分的挖掘:利用分類、統(tǒng)計(jì)、甄別等工具把一些共性的信息提煉出來(lái),拆分教學(xué)內(nèi)容,概括出課堂交互中所傳遞信息的共性點(diǎn),分析交互的信息量,進(jìn)行定性。還可以根據(jù)特定的課程進(jìn)行分析。③教學(xué)設(shè)計(jì)、教學(xué)科目設(shè)置結(jié)構(gòu)等信息:通過(guò)對(duì)不同的科目的教學(xué)設(shè)計(jì)的分析,可以了解科目類別之間的關(guān)系。通過(guò)數(shù)據(jù)挖掘后直觀地分析表和圖,系統(tǒng)可為教師提供教學(xué)設(shè)計(jì)對(duì)比,促進(jìn)教學(xué)過(guò)程的改進(jìn)。④教師對(duì)新技術(shù)應(yīng)用的發(fā)現(xiàn):隨著社會(huì)的發(fā)展和進(jìn)步,各種各樣的信息技術(shù)手段在課堂交互中被利用,這些手段為改進(jìn)課堂互動(dòng)的效率提供了有效的環(huán)境。利用數(shù)據(jù)挖掘技術(shù),對(duì)教師對(duì)新技術(shù)手段的應(yīng)用效果及比例進(jìn)行觀察,對(duì)新技術(shù)手段對(duì)課堂交互的促進(jìn)效果進(jìn)行評(píng)估。⑤師生交互的模式:師生交互的模式有多種多樣,數(shù)據(jù)挖掘利用課程、科目、交互的模式、交互的效果等等進(jìn)行分析,找出各種因素之間的關(guān)聯(lián),為教師提供基于實(shí)際應(yīng)用的合理模式推薦。⑥課堂互動(dòng)過(guò)程變動(dòng)信息:利用定性量化的課堂交互數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘得出所需評(píng)估科目在交互過(guò)程中的變化,以提高教師對(duì)交互課堂的教學(xué)進(jìn)程的把握程度。
(2)學(xué)生相關(guān)信息的挖掘。可以從以下幾個(gè)方面對(duì)學(xué)生的課堂反應(yīng)和表現(xiàn)進(jìn)行數(shù)據(jù)挖掘:①課堂參與的投入程度:首先觀察學(xué)生的參與比例,其次定性參與學(xué)生的投入程度??梢詫?duì)不同的參與程度定性為全部、大多數(shù)、少數(shù)等,對(duì)參與投入的定性可以為:積極、一般。②交互的狀態(tài):首先看交互中是不是有多方參與的信息互動(dòng),其次看互動(dòng)中交互是否友善、是否合作良好。③思維反饋的狀態(tài):通過(guò)學(xué)生的反饋及主動(dòng)性的互動(dòng),來(lái)看課堂交互的思維反饋狀態(tài)是否良好。④情緒表現(xiàn):首先看學(xué)生互動(dòng)中是否有情感上的投入,比如緊張與愉快;其次看學(xué)生是否能根據(jù)課堂交互的進(jìn)行及時(shí)轉(zhuǎn)變狀態(tài),比如前一段談?wù)摎夥諢崃?,轉(zhuǎn)入后一段的靜靜聆聽。⑤課程狀態(tài):首先看學(xué)生能否在課程進(jìn)行中,感到有收獲感;其次看學(xué)生對(duì)后續(xù)的課程交互是否抱有期待。
日常的教學(xué)實(shí)踐證明,課堂交互中的學(xué)生投入與否,對(duì)交互的教學(xué)效果有著決定性的影響。假設(shè)學(xué)生的課堂交互狀態(tài)不夠,那么要找原因的話,就要從教師的教學(xué)設(shè)計(jì)或課堂氣氛營(yíng)造上來(lái)找。我們利用學(xué)生信息的數(shù)據(jù)挖掘技術(shù),分析學(xué)生在交互的過(guò)程中的狀態(tài),形成直觀的信息材料,為教師課堂教學(xué)的組織的改進(jìn)提供支撐,同時(shí)也可以為教師教學(xué)效果評(píng)價(jià)提供依據(jù)。
(3)教師、學(xué)生課堂交互信息的挖掘?!皫熒换ァ笔墙虒W(xué)設(shè)計(jì)實(shí)施中的關(guān)鍵環(huán)節(jié),交互意味著師生有語(yǔ)言上的交流及行為上的互動(dòng)。在課堂教學(xué)交互過(guò)程中一般互動(dòng)是在授課者與聽課者、課程設(shè)計(jì)與教學(xué)實(shí)際之間進(jìn)行的。師生間的交互信息主要表現(xiàn)在師生的互動(dòng)交流、教師為學(xué)生直接提供的課程內(nèi)容、課程內(nèi)容的問(wèn)答和學(xué)生錯(cuò)誤的反饋等。通過(guò)使用數(shù)據(jù)挖掘技術(shù),深入挖掘教學(xué)中的交互信息,讓老師改進(jìn)自己的教學(xué)設(shè)計(jì)及課堂行為,提高實(shí)際教學(xué)效果,實(shí)現(xiàn)師生之間進(jìn)行有效的互動(dòng)。
2.挖掘課堂中互動(dòng)信息的流程
建立課堂互動(dòng)信息處理的數(shù)據(jù)挖掘系統(tǒng)現(xiàn)場(chǎng)記錄或通過(guò)WEB在線應(yīng)用收集交互信息信息的標(biāo)準(zhǔn)化和信息化處理課堂互動(dòng)信息分類編碼數(shù)據(jù)信息進(jìn)行轉(zhuǎn)換、處理數(shù)據(jù)挖掘挖掘結(jié)果分析反饋教學(xué)過(guò)程。
3.課堂互動(dòng)信息數(shù)據(jù)挖掘方法
在數(shù)據(jù)挖掘方法的選擇上,我們主要采用數(shù)據(jù)挖掘中應(yīng)用廣泛的統(tǒng)計(jì)學(xué)、關(guān)聯(lián)分析等方法,同時(shí)通過(guò)數(shù)據(jù)庫(kù)軟件的數(shù)據(jù)技術(shù)對(duì)信息進(jìn)行處理。在挖掘課堂互動(dòng)信息的時(shí)候,我們需要對(duì)時(shí)序數(shù)據(jù)庫(kù)和序列數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘,時(shí)序數(shù)據(jù)庫(kù)中的數(shù)據(jù)是一些反映隨時(shí)間變化的序列值或事件組成的數(shù)據(jù)庫(kù),這些值是等時(shí)間間隔采集的數(shù)據(jù)。利用統(tǒng)計(jì)類挖掘工具和數(shù)據(jù)庫(kù)技術(shù)可以在時(shí)序數(shù)據(jù)和序列數(shù)據(jù)的挖掘中實(shí)現(xiàn)對(duì)課堂教育信息的趨勢(shì)分析、相似性搜索、與時(shí)間有關(guān)數(shù)據(jù)的序列模式挖掘和周期性模式的挖掘。
4.基于課堂交互的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)
根據(jù)數(shù)據(jù)挖掘模型及課堂互動(dòng)信息的特點(diǎn),基于課堂交互的數(shù)據(jù)挖掘系統(tǒng)可由如下四個(gè)部分組成。
(1)數(shù)據(jù)采集模塊:模塊采集的信息主要包括課堂教學(xué)中教師、學(xué)生的各種行為、語(yǔ)言,師生間互動(dòng)等信息。
(2)數(shù)據(jù)處理模塊:解決語(yǔ)義模糊性,數(shù)據(jù)庫(kù)按照元數(shù)據(jù)標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行清理、集成和變換,檢查數(shù)據(jù)的完整性和一致性。
(3)數(shù)據(jù)分析模塊:通過(guò)分析經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘的基本策略,對(duì)數(shù)據(jù)進(jìn)行分析處理,得出結(jié)果并輸出。如,利用統(tǒng)計(jì)類數(shù)據(jù)挖掘工具對(duì)反映一般變化方向的教學(xué)趨勢(shì)變化進(jìn)行分析,采用加權(quán)平均或最小乘2法對(duì)時(shí)序圖上的數(shù)據(jù)進(jìn)行處理,以確定數(shù)據(jù)變化趨勢(shì),為后續(xù)的教學(xué)決策與評(píng)價(jià)提供依據(jù)。
(4)數(shù)據(jù)評(píng)價(jià)模塊:對(duì)提取的信息進(jìn)行分析,將結(jié)果與課堂教學(xué)的教育理論,學(xué)習(xí)理論相結(jié)合,根據(jù)起始目標(biāo)的量規(guī)對(duì)課堂教學(xué)效果進(jìn)行評(píng)價(jià)、反思教學(xué)。將有價(jià)值的信息區(qū)分出來(lái),通過(guò)決策支持工具提交決策者。根據(jù)每個(gè)處理模塊的結(jié)果可以決定是否重新進(jìn)行某些處理過(guò)程,在處理的任意階段可以返回以前階段進(jìn)行再處理。在數(shù)據(jù)挖掘技術(shù)實(shí)際運(yùn)用過(guò)程中,教師可以根據(jù)自身對(duì)信息需求的不同,通過(guò)對(duì)數(shù)據(jù)挖掘的一些語(yǔ)義規(guī)則的選擇和自定義得到不同的個(gè)性化結(jié)果。
關(guān)鍵詞:高校教育信息化;數(shù)據(jù)挖掘
中圖分類號(hào):TP311.13
信息化社會(huì)的到來(lái),使各種信息紛涌而至,給高校也帶來(lái)了大量的有關(guān)教育、學(xué)生等各類信息,面對(duì)如此龐大的信息量,用傳統(tǒng)的信息、數(shù)據(jù)提取的方式已經(jīng)很難滿足高校的要求,而且大量信息所帶來(lái)的信息的消化、安全等問(wèn)題,使得高校必須要借助數(shù)據(jù)挖掘的工具去提取數(shù)據(jù)中隱藏的規(guī)律和模式。
1 數(shù)據(jù)挖掘的概念及過(guò)程
1.1 數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是一種提取知識(shí)和信息的過(guò)程,具體來(lái)說(shuō)就是從大量的、不完整的、有噪音的、模糊、隨機(jī)的在實(shí)際中應(yīng)用的數(shù)據(jù)里,提取出其隱藏在內(nèi)部、不被人們事先知道的信息和數(shù)據(jù)的過(guò)程。
1.2 數(shù)據(jù)挖掘的過(guò)程
數(shù)據(jù)挖掘的過(guò)程包括以下幾個(gè)方面,數(shù)據(jù)的預(yù)處理、數(shù)據(jù)的挖掘、結(jié)果的分析與應(yīng)用。首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)數(shù)據(jù)清理去掉噪音數(shù)據(jù),保證數(shù)據(jù)的一致,然后對(duì)多個(gè)文件或多個(gè)數(shù)據(jù)庫(kù)中的文件進(jìn)行合并、壓縮數(shù)據(jù),形成有效的數(shù)據(jù)集,便于進(jìn)行數(shù)據(jù)挖掘,縮短挖掘的時(shí)間,提高挖掘質(zhì)量。接下來(lái)對(duì)數(shù)據(jù)進(jìn)行挖掘,根據(jù)數(shù)據(jù)的不同類型及特點(diǎn),選取不同的算法,例如采用分類、神經(jīng)網(wǎng)絡(luò)、遺傳算法等技術(shù)。最后對(duì)所得數(shù)據(jù)的結(jié)果進(jìn)行分析,使其能被用戶接受和理解,然后將得出的結(jié)果運(yùn)用到實(shí)踐活動(dòng)中去。
2 數(shù)據(jù)挖掘在高校教育信息化中應(yīng)用的必要性
目前,計(jì)算機(jī)已不單單是計(jì)算的工具,它還幫助我們分析和處理數(shù)據(jù),從而做出科學(xué)的決策。隨著信息化社會(huì)的快速發(fā)展,人們所接觸、獲得到的數(shù)據(jù)種類不斷增多,數(shù)量也急劇上升,此時(shí)用傳統(tǒng)的數(shù)據(jù)分析的方法已不能更快速、更有效的幫助人們解決問(wèn)題了,這就要求我們運(yùn)用數(shù)據(jù)挖掘這一手段來(lái)進(jìn)行工作。在教育信息化的背景下,高校管理也朝著信息化、網(wǎng)絡(luò)化的方向發(fā)展。在教育教學(xué)過(guò)程中,必定會(huì)積累大量的教學(xué)數(shù)據(jù),但我們只能對(duì)其進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)與分析,無(wú)法了解數(shù)據(jù)深層的內(nèi)容。在教學(xué)評(píng)估中,教師也只能把學(xué)生的平時(shí)和期末成績(jī)作為評(píng)價(jià)一個(gè)學(xué)生的標(biāo)準(zhǔn),無(wú)法客觀公正的做出評(píng)判。教學(xué)工作者僅憑簡(jiǎn)單的經(jīng)驗(yàn)分析就做出結(jié)論,往往存在很多的漏洞,這就需要數(shù)據(jù)挖掘?yàn)槲覀兲峁┮环N更深層次了解數(shù)據(jù)隱藏的信息和內(nèi)容的方法,使管理者做出科學(xué)的決策,及時(shí)發(fā)現(xiàn)學(xué)生在學(xué)習(xí)過(guò)程中出現(xiàn)的問(wèn)題,制定行之有效的教學(xué)方法,做出正確客觀的分析評(píng)價(jià),提升教育教學(xué)的質(zhì)量和水平??梢姅?shù)據(jù)挖掘具有重要的意義和必要性。
3 數(shù)據(jù)挖掘在高校教育信息化中的應(yīng)用
高校教育信息化是整合先進(jìn)的技術(shù),運(yùn)用到高校教育管理體系之中,使教育教學(xué)、管理工作和校園的文化生活更網(wǎng)絡(luò)化、信息化,提高教育質(zhì)量和效率,形成一種全新的教育和管理模式。高校教育信息化所產(chǎn)生和積累的數(shù)據(jù),為我們進(jìn)行數(shù)據(jù)挖掘提供了有效的數(shù)據(jù)。數(shù)據(jù)挖掘可以應(yīng)用到高校教育信息化的各個(gè)方面,如教學(xué)評(píng)價(jià)、課程設(shè)置、網(wǎng)絡(luò)教育、分析學(xué)習(xí)者特征、干預(yù)師生行為、輔助考試等方面。
3.1 教學(xué)評(píng)價(jià)
教學(xué)評(píng)價(jià)就是根據(jù)教學(xué)目標(biāo)、原則的要求,利用收集到的信息對(duì)教學(xué)活動(dòng)以及教學(xué)成果進(jìn)行評(píng)價(jià)的過(guò)程,主要包括對(duì)學(xué)生學(xué)和對(duì)教師教的評(píng)價(jià)。隨著信息化的快速發(fā)展,高校教育信息化積累了大量的學(xué)生成績(jī)、行為紀(jì)律、處罰獎(jiǎng)勵(lì)等數(shù)據(jù),利用數(shù)據(jù)挖掘的方式來(lái)進(jìn)行分析處理,可以客觀準(zhǔn)確的得到學(xué)生的評(píng)價(jià)結(jié)果,及時(shí)糾正學(xué)生的不良的學(xué)習(xí)行為,同時(shí)還能盡量避免教師因主觀作用對(duì)學(xué)生做出的不公平的、不客觀的評(píng)價(jià)。將數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則運(yùn)用到教學(xué)評(píng)價(jià)的數(shù)據(jù)中,使教師能夠認(rèn)識(shí)到自身的教學(xué)情況以及學(xué)生的學(xué)習(xí)和個(gè)性特點(diǎn),并給予合理的意見,對(duì)今后的教學(xué)工作有一定的指導(dǎo)意義。
3.2 合理設(shè)置課程
高校學(xué)生所進(jìn)行的課程學(xué)習(xí)是循序漸進(jìn)的,對(duì)于課程的學(xué)習(xí)要一步一步按照先易后難來(lái)進(jìn)行,而且由于教師、學(xué)生以及班級(jí)的文化氛圍的不同,同一年級(jí)的不同班級(jí)在學(xué)習(xí)相同課程時(shí)也存在很大的差異。這種情況下,教務(wù)管理人員和任課教師就很難根據(jù)學(xué)生的成績(jī)做出客觀、合理的判斷,從而做出教學(xué)進(jìn)程的決策。因此,要借助于數(shù)據(jù)挖掘技術(shù),從大量已有數(shù)據(jù)中挖掘出有用的信息和內(nèi)容,分析各數(shù)據(jù)之間存在的關(guān)系,找到影響學(xué)生成績(jī)的因素,然后在此基礎(chǔ)上,對(duì)課程設(shè)置做出合理的安排。
3.3 個(gè)性化、智能化網(wǎng)絡(luò)教育
個(gè)性化、智能化網(wǎng)絡(luò)遠(yuǎn)程教育充分的利用了數(shù)據(jù)挖掘的技術(shù),遠(yuǎn)程教育的順利開展得到保障。首先根據(jù)學(xué)生所提供的信息,對(duì)不同層次的學(xué)生提供不同的學(xué)習(xí)內(nèi)容和模式,進(jìn)行因材施教。其次,對(duì)已保存的學(xué)生的信息進(jìn)行數(shù)據(jù)挖掘,利用已有的資源,對(duì)課程進(jìn)行重新組合,使之更符合教學(xué)規(guī)律。最后通過(guò)對(duì)學(xué)習(xí)者學(xué)習(xí)行為進(jìn)行數(shù)據(jù)挖掘,了解學(xué)習(xí)者的瀏覽模式,重新進(jìn)行頁(yè)面之間的鏈接,以符合學(xué)習(xí)者的訪問(wèn)習(xí)慣。
3.4 學(xué)習(xí)者特征分析
對(duì)學(xué)習(xí)者特征的分析在教育活動(dòng)中具有重要的地位。它不僅是教學(xué)設(shè)計(jì)的前提,是教學(xué)成功的關(guān)鍵。學(xué)習(xí)者特征包括學(xué)習(xí)者的知識(shí)結(jié)構(gòu)和學(xué)習(xí)風(fēng)格。學(xué)習(xí)者的知識(shí)結(jié)構(gòu)是學(xué)習(xí)者已經(jīng)學(xué)習(xí)的或即將學(xué)習(xí)的內(nèi)容。學(xué)習(xí)風(fēng)格包括學(xué)習(xí)者的生理、心理和社會(huì)特征。利用數(shù)據(jù)挖掘來(lái)分析學(xué)習(xí)者的特征,不僅有助于學(xué)習(xí)者改進(jìn)自己的學(xué)習(xí)行為,而且能提高學(xué)習(xí)者的學(xué)習(xí)能力,完善其人格,有利于學(xué)習(xí)者素質(zhì)的全面、和諧發(fā)展。
3.5 干預(yù)學(xué)生行為
在干預(yù)學(xué)生行為方面也可以使用數(shù)據(jù)挖掘技術(shù)。高校的教育教學(xué)人員可以根據(jù)高校數(shù)據(jù)庫(kù)中保存的學(xué)生的家庭條件、學(xué)習(xí)狀況、獎(jiǎng)勵(lì)處罰等情況,通過(guò)數(shù)據(jù)挖掘中分類等方法找到學(xué)生行為活動(dòng)的關(guān)系,及時(shí)對(duì)做出學(xué)生下一步行為的預(yù)測(cè),防止學(xué)生出現(xiàn)不良行為。例如在學(xué)校課程增多,難度加大,學(xué)生學(xué)習(xí)壓力重,而且家庭出現(xiàn)矛盾的情況下,學(xué)生很容易出現(xiàn)抑郁或偏激行為,通過(guò)數(shù)據(jù)挖掘技術(shù),學(xué)校教務(wù)管理人員及教師可以及時(shí)做出預(yù)測(cè),并做好預(yù)防工作,就可以有效避免這種情況的發(fā)生。
3.6 輔助考試
考試是教學(xué)環(huán)節(jié)中必不可少的一部分,也是用來(lái)考察學(xué)生學(xué)習(xí)成果的。從考試分?jǐn)?shù)可以說(shuō)明在一定時(shí)期內(nèi)學(xué)生的學(xué)習(xí)情況,但不能說(shuō)明影響成績(jī)的因素有哪些,無(wú)法得知教學(xué)中關(guān)乎成敗的關(guān)鍵因素,就不能對(duì)教師教和學(xué)生學(xué)起到促進(jìn)作用。利用數(shù)據(jù)挖掘可以對(duì)學(xué)生平時(shí)的學(xué)習(xí)情況進(jìn)行分析,從而做出全面的、有針對(duì)性的評(píng)價(jià)。例如可以用平時(shí)成績(jī)、作業(yè)成績(jī)、點(diǎn)播課件等各種平時(shí)教學(xué)中的成績(jī)進(jìn)行考察,縮減期末考試成績(jī)的比重,加大對(duì)學(xué)生平時(shí)自主學(xué)習(xí)的考核。在這過(guò)程中產(chǎn)生的大量數(shù)據(jù)可使用數(shù)據(jù)挖掘工具進(jìn)行處理、分析??荚囶}的質(zhì)量對(duì)學(xué)生考試的分?jǐn)?shù)有很大的影響。因此可以將數(shù)據(jù)挖掘應(yīng)用到對(duì)試卷分析的數(shù)據(jù)庫(kù)中,通過(guò)對(duì)每道題目的難易度、區(qū)分度、相關(guān)度等的分析,教師就能夠?qū)υ囶}的質(zhì)量做出比較客觀、準(zhǔn)確的評(píng)價(jià),可以更好的了解學(xué)生對(duì)所學(xué)知識(shí)的掌握和運(yùn)用情況,為開展以后的教學(xué)工作提供有益的指導(dǎo)。
4 結(jié)束語(yǔ)
高校教育信息化帶來(lái)是信息量的增長(zhǎng)和提取信息工作的難度。數(shù)據(jù)挖掘技術(shù)有效的避免了傳統(tǒng)信息提取的問(wèn)題,更深層面的發(fā)掘隱藏的規(guī)律和模式,為教育教學(xué)工作的設(shè)計(jì)、決策、實(shí)施等方面提供了新的途徑,帶來(lái)了更多的便利。隨著科學(xué)技術(shù)的日新月異、信息技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)還將更廣泛的被應(yīng)用到各個(gè)領(lǐng)域,并發(fā)揮著日益重要的作用。
參考文獻(xiàn):
[1]肖自力.信息素養(yǎng)教育和高校圖書館的使命[J].大學(xué)圖書館學(xué)報(bào),2011(5).
[2]劉同明.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[M].北京:國(guó)防工業(yè)出版社,2010(4).
關(guān)鍵詞:實(shí)踐教學(xué)研究;建構(gòu)主義理論;信息管理專業(yè);數(shù)據(jù)挖掘
中圖分類號(hào):G642.0?搖 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2014)15-0197-02
一、引言
隨著數(shù)據(jù)挖掘、商務(wù)智能技術(shù)的快速發(fā)展與廣泛應(yīng)用,作為綜合型應(yīng)用型人才的信息管理專業(yè)的本科生必須在掌握一定理論知識(shí)的前提下熟悉數(shù)據(jù)挖掘的實(shí)踐操作,能夠根據(jù)實(shí)際數(shù)據(jù)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的多維模型、進(jìn)行聯(lián)機(jī)分析處理,并能結(jié)合案例主動(dòng)思考分析,熟練選擇合適的數(shù)據(jù)挖掘方法解決管理領(lǐng)域的問(wèn)題,得出數(shù)據(jù)挖掘的結(jié)論。這就對(duì)數(shù)據(jù)挖掘課程的實(shí)踐教學(xué)提出了很高的要求。數(shù)據(jù)挖掘是一門與多學(xué)科交叉的綜合課程,其課程內(nèi)容豐富、課程案例和使用工具具有多樣化特征,這使得實(shí)踐教學(xué)設(shè)計(jì)的方案的可選擇性增強(qiáng)了,同時(shí)也對(duì)選擇適合的內(nèi)容、案例與工具并設(shè)計(jì)成一個(gè)完善的系統(tǒng)化的實(shí)驗(yàn)增加了難度。
二、基于建構(gòu)主義理論進(jìn)行實(shí)踐教學(xué)設(shè)計(jì)
1.建構(gòu)主義理論與實(shí)踐教學(xué)目標(biāo)。建構(gòu)主義理論強(qiáng)調(diào),學(xué)生通過(guò)以往的學(xué)習(xí)和經(jīng)歷已經(jīng)形成了對(duì)客觀事物的基本理解和認(rèn)識(shí),已具備了一定的知識(shí)結(jié)構(gòu),學(xué)習(xí)的過(guò)程是學(xué)生個(gè)人的知識(shí)儲(chǔ)備與知識(shí)結(jié)構(gòu)和外界影響相結(jié)合,并在結(jié)構(gòu)過(guò)程中繼續(xù)主動(dòng)地建構(gòu)自己新知識(shí)結(jié)構(gòu)的過(guò)程[1]。
基于建構(gòu)主義理論,給出數(shù)據(jù)挖掘課程實(shí)踐教學(xué)的主要目標(biāo)即為在原有理論知識(shí)理解的基礎(chǔ)上,在新的教學(xué)實(shí)驗(yàn)情景下不斷學(xué)習(xí)和理解,最終熟悉了實(shí)驗(yàn)情景、掌握了課程設(shè)計(jì)的應(yīng)用,還能改達(dá)到對(duì)原有知識(shí)的深刻理解,進(jìn)而能在新的實(shí)驗(yàn)情景和新的應(yīng)用案例下有啟發(fā)式的想法和思路,進(jìn)行獨(dú)立的思考和研究。具體包括:鞏固已學(xué)習(xí)知識(shí)、加深對(duì)理論知識(shí)的理解,實(shí)驗(yàn)內(nèi)容設(shè)計(jì)與教材理論體系一脈相承,有助于學(xué)生系統(tǒng)化理解本課程;深刻理解數(shù)據(jù)挖掘多步驟之間以分析為驅(qū)動(dòng)、以數(shù)據(jù)相銜接的前后關(guān)系;訓(xùn)練學(xué)生對(duì)管理問(wèn)題的抽象能力,培養(yǎng)學(xué)生學(xué)習(xí)興趣。通過(guò)管理實(shí)例深刻體會(huì)到數(shù)據(jù)挖掘方法的重要性和實(shí)用性,培養(yǎng)學(xué)生對(duì)課程的興趣,引導(dǎo)學(xué)生學(xué)會(huì)科學(xué)思考問(wèn)題、提煉問(wèn)題;熟悉主流軟件,為學(xué)生踏入數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘領(lǐng)域做好鋪墊。實(shí)驗(yàn)使用業(yè)內(nèi)流行的數(shù)據(jù)整合軟件和商務(wù)智能軟件進(jìn)行實(shí)驗(yàn)設(shè)計(jì),使得學(xué)生的實(shí)踐適應(yīng)技術(shù)的發(fā)展。
2.基于建構(gòu)主義理論選擇實(shí)驗(yàn)工具與實(shí)驗(yàn)案例。建構(gòu)主義認(rèn)為,學(xué)是與一定的情境相聯(lián)系的。學(xué)習(xí)情境是學(xué)生可以在其中進(jìn)行自由探索和自主學(xué)習(xí)的場(chǎng)所,一個(gè)良好的實(shí)踐教學(xué)情景設(shè)計(jì)對(duì)學(xué)生學(xué)習(xí)要有明顯的激發(fā)和引導(dǎo)作用。
在案例選擇時(shí),教師可以為學(xué)生提供一種典型的案例背景,在這種背景下的研究方法可以給予較多的輔導(dǎo),使學(xué)生首先熟悉實(shí)驗(yàn)工具的環(huán)境,以及實(shí)驗(yàn)工具、實(shí)驗(yàn)案例與實(shí)驗(yàn)內(nèi)容和原理的融合。再準(zhǔn)備一些其他的經(jīng)典案例供學(xué)生自由選擇,鼓勵(lì)學(xué)生用已有的知識(shí)來(lái)尋找最佳解決方案。這樣,就促進(jìn)了學(xué)生對(duì)知識(shí)、能力的遷移,并使得這一過(guò)程成為學(xué)生能力和自我有意識(shí)的調(diào)節(jié)過(guò)程。在確定軟件選擇方案方面,根據(jù)對(duì)國(guó)內(nèi)外調(diào)研情況的分析[2],數(shù)據(jù)挖掘?qū)嵺`模塊的工具的選擇,可以分為以下三種情況:一是使用基本工具編程實(shí)現(xiàn)算法;二是直接使用具備數(shù)據(jù)整合、多維數(shù)據(jù)建模等方法的商務(wù)智能工具;三是使用數(shù)據(jù)挖掘軟件進(jìn)行數(shù)據(jù)建?;蚓幊涕_發(fā)。根據(jù)信管專業(yè)培養(yǎng)方案的培養(yǎng)目標(biāo),后兩種模式較為適合??梢葬槍?duì)學(xué)生基礎(chǔ)知識(shí)的掌握情況,選擇合適的工具為學(xué)生設(shè)計(jì)綜合性實(shí)驗(yàn),并在實(shí)驗(yàn)后期留一部分自由度,讓學(xué)生自己設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)、進(jìn)行數(shù)據(jù)挖掘,并對(duì)挖掘結(jié)果進(jìn)行多種形式的展示。
3.基于建構(gòu)主義理論設(shè)計(jì)實(shí)驗(yàn)原理與內(nèi)容。建構(gòu)主義理論認(rèn)為,意義建構(gòu)是整個(gè)學(xué)習(xí)過(guò)程的最終目標(biāo),即認(rèn)識(shí)事物的性質(zhì)、規(guī)律以及事物之間的內(nèi)在聯(lián)系,通過(guò)“同化”和“順應(yīng)”來(lái)完善和豐富個(gè)體的認(rèn)知結(jié)構(gòu)[1]?!巴笔抢迷姓J(rèn)知結(jié)構(gòu)中的有關(guān)經(jīng)驗(yàn)去學(xué)習(xí)當(dāng)前的新知識(shí),并對(duì)新知識(shí)進(jìn)行過(guò)濾或改變,原有框架的一部分。如果原有經(jīng)驗(yàn)不能“同化”新知識(shí),則要引起“順應(yīng)”過(guò)程,即對(duì)原有認(rèn)知結(jié)構(gòu)進(jìn)行改造與重組。[3]
基于建構(gòu)主義理論進(jìn)行實(shí)踐教學(xué)活動(dòng)設(shè)計(jì),需要圍繞意義建構(gòu)目標(biāo)而展開,需要在安排實(shí)踐教學(xué)課程前,明確理論課程的主要框架,并遵循已有的理論框架和邏輯結(jié)構(gòu)安排實(shí)踐環(huán)節(jié),這樣學(xué)生就能夠更有效地從學(xué)習(xí)過(guò)程中理解當(dāng)前實(shí)踐內(nèi)容所反映的事物性質(zhì)、規(guī)律及其互相聯(lián)系。
實(shí)驗(yàn)原理實(shí)際就是實(shí)驗(yàn)所選擇的理論和方法基礎(chǔ),在實(shí)驗(yàn)設(shè)計(jì)時(shí)最好能依據(jù)課堂內(nèi)容進(jìn)行選擇,并注意最好選擇按照課堂內(nèi)容的順序前后銜接,這樣更加符合建構(gòu)主義的教育方法。實(shí)驗(yàn)內(nèi)容就是以與學(xué)生專業(yè)相符合的案例和案例的數(shù)據(jù),應(yīng)用實(shí)驗(yàn)原理進(jìn)行實(shí)驗(yàn)的設(shè)計(jì)。在本課程中主要的實(shí)驗(yàn)原理是:應(yīng)用數(shù)據(jù)預(yù)處理抽取、轉(zhuǎn)換和裝載方法,對(duì)原始數(shù)據(jù)進(jìn)行整合和裝載;應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的OLAP技術(shù),建立星型模式的多維數(shù)據(jù)模型,并進(jìn)行OLAP操作,應(yīng)用多維數(shù)據(jù)展示技術(shù)進(jìn)行數(shù)據(jù)展示;應(yīng)用數(shù)據(jù)挖掘分類與預(yù)測(cè)方法,對(duì)多維數(shù)據(jù)建模、預(yù)測(cè),并使用報(bào)表工具展示挖掘的結(jié)果。主要實(shí)驗(yàn)內(nèi)容包括:數(shù)據(jù)集成與轉(zhuǎn)換,使用Pervasive軟件實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)格式轉(zhuǎn)換、集成;進(jìn)行Mstr商務(wù)智能軟件的基本配置,并將實(shí)驗(yàn)1的數(shù)據(jù)裝載到軟件的數(shù)據(jù)倉(cāng)庫(kù)表中,為實(shí)驗(yàn)3做準(zhǔn)備;數(shù)據(jù)倉(cāng)庫(kù)與多維數(shù)據(jù)的OLAP操作,使用商務(wù)智能軟件針對(duì)原始數(shù)據(jù)建立星型模式多維數(shù)據(jù)模型,實(shí)現(xiàn)多維數(shù)據(jù)模型的OLAP操作,掌握商務(wù)智能軟件的數(shù)據(jù)展示功能;數(shù)據(jù)挖掘方法應(yīng)用,創(chuàng)建季度指數(shù)度量,進(jìn)行數(shù)據(jù)挖掘前的數(shù)據(jù)轉(zhuǎn)換,并創(chuàng)建訓(xùn)練度量實(shí)現(xiàn)對(duì)銷售量的預(yù)測(cè)。
4.基于建構(gòu)主義理論設(shè)計(jì)實(shí)踐教學(xué)方式和方法。在建構(gòu)主義理論下,教師需要由傳統(tǒng)的知識(shí)的傳授者與灌輸者轉(zhuǎn)而成為實(shí)踐教學(xué)的設(shè)計(jì)者、組織者、引導(dǎo)者。教師要引導(dǎo)學(xué)生形成分析問(wèn)題的思路,啟發(fā)學(xué)生對(duì)實(shí)踐活動(dòng)進(jìn)行評(píng)價(jià)、反思和討論,幫助學(xué)生深刻理解學(xué)習(xí)內(nèi)容并形成新的認(rèn)知結(jié)構(gòu)。從課程內(nèi)容安排上分析,建構(gòu)主義強(qiáng)調(diào)“支架式教學(xué)”,即為學(xué)習(xí)者的知識(shí)建構(gòu)提供一種概念框架[4]。為此,要在安排實(shí)驗(yàn)前對(duì)實(shí)驗(yàn)任務(wù)加以分解,形成逐漸遞進(jìn)式的概念框架,便于由淺入深逐步引入實(shí)踐內(nèi)容。例如,對(duì)于第三個(gè)實(shí)驗(yàn)――數(shù)據(jù)倉(cāng)庫(kù)與多維數(shù)據(jù)的OLAP操作,教師首先帶大家回顧多維數(shù)據(jù)模型的星型模式、OLAP操作和多維數(shù)據(jù)展示三部分理論課內(nèi)容,再分析案例數(shù)據(jù),引導(dǎo)學(xué)生思考如何對(duì)案例數(shù)據(jù)進(jìn)行處理,然后給出答案,加深對(duì)原來(lái)這三部分內(nèi)容的理解。從對(duì)學(xué)生的引導(dǎo)和教學(xué)方法上來(lái)說(shuō),應(yīng)該充分發(fā)揮學(xué)生的主動(dòng)性,鼓勵(lì)學(xué)生大膽探索,主動(dòng)觀察和認(rèn)識(shí)客觀事物,并鼓勵(lì)學(xué)生在在實(shí)踐中重新整合頭腦中原有的知識(shí),通過(guò)討論、思考的過(guò)程加深對(duì)客觀事物的認(rèn)識(shí)。在條件允許的前提下,為學(xué)生提供更多的案例訓(xùn)練的機(jī)會(huì),加深對(duì)知識(shí)的理解和知識(shí)架構(gòu)的豐富與完善。本實(shí)驗(yàn)選用的實(shí)驗(yàn)?zāi)J綖樾〗M討論、教師引導(dǎo)、上機(jī)實(shí)驗(yàn)相結(jié)合的方式,使用的具體方法有錄制實(shí)驗(yàn)教學(xué)視頻,引導(dǎo)學(xué)生思考初始數(shù)據(jù)蘊(yùn)含的管理問(wèn)題,畫出課程知識(shí)點(diǎn)與實(shí)驗(yàn)過(guò)程、軟件使用關(guān)系圖等方式。
三、實(shí)驗(yàn)效果與結(jié)論
使用建構(gòu)主義理論設(shè)計(jì)實(shí)踐環(huán)節(jié),事前給學(xué)生做好知識(shí)架構(gòu)的鋪墊,針對(duì)入門級(jí)實(shí)踐,進(jìn)行原理的講解與回憶、進(jìn)行實(shí)驗(yàn)過(guò)程的引導(dǎo)思考與詳細(xì)講授,同時(shí)提供更多情景資源給學(xué)生訓(xùn)練;對(duì)深入研究型的部分,給學(xué)生較大自由度,由學(xué)生自己完成。該門課程多數(shù)學(xué)生能夠獨(dú)立完成實(shí)驗(yàn)過(guò)程,并且能夠在實(shí)驗(yàn)過(guò)程中較好地理解實(shí)驗(yàn)原理,分析管理問(wèn)題。本實(shí)驗(yàn)綜合效果較好,隨著數(shù)據(jù)挖掘在信息管理專業(yè)中重要性的增強(qiáng),在教學(xué)實(shí)踐中增加課時(shí)的可能性很大,繼續(xù)使用建構(gòu)主義理論進(jìn)行實(shí)踐環(huán)節(jié)設(shè)計(jì)對(duì)學(xué)生也更有好處。
參考文獻(xiàn):
[1]張向葵.教育心理學(xué)[M].北京:中央廣播電視大學(xué)出版社,2003.
[2]韓家煒.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[3]趙學(xué)凱,趙芳.教學(xué)建設(shè)與改革[J].北京教育,2007,(01).
[4]齊宏,王愛(ài)萍.實(shí)踐教學(xué)環(huán)節(jié)的認(rèn)知理論基礎(chǔ)與教學(xué)設(shè)計(jì)[J].開放學(xué)習(xí),2007,(7).
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;成績(jī)管理
中圖分類號(hào):TP311.13
努力提高學(xué)生的成績(jī)和學(xué)生素質(zhì)是每一所高校的目標(biāo),隨著高校的辦學(xué)規(guī)模的擴(kuò)大、辦學(xué)層次多樣化,隨著社會(huì)的發(fā)展,影響學(xué)生學(xué)習(xí)成績(jī)的因素也越來(lái)越多,學(xué)生成績(jī)分析就更加重要。目前教務(wù)管理系統(tǒng)中收集了大量的學(xué)生成績(jī)數(shù)據(jù),管理者大都采用傳統(tǒng)的統(tǒng)計(jì)報(bào)表形式,對(duì)這些數(shù)據(jù)的處理還停留在數(shù)據(jù)錄入、簡(jiǎn)單的數(shù)據(jù)備份和查詢階段,有很大的局限性。
數(shù)據(jù)挖掘技術(shù)在許多領(lǐng)域,如商業(yè)、金融業(yè)以及企業(yè)的生產(chǎn)、市場(chǎng)營(yíng)銷等一些盈利行業(yè)都得到了廣泛的應(yīng)用,但在非盈利行業(yè)教育領(lǐng)域的應(yīng)用相對(duì)還較少,將數(shù)據(jù)挖掘技術(shù)引入到教務(wù)管理信息系統(tǒng)中,對(duì)教務(wù)管理系統(tǒng)中的學(xué)生成績(jī)數(shù)據(jù)進(jìn)行分析,從大量數(shù)據(jù)存在的關(guān)系、規(guī)則中研究學(xué)生成績(jī),預(yù)測(cè)成績(jī)發(fā)展趨勢(shì),從而能夠更好地指導(dǎo)教師排課和學(xué)生選課,對(duì)學(xué)生管理工作有的放矢,提高授課和學(xué)習(xí)效果能起到非常重要的作用。本文主要使用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則進(jìn)行高校學(xué)生成績(jī)分析,以找出課程之間的關(guān)聯(lián)關(guān)系,指導(dǎo)學(xué)生選課和合理的設(shè)置課程。
1 數(shù)據(jù)挖掘關(guān)聯(lián)算法
1.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是一個(gè)應(yīng)用數(shù)據(jù)分析工具從大量數(shù)據(jù)中發(fā)現(xiàn)以前未知的和隱蔽的信息,以及數(shù)據(jù)之間關(guān)系的研究領(lǐng)域。這些工具包括統(tǒng)計(jì)模型,數(shù)學(xué)算法和機(jī)器學(xué)習(xí)方法。綜合了多學(xué)科內(nèi)容的數(shù)據(jù)挖掘,把原來(lái)對(duì)知識(shí)的簡(jiǎn)單應(yīng)用,比如學(xué)生成績(jī)的操作及簡(jiǎn)單查詢等方面擴(kuò)展到了對(duì)知識(shí)信息的深度提取運(yùn)用,比如從現(xiàn)有的學(xué)生信息數(shù)據(jù)庫(kù)中挖掘?qū)W(xué)生成績(jī)有影響的屬性信息,幫助學(xué)校合理調(diào)整教學(xué)計(jì)劃,提高教學(xué)質(zhì)量。出于對(duì)此類應(yīng)用的需求,使數(shù)據(jù)挖掘這門前沿學(xué)科吸引了各個(gè)領(lǐng)域的研究者。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含的、有意義的知識(shí),主要有自動(dòng)預(yù)測(cè)趨勢(shì)和行為、關(guān)聯(lián)分析、聚類、概念描述(決策樹方法、遺傳算法)及偏差檢測(cè)。本文主要應(yīng)用了關(guān)聯(lián)規(guī)則。
1.2 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則的挖掘是為了在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)關(guān)聯(lián)關(guān)系,它是數(shù)據(jù)挖掘最先研究的問(wèn)題之一,也是數(shù)據(jù)挖掘的一個(gè)主要研究方向,起初是研究超市的顧客交易數(shù)據(jù)庫(kù)中的購(gòu)買商品之間的關(guān)聯(lián)規(guī)則的挖掘問(wèn)題,即貨物籃數(shù)據(jù)的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘的目的是找出數(shù)據(jù)庫(kù)中不同數(shù)據(jù)項(xiàng)集之間隱藏的關(guān)聯(lián)關(guān)系。
設(shè)I={i1,i2,…im}是項(xiàng)的集合。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合,其中每個(gè)事務(wù)T是項(xiàng)的集合,使得 。每個(gè)事務(wù)有一個(gè)標(biāo)識(shí)符,稱作TID。設(shè)A是一個(gè)項(xiàng)集,事務(wù)T包含A當(dāng)且僅當(dāng) 。關(guān)聯(lián)規(guī)則是諸如A=>B的蘊(yùn)涵式,其中 , ,并且 。規(guī)則的支持度和置信度是兩個(gè)規(guī)則興趣度量值,它們分別表示發(fā)現(xiàn)規(guī)則的有用性和確定性。
Sup port(A=>B)=P(A∪B) confidence(A=>B)=P(B/A)
同時(shí)滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱作強(qiáng)規(guī)則,我們用0%和100%之間的值而不是用0到1之間的值表示支持度和置信度。
1.3 Aprior算法
Aprior算法是經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法,使用一種逐層搜索的迭代方法,k項(xiàng)集用于探索(k+1)項(xiàng)集。首先,找出頻繁1項(xiàng)目集的集合,該集合記作L1,然后由L1得到L2,由L2得到L3,如此下去,直到不能找到頻繁k一項(xiàng)目集。每找一層Lk均需要一次數(shù)據(jù)庫(kù)掃描。
Apriori算法的在執(zhí)行過(guò)程中存在兩個(gè)缺點(diǎn),一個(gè)是需要多次掃描事務(wù)數(shù)據(jù)庫(kù)D,一個(gè)是可能產(chǎn)生龐大的候選集。在本文應(yīng)用中,基于劃分的優(yōu)化方法。使用劃分技術(shù),可以只需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行兩遍掃描,就可以發(fā)現(xiàn)全部頻繁集,從而大大降低對(duì)數(shù)據(jù)庫(kù)的掃描遍數(shù)。將數(shù)據(jù)庫(kù)分成許多區(qū)段,在找出頻繁項(xiàng)集時(shí),需要經(jīng)過(guò)兩步:計(jì)算各區(qū)段中項(xiàng)集的支持度,以找出各區(qū)段中的所有頻繁項(xiàng)集:將各區(qū)段中所有的頻繁項(xiàng)集合結(jié)合起來(lái)后,再掃描數(shù)據(jù)庫(kù)找出真正的頻繁項(xiàng)集合。
2 成績(jī)數(shù)據(jù)的關(guān)聯(lián)挖掘
教務(wù)管理系統(tǒng)中收集了大量的學(xué)生成績(jī)數(shù)據(jù),如學(xué)生相關(guān)可包含學(xué)號(hào)、姓名、性別、班級(jí)、年級(jí)、分?jǐn)?shù)等,教師相關(guān)可包含教師號(hào)、性別、科目、學(xué)歷、職稱、教齡等,課程相關(guān)可包含課程名稱、課程號(hào)、考試類型、考試難度等數(shù)據(jù)。采取不同的數(shù)據(jù)挖掘方法,可進(jìn)行如圖1,不同角度分析,挖掘不同的隱藏信息。挖掘獲取的信息是不可預(yù)測(cè)的,但要探索的問(wèn)題是有預(yù)見的,清晰地定義問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是重要的。
圖1 教務(wù)管理系統(tǒng)不同角度分析
2.1 數(shù)據(jù)采集、清理與轉(zhuǎn)化
大學(xué)課程之間有一定的關(guān)聯(lián)和前后順序關(guān)系,因此分析學(xué)生成績(jī)與課程之間的關(guān)系為本文重點(diǎn)研究的內(nèi)容。本文分析數(shù)據(jù)取自本校計(jì)算機(jī)學(xué)院軟件工程三本學(xué)生121名學(xué)生成績(jī),課程信息如表1,專業(yè)必修課選擇高級(jí)語(yǔ)言程序設(shè)計(jì),公共課選取大學(xué)計(jì)算機(jī)基礎(chǔ)、高數(shù)以及線性代數(shù),同時(shí)也取其高考成績(jī)作為先行成績(jī),應(yīng)用關(guān)聯(lián)規(guī)則算法分析先修課成績(jī)優(yōu)良對(duì)后修課成績(jī)的影響程度。
學(xué)生的成績(jī)信息從教務(wù)管理系統(tǒng)采集,初步收集時(shí)為EXCEL表,如圖2,需要進(jìn)行數(shù)據(jù)清理如去除空缺記錄,以及進(jìn)行數(shù)據(jù)轉(zhuǎn)換,對(duì)數(shù)據(jù)進(jìn)行規(guī)格化操作,將數(shù)據(jù)變成統(tǒng)一的格式,以適合數(shù)據(jù)挖掘。
Apriori算法只能處理布爾變量,需把數(shù)值型數(shù)據(jù)轉(zhuǎn)換為由項(xiàng)集組成的事務(wù)數(shù)據(jù)表。因?yàn)橥诰虻氖歉髡n程之間的優(yōu)秀關(guān)系,同樣使用創(chuàng)建命名計(jì)算的方法,成績(jī)?cè)?0分以上的置為“及格”,表示事務(wù)中存在該項(xiàng),將成績(jī)字段值在60分以下的置為“不及格”。建命名計(jì)算后的表的數(shù)據(jù)如圖3.
圖2 學(xué)生成績(jī)信息初始表 圖3 創(chuàng)建命名計(jì)算后數(shù)據(jù)視圖
2.2 數(shù)據(jù)分析
根據(jù)數(shù)據(jù)特點(diǎn)和應(yīng)用需要,設(shè)定最小支持度20%,最小置信度60%。算法參數(shù):Min_Support=0.2,Min_Probability=0.6。
圖4 專業(yè)課成績(jī)的關(guān)聯(lián)挖掘概率及重要性顯示
圖4顯示了滿足要求的關(guān)聯(lián)規(guī)則,顯示的規(guī)則已經(jīng)按照概率排序,規(guī)則從上到下順序編號(hào)為1-7。這些規(guī)則的概率和重要性分?jǐn)?shù)。重要性(Importance)也稱為興趣度分?jǐn)?shù)或者增益,設(shè)計(jì)重要性分?jǐn)?shù)的額目的是測(cè)試規(guī)則的有效性。重要性分?jǐn)?shù)越高,則規(guī)則的質(zhì)量越好。重要性為0表示,A和B之間沒(méi)有關(guān)聯(lián)。正的重要性分?jǐn)?shù)表示,當(dāng)A為真時(shí),B的概率會(huì)上升。負(fù)的重要性分?jǐn)?shù)表示,當(dāng)A為真時(shí),B的概率為下降。說(shuō)明線性代數(shù)取得及格(60分以上)的成績(jī)和高級(jí)語(yǔ)言程序設(shè)計(jì)成績(jī)?cè)诩案褚陨嫌泻芨叱潭鹊穆?lián)系,特別是規(guī)則4高數(shù)成績(jī)?cè)诩案竦脑?,?4.4%的概率高級(jí)語(yǔ)言程序設(shè)計(jì)成績(jī)?yōu)榧案瘛?/p>
3 總結(jié)
對(duì)于高校來(lái)說(shuō),學(xué)生信息的數(shù)據(jù)量可能達(dá)到幾萬(wàn)甚至幾十萬(wàn),我們需要考慮如何利用智能算法來(lái)挖掘潛在的知識(shí)。通過(guò)本文的研究,初步實(shí)現(xiàn)了數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績(jī)分析中的應(yīng)用。課程之間有一定的關(guān)聯(lián)和前后順序關(guān)系的,分析學(xué)生成績(jī)與課程之間的關(guān)系,得出了一些有價(jià)值的規(guī)則,以此可對(duì)教學(xué)計(jì)劃進(jìn)行合理的安排,學(xué)生也可根據(jù)自身情況合理選課。
參考文獻(xiàn):
[1]Tan,Steinbach,Kumar.Introduction to Data Mining,2004.
[2]Hartigan,J.A.(1975).Clustering Algorithms.Wiley.MR0405726.ISBN 0-471-35645-X.
[3]韓家煒.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007,3.
[4]鄒競(jìng).基于FP-growth算法的課程相關(guān)性的關(guān)聯(lián)規(guī)則研究[J].計(jì)算機(jī)與數(shù)字工程,2009,6.
作者簡(jiǎn)介:李瑩瑩,女,河南理工大學(xué)計(jì)算機(jī)學(xué)院,助教,碩士,研究方向:計(jì)算機(jī)網(wǎng)絡(luò),數(shù)據(jù)挖掘;張一民,男,河南理工大學(xué)在職研究生,研究方向:軟件,數(shù)據(jù)挖掘。
關(guān)鍵詞:數(shù)據(jù)挖掘 高校教務(wù)管理 實(shí)踐應(yīng)用
中圖分類號(hào):TP311.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2013)04-0145-01
隨著現(xiàn)代信息技術(shù)在各領(lǐng)域各行業(yè)的滲透與應(yīng)用,給現(xiàn)代人們的生活與工作方式都帶來(lái)了極大的改變。高校也不例外,在近年來(lái)高等教育信息化建設(shè)的背景下,諸多高校積極推進(jìn)數(shù)字化校園的建設(shè)。教務(wù)管理是高校常規(guī)管理工作中的核心組成部分,也是各類數(shù)據(jù)和信息龐大的聚集地。因此如何運(yùn)用現(xiàn)代信息技術(shù)來(lái)提高高校教務(wù)管理工作效率,更好地為學(xué)校發(fā)展服務(wù),是一項(xiàng)賦有現(xiàn)實(shí)意義的課題?;诖?,筆者結(jié)合工作實(shí)踐,就數(shù)據(jù)挖掘技術(shù)在高校教務(wù)管理中的應(yīng)用,作以下探討與分析:
1 數(shù)據(jù)挖掘概述
以計(jì)算機(jī)為基礎(chǔ)的現(xiàn)代信息技術(shù)的發(fā)展,推動(dòng)了各種新技術(shù)、新手段的應(yīng)用。數(shù)據(jù)挖掘(Data Mining)是一門融合了機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析和數(shù)據(jù)庫(kù)技術(shù)的作為一門交叉學(xué)科。其應(yīng)用價(jià)值在于把對(duì)數(shù)據(jù)的應(yīng)用從低層次的簡(jiǎn)單查詢,提升到有價(jià)值信息的挖掘,從而為決策提供支持。作為一種全新的信息處理技術(shù),數(shù)據(jù)挖掘已被廣泛應(yīng)用于各行業(yè)、各領(lǐng)域,并展現(xiàn)出其強(qiáng)大的應(yīng)用優(yōu)勢(shì)。在已有的研究和實(shí)踐證明,在高校教務(wù)管理系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘技術(shù)有助于提高工作效率,能為教務(wù)管理決策提供有益幫助,從而推動(dòng)高校教育教學(xué)工作的快速發(fā)展。
2 系統(tǒng)分析及設(shè)計(jì)
從當(dāng)前多數(shù)高校教務(wù)管理系統(tǒng)的建設(shè)實(shí)踐來(lái)看,一般的教學(xué)管理系統(tǒng)都屬于操作型的管理系統(tǒng),往往只具備基本的查詢和分析功能,而在決策支持方面局限性很大。比如只能對(duì)某課程考試學(xué)生的及格率,或者某一屆學(xué)生在共同英語(yǔ)、計(jì)算機(jī)考試的通過(guò)率等。教師和學(xué)生的基本情況進(jìn)行查詢或分析功能。并且這種數(shù)據(jù)的顯示或報(bào)告也是二維報(bào)表形式,教務(wù)管理工作者難以從中發(fā)現(xiàn)其動(dòng)態(tài)變化。由于高校教務(wù)管理信息會(huì)隨時(shí)間的推移而不斷積累,因此這些數(shù)據(jù)會(huì)不斷的堆積,而得不到有效利用,因此,在教務(wù)管理系統(tǒng)決策過(guò)程中其利用率是極低的。在進(jìn)行高校教務(wù)管理系統(tǒng)的數(shù)據(jù)挖掘之前,需要確定合適的數(shù)據(jù)挖掘組織結(jié)構(gòu)。當(dāng)前應(yīng)用較多的數(shù)據(jù)挖掘體系結(jié)構(gòu)模式是采取用戶訪問(wèn)層、業(yè)務(wù)邏輯層和數(shù)據(jù)層三層構(gòu)架模式,在各層之間數(shù)據(jù)和消息的傳輸借助相關(guān)接口來(lái)得以實(shí)現(xiàn)。
3 數(shù)據(jù)挖掘技術(shù)在教務(wù)系統(tǒng)中的應(yīng)用
基于上述目的,那么在具體的高校教務(wù)管理中,采取怎樣的數(shù)據(jù)挖掘技術(shù)手段就是應(yīng)當(dāng)解決的問(wèn)題。筆者結(jié)合實(shí)踐經(jīng)驗(yàn),就應(yīng)用分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析等數(shù)據(jù)挖掘技術(shù)手段在教務(wù)管理信息系統(tǒng)中的應(yīng)用,作以下介紹:
3.1 分類分析法的實(shí)踐應(yīng)用
當(dāng)前各高校推動(dòng)教育教學(xué)改革的過(guò)程中,人才培養(yǎng)方案是其重要構(gòu)成內(nèi)容。高校如何根據(jù)學(xué)生的實(shí)際情況,結(jié)合人才市場(chǎng)的需求,從而制定出科學(xué)合理的培養(yǎng)方案,是諸多高校亟需解決的問(wèn)題。而在這一決策過(guò)程中,就可以利用數(shù)據(jù)挖掘的分類分析法了。具體來(lái)說(shuō),可以對(duì)學(xué)生的性格特征、學(xué)習(xí)興趣與方法、課程設(shè)置、教學(xué)資源配置等信息數(shù)據(jù)建立起一個(gè)量的模型,進(jìn)而對(duì)其進(jìn)行分析、歸納和總結(jié),找出它們共同的特點(diǎn),按照分類的模式將其進(jìn)行劃分、歸類,將學(xué)生個(gè)性化培養(yǎng)方案概括到某個(gè)給定的范圍,既可以為學(xué)生自主性個(gè)性化學(xué)習(xí)提供更為科學(xué)有效的指導(dǎo),又可以對(duì)學(xué)校的學(xué)科課程設(shè)置提供建設(shè)性意見,從而更好地實(shí)現(xiàn)培養(yǎng)多樣化、個(gè)性化、創(chuàng)新性人才的培養(yǎng)目標(biāo)。
3.2 關(guān)聯(lián)分析的實(shí)踐應(yīng)用
關(guān)聯(lián)分析是用來(lái)發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式。所發(fā)現(xiàn)的模式通常用蘊(yùn)涵規(guī)則或特征子集的形式表示。在高校教務(wù)管理系統(tǒng)中,運(yùn)用關(guān)聯(lián)分析可以獲得良好的效果。以教學(xué)計(jì)劃編制為例,可以通過(guò)對(duì)學(xué)生選課關(guān)聯(lián)關(guān)系進(jìn)行識(shí)別,以尋求最佳排課方式;同時(shí)還可以對(duì)排課的數(shù)據(jù)進(jìn)行分析,以優(yōu)化課時(shí)的具體分配問(wèn)題。
3.3 聚類分析算法的實(shí)踐應(yīng)用
聚類分析其實(shí)是無(wú)監(jiān)督分類,其目的在于實(shí)事求是地按被處理對(duì)象的特征分類,有相同特征的對(duì)象被歸為一類。高校教務(wù)管理實(shí)踐中,運(yùn)用聚類分析算法,可以在命題質(zhì)量分析方面獲得良好的應(yīng)用效果。在高校教學(xué)管理中,課程的命題考試是在很大程度上體現(xiàn)了該課程的教學(xué)情況如何,也反映了學(xué)生學(xué)習(xí)情況和達(dá)標(biāo)情況是怎樣。因此,在進(jìn)行命題考試完成以后,就要對(duì)成績(jī)進(jìn)行分析。按照一般規(guī)律,學(xué)生學(xué)習(xí)成績(jī)應(yīng)呈正態(tài)分布。只有當(dāng)分?jǐn)?shù)較高和分?jǐn)?shù)較低兩頭比例小,中間部分比例大,說(shuō)明這次命題的試卷質(zhì)量好,試題編制較為成功。
3.4 異常檢測(cè)的應(yīng)用實(shí)踐
異常檢測(cè)的任務(wù)是識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀測(cè)值。這樣的觀測(cè)值稱為異常點(diǎn)或離群點(diǎn)。通過(guò)異常檢測(cè)算法,就能發(fā)現(xiàn)系統(tǒng)中存在的異常點(diǎn),有效地避免出現(xiàn)對(duì)信息的誤判或遺漏的現(xiàn)象。在高校教務(wù)管理實(shí)踐中,應(yīng)用異常檢測(cè)來(lái)行學(xué)籍預(yù)警,就能取得良好的效果。比如我們可以對(duì)教務(wù)系統(tǒng)里面學(xué)生對(duì)應(yīng)的信息特征進(jìn)行提取,類似于“登陸教務(wù)系統(tǒng)的頻率”、“考試成績(jī)”、“補(bǔ)考/缺考記錄”、“網(wǎng)上選課記錄”等數(shù)據(jù),當(dāng)特征值低于某一閾值的時(shí)候,學(xué)生即有可能處于“離校而未辦理學(xué)籍”等異常狀態(tài)。以此來(lái)加強(qiáng)對(duì)學(xué)生學(xué)籍問(wèn)題的管理。
4 結(jié)語(yǔ)
綜上所述,由于高校教務(wù)管理系統(tǒng)的數(shù)據(jù)隨時(shí)間的推移而不斷的增長(zhǎng),致使這一數(shù)據(jù)越來(lái)越龐大,越來(lái)越復(fù)雜。面對(duì)這種情況,運(yùn)用數(shù)據(jù)挖掘技術(shù)能是其中蘊(yùn)含有價(jià)值的關(guān)聯(lián)起來(lái),發(fā)現(xiàn)其中的利用價(jià)值,從而更好地服務(wù)于高校發(fā)展的需要。這就需要高校在這方面引起足夠的重視,采取可行的措施,進(jìn)而不斷提高數(shù)據(jù)挖掘的技術(shù)水平,以實(shí)現(xiàn)推動(dòng)高校的快速、健康發(fā)展。
參考文獻(xiàn)
[1]Dunja M.Text-Learning and Intelligent Agents.1998.
關(guān)鍵詞 數(shù)據(jù)挖掘 預(yù)警模型 關(guān)聯(lián)規(guī)則 決策樹
中圖分類號(hào):TP315 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/ki.kjdks.2015.02.074
Dynamic Warning Model of Students' Achievement
BAI Jin, LIU Linjing, ZHOU Jianghui
(Business Information College, Shanghai University of International Business and Economics, Shanghai 201600)
Abstract Through the use of the Senate Higher Educational Administration Management Information storage, development and design based on student achievement data mining dynamic warning model; the introduction of data mining association rules and decision tree method using Apriori algorithm and ID3 algorithm separately on student achievement data mining in order to find the intrinsic link between the course and they were used as association rules for student achievement warning, final comparison of the two algorithms, selecting optimum algorithm model as the final score early warning models. The warning model is beneficial for students to make early warning, to improve student achievement with good results.
Key words data mining; warning model; association rules; decision tree
0 引言
隨著高校教務(wù)管理信息系統(tǒng)的廣泛應(yīng)用,高校擁有大量學(xué)生的考試成績(jī)和教務(wù)數(shù)據(jù),國(guó)內(nèi)已有一些研究者以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ)面向這些信息展開了數(shù)據(jù)挖掘工作,如魏順平在《學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時(shí)代下教育數(shù)據(jù)的價(jià)值》一文中介紹了教育數(shù)據(jù)挖掘在我國(guó)的發(fā)展歷程及相關(guān)的概念,并提到了5類教育數(shù)據(jù)挖掘方法;①葉福蘭則利用數(shù)據(jù)挖掘技術(shù)在高校已有的教育數(shù)據(jù)上給出了學(xué)生成績(jī)預(yù)警的分析,尋找不及格課程間內(nèi)在聯(lián)系、可能聯(lián)系和關(guān)鍵因素;②劉斌、陳依潼則利用K-均值聚類方法分析學(xué)生評(píng)價(jià)方式;③以及王璇利用Apriori算法分析大學(xué)生心理狀況。④
1 基于數(shù)據(jù)挖掘技術(shù)的成績(jī)預(yù)警模型
預(yù)警主要分為兩個(gè)部分:規(guī)則產(chǎn)生和規(guī)則匹配。規(guī)則產(chǎn)生部分,預(yù)警模型接收學(xué)生成績(jī)訓(xùn)練集,從中依靠?jī)?nèi)部算法獲取符合要求的成績(jī)預(yù)警規(guī)則。規(guī)則匹配部分,預(yù)警模型接受待處理學(xué)生成績(jī)和課程,而后根據(jù)規(guī)則產(chǎn)生部分產(chǎn)生的規(guī)則,進(jìn)行逐一匹配、篩選,最后輸出預(yù)警信息。
如圖1所示,基于數(shù)據(jù)挖掘的成績(jī)預(yù)警模型由數(shù)據(jù)輸入/輸出接口,數(shù)據(jù)預(yù)處理模塊、預(yù)警規(guī)則挖掘模塊、成績(jī)預(yù)警規(guī)則庫(kù)和預(yù)警模塊5部分組成。其中,預(yù)警規(guī)則挖掘模塊是該模型的核心部分,它負(fù)責(zé)從輸入的訓(xùn)練集中挖掘預(yù)警規(guī)則,并將符合條件的規(guī)則儲(chǔ)存到預(yù)警規(guī)則庫(kù)中。預(yù)警模塊式將從數(shù)據(jù)預(yù)處理模塊里的學(xué)生成績(jī)和課程信息,與成績(jī)預(yù)警規(guī)則庫(kù)中的規(guī)則匹配,再根據(jù)已設(shè)定的預(yù)警條件比較,繼而決定是否生成預(yù)警信息。數(shù)據(jù)輸入/輸出接口、預(yù)警模塊可以實(shí)現(xiàn)實(shí)時(shí)的學(xué)生成績(jī)預(yù)警信息,到達(dá)動(dòng)態(tài)預(yù)警的目的。
圖1 基于數(shù)據(jù)挖掘的成績(jī)預(yù)警模型
2 基于關(guān)聯(lián)規(guī)則的成績(jī)預(yù)警模型
2.1 關(guān)聯(lián)規(guī)則和 Apriori算法
設(shè) = {,,……,}是項(xiàng)(Item)的集合。記為事務(wù)的集合,事務(wù)是項(xiàng)的集合,并且 。對(duì)應(yīng)每一個(gè)事務(wù)有唯一的標(biāo)識(shí),如事務(wù)號(hào),記作。設(shè)是一個(gè)中項(xiàng)的集合,如果 ,那么稱事務(wù)包含。項(xiàng)的集合稱為項(xiàng)集。包含個(gè)項(xiàng)的項(xiàng)集稱為項(xiàng)集。項(xiàng)集的出現(xiàn)頻率是指包含該項(xiàng)集的事務(wù)數(shù),簡(jiǎn)稱為項(xiàng)集的頻率或支持度計(jì)數(shù)。
定義1 一個(gè)關(guān)聯(lián)規(guī)則是形如 的蘊(yùn)涵式,這里 , ,并且∩= 。
定義2 規(guī)則 在事務(wù)數(shù)據(jù)中具有支持度,表示支持度S(support)是事務(wù)集中同時(shí)包含 和的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為support( ),即:
support( ) = O{:∪ ,}O/OO?00% = %
定義3 規(guī)則 在事務(wù)集中的置信度(confidence)是指包含和的事務(wù)數(shù)與包含的事務(wù)數(shù)之比,記為confidence( ),即:
confidence( ) =O{:∪ ,}O/O: ,O?00% = %
定義4 同時(shí)滿足最小支持度(min_sup)和最小可信度(min_conf)的規(guī)則稱為關(guān)聯(lián)規(guī)則,即S( )>min_sup且C( )>min_conf成立時(shí),規(guī)則 稱為強(qiáng)關(guān)聯(lián)規(guī)則。
Apriori算法是關(guān)聯(lián)規(guī)則的重要方法,是挖掘布爾型頻繁項(xiàng)目集的算法。它使用一種稱為逐層搜索的迭代方法,“K-項(xiàng)集”用于探索“K+1-項(xiàng)集”。這是一個(gè)基于兩階段頻繁集思想的方法,將關(guān)聯(lián)規(guī)則算法的設(shè)計(jì)分為兩個(gè)子問(wèn)題:①找到所有支持度大于min_sup的項(xiàng)集,即頻繁項(xiàng)集。②使用第一步找到的頻繁項(xiàng)集找到置信度大于或 最小置信度min_conf的關(guān)聯(lián)規(guī)則。
2.2 基于關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)
2.2.1 數(shù)據(jù)預(yù)處理
由于目前高校成績(jī)數(shù)據(jù)庫(kù)中存貯的成績(jī)信息主要是百分制的成績(jī)和五分制成績(jī)?yōu)橹鳎孕鑼?shí)驗(yàn)數(shù)據(jù)進(jìn)行處理、變換。本文基于關(guān)聯(lián)規(guī)則的成績(jī)預(yù)警模型方法是將學(xué)生成績(jī)變?yōu)殡x散的布爾類型數(shù)據(jù)(0,1)。具體為:將學(xué)生成績(jī)大于該科平均分的,記為0;小于該科平均分的,記為1。再添加輔助列“預(yù)警”,如果學(xué)生成績(jī)存在不及格科目,記為“Y”;不存在不及格科目的,記為“N”。一般而言,數(shù)據(jù)變換的過(guò)程需要經(jīng)歷數(shù)據(jù)選擇、數(shù)據(jù)清洗(多次成績(jī)處理和缺失成績(jī)處理)、數(shù)據(jù)集成和變換等步驟。
2.2.2 基于關(guān)聯(lián)規(guī)則挖掘結(jié)果分析
實(shí)現(xiàn)本模型的軟件環(huán)境為操作系統(tǒng)為Windows XP,采用Oracle 數(shù)據(jù)庫(kù)管理系統(tǒng)提取學(xué)生成績(jī),并使用SPSS Clementine軟件進(jìn)行數(shù)據(jù)挖掘工作。根據(jù)Clementine軟件的特點(diǎn),本實(shí)驗(yàn)選擇處理時(shí)將低于平均成績(jī)記為“1”,高于平均成績(jī)的記為“0”。這樣的目的是使本次分析出的關(guān)聯(lián)規(guī)則方向?yàn)椋簩?duì)于學(xué)生成績(jī)不及格情況下,各個(gè)課程之間的關(guān)聯(lián)性。
表1 挖掘出的規(guī)則數(shù)和類規(guī)則平均預(yù)測(cè)準(zhǔn)確率
以教務(wù)管理系統(tǒng)中導(dǎo)出信息管理與信息系統(tǒng)2010級(jí)和2011級(jí)部分學(xué)生3年的成績(jī)?yōu)橛?xùn)練集,以其余學(xué)生3年成績(jī)?yōu)闇y(cè)試集Dtest,用以挖掘課程和學(xué)生成績(jī)之間的關(guān)聯(lián)關(guān)系。并最終,選擇信息管理與信息系統(tǒng)的10門必修課程成績(jī)作為最后實(shí)驗(yàn)數(shù)據(jù)。10門課程為:數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘,數(shù)據(jù)庫(kù)原理與應(yīng)用,操作系統(tǒng),C++面向?qū)ο蟪绦蛟O(shè)計(jì),程序設(shè)計(jì)基礎(chǔ)(英),微積分(I),微積分(II),概率論,線性代數(shù)。
設(shè)={,,… }為類關(guān)聯(lián)規(guī)則的規(guī)則集。將已經(jīng)產(chǎn)生的關(guān)聯(lián)規(guī)則 ,記為(,),得到類關(guān)聯(lián)規(guī)則:(,) ,為類別。記為類別為“Y”的數(shù)據(jù)集合。定義類規(guī)則:(,)的預(yù)警準(zhǔn)確率為(),類規(guī)則集的預(yù)測(cè)準(zhǔn)確率為()。
(公式1)P()=
(公式2)()=
經(jīng)過(guò)反復(fù)試驗(yàn)、驗(yàn)證,分別設(shè)置最小支持度分別為0.40、0.37、0.34,最小置信度為0.90、0.87和0.84,在此參數(shù)條件設(shè)置下挖掘類規(guī)則集預(yù)警準(zhǔn)確率。
上文所提出的模型從上述實(shí)驗(yàn)結(jié)果看,準(zhǔn)確性在60%~70%之間。實(shí)驗(yàn)結(jié)果表明,該模型及其方法在實(shí)踐上是有效的。
3 基于決策樹算法的成績(jī)預(yù)警模型
3.1 決策樹算法
決策樹算法是一種典型的分類和預(yù)測(cè)方法,也是一種逼近離散函數(shù)值的方法。它具有算法思想簡(jiǎn)單,識(shí)別樣本效率高,對(duì)噪聲數(shù)據(jù)有很好的健壯性等優(yōu)點(diǎn)。決策樹使用樣本的自身屬性作為節(jié)點(diǎn),用屬性取值作為分支的樹型結(jié)構(gòu)。它的根節(jié)點(diǎn)是所有樣本中信息量最大的屬性。ID3算法是機(jī)器學(xué)習(xí)領(lǐng)域中最具有影響力的決策樹方法之一,采用自頂向下的遞歸方法C4.5是ID3算法的改進(jìn)算法,它增加了:能夠?qū)B續(xù)屬性離散化處理等變化。而C5.0是C4.5應(yīng)用于大數(shù)據(jù)集上的分類算法,主要在執(zhí)行效率和內(nèi)存使用方面進(jìn)行了改進(jìn)。本文采用C5.0算法進(jìn)行挖掘分析。
3.2 基于C5.0算法的發(fā)現(xiàn)
(1)數(shù)據(jù)預(yù)處理。將如表1所示的原始數(shù)據(jù),將成績(jī)分為3種:“0<成績(jī)<60”記為“差”;將“60<=成績(jī)<80”記為“一般”;將“成績(jī)=>80”記為“好”。并增加一列“預(yù)警”,將學(xué)生成績(jī)存在掛科的記為“Y”;不存在掛科的記為“N”。
(2)基于C5.0算法挖掘結(jié)果分析。使用SPSS Clementine軟件進(jìn)行分析,選擇將決策樹進(jìn)行剪枝,將科目:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘和C++面向?qū)ο蟪绦蛟O(shè)計(jì)和操作系統(tǒng)從決策樹中剪去。
最后,從決策樹中抽取的規(guī)則為(表2):
通過(guò)表2可以分析出,微積分A(I)和微積分A(II)對(duì)學(xué)生影響較大,當(dāng)該科為“一般”或者“好”時(shí),學(xué)生不屬于預(yù)警生的概率較大。當(dāng)學(xué)生數(shù)據(jù)結(jié)構(gòu)不及格時(shí)情況時(shí),學(xué)生有很大可能成為預(yù)警生。因此學(xué)校在日常教學(xué)活動(dòng)中,應(yīng)特別關(guān)注學(xué)生這幾門課程的學(xué)習(xí)。
(3)準(zhǔn)確性測(cè)試。設(shè)={,,… }為從決策樹中抽取的規(guī)則的規(guī)則集。設(shè),,…,為課程名,有個(gè)取值:{,,…,}。={,,…}為類別的集合。定義規(guī)則: = ,…, = ,then 的預(yù)警準(zhǔn)確率為,類規(guī)則集的預(yù)測(cè)準(zhǔn)確率為。
(公式3)=
(公式4)()=
通過(guò)訓(xùn)練集Dtest,本模型通過(guò)上述數(shù)據(jù)可達(dá)到60%的預(yù)警準(zhǔn)確率。實(shí)驗(yàn)結(jié)果也表明,基于決策樹技術(shù)的學(xué)生動(dòng)態(tài)成績(jī)預(yù)警模型在實(shí)踐上是有效的。但據(jù)歷史經(jīng)驗(yàn)來(lái)看,C5.0算法優(yōu)勢(shì)在與準(zhǔn)確性高,而本次試驗(yàn)準(zhǔn)確率卻為60%,初步分析是由于試驗(yàn)數(shù)據(jù)有限,對(duì)準(zhǔn)確性測(cè)試過(guò)程產(chǎn)生了一些影響。
4 結(jié)論
在將兩種方法的輸出轉(zhuǎn)化為統(tǒng)一輸出后,即兩種方法輸出都為:預(yù)警類別,因此,可直接進(jìn)行準(zhǔn)確性比較。通過(guò)比較上述兩種模型和方法,發(fā)現(xiàn)選用Apriori算法,模型預(yù)警率較高。而且C5.0算法預(yù)警率較低。對(duì)數(shù)據(jù)的噪聲較為敏感,訓(xùn)練集中的一些錯(cuò)誤會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生較大影響。當(dāng)C5.0算法訓(xùn)練集增加時(shí),C5.0的決策樹也會(huì)變化,所以當(dāng)學(xué)生成績(jī)訓(xùn)練集變化時(shí),成績(jī)決策樹變化,從而使預(yù)警規(guī)則庫(kù)發(fā)生不斷變化,這對(duì)于成績(jī)預(yù)警過(guò)程來(lái)說(shuō),是不方便的。
通過(guò)設(shè)計(jì)基于關(guān)聯(lián)規(guī)則的成績(jī)動(dòng)態(tài)預(yù)警模型,初步證明了基于數(shù)據(jù)挖掘的預(yù)警技術(shù)是有效的。隨著對(duì)應(yīng)用領(lǐng)域的不斷深入開發(fā),對(duì)基于數(shù)據(jù)挖掘的預(yù)警技術(shù)的深入研究,相信該模型、機(jī)制具有更廣闊的前景。
注釋
① 魏順平.學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時(shí)代下教育數(shù)據(jù)的價(jià)值.現(xiàn)在教育技術(shù),2013(2).
② 葉福蘭.基于數(shù)據(jù)挖掘的高校學(xué)生成績(jī)預(yù)警狀況分析.長(zhǎng)春師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2013(5).