時間:2022-07-10 09:35:10
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數據挖掘課程,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
國外很多大學都開設了數據挖掘類課程,波士頓大學的“數據管理與商務智能”課程主要包括基礎、核心技術、應用三部分。授課方式包括理論內容講授、案例教學,以及學生以團隊合作方式完成項目并進行課堂演講。從麻省理工學院開放性課程資料(斯隆管理學院)中可以看出,在每章講解一種算法之后都盡可能地安排了商務實例的分析,并在課程后期安排了客座講座的形式。國內對于數據挖掘的教學類研究成果也很多,主要集中在三類問題的研究上,較為普遍的是根據專業建立大綱的研究,例如針對電子商務專業進行大綱設計;另外也有專注研究某一種或多種適合數據挖掘或商務智能的教學方法,如專題研討法;還有的討論算法理解與程序設計、軟件應用的關系。
2、基于模塊化方法的課程內容分析
模塊化教學模式是按照程序模塊化的構想和原則來設計教學內容的一整套教學體系,它是在既定的培養目標指導下,將全部教學內容按照一定標準或規則進行分解,使其成為多個相對獨立的教學模塊,且各教學模塊之間可以按照一定的規則有選擇性的重新組合。該方法在20世紀70年代,由國際勞工組織引入教學之中,開發出以現場教學為主,以技能培訓為核心的模塊化教學模式,在很多國家得到廣泛應用。由于該教學法具有針對性、靈活性、現實性等特點,越來越受到教育界的關注。模塊化教學本質上是以知識點與實踐的細化為出發點研究,本課程的知識點細化分為兩個層次:一是從宏觀角度,參考ACM的SIGKDD的數據挖掘課程建設建議,設計課程的基礎內容模塊和高級主題模塊;二是從微觀角度,針對較為復雜的算法進行的知識點劃分。課程內容的一至五章屬于基礎內容模塊,介紹本課程的基礎理論和入門的數據挖掘技術;六至第八章介于基礎內容與高級主題之間,介紹數據挖掘的核心算法,可以根據學生情況進行靈活處理,可強調應用,也可深化算法介紹;第九、十章為高級主題模塊,可以作為擴展材料介紹應用,或為感興趣同學提供算法介紹;課程實踐模塊包含數據倉庫建設與數據挖掘算法的應用,難度居中,可以在引導學生思考的前提下給出實驗步驟,并引導學生使用類似的方法處理不同的數據。
3、基于模塊化方法進行重要知識點的模塊化分析
重要知識點內涵較為豐富,一般體現在經典數據挖掘算法上,通常一大類算法下還分有多個算法,不同算法的在難度上有漸進層次,同一種算法也有很大改進研究空間,講授彈性比較大。因此,適合使用模塊化方法進行處理,并且需要在課程設計中明確一定課時量所要達到的內容和難度。基礎部分為必選內容,介紹基本概念和基本原理;決策樹作為數據挖掘分類算法的最基礎算法也是必選內容,決策樹算法有多種分類,需要進行按照難易程度進行選擇;最后要根據難度選擇其他分類算法進行介紹。
4、結論
本文使用了模塊化教學的思想研究了數據挖掘類課程設計的過程,主要包括課程內容的模塊化處理與重要知識點的模塊化處理。對課程內容進行模塊化處理,可以方便教師實行不同的授課方式和考查方式,可以使學生從宏觀角度明確課程重點和難點提高學生的聽課效果。對知識點的內容進行模塊化處理,可以幫助學生了解哪些是基礎知識,哪些是需要擴展和探索的內容,為將來深入學習打下基礎,同時也有助于教師及時了解學生對知識點的掌握程度。對于難度跨度較大的章節,可以選用專題探討式教學方法提升學生上課的興趣、有效提高學生對知識點的理解程度,對于實踐教學環節,選用商務智能和數據挖掘軟件幫助學生理解方法的應用。隨著數據挖掘、云計算、大數據的發展,數據挖掘類課程的課時量、實踐教學環節都會在教學計劃調整過程中增加,對教學內容的模塊化分類以及相應的授課方式的研究成果仍可繼續發揮作用,并進行更深入的研究和實踐。
作者:胡敏單位:北京信息科技大學信息管理學院
課程相關性分析數據挖掘相關分析典型相關分析關聯規則一、引言
課程是實現教學內容傳遞的集中體現,是學校教育的目的性、計劃性和組織性的集中體現。課程設置規定著課程類型、課程性質、課程排序和學時分配,還規定各類各科課程的學習目標、學習內容和學習要求等,其合理與否將直接影響到所培養人才的質量,關系到學生知識面的寬度、深度、動手實踐和研究能力的高低,同時也已經成為了影響大學生就業的主要因素之一。因此,課程結構和課程內容的合理設置尤為重要。
課程相關性分析可定量描述課程之間的相關性,可根據相關系數值的大小確定課程間關系的緊密程度,然后從順序性、整體性、關聯性和連續性四個方面為優化課程設置提供參考信息,優化課程結構和課程內容。近年來,國內外教育工作研究人員開展了大量的課程相關性方面的研究,國內外多所著名高校已將課程相關性研究成果作為課程設置的基本依據。
目前課程相關性分析研究所采用的方法均基于數據分析,其方法主要包括傳統數據分析法和數據挖掘分析法兩種,而兩者又有著本質的區別。在探索數據關系時,傳統的分析方法一般是基于驗證的方法,即用戶首先對數據之間的關系做出一定的假設,然后通過數據分析來驗證假設是否正確來得出相應結論,其分析過程是基于假設驅動的演繹型分析;數據挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數據庫中自己尋找模型,數據挖掘在本質上是一個完全基于發現驅動的歸納型分析過程。
本文對課程相關性分析中的數據挖掘過程及基于數據挖掘技術的課程相關分析方法進行介紹,以期為我國高校課程的優化設置研究提供理論指導和方法借鑒。
二、數據挖掘技術
數據挖掘(Data Mining,DM)又稱數據庫中的知識發現,是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,通過使用成熟的數據挖掘模型,提取出隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識,得到數據中反映出來的數據內在的關系,從而進一步應用到具體的數據分析研究中去。數據挖掘得到的信息具有先前未知、有效和實用三個特征。
目前,數據挖掘技術的已被應用于關聯分析(Association Analysis)、概念/類別描述(Concept/Class Description)、分類與估值(Classification and Estimation)、聚類分析(Clustering Analysis)、時間序列分析(Time-Series Analysis)、偏差分析(Deviation Analysis)、孤立點分析(Outlier Analysis)等方面,隨著數據挖掘技術的發展,可能還會繼續出現新的數據挖掘功能。課程相關性分析為其關聯分析功能中的一部分,所采用的分析方法主要有相關分析法、典型相關分析法和關聯規則分析法等。
數據挖掘分析過程各步驟之間互相影響、反復調整,形成一種螺旋式上升過程,具體分析流程見圖1所示。目前已建立的數據挖掘模型有CRISP-DM模型(Cross Industry Standard Process for Data Mining)、ODDM模型(OLE DB for Data Mining)、Oracle9i數據挖掘模型等多種,對于課程相關性分析來說,具有直觀、簡單和可靠等特點的CRISP-DM模型最為適用,其模型見圖2所示。
三、基于數據挖掘的課程相關性分析方法
基于數據挖掘的課程相關性分析方法主要有相關分析法、典型相關分析法和關聯規則分析法,三種方法各具優缺點,互不可取代。
1.相關分析法
相關分析法又稱單因子相關分析法,主要用于研究兩個變量因子間的相關關系。作為教育信息多元統計分析方法的一種,相關分析法主要用于測定現象之間相關關系的規律性,據此進行預測和控制。將其用于課程相關性的探討研究,可直接量化兩門課程間的相關性,分析過程簡單、快捷,顯示方式直觀,數據可信度高。
相關分析法在課程相關性分析研究中應用,主要有以下幾個步驟:
闡明了主成分分析在數據降維的同時能夠保持原始數據的絕大部分能量信息沒有損失,是一種最優的數據描述和表示方法。通過對主成份分析理論基礎的講述,讓學生不僅掌握了主成分分析的內容和作用,搞清楚了相關的計算過程,這也對學生更好地實現主成分分析的程序設計和應用情況有了清楚的認識。對于教材中一些簡單的內容,比如數據分箱、K近鄰分類等,我們要求學生自己理解,然后隨機抽取學生為其他同學講授,這樣可以提高學生的主動性,加深學生的理解。對于一些簡單的問題,如K-means聚類的類別中心為各類樣本的均值,我們可以讓學生自己證明,提高他們的理解力。在講授其他一些內容時,比如說聚類分析,我們可以將聚類分析的各個過程用圖的形式表示出來,用空間中的點表示聚類樣本,這樣就大大增強了學生的理解。
我們在教學的過程中,也比較比較注重案例教學。例如,在講授神經網絡時,我們可以用上海證券交易所中股市中股票隨時間變化的數據為例,讓學生討論如何應用神經網絡對股票價格進行預測。人工神經網絡是一種模仿自然界動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型,能夠較好地處理具有一定復雜性的數據,在預測、擬合等方面取得了很好的應用效果。讓學生采用神經網絡進行實際數據分析和處理,可以增強他們學習的積極性,更主動地投入到學習中去。我們也要求他們使用回歸分析的方法對股票價格進行預測,然后和神經網絡預測的結果進行比較。通過這個過程,可以使學生們不但了解了神經網絡與回歸分析算法的異同,加深他們對神經網絡的認識。
加強實驗教學,增強學生動手能力
信息與計算科學專業是以信息領域為背景,數學與信息、管理相結合的交叉學科專業。該專業培養的學生具有良好的數學基礎,能熟練地使用計算機,初步具備在信息與計算科學領域的某個方向上從事科學研究,解決實際問題,設計開發有關軟件的能力。畢業生適合到企事業單位、高科技部門、高等院校、行政管理和經濟管理部門,從事科研、教學和計算機應用軟件的開發和管理工作,也可以繼續攻讀信息與計算科學及相關學科的碩士學位。從信息與計算科學專業的培養目標可以看出信息與計算科學專業的本科生不但需要掌握理論知識,還需要具有將所學知識用來解決實際問題的能力。數據挖掘作為一門應用性較強的課程,需要學生能夠運用數據挖掘知識分析和解決實際問題,要求學生能夠熟練掌握數據挖掘的程序設計,以便在將來的就業中具有更好的適應性,因此實驗環節的教學有著其必要性。基于這些原因,我們在這門課中引入實驗環節,并將其納入考核要求。我們實驗所用的基本軟件是SAS統計分析軟件。SAS軟件是一個集統計分析、報表圖形、信息系統開發和大型數據庫管理等多種強大功能為一體的大型軟件系統,是目前國際上主流的統計分析軟件之一。我們信息專業在大三時開設這門課程,之前已經學過C語言和JAVA等程序設計方法,有了一定的編程基礎,因此學習使用SAS軟件并不是特別困難。而且,在SAS軟件中,系統自帶了許多數據挖掘函數,這方便了同學們的使用。我們在平時的學習中,將一些SAS軟件的基本程序設計基礎知識先發給同學們,讓他們利用課后時間自己在個人電腦上進行熟悉,從而使得他們熟悉基本SAS程序設計方法,這樣可以在實驗課上直接運用SAS軟件進行數據挖掘程序的編寫。在實驗課上,我們主要將要實驗的內容和相關數據資料提供給同學,要求同學自己用數據挖掘的知識和SAS軟件進行編程實現,并寫出實驗分析和小結。另外,在實驗中,我們也要求學生盡可能將一些實驗結果用圖表的形式如崖底碎石圖等表示出來,以利于進一步分析。對于少部分學有余力的同學,我們也引導他們自編相關的程序。比如說在SAS軟件中進行K-均值聚類用fastclus這個函數就可以了,但是學生對程序具體實現過程可能不是很清楚。如果學生能夠將程序K-均值聚類詳細程序步驟自己編寫出來,就可以表明學生對所K-均值聚類算法也有了較清楚的認識。另外,對于屬于數學建模協會的同學,我們也引導他們將數據挖掘的知識和數學建模中某些問題相結合起來,對于以往出現的一些可以利用數據挖掘知識分析的問題讓他們利用相關的數據挖掘知識對其進行分析和求解,通過這樣的方式,可以這樣拓展這些同學的思路,也為數學建模培養了人才。
靈活的課后作業形式,提高學生的綜合能力
對于我們講授的課題,每學完一個算法,我們要求學生在網絡上搜索該方法的運用領域和技術要點,加深對該算法的理解。然后,我們讓每一個同學自己挑選一個該算法可以解決的問題,在網上搜集相關數據,寫出實現程序,并寫出相應的小論文。這也可以鍛煉學生的搜索、整理和分析處理數據的能力。對于課程中的某些案例,我們要求學生進行重新總結思考。比如在運用主成分分析進行入侵檢測的這個案例,案例中的主要指標是運用兩類樣本協方差特征根的差異進行分析和比較。我們讓學生思考該處理方法的優缺點,同時讓學生思考有沒有其他的思路,比如按照模式分類的思想來實現。即首先主成份分析進行降維,然后運用K-近鄰分類方法進行分類。另外,也讓學生思考有沒有其他的思路,比如特征降維是否可以采用其他方法,如線性鑒別分析等;而分類方法是否可以采用BP神經網絡等。進一步,我們可以讓學生比較主成份分析和線性鑒別分析有什么異同之處;K-近鄰分類和BP神經網絡運用于分類時執行過程有什么異同之處。讓學生對這些算法的理解更加透徹。另外,在課本的作業之外,我們也會自編一些題目,讓學生自己進行思考分析。比如,對于圖1雙圈圖,我們可以設置這樣的問題:將圖形的描點數據給大家,要求他們繪出圖形,說明形狀。然后要求他們運用K-means聚類聚為兩類,并且根據聚類的結果畫出圖形。然后將所得的圖形跟原始圖形進行比較,說明差異之處。通過這樣的問題,既可以使得學生對數據整理、畫圖等有一定的掌握,還使得他們熟悉了K-means聚類算法的編程過程。另外,使得他們不僅了解了K-means聚類算法的優點,也使得他們理解K-means聚類算法作為一種線性方法的局限之處。四、小結綜上所述,“數據挖掘”課的教學既要注重基本理論與方法的講解,使得學生能夠掌握數據挖掘的基本理論和知識;又要培養學生的思考和分析能力,提高他們運用數據挖掘的相關程序解決實際問題的能力。從而使得所學的知識能夠真正運用于實踐中,提高學生的綜合能力。本文嘗試對本科數據挖掘教學做一些總結,如何更好地提高《數據挖掘》這門課的教學質量,期待更多的同行共同探討。
作者:徐春明單位:鹽城師范學院數學科學學院
Data Mining and Analysis for the Personalized Teaching of Multimedia Technology Course
YANG Nan-yue
(Industrial Training Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China)
Abstract: Since personalized teaching has been implemented in multimedia technology teaching in the past five years, a lot of teaching data accumulated from multimedia technology online learning platform. The article introduced data mining and analysis technology to process these data in order to obtain support and decision-making reference for the improvement of the quality of personalized teaching. First, the snowflake model of courses selection for data warehouse was built. Then the Apriori algorithm was used to dig out the inner link between the students’ media technology achievements and the final grade. And then cluster analysis with k-means algorithm on all students’ scores was conducted. Finally, the calculated results were visualized and analyzed. Practice proved that data mining and analysis technology is a useful tool for quantitative analysis in the teaching.
Key words: data mining; snowflake model; association rule; cluster analysis; personalized teaching
我校的多媒體技術公選課面向全校各年級各專業本科生開課,因此選修本課程的學生來源較復雜,其計算機基礎參差不齊。過往統一步調的授課模式滿足不了不同層次學生的需求,所以從2011年開始,本門課程實施教學改革,以多媒體技術在線學習平臺為基礎,結合課堂授課開展個性化教學,把多媒體技術包含的四大媒體技術課程:圖像處理、音頻處理、視頻處理和動畫制作做成講座的形式,每一門課程分別包含兩到三次的講座,學生根據自己的情況選聽選學。每門媒體技術不同難易度的學習資料都放在學習平臺里,學生可以自由選擇學習資源,并通過網絡或課堂與同學和老師進行學習交流。考核方式為每一門課程最后一次講座講完后在學習平臺上進行隨堂考試,要求每位學生至少選考其中三門。本門課程期末考試也在學習平臺上進行,要求全體學生都必須參加。本教改實施五年來,學生反應良好,同時多媒體技術學習平臺網站上存在著大量學生成績和教師教學及管理過程中的相關數據,那么這些數據之間存在著怎樣的聯系,是否蘊藏著教與學之間的知識和規律?由于數據挖掘技術能夠發現隱藏在海量數據中的潛在聯系和規則,從而預測未來的發展趨勢[1],因此我們把該技術引入學習平臺中的信息資源管理系統,把大量積累的教學基礎數據建立數據倉庫[2],在這基礎上運用數據挖掘手段從中快速準確地提取出重要的信息和有價值的知識,找出影響學習成績的因素,為進一步改善個性化教學的教學質量提供數據支持和決策參考。
1 數據倉庫多維數據模型的建立
數據倉庫的邏輯數據模型是多維數據模型。目前使用的多維數據模型主要有星型模型和雪花模型。一個典型的星型模式包括一個大型的事實表和一組邏輯上圍繞這個事實表的維度表[3]。雪花模型是對星型模型的擴展,將星型模型的維度表進一步層次化,原來的各維度表被擴展為小的事實表,形成一些局部的層次區域[3-4]。建立本課程數據倉庫時,為了減少數據冗余,改善查詢性能我們采用雪花模型結構,如圖1所示。建立以學生選課為中心的選課事實表,三個主維度表“學生表”、“成績表”和“時間表”分別通過“學生鍵”、“成績鍵”和“時間鍵”與事實表直接關聯。其中,主維度表中的“學生表”和“成績表”都有各自的二級維度表,與事實表間接關聯[5]。
2 采用Apriori算法的關聯規則挖掘
關聯規則用于揭示數據與數據之間未知的相互依賴關系,即在給定的一個事物數據庫D,在基于支持度-置信度框架中,發現數據與項目之間大量有趣的相關聯系,生成所有的支持度和可信度分別高于用戶給定的最小支持度(min_sup)和最小可信度(min_conf)的關聯規則。關聯規則挖掘算法歸結為下面兩個問題:(1)找到所有支持度大于等于最小支持度(min_sup)的項目集(Item Sets),即頻繁項目集(Frequent Item Sets)。(2)使用步驟(1)找到的頻繁項目集,產生期望的規則。兩步中,第(2)步是在第(1)步的基礎上進行的,工作量非常小,因此挖掘的重點在步驟(1)上,即查找數據庫中的所有頻繁項目集和它的支持度[4]。本課題對多媒體技術課程學習平臺中所有考試成績進行關聯規則挖掘,采用Apriori算法查找頻繁項目集。
Apriori算法通過逐層迭代來找出所有的頻繁項目集L。用戶需要輸入事物數據庫D和最小支持度閥值min_sup。實現過程為:
1)單次掃描數據庫D計算出各個1項集的支持度,得到頻繁1項集構成的集合L1。
2)連接:為了產生頻繁K項集構成的集合,通過連接運算預先生成一個潛在頻繁k項集的集合Ck。
3)剪枝:利用Apriori算法“任何非頻繁的(k-1)項集必定不是頻繁k項集的子集”的性質,從Ck中刪除掉含有非頻繁子集的那些潛在k項集。
4)再次掃描數據庫D,計算Ck中各個項集的支持度。
5)剔除Ck中不滿足最小支持度的項集,得到由頻繁k項集構成的集合Lk。
Apriori算法如下:
[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠?;k++) do begin(3)Ck=apriori_gen(Lk-1); //新的潛在頻繁項集(4)for all transactions t∈D do begin(5) Ct=subset(Ck,t);//t中包含的潛在頻繁項集(6)for all candidates c∈Ct do begin(7) c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]
求出頻繁項集L后,1)對于L中的每一個頻繁項目集l,產生l的所有非空子集。2)對于l的每一個非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],則輸出規則:SL-S[4]。
本課題對近五年選修多媒體技術的學生所有成績數據進行清洗,填補空缺值,去噪,類型轉換,集成等處理后放入數據倉庫中,系統采用Apriori算法找出所有的頻繁項集。為了便于進行關聯規則的挖掘,對成績數據進行離散化處理,轉變成標稱型變量[5]。成績score(簡化為“s”)在85-100區間的表示“優秀”,標記為“1”,在70-84區間的表示“中等”,標記為“2”,在60-70區間的表示“合格”,標記為“3”。多媒體技術每門媒體技術課程:圖像處理、音頻處理、視頻處理、動畫制作和最后的期末考試分別用A、B、C、D、E表示。學生的學號用StudentID表示,那么每個學生選修的N門課和最后期末考試的成績可以表示為{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范圍是{1,2,3}。例如{ 2011204543021,A3,B1,D3,E3}表示學號為2011204543021的學生,選修了圖像處理,音頻處理和動畫制作這三門媒體技術,其中圖像處理成績為合格,音頻處理成績為優秀,動畫制作成績為合格,期末考試成績為合格,該名學生沒有選修視頻處理,故沒有這門科目的成績。
設定最小支持度閥值min_sup為3%,最小置信度閥值min_conf為70%,系統采用Apriori算法進行數據挖掘,得到滿足最小置信度閥值的規則和相應的置信度如表1。
挖掘結果分析:表1的關聯規則體現學生選修的媒體技術課程種類、科目數量與期末考試成績之間的相互關系。可以看到期末考試成績屬于中等(E2)或合格(E3)級別的,學生全選四門媒體技術比只選學三門的置信度高,即選課數量多的較容易及格或獲得中等的期末成績。另外,在選課種類方面,選B這門課,即選音頻處理的學生比較多,是一個概率比較高的事件,可能這門課內容比較少和易掌握,因此選學選考的學生就多。但這門課的成績對期末考試成績影響不明顯,說明教師這門課出的考題區分度低,沒能反映出學生的水平層次。在最小支持度閥值min_sup為3%的情況下,選A(圖像處理),C(視頻處理)和D(動畫制作)這幾門課并獲得優秀成績(A1,C1,D1)的很少,即小概率事件被過濾掉了,沒能挖掘出它們與期末成績之間的關聯性。但這幾門課程成績中等或合格與期末成績存在內在關系,也就是說如果這幾門課成績都是中等的,期末考試成績大部分都為中等,一小部分可以達到優秀。如果這幾門課成績都是合格,期末考試成績就是合格。說明這幾門課程的考題比較真實反映出學生掌握技能的實際水平,致使期末綜合性的考試成績與學生平時掌握程度相符合。這也意味著個性化教學具有一定的成效。
本課題對近五年的學生多媒體技術每科成績與期末成績進行聚類分析,把學生劃分到若干不同的類中,分析各個類的特征,從而考察實施個性化教學后的效果。設定85分,75分和65分為三個初始的聚類中心,對學生的所有成績進行聚類分析,找出同一類別學生的學號,以此為索引,查找到該類中各個學生的專業與年級,繪制出餅狀圖,再繪制出該類學生所選各門媒體技術的平均分柱狀圖,通過這幾個圖表考察不同專業不同年級學生在本門課程優秀中等合格若干成績區間的分布情況,從而檢查實施個性化教學的效果,為今后的改進方案提供參考。例如調整后得到的最終聚類中心為82分的學生,各門媒體技術的平均分和專業、年級分布如圖3~圖5所示。
從上面幾個圖可以看出,成績為優秀的學生主要來自美術、計算機和電信這幾個專業,大三、大四的學生比較多。分析其中的原因,主要是美術學院很多專業課需要用二維、三維圖像軟件或視頻軟件進行制作和處理,他們對這門課程已經有一定的基礎,所以學起來比較輕松,也容易取得高分。而計算機和電信專業中高年級的學生學習和使用軟件的能力比較強,因此掌握多媒體技術各個媒體軟件較其他專業學生快,并且能夠靈活運用,因而較易取得比較優異的成績。
最終聚類中心為64分的學生,各門媒體技術的平均分和專業、年級分布如圖6~圖8所示。
從圖中可以看出,這個類別的學生主要來自文科方向的專業,年級分布差異不大,大四所占百分比稍微比其他三個年級略高,有可能是學生們最后一年為了修滿選修課學分而選了這門課,目的是混個及格拿到學分,因此學習積極性和學習態度不佳,導致大部分成績徘徊在60來分。還有一種可能性是大四學生畢業在即,需要寫簡歷找工作,做自我介紹作品等,覺得掌握一些多媒體技術可以作為輔助工具因此選了本門課程。可惜有效學習時間明顯不如前三年充足,加上文科方向的同學計算機基礎和軟件學習能力較理工類學生薄弱,因此成績不太理想。
關鍵詞:數據挖掘技術 高等學校 教學 應用研究
中圖分類號:G421 文獻標識碼:A 文章編號:1672-3791(2013)05(a)-0201-01
21世紀是經濟和社會不斷發展,科技水平不斷提高的信息化時代,從而促進了整個社會的信息總量的增加,提高了人們利用信息技術尋找數據的能力。可是由于積累的數據不斷增多,可是在對數據進行挖掘的過程中對所隱藏的知識知知曉的方法比較少,從而就出現了數據大爆炸,而知識上出現了嚴重的匱乏這樣的現象。
隨著人們對數據庫技術上的不斷掌握和成熟,以及在數據應用上也得到相應的普及,人們積累的數據資料很多,人們累積了比較多的數據資料,可是卻沒有充分的發揮與利用數據庫里蘊含的豐富的知識和信息。由于在現代社會里數據庫的量在以幾何狀態不斷的增長著,而從數據的中,人們要在挑選技術的需求下對信息去粗存精、去偽存真愈發強烈,日益期望計算機系統能夠提供更高層次的數據分析,從而有效的幫助領導者注意到數據之間容易被戶數可是又很重要的因素,在決策上得到了更好的支持效果。同時為了跟這項要求呈現迎合現象,應挖掘數據庫的技術和發現數據庫中的知識KDD,才能順應時代的發展,得到相應的推廣和研發。
1 數據挖掘技術的具體含義和特點
數據挖掘技術的含義主要指的是從一些不完全、有噪聲、模糊的、大量的、隨機的數據當中,對其隱藏在數據里面的信息進行有效的提取,可是又不被人們事先知道,然而又十分有用的信息與知識的過程。通過比較分析數據挖掘的目標,人們可以采用一些手段和措施進行挖掘,其中包含了人工智能、集合論或者統計學等,再運用相對應的數據挖掘算法進行分析數據的基礎,在通過可視化的工具來描述奪取的模式和表達其規則。
對于數據挖掘技術而言,其通常具有以下三個特點。首先數據挖掘技術能夠有效的發現能夠表現系統局部特征和規律的模型;其次數據挖掘技術可以自動的對趨勢進行有效的預測,從而發掘新的知識;最后數據挖掘技術能夠便捷的獲取規則,并進行實時的更新。數據挖掘方法是一種開放性的思維方法,它能夠及時的使用和借鑒在模型法中的多項成果,例如神經網絡、粗糙集、樸素貝葉斯算法等方法,這些方法無一例外都被數據挖掘方法所采用。
2 數據挖掘技術的目的和挖掘的過程
首先,對于數據挖掘技術而言,其希望能夠發現以下幾方面的知識的知識:一方面是能夠有效的表現同類事物的共同性質的泛化知識;另一方面是期望能夠發現可以表現一種事物與其他事物之間的依賴或者關聯的關聯型知識;第三是期望能夠發現可以詳細的展現同類事物的共同性質的特征型知識,以及在不同事物之間存在的區別的差異型知識;最后采用數據挖掘技術還期望能夠獲得通過對歷史和當前數據的分析,能夠預測未來的預測型知識。
數據挖掘技術挖掘的過程是從大型庫中挖掘出未知的、有效的并且具有實用價值的信息,再通過相關信息的綜合比較來做出具體決策。對其而言,通常可以將其分成準備、數據挖掘、評價階段以及運用這四個階段。
3 數據挖掘技術在高等學校教學中的具體應用
3.1 了解高校學生的基本信息
采用數據挖掘技術,不僅可以實時的分析,跟蹤和了解學生的出勤狀況,而且能夠針對學生的具體年齡和個人情況進行有效的分析,在綜合的掌握和了解還可對學生的結構和組合的基礎上,來為其安排合理的課程,從而為科學合理的評價學生的綜合素質情況提供良好的理論和數據依據。可以采用可視化的技術來對學生的相關數據進行挖掘,或者給教師提供圖表和曲線圖,使教師能夠充分合理的利用學生的問題資源,來科學合理的提高教學質量。在另一方面,數據挖掘還能夠應用于網上的考試系統,挖掘考生的成績情況,從而為教師在之后的教學中更好的教導學生提供重要的幫助。
3.2 掌握學生的學習特征
所謂的學生學習特征一般包含兩方面的內容:一方面是學生進行學習上準備,另一方面則是學生的學習風格。學習準備一般包含初始能力與一般特征。學生的初始能力是指學生在學習某一特定的課程內容時,學生已經掌握的相關知識和技能,還有學生對這些學習內容的具體認識和態度。而學生的一般特征則是指學生在學習過程中能夠影響學生的心理、生理和社會的特點,包括年齡、性別、年級、認知成熟度、智力才能、學習動機、個人對學習的期望、生活經驗、文化、社會、經濟等背景因素。
3.3 教師要科學合理的設置課程
學生學校學習的過程中,其對課程的學習一般都是循序漸進的,并且相關的課程之間都有一定的聯系和前后順序關系。因此學生在學習一門比較難的課程之前一定會先選擇一些基礎課程來做好充足的準備。對于學生學習而言,不學好基礎課程,一定會對之后的課程學習帶來比較大的影響。此外,由于同一年級的學生,班級不同,因此授課教師和班級文化也會產生比較大的差異,這就會影響到學生的總體成績。因此合理科學的利用學校教學數據庫中存放的歷屆學生各門學科的考試成績,再在綜合數據挖掘技術中對關聯分析和時間序列分析的功能基礎上,從這些海量的數據中探尋出對教師教學有用的信息,總結出一些具有價值的規則與信息,從而使教師能夠找到影響學生成績的具體原因,在此基礎上對課程設置進行科學的挑選和合理的安排。
4 結語
總而言之,隨著科學技術的不斷發展和信息量的海量增加,依靠傳統方法很難在規模龐大的數據中找到科學決策的依據。因此這就需要我們借助數據挖掘技術去尋找蘊藏在數據庫中的規律,從而為科學合理的決策提供有力的支持。數據挖掘技術,作為一門輔助工具,永遠無法動搖教師在提高學生成績的地位,可是它能夠為教師的決策提供科學的依據,從而為傳統教學中很難獲取或者不能獲取的模型提供了可能。
參考文獻
[1] 惠向暉,王亞偉,蘇克勤,等.淺談數據挖掘技術及其在高等學校教學中的應用[J].北計算機科學,2010(11):41-45.
關鍵詞:學校教學;數據挖掘技術;應用
中圖分類號:G632文獻標識碼:A文章編號:1009-3044(2012)17-4177-03
1數據挖掘技術
數據挖掘始于上世紀90年代,是一門發展速度較快的交叉學科,數據挖掘技術包括人工智能、神經網絡、數理統計、模式識別、數據庫、粗糙集等技術學科,數據挖掘能夠從大量數據中挖掘到隱含的、未知的、用戶可能感興趣的、對決策存在潛在價值的知識及規則,數據挖掘過程又稱為知識發現,基本功能主要為分類、估計、預測、關聯分組、聚類、建檔、描述等。數據挖掘的對象較多,主要包括數據庫、圖像等各種結構化和非結構化的信息、文本等,有時無法直接對其進行分析,因此要通過以下步驟進行:第一,選擇數據。數據挖掘過程中所有需要的數據來源可能都不相同,可以通過不同的異數數據源來獲取數據;第二,預處理。在初始數據中,會有一些不符合形式處理或是出現偏差的例外,因此要對這些數據進行修正和剔除,為后期數據處理的正確性奠定基礎;第三,變換。將不同數據源獲得的數據轉換為同一種格式,可以利用編碼或是其他一些方式來簡化表示形式;第四,數據挖掘。利用數據挖掘算法,對變換之后的數據進行挖掘并產生期望的挖掘結果;第五,解釋或評價。將數據挖掘之后的結果用適當的方式移交給用戶。
數據挖掘技術的應用十分廣泛,在電信業、農業、工業、金融業等各個領域都得到了廣泛的應用。數據挖掘方法主要為關聯規則、決策樹、聚類分析以及遺傳算法、神經網絡等,關聯規則和決策樹是使用頻率最多、范圍最廣的兩種方法。關聯規則是數據挖掘最先研究的問題之一,也是數據挖掘中最成熟、最主要的分析方法之一,能夠揭示出數據之間的隱含關系。關聯規則首先要對數據庫中的一組對象進行關系分析,然后通過置信度和支持度來進行篩選,最后得出被認為具有價值的事實或是規律,例如購物籃的分析中,通過對銷售數據的分析發現一些客戶的購物習慣及規律。利用關聯規則最經典的是由R . Agrawal , Hnielinski , Swam等人在1994年提出的Apriori算法,在生成特定關系候選項目集的基礎之上,對數據庫進行掃描,并確定候選項目是否滿足要求。
決策樹算法主要用來解決分類問題,通過對數據進行歸納和學習,將分類過程在構建的一棵樹上進行建模,完成后,便能夠應用在數據庫中的元組得到分類結果,樹中每一個內部節點都表示了一個屬性值的檢驗,分支便表示檢驗結果,樹的葉節點代表類別。
通過上文的分析可知,數據挖掘技術具有以下特點:第一,數據處理規模較大;第二,挖掘出的知識無法預知;第三,在發現潛在規則的基礎上,要維護并管理規則;第四,規則的發現是在大樣本統計規律的基礎之上,且當置信度達到某一標準時,便認為規則成立。
2常用的數據挖掘技術
2.1關聯規則
關聯規則是指各個數據項之間相互依存的關系,發現規則的任務為從數據庫中發現一些置信度、支持度大于定閾值的強關聯規則,在大型數據庫中,每個字段之間都存在著多種多樣的關系,且都隱藏在數據庫包含的信息中,關聯規則的目的即為找出數據項之間隱藏關系。用來描述關聯規則挖掘問題的數據模型為:令I={i1,i2,i3,……,in}為屬性可能取值,也稱為數據項集,模型中ik(1≤i≤n)為數據項,I中的元素個數即為數據項集的長度,如果長度為n的數據項集,便成為n維數據項集(n-Item-set)。例如關聯規則的蘊含式為XY,且X,Y包含于1,且X∩Y=ψ,則規則XY在事務集合D中成立。一般情況下,用置信度和支持度來描述規則屬性:置信度指如果D中包括C%的X事務,且同時也包括Y,則C是關聯規則XY的置信度,置信度即為出現了數據項集X的事務中,Y相集同時出現的改了,置信度C%=The number of Transactions(X∩Y)/The number of Transaction(X)。換言之,只要數據庫中出現了X,那么Y出現的可能先變為C%;支持度指如果D中有S%的事務既包括數據項集X,也包括數據項集Y,那么S%即為關聯規則XY的支持度,支持度S%=The number of Transactions(X∩Y)/The number of Transactions(D)。支持度越大,便說明X和Y在數據庫中出現的機會越大。本著發現有意義關聯規則的原則,需要給出兩個閾值——最小支持度和最小置信度。關聯規則對給定事務集合D中所有產生滿足最小支持度及最小置信度的關聯規則進行挖掘,可將關聯規則挖掘分為兩個子問題:1)根據最小支持度,找出在數據集D中所有出現的頻繁項目集,此為關聯規則挖掘的中心問題,也是衡量關聯規則算法的一項標準;2)根據頻繁項目集以及最小置信度來形成關聯規則。
2.2決策樹算法
決策樹算法是較為常用、直觀、快速的一種分類方法,決策樹算法即創建一個樹狀結構,根據不同層次對結點進行分類,每個節點都對應一個樣本集,根節點要對應整個樣本集,內部節點應對應一個樣本集,葉節點對應一個類標志,然后根據結點包含的樣本屬性進行測試,并依據測試結果,將樣本集進行劃分,劃分出兩個或兩個以上的子集,每一個子集生成一個分支,并用測試屬性值來對分值進行標識,葉節點包含一個類標志,表示與之相對應的樣本集類別。常用的決策樹計算方法有:1) ID3算法,此為最著名的一種決策樹算法,采用的是貪心搜索選擇分裂的特征和信息理論;2) C4.5算法,此為ID3算法的改進,也是基于信息增益比的特征選擇策略以及最小描述長度的剪枝方法的首次提出,增加了缺失數據以及對連續性屬性的處理策略,并對分類規則的推導方法進行提出,對連續性屬性采用的是安全搜索二分法,對于離散型屬性,采用的是多分法;3) EC4.5算法,此種算法是C4.5的改進算法,在效率上較C4.5有一定的提高。除此之外,決策樹算法還包括很多其他算法,在處理不同的數據庫數據時,要結合數據庫特征來選擇算法。
2.3聚類分析算法
一般情況下,人們對事物進行認知采用將認知對象進行分類的方法,分為同一類的事務一般都具有較多的相似特征,聚類的任務即在沒有訓練數據樣本時,根據對象自身相似性將一組對象劃分成為一系列具有意義的子集。經常使用的聚類劃分方法為:K-means算法、PAM算法以及CLARA算法和CLARANS算法等,較為經典的聚類分析算法為K-means和擴展算法,即將對象D劃分為一組聚類{C1,C2,……Ck},始終K是要得到的聚類個數,此種算法將一個對象最多分為一個聚類,每一個聚類都是全體對象的子集之一。聚類指本著找到一組聚類中心及隸屬矩陣的目的,讓目標函數值趨近于最小,因此為了能夠解決函數值最小的問題,可以采用K-means中的爬山算法,即首先隨機選擇K個初始聚類中心,將每一個對象都分配給離它的據點,得到一組聚類,然后對當前每一個聚類中心進行計算并作為新聚點,將每個對象重新進行分配,分配要離對象最近的聚點中,如此循環計算,直到滿足終止條件位置。
3數據挖掘技術在學習特征分析中的應用
在現代教育理論的指導下,教學設計是一套能夠促進學生學習、發展的系統化程序,也是在教學問題求解過程中,側重和問題求解中方案的決策、尋找過程,其中,學習者的學習特征分析是重要的組成部分之一,我們所說的學習特征,即學生的學習風格、習慣、準備狀態等,雖然和具體學科的內容并沒有直接聯系,但是對教學者的內容組織、選擇,教學方法的選擇等都能夠產生一定影響,因此通過對學習者的學習特點進行分析,能夠明確學生的初始能力,從而確定下學習的起點,為選擇教學內容、方式方法提供參考。在利用數據挖掘技術對學習者學習特征進行分析的過程中,首先要對于學習者相關的信息和數據進行收集并整理,然后本著提高學習能力、規范學習行為、幫助學習者的目的來選擇數據挖掘的方法,例如關聯規則法或是決策樹法,根據對學習者信息和數據的分析,能夠挖掘到學習者的學習風格、習慣等,通過與教學專家進行交流或尋求幫助,能夠利用數據挖掘法挖掘到的規則來確定質量的好壞,可以采用聚類分析法來對學生進行分類,然后根據結果對學生再次進行關聯規則法的挖掘,或是決策樹法的挖掘,便能夠了解學生未來發展方向,指導學生進行專業或課程的選擇,對具有潛力的學生進行激發,提供一些鍛煉和學習的機會,有針對性的、實際性的進行教學,從而培養出不同層次、不同方面的人才。
4數據挖掘技術在教學決策中的應用
利用數據挖掘技術來輔助教學過程中的決策,主要表現在以下方面。
4.1合理設置課程
合理設計課程,即將課程之間的結構安排合理,包括開設的課程、課程的先后順序、課程之間的銜接等,通過將課程進行合理設置,能夠讓學生通過學習課程,具備相應的知識和能力。由于課程的開設本身就具有一定程度的潛在關聯和順序,因此通過數據挖掘技術能夠將潛在關聯、順序進行明確,從而找到設置課程的依據,調整課程之間的順序,達到最佳教學效果。
4.2改進教學方式方法
在教學過程中,教師會通過運用各種方式方法來完成教學任務,并達到最佳教學效果,但是何種教學效果才算是最優效果,何種方式方法能夠達到最優效果還尚不明確,因此要通過對積累的大量教學數據進行數據挖掘,來明確教學的方式方法及效果。利用數據挖掘技術的分類和聚類方法首先對學生的具體情況進行分析,然后利用回歸線和關聯規則的方法來判斷不同專業、特征的學生應當采取怎樣的方式方法進行教學,以及教學內容的深度和廣度等,讓教師能夠通過數據挖掘技術,了解不同教學對象應當使用的教學方法、內容、手段等,用發展的眼光來看待教學方法,不斷更新教學手段,激發起學生的學習興趣,從而提高教學質量。
4.3合理化考試
考試作為教育教學活動中的重要環節,能夠檢驗學生知識和能力的掌握理解程度,隨著教育改革進程的不斷加快,考試也應當隨著教育的不斷發展而變化,教師在教學過程中不能因為考試而教學,也不能因為教學而考試,考試僅僅是教學活動中的一個組成部分。考試的內容和方法要根據教學的目標、內容、方法來確定,因此想要讓教學和考試能夠和諧發展,相互促進,共同提高,就必須要利用數據挖掘技術來輔助教學決策,提高評價、考試的合理化。
5數據挖掘技術在教學評價中的應用
所謂教學評價,即根據教學目標中的要求,通過測量的工具或方法對學生學習結果進行量化描述,并對量化結果進行價值判斷。教學評價是教學管理中的重要環節之一,也是引導教育、利用教育成果、促進教育發展的重要保障,但是在傳統的教學評價方法中,有許多缺陷,主要表現為:第一,主觀因素過多,無法真實反映出客觀實際問題,由于教學管理部門采用的評價手段并不全面,因此獲得的教學評價數據也并不充分,多數教學管理部門都依據經驗來進行評價,讓自身的主觀因素來決定評價的結果;第二,內容和形式過于簡單,無法反映出教學中深層的問題,在內容方面,統計出來的數據不夠全面,直接或間接的影響教學效果的因素,如學生的基礎、教學的環境、課程的設計等都沒有表現出來,且在形式上也較為單一,多采用學生打分、網評、教師互評、考試成績等,因此,制定評估指標時,也忽視了對以往數據中隱藏信息的利用,導致教學評估評價的制定沒有歷史依據,僅僅是單純某次評估的結果,無法反映出分析數據的結果,以及教學過程中存在的問題;第三,無法起到教學評價應當具有的作用,通常來講,教學評價僅僅為了評優、晉升等活動的依據,但是實際上,教學評價的作用遠不僅如此,客觀的、良好的教學評價能夠在教學過程中發揮出積極的、正面的作用,并能夠在整體上調節、激勵、促進、控制教學活動的進行,保證教學活動能夠實現最終目標。因此,通過數據挖掘技術對學生成績、基本信息、評價信息中的數據進行處理,能夠進行深層的數據分析,并發現各因素之間的關聯性關系,從而找到隱藏的規律以及對教學效果產生影響因素之間的關系,綜合的評定、評價教學成果,保證評價的全面、多元、科學、可靠以及客觀公正,促進教學水平和質量的整體提高。總之,建立起合理的教學評價體系,能夠強化學校教學管理,提高教學質量,促進教學基本建設,促進專業課程建設,促進師資隊伍建設,從而提高學校凝聚力,增強學校競爭優勢。
6結束語
綜上所述,我們可以通過利用數據挖掘技術來明確各個要素之間的隱藏關聯關系,通過將數據挖掘技術應用在學校教學中,能夠挖掘學習者的學習特征、輔助教學決策、幫助教學評價。筆者在對數據挖掘技術進行分析和研究的基礎之上,首先對兩種常用的數據挖掘技術——關聯規則和決策樹進行敘述,然后針對數據挖掘技術在學校教學中的應用提出一些個人觀點,相信在不久的將來,數據挖掘技術能夠代替以往傳統的數據分析技術,幫助學校教育適應現代化教育的潮流,緊跟現代化教育的腳步,提升學校教學水平。
參考文獻:
[1]李瑞林.數據挖掘技術在教學過程中的應用[J].制造業自動化,2010,9(73).
[2]唐仕敏.數據挖掘技術在高校教學中的應用[J].產業與科技論壇,2011,1(38).
關鍵詞:數據挖掘技術;交互課堂;特點
課堂教學是一個具有一定周期性的過程,作為授業者的教師,通過不斷的教學實踐,對教學設計不斷地進行優化、更新、管理及評價的過程。本文探討通過數據挖掘技術建立一個可以對課堂交互中的信息進行有效整理、合理分析的信息處理模型,從而有效促進教學設計的不斷更新。
一、課堂互動中信息的特點
在課堂教學中的信息交互是通過師生人際交流、教學過程等實現的,這決定了這些信息具有以下基本特點:
1.信息采集工作量大
在課堂互動中由于交流過程中所表達的信息類型較多,包括教師的講授、提問、指示等方面的信息、教師接受學生的意見信息、教師給予學生的鼓勵表揚、對學生的建議批評、學生答問信息、學生之間的討論、思考問題等信息,還有一些是課堂上與正常教學行為不相關的其他信息、課堂外有學生的作業、教師的批改以及自身學習與發展方面信息等。對這些信息數據的采集、處理工作量比較大。
2.可量化性低
課堂內外互動中的信息絕大多數是由言語、肢體語言來交互的,其中一些類似如學生對教學內容與方式的反應、學習中的興趣愛好、教師與學生互動中交流信息等不容易進行定性量化,導致處理起來比較困難。
3.信息的包容性大
在教學互動過程中的各類信息,如教師的教學方式、教學風格、教學內容的組織、師生的個人思維動態等都包含了各種各類的信息綜合體,非常難以從這些信息的表面就判斷信息的類屬。同時這些信息有些還屬于生物信息范疇,難以分析。
4.信息的不確定性
在課堂互動教學過程中對學生當前學習狀態、知識的掌握程度的判斷是基于教師的個人理解,具有不確定性,是具有一定的誤差的。而在教學過程中對提問中學生的反應,判定學生的回答正確與否,都具有教師的主觀性。
正是由于課堂互動中的信息具有以上特征,從而使得數據信息采集工作量大,定性量化比較困難。所以很久以來從事教育信息整合的研究者常喜歡于用質的定性研究來評價,隨著當前數據處理科學的進步,如何更客觀地對課堂中的交互信息進行定性、量化、處理變得尤為重要。通過對潛在信息數據中有價值的內容的提煉、整合、處理,可以及時從里面發現有用的數據信息,從大量互動數據中找到教育規律,用以教師對教學的改進。歸根結底,我們對課堂互動中信息的數據挖掘,是為了處理過后的信息反饋與我們的教學,從而更加有效地改進我們教學系統的設計、評價等系統。
二、數據挖掘及其技術
數據挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,其目標是支持利用數據進行合理的決策。
根據信息存儲格式的不同,用于挖掘的對象有關系數據庫、面向對象數據庫、數據倉庫、文本數據源、多媒體數據庫、空間數據庫、時態數據庫、異質數據庫以及Internet等。其任務主要是關聯分析、聚類分析、分類、預測、時序模式分析等。
數據挖掘的流程包括以下過程,這些過程不是一次完成的,其中某些步驟或者全過程可能要反復進行:(1)問題的定義;(2)數據準備;(3)數據挖掘;(4)結果分析;(5)知識表示。
三、交互課堂中數據挖掘技術的應用
在交互課堂的設計中我們可以根據課堂互動信息的相關特點,通過整合數據挖掘應用的數據處理優勢,從包含海量信息的師生行動和語言互動中發掘并定性出有用的信息。然后通過對這些信息的統計等處理,讓隱藏在自然語言下的信息變成電子信息數據,通過教師對數據挖掘規則的參與,有效利用這些信息,從而產生可以指導我們教學實踐的數據挖掘結果。下面我們深入探討一下課堂交互中的數據挖掘應用。
1.課堂互動中數據挖掘的主要任務
利用數據挖掘技術可從以下三個方面對零碎的、不容易識別的課堂互動信息進行挖掘。
(1)對教師教學信息的挖掘。①對教師教學風格、特點的信息挖掘:包括對教師語言特點、提問的比率、提問的開放性程度、與學生的互動能力等主觀性因素進行量化,可視化。②對教學信息中可重復部分的挖掘:利用分類、統計、甄別等工具把一些共性的信息提煉出來,拆分教學內容,概括出課堂交互中所傳遞信息的共性點,分析交互的信息量,進行定性。還可以根據特定的課程進行分析。③教學設計、教學科目設置結構等信息:通過對不同的科目的教學設計的分析,可以了解科目類別之間的關系。通過數據挖掘后直觀地分析表和圖,系統可為教師提供教學設計對比,促進教學過程的改進。④教師對新技術應用的發現:隨著社會的發展和進步,各種各樣的信息技術手段在課堂交互中被利用,這些手段為改進課堂互動的效率提供了有效的環境。利用數據挖掘技術,對教師對新技術手段的應用效果及比例進行觀察,對新技術手段對課堂交互的促進效果進行評估。⑤師生交互的模式:師生交互的模式有多種多樣,數據挖掘利用課程、科目、交互的模式、交互的效果等等進行分析,找出各種因素之間的關聯,為教師提供基于實際應用的合理模式推薦。⑥課堂互動過程變動信息:利用定性量化的課堂交互數據,通過數據挖掘得出所需評估科目在交互過程中的變化,以提高教師對交互課堂的教學進程的把握程度。
(2)學生相關信息的挖掘。可以從以下幾個方面對學生的課堂反應和表現進行數據挖掘:①課堂參與的投入程度:首先觀察學生的參與比例,其次定性參與學生的投入程度。可以對不同的參與程度定性為全部、大多數、少數等,對參與投入的定性可以為:積極、一般。②交互的狀態:首先看交互中是不是有多方參與的信息互動,其次看互動中交互是否友善、是否合作良好。③思維反饋的狀態:通過學生的反饋及主動性的互動,來看課堂交互的思維反饋狀態是否良好。④情緒表現:首先看學生互動中是否有情感上的投入,比如緊張與愉快;其次看學生是否能根據課堂交互的進行及時轉變狀態,比如前一段談論氣氛熱烈,轉入后一段的靜靜聆聽。⑤課程狀態:首先看學生能否在課程進行中,感到有收獲感;其次看學生對后續的課程交互是否抱有期待。
日常的教學實踐證明,課堂交互中的學生投入與否,對交互的教學效果有著決定性的影響。假設學生的課堂交互狀態不夠,那么要找原因的話,就要從教師的教學設計或課堂氣氛營造上來找。我們利用學生信息的數據挖掘技術,分析學生在交互的過程中的狀態,形成直觀的信息材料,為教師課堂教學的組織的改進提供支撐,同時也可以為教師教學效果評價提供依據。
(3)教師、學生課堂交互信息的挖掘。“師生交互”是教學設計實施中的關鍵環節,交互意味著師生有語言上的交流及行為上的互動。在課堂教學交互過程中一般互動是在授課者與聽課者、課程設計與教學實際之間進行的。師生間的交互信息主要表現在師生的互動交流、教師為學生直接提供的課程內容、課程內容的問答和學生錯誤的反饋等。通過使用數據挖掘技術,深入挖掘教學中的交互信息,讓老師改進自己的教學設計及課堂行為,提高實際教學效果,實現師生之間進行有效的互動。
2.挖掘課堂中互動信息的流程
建立課堂互動信息處理的數據挖掘系統現場記錄或通過WEB在線應用收集交互信息信息的標準化和信息化處理課堂互動信息分類編碼數據信息進行轉換、處理數據挖掘挖掘結果分析反饋教學過程。
3.課堂互動信息數據挖掘方法
在數據挖掘方法的選擇上,我們主要采用數據挖掘中應用廣泛的統計學、關聯分析等方法,同時通過數據庫軟件的數據技術對信息進行處理。在挖掘課堂互動信息的時候,我們需要對時序數據庫和序列數據庫進行數據挖掘,時序數據庫中的數據是一些反映隨時間變化的序列值或事件組成的數據庫,這些值是等時間間隔采集的數據。利用統計類挖掘工具和數據庫技術可以在時序數據和序列數據的挖掘中實現對課堂教育信息的趨勢分析、相似性搜索、與時間有關數據的序列模式挖掘和周期性模式的挖掘。
4.基于課堂交互的數據挖掘系統設計
根據數據挖掘模型及課堂互動信息的特點,基于課堂交互的數據挖掘系統可由如下四個部分組成。
(1)數據采集模塊:模塊采集的信息主要包括課堂教學中教師、學生的各種行為、語言,師生間互動等信息。
(2)數據處理模塊:解決語義模糊性,數據庫按照元數據標準對數據進行清理、集成和變換,檢查數據的完整性和一致性。
(3)數據分析模塊:通過分析經過轉換的數據,根據數據挖掘的基本策略,對數據進行分析處理,得出結果并輸出。如,利用統計類數據挖掘工具對反映一般變化方向的教學趨勢變化進行分析,采用加權平均或最小乘2法對時序圖上的數據進行處理,以確定數據變化趨勢,為后續的教學決策與評價提供依據。
(4)數據評價模塊:對提取的信息進行分析,將結果與課堂教學的教育理論,學習理論相結合,根據起始目標的量規對課堂教學效果進行評價、反思教學。將有價值的信息區分出來,通過決策支持工具提交決策者。根據每個處理模塊的結果可以決定是否重新進行某些處理過程,在處理的任意階段可以返回以前階段進行再處理。在數據挖掘技術實際運用過程中,教師可以根據自身對信息需求的不同,通過對數據挖掘的一些語義規則的選擇和自定義得到不同的個性化結果。
關鍵詞:高校教育信息化;數據挖掘
中圖分類號:TP311.13
信息化社會的到來,使各種信息紛涌而至,給高校也帶來了大量的有關教育、學生等各類信息,面對如此龐大的信息量,用傳統的信息、數據提取的方式已經很難滿足高校的要求,而且大量信息所帶來的信息的消化、安全等問題,使得高校必須要借助數據挖掘的工具去提取數據中隱藏的規律和模式。
1 數據挖掘的概念及過程
1.1 數據挖掘的概念
數據挖掘是一種提取知識和信息的過程,具體來說就是從大量的、不完整的、有噪音的、模糊、隨機的在實際中應用的數據里,提取出其隱藏在內部、不被人們事先知道的信息和數據的過程。
1.2 數據挖掘的過程
數據挖掘的過程包括以下幾個方面,數據的預處理、數據的挖掘、結果的分析與應用。首先對數據進行預處理,通過數據清理去掉噪音數據,保證數據的一致,然后對多個文件或多個數據庫中的文件進行合并、壓縮數據,形成有效的數據集,便于進行數據挖掘,縮短挖掘的時間,提高挖掘質量。接下來對數據進行挖掘,根據數據的不同類型及特點,選取不同的算法,例如采用分類、神經網絡、遺傳算法等技術。最后對所得數據的結果進行分析,使其能被用戶接受和理解,然后將得出的結果運用到實踐活動中去。
2 數據挖掘在高校教育信息化中應用的必要性
目前,計算機已不單單是計算的工具,它還幫助我們分析和處理數據,從而做出科學的決策。隨著信息化社會的快速發展,人們所接觸、獲得到的數據種類不斷增多,數量也急劇上升,此時用傳統的數據分析的方法已不能更快速、更有效的幫助人們解決問題了,這就要求我們運用數據挖掘這一手段來進行工作。在教育信息化的背景下,高校管理也朝著信息化、網絡化的方向發展。在教育教學過程中,必定會積累大量的教學數據,但我們只能對其進行簡單的統計與分析,無法了解數據深層的內容。在教學評估中,教師也只能把學生的平時和期末成績作為評價一個學生的標準,無法客觀公正的做出評判。教學工作者僅憑簡單的經驗分析就做出結論,往往存在很多的漏洞,這就需要數據挖掘為我們提供一種更深層次了解數據隱藏的信息和內容的方法,使管理者做出科學的決策,及時發現學生在學習過程中出現的問題,制定行之有效的教學方法,做出正確客觀的分析評價,提升教育教學的質量和水平。可見數據挖掘具有重要的意義和必要性。
3 數據挖掘在高校教育信息化中的應用
高校教育信息化是整合先進的技術,運用到高校教育管理體系之中,使教育教學、管理工作和校園的文化生活更網絡化、信息化,提高教育質量和效率,形成一種全新的教育和管理模式。高校教育信息化所產生和積累的數據,為我們進行數據挖掘提供了有效的數據。數據挖掘可以應用到高校教育信息化的各個方面,如教學評價、課程設置、網絡教育、分析學習者特征、干預師生行為、輔助考試等方面。
3.1 教學評價
教學評價就是根據教學目標、原則的要求,利用收集到的信息對教學活動以及教學成果進行評價的過程,主要包括對學生學和對教師教的評價。隨著信息化的快速發展,高校教育信息化積累了大量的學生成績、行為紀律、處罰獎勵等數據,利用數據挖掘的方式來進行分析處理,可以客觀準確的得到學生的評價結果,及時糾正學生的不良的學習行為,同時還能盡量避免教師因主觀作用對學生做出的不公平的、不客觀的評價。將數據挖掘的關聯規則運用到教學評價的數據中,使教師能夠認識到自身的教學情況以及學生的學習和個性特點,并給予合理的意見,對今后的教學工作有一定的指導意義。
3.2 合理設置課程
高校學生所進行的課程學習是循序漸進的,對于課程的學習要一步一步按照先易后難來進行,而且由于教師、學生以及班級的文化氛圍的不同,同一年級的不同班級在學習相同課程時也存在很大的差異。這種情況下,教務管理人員和任課教師就很難根據學生的成績做出客觀、合理的判斷,從而做出教學進程的決策。因此,要借助于數據挖掘技術,從大量已有數據中挖掘出有用的信息和內容,分析各數據之間存在的關系,找到影響學生成績的因素,然后在此基礎上,對課程設置做出合理的安排。
3.3 個性化、智能化網絡教育
個性化、智能化網絡遠程教育充分的利用了數據挖掘的技術,遠程教育的順利開展得到保障。首先根據學生所提供的信息,對不同層次的學生提供不同的學習內容和模式,進行因材施教。其次,對已保存的學生的信息進行數據挖掘,利用已有的資源,對課程進行重新組合,使之更符合教學規律。最后通過對學習者學習行為進行數據挖掘,了解學習者的瀏覽模式,重新進行頁面之間的鏈接,以符合學習者的訪問習慣。
3.4 學習者特征分析
對學習者特征的分析在教育活動中具有重要的地位。它不僅是教學設計的前提,是教學成功的關鍵。學習者特征包括學習者的知識結構和學習風格。學習者的知識結構是學習者已經學習的或即將學習的內容。學習風格包括學習者的生理、心理和社會特征。利用數據挖掘來分析學習者的特征,不僅有助于學習者改進自己的學習行為,而且能提高學習者的學習能力,完善其人格,有利于學習者素質的全面、和諧發展。
3.5 干預學生行為
在干預學生行為方面也可以使用數據挖掘技術。高校的教育教學人員可以根據高校數據庫中保存的學生的家庭條件、學習狀況、獎勵處罰等情況,通過數據挖掘中分類等方法找到學生行為活動的關系,及時對做出學生下一步行為的預測,防止學生出現不良行為。例如在學校課程增多,難度加大,學生學習壓力重,而且家庭出現矛盾的情況下,學生很容易出現抑郁或偏激行為,通過數據挖掘技術,學校教務管理人員及教師可以及時做出預測,并做好預防工作,就可以有效避免這種情況的發生。
3.6 輔助考試
考試是教學環節中必不可少的一部分,也是用來考察學生學習成果的。從考試分數可以說明在一定時期內學生的學習情況,但不能說明影響成績的因素有哪些,無法得知教學中關乎成敗的關鍵因素,就不能對教師教和學生學起到促進作用。利用數據挖掘可以對學生平時的學習情況進行分析,從而做出全面的、有針對性的評價。例如可以用平時成績、作業成績、點播課件等各種平時教學中的成績進行考察,縮減期末考試成績的比重,加大對學生平時自主學習的考核。在這過程中產生的大量數據可使用數據挖掘工具進行處理、分析。考試題的質量對學生考試的分數有很大的影響。因此可以將數據挖掘應用到對試卷分析的數據庫中,通過對每道題目的難易度、區分度、相關度等的分析,教師就能夠對試題的質量做出比較客觀、準確的評價,可以更好的了解學生對所學知識的掌握和運用情況,為開展以后的教學工作提供有益的指導。
4 結束語
高校教育信息化帶來是信息量的增長和提取信息工作的難度。數據挖掘技術有效的避免了傳統信息提取的問題,更深層面的發掘隱藏的規律和模式,為教育教學工作的設計、決策、實施等方面提供了新的途徑,帶來了更多的便利。隨著科學技術的日新月異、信息技術的不斷發展,數據挖掘技術還將更廣泛的被應用到各個領域,并發揮著日益重要的作用。
參考文獻:
[1]肖自力.信息素養教育和高校圖書館的使命[J].大學圖書館學報,2011(5).
[2]劉同明.數據挖掘技術及其應用[M].北京:國防工業出版社,2010(4).
關鍵詞:實踐教學研究;建構主義理論;信息管理專業;數據挖掘
中圖分類號:G642.0?搖 文獻標志碼:A 文章編號:1674-9324(2014)15-0197-02
一、引言
隨著數據挖掘、商務智能技術的快速發展與廣泛應用,作為綜合型應用型人才的信息管理專業的本科生必須在掌握一定理論知識的前提下熟悉數據挖掘的實踐操作,能夠根據實際數據構建數據倉庫的多維模型、進行聯機分析處理,并能結合案例主動思考分析,熟練選擇合適的數據挖掘方法解決管理領域的問題,得出數據挖掘的結論。這就對數據挖掘課程的實踐教學提出了很高的要求。數據挖掘是一門與多學科交叉的綜合課程,其課程內容豐富、課程案例和使用工具具有多樣化特征,這使得實踐教學設計的方案的可選擇性增強了,同時也對選擇適合的內容、案例與工具并設計成一個完善的系統化的實驗增加了難度。
二、基于建構主義理論進行實踐教學設計
1.建構主義理論與實踐教學目標。建構主義理論強調,學生通過以往的學習和經歷已經形成了對客觀事物的基本理解和認識,已具備了一定的知識結構,學習的過程是學生個人的知識儲備與知識結構和外界影響相結合,并在結構過程中繼續主動地建構自己新知識結構的過程[1]。
基于建構主義理論,給出數據挖掘課程實踐教學的主要目標即為在原有理論知識理解的基礎上,在新的教學實驗情景下不斷學習和理解,最終熟悉了實驗情景、掌握了課程設計的應用,還能改達到對原有知識的深刻理解,進而能在新的實驗情景和新的應用案例下有啟發式的想法和思路,進行獨立的思考和研究。具體包括:鞏固已學習知識、加深對理論知識的理解,實驗內容設計與教材理論體系一脈相承,有助于學生系統化理解本課程;深刻理解數據挖掘多步驟之間以分析為驅動、以數據相銜接的前后關系;訓練學生對管理問題的抽象能力,培養學生學習興趣。通過管理實例深刻體會到數據挖掘方法的重要性和實用性,培養學生對課程的興趣,引導學生學會科學思考問題、提煉問題;熟悉主流軟件,為學生踏入數據倉庫與數據挖掘領域做好鋪墊。實驗使用業內流行的數據整合軟件和商務智能軟件進行實驗設計,使得學生的實踐適應技術的發展。
2.基于建構主義理論選擇實驗工具與實驗案例。建構主義認為,學是與一定的情境相聯系的。學習情境是學生可以在其中進行自由探索和自主學習的場所,一個良好的實踐教學情景設計對學生學習要有明顯的激發和引導作用。
在案例選擇時,教師可以為學生提供一種典型的案例背景,在這種背景下的研究方法可以給予較多的輔導,使學生首先熟悉實驗工具的環境,以及實驗工具、實驗案例與實驗內容和原理的融合。再準備一些其他的經典案例供學生自由選擇,鼓勵學生用已有的知識來尋找最佳解決方案。這樣,就促進了學生對知識、能力的遷移,并使得這一過程成為學生能力和自我有意識的調節過程。在確定軟件選擇方案方面,根據對國內外調研情況的分析[2],數據挖掘實踐模塊的工具的選擇,可以分為以下三種情況:一是使用基本工具編程實現算法;二是直接使用具備數據整合、多維數據建模等方法的商務智能工具;三是使用數據挖掘軟件進行數據建模或編程開發。根據信管專業培養方案的培養目標,后兩種模式較為適合。可以針對學生基礎知識的掌握情況,選擇合適的工具為學生設計綜合性實驗,并在實驗后期留一部分自由度,讓學生自己設計數據倉庫、進行數據挖掘,并對挖掘結果進行多種形式的展示。
3.基于建構主義理論設計實驗原理與內容。建構主義理論認為,意義建構是整個學習過程的最終目標,即認識事物的性質、規律以及事物之間的內在聯系,通過“同化”和“順應”來完善和豐富個體的認知結構[1]。“同化”是利用原有認知結構中的有關經驗去學習當前的新知識,并對新知識進行過濾或改變,原有框架的一部分。如果原有經驗不能“同化”新知識,則要引起“順應”過程,即對原有認知結構進行改造與重組。[3]
基于建構主義理論進行實踐教學活動設計,需要圍繞意義建構目標而展開,需要在安排實踐教學課程前,明確理論課程的主要框架,并遵循已有的理論框架和邏輯結構安排實踐環節,這樣學生就能夠更有效地從學習過程中理解當前實踐內容所反映的事物性質、規律及其互相聯系。
實驗原理實際就是實驗所選擇的理論和方法基礎,在實驗設計時最好能依據課堂內容進行選擇,并注意最好選擇按照課堂內容的順序前后銜接,這樣更加符合建構主義的教育方法。實驗內容就是以與學生專業相符合的案例和案例的數據,應用實驗原理進行實驗的設計。在本課程中主要的實驗原理是:應用數據預處理抽取、轉換和裝載方法,對原始數據進行整合和裝載;應用數據倉庫的OLAP技術,建立星型模式的多維數據模型,并進行OLAP操作,應用多維數據展示技術進行數據展示;應用數據挖掘分類與預測方法,對多維數據建模、預測,并使用報表工具展示挖掘的結果。主要實驗內容包括:數據集成與轉換,使用Pervasive軟件實現數據存儲格式轉換、集成;進行Mstr商務智能軟件的基本配置,并將實驗1的數據裝載到軟件的數據倉庫表中,為實驗3做準備;數據倉庫與多維數據的OLAP操作,使用商務智能軟件針對原始數據建立星型模式多維數據模型,實現多維數據模型的OLAP操作,掌握商務智能軟件的數據展示功能;數據挖掘方法應用,創建季度指數度量,進行數據挖掘前的數據轉換,并創建訓練度量實現對銷售量的預測。
4.基于建構主義理論設計實踐教學方式和方法。在建構主義理論下,教師需要由傳統的知識的傳授者與灌輸者轉而成為實踐教學的設計者、組織者、引導者。教師要引導學生形成分析問題的思路,啟發學生對實踐活動進行評價、反思和討論,幫助學生深刻理解學習內容并形成新的認知結構。從課程內容安排上分析,建構主義強調“支架式教學”,即為學習者的知識建構提供一種概念框架[4]。為此,要在安排實驗前對實驗任務加以分解,形成逐漸遞進式的概念框架,便于由淺入深逐步引入實踐內容。例如,對于第三個實驗――數據倉庫與多維數據的OLAP操作,教師首先帶大家回顧多維數據模型的星型模式、OLAP操作和多維數據展示三部分理論課內容,再分析案例數據,引導學生思考如何對案例數據進行處理,然后給出答案,加深對原來這三部分內容的理解。從對學生的引導和教學方法上來說,應該充分發揮學生的主動性,鼓勵學生大膽探索,主動觀察和認識客觀事物,并鼓勵學生在在實踐中重新整合頭腦中原有的知識,通過討論、思考的過程加深對客觀事物的認識。在條件允許的前提下,為學生提供更多的案例訓練的機會,加深對知識的理解和知識架構的豐富與完善。本實驗選用的實驗模式為小組討論、教師引導、上機實驗相結合的方式,使用的具體方法有錄制實驗教學視頻,引導學生思考初始數據蘊含的管理問題,畫出課程知識點與實驗過程、軟件使用關系圖等方式。
三、實驗效果與結論
使用建構主義理論設計實踐環節,事前給學生做好知識架構的鋪墊,針對入門級實踐,進行原理的講解與回憶、進行實驗過程的引導思考與詳細講授,同時提供更多情景資源給學生訓練;對深入研究型的部分,給學生較大自由度,由學生自己完成。該門課程多數學生能夠獨立完成實驗過程,并且能夠在實驗過程中較好地理解實驗原理,分析管理問題。本實驗綜合效果較好,隨著數據挖掘在信息管理專業中重要性的增強,在教學實踐中增加課時的可能性很大,繼續使用建構主義理論進行實踐環節設計對學生也更有好處。
參考文獻:
[1]張向葵.教育心理學[M].北京:中央廣播電視大學出版社,2003.
[2]韓家煒.數據挖掘:概念與技術[M].北京:機械工業出版社,2001.
[3]趙學凱,趙芳.教學建設與改革[J].北京教育,2007,(01).
[4]齊宏,王愛萍.實踐教學環節的認知理論基礎與教學設計[J].開放學習,2007,(7).
關鍵詞:數據挖掘;關聯規則;成績管理
中圖分類號:TP311.13
努力提高學生的成績和學生素質是每一所高校的目標,隨著高校的辦學規模的擴大、辦學層次多樣化,隨著社會的發展,影響學生學習成績的因素也越來越多,學生成績分析就更加重要。目前教務管理系統中收集了大量的學生成績數據,管理者大都采用傳統的統計報表形式,對這些數據的處理還停留在數據錄入、簡單的數據備份和查詢階段,有很大的局限性。
數據挖掘技術在許多領域,如商業、金融業以及企業的生產、市場營銷等一些盈利行業都得到了廣泛的應用,但在非盈利行業教育領域的應用相對還較少,將數據挖掘技術引入到教務管理信息系統中,對教務管理系統中的學生成績數據進行分析,從大量數據存在的關系、規則中研究學生成績,預測成績發展趨勢,從而能夠更好地指導教師排課和學生選課,對學生管理工作有的放矢,提高授課和學習效果能起到非常重要的作用。本文主要使用數據挖掘技術中的關聯規則進行高校學生成績分析,以找出課程之間的關聯關系,指導學生選課和合理的設置課程。
1 數據挖掘關聯算法
1.1 數據挖掘
數據挖掘是一個應用數據分析工具從大量數據中發現以前未知的和隱蔽的信息,以及數據之間關系的研究領域。這些工具包括統計模型,數學算法和機器學習方法。綜合了多學科內容的數據挖掘,把原來對知識的簡單應用,比如學生成績的操作及簡單查詢等方面擴展到了對知識信息的深度提取運用,比如從現有的學生信息數據庫中挖掘對學生成績有影響的屬性信息,幫助學校合理調整教學計劃,提高教學質量。出于對此類應用的需求,使數據挖掘這門前沿學科吸引了各個領域的研究者。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,主要有自動預測趨勢和行為、關聯分析、聚類、概念描述(決策樹方法、遺傳算法)及偏差檢測。本文主要應用了關聯規則。
1.2 關聯規則
關聯規則的挖掘是為了在數據庫中發現關聯關系,它是數據挖掘最先研究的問題之一,也是數據挖掘的一個主要研究方向,起初是研究超市的顧客交易數據庫中的購買商品之間的關聯規則的挖掘問題,即貨物籃數據的關聯規則。關聯規則挖掘的目的是找出數據庫中不同數據項集之間隱藏的關聯關系。
設I={i1,i2,…im}是項的集合。設任務相關的數據D是數據庫事務的集合,其中每個事務T是項的集合,使得 。每個事務有一個標識符,稱作TID。設A是一個項集,事務T包含A當且僅當 。關聯規則是諸如A=>B的蘊涵式,其中 , ,并且 。規則的支持度和置信度是兩個規則興趣度量值,它們分別表示發現規則的有用性和確定性。
Sup port(A=>B)=P(A∪B) confidence(A=>B)=P(B/A)
同時滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規則稱作強規則,我們用0%和100%之間的值而不是用0到1之間的值表示支持度和置信度。
1.3 Aprior算法
Aprior算法是經典的關聯規則挖掘算法,使用一種逐層搜索的迭代方法,k項集用于探索(k+1)項集。首先,找出頻繁1項目集的集合,該集合記作L1,然后由L1得到L2,由L2得到L3,如此下去,直到不能找到頻繁k一項目集。每找一層Lk均需要一次數據庫掃描。
Apriori算法的在執行過程中存在兩個缺點,一個是需要多次掃描事務數據庫D,一個是可能產生龐大的候選集。在本文應用中,基于劃分的優化方法。使用劃分技術,可以只需要對數據庫進行兩遍掃描,就可以發現全部頻繁集,從而大大降低對數據庫的掃描遍數。將數據庫分成許多區段,在找出頻繁項集時,需要經過兩步:計算各區段中項集的支持度,以找出各區段中的所有頻繁項集:將各區段中所有的頻繁項集合結合起來后,再掃描數據庫找出真正的頻繁項集合。
2 成績數據的關聯挖掘
教務管理系統中收集了大量的學生成績數據,如學生相關可包含學號、姓名、性別、班級、年級、分數等,教師相關可包含教師號、性別、科目、學歷、職稱、教齡等,課程相關可包含課程名稱、課程號、考試類型、考試難度等數據。采取不同的數據挖掘方法,可進行如圖1,不同角度分析,挖掘不同的隱藏信息。挖掘獲取的信息是不可預測的,但要探索的問題是有預見的,清晰地定義問題,認清數據挖掘的目的是重要的。
圖1 教務管理系統不同角度分析
2.1 數據采集、清理與轉化
大學課程之間有一定的關聯和前后順序關系,因此分析學生成績與課程之間的關系為本文重點研究的內容。本文分析數據取自本校計算機學院軟件工程三本學生121名學生成績,課程信息如表1,專業必修課選擇高級語言程序設計,公共課選取大學計算機基礎、高數以及線性代數,同時也取其高考成績作為先行成績,應用關聯規則算法分析先修課成績優良對后修課成績的影響程度。
學生的成績信息從教務管理系統采集,初步收集時為EXCEL表,如圖2,需要進行數據清理如去除空缺記錄,以及進行數據轉換,對數據進行規格化操作,將數據變成統一的格式,以適合數據挖掘。
Apriori算法只能處理布爾變量,需把數值型數據轉換為由項集組成的事務數據表。因為挖掘的是各課程之間的優秀關系,同樣使用創建命名計算的方法,成績在60分以上的置為“及格”,表示事務中存在該項,將成績字段值在60分以下的置為“不及格”。建命名計算后的表的數據如圖3.
圖2 學生成績信息初始表 圖3 創建命名計算后數據視圖
2.2 數據分析
根據數據特點和應用需要,設定最小支持度20%,最小置信度60%。算法參數:Min_Support=0.2,Min_Probability=0.6。
圖4 專業課成績的關聯挖掘概率及重要性顯示
圖4顯示了滿足要求的關聯規則,顯示的規則已經按照概率排序,規則從上到下順序編號為1-7。這些規則的概率和重要性分數。重要性(Importance)也稱為興趣度分數或者增益,設計重要性分數的額目的是測試規則的有效性。重要性分數越高,則規則的質量越好。重要性為0表示,A和B之間沒有關聯。正的重要性分數表示,當A為真時,B的概率會上升。負的重要性分數表示,當A為真時,B的概率為下降。說明線性代數取得及格(60分以上)的成績和高級語言程序設計成績在及格以上有很高程度的聯系,特別是規則4高數成績在及格的話,有94.4%的概率高級語言程序設計成績為及格。
3 總結
對于高校來說,學生信息的數據量可能達到幾萬甚至幾十萬,我們需要考慮如何利用智能算法來挖掘潛在的知識。通過本文的研究,初步實現了數據挖掘技術在高校學生成績分析中的應用。課程之間有一定的關聯和前后順序關系的,分析學生成績與課程之間的關系,得出了一些有價值的規則,以此可對教學計劃進行合理的安排,學生也可根據自身情況合理選課。
參考文獻:
[1]Tan,Steinbach,Kumar.Introduction to Data Mining,2004.
[2]Hartigan,J.A.(1975).Clustering Algorithms.Wiley.MR0405726.ISBN 0-471-35645-X.
[3]韓家煒.數據挖掘:概念與技術[M].北京:機械工業出版社,2007,3.
[4]鄒競.基于FP-growth算法的課程相關性的關聯規則研究[J].計算機與數字工程,2009,6.
作者簡介:李瑩瑩,女,河南理工大學計算機學院,助教,碩士,研究方向:計算機網絡,數據挖掘;張一民,男,河南理工大學在職研究生,研究方向:軟件,數據挖掘。
關鍵詞:數據挖掘 高校教務管理 實踐應用
中圖分類號:TP311.1 文獻標識碼:A 文章編號:1007-9416(2013)04-0145-01
隨著現代信息技術在各領域各行業的滲透與應用,給現代人們的生活與工作方式都帶來了極大的改變。高校也不例外,在近年來高等教育信息化建設的背景下,諸多高校積極推進數字化校園的建設。教務管理是高校常規管理工作中的核心組成部分,也是各類數據和信息龐大的聚集地。因此如何運用現代信息技術來提高高校教務管理工作效率,更好地為學校發展服務,是一項賦有現實意義的課題。基于此,筆者結合工作實踐,就數據挖掘技術在高校教務管理中的應用,作以下探討與分析:
1 數據挖掘概述
以計算機為基礎的現代信息技術的發展,推動了各種新技術、新手段的應用。數據挖掘(Data Mining)是一門融合了機器學習、統計分析和數據庫技術的作為一門交叉學科。其應用價值在于把對數據的應用從低層次的簡單查詢,提升到有價值信息的挖掘,從而為決策提供支持。作為一種全新的信息處理技術,數據挖掘已被廣泛應用于各行業、各領域,并展現出其強大的應用優勢。在已有的研究和實踐證明,在高校教務管理系統中應用數據挖掘技術有助于提高工作效率,能為教務管理決策提供有益幫助,從而推動高校教育教學工作的快速發展。
2 系統分析及設計
從當前多數高校教務管理系統的建設實踐來看,一般的教學管理系統都屬于操作型的管理系統,往往只具備基本的查詢和分析功能,而在決策支持方面局限性很大。比如只能對某課程考試學生的及格率,或者某一屆學生在共同英語、計算機考試的通過率等。教師和學生的基本情況進行查詢或分析功能。并且這種數據的顯示或報告也是二維報表形式,教務管理工作者難以從中發現其動態變化。由于高校教務管理信息會隨時間的推移而不斷積累,因此這些數據會不斷的堆積,而得不到有效利用,因此,在教務管理系統決策過程中其利用率是極低的。在進行高校教務管理系統的數據挖掘之前,需要確定合適的數據挖掘組織結構。當前應用較多的數據挖掘體系結構模式是采取用戶訪問層、業務邏輯層和數據層三層構架模式,在各層之間數據和消息的傳輸借助相關接口來得以實現。
3 數據挖掘技術在教務系統中的應用
基于上述目的,那么在具體的高校教務管理中,采取怎樣的數據挖掘技術手段就是應當解決的問題。筆者結合實踐經驗,就應用分類、回歸分析、聚類、關聯規則、特征、變化和偏差分析等數據挖掘技術手段在教務管理信息系統中的應用,作以下介紹:
3.1 分類分析法的實踐應用
當前各高校推動教育教學改革的過程中,人才培養方案是其重要構成內容。高校如何根據學生的實際情況,結合人才市場的需求,從而制定出科學合理的培養方案,是諸多高校亟需解決的問題。而在這一決策過程中,就可以利用數據挖掘的分類分析法了。具體來說,可以對學生的性格特征、學習興趣與方法、課程設置、教學資源配置等信息數據建立起一個量的模型,進而對其進行分析、歸納和總結,找出它們共同的特點,按照分類的模式將其進行劃分、歸類,將學生個性化培養方案概括到某個給定的范圍,既可以為學生自主性個性化學習提供更為科學有效的指導,又可以對學校的學科課程設置提供建設性意見,從而更好地實現培養多樣化、個性化、創新性人才的培養目標。
3.2 關聯分析的實踐應用
關聯分析是用來發現描述數據中強關聯特征的模式。所發現的模式通常用蘊涵規則或特征子集的形式表示。在高校教務管理系統中,運用關聯分析可以獲得良好的效果。以教學計劃編制為例,可以通過對學生選課關聯關系進行識別,以尋求最佳排課方式;同時還可以對排課的數據進行分析,以優化課時的具體分配問題。
3.3 聚類分析算法的實踐應用
聚類分析其實是無監督分類,其目的在于實事求是地按被處理對象的特征分類,有相同特征的對象被歸為一類。高校教務管理實踐中,運用聚類分析算法,可以在命題質量分析方面獲得良好的應用效果。在高校教學管理中,課程的命題考試是在很大程度上體現了該課程的教學情況如何,也反映了學生學習情況和達標情況是怎樣。因此,在進行命題考試完成以后,就要對成績進行分析。按照一般規律,學生學習成績應呈正態分布。只有當分數較高和分數較低兩頭比例小,中間部分比例大,說明這次命題的試卷質量好,試題編制較為成功。
3.4 異常檢測的應用實踐
異常檢測的任務是識別其特征顯著不同于其他數據的觀測值。這樣的觀測值稱為異常點或離群點。通過異常檢測算法,就能發現系統中存在的異常點,有效地避免出現對信息的誤判或遺漏的現象。在高校教務管理實踐中,應用異常檢測來行學籍預警,就能取得良好的效果。比如我們可以對教務系統里面學生對應的信息特征進行提取,類似于“登陸教務系統的頻率”、“考試成績”、“補考/缺考記錄”、“網上選課記錄”等數據,當特征值低于某一閾值的時候,學生即有可能處于“離校而未辦理學籍”等異常狀態。以此來加強對學生學籍問題的管理。
4 結語
綜上所述,由于高校教務管理系統的數據隨時間的推移而不斷的增長,致使這一數據越來越龐大,越來越復雜。面對這種情況,運用數據挖掘技術能是其中蘊含有價值的關聯起來,發現其中的利用價值,從而更好地服務于高校發展的需要。這就需要高校在這方面引起足夠的重視,采取可行的措施,進而不斷提高數據挖掘的技術水平,以實現推動高校的快速、健康發展。
參考文獻
[1]Dunja M.Text-Learning and Intelligent Agents.1998.
關鍵詞 數據挖掘 預警模型 關聯規則 決策樹
中圖分類號:TP315 文獻標識碼:A DOI:10.16400/ki.kjdks.2015.02.074
Dynamic Warning Model of Students' Achievement
BAI Jin, LIU Linjing, ZHOU Jianghui
(Business Information College, Shanghai University of International Business and Economics, Shanghai 201600)
Abstract Through the use of the Senate Higher Educational Administration Management Information storage, development and design based on student achievement data mining dynamic warning model; the introduction of data mining association rules and decision tree method using Apriori algorithm and ID3 algorithm separately on student achievement data mining in order to find the intrinsic link between the course and they were used as association rules for student achievement warning, final comparison of the two algorithms, selecting optimum algorithm model as the final score early warning models. The warning model is beneficial for students to make early warning, to improve student achievement with good results.
Key words data mining; warning model; association rules; decision tree
0 引言
隨著高校教務管理信息系統的廣泛應用,高校擁有大量學生的考試成績和教務數據,國內已有一些研究者以數據挖掘技術為基礎面向這些信息展開了數據挖掘工作,如魏順平在《學習分析技術:挖掘大數據時代下教育數據的價值》一文中介紹了教育數據挖掘在我國的發展歷程及相關的概念,并提到了5類教育數據挖掘方法;①葉福蘭則利用數據挖掘技術在高校已有的教育數據上給出了學生成績預警的分析,尋找不及格課程間內在聯系、可能聯系和關鍵因素;②劉斌、陳依潼則利用K-均值聚類方法分析學生評價方式;③以及王璇利用Apriori算法分析大學生心理狀況。④
1 基于數據挖掘技術的成績預警模型
預警主要分為兩個部分:規則產生和規則匹配。規則產生部分,預警模型接收學生成績訓練集,從中依靠內部算法獲取符合要求的成績預警規則。規則匹配部分,預警模型接受待處理學生成績和課程,而后根據規則產生部分產生的規則,進行逐一匹配、篩選,最后輸出預警信息。
如圖1所示,基于數據挖掘的成績預警模型由數據輸入/輸出接口,數據預處理模塊、預警規則挖掘模塊、成績預警規則庫和預警模塊5部分組成。其中,預警規則挖掘模塊是該模型的核心部分,它負責從輸入的訓練集中挖掘預警規則,并將符合條件的規則儲存到預警規則庫中。預警模塊式將從數據預處理模塊里的學生成績和課程信息,與成績預警規則庫中的規則匹配,再根據已設定的預警條件比較,繼而決定是否生成預警信息。數據輸入/輸出接口、預警模塊可以實現實時的學生成績預警信息,到達動態預警的目的。
圖1 基于數據挖掘的成績預警模型
2 基于關聯規則的成績預警模型
2.1 關聯規則和 Apriori算法
設 = {,,……,}是項(Item)的集合。記為事務的集合,事務是項的集合,并且 。對應每一個事務有唯一的標識,如事務號,記作。設是一個中項的集合,如果 ,那么稱事務包含。項的集合稱為項集。包含個項的項集稱為項集。項集的出現頻率是指包含該項集的事務數,簡稱為項集的頻率或支持度計數。
定義1 一個關聯規則是形如 的蘊涵式,這里 , ,并且∩= 。
定義2 規則 在事務數據中具有支持度,表示支持度S(support)是事務集中同時包含 和的事務數與所有事務數之比,記為support( ),即:
support( ) = O{:∪ ,}O/OO?00% = %
定義3 規則 在事務集中的置信度(confidence)是指包含和的事務數與包含的事務數之比,記為confidence( ),即:
confidence( ) =O{:∪ ,}O/O: ,O?00% = %
定義4 同時滿足最小支持度(min_sup)和最小可信度(min_conf)的規則稱為關聯規則,即S( )>min_sup且C( )>min_conf成立時,規則 稱為強關聯規則。
Apriori算法是關聯規則的重要方法,是挖掘布爾型頻繁項目集的算法。它使用一種稱為逐層搜索的迭代方法,“K-項集”用于探索“K+1-項集”。這是一個基于兩階段頻繁集思想的方法,將關聯規則算法的設計分為兩個子問題:①找到所有支持度大于min_sup的項集,即頻繁項集。②使用第一步找到的頻繁項集找到置信度大于或 最小置信度min_conf的關聯規則。
2.2 基于關聯規則的發現
2.2.1 數據預處理
由于目前高校成績數據庫中存貯的成績信息主要是百分制的成績和五分制成績為主,所以需將實驗數據進行處理、變換。本文基于關聯規則的成績預警模型方法是將學生成績變為離散的布爾類型數據(0,1)。具體為:將學生成績大于該科平均分的,記為0;小于該科平均分的,記為1。再添加輔助列“預警”,如果學生成績存在不及格科目,記為“Y”;不存在不及格科目的,記為“N”。一般而言,數據變換的過程需要經歷數據選擇、數據清洗(多次成績處理和缺失成績處理)、數據集成和變換等步驟。
2.2.2 基于關聯規則挖掘結果分析
實現本模型的軟件環境為操作系統為Windows XP,采用Oracle 數據庫管理系統提取學生成績,并使用SPSS Clementine軟件進行數據挖掘工作。根據Clementine軟件的特點,本實驗選擇處理時將低于平均成績記為“1”,高于平均成績的記為“0”。這樣的目的是使本次分析出的關聯規則方向為:對于學生成績不及格情況下,各個課程之間的關聯性。
表1 挖掘出的規則數和類規則平均預測準確率
以教務管理系統中導出信息管理與信息系統2010級和2011級部分學生3年的成績為訓練集,以其余學生3年成績為測試集Dtest,用以挖掘課程和學生成績之間的關聯關系。并最終,選擇信息管理與信息系統的10門必修課程成績作為最后實驗數據。10門課程為:數據結構,數據倉庫與數據挖掘,數據庫原理與應用,操作系統,C++面向對象程序設計,程序設計基礎(英),微積分(I),微積分(II),概率論,線性代數。
設={,,… }為類關聯規則的規則集。將已經產生的關聯規則 ,記為(,),得到類關聯規則:(,) ,為類別。記為類別為“Y”的數據集合。定義類規則:(,)的預警準確率為(),類規則集的預測準確率為()。
(公式1)P()=
(公式2)()=
經過反復試驗、驗證,分別設置最小支持度分別為0.40、0.37、0.34,最小置信度為0.90、0.87和0.84,在此參數條件設置下挖掘類規則集預警準確率。
上文所提出的模型從上述實驗結果看,準確性在60%~70%之間。實驗結果表明,該模型及其方法在實踐上是有效的。
3 基于決策樹算法的成績預警模型
3.1 決策樹算法
決策樹算法是一種典型的分類和預測方法,也是一種逼近離散函數值的方法。它具有算法思想簡單,識別樣本效率高,對噪聲數據有很好的健壯性等優點。決策樹使用樣本的自身屬性作為節點,用屬性取值作為分支的樹型結構。它的根節點是所有樣本中信息量最大的屬性。ID3算法是機器學習領域中最具有影響力的決策樹方法之一,采用自頂向下的遞歸方法C4.5是ID3算法的改進算法,它增加了:能夠對連續屬性離散化處理等變化。而C5.0是C4.5應用于大數據集上的分類算法,主要在執行效率和內存使用方面進行了改進。本文采用C5.0算法進行挖掘分析。
3.2 基于C5.0算法的發現
(1)數據預處理。將如表1所示的原始數據,將成績分為3種:“0<成績<60”記為“差”;將“60<=成績<80”記為“一般”;將“成績=>80”記為“好”。并增加一列“預警”,將學生成績存在掛科的記為“Y”;不存在掛科的記為“N”。
(2)基于C5.0算法挖掘結果分析。使用SPSS Clementine軟件進行分析,選擇將決策樹進行剪枝,將科目:數據倉庫與數據挖掘和C++面向對象程序設計和操作系統從決策樹中剪去。
最后,從決策樹中抽取的規則為(表2):
通過表2可以分析出,微積分A(I)和微積分A(II)對學生影響較大,當該科為“一般”或者“好”時,學生不屬于預警生的概率較大。當學生數據結構不及格時情況時,學生有很大可能成為預警生。因此學校在日常教學活動中,應特別關注學生這幾門課程的學習。
(3)準確性測試。設={,,… }為從決策樹中抽取的規則的規則集。設,,…,為課程名,有個取值:{,,…,}。={,,…}為類別的集合。定義規則: = ,…, = ,then 的預警準確率為,類規則集的預測準確率為。
(公式3)=
(公式4)()=
通過訓練集Dtest,本模型通過上述數據可達到60%的預警準確率。實驗結果也表明,基于決策樹技術的學生動態成績預警模型在實踐上是有效的。但據歷史經驗來看,C5.0算法優勢在與準確性高,而本次試驗準確率卻為60%,初步分析是由于試驗數據有限,對準確性測試過程產生了一些影響。
4 結論
在將兩種方法的輸出轉化為統一輸出后,即兩種方法輸出都為:預警類別,因此,可直接進行準確性比較。通過比較上述兩種模型和方法,發現選用Apriori算法,模型預警率較高。而且C5.0算法預警率較低。對數據的噪聲較為敏感,訓練集中的一些錯誤會對實驗結果產生較大影響。當C5.0算法訓練集增加時,C5.0的決策樹也會變化,所以當學生成績訓練集變化時,成績決策樹變化,從而使預警規則庫發生不斷變化,這對于成績預警過程來說,是不方便的。
通過設計基于關聯規則的成績動態預警模型,初步證明了基于數據挖掘的預警技術是有效的。隨著對應用領域的不斷深入開發,對基于數據挖掘的預警技術的深入研究,相信該模型、機制具有更廣闊的前景。
注釋
① 魏順平.學習分析技術:挖掘大數據時代下教育數據的價值.現在教育技術,2013(2).
② 葉福蘭.基于數據挖掘的高校學生成績預警狀況分析.長春師范學院學報(自然科學版),2013(5).