時(shí)間:2022-11-25 15:36:49
開(kāi)篇:寫(xiě)作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數(shù)據(jù)挖掘總結(jié),希望這些內(nèi)容能成為您創(chuàng)作過(guò)程中的良師益友,陪伴您不斷探索和進(jìn)步。
關(guān)鍵詞:數(shù)據(jù)挖掘;應(yīng)用;研究
一 、數(shù)據(jù)挖掘
隨著數(shù)據(jù)庫(kù)技術(shù)的廣泛使用,以及計(jì)算技術(shù)和計(jì)算機(jī)性能與網(wǎng)絡(luò)的迅速發(fā)展,人們面臨著一個(gè)困難的問(wèn)題,即如何從海量的數(shù)據(jù)中提取出有價(jià)值的信息。查詢功能遠(yuǎn)不能滿足人們的需要,數(shù)據(jù)挖掘應(yīng)運(yùn)而生。有人將數(shù)據(jù)挖掘定義為一個(gè)從數(shù)據(jù)及數(shù)據(jù)庫(kù)中抽取隱含的,先前未知的并有潛在價(jià)值的信息的過(guò)程。但有人認(rèn)為數(shù)據(jù)挖掘,即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是從大數(shù)據(jù)集中快速高效地發(fā)現(xiàn)令人感興趣的規(guī)則,數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)研究的新領(lǐng)域,所挖掘的知識(shí)能夠用于信息、管理、查詢處理、決策支持和過(guò)程控制等等。
數(shù)據(jù)挖掘(DataMining)是通過(guò)分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示三個(gè)步驟。隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展和普遍使用,數(shù)據(jù)挖掘成為迫切需要研究的重要
課題。
數(shù)據(jù)挖掘涉及多個(gè)學(xué)科方向,主要包括:數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)和人工智能等。數(shù)據(jù)挖掘可按數(shù)據(jù)庫(kù)類型、挖掘?qū)ο蟆⑼诰蛉蝿?wù)、挖掘方法與技術(shù)以及應(yīng)用等幾方面進(jìn)行分類。按數(shù)據(jù)庫(kù)類型分類:關(guān)系數(shù)據(jù)挖掘、模糊數(shù)據(jù)挖掘、歷史數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘等多種不同數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘類型。按數(shù)據(jù)挖掘?qū)ο蠓诸悾何谋緮?shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘。按數(shù)據(jù)挖掘的任務(wù)有:關(guān)聯(lián)分析、時(shí)序模式、聚類、分類、偏差檢測(cè)、預(yù)測(cè)等。按數(shù)據(jù)挖掘方法和技術(shù)分類:歸納學(xué)習(xí)類、仿生物技術(shù)類、公式發(fā)現(xiàn)類、統(tǒng)計(jì)分析類、模糊數(shù)學(xué)類、可視化技術(shù)類。
二、數(shù)據(jù)挖掘的主要任務(wù)
(一)數(shù)據(jù)總結(jié)
數(shù)據(jù)總結(jié)目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的總體綜合描述。通過(guò)對(duì)數(shù)據(jù)的總結(jié),數(shù)據(jù)挖掘能夠?qū)?shù)據(jù)庫(kù)中的有關(guān)數(shù)據(jù)從較低的個(gè)體層次抽象總結(jié)到較高的總體層次上,從而實(shí)現(xiàn)對(duì)原始基本數(shù)據(jù)的總體把握。
(二)分類
分類的主要功能是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能夠根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中。即:分析數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,確定哪些數(shù)據(jù)屬于哪些組。這樣我們就可以利用該模型來(lái)分析已有數(shù)據(jù),并預(yù)測(cè)新數(shù)據(jù)將屬于哪一個(gè)組。
(三)關(guān)聯(lián)分析
數(shù)據(jù)庫(kù)中的數(shù)據(jù)一般都存在著關(guān)聯(lián)關(guān)系,也就是說(shuō),兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性。這種關(guān)聯(lián)關(guān)系有簡(jiǎn)單關(guān)聯(lián)和時(shí)序關(guān)聯(lián)兩種。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng),描述一組數(shù)據(jù)項(xiàng)目的密切度或關(guān)系。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)是否存在精確的關(guān)聯(lián)函數(shù),,即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有置信度,置信度級(jí)別度量了關(guān)聯(lián)規(guī)則的強(qiáng)度。
(四)聚類
當(dāng)要分析的數(shù)據(jù)缺乏描述信息,或者是無(wú)法組織成任何分類模式時(shí),可以采用聚類分析。聚類分析是按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合。每一個(gè)集合中的數(shù)據(jù)性質(zhì)相近,不同集合之間的數(shù)據(jù)性質(zhì)相差較大。
統(tǒng)計(jì)方法中的聚類分析是實(shí)現(xiàn)聚類的一種手段,它主要研究基于幾何距離的聚類。人工智能中的聚類是基于概念描述的。概念描述就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對(duì)象的共同特征,后者描述不同類對(duì)象之間的區(qū)別。
三、數(shù)據(jù)挖據(jù)的應(yīng)用
數(shù)據(jù)挖掘技術(shù)源于商業(yè)的直接需求,因此它在各種商業(yè)領(lǐng)域都存在廣泛的使用價(jià)值。現(xiàn)在已經(jīng)應(yīng)用數(shù)據(jù)挖掘技術(shù)的領(lǐng)域都是信息量大、環(huán)境復(fù)雜、需要知識(shí)幫助進(jìn)行管理和決策的領(lǐng)域。下面介紹一些目前比較活躍的應(yīng)用方向:
(一)在金融數(shù)據(jù)分析中的應(yīng)用
多數(shù)銀行和金融機(jī)構(gòu)都提供了豐富多樣的儲(chǔ)蓄,信用,投資,保險(xiǎn)等服務(wù)。他們產(chǎn)生的金融數(shù)據(jù)通常比較完整、可靠,這對(duì)系統(tǒng)化的數(shù)據(jù)分析和數(shù)據(jù)挖掘相當(dāng)有利。在具體的應(yīng)用中,采用多維數(shù)據(jù)分析來(lái)分析這些數(shù)據(jù)的一般特性,觀察金融市場(chǎng)的變化趨勢(shì);通過(guò)特征選擇和屬性相關(guān)性計(jì)算,識(shí)別關(guān)鍵因素,進(jìn)行貸款償付預(yù)測(cè)和客戶信用分析;利用分類和聚集的方法對(duì)用戶群體進(jìn)行識(shí)別和目標(biāo)市場(chǎng)分析;使用數(shù)據(jù)可視化、鏈接分析、分類、聚類分析、孤立點(diǎn)分析、序列模式分析等工具偵破洗黑錢(qián)和其他金融犯罪行為。
(二)在電力業(yè)的應(yīng)用
在電力行業(yè)中,數(shù)據(jù)挖掘技術(shù)主要用于指導(dǎo)設(shè)備更新、業(yè)績(jī)?cè)u(píng)估、指導(dǎo)電力企業(yè)的建設(shè)規(guī)劃、指導(dǎo)電力的生產(chǎn)和購(gòu)買、指導(dǎo)電力的調(diào)度等。數(shù)據(jù)挖掘在電力企業(yè)的其它方面也有巨大的用處,比如說(shuō)指導(dǎo)項(xiàng)目管理、安全管理、資源管理、投資組合管理、活動(dòng)分析、銷售預(yù)測(cè)、收入預(yù)測(cè)、需求預(yù)測(cè)、理賠分析等。
(三)在零售業(yè)中的應(yīng)用
零售業(yè)是數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域,這是因?yàn)榱闶蹣I(yè)積累了大量的銷售數(shù)據(jù),如顧客購(gòu)買史記錄、貨物進(jìn)出、消費(fèi)與服務(wù)記錄以及流行的電子商務(wù)等等都為數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)資源。零售數(shù)據(jù)挖掘有助于劃分顧客群體,使用交互式詢問(wèn)技術(shù)、分類技術(shù)和預(yù)測(cè)技術(shù),更精確地挑選潛在的顧客;識(shí)別顧客購(gòu)買行為,發(fā)現(xiàn)顧客購(gòu)買模式和趨勢(shì),進(jìn)行關(guān)聯(lián)分析,以便更好地進(jìn)行貨架擺設(shè);改進(jìn)服務(wù)質(zhì)量,獲得更好的顧客忠誠(chéng)度和滿意程度;提高貨品的銷量比率,設(shè)計(jì)更好的貨品運(yùn)輸與分銷策略,減少商業(yè)成本;尋找描述性的模式,以便更好地進(jìn)行市場(chǎng)分析等等。
(四)在醫(yī)學(xué)上的應(yīng)用
近年來(lái),生物醫(yī)學(xué)研究有了迅猛地發(fā)展,從新藥的開(kāi)發(fā)到癌癥治療的突破,到通過(guò)大規(guī)模序列模式和基因功能的發(fā)現(xiàn),進(jìn)行人類基因的識(shí)別與研究。在人類基因研究領(lǐng)域具有挑戰(zhàn)性的問(wèn)題是從中找出導(dǎo)致各種疾病的特定基因序列模式。由于數(shù)據(jù)挖掘中已經(jīng)有許多有意義的序列模式分析和相似檢索技術(shù),因此數(shù)據(jù)挖掘成為DNA分析中的強(qiáng)有力工具。基因序列的相關(guān)分析,遺傳研究中的路徑分析等。近期DNA分析的研究成果已經(jīng)促成了對(duì)許多疾病和殘疾基因成因的發(fā)現(xiàn),以及對(duì)疾病診斷、預(yù)防和治療的新藥物、新方法的發(fā)現(xiàn)。
(五)在高校和科研單位以及其他領(lǐng)域的應(yīng)用
主要是用于海量信息數(shù)據(jù)的抽取,提供給教研和科研人員有價(jià)值的數(shù)據(jù)。比如在數(shù)字圖書(shū)館方面可以引入數(shù)據(jù)挖掘技術(shù)。同時(shí)還可以應(yīng)用的電子商務(wù)等等眾多領(lǐng)域。
參考文獻(xiàn)
[1]鄒先霞、王淑禮、魏長(zhǎng)華.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)淺談[J].高等函授學(xué)報(bào)(自然科學(xué)版),2000,(03).
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;電子商務(wù);教學(xué)設(shè)計(jì)
0引言
近幾年,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和對(duì)人們工作生活的不斷滲透,隨著移動(dòng)互聯(lián)、物聯(lián)網(wǎng)、云計(jì)算、智慧工程等新興信息技術(shù)的出現(xiàn)和普及,數(shù)據(jù)在人們的生活中呈爆炸式增長(zhǎng),人們開(kāi)始進(jìn)入大數(shù)據(jù)時(shí)代。由于海量數(shù)據(jù)中記錄了企業(yè)的發(fā)展、運(yùn)營(yíng)以及人們生活和行為的點(diǎn)點(diǎn)滴滴,所以,挖掘海量數(shù)據(jù)背后存在的模式、規(guī)律和趨勢(shì),并結(jié)合各行各業(yè)進(jìn)行創(chuàng)新應(yīng)用,已經(jīng)成為這個(gè)時(shí)代的重要課題。我國(guó)電子商務(wù)經(jīng)過(guò)近20年的發(fā)展和數(shù)據(jù)累積,已經(jīng)從用戶為王、銷售為王進(jìn)入到數(shù)據(jù)為王的階段,如何針對(duì)用戶消費(fèi)行為的分析,提升電子商務(wù)的運(yùn)營(yíng)效率,促進(jìn)精準(zhǔn)營(yíng)銷的開(kāi)展,增加客戶黏性,從而實(shí)現(xiàn)電子商務(wù)的智能化發(fā)展,是當(dāng)前電子商務(wù)發(fā)展的重中之重。因此,在大數(shù)據(jù)背景下,為適應(yīng)行業(yè)發(fā)展需求,國(guó)內(nèi)外很多高校,尤其是應(yīng)用型本科院校,在電子商務(wù)專業(yè)本科生中陸續(xù)開(kāi)設(shè)大數(shù)據(jù)分析與挖掘系列的課程,其中作為大數(shù)據(jù)研究與應(yīng)用的重要支撐技術(shù)的數(shù)據(jù)挖掘,是其中一門(mén)重要課程。
1電子商務(wù)專業(yè)開(kāi)設(shè)數(shù)據(jù)挖掘課程的必要性
1.1行業(yè)發(fā)展的必然要求
進(jìn)入大數(shù)據(jù)時(shí)代,“互聯(lián)網(wǎng)+”技術(shù)與傳統(tǒng)行業(yè)深度融合,電子商務(wù)數(shù)據(jù)已覆蓋了從用戶、商家、第三方、物流等一系列商務(wù)環(huán)節(jié)。因此,充分利用大數(shù)據(jù),有效分析和挖掘大數(shù)據(jù)的價(jià)值和規(guī)律,已成為推動(dòng)電子商務(wù)深化發(fā)展的重要引擎。首先,數(shù)據(jù)挖掘技術(shù)是電子商務(wù)智能化的基礎(chǔ)。由于電子商務(wù)的活動(dòng)從開(kāi)始就具備了信息電子化的先天優(yōu)勢(shì),所以,用戶在電子商務(wù)網(wǎng)站上發(fā)生的所有行為信息都被日志記錄,包括用戶對(duì)產(chǎn)品的搜索、瀏覽、在購(gòu)物車加入或取出商品、收藏產(chǎn)品、對(duì)商品的討論、評(píng)價(jià)、分享等。對(duì)這些用戶行為信息進(jìn)行收集和分析,可以挖掘用戶的興趣特征和潛在需求,實(shí)現(xiàn)對(duì)用戶的個(gè)性化推薦。其次,數(shù)據(jù)挖掘技術(shù)支撐電子商務(wù)的精細(xì)化營(yíng)銷的實(shí)現(xiàn)。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)收集用戶在消費(fèi)過(guò)程種對(duì)商品的興趣、偏好、評(píng)價(jià)等數(shù)據(jù),并進(jìn)行分析挖掘,可以更好地對(duì)用戶進(jìn)行細(xì)分,針對(duì)性地制定營(yíng)銷策略,更準(zhǔn)確地把握用戶態(tài)度和對(duì)產(chǎn)品的情感傾向,及時(shí)控制營(yíng)銷中的不良影響,從而提升用戶體驗(yàn)和用戶黏性。第三,數(shù)據(jù)挖掘技術(shù)推動(dòng)電商物流的優(yōu)化。通過(guò)對(duì)電商物流數(shù)據(jù)的分析和挖掘,可以預(yù)測(cè)市場(chǎng)需求變化的規(guī)律,幫助企業(yè)合理地進(jìn)行庫(kù)存管理和控制,優(yōu)化配送路線,進(jìn)行物流中心選址策略分析等。可見(jiàn),對(duì)于電子商務(wù)專業(yè)大學(xué)生開(kāi)設(shè)數(shù)據(jù)挖掘課程是行業(yè)發(fā)展的必然需求。
1.2專業(yè)人才培養(yǎng)的迫切需求
電子商務(wù)是利用信息和通信技術(shù),通過(guò)Internet在個(gè)人、組織和企業(yè)之間進(jìn)行商務(wù)活動(dòng)和處理商務(wù)關(guān)系的一種活動(dòng)。隨著云計(jì)算、物聯(lián)網(wǎng)及移動(dòng)互聯(lián)等新興信息技術(shù)的迅速發(fā)展,大量傳感器和監(jiān)控設(shè)備不間斷的數(shù)據(jù)采集和行業(yè)數(shù)據(jù)的持續(xù)積累,使大數(shù)據(jù)成為時(shí)代的鮮明特點(diǎn)。教育部電子商務(wù)專業(yè)教學(xué)指導(dǎo)委員會(huì)王偉軍教授等人對(duì)138個(gè)電子商務(wù)專業(yè)本科人才的市場(chǎng)招聘需求進(jìn)行研究發(fā)現(xiàn),網(wǎng)絡(luò)營(yíng)銷與數(shù)據(jù)分析是當(dāng)前電子商務(wù)專業(yè)的主要能力需求,而目前我國(guó)開(kāi)設(shè)電子商務(wù)專業(yè)的高校中開(kāi)設(shè)數(shù)據(jù)挖掘及其相關(guān)課程的只有14所。因此,該類別人才缺口目前較為嚴(yán)重,市場(chǎng)需求量較大。為了適應(yīng)時(shí)展需求,高校在人才培養(yǎng)時(shí)既要注重電子商務(wù)運(yùn)營(yíng)管理能力的培養(yǎng),同時(shí)更要注意商務(wù)數(shù)據(jù)分析與挖掘能力培養(yǎng)。培養(yǎng)同時(shí)具備這兩種能力,并且可以將兩種能力有效結(jié)合起來(lái)的應(yīng)用型人才,是當(dāng)前高校電子商務(wù)專業(yè)發(fā)展的趨勢(shì)和方向。總之,在當(dāng)前的電子商務(wù)活動(dòng)中,商務(wù)管理是核心,數(shù)據(jù)分析與挖掘是手段。在大數(shù)據(jù)背景下,要提升電子商務(wù)的管理效率,實(shí)現(xiàn)電子商務(wù)的智能化發(fā)展,必須應(yīng)用好數(shù)據(jù)挖掘這把利器。因此,在電子商務(wù)專業(yè)開(kāi)設(shè)數(shù)據(jù)挖掘課程,是行業(yè)發(fā)展的必然要求,也是專業(yè)發(fā)展的迫切要求。
2電子商務(wù)專業(yè)數(shù)據(jù)挖掘課程教學(xué)思路設(shè)計(jì)
數(shù)據(jù)挖掘是一門(mén)交叉學(xué)科,涉及統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、高性能計(jì)算等多門(mén)學(xué)科相關(guān)內(nèi)容,要求學(xué)生具有較為扎實(shí)的基礎(chǔ)知識(shí)。由于課程難度較大,早期高校都把該課程作為研究生的專業(yè)課程。為適應(yīng)市場(chǎng)需求和行業(yè)發(fā)展,近年來(lái),也有些高校將此課作為本科生高年級(jí)選修課開(kāi)設(shè)。從該課程的傳統(tǒng)教學(xué)上來(lái)看,由于學(xué)生理論基礎(chǔ)不夠扎實(shí),課程教學(xué)又多側(cè)重算法的分析與實(shí)現(xiàn),導(dǎo)致該課程存在教學(xué)難度大、理論教學(xué)過(guò)多、學(xué)習(xí)興趣難以提高等問(wèn)題。考慮到傳統(tǒng)教學(xué)的問(wèn)題以及電子商務(wù)專業(yè)培養(yǎng)應(yīng)用型本科人才的實(shí)際情況,筆者認(rèn)為該課程在教學(xué)過(guò)程中應(yīng)“輕算法,重應(yīng)用”,以啟發(fā)學(xué)生數(shù)據(jù)思維為主,以理解算法思路為主(忽略細(xì)節(jié)實(shí)現(xiàn)),以合理構(gòu)建數(shù)據(jù)挖掘模型、正確解讀數(shù)據(jù)挖掘結(jié)果為主。在組織教學(xué)時(shí),采用基于場(chǎng)景的啟發(fā)式教學(xué)方式。該課程在講授每個(gè)數(shù)據(jù)挖掘方法時(shí),都通過(guò)一個(gè)電子商務(wù)問(wèn)題進(jìn)行導(dǎo)入;通過(guò)本節(jié)所授方法,形成解決問(wèn)題的思路;最后通過(guò)專門(mén)數(shù)據(jù)挖掘軟件進(jìn)行方法的應(yīng)用,通過(guò)對(duì)挖掘結(jié)果的解讀分析,為導(dǎo)入問(wèn)題的決策分析提供依據(jù)。通過(guò)這種由淺入深,由易到難的方式,引起學(xué)生學(xué)習(xí)興趣,激發(fā)學(xué)生主動(dòng)思考,真正成為課堂的主體。實(shí)踐環(huán)節(jié)是學(xué)生理論聯(lián)系實(shí)際的關(guān)鍵步驟,選用合適的數(shù)據(jù)挖掘軟件工具非常重要,對(duì)于電子商務(wù)專業(yè)的學(xué)生,數(shù)據(jù)挖掘重在問(wèn)題的建模和方法的應(yīng)用,所以,該課程選擇的數(shù)據(jù)挖掘工具是IBM公司的SPSSModeler。SPSSModeler擁有豐富的數(shù)據(jù)挖掘算法,本課程涉及到的分類、聚類、關(guān)聯(lián)分析、時(shí)序分析、社會(huì)網(wǎng)絡(luò)分析挖掘等主要數(shù)據(jù)挖掘功能均可實(shí)現(xiàn),而且其操作簡(jiǎn)單易用,分析結(jié)果直觀易懂,可以使用戶方便快捷地實(shí)現(xiàn)數(shù)據(jù)挖掘。學(xué)生通過(guò)對(duì)算法基本思路的了解,針對(duì)實(shí)驗(yàn)問(wèn)題設(shè)計(jì)數(shù)據(jù)挖掘方案,并通過(guò)數(shù)據(jù)挖掘軟件進(jìn)行算法的應(yīng)用和結(jié)果的分析,理論和時(shí)間的順利銜接,進(jìn)一步加深學(xué)生對(duì)數(shù)據(jù)挖掘方法的認(rèn)識(shí)和理解。
3電子商務(wù)專業(yè)數(shù)據(jù)挖掘課程教學(xué)內(nèi)容設(shè)計(jì)
數(shù)據(jù)挖掘課程主要講解數(shù)據(jù)挖掘的基本概念、主要方法和技術(shù)、應(yīng)用情況及發(fā)展趨勢(shì),目的在于啟發(fā)學(xué)生的數(shù)據(jù)思維,提升學(xué)生數(shù)據(jù)分析與挖掘的能力,深入理解電子商務(wù)數(shù)據(jù)在電子商務(wù)中的重要地位和作用,實(shí)現(xiàn)商務(wù)管理和數(shù)據(jù)挖掘的有機(jī)結(jié)合。由于數(shù)據(jù)挖掘課程理論性和應(yīng)用性均較強(qiáng),反映在教學(xué)要求上,既要重視理論學(xué)習(xí),又要重視實(shí)踐環(huán)節(jié)。具體來(lái)說(shuō),就是一方面通過(guò)理論教學(xué)使學(xué)生對(duì)理論內(nèi)容有較深入的理解和領(lǐng)悟;另一方面結(jié)合實(shí)踐教學(xué),鼓勵(lì)學(xué)生多動(dòng)手,多思考,綜合運(yùn)用所學(xué)知識(shí)分析和解決實(shí)際問(wèn)題。
3.1理論教學(xué)設(shè)計(jì)
針對(duì)大數(shù)據(jù)時(shí)代的數(shù)據(jù)特點(diǎn)和應(yīng)用特點(diǎn),在數(shù)據(jù)挖掘課程的理論教學(xué)設(shè)計(jì)時(shí),其內(nèi)容不僅包括傳統(tǒng)的基礎(chǔ)性的分類、聚類、關(guān)聯(lián)分析、時(shí)序分析等數(shù)據(jù)挖掘方法,還注重根據(jù)電子商務(wù)行業(yè)特點(diǎn)進(jìn)行知識(shí)的拓展介紹,比如在將關(guān)聯(lián)分析的時(shí)候,除了傳統(tǒng)的購(gòu)物籃分析,還增加了序列模式分析內(nèi)容;比如在結(jié)合社會(huì)化電子商務(wù)的發(fā)展,對(duì)社會(huì)網(wǎng)絡(luò)分析、文本挖掘等前沿?cái)?shù)據(jù)挖掘知識(shí)也進(jìn)行了一定的拓展介紹。這些拓展內(nèi)容,不但豐富了學(xué)生的知識(shí)體系,也為部分學(xué)生的課下深度擴(kuò)展指明了方向。我校電子商務(wù)專業(yè)的數(shù)據(jù)挖掘課程總學(xué)時(shí)為48學(xué)時(shí),其中理論教學(xué)32學(xué)時(shí),主要內(nèi)容及其學(xué)時(shí)分配如表1所示。表1數(shù)據(jù)挖掘課程理論教學(xué)安排序號(hào)章節(jié)標(biāo)題內(nèi)容提要學(xué)時(shí)1數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘基本概念與功能;基本流程與步驟;基本方法與應(yīng)用;拓展:數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的關(guān)系22數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗;數(shù)據(jù)的集成與轉(zhuǎn)換23分類分析決策樹(shù)分類;貝葉斯分類;分類特點(diǎn)及結(jié)果分析64聚類分析K-means聚類;兩步聚類;聚類特點(diǎn)與結(jié)果分析65關(guān)聯(lián)分析頻繁項(xiàng)集;關(guān)聯(lián)規(guī)則挖掘;關(guān)聯(lián)分析效果評(píng)價(jià);拓展:序列模式分析86時(shí)序分析移動(dòng)平均模型;指數(shù)平滑模型;拓展:ARIMA模型67數(shù)據(jù)挖掘發(fā)展趨勢(shì)社會(huì)網(wǎng)絡(luò)分析;文本挖掘;Web挖掘2理論教學(xué)在組織時(shí),基本上以“課堂引例-問(wèn)題分析-算法思路講解-課后練習(xí)”的方式展開(kāi)。通過(guò)實(shí)例分析,給學(xué)生介紹各種算法的基本思想和相關(guān)概念,引起學(xué)生學(xué)習(xí)興趣。在講授算法時(shí),通過(guò)具體的簡(jiǎn)單數(shù)據(jù)演算實(shí)例來(lái)分析數(shù)據(jù)挖掘的過(guò)程和結(jié)果,使學(xué)生在實(shí)際案例中明白數(shù)據(jù)挖掘算法在處理數(shù)據(jù)過(guò)程中的作用和意義。雖然該課程開(kāi)設(shè)在電子商務(wù)專業(yè)的第六學(xué)期,但是,由于數(shù)據(jù)挖掘課程本身需要多個(gè)學(xué)科的基礎(chǔ)知識(shí),在目前的大學(xué)課程體系內(nèi),難以在有限的時(shí)間內(nèi)開(kāi)設(shè)全部先修課程。因此,在理論講解時(shí),對(duì)涉及到學(xué)生比較生疏的知識(shí)點(diǎn),應(yīng)根據(jù)學(xué)生的知識(shí)水平,予以補(bǔ)充說(shuō)明。例如,在講決策樹(shù)分類時(shí),對(duì)于信息論中信息熵基本概念和計(jì)算方法,可以結(jié)合實(shí)際數(shù)據(jù)集合,進(jìn)行講解和計(jì)算。
3.2實(shí)驗(yàn)教學(xué)設(shè)計(jì)
數(shù)據(jù)挖掘是一門(mén)緊密結(jié)合實(shí)際應(yīng)用的課程,具有較強(qiáng)的實(shí)踐性。實(shí)踐教學(xué)環(huán)節(jié)中,首先教師講解實(shí)驗(yàn)步驟,然后安排學(xué)生進(jìn)行實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果做詳細(xì)分析與評(píng)價(jià)。每個(gè)實(shí)驗(yàn)要求學(xué)生完成以下幾方面的內(nèi)容:(1)根據(jù)實(shí)驗(yàn)問(wèn)題設(shè)計(jì)數(shù)據(jù)挖掘方案和實(shí)施流程;(2)進(jìn)行數(shù)據(jù)預(yù)處理,并構(gòu)建數(shù)據(jù)挖掘模型;(3)解讀數(shù)據(jù)挖掘結(jié)果,并聯(lián)系實(shí)驗(yàn)問(wèn)題進(jìn)行具體分析;(4)實(shí)驗(yàn)拓展與總結(jié)。在實(shí)驗(yàn)拓展和總結(jié)部分,可以設(shè)計(jì)一些開(kāi)放性的題目,比如在進(jìn)行關(guān)聯(lián)分析時(shí),可以設(shè)計(jì)這樣的問(wèn)題“如果支持度閾值設(shè)置時(shí)降低十個(gè)百分點(diǎn),頻繁項(xiàng)集會(huì)有哪些變化?關(guān)聯(lián)規(guī)則的準(zhǔn)確性和適用性會(huì)有哪些方面的變化?”。在實(shí)驗(yàn)環(huán)境下,學(xué)生可以通過(guò)對(duì)比實(shí)驗(yàn),比較容易得到結(jié)果,而在總結(jié)這些變化規(guī)律時(shí),又可以強(qiáng)化和鞏固對(duì)關(guān)聯(lián)規(guī)則、頻繁項(xiàng)集、支持度、置信度等這些概念和指標(biāo)意義的理解,從而更好的應(yīng)用在以后的工作實(shí)踐中。結(jié)合電子商務(wù)活動(dòng)特點(diǎn)以及數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用,該課程的實(shí)驗(yàn)是16學(xué)時(shí)。在實(shí)驗(yàn)設(shè)計(jì)時(shí),共設(shè)計(jì)了五個(gè)單人實(shí)驗(yàn)和一個(gè)綜合性多人實(shí)驗(yàn).由于使用數(shù)據(jù)挖掘技術(shù)處理實(shí)際問(wèn)題時(shí),很多時(shí)候需要綜合運(yùn)用一些數(shù)據(jù)挖掘方法,其設(shè)計(jì)方案不止一種,分析結(jié)果也不一定完全一致。為激發(fā)學(xué)生的主觀能動(dòng)性,本課程在最后需要每個(gè)小組共同完成一個(gè)綜合性的數(shù)據(jù)挖掘作業(yè)。研究表明,對(duì)于本科生來(lái)說(shuō),指導(dǎo)教師給出一些具體的題目,如大學(xué)生消費(fèi)狀況預(yù)測(cè)、校園共享單車滿意度分析等,這些熱點(diǎn)問(wèn)題更容易激發(fā)學(xué)生的學(xué)習(xí)興趣。綜合作業(yè)從數(shù)據(jù)挖掘方案的設(shè)計(jì)、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模、結(jié)果分析以及報(bào)告撰寫(xiě)全部由小組成員協(xié)作完成,通過(guò)這樣一個(gè)完整的分析問(wèn)題、解決問(wèn)題的過(guò)程,不但可以鍛煉學(xué)生綜合應(yīng)用知識(shí)的能力,也可以鍛煉學(xué)生的溝通寫(xiě)作能力。在綜合性作業(yè)完成的過(guò)程中,教師需要給予一定的指導(dǎo),例如教師可以介紹問(wèn)卷星等網(wǎng)絡(luò)調(diào)查平臺(tái)或網(wǎng)絡(luò)爬蟲(chóng)等工具幫助學(xué)生進(jìn)行原始數(shù)據(jù)的采集;通過(guò)對(duì)數(shù)據(jù)挖掘方案的點(diǎn)評(píng),幫助學(xué)生更合理的選取數(shù)據(jù)分析指標(biāo),設(shè)計(jì)數(shù)據(jù)挖掘方案;通過(guò)報(bào)告撰寫(xiě)指導(dǎo),幫助學(xué)生規(guī)范化的總結(jié)實(shí)驗(yàn)分析結(jié)果。
4結(jié)論
大數(shù)據(jù)時(shí)代的電子商務(wù)活動(dòng)中,對(duì)電子商務(wù)人才的數(shù)據(jù)挖掘和分析能力非常迫切,在電子商務(wù)專業(yè)中開(kāi)設(shè)數(shù)據(jù)挖掘課程是行業(yè)發(fā)展和專業(yè)發(fā)展的必然要求。在電子商務(wù)專業(yè)開(kāi)設(shè)數(shù)據(jù)挖掘課程既有別于研究生也有別于計(jì)算機(jī)等理工科專業(yè),“輕算法,重應(yīng)用”,以提升學(xué)生主動(dòng)學(xué)習(xí)興趣為導(dǎo)向,采用基于場(chǎng)景的啟發(fā)式教學(xué)方法更合適。本文從教學(xué)思路、教學(xué)方法、教學(xué)內(nèi)容等方面進(jìn)行了思考和探索,經(jīng)課程開(kāi)設(shè)兩年來(lái)的教學(xué)實(shí)踐證明,學(xué)生在學(xué)習(xí)上的主觀能動(dòng)性得到了一定的體現(xiàn),理論和實(shí)踐相結(jié)合的能力得到了鍛煉。激發(fā)學(xué)生學(xué)習(xí)興趣,培養(yǎng)學(xué)生的主動(dòng)性思維,是當(dāng)前教學(xué)中的重要課題,在電商行業(yè)不斷發(fā)展的過(guò)程中,如何更好的將最新行業(yè)問(wèn)題融入教學(xué)過(guò)程,實(shí)現(xiàn)理論和實(shí)踐的有機(jī)結(jié)合,需要我們進(jìn)一步深入思考和探索。
參考文獻(xiàn)
[1]馮然,陳欣.論數(shù)據(jù)分析類課程在電子商務(wù)專業(yè)設(shè)置中的重要性[J].河南教育,2015,(2).
[2]黃嵐.?dāng)?shù)據(jù)挖掘課程實(shí)踐教學(xué)資源庫(kù)建設(shè)[J].計(jì)算機(jī)教育,2014,(12).
[3]薛薇.基于SPSSModeler的數(shù)據(jù)挖掘(2版)[M].中國(guó)人民大學(xué)出版社,2014.
[4]李海林.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學(xué)探索[J].計(jì)算機(jī)時(shí)代,2014,(2).
[5]韋艷艷,張超群.“數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘”課程教學(xué)實(shí)踐與探索[J].高教論壇,2011,(1).
關(guān)鍵詞 數(shù)據(jù)挖掘;關(guān)聯(lián)分析;聚類分析
中圖分類號(hào)TP311.13 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1674-6708(2010)33-0257-02
1 數(shù)據(jù)挖掘的概念
隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)技術(shù)的風(fēng)靡,獲得相關(guān)資料已經(jīng)是很方便了。但是人們也積累了大量的數(shù)據(jù)信息,面對(duì)這些龐大的數(shù)據(jù),如何從中提取有用的信息成為當(dāng)務(wù)之急,為此,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的,人們事先不知道的,但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘是發(fā)現(xiàn)知識(shí)的關(guān)鍵步驟。
2 數(shù)據(jù)挖掘的作用
2.1 關(guān)聯(lián)分析
關(guān)聯(lián)是反映兩個(gè)或者兩個(gè)以上事件之間存在某種依賴或聯(lián)系規(guī)律性。關(guān)聯(lián)規(guī)則挖掘是由Rakesh Apwal提出來(lái)的。在數(shù)據(jù)庫(kù)中,如果存在一項(xiàng)或多項(xiàng)之間的關(guān)聯(lián),則其中一項(xiàng)屬性值能夠依據(jù)其他屬性值進(jìn)行推測(cè)。關(guān)聯(lián)分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中所有頻繁項(xiàng)目集,這是數(shù)據(jù)挖掘中最成熟的技術(shù)之一。例如:每天購(gòu)買洗發(fā)水的人也有可能購(gòu)買肥皂,比重有多大。
2.2 聚類分析
聚類分析是把數(shù)據(jù)按照所選樣本的關(guān)聯(lián)相似性劃分成若干小組,同一小組中的數(shù)據(jù)具有較高的相似度,不同組中的數(shù)據(jù)則相異,即同組中的相似性盡可能大,而組別間的相似性盡可能小。聚類事先不知道組別數(shù)和各組的相似特性。聚類分析可以發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。例如:將學(xué)生分為成績(jī)優(yōu)秀的學(xué)生,成績(jī)中等的學(xué)生,成績(jī)差的學(xué)生。
2.3 分類
分類就是按照以前數(shù)據(jù)庫(kù)中的數(shù)據(jù),分析它們的屬性、特征,找出一個(gè)類別的概念描述,并利用這種描述構(gòu)造模型,每個(gè)類別都代表了本類數(shù)據(jù)的整體信息,一般用規(guī)則或決策樹(shù)模式表示。分類事先知道類別數(shù)和各類的典型特征。例如:學(xué)校根據(jù)以前的數(shù)據(jù)將教師分成了不同的類別,現(xiàn)在就可以根據(jù)這些來(lái)區(qū)分新教師,以采取不同的待遇分配方案。
2.4 預(yù)測(cè)
預(yù)測(cè)是利用歷史和當(dāng)前的數(shù)據(jù)找出變化規(guī)律,推測(cè)未來(lái)數(shù)據(jù)的種類及特征。預(yù)測(cè)是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)規(guī)則。例如:對(duì)未來(lái)經(jīng)濟(jì)形勢(shì)的判斷。
2.5 偏差分析
數(shù)據(jù)庫(kù)中的數(shù)據(jù)存在很多異常情況,偏差是對(duì)差異和極端情況的描述,發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)偏離常規(guī)的異常現(xiàn)象,揭示內(nèi)在原因。例如:在本次數(shù)學(xué)測(cè)試中有30%的同學(xué)不及格,教師為了提高教學(xué)質(zhì)量,就要找出這30%不及格同學(xué)的內(nèi)在因素,提高及格率。
3 數(shù)據(jù)挖掘的流程
3.1 定義目標(biāo)
為了避免數(shù)據(jù)挖掘的盲目性,首先就必須清晰地定義出業(yè)務(wù)問(wèn)題,確定數(shù)據(jù)挖掘的目標(biāo)。挖掘的目標(biāo)明確了,但結(jié)果是不可預(yù)測(cè)的。
3.2 數(shù)據(jù)準(zhǔn)備
1)數(shù)據(jù)選擇。在大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)目標(biāo)中搜索有關(guān)的內(nèi)、外部數(shù)據(jù)信息,提取適用于數(shù)據(jù)挖掘的數(shù)據(jù);
2)數(shù)據(jù)預(yù)處理。研究數(shù)據(jù)信息,進(jìn)行數(shù)據(jù)的加工、集成等,去除重復(fù)的數(shù)據(jù)信息,選擇要進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù),并定義數(shù)據(jù)類型;
3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換決定數(shù)據(jù)挖掘能否成功,數(shù)據(jù)轉(zhuǎn)換就是將數(shù)據(jù)轉(zhuǎn)換成一個(gè)針對(duì)挖掘算法的模型。
3.3 數(shù)據(jù)挖掘
根據(jù)數(shù)據(jù)功能的類型和數(shù)據(jù)的特點(diǎn)完善和選擇合適的挖掘算法,對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。
3.4 結(jié)果分析
解釋和評(píng)估數(shù)據(jù)挖掘的結(jié)果,最終轉(zhuǎn)換成用戶能夠理解的知識(shí)。
3.5 知識(shí)的同化
將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
4 數(shù)據(jù)挖掘的應(yīng)用
4.1 數(shù)據(jù)挖掘技術(shù)在市場(chǎng)營(yíng)銷中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)普遍應(yīng)用于市場(chǎng)營(yíng)銷中,假定“以往消費(fèi)者的行為是未來(lái)消費(fèi)者的消費(fèi)理念的直接解釋”,以市場(chǎng)營(yíng)銷學(xué)的市場(chǎng)細(xì)化原理為基礎(chǔ)。通過(guò)收集、整理消費(fèi)者以往的消費(fèi)信息為數(shù)據(jù)信息,總結(jié)消費(fèi)者的特點(diǎn)及興趣愛(ài)好,根據(jù)不同的屬性分類,推測(cè)出類似消費(fèi)群體的消費(fèi)行為,對(duì)不同類的消費(fèi)群體進(jìn)行定向營(yíng)銷,這樣降低了營(yíng)銷的盲目性,節(jié)省了營(yíng)銷成本,提高了營(yíng)銷效率,為企業(yè)創(chuàng)造出更多的利潤(rùn)。
在經(jīng)濟(jì)發(fā)達(dá)國(guó)家和地區(qū),許多企業(yè)都利用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)信息進(jìn)行加工處理,針對(duì)不同的消費(fèi)群體,發(fā)出不同的營(yíng)銷材料,以突出自己的競(jìng)爭(zhēng)優(yōu)勢(shì),擴(kuò)大產(chǎn)品的營(yíng)業(yè)額。
4.2 數(shù)據(jù)挖掘技術(shù)在商業(yè)銀行中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用于金融界,金融事務(wù)搜索大量的數(shù)據(jù)信息,對(duì)這些數(shù)據(jù)進(jìn)行加工處理,發(fā)現(xiàn)其特征,從而發(fā)現(xiàn)不同類別客戶的特點(diǎn),評(píng)估其信譽(yù),推測(cè)其需求。商業(yè)銀行所作業(yè)務(wù)的利潤(rùn)與風(fēng)險(xiǎn)是并存的,為了保證最大利潤(rùn)和最小風(fēng)險(xiǎn),必須對(duì)客戶的賬戶進(jìn)行科學(xué)精確的分析歸納。
美國(guó)銀行使用數(shù)據(jù)挖掘技術(shù)工具,根據(jù)不同消費(fèi)者的特點(diǎn)制定不同的產(chǎn)品,增強(qiáng)其競(jìng)爭(zhēng)優(yōu)勢(shì)。
4.3 數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)上的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)上的應(yīng)用相當(dāng)廣泛,可以利用數(shù)據(jù)挖掘技術(shù)手段來(lái)提高從藥物的生產(chǎn)制造到醫(yī)療診斷等的效率和效益。在藥物生產(chǎn)方面,通過(guò)對(duì)藥物分子結(jié)構(gòu)的分析,可以確定是什么成分對(duì)病患的治療發(fā)揮了作用,從而推測(cè)出該藥對(duì)什么病有治療作用;在醫(yī)療診斷方面,通過(guò)對(duì)基因的分析處理,可以確診是什么發(fā)生了病變,屬于哪種病毒等。
4.4 數(shù)據(jù)挖掘技術(shù)在欺詐甄別中的應(yīng)用
銀行或者商業(yè)上經(jīng)常發(fā)生欺詐行為,給銀行和商業(yè)單位帶來(lái)了不可估量的損失。通過(guò)數(shù)據(jù)挖掘可以對(duì)這種欺詐行為進(jìn)行預(yù)測(cè),總結(jié)各種詐騙的行為特征,提醒廣大人們注意。
5 結(jié)論
數(shù)據(jù)挖掘技術(shù)是一個(gè)全新的研究領(lǐng)域,每年都有新的數(shù)據(jù)挖掘方法和模型產(chǎn)生,隨著數(shù)據(jù)庫(kù)等技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域?qū)?huì)更加廣泛和深入。盡管如此,數(shù)據(jù)挖掘技仍然存在許多問(wèn)題需要解決,尤其是超大規(guī)模數(shù)據(jù)挖掘的效率有待提高。
參考文獻(xiàn)
[1]李雄飛,李軍.Data Mining and Knowledge Discovery.數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)[M].北京高等教育出版社,2003.
關(guān)鍵詞:客戶;電信市場(chǎng);電信客戶細(xì)分;數(shù)據(jù)挖掘
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-7712 (2013) 24-0000-01
隨著通信市場(chǎng)競(jìng)爭(zhēng)日趨激烈,電信客戶的通信需求和消費(fèi)理念都發(fā)生了顯著的變化。為滿足客戶的應(yīng)用需求、提升市場(chǎng)競(jìng)爭(zhēng)力,就必須將當(dāng)代通信服務(wù)由以產(chǎn)品為導(dǎo)向以客戶需求為導(dǎo)向轉(zhuǎn)變,通過(guò)建立客戶數(shù)據(jù)庫(kù),對(duì)客戶的類別屬性、消費(fèi)類型以及消費(fèi)傾向等進(jìn)行分析。數(shù)據(jù)挖掘技術(shù)是一種大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析方法,其可以在海量數(shù)據(jù)中建立一種內(nèi)在的聯(lián)系,基于該聯(lián)系對(duì)客戶進(jìn)行細(xì)分,協(xié)助企業(yè)制定更具價(jià)值的認(rèn)知體系和決策規(guī)則。
一、電信客戶細(xì)分特點(diǎn)
客戶細(xì)分包括客戶描述與劃分兩部分內(nèi)容。前者主要是提取可用于描述客戶的特征和屬性,以便于可應(yīng)用該描述內(nèi)容對(duì)客戶行為模式進(jìn)行預(yù)測(cè)和評(píng)估。后者主要是對(duì)經(jīng)過(guò)特征化后的客戶進(jìn)行類別劃分,使具有共同類別與特點(diǎn)的用戶歸入同一類別,以便于增強(qiáng)服務(wù)和營(yíng)銷的針對(duì)性與有效性。對(duì)客戶進(jìn)行細(xì)分可以調(diào)整資源分配結(jié)構(gòu),滿足商業(yè)目的,對(duì)不同類型的客戶指定不同的營(yíng)銷策略。
電信市場(chǎng)是典型的以客戶為中心的消費(fèi)市場(chǎng),對(duì)該市場(chǎng)客戶進(jìn)行細(xì)分可以提升企業(yè)爭(zhēng)取新客戶、保留老客戶、維護(hù)現(xiàn)有客戶價(jià)值、拓展企業(yè)市場(chǎng)份額與經(jīng)濟(jì)效益的目的。
總結(jié)來(lái)看,電信客戶細(xì)分中需要從以下幾方面特征出發(fā):一是電信客戶消費(fèi)具有持續(xù)性,為維系客戶關(guān)系,就需要以該特征為著力點(diǎn);二是電信客戶消費(fèi)層次和類別更為明顯,如電信企業(yè)的客戶分為具有較強(qiáng)穩(wěn)定消費(fèi)能力的集團(tuán)用戶和消費(fèi)能力差別較大的個(gè)人用戶;三是客戶自身特點(diǎn)占據(jù)的權(quán)重較大,如客戶的消費(fèi)習(xí)慣、個(gè)人價(jià)值、品牌忠誠(chéng)度、人際關(guān)系等。
二、數(shù)據(jù)挖掘技術(shù)及其在電信客戶細(xì)分中的應(yīng)用特點(diǎn)
數(shù)據(jù)挖掘技術(shù)本質(zhì)是借助大量的知識(shí)體系和數(shù)據(jù)分析技術(shù)對(duì)海量、無(wú)序的數(shù)據(jù)信息進(jìn)行整合與關(guān)聯(lián)建立,從中提取可有效反映數(shù)據(jù)內(nèi)部規(guī)律和模式,并依照所總結(jié)出來(lái)的規(guī)律與模式對(duì)未來(lái)的發(fā)展情況進(jìn)行預(yù)測(cè)與評(píng)估,幫助決策者制定更有效的執(zhí)行策略。
傳統(tǒng)的電信客戶細(xì)分方法主要使用資料調(diào)查或客戶價(jià)值分析等兩種,前者具有較少的細(xì)分維度,調(diào)查結(jié)果更易理解和應(yīng)用,但是受調(diào)查樣本數(shù)量的限制,其結(jié)果的可靠性和有效性有待進(jìn)一步確認(rèn);后者操作簡(jiǎn)單,對(duì)于高價(jià)值電信客戶細(xì)分具有良好的應(yīng)用效果,但是在體現(xiàn)不同客戶、不同業(yè)務(wù)、不同消費(fèi)結(jié)構(gòu)差異性等方面存在一定的缺陷。
在電信客戶細(xì)分中應(yīng)用數(shù)據(jù)挖掘技術(shù)可以有效利用企業(yè)發(fā)展過(guò)程中產(chǎn)生的大量數(shù)據(jù)進(jìn)行多維度、多層面、多角度的客戶細(xì)分,并為細(xì)分結(jié)果提供高可靠性的理論支持。特別是數(shù)據(jù)挖掘技術(shù)中的聚類分析方法可以將客戶群按照電信企業(yè)最為關(guān)注的消費(fèi)行為和消費(fèi)價(jià)值進(jìn)行細(xì)分,體現(xiàn)出不同客戶屬性之間的差異性,協(xié)助制定更加完備的營(yíng)銷策略。基于數(shù)據(jù)挖掘的電信客戶細(xì)分可以分為戰(zhàn)略細(xì)分和策略細(xì)分兩類。前者主要是對(duì)客戶特征進(jìn)行分析與研究,從中查找適當(dāng)?shù)臓I(yíng)銷機(jī)會(huì);后者主要是對(duì)營(yíng)銷活動(dòng)進(jìn)行分析與研究,為其選取最佳的目標(biāo)人群。
三、基于數(shù)據(jù)挖掘的客戶細(xì)分模型分析
(一)細(xì)分模型設(shè)計(jì)
細(xì)分模型應(yīng)該包括三部分內(nèi)容,即客戶部分、市場(chǎng)部分、營(yíng)銷部分。
客戶部分可進(jìn)一步細(xì)化為客戶分類和客戶分析兩類。客戶細(xì)分中應(yīng)該從客戶消費(fèi)習(xí)慣、消費(fèi)種類、消費(fèi)頻度、消費(fèi)結(jié)構(gòu)、消費(fèi)模式等建立模型,以便于電信企業(yè)依照這些特征對(duì)已有客戶的收益率、新客戶的定位、現(xiàn)存客戶與流失客戶特征等進(jìn)行定義。客戶分析模型則需要包括客戶的行為、關(guān)系、價(jià)值屬性、利潤(rùn)率、忠誠(chéng)度以及業(yè)務(wù)量等內(nèi)容,通過(guò)這些內(nèi)容,電信企業(yè)可以對(duì)現(xiàn)有的營(yíng)銷進(jìn)行效果分析。
市場(chǎng)部分主要體現(xiàn)為市場(chǎng)預(yù)測(cè)與市場(chǎng)總結(jié)等內(nèi)容。建立可靠、客觀的市場(chǎng)模型可以幫助企業(yè)制定更精準(zhǔn)、分類更清晰、目標(biāo)性更強(qiáng)的市場(chǎng)策略,并依照所架構(gòu)的市場(chǎng)模型對(duì)用戶行為進(jìn)行解釋,對(duì)未來(lái)用戶的行為趨向進(jìn)行預(yù)測(cè)。
營(yíng)銷部分可進(jìn)一步細(xì)化為輔助營(yíng)銷、定向服務(wù)以及價(jià)格定位三部分。輔助營(yíng)銷模型可以針對(duì)特定的客戶群使用特定的手段進(jìn)行分析與研究,進(jìn)而開(kāi)拓更具針對(duì)性的銷售渠道和宣傳策略,充分滿足客戶的消費(fèi)需求,在維持現(xiàn)有客戶關(guān)系的基礎(chǔ)上提升客戶價(jià)值,拓展客戶量。定向服務(wù)則是充分聽(tīng)取客戶的消費(fèi)需求,制定差異化服務(wù)策略,提供全方位、高質(zhì)量定制服務(wù)。價(jià)格定位則是對(duì)客戶的價(jià)格敏感度建立模型并深入分析。
(二)電信客戶細(xì)分中的數(shù)據(jù)挖掘技術(shù)
目前,電信客戶細(xì)分中所使用的數(shù)據(jù)挖掘技術(shù)主要分為分類、聚類以及統(tǒng)計(jì)分析三類。
分類可以依照預(yù)先制定的規(guī)則制定清晰的分類標(biāo)準(zhǔn),并依照該標(biāo)準(zhǔn)對(duì)客戶進(jìn)行歸類,生成預(yù)測(cè)模型。分類可以有效反映同類客戶中的同屬性知識(shí)特征和不同客戶中的差異性知識(shí)特征,其具有非常強(qiáng)的預(yù)測(cè)性、指導(dǎo)性和方向性。常用的分類數(shù)據(jù)挖掘算法有神經(jīng)網(wǎng)絡(luò)法、決策樹(shù)法、貝葉斯法以及示例學(xué)習(xí)法等。
聚類則是在海量的數(shù)據(jù)中對(duì)客戶屬性進(jìn)行歸納與總結(jié),將分析對(duì)象依照共同的特征分為多個(gè)簇,然后再在簇中進(jìn)行特征提取,生成聚類標(biāo)準(zhǔn),依照該標(biāo)準(zhǔn)對(duì)不同用戶進(jìn)行分類、對(duì)不同簇進(jìn)行更新。該技術(shù)無(wú)需指導(dǎo)和事先規(guī)則的制定。常用的聚類數(shù)據(jù)挖掘算法有神經(jīng)網(wǎng)絡(luò)法、模糊聚類法、統(tǒng)計(jì)聚類法等。
統(tǒng)計(jì)分析則是直接對(duì)客戶進(jìn)行分群或輔助其他數(shù)據(jù)挖掘技術(shù)共同實(shí)現(xiàn)電信客戶細(xì)分。其以一定的方法從數(shù)據(jù)庫(kù)中提取樣本,并對(duì)這些樣本進(jìn)行行為、地域、年齡、需求等進(jìn)行差異性分析,輔助其他數(shù)據(jù)分析與處理技術(shù)即可實(shí)現(xiàn)客戶的細(xì)分。常用的統(tǒng)計(jì)分析方法有交叉分析、相關(guān)分析、顯著性分析、因子分析等。
參考文獻(xiàn):
[1]蔡寧.基于數(shù)據(jù)挖掘的電信客戶細(xì)分研究[D].江西理工大學(xué),2008.
[2]許昌加,高陽(yáng).數(shù)據(jù)挖掘在電信客戶細(xì)分中的應(yīng)用研究[J].成組技術(shù)與生產(chǎn)現(xiàn)代化,2004(21):43-46.
關(guān)鍵詞:數(shù)據(jù)挖掘; 醫(yī)保;關(guān)聯(lián)規(guī)則;聚類;分類;序列模式
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)05-0880-03
Review of Data Mining Application in Medical Insurance in Our Country
FENG Li-yun
(Software College of Jiangxi Normal University, Nanchang 330022, China)
Abstract: Using data mining method to study the data of growing health care in our country is not a lot, but has a certain research. In this paper, the application of data mining in the field of health care are summarized from the association rules discovery, data clustering, classification knowledge discovery, sequential pattern discovery, and other data mining methods are reviewed in the Medicare application areas. Finally, look into the future of application of data mining in health care field.
Key words: data mining; Health care; Association rule; clustering; classification; sequence pattern
醫(yī)療保險(xiǎn)是我國(guó)社會(huì)保障制度的重要組成部分,是關(guān)系百姓切身利益的一項(xiàng)民生工程。醫(yī)療保險(xiǎn)自1998年開(kāi)始在我國(guó)實(shí)施,經(jīng)過(guò)十多年的發(fā)展和不斷完善,目前大部分人民已經(jīng)可以享受醫(yī)療保險(xiǎn)的優(yōu)惠政策。隨著經(jīng)濟(jì)的發(fā)展及互聯(lián)網(wǎng)的普及,信息技術(shù)已經(jīng)逐步滲透到醫(yī)藥行業(yè)中,醫(yī)保信息系統(tǒng)的應(yīng)用就是醫(yī)藥信息化的一個(gè)典型。醫(yī)保信息化在給我國(guó)醫(yī)保政策的管理和實(shí)施帶來(lái)了很多便利的同時(shí),龐大的數(shù)據(jù)壓力也成為一個(gè)有待解決的問(wèn)題。數(shù)據(jù)挖掘是一種從數(shù)據(jù)庫(kù)中抽取和識(shí)別出有效的、新穎的、可理解的、事先不為人知的但又潛在有用的模式或知識(shí)的過(guò)程或技術(shù),這種技術(shù)為我們的決策和管理帶來(lái)很多便利。近年來(lái),關(guān)于數(shù)據(jù)挖掘技術(shù)在醫(yī)保信息系統(tǒng)中的研究運(yùn)用與日俱增,該文對(duì)這些研究從研究方法進(jìn)行了概括分析,介紹了數(shù)據(jù)挖掘在醫(yī)保行業(yè)的已有成果和具有代表性的方法,并對(duì)未來(lái)的發(fā)展作了展望。
1 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)
Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過(guò)候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集。算法已經(jīng)被廣泛的應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個(gè)領(lǐng)域。
文獻(xiàn)[3] 通過(guò)對(duì)醫(yī)院歷年醫(yī)保病人數(shù)據(jù)采用Apriori數(shù)據(jù)挖掘的方法,分析醫(yī)保費(fèi)用與相關(guān)因素間的規(guī)則,得出醫(yī)保費(fèi)用分析的規(guī)則集。該規(guī)則集顯示與醫(yī)保病人費(fèi)用關(guān)聯(lián)最大的是特定出院科室和住院天數(shù)這兩因素的組合。文獻(xiàn)[1]針對(duì)醫(yī)保基金運(yùn)營(yíng)過(guò)程中出現(xiàn)的就醫(yī)聚集行為,提出基于頻繁模式挖掘的一致行為挖掘算法CBM,實(shí)驗(yàn)表明該算法比Apriori和Eclat具有更好的性能,能有效檢測(cè)就醫(yī)聚集行為。文獻(xiàn)[2]對(duì) Apriori 算法進(jìn)行的具有針對(duì)性的改進(jìn),將改進(jìn)的算法應(yīng)用于醫(yī)保稽查工作中, 挖掘算法產(chǎn)生的規(guī)則可使稽查人員重點(diǎn)稽查該規(guī)則所指向的醫(yī)保行為, 極大的提高了醫(yī)保稽查工作的效率。文獻(xiàn)[4]對(duì)社會(huì)醫(yī)療保險(xiǎn)基金收支情況進(jìn)行了研究,在建立數(shù)據(jù)倉(cāng)庫(kù)時(shí)選用維度建模方法建立星型模型,重新組織了來(lái)源數(shù)據(jù)的
結(jié)構(gòu)關(guān)系;數(shù)據(jù)挖掘階段選用Apriori算法并對(duì)其進(jìn)行了改進(jìn),進(jìn)行關(guān)聯(lián)規(guī)則挖掘。文獻(xiàn)[7]在深入分析研究了經(jīng)典關(guān)聯(lián)規(guī)則Apriori算法的基礎(chǔ)上提出并實(shí)現(xiàn)了關(guān)聯(lián)規(guī)則生成算法,通過(guò)實(shí)驗(yàn)對(duì)Apriori經(jīng)典算法和關(guān)聯(lián)規(guī)則算法進(jìn)行了算法效率的分析比較。將改進(jìn)的關(guān)聯(lián)規(guī)則算法應(yīng)用于某礦業(yè)集團(tuán)的醫(yī)療保險(xiǎn)數(shù)據(jù)中,為礦業(yè)集團(tuán)完善醫(yī)療保險(xiǎn)制度提供了很好的輔助決策支持。文獻(xiàn)[27]針對(duì)OLAM兼有0LAP多維分析的靈活性、在線性和對(duì)數(shù)據(jù)挖掘的深入處理數(shù)據(jù)等特點(diǎn),在醫(yī)療保險(xiǎn)系統(tǒng)中設(shè)計(jì)并實(shí)現(xiàn)了OLAM應(yīng)用模型。該模型使用浙江省某市醫(yī)療保險(xiǎn)數(shù)據(jù)庫(kù)中2005年的醫(yī)保數(shù)據(jù),建立了以醫(yī)療保險(xiǎn)費(fèi)用和診斷項(xiàng)目為主題的數(shù)據(jù)倉(cāng)庫(kù),從多維角度分析數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),并且運(yùn)用了Apriori算法挖掘出一些潛在的關(guān)聯(lián)規(guī)則例如人們特別關(guān)注的“騙保”行為,為醫(yī)療決策提供科學(xué)有效的依據(jù)。
FP的全稱是Frequent Pattern,在算法中使用了一種稱為頻繁模式樹(shù)(Frequent Pattern Tree)的數(shù)據(jù)結(jié)構(gòu)。FP-tree是一種特殊的前綴樹(shù),由頻繁項(xiàng)頭表和項(xiàng)前綴樹(shù)構(gòu)成。FP-Growth算法基于以上的結(jié)構(gòu)加快整個(gè)挖掘過(guò)程。
文獻(xiàn)[8]將FP-growth算法用于基本醫(yī)療保險(xiǎn)數(shù)據(jù)的挖掘,根據(jù)課題特點(diǎn)提出了自動(dòng)確定最小支持度的增量式FP-growth挖掘算法,并用實(shí)驗(yàn)驗(yàn)證了改進(jìn)算法的有效性。文獻(xiàn)[5]通過(guò)對(duì)醫(yī)療保險(xiǎn)信息系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)、數(shù)據(jù)的整合以及數(shù)據(jù)挖掘的技術(shù)分析,實(shí)證研究關(guān)聯(lián)規(guī)則挖掘算法在醫(yī)保信息挖掘的可能性與必要性。利用編碼、解碼技術(shù)和SQL的聚集函數(shù),實(shí)現(xiàn)基于SQL的FP-Growth算法,該算法突破機(jī)器內(nèi)存對(duì)數(shù)據(jù)挖掘的處理效率問(wèn)題,實(shí)現(xiàn)了對(duì)海量數(shù)據(jù)挖掘的高效挖掘。
文獻(xiàn)[6]基于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù),經(jīng)過(guò)大量重復(fù)的數(shù)據(jù)清洗工作,從醫(yī)院信息系統(tǒng)數(shù)據(jù)庫(kù)中抽取三個(gè)醫(yī)保年度的數(shù)據(jù),建立醫(yī)保費(fèi)用數(shù)據(jù)倉(cāng)庫(kù)和相應(yīng)的多維數(shù)據(jù)模型。對(duì)建立的多維數(shù)據(jù)模型采用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法進(jìn)行挖掘分析,得出結(jié)論
文獻(xiàn)[9]以廣州市某大型三甲醫(yī)院的信息系統(tǒng)為主要數(shù)據(jù)源,其后臺(tái)數(shù)據(jù)庫(kù)系統(tǒng)采用 SQL SERVER 2008。建立醫(yī)保費(fèi)用分析的數(shù)據(jù)倉(cāng)庫(kù),采用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法進(jìn)行挖掘分析。
2 數(shù)據(jù)聚類
聚類就是將數(shù)據(jù)項(xiàng)分組成多個(gè)類或簇,類之間的數(shù)據(jù)差別應(yīng)盡可能大,類內(nèi)的數(shù)據(jù)差別應(yīng)盡可能小,即為“最小化類間的相似性,最大化類內(nèi)的相似性”原則。聚類算法有劃分法、層次法、基于密度、網(wǎng)格、模型的方法。其中,劃分聚類法比較有代表性,文獻(xiàn)[10]在分析了模糊數(shù)據(jù)挖掘的相關(guān)概念和技術(shù)的基礎(chǔ)上,使用模糊聚類方法進(jìn)行醫(yī)療保險(xiǎn)子系統(tǒng)的劃分,給出了劃分結(jié)果,并且將模糊數(shù)據(jù)挖掘應(yīng)用到醫(yī)療保險(xiǎn)系統(tǒng)中,是數(shù)據(jù)挖掘技術(shù)在醫(yī)療保險(xiǎn)領(lǐng)域應(yīng)用的一次嘗試;文獻(xiàn)[11]以貴陽(yáng)市醫(yī)療保險(xiǎn)業(yè)務(wù)為背景,研究運(yùn)用 O-Cluster 算法,構(gòu)建數(shù)據(jù)挖掘模型并對(duì)模型進(jìn)行解釋,反映數(shù)據(jù)間隱含的聯(lián)系。文獻(xiàn)[17] 使用K-均值、K-中心點(diǎn)、Ward等幾種聚類算法分析了醫(yī)保評(píng)估模型,并對(duì)幾種聚類方法進(jìn)行了比較,實(shí)驗(yàn)證明Ward聚類算法成簇效果佳,用戶容易理解。文獻(xiàn)[14]分析了數(shù)據(jù)挖掘和模糊數(shù)據(jù)挖掘的相關(guān)概念和技術(shù),開(kāi)發(fā)設(shè)計(jì)了B/S架構(gòu)的醫(yī)療保險(xiǎn)系統(tǒng),在此基礎(chǔ)上嘗試使用模糊數(shù)據(jù)挖掘技術(shù)進(jìn)行醫(yī)療保險(xiǎn)子系統(tǒng)的劃分,給出劃分結(jié)果。文獻(xiàn)[18]使用基于凝聚層次聚類(hierarchieal clustering)的ward方法、K-Means和K一中心點(diǎn)對(duì)醫(yī)保參保人進(jìn)行聚類,在此之后對(duì)得出的聚類模型從健康和經(jīng)濟(jì)狀況兩方面進(jìn)行了評(píng)估。
3 分類知識(shí)發(fā)現(xiàn)
分類就是構(gòu)造一個(gè)分類函數(shù),把具有某些特征的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別上,分類方法可分為單一分類算法和組合單一分類算法。單一的分類方法主要包括:決策樹(shù)、貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、K-近鄰、支持向量機(jī)和基于關(guān)聯(lián)規(guī)則的分類等;另外還有用于組合單一分類方法的集成學(xué)習(xí)算法,如Bagging和Boosting等。
主要的決策樹(shù)算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等。它們?cè)谶x擇測(cè)試屬性采用的技術(shù)、生成的決策樹(shù)的結(jié)構(gòu)、剪枝的方法以及時(shí)刻,能否處理大數(shù)據(jù)集等方面都有各自的不同之處。文獻(xiàn)[12]利用決策樹(shù)C4.5挖掘算法對(duì)醫(yī)療保險(xiǎn)系統(tǒng)數(shù)據(jù)進(jìn)行分析,找出影響就醫(yī)公平的關(guān)鍵因素,輔助決策者進(jìn)行政策參數(shù)的最優(yōu)化設(shè)置。通過(guò)數(shù)據(jù)準(zhǔn)備、歸納決策樹(shù)、決策樹(shù)剪枝、抽取規(guī)則等步驟得出住院費(fèi)用是決定人員就醫(yī)壓力的最重要因素。文獻(xiàn)[13]使用決策樹(shù)算法及SQL Server 2005中包含的一種混合的決策樹(shù)算法分析研究了某市的基本醫(yī)療保險(xiǎn)數(shù)據(jù)樣本,找出隱含的有效信息,并在此基礎(chǔ)上提出了完善基本醫(yī)療保險(xiǎn)的對(duì)策建議。文獻(xiàn)[32]使用決策樹(shù)、神經(jīng)網(wǎng)絡(luò)等分類算法分析了我國(guó)某市的數(shù)據(jù)挖掘樣本,以此作為醫(yī)療保險(xiǎn)監(jiān)管部門(mén)對(duì)各參保單位的賬戶進(jìn)行考察的依據(jù)。
4 序列模式發(fā)現(xiàn)
序列挖掘或稱序列模式挖掘,是指從序列數(shù)據(jù)庫(kù)中發(fā)現(xiàn)蘊(yùn)涵的序列模式。最早是由Agrawal等人提出的,它的最初動(dòng)機(jī)是針對(duì)帶有交易時(shí)間屬性的交易數(shù)據(jù)庫(kù)中發(fā)現(xiàn)頻繁項(xiàng)目序列一發(fā)現(xiàn)某一時(shí)間段內(nèi)客戶的購(gòu)買活動(dòng)規(guī)律。
文獻(xiàn)[15]將序列模式挖掘算法與醫(yī)療保險(xiǎn)數(shù)據(jù)庫(kù)結(jié)合起來(lái),將基于周期時(shí)間約束的序列模式挖掘算法應(yīng)用與醫(yī)療保險(xiǎn)數(shù)據(jù)庫(kù)中。在分析基于約束序列模式挖掘算法的基礎(chǔ)上,重點(diǎn)研究了基于時(shí)間粒度的挖掘算法PCSmine,并修改優(yōu)化了算法中的HP.CSB數(shù)據(jù)結(jié)構(gòu),使用neucleaning算法預(yù)處理醫(yī)療保險(xiǎn)數(shù)據(jù)庫(kù),實(shí)驗(yàn)表明算法提高運(yùn)行效率。文獻(xiàn)[16]首先利用數(shù)據(jù)抽取、轉(zhuǎn)換及裝載工具獲取有效數(shù)據(jù),通過(guò)建立多維模型,運(yùn)用數(shù)據(jù)分析和數(shù)據(jù)挖掘方法生成各種報(bào)表及圖形,建立了智能醫(yī)院醫(yī)保業(yè)務(wù)決策支持系統(tǒng)架構(gòu)和數(shù)據(jù)倉(cāng)庫(kù)模型。文中使用第309醫(yī)院2007、2008和2009三個(gè)年度的各科室月度醫(yī)保病人總費(fèi)用來(lái)預(yù)測(cè)2010年1月的科室醫(yī)保病人總費(fèi)用。采用SQL Server 2008中的時(shí)序分析方法來(lái)進(jìn)行數(shù)據(jù)挖掘。SQL Server 2008 Analysis Services中的時(shí)間序列分析使用的算法是決策樹(shù)算法的特例。在文獻(xiàn)[17] 采用自動(dòng)回歸整合移動(dòng)平均ARIMA(AtoRegression Integrated Moving Average)模型,建立醫(yī)保結(jié)算費(fèi)用預(yù)測(cè)模型,實(shí)現(xiàn)對(duì)醫(yī)保結(jié)算總費(fèi)用的預(yù)測(cè),并能詳細(xì)到各區(qū)縣、各級(jí)別醫(yī)院醫(yī)保結(jié)算費(fèi)用的預(yù)測(cè),為醫(yī)保基金監(jiān)管提供方向。文獻(xiàn)[32]應(yīng)用了幾種數(shù)據(jù)挖掘的算法分析了我國(guó)某市的數(shù)據(jù)挖掘樣本,使用時(shí)序算法對(duì)各參保單位的賬戶使用情況進(jìn)行回歸以及預(yù)測(cè),以此作為醫(yī)療保險(xiǎn)監(jiān)管部門(mén)對(duì)各參保單位的賬戶進(jìn)行考察的依據(jù)。
5 其他應(yīng)用
以下為數(shù)據(jù)挖掘在社會(huì)醫(yī)保方面的一些研究及應(yīng)用。一般結(jié)合數(shù)據(jù)倉(cāng)庫(kù),一并分析。
文獻(xiàn)[19]基于動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)和SOA技術(shù),利用數(shù)據(jù)挖掘分析技術(shù),針對(duì)影響基金管理中的主要環(huán)節(jié)和基金運(yùn)行中的風(fēng)險(xiǎn)的主要因素,建立醫(yī)保基金風(fēng)險(xiǎn)防控基礎(chǔ)技術(shù)平臺(tái),對(duì)防范和化解基金風(fēng)險(xiǎn)起到支撐作用。
文獻(xiàn)[20]基于一個(gè)醫(yī)保基金風(fēng)險(xiǎn)防控平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建過(guò)程,提出一套適應(yīng)該平臺(tái)變化需求的元數(shù)據(jù)管理解決方案,分別從數(shù)據(jù)源層、數(shù)據(jù)倉(cāng)庫(kù)、分析應(yīng)用層、ETL過(guò)程幾方面對(duì)元數(shù)據(jù)進(jìn)行了分析,探討了其中元數(shù)據(jù)集成方案和管理功能的設(shè)計(jì)。
文獻(xiàn)[21]試著應(yīng)用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)醫(yī)保系統(tǒng)中有用的模式和規(guī)則構(gòu)建現(xiàn)代醫(yī)院信息平臺(tái)。經(jīng)過(guò)數(shù)據(jù)預(yù)處理、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、評(píng)估所得到的模式模型知識(shí)、發(fā)現(xiàn)知識(shí)的鞏固與運(yùn)用等過(guò)程構(gòu)建了基于數(shù)據(jù)挖掘技術(shù)的現(xiàn)代醫(yī)院信息平臺(tái)。
文獻(xiàn)[22]首先闡述了在醫(yī)療保險(xiǎn)管理上面臨的一些問(wèn)題,針對(duì)這些問(wèn)題采用數(shù)據(jù)倉(cāng)庫(kù)(DW)與數(shù)據(jù)挖掘(DM)技術(shù),對(duì)醫(yī)保系統(tǒng)、HIS 系統(tǒng)歷史的、現(xiàn)在的數(shù)據(jù)進(jìn)行過(guò)濾、整合、存儲(chǔ)以分析使用病提出了相應(yīng)的實(shí)施方法。
文獻(xiàn)[23]從采集醫(yī)療保險(xiǎn)數(shù)據(jù)信息、建設(shè)數(shù)據(jù)倉(cāng)庫(kù)、以及最后的開(kāi)發(fā)和利用三方面進(jìn)行闡述,探討在醫(yī)療保險(xiǎn)管理中數(shù)據(jù)信息的價(jià)值和功能,以及在計(jì)算機(jī)系統(tǒng)建設(shè)過(guò)程中應(yīng)注意的問(wèn)題,旨在為醫(yī)療保險(xiǎn)計(jì)算機(jī)管理系統(tǒng)的建設(shè)提供參考意見(jiàn)。
文獻(xiàn)[24]用powerbuilder開(kāi)發(fā)工具的分布式對(duì)象實(shí)現(xiàn)三層結(jié)構(gòu)式的醫(yī)保數(shù)據(jù)傳輸;定點(diǎn)醫(yī)療機(jī)構(gòu)的客戶端通過(guò)互聯(lián)網(wǎng)訪問(wèn)應(yīng)用服務(wù)器上的數(shù)據(jù)傳輸服務(wù)端,醫(yī)保數(shù)據(jù)庫(kù)服務(wù)器設(shè)置為不能訪問(wèn)互聯(lián)網(wǎng),也不能被互聯(lián)網(wǎng)訪問(wèn)。應(yīng)用三層結(jié)構(gòu)式可以安全地傳輸醫(yī)保數(shù)據(jù)。
文獻(xiàn)[25]利用商業(yè)智能工具實(shí)時(shí)提取數(shù)據(jù),并建立分析模型及各種分析統(tǒng)計(jì)結(jié)果的圖形和報(bào)表。 首先是對(duì)醫(yī)保數(shù)據(jù)進(jìn)行預(yù)處理,使醫(yī)保數(shù)據(jù)屬性更完整;然后,利用商業(yè)智能系統(tǒng)的ETL功能對(duì)數(shù)據(jù)進(jìn)行清洗并對(duì)原醫(yī)保中心導(dǎo)出來(lái)的數(shù)據(jù)與南方醫(yī)院原HIS 系統(tǒng)導(dǎo)出來(lái)的相關(guān)數(shù)據(jù),進(jìn)行自動(dòng)的配備、核算和查找;最后,再次用商業(yè)智能系統(tǒng)對(duì)上面形成的患者數(shù)據(jù)建模分析。此系統(tǒng)實(shí)現(xiàn)了對(duì)醫(yī)保中心數(shù)據(jù)和醫(yī)院數(shù)據(jù)庫(kù)數(shù)據(jù)的自動(dòng)化的抽取、匹配,并對(duì)醫(yī)保收入和工作量、醫(yī)保患者費(fèi)用等進(jìn)行了多維度、多角度的靈活統(tǒng)計(jì)和分析。
文獻(xiàn)[26]通過(guò)對(duì)醫(yī)療保險(xiǎn)系統(tǒng)數(shù)據(jù)的分析,建立相應(yīng)的數(shù)據(jù)模型,為醫(yī)療保險(xiǎn)系統(tǒng)提供決策支持依據(jù)。通過(guò)數(shù)據(jù)挖掘方法為醫(yī)療保險(xiǎn)系統(tǒng)建立了數(shù)據(jù)倉(cāng)庫(kù),利用單因素方差分析方法進(jìn)行數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì),并對(duì)其進(jìn)行分析和研究。這里以醫(yī)院的綜合實(shí)力作為方差分析的因素,即影響住院費(fèi)用的因素。
文獻(xiàn)[28]社會(huì)醫(yī)療保險(xiǎn)是社會(huì)保險(xiǎn)中最復(fù)雜的一個(gè)險(xiǎn)種,醫(yī)療保險(xiǎn)資金管理的一個(gè)關(guān)鍵因素就是在個(gè)人、單位繳納金額和個(gè)人享受保險(xiǎn)待遇的設(shè)定之間構(gòu)建一種平衡。數(shù)據(jù)挖掘是信息社會(huì)廣泛應(yīng)用的一門(mén)技術(shù),我國(guó)醫(yī)療保險(xiǎn)正處在改革的過(guò)程中,利用數(shù)據(jù)挖掘的分類技術(shù)對(duì)醫(yī)療保險(xiǎn)的數(shù)據(jù)進(jìn)行分析處理,能夠更好的把握醫(yī)療改革的方向,為醫(yī)療保險(xiǎn)的決策提供科學(xué)有效的依據(jù)。
文獻(xiàn)[33]以美國(guó) Ox International 公司的醫(yī)療保險(xiǎn)業(yè)務(wù)為背景,在已開(kāi)發(fā)的信息系統(tǒng)基礎(chǔ)上,提出了面向分析的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的解決方案。該方案從決策角度出發(fā),建立多維數(shù)據(jù)模型,將系統(tǒng)中的歷史數(shù)據(jù)加以處理,并有組織的存放到數(shù)據(jù)倉(cāng)庫(kù)中。在此基礎(chǔ)上,利用OLAP 和數(shù)據(jù)挖掘技術(shù),對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行各種復(fù)雜分析。文件[29]亦是。
文獻(xiàn)[30]首先描述了數(shù)據(jù)挖掘可用于醫(yī)療保險(xiǎn)行業(yè)的關(guān)鍵技術(shù)現(xiàn)狀,其次闡述了數(shù)據(jù)挖掘技術(shù)在醫(yī)療保險(xiǎn)行業(yè)中應(yīng)用的國(guó)內(nèi)外現(xiàn)狀和基于數(shù)據(jù)挖掘的決策支持系統(tǒng)研究現(xiàn)狀,最后進(jìn)行了總結(jié),討論和分析了在的醫(yī)療保險(xiǎn)信息系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘技術(shù)的工作重點(diǎn)。
文獻(xiàn)[31]以貴陽(yáng)市社會(huì)保障局醫(yī)療保險(xiǎn)業(yè)務(wù)數(shù)據(jù)中城鎮(zhèn)居民統(tǒng)籌基金支付情況為目標(biāo),利用聚類分析法,通過(guò)搭建oracle 數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),并在此平臺(tái)上進(jìn)行主題數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建與設(shè)計(jì),進(jìn)行聯(lián)機(jī)分析得出城鎮(zhèn)居民統(tǒng)籌基金支付情況。
除了以上的研究,目前國(guó)內(nèi)還有些學(xué)者從數(shù)據(jù)挖掘的技術(shù)角度對(duì)醫(yī)保管理信息系統(tǒng)進(jìn)行了實(shí)施,主要用到的技術(shù)有ETL、數(shù)據(jù)倉(cāng)庫(kù)、OLAP等。
6 總結(jié)與展望
本文對(duì)數(shù)據(jù)挖掘技術(shù)在社會(huì)醫(yī)保方面的應(yīng)用進(jìn)行了分析和總結(jié),分為關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、數(shù)據(jù)聚類、分類知識(shí)發(fā)現(xiàn)、序列模式發(fā)現(xiàn)以及數(shù)據(jù)挖掘在醫(yī)保中的應(yīng)用幾方面。
在醫(yī)保領(lǐng)域中數(shù)據(jù)挖掘技術(shù)的研究和應(yīng)用主要包括數(shù)據(jù)挖掘技術(shù)與領(lǐng)域知識(shí)的結(jié)合和算法設(shè)計(jì)與改進(jìn)兩個(gè)主要方面。隨著醫(yī)保基金風(fēng)險(xiǎn)防控的需求的不斷更新,可以發(fā)現(xiàn)更多的數(shù)據(jù)挖掘應(yīng)用場(chǎng)景,將數(shù)據(jù)挖掘技術(shù)更廣泛地應(yīng)用到醫(yī)保領(lǐng)域中。目前就診序列模式挖掘基于相似度的等長(zhǎng)序列模式,可以研究擴(kuò)展到不等長(zhǎng)模式的挖掘;此外可以進(jìn)一步提高一致行為模式挖掘的效率。
參考文獻(xiàn):
[1] 何俊華,張靜誼,熊赟,朱揚(yáng)勇.醫(yī)保就醫(yī)聚集行為挖掘[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(7).
[2] 劉凱,趙躍龍.關(guān)聯(lián)規(guī)則挖掘在醫(yī)保稽查中的應(yīng)用研究[J].科技信息,2007(33).
[3] 黃晶晶.數(shù)據(jù)挖掘技術(shù)在醫(yī)院醫(yī)保費(fèi)用分析中的研究與應(yīng)用[D].廣州:南方醫(yī)科大學(xué),2009.
[4] 石萌.數(shù)據(jù)挖掘在醫(yī)療保險(xiǎn)參保人員老齡化問(wèn)題中的研究[D].貴州:貴州財(cái)經(jīng)學(xué)院,2010.
[5] 簡(jiǎn)偉光.數(shù)據(jù)整合與數(shù)據(jù)挖掘技術(shù)在醫(yī)療保險(xiǎn)信息系統(tǒng)的研究與應(yīng)用[J].實(shí)踐與經(jīng)驗(yàn),2010.
[6] 朱彥華.醫(yī)保人群醫(yī)療費(fèi)用的數(shù)據(jù)挖掘與分析[D].廣州:華南理工大學(xué),2012.
[7] 梁愛(ài)琴.數(shù)據(jù)挖掘關(guān)聯(lián)算法在醫(yī)保系統(tǒng)中的應(yīng)用[D].北京:北京工業(yè)大學(xué),2008.
[8] 劉江超.數(shù)據(jù)挖掘算法在醫(yī)保數(shù)據(jù)上的應(yīng)用研究[D].湖南:國(guó)防科學(xué)技術(shù)大學(xué),2009.
[9] 朱彥華.醫(yī)保人群醫(yī)療費(fèi)用的數(shù)據(jù)挖掘與分析[D].廣東:華南理工大學(xué),2012.
[10] 王艷春,秦剛,陳毓.數(shù)據(jù)挖掘在醫(yī)保系統(tǒng)中的應(yīng)用[J].長(zhǎng)春理工大學(xué)學(xué)報(bào),2007,30(2).
[11] 李納.社會(huì)保障體系中醫(yī)療保險(xiǎn)的數(shù)據(jù)挖掘與聯(lián)機(jī)分析研究[D].貴州:貴州財(cái)經(jīng)學(xué)院,2011.
[12] 張婧,王書(shū)海.C4.5算法在醫(yī)療保險(xiǎn)數(shù)據(jù)挖掘中的應(yīng)用研究[J].石家莊鐵道學(xué)院學(xué)報(bào)(自然科學(xué)版),2008,21(2). (下轉(zhuǎn)第901頁(yè))
(上接第882頁(yè))
[13] 李冉冉,盧仿先.決策樹(shù)算法在基本醫(yī)療保險(xiǎn)中的應(yīng)用研究[J].企業(yè)技術(shù)開(kāi)發(fā),2008,27(5).
[14] 秦剛.數(shù)據(jù)挖掘在醫(yī)保系統(tǒng)中的應(yīng)用[D].吉林:長(zhǎng)春理工大學(xué),2006.
[15] 常帥.序列模式挖掘在醫(yī)療保險(xiǎn)上的應(yīng)用[D].河南:鄭州大學(xué),2011.
[16] 林濟(jì)南.基于商務(wù)智能的醫(yī)院醫(yī)保業(yè)務(wù)決策支持系統(tǒng)的研究[J].計(jì)算機(jī)與現(xiàn)代化,2009,9.
[17] 高臻耀,張敬誼,林志杰,熊斌,朱揚(yáng)勇.一個(gè)醫(yī)保基金風(fēng)險(xiǎn)防控平臺(tái)中的數(shù)據(jù)挖掘技術(shù)[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(8).
[18] 何俊華.數(shù)據(jù)挖掘技術(shù)在醫(yī)保領(lǐng)域中的研究與應(yīng)用[D].上海:復(fù)旦大學(xué),2011.
[19] 秦德霖,高震耀.面向服務(wù)的上海醫(yī)保基金風(fēng)險(xiǎn)防控平臺(tái)的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(4).
[20] 王月,王偉俊,童慶,熊赟,朱揚(yáng)勇.一個(gè)醫(yī)保數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)管理解決方案[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(8).
[21] 王順民.構(gòu)建基于數(shù)據(jù)挖掘技術(shù)的現(xiàn)代醫(yī)院信息平臺(tái)[J].制造業(yè)自動(dòng)化,2011,33(3).
[22] 張勇,趙峻,于冬.淺談醫(yī)保系統(tǒng)與醫(yī)院信息系統(tǒng)的數(shù)據(jù)挖掘[J].科學(xué)管理,2012,27(7).
[23] 王愛(ài)榮.淺析醫(yī)療保險(xiǎn)數(shù)據(jù)信息的采集、開(kāi)發(fā)和利用[J].中國(guó)衛(wèi)生經(jīng)濟(jì),2004,23(1).
[24] 韋振錦,方華,成春艷.三層結(jié)構(gòu)在醫(yī)保數(shù)據(jù)傳輸中的應(yīng)用[J].廣西科學(xué)院學(xué)報(bào),2007,23(4).
[25] 嚴(yán)靜東,張才明.依托商業(yè)智能系統(tǒng)的醫(yī)院醫(yī)保費(fèi)用分析[J].醫(yī)院數(shù)字化,2009,30(4).
[26] 王春才,韓貴東,楊玉東,李英韜,張羽醫(yī).保數(shù)據(jù)倉(cāng)庫(kù)的單因素方差分析與應(yīng)用[J].長(zhǎng)春理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,30(4).
[27] 張良燕,龔衛(wèi)華,黃德才,劉端陽(yáng).OLAM技術(shù)在醫(yī)療保險(xiǎn)系統(tǒng)中的應(yīng)用研究[J].2007,35(5).
[28] 石萌.分類模型在社會(huì)醫(yī)療保險(xiǎn)中的應(yīng)用研究[J].科技與生活,2010,3.
[29] 董韌毅.基于數(shù)據(jù)倉(cāng)庫(kù)的醫(yī)療保險(xiǎn)信息決策支持系統(tǒng)研究[D].江蘇:南京航空航天大學(xué),2008.
[30] 萬(wàn)芳.論數(shù)據(jù)挖掘在醫(yī)療保險(xiǎn)決策支持中的應(yīng)用[J].科技創(chuàng)業(yè)家,2011.
[31] 張莎莎,李偉.數(shù)據(jù)挖掘在城鎮(zhèn)醫(yī)保中的應(yīng)用[J].電腦知識(shí)與技術(shù),2013,8.
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)庫(kù);預(yù)處理技術(shù)
中圖分類號(hào):TP311.131
隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的普及應(yīng)用,由于其能夠提高工作的效率,非常受到人們的重視,一些企業(yè)甚至在計(jì)算機(jī)應(yīng)用的基礎(chǔ)上,提出了無(wú)紙化辦公的理念,在實(shí)際應(yīng)用的過(guò)程中,計(jì)算機(jī)需要存儲(chǔ)大量的數(shù)據(jù),對(duì)于企業(yè)用戶來(lái)說(shuō),很多數(shù)據(jù)具有私密性,如果這些數(shù)據(jù)泄露出去,將會(huì)給企業(yè)的發(fā)展帶來(lái)嚴(yán)重的影響,甚至造成巨大的經(jīng)濟(jì)損失。受到特殊的歷史因素影響,我國(guó)的經(jīng)濟(jì)和科技起步較晚,與西方發(fā)達(dá)國(guó)家相比,存在較大的差距,雖然經(jīng)過(guò)了多年改革開(kāi)放的發(fā)展,我國(guó)已經(jīng)成為了世界第二大經(jīng)濟(jì)體,計(jì)算機(jī)的應(yīng)用水平也有了很大的提高,但是在尖端的數(shù)據(jù)挖掘等領(lǐng)域中,研究的還比較少,而數(shù)據(jù)挖掘等技術(shù),能夠在很大程度上影響數(shù)據(jù)的利用效率,對(duì)于實(shí)際的工作來(lái)說(shuō),具有非常重要的作用。
1 數(shù)據(jù)挖掘的預(yù)處理技術(shù)簡(jiǎn)析
1.1 數(shù)據(jù)挖掘預(yù)處理技術(shù)的概念
數(shù)據(jù)挖掘技術(shù)是隨著數(shù)據(jù)庫(kù)的發(fā)展,逐漸形成的一門(mén)學(xué)科,在計(jì)算機(jī)出現(xiàn)的早期,受到其性能和體積的限制,能夠存儲(chǔ)的數(shù)據(jù)很少,不需要考慮數(shù)據(jù)的利用效率,但是隨著晶體管和集成電路的使用,計(jì)算機(jī)的性能得到了極大的提高,相應(yīng)的存儲(chǔ)設(shè)備也有了很大的進(jìn)步,計(jì)算機(jī)能夠處理的任務(wù)越來(lái)越復(fù)雜,存儲(chǔ)的數(shù)據(jù)越來(lái)越多,現(xiàn)在我國(guó)建成了多個(gè)大型數(shù)據(jù)存儲(chǔ)中心,存儲(chǔ)的數(shù)據(jù)量非常巨大。對(duì)于如此多的數(shù)據(jù),如何篩選出自己想要的,成為了很大專家和學(xué)者研究的問(wèn)題,在傳統(tǒng)的數(shù)據(jù)應(yīng)用中,通常都是利用檢索技術(shù),根據(jù)輸入的關(guān)鍵詞,在數(shù)據(jù)庫(kù)中進(jìn)行逐個(gè)的匹配,如果數(shù)據(jù)庫(kù)的存儲(chǔ)量較小,檢索的效率就比較高,而對(duì)于現(xiàn)在的海量存儲(chǔ)來(lái)說(shuō),逐個(gè)匹配顯然需要很長(zhǎng)的等待時(shí)間。數(shù)據(jù)挖掘的預(yù)處理技術(shù),正是在這種背景下出現(xiàn)的,所謂預(yù)處理技術(shù),就是在數(shù)據(jù)挖掘之前,對(duì)數(shù)據(jù)進(jìn)行一定的整理,通常情況下,數(shù)據(jù)挖掘主要面對(duì)現(xiàn)有的數(shù)據(jù)庫(kù)或者互聯(lián)網(wǎng)上海量的數(shù)據(jù),如果在數(shù)據(jù)庫(kù)中進(jìn)行挖掘,那么可以對(duì)數(shù)據(jù)庫(kù)進(jìn)行一定的修改,如完善數(shù)據(jù)分類的方式等,而在互聯(lián)網(wǎng)上進(jìn)行數(shù)據(jù)挖掘,顯然就需要優(yōu)化挖掘的方式,或者縮小數(shù)據(jù)挖掘的范圍等。
1.2 數(shù)據(jù)挖掘預(yù)處理技術(shù)的特點(diǎn)
與正常的數(shù)據(jù)挖掘技術(shù)相比,如何增加相應(yīng)的預(yù)處理環(huán)節(jié),無(wú)疑可以極大的提高數(shù)據(jù)挖掘的效率,如在數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)的挖掘,傳統(tǒng)的挖掘方式下,通常都是利用檢索技術(shù),輸入指定的關(guān)鍵詞后,與數(shù)據(jù)庫(kù)中的信息進(jìn)行對(duì)比,這樣逐條的進(jìn)行檢索,就可以找到自己想要的數(shù)據(jù),如果數(shù)據(jù)庫(kù)存儲(chǔ)的信息量較大,那么利用這樣的挖掘方式,顯然需要很長(zhǎng)的等待時(shí)間。如果增加相應(yīng)的預(yù)處理環(huán)節(jié),如在數(shù)據(jù)庫(kù)中添加索引,對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分類,那么在輸入相應(yīng)的關(guān)鍵詞后,首先與索引進(jìn)行匹配,然后在指定類別的數(shù)據(jù)中進(jìn)行對(duì)比,這樣的方式,顯然極大的提高了數(shù)據(jù)挖掘的效率,目前使用的數(shù)據(jù)庫(kù)中,大多采用了這樣的預(yù)處理技術(shù),取得了很好的應(yīng)用效果。受到特殊歷史因素的影響,我國(guó)數(shù)據(jù)庫(kù)相關(guān)技術(shù)水平較低,目前我國(guó)建設(shè)的大型數(shù)據(jù)庫(kù),都是與國(guó)外的技術(shù)公司合建的,通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),現(xiàn)在我國(guó)還無(wú)法自主生產(chǎn)外部存儲(chǔ)設(shè)備,市面上的存儲(chǔ)設(shè)備,都是從外國(guó)引進(jìn)的,但是在實(shí)際數(shù)據(jù)庫(kù)的建設(shè)中,在外國(guó)存儲(chǔ)設(shè)備的基礎(chǔ)上,我國(guó)也進(jìn)行了大量數(shù)據(jù)挖掘等技術(shù)的研究。
1.3 數(shù)據(jù)挖掘預(yù)處理技術(shù)的發(fā)展
從某種意義上來(lái)說(shuō),數(shù)據(jù)挖掘技術(shù)是隨著互聯(lián)網(wǎng)和數(shù)據(jù)庫(kù)的應(yīng)用,根據(jù)實(shí)際使用的需要,逐漸形成的一門(mén)技術(shù),在互聯(lián)網(wǎng)發(fā)展的初期,網(wǎng)絡(luò)上的資源有限,而且受到計(jì)算機(jī)性能的限制,沒(méi)有太多的娛樂(lè)項(xiàng)目,只能瀏覽一些商業(yè)網(wǎng)站等,隨著計(jì)算機(jī)的普及應(yīng)用,互聯(lián)網(wǎng)有了很大的發(fā)展,現(xiàn)在已經(jīng)建成了覆蓋世界范圍的因特網(wǎng)。據(jù)最新的統(tǒng)計(jì)調(diào)查表明,我國(guó)的網(wǎng)民數(shù)量已經(jīng)超過(guò)了6億,如果龐大的用戶群體,為我國(guó)互聯(lián)網(wǎng)的發(fā)展,提供了堅(jiān)實(shí)的基礎(chǔ),但是通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),我國(guó)的實(shí)際網(wǎng)絡(luò)帶寬,還沒(méi)有達(dá)到世界平均水平,即使實(shí)際使用的網(wǎng)絡(luò)帶寬較低,我國(guó)互聯(lián)網(wǎng)內(nèi)容的發(fā)展速度依然很快,現(xiàn)在網(wǎng)絡(luò)上出現(xiàn)了各種各樣的網(wǎng)站,極大的提高了網(wǎng)絡(luò)建設(shè)水平。在實(shí)際的網(wǎng)絡(luò)瀏覽中,面對(duì)如此大的信息量,如何找到自己想要的信息,成為了一個(gè)實(shí)際問(wèn)題,為了解決這個(gè)問(wèn)題,出現(xiàn)了搜索引擎,只要輸入相應(yīng)的關(guān)鍵詞,搜索引擎就可以很快的找到大量相關(guān)內(nèi)容,然后進(jìn)行必要的篩選,就能夠得到相應(yīng)的數(shù)據(jù),但是隨著互聯(lián)網(wǎng)內(nèi)容的豐富,除了傳統(tǒng)的文字信息外,還有視頻和音頻等數(shù)據(jù),如何在這些數(shù)據(jù)中,進(jìn)行相應(yīng)的挖掘工作,具有較大的難度。
2 影響數(shù)據(jù)挖掘預(yù)處理技術(shù)的因素
2.1 預(yù)處理的方式
在實(shí)際的數(shù)據(jù)挖掘過(guò)程中,能夠影響挖掘效果的因素有很多,如數(shù)據(jù)量的大小、挖掘方式等,從某種意義上來(lái)說(shuō),數(shù)據(jù)挖掘就是數(shù)據(jù)的查找,從指定范圍或者未知范圍內(nèi),找到指定的數(shù)據(jù),通常情況下,數(shù)據(jù)挖掘都具有很強(qiáng)的目的性,但是對(duì)于找到數(shù)據(jù)的量,并沒(méi)有明確的要求,尤其是隨著互聯(lián)網(wǎng)內(nèi)容的增加,現(xiàn)在的數(shù)據(jù)挖掘中,都會(huì)附帶大量的相關(guān)信息。對(duì)于數(shù)據(jù)挖掘的預(yù)處理技術(shù)來(lái)說(shuō),預(yù)處理的方式,能夠在很大程度上影響挖掘的效率,例如在一個(gè)一百條數(shù)據(jù)庫(kù)中進(jìn)行挖掘,為了提高實(shí)際的效率,通常情況下會(huì)采用檢索的方式,根據(jù)輸入的關(guān)鍵詞,逐條的與數(shù)據(jù)庫(kù)的信息進(jìn)行比對(duì),這樣挖掘的效率具有很大的不確定性,如果要查找的數(shù)據(jù)排列比較考前,那么就需要很短的檢索時(shí)間,如果要查找的數(shù)據(jù)剛好在第一百條的位置,顯然就需要進(jìn)行一百次匹配。如果采用索引的方式進(jìn)行預(yù)處理,將這一百條數(shù)據(jù)根據(jù)自身的特點(diǎn),分成十個(gè)類別,每個(gè)類別建立一個(gè)索引,那么在實(shí)際的匹配中,無(wú)論要查找的數(shù)據(jù)處于哪個(gè)位置,最多只需要十次匹配,就可以找到相應(yīng)的數(shù)據(jù),由此可以看出,預(yù)處理方式對(duì)于數(shù)據(jù)挖掘效率具有非常重要的影響。
2.2 數(shù)據(jù)量的大小
計(jì)算機(jī)經(jīng)過(guò)了多年的發(fā)展,其自身的性能有了很大的提高,在實(shí)際的數(shù)據(jù)挖掘中,如果檢索的數(shù)據(jù)較少,即使不經(jīng)過(guò)任何的預(yù)處理,仍然可以具有很高的挖掘效率,但是隨著數(shù)據(jù)庫(kù)自身的發(fā)展,企業(yè)用戶的數(shù)據(jù)庫(kù)容量越來(lái)越大,在數(shù)據(jù)庫(kù)中查找指定的數(shù)據(jù),需要較長(zhǎng)的時(shí)間,要想很好的解決這個(gè)問(wèn)題,必須對(duì)數(shù)據(jù)挖掘的方式等,進(jìn)行相應(yīng)的優(yōu)化。通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),目前我國(guó)使用的數(shù)據(jù)庫(kù),大多都是國(guó)外的技術(shù)公司設(shè)計(jì)的,為了方便數(shù)據(jù)庫(kù)的使用,大多采用了整體的外包,即軟件和硬件都是由同一家公司提供,采用這樣的方式,不但能夠很好的解決軟件和硬件之間不兼容的問(wèn)題,同時(shí)可以提供優(yōu)質(zhì)的軟件服務(wù)。目前市面上的數(shù)據(jù)庫(kù),大多對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行一定的優(yōu)化,如增加索引環(huán)節(jié)等,通過(guò)這些技術(shù)的使用,很好的提高了實(shí)際的挖掘效率,但是這些預(yù)處理技術(shù),并沒(méi)有考慮到數(shù)據(jù)量的大小,如一些大型的數(shù)據(jù)庫(kù)中,要想建立索引機(jī)制,本身就需要很長(zhǎng)的時(shí)間,雖然在建立索引后,就可以直接的使用,即使數(shù)據(jù)庫(kù)中發(fā)生變化,也不需要重新建立,只要根據(jù)數(shù)據(jù)的情況,將其存儲(chǔ)到指定的分類中即可。
2.3 操作人員自身的素質(zhì)
對(duì)于實(shí)際的數(shù)據(jù)挖掘工作來(lái)說(shuō),操作人員自身的素質(zhì),也可以在很大程度上影響挖掘的效率,經(jīng)過(guò)了多年的完善,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了一門(mén)單獨(dú)的學(xué)科,計(jì)算機(jī)專業(yè)的學(xué)生,要進(jìn)行相應(yīng)知識(shí)的學(xué)習(xí),但是通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),現(xiàn)在的數(shù)據(jù)挖掘主要針對(duì)互聯(lián)網(wǎng)上的內(nèi)容,而互聯(lián)網(wǎng)日新月異的發(fā)展,給數(shù)據(jù)挖掘帶來(lái)了很大的難度。在這種背景下,如果沒(méi)有足夠的工作經(jīng)驗(yàn),顯然很難完成相應(yīng)的數(shù)據(jù)挖掘工作,因此剛畢業(yè)的大學(xué)生,數(shù)據(jù)挖掘的效果較差,即使能夠完成相應(yīng)的工作,也需要較長(zhǎng)的時(shí)間,雖然這些學(xué)生在學(xué)校中,能夠?qū)W習(xí)到大量的數(shù)據(jù)挖掘知識(shí),為了提高教學(xué)的效果,老師還會(huì)講解一些數(shù)據(jù)挖掘的實(shí)例,但是實(shí)際挖掘中,具有很多的不可控因素。如果操作人員具有豐富的數(shù)據(jù)挖掘經(jīng)驗(yàn),在實(shí)際的工作中,必然會(huì)總結(jié)一些相應(yīng)的技巧,這些技巧的使用,可以在一定程度上縮短挖掘的時(shí)間,提高數(shù)據(jù)挖掘的準(zhǔn)確性,對(duì)于數(shù)據(jù)挖掘工作來(lái)說(shuō),具有非常重要的作用,從某種意義上來(lái)說(shuō),數(shù)據(jù)挖掘的預(yù)處理技術(shù),指的就是這些從實(shí)踐中總結(jié)出來(lái)的技巧,然后進(jìn)行科學(xué)、系統(tǒng)的分析,應(yīng)用到實(shí)際的挖掘中。
3 我國(guó)數(shù)據(jù)挖掘預(yù)處理技術(shù)應(yīng)用中存在的問(wèn)題
3.1 沒(méi)有意識(shí)到預(yù)處理技術(shù)的重要性
在傳統(tǒng)的數(shù)據(jù)挖掘中,由于數(shù)據(jù)庫(kù)自身的容量較少,采用檢索的方式,就可以輕松的找到想要的數(shù)據(jù),因此不需要預(yù)處理技術(shù),隨著數(shù)據(jù)庫(kù)自身的發(fā)展,計(jì)算機(jī)的性能也有了很大的提高,在很長(zhǎng)一段時(shí)間內(nèi),硬件的發(fā)展速度都要領(lǐng)先于軟件,因此數(shù)據(jù)檢索具有很高的效率,近些年互聯(lián)網(wǎng)的普及應(yīng)用,在很大程度上改變了這種現(xiàn)象,尤其是云計(jì)算等理念的出現(xiàn)。在互聯(lián)網(wǎng)海量數(shù)據(jù)中進(jìn)行挖掘,依靠單獨(dú)的計(jì)算機(jī),很難具有較高的效率,在這種背景下,如何優(yōu)化數(shù)據(jù)挖掘技術(shù),成為了很多專家和學(xué)者研究的問(wèn)題,預(yù)處理技術(shù)就是根據(jù)實(shí)際工作的需要出現(xiàn)的,受到特殊的歷史因素影響,在數(shù)據(jù)庫(kù)的建設(shè)等方面,我國(guó)要落后西方國(guó)家很多,雖然近年來(lái)我國(guó)投入了大量的人力和物力,研究數(shù)據(jù)挖掘等技術(shù),但是并沒(méi)有取得明顯的效果。正是受到自身技術(shù)水平的限制,使得我國(guó)數(shù)據(jù)建設(shè)中,對(duì)數(shù)據(jù)挖掘的預(yù)處理技術(shù),沒(méi)有足夠的重視,導(dǎo)致很大數(shù)據(jù)庫(kù)中,還采用傳統(tǒng)的檢索等方式,沒(méi)有任何的預(yù)處理技術(shù),在很大程度上影響了數(shù)據(jù)挖掘的效率,雖然一些數(shù)據(jù)庫(kù)中集成了相應(yīng)的功能,但是通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),在實(shí)際使用的過(guò)程中,并沒(méi)有啟用相應(yīng)的功能。
3.2 沒(méi)有針對(duì)性的預(yù)處理方式
由于現(xiàn)在的數(shù)據(jù)挖掘,主要針對(duì)互聯(lián)網(wǎng)上海量的數(shù)據(jù),而互聯(lián)網(wǎng)上的數(shù)據(jù)非常復(fù)雜,尤其是近些年網(wǎng)絡(luò)的發(fā)展,出現(xiàn)了文本、視頻、音頻等各種各樣的信息,在這些信息中進(jìn)行數(shù)據(jù)的挖掘,顯然具有較大的難度,而且互聯(lián)網(wǎng)的數(shù)據(jù)量較大,即使借助相應(yīng)的搜索引擎,依然需要很長(zhǎng)的挖掘時(shí)間,對(duì)于現(xiàn)在使用的一些數(shù)據(jù)挖掘預(yù)處理技術(shù),只有在一些特定的情況下,才能夠發(fā)揮出一定的作用。數(shù)據(jù)挖掘預(yù)處理技術(shù)出現(xiàn)的時(shí)間較短,目前還沒(méi)有形成統(tǒng)一的認(rèn)識(shí),不同學(xué)者根據(jù)實(shí)際工作的需要,提出了不同的預(yù)處理方式,通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),這些預(yù)處理方式的應(yīng)用,都具有一定的局限性,在特定的數(shù)據(jù)挖掘中,可以明顯的提高挖掘的效率,但是對(duì)于其他數(shù)據(jù)的挖掘,就無(wú)法起到相應(yīng)的作用。受到我國(guó)數(shù)據(jù)挖掘技術(shù)水平的限制,并沒(méi)有意識(shí)到這點(diǎn),在實(shí)際數(shù)據(jù)挖掘的工作中,通常都是隨意的采用預(yù)處理方式,這樣顯然無(wú)法最大成都上提高數(shù)據(jù)挖掘的效率,有時(shí)候反而會(huì)降低工作的效率,目前西方發(fā)達(dá)國(guó)家的數(shù)據(jù)挖掘預(yù)處理中,都會(huì)根據(jù)每次工作的實(shí)際情況,針對(duì)性的設(shè)計(jì)一個(gè)預(yù)處理的方式。
4 數(shù)據(jù)挖掘的預(yù)處理技術(shù)應(yīng)用措施
4.1 重視數(shù)據(jù)挖掘的預(yù)處理技術(shù)
考慮到我國(guó)的數(shù)據(jù)庫(kù)建設(shè)中,很多都沒(méi)有采用相應(yīng)的預(yù)處理技術(shù),在很大程度上影響了數(shù)據(jù)挖掘的效率,要想很好的解決這個(gè)問(wèn)題,必須對(duì)預(yù)處理技術(shù)給予足夠的重視,在數(shù)據(jù)庫(kù)的設(shè)計(jì)時(shí),就對(duì)預(yù)處理的方式等進(jìn)行考慮,如果是購(gòu)買的數(shù)據(jù)庫(kù)服務(wù),那么就要根據(jù)自身的實(shí)際情況,對(duì)預(yù)處理技術(shù)提供一定的要求,這樣可以極大的提高挖掘的效率。通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),西方國(guó)家的預(yù)處理技術(shù)水平之所以比較高,主要就是由于其重視,在實(shí)際的挖掘工作中,對(duì)于能夠提高工作效率的所有細(xì)節(jié)進(jìn)行完善,并總結(jié)相關(guān)的經(jīng)驗(yàn),方便下次的使用,正是這種供求雙方的重視,使得西方發(fā)達(dá)國(guó)家的預(yù)處理技術(shù)快速的發(fā)展。我國(guó)要想提高自身的數(shù)據(jù)挖掘預(yù)處理技術(shù),必須根據(jù)自身的實(shí)際情況,借鑒外國(guó)一些先進(jìn)的經(jīng)驗(yàn),最大程度上完善預(yù)處理技術(shù),要想達(dá)到這個(gè)目的,首先應(yīng)該提高對(duì)預(yù)處理技術(shù)的重視程度,無(wú)論是實(shí)際的操作人員,還是管理人員和開(kāi)發(fā)人員,都應(yīng)該重視預(yù)處理技術(shù)的應(yīng)用,然后從自身的工作角度出發(fā),對(duì)其進(jìn)行一定的完善。
4.2 提高工作人員自身的素質(zhì)
數(shù)據(jù)挖掘預(yù)處理技術(shù)的應(yīng)用,需要實(shí)際的操作人員,而不同工作人員,由于自身經(jīng)驗(yàn)等不同,工作的效率會(huì)有一定的差距,如剛畢業(yè)的大學(xué)生,即使在學(xué)校中的成績(jī)較好,掌握了足夠的預(yù)處理知識(shí),還是無(wú)法很好的完成相應(yīng)的工作,尤其是近些年信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上海量數(shù)據(jù)的挖掘,具有很大的難度。而且不同數(shù)據(jù)的挖掘,預(yù)處理方式等也應(yīng)該具有一定的差異,通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),目前我國(guó)的數(shù)據(jù)挖掘工作人員自身的素質(zhì)普遍較低,無(wú)法根據(jù)實(shí)際的工作情況,針對(duì)性的選擇一種預(yù)處理方式,在很大程度上影響了挖掘的效率,要想很好的解決這個(gè)問(wèn)題,必須提高工作人員自身的素質(zhì),在實(shí)際的招聘過(guò)程中,盡量聘請(qǐng)一些具有豐富經(jīng)驗(yàn)的人員。對(duì)于現(xiàn)有的工作人員,可以通過(guò)定期培訓(xùn)等方式,讓其了解到最新的數(shù)據(jù)挖掘理念,以及預(yù)處理技術(shù)的重要性等,如果條件允許,還可以與一些先進(jìn)的企業(yè)進(jìn)行交流,學(xué)習(xí)先進(jìn)的預(yù)處理技術(shù),這樣在提高預(yù)處理技術(shù)水平的同時(shí),還可以對(duì)數(shù)據(jù)庫(kù)的其他的技術(shù),進(jìn)行一定的優(yōu)化。
4.3 采用針對(duì)性的預(yù)處理方式
經(jīng)過(guò)了多年的發(fā)展和完善,數(shù)據(jù)挖掘的預(yù)處理技術(shù)已經(jīng)非常普遍,目前的很大數(shù)據(jù)庫(kù)建設(shè)中,都會(huì)采用預(yù)處理技術(shù),甚至在日常的數(shù)據(jù)搜索中,也開(kāi)始使用預(yù)處理技術(shù),但是通過(guò)實(shí)際的調(diào)查發(fā)現(xiàn),根據(jù)實(shí)際需要數(shù)據(jù)的不同,數(shù)據(jù)挖掘的環(huán)境、方式等會(huì)具有較大的差異,而這些條件的變化,必然需要不同的預(yù)處理方式。而目前我國(guó)的數(shù)據(jù)挖掘中,顯然還沒(méi)有意識(shí)到這點(diǎn),為了提高實(shí)際的工作效率,雖然會(huì)采用一定的預(yù)處理方式,但是預(yù)處理的方式,并不會(huì)根據(jù)數(shù)據(jù)挖掘的不同,進(jìn)行針對(duì)性的變化,沒(méi)有真正的達(dá)到預(yù)處理的目的,在一些特殊的數(shù)據(jù)挖掘中,由于預(yù)處理方式的不當(dāng),甚至?xí)档凸ぷ鞯男省S纱丝梢钥闯觯趯?shí)際的數(shù)據(jù)挖掘中,預(yù)處理方式的重要性,要想最大程度上提高工作的效率,必須采用針對(duì)性的預(yù)處理方式,對(duì)目前已有的預(yù)處理方式進(jìn)行總結(jié)、分類,根據(jù)需要數(shù)據(jù)的情況,針對(duì)性的選擇,如果人員的自身素質(zhì)較高,還可以設(shè)計(jì)一個(gè)新的預(yù)處理方式,以此來(lái)最大程度上提高數(shù)據(jù)挖掘的效率。
5 結(jié)束語(yǔ)
通過(guò)全文的分析可以知道,隨著近些年計(jì)算機(jī)和互聯(lián)網(wǎng)的普及應(yīng)用,數(shù)據(jù)的挖掘、存儲(chǔ)、調(diào)用等技術(shù)越來(lái)越重要,受到特殊的歷史因素影響,我國(guó)科技起步較晚,與西方發(fā)達(dá)國(guó)家相比,在數(shù)據(jù)挖掘等領(lǐng)域中,具有明顯的差異,雖然經(jīng)過(guò)了多年改革開(kāi)放的發(fā)展,這種差距在逐漸的減小,但是很難在短時(shí)間內(nèi)趕上發(fā)達(dá)國(guó)家的技術(shù)水平,在這種背景下,要想快速的提高我國(guó)數(shù)據(jù)挖掘預(yù)處理技術(shù),必須結(jié)合我國(guó)數(shù)據(jù)挖掘的實(shí)際情況,借鑒西方國(guó)家先進(jìn)的經(jīng)驗(yàn),完善目前的預(yù)處理技術(shù)。
參考文獻(xiàn):
[1]鄭繼剛,謝芳.多媒體圖像挖掘的關(guān)聯(lián)規(guī)則挖掘[J].紅河學(xué)院學(xué)報(bào),2009(05):44-47.
[2]謝邦昌,李揚(yáng).數(shù)據(jù)挖掘與商業(yè)智能的現(xiàn)況及未來(lái)發(fā)展[J].統(tǒng)計(jì)與信息論壇,2008(05):94-96.
[3]林建勤.數(shù)據(jù)挖掘主要問(wèn)題的對(duì)策研究[J].貴陽(yáng)學(xué)院學(xué)報(bào)(自然科學(xué)版),2007(02):1-4.
[4]陳娜.數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向[J].電腦與信息技術(shù),2006(01):46-49.
[5]李菁菁,邵培基,黃亦瀟.數(shù)據(jù)挖掘在中國(guó)的現(xiàn)狀和發(fā)展研究[J].管理工程學(xué)報(bào),2004(03):10-15.
[6]鄭斌祥,杜秀華,席裕庚.一種時(shí)序數(shù)據(jù)的離群數(shù)據(jù)挖掘新算法[J].控制與決策,2002(03):324-327.
[7]臧洌.人工神經(jīng)網(wǎng)絡(luò)在混沌觀測(cè)時(shí)序數(shù)據(jù)處理中的應(yīng)用[J].數(shù)據(jù)采集與處理,2001(04):486-489.
[關(guān)鍵詞] 數(shù)據(jù)挖掘;名老中醫(yī);經(jīng)驗(yàn)傳承
名老中醫(yī)是中醫(yī)藥學(xué)術(shù)發(fā)展的杰出代表,是聯(lián)系傳統(tǒng)和實(shí)現(xiàn)中醫(yī)發(fā)展的靈魂,名老中醫(yī)經(jīng)驗(yàn)的總結(jié)和傳承不僅能豐富中醫(yī)學(xué)的理論體系,還能為中醫(yī)藥學(xué)術(shù)進(jìn)步產(chǎn)生巨大的推動(dòng)作用,也是培養(yǎng)造就新一代名中醫(yī)的重要途徑之一。因此,總結(jié)名老中醫(yī)的臨床經(jīng)驗(yàn)、用藥規(guī)律和學(xué)術(shù)思想,對(duì)中醫(yī)藥的薪火相傳具有重要的理論意義和應(yīng)用價(jià)值,也是中醫(yī)藥創(chuàng)新發(fā)展的源泉。數(shù)據(jù)挖掘(data mining,DM)又稱數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(knowledge discover in database,KDD),是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、未知的并有潛在價(jià)值的信息的非平凡過(guò)程。采用數(shù)據(jù)挖掘技術(shù)對(duì)名老中醫(yī)學(xué)術(shù)思想和臨證經(jīng)驗(yàn)進(jìn)行研究,可以全面解析其中的規(guī)律,分析名老中醫(yī)個(gè)體化診療信息特征,提煉出臨證經(jīng)驗(yàn)中蘊(yùn)藏的新理論、新方法、新知識(shí),實(shí)現(xiàn)名醫(yī)經(jīng)驗(yàn)的有效總結(jié)與傳承。自從基于信息和數(shù)據(jù)技術(shù)的名老中醫(yī)臨床診療經(jīng)驗(yàn)研究思路提出以來(lái),利用多種數(shù)據(jù)挖掘技術(shù)對(duì)病案進(jìn)行分析的研究報(bào)道與日俱增,在名老中醫(yī)經(jīng)驗(yàn)傳承領(lǐng)域發(fā)揮著重要作用[1-3]。本文中,筆者結(jié)合多年從事數(shù)據(jù)挖掘研究的經(jīng)驗(yàn)與體會(huì),并借鑒國(guó)內(nèi)同行的相關(guān)研究成果,對(duì)數(shù)據(jù)挖掘在名老中醫(yī)經(jīng)驗(yàn)傳承研究中的應(yīng)用進(jìn)行論述,希冀為數(shù)據(jù)挖掘方法在名老中醫(yī)經(jīng)驗(yàn)傳承領(lǐng)域的進(jìn)一步深入應(yīng)用提供參考。
1 名老中醫(yī)經(jīng)驗(yàn)傳承研究中數(shù)據(jù)挖掘方法的應(yīng)用
1.1 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則(association rules)是從大量的數(shù)據(jù)中挖掘發(fā)現(xiàn)項(xiàng)集之間有意義的關(guān)聯(lián),并尋找給定的數(shù)據(jù)集中項(xiàng)之間的有趣聯(lián)系的一種算法。常用的關(guān)聯(lián)規(guī)則算法包括Apriori算法、FP-樹(shù)頻集算法等 [4-6]。吳榮等采用關(guān)聯(lián)規(guī)則算法對(duì)名老中醫(yī)治療冠心病的用藥規(guī)律進(jìn)行數(shù)據(jù)挖掘。結(jié)果顯示,治療冠心病處方中最常用的中藥是丹參、瓜蔞、川芎,最常用的方劑是瓜蔞薤白類方、活血通脈劑及生脈散[7]。劉曉怡等采用關(guān)聯(lián)規(guī)則方法對(duì)李佃貴教授辨治慢性萎縮性胃炎醫(yī)案進(jìn)行數(shù)據(jù)挖掘,得出李佃貴教授診治慢性萎縮性胃炎最常用的藥物是茵陳、黃連[8]。田琳等采用關(guān)聯(lián)規(guī)則算法對(duì)名老中醫(yī)診療眩暈病辨證思維模式進(jìn)行數(shù)據(jù)挖掘,得出眩暈病的證候多為風(fēng)陽(yáng)上擾、肝腎陰虛、痰濁上蒙、肝腎陰虛、氣血兩虛等,病因病機(jī)多為虛、風(fēng)、痰、瘀等,發(fā)病與肝、腎、脾三臟關(guān)系密切[9-10]。筆者采用關(guān)聯(lián)規(guī)則方法對(duì)國(guó)醫(yī)大師顏正華教授治療胃脘痛用藥規(guī)律進(jìn)行數(shù)據(jù)挖掘,得出顏正華教授在治療胃脘痛過(guò)程中常用藥物為陳皮、佛手、香附、白芍、煅瓦楞子、赤芍、當(dāng)歸、丹參等,使用頻率前3位的藥對(duì)是佛手、陳皮,陳皮、香附,佛手、香附[11-12]。作為在名老中醫(yī)處方規(guī)律研究中使用最廣泛的數(shù)據(jù)挖掘算法,關(guān)聯(lián)規(guī)則具有明顯的優(yōu)點(diǎn),如它可以產(chǎn)生清晰有用的結(jié)果,支持間接數(shù)據(jù)挖掘,可以處理變長(zhǎng)的數(shù)據(jù)等。但是,關(guān)聯(lián)規(guī)則也有其不足,如計(jì)算量增長(zhǎng)相當(dāng)嚴(yán)重,難以決定正確的數(shù)據(jù),容易忽略稀有的數(shù)據(jù)等。
1.2 貝葉斯網(wǎng)絡(luò)的應(yīng)用 貝葉斯網(wǎng)絡(luò)(Bayesian network)是一種以貝葉斯公式為基礎(chǔ)的概率網(wǎng)絡(luò),是一個(gè)有向無(wú)環(huán)圖,由代表變量結(jié)點(diǎn)及連接這些結(jié)點(diǎn)的有向邊構(gòu)成。貝葉斯網(wǎng)絡(luò)可以將具體問(wèn)題中復(fù)雜的變量關(guān)系在一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)表示,通過(guò)網(wǎng)絡(luò)模型反映問(wèn)題領(lǐng)域中變量的依賴關(guān)系[13]。吳榮等利用貝葉斯網(wǎng)絡(luò)技術(shù)對(duì)名老中醫(yī)治療冠心病辨證規(guī)律進(jìn)行數(shù)據(jù)挖掘,提取出名老中醫(yī)診療冠心病、心絞痛的8個(gè)證候要素[14]。須義貞等采用貝葉斯網(wǎng)絡(luò)和方劑智能分析軟件對(duì)沈仲理教授診療子宮肌瘤醫(yī)案進(jìn)行數(shù)據(jù)挖掘,得出沈仲理教授診療子宮肌瘤善用活血化瘀、清熱軟堅(jiān)法,常用治療藥物包括三棱、莪術(shù)、丹參、半枝蓮、蚤休等[15]。貝葉斯網(wǎng)絡(luò)具有分類、聚類、因果分析等功能,面對(duì)大規(guī)模數(shù)據(jù)有其獨(dú)特的優(yōu)勢(shì),具體包括:①學(xué)習(xí)機(jī)制高效靈活,可發(fā)現(xiàn)潛在的有用的模式或者聯(lián)系,實(shí)現(xiàn)對(duì)數(shù)據(jù)實(shí)例的分類、聚類、預(yù)測(cè);②語(yǔ)義清晰,易于理解和接受,具有良好的預(yù)測(cè)能力;③有效避免對(duì)數(shù)據(jù)的過(guò)度擬合;④貝葉斯網(wǎng)絡(luò)可將先驗(yàn)知識(shí)、樣本,主觀、客觀有機(jī)結(jié)合起來(lái),更加全面反映數(shù)據(jù)對(duì)象內(nèi)在的聯(lián)系和本質(zhì)[16-17]。
1.3 神經(jīng)網(wǎng)絡(luò)的應(yīng)用 人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN ) 是由大量處理單位(即神經(jīng)元,neurons)廣泛連接而成的網(wǎng)絡(luò),是人工建立的以有項(xiàng)圖為拓?fù)浣Y(jié)構(gòu)的動(dòng)態(tài)系統(tǒng),通過(guò)對(duì)連續(xù)或斷續(xù)的輸入作狀態(tài)響應(yīng)而進(jìn)行信息處理[18]。陳肇文利用人工神經(jīng)網(wǎng)絡(luò)建立名老中醫(yī)中醫(yī)方劑系統(tǒng)和中醫(yī)方證醫(yī)學(xué)診療系統(tǒng),可在線根據(jù)患者癥狀自動(dòng)進(jìn)行處方[19]。白云靜等利用人工神經(jīng)網(wǎng)絡(luò)技術(shù)開(kāi)展中醫(yī)證候非線性建模研究,在充分辨識(shí)證候表征信息的基礎(chǔ)上,建立證候與癥狀之間的非線性映射函數(shù)[20]。陸萍等基于面診的證素辨證建立面診-證素辨證神經(jīng)網(wǎng)絡(luò),對(duì)64個(gè)病例進(jìn)行證型辨別,結(jié)果表明,神經(jīng)網(wǎng)絡(luò)模型構(gòu)建的中醫(yī)面診系統(tǒng)能根據(jù)樣本值對(duì)網(wǎng)絡(luò)構(gòu)造和訓(xùn)練,證型辨證結(jié)果準(zhǔn)確率比較高,是可行的[21-23]。作為最常用的數(shù)據(jù)挖掘方法之一,神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線性擬合能力,可映射任意復(fù)雜的非線性關(guān)系,而且學(xué)習(xí)規(guī)則簡(jiǎn)單,便于計(jì)算機(jī)實(shí)現(xiàn),具有很強(qiáng)的魯棒性、記憶能力、非線性映射能力以及強(qiáng)大的自學(xué)習(xí)能力。
1.4 決策樹(shù)算法的應(yīng)用 決策樹(shù)(decision tree)模型是一種自上而下的預(yù)測(cè)模型,其基本運(yùn)算原理屬于分類規(guī)則,也就是說(shuō)每個(gè)決策或者事件都能引出2個(gè)或者多個(gè)事件,繼而產(chǎn)生不同的后果,這種決策分支的圖像就像一棵樹(shù)的枝干,稱其為決策樹(shù)。決策樹(shù)以樣本的根節(jié)點(diǎn)開(kāi)始,如果樣本在同一個(gè)類,則該結(jié)點(diǎn)為樹(shù)葉,算法選擇最有分類能力的屬性作為決策樹(shù)的當(dāng)前結(jié)點(diǎn),根據(jù)信息增益進(jìn)行分裂,直到給定節(jié)點(diǎn)的所有樣本屬于同一類或沒(méi)有剩余屬性可供劃分為止[24]。瞿海斌等采用決策樹(shù)方法對(duì)血瘀證的診斷規(guī)則進(jìn)行歸納,得到血瘀證決策分類模型,結(jié)果表明決策樹(shù)提取的診斷規(guī)則與傳統(tǒng)的醫(yī)學(xué)統(tǒng)計(jì)方法相比,更為簡(jiǎn)單、方便,為從病例中自動(dòng)歸納診斷規(guī)則提供了一種新的方法[25]。謝雁鳴等從臨床流行病學(xué)的角度用決策樹(shù)等方法對(duì)原發(fā)性骨質(zhì)疏松癥的中醫(yī)基本證候進(jìn)行研究,得出原發(fā)性骨質(zhì)疏松癥的陰虛和陽(yáng)虛診斷模型[26]。徐蕾等用信息熵的決策樹(shù)方法對(duì)慢性胃炎的中醫(yī)辨證進(jìn)行研究,構(gòu)建以信息熵減少為特征的決策樹(shù)分類模型[27]。
1.5 復(fù)雜系統(tǒng)熵方法的應(yīng)用 2004 年,有學(xué)者發(fā)表了《“熵”在中醫(yī)方證研究中的運(yùn)用》一文,在總結(jié)熵理論的基礎(chǔ)上,首次提出運(yùn)用熵理論進(jìn)行中醫(yī)方證相關(guān)研究的設(shè)想,并探討了證、熵、方結(jié)合的原理與前景[28]。通過(guò)實(shí)踐表明[29-30],該方法不僅可以應(yīng)用證候與方劑之間的相關(guān)性研究,還可以研究證候與證候之間、證候與癥狀之間、方劑中藥物與藥物之間、配伍中成分與成分之間的關(guān)系。其后,有學(xué)者提出了復(fù)雜系統(tǒng)熵聚類的算法,并在疾病、證候、方劑的相關(guān)性研究中得到了應(yīng)用[31]。復(fù)雜系統(tǒng)熵聚類方法是一種非監(jiān)督的模式發(fā)現(xiàn)算法,它能自組織地從海量的數(shù)據(jù)中提取出信息量最大的組合,同時(shí),此方法特別適用于高度離散性類型的數(shù)據(jù)。相比于經(jīng)典的統(tǒng)計(jì)方法,它有以下幾個(gè)優(yōu)點(diǎn)。①不需要數(shù)據(jù)的一致性,對(duì)于各類數(shù)據(jù)都適合。特別針對(duì)具有隨機(jī)性,模糊性,非平衡性,非遍歷性,多維性特點(diǎn)的中醫(yī)藥數(shù)據(jù)。②它客觀地反映數(shù)據(jù)的情況,聚出來(lái)的組合內(nèi)元素的相關(guān)都特別大,是最優(yōu)的組合,這些組合為新藥發(fā)現(xiàn)中候選處方的篩選奠定了基礎(chǔ)。③相關(guān)是不對(duì)稱的,為定義貢獻(xiàn)度奠定了基礎(chǔ)。④算法收斂速度快,對(duì)于處理大量的數(shù)據(jù)有優(yōu)勢(shì)。此方法具有兩方面的顯著優(yōu)勢(shì):一方面,不僅可以定性、還可以定量挖掘出藥物之間、病-證-癥-藥之間的相關(guān)性;另一方面,不僅可以挖掘出名醫(yī)名家經(jīng)驗(yàn)的核心組合,還可以挖掘出隱藏于方劑配伍之中的而沒(méi)有被臨床醫(yī)家所重視的核心組合。筆者采用該方法對(duì)國(guó)醫(yī)大師顏正華教授治療胃脘痛、失眠等用藥規(guī)律進(jìn)行挖掘,得出顏正華教授在治療胃脘痛、失眠的潛在藥物組合和新方,為深入研究和藥物開(kāi)發(fā)奠定了基礎(chǔ)[11-12]。
2 數(shù)據(jù)挖掘在名老中醫(yī)經(jīng)驗(yàn)傳承中的應(yīng)用展望
如上所述,關(guān)聯(lián)規(guī)則、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、決策樹(shù)等數(shù)據(jù)挖掘方法在名老中醫(yī)經(jīng)驗(yàn)傳承研究中發(fā)揮著重要作用,是深入挖掘、繼承名老中醫(yī)的學(xué)術(shù)思想和臨床經(jīng)驗(yàn)的有力工具。然而,每種數(shù)據(jù)挖掘方法都有其局限性和不足,均有其適應(yīng)范圍,且對(duì)數(shù)據(jù)有一定的要求。中醫(yī)藥數(shù)據(jù)挖掘的對(duì)象是中醫(yī)藥領(lǐng)域中積累的海量數(shù)據(jù),這些數(shù)據(jù)的屬性既有離散型的,又有連續(xù)型和混合型的特點(diǎn),挖掘過(guò)程需要人機(jī)交互、多次反復(fù),在中醫(yī)藥專業(yè)背景知識(shí)引導(dǎo)下,針對(duì)具體問(wèn)題,選擇合適的數(shù)據(jù)挖掘方法。同時(shí),數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價(jià)值的知識(shí)的過(guò)程,融合了數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、知識(shí)工程、面向?qū)ο蠓椒ā⑿畔z索、高性能計(jì)算以及數(shù)據(jù)可視化等最新技術(shù)的研究成果,是一個(gè)多學(xué)科交叉研究領(lǐng)域。因此,數(shù)據(jù)挖掘具體方法需要有計(jì)算機(jī)、統(tǒng)計(jì)學(xué)等多學(xué)科交叉人員才能熟練應(yīng)用,不易被中醫(yī)藥臨床人員和學(xué)術(shù)繼承人等所掌握,這給數(shù)據(jù)挖掘方法在名老中醫(yī)經(jīng)驗(yàn)傳承中的應(yīng)用帶來(lái)困難和挑戰(zhàn)。名老中醫(yī)經(jīng)驗(yàn)的傳承最終的目的是老專家臨床經(jīng)驗(yàn)和學(xué)術(shù)思想的總結(jié)和傳播,數(shù)據(jù)挖掘方法的應(yīng)用是有力的輔助手段,如何將相關(guān)挖掘方法進(jìn)行集成并形成相應(yīng)的軟件,是數(shù)據(jù)挖掘方法在名老中醫(yī)經(jīng)驗(yàn)傳承領(lǐng)域應(yīng)用的重要方向。
中醫(yī)藥的傳承經(jīng)過(guò)了口傳心授、紙質(zhì)文獻(xiàn)、電子文獻(xiàn)的過(guò)程,但是,尚不能有效滿足傳承的需要。中醫(yī)傳承包括豐富的內(nèi)容,有多種傳承模式,無(wú)論何種模式,收集整理臨床醫(yī)案是必不可缺的,因此,基于臨床數(shù)據(jù)的循證傳承是核心模式。中醫(yī)藥信息非標(biāo)準(zhǔn)化與個(gè)性化的特點(diǎn),是中醫(yī)的一大特色,但同時(shí)也是中醫(yī)藥傳承信息化工作面臨的重要瓶頸。數(shù)據(jù)的零散性與非標(biāo)準(zhǔn)性,從根本上制約了中醫(yī)藥傳承信息化工作的效率與質(zhì)量。為此,中國(guó)中醫(yī)科學(xué)院中藥研究所與中國(guó)科學(xué)院自動(dòng)化研究所聯(lián)合開(kāi)發(fā)了中醫(yī)傳承輔助系統(tǒng)(traditional Chinese medicine inheritance support system)軟件[32]。該軟件在全面客觀地對(duì)中醫(yī)藥傳承模式及方法特點(diǎn)進(jìn)行分析的基礎(chǔ)上,采用基于個(gè)性化需求的自助式服務(wù)平臺(tái)的構(gòu)建思路進(jìn)行系統(tǒng)架構(gòu),以人工智能、數(shù)據(jù)挖掘、網(wǎng)絡(luò)科學(xué)等學(xué)科的方法和技術(shù)為支撐,圍繞臨床診療和中醫(yī)傳承工作中的繼承、發(fā)展、傳播和創(chuàng)新4個(gè)方面的核心需求,分別構(gòu)建面向臨床數(shù)據(jù)的中醫(yī)診療信息采集模塊、面向中醫(yī)藥本體的知識(shí)管理和服務(wù)模塊以及面向傳承創(chuàng)新的隱性知識(shí)挖掘模塊等幾大功能模塊,有效地解決了上述問(wèn)題,從而保證了系統(tǒng)功能需求的有效實(shí)現(xiàn)。該軟件是計(jì)算機(jī)科學(xué)和中醫(yī)藥學(xué)的有機(jī)結(jié)合,它以智能信息處理方面的研究成果為支撐,遵循基于臨床數(shù)據(jù)的循證傳承理念,提出并鑲嵌了復(fù)雜系統(tǒng)熵聚類的挖掘方法,圍繞名老中醫(yī)學(xué)術(shù)思想總結(jié)和經(jīng)驗(yàn)傳承、中藥新藥處方篩選與處方發(fā)現(xiàn)等方面的信息處理進(jìn)行了積極的探索[33-34]。實(shí)現(xiàn)了“數(shù)據(jù)的錄入-管理-查詢-分析-網(wǎng)絡(luò)可視化展示”等功能的中醫(yī)傳承輔助平臺(tái)軟件的開(kāi)發(fā)與應(yīng)用,在中醫(yī)傳承工作的具有里程碑意義,是中醫(yī)傳承的有力輔助工具,值得進(jìn)一步推廣應(yīng)用。
[致謝] 該論文撰寫(xiě)得到中國(guó)中醫(yī)科學(xué)院中藥研究所楊洪軍研究員的指導(dǎo)。
[參考文獻(xiàn)]
[1] 王映輝,姜在,劉保延,等.基于信息和數(shù)據(jù)挖掘技術(shù)的名老中醫(yī)臨床診療經(jīng)驗(yàn)研究思路[J].世界科學(xué)技術(shù)――中醫(yī)藥現(xiàn)代化,2005,7(1):98.
[2] 周春祥.名老中醫(yī)經(jīng)驗(yàn)總結(jié)與傳承過(guò)程中的問(wèn)題與思考[J]. 江蘇中醫(yī)藥,2004,25(12):1.
[3] 唐仕歡,楊洪軍. 中醫(yī)組方用藥規(guī)律研究進(jìn)展述評(píng)[J]. 中國(guó)實(shí)驗(yàn)方劑學(xué)雜志,2013,19(5):278.
[4] 曾孝文.關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘方法的研究[J].計(jì)算機(jī)與現(xiàn)代化,2006,9:91.
[5] 吳嘉瑞,張冰.試論數(shù)據(jù)挖掘方法在藥品不良反應(yīng)評(píng)價(jià)領(lǐng)域的應(yīng)用[J].中藥新藥與臨床藥理,2007,18(6):485.
[6] 曾孝文.關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘與發(fā)展趨勢(shì)研究[J].電腦知識(shí)與技術(shù),2005,35: 4.
[7] 吳榮,王階,周雪忠.基于關(guān)聯(lián)規(guī)則的名老中醫(yī)冠心病用藥規(guī)律研究[J].中國(guó)中藥雜志,2007,32(17):1786.
[8] 劉曉怡,唐曉亮.基于關(guān)聯(lián)規(guī)則方法的李佃貴教授辨治慢性萎縮性胃炎醫(yī)案分析[J].中國(guó)外資,2012,264:258.
[9] 田琳,閆英杰,朱建貴,等.整理挖掘名老中醫(yī)診療眩暈病辨證思維模式的思路與探討[J].中國(guó)中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2006,12(8):618.
[10] 晏婷婷,吳麗,王旭東.基于數(shù)據(jù)挖掘的孟河醫(yī)家治療痹證的治法及用藥規(guī)律研究[J].新中醫(yī),2012,44(9):98.
[11] 吳嘉瑞,張冰,楊冰.基于關(guān)聯(lián)規(guī)則和復(fù)雜系統(tǒng)熵聚類的顏正華教授治療胃脘痛用藥規(guī)律研究[J].中國(guó)實(shí)驗(yàn)方劑學(xué)雜志,2012,18(20):1.
[12] 吳嘉瑞,張冰,楊冰,等.基于關(guān)聯(lián)規(guī)則和復(fù)雜系統(tǒng)熵聚類的顏正華教授治療失眠用藥規(guī)律研究[J].中國(guó)實(shí)驗(yàn)方劑學(xué)雜志,2012,18(24):1.
[13] Muirhead R J,Pu R D.A Bayesian classi cation of heart rate variability data[J].Physica A,2004(336):503.
[14] 吳榮,聶曉燕,王階,等.基于貝葉斯網(wǎng)絡(luò)的名老中醫(yī)治療冠心病辨證規(guī)律研究[J].中國(guó)中醫(yī)藥信息雜志,2010,17(5):98.
[15] 須義貞,姚靜,趙莉.沈仲理治療子宮肌瘤診治規(guī)律的研究[J].陜西中醫(yī),2010,31(2):201.
[16] 李艷美,張卓奎.基于貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法[J].計(jì)算機(jī)仿真,2008,25(2):87.
[17] 劉曉潔. 基于PCA的貝葉斯網(wǎng)絡(luò)分類器研究[J].電子設(shè)計(jì)工程,2009,9:86.
[18] 岳桂華.人工神經(jīng)網(wǎng)絡(luò)及其在中醫(yī)研究中的應(yīng)用進(jìn)展[J].大眾科技,2012,14(156):165.
[19] 陳肇文.基于人工神經(jīng)網(wǎng)絡(luò)的中醫(yī)證治模型探析[J].中華中醫(yī)藥學(xué)刊,2009,27(7):1517.
[20] 白云靜,申洪波,孟慶剛,等.基于人工神經(jīng)網(wǎng)絡(luò)的中醫(yī)證候非線性建模研究[J].中國(guó)中藥信息雜志,2007,14(7):3.
[21] 陸萍,林坤輝,周昌樂(lè).基于神經(jīng)網(wǎng)絡(luò)的中醫(yī)面診證素辨證的研究[J].計(jì)算機(jī)應(yīng)用研究,2008,25(9):2655.
[22] 施明輝,周昌樂(lè).人工神經(jīng)網(wǎng)絡(luò)在中醫(yī)診斷中的應(yīng)用現(xiàn)狀與趨勢(shì)[J].中國(guó)中醫(yī)藥信息雜志,2007,14(1):2.
[23] 岳沛平.BP神經(jīng)網(wǎng)絡(luò)識(shí)別在中醫(yī)脈象信號(hào)辨識(shí)系統(tǒng)中的運(yùn)用[J].江蘇中醫(yī)藥,2005,26(11):4.
[24] 吳嘉瑞,張冰.試論數(shù)據(jù)挖掘決策樹(shù)方法在藥物警戒研究中的應(yīng)用[J].中國(guó)藥物警戒,2012,9(1):29.
[25] 瞿海斌,毛利鋒,王階.基于決策樹(shù)的血瘀證診斷規(guī)則自動(dòng)歸納方法[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2005,24(6):709.
[26] 謝雁鳴,朱蕓茵,葛繼榮,等.基于臨床流行病學(xué)調(diào)查的原發(fā)性骨質(zhì)疏松癥中醫(yī)基本證候研究[J].世界科學(xué)技術(shù)――中醫(yī)藥現(xiàn)代化,2007,9(2):38.
[27] 賀憲民,孟虹,王憶勤,等.基于熵的決策樹(shù)理論及其在中醫(yī)證型研究中的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2004,23(5):57.
[28] 楊洪軍,趙亞麗,劉艷驕,等. “熵”在中醫(yī)方證研究中的運(yùn)用[J]. 中國(guó)中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2004,10(9):16.
[29] 趙亞麗. 一類復(fù)雜系統(tǒng)的熵方法研究[D]. 北京:中國(guó)科學(xué)院研究生院,2005.
[30] 孫占全. 復(fù)雜系統(tǒng)建模――一類智能計(jì)算模型及其應(yīng)用研究[D]. 北京:中國(guó)科學(xué)院研究生院,2007.
[31] 陳建新. 中醫(yī)證候的復(fù)雜系統(tǒng)建模及其與疾病的相關(guān)性研究[D]. 北京:中國(guó)科學(xué)院研究生院,2008.
[32] 盧朋,李健,唐仕歡,等. 中醫(yī)傳承輔助系統(tǒng)軟件開(kāi)發(fā)與應(yīng)用[J]. 中國(guó)實(shí)驗(yàn)方劑學(xué)雜志,2012,18(9):1.
[33] 唐仕歡,陳建新,楊洪軍,等.基于復(fù)雜系統(tǒng)熵聚堆方法的中藥新藥處方發(fā)現(xiàn)研究思路[J].世界科學(xué)技術(shù)――中醫(yī)藥現(xiàn)代化,2009,11(2):225.
[34] 申丹,唐仕歡,盧朋,等.含人參中成藥用藥規(guī)律分析[J].中國(guó)中藥雜志,2013,38(12):2029.
Comment on applications of data mining used in studies of heritage of
experiences of national medical masters
WU Jia-rui1,TANG Shi-huan2,GUO Wei-xian1,ZHANG Xiao-meng1,ZHANG Bing1*
(1.Beijing University of Chinese Medicine,Beijing 100102,China;
2. Institute of Chinese Materia Medica,China Academy of Chinese Medical Sciences,Beijing 100700,China)
[Abstract] Data mining,as known as knowledge discovery in databases,is a non-trivial process of revealing the implied,previously unknown and potentially useful information from the massive data. In recently years,the applications of data mining in the field of pharmaceutical research of traditional Chinese medicine have widespread. Especially in the field of the heritage of experiences of national medical masters,data mining plays an important role. In this study,we would expound of the use of methods of data mining in the heritage of experiences of national medical masters,and analyze their advantages and disadvantages,such as association rules,Bayesian networks,neural networks,and decision trees.
[關(guān)鍵詞] 企業(yè)營(yíng)銷 數(shù)據(jù)挖掘 決策 數(shù)據(jù)倉(cāng)庫(kù)
一、引言
在市場(chǎng)競(jìng)爭(zhēng)日趨激烈、商業(yè)環(huán)境發(fā)生巨大變化的時(shí)代,社會(huì)、技術(shù)、經(jīng)濟(jì)、政治等環(huán)境因素變得越來(lái)越復(fù)雜和難以預(yù)測(cè),任何經(jīng)濟(jì)個(gè)人或企業(yè)單位都面臨著一個(gè)課題,就是如何想辦法采取營(yíng)銷策略把自己的商品推銷出去。尤其社會(huì)是進(jìn)入信息數(shù)字化階段后,該問(wèn)題顯得更加突出,因此,如何利用數(shù)字化信息決定自己的企業(yè)決策方案變得非常重要。數(shù)據(jù)挖掘是解決該問(wèn)題非常有效的技術(shù)。
二、數(shù)據(jù)挖掘(data mining)思想
數(shù)據(jù)挖掘是集統(tǒng)計(jì)學(xué)、人工智能、計(jì)算機(jī)等結(jié)合的交叉技術(shù)。數(shù)據(jù)挖掘也稱為知識(shí)發(fā)現(xiàn)(KDD―Knowledge Discovery in Database),其主要思想是可以從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí),并通過(guò)這些知識(shí)指導(dǎo)我們將來(lái)的工作,以提高效益。目前該技術(shù)在企業(yè)營(yíng)銷中的應(yīng)用也是剛剛起步,但是已經(jīng)暗示了該技術(shù)在商業(yè)營(yíng)銷活動(dòng)中的潛在能力,尤其是在企業(yè)營(yíng)銷決策系統(tǒng)當(dāng)中的應(yīng)用,將會(huì)對(duì)企業(yè)營(yíng)銷活動(dòng)和決策和發(fā)展起到非常重要的作用。
三、數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介
數(shù)據(jù)挖掘是一個(gè)從存儲(chǔ)在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他介質(zhì)種中的大量數(shù)據(jù)中發(fā)現(xiàn)人們感興趣的知識(shí)的過(guò)程。其的應(yīng)用過(guò)程可以描述為:按照既定目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法,并且最終將其在實(shí)踐中應(yīng)用的過(guò)程。
數(shù)據(jù)挖掘技術(shù)大體可以劃分成以下四個(gè)主要階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、表示與結(jié)果分析、知識(shí)應(yīng)用。其中數(shù)據(jù)挖掘是很關(guān)鍵的階段,主要包括:回歸分析、統(tǒng)計(jì)分析、聚類分析、神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、探索分析等方法,這將決定數(shù)據(jù)挖掘的思路和最終實(shí)現(xiàn)的結(jié)果。
四、數(shù)據(jù)挖掘在企業(yè)營(yíng)銷決策中的應(yīng)用簡(jiǎn)介
企業(yè)營(yíng)銷是企業(yè)戰(zhàn)略的重要組成部分,營(yíng)銷戰(zhàn)略的制定與實(shí)施,在企業(yè)戰(zhàn)略中居于重要地位,是確保企業(yè)戰(zhàn)略得以實(shí)現(xiàn)的重要保證。
市場(chǎng)營(yíng)銷管理,就是由企業(yè)市場(chǎng)部門(mén)根據(jù)戰(zhàn)略規(guī)劃所確定的業(yè)務(wù)經(jīng)營(yíng)范圍、目標(biāo)、業(yè)務(wù)組合和發(fā)展戰(zhàn)略,認(rèn)真識(shí)別、分析、評(píng)價(jià)外部環(huán)境等因素。并用其去指導(dǎo)未來(lái)的發(fā)展戰(zhàn)略和計(jì)劃的過(guò)程。
數(shù)據(jù)挖掘技術(shù)在企業(yè)營(yíng)銷決策中應(yīng)用的過(guò)程如下:
1.數(shù)據(jù)準(zhǔn)備階段。數(shù)據(jù)挖掘的前提是必須要有大量的可靠的數(shù)據(jù),這需要企業(yè)營(yíng)銷管理者平時(shí)對(duì)各種數(shù)據(jù)的積累,所需要的數(shù)據(jù)包括營(yíng)銷企業(yè)內(nèi)部管理的數(shù)據(jù),營(yíng)銷對(duì)象的相關(guān)信息,影響營(yíng)銷管理和決策的各外界因素及數(shù)據(jù)。并且對(duì)數(shù)據(jù)要采取分類的方式進(jìn)行管理,此時(shí)數(shù)據(jù)分類的標(biāo)準(zhǔn)是非常關(guān)鍵的,不但要考慮分類內(nèi)部數(shù)據(jù)之間的聯(lián)系,同時(shí)還要考慮各數(shù)據(jù)之間的關(guān)系。
2.數(shù)據(jù)挖掘階段。該階段主要是對(duì)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行科學(xué)的方法進(jìn)行分析,關(guān)鍵的數(shù)據(jù)挖掘方法的使用,常用的數(shù)據(jù)挖掘方法有:
(1)回歸分析,該方法利用一組觀測(cè)數(shù)據(jù)之間建立的依賴關(guān)系發(fā)現(xiàn)數(shù)據(jù)之間的聯(lián)系,并作出相關(guān)預(yù)測(cè)的方法。(2)時(shí)序分析,該方法注重?cái)?shù)據(jù)之間時(shí)間的前后順序關(guān)系,并找出某事件在某個(gè)時(shí)間段內(nèi)發(fā)生的頻率。例如,某月某顧客在該糧店中購(gòu)買的大米的次數(shù)和數(shù)量,這對(duì)分析顧客的消費(fèi)水平和銷售數(shù)量有著非常大的幫助。(3)分類分析,在前面的數(shù)據(jù)倉(cāng)庫(kù)里,對(duì)商品進(jìn)行準(zhǔn)確的描述,包括商品名稱,特征,面向顧客,數(shù)量等數(shù)據(jù)項(xiàng),然后用相應(yīng)的分類標(biāo)準(zhǔn)將數(shù)據(jù)進(jìn)行分類操作和管理。(4)聚類分析,通過(guò)分析數(shù)據(jù)倉(cāng)庫(kù)中已經(jīng)分好類的數(shù)據(jù),將其按照預(yù)測(cè)的結(jié)果劃分不同的集合,并確定集合劃分的標(biāo)準(zhǔn)。
3.表示與結(jié)果分析。通過(guò)前面的過(guò)程,企業(yè)營(yíng)銷決策管理者希望通過(guò)數(shù)據(jù)之間的關(guān)系得到相互數(shù)據(jù)的影響和關(guān)系,該結(jié)果以某種形式表示出來(lái),一般都采用圖形、圖表或者數(shù)據(jù)報(bào)表的方式表示結(jié)果。通過(guò)結(jié)果進(jìn)行相應(yīng)分析,希望得到諸如如何得到最有價(jià)值顧客、如何使用組合效果使銷售效率最好、如何留住有價(jià)值的顧客、以最小的成本發(fā)現(xiàn)欺詐行為等結(jié)論。
4.知識(shí)應(yīng)用。發(fā)現(xiàn)營(yíng)銷規(guī)律和知識(shí)不是目的,將其應(yīng)用到企業(yè)營(yíng)銷決策中才能夠起到真正的作用,并在不斷的營(yíng)銷中對(duì)所得出的結(jié)論進(jìn)行論證,并不斷的修正,使其更加合理,以便更加有利的指導(dǎo)營(yíng)銷行為和決策。
五、未來(lái)的展望
【關(guān)鍵詞】數(shù)據(jù)挖掘算法 并行模式
1 數(shù)據(jù)挖掘的挖掘任務(wù)和挖掘方法
跟數(shù)據(jù)挖掘相關(guān)的學(xué)科門(mén)類較多,其涉及的分類方法多種多樣。根據(jù)挖掘角度的差異性,可對(duì)數(shù)據(jù)挖掘方法歸類。由挖掘任務(wù)的不同,可將數(shù)據(jù)挖掘分為這幾種類型:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、異常和趨勢(shì)發(fā)現(xiàn)等;由挖掘?qū)ο蟮牟煌蓪?shù)據(jù)挖掘分為:面向?qū)ο髷?shù)據(jù)庫(kù)、文本數(shù)據(jù)源、異質(zhì)數(shù)據(jù)庫(kù)等;下文根據(jù)挖掘任務(wù)以及挖掘方法角度,重點(diǎn)對(duì)數(shù)據(jù)抽取、分類發(fā)現(xiàn)、聚類和關(guān)聯(lián)規(guī)則發(fā)現(xiàn)四種非常重要的發(fā)現(xiàn)任務(wù)進(jìn)行闡述。一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)一般包括數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等幾個(gè)部分。如圖1所示。
1.1 數(shù)據(jù)抽取
數(shù)據(jù)抽取是對(duì)給定數(shù)據(jù)的緊湊描述,其運(yùn)用的手段就是對(duì)數(shù)據(jù)進(jìn)行濃縮處理。其中,最簡(jiǎn)單的一種數(shù)據(jù)抽取方法就是對(duì)數(shù)據(jù)庫(kù)中的各字段上的統(tǒng)計(jì)值進(jìn)行計(jì)算,這些統(tǒng)計(jì)值一般包括和值、均值、方差值等,另外,使用折線圖等圖形對(duì)數(shù)據(jù)庫(kù)字段進(jìn)行表示也是一種比較傳統(tǒng)而簡(jiǎn)單的數(shù)據(jù)抽取方法。數(shù)據(jù)挖掘關(guān)注的焦點(diǎn)是以數(shù)據(jù)泛化的視角來(lái)討論數(shù)據(jù)總結(jié)。所謂數(shù)據(jù)泛化,把低層次的數(shù)據(jù)抽象到高層次的一個(gè)過(guò)程。之所以把低層次的數(shù)據(jù)抽象到高層次,這是因?yàn)榇蠹矣袑?duì)視圖從較高層次處理或者瀏覽有關(guān)數(shù)據(jù)的需要,所以,通過(guò)對(duì)數(shù)據(jù)進(jìn)行多層次的泛化是有其合理的解釋的。
1.2 分類發(fā)現(xiàn)
在數(shù)據(jù)挖掘的所有任務(wù)中,分類是其中極為重要的任務(wù)之一。在所有商業(yè)應(yīng)用的數(shù)據(jù)挖掘任務(wù)中,分類得到了最大范圍的應(yīng)用。我們知道,分類的目標(biāo)是構(gòu)造分類函數(shù)或分類模型。在數(shù)據(jù)庫(kù)中,數(shù)據(jù)項(xiàng)在分類模型的作用下映射到某一個(gè)給定類別。在分類的用途中,預(yù)測(cè)是其中一個(gè)較為重要的用途。通過(guò)預(yù)測(cè),從歷史數(shù)據(jù)記錄中推論得到給定數(shù)據(jù)的推廣描述,最后實(shí)現(xiàn)對(duì)未來(lái)數(shù)據(jù)的預(yù)測(cè)目標(biāo)。在對(duì)分類器進(jìn)行構(gòu)造的過(guò)程中,必須使用訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集一般由數(shù)據(jù)庫(kù)記錄或元組構(gòu)成,其中,元組是由特征向量組成的。樣本的一般形式為(u1,u2,...,un;c);其中 ui為字段值,c為類別。
1.3 聚類
聚類是把個(gè)體依據(jù)某種規(guī)律歸類成為若干類別的過(guò)程。其最終目標(biāo)是使相同類別的個(gè)體之間距離最小,而不同類別個(gè)體間距離最大化。對(duì)于聚類而言,其研究方法一般有四種:統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫(kù)。通過(guò)對(duì)聚類分析方法的應(yīng)用實(shí)踐發(fā)現(xiàn),其僅僅適合于數(shù)據(jù)庫(kù)較小的情形,這是因?yàn)槠洳痪邆渚€性計(jì)算復(fù)雜度。
1.4 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)
關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的主要對(duì)象是事務(wù)型數(shù)據(jù)庫(kù),針對(duì)的應(yīng)用是貨籃數(shù)據(jù)。一般而言,事務(wù)的組成部分不僅包括客戶訂購(gòu)的物品,還包括客戶的標(biāo)示號(hào)。隨著條形碼技術(shù)不斷得到推廣和應(yīng)用,采用前端收款機(jī)也可以獲得大量的售貨數(shù)據(jù)。所以,通過(guò)分析歷史事務(wù)數(shù)據(jù),可從顧客那里得到一些有價(jià)值的信息。比如,更好的解決擺放貨架商品和規(guī)劃市場(chǎng)的問(wèn)題。所以,如果能從事務(wù)數(shù)據(jù)中找到關(guān)聯(lián)規(guī)則,這對(duì)于零售業(yè)等商業(yè)活動(dòng)決策的重要性是不言而喻的。
2 關(guān)聯(lián)規(guī)則挖掘的并行算法分析
2.1 并行算法的基本概念
所謂并行算法,即對(duì)可同時(shí)執(zhí)行的進(jìn)程集合,通過(guò)進(jìn)程的協(xié)調(diào)作用,達(dá)到求解問(wèn)題的目的。并行算法的設(shè)計(jì)是為了使并行機(jī)的眾多處理機(jī)作用得到最大程度的發(fā)揮,這樣就能更加快速有效解決問(wèn)題。一般而言,并行算法對(duì)并行機(jī)存在非常強(qiáng)的依賴性。并行機(jī)的不同算法對(duì)其有效性會(huì)產(chǎn)生影響。
2.2 并行計(jì)算模型
要想對(duì)一個(gè)應(yīng)用問(wèn)題進(jìn)行求解,那么設(shè)計(jì)良好的并行算法極為重要。如果想讓并行算法作為一個(gè)由程序?qū)崿F(xiàn)結(jié)構(gòu)依賴的算法,那么抽象的并行計(jì)算機(jī)結(jié)構(gòu)是非常有必要的。這樣才能保障并行算法具有更廣泛的適應(yīng)性。并行計(jì)算模型作為一種并行計(jì)算機(jī)的抽象結(jié)構(gòu),主要考慮到的是為了并行算法的設(shè)計(jì)。所以,并行計(jì)算模型從實(shí)質(zhì)意義上來(lái)講,它是某一類并行計(jì)算機(jī)的抽象。
2.3 并行挖掘關(guān)聯(lián)規(guī)則的算法
在通常情況下,找出頻繁項(xiàng)目集的付出的資金要比從頻繁項(xiàng)目集中找出關(guān)聯(lián)規(guī)則的費(fèi)用高的多。鑒于此,發(fā)現(xiàn)頻繁項(xiàng)目集的并行算法就具備了重要的意義。產(chǎn)生候選集的算法的計(jì)算工作,通常來(lái)講,可歸類為兩個(gè)步驟。其一為生成候選集,其二為對(duì)候選集的計(jì)數(shù)。為達(dá)到處理器間進(jìn)行工作分配的目的,就需要使事務(wù)和候選集分配給各處理器的形式多樣化。為達(dá)到更優(yōu)的并發(fā)度,候選集可選擇并行計(jì)算,或者是并行產(chǎn)生,還可以是兩者并行完成。
3 小結(jié)
數(shù)據(jù)挖掘算法的并行性可對(duì)系統(tǒng)運(yùn)行速度進(jìn)行提升,從而提高工作效率,這是因?yàn)閿?shù)據(jù)挖掘算法可實(shí)現(xiàn)對(duì)多個(gè)任務(wù)的執(zhí)行。數(shù)據(jù)挖掘算法并行方式存在差異性,所以,必須根據(jù)實(shí)際情況使用恰當(dāng)?shù)耐诰蚍椒ǎ瑥亩寷Q策的作用得到最大程度的發(fā)揮。隨著數(shù)據(jù)量處理規(guī)模的逐漸增大,所以,對(duì)數(shù)據(jù)挖掘算法并行性研究的意義是不言而喻的。
參考文獻(xiàn)
[1]趙峰,李慶華.并行序列挖掘的一種改進(jìn)算法[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版).2003,31(10):38-40.
[2]陳國(guó)良,安虹等.并行算法實(shí)踐[M].北京:高等教育出版社,2004.
[3]馬傳香,簡(jiǎn)鐘.序列模式挖掘的并行算法研究[J].計(jì)算機(jī)工程,2005,31(06).
[4]施建強(qiáng),劉曉平.基于遺傳算法的數(shù)據(jù)挖掘技術(shù)的研究[J].電腦與信息技術(shù),2003(01):9-14
關(guān)鍵詞:數(shù)據(jù)挖掘;通信行業(yè);客戶關(guān)系;管理工作;開(kāi)展進(jìn)程
隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展,通信行業(yè)的發(fā)展規(guī)模及數(shù)量不斷擴(kuò)大與增多,但在激烈的市場(chǎng)競(jìng)爭(zhēng)環(huán)境下,相關(guān)企業(yè)的生存與發(fā)展均面臨著諸多的挑戰(zhàn),為了占領(lǐng)更多的市場(chǎng)份額,實(shí)現(xiàn)企業(yè)穩(wěn)定與長(zhǎng)足進(jìn)步,并獲得良好的綜合效益,客戶關(guān)系管理得到了人們高度關(guān)注。近些年,通過(guò)國(guó)內(nèi)外學(xué)者的不斷努力研究,隨之出現(xiàn)了數(shù)據(jù)挖掘技術(shù),其作為先進(jìn)的現(xiàn)代化技術(shù),應(yīng)用日漸廣泛與普遍,但關(guān)于其在通信行業(yè)的研究報(bào)道較少。因此,介紹了數(shù)據(jù)挖掘技術(shù)的基本概念,探討了其有關(guān)流程,同時(shí)重點(diǎn)分析了其在通信行業(yè)客戶關(guān)系管理中的應(yīng)用,旨在進(jìn)一步完善有關(guān)理論,并為有關(guān)人士提供借鑒。
一、數(shù)字挖掘的基本概念探究
數(shù)據(jù)挖掘可以實(shí)現(xiàn)用戶的信息資源的相互交流和傳遞。同時(shí)數(shù)字挖掘技術(shù)的應(yīng)用,對(duì)于信息傳遞的流程存在著專門(mén)的定義和限制,具有強(qiáng)大的信息檢索功能。例如,應(yīng)用數(shù)據(jù)統(tǒng)計(jì)模塊查找定向信息,或者應(yīng)用互聯(lián)網(wǎng)的搜索功能進(jìn)行相應(yīng)的網(wǎng)頁(yè)或者是網(wǎng)站的查找,則是數(shù)字挖掘技術(shù)中的信息檢索(informationretrieval)領(lǐng)域的技術(shù)。隨著數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍和應(yīng)用種類的不斷擴(kuò)張,當(dāng)下數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛的應(yīng)用于信息檢索工作的開(kāi)展進(jìn)程中。根據(jù)當(dāng)下數(shù)字挖掘技術(shù)的主要應(yīng)用特點(diǎn)和應(yīng)用方向,主要可以將技術(shù)的類別總結(jié)為以下幾點(diǎn):數(shù)字挖掘技術(shù)中的信息關(guān)聯(lián)技術(shù)、數(shù)字挖掘技術(shù)中的預(yù)測(cè)技術(shù)、數(shù)字挖掘技術(shù)中的分類技術(shù)以及數(shù)字挖掘技術(shù)中的排序技術(shù)。
二、數(shù)字挖掘在通信行業(yè)中客戶關(guān)系處理中的具體應(yīng)用流程探究
數(shù)字挖掘技術(shù)的應(yīng)用流程的良好確立,可以使得企業(yè)的客戶信息管理工作的開(kāi)展更加具有系統(tǒng)性和全面性,有效的提高了通信企業(yè)的市場(chǎng)競(jìng)爭(zhēng)力。為通信企業(yè)的良好發(fā)展奠定了穩(wěn)定的基礎(chǔ)和提供了強(qiáng)大的推動(dòng)力。1.數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)信息歸類。對(duì)于營(yíng)銷工作開(kāi)展進(jìn)程中的各種原始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和收集,盡可能的保障各項(xiàng)數(shù)據(jù)的歸類的有效性和標(biāo)準(zhǔn)性。并且在數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)信息分類工作的開(kāi)展進(jìn)程中,充分的考慮不同的營(yíng)銷數(shù)據(jù)的格式上的差異性,對(duì)于這些營(yíng)銷數(shù)據(jù)進(jìn)行統(tǒng)一的調(diào)整,實(shí)現(xiàn)數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)的系統(tǒng)性排列。2.數(shù)據(jù)庫(kù)內(nèi)信息的初步分析。按照數(shù)據(jù)庫(kù)內(nèi)的信息種類的不同以及內(nèi)容的不同,摘取信息內(nèi)的核心片段,進(jìn)行數(shù)據(jù)內(nèi)容的初步分析,確定通信企業(yè)的營(yíng)銷信息的核心,并且注重對(duì)于同種數(shù)據(jù)中所存在的變量的分析,進(jìn)而初步掌握核心數(shù)據(jù)的變化情況和變化規(guī)律。3.應(yīng)用數(shù)據(jù)挖掘技術(shù)開(kāi)展數(shù)據(jù)記錄工作。在明確了數(shù)據(jù)庫(kù)內(nèi)的各項(xiàng)核心數(shù)據(jù)之后,通信企業(yè)在應(yīng)用數(shù)據(jù)挖掘技術(shù)開(kāi)展自身的客戶關(guān)系處理管理工作時(shí),需要進(jìn)行數(shù)據(jù)記錄工作。通常以客戶關(guān)系統(tǒng)計(jì)樹(shù)狀圖的方式進(jìn)行客戶關(guān)系的進(jìn)一步分類和管理,進(jìn)而確保通信行業(yè)的客戶管理工作的開(kāi)展的秩序性。
三、數(shù)據(jù)挖掘在通信行業(yè)客戶關(guān)系管理中的應(yīng)用方向探究
開(kāi)展數(shù)據(jù)挖掘在通信行業(yè)客戶關(guān)系管理中的應(yīng)用方向探究,根據(jù)數(shù)據(jù)挖掘技術(shù)在通信行業(yè)客戶管理工作開(kāi)展進(jìn)程中的應(yīng)用流程以及當(dāng)下的應(yīng)用狀況,主要可以將該技術(shù)的應(yīng)用方向總結(jié)歸納為以下幾點(diǎn):1.應(yīng)用于通信行業(yè)客戶的信息數(shù)據(jù)處理工作。通信行業(yè)的客戶信息量十分巨大,并且存在著較強(qiáng)的復(fù)雜性,應(yīng)用數(shù)據(jù)挖掘技術(shù)開(kāi)展通信行業(yè)客戶關(guān)系的處理工作,可以實(shí)現(xiàn)通信行業(yè)對(duì)于客戶的信息掌握的系統(tǒng)性的提升。在進(jìn)行通信行業(yè)客戶的信息數(shù)據(jù)處理工作時(shí),應(yīng)當(dāng)著重開(kāi)展對(duì)于流失的客戶的信息的處理,找出客戶的流失的根本原因,完善自身營(yíng)銷模式的應(yīng)用流程中所存在的不足之處,有效的降低客戶流失量,盡可能的實(shí)現(xiàn)客戶的“有效回流”。2.應(yīng)用于通信行業(yè)客戶的關(guān)系模型建立工作。將數(shù)據(jù)挖掘技術(shù)的應(yīng)用與于通信行業(yè)客戶的關(guān)系模型建立工作的開(kāi)展有效的結(jié)合到一起,可以實(shí)現(xiàn)通信企業(yè)對(duì)于客戶關(guān)系的掌握的具體性的進(jìn)一步提升。通信企業(yè)在開(kāi)展模型的建立工作的過(guò)程中,應(yīng)當(dāng)同時(shí)建立客戶的營(yíng)銷模型和客戶的流失模型,進(jìn)行兩種模型內(nèi)的數(shù)據(jù)狀況的有效對(duì)比,進(jìn)而實(shí)現(xiàn)通信企業(yè)的進(jìn)一步營(yíng)銷方案的有效的制定。3.加強(qiáng)通信行業(yè)的客戶管理工作的針對(duì)性。在傳統(tǒng)的信息行業(yè)的客戶關(guān)系管理工作開(kāi)展進(jìn)程中,客戶的信息的管理工作的開(kāi)展往往缺乏針對(duì)性,因此通信企業(yè)在為客戶提供服務(wù)的過(guò)程中,其服務(wù)往往也就無(wú)法真正有效的滿足客戶的各項(xiàng)需求,造成了客戶的流失現(xiàn)象。將數(shù)據(jù)挖掘技術(shù)全面應(yīng)用于通信的企業(yè)的工作開(kāi)展流程中,對(duì)于客戶的信息和需求進(jìn)行更加詳細(xì)的分類和分析,提出具有針對(duì)性的特色服務(wù)方案,可以實(shí)現(xiàn)通信企業(yè)的服務(wù)的質(zhì)量的進(jìn)一步有效的提升,加強(qiáng)通信企業(yè)在激烈的競(jìng)爭(zhēng)市場(chǎng)中的市場(chǎng)競(jìng)爭(zhēng)力,促使我國(guó)的通信企業(yè)獲得更加廣泛的發(fā)展空間和更加理想的發(fā)展前景。4.加強(qiáng)通信行業(yè)客戶反饋信息調(diào)研工作的開(kāi)展力度。通信行業(yè)客戶反饋信息調(diào)研工作的開(kāi)展力度,也是決定通信企業(yè)的客戶關(guān)系管理工作的開(kāi)展力度的關(guān)鍵性因素之一。應(yīng)用數(shù)據(jù)挖掘技術(shù),開(kāi)展客戶信息的挖掘工作,可以實(shí)現(xiàn)客戶反饋信息的明確性和全面性的進(jìn)一步提升,有效的加強(qiáng)了調(diào)研工作的開(kāi)展力度,繼而可以使得通信企業(yè)對(duì)于自身所需改進(jìn)之處具有了更加明確的認(rèn)知。
四、結(jié)語(yǔ)
綜上所述,在通信行業(yè)客戶關(guān)系管理中應(yīng)用數(shù)據(jù)挖掘技術(shù),彰顯了該技術(shù)的應(yīng)用優(yōu)勢(shì),保證了客戶關(guān)系管理的成效,為了通信行業(yè)發(fā)展提供了可靠的技術(shù)保障。本研究在明確相關(guān)概念及開(kāi)展流程基礎(chǔ)上,對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用展開(kāi)了深入的探究,其主要應(yīng)用于信息數(shù)據(jù)處理及關(guān)系模型建立等方面,在先進(jìn)技術(shù)支持下,通信行業(yè)的客戶關(guān)系管理具有了一定的針對(duì)性與高效性。實(shí)現(xiàn)數(shù)字挖掘技術(shù)的應(yīng)用與客戶關(guān)系處理工作的有效結(jié)合,以及實(shí)現(xiàn)我國(guó)的通信行業(yè)的整體管理水平的進(jìn)一步有效提升,相信日后通信行業(yè)借助現(xiàn)代化的技術(shù)方法及多元化的管理手段,其競(jìng)爭(zhēng)力將大幅度提高,進(jìn)而利于企業(yè)健康與持續(xù)發(fā)展。
參考文獻(xiàn):
[1]沈亮.數(shù)據(jù)挖掘在移動(dòng)通信業(yè)客戶關(guān)系管理中的應(yīng)用研究[J].企業(yè)導(dǎo)報(bào),2016,(12):28-29.
[2]鄭倩倩,智淑敏.數(shù)據(jù)挖掘在茶葉行業(yè)客戶關(guān)系管理系統(tǒng)的應(yīng)用研究[J].福建茶葉,2016,(03):98-99.
[3]廉祥麗.數(shù)據(jù)挖掘在電子商務(wù)客戶關(guān)系管理中的應(yīng)用分析[J].電子技術(shù)與軟件工程,2016,(01):179-180.
[4]胡彬.基于數(shù)據(jù)挖掘的移動(dòng)通信公司客戶關(guān)系管理系統(tǒng)的分析設(shè)計(jì)[J].山東工業(yè)技術(shù),2015,(09):148.
[5]杜麗英,趙秀菊.數(shù)據(jù)挖掘在銀行客戶關(guān)系管理中的應(yīng)用分析[J].計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2014,(21):28-29.
[6]歐陽(yáng)浩1,戎陸慶2,黃鎮(zhèn)謹(jǐn)1,陳波1,王萌1.SQLServer2008在煤炭企業(yè)智能客戶關(guān)系管理中的應(yīng)用研究[J].工礦自動(dòng)化,2014,(03).
關(guān)鍵詞:數(shù)據(jù)挖掘;圖聚類;分布式圖聚類
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)02-0014-02
分布式圖聚類在電子商務(wù)數(shù)據(jù)挖掘中的應(yīng)用是十分廣泛的。國(guó)家在網(wǎng)上購(gòu)物的數(shù)量逐漸加大,網(wǎng)上商城的競(jìng)爭(zhēng)力也逐漸地加大,各個(gè)網(wǎng)站都會(huì)使出渾身解數(shù)去驚醒電子商務(wù)數(shù)據(jù)挖掘,來(lái)為商家提供有力的資料來(lái)幫助自己進(jìn)行商業(yè)上的改進(jìn)和整編。但是隨著購(gòu)物的數(shù)據(jù)的加大,分析數(shù)據(jù)的信息難度就越來(lái)越大,以往的數(shù)據(jù)類已經(jīng)滿足不了商家們對(duì)數(shù)據(jù)分析的要求,圖聚類的產(chǎn)生補(bǔ)充了數(shù)據(jù)類的不足,圖聚類解決了數(shù)據(jù)龐大的問(wèn)題,可以說(shuō)是電子商務(wù)發(fā)掘的進(jìn)步。其中,最為代表性的就是分布式圖聚類。在我們國(guó)家的網(wǎng)上商城比如說(shuō);淘寶、天貓、京東、聚美優(yōu)品、蘇寧易購(gòu)等個(gè)大知名網(wǎng)站,據(jù)網(wǎng)上的商家們都會(huì)對(duì)電子商務(wù)數(shù)據(jù)進(jìn)行挖掘與研究,同時(shí),使用分布式圖聚類方法的網(wǎng)站不在少數(shù)。分布式圖聚類它解決了數(shù)據(jù)量大難以正確的評(píng)估、從而導(dǎo)致計(jì)算失誤的發(fā)生。經(jīng)過(guò)許多次的實(shí)驗(yàn),我們發(fā)現(xiàn)分布式圖聚類是非常穩(wěn)定與安全的。分布式圖聚類的產(chǎn)生促進(jìn)了電子商務(wù)數(shù)據(jù)挖掘的發(fā)展,在對(duì)數(shù)據(jù)的穩(wěn)定性與安全性中也有了很大的進(jìn)步。
1 分布式圖聚類的應(yīng)用
分布式圖聚類的應(yīng)用在我國(guó)可以說(shuō)是被廣泛地應(yīng)用,由于它自身的優(yōu)點(diǎn)和好處所以備受廣大商家采用。分布式圖聚類的特點(diǎn)主要是針對(duì)相對(duì)較大的規(guī)模的數(shù)據(jù)進(jìn)行分析和處理,這是傳統(tǒng)聚圖類無(wú)法做到的。它既能省去很多商家因?yàn)橛?jì)算數(shù)據(jù)而產(chǎn)生的極大的成本,還能保證我們所得到的數(shù)據(jù)的真實(shí)和準(zhǔn)確。分布式圖聚類的發(fā)現(xiàn)與應(yīng)用可以說(shuō)是電子商務(wù)數(shù)據(jù)挖掘中的一個(gè)進(jìn)步與提高。
1)什么是分布式圖聚類
我們可以知道在科技日益發(fā)展的今天,越來(lái)越多的人在熟用電腦并在網(wǎng)上購(gòu)物,進(jìn)行交易。隨著數(shù)量的日益增加,網(wǎng)上商城的電子商務(wù)數(shù)據(jù)挖掘就愈來(lái)愈難,原來(lái)傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)方式很快就跟不上節(jié)奏,所以適合大規(guī)模的分布時(shí)局圖類孕育而生。分布式圖聚類是大量數(shù)據(jù)集中的一套編碼,編集的一套電子程序。他的規(guī)模之大可以把數(shù)百臺(tái)或數(shù)千臺(tái)電腦聯(lián)系在一起進(jìn)行計(jì)算和研究。分布式圖聚類的優(yōu)點(diǎn)是可以進(jìn)行大規(guī)模的數(shù)據(jù)計(jì)算。
2)電子商務(wù)的數(shù)據(jù)挖掘
電子商務(wù)的數(shù)據(jù)挖掘是在網(wǎng)絡(luò)當(dāng)中存在的網(wǎng)絡(luò)商家在真實(shí)的交易中保存下來(lái)的數(shù)據(jù),然后把這些數(shù)據(jù)變成數(shù)據(jù)庫(kù)。商家要把存留下來(lái)的數(shù)據(jù)庫(kù)進(jìn)行計(jì)算,整理,然后挖掘出對(duì)商家有利的信息。商家再根據(jù)數(shù)據(jù)的顯示進(jìn)行一系列的變動(dòng)和調(diào)整,根據(jù)數(shù)據(jù)反映客戶的需要,擴(kuò)寬自己的市場(chǎng)。聚類分析就是研究數(shù)據(jù)挖掘后的一個(gè)技術(shù)性的研究。分析會(huì)根據(jù)商家的真實(shí)存在的問(wèn)題進(jìn)行數(shù)據(jù)上的計(jì)算和研究,這種方法備受商家的歡迎,同時(shí)也滿足了商家對(duì)科學(xué)的研究自己市場(chǎng)的一種需求。雖然數(shù)據(jù)挖掘等工作進(jìn)行十分的順暢,但是,社會(huì)是高速的發(fā)展的,更多的問(wèn)題也會(huì)頻頻的出現(xiàn)。現(xiàn)如今,網(wǎng)絡(luò)商城的日益豐富,出現(xiàn)了各種各樣形式的商城,競(jìng)爭(zhēng)十分激烈。商家如何把自己的數(shù)據(jù)庫(kù)進(jìn)行嚴(yán)格的分類和整合,如何更加詳細(xì)的反映出客戶的反映,是現(xiàn)在電子商務(wù)數(shù)據(jù)發(fā)掘的重中之重。
3)圖聚類算法的種類
圖聚類算法的種類十分的多,下面我們簡(jiǎn)單地介紹幾個(gè)圖聚類算法的種類;
第一,譜聚類,它是類似于矩形的一種分類圖形。它是通過(guò)分割矩形的方法來(lái)進(jìn)行對(duì)比與研究。譜聚類的研究主要是如何才能做到把主題矩形劃分成最佳的狀態(tài),來(lái)進(jìn)行分析。譜聚類是很有研究性的一個(gè)聚類法。比如說(shuō),我們想構(gòu)建的這一個(gè)矩形是通過(guò)什么根據(jù)來(lái)創(chuàng)建的、又或者是我們有如何通過(guò)數(shù)據(jù)研究進(jìn)行劃分這個(gè)矩形等等一系列的問(wèn)題都值得我們?nèi)パ芯刻剿鳌?/p>
第二,基于密度的聚類,它是一個(gè)使用消耗特別大的一個(gè)聚類法。基于密度類聚,顧名思義它是通過(guò)數(shù)據(jù)的密度來(lái)驚醒的圖聚類。這種算法的好處是,之前不用任何的計(jì)算或是安排,直接進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)。
第三,位置敏感哈希聚類算法,它是通過(guò)數(shù)據(jù)的相識(shí)度較高,或是鄰近的數(shù)據(jù)進(jìn)行計(jì)算。通過(guò)計(jì)算,我們會(huì)更加清晰地看出相似的結(jié)論,這種方法相對(duì)于基于密度的聚類的算法節(jié)約成本,也能清楚地反映問(wèn)題,但是也要因人而異。
雖然有許多這種聚類圖,但是也要因事而異。而且要注意的是,每一種聚類圖的算法是不同的,所以,他得出的理論也可能是不一樣的。我們要仔細(xì)的分析,那些數(shù)據(jù)需要哪種聚類圖會(huì)更加的合適等等。就比如說(shuō),我們需要知道客戶在購(gòu)買時(shí)更加傾向于購(gòu)買哪類的商品比較多一些,再或者說(shuō)是客戶對(duì)商品的評(píng)價(jià)進(jìn)行統(tǒng)計(jì)等等,我們要選者不同的方法,不能一條路走下去,要懂得變通。要知道只有適合的才是最好的。
2 分布式圖聚類在電子商務(wù)數(shù)據(jù)研究發(fā)掘中的應(yīng)用
電子商務(wù)數(shù)據(jù)發(fā)掘研究是極其復(fù)雜的,而分布式圖聚類并不是唯一的研究總結(jié)數(shù)據(jù)的方法。但分布式圖聚類是十分重要的方式。隨著電子網(wǎng)絡(luò)的迅速發(fā)展,網(wǎng)上購(gòu)物的客戶越來(lái)越多,數(shù)據(jù)庫(kù)的儲(chǔ)備量逐漸地加大。電子商務(wù)數(shù)據(jù)研究發(fā)掘呈現(xiàn)越來(lái)越難的趨勢(shì)。這些客戶的數(shù)量要比想象中的要大得多,而且,計(jì)算起來(lái)十分的復(fù)雜。電子計(jì)算已經(jīng)跟不上那么龐大的數(shù)量。傳統(tǒng)的計(jì)算法存在的缺點(diǎn)主要是不能計(jì)算數(shù)量龐大的數(shù)據(jù)庫(kù),而且計(jì)算的事件上加大了時(shí)間和精力,也就是效率不高。還有就是,面對(duì)相對(duì)較大的數(shù)據(jù)根本做不出處理,他的實(shí)用性并不是很高,不能做出我們所期望的數(shù)據(jù)。這就出現(xiàn)了這樣的一個(gè)問(wèn)題,怎樣才能把熟練龐大的數(shù)據(jù)庫(kù)計(jì)算起來(lái),從而更加準(zhǔn)確的進(jìn)行商務(wù)數(shù)據(jù)的挖掘。
由于數(shù)據(jù)挖掘的需要,圖聚類應(yīng)運(yùn)而生。圖聚類的計(jì)算法十分的多樣化,相對(duì)于數(shù)據(jù)聚類算法來(lái)說(shuō)大大地提升了效率,節(jié)省了時(shí)間。同時(shí),面對(duì)數(shù)量龐大的數(shù)據(jù)庫(kù)的時(shí)候也能運(yùn)行,不像以往的計(jì)算法那樣。圖聚類可以說(shuō)是現(xiàn)在相對(duì)較好的計(jì)算方法,也是符合許多網(wǎng)絡(luò)商家的需要。圖聚類分很多種類型,其中我們說(shuō)的就是分布式圖聚類在電子商務(wù)中的數(shù)據(jù)挖掘中的應(yīng)用。對(duì)于圖聚類來(lái)說(shuō),分布式圖聚類在數(shù)據(jù)挖掘上的應(yīng)用還是十分的廣泛的。分布式圖聚類是一種把數(shù)據(jù)相互聯(lián)系的一種計(jì)算方式,它可以進(jìn)行大規(guī)模的運(yùn)算和分析。這種算法被很多商家采用。例如;某網(wǎng)上購(gòu)物的網(wǎng)站上想要進(jìn)行一次客戶對(duì)哪些商品的需求量的調(diào)查研究,但是客戶的數(shù)量大且關(guān)系復(fù)雜,對(duì)于調(diào)查研究來(lái)說(shuō)具有一定的難度。這時(shí),分布式圖聚類來(lái)說(shuō)就派上了用場(chǎng),它對(duì)于數(shù)據(jù)之間的關(guān)系研究十分的到位,同時(shí)數(shù)量上也不成問(wèn)題。運(yùn)用分布式圖聚類計(jì)算這種數(shù)據(jù)是十分的適合的,分析的內(nèi)容十分的穩(wěn)定與準(zhǔn)確。所以,廣大商家十分青睞與分布式圖聚類對(duì)于電子商務(wù)數(shù)據(jù)挖掘的應(yīng)用。
3 分布式圖聚類分析的結(jié)果的表達(dá)
分析的結(jié)果是對(duì)電子商務(wù)數(shù)據(jù)挖掘的總結(jié)。不要小瞧這一個(gè)部分,雖然看似簡(jiǎn)單但是如果表達(dá)不當(dāng),是會(huì)影響到數(shù)據(jù)的評(píng)估水平和準(zhǔn)確性。正確的表達(dá)是準(zhǔn)確評(píng)估的一部分。我們?nèi)绾螠?zhǔn)確結(jié)果的表達(dá)和分析呢?首先,我們要保證我們數(shù)據(jù)的準(zhǔn)確性和完整性,保證我們現(xiàn)在的數(shù)據(jù)的時(shí)間,內(nèi)容都十分的重要。這是評(píng)估結(jié)果是否準(zhǔn)確十分的重要。運(yùn)用正確的圖聚類進(jìn)行分析和統(tǒng)計(jì),一定要是適合我們想要知道的信息相符合的圖聚類,不然,運(yùn)用不當(dāng)會(huì)出很大的偏差。我們可以用圖把清晰的條理表達(dá)出來(lái)。直到讓我們更加直觀的一眼就看出來(lái)關(guān)聯(lián)性的數(shù)據(jù)。還可以運(yùn)用表格之類的相對(duì)于比較直觀的表現(xiàn)形式來(lái)表達(dá)出來(lái)。其實(shí),表達(dá)的主要目的就是怎樣可以讓公司的領(lǐng)導(dǎo)者能夠迅速的明白數(shù)據(jù)所表達(dá)的含義和內(nèi)容。然后才能正確地做出判斷,提出幫助公司發(fā)展的政策。如果我們能正確地運(yùn)用數(shù)據(jù)挖掘技術(shù)就能夠把復(fù)雜,數(shù)量繁多的數(shù)據(jù)信息轉(zhuǎn)變成清晰、直觀,讓人一目了然的數(shù)據(jù)或是數(shù)據(jù)圖等等。同時(shí),如果正確地分析了數(shù)據(jù)還可以讓商家找到正確的方式去經(jīng)營(yíng)店鋪,讓后制定出符合科學(xué)依據(jù)的方案,也會(huì)找到商機(jī),創(chuàng)造未來(lái)。
我們對(duì)數(shù)據(jù)的研究不是一個(gè)簡(jiǎn)單的過(guò)程,而是要一遍一遍的去研究,去探索,去找尋不同的方法,所以,端正我們的態(tài)度十分的重要。認(rèn)真地完成了每一個(gè)步驟,我們就離成功不遠(yuǎn)了。
4 總結(jié)
經(jīng)過(guò)研究,分布式圖聚類在電子商務(wù)數(shù)據(jù)挖掘中的應(yīng)用十分的廣泛。同時(shí)分布式圖聚類的優(yōu)點(diǎn)也是值得我們?nèi)ミ\(yùn)用與學(xué)習(xí)的。分布式圖聚類被許多商家所青睞和認(rèn)可,分布式圖聚類的數(shù)據(jù)挖掘也為商家?guī)?lái)了很大的收益。也能夠真實(shí)地反映出數(shù)據(jù)所涵蓋的信息量,并且減少數(shù)據(jù)統(tǒng)計(jì)的成本。由此證明,分布式圖聚類在電子商務(wù)挖掘信息中是十分重要和有效的。也是電子商務(wù)中不可或缺的一部分。但是,在本文中我們也提及了其他圖聚類的方法,我想讓大家知道,分布式圖聚類雖然適合大規(guī)模的數(shù)據(jù)統(tǒng)計(jì),也能清楚,穩(wěn)定的表現(xiàn)出數(shù)據(jù)之間的關(guān)系和內(nèi)容。但是,分布式圖聚類并不是全部實(shí)用,我們要做好電子商務(wù)數(shù)據(jù)挖掘就一定要找到適合數(shù)據(jù)的圖聚類,不要只用一個(gè)方法,這樣統(tǒng)計(jì)出來(lái)的數(shù)據(jù)會(huì)大打折扣。希望我們能夠正確的運(yùn)用數(shù)據(jù)計(jì)算分析方式,反映出最全面的信息。
參考文獻(xiàn):
[1] 溫菊萍,鐘勇.圖聚類的算法及其在社會(huì)關(guān)系網(wǎng)絡(luò)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用于軟件,2010,29(2):161-162.
【關(guān)鍵詞】數(shù)據(jù)挖掘技術(shù);電信客戶流失預(yù)警;應(yīng)用
隨著電信企業(yè)的發(fā)展,企業(yè)之間的競(jìng)爭(zhēng)不斷加劇,電信運(yùn)營(yíng)商也在不斷地推出新的業(yè)務(wù)與套餐,以此來(lái)在占領(lǐng)市場(chǎng)競(jìng)爭(zhēng)高地。但是,與此同時(shí),也大大增加了客戶的不穩(wěn)定性,而數(shù)據(jù)挖掘技術(shù)的應(yīng)用,有效地降低了客戶離網(wǎng)率。因此,對(duì)數(shù)據(jù)挖掘技術(shù)在電信客戶流失預(yù)警中應(yīng)用的探討有其必要性。
一、數(shù)據(jù)挖掘技術(shù)應(yīng)用的重要性
伴隨著經(jīng)濟(jì)全球化,市場(chǎng)的國(guó)際化,目前我國(guó)國(guó)內(nèi)市場(chǎng)的競(jìng)爭(zhēng)也變得日加激烈,因此,電信企業(yè)傳統(tǒng)的經(jīng)營(yíng)模式已經(jīng)不能夠完全適應(yīng)市場(chǎng)的需要。為此,電信企業(yè)的市場(chǎng)戰(zhàn)略定位需要從傳統(tǒng)的生產(chǎn)型企業(yè)向利潤(rùn)型企業(yè)進(jìn)行轉(zhuǎn)化,從而來(lái)求更好的生存與發(fā)展。為此,這就要求電信企業(yè)必須圍繞客戶展開(kāi)市場(chǎng)分析,全面了解客戶的實(shí)際需求,做到服務(wù)的層次化、多樣化以及全面化,并且提出個(gè)性化的解決方案。但是,在市場(chǎng)發(fā)展的過(guò)程中,由于市場(chǎng)的飽和以及客戶發(fā)展的減速,這使得電信企業(yè)客戶的維系成為一個(gè)熱點(diǎn)問(wèn)題。因此,在這樣的競(jìng)爭(zhēng)環(huán)境下,企業(yè)極需完善業(yè)務(wù)管理系統(tǒng)以及生產(chǎn)系統(tǒng),引進(jìn)數(shù)據(jù)挖掘系統(tǒng),加強(qiáng)系統(tǒng)構(gòu)建,如渠道系統(tǒng)、BOSS系統(tǒng)以及綜合結(jié)算系統(tǒng)等,通過(guò)這些系統(tǒng),收集大量的數(shù)據(jù),對(duì)企業(yè)的運(yùn)營(yíng)情況作出具體性的分析,既可以加強(qiáng)對(duì)客戶消費(fèi)行為的了解,而且針對(duì)企業(yè)某項(xiàng)業(yè)務(wù)在市場(chǎng)中的運(yùn)行情況進(jìn)行預(yù)測(cè)分析和運(yùn)行情況分析,以指導(dǎo)企業(yè)做出更好的解決方案,為企業(yè)創(chuàng)造更大的利潤(rùn)。
另外,集成客戶數(shù)據(jù)是電信企業(yè)發(fā)展最為寶貴的資源,而數(shù)據(jù)挖掘技術(shù)的應(yīng)用可以將大量的客戶數(shù)據(jù)提取出來(lái),包括現(xiàn)有的客戶數(shù)據(jù)、流失數(shù)據(jù)、增加數(shù)據(jù)等,在此基礎(chǔ)上,根據(jù)客戶行為、客戶屬性以及服務(wù)屬性,構(gòu)建相關(guān)數(shù)學(xué)模型,計(jì)算與分析客戶流失概率,同時(shí),根據(jù)這些數(shù)據(jù)之間的相互關(guān)系,得出相關(guān)的數(shù)學(xué)公式,從而來(lái)改善企業(yè)的促銷手段,提高服務(wù)質(zhì)量以及客戶忠誠(chéng)度,預(yù)防客戶的流失,更為重要的是解決了電信企業(yè)傳統(tǒng)運(yùn)營(yíng)模式上無(wú)法監(jiān)控客戶流失、無(wú)法實(shí)現(xiàn)客戶關(guān)懷的難題。
二、數(shù)據(jù)挖掘技術(shù)在電信客戶流失預(yù)警中的應(yīng)用
對(duì)于電信企業(yè)而言,海量的客戶數(shù)據(jù)是企業(yè)的一筆巨大財(cái)富,簡(jiǎn)單來(lái)講,企業(yè)若是能夠及時(shí)準(zhǔn)確地挖掘出數(shù)據(jù)中的信息,并且從中分析出隱含的價(jià)值信息與知識(shí),就能制定出科學(xué)的運(yùn)營(yíng)方案,才能更好地為客戶提供服務(wù),進(jìn)而在市場(chǎng)競(jìng)爭(zhēng)中取得一席之地。而數(shù)據(jù)是從中大量的信息中挖掘出來(lái)的規(guī)律、知識(shí)以及價(jià)值模式等,數(shù)據(jù)的形成是一個(gè)復(fù)雜的過(guò)程,因此,數(shù)據(jù)挖掘技術(shù)的定義可以通過(guò)以下圖示具體地反應(yīng)出來(lái):
而所謂的客戶流失預(yù)警模型的構(gòu)建就是基于數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,對(duì)電信運(yùn)營(yíng)狀態(tài)以及客戶狀態(tài)的一種分析與判斷系統(tǒng),從本質(zhì)上講,就是對(duì)數(shù)據(jù)特征的一種挖掘,同時(shí),也是一種分類問(wèn)題。通過(guò)其主要將客戶信息分為兩大類,一種是有離網(wǎng)傾向的客戶,一種無(wú)離網(wǎng)傾向的客戶,以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),對(duì)已離網(wǎng)客戶的信息進(jìn)行特征分析,進(jìn)行總結(jié)歸納,并作為參照,若企業(yè)產(chǎn)生新的客戶信息時(shí),以此來(lái)識(shí)別其是否存在離網(wǎng)傾向,確定其是否在企業(yè)對(duì)客戶維護(hù)開(kāi)銷范圍內(nèi),若是低于此開(kāi)銷值,則說(shuō)明其不具有任何產(chǎn)生價(jià)值,自然,相關(guān)信息也就應(yīng)該刪除。在這里,主要客戶流失預(yù)警模型中數(shù)據(jù)挖掘技術(shù)的應(yīng)用進(jìn)行具體分析:
首先是客戶劃分。一般而言,對(duì)于電信企業(yè),客戶劃分方法多種多樣,如客戶年齡、性別以及信用度和支付能力等,這些都可以作為劃分客戶的具體參照。但是由于一個(gè)企業(yè)最為主要的目的就是利潤(rùn)的產(chǎn)生,為此,我們應(yīng)該以客戶對(duì)企業(yè)貢獻(xiàn)大小為主要參考依據(jù)進(jìn)行科學(xué)劃分,具體為三種,即低價(jià)值客戶、普通價(jià)值客戶以及高價(jià)值客戶。
其次是屬性分析。在進(jìn)行客戶流失預(yù)警分析中,其影響因素是多方面的,而這些因素之間的關(guān)系也或強(qiáng)或弱,若以所有屬性為標(biāo)準(zhǔn),那么分析過(guò)程顯得過(guò)于復(fù)雜,這樣,在實(shí)時(shí)環(huán)境以及追溯目標(biāo)的過(guò)程中,要想識(shí)別是存在著一定難度的,但是,若是從中抽取某幾個(gè)屬性,那么系統(tǒng)的預(yù)警效果則會(huì)大大降低。因此,最為有效的解決方法就是采用約簡(jiǎn)算法,將這些相互關(guān)聯(lián)的屬性進(jìn)行融合處理,并從中抽取關(guān)鍵性因素,重新構(gòu)造關(guān)鍵指標(biāo),形成新的線性組合,進(jìn)而獲取最有效的價(jià)值信息,取得最為有效的預(yù)測(cè)效果。本文運(yùn)用多元統(tǒng)計(jì)中的因子分析方法,結(jié)合SPSS軟件,得到一組流失預(yù)警中可用的因子(屬性)集合,具體內(nèi)容如表1所示:
第三是特征挖掘。關(guān)于數(shù)據(jù)特征的挖掘具體包括以下幾個(gè)內(nèi)容:一是數(shù)據(jù)抽取,簡(jiǎn)單來(lái)講,將業(yè)務(wù)系統(tǒng)中所儲(chǔ)存的離網(wǎng)數(shù)據(jù)信息,進(jìn)行分析整合,并作為訓(xùn)練數(shù)據(jù)集合,同時(shí),進(jìn)行屬性約簡(jiǎn),將所得到的相關(guān)數(shù)據(jù)輸入數(shù)據(jù)庫(kù)中,作為模型數(shù)據(jù);二是將輸入的數(shù)據(jù)運(yùn)用慢啟動(dòng)頻繁模式進(jìn)行數(shù)據(jù)分析與挖掘,歸納流失客戶特征信息,并在此基礎(chǔ)上,構(gòu)建相應(yīng)的分類器;三是輸入測(cè)試數(shù)據(jù),這一部分?jǐn)?shù)據(jù)集合主要是由新的客戶數(shù)據(jù)組成,經(jīng)過(guò)約簡(jiǎn)后,作為測(cè)試模型;四是將分類器中的數(shù)據(jù)特征與挖掘到的新的客戶信息進(jìn)行模式匹配,以此來(lái)確定客戶是否存在著離網(wǎng)傾向,若是存在離網(wǎng)傾向,那么需要將這些數(shù)據(jù)反饋給客戶挽留系統(tǒng)或者是客戶維護(hù)系統(tǒng),從而為客戶開(kāi)展針對(duì)性的服務(wù),一方面,為客戶部門(mén)的服務(wù)工作提供了重要參考依據(jù),另一方面,還可以為企業(yè)客戶維護(hù)工作決策提供參考。
三、仿真及結(jié)果驗(yàn)證
基于數(shù)據(jù)挖掘技術(shù)的電信客戶流失預(yù)警模型,在某地電信運(yùn)營(yíng)公司展開(kāi)實(shí)地測(cè)試,該企業(yè)根據(jù)其實(shí)際情況,構(gòu)建了客戶流失預(yù)警模型,并在此基礎(chǔ)上,全面展開(kāi)客戶挽留與客戶維護(hù)工作,同時(shí),根據(jù)系統(tǒng)提供的數(shù)據(jù)信息,分析流失客戶的特征,在每月的月初進(jìn)提供客戶名單,該企業(yè)在2012年8月的流失預(yù)警客戶的具體數(shù)據(jù)如表2所示:
根據(jù)客戶流失預(yù)警模型的分析,得到的流失預(yù)警數(shù)據(jù),該企業(yè)客戶服務(wù)部門(mén)分別在6、7、8月份對(duì)8259戶、9001戶、8975戶客戶進(jìn)行了回訪,其回訪的成功率分別為90.12% 、89.67% 、88.56%,其中,在這些回訪的客戶中,將近85%以上的客戶表達(dá)了自己近期有離網(wǎng)打算,但是經(jīng)過(guò)客戶部門(mén)的回訪,結(jié)合針對(duì)性的處理措施以及挽留措施,99%以上的客戶均打消了離網(wǎng)的意圖。
四、總結(jié)
總而言之,客戶流失預(yù)警模型的構(gòu)建通過(guò)對(duì)客戶所處狀態(tài)的判斷,確定客戶是否存在離網(wǎng)意圖,并且綜合企業(yè)維護(hù)運(yùn)行成本、客戶消費(fèi)價(jià)值、客戶屬性以及客戶使用習(xí)慣等,對(duì)客戶進(jìn)行細(xì)分,針對(duì)不同的客戶提出不同的營(yíng)銷方式,并在此基礎(chǔ)上,通過(guò)反饋數(shù)據(jù),完善客戶服務(wù),提高產(chǎn)品服務(wù)質(zhì)量,最終達(dá)到拘留客戶的目的。
參考文獻(xiàn):
[1]蔣亞虎.基于SQL Server的OLAM模塊研究[J].制造業(yè)自動(dòng)化.2011(16).
[2]莊仁團(tuán).數(shù)據(jù)挖掘技術(shù)在電子政務(wù)系統(tǒng)中的應(yīng)用[J].海峽科學(xué).2011(05).