真人一对一直播,chinese极品人妻videos,青草社区,亚洲影院丰满少妇中文字幕无码

0
首頁 精品范文 數據挖掘總結

數據挖掘總結

時間:2022-11-25 15:36:49

開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數據挖掘總結,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。

數據挖掘總結

第1篇

關鍵詞:數據挖掘;應用;研究

一 、數據挖掘

隨著數據庫技術的廣泛使用,以及計算技術和計算機性能與網絡的迅速發展,人們面臨著一個困難的問題,即如何從海量的數據中提取出有價值的信息。查詢功能遠不能滿足人們的需要,數據挖掘應運而生。有人將數據挖掘定義為一個從數據及數據庫中抽取隱含的,先前未知的并有潛在價值的信息的過程。但有人認為數據挖掘,即數據庫中的知識發現,是從大數據集中快速高效地發現令人感興趣的規則,數據挖掘是數據庫研究的新領域,所挖掘的知識能夠用于信息、管理、查詢處理、決策支持和過程控制等等。

數據挖掘(DataMining)是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據準備、規律尋找和規律表示三個步驟。隨著計算機網絡的發展和普遍使用,數據挖掘成為迫切需要研究的重要

課題。

數據挖掘涉及多個學科方向,主要包括:數據庫、統計學和人工智能等。數據挖掘可按數據庫類型、挖掘對象、挖掘任務、挖掘方法與技術以及應用等幾方面進行分類。按數據庫類型分類:關系數據挖掘、模糊數據挖掘、歷史數據挖掘、空間數據挖掘等多種不同數據庫的數據挖掘類型。按數據挖掘對象分類:文本數據挖掘、多媒體數據挖掘、Web數據挖掘。按數據挖掘的任務有:關聯分析、時序模式、聚類、分類、偏差檢測、預測等。按數據挖掘方法和技術分類:歸納學習類、仿生物技術類、公式發現類、統計分析類、模糊數學類、可視化技術類。

二、數據挖掘的主要任務

(一)數據總結

數據總結目的是對數據進行濃縮,給出它的總體綜合描述。通過對數據的總結,數據挖掘能夠將數據庫中的有關數據從較低的個體層次抽象總結到較高的總體層次上,從而實現對原始基本數據的總體把握。

(二)分類

分類的主要功能是學會一個分類函數或分類模型(也常常稱作分類器),該模型能夠根據數據的屬性將數據分派到不同的組中。即:分析數據的各種屬性,并找出數據的屬性模型,確定哪些數據屬于哪些組。這樣我們就可以利用該模型來分析已有數據,并預測新數據將屬于哪一個組。

(三)關聯分析

數據庫中的數據一般都存在著關聯關系,也就是說,兩個或多個變量的取值之間存在某種規律性。這種關聯關系有簡單關聯和時序關聯兩種。關聯分析的目的是找出數據庫中隱藏的關聯網,描述一組數據項目的密切度或關系。有時并不知道數據庫中數據的關聯是否存在精確的關聯函數,,即使知道也是不確定的,因此關聯分析生成的規則帶有置信度,置信度級別度量了關聯規則的強度。

(四)聚類

當要分析的數據缺乏描述信息,或者是無法組織成任何分類模式時,可以采用聚類分析。聚類分析是按照某種相近程度度量方法,將用戶數據分成一系列有意義的子集合。每一個集合中的數據性質相近,不同集合之間的數據性質相差較大。

統計方法中的聚類分析是實現聚類的一種手段,它主要研究基于幾何距離的聚類。人工智能中的聚類是基于概念描述的。概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。

三、數據挖據的應用

數據挖掘技術源于商業的直接需求,因此它在各種商業領域都存在廣泛的使用價值。現在已經應用數據挖掘技術的領域都是信息量大、環境復雜、需要知識幫助進行管理和決策的領域。下面介紹一些目前比較活躍的應用方向:

(一)在金融數據分析中的應用

多數銀行和金融機構都提供了豐富多樣的儲蓄,信用,投資,保險等服務。他們產生的金融數據通常比較完整、可靠,這對系統化的數據分析和數據挖掘相當有利。在具體的應用中,采用多維數據分析來分析這些數據的一般特性,觀察金融市場的變化趨勢;通過特征選擇和屬性相關性計算,識別關鍵因素,進行貸款償付預測和客戶信用分析;利用分類和聚集的方法對用戶群體進行識別和目標市場分析;使用數據可視化、鏈接分析、分類、聚類分析、孤立點分析、序列模式分析等工具偵破洗黑錢和其他金融犯罪行為。

(二)在電力業的應用

在電力行業中,數據挖掘技術主要用于指導設備更新、業績評估、指導電力企業的建設規劃、指導電力的生產和購買、指導電力的調度等。數據挖掘在電力企業的其它方面也有巨大的用處,比如說指導項目管理、安全管理、資源管理、投資組合管理、活動分析、銷售預測、收入預測、需求預測、理賠分析等。

(三)在零售業中的應用

零售業是數據挖掘的主要應用領域,這是因為零售業積累了大量的銷售數據,如顧客購買史記錄、貨物進出、消費與服務記錄以及流行的電子商務等等都為數據挖掘提供了豐富的數據資源。零售數據挖掘有助于劃分顧客群體,使用交互式詢問技術、分類技術和預測技術,更精確地挑選潛在的顧客;識別顧客購買行為,發現顧客購買模式和趨勢,進行關聯分析,以便更好地進行貨架擺設;改進服務質量,獲得更好的顧客忠誠度和滿意程度;提高貨品的銷量比率,設計更好的貨品運輸與分銷策略,減少商業成本;尋找描述性的模式,以便更好地進行市場分析等等。

(四)在醫學上的應用

近年來,生物醫學研究有了迅猛地發展,從新藥的開發到癌癥治療的突破,到通過大規模序列模式和基因功能的發現,進行人類基因的識別與研究。在人類基因研究領域具有挑戰性的問題是從中找出導致各種疾病的特定基因序列模式。由于數據挖掘中已經有許多有意義的序列模式分析和相似檢索技術,因此數據挖掘成為DNA分析中的強有力工具。基因序列的相關分析,遺傳研究中的路徑分析等。近期DNA分析的研究成果已經促成了對許多疾病和殘疾基因成因的發現,以及對疾病診斷、預防和治療的新藥物、新方法的發現。

(五)在高校和科研單位以及其他領域的應用

主要是用于海量信息數據的抽取,提供給教研和科研人員有價值的數據。比如在數字圖書館方面可以引入數據挖掘技術。同時還可以應用的電子商務等等眾多領域。

參考文獻

[1]鄒先霞、王淑禮、魏長華.數據倉庫與數據挖掘技術淺談[J].高等函授學報(自然科學版),2000,(03).

第2篇

關鍵詞:大數據;數據挖掘;電子商務;教學設計

0引言

近幾年,隨著互聯網技術的發展和對人們工作生活的不斷滲透,隨著移動互聯、物聯網、云計算、智慧工程等新興信息技術的出現和普及,數據在人們的生活中呈爆炸式增長,人們開始進入大數據時代。由于海量數據中記錄了企業的發展、運營以及人們生活和行為的點點滴滴,所以,挖掘海量數據背后存在的模式、規律和趨勢,并結合各行各業進行創新應用,已經成為這個時代的重要課題。我國電子商務經過近20年的發展和數據累積,已經從用戶為王、銷售為王進入到數據為王的階段,如何針對用戶消費行為的分析,提升電子商務的運營效率,促進精準營銷的開展,增加客戶黏性,從而實現電子商務的智能化發展,是當前電子商務發展的重中之重。因此,在大數據背景下,為適應行業發展需求,國內外很多高校,尤其是應用型本科院校,在電子商務專業本科生中陸續開設大數據分析與挖掘系列的課程,其中作為大數據研究與應用的重要支撐技術的數據挖掘,是其中一門重要課程。

1電子商務專業開設數據挖掘課程的必要性

1.1行業發展的必然要求

進入大數據時代,“互聯網+”技術與傳統行業深度融合,電子商務數據已覆蓋了從用戶、商家、第三方、物流等一系列商務環節。因此,充分利用大數據,有效分析和挖掘大數據的價值和規律,已成為推動電子商務深化發展的重要引擎。首先,數據挖掘技術是電子商務智能化的基礎。由于電子商務的活動從開始就具備了信息電子化的先天優勢,所以,用戶在電子商務網站上發生的所有行為信息都被日志記錄,包括用戶對產品的搜索、瀏覽、在購物車加入或取出商品、收藏產品、對商品的討論、評價、分享等。對這些用戶行為信息進行收集和分析,可以挖掘用戶的興趣特征和潛在需求,實現對用戶的個性化推薦。其次,數據挖掘技術支撐電子商務的精細化營銷的實現。通過網絡爬蟲收集用戶在消費過程種對商品的興趣、偏好、評價等數據,并進行分析挖掘,可以更好地對用戶進行細分,針對性地制定營銷策略,更準確地把握用戶態度和對產品的情感傾向,及時控制營銷中的不良影響,從而提升用戶體驗和用戶黏性。第三,數據挖掘技術推動電商物流的優化。通過對電商物流數據的分析和挖掘,可以預測市場需求變化的規律,幫助企業合理地進行庫存管理和控制,優化配送路線,進行物流中心選址策略分析等。可見,對于電子商務專業大學生開設數據挖掘課程是行業發展的必然需求。

1.2專業人才培養的迫切需求

電子商務是利用信息和通信技術,通過Internet在個人、組織和企業之間進行商務活動和處理商務關系的一種活動。隨著云計算、物聯網及移動互聯等新興信息技術的迅速發展,大量傳感器和監控設備不間斷的數據采集和行業數據的持續積累,使大數據成為時代的鮮明特點。教育部電子商務專業教學指導委員會王偉軍教授等人對138個電子商務專業本科人才的市場招聘需求進行研究發現,網絡營銷與數據分析是當前電子商務專業的主要能力需求,而目前我國開設電子商務專業的高校中開設數據挖掘及其相關課程的只有14所。因此,該類別人才缺口目前較為嚴重,市場需求量較大。為了適應時展需求,高校在人才培養時既要注重電子商務運營管理能力的培養,同時更要注意商務數據分析與挖掘能力培養。培養同時具備這兩種能力,并且可以將兩種能力有效結合起來的應用型人才,是當前高校電子商務專業發展的趨勢和方向。總之,在當前的電子商務活動中,商務管理是核心,數據分析與挖掘是手段。在大數據背景下,要提升電子商務的管理效率,實現電子商務的智能化發展,必須應用好數據挖掘這把利器。因此,在電子商務專業開設數據挖掘課程,是行業發展的必然要求,也是專業發展的迫切要求。

2電子商務專業數據挖掘課程教學思路設計

數據挖掘是一門交叉學科,涉及統計學、數據庫、機器學習、高性能計算等多門學科相關內容,要求學生具有較為扎實的基礎知識。由于課程難度較大,早期高校都把該課程作為研究生的專業課程。為適應市場需求和行業發展,近年來,也有些高校將此課作為本科生高年級選修課開設。從該課程的傳統教學上來看,由于學生理論基礎不夠扎實,課程教學又多側重算法的分析與實現,導致該課程存在教學難度大、理論教學過多、學習興趣難以提高等問題。考慮到傳統教學的問題以及電子商務專業培養應用型本科人才的實際情況,筆者認為該課程在教學過程中應“輕算法,重應用”,以啟發學生數據思維為主,以理解算法思路為主(忽略細節實現),以合理構建數據挖掘模型、正確解讀數據挖掘結果為主。在組織教學時,采用基于場景的啟發式教學方式。該課程在講授每個數據挖掘方法時,都通過一個電子商務問題進行導入;通過本節所授方法,形成解決問題的思路;最后通過專門數據挖掘軟件進行方法的應用,通過對挖掘結果的解讀分析,為導入問題的決策分析提供依據。通過這種由淺入深,由易到難的方式,引起學生學習興趣,激發學生主動思考,真正成為課堂的主體。實踐環節是學生理論聯系實際的關鍵步驟,選用合適的數據挖掘軟件工具非常重要,對于電子商務專業的學生,數據挖掘重在問題的建模和方法的應用,所以,該課程選擇的數據挖掘工具是IBM公司的SPSSModeler。SPSSModeler擁有豐富的數據挖掘算法,本課程涉及到的分類、聚類、關聯分析、時序分析、社會網絡分析挖掘等主要數據挖掘功能均可實現,而且其操作簡單易用,分析結果直觀易懂,可以使用戶方便快捷地實現數據挖掘。學生通過對算法基本思路的了解,針對實驗問題設計數據挖掘方案,并通過數據挖掘軟件進行算法的應用和結果的分析,理論和時間的順利銜接,進一步加深學生對數據挖掘方法的認識和理解。

3電子商務專業數據挖掘課程教學內容設計

數據挖掘課程主要講解數據挖掘的基本概念、主要方法和技術、應用情況及發展趨勢,目的在于啟發學生的數據思維,提升學生數據分析與挖掘的能力,深入理解電子商務數據在電子商務中的重要地位和作用,實現商務管理和數據挖掘的有機結合。由于數據挖掘課程理論性和應用性均較強,反映在教學要求上,既要重視理論學習,又要重視實踐環節。具體來說,就是一方面通過理論教學使學生對理論內容有較深入的理解和領悟;另一方面結合實踐教學,鼓勵學生多動手,多思考,綜合運用所學知識分析和解決實際問題。

3.1理論教學設計

針對大數據時代的數據特點和應用特點,在數據挖掘課程的理論教學設計時,其內容不僅包括傳統的基礎性的分類、聚類、關聯分析、時序分析等數據挖掘方法,還注重根據電子商務行業特點進行知識的拓展介紹,比如在將關聯分析的時候,除了傳統的購物籃分析,還增加了序列模式分析內容;比如在結合社會化電子商務的發展,對社會網絡分析、文本挖掘等前沿數據挖掘知識也進行了一定的拓展介紹。這些拓展內容,不但豐富了學生的知識體系,也為部分學生的課下深度擴展指明了方向。我校電子商務專業的數據挖掘課程總學時為48學時,其中理論教學32學時,主要內容及其學時分配如表1所示。表1數據挖掘課程理論教學安排序號章節標題內容提要學時1數據挖掘概述數據挖掘基本概念與功能;基本流程與步驟;基本方法與應用;拓展:數據庫,數據倉庫與數據挖掘的關系22數據預處理數據清洗;數據的集成與轉換23分類分析決策樹分類;貝葉斯分類;分類特點及結果分析64聚類分析K-means聚類;兩步聚類;聚類特點與結果分析65關聯分析頻繁項集;關聯規則挖掘;關聯分析效果評價;拓展:序列模式分析86時序分析移動平均模型;指數平滑模型;拓展:ARIMA模型67數據挖掘發展趨勢社會網絡分析;文本挖掘;Web挖掘2理論教學在組織時,基本上以“課堂引例-問題分析-算法思路講解-課后練習”的方式展開。通過實例分析,給學生介紹各種算法的基本思想和相關概念,引起學生學習興趣。在講授算法時,通過具體的簡單數據演算實例來分析數據挖掘的過程和結果,使學生在實際案例中明白數據挖掘算法在處理數據過程中的作用和意義。雖然該課程開設在電子商務專業的第六學期,但是,由于數據挖掘課程本身需要多個學科的基礎知識,在目前的大學課程體系內,難以在有限的時間內開設全部先修課程。因此,在理論講解時,對涉及到學生比較生疏的知識點,應根據學生的知識水平,予以補充說明。例如,在講決策樹分類時,對于信息論中信息熵基本概念和計算方法,可以結合實際數據集合,進行講解和計算。

3.2實驗教學設計

數據挖掘是一門緊密結合實際應用的課程,具有較強的實踐性。實踐教學環節中,首先教師講解實驗步驟,然后安排學生進行實驗,并對實驗結果做詳細分析與評價。每個實驗要求學生完成以下幾方面的內容:(1)根據實驗問題設計數據挖掘方案和實施流程;(2)進行數據預處理,并構建數據挖掘模型;(3)解讀數據挖掘結果,并聯系實驗問題進行具體分析;(4)實驗拓展與總結。在實驗拓展和總結部分,可以設計一些開放性的題目,比如在進行關聯分析時,可以設計這樣的問題“如果支持度閾值設置時降低十個百分點,頻繁項集會有哪些變化?關聯規則的準確性和適用性會有哪些方面的變化?”。在實驗環境下,學生可以通過對比實驗,比較容易得到結果,而在總結這些變化規律時,又可以強化和鞏固對關聯規則、頻繁項集、支持度、置信度等這些概念和指標意義的理解,從而更好的應用在以后的工作實踐中。結合電子商務活動特點以及數據挖掘在電子商務中的應用,該課程的實驗是16學時。在實驗設計時,共設計了五個單人實驗和一個綜合性多人實驗.由于使用數據挖掘技術處理實際問題時,很多時候需要綜合運用一些數據挖掘方法,其設計方案不止一種,分析結果也不一定完全一致。為激發學生的主觀能動性,本課程在最后需要每個小組共同完成一個綜合性的數據挖掘作業。研究表明,對于本科生來說,指導教師給出一些具體的題目,如大學生消費狀況預測、校園共享單車滿意度分析等,這些熱點問題更容易激發學生的學習興趣。綜合作業從數據挖掘方案的設計、數據采集、數據預處理、數據建模、結果分析以及報告撰寫全部由小組成員協作完成,通過這樣一個完整的分析問題、解決問題的過程,不但可以鍛煉學生綜合應用知識的能力,也可以鍛煉學生的溝通寫作能力。在綜合性作業完成的過程中,教師需要給予一定的指導,例如教師可以介紹問卷星等網絡調查平臺或網絡爬蟲等工具幫助學生進行原始數據的采集;通過對數據挖掘方案的點評,幫助學生更合理的選取數據分析指標,設計數據挖掘方案;通過報告撰寫指導,幫助學生規范化的總結實驗分析結果。

4結論

大數據時代的電子商務活動中,對電子商務人才的數據挖掘和分析能力非常迫切,在電子商務專業中開設數據挖掘課程是行業發展和專業發展的必然要求。在電子商務專業開設數據挖掘課程既有別于研究生也有別于計算機等理工科專業,“輕算法,重應用”,以提升學生主動學習興趣為導向,采用基于場景的啟發式教學方法更合適。本文從教學思路、教學方法、教學內容等方面進行了思考和探索,經課程開設兩年來的教學實踐證明,學生在學習上的主觀能動性得到了一定的體現,理論和實踐相結合的能力得到了鍛煉。激發學生學習興趣,培養學生的主動性思維,是當前教學中的重要課題,在電商行業不斷發展的過程中,如何更好的將最新行業問題融入教學過程,實現理論和實踐的有機結合,需要我們進一步深入思考和探索。

參考文獻

[1]馮然,陳欣.論數據分析類課程在電子商務專業設置中的重要性[J].河南教育,2015,(2).

[2]黃嵐.數據挖掘課程實踐教學資源庫建設[J].計算機教育,2014,(12).

[3]薛薇.基于SPSSModeler的數據挖掘(2版)[M].中國人民大學出版社,2014.

[4]李海林.大數據環境下的數據挖掘課程教學探索[J].計算機時代,2014,(2).

[5]韋艷艷,張超群.“數據倉庫與數據挖掘”課程教學實踐與探索[J].高教論壇,2011,(1).

第3篇

關鍵詞 數據挖掘;關聯分析;聚類分析

中圖分類號TP311.13 文獻標識碼A 文章編號 1674-6708(2010)33-0257-02

1 數據挖掘的概念

隨著計算機技術的高速發展,互聯網技術的風靡,獲得相關資料已經是很方便了。但是人們也積累了大量的數據信息,面對這些龐大的數據,如何從中提取有用的信息成為當務之急,為此,數據挖掘技術應運而生。數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的,人們事先不知道的,但又是潛在有用的信息和知識的過程。數據挖掘是發現知識的關鍵步驟。

2 數據挖掘的作用

2.1 關聯分析

關聯是反映兩個或者兩個以上事件之間存在某種依賴或聯系規律性。關聯規則挖掘是由Rakesh Apwal提出來的。在數據庫中,如果存在一項或多項之間的關聯,則其中一項屬性值能夠依據其他屬性值進行推測。關聯分為簡單關聯、時序關聯和因果關聯。關聯分析的目的是找出數據庫中所有頻繁項目集,這是數據挖掘中最成熟的技術之一。例如:每天購買洗發水的人也有可能購買肥皂,比重有多大。

2.2 聚類分析

聚類分析是把數據按照所選樣本的關聯相似性劃分成若干小組,同一小組中的數據具有較高的相似度,不同組中的數據則相異,即同組中的相似性盡可能大,而組別間的相似性盡可能小。聚類事先不知道組別數和各組的相似特性。聚類分析可以發現數據的分布模式,以及可能的數據屬性之間的相互關系。例如:將學生分為成績優秀的學生,成績中等的學生,成績差的學生。

2.3 分類

分類就是按照以前數據庫中的數據,分析它們的屬性、特征,找出一個類別的概念描述,并利用這種描述構造模型,每個類別都代表了本類數據的整體信息,一般用規則或決策樹模式表示。分類事先知道類別數和各類的典型特征。例如:學校根據以前的數據將教師分成了不同的類別,現在就可以根據這些來區分新教師,以采取不同的待遇分配方案。

2.4 預測

預測是利用歷史和當前的數據找出變化規律,推測未來數據的種類及特征。預測是以時間為關鍵屬性的關聯規則。例如:對未來經濟形勢的判斷。

2.5 偏差分析

數據庫中的數據存在很多異常情況,偏差是對差異和極端情況的描述,發現數據庫中數據偏離常規的異常現象,揭示內在原因。例如:在本次數學測試中有30%的同學不及格,教師為了提高教學質量,就要找出這30%不及格同學的內在因素,提高及格率。

3 數據挖掘的流程

3.1 定義目標

為了避免數據挖掘的盲目性,首先就必須清晰地定義出業務問題,確定數據挖掘的目標。挖掘的目標明確了,但結果是不可預測的。

3.2 數據準備

1)數據選擇。在大型數據庫和數據倉庫目標中搜索有關的內、外部數據信息,提取適用于數據挖掘的數據;

2)數據預處理。研究數據信息,進行數據的加工、集成等,去除重復的數據信息,選擇要進行數據挖掘的數據,并定義數據類型;

3)數據轉換。數據轉換決定數據挖掘能否成功,數據轉換就是將數據轉換成一個針對挖掘算法的模型。

3.3 數據挖掘

根據數據功能的類型和數據的特點完善和選擇合適的挖掘算法,對所得到的經過轉換的數據進行數據挖掘。

3.4 結果分析

解釋和評估數據挖掘的結果,最終轉換成用戶能夠理解的知識。

3.5 知識的同化

將分析所得到的知識集成到業務信息系統的組織結構中去。

4 數據挖掘的應用

4.1 數據挖掘技術在市場營銷中的應用

數據挖掘技術普遍應用于市場營銷中,假定“以往消費者的行為是未來消費者的消費理念的直接解釋”,以市場營銷學的市場細化原理為基礎。通過收集、整理消費者以往的消費信息為數據信息,總結消費者的特點及興趣愛好,根據不同的屬性分類,推測出類似消費群體的消費行為,對不同類的消費群體進行定向營銷,這樣降低了營銷的盲目性,節省了營銷成本,提高了營銷效率,為企業創造出更多的利潤。

在經濟發達國家和地區,許多企業都利用數據挖掘技術對數據信息進行加工處理,針對不同的消費群體,發出不同的營銷材料,以突出自己的競爭優勢,擴大產品的營業額。

4.2 數據挖掘技術在商業銀行中的應用

數據挖掘技術廣泛應用于金融界,金融事務搜索大量的數據信息,對這些數據進行加工處理,發現其特征,從而發現不同類別客戶的特點,評估其信譽,推測其需求。商業銀行所作業務的利潤與風險是并存的,為了保證最大利潤和最小風險,必須對客戶的賬戶進行科學精確的分析歸納。

美國銀行使用數據挖掘技術工具,根據不同消費者的特點制定不同的產品,增強其競爭優勢。

4.3 數據挖掘技術在醫學上的應用

數據挖掘技術在醫學上的應用相當廣泛,可以利用數據挖掘技術手段來提高從藥物的生產制造到醫療診斷等的效率和效益。在藥物生產方面,通過對藥物分子結構的分析,可以確定是什么成分對病患的治療發揮了作用,從而推測出該藥對什么病有治療作用;在醫療診斷方面,通過對基因的分析處理,可以確診是什么發生了病變,屬于哪種病毒等。

4.4 數據挖掘技術在欺詐甄別中的應用

銀行或者商業上經常發生欺詐行為,給銀行和商業單位帶來了不可估量的損失。通過數據挖掘可以對這種欺詐行為進行預測,總結各種詐騙的行為特征,提醒廣大人們注意。

5 結論

數據挖掘技術是一個全新的研究領域,每年都有新的數據挖掘方法和模型產生,隨著數據庫等技術的發展,數據挖掘技術的應用領域將會更加廣泛和深入。盡管如此,數據挖掘技仍然存在許多問題需要解決,尤其是超大規模數據挖掘的效率有待提高。

參考文獻

[1]李雄飛,李軍.Data Mining and Knowledge Discovery.數據挖掘與知識發現[M].北京高等教育出版社,2003.

第4篇

關鍵詞:客戶;電信市場;電信客戶細分;數據挖掘

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1674-7712 (2013) 24-0000-01

隨著通信市場競爭日趨激烈,電信客戶的通信需求和消費理念都發生了顯著的變化。為滿足客戶的應用需求、提升市場競爭力,就必須將當代通信服務由以產品為導向以客戶需求為導向轉變,通過建立客戶數據庫,對客戶的類別屬性、消費類型以及消費傾向等進行分析。數據挖掘技術是一種大數據環境下的數據分析方法,其可以在海量數據中建立一種內在的聯系,基于該聯系對客戶進行細分,協助企業制定更具價值的認知體系和決策規則。

一、電信客戶細分特點

客戶細分包括客戶描述與劃分兩部分內容。前者主要是提取可用于描述客戶的特征和屬性,以便于可應用該描述內容對客戶行為模式進行預測和評估。后者主要是對經過特征化后的客戶進行類別劃分,使具有共同類別與特點的用戶歸入同一類別,以便于增強服務和營銷的針對性與有效性。對客戶進行細分可以調整資源分配結構,滿足商業目的,對不同類型的客戶指定不同的營銷策略。

電信市場是典型的以客戶為中心的消費市場,對該市場客戶進行細分可以提升企業爭取新客戶、保留老客戶、維護現有客戶價值、拓展企業市場份額與經濟效益的目的。

總結來看,電信客戶細分中需要從以下幾方面特征出發:一是電信客戶消費具有持續性,為維系客戶關系,就需要以該特征為著力點;二是電信客戶消費層次和類別更為明顯,如電信企業的客戶分為具有較強穩定消費能力的集團用戶和消費能力差別較大的個人用戶;三是客戶自身特點占據的權重較大,如客戶的消費習慣、個人價值、品牌忠誠度、人際關系等。

二、數據挖掘技術及其在電信客戶細分中的應用特點

數據挖掘技術本質是借助大量的知識體系和數據分析技術對海量、無序的數據信息進行整合與關聯建立,從中提取可有效反映數據內部規律和模式,并依照所總結出來的規律與模式對未來的發展情況進行預測與評估,幫助決策者制定更有效的執行策略。

傳統的電信客戶細分方法主要使用資料調查或客戶價值分析等兩種,前者具有較少的細分維度,調查結果更易理解和應用,但是受調查樣本數量的限制,其結果的可靠性和有效性有待進一步確認;后者操作簡單,對于高價值電信客戶細分具有良好的應用效果,但是在體現不同客戶、不同業務、不同消費結構差異性等方面存在一定的缺陷。

在電信客戶細分中應用數據挖掘技術可以有效利用企業發展過程中產生的大量數據進行多維度、多層面、多角度的客戶細分,并為細分結果提供高可靠性的理論支持。特別是數據挖掘技術中的聚類分析方法可以將客戶群按照電信企業最為關注的消費行為和消費價值進行細分,體現出不同客戶屬性之間的差異性,協助制定更加完備的營銷策略。基于數據挖掘的電信客戶細分可以分為戰略細分和策略細分兩類。前者主要是對客戶特征進行分析與研究,從中查找適當的營銷機會;后者主要是對營銷活動進行分析與研究,為其選取最佳的目標人群。

三、基于數據挖掘的客戶細分模型分析

(一)細分模型設計

細分模型應該包括三部分內容,即客戶部分、市場部分、營銷部分。

客戶部分可進一步細化為客戶分類和客戶分析兩類。客戶細分中應該從客戶消費習慣、消費種類、消費頻度、消費結構、消費模式等建立模型,以便于電信企業依照這些特征對已有客戶的收益率、新客戶的定位、現存客戶與流失客戶特征等進行定義。客戶分析模型則需要包括客戶的行為、關系、價值屬性、利潤率、忠誠度以及業務量等內容,通過這些內容,電信企業可以對現有的營銷進行效果分析。

市場部分主要體現為市場預測與市場總結等內容。建立可靠、客觀的市場模型可以幫助企業制定更精準、分類更清晰、目標性更強的市場策略,并依照所架構的市場模型對用戶行為進行解釋,對未來用戶的行為趨向進行預測。

營銷部分可進一步細化為輔助營銷、定向服務以及價格定位三部分。輔助營銷模型可以針對特定的客戶群使用特定的手段進行分析與研究,進而開拓更具針對性的銷售渠道和宣傳策略,充分滿足客戶的消費需求,在維持現有客戶關系的基礎上提升客戶價值,拓展客戶量。定向服務則是充分聽取客戶的消費需求,制定差異化服務策略,提供全方位、高質量定制服務。價格定位則是對客戶的價格敏感度建立模型并深入分析。

(二)電信客戶細分中的數據挖掘技術

目前,電信客戶細分中所使用的數據挖掘技術主要分為分類、聚類以及統計分析三類。

分類可以依照預先制定的規則制定清晰的分類標準,并依照該標準對客戶進行歸類,生成預測模型。分類可以有效反映同類客戶中的同屬性知識特征和不同客戶中的差異性知識特征,其具有非常強的預測性、指導性和方向性。常用的分類數據挖掘算法有神經網絡法、決策樹法、貝葉斯法以及示例學習法等。

聚類則是在海量的數據中對客戶屬性進行歸納與總結,將分析對象依照共同的特征分為多個簇,然后再在簇中進行特征提取,生成聚類標準,依照該標準對不同用戶進行分類、對不同簇進行更新。該技術無需指導和事先規則的制定。常用的聚類數據挖掘算法有神經網絡法、模糊聚類法、統計聚類法等。

統計分析則是直接對客戶進行分群或輔助其他數據挖掘技術共同實現電信客戶細分。其以一定的方法從數據庫中提取樣本,并對這些樣本進行行為、地域、年齡、需求等進行差異性分析,輔助其他數據分析與處理技術即可實現客戶的細分。常用的統計分析方法有交叉分析、相關分析、顯著性分析、因子分析等。

參考文獻:

[1]蔡寧.基于數據挖掘的電信客戶細分研究[D].江西理工大學,2008.

[2]許昌加,高陽.數據挖掘在電信客戶細分中的應用研究[J].成組技術與生產現代化,2004(21):43-46.

第5篇

關鍵詞:數據挖掘; 醫保;關聯規則;聚類;分類;序列模式

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)05-0880-03

Review of Data Mining Application in Medical Insurance in Our Country

FENG Li-yun

(Software College of Jiangxi Normal University, Nanchang 330022, China)

Abstract: Using data mining method to study the data of growing health care in our country is not a lot, but has a certain research. In this paper, the application of data mining in the field of health care are summarized from the association rules discovery, data clustering, classification knowledge discovery, sequential pattern discovery, and other data mining methods are reviewed in the Medicare application areas. Finally, look into the future of application of data mining in health care field.

Key words: data mining; Health care; Association rule; clustering; classification; sequence pattern

醫療保險是我國社會保障制度的重要組成部分,是關系百姓切身利益的一項民生工程。醫療保險自1998年開始在我國實施,經過十多年的發展和不斷完善,目前大部分人民已經可以享受醫療保險的優惠政策。隨著經濟的發展及互聯網的普及,信息技術已經逐步滲透到醫藥行業中,醫保信息系統的應用就是醫藥信息化的一個典型。醫保信息化在給我國醫保政策的管理和實施帶來了很多便利的同時,龐大的數據壓力也成為一個有待解決的問題。數據挖掘是一種從數據庫中抽取和識別出有效的、新穎的、可理解的、事先不為人知的但又潛在有用的模式或知識的過程或技術,這種技術為我們的決策和管理帶來很多便利。近年來,關于數據挖掘技術在醫保信息系統中的研究運用與日俱增,該文對這些研究從研究方法進行了概括分析,介紹了數據挖掘在醫保行業的已有成果和具有代表性的方法,并對未來的發展作了展望。

1 關聯規則發現

Apriori算法是一種挖掘關聯規則的頻繁項集算法,其核心思想是通過候選集生成和情節的向下封閉檢測兩個階段來挖掘頻繁項集。算法已經被廣泛的應用到商業、網絡安全等各個領域。

文獻[3] 通過對醫院歷年醫保病人數據采用Apriori數據挖掘的方法,分析醫保費用與相關因素間的規則,得出醫保費用分析的規則集。該規則集顯示與醫保病人費用關聯最大的是特定出院科室和住院天數這兩因素的組合。文獻[1]針對醫保基金運營過程中出現的就醫聚集行為,提出基于頻繁模式挖掘的一致行為挖掘算法CBM,實驗表明該算法比Apriori和Eclat具有更好的性能,能有效檢測就醫聚集行為。文獻[2]對 Apriori 算法進行的具有針對性的改進,將改進的算法應用于醫保稽查工作中, 挖掘算法產生的規則可使稽查人員重點稽查該規則所指向的醫保行為, 極大的提高了醫保稽查工作的效率。文獻[4]對社會醫療保險基金收支情況進行了研究,在建立數據倉庫時選用維度建模方法建立星型模型,重新組織了來源數據的

結構關系;數據挖掘階段選用Apriori算法并對其進行了改進,進行關聯規則挖掘。文獻[7]在深入分析研究了經典關聯規則Apriori算法的基礎上提出并實現了關聯規則生成算法,通過實驗對Apriori經典算法和關聯規則算法進行了算法效率的分析比較。將改進的關聯規則算法應用于某礦業集團的醫療保險數據中,為礦業集團完善醫療保險制度提供了很好的輔助決策支持。文獻[27]針對OLAM兼有0LAP多維分析的靈活性、在線性和對數據挖掘的深入處理數據等特點,在醫療保險系統中設計并實現了OLAM應用模型。該模型使用浙江省某市醫療保險數據庫中2005年的醫保數據,建立了以醫療保險費用和診斷項目為主題的數據倉庫,從多維角度分析數據倉庫中的數據,并且運用了Apriori算法挖掘出一些潛在的關聯規則例如人們特別關注的“騙保”行為,為醫療決策提供科學有效的依據。

FP的全稱是Frequent Pattern,在算法中使用了一種稱為頻繁模式樹(Frequent Pattern Tree)的數據結構。FP-tree是一種特殊的前綴樹,由頻繁項頭表和項前綴樹構成。FP-Growth算法基于以上的結構加快整個挖掘過程。

文獻[8]將FP-growth算法用于基本醫療保險數據的挖掘,根據課題特點提出了自動確定最小支持度的增量式FP-growth挖掘算法,并用實驗驗證了改進算法的有效性。文獻[5]通過對醫療保險信息系統的數據倉庫的設計、數據的整合以及數據挖掘的技術分析,實證研究關聯規則挖掘算法在醫保信息挖掘的可能性與必要性。利用編碼、解碼技術和SQL的聚集函數,實現基于SQL的FP-Growth算法,該算法突破機器內存對數據挖掘的處理效率問題,實現了對海量數據挖掘的高效挖掘。

文獻[6]基于數據倉庫和數據挖掘技術,經過大量重復的數據清洗工作,從醫院信息系統數據庫中抽取三個醫保年度的數據,建立醫保費用數據倉庫和相應的多維數據模型。對建立的多維數據模型采用關聯規則的數據挖掘算法進行挖掘分析,得出結論

文獻[9]以廣州市某大型三甲醫院的信息系統為主要數據源,其后臺數據庫系統采用 SQL SERVER 2008。建立醫保費用分析的數據倉庫,采用關聯規則的數據挖掘算法進行挖掘分析。

2 數據聚類

聚類就是將數據項分組成多個類或簇,類之間的數據差別應盡可能大,類內的數據差別應盡可能小,即為“最小化類間的相似性,最大化類內的相似性”原則。聚類算法有劃分法、層次法、基于密度、網格、模型的方法。其中,劃分聚類法比較有代表性,文獻[10]在分析了模糊數據挖掘的相關概念和技術的基礎上,使用模糊聚類方法進行醫療保險子系統的劃分,給出了劃分結果,并且將模糊數據挖掘應用到醫療保險系統中,是數據挖掘技術在醫療保險領域應用的一次嘗試;文獻[11]以貴陽市醫療保險業務為背景,研究運用 O-Cluster 算法,構建數據挖掘模型并對模型進行解釋,反映數據間隱含的聯系。文獻[17] 使用K-均值、K-中心點、Ward等幾種聚類算法分析了醫保評估模型,并對幾種聚類方法進行了比較,實驗證明Ward聚類算法成簇效果佳,用戶容易理解。文獻[14]分析了數據挖掘和模糊數據挖掘的相關概念和技術,開發設計了B/S架構的醫療保險系統,在此基礎上嘗試使用模糊數據挖掘技術進行醫療保險子系統的劃分,給出劃分結果。文獻[18]使用基于凝聚層次聚類(hierarchieal clustering)的ward方法、K-Means和K一中心點對醫保參保人進行聚類,在此之后對得出的聚類模型從健康和經濟狀況兩方面進行了評估。

3 分類知識發現

分類就是構造一個分類函數,把具有某些特征的數據項映射到某個給定的類別上,分類方法可分為單一分類算法和組合單一分類算法。單一的分類方法主要包括:決策樹、貝葉斯、人工神經網絡、K-近鄰、支持向量機和基于關聯規則的分類等;另外還有用于組合單一分類方法的集成學習算法,如Bagging和Boosting等。

主要的決策樹算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等。它們在選擇測試屬性采用的技術、生成的決策樹的結構、剪枝的方法以及時刻,能否處理大數據集等方面都有各自的不同之處。文獻[12]利用決策樹C4.5挖掘算法對醫療保險系統數據進行分析,找出影響就醫公平的關鍵因素,輔助決策者進行政策參數的最優化設置。通過數據準備、歸納決策樹、決策樹剪枝、抽取規則等步驟得出住院費用是決定人員就醫壓力的最重要因素。文獻[13]使用決策樹算法及SQL Server 2005中包含的一種混合的決策樹算法分析研究了某市的基本醫療保險數據樣本,找出隱含的有效信息,并在此基礎上提出了完善基本醫療保險的對策建議。文獻[32]使用決策樹、神經網絡等分類算法分析了我國某市的數據挖掘樣本,以此作為醫療保險監管部門對各參保單位的賬戶進行考察的依據。

4 序列模式發現

序列挖掘或稱序列模式挖掘,是指從序列數據庫中發現蘊涵的序列模式。最早是由Agrawal等人提出的,它的最初動機是針對帶有交易時間屬性的交易數據庫中發現頻繁項目序列一發現某一時間段內客戶的購買活動規律。

文獻[15]將序列模式挖掘算法與醫療保險數據庫結合起來,將基于周期時間約束的序列模式挖掘算法應用與醫療保險數據庫中。在分析基于約束序列模式挖掘算法的基礎上,重點研究了基于時間粒度的挖掘算法PCSmine,并修改優化了算法中的HP.CSB數據結構,使用neucleaning算法預處理醫療保險數據庫,實驗表明算法提高運行效率。文獻[16]首先利用數據抽取、轉換及裝載工具獲取有效數據,通過建立多維模型,運用數據分析和數據挖掘方法生成各種報表及圖形,建立了智能醫院醫保業務決策支持系統架構和數據倉庫模型。文中使用第309醫院2007、2008和2009三個年度的各科室月度醫保病人總費用來預測2010年1月的科室醫保病人總費用。采用SQL Server 2008中的時序分析方法來進行數據挖掘。SQL Server 2008 Analysis Services中的時間序列分析使用的算法是決策樹算法的特例。在文獻[17] 采用自動回歸整合移動平均ARIMA(AtoRegression Integrated Moving Average)模型,建立醫保結算費用預測模型,實現對醫保結算總費用的預測,并能詳細到各區縣、各級別醫院醫保結算費用的預測,為醫保基金監管提供方向。文獻[32]應用了幾種數據挖掘的算法分析了我國某市的數據挖掘樣本,使用時序算法對各參保單位的賬戶使用情況進行回歸以及預測,以此作為醫療保險監管部門對各參保單位的賬戶進行考察的依據。

5 其他應用

以下為數據挖掘在社會醫保方面的一些研究及應用。一般結合數據倉庫,一并分析。

文獻[19]基于動態數據倉庫和SOA技術,利用數據挖掘分析技術,針對影響基金管理中的主要環節和基金運行中的風險的主要因素,建立醫保基金風險防控基礎技術平臺,對防范和化解基金風險起到支撐作用。

文獻[20]基于一個醫保基金風險防控平臺數據倉庫的構建過程,提出一套適應該平臺變化需求的元數據管理解決方案,分別從數據源層、數據倉庫、分析應用層、ETL過程幾方面對元數據進行了分析,探討了其中元數據集成方案和管理功能的設計。

文獻[21]試著應用數據挖掘技術發現醫保系統中有用的模式和規則構建現代醫院信息平臺。經過數據預處理、數據準備、數據挖掘、評估所得到的模式模型知識、發現知識的鞏固與運用等過程構建了基于數據挖掘技術的現代醫院信息平臺。

文獻[22]首先闡述了在醫療保險管理上面臨的一些問題,針對這些問題采用數據倉庫(DW)與數據挖掘(DM)技術,對醫保系統、HIS 系統歷史的、現在的數據進行過濾、整合、存儲以分析使用病提出了相應的實施方法。

文獻[23]從采集醫療保險數據信息、建設數據倉庫、以及最后的開發和利用三方面進行闡述,探討在醫療保險管理中數據信息的價值和功能,以及在計算機系統建設過程中應注意的問題,旨在為醫療保險計算機管理系統的建設提供參考意見。

文獻[24]用powerbuilder開發工具的分布式對象實現三層結構式的醫保數據傳輸;定點醫療機構的客戶端通過互聯網訪問應用服務器上的數據傳輸服務端,醫保數據庫服務器設置為不能訪問互聯網,也不能被互聯網訪問。應用三層結構式可以安全地傳輸醫保數據。

文獻[25]利用商業智能工具實時提取數據,并建立分析模型及各種分析統計結果的圖形和報表。 首先是對醫保數據進行預處理,使醫保數據屬性更完整;然后,利用商業智能系統的ETL功能對數據進行清洗并對原醫保中心導出來的數據與南方醫院原HIS 系統導出來的相關數據,進行自動的配備、核算和查找;最后,再次用商業智能系統對上面形成的患者數據建模分析。此系統實現了對醫保中心數據和醫院數據庫數據的自動化的抽取、匹配,并對醫保收入和工作量、醫保患者費用等進行了多維度、多角度的靈活統計和分析。

文獻[26]通過對醫療保險系統數據的分析,建立相應的數據模型,為醫療保險系統提供決策支持依據。通過數據挖掘方法為醫療保險系統建立了數據倉庫,利用單因素方差分析方法進行數據結構設計,并對其進行分析和研究。這里以醫院的綜合實力作為方差分析的因素,即影響住院費用的因素。

文獻[28]社會醫療保險是社會保險中最復雜的一個險種,醫療保險資金管理的一個關鍵因素就是在個人、單位繳納金額和個人享受保險待遇的設定之間構建一種平衡。數據挖掘是信息社會廣泛應用的一門技術,我國醫療保險正處在改革的過程中,利用數據挖掘的分類技術對醫療保險的數據進行分析處理,能夠更好的把握醫療改革的方向,為醫療保險的決策提供科學有效的依據。

文獻[33]以美國 Ox International 公司的醫療保險業務為背景,在已開發的信息系統基礎上,提出了面向分析的數據倉庫與數據挖掘的解決方案。該方案從決策角度出發,建立多維數據模型,將系統中的歷史數據加以處理,并有組織的存放到數據倉庫中。在此基礎上,利用OLAP 和數據挖掘技術,對數據倉庫中的數據進行各種復雜分析。文件[29]亦是。

文獻[30]首先描述了數據挖掘可用于醫療保險行業的關鍵技術現狀,其次闡述了數據挖掘技術在醫療保險行業中應用的國內外現狀和基于數據挖掘的決策支持系統研究現狀,最后進行了總結,討論和分析了在的醫療保險信息系統中應用數據挖掘技術的工作重點。

文獻[31]以貴陽市社會保障局醫療保險業務數據中城鎮居民統籌基金支付情況為目標,利用聚類分析法,通過搭建oracle 數據倉庫平臺,并在此平臺上進行主題數據倉庫構建與設計,進行聯機分析得出城鎮居民統籌基金支付情況。

除了以上的研究,目前國內還有些學者從數據挖掘的技術角度對醫保管理信息系統進行了實施,主要用到的技術有ETL、數據倉庫、OLAP等。

6 總結與展望

本文對數據挖掘技術在社會醫保方面的應用進行了分析和總結,分為關聯規則發現、數據聚類、分類知識發現、序列模式發現以及數據挖掘在醫保中的應用幾方面。

在醫保領域中數據挖掘技術的研究和應用主要包括數據挖掘技術與領域知識的結合和算法設計與改進兩個主要方面。隨著醫保基金風險防控的需求的不斷更新,可以發現更多的數據挖掘應用場景,將數據挖掘技術更廣泛地應用到醫保領域中。目前就診序列模式挖掘基于相似度的等長序列模式,可以研究擴展到不等長模式的挖掘;此外可以進一步提高一致行為模式挖掘的效率。

參考文獻:

[1] 何俊華,張靜誼,熊赟,朱揚勇.醫保就醫聚集行為挖掘[J].計算機應用與軟件,2011,28(7).

[2] 劉凱,趙躍龍.關聯規則挖掘在醫保稽查中的應用研究[J].科技信息,2007(33).

[3] 黃晶晶.數據挖掘技術在醫院醫保費用分析中的研究與應用[D].廣州:南方醫科大學,2009.

[4] 石萌.數據挖掘在醫療保險參保人員老齡化問題中的研究[D].貴州:貴州財經學院,2010.

[5] 簡偉光.數據整合與數據挖掘技術在醫療保險信息系統的研究與應用[J].實踐與經驗,2010.

[6] 朱彥華.醫保人群醫療費用的數據挖掘與分析[D].廣州:華南理工大學,2012.

[7] 梁愛琴.數據挖掘關聯算法在醫保系統中的應用[D].北京:北京工業大學,2008.

[8] 劉江超.數據挖掘算法在醫保數據上的應用研究[D].湖南:國防科學技術大學,2009.

[9] 朱彥華.醫保人群醫療費用的數據挖掘與分析[D].廣東:華南理工大學,2012.

[10] 王艷春,秦剛,陳毓.數據挖掘在醫保系統中的應用[J].長春理工大學學報,2007,30(2).

[11] 李納.社會保障體系中醫療保險的數據挖掘與聯機分析研究[D].貴州:貴州財經學院,2011.

[12] 張婧,王書海.C4.5算法在醫療保險數據挖掘中的應用研究[J].石家莊鐵道學院學報(自然科學版),2008,21(2). (下轉第901頁)

(上接第882頁)

[13] 李冉冉,盧仿先.決策樹算法在基本醫療保險中的應用研究[J].企業技術開發,2008,27(5).

[14] 秦剛.數據挖掘在醫保系統中的應用[D].吉林:長春理工大學,2006.

[15] 常帥.序列模式挖掘在醫療保險上的應用[D].河南:鄭州大學,2011.

[16] 林濟南.基于商務智能的醫院醫保業務決策支持系統的研究[J].計算機與現代化,2009,9.

[17] 高臻耀,張敬誼,林志杰,熊斌,朱揚勇.一個醫保基金風險防控平臺中的數據挖掘技術[J].計算機應用與軟件,2011,28(8).

[18] 何俊華.數據挖掘技術在醫保領域中的研究與應用[D].上海:復旦大學,2011.

[19] 秦德霖,高震耀.面向服務的上海醫保基金風險防控平臺的研究[J].計算機應用與軟件,2011,28(4).

[20] 王月,王偉俊,童慶,熊赟,朱揚勇.一個醫保數據倉庫的元數據管理解決方案[J].計算機應用與軟件,2011,28(8).

[21] 王順民.構建基于數據挖掘技術的現代醫院信息平臺[J].制造業自動化,2011,33(3).

[22] 張勇,趙峻,于冬.淺談醫保系統與醫院信息系統的數據挖掘[J].科學管理,2012,27(7).

[23] 王愛榮.淺析醫療保險數據信息的采集、開發和利用[J].中國衛生經濟,2004,23(1).

[24] 韋振錦,方華,成春艷.三層結構在醫保數據傳輸中的應用[J].廣西科學院學報,2007,23(4).

[25] 嚴靜東,張才明.依托商業智能系統的醫院醫保費用分析[J].醫院數字化,2009,30(4).

[26] 王春才,韓貴東,楊玉東,李英韜,張羽醫.保數據倉庫的單因素方差分析與應用[J].長春理工大學學報(自然科學版),2007,30(4).

[27] 張良燕,龔衛華,黃德才,劉端陽.OLAM技術在醫療保險系統中的應用研究[J].2007,35(5).

[28] 石萌.分類模型在社會醫療保險中的應用研究[J].科技與生活,2010,3.

[29] 董韌毅.基于數據倉庫的醫療保險信息決策支持系統研究[D].江蘇:南京航空航天大學,2008.

[30] 萬芳.論數據挖掘在醫療保險決策支持中的應用[J].科技創業家,2011.

[31] 張莎莎,李偉.數據挖掘在城鎮醫保中的應用[J].電腦知識與技術,2013,8.

第6篇

關鍵詞:數據挖掘;數據庫;預處理技術

中圖分類號:TP311.131

隨著計算機和互聯網的普及應用,由于其能夠提高工作的效率,非常受到人們的重視,一些企業甚至在計算機應用的基礎上,提出了無紙化辦公的理念,在實際應用的過程中,計算機需要存儲大量的數據,對于企業用戶來說,很多數據具有私密性,如果這些數據泄露出去,將會給企業的發展帶來嚴重的影響,甚至造成巨大的經濟損失。受到特殊的歷史因素影響,我國的經濟和科技起步較晚,與西方發達國家相比,存在較大的差距,雖然經過了多年改革開放的發展,我國已經成為了世界第二大經濟體,計算機的應用水平也有了很大的提高,但是在尖端的數據挖掘等領域中,研究的還比較少,而數據挖掘等技術,能夠在很大程度上影響數據的利用效率,對于實際的工作來說,具有非常重要的作用。

1 數據挖掘的預處理技術簡析

1.1 數據挖掘預處理技術的概念

數據挖掘技術是隨著數據庫的發展,逐漸形成的一門學科,在計算機出現的早期,受到其性能和體積的限制,能夠存儲的數據很少,不需要考慮數據的利用效率,但是隨著晶體管和集成電路的使用,計算機的性能得到了極大的提高,相應的存儲設備也有了很大的進步,計算機能夠處理的任務越來越復雜,存儲的數據越來越多,現在我國建成了多個大型數據存儲中心,存儲的數據量非常巨大。對于如此多的數據,如何篩選出自己想要的,成為了很大專家和學者研究的問題,在傳統的數據應用中,通常都是利用檢索技術,根據輸入的關鍵詞,在數據庫中進行逐個的匹配,如果數據庫的存儲量較小,檢索的效率就比較高,而對于現在的海量存儲來說,逐個匹配顯然需要很長的等待時間。數據挖掘的預處理技術,正是在這種背景下出現的,所謂預處理技術,就是在數據挖掘之前,對數據進行一定的整理,通常情況下,數據挖掘主要面對現有的數據庫或者互聯網上海量的數據,如果在數據庫中進行挖掘,那么可以對數據庫進行一定的修改,如完善數據分類的方式等,而在互聯網上進行數據挖掘,顯然就需要優化挖掘的方式,或者縮小數據挖掘的范圍等。

1.2 數據挖掘預處理技術的特點

與正常的數據挖掘技術相比,如何增加相應的預處理環節,無疑可以極大的提高數據挖掘的效率,如在數據庫中進行數據的挖掘,傳統的挖掘方式下,通常都是利用檢索技術,輸入指定的關鍵詞后,與數據庫中的信息進行對比,這樣逐條的進行檢索,就可以找到自己想要的數據,如果數據庫存儲的信息量較大,那么利用這樣的挖掘方式,顯然需要很長的等待時間。如果增加相應的預處理環節,如在數據庫中添加索引,對數據庫中的數據進行分類,那么在輸入相應的關鍵詞后,首先與索引進行匹配,然后在指定類別的數據中進行對比,這樣的方式,顯然極大的提高了數據挖掘的效率,目前使用的數據庫中,大多采用了這樣的預處理技術,取得了很好的應用效果。受到特殊歷史因素的影響,我國數據庫相關技術水平較低,目前我國建設的大型數據庫,都是與國外的技術公司合建的,通過實際的調查發現,現在我國還無法自主生產外部存儲設備,市面上的存儲設備,都是從外國引進的,但是在實際數據庫的建設中,在外國存儲設備的基礎上,我國也進行了大量數據挖掘等技術的研究。

1.3 數據挖掘預處理技術的發展

從某種意義上來說,數據挖掘技術是隨著互聯網和數據庫的應用,根據實際使用的需要,逐漸形成的一門技術,在互聯網發展的初期,網絡上的資源有限,而且受到計算機性能的限制,沒有太多的娛樂項目,只能瀏覽一些商業網站等,隨著計算機的普及應用,互聯網有了很大的發展,現在已經建成了覆蓋世界范圍的因特網。據最新的統計調查表明,我國的網民數量已經超過了6億,如果龐大的用戶群體,為我國互聯網的發展,提供了堅實的基礎,但是通過實際的調查發現,我國的實際網絡帶寬,還沒有達到世界平均水平,即使實際使用的網絡帶寬較低,我國互聯網內容的發展速度依然很快,現在網絡上出現了各種各樣的網站,極大的提高了網絡建設水平。在實際的網絡瀏覽中,面對如此大的信息量,如何找到自己想要的信息,成為了一個實際問題,為了解決這個問題,出現了搜索引擎,只要輸入相應的關鍵詞,搜索引擎就可以很快的找到大量相關內容,然后進行必要的篩選,就能夠得到相應的數據,但是隨著互聯網內容的豐富,除了傳統的文字信息外,還有視頻和音頻等數據,如何在這些數據中,進行相應的挖掘工作,具有較大的難度。

2 影響數據挖掘預處理技術的因素

2.1 預處理的方式

在實際的數據挖掘過程中,能夠影響挖掘效果的因素有很多,如數據量的大小、挖掘方式等,從某種意義上來說,數據挖掘就是數據的查找,從指定范圍或者未知范圍內,找到指定的數據,通常情況下,數據挖掘都具有很強的目的性,但是對于找到數據的量,并沒有明確的要求,尤其是隨著互聯網內容的增加,現在的數據挖掘中,都會附帶大量的相關信息。對于數據挖掘的預處理技術來說,預處理的方式,能夠在很大程度上影響挖掘的效率,例如在一個一百條數據庫中進行挖掘,為了提高實際的效率,通常情況下會采用檢索的方式,根據輸入的關鍵詞,逐條的與數據庫的信息進行比對,這樣挖掘的效率具有很大的不確定性,如果要查找的數據排列比較考前,那么就需要很短的檢索時間,如果要查找的數據剛好在第一百條的位置,顯然就需要進行一百次匹配。如果采用索引的方式進行預處理,將這一百條數據根據自身的特點,分成十個類別,每個類別建立一個索引,那么在實際的匹配中,無論要查找的數據處于哪個位置,最多只需要十次匹配,就可以找到相應的數據,由此可以看出,預處理方式對于數據挖掘效率具有非常重要的影響。

2.2 數據量的大小

計算機經過了多年的發展,其自身的性能有了很大的提高,在實際的數據挖掘中,如果檢索的數據較少,即使不經過任何的預處理,仍然可以具有很高的挖掘效率,但是隨著數據庫自身的發展,企業用戶的數據庫容量越來越大,在數據庫中查找指定的數據,需要較長的時間,要想很好的解決這個問題,必須對數據挖掘的方式等,進行相應的優化。通過實際的調查發現,目前我國使用的數據庫,大多都是國外的技術公司設計的,為了方便數據庫的使用,大多采用了整體的外包,即軟件和硬件都是由同一家公司提供,采用這樣的方式,不但能夠很好的解決軟件和硬件之間不兼容的問題,同時可以提供優質的軟件服務。目前市面上的數據庫,大多對數據挖掘技術進行一定的優化,如增加索引環節等,通過這些技術的使用,很好的提高了實際的挖掘效率,但是這些預處理技術,并沒有考慮到數據量的大小,如一些大型的數據庫中,要想建立索引機制,本身就需要很長的時間,雖然在建立索引后,就可以直接的使用,即使數據庫中發生變化,也不需要重新建立,只要根據數據的情況,將其存儲到指定的分類中即可。

2.3 操作人員自身的素質

對于實際的數據挖掘工作來說,操作人員自身的素質,也可以在很大程度上影響挖掘的效率,經過了多年的完善,數據挖掘技術已經成為了一門單獨的學科,計算機專業的學生,要進行相應知識的學習,但是通過實際的調查發現,現在的數據挖掘主要針對互聯網上的內容,而互聯網日新月異的發展,給數據挖掘帶來了很大的難度。在這種背景下,如果沒有足夠的工作經驗,顯然很難完成相應的數據挖掘工作,因此剛畢業的大學生,數據挖掘的效果較差,即使能夠完成相應的工作,也需要較長的時間,雖然這些學生在學校中,能夠學習到大量的數據挖掘知識,為了提高教學的效果,老師還會講解一些數據挖掘的實例,但是實際挖掘中,具有很多的不可控因素。如果操作人員具有豐富的數據挖掘經驗,在實際的工作中,必然會總結一些相應的技巧,這些技巧的使用,可以在一定程度上縮短挖掘的時間,提高數據挖掘的準確性,對于數據挖掘工作來說,具有非常重要的作用,從某種意義上來說,數據挖掘的預處理技術,指的就是這些從實踐中總結出來的技巧,然后進行科學、系統的分析,應用到實際的挖掘中。

3 我國數據挖掘預處理技術應用中存在的問題

3.1 沒有意識到預處理技術的重要性

在傳統的數據挖掘中,由于數據庫自身的容量較少,采用檢索的方式,就可以輕松的找到想要的數據,因此不需要預處理技術,隨著數據庫自身的發展,計算機的性能也有了很大的提高,在很長一段時間內,硬件的發展速度都要領先于軟件,因此數據檢索具有很高的效率,近些年互聯網的普及應用,在很大程度上改變了這種現象,尤其是云計算等理念的出現。在互聯網海量數據中進行挖掘,依靠單獨的計算機,很難具有較高的效率,在這種背景下,如何優化數據挖掘技術,成為了很多專家和學者研究的問題,預處理技術就是根據實際工作的需要出現的,受到特殊的歷史因素影響,在數據庫的建設等方面,我國要落后西方國家很多,雖然近年來我國投入了大量的人力和物力,研究數據挖掘等技術,但是并沒有取得明顯的效果。正是受到自身技術水平的限制,使得我國數據建設中,對數據挖掘的預處理技術,沒有足夠的重視,導致很大數據庫中,還采用傳統的檢索等方式,沒有任何的預處理技術,在很大程度上影響了數據挖掘的效率,雖然一些數據庫中集成了相應的功能,但是通過實際的調查發現,在實際使用的過程中,并沒有啟用相應的功能。

3.2 沒有針對性的預處理方式

由于現在的數據挖掘,主要針對互聯網上海量的數據,而互聯網上的數據非常復雜,尤其是近些年網絡的發展,出現了文本、視頻、音頻等各種各樣的信息,在這些信息中進行數據的挖掘,顯然具有較大的難度,而且互聯網的數據量較大,即使借助相應的搜索引擎,依然需要很長的挖掘時間,對于現在使用的一些數據挖掘預處理技術,只有在一些特定的情況下,才能夠發揮出一定的作用。數據挖掘預處理技術出現的時間較短,目前還沒有形成統一的認識,不同學者根據實際工作的需要,提出了不同的預處理方式,通過實際的調查發現,這些預處理方式的應用,都具有一定的局限性,在特定的數據挖掘中,可以明顯的提高挖掘的效率,但是對于其他數據的挖掘,就無法起到相應的作用。受到我國數據挖掘技術水平的限制,并沒有意識到這點,在實際數據挖掘的工作中,通常都是隨意的采用預處理方式,這樣顯然無法最大成都上提高數據挖掘的效率,有時候反而會降低工作的效率,目前西方發達國家的數據挖掘預處理中,都會根據每次工作的實際情況,針對性的設計一個預處理的方式。

4 數據挖掘的預處理技術應用措施

4.1 重視數據挖掘的預處理技術

考慮到我國的數據庫建設中,很多都沒有采用相應的預處理技術,在很大程度上影響了數據挖掘的效率,要想很好的解決這個問題,必須對預處理技術給予足夠的重視,在數據庫的設計時,就對預處理的方式等進行考慮,如果是購買的數據庫服務,那么就要根據自身的實際情況,對預處理技術提供一定的要求,這樣可以極大的提高挖掘的效率。通過實際的調查發現,西方國家的預處理技術水平之所以比較高,主要就是由于其重視,在實際的挖掘工作中,對于能夠提高工作效率的所有細節進行完善,并總結相關的經驗,方便下次的使用,正是這種供求雙方的重視,使得西方發達國家的預處理技術快速的發展。我國要想提高自身的數據挖掘預處理技術,必須根據自身的實際情況,借鑒外國一些先進的經驗,最大程度上完善預處理技術,要想達到這個目的,首先應該提高對預處理技術的重視程度,無論是實際的操作人員,還是管理人員和開發人員,都應該重視預處理技術的應用,然后從自身的工作角度出發,對其進行一定的完善。

4.2 提高工作人員自身的素質

數據挖掘預處理技術的應用,需要實際的操作人員,而不同工作人員,由于自身經驗等不同,工作的效率會有一定的差距,如剛畢業的大學生,即使在學校中的成績較好,掌握了足夠的預處理知識,還是無法很好的完成相應的工作,尤其是近些年信息技術的發展,互聯網上海量數據的挖掘,具有很大的難度。而且不同數據的挖掘,預處理方式等也應該具有一定的差異,通過實際的調查發現,目前我國的數據挖掘工作人員自身的素質普遍較低,無法根據實際的工作情況,針對性的選擇一種預處理方式,在很大程度上影響了挖掘的效率,要想很好的解決這個問題,必須提高工作人員自身的素質,在實際的招聘過程中,盡量聘請一些具有豐富經驗的人員。對于現有的工作人員,可以通過定期培訓等方式,讓其了解到最新的數據挖掘理念,以及預處理技術的重要性等,如果條件允許,還可以與一些先進的企業進行交流,學習先進的預處理技術,這樣在提高預處理技術水平的同時,還可以對數據庫的其他的技術,進行一定的優化。

4.3 采用針對性的預處理方式

經過了多年的發展和完善,數據挖掘的預處理技術已經非常普遍,目前的很大數據庫建設中,都會采用預處理技術,甚至在日常的數據搜索中,也開始使用預處理技術,但是通過實際的調查發現,根據實際需要數據的不同,數據挖掘的環境、方式等會具有較大的差異,而這些條件的變化,必然需要不同的預處理方式。而目前我國的數據挖掘中,顯然還沒有意識到這點,為了提高實際的工作效率,雖然會采用一定的預處理方式,但是預處理的方式,并不會根據數據挖掘的不同,進行針對性的變化,沒有真正的達到預處理的目的,在一些特殊的數據挖掘中,由于預處理方式的不當,甚至會降低工作的效率。由此可以看出,在實際的數據挖掘中,預處理方式的重要性,要想最大程度上提高工作的效率,必須采用針對性的預處理方式,對目前已有的預處理方式進行總結、分類,根據需要數據的情況,針對性的選擇,如果人員的自身素質較高,還可以設計一個新的預處理方式,以此來最大程度上提高數據挖掘的效率。

5 結束語

通過全文的分析可以知道,隨著近些年計算機和互聯網的普及應用,數據的挖掘、存儲、調用等技術越來越重要,受到特殊的歷史因素影響,我國科技起步較晚,與西方發達國家相比,在數據挖掘等領域中,具有明顯的差異,雖然經過了多年改革開放的發展,這種差距在逐漸的減小,但是很難在短時間內趕上發達國家的技術水平,在這種背景下,要想快速的提高我國數據挖掘預處理技術,必須結合我國數據挖掘的實際情況,借鑒西方國家先進的經驗,完善目前的預處理技術。

參考文獻:

[1]鄭繼剛,謝芳.多媒體圖像挖掘的關聯規則挖掘[J].紅河學院學報,2009(05):44-47.

[2]謝邦昌,李揚.數據挖掘與商業智能的現況及未來發展[J].統計與信息論壇,2008(05):94-96.

[3]林建勤.數據挖掘主要問題的對策研究[J].貴陽學院學報(自然科學版),2007(02):1-4.

[4]陳娜.數據挖掘技術的研究現狀及發展方向[J].電腦與信息技術,2006(01):46-49.

[5]李菁菁,邵培基,黃亦瀟.數據挖掘在中國的現狀和發展研究[J].管理工程學報,2004(03):10-15.

[6]鄭斌祥,杜秀華,席裕庚.一種時序數據的離群數據挖掘新算法[J].控制與決策,2002(03):324-327.

[7]臧洌.人工神經網絡在混沌觀測時序數據處理中的應用[J].數據采集與處理,2001(04):486-489.

第7篇

[關鍵詞] 數據挖掘;名老中醫;經驗傳承

名老中醫是中醫藥學術發展的杰出代表,是聯系傳統和實現中醫發展的靈魂,名老中醫經驗的總結和傳承不僅能豐富中醫學的理論體系,還能為中醫藥學術進步產生巨大的推動作用,也是培養造就新一代名中醫的重要途徑之一。因此,總結名老中醫的臨床經驗、用藥規律和學術思想,對中醫藥的薪火相傳具有重要的理論意義和應用價值,也是中醫藥創新發展的源泉。數據挖掘(data mining,DM)又稱數據庫知識發現(knowledge discover in database,KDD),是指從數據庫的大量數據中揭示出隱含的、未知的并有潛在價值的信息的非平凡過程。采用數據挖掘技術對名老中醫學術思想和臨證經驗進行研究,可以全面解析其中的規律,分析名老中醫個體化診療信息特征,提煉出臨證經驗中蘊藏的新理論、新方法、新知識,實現名醫經驗的有效總結與傳承。自從基于信息和數據技術的名老中醫臨床診療經驗研究思路提出以來,利用多種數據挖掘技術對病案進行分析的研究報道與日俱增,在名老中醫經驗傳承領域發揮著重要作用[1-3]。本文中,筆者結合多年從事數據挖掘研究的經驗與體會,并借鑒國內同行的相關研究成果,對數據挖掘在名老中醫經驗傳承研究中的應用進行論述,希冀為數據挖掘方法在名老中醫經驗傳承領域的進一步深入應用提供參考。

1 名老中醫經驗傳承研究中數據挖掘方法的應用

1.1 關聯規則 關聯規則(association rules)是從大量的數據中挖掘發現項集之間有意義的關聯,并尋找給定的數據集中項之間的有趣聯系的一種算法。常用的關聯規則算法包括Apriori算法、FP-樹頻集算法等 [4-6]。吳榮等采用關聯規則算法對名老中醫治療冠心病的用藥規律進行數據挖掘。結果顯示,治療冠心病處方中最常用的中藥是丹參、瓜蔞、川芎,最常用的方劑是瓜蔞薤白類方、活血通脈劑及生脈散[7]。劉曉怡等采用關聯規則方法對李佃貴教授辨治慢性萎縮性胃炎醫案進行數據挖掘,得出李佃貴教授診治慢性萎縮性胃炎最常用的藥物是茵陳、黃連[8]。田琳等采用關聯規則算法對名老中醫診療眩暈病辨證思維模式進行數據挖掘,得出眩暈病的證候多為風陽上擾、肝腎陰虛、痰濁上蒙、肝腎陰虛、氣血兩虛等,病因病機多為虛、風、痰、瘀等,發病與肝、腎、脾三臟關系密切[9-10]。筆者采用關聯規則方法對國醫大師顏正華教授治療胃脘痛用藥規律進行數據挖掘,得出顏正華教授在治療胃脘痛過程中常用藥物為陳皮、佛手、香附、白芍、煅瓦楞子、赤芍、當歸、丹參等,使用頻率前3位的藥對是佛手、陳皮,陳皮、香附,佛手、香附[11-12]。作為在名老中醫處方規律研究中使用最廣泛的數據挖掘算法,關聯規則具有明顯的優點,如它可以產生清晰有用的結果,支持間接數據挖掘,可以處理變長的數據等。但是,關聯規則也有其不足,如計算量增長相當嚴重,難以決定正確的數據,容易忽略稀有的數據等。

1.2 貝葉斯網絡的應用 貝葉斯網絡(Bayesian network)是一種以貝葉斯公式為基礎的概率網絡,是一個有向無環圖,由代表變量結點及連接這些結點的有向邊構成。貝葉斯網絡可以將具體問題中復雜的變量關系在一個網絡結構表示,通過網絡模型反映問題領域中變量的依賴關系[13]。吳榮等利用貝葉斯網絡技術對名老中醫治療冠心病辨證規律進行數據挖掘,提取出名老中醫診療冠心病、心絞痛的8個證候要素[14]。須義貞等采用貝葉斯網絡和方劑智能分析軟件對沈仲理教授診療子宮肌瘤醫案進行數據挖掘,得出沈仲理教授診療子宮肌瘤善用活血化瘀、清熱軟堅法,常用治療藥物包括三棱、莪術、丹參、半枝蓮、蚤休等[15]。貝葉斯網絡具有分類、聚類、因果分析等功能,面對大規模數據有其獨特的優勢,具體包括:①學習機制高效靈活,可發現潛在的有用的模式或者聯系,實現對數據實例的分類、聚類、預測;②語義清晰,易于理解和接受,具有良好的預測能力;③有效避免對數據的過度擬合;④貝葉斯網絡可將先驗知識、樣本,主觀、客觀有機結合起來,更加全面反映數據對象內在的聯系和本質[16-17]。

1.3 神經網絡的應用 人工神經網絡(artificial neural network,ANN ) 是由大量處理單位(即神經元,neurons)廣泛連接而成的網絡,是人工建立的以有項圖為拓撲結構的動態系統,通過對連續或斷續的輸入作狀態響應而進行信息處理[18]。陳肇文利用人工神經網絡建立名老中醫中醫方劑系統和中醫方證醫學診療系統,可在線根據患者癥狀自動進行處方[19]。白云靜等利用人工神經網絡技術開展中醫證候非線性建模研究,在充分辨識證候表征信息的基礎上,建立證候與癥狀之間的非線性映射函數[20]。陸萍等基于面診的證素辨證建立面診-證素辨證神經網絡,對64個病例進行證型辨別,結果表明,神經網絡模型構建的中醫面診系統能根據樣本值對網絡構造和訓練,證型辨證結果準確率比較高,是可行的[21-23]。作為最常用的數據挖掘方法之一,神經網絡具有很強的非線性擬合能力,可映射任意復雜的非線性關系,而且學習規則簡單,便于計算機實現,具有很強的魯棒性、記憶能力、非線性映射能力以及強大的自學習能力。

1.4 決策樹算法的應用 決策樹(decision tree)模型是一種自上而下的預測模型,其基本運算原理屬于分類規則,也就是說每個決策或者事件都能引出2個或者多個事件,繼而產生不同的后果,這種決策分支的圖像就像一棵樹的枝干,稱其為決策樹。決策樹以樣本的根節點開始,如果樣本在同一個類,則該結點為樹葉,算法選擇最有分類能力的屬性作為決策樹的當前結點,根據信息增益進行分裂,直到給定節點的所有樣本屬于同一類或沒有剩余屬性可供劃分為止[24]。瞿海斌等采用決策樹方法對血瘀證的診斷規則進行歸納,得到血瘀證決策分類模型,結果表明決策樹提取的診斷規則與傳統的醫學統計方法相比,更為簡單、方便,為從病例中自動歸納診斷規則提供了一種新的方法[25]。謝雁鳴等從臨床流行病學的角度用決策樹等方法對原發性骨質疏松癥的中醫基本證候進行研究,得出原發性骨質疏松癥的陰虛和陽虛診斷模型[26]。徐蕾等用信息熵的決策樹方法對慢性胃炎的中醫辨證進行研究,構建以信息熵減少為特征的決策樹分類模型[27]。

1.5 復雜系統熵方法的應用 2004 年,有學者發表了《“熵”在中醫方證研究中的運用》一文,在總結熵理論的基礎上,首次提出運用熵理論進行中醫方證相關研究的設想,并探討了證、熵、方結合的原理與前景[28]。通過實踐表明[29-30],該方法不僅可以應用證候與方劑之間的相關性研究,還可以研究證候與證候之間、證候與癥狀之間、方劑中藥物與藥物之間、配伍中成分與成分之間的關系。其后,有學者提出了復雜系統熵聚類的算法,并在疾病、證候、方劑的相關性研究中得到了應用[31]。復雜系統熵聚類方法是一種非監督的模式發現算法,它能自組織地從海量的數據中提取出信息量最大的組合,同時,此方法特別適用于高度離散性類型的數據。相比于經典的統計方法,它有以下幾個優點。①不需要數據的一致性,對于各類數據都適合。特別針對具有隨機性,模糊性,非平衡性,非遍歷性,多維性特點的中醫藥數據。②它客觀地反映數據的情況,聚出來的組合內元素的相關都特別大,是最優的組合,這些組合為新藥發現中候選處方的篩選奠定了基礎。③相關是不對稱的,為定義貢獻度奠定了基礎。④算法收斂速度快,對于處理大量的數據有優勢。此方法具有兩方面的顯著優勢:一方面,不僅可以定性、還可以定量挖掘出藥物之間、病-證-癥-藥之間的相關性;另一方面,不僅可以挖掘出名醫名家經驗的核心組合,還可以挖掘出隱藏于方劑配伍之中的而沒有被臨床醫家所重視的核心組合。筆者采用該方法對國醫大師顏正華教授治療胃脘痛、失眠等用藥規律進行挖掘,得出顏正華教授在治療胃脘痛、失眠的潛在藥物組合和新方,為深入研究和藥物開發奠定了基礎[11-12]。

2 數據挖掘在名老中醫經驗傳承中的應用展望

如上所述,關聯規則、貝葉斯網絡、神經網絡、決策樹等數據挖掘方法在名老中醫經驗傳承研究中發揮著重要作用,是深入挖掘、繼承名老中醫的學術思想和臨床經驗的有力工具。然而,每種數據挖掘方法都有其局限性和不足,均有其適應范圍,且對數據有一定的要求。中醫藥數據挖掘的對象是中醫藥領域中積累的海量數據,這些數據的屬性既有離散型的,又有連續型和混合型的特點,挖掘過程需要人機交互、多次反復,在中醫藥專業背景知識引導下,針對具體問題,選擇合適的數據挖掘方法。同時,數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識的過程,融合了數據庫、人工智能、機器學習、統計學、知識工程、面向對象方法、信息檢索、高性能計算以及數據可視化等最新技術的研究成果,是一個多學科交叉研究領域。因此,數據挖掘具體方法需要有計算機、統計學等多學科交叉人員才能熟練應用,不易被中醫藥臨床人員和學術繼承人等所掌握,這給數據挖掘方法在名老中醫經驗傳承中的應用帶來困難和挑戰。名老中醫經驗的傳承最終的目的是老專家臨床經驗和學術思想的總結和傳播,數據挖掘方法的應用是有力的輔助手段,如何將相關挖掘方法進行集成并形成相應的軟件,是數據挖掘方法在名老中醫經驗傳承領域應用的重要方向。

中醫藥的傳承經過了口傳心授、紙質文獻、電子文獻的過程,但是,尚不能有效滿足傳承的需要。中醫傳承包括豐富的內容,有多種傳承模式,無論何種模式,收集整理臨床醫案是必不可缺的,因此,基于臨床數據的循證傳承是核心模式。中醫藥信息非標準化與個性化的特點,是中醫的一大特色,但同時也是中醫藥傳承信息化工作面臨的重要瓶頸。數據的零散性與非標準性,從根本上制約了中醫藥傳承信息化工作的效率與質量。為此,中國中醫科學院中藥研究所與中國科學院自動化研究所聯合開發了中醫傳承輔助系統(traditional Chinese medicine inheritance support system)軟件[32]。該軟件在全面客觀地對中醫藥傳承模式及方法特點進行分析的基礎上,采用基于個性化需求的自助式服務平臺的構建思路進行系統架構,以人工智能、數據挖掘、網絡科學等學科的方法和技術為支撐,圍繞臨床診療和中醫傳承工作中的繼承、發展、傳播和創新4個方面的核心需求,分別構建面向臨床數據的中醫診療信息采集模塊、面向中醫藥本體的知識管理和服務模塊以及面向傳承創新的隱性知識挖掘模塊等幾大功能模塊,有效地解決了上述問題,從而保證了系統功能需求的有效實現。該軟件是計算機科學和中醫藥學的有機結合,它以智能信息處理方面的研究成果為支撐,遵循基于臨床數據的循證傳承理念,提出并鑲嵌了復雜系統熵聚類的挖掘方法,圍繞名老中醫學術思想總結和經驗傳承、中藥新藥處方篩選與處方發現等方面的信息處理進行了積極的探索[33-34]。實現了“數據的錄入-管理-查詢-分析-網絡可視化展示”等功能的中醫傳承輔助平臺軟件的開發與應用,在中醫傳承工作的具有里程碑意義,是中醫傳承的有力輔助工具,值得進一步推廣應用。

[致謝] 該論文撰寫得到中國中醫科學院中藥研究所楊洪軍研究員的指導。

[參考文獻]

[1] 王映輝,姜在,劉保延,等.基于信息和數據挖掘技術的名老中醫臨床診療經驗研究思路[J].世界科學技術――中醫藥現代化,2005,7(1):98.

[2] 周春祥.名老中醫經驗總結與傳承過程中的問題與思考[J]. 江蘇中醫藥,2004,25(12):1.

[3] 唐仕歡,楊洪軍. 中醫組方用藥規律研究進展述評[J]. 中國實驗方劑學雜志,2013,19(5):278.

[4] 曾孝文.關聯規則數據挖掘方法的研究[J].計算機與現代化,2006,9:91.

[5] 吳嘉瑞,張冰.試論數據挖掘方法在藥品不良反應評價領域的應用[J].中藥新藥與臨床藥理,2007,18(6):485.

[6] 曾孝文.關聯規則數據挖掘與發展趨勢研究[J].電腦知識與技術,2005,35: 4.

[7] 吳榮,王階,周雪忠.基于關聯規則的名老中醫冠心病用藥規律研究[J].中國中藥雜志,2007,32(17):1786.

[8] 劉曉怡,唐曉亮.基于關聯規則方法的李佃貴教授辨治慢性萎縮性胃炎醫案分析[J].中國外資,2012,264:258.

[9] 田琳,閆英杰,朱建貴,等.整理挖掘名老中醫診療眩暈病辨證思維模式的思路與探討[J].中國中醫基礎醫學雜志,2006,12(8):618.

[10] 晏婷婷,吳麗,王旭東.基于數據挖掘的孟河醫家治療痹證的治法及用藥規律研究[J].新中醫,2012,44(9):98.

[11] 吳嘉瑞,張冰,楊冰.基于關聯規則和復雜系統熵聚類的顏正華教授治療胃脘痛用藥規律研究[J].中國實驗方劑學雜志,2012,18(20):1.

[12] 吳嘉瑞,張冰,楊冰,等.基于關聯規則和復雜系統熵聚類的顏正華教授治療失眠用藥規律研究[J].中國實驗方劑學雜志,2012,18(24):1.

[13] Muirhead R J,Pu R D.A Bayesian classi cation of heart rate variability data[J].Physica A,2004(336):503.

[14] 吳榮,聶曉燕,王階,等.基于貝葉斯網絡的名老中醫治療冠心病辨證規律研究[J].中國中醫藥信息雜志,2010,17(5):98.

[15] 須義貞,姚靜,趙莉.沈仲理治療子宮肌瘤診治規律的研究[J].陜西中醫,2010,31(2):201.

[16] 李艷美,張卓奎.基于貝葉斯網絡的數據挖掘方法[J].計算機仿真,2008,25(2):87.

[17] 劉曉潔. 基于PCA的貝葉斯網絡分類器研究[J].電子設計工程,2009,9:86.

[18] 岳桂華.人工神經網絡及其在中醫研究中的應用進展[J].大眾科技,2012,14(156):165.

[19] 陳肇文.基于人工神經網絡的中醫證治模型探析[J].中華中醫藥學刊,2009,27(7):1517.

[20] 白云靜,申洪波,孟慶剛,等.基于人工神經網絡的中醫證候非線性建模研究[J].中國中藥信息雜志,2007,14(7):3.

[21] 陸萍,林坤輝,周昌樂.基于神經網絡的中醫面診證素辨證的研究[J].計算機應用研究,2008,25(9):2655.

[22] 施明輝,周昌樂.人工神經網絡在中醫診斷中的應用現狀與趨勢[J].中國中醫藥信息雜志,2007,14(1):2.

[23] 岳沛平.BP神經網絡識別在中醫脈象信號辨識系統中的運用[J].江蘇中醫藥,2005,26(11):4.

[24] 吳嘉瑞,張冰.試論數據挖掘決策樹方法在藥物警戒研究中的應用[J].中國藥物警戒,2012,9(1):29.

[25] 瞿海斌,毛利鋒,王階.基于決策樹的血瘀證診斷規則自動歸納方法[J].中國生物醫學工程學報,2005,24(6):709.

[26] 謝雁鳴,朱蕓茵,葛繼榮,等.基于臨床流行病學調查的原發性骨質疏松癥中醫基本證候研究[J].世界科學技術――中醫藥現代化,2007,9(2):38.

[27] 賀憲民,孟虹,王憶勤,等.基于熵的決策樹理論及其在中醫證型研究中的應用[J].數理統計與管理,2004,23(5):57.

[28] 楊洪軍,趙亞麗,劉艷驕,等. “熵”在中醫方證研究中的運用[J]. 中國中醫基礎醫學雜志,2004,10(9):16.

[29] 趙亞麗. 一類復雜系統的熵方法研究[D]. 北京:中國科學院研究生院,2005.

[30] 孫占全. 復雜系統建模――一類智能計算模型及其應用研究[D]. 北京:中國科學院研究生院,2007.

[31] 陳建新. 中醫證候的復雜系統建模及其與疾病的相關性研究[D]. 北京:中國科學院研究生院,2008.

[32] 盧朋,李健,唐仕歡,等. 中醫傳承輔助系統軟件開發與應用[J]. 中國實驗方劑學雜志,2012,18(9):1.

[33] 唐仕歡,陳建新,楊洪軍,等.基于復雜系統熵聚堆方法的中藥新藥處方發現研究思路[J].世界科學技術――中醫藥現代化,2009,11(2):225.

[34] 申丹,唐仕歡,盧朋,等.含人參中成藥用藥規律分析[J].中國中藥雜志,2013,38(12):2029.

Comment on applications of data mining used in studies of heritage of

experiences of national medical masters

WU Jia-rui1,TANG Shi-huan2,GUO Wei-xian1,ZHANG Xiao-meng1,ZHANG Bing1*

(1.Beijing University of Chinese Medicine,Beijing 100102,China;

2. Institute of Chinese Materia Medica,China Academy of Chinese Medical Sciences,Beijing 100700,China)

[Abstract] Data mining,as known as knowledge discovery in databases,is a non-trivial process of revealing the implied,previously unknown and potentially useful information from the massive data. In recently years,the applications of data mining in the field of pharmaceutical research of traditional Chinese medicine have widespread. Especially in the field of the heritage of experiences of national medical masters,data mining plays an important role. In this study,we would expound of the use of methods of data mining in the heritage of experiences of national medical masters,and analyze their advantages and disadvantages,such as association rules,Bayesian networks,neural networks,and decision trees.

第8篇

[關鍵詞] 企業營銷 數據挖掘 決策 數據倉庫

一、引言

在市場競爭日趨激烈、商業環境發生巨大變化的時代,社會、技術、經濟、政治等環境因素變得越來越復雜和難以預測,任何經濟個人或企業單位都面臨著一個課題,就是如何想辦法采取營銷策略把自己的商品推銷出去。尤其社會是進入信息數字化階段后,該問題顯得更加突出,因此,如何利用數字化信息決定自己的企業決策方案變得非常重要。數據挖掘是解決該問題非常有效的技術。

二、數據挖掘(data mining)思想

數據挖掘是集統計學、人工智能、計算機等結合的交叉技術。數據挖掘也稱為知識發現(KDD―Knowledge Discovery in Database),其主要思想是可以從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識,并通過這些知識指導我們將來的工作,以提高效益。目前該技術在企業營銷中的應用也是剛剛起步,但是已經暗示了該技術在商業營銷活動中的潛在能力,尤其是在企業營銷決策系統當中的應用,將會對企業營銷活動和決策和發展起到非常重要的作用。

三、數據挖掘技術簡介

數據挖掘是一個從存儲在數據庫、數據倉庫或其他介質種中的大量數據中發現人們感興趣的知識的過程。其的應用過程可以描述為:按照既定目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,并進一步將其模型化的先進有效的方法,并且最終將其在實踐中應用的過程。

數據挖掘技術大體可以劃分成以下四個主要階段:數據準備、數據挖掘、表示與結果分析、知識應用。其中數據挖掘是很關鍵的階段,主要包括:回歸分析、統計分析、聚類分析、神經網絡、決策樹、探索分析等方法,這將決定數據挖掘的思路和最終實現的結果。

四、數據挖掘在企業營銷決策中的應用簡介

企業營銷是企業戰略的重要組成部分,營銷戰略的制定與實施,在企業戰略中居于重要地位,是確保企業戰略得以實現的重要保證。

市場營銷管理,就是由企業市場部門根據戰略規劃所確定的業務經營范圍、目標、業務組合和發展戰略,認真識別、分析、評價外部環境等因素。并用其去指導未來的發展戰略和計劃的過程。

數據挖掘技術在企業營銷決策中應用的過程如下:

1.數據準備階段。數據挖掘的前提是必須要有大量的可靠的數據,這需要企業營銷管理者平時對各種數據的積累,所需要的數據包括營銷企業內部管理的數據,營銷對象的相關信息,影響營銷管理和決策的各外界因素及數據。并且對數據要采取分類的方式進行管理,此時數據分類的標準是非常關鍵的,不但要考慮分類內部數據之間的聯系,同時還要考慮各數據之間的關系。

2.數據挖掘階段。該階段主要是對存儲在數據倉庫中的數據進行科學的方法進行分析,關鍵的數據挖掘方法的使用,常用的數據挖掘方法有:

(1)回歸分析,該方法利用一組觀測數據之間建立的依賴關系發現數據之間的聯系,并作出相關預測的方法。(2)時序分析,該方法注重數據之間時間的前后順序關系,并找出某事件在某個時間段內發生的頻率。例如,某月某顧客在該糧店中購買的大米的次數和數量,這對分析顧客的消費水平和銷售數量有著非常大的幫助。(3)分類分析,在前面的數據倉庫里,對商品進行準確的描述,包括商品名稱,特征,面向顧客,數量等數據項,然后用相應的分類標準將數據進行分類操作和管理。(4)聚類分析,通過分析數據倉庫中已經分好類的數據,將其按照預測的結果劃分不同的集合,并確定集合劃分的標準。

3.表示與結果分析。通過前面的過程,企業營銷決策管理者希望通過數據之間的關系得到相互數據的影響和關系,該結果以某種形式表示出來,一般都采用圖形、圖表或者數據報表的方式表示結果。通過結果進行相應分析,希望得到諸如如何得到最有價值顧客、如何使用組合效果使銷售效率最好、如何留住有價值的顧客、以最小的成本發現欺詐行為等結論。

4.知識應用。發現營銷規律和知識不是目的,將其應用到企業營銷決策中才能夠起到真正的作用,并在不斷的營銷中對所得出的結論進行論證,并不斷的修正,使其更加合理,以便更加有利的指導營銷行為和決策。

五、未來的展望

第9篇

【關鍵詞】數據挖掘算法 并行模式

1 數據挖掘的挖掘任務和挖掘方法

跟數據挖掘相關的學科門類較多,其涉及的分類方法多種多樣。根據挖掘角度的差異性,可對數據挖掘方法歸類。由挖掘任務的不同,可將數據挖掘分為這幾種類型:關聯規則發現、數據總結、聚類、異常和趨勢發現等;由挖掘對象的不同,可將數據挖掘分為:面向對象數據庫、文本數據源、異質數據庫等;下文根據挖掘任務以及挖掘方法角度,重點對數據抽取、分類發現、聚類和關聯規則發現四種非常重要的發現任務進行闡述。一個典型的數據挖掘系統結構一般包括數據庫、數據倉庫等幾個部分。如圖1所示。

1.1 數據抽取

數據抽取是對給定數據的緊湊描述,其運用的手段就是對數據進行濃縮處理。其中,最簡單的一種數據抽取方法就是對數據庫中的各字段上的統計值進行計算,這些統計值一般包括和值、均值、方差值等,另外,使用折線圖等圖形對數據庫字段進行表示也是一種比較傳統而簡單的數據抽取方法。數據挖掘關注的焦點是以數據泛化的視角來討論數據總結。所謂數據泛化,把低層次的數據抽象到高層次的一個過程。之所以把低層次的數據抽象到高層次,這是因為大家有對視圖從較高層次處理或者瀏覽有關數據的需要,所以,通過對數據進行多層次的泛化是有其合理的解釋的。

1.2 分類發現

在數據挖掘的所有任務中,分類是其中極為重要的任務之一。在所有商業應用的數據挖掘任務中,分類得到了最大范圍的應用。我們知道,分類的目標是構造分類函數或分類模型。在數據庫中,數據項在分類模型的作用下映射到某一個給定類別。在分類的用途中,預測是其中一個較為重要的用途。通過預測,從歷史數據記錄中推論得到給定數據的推廣描述,最后實現對未來數據的預測目標。在對分類器進行構造的過程中,必須使用訓練樣本數據集作為輸入。訓練集一般由數據庫記錄或元組構成,其中,元組是由特征向量組成的。樣本的一般形式為(u1,u2,...,un;c);其中 ui為字段值,c為類別。

1.3 聚類

聚類是把個體依據某種規律歸類成為若干類別的過程。其最終目標是使相同類別的個體之間距離最小,而不同類別個體間距離最大化。對于聚類而言,其研究方法一般有四種:統計方法、機器學習方法、神經網絡方法和面向數據庫。通過對聚類分析方法的應用實踐發現,其僅僅適合于數據庫較小的情形,這是因為其不具備線性計算復雜度。

1.4 關聯規則發現

關聯規則發現的主要對象是事務型數據庫,針對的應用是貨籃數據。一般而言,事務的組成部分不僅包括客戶訂購的物品,還包括客戶的標示號。隨著條形碼技術不斷得到推廣和應用,采用前端收款機也可以獲得大量的售貨數據。所以,通過分析歷史事務數據,可從顧客那里得到一些有價值的信息。比如,更好的解決擺放貨架商品和規劃市場的問題。所以,如果能從事務數據中找到關聯規則,這對于零售業等商業活動決策的重要性是不言而喻的。

2 關聯規則挖掘的并行算法分析

2.1 并行算法的基本概念

所謂并行算法,即對可同時執行的進程集合,通過進程的協調作用,達到求解問題的目的。并行算法的設計是為了使并行機的眾多處理機作用得到最大程度的發揮,這樣就能更加快速有效解決問題。一般而言,并行算法對并行機存在非常強的依賴性。并行機的不同算法對其有效性會產生影響。

2.2 并行計算模型

要想對一個應用問題進行求解,那么設計良好的并行算法極為重要。如果想讓并行算法作為一個由程序實現結構依賴的算法,那么抽象的并行計算機結構是非常有必要的。這樣才能保障并行算法具有更廣泛的適應性。并行計算模型作為一種并行計算機的抽象結構,主要考慮到的是為了并行算法的設計。所以,并行計算模型從實質意義上來講,它是某一類并行計算機的抽象。

2.3 并行挖掘關聯規則的算法

在通常情況下,找出頻繁項目集的付出的資金要比從頻繁項目集中找出關聯規則的費用高的多。鑒于此,發現頻繁項目集的并行算法就具備了重要的意義。產生候選集的算法的計算工作,通常來講,可歸類為兩個步驟。其一為生成候選集,其二為對候選集的計數。為達到處理器間進行工作分配的目的,就需要使事務和候選集分配給各處理器的形式多樣化。為達到更優的并發度,候選集可選擇并行計算,或者是并行產生,還可以是兩者并行完成。

3 小結

數據挖掘算法的并行性可對系統運行速度進行提升,從而提高工作效率,這是因為數據挖掘算法可實現對多個任務的執行。數據挖掘算法并行方式存在差異性,所以,必須根據實際情況使用恰當的挖掘方法,從而讓決策的作用得到最大程度的發揮。隨著數據量處理規模的逐漸增大,所以,對數據挖掘算法并行性研究的意義是不言而喻的。

參考文獻

[1]趙峰,李慶華.并行序列挖掘的一種改進算法[J].華中科技大學學報(自然科學版).2003,31(10):38-40.

[2]陳國良,安虹等.并行算法實踐[M].北京:高等教育出版社,2004.

[3]馬傳香,簡鐘.序列模式挖掘的并行算法研究[J].計算機工程,2005,31(06).

[4]施建強,劉曉平.基于遺傳算法的數據挖掘技術的研究[J].電腦與信息技術,2003(01):9-14

第10篇

關鍵詞:數據挖掘;通信行業;客戶關系;管理工作;開展進程

隨著社會經濟的快速發展,通信行業的發展規模及數量不斷擴大與增多,但在激烈的市場競爭環境下,相關企業的生存與發展均面臨著諸多的挑戰,為了占領更多的市場份額,實現企業穩定與長足進步,并獲得良好的綜合效益,客戶關系管理得到了人們高度關注。近些年,通過國內外學者的不斷努力研究,隨之出現了數據挖掘技術,其作為先進的現代化技術,應用日漸廣泛與普遍,但關于其在通信行業的研究報道較少。因此,介紹了數據挖掘技術的基本概念,探討了其有關流程,同時重點分析了其在通信行業客戶關系管理中的應用,旨在進一步完善有關理論,并為有關人士提供借鑒。

一、數字挖掘的基本概念探究

數據挖掘可以實現用戶的信息資源的相互交流和傳遞。同時數字挖掘技術的應用,對于信息傳遞的流程存在著專門的定義和限制,具有強大的信息檢索功能。例如,應用數據統計模塊查找定向信息,或者應用互聯網的搜索功能進行相應的網頁或者是網站的查找,則是數字挖掘技術中的信息檢索(informationretrieval)領域的技術。隨著數據挖掘技術的應用范圍和應用種類的不斷擴張,當下數據挖掘技術已經被廣泛的應用于信息檢索工作的開展進程中。根據當下數字挖掘技術的主要應用特點和應用方向,主要可以將技術的類別總結為以下幾點:數字挖掘技術中的信息關聯技術、數字挖掘技術中的預測技術、數字挖掘技術中的分類技術以及數字挖掘技術中的排序技術。

二、數字挖掘在通信行業中客戶關系處理中的具體應用流程探究

數字挖掘技術的應用流程的良好確立,可以使得企業的客戶信息管理工作的開展更加具有系統性和全面性,有效的提高了通信企業的市場競爭力。為通信企業的良好發展奠定了穩定的基礎和提供了強大的推動力。1.數據庫內的數據信息歸類。對于營銷工作開展進程中的各種原始數據進行統計和收集,盡可能的保障各項數據的歸類的有效性和標準性。并且在數據庫內的數據信息分類工作的開展進程中,充分的考慮不同的營銷數據的格式上的差異性,對于這些營銷數據進行統一的調整,實現數據庫內的數據的系統性排列。2.數據庫內信息的初步分析。按照數據庫內的信息種類的不同以及內容的不同,摘取信息內的核心片段,進行數據內容的初步分析,確定通信企業的營銷信息的核心,并且注重對于同種數據中所存在的變量的分析,進而初步掌握核心數據的變化情況和變化規律。3.應用數據挖掘技術開展數據記錄工作。在明確了數據庫內的各項核心數據之后,通信企業在應用數據挖掘技術開展自身的客戶關系處理管理工作時,需要進行數據記錄工作。通常以客戶關系統計樹狀圖的方式進行客戶關系的進一步分類和管理,進而確保通信行業的客戶管理工作的開展的秩序性。

三、數據挖掘在通信行業客戶關系管理中的應用方向探究

開展數據挖掘在通信行業客戶關系管理中的應用方向探究,根據數據挖掘技術在通信行業客戶管理工作開展進程中的應用流程以及當下的應用狀況,主要可以將該技術的應用方向總結歸納為以下幾點:1.應用于通信行業客戶的信息數據處理工作。通信行業的客戶信息量十分巨大,并且存在著較強的復雜性,應用數據挖掘技術開展通信行業客戶關系的處理工作,可以實現通信行業對于客戶的信息掌握的系統性的提升。在進行通信行業客戶的信息數據處理工作時,應當著重開展對于流失的客戶的信息的處理,找出客戶的流失的根本原因,完善自身營銷模式的應用流程中所存在的不足之處,有效的降低客戶流失量,盡可能的實現客戶的“有效回流”。2.應用于通信行業客戶的關系模型建立工作。將數據挖掘技術的應用與于通信行業客戶的關系模型建立工作的開展有效的結合到一起,可以實現通信企業對于客戶關系的掌握的具體性的進一步提升。通信企業在開展模型的建立工作的過程中,應當同時建立客戶的營銷模型和客戶的流失模型,進行兩種模型內的數據狀況的有效對比,進而實現通信企業的進一步營銷方案的有效的制定。3.加強通信行業的客戶管理工作的針對性。在傳統的信息行業的客戶關系管理工作開展進程中,客戶的信息的管理工作的開展往往缺乏針對性,因此通信企業在為客戶提供服務的過程中,其服務往往也就無法真正有效的滿足客戶的各項需求,造成了客戶的流失現象。將數據挖掘技術全面應用于通信的企業的工作開展流程中,對于客戶的信息和需求進行更加詳細的分類和分析,提出具有針對性的特色服務方案,可以實現通信企業的服務的質量的進一步有效的提升,加強通信企業在激烈的競爭市場中的市場競爭力,促使我國的通信企業獲得更加廣泛的發展空間和更加理想的發展前景。4.加強通信行業客戶反饋信息調研工作的開展力度。通信行業客戶反饋信息調研工作的開展力度,也是決定通信企業的客戶關系管理工作的開展力度的關鍵性因素之一。應用數據挖掘技術,開展客戶信息的挖掘工作,可以實現客戶反饋信息的明確性和全面性的進一步提升,有效的加強了調研工作的開展力度,繼而可以使得通信企業對于自身所需改進之處具有了更加明確的認知。

四、結語

綜上所述,在通信行業客戶關系管理中應用數據挖掘技術,彰顯了該技術的應用優勢,保證了客戶關系管理的成效,為了通信行業發展提供了可靠的技術保障。本研究在明確相關概念及開展流程基礎上,對數據挖掘技術的應用展開了深入的探究,其主要應用于信息數據處理及關系模型建立等方面,在先進技術支持下,通信行業的客戶關系管理具有了一定的針對性與高效性。實現數字挖掘技術的應用與客戶關系處理工作的有效結合,以及實現我國的通信行業的整體管理水平的進一步有效提升,相信日后通信行業借助現代化的技術方法及多元化的管理手段,其競爭力將大幅度提高,進而利于企業健康與持續發展。

參考文獻:

[1]沈亮.數據挖掘在移動通信業客戶關系管理中的應用研究[J].企業導報,2016,(12):28-29.

[2]鄭倩倩,智淑敏.數據挖掘在茶葉行業客戶關系管理系統的應用研究[J].福建茶葉,2016,(03):98-99.

[3]廉祥麗.數據挖掘在電子商務客戶關系管理中的應用分析[J].電子技術與軟件工程,2016,(01):179-180.

[4]胡彬.基于數據挖掘的移動通信公司客戶關系管理系統的分析設計[J].山東工業技術,2015,(09):148.

[5]杜麗英,趙秀菊.數據挖掘在銀行客戶關系管理中的應用分析[J].計算機光盤軟件與應用,2014,(21):28-29.

[6]歐陽浩1,戎陸慶2,黃鎮謹1,陳波1,王萌1.SQLServer2008在煤炭企業智能客戶關系管理中的應用研究[J].工礦自動化,2014,(03).

第11篇

關鍵詞:數據挖掘;圖聚類;分布式圖聚類

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2015)02-0014-02

分布式圖聚類在電子商務數據挖掘中的應用是十分廣泛的。國家在網上購物的數量逐漸加大,網上商城的競爭力也逐漸地加大,各個網站都會使出渾身解數去驚醒電子商務數據挖掘,來為商家提供有力的資料來幫助自己進行商業上的改進和整編。但是隨著購物的數據的加大,分析數據的信息難度就越來越大,以往的數據類已經滿足不了商家們對數據分析的要求,圖聚類的產生補充了數據類的不足,圖聚類解決了數據龐大的問題,可以說是電子商務發掘的進步。其中,最為代表性的就是分布式圖聚類。在我們國家的網上商城比如說;淘寶、天貓、京東、聚美優品、蘇寧易購等個大知名網站,據網上的商家們都會對電子商務數據進行挖掘與研究,同時,使用分布式圖聚類方法的網站不在少數。分布式圖聚類它解決了數據量大難以正確的評估、從而導致計算失誤的發生。經過許多次的實驗,我們發現分布式圖聚類是非常穩定與安全的。分布式圖聚類的產生促進了電子商務數據挖掘的發展,在對數據的穩定性與安全性中也有了很大的進步。

1 分布式圖聚類的應用

分布式圖聚類的應用在我國可以說是被廣泛地應用,由于它自身的優點和好處所以備受廣大商家采用。分布式圖聚類的特點主要是針對相對較大的規模的數據進行分析和處理,這是傳統聚圖類無法做到的。它既能省去很多商家因為計算數據而產生的極大的成本,還能保證我們所得到的數據的真實和準確。分布式圖聚類的發現與應用可以說是電子商務數據挖掘中的一個進步與提高。

1)什么是分布式圖聚類

我們可以知道在科技日益發展的今天,越來越多的人在熟用電腦并在網上購物,進行交易。隨著數量的日益增加,網上商城的電子商務數據挖掘就愈來愈難,原來傳統的數據統計方式很快就跟不上節奏,所以適合大規模的分布時局圖類孕育而生。分布式圖聚類是大量數據集中的一套編碼,編集的一套電子程序。他的規模之大可以把數百臺或數千臺電腦聯系在一起進行計算和研究。分布式圖聚類的優點是可以進行大規模的數據計算。

2)電子商務的數據挖掘

電子商務的數據挖掘是在網絡當中存在的網絡商家在真實的交易中保存下來的數據,然后把這些數據變成數據庫。商家要把存留下來的數據庫進行計算,整理,然后挖掘出對商家有利的信息。商家再根據數據的顯示進行一系列的變動和調整,根據數據反映客戶的需要,擴寬自己的市場。聚類分析就是研究數據挖掘后的一個技術性的研究。分析會根據商家的真實存在的問題進行數據上的計算和研究,這種方法備受商家的歡迎,同時也滿足了商家對科學的研究自己市場的一種需求。雖然數據挖掘等工作進行十分的順暢,但是,社會是高速的發展的,更多的問題也會頻頻的出現。現如今,網絡商城的日益豐富,出現了各種各樣形式的商城,競爭十分激烈。商家如何把自己的數據庫進行嚴格的分類和整合,如何更加詳細的反映出客戶的反映,是現在電子商務數據發掘的重中之重。

3)圖聚類算法的種類

圖聚類算法的種類十分的多,下面我們簡單地介紹幾個圖聚類算法的種類;

第一,譜聚類,它是類似于矩形的一種分類圖形。它是通過分割矩形的方法來進行對比與研究。譜聚類的研究主要是如何才能做到把主題矩形劃分成最佳的狀態,來進行分析。譜聚類是很有研究性的一個聚類法。比如說,我們想構建的這一個矩形是通過什么根據來創建的、又或者是我們有如何通過數據研究進行劃分這個矩形等等一系列的問題都值得我們去研究探索。

第二,基于密度的聚類,它是一個使用消耗特別大的一個聚類法。基于密度類聚,顧名思義它是通過數據的密度來驚醒的圖聚類。這種算法的好處是,之前不用任何的計算或是安排,直接進行數據的統計。

第三,位置敏感哈希聚類算法,它是通過數據的相識度較高,或是鄰近的數據進行計算。通過計算,我們會更加清晰地看出相似的結論,這種方法相對于基于密度的聚類的算法節約成本,也能清楚地反映問題,但是也要因人而異。

雖然有許多這種聚類圖,但是也要因事而異。而且要注意的是,每一種聚類圖的算法是不同的,所以,他得出的理論也可能是不一樣的。我們要仔細的分析,那些數據需要哪種聚類圖會更加的合適等等。就比如說,我們需要知道客戶在購買時更加傾向于購買哪類的商品比較多一些,再或者說是客戶對商品的評價進行統計等等,我們要選者不同的方法,不能一條路走下去,要懂得變通。要知道只有適合的才是最好的。

2 分布式圖聚類在電子商務數據研究發掘中的應用

電子商務數據發掘研究是極其復雜的,而分布式圖聚類并不是唯一的研究總結數據的方法。但分布式圖聚類是十分重要的方式。隨著電子網絡的迅速發展,網上購物的客戶越來越多,數據庫的儲備量逐漸地加大。電子商務數據研究發掘呈現越來越難的趨勢。這些客戶的數量要比想象中的要大得多,而且,計算起來十分的復雜。電子計算已經跟不上那么龐大的數量。傳統的計算法存在的缺點主要是不能計算數量龐大的數據庫,而且計算的事件上加大了時間和精力,也就是效率不高。還有就是,面對相對較大的數據根本做不出處理,他的實用性并不是很高,不能做出我們所期望的數據。這就出現了這樣的一個問題,怎樣才能把熟練龐大的數據庫計算起來,從而更加準確的進行商務數據的挖掘。

由于數據挖掘的需要,圖聚類應運而生。圖聚類的計算法十分的多樣化,相對于數據聚類算法來說大大地提升了效率,節省了時間。同時,面對數量龐大的數據庫的時候也能運行,不像以往的計算法那樣。圖聚類可以說是現在相對較好的計算方法,也是符合許多網絡商家的需要。圖聚類分很多種類型,其中我們說的就是分布式圖聚類在電子商務中的數據挖掘中的應用。對于圖聚類來說,分布式圖聚類在數據挖掘上的應用還是十分的廣泛的。分布式圖聚類是一種把數據相互聯系的一種計算方式,它可以進行大規模的運算和分析。這種算法被很多商家采用。例如;某網上購物的網站上想要進行一次客戶對哪些商品的需求量的調查研究,但是客戶的數量大且關系復雜,對于調查研究來說具有一定的難度。這時,分布式圖聚類來說就派上了用場,它對于數據之間的關系研究十分的到位,同時數量上也不成問題。運用分布式圖聚類計算這種數據是十分的適合的,分析的內容十分的穩定與準確。所以,廣大商家十分青睞與分布式圖聚類對于電子商務數據挖掘的應用。

3 分布式圖聚類分析的結果的表達

分析的結果是對電子商務數據挖掘的總結。不要小瞧這一個部分,雖然看似簡單但是如果表達不當,是會影響到數據的評估水平和準確性。正確的表達是準確評估的一部分。我們如何準確結果的表達和分析呢?首先,我們要保證我們數據的準確性和完整性,保證我們現在的數據的時間,內容都十分的重要。這是評估結果是否準確十分的重要。運用正確的圖聚類進行分析和統計,一定要是適合我們想要知道的信息相符合的圖聚類,不然,運用不當會出很大的偏差。我們可以用圖把清晰的條理表達出來。直到讓我們更加直觀的一眼就看出來關聯性的數據。還可以運用表格之類的相對于比較直觀的表現形式來表達出來。其實,表達的主要目的就是怎樣可以讓公司的領導者能夠迅速的明白數據所表達的含義和內容。然后才能正確地做出判斷,提出幫助公司發展的政策。如果我們能正確地運用數據挖掘技術就能夠把復雜,數量繁多的數據信息轉變成清晰、直觀,讓人一目了然的數據或是數據圖等等。同時,如果正確地分析了數據還可以讓商家找到正確的方式去經營店鋪,讓后制定出符合科學依據的方案,也會找到商機,創造未來。

我們對數據的研究不是一個簡單的過程,而是要一遍一遍的去研究,去探索,去找尋不同的方法,所以,端正我們的態度十分的重要。認真地完成了每一個步驟,我們就離成功不遠了。

4 總結

經過研究,分布式圖聚類在電子商務數據挖掘中的應用十分的廣泛。同時分布式圖聚類的優點也是值得我們去運用與學習的。分布式圖聚類被許多商家所青睞和認可,分布式圖聚類的數據挖掘也為商家帶來了很大的收益。也能夠真實地反映出數據所涵蓋的信息量,并且減少數據統計的成本。由此證明,分布式圖聚類在電子商務挖掘信息中是十分重要和有效的。也是電子商務中不可或缺的一部分。但是,在本文中我們也提及了其他圖聚類的方法,我想讓大家知道,分布式圖聚類雖然適合大規模的數據統計,也能清楚,穩定的表現出數據之間的關系和內容。但是,分布式圖聚類并不是全部實用,我們要做好電子商務數據挖掘就一定要找到適合數據的圖聚類,不要只用一個方法,這樣統計出來的數據會大打折扣。希望我們能夠正確的運用數據計算分析方式,反映出最全面的信息。

參考文獻:

[1] 溫菊萍,鐘勇.圖聚類的算法及其在社會關系網絡中的應用[J].計算機應用于軟件,2010,29(2):161-162.

第12篇

【關鍵詞】數據挖掘技術;電信客戶流失預警;應用

隨著電信企業的發展,企業之間的競爭不斷加劇,電信運營商也在不斷地推出新的業務與套餐,以此來在占領市場競爭高地。但是,與此同時,也大大增加了客戶的不穩定性,而數據挖掘技術的應用,有效地降低了客戶離網率。因此,對數據挖掘技術在電信客戶流失預警中應用的探討有其必要性。

一、數據挖掘技術應用的重要性

伴隨著經濟全球化,市場的國際化,目前我國國內市場的競爭也變得日加激烈,因此,電信企業傳統的經營模式已經不能夠完全適應市場的需要。為此,電信企業的市場戰略定位需要從傳統的生產型企業向利潤型企業進行轉化,從而來求更好的生存與發展。為此,這就要求電信企業必須圍繞客戶展開市場分析,全面了解客戶的實際需求,做到服務的層次化、多樣化以及全面化,并且提出個性化的解決方案。但是,在市場發展的過程中,由于市場的飽和以及客戶發展的減速,這使得電信企業客戶的維系成為一個熱點問題。因此,在這樣的競爭環境下,企業極需完善業務管理系統以及生產系統,引進數據挖掘系統,加強系統構建,如渠道系統、BOSS系統以及綜合結算系統等,通過這些系統,收集大量的數據,對企業的運營情況作出具體性的分析,既可以加強對客戶消費行為的了解,而且針對企業某項業務在市場中的運行情況進行預測分析和運行情況分析,以指導企業做出更好的解決方案,為企業創造更大的利潤。

另外,集成客戶數據是電信企業發展最為寶貴的資源,而數據挖掘技術的應用可以將大量的客戶數據提取出來,包括現有的客戶數據、流失數據、增加數據等,在此基礎上,根據客戶行為、客戶屬性以及服務屬性,構建相關數學模型,計算與分析客戶流失概率,同時,根據這些數據之間的相互關系,得出相關的數學公式,從而來改善企業的促銷手段,提高服務質量以及客戶忠誠度,預防客戶的流失,更為重要的是解決了電信企業傳統運營模式上無法監控客戶流失、無法實現客戶關懷的難題。

二、數據挖掘技術在電信客戶流失預警中的應用

對于電信企業而言,海量的客戶數據是企業的一筆巨大財富,簡單來講,企業若是能夠及時準確地挖掘出數據中的信息,并且從中分析出隱含的價值信息與知識,就能制定出科學的運營方案,才能更好地為客戶提供服務,進而在市場競爭中取得一席之地。而數據是從中大量的信息中挖掘出來的規律、知識以及價值模式等,數據的形成是一個復雜的過程,因此,數據挖掘技術的定義可以通過以下圖示具體地反應出來:

而所謂的客戶流失預警模型的構建就是基于數據挖掘技術的基礎上,對電信運營狀態以及客戶狀態的一種分析與判斷系統,從本質上講,就是對數據特征的一種挖掘,同時,也是一種分類問題。通過其主要將客戶信息分為兩大類,一種是有離網傾向的客戶,一種無離網傾向的客戶,以數據挖掘技術為基礎,對已離網客戶的信息進行特征分析,進行總結歸納,并作為參照,若企業產生新的客戶信息時,以此來識別其是否存在離網傾向,確定其是否在企業對客戶維護開銷范圍內,若是低于此開銷值,則說明其不具有任何產生價值,自然,相關信息也就應該刪除。在這里,主要客戶流失預警模型中數據挖掘技術的應用進行具體分析:

首先是客戶劃分。一般而言,對于電信企業,客戶劃分方法多種多樣,如客戶年齡、性別以及信用度和支付能力等,這些都可以作為劃分客戶的具體參照。但是由于一個企業最為主要的目的就是利潤的產生,為此,我們應該以客戶對企業貢獻大小為主要參考依據進行科學劃分,具體為三種,即低價值客戶、普通價值客戶以及高價值客戶。

其次是屬性分析。在進行客戶流失預警分析中,其影響因素是多方面的,而這些因素之間的關系也或強或弱,若以所有屬性為標準,那么分析過程顯得過于復雜,這樣,在實時環境以及追溯目標的過程中,要想識別是存在著一定難度的,但是,若是從中抽取某幾個屬性,那么系統的預警效果則會大大降低。因此,最為有效的解決方法就是采用約簡算法,將這些相互關聯的屬性進行融合處理,并從中抽取關鍵性因素,重新構造關鍵指標,形成新的線性組合,進而獲取最有效的價值信息,取得最為有效的預測效果。本文運用多元統計中的因子分析方法,結合SPSS軟件,得到一組流失預警中可用的因子(屬性)集合,具體內容如表1所示:

第三是特征挖掘。關于數據特征的挖掘具體包括以下幾個內容:一是數據抽取,簡單來講,將業務系統中所儲存的離網數據信息,進行分析整合,并作為訓練數據集合,同時,進行屬性約簡,將所得到的相關數據輸入數據庫中,作為模型數據;二是將輸入的數據運用慢啟動頻繁模式進行數據分析與挖掘,歸納流失客戶特征信息,并在此基礎上,構建相應的分類器;三是輸入測試數據,這一部分數據集合主要是由新的客戶數據組成,經過約簡后,作為測試模型;四是將分類器中的數據特征與挖掘到的新的客戶信息進行模式匹配,以此來確定客戶是否存在著離網傾向,若是存在離網傾向,那么需要將這些數據反饋給客戶挽留系統或者是客戶維護系統,從而為客戶開展針對性的服務,一方面,為客戶部門的服務工作提供了重要參考依據,另一方面,還可以為企業客戶維護工作決策提供參考。

三、仿真及結果驗證

基于數據挖掘技術的電信客戶流失預警模型,在某地電信運營公司展開實地測試,該企業根據其實際情況,構建了客戶流失預警模型,并在此基礎上,全面展開客戶挽留與客戶維護工作,同時,根據系統提供的數據信息,分析流失客戶的特征,在每月的月初進提供客戶名單,該企業在2012年8月的流失預警客戶的具體數據如表2所示:

根據客戶流失預警模型的分析,得到的流失預警數據,該企業客戶服務部門分別在6、7、8月份對8259戶、9001戶、8975戶客戶進行了回訪,其回訪的成功率分別為90.12% 、89.67% 、88.56%,其中,在這些回訪的客戶中,將近85%以上的客戶表達了自己近期有離網打算,但是經過客戶部門的回訪,結合針對性的處理措施以及挽留措施,99%以上的客戶均打消了離網的意圖。

四、總結

總而言之,客戶流失預警模型的構建通過對客戶所處狀態的判斷,確定客戶是否存在離網意圖,并且綜合企業維護運行成本、客戶消費價值、客戶屬性以及客戶使用習慣等,對客戶進行細分,針對不同的客戶提出不同的營銷方式,并在此基礎上,通過反饋數據,完善客戶服務,提高產品服務質量,最終達到拘留客戶的目的。

參考文獻:

[1]蔣亞虎.基于SQL Server的OLAM模塊研究[J].制造業自動化.2011(16).

[2]莊仁團.數據挖掘技術在電子政務系統中的應用[J].海峽科學.2011(05).

主站蜘蛛池模板: 安岳县| 万荣县| 宜丰县| 佛冈县| 镇雄县| 涿州市| 蕉岭县| 蒙山县| 镇沅| 满城县| 太仓市| 博爱县| 澄迈县| 贵德县| 五家渠市| 偃师市| 滨海县| 上饶市| 中山市| 临朐县| 四会市| 佛冈县| 临邑县| 溆浦县| 濮阳县| 象山县| 台安县| 扶沟县| 定陶县| 黎城县| 科尔| 固原市| 麟游县| 西林县| 乐至县| 缙云县| 蛟河市| 昔阳县| 昭平县| 抚远县| 长阳|