真人一对一直播,chinese极品人妻videos,青草社区,亚洲影院丰满少妇中文字幕无码

0
首頁 精品范文 數據挖掘

數據挖掘

時間:2023-02-25 05:16:31

開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數據挖掘,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。

第1篇

隨著數據庫技術的不斷發展,數據庫和數據倉庫已經被廣泛地應用于企業管理、產品銷售、科學計算和信息服務等領域,數據量的不斷增長對數據的存儲、管理和分析提出了更高的要求,急需新一代的技術,能夠智能化的從大量的數據中提取出有用的信息和知識,于是數據挖掘技術應運而生,且在各行業得到了廣泛的應用。如何從海量的數據中找到內在的規律,如何更快更方便地傳遞、交流、獲取有用的信息,挖掘這些激增數據背后隱藏的重要信息并及時進行信息的重組已成為當前我們所探究的熱點。

一、數據挖掘概述及分類

數據挖掘是近年來隨著數據庫技術和人工智能技術的發展而出現的一種多學科交叉的全新信息技術,是指從海量的數據中出潛在的、有價值的知識(模型或規則)的過程,反復使用多種數據挖掘算法從觀測數據中確定模式或合理模型。也就是根據預定義的目標,對大量的數據進行探索和分析,揭示其中隱含的規律,并進一步將其模型化的先進有效的技術過程。隨著計算機網絡的發展和普遍使用,數據挖掘成為迫切需要探究的重要課題。

數據挖掘涉及多個學科方向,主要包括摘要:數據庫、統計學和人工智能等。數據挖掘可按數據庫類型、挖掘對象、挖掘任務、挖掘方法和技術以及應用等幾方面進行分類。按數據庫類型分類摘要:關系數據挖掘、模糊數據挖掘、歷史數據挖掘、空間數據挖掘等多種不同數據庫的數據挖掘類型。按數據挖掘對象分類摘要:文本數據挖掘、多媒體數據挖掘、Web數據挖掘。按數據挖掘的任務有摘要:關聯分析、時序模式、聚類、分類、偏差檢測、猜測等。按數據挖掘方法和技術分類摘要:歸納學習類、仿生物技術類、公式發現類、統計分析類、模糊數學類、可視化技術類。

二、數據挖掘的基本過程

(1)定義新問題。對目標有一個可行、清楚和明確的定義,同時還包含對一個結果進行衡量的標準。(2)建立數據挖掘庫。它主要是指收集數據、維護數據等工作。(3)分析數據。找到對新問題解決影響大的數據字段集和決定是否需要定義導出字段。(4)預備建摸數據。根據新問題的定義,對數據庫中的字段變量、記錄進行篩選,并根據現有的變量進行轉換,生成新的變量和字段。它主要是指為建立模型預備部分數據的過程。(5)建立模型。選擇一定的挖掘算法來處理數據,它需考察不同的模型用以判定和選擇解決新問題最有效、精確度較好的一種數據挖掘模式。(6)模型的評價和解釋。模型建立后,必須有一個對它的結果進行評價、對它的價值進行解釋的過程。(7)實施。模型建立并驗證之后通常有兩種使用方法。一種是提供給分析人員作參考和分析這個模型之后的行動方案及建議。另一種是在應用了模型之后,還需不斷地監控其效果,因為事物在不斷地發展變化,有可能一段時間后,模型就不再起功能川。在以上數據挖掘的基本過程中,其中數據預備、數據選擇、預處理、數據縮減的階段主要以完成數據倉庫為主;目標確定、算法確定、數據挖掘、模式識別和知識評價這幾個階段,主要以挖掘有用的知識為主,為知識發現做預備。

三、數據挖據的應用

數據挖掘技術源于商業的直接需求,因此它在各種商業領域都存在廣泛的使用價值。現在已經應用數據挖掘技術的領域都是信息量大、環境復雜、需要知識幫助進行管理和決策的領域。下面介紹一些目前比較活躍的應用方向摘要:

(一)在金融數據分析中的應用。多數銀行和金融機構都提供了豐富多樣的儲蓄,信用,投資,保險等服務。他們產生的金融數據通常比較完整、可靠,這對系統化的數據分析和數據挖掘相當有利。在具體的應用中,采用多維數據分析來分析這些數據的一般特性,觀察金融市場的變化趨向;通過特征選擇和屬性相關性計算,識別關鍵因素,進行貸款償付猜測和客戶信用分析;利用分類和聚集的方法對用戶群體進行識別和目標市場分析;使用數據可視化、鏈接分析、分類、聚類分析、孤立點分析、序列模式分析等工具偵破洗黑錢和其他金融犯罪行為。

(二)在電力業的應用。在電力行業中,數據挖掘技術主要用于指導設備更新、業績評估、指導電力企業的建設規劃、指導電力的生產和購買、指導電力的調度等。數據挖掘在電力企業的其它方面也有巨大的用處,比如說指導項目管理、平安管理、資源管理、投資組合管理、活動分析、銷售猜測、收入猜測、需求猜測、理賠分析等。而且當使用數據挖掘系統時,用戶會對模型進行調優和定制。這將會逐步積累符合企業自身需要的模型庫,成為企業知識庫的重要組成部分。

(三)在零售業中的應用。零售業是數據挖掘的主要應用領域,這是因為零售業積累了大量的銷售數據,如顧客購買史記錄、貨物進出、消費和服務記錄以及流行的電子商務等等都為數據挖掘提供了豐富的數據資源。零售數據挖掘有助于劃分顧客群體,使用交互式詢問技術、分類技術和猜測技術,更精確地挑選潛在的顧客;識別顧客購買行為,發現顧客購買模式和趨向,進行關聯分析,以便更好地進行貨架擺設;改進服務質量,獲得更好的顧客忠誠度和滿足程度;提高貨品的銷量比率,設計更好的貨品運輸和分銷策略,減少商業成本;尋找描述性的模式,以便更好地進行市場分析等等。

(四)在醫學上的應用。近年來,生物醫學探究有了迅猛地發展,從新藥的開發到癌癥治療的突破,到通過大規模序列模式和基因功能的發現,進行人類基因的識別和探究。在人類基因探究領域具有挑戰性的新問題是從中找出導致各種疾病的特定基因序列模式。由于數據挖掘中已經有許多有意義的序列模式分析和相似檢索技術,因此數據挖掘成為DNA分析中的強有力工具。利用數據挖掘技術在DNA數據的分析探究中可以進行DNA序列間的相似搜索和比較,對同時出現的基因序列的相關分析,遺傳探究中的路徑分析等。近期DNA分析的探究成果已經促成了對許多疾病和殘疾基因成因的發現,以及對疾病診斷、預防和治療的新藥物、新方法的發現。

(五)在高校和科研單位以及其他領域的應用。主要是用于海量信息數據的抽取,提供給教研和科研人員有價值的數據。比如在數字圖書館方面可以引入數據挖掘技術。同時還可以應用的電子商務等等眾多領域。

第2篇

關鍵詞:數據挖掘 大數據 市場營銷 企業決策

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2014)02-0080-02

數據挖掘又稱數據庫中的知識發現,是目前人工智能和數據庫領域研究的熱點問題。數據挖掘己廣泛地應用到社會的各個領域和行業,如商業領域中的客戶關系、產品生產、市場營銷等;金融領域中的股票交易市場、投資評估等;天文學領域的氣象預報、氣象災害預測等;教育領域的高校學生管理、高校畢業生就業分析、高校教學質量的評估等。可以說,數據挖掘實是處在知識創造過程中最核心的位置,因此做好數據挖掘工作具有十分重要的意義。

1 數據挖掘的定義和本質

對于數據挖掘一般有兩種定義,從廣義上講,數據挖掘,又稱數據庫中的知識發現,是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程,就是從大型數據集中挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的過程。原始數據可以是結構化的,如關系數據庫中的數據;也可以是半結構化的,如文本、圖形和圖像數據;甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現的知識可以被用于信息管理,查詢優化,決策支持和過程控制等,還可以用于數據自身的維護。從狹義上講,數據挖掘則是指從特定形式的數據集中提煉知識的過程。

數據挖掘的本質是很偶然的發現非預期但很有價值的信息。這說明數據挖掘過程本質上是實驗性的。數據挖掘的一個特定屬性就是要處理的是一個大數據集。這就意味著,由于可行性的原因,我們常常得到的只是一個樣本,但是需要描述樣本取自的那個大數據集。數據挖掘所得到的信息應具有先前未知、有效和實用三個特征。

2 數據挖掘的發展背景

在這個信息爆炸的時代,如何從信息的大海中發現及時有用的知識,提高信息利用率呢?要想使數據真正成為一個公司的資源,只有充分利用它為公司自身的業務決策和戰略發展服務才行,否則大量的數據可能成為垃圾,甚至成為包袱。因此,面對人們被數據淹沒卻饑餓于知識的挑戰,數據挖掘和知識發現技術應運而生,并得以蓬勃發展,越來越顯示出其強大的生命力。

數據挖掘技術是人們長期對數據庫技術進行研究和開發的結果。激發數據挖掘的開發、應用和研究有如下四個主要的技術理由:(1)超大規模數據庫的出現,例如商業數據倉庫和計算機自動收集的數據記錄;(2)先進的計算機技術,例如更快和更強大的計算能力和并行體系結構; (3)對巨大量數據的快速訪問;(4)對這些數據應用精深的統計方法計算的能力。數據挖掘的核心模塊技術歷經了數十年的發展,其中包括數理統計、人工智能、機器學習。今天,這些成熟的技術,加上高性能的關系數據庫引擎以及廣泛的數據集成,讓數據挖掘技術在當前的數據倉庫環境中進入了實用的階段。

國內對數據挖掘的研究晚于國外。國家通過自然科學基金對數據挖掘的研究進行支持,很多科研單位和院校都在這個領域獲得了豐碩成果,這些單位包括中科院、清華大學、中國科大、復旦大學等,他們的成果為我國在此領域的發展起到了重要作用,得到了學術界的高度重視。

3 數據挖掘常用的方法

利用數據挖掘進行數據分析常用的方法主要有分類分析、回歸分析、聚類分析、預警分析、Web頁挖掘等,它們分別從不同的角度對數據進行挖掘。

(1)分類分析。客戶細分需要進行客戶特征分析,即用數據來描述或給出客戶或潛在客戶特征的分析過程。它可以應用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業機會。

(2)回歸分析。如何使用數據挖掘來對不同的旨在保留客戶的活動中進行建模將對整個客戶保持工作起著重要的作用,這也就是流失模型價值所在。流失模型能預測賬號在被激活后減少或停止使用一種產品或服務的行為。它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。

(3)聚類分析。通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,更好地了解自己的客戶,向客戶提供更合適的服務。它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。

(4)預警分析。數據挖掘方法可以為風險分析建立分類定位模型。在企業危機管理及其預警中,管理者更感興趣的是那些意外規則。風險分析是提品或服務時存在潛在損失的行業所特有的。常見的風險類型出現在銀行業和保險業,銀行在放貸時存在金融風險。利用風險分析可以預測一個對象如期還貸或不還貸的可能性。一種貸款如抵押貸款或汽車貸款是安全貸款,另一種貸款如信用卡貸款為不安全貸款。

(5)Web頁挖掘。Web因其易于導航、方便鏈接,融圖形、音頻、視頻信息于一體的優越特性,迅速流行于全球,所載信息量巨大。Web頁挖掘是利用數據挖掘技術從萬維網的海量信息和數據中提取各種有用模式和信息,其中涉及到Web技術、數據挖掘、計算機語言學、信息學等多個領域的專業知識。對于企業而言,可以通過Web頁挖掘、收集與企業生存相關的社會環境信息、市場信息、競爭對手信息、客戶信息等,及時對外部環境信息和內部經營信息作出反饋和決策,未雨綢繆,以最快的速度解決企業面對的各種危機和潛在問題。

4 數據挖掘的社會需求和應用

人類早已步入信息社會,信息的重要性毋庸置疑。如何能在信息的海洋中迅速提取那些于我有價值的信息是生存的必要本領和競爭的必要手段,這就需要進行數據挖掘。具體而言,數據挖掘的社會需求和應用主要有表現在四個方面,即輔助研究,改進生產流程,優化市場營銷,提高競爭優勢。

(1)輔助研究。數據挖掘的輔助研究功能主要表現在醫藥和生物研究領域。數據挖掘技術可以協助研究人員快速分析巨量的醫學數據和醫生診斷經驗,發現隱藏在海量數據背后的新的、具有學術價值的醫學信息,為新藥的發現提供一種新的思路和方法,幫助科研人員在大的數據庫中發現隱含的知識,更好、更快、更有效地決策,加快藥物研發速度,提高藥物研發水平。此外,數據挖掘理論中的序列模式分析和相似檢索技術等,已經被認為是DNA分析的有效工具,研究者們正在研究如何利用該技術從已經測得的基因數據庫中找出各種疾病特定基因序列模式。數據挖掘技術還可以應用到醫學圖像分析中,借助于這一技術,圖像特征能夠實現自動提取和模式識別。更加令人欣喜的是,數據挖掘技術在醫療行業的應用,不僅可以協助醫生更加準確地對病人進行診斷,還能預測醫療試驗、外科手術和藥物治療的效果,對于緩和醫患關系,節省治療成本等都能起到積極作用。

(2)改進生產流程。數據挖掘改進生產流程的功能主要體現在工業領域。目前,數據挖掘已經成功地應用于從晶片制造到咖啡烘焙等一般的生產流程,用領域非常廣泛。數據挖掘在改進生產流程中的應用概括地講就是提取出影響生產進度的因素,避免生產的非正常中斷,優化成產,從而節約成本。首先是提取數據,這些數據既包括能產生正面結果的數據,也包括產生負面結果的數據。其次是選擇決策樹算法依據數據判斷出最重要的變量,再經過審定保留那些具有預測能力的變量。最后是進行建模與評估,形成生產規則。需要注意的是,由于不同工廠間的具體情況不同,這些規則并不能從一家工廠直接復制到另外一家工廠,因此數據挖掘工作不是一勞永逸的,應在成功的基礎上不斷進行研究。

(3)優化市場營銷。由于信息的爆炸式增長,商業領域累積的數據庫越來越大,不僅占用空間,且無法直接增加價值,由此人們認識到大量數據并非就是大量的信息,數據分析與萃取勢在必行。因此,數據挖掘技術從一開始就是為應用而產生的,且迅速應用到了市場營銷領域。世界上許多具有創新性的公司都采用數據挖掘的方式改進產品的推廣模式,改善營銷、銷售、顧客服務營運上的不足,尋找最有價值的客戶,以最小的成本獲取最大的利益。例如銀行可以通過分析客戶的銀行賬戶余額、客戶已擁有的銀行產品以及所處地點和信貸風險等標準來評價記錄檔案,這些評價可用于確定客戶購買某一具體產品的可能性,使得管理人員不必一一分析基礎數據,大大提高了工作效率。對于零售商而言,可以利用數據挖掘技術收集并分析上百萬個交易數據,為各分店進行每周和每日的銷售預測,還可協助制訂季度銷售預測、用人計劃、存貨管理、年度預算等,甚至還能幫助為新的分店選址。以美國擁有1100多家分店、年銷售額近110億美元的Staples連鎖零售商店為例,它就是運用數據挖掘方法成功對各家分店進行管理,它采用的數據包括歷史銷售數據、客戶(包括商戶和家庭)的統計數據、分店所處的地段特征及該地段的競爭水平等一系列海量數據。卡夫食品公司也是通過對擁有3000萬客戶資料的數據庫進行深入挖掘,得以了解特定客戶的興趣和口味,并以此為基礎向他們發送特定產品的優惠券,并為他們推薦符合客戶口味和健康狀況的卡夫產品食譜。

數據挖掘在市場營銷中的應用是基于“消費者過去的行為是今后消費傾向的最好說明”這一基本假定,通過搜集和分析消費者消費行為的大量信息,以確定消費群體和個體的消費習慣、消費熱點、消費層次和潛在的消費需求等,以此為基礎,有針對性地進行特定內容的定向營銷,不僅節約了營銷成本,還大大提高了營銷效果,為企業帶來更多利潤。

(4)提升競爭優勢。在市場經濟比較發達的國家和地區,許多公司都開始在原有信息系統的基礎上通過數據挖掘對業務信息進行深加工,以構筑自己的競爭優勢。數據挖掘在提升企業競爭優勢上主要包括兩個方面,一是提升企業自身實力,二是規避外部風險,具體來說主要包括分析企業內部經營信息,搜集外部環境信息,創新優質產品和服務,改善和維護客戶關系,進行企業供應鏈管理,識別風險和欺詐,控制和化解危機等。

5 數據挖掘需要注意的問題

(1)對數據的要求。由于大多數運營商面臨的數據在質量、完整性和一致性方面存在很多問題,因此在利用這些數據進行數據挖掘之前,必須先對其進行抽取、凈化和處理。

(2)對人員素質的要求。統計數據挖掘分析系統必須與實際緊密相聯,在數據挖掘的多個環節中,都要求使用和分析人員不僅僅具備數據挖掘的相關知識,還必須有對企業經營管理流程和行業背景的深刻理解。

(3)數據挖掘的有效性。數據挖掘存在較長的應用周期,數據挖掘所發現的知識和規則必須讓決策者理解并采納,才能將知識轉化為生產力,并通過實踐不斷檢驗和完善數據挖掘所產生的模型和規則,以使模型更具實用價值。

(4)數據庫類型的多樣性。一些數據庫可能包含復雜的數據對象、超文本和多媒體數據、空間數據、時間數據或事務數據。由于數據類型的多樣性和數據挖掘的目標不同,指望一個系統挖掘所有類型的數據是不現實的。為挖掘特定類型的數據,應當構造特定的數據挖掘系統。同樣,對于不同類型的數據,應當有不同的數據挖掘系統。

(5)數據挖掘的局限性。雖然數據挖掘工具使用戶不必再掌握高深的統計分析技術,但用戶仍然需要知道所選用的數據挖掘工具是如何工作的,它所采用的算法的原理是什么。選用的技術和優化方法會對模型的準確度和生成速度產生很大影響。數據挖掘永遠不會替代有經驗的商業分析師或者管理人員所起的作用,它只是提供一個強大的工具。每個成熟的、了解市場的公司都已經具有一些重要的、能產生高回報的模型,這些模型可能是管理人員花了很長時間,作了很多調查,甚至是經過很多失誤之后得來的。數據挖掘工具要做的就是使這些模型得到的更容易,更方便,而且有根據。

6 結語

總之,數據挖掘作為一個新興的多學科交叉應用領域,正在各行各業的決策支持活動扮演著越來越重要的角色。只有從數據中有效地提取信息,從信息中及時地發現知識,才能為人類的思維決策和戰略發展服務。

參考文獻

[1]陳文偉,等.數據挖掘技術[M].北京:北京工業大學出版社,2002.

[2]朱明,數據挖掘.合肥:中國科技大學出版社2002.

第3篇

本課的教學對象為七年級學生,這個年齡段的學生自主和獨立意識較強,具備一定的信息搜集、處理、表達能力,喜歡在學習的過程中體驗和理解事物,但分析思考問題缺乏深度。在日常學習、生活中,學生經常要對數據做搜集、整理、運算、統計和分析工作,但他們的認知大多只停留在表層,僅學會了數據加工的一些基本操作,缺乏從數據挖掘角度分析數據的意識,更不會運用統計學方法尋找蘊藏在數據之中的規律,借助它解決學習和生活中的實際問題。

學習內容分析

本課是蘇科版七年級初中信息技術第三章第3節的內容,主要包括“數據挖掘的作用”和“數據挖掘的過程”兩個部分,可深入細分為“什么是數據挖掘”“數據準備”“數據挖掘”“規律表示”四個內容。教學中,為了讓學生深刻體會數據挖掘的意義和價值,教師應鼓勵他們對數據進行多角度加工與分析,找到規律或有用的信息,用恰當的方式直觀地表達出來,學會搜集、分析身邊的數據,用數據說話,讓數據挖掘更好地服務于生活與學習。

教學目標

知識與技能目標:理解數據挖掘的概念,體會數據挖掘的作用。

過程與方法目標:嘗試進行數據挖掘,經歷數據挖掘的一般過程。

情感態度與價值觀目標:樹立用數據說話、用數據指導生活的思想意識。

教學重難點

重點:數據挖掘的概念及數據挖掘的一般過程。

難點:數據準備及挖掘的過程。

教學策略

數據挖掘是一種強大的分析數據的方法,因涉及到專業軟件和統計學術語、數學模型等,會讓學生難以理解。而日常使用的WPS表格,作為數據挖掘的有效工具,可以讓學生在分析具體數據的過程中,掌握數據挖掘的方法。因此,本節課教學應讓學生從已有經驗出發,運用WPS表格中的簡單工具,學習數據挖掘的一般方法。

“數據挖掘”對學生而言,是一個全新的概念,概念的建構需要一步步地不斷累積,從表層到內涵,逐步深化。學生只有在了解了“數據挖掘”的基本含義,并嘗試挖掘的基礎上,才能體會其作用和意義。所以,筆者設計了層層遞進的學習活動(情境再現,感受數據挖掘―案例研習,認識數據挖掘―比較空氣質量,嘗試數據挖掘―同比空氣質量,再探數據挖掘―暢想未來,展望數據挖掘),并且在活動中適時搭建學習所需的“支架”,來幫助學生完成知識的建構。筆者通過一系列的活動,讓學生在做中學,在學中思,在思中用,在情境化的技術活動中,歸納出數據挖掘的方法,從而樹立用數據說話、用數據指導生活的思想意識。

教學過程

1.情境再現,感受數據挖掘

活動1:情境再現,感受數據挖掘。

①猜一猜:不同的人群瀏覽同一個網頁時,所看到的內容是否一致。

②觀察鳳凰網的廣告區域截圖,在組內交流(如下頁圖1,不同人群瀏覽的同一網頁,推送的廣告不同)。

③京東為什么能夠根據個人喜好推送商品?

小結:京東在挖掘和分析用戶瀏覽行為的基礎上,進行定向產品推廣。

設計意圖:思維總是由問題開始的,激發問題,能讓學生積極主動地參與到學習活動中。以京東廣告推送功能來設置情境,把兩種不同的瀏覽行為對照比較,設置懸念,第一時間抓住學生,激發學生學習新知識、新技術的渴望。

2.案例研習,認識數據挖掘

活動2:學生觀看視頻,并思考、總結。

①安保為什么使用熱力圖(如圖2)?(對百度的定位數據、搜索數據進行挖掘,把握人群密集點動態趨勢,幫助警方提前疏導、化解安全風險)

②百度大數據對旅游有什么作用(如圖3)?(對用戶搜索數據深入挖掘,預測熱門旅游景點)

③導航是如何規劃路徑的(如圖4)?(對道路環境、天氣情況、特征日等數據進行挖掘和分析,得出每條道路在不同環境或不同時間的路況規律,確定最優的交通路線)

師生對數據進行分析、總結(如表1)。

小結:數據挖掘是指從大量數據中尋找其規律的技術。數據挖掘的目的主要有三個:把握趨勢、預測和求最優解。

設計意圖:選取日常生活中運用數據挖掘的三個典型事例視頻――熱力圖、旅游預測、導航,借助半成品表格作為輸出支架,歸納出數據挖掘的概念和數據挖掘的三個目的。體會挖掘數據價值性的同時,認識數據加工的重要性,為數據挖掘的學習做好鋪墊。

3.比較空氣質量,嘗試數據挖掘

師:圖5中空氣質量預報實現了數據挖掘的哪一種目標?(把握趨勢)鹽城市空氣質量如何?借助熟悉的WPS表格工具,嘗試挖掘空氣質量狀況。

活動3:比較鹽城、秦州、淮安等周邊城市空氣質量狀況。

①登錄中國空氣質量在線監測分析平臺(http:///historydata/),建立鹽城周邊三市空氣質量狀況工作表(如圖6)。

影響空氣質量的因素很多,AQI指數是衡量空氣質量的重要指標。

教師演示:瀏覽數據,提取數據,組成工作表(如圖7)。

②計算各市4月份空氣質量指數AQI的平均數。(提示:AVERAGE公式使用方法以及自動填充柄的使用)

③比較4月份空氣質量狀況。(結論:質量指數平均值大小依次是鹽城、秦州、淮安)

師:根據質量指數,利用函數工具計算平均數,得出空氣質量狀況,其實就是數據的挖掘。數據挖掘的一般過程如圖8所示。

設計意圖:從全國空氣質量在線監測分析平臺搜集數據,選擇WPS函數工具挖掘數據,并對挖掘結果加以解釋,來建構數據挖掘的一般過程。在嘗試數據挖掘的過程中,學會運用計算思維解決問題,借助流程圖總結挖掘過程,有助于學生從整體上把握知識,進一步促進認知體系的構建。

4.同比空氣質量,再探數據挖掘

師:通過挖掘比較,我們得出鹽城市4月份空氣質量在周邊城市當中最好,各市以前的空氣質量狀況如何?

活動4:比較各市2014年、2015年空氣質量數據,說明哪一年空氣質量更好(如圖9)。

①在選定城市后,思考如何同比質量。

②選取函數或圖表工具,完成挖掘。

③規律表示。

④從“我的數據分析報告”中的各組中任選城市,從“2014年數據、2015年數據”工作表中,選取數據到“同比空氣質量”進行分析(如下頁表2)。

小組匯報挖掘過程和得出的結論,形成對數據挖掘的新認識。

小結:用平均數比較,各市兩年的數據基本相同,但是合格月份數不一定相同,同比AQI低的月份數也不相同。學生同比之后發現,2015年空氣質量好于2014年。

設計意圖:學生借助分析報告,以分組合作的形式,再次經歷挖掘數據的過程,找到規律或有用的信息,加深對挖掘過程的理解。鼓勵學生對數據進行多角度的加工與分析,選擇合適的工具進行挖掘,體現了多元化的思想。

5.暢想未來,展望數據挖掘

觀看視頻(如上頁圖10,圖10中左圖為京東慧眼的視頻截圖,右圖為基因測序的視頻截圖),想象:數據挖掘技術的廣泛應用,對生活會產生怎樣的影響?

如今,數據挖掘改變了傳統的生活模式,未來將會產生更加深遠的影響。因此,我們應學會搜集、分析身邊的數據,用數據說話,挖掘數據創造出更智慧的生活方式。

設計意圖:通過視頻播放,讓學生深度感受“數據挖掘”與生活息息相關,挖掘數據將給人們生活帶來的改變,培養學生搜集、分析身邊的數據,用數據說話的意識。

點 評

如今,數據挖掘已被廣泛應用在各個領域。什么是數據挖掘?顧名思義就是從龐大的數據中挖掘寶藏(信息、知識、見解等)的方法和過程。顯然,對于初學者而言,這是一個全新的概念,僅靠上述說明難以理解它的含義。在傳統教學中,教師往往讓學生背誦記憶這些內容,學生并沒有形成概念的深層理解。為此,董老師從理解數據挖掘出發,選取數據挖掘的三個典型事例――熱力圖、旅游預測、導航,精心組織學習活動,在半成品表格的引導下,歸納出數據挖掘的三個目的――把握趨勢、預測和求最優解,體會挖掘數據的價值,進而概括出數據挖掘的概念。

第4篇

Abstract: Data mining,also known as knowledge discovery in databases,aims to "dig out interesting understandable knowledge" in large amounts of data.In recent years,data mining has drawn much attention and has been widely used in many ways,and achieved good results. This article focuses on applications of data mining technology in industrial production,business,networking,medical areas,and introduces some successful application cases.

關鍵詞:數據挖掘;知識發現;應用案例

Key words: data mining; knowledge discovery; applications cases

中圖分類號:TP39 文獻標識碼:A文章編號:1006-4311(2010)36-0095-01

0引言

近年來,數據挖掘引起了各界的極大關注,其主要原因是存在大量數據,并且迫切需要將這些數據轉換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應用,包括商務管理、生產控制、市場分析、工程設計和科學探索等。數據挖掘技術目前在很多領域都有成功的應用案例,具體包括:

1在工業生產方面

工程中豐富的數據資源為數據挖掘的應用提供了廣闊的空間,具體應用可以概括為以下三個方面:①故障診斷。故障診斷是數據挖掘在工程領域應用非常活躍的一個方向。基本思路就是利用數據挖掘技術得到產生故障的特征數據、故障規則等,對故障進行檢測和診斷。對機器故障進行診斷的過程,其實也就是模式獲取及模式匹配的過程。②生產優化。生產優化可概括為:在滿足必要約束的條件下,改變生產的工藝參數等,使某種與經濟效益相關的目標函數達到極值。在生產優化實施中,對大量生產數據進行挖掘找到產品質量與工藝參數的模型關系,分析在多變量作用下的產品質量規律,幫助質檢人員、工藝人員弄清影響產品質量的主次因素,提出相應的對策,進一步調整工藝參數,進行質量控制,為實現生產操作優化提供指導。另一方面也為研發新產品提供了數學模型,可以模擬在不同工藝參數下產品的性能特征。③豐富知識庫和決策支持系統。工業生產過程的復雜性和生產企業對自身要求(提高資源利用率、降低成本、降低能耗)的進一步提高,使以計算機為工具的更為先進的智能的決策和控制手段得以推廣。但智能的決策和控制通常必須要以知識庫作為支持,此時僅僅依靠專家對知識的積累是遠遠不夠的,數據挖掘這一有效的知識獲取技術正好可以彌補這一缺失。數據挖掘技術可以將提取的潛在模式、規則評估檢驗后歸入知識庫,使得先進控制策略充分發揮作用,進一步提高整個生產過程的控制水平。

2在商業方面

2.1 客戶盈利能力計算客戶盈利能力有助于挖掘有價值客戶,公司各個部門之間對客戶盈利能力可能有不同理解。分析顧客的忠誠度,可以利用數據挖掘來挖掘忠誠度高的客戶;通過數據挖掘技術可以有效計算客戶盈利能力;還可以利用數據挖掘預測未來的客戶盈利能力。

2.2 客戶的保持和流失企業的增長和發展壯大需要不斷獲得新的客戶并維持老的客戶。不論企業希望得到的是哪類客戶,數據挖掘都能幫助識別出這些潛在的客戶群,并提高市場活動的回應率,做到有的放矢。現在各個行業的競爭都越來越激烈,企業獲得新客戶的成本正在不斷上升,因此建立客戶流失預測模型,得出即將流失的客戶,對他們采取有效措施進行挽留,從而有效減少客戶流失就顯得越來越重要,數據挖掘可以幫助發現打算離開的客戶,以使企業采取適當的措施挽留這些客戶。

2.3 客戶獲得在沒有利用數據挖掘技術時,客戶獲取的傳統方法就是選出一些感興趣的人口調查其屬性,獲取這些人口的特征即可。但隨著數據量的增大,傳統的方法具有不可實現性。利用數據挖掘在擴展客戶市場活動時,利用數據挖掘技術挖掘出潛在的客戶名單,在客戶名單上列出可能對某些產品感興趣的客戶信息,便可更方便的獲取更多的客戶。

2.4 交叉營銷交叉營銷是指在向現有客戶提供新的產品和服務的營銷過程。如那些購買了嬰兒奶粉的客戶會對你的其他嬰兒產品感興趣。交叉營銷的升級形式為:升級營銷,指向客戶提供與他們已購買的服務相關的新服務。

3在網絡方面

隨著電子商務的普及,各大商務網站已經大規模使用數據挖掘技術,并且迅速從中取得商業價值。數據挖掘幫助產品經理們改善用戶體驗,在很多大的互聯網公司,這實際上成為了輔佐公司戰略的數字神經系統。

在網游業,數據挖掘最成功的應用就是盛大的“平臺”戰略。也就是把任意一款游戲拿到其從2004年就開始建立的一套“評測”體系去走流程,就可以知道這款游戲到底會不會受到玩家的歡迎。其根據,就來自于盛大在過去運營的上百款游戲的用戶數據的記錄、分析、關聯、最后建立模型。基于這套評測流程,盛大就可以對一款新游戲做出判斷,到底該不該運營、如何去改進、潛力有多大,都有了一套從數字出發的答案。

4在醫藥業方面

近年來,數據挖掘技術在醫學領域中的應用越來越廣泛。在疾病診斷、治療、器官移植、基因研究、圖像分析、康復、藥物開發、科學研究等方面都獲得了可喜的成果。南加州大學脊椎病醫院利用Information Discovery進行數據挖掘,該技術已應用到腫瘤學、肝臟病理學、肝炎的生存幾率預測、泌尿學、甲狀腺病例診斷、風濕病學、皮膚病診斷、心臟病學、神經心理學、婦科學、產科學等醫學領域。MiroslavKubat等針對心電圖、腦電圖等醫學推測信號的分析,提出使用決策樹來初始化神經絡,可以大大提高對測試樣本的分類準確率。

在國內,中南大學的陳愛斌、夏利民等利用boosting機器學習方法對人臉檢測進行了研究。第四軍醫大的陳雪峰等利用數據庫和數據挖掘技術建立的惡性血液病數據庫分析系統,不僅可輔助醫生做出初步診斷而且對數據具有強大挖掘和分析功能。

第5篇

摘要:隨著科學技術的快速發展以及互聯網、云計算、數據挖掘等技術的廣泛應用,生產過程中的海量數據不再是一種負擔,而已經成為了一種資源。物流人逐漸認識到,如果不能對海量的數據進行有效的分析、研究和應用,那將是巨大的資源浪費。本文以數據挖掘技術作為切入點,分析數據挖掘技術的特點及功能,提出了數據挖掘技術在物流主要環節中的應用,對于改良物流企業管理、提高各環節工作效率、搭建信息共享平臺充分利用零散數據、降低物流營運費用等方面具有一定影響。

關鍵詞:數據挖掘;物流;應用

隨著科技和經濟的快速發展,物流市場日趨完善,在國內及國際物流市場的競爭機制的作用下,物流企業對于數據挖掘技術的應用表現出了極大的興趣。大多數生產型企業與零售企業為了快速發展經營規模、迎合當前物流市場的發展,迫切的需要借助數據挖掘技術來分析企業存在的問題并據此優化企業規劃,提升企業的市場競爭力。深入研究數據挖掘技術及其在物流管理、倉儲、運輸、配送、信息共享等環節的中的應用勢必會進一步加快物流行業的快速發展。

一、數據挖掘概述

1.數據挖掘的歷史。互聯網的快速發展及計算機技術的廣泛運用,使人們獲取信息及搜集數據的能力得到了極大提高,數以萬計的數據庫被運用于工程開發、企業管理、政府辦公、科學研究等領域,并愈演愈烈,與此同時也產生了一個新的挑戰:如何面對信息爆炸時代的海量信息。如果海量信息不能被及時的整理、分析并加以利用,便成為企業的拖累,也將成為新形式下的巨大資源浪費。在人工智能取得重大進展的前提下,數據庫中的知識發現(KDD:KnowledgeDiscoveryinDatabases)應運而生,從而產生了數據挖掘技術,并很快得以蓬勃發展,越來越顯示出其強大的生命力。1989年8月召開的第11屆國際聯合人工智能學術會議上首次提出了數據挖掘這一概念。在隨后的1991年、1993年和1994年分別舉行KDD專題討論會,集中討論海量數據分析算法、數據統計、知識運用、知識表示等問題[1]。1998年在美國紐約舉行的第四屆知識發現與數據挖掘國際學術會議不僅進行了學術討論,并且有30多家軟件公司展示了他們的數據挖掘軟件產品,不少軟件已在北美、歐洲等國得到應用。2.數據挖掘的概念。數據挖掘(英語:Datamining),又譯為資料探勘、數據采礦,它是數據庫知識發現(KDD)中的一個步驟[2]。一般是指從大量的數據中自動搜索隱藏于其中的有著特殊關系性的信息的過程,它將人們應用數據的方式從原本簡單的查詢提升至在數據里挖掘與發現知識以對決策行為提供支持。數據挖掘技術是面向應用的,它不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。3.數據挖掘的特點。根據數據源挖掘的目的可將數據挖掘的特點總結為:(1)分析的數據信息量非常巨大;(2)面向對象(用戶)一般是隨機查詢,難以達成精確的查詢要求;(3)在數據快速變化時,需要反映動態數據,以提供決策支持;(4)數據挖掘服從大樣本的統計規律,其分析結果難以適用于所有數據。4.數據挖掘的功能。預測/驗證功能:指用數據庫的若干已知字段預測或驗證其他未知字段值。預測方法有統計分析方法、關聯規則和決策樹預測方法、回歸分析預測方法等。描述功能:找到描述數據的可理解模式。描述方法包括以下幾種:數據分類、回歸分析、簇聚、概括、構造依賴模式、變化和偏差分析、模式發現、路徑發現等。

二、數據挖掘技術在物流主要環節的應用

1.數據挖掘在物流管理中的應用。對于物流管理而言,妥善處理每個環節所產生的大量數據信息,能夠讓決策者做出更為適合企業發展的決定,掌握更為科學的解決問題的方法。數據挖掘技術的引入,可以通過建立大型數據庫,利用數據挖掘技術及時、準確的分析各種信息,并從中獲取新穎且有效的信息,再通過可理解的模型進行深層次處理,進而為客戶提供個性產品和服務,提高客戶滿意度。一般應用步驟為:(1)建立大型數據庫;(2)搭建相關系統模型;(3)進行大數據分析并獲得潛在信息;(4)獲得最適合企業發展的決策。2.數據挖掘在物流倉儲中的應用。物流倉儲涉及入庫、出庫、盤點、庫存控制等多個環節,而這些環節都將產生大量數據,這些數據看似是倉儲管理的負擔,卻也蘊藏著對優化庫管極為有價值的信息,利用數據挖掘技術對有價值的信息進行處理,從而解決庫存管理中存在的問題。具體表現為:(1)根據總成本最小化原理解決倉庫的選址問題;(2)采用關聯模式分析解決合理安排貨位問題;(3)采用神經網絡算法解決揀選最佳路徑問題;(4)采用分類算法解決庫存成本控制問題;(5)分析客戶個性需求解決提高客戶滿意度問題。3.數據挖掘在運輸配送中的應用。物流運輸配送管理,包括運輸配送計劃編制、運輸配送路徑的選擇、車輛的選擇、混搭配載等問題,利用數據挖掘技術從運輸配送大數據中提取出潛在而有價值的信息,從而指導運輸配送各個方面的改進及優化。具體應用的方面包括:(1)通過現有數據進行顧客消費分析及預測;(2)根據歷史同期水平比較進行經營成效分析及評價;(3)通過動態數據研究掌握車輛狀態及事故預測;(4)通過對線路數據分析優化運輸配送路徑。4.數據挖掘在信息共享中的應用。物流信息管理系統的建立在物流企業管理中發揮了巨大的作用,但因建設需求、建設時間及管理體制的不同,各物流企業間形成了自成體系、各自獨立的信息孤島,導致信息資源的巨大浪費[4]。數據挖掘技術的引入能夠促進建立完善的信息共享機制,進而提高物流企業信息共享程度,可以從以下三個方面來分析:(1)政府牽頭搭建基于數據挖掘技術的城市物流資源共享平臺,對城市物流進行有效監督,實現一體化規劃管理;(2)行業牽頭搭建基于數據挖掘技術的行業物流資源共享平臺,物流信息及先進技術得以共享,達到提高物流效率的目標;(3)互聯網公司牽頭搭建基于數據挖掘的大數據共享平臺,將政府、企業及客戶的信息全部整合,以實現大數據共享要求。

作者:張貴彬 單位:陜西科技大學鎬京學院

參考文獻

[1]朱揚勇.數據挖掘技術現狀[J].中國傳媒技術,2006,(12):11-14.

[2]張貴彬,呂紀榮,郭小艷.數據挖掘技術在物流企業信息共享中的應用[J].企業改革與管理,2016,(5X):58-59.

第6篇

數據挖掘技術在商品銷售領域得到了越來越廣泛的應用。商品銷售者不僅明白搜集顧客數據的重要性,而且意識到真正的目的在于能夠針對顧客提出科學的、前瞻性的商品銷售方案。數據挖掘技術能有效地幫助商品銷售工作者透過表面上無關聯的顧客層數據,發現數據之間的內在有意義的聯系,從而不僅能對顧客需求做出及時反應,還能對顧客需求進行有效的預測。

一、數據挖掘的基本原理

數據挖掘就是利用數學模型、統計和人工智能技術等方法,把一些高深、復雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,因而可專注于自己所要解決的問題。數據挖掘按其功能可分為:描述性數據挖掘方法和預測性數據挖掘方法。

1描述性數據挖掘

在取得大量的數據之后,首先要對數據進行總結,也即數據的泛化;在泛化的基礎上再對數據進行高層次的處理,包括數據的聚集、關聯分析等。

(1)數據總結:數據總結的目的是對數據進行濃縮,給出它們的緊湊描述。數據泛化是一種將數據庫中的有關數據從低層次抽象到高層次的過程。

(2)聚集:聚集的目的是要盡量縮小屬于同一類別的個體之間的距離,而盡可能擴大不同類別個體間的距離。層次法、密度法、網格法、神經元網絡和K-均值是比較常用的聚集算法。

(3)關聯分析:關聯分析是尋找數據的相關性。關聯規則是尋找在同一個事件中出現的不同項的相關性,其核心是使用Apriori算法,找出事物的相應支持度和置信度,最后找到相應的關聯規則。

2預測型數據挖掘

在預言模型中,把我們要預測的值或所屬類別稱為響應變量、依賴變量或目標變量;用于預測的輸入變量是預測變量或獨立變量。主要通過分類、回歸分析、時間序列來建立預測模型。

二、商品銷售領域數據挖掘的依據

在商品銷售領域采用數據挖掘是商品銷售發展到一定階段的必然要求,它有助于提高商品銷售效率,降低商品銷售成本。其理論依據有消費者消費行為、細分市場理論、顧客關系、顧客數據庫和直接商品銷售。

在制定商品銷售計劃之前,商品銷售者需要研究消費者市場和消費者行為。在分析消費者市場時,公司需要了解市場情況,購買對象,購買目的等因素。通過搜集顧客消費數據,采用數據挖掘技術,可以簡潔、明了地得到這些信息。

三、商品銷售中的數據挖掘過程

1商品銷售目標理解

在進行數據挖掘之前,必須從商品銷售角度去分析要達到的目標和需求,也即要分析什么商品銷售問題,達到什么商品銷售目標。首先對商品銷售現狀進行分析,找出存在的問題,并確定需要實現的營銷目標,再將商品銷售目標轉換成數據挖掘目標,然后將這種知識轉換成一種數據挖掘的問題定義,并設計一個達到目標的初步計劃。

2數據理解

先搜集初步的數據,然后進行熟悉數據的各種活動,包括識別數據的質量問題,找到對數據的基本觀察,或假設隱含的信息來檢測感興趣的數據子集。

3數據準備

首先進行數據抽樣,從大量數據中篩選出一些相關的樣板數據子集。通過對數據樣本的精選,不僅能減少數據處理量,節省系統資源,使數據更加具有規律性。然后,進行數據探索,通常是所進行的對數據深入調查的過程,從樣本數據集中找出規律和趨勢,用聚類分析法區分類別,最終要達到的目的就是搞清多因素相互影響的復雜關系,發現因素之間的相關性。最后,需要對數據進行調整,通過上述兩個步驟的操作,對數據的狀態和趨勢有了進一步的了解,這時要盡可能對解決問題的要求進行明確化和進一步的量化。

4建模

這一步是數據挖掘的核心環節。在建模階段,可以選擇和應用各種建模技術,并將其參數校正到優化值。通常,對同一個數據挖掘問題類型有幾種可選用的技術。

第7篇

1數據挖掘技術

1.1數據挖掘相關技術數據挖掘相關技術介紹如下[6]:(1)決策樹:在表示決策集合或分類時采用樹形結構,在這一過程中發現規律并產生規則,找到數據庫中有著最大信息量的字段,從而可建立起決策樹的人工智能及識別技術。(2)聚類分析:聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。(3)關聯分析:關聯分析又稱關聯挖掘,就是在交易數據、關系數據或其他信息載體中,查找存在于項目集合或對象集合之間的頻繁模式、因果、關聯或相關性結構。也可以說,關聯分析是用來發現有關交易的數據庫中不同商品(項)之間的聯系。(4)神經網絡方法:顧名思義,類似于生物的神經結構,由大量簡單的神經元,通過非常豐富和完善的連接組成自適應的非線性動態系統,具有自適應、自組織、自學習、聯想記憶、分布存儲、大規模并行處理等功能。粗集方法:也就是在數據庫里把行為對象列視為元素,將不同對象在某個(或多個)屬性上取值相同定義為等價關系R。其等價類為滿足R的對象組成的集合[5]。

1.2IBMSPSSModelerIBMSPSSModeler是一個數據挖掘工作臺,用于幫助用戶快速直觀地構建預測模型,而無需進行編程。其精密的數據挖掘技術使用戶能夠對結果進行建模,了解哪些因素會對結果產生影響。它還能可提供數據挖掘相關的數據提取、轉換、分析建模、評估、部署等全過程的功能[3]。通常,SPSSModeler將數據以一條條記錄的形式讀入,然后通過對數據進行一系列操作,最后將其發送至某個地方(可以是模型,或某種格式的數據輸出)[3]。使用SPSSModeler處理數據的三個步驟:(1)將數據讀入SPSSModeler;(2)通過一系列操縱運行數據;(3)將數據發送到目標位置。

2客戶流失預測分析

2.1數據預處理數據預處理[6],將需要的客戶投保數據按照業務預測分析的要求,將數據抽取到中間數據中,同時對數據清洗和轉換,滿足業務預測分析要求。每日凌晨調用存儲過程將核心業務系統數據提取到中間數據庫,壽險業務數據與其他數據一樣,存在不安全和不一致時,數據清洗與轉換可以幫助提升數據質量,進而提升數據挖掘進程的有效性和準確性。數據清洗主要包括:遺漏數據清洗,錯誤數據處理,垃圾數據處理[1]。

2.2數據選取數據預處理后,可以從中得到投保人的投保信息,包括投保人姓名,投保年齡(有效保單為當前年齡,無效保單為退保年齡),保費,投保年期,保單狀態等。數據如圖1所示。

2.3客戶流失預測模型建立壽險業務按渠道來分可分為個人保險、團體保險、銀行保險、網銷保險、經代保險五類。由于團體保險在壽險公司發展比較緩慢,團險業務基本屬于停滯階段。結合壽險公司的營銷特點,選定個人保單作為分析的對象,通過IBMSPSSModeler預測模型工具[3],使用決策樹預測模型對客戶流失進行預測分析。

2.4結果分析通過使用IBMSPSSModeler決策類預測模型分析某壽險公司2013年個人客戶承保情況來看有以下規則:(1)投保年數在1年以內,首期保費在0~2000元或大于9997.130保費的客戶比較容易流失。(2)保單終止保單中,女性客戶較男性客戶容易流失。(3)投保年數在2年以上,湖北及河北分支機構客戶流失率比較容易流失。(4)分紅壽險相對傳統壽險,健康壽險的客戶比較容易流失[1]。

3總結

本文在IBMSPSSModeler軟件應用的基礎上,根據現有的壽險業務數據信息,利用數據挖掘的決策樹預測模型,對壽險進行流失規則的分析,比較全面的了解了壽險公司客戶流失的原因,并建立客戶流失的決策樹預測模型,便于公司客戶服務部對現有客戶采取合適的措施防止客戶流失,從而達到保留現有客戶的目的。

作者:梁鋒單位:北方工業大學計算機學院

第8篇

企業積累了大量的客戶信息及資料,但是仍然缺乏對客戶的數據、信息加以分析并增值利用的能力。無法有效地對客戶潛在需求進行分析和分類,不能深入了解客戶群體的特點及其需求的差異,制定出適合于不同客戶群的營銷、服務模式,并做出快速反應。

企業對客戶的流失難以找到很好的管理策略,只了解到客戶流失了,并沒有全面掌握客戶流失的原因、流失的方向和流失客戶的構成;也難以對客戶的流失采用很好的手段來加以控制和管理。潛在客戶的開發上,如何從大量的客戶信息中挖掘出潛在的忠誠客戶,如何營銷開發新客戶?企業多么希望有一雙慧眼,能洞察這些問題,從而在激烈的市場競爭中立于不敗之地。

春秋戰國時期,《鬼谷子》符言第十二就提到:“目貴明,耳貴聰,心貴智。以天下之目視者,則無不見;以天下之耳聽者,則無不聞;以天下之心思慮者,則無不知”。如果能用全天下的眼睛去觀察事物,這樣就沒有看不到的;如果能用全天下的耳朵去聽,這樣就沒有聽不到的;如果能用全天下的心去思考,這樣就不會有什么不知道的。在信息封閉的古代,這僅僅是一個夢想。隨著計算機技術和網絡技術將人類帶入信息社會,這一設想的實現逐漸成為可能。

如何綜合利用這些數據、信息資源為企業管理服務,已經成為企業的新的核心競爭能力。而利用上述大量信息進行分析的主要的一項技術就是數據挖掘。

數據挖掘是上世紀八十年代人工智能轉入實際應用時提出的。數據挖掘(Data Mining)是從大量的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。最大優點在于它以一種更自動化的方式對大量的商業數據進行分析和探索。根據分析內容的類型,對數據進行挖掘的稱為數據挖掘,對網頁內容、結構、web日志等進行挖掘的稱為web挖掘,對文本信息進行挖掘的成為文本挖掘,對圖像、視頻、聲音等進行挖掘的稱為多媒體數據挖掘等。盡管挖掘的資料不同,但技術上都有相同之處。

數據挖掘技術包括三個主要部分:算法和技術、數據、建模能力。數據挖掘一般通過關聯(association)、分類(classification)、聚類(clustering)、預測(prediction)、相隨模式(Sequential patterns)和時間序列(similar time sequences)等手段實現。

關聯是尋找某種事物發生時其他事物會發生的一種聯系,比如發現啤酒和尿布經常被一起購買的例子;分類方法是確定所選數據與預先給定的類別之間的函數關系,通常用的數學模型有二值決策樹神經網絡,線性規劃和數理統計;聚類是識別出事物之間內在的規則,按照這些規則把對象分成若干類;預測是把握分析對象發展的規律,對未來的趨勢做出預見;相隨模式和相似時間序列是分析事物間一種縱向的聯系,分析預測事物發生后其它事物的發生模式。數據挖掘的各項功能互相聯系。

數據挖掘經常采用的技術包括:

關聯規則方法(Market Basket Analysis); MBR方法(Memory Based Reasoning); 聚集檢測(Cluster Detection); 連接分析(Link Analysis);決策樹和規則推理(Decision Trees and Rule Induction); 神經元網絡(Artificial Neural Networks); 遺傳算法(Genetic Algorithms); 多目標線性規劃(MCLP)方法;支持向量機(SVM)方法等。

數據挖掘的實施過程分為如下步驟:

1.確定商業目標

清晰地定義出數據挖掘要服務的商業問題,認清數據挖掘的目的是數據挖掘的重要一步,挖掘的最后結果是不可預測的,但要探索的問題應是有預見的。

2.數據準備

1) 數據的選擇

搜索所有與業務對象有關的內部和外部數據信息,并從中選擇出適用于數據挖掘應用的數據。

2) 數據的預處理

研究數據的質量,數據清洗,為進一步的分析做準備。并確定將要進行的挖掘操作的類型。

3) 數據的轉換

針對挖掘算法、采用的軟件工具,將數據轉換成可用于建立模型分析的格式。整理良好的數據是數據挖掘成功的關鍵。

3.數據挖掘

對所得到的經過轉換的數據進行挖掘,得到挖掘結果。

4.結果分析、評估與展示

圖1 數據挖掘步驟

解釋并評估結果。在所得模型中選取有意義的模型,并且將所得的知識用表格,圖表等可視化其使用的分析方法一般應根據數據挖掘的結果形式和商業目標而定,通常會用到可視化技術。數據挖掘一般步驟的這幾個環節可用圖1表示。

5.知識的同化

將所得的模型、知識應用到實際管理決策中,集成到業務信息系統的組織結構中去。為商業活動中制定決策、措施服務。

近年來,數據挖掘在生物、金融、保險、醫療、零售等行業已在國外得到較為廣泛的應用。

美國的許多商業銀行,保險公司和證券公司在二十世紀九十年代開始將其數據庫改造為數據倉庫并從數據中挖掘和產生新的知識,這些新的知識可以被公司用來制定有效的商業戰略去吸引新的顧客和維持已有的顧客,Mellon銀行使用數據挖掘軟件提高銷售和定價金融產品的精確度,如家庭普通貸款等。

信用卡公司利用數據挖掘確定信譽不好或有潛在信譽風險的客戶,規避信貸風險等。在保險業中,保險政策的制定者想知道什么樣的保險費能吸引更多的顧客。數據挖掘可用來對個人,團體和企業等進行合理的分類,制定不同的費率,使得每一類顧客的保險費對雙方(保險公司和顧客)都有利,這也是保險精算技術力求要解決的問題。由于保險的項目繁多,各公司爭相運用數據挖掘的高招尋找合適各類顧客的價格和政策,其競爭相當激烈。通常競爭的成敗很大程度上依賴于數據挖掘技術的開發深度和運用廣度。

在醫療診斷方面,美國各大醫院已開始對數據挖掘技術在醫療領域的運用進行研究。他們組織計算機數據挖掘人員與醫療人員共同攻關,希望通過數據挖掘技術的應用,實現計算機對個性化的病例的檢測,并實現計算機對個性化病例治療方案的預先選擇。基于對各類疾病惡化(例如腫瘤或癌癥擴散)案例的分析和總結,數據挖掘技術正用于尋找病癥質變的關鍵點,以便為即將質變的病人提供及時的治療方案。

加拿大某電話公司根據其擁有的十多年的客戶數據,總結、分析并提出新的電話收費和管理辦法,制定既有利于公司又有利于客戶的優惠政策。美國著名的國家籃球隊NBA的教練,利用數據挖掘工具臨場決定替換隊員。大約20個NBA球隊使用了IBM公司開發的數據挖掘應用軟件Advanced Scout系統來優化他們的戰術組合。

目前市場上主要的數據挖掘通用軟件有:SAS Enterprice Miner,SPSS Clementine,IBM Intelligent Miner,Oracle Darwin,Angoss KnowledgeSeeker,Cognos Scenario等。

通過數據挖掘,可以為企業理解客戶、了解產品、改進業務流程時帶來好處:

1、為客戶的基礎管理提供決策支持

首先,利用大量的歷史消費數據挖掘各類客戶的消費模式(消費特征),針對不同的消費模式,提出相應的服務策略。客戶消費模式分析是企業更進一步了解客戶的有力手段,是提供有針對性的特色服務的基礎。其次,客戶的細分問題一直是企業的一項工作重點,對大量客戶信息進行有效的客戶細分是制定個性化服務、一對一營銷的工作基礎,而制定有效的客戶細分標準,也是對客戶信息進行合理有效地管理和分析的前提條件。通過數據挖掘對客戶分類信息進行規范化管理,可以為相關客戶分析提供細分客戶的標準。按照一定的標準將客戶進行分類,識別出每一類客戶的基本消費特點。

另外,分析和預測不同客戶在不同業務上的消費潛力,為有針對性地制定合理的營銷、促銷和服務策略提供依據。

2.提高個性化服務,預防客戶流失

對一定時間范圍內所有客戶或某類客戶的消費產品構成進行統計分析,從總體和不同種類產品以及不同種類的客戶群等角度分析客戶的特點(如數量、比例、客戶結構等),了解客戶的潛在需求,通過挖掘分析客戶的流失情況,了解客戶流失的原因和流失客戶的屬性特點等,識別客戶群,建立客戶流失預警模型。在此基礎上建立提高客戶忠誠度的客戶保留管理體系。

3、為產品分析與研發提供決策支持

分析對不同類別的客戶群而言各種產品之間以及客戶消費行為之間的關聯情況。從不同的客戶類型和不同地區來分析各種產品之間的相關性,從而為營銷決策和交叉銷售提供策略上的依據。做產品與客戶的關聯分析,分析用戶和各類產品之間的相關性,分析哪類產品適合某特定消費模式的用戶;從總體和不同種類客戶群等角度分析每種產品的消費特點和發展趨勢以及對新產品的潛力進行預測,了解各種產品的發展趨勢,為企業進一步的產品拓展提供依據。

4、營銷模式分析

分析企業對客戶的各種營銷模式(廣告、現場促銷、WEB/EMAIL 營銷、代銷、批銷、折扣優惠、促進銷售、捆綁銷售等)及其各自特點,并分析每種營銷模式如何與適當的客戶群在適當的時間、地點相結合。從而根據不同客戶類型,有針對性地開展個性化的營銷行動。

第9篇

本文首先對大數據時代的特點進行了介紹,其次對常用的數據挖掘方法進行了闡述,最后提出了展望。

【關鍵詞】大數據 數據挖掘 分類 聚類

大數據(Big Data),也稱為海量數據,是隨著計算機技術及互聯網技術的高速發展而產生的獨特數據現象。現代社會正以不可想象的速度產生大量數據,如網絡訪問,微博微信,視頻圖片,手機通信,網上購物……等等都在不斷產生大量的數據。如何更好的利用和分析產生的數據,從而為人類使用,這是非常重要的科學研究。在大數據時代,更好的利用云計算以及數據挖掘,顯得尤為重要。

1 大數據的概念

大數據,是指無法在一定時間內用常規機器和軟硬件對其進行感知、獲取、管理、處理和服務的數據集合。IBM將大數據的特點總結為三個V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。

即產生的數據容量大。數據主要來源如:E-mail、搜索引擎的搜索、圖片、音頻、視頻、社交網站、微博微信、各種應用軟件和app、電子商務以及電子通信等等。在實際生活中,電子商務的購物平臺數量和種類越來越多,社交網站的典型facebook的數據量大的驚人,以PB計量都不夠。數據存儲的單位不僅僅是MB、GB等,而是使用了表示更大容量的TB、PB、EB、ZB和YB等,每個單位的關系為后者是前者的1024倍,如1PB=1024TB。同時大數據的增長速度是越來越快,如手機相機的像素數隨著新款手機的出現而成倍的增長。

1.2 多樣化

從數據組織形式的角度將數據分為結構化數據和非結構化數據。結構化數據,具有一定的規律,可以使用二維表結構來表示,并存儲在數據庫中,如高校的教務管理系統的數據、銀行交易產生的數據。而非結構化數據是無法通過預先定義的數據模型表達并存儲在數據庫中的數據,如聲音、視頻和圖片等等。當前非結構化數據的增長速度遠遠超過結構化數據。

1.3 快速化

在當前商業競爭激烈的時代,對實時的數據進行分析和處理,挖掘有用的數據信息,并用于商業運作,對于企業和組織來說非常重要。如現在網絡購物會依據多數人的購物組合,分析出大部分人在購買一件物品的同時會同時購買其他的物品,從而在購物選擇時給予方便,提高網購的效率,提高效益。

隨著互聯網技術和計算機技術的快速發展,在產生大數據的同時,人們要能夠對這些數據加以利用,得到有用的信息,才是最重要的。為了讓海量規模的數據能夠真正發揮巨大的作用,需要將這些數據轉換為有用的信息和知識,即從傳統的數據統計向數據挖掘和分析進行轉換。比如沃爾瑪超市能夠從男人購物時買啤酒的同時會購買小孩的紙尿褲這種關聯,并在實際物品擺放時將這兩種物品放置在一起,方便用戶購物。

2 數據挖掘

隨著信息技術應用的廣泛,大量的數據產生并存儲各個領域的信息系統中,數據呈現了爆炸式的增長。數據挖掘在這種“數據爆炸,知識匱乏”的情況下出現的。數據挖掘(Data mining)是一個多學科交叉的研究領域,它融合了數據庫技術、機器學習、人工智能、知識工程和統計學等學科領域。數據挖掘在很多領域尤其是電信、銀行、交通、保險和零售等商業領域得到廣泛的應用。

數據挖掘也稱為從數據中發現知識,具體來講就是從大規模海量數據中抽取人們所感興趣的非平凡的、隱含的、事先未知的和具有潛在用途的模式或者知識。

3 數據挖掘的主要研究內容

數據挖掘的任務是發現隱藏在數據中的模式,其模式分為兩大類:描述型模式和預測型模式。描述型模式是對當前數據中存在的事實做規范描述,刻畫當前數據的一般特性。預測型模式則是以時間為主要關鍵參數,對于時間序列型數據,根據其歷史和當前的值去預測其未來的值。常使用的算法有:

3.1 聚類分析

聚類是將數據劃分成群組的過程,根據數量本身的自然分布性質,數據變量之間存在的程度不同的相似性(親疏關系),按照一定的準則將最相似的數據聚集成簇。主要包括劃分聚類算法,層次聚類算法和密度聚類算法等。經典算法有K-Means、K-Medoids。

3.2 特性選擇

特性選擇是指為特定的應用在不失去數據原有價值的基礎上選擇最小的屬性子集,去除不相關和冗余的屬性。特性選擇用于在建立分類模型前,或者預測模型之前,對原始數據庫進行預處理。常用的算法有最小描述長度法。

3.3 特征抽取

特征抽取式數據挖掘技術的常用方法,是一個屬性降維的過程,實際為變換屬性,經變換了的屬性或者特性,是原來屬性集的線性合并,出現更小更精的一組屬性。常用算法如主成分分析法、因子分析法和非負矩陣因子法等。

3.4 關聯規則

關聯規則挖掘是數據挖掘領域中研究最為廣泛和和活躍的方法之一。最初的研究動機是針對購物籃分析問題提出的,目的是為了解決發現交易數據庫中不同商品之間的聯系規則。關聯規則是指大量數據中項集之間的有趣關聯或相關關系。常用的算法有Apriori算法。

3.5 分類和預測

分類是應用已知的一些屬性數據去推測一個未知的離散型的屬性數據,而這個被推測的屬性數據的可取值是預先定義的。要很好的實現推測,需要事先定義一個分類模型。可用于分類的算法有決策樹、樸素貝葉斯分類、神經網絡、logistic回歸和支持向量機等。

4 結論

隨著時代的進步,數據也發生變化,具有各種各樣的復雜形式。很多研究機構和個人在對結構化數據進行數據挖掘的同時,也展開了對空間數據、多媒體數據、時序數據和序列數據、文本和Web等數據進行數據挖掘和分析。同時大數據的發展促進了云計算的產生,基于云計算的數據挖掘也在迅速崛起。

參考文獻

[1]劉軍.大數據處理[M].北京:人民郵電出版社,2013(09).

[2]王元卓等.網絡大數據:現狀與展望[J].計算機學報,2013(06).

[3]申彥.大規模數據集高效數據挖掘算法研究[D].江蘇大學,2013(06).

[4](加)洪松林.數據挖掘技術與工程實踐[M].北京:機械工業出版社,2014.

[5]賀瑤等.基于云計算的海量數據挖掘研究[J].計算機技術與發展,2013(02).

作者簡介

許凡(1996-),男,江蘇省南京市人。現就讀三江學院計算機科學與工程學院計算機軟件工程專業本科。

孫勤紅(1979-),女,山東省臨沂市人。碩士研究生學歷。現為三江學院計算機科學與工程學院講師、指導教師。主要研究領域為數據挖掘。

第10篇

關鍵詞:博客;Blog;Web;數據挖掘;算法;熱點話題挖掘;現狀

中圖分類號:TP392 文獻標識碼:A 文章編號:1009-3044(2013)12-2771-03

1 博客簡介

因特網(Internet)和萬維網(WWW)的出現,改變了人們的工作方式和生活方式。個人網站、論壇(BBS)等給了人們自由發表信息的途徑,而博客(Blog)的出現,使人們更加方便的展示自我。由于具有開放、簡便易用的特點,使博客具有獨特的魅力,使用博客的用戶越來越多。

1.1 博客的定義

博客的英文名字Blog,來源于Web Log這個名稱。博客源于RSS技術,作者以日志風格信息,讀者以評論方式與作者互動,是一種自由、簡單易用的信息傳播和互動方式。

一個博客文章就是一個網頁,博客作者可以對文章分類。這些文章都按照發表日期的倒序排列,最新的文章在網頁最上面顯示。博客的內容和題材,在合乎法律的要求下相當廣泛,可以是新聞、時事評論、個人生活體驗、購物信息、專業技術技巧、學術知識、照片、小說、產品等,有個人博客、公司博客、組織博客等。

1.2 博客的現狀

據估計,目前全球的博客運營網站有數十萬個,有數億人使用博客。博客已經成為個人、企業、組織、團隊之間常用的溝通工具。2002年,中國大陸開始有了博客服務網站。現在中國大陸已經有大量的博客服務網站,發展迅速。截止到2013年4月,新浪博客服務網站點擊數最高的個人博客已經超過了21億次點擊,排在第二、第三的個人博客的點擊數均超過10億次,排在第100名的博客的點擊數也高達6千5百萬(來自新浪博客總流量排行)。中國互聯網信息中心(CNNIC)統計顯示,截止到2012年底,我國擁有博客(個人空間)的網民有3.73億,占網民總數的66.1%[1]。從市場份額看,典型的博客網站有:QQ空間、新浪博客、博客大巴、搜狐博客、和訊博客、博客園、CSDN博客、博客網、網易博客、鳳凰博客、中國博客、天涯博客、百度空間等。

2 博客資源挖掘

近幾年來,由于博客的快速發展,國內外很多科研人員開始對博客進行研究,獲得了豐富的研究成果。目前的研究主要集中在對博客內容進行挖掘、檢索等方面。

2.1 國外對博客資源挖掘的研究

IBM的D.Gruhl、R.Guha、D.Liben-Nowell和A. Tomkins從宏觀、微觀兩個層次上研究了博客網站里的主題傳播特征和博客用戶之間的交互特征,通過數學模型抽取出博客網站里可以表示新主題的關鍵詞,并對不同時期的關鍵詞進行分析,得出一些傳播特征[2]。日本的I.Ohmukai、H.Takeda、K.Numa等人利用語義網搜索技術建立一個更加方便發表博客的“語義博客系統”,并對信息的收集和發表的不同層次做了詳盡的分析[3]。HP實驗室的E.Adar、L.Zhang對博客網站里的信息傳播進行分類,設計出可視化的工具軟件來動態顯示不同博客之間的互相鏈接,并提出了一種新的Rank搜索算法[4]。

博客上的信息是網絡信息的一種,但它又有自己的特點,對博客進行研究,首先需要能夠識別博客信息。東京工業大學的T. Nanno、T. Fujiki、Y. Suzuki、M. Okumura等學者提出了基于對日期表示和對HTML文檔的分析來自動收集、監控、挖掘博客(Blog)的方法[5]。馬里蘭大學的Kolari P、Finin T、Joshi A等學者提出了基于向量空間模型(SVM)的博客識別和發現的方法,去掉了較好的效果[6]。博客與傳統的個人網頁或網絡日記不完全相同,T. Fujiki、T. Nanno、M. Okumura等學者通過對自動提取的熱點關鍵詞的分類、比較,區別出了博客和個人網站、網絡日記的差異[7]。

2.2 國內對博客資源的研究

在博客識別方面的研究,國內已經出現比較可靠的方法或算法。哈爾濱工業大學的張迪通過比較博客網頁和普通的Web網頁,提取出博客網頁的特征,從網絡爬蟲下載得到的網頁中識別出博客網頁來,并且作者還對博客網頁相關內容進行了抽取[8]。重慶大學的張程、陳自郁等人針對當前因特網上大量出現的博客網頁,通過分析博客網頁的結構特點、技術特征,結合網頁DOM節點特性,提出了基于DOM樹分析和模式匹配的博客網頁自動識別算法,并通過實驗對該算法進行了驗證[9]。河南大學的李旻提出了博客綜合特征空間的概念,并且詳細論述了該空間中三大類共五種博客特征的概念、定義和抽取方法。研究了網頁的形式化表示方法,分析了特征項的提取、選擇及權重計算的整個過程,在這基礎上設計出了基于標簽信息的TF-IDF算法及標簽權重調整方案。最后提出一種基于綜合特征空間的博客網頁識別算法,并將該算法運用到基于頁面布局特征的博客網頁識別階段和基于文本內容特征的博客網頁識別階段[10]。哈爾濱工業大學的楊宇航、趙鐵軍、鄭德權、于浩提出了一種基于鏈接分析的對博客信息源進行量化評估的方法,在這個基礎上發現重要的博客信息源,既體現了博客信息的特點,又減少了作弊鏈接對結果的影響。作者用設計的博客信息源重要性評價指標進行評估,證明了該評估方法的有效性[11-12]。

對博客作者的個人信息進行挖掘是博客數據挖掘的一個方面。上海交通大學的倪曉川通過挖掘博客網頁的內容來獲得博客作者的個人信息,構建博客作者的興趣集合,為此,他提出了一種采用文本分類技術的自動挖掘博客作者興趣的方法。該方法使用多分類器連合的技術來提高分類的精度和挖掘結果的可靠性,并且使用自上而下的層次分類方法,挖掘出更具體的博客作者的興趣,而且興趣可以用層次結構的形式展現。在此基礎上作者還提出了對博客作者、博客文章進行情感型和信息型判定的問題,作者將該問題看作是一個文本分類問題,可以采用文本分類技術解決這個問題[13]。

博客球是包含所有博客的虛擬社區或社交網絡的集合名詞,可以把它看成是一個超大型的原始數據庫。西南石油大學的季文韜通過搭建博客球數據庫集群環境,建立了一個大型的博客球矩陣,通過分析博客網頁中的各個指標在矩陣中的權重從而確定矩陣元素。由于博客文章往往是個人所發,缺乏規范、約束,導致博客信息中存在不少噪音數據。于是作者采用奇異值分解(SVD)技術來對文本向量矩陣進行降噪,除去噪音數據,并利用k-Means聚類算法對降噪后的數據信息進行聚類分析,從中發現有價值的信息[14]。在論文中,作者通過分析、對比實驗結果,找出有效的博客球聚類方法。

哈爾濱工業大學的軒文烽針對現有的博客關鍵詞抽取算法依賴于外部資源和具體的文本格式這個問題,提出了一種基于主題模型LDA(Latent Dirichlet Allocation)的博客文章關鍵詞抽取算法,并通過與TF-IDF(Term Frequency–Inverse Document Frequency)和層次隱馬爾科夫模型(Hierarchical Hidden Markov Model,HHMM)的對比實驗,對該算法的有效性進行了檢驗,最后運用皮爾遜相關系數從關鍵詞權重與其詞頻之間的線性相關程度這一角度分析了該算法優越性的原因。另外,作者通過比較、分析四種典型聚類算法K-means、K-means++、Markov Cluster、和Affinity Propagation,篩選出更適合博客關鍵詞抽取的算法Markov Cluster;以此為基礎,設計了一個用于對博客文章進行主題聚類的算法,該算法能自動對聚類結果進行描述。作者還在傳統鏈接分析的基礎上,結合博客網頁的關鍵特征,提出一種融合了用戶評論和正文相似性信息的博客文章排序算法[15]。

3 博客領域熱點話題挖掘

作為互聯網的一種應用,博客已經出現了較長時間,但是對博客領域的熱點話題挖掘并不是很多。

通常我們所理解的新聞熱點話題,一般都是通過該話題新聞報道的數量來表示。比如一個事件發生以后,很多媒體都對該事件進行了報道,那么這個事件可以被認為是熱點事件,關于這個事件的所有媒體的相關報道組成了一個熱點話題。但是對于博客上的熱點話題,則與新聞報道的熱點話題不同。因為博客文章是個人所發,一般情況下,不會出現象新聞熱點話題那樣有大量媒體進行報道的情況,所以,我們判斷博客網站上的熱點話題,主要是依據博客文章的閱讀數量、評論數量、收藏或轉載數量及時間等[16]。

運用熱點話題檢測與跟蹤技術,將大量的博客信息按照話題進行歸類和分組,對用戶感興趣的某些特定話題進行跟蹤,實現個性化的服務,取代人工以簡明、概要的方式呈現給用戶[17]。這種技術可以使用戶在動態變化的互聯網環境下找到自己需要的信息,使博客信息更有價值,更加準確、有效地為用戶使用。

傳統的博客熱點話題發現主要是根據閱讀數量、評論數量等來得到的,并沒有考慮話題內容和評論內容[16]。為此,大連理工大學的時達明、林鴻飛提出了一種基于內容相關度和語義分析的博客熱點話題檢測方法。該方法在考慮了評論數量的同時,還通過分析評論內容與話題內容的相關度并分析評論中的語義來計算話題在該博客中的熱度,最終完成該博客的熱點話題發現[18]。實驗表明,他們使用的方法是有效的。

華南理工大學的胡方濤在對網絡爬蟲進行了一定的分析研究之后,通過已有的聚類算法將采集下來的博客數據聚類,形成話題。然后根據博客數據的特有屬性,提取出博客話題排序特征,最后通過熱點話題計算公式算出每個話題的熱度值,發現其中的熱點話題。對于熱度較高的話題,通過計算評論的情感來進行話題支持度的分析[19]。熱點話題支持度的分析能夠使得網民在了解該熱點話題的同時,還能了解民眾對該熱點話題所持的一種情感態度。

4 結束語

本文探討了博客資源數據挖掘、面向博客的熱點話題挖掘的研究現狀。博客數據挖掘是Web數據挖掘的一種具體應用。雖然有不少研究者對博客數據挖掘進行了研究,但從整體上看,與Web數據挖掘比較,對面向博客的數據挖掘的研究還是很少。筆者以博客(或Blog)加挖掘作為篇名關鍵詞在知網上搜索,截止到2013年4月,只搜索到28篇文獻,而以Web(或網絡)加挖掘作為篇名關鍵詞進行搜索,搜索到了4057篇文獻。關于博客挖掘的文獻只占Web挖掘文獻的0.69%。這與我國3.73億網民擁有博客、個人博客網站有21億的點擊數這樣的博客使用現狀顯然不符。對博客數據挖掘,還有很大的研究空間。

參考文獻:

[1] 中國互聯網絡信息中心(CNNIC).第31次中國互聯網絡發展狀況統計報告[EB/OL]. http://.cn/hlwfzyj/hlwxzbg/hlwtjbg/201301/P020130122600399530412.pdf.

[2] Gruhl D, Guha R, Liben-Nowell D,Tomkins A.Information Diffusion through Blogspace[C].ACM WWW, 2004.

[3] Ohmukai I, Takeda H, Numa K.Personal Knowledge Publishing Suite with Weblog, Workshop on the Weblogging Ecosystem[C].Aggregation,Analysis and Dynamics,2004.

[4] Adar E,Zhang L.Implicit Structure and the Dynamics of Blogspace, Workshop on the Weblogging Ecosystem at the 13th International World Wide Web Conference[C].New York,2004.

[5] Nanno T, Fujiki TSuzuki,YOkumura M.Automatically Collection, Monitoring, and Mining Japanese Weblogs[C].WWW,2004.

[6] Kolari P, Finin T, Joshi A. SVMs for the blogosphere: Blog identification and splog detection. In: Proc. of the AAAI Spring Symp. on Computational Approaches to Analyzing Weblogs[C].California: AAAI Press,2006:92-99.

[7] T. Fujiki, T. Nanno, M. Okumura. Differences between Blogs and Web Diaries[C]. WWW2005, Chiba, Japan, 2005,5: 10-14.

[8] 張迪.中文Blog網頁識別與內容抽取研究[D].哈爾濱:哈爾濱工業大學,2007.

[9] 張程,陳自郁,古平, 等.基于DOM樹結構的Blog網頁自動識別[J].計算機應用研究,2008(5):1489-1491.

[10] 李旻.基于綜合特征空間的Blog網頁識別方法研究[D].開封:河南大學,2009.

[11] 楊宇航,趙鐵軍,鄭德權,等.基于鏈接分析的重要Blog信息源發現[J].中文信息學報,2007,21(5):68-72.

[12] 楊宇航,趙鐵軍,鄭德權,等.基于鏈接分析的重要Blog信息源發現[A].孫茂松,陳群秀.內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C].北京:清華大學出版社,2007.

[13] 倪曉川.博客作者興趣挖掘與博客信息、情感分析的研究[D].上海:上海交通大學,2008.

[14] 季文韜.基于數據挖掘的博客球聚類研究[D].成都:西南石油大學,2011.

[15] 軒文烽.面向主題的博客資源挖掘關鍵技術研究[D].哈爾濱:哈爾濱工業大學,2011.

[16] 劉旭.博客熱點話題挖掘方法[D].哈爾濱:哈爾濱工業大學,2010.

[17] 丁偉莉.中文Blog熱門話題檢測與跟蹤技術研究[D].哈爾濱:哈爾濱工業大學,2007.

第11篇

[關鍵詞] 數據流 數據流挖掘 模型 算法

近年來,隨著計算機技術和通信網絡技術的蓬勃發展,由于眾多應用領域的需求,數據流處理問題,特別是基于數據流的挖掘問題已受到越來越多的研究人員關注。

一、數據流以及數據流挖掘

1.數據流。數據流由一系列按序到達的數據組成,也可看作是信息傳輸過程中經編碼處理的數字信號串。若令t表示任一時間戳,at表示在t時刻到達的數據元素,則數據流可以表示為無限集合{…,at-1,,at,at+1,…}。

2.數據流挖掘。數據流挖掘就是在數據流上發現提取隱含在其中的。人們事先不知道的,但又潛在有用的信息和知識的過程。流數據挖掘方面的研究主要包括多數據流挖掘和單數據流挖掘,挖掘多條數據流的主要目的是分析多條并行到達的數據流之間的關聯,對單數據流的挖掘則涵蓋了分類、頻繁模式挖掘、聚類等多項傳統數據挖掘中的主要任務,挖掘變化的數據流是一項特殊的任務,目前主要是以單數據流為對象進行研究的。

二、數據流挖掘的模型

按算法處理數據流時所選取的時序范圍,數據流模型可分為以下幾類。

1.快照模型:處理數據的范圍限制在兩個預定義的時間戳之間。

2.界標模型:處理數據的范圍從某一個已知的初始時間點到當前時間點為止。

3.滑動窗口模型:處理數據的范圍由某個固定大小的滑動窗口確定,此滑動窗口的終點永遠為當前時刻,其中,滑動窗口的大小可以由一個時間區間定義,也可以由窗口所包含的數據項數目定義。

典型的數據流挖掘模型如圖所示。

三、數據流挖掘算法

目前數據流挖掘方面的研究成果主要集中在數據流的聚類、分類和頻繁模式挖掘方面。

1.數據流分類算法。數據流分類就是提出一個分類模型(或函數),并通過單遍掃描數據流,持續地利用分類模型將數據對象(數據流的數據點或元組等)映射到某一個給定的類別中。P.Domingos 和 G..Hulten他們提出了一種Hoeffding決策樹分類算法VFDT(Very Fast Decision Tree),使用恒定的內存大小和時間處理每個樣本,有效地解決了時間、內存和樣本對數據挖掘,特別是高速數據流上的數據挖掘的限制。VFDT使用信息熵選擇屬性,通過建立Hoeffding樹來進行決策支持,并使用 Hoeffding 約束來保證高精度地處理高速數據流。

由于VFDT算法假設數據是從靜態分布中隨機獲取的,所以不能反映數據隨時間變化的趨勢。因此,P.Domingos和G..Hulten引入了滑動窗口技術,對VFDT算法進行改進,提出了CVFDT (Concept-adapting Very Fast Decision Tree)算法,除了保留VFDT算法在速度和精度方面的優點外,增加了對數據產生過程中變化趨勢的檢測和響應,使得算法更好地適應對高速時變流數據的分類。

2.數據流聚類算法。流數據本身所具有的特征使得傳統的聚類算法不可能直接應用于(甚至不能應用于)流數據聚類, 數據流聚類算法就是通過單遍掃描數據流,持續地將數據流數據對象(數據點、元組等)分組成多個類或簇,在同一個簇中的數據對象之間具有較高的相似度,而不同簇間的數據對象的相似度很小。近年來,學者們提出的應用于大規模數據集的一趟聚類算法,如Squeezer算法和BIRCH算法,也可以應用于某些數據流問題,也有學者提出了針對流數據的聚類算法,典型的有STREAM算法和CluStream算法。

3.數據流頻繁模式挖掘算法。數據流頻繁模式挖掘就是單遍掃描數據流,來連續地發現其中的頻繁項集。頻繁項集是滿足最小支持度的項集(Itemset)。對于數據流上的頻繁項集挖掘的研究方法大多數都采用ε-算法和基于FP-tree模型的有效算法FP-stream。FP-stream算法采用傾斜時間窗口技術來維護頻繁模式以解決時間敏感問題,研究了在數據流中構造、維護和更新 FP-stream 結構的有效算法,提出了計算和維護所有頻率模式并動態更新它們。建立一個框架來挖掘帶近似支持度的時間敏感模式,為每個模式在多時間粒度上增量維護一個傾斜時間窗口,在這種框架下可以構建和回答感興趣的查詢。

四、結語

由于數據流具有獨特的性質,對其進行挖掘是一個挑戰性的問題,當前的有關算法的研究有很多是在傳統的增量式挖掘技術基礎之上發展而來的,探索數據流挖掘技術與傳統的靜態數據挖掘技術之間的本質區別,提出更有效、新穎、快速挖掘算法是當前研究面臨的重要問題。

參考文獻:

[1]Gibbons P B,Matias Y:New sampling based summary statistic for improving approximate query answers[A].Proc of the ACM SIGMOD Int’l Confon Management of Data [C].Seattle:ACMPress,1998.331~342

[2]金澈清 錢衛寧 周傲英:流數據分析與管理綜述.軟件學報,2004,15(8):1172~1181

第12篇

近些年來,信息科技和網絡的通信技術已經得到了飛速的發展,并且全國的信息基礎設施也得到了完善,在全球的數據已經呈現出了極速增長的模式狀態。在此種情況下,傳統的數據處理方式已經滿足不了現代化的處理需求,因此需要利用大數據的自動分析和數據挖掘來實現對數據的有效分享和利用。大數據科學已經成為了一個橫跨信息科學、社會科學以及網絡科學的新型交叉學科,受到了學術界的廣泛關注。

一、遙感大數據的概述以及特征

在現代社會當中,遙感大數據已經成為了大數據的重要代表,成為了科學研究方面的重點研究方面,但是在現階段當中還需要對其科學理論和方式進行不斷的深入研究。遙感大數據具有大數據的特征,并且也具有自身獨特的特征。在外部特征方面,首先具有海量的特征。遙感大數據的數據具有海量的特點,并且對著遙感技術的不斷發展,在現階段當中的高分辨率和高動態的新型衛星傳感器在單位時間之內可以捕獲到更多的數據量;其次還具有數據異構的特點,也就是說在數據生產過程當中所依賴到的業務系統之間會呈現出的不同狀態,都需要由不同的數據中心來進行提供的,并且在邏輯結構或者組織方式上也呈現出了不同的特點;另外,還具有數據多源的特點,集中體現在數據的來源和捕獲信息的手段方面,是可以擁有多種獲取形式的,包括全球的觀察網絡點接收到的實時信息,以及民眾手中的用戶端的個性化信息。在內部特征方面,首先具有高維度性的特點,遙感大數據的數據類型呈現出了多樣化的特點,因此數據當中的維度也變得越來越高,集中體現在了空間維度、時間維度以及光譜維度等。其次還具有多尺度性的特點,成為了遙感大數據的重要特點,也就是說在進行數據的獲取過程當中,可以根據不同的遙感技術和相對應的技術水平,來進行有效的劃分,在空間和時間上呈現出多尺度的特點。另外,還具有非平穩性的特點,由于遙感大數據廣泛的獲取方式和物理意義,在信息理論的角度上來說,就屬于典型的非平穩信號,呈現出分布參數或者規律隨時發生變化的特點。

二、遙感大數據的自動分析和數據挖掘

2.1 自動分析。首先,需要對遙感大數據的表達進行了解,在這個過程當中需要抽取多元化的特征來進行表示,從而建立起遙感大數據的目標一體化,在研究過程當中主要包括對遙感大數據的多元離散特征的有效提取,形成在不同的傳感器當中的提取方式和方法。還要對若干大數據的多元特征進行歸一化的表達,從而提升對大數據的處理能力和處理效率。其次就需要對遙感大數據進行相關的檢索,在檢索過程當中,需要利用網絡化和集成化的方式進行檢索,制定出基礎設施的計劃,提升對其數據的訪問和檢索效率。并且針對海量的遙感大數據來會說,需要檢索出符合用戶需求和感興趣的內容和數據,就需要對數據內容進行比對,從而判斷出用戶所需要的內容,從大量的數據當中進行快速的檢索到目標。在檢索的過程當中,發展知識驅動的遙感大數據的檢索方式是最有效的方式之一,可以分為場景檢索服務、多源海量復雜場景數據的智能檢索以及信息數據的檢索等。另外,就是對遙感大數據的理解的,通過遙感大數據的科學,可以實現數據向知識的有效轉變,在這個過程當中就需要根據遙感大數據本身的特征和數據檢索的方式來對數據內容實現有效的提取。最后就是遙感大數據云的技術,可以將各種方式的遙感信息資源進行有效的整合,建立起遙感云服務的相關新型業務應用和服務模式,可以將在天空當中的傳感器所捕捉到的信息通過軟件的計算和整合來實現數據資源的有效存儲和處理,從而使得用戶可以在很快的時間之內獲取到有效的服務。

2.2 數據挖掘。首先需要對遙感大數據的數據挖掘過程進行了解,包括數據的獲取、存儲以及處理和整合等,在整個過程當中都具有大數據的特點。在進行捕獲數據的過程當中可以從各種不同的傳感器當中進行獲取,然后對數據進行采樣和過濾,之后就可以對采集到的數據進行處理和分析,最后將其數據用可視化的模式進行顯示,方便了客戶的使用和利用。其次,就是遙感大數據和廣義的遙感大數據的綜合挖掘的過程,利用此種方式,一方面可以與其他的數據方式形成良好的互補關系,另外一方面也可以對其數據當中的變化規律以及其他信息進行更好的挖掘和采集。在廣義的遙感時空大數據當中,存儲的費用是相當昂貴的,并且在數據的分析能力方面也存在嚴重不足的現象,因此在現代社會的智慧城市的建設過程當中發揮不了其巨大的作用,因此需要利用其他自動化的數據智能處理和挖掘的方式來對其空間地理分布的數據進行全新的挖掘和過濾。在時空分布的視頻數據挖掘過程當中,在對智能數據進行處理和信息提取的同時,還要通過時空當中所分布的視頻數據進行自動化的區分,來有效的區分正常和非正常的狀態。在對時空數據的挖掘過程當中,主要可以從時空數據當中進行提取出隱藏的有用的信息知識,利用各種綜合性的方式和方法,比如統計法、聚類法、歸納法以及云理論等。在遙感大數據的挖掘應用方面,可以適用于地球各種尺度和方位的變化,還可以在很大程度上對未知的信息進行良好的篩選和挖掘,推動國家的科學技術的發展,實現社會的可持續化發展。

綜上所述,在不斷的發展過程當中,我國的遙感數據的種類和數量將呈現出飛速增長的模式,在很多方面以及領域當中已經開展了遙感大數據的研究工作。值得注意的是,現階段當中需要將遙感大數據的理論知識進行實踐化的轉變,從而實現遙感大數據的自動分析和數據挖掘功能,推動科學信息的不斷進步。

作者:李安安

參考文獻

[1]宋維靜,劉鵬,王力哲,等.遙感大數據的智能處理:現狀與挑戰[J].工程研究-跨學科視野中的工程,2014,(3):259-265.

主站蜘蛛池模板: 汝阳县| 穆棱市| 庄浪县| 西安市| 三河市| 博白县| 昌江| 和田县| 利辛县| 马龙县| 安泽县| 宁河县| 应城市| 龙胜| 稻城县| 哈尔滨市| 宁波市| 武义县| 射阳县| 宣恩县| 邯郸市| 贵溪市| 五大连池市| 河津市| 大丰市| 博罗县| 历史| 靖宇县| 邵东县| 吴堡县| 桐柏县| 柳州市| 米林县| 丰宁| 顺昌县| 十堰市| 丹阳市| 稻城县| 安平县| 望谟县| 界首市|