時(shí)間:2022-07-28 10:49:26
開(kāi)篇:寫(xiě)作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇大數(shù)據(jù)技術(shù),希望這些內(nèi)容能成為您創(chuàng)作過(guò)程中的良師益友,陪伴您不斷探索和進(jìn)步。
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 方法
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2015)04-0222-01
1 大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘的重要性
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的快速發(fā)展,以及智能終端、網(wǎng)絡(luò)社會(huì)、數(shù)字地球等信息體的普及和建設(shè),全球數(shù)據(jù)量出現(xiàn)爆炸式增長(zhǎng),僅在2011年就達(dá)到1.8萬(wàn)億GB。IDC(Internet Data Center,互聯(lián)網(wǎng)絡(luò)數(shù)據(jù)中心)預(yù)計(jì),到2020 年全球數(shù)據(jù)量將增加50倍。毋庸置疑,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。一方面,云計(jì)算為這些海量的、多樣化的數(shù)據(jù)提供存儲(chǔ)和運(yùn)算平臺(tái),同時(shí)數(shù)據(jù)挖掘和人工智能從大數(shù)據(jù)中發(fā)現(xiàn)知識(shí)、規(guī)律和趨勢(shì),為決策提供信息參考。
如果運(yùn)用合理的方法和工具,在企業(yè)日積月累形成的浩瀚數(shù)據(jù)中,是可以淘到沙金的,甚至可能發(fā)現(xiàn)許多大的鉆石。在一些信息化較成熟的行業(yè),就有這樣的例子。比如銀行的信息化建設(shè)就非常完善,銀行每天生成的數(shù)據(jù)數(shù)以萬(wàn)計(jì),儲(chǔ)戶的存取款數(shù)據(jù)、ATM交易數(shù)據(jù)等。
數(shù)據(jù)挖掘是借助IT手段對(duì)經(jīng)營(yíng)決策產(chǎn)生決定性影響的一種管理手段。從定義上來(lái)看,數(shù)據(jù)挖掘是指一個(gè)完整的過(guò)程,該過(guò)程是從大量、不完全、模糊和隨機(jī)的數(shù)據(jù)集中識(shí)別有效的、可實(shí)用的信息,并運(yùn)用這些信息做出決策。
2 數(shù)據(jù)挖掘的分類
數(shù)據(jù)挖掘技術(shù)從開(kāi)始的單一門(mén)類的知識(shí)逐漸發(fā)展成為一門(mén)綜合性的多學(xué)科知識(shí),并由此產(chǎn)生了很多的數(shù)據(jù)挖掘方法,這些方法種類多,類型也有很大的差別。為了滿足用戶的實(shí)際需要,現(xiàn)對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行如下幾種分類:
2.1 按挖掘的數(shù)據(jù)庫(kù)類型分類
利用數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)分類成為可能是因?yàn)閿?shù)據(jù)庫(kù)在對(duì)數(shù)據(jù)儲(chǔ)存時(shí)就可以對(duì)數(shù)據(jù)按照其類型、模型以及應(yīng)用場(chǎng)景的不同來(lái)進(jìn)行分類,根據(jù)這種分類得到的數(shù)據(jù)在采用數(shù)據(jù)挖掘技術(shù)時(shí)也會(huì)有滿足自身的方法。對(duì)數(shù)據(jù)的分類有兩種情況,一種是根據(jù)其模型來(lái)分類,另一種是根據(jù)其類型來(lái)分類,前者包括關(guān)系型、對(duì)象-關(guān)系型以及事務(wù)型和數(shù)據(jù)倉(cāng)庫(kù)型等,后者包括時(shí)間型、空間型和Web 型的數(shù)據(jù)挖掘方法。
2.2 按挖掘的知識(shí)類型分類
這種分類方法是根據(jù)數(shù)據(jù)挖掘的功能來(lái)實(shí)施的,其中包括多種分析的方式,例如相關(guān)性、預(yù)測(cè)及離群點(diǎn)分析方法,充分的數(shù)據(jù)挖掘不僅僅是一種單一的功能模式,而是各種不同功能的集合。同時(shí),在上述分類的情況下,還可以按照數(shù)據(jù)本身的特性和屬性來(lái)對(duì)其進(jìn)行分類,例如數(shù)據(jù)的抽象性和數(shù)據(jù)的粒度等,利用數(shù)據(jù)的抽象層次來(lái)分類時(shí)可以將數(shù)據(jù)分為三個(gè)層次,即廣義知識(shí)的高抽象層,原始知識(shí)的原始層以及到多層的知識(shí)的多個(gè)抽象層。一個(gè)完善的數(shù)據(jù)挖掘可以實(shí)現(xiàn)對(duì)多個(gè)抽象層數(shù)據(jù)的挖掘,找到其有價(jià)值的知識(shí)。同時(shí),在對(duì)數(shù)據(jù)挖掘進(jìn)行分類時(shí)還可以根據(jù)其表現(xiàn)出來(lái)的模式及規(guī)則性和是否檢測(cè)出噪聲來(lái)分類,一般來(lái)說(shuō),數(shù)據(jù)的規(guī)則性可以通過(guò)多種不同的方法挖掘,例如相關(guān)性和關(guān)聯(lián)分析以及通過(guò)對(duì)其概念描述和聚類分類、預(yù)測(cè)等方法,同時(shí)還可以通過(guò)這些挖掘方法來(lái)檢測(cè)和排除噪聲。
2.3 按所用的技術(shù)類型分類
數(shù)據(jù)挖掘的時(shí)候采用的技術(shù)手段千變?nèi)f化,例如可以采用面向數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)以及神經(jīng)網(wǎng)絡(luò)及其可視化等技術(shù)手段,同時(shí)用戶在對(duì)數(shù)據(jù)進(jìn)行分析時(shí)也會(huì)使用很多不同的分析方法,根據(jù)這些分析方法的不同可以分為遺傳算法、人工神經(jīng)網(wǎng)絡(luò)等等。一般情況下,一個(gè)龐大的數(shù)據(jù)挖掘系統(tǒng)是集多種挖掘技術(shù)和方法的綜合性系統(tǒng)。
2.4 按應(yīng)用分類
根據(jù)數(shù)據(jù)挖掘的應(yīng)用的領(lǐng)域來(lái)進(jìn)行分類,包括財(cái)經(jīng)行業(yè)、交通運(yùn)輸業(yè)、網(wǎng)絡(luò)通信業(yè)、生物醫(yī)學(xué)領(lǐng)域如DNA等,在這些行業(yè)或領(lǐng)域中都有滿足自身要求的數(shù)據(jù)挖掘方法。對(duì)于特定的應(yīng)用場(chǎng)景,此時(shí)就可能需要與之相應(yīng)的特殊的挖掘方法,并保證其有效性。綜上所述,基本上不存在某種數(shù)據(jù)挖掘技術(shù)可以在所有的行業(yè)中都能使用的技術(shù),每種數(shù)據(jù)挖掘技術(shù)都有自身的專用性。
3 數(shù)據(jù)挖掘中常用的方法
目前數(shù)據(jù)挖掘方法主要有4種,這四種算法包括遺傳、決策樹(shù)、粗糙集和神經(jīng)網(wǎng)絡(luò)算法。以下對(duì)這四種算法進(jìn)行一一解釋說(shuō)明。
遺傳算法:該算法依據(jù)生物學(xué)領(lǐng)域的自然選擇規(guī)律以及遺傳的機(jī)理發(fā)展而來(lái),是一種隨機(jī)搜索的算法,利用仿生學(xué)的原理來(lái)對(duì)數(shù)據(jù)知識(shí)進(jìn)行全局優(yōu)化處理。是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,是一種仿生全局優(yōu)化方法。這種算法具有隱含并行性、易與其它模型結(jié)合等優(yōu)點(diǎn)從而在數(shù)據(jù)挖掘中得到了應(yīng)用。
決策樹(shù)算法:在對(duì)模型的預(yù)測(cè)中,該算法具有很強(qiáng)的優(yōu)勢(shì),利用該算法對(duì)龐大的數(shù)據(jù)信息進(jìn)行分類,從而對(duì)有潛在價(jià)值的信息進(jìn)行定位,這種算法的優(yōu)勢(shì)也比較明顯,在利用這種算法對(duì)數(shù)據(jù)進(jìn)行分類時(shí)非常迅速,同時(shí)描述起來(lái)也很簡(jiǎn)潔,在大規(guī)模數(shù)據(jù)處理時(shí),這種方法的應(yīng)用性很強(qiáng)。
粗糙集算法:這個(gè)算法將知識(shí)的理解視為對(duì)數(shù)據(jù)的劃分,將這種劃分的一個(gè)整體叫做概念,這種算法的基本原理是將不夠精確的知識(shí)與確定的或者準(zhǔn)確的知識(shí)進(jìn)行類別同時(shí)進(jìn)行類別刻畫(huà)。
神經(jīng)網(wǎng)絡(luò)算法:在對(duì)模型的預(yù)測(cè)中,該算法具有很強(qiáng)的優(yōu)勢(shì),利用該算法對(duì)龐大的數(shù)據(jù)信息進(jìn)行分類,從而對(duì)有潛在價(jià)值的信息進(jìn)行定位,這種算法的優(yōu)勢(shì)也比較明顯,在利用這種算法對(duì)數(shù)據(jù)進(jìn)行分類時(shí)非常迅速,同時(shí)描述起來(lái)也很簡(jiǎn)潔,在大規(guī)模數(shù)據(jù)處理時(shí),這種方法的應(yīng)用性很強(qiáng)。光纜監(jiān)測(cè)及其故障診斷系統(tǒng)對(duì)于保證通信的順利至關(guān)重要,同時(shí)這種技術(shù)方法也是順應(yīng)當(dāng)今時(shí)代的潮流必須推廣使用的方法。同時(shí),該診斷技術(shù)為通信管網(wǎng)和日常通信提供了可靠的技術(shù)支持和可靠的后期保證。
參考文獻(xiàn)
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(01):146-169.
2.1 大數(shù)據(jù)數(shù)據(jù)庫(kù)的特點(diǎn)
傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù),從其創(chuàng)立至現(xiàn)在,長(zhǎng)期占據(jù)數(shù)據(jù)庫(kù)的絕對(duì)統(tǒng)治地位。但是,數(shù)據(jù)挖掘、商業(yè)智能和可視化技術(shù)的發(fā)展,特別是它們處理非結(jié)構(gòu)化數(shù)據(jù)的能力,動(dòng)搖了傳統(tǒng)數(shù)據(jù)庫(kù)的牢固地位。于是善于處理非結(jié)構(gòu)化數(shù)據(jù)的種種數(shù)據(jù)庫(kù)工具大量產(chǎn)生,這其中必須優(yōu)先提及的便是NoSQL(意為Not Only SQL)及NewSQL(意為New SQL)兩大數(shù)據(jù)庫(kù)陣營(yíng)。
現(xiàn)在隨著大數(shù)據(jù)時(shí)代的到來(lái),由Carlo Strozzi開(kāi)創(chuàng)的NoSQL以其技術(shù)上的先進(jìn)性、方便性得到了越來(lái)越多的認(rèn)可。NoSQL改變了數(shù)據(jù)的定義范圍,其“數(shù)據(jù)類型”可以是文本、圖片、影像、網(wǎng)頁(yè),也可以是整個(gè)文件;NoSQL數(shù)據(jù)庫(kù)是非關(guān)系式的、數(shù)據(jù)間的關(guān)系更加復(fù)雜、多樣,類型和相互關(guān)系具有多種擴(kuò)展可能、存儲(chǔ)方式也多采用分布式結(jié)構(gòu)。經(jīng)過(guò)十多年的發(fā)展,NoSQL取得了成功,采用NoSQL技術(shù)的產(chǎn)品也不斷增長(zhǎng),目前NoSQL網(wǎng)站上()已經(jīng)收集了150余個(gè)相關(guān)產(chǎn)品,人們也把采用類似NoSQL結(jié)構(gòu)和原理的數(shù)據(jù)庫(kù)統(tǒng)稱為NoSQL數(shù)據(jù)庫(kù)。
最初NoSQL有意排斥關(guān)系數(shù)據(jù)庫(kù)的ACID規(guī)則和SQL特性(后發(fā)現(xiàn)其弱點(diǎn)又在一定程度和一定范圍內(nèi)支持?jǐn)?shù)據(jù)的一致性要求和SQL特性)。NoSQL堅(jiān)持分布式領(lǐng)域的CAP理論,CAP的含義為:
Consistency,一致性。數(shù)據(jù)一致更新,所有節(jié)點(diǎn)訪問(wèn)同一份最新的數(shù)據(jù)副本;
Availability,可用性。對(duì)數(shù)據(jù)更新具備高可用性;
Partition tolerance,分區(qū)容錯(cuò)性。能容忍網(wǎng)絡(luò)分區(qū)。
CAP理論主張任何基于網(wǎng)絡(luò)的數(shù)據(jù)共享系統(tǒng),都最多只能擁有以下三條中的兩條。而這種“三取二”的法則以及具體理解與執(zhí)行的爭(zhēng)論就一直存在。想同時(shí)滿足三者,或者過(guò)分強(qiáng)化割舍三者之間聯(lián)系均會(huì)破壞數(shù)據(jù)系統(tǒng)的效率和效果。32歲便獲得加州大學(xué)伯克利分校終身教授的Eric Brewer提出了BASE理論(Basically Available, Soft state, Eventually consistent;基本可用、軟狀態(tài)、最終一致性),它用一種更注重可用性、更便于理解的方式解釋分布式系統(tǒng)的特點(diǎn)。
NewSQL注意到關(guān)系數(shù)據(jù)庫(kù)的靈活性不足、數(shù)據(jù)庫(kù)互鎖機(jī)制效率低下的特點(diǎn),同時(shí)也意識(shí)到NoSQL不支持SQL所帶來(lái)的不便,它采用了一種近似折中的方案,既支持SQL并保證一定程度的數(shù)據(jù)一致性,同時(shí)也提供NoSQL數(shù)據(jù)庫(kù)的非關(guān)系數(shù)據(jù)處理的擴(kuò)展功能,因而從產(chǎn)生之初便受到業(yè)界的喜愛(ài),相關(guān)產(chǎn)品不斷涌現(xiàn)。NoSQL和NewSQL常見(jiàn)產(chǎn)品及其分類情況如圖所示。
2.2 NoSQL及其發(fā)展趨勢(shì)
在NoSQL潮流中,最重要的莫過(guò)于Apache基金會(huì)的Hadoop。它是一個(gè)領(lǐng)導(dǎo)者,是一個(gè)典型的分布式文件系統(tǒng),是一個(gè)開(kāi)源系統(tǒng)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,借助Hadoop開(kāi)發(fā)分布式程序,它取得了成功,成為分布式數(shù)據(jù)處理界的巨獸(Hadoop的Logo就是只大象)。 現(xiàn)在甚至出來(lái)了“無(wú)分布不Hadoop”——每個(gè)傳統(tǒng)的數(shù)據(jù)庫(kù)提供商都急切地聲明支持Hadoop。關(guān)系數(shù)據(jù)庫(kù)的傳統(tǒng)霸主Oracle公司也將Hadoop集成到自己的NoSQL數(shù)據(jù)庫(kù)中,Microsoft、Sybase、IBM也加入了收納Hadoop功能的競(jìng)賽中。
第二位領(lǐng)導(dǎo)者,MongoDB,是一個(gè)成功的文檔處理型數(shù)據(jù)庫(kù)系統(tǒng),它被稱為“非關(guān)系式數(shù)據(jù)庫(kù)中最像關(guān)系式數(shù)據(jù)庫(kù)的產(chǎn)品”。MongoDB查詢功能強(qiáng)大,特別適合高性能的Web數(shù)據(jù)處理。
Cassandra是這個(gè)領(lǐng)域中的一個(gè)另類產(chǎn)品,它兼有鍵值數(shù)據(jù)庫(kù)和列值數(shù)據(jù)庫(kù)兩者的長(zhǎng)處,它的查詢功能很優(yōu)秀。雖然運(yùn)行Cassandra集群難度較高,但它升級(jí)后的分析能力使得很多人感到驚訝。
Redis也是相當(dāng)好的一個(gè)產(chǎn)品。對(duì)故障恢復(fù)的良好支持以及使用Lua的服務(wù)器端腳本語(yǔ)言是明顯區(qū)別于其他軟件之處。使用Lua確實(shí)帶來(lái)了一些震動(dòng),因?yàn)楦嗟娜讼矚g和習(xí)慣JavaScript服務(wù)器端語(yǔ)言。但是,Lua是一個(gè)整潔的語(yǔ)言,它并為Redis開(kāi)啟了潘多拉盒子。
CouchBase在可擴(kuò)展性和其他潛在因素,使其看起來(lái)是一個(gè)很好的選擇,盡管Facebook以及Zynga面臨著關(guān)鍵開(kāi)發(fā)者離開(kāi)的風(fēng)波。CouchDB會(huì)變得更好抑或相反?只要數(shù)據(jù)庫(kù)做得好受眾就會(huì)歡迎,現(xiàn)在看來(lái),它確實(shí)做的很好。
還需要提及的是Riak,在功能性和監(jiān)控方面它也有了巨大的提升。在穩(wěn)定性方面,它繼續(xù)得到大家的贊美:“像巨石一般穩(wěn)定、可靠且不顯眼……”。Riak 數(shù)據(jù)模塊化方面做得很有特色。
在圖中,涉及了多個(gè)維度:關(guān)系型的與非關(guān)系型的、分析型的或操作型的、NoSQL類型與NewSQL類型的。最后的兩個(gè)分類中,對(duì)于NoSQL有著名的子分類“鍵值類數(shù)據(jù)庫(kù)、文檔數(shù)據(jù)庫(kù)、圖存數(shù)據(jù)庫(kù)和列存數(shù)據(jù)庫(kù)。對(duì)于NewSQL本已建立“存儲(chǔ)引擎、簇享數(shù)據(jù)、云服務(wù)”等類別。
關(guān)鍵詞:煙草;數(shù)據(jù)中心;大數(shù)據(jù);Hadoop;Impala
1.大數(shù)據(jù)技術(shù)現(xiàn)狀
當(dāng)前許多企業(yè)都已基本實(shí)現(xiàn)了信息化建設(shè),企業(yè)積累了海量數(shù)據(jù)。同時(shí)企業(yè)間的競(jìng)爭(zhēng)日益加劇,企業(yè)為了生存及發(fā)展需要保證自身能夠更加準(zhǔn)確、快速和個(gè)性化地為客戶提品及服務(wù)。而大數(shù)據(jù)技術(shù)能夠從海量的數(shù)據(jù)中獲取傳統(tǒng)數(shù)據(jù)分析手段無(wú)法獲知的價(jià)值和模式,幫助企業(yè)更加迅速、科學(xué)、準(zhǔn)確地進(jìn)行決策和預(yù)測(cè)。
1.1大數(shù)據(jù)技術(shù)現(xiàn)狀
廣大企業(yè)的迫切需求反之也促進(jìn)了大數(shù)據(jù)技術(shù)的飛速發(fā)展,涌現(xiàn)出了諸如Hadoop、Spark等實(shí)用的架構(gòu)平臺(tái)。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構(gòu)支持大規(guī)模的集群,允許使用簡(jiǎn)單的編程模型進(jìn)行跨計(jì)算機(jī)集群的分布式大數(shù)據(jù)處理。通過(guò)使用專門(mén)為分布式計(jì)算設(shè)計(jì)的文件系統(tǒng)HDFS,計(jì)算的時(shí)候只需要將計(jì)算代碼推送到存儲(chǔ)節(jié)點(diǎn)上,即可在存儲(chǔ)節(jié)點(diǎn)上完成數(shù)據(jù)本地化計(jì)算。因此,Hadoop實(shí)現(xiàn)了高可靠性、高可拓展性、高容錯(cuò)性和高效性,可以輕松應(yīng)對(duì)PB級(jí)別的數(shù)據(jù)處理。
1.2大數(shù)據(jù)技術(shù)對(duì)煙草數(shù)據(jù)中心建設(shè)的影響
當(dāng)前,煙草企業(yè)基于多年的信息化建設(shè)已經(jīng)積累了海量數(shù)據(jù),同時(shí)每天還不斷有新的各種數(shù)據(jù)產(chǎn)生。在高并發(fā)、大體量的情況下,需要在數(shù)據(jù)采集、存儲(chǔ)和運(yùn)算方面采用與以往完全不同的計(jì)算存儲(chǔ)模式,這就不可避免地需要采用大數(shù)據(jù)技術(shù)。同時(shí),除了購(gòu)進(jìn)單、卷煙交易數(shù)據(jù)、貨源投放數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)外,還產(chǎn)生越來(lái)越多的非結(jié)構(gòu)化數(shù)據(jù),利用大數(shù)據(jù)技術(shù),對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理,可為人工判斷和機(jī)器學(xué)縮減范圍。對(duì)海量數(shù)據(jù)以及非結(jié)構(gòu)化的信息進(jìn)行分析統(tǒng)計(jì),僅僅依靠傳統(tǒng)的技術(shù)手段很難實(shí)現(xiàn),只有引入大數(shù)據(jù)技術(shù)才能充分的將所有的數(shù)據(jù)資源利用起來(lái),成為企業(yè)決策的助力。
2.江蘇煙草數(shù)據(jù)中心應(yīng)用現(xiàn)狀
2.1江蘇煙草數(shù)據(jù)中心體系架構(gòu)
目前江蘇煙草數(shù)據(jù)中心以一體化數(shù)據(jù)中心、一體化數(shù)據(jù)管理和一體化數(shù)據(jù)分析三個(gè)部分為核心,構(gòu)建了一套完整的數(shù)據(jù)中心架構(gòu)。一體化數(shù)據(jù)中心是整個(gè)數(shù)據(jù)中心最核心的部分。通過(guò)數(shù)據(jù)倉(cāng)庫(kù)模型、數(shù)據(jù)存儲(chǔ)、ETL工具等組成部分,構(gòu)建了業(yè)務(wù)數(shù)據(jù)的收集、加工、存儲(chǔ)、分發(fā)的總體架構(gòu)。建立了按ODS(SODS、UODS)、DW、DM三層結(jié)構(gòu)設(shè)計(jì)建設(shè)的數(shù)據(jù)倉(cāng)庫(kù)。一體化數(shù)據(jù)管理通過(guò)主數(shù)據(jù)管理、信息代碼管理、ESB平臺(tái)構(gòu)建了企業(yè)主數(shù)據(jù)收集、標(biāo)準(zhǔn)化、同步分發(fā)過(guò)程。結(jié)合指標(biāo)管理,全面管控企業(yè)的公用基礎(chǔ)信息。通過(guò)數(shù)據(jù)質(zhì)量管理,全面有效管控?cái)?shù)據(jù)質(zhì)量。通過(guò)數(shù)據(jù)服務(wù)管理,有效提升數(shù)據(jù)中心的對(duì)外服務(wù)能力與水平。通過(guò)元數(shù)據(jù)管理來(lái)管理數(shù)據(jù)中心元數(shù)據(jù)。一體化數(shù)據(jù)分析通過(guò)構(gòu)建移動(dòng)信息、業(yè)務(wù)分析、數(shù)據(jù)挖掘三大模塊,針對(duì)性解決當(dāng)前不同人員的決策、管理以及操作需求,發(fā)揮數(shù)據(jù)中心的數(shù)據(jù)、技術(shù)、平臺(tái)優(yōu)勢(shì)。通過(guò)移動(dòng)信息模塊為各級(jí)領(lǐng)導(dǎo)提供決策支持;通過(guò)業(yè)務(wù)分析模塊為業(yè)務(wù)人員的日常工作提供支撐;通過(guò)數(shù)據(jù)挖掘模塊,發(fā)掘數(shù)據(jù)所蘊(yùn)含的隱性價(jià)值。基于上述一整套架構(gòu)的支撐,目前數(shù)據(jù)中心構(gòu)建了全省范圍的數(shù)據(jù)集成、交換體系,一方面提升了全省基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)的規(guī)范化程度和數(shù)據(jù)質(zhì)量,另一方面為在建業(yè)務(wù)系統(tǒng)的實(shí)施、已有系統(tǒng)的改造提供了標(biāo)準(zhǔn)化的高質(zhì)量數(shù)據(jù)保障。
2.2大數(shù)據(jù)技術(shù)的應(yīng)用場(chǎng)景分析
隨著江蘇數(shù)據(jù)中心的不斷運(yùn)行,一些基于傳統(tǒng)技術(shù)架構(gòu)的功能逐漸暴露出種種問(wèn)題。其中較為突出的問(wèn)題有:一是使用者對(duì)于大數(shù)據(jù)量數(shù)據(jù)的查詢需求。基于傳統(tǒng)技術(shù)架構(gòu)的查詢功能響應(yīng)較慢;二是分析支持靈活性的不足。傳統(tǒng)統(tǒng)計(jì)分析應(yīng)用的數(shù)據(jù)結(jié)構(gòu)大多是預(yù)先定義好的,面對(duì)靈活的非傳統(tǒng)的統(tǒng)計(jì)查詢需求難以支撐,需要進(jìn)行額外的加工處理。江蘇煙草數(shù)據(jù)中心結(jié)合互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)特性,引入Hadoop平臺(tái)以及Impala等工具,搭建基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái),以補(bǔ)充基于傳統(tǒng)技術(shù)架構(gòu)的功能不足,并為未來(lái)進(jìn)一步發(fā)展建設(shè)基于大數(shù)據(jù)技術(shù)和云環(huán)境的數(shù)據(jù)中心做好準(zhǔn)備。
3.基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái)實(shí)現(xiàn)
3.1設(shè)計(jì)思路及架構(gòu)
基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái)是在現(xiàn)有數(shù)據(jù)中心的建設(shè)成果之上,以數(shù)據(jù)中心的數(shù)據(jù)存儲(chǔ)為基礎(chǔ),以Hadoop、Hive、Impala等大數(shù)據(jù)技術(shù)工具為手段,以簡(jiǎn)單靈活、快速高效的查詢展現(xiàn)為目標(biāo),建立的數(shù)據(jù)查詢分析支持平臺(tái)。
3.2技術(shù)方案
自定義數(shù)據(jù)查詢平臺(tái)的建設(shè)主要涉及數(shù)據(jù)存儲(chǔ)架構(gòu)、后臺(tái)數(shù)據(jù)加工準(zhǔn)備、前端展現(xiàn)三塊內(nèi)容。自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)存儲(chǔ)分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關(guān)的元數(shù)據(jù)存儲(chǔ),另一部分則是查詢所需的各種統(tǒng)計(jì)數(shù)據(jù)的存儲(chǔ)。元數(shù)據(jù)的存儲(chǔ)根據(jù)元數(shù)據(jù)庫(kù)的不同主要分為兩部分。第一部分為基于Mysql數(shù)據(jù)庫(kù)的元數(shù)據(jù)存儲(chǔ)。這部分元數(shù)據(jù)主要包括有ETL工具KETTLE的元數(shù)據(jù),以及前端自定義查詢需要定義的權(quán)限、數(shù)據(jù)源、表、列和表列關(guān)系等信息。第二部分為基于Hive的元數(shù)據(jù)存儲(chǔ)。這部分存儲(chǔ)的是前端查詢需要使用的Impala工具的元數(shù)據(jù)。統(tǒng)計(jì)數(shù)據(jù)的存儲(chǔ)則是使用Hadoop的HDFS實(shí)現(xiàn)的。根據(jù)Hadoop平臺(tái)架構(gòu),自定義數(shù)據(jù)查詢平臺(tái)的HDFS建立在6臺(tái)虛擬主機(jī)構(gòu)建的集群上的。其中:2臺(tái)虛擬主機(jī)作為NameNode,一臺(tái)為主節(jié)點(diǎn),另一臺(tái)為備份節(jié)點(diǎn);其余4臺(tái)虛擬主機(jī)都作為DataNode用于存儲(chǔ)數(shù)據(jù)。所有數(shù)據(jù)將會(huì)統(tǒng)一分塊自動(dòng)分配存儲(chǔ)到4個(gè)DataNode上。自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)加工,是通過(guò)開(kāi)源ETL工具KETTLE實(shí)現(xiàn)的。通過(guò)KETTLE從數(shù)據(jù)中心現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)集市中讀取需要的數(shù)據(jù),根據(jù)自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)模型定義對(duì)數(shù)據(jù)進(jìn)行處理,最終加載到Hadoop的HDFS文件系統(tǒng)中。自定義數(shù)據(jù)查詢平臺(tái)的前端展現(xiàn)功能,主要是基于JSP技術(shù)實(shí)現(xiàn)頁(yè)面開(kāi)發(fā),通過(guò)JDBC或者ODBC對(duì)后臺(tái)Mysql數(shù)據(jù)庫(kù)進(jìn)行訪問(wèn)。使用者在查詢頁(yè)面中組織定義查詢的內(nèi)容,查詢服務(wù)自動(dòng)根據(jù)獲取的元數(shù)據(jù)信息將定義的查詢內(nèi)容拼接轉(zhuǎn)換成為查詢SQL,之后通過(guò)Impala執(zhí)行查詢SQL對(duì)HDFS文件系統(tǒng)中的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行查詢。
3.3系統(tǒng)實(shí)現(xiàn)效果
利用大數(shù)據(jù)技術(shù),自定義數(shù)據(jù)查詢平臺(tái)較好地解決了目前數(shù)據(jù)中心所面對(duì)的問(wèn)題,滿足了使用人員對(duì)于大數(shù)據(jù)量以及分析靈活性的需求。面對(duì)使用人員層出不窮的查詢需求,自定義數(shù)據(jù)查詢平臺(tái)通過(guò)預(yù)先梳理、分類定義各種維度以及統(tǒng)計(jì)指標(biāo)。使用者可以自由的根據(jù)實(shí)際需求選擇分析所需的維度及統(tǒng)計(jì)指標(biāo),同時(shí)還可以基于這些基礎(chǔ)的內(nèi)容更進(jìn)一步自定義過(guò)濾條件以及計(jì)算公式,并指定其展現(xiàn)形式。在大數(shù)據(jù)量查詢效率方面,自定義查詢平臺(tái)相比傳統(tǒng)架構(gòu)的查詢功能有了較大提升。
4.結(jié)束語(yǔ)
大數(shù)據(jù)技術(shù)的發(fā)展方興未艾,應(yīng)用前景無(wú)比廣闊,對(duì)各行各業(yè)的巨大作用正在逐步展現(xiàn)。江蘇煙草數(shù)據(jù)中心的建設(shè)既要看到大數(shù)據(jù)技術(shù)未來(lái)的前景,更需要明確地認(rèn)識(shí)到大數(shù)據(jù)平臺(tái)的建設(shè)并非一朝一夕,需要有明確而長(zhǎng)遠(yuǎn)的規(guī)劃,不斷完善數(shù)據(jù)環(huán)境建設(shè)、云計(jì)算環(huán)境的構(gòu)建以及數(shù)據(jù)服務(wù)的擴(kuò)展。
參考文獻(xiàn)
[1]陳鵬.大數(shù)據(jù)時(shí)代下的信息安全問(wèn)題研究[J].電子制,2015,18:48
[2]劉憶魯,劉長(zhǎng)銀,侯艷權(quán).大數(shù)據(jù)時(shí)代下的信息安全問(wèn)題論述[J].信息通信.2016,181-182
關(guān)鍵詞:大數(shù)據(jù)技術(shù);計(jì)算與數(shù)據(jù);協(xié)作機(jī)制
引言
在現(xiàn)今信息技術(shù)發(fā)展中,數(shù)據(jù)同計(jì)算可以說(shuō)是信息技術(shù)發(fā)展過(guò)程中的兩個(gè)重要主題,在這兩個(gè)主題的基礎(chǔ)上,信息技術(shù)也逐漸出現(xiàn)了大數(shù)據(jù)技術(shù)概念。從嚴(yán)格意義來(lái)說(shuō),所謂大數(shù)據(jù)技術(shù),即是針對(duì)于海量數(shù)據(jù)的分析、存儲(chǔ)以及技術(shù)。對(duì)于這部分海量數(shù)據(jù)來(lái)說(shuō),我們很難直接對(duì)其進(jìn)行應(yīng)用,在獲得數(shù)據(jù)之后,需要在經(jīng)過(guò)一定處理后才能夠獲得有用的數(shù)據(jù),如何能夠?qū)崿F(xiàn)大數(shù)據(jù)時(shí)代下數(shù)據(jù)同計(jì)算的科學(xué)協(xié)作、并能夠?qū)⑵湫纬梢环N機(jī)制,則成為了目前非常重要的一項(xiàng)問(wèn)題。
1 計(jì)算同數(shù)據(jù)協(xié)作機(jī)制對(duì)比
對(duì)于面對(duì)數(shù)據(jù)系統(tǒng)來(lái)說(shuō),其一般為分布式系統(tǒng)類型,即通過(guò)將計(jì)算向數(shù)據(jù)進(jìn)行遷移對(duì)系統(tǒng)中數(shù)據(jù)傳遞代價(jià)進(jìn)行降低,可以說(shuō)是一種通過(guò)計(jì)算對(duì)數(shù)據(jù)進(jìn)行尋找的方式。要想對(duì)數(shù)據(jù)進(jìn)行計(jì)算,實(shí)現(xiàn)數(shù)據(jù)的定位可以說(shuō)是一項(xiàng)重要的前提,而數(shù)據(jù)切分以及存儲(chǔ)方式情況也將對(duì)計(jì)算的模式以及處理效率產(chǎn)生影響。對(duì)此,要想對(duì)數(shù)據(jù)同計(jì)算間的科學(xué)協(xié)作進(jìn)行實(shí)現(xiàn),就需要對(duì)數(shù)據(jù)在分布式文件系統(tǒng)中的存儲(chǔ)方式進(jìn)行研究。而由于在分布式系統(tǒng)當(dāng)中,需要對(duì)數(shù)據(jù)冗余、節(jié)點(diǎn)失效以及備份等問(wèn)題進(jìn)行解決,就對(duì)數(shù)據(jù)同計(jì)算協(xié)作價(jià)值的研究帶來(lái)了較大的挑戰(zhàn)。在兩者協(xié)作機(jī)制研究中,數(shù)據(jù)同計(jì)算的一致性可以說(shuō)是研究重點(diǎn),需要首先從該方面進(jìn)行討論與解決。
1.1 位置一致性映射模型
對(duì)于分布式系統(tǒng)中數(shù)據(jù)同計(jì)算的一致性問(wèn)題,我們可以將其理解為將兩者在同一節(jié)點(diǎn)位置映射,即在數(shù)據(jù)存儲(chǔ)區(qū)域發(fā)起計(jì)算。以網(wǎng)格計(jì)算系統(tǒng)為例,其到達(dá)客戶節(jié)點(diǎn)的數(shù)據(jù)是計(jì)算先于數(shù)據(jù),并根據(jù)客戶端請(qǐng)求將數(shù)據(jù)映射到客戶端中進(jìn)行處理。對(duì)于Hadoop系統(tǒng)來(lái)說(shuō),就是先將數(shù)據(jù)存儲(chǔ)到系統(tǒng)的一個(gè)節(jié)點(diǎn)當(dāng)中,當(dāng)系統(tǒng)發(fā)起計(jì)算時(shí),再對(duì)元數(shù)據(jù)進(jìn)行查詢后對(duì)數(shù)據(jù)存儲(chǔ)位置進(jìn)行獲得,并將計(jì)算任務(wù)映射到節(jié)點(diǎn)當(dāng)中進(jìn)行處理。根據(jù)此種情況,我們可以將計(jì)算同數(shù)據(jù)間的映射比作是數(shù)據(jù)到節(jié)點(diǎn)的映射過(guò)程,在該過(guò)程中,數(shù)據(jù)片同計(jì)算程序在按照一定規(guī)則到節(jié)點(diǎn)進(jìn)行定位之后將兩者注入到節(jié)點(diǎn)當(dāng)中,而到該節(jié)點(diǎn)失效時(shí),數(shù)據(jù)片則會(huì)按照相應(yīng)的規(guī)則進(jìn)行數(shù)據(jù)備份以及遷移,并重新按照規(guī)則實(shí)現(xiàn)到節(jié)點(diǎn)的對(duì)應(yīng)。
在上述模型中,我們可以將計(jì)算視作是一種具有特殊特征的數(shù)據(jù)類型,這是因?yàn)閷?duì)于計(jì)算而言,其自身就是程序語(yǔ)言設(shè)計(jì)的可執(zhí)行程序片,在系統(tǒng)映射過(guò)程中,可以將其同數(shù)據(jù)進(jìn)行同等的看待,且在程序中一般也將包括相關(guān)數(shù)據(jù)的邏輯位置信息。在分布式文件中,其中的定位算法也正是數(shù)據(jù)同節(jié)點(diǎn)間的映射功能,即要想對(duì)兩者的一致性位置進(jìn)行實(shí)現(xiàn),就離不開(kāi)分布式文件系統(tǒng)的支持。同時(shí),由于在分布式系統(tǒng)中計(jì)算遷移、存儲(chǔ)遷移以及數(shù)據(jù)冗余問(wèn)題的存在,在具體功能實(shí)現(xiàn)時(shí),也將對(duì)存儲(chǔ)冗余以及均衡調(diào)度等技術(shù)進(jìn)行結(jié)合性的應(yīng)用,以此對(duì)兩者科學(xué)協(xié)作、且具有穩(wěn)定健壯特征的系統(tǒng)進(jìn)行實(shí)現(xiàn)。映射方式方面,則有哈希映射以及元數(shù)據(jù)映射等。
1.2 元數(shù)據(jù)映射算法
對(duì)于該類算法來(lái)說(shuō),其可以說(shuō)是最為基礎(chǔ)的對(duì)存儲(chǔ)位置同計(jì)算一致性進(jìn)行實(shí)現(xiàn)的方法,在實(shí)際應(yīng)用中,該方式通過(guò)數(shù)據(jù)塊存儲(chǔ)位置的查找使該位置能夠同指定的存儲(chǔ)節(jié)點(diǎn)進(jìn)行映射,在其對(duì)計(jì)算同數(shù)據(jù)的定位實(shí)現(xiàn)中,同網(wǎng)絡(luò)路由表原理較為類似,即兩者通過(guò)對(duì)有路由的查詢保證數(shù)據(jù)能夠同計(jì)算被分配到同一個(gè)節(jié)點(diǎn)當(dāng)中。對(duì)于應(yīng)用該方式的系統(tǒng)來(lái)說(shuō),其一般為主從結(jié)構(gòu)類型,如果其中出現(xiàn)單點(diǎn)失效情況,則將對(duì)整個(gè)系統(tǒng)產(chǎn)生較大的影響。對(duì)于HDFS以及GFS結(jié)構(gòu)來(lái)說(shuō),就是以該數(shù)據(jù)方式構(gòu)建的。在實(shí)際對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)時(shí),其一般會(huì)根據(jù)節(jié)點(diǎn)目前存儲(chǔ)負(fù)載情況進(jìn)行判斷,而為了避免結(jié)構(gòu)對(duì)失效情況具有過(guò)高的敏感性,也有學(xué)者通過(guò)對(duì)元數(shù)據(jù)進(jìn)行復(fù)制的方式提升系統(tǒng)可用性。
通過(guò)該方式的應(yīng)用,則能夠以較為便利的方式對(duì)機(jī)群系統(tǒng)目前狀態(tài)進(jìn)行利用,在以其為依據(jù)的基礎(chǔ)上對(duì)系統(tǒng)的負(fù)載均衡進(jìn)行實(shí)現(xiàn)。此時(shí),系統(tǒng)主節(jié)點(diǎn)則會(huì)通過(guò)一定調(diào)度算法的應(yīng)用對(duì)數(shù)據(jù)計(jì)算以及存儲(chǔ)進(jìn)行分配,在對(duì)系統(tǒng)負(fù)載均衡進(jìn)行實(shí)現(xiàn)的同將分配信息作為元數(shù)據(jù)進(jìn)行保存。目前,很多針對(duì)集群負(fù)載均衡算法都能夠在元數(shù)據(jù)方法中進(jìn)行應(yīng)用、并將其作為對(duì)柱節(jié)點(diǎn)資源進(jìn)行分配的依據(jù)。在實(shí)際應(yīng)用中,雖然該方式在網(wǎng)絡(luò)信息搜索以及大量復(fù)雜均衡算法的應(yīng)用方面具有較好的表現(xiàn),但當(dāng)系統(tǒng)具有較多數(shù)量小文件時(shí),則需要對(duì)路由數(shù)據(jù)進(jìn)行大量的維護(hù),并因此對(duì)數(shù)據(jù)的查詢效果產(chǎn)生影響。
1.3 哈希映射算法
哈希算法是一種從稀疏到緊密值的映射方式,在計(jì)算以及存儲(chǔ)定位時(shí),可以將其視作路由算法的一種,通過(guò)該方式的應(yīng)用,則能夠?qū)⒛繕?biāo)定位到節(jié)點(diǎn)位置。對(duì)于傳統(tǒng)的哈希算法,其在擴(kuò)展性以及容錯(cuò)性方面的表現(xiàn)都一般,并不能夠較為有效的對(duì)面向數(shù)據(jù)系統(tǒng)節(jié)點(diǎn)的動(dòng)態(tài)變化相適應(yīng),1997年,學(xué)者David Karger提出了使用一致性哈希算法對(duì)數(shù)據(jù)進(jìn)行定位,并在后續(xù)的改進(jìn)中逐漸使其成為了分布式存儲(chǔ)中的標(biāo)準(zhǔn)技術(shù)類型。當(dāng)系統(tǒng)對(duì)該方式進(jìn)行應(yīng)用之后,則不需要對(duì)中心節(jié)點(diǎn)元數(shù)據(jù)進(jìn)行維護(hù),可以說(shuō)對(duì)普通元數(shù)據(jù)服務(wù)器性能瓶頸以及單點(diǎn)失效問(wèn)題進(jìn)行了較好的解決,其實(shí)現(xiàn)過(guò)程為:首先通過(guò)Key值的應(yīng)用將MD5算法變換成一個(gè)32位長(zhǎng)度的16進(jìn)制數(shù)值,在以該數(shù)值進(jìn)行232取模后將其映射到環(huán)狀哈希空間,并以相同的方式將節(jié)點(diǎn)映射到環(huán)狀哈希空間當(dāng)中,此時(shí)Key則會(huì)在哈希空間中尋找到節(jié)點(diǎn)值作為路由值。
2 計(jì)算同數(shù)據(jù)的流式拓樸協(xié)作機(jī)制
2.1 Storm系統(tǒng)
流水線技術(shù)是對(duì)高性能數(shù)據(jù)進(jìn)行處理的重要技術(shù)類型,其主要技術(shù)思想即將一個(gè)任務(wù)分解成多個(gè)具有前后關(guān)系的子任務(wù),在流水線模式中,各個(gè)子任務(wù)的啟動(dòng)同之前順序任務(wù)的完成情況具有依賴,對(duì)具有先后相關(guān)性數(shù)據(jù)分析方面具有較好的實(shí)用性特征。目前,以分布式系統(tǒng)以及流式技術(shù)為協(xié)作的框架機(jī)制已經(jīng)在應(yīng)用中表現(xiàn)出了較好的生命力以及靈活性,在本研究中,將以Storm系統(tǒng)為例進(jìn)行簡(jiǎn)單的介紹。
Storm是由Twitter所推出的一種流式分布式系統(tǒng),在該集群中,由多個(gè)工作節(jié)點(diǎn)以及一個(gè)主節(jié)點(diǎn)組成,其中,主節(jié)點(diǎn)可以說(shuō)是系統(tǒng)的核心,具有任務(wù)布置、代碼分配以及故障檢測(cè)等作用。在該系統(tǒng)中,當(dāng)其要對(duì)實(shí)時(shí)計(jì)算任務(wù)進(jìn)行完成時(shí),需要對(duì)一個(gè)Topology進(jìn)行建立,并由該模塊對(duì)數(shù)據(jù)處理進(jìn)行規(guī)劃。在Storm系統(tǒng)中,元組是基本的數(shù)據(jù)流單位,可以將其看作是一個(gè)被封裝的數(shù)據(jù)結(jié)構(gòu)類型,在Storm系統(tǒng)中,Topology可以說(shuō)是最高級(jí)別的執(zhí)行單元,其是由很多個(gè)節(jié)點(diǎn)所組成的拓?fù)洌谕負(fù)渲校刹煌?jié)點(diǎn)對(duì)相應(yīng)的計(jì)算邏輯進(jìn)行完成。在該系統(tǒng)中,Spout是系統(tǒng)的數(shù)據(jù)流生成器,而B(niǎo)olt則為不同的處理位置。對(duì)于數(shù)據(jù)流來(lái)說(shuō),由于Spout為數(shù)據(jù)源頭,在實(shí)際運(yùn)行中,其在對(duì)數(shù)據(jù)進(jìn)行讀取之后則會(huì)實(shí)現(xiàn)向Bolt的傳送,其不僅能夠?qū)Χ鄠€(gè)輸入流進(jìn)行接收,且能夠較好的對(duì)數(shù)據(jù)進(jìn)行特定處理。在Storm系統(tǒng)對(duì)Topology進(jìn)行應(yīng)用之后,其則具有了更為強(qiáng)大以及更為靈活的數(shù)據(jù)處理能力,節(jié)點(diǎn)在根據(jù)Topology邏輯對(duì)任務(wù)進(jìn)行分配之后將任務(wù)分配到相應(yīng)物理節(jié)點(diǎn)之上。而從整個(gè)架構(gòu)情況看來(lái),在數(shù)據(jù)以及計(jì)算協(xié)作處理方面,系統(tǒng)主要是通過(guò)Topology進(jìn)行分配,并在按照其描述之后由對(duì)應(yīng)的節(jié)點(diǎn)程序進(jìn)行處理,并由主節(jié)點(diǎn)將根據(jù)一個(gè)邏輯實(shí)現(xiàn)物理節(jié)點(diǎn)的映射。
2.2 流式拓樸映射模型
在Storm系統(tǒng)中,其通過(guò)Topology結(jié)構(gòu)的應(yīng)用,則能夠?qū)^為復(fù)雜的分布式數(shù)據(jù)處理任務(wù)進(jìn)行實(shí)現(xiàn),在整個(gè)過(guò)程中,對(duì)于不同計(jì)算任務(wù),Topology好比是邏輯規(guī)劃,并沒(méi)有對(duì)相應(yīng)的物理節(jié)點(diǎn)進(jìn)行對(duì)應(yīng),在系統(tǒng)主節(jié)點(diǎn)中,可能具有數(shù)量較多的該種結(jié)構(gòu),而對(duì)于每一個(gè)結(jié)構(gòu)都可以將其視作為對(duì)特殊問(wèn)題進(jìn)行處理的邏輯規(guī)劃,可以說(shuō),通過(guò)Topology結(jié)構(gòu)的應(yīng)用,則能夠?qū)Υ蠖鄶?shù)問(wèn)題的處理方式進(jìn)行描述。其整個(gè)過(guò)程可以抽象如圖1所示。
在圖1中,每一個(gè)操作就可以將其是作為Bolt,而數(shù)據(jù)發(fā)生器則為Spout,在該系統(tǒng)中,同樣由主節(jié)點(diǎn)對(duì)很多個(gè)處理節(jié)點(diǎn)進(jìn)行管理與監(jiān)控,對(duì)于每個(gè)任務(wù)的邏輯規(guī)劃,主節(jié)點(diǎn)都會(huì)在一定策略的基礎(chǔ)上對(duì)物理節(jié)點(diǎn)進(jìn)行分配,以此對(duì)相關(guān)的計(jì)算恩物進(jìn)行完成。如上圖中,主節(jié)點(diǎn)為操作1分配物理節(jié)點(diǎn)1,為操作2分配物理節(jié)點(diǎn)2,為操作3分配物理節(jié)點(diǎn)3,為操作4分配物理節(jié)點(diǎn)1,在以該種方式進(jìn)行分配之后,Topology則能夠被映射為集群物理結(jié)構(gòu),并能夠?qū)ο鄳?yīng)的計(jì)算任務(wù)進(jìn)行完成。而作為編程人員,在工作當(dāng)中僅僅需要對(duì)Topology的邏輯結(jié)構(gòu)進(jìn)行定義即可,其后續(xù)相關(guān)工作則完全由系統(tǒng)進(jìn)行維護(hù),作為設(shè)計(jì)人員,在整個(gè)操作過(guò)程中也不需要對(duì)失效問(wèn)題進(jìn)行擔(dān)心,這是因?yàn)楫?dāng)某個(gè)節(jié)點(diǎn)出現(xiàn)失效情況時(shí),主節(jié)點(diǎn)將根據(jù)對(duì)應(yīng)操作將其對(duì)一個(gè)好的物理節(jié)點(diǎn)進(jìn)行重新的映射,以此保證整個(gè)規(guī)劃能夠得到順利的實(shí)現(xiàn)。
通過(guò)上述的分析可以了解到,通過(guò)流式拓樸映射方法的應(yīng)用,則能夠使系統(tǒng)根據(jù)Topology描述的情況對(duì)不同的集群計(jì)算結(jié)構(gòu)進(jìn)行自動(dòng)組合,以此以更為靈活的方式對(duì)復(fù)雜問(wèn)題進(jìn)行處理。在整個(gè)過(guò)程中,系統(tǒng)的主節(jié)點(diǎn)具有數(shù)據(jù)路由以及計(jì)算的作用,并通過(guò)Topology的描述對(duì)協(xié)作機(jī)制的跟蹤定位進(jìn)行實(shí)現(xiàn)。
在此,我們以MPS對(duì)Topology到物理的映射過(guò)程進(jìn)行模擬,在節(jié)點(diǎn)間,將通過(guò)Mpi_Send()函數(shù)的應(yīng)用將流數(shù)據(jù)元組注入到節(jié)點(diǎn)當(dāng)中,并在該節(jié)點(diǎn)上對(duì)相關(guān)操作進(jìn)行發(fā)起,之后,通過(guò)MPI_Recv()函數(shù)的應(yīng)用對(duì)前端數(shù)據(jù)進(jìn)行接收,以此對(duì)節(jié)點(diǎn)間通訊進(jìn)行實(shí)現(xiàn)。對(duì)于該種方式來(lái)說(shuō),其能夠?qū)Σ煌瑪?shù)據(jù)系統(tǒng)僅僅能夠進(jìn)行非實(shí)時(shí)數(shù)據(jù)批處理的問(wèn)題進(jìn)行了較好的避免,具有較好的應(yīng)用效果。
3 結(jié)束語(yǔ)
在現(xiàn)今大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)同計(jì)算間的協(xié)作具有了更為重要的意義。在上文章,我們對(duì)大數(shù)據(jù)技術(shù)中計(jì)算與數(shù)據(jù)的協(xié)作機(jī)制進(jìn)行了一定的研究,需要能夠聯(lián)系實(shí)際進(jìn)行系統(tǒng)模式的選擇與應(yīng)用,以此更好的對(duì)數(shù)據(jù)處理任務(wù)進(jìn)行實(shí)現(xiàn)。
參考文獻(xiàn)
[1]羅象宏,舒繼武.存儲(chǔ)系統(tǒng)中的糾刪碼研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2012(1):77-79.
大數(shù)據(jù)商業(yè)應(yīng)用技術(shù)與商業(yè)思維革命
大數(shù)據(jù),又稱巨量資料,指的是不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法,在合理時(shí)間內(nèi)擷取、管理、處理、整理有關(guān)數(shù)據(jù)以幫助用戶獲取更及時(shí)、準(zhǔn)確的決策依據(jù)。大數(shù)據(jù)有4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實(shí)性)。
一、大數(shù)據(jù)技術(shù)的商業(yè)應(yīng)用領(lǐng)域
大數(shù)據(jù)就是全數(shù)據(jù),“大數(shù)據(jù)”到底有多大?據(jù)統(tǒng)計(jì),僅在2011年,全球數(shù)據(jù)增量就達(dá)到了1.8ZB(即1.8萬(wàn)億GB),相當(dāng)于全世界每人產(chǎn)生200GB的數(shù)據(jù)。這種增長(zhǎng)趨勢(shì)仍在加速,以后的幾年,數(shù)據(jù)將始終保持每年50%的增長(zhǎng)速度。如百度制作的“百度地圖春節(jié)人口遷徙大數(shù)據(jù)”就是典型的大數(shù)據(jù)應(yīng)用之一。大數(shù)據(jù)結(jié)合可視化分析將大量復(fù)雜的數(shù)據(jù)自動(dòng)轉(zhuǎn)化成直觀形象的圖表,將使數(shù)據(jù)能夠更加容易的被普通消費(fèi)者所接受和理解。從數(shù)據(jù)庫(kù)到大數(shù)據(jù),看似只是一個(gè)簡(jiǎn)單的技術(shù)演進(jìn),但細(xì)細(xì)研究不難發(fā)現(xiàn)兩者有著本質(zhì)上的差別。大數(shù)據(jù)的出現(xiàn)將顛覆傳統(tǒng)的數(shù)據(jù)管理方式,在數(shù)據(jù)來(lái)源、數(shù)據(jù)處理方式和數(shù)據(jù)思維等方面帶來(lái)革命性的變化。大數(shù)據(jù)技術(shù)目前應(yīng)用在以下幾個(gè)方面。
第一,數(shù)據(jù)挖掘算法是大數(shù)據(jù)分析的理論核心,其本質(zhì)是一組根據(jù)算法事先定義好的數(shù)學(xué)公式,將收集到的數(shù)據(jù)作為參數(shù)變量帶入其中,從而能夠從大量復(fù)雜的數(shù)據(jù)中提取到有價(jià)值的信息。著名的“啤酒和尿布”的故事就是數(shù)據(jù)挖掘算法的經(jīng)典案例。亞馬遜的推薦引擎和谷歌的廣告系統(tǒng)都大量使用了數(shù)據(jù)挖掘算法。第二,預(yù)測(cè)性分析能力是大數(shù)據(jù)分析最重要的應(yīng)用領(lǐng)域。從大量復(fù)雜的數(shù)據(jù)中挖掘規(guī)律,建立科學(xué)的事件模型,通過(guò)將新的數(shù)據(jù)帶入模型,就可以預(yù)測(cè)未來(lái)的事件走向。預(yù)測(cè)性分析能力常常被應(yīng)用在金融分析和科學(xué)研究領(lǐng)域,用于股票預(yù)測(cè)或氣象預(yù)測(cè)等。第三,語(yǔ)義引擎是機(jī)器學(xué)習(xí)的成果之一。過(guò)去,計(jì)算機(jī)對(duì)用戶輸入內(nèi)容的理解僅僅停留在字符階段,不能很好的理解輸入內(nèi)容的意思,因此常常不能準(zhǔn)確的了解用戶的需求。通過(guò)對(duì)大量復(fù)雜的數(shù)據(jù)進(jìn)行分析,讓計(jì)算機(jī)從中自我學(xué)習(xí),可以使計(jì)算機(jī)能夠盡量精確的了解用戶輸入內(nèi)容的意思,從而把握住用戶的需求,提供更好的用戶體驗(yàn)。蘋(píng)果的Siri和谷歌的Google Now都采用了語(yǔ)義引擎。第四,數(shù)據(jù)質(zhì)量管理是大數(shù)據(jù)在企業(yè)領(lǐng)域的重要應(yīng)用。為了保證大數(shù)據(jù)分析結(jié)果的準(zhǔn)確性,需要將大數(shù)據(jù)中不真實(shí)的數(shù)據(jù)剔除掉,保留最準(zhǔn)確的數(shù)據(jù)。這就需要建立有效的數(shù)據(jù)質(zhì)量管理系統(tǒng),分析收集到的大量復(fù)雜的數(shù)據(jù),挑選出真實(shí)有效的數(shù)據(jù)。
大數(shù)據(jù)技術(shù)的應(yīng)用中也帶來(lái)一定的問(wèn)題。大數(shù)據(jù)數(shù)據(jù)量增加并不一定意味著數(shù)據(jù)價(jià)值的增加卻意味著數(shù)據(jù)噪音的增多,因此在找到有用數(shù)據(jù)之前必須給數(shù)據(jù)“降噪”。大數(shù)據(jù)的處理也要求算法在實(shí)時(shí)性和有效性之間找到平衡,云計(jì)算能幫助解決一些問(wèn)題,那么就要開(kāi)發(fā)基于云計(jì)算的新算法框架。數(shù)據(jù)間的鏈接需要更創(chuàng)造性的算法創(chuàng)新來(lái)找到其中的未知的關(guān)聯(lián),以放大數(shù)據(jù)計(jì)算的價(jià)值。
二、大數(shù)據(jù)技術(shù)應(yīng)用帶來(lái)的思維革命
大數(shù)據(jù)帶給我們?cè)谘芯恳约皩?shí)踐上的思維轉(zhuǎn)變。
第一,大數(shù)據(jù)顛覆統(tǒng)計(jì)基礎(chǔ),從數(shù)據(jù)抽樣到數(shù)據(jù)全樣,大數(shù)據(jù)最大的特點(diǎn)是大而全,我們將改變統(tǒng)計(jì)方法。如系統(tǒng)抽樣,分層抽樣,定額抽樣,這些統(tǒng)計(jì)方法將會(huì)在大數(shù)據(jù)時(shí)代不復(fù)存在。大數(shù)據(jù)的信息化可以統(tǒng)計(jì)到一切想要統(tǒng)計(jì)的數(shù)據(jù),將工業(yè)時(shí)代的統(tǒng)計(jì)方法淘汰掉。
第二,從追求精確到非精確。在傳統(tǒng)的搜索時(shí)代,當(dāng)我們?nèi)ゲ樵兡硞€(gè)信息時(shí),我們需要得到的是全部的數(shù)據(jù),但是搜索引擎則完全改變了我們這種認(rèn)識(shí),搜索引擎提供的只是前幾項(xiàng)內(nèi)容,而這幾項(xiàng)內(nèi)容則完全滿足了我們的信息需求。搜索引擎其實(shí)提供的是一套模糊算法,經(jīng)過(guò)一系列的算法計(jì)算,將最優(yōu)秀的結(jié)果帶到用戶面前,而這種結(jié)果上的呈現(xiàn)也顛覆了傳統(tǒng)所認(rèn)知的對(duì)于目標(biāo)的定義,在大數(shù)據(jù)時(shí)代,我們追求的不再是絕對(duì)目標(biāo),而是一個(gè)從宏觀趨勢(shì)下推導(dǎo)出的一些模糊的不精確的未知目標(biāo),我們將追求無(wú)限的近似而不是絕對(duì)的正確。
第三,維邏輯方式將從因果轉(zhuǎn)變?yōu)殛P(guān)聯(lián)。大數(shù)據(jù)時(shí)代導(dǎo)致了西方產(chǎn)生了驚人的言論:“理論已死”。以往的決策決策者要想決定某件事,必須參考各種理論,對(duì)其中的因果進(jìn)行判定后才能達(dá)成,但是大數(shù)據(jù)時(shí)代則讓決策變得更加容易,比如超市大數(shù)據(jù)可能會(huì)用清晰的圖表告訴你每當(dāng)下雨天時(shí),超市里的蛋糕會(huì)賣的多,這時(shí)候決策者根本不需要知道任何理論,任何因果,只需要在天氣預(yù)報(bào)預(yù)測(cè)明天將要下雨時(shí)提前準(zhǔn)備蛋糕就行了。
大數(shù)據(jù)技術(shù)將引領(lǐng)兩個(gè)領(lǐng)域共同發(fā)展,并帶來(lái)人類生存環(huán)境和人類本身的巨大改變。首先是大數(shù)據(jù)技術(shù)帶動(dòng)物聯(lián)網(wǎng)技術(shù)的延展,物聯(lián)網(wǎng)可以依靠數(shù)據(jù)處理技術(shù)延伸到每一個(gè)角落,幫助人類收集客觀世界的一切信息,比如車聯(lián)網(wǎng)、智能高速公路,智能家居等。物聯(lián)網(wǎng)還可以延伸到人類自身之上,比如可穿戴設(shè)備幫助人類更好地了解自身的健康,慢性疾病或者腫瘤的治愈將成為現(xiàn)實(shí)。大數(shù)據(jù)將使客觀世界的全部?jī)?nèi)容數(shù)據(jù)化、可記錄。另一個(gè)領(lǐng)域是大數(shù)據(jù)技術(shù)帶動(dòng)數(shù)據(jù)分析的發(fā)展,當(dāng)信息獲取系統(tǒng)幫助人類獲取了足夠多的信息,如何處理這些信息將是問(wèn)題,潛在的技術(shù)將把無(wú)關(guān)聯(lián)的領(lǐng)域用數(shù)據(jù)聯(lián)系起來(lái)。最終,大數(shù)據(jù)帶來(lái)的將是具有人類智能的世界,客觀世界將通過(guò)互聯(lián)與數(shù)據(jù)處理貢獻(xiàn)一種提供實(shí)事求是經(jīng)驗(yàn)的、類似人腦習(xí)慣性的真實(shí)思維。我們的生活將發(fā)生巨大變化,理性與習(xí)慣性將增加,不可預(yù)測(cè)性將降低,包括隱私在內(nèi)的很多法律問(wèn)題將被重新定義。
參考文獻(xiàn):
【關(guān)鍵詞】云計(jì)算技術(shù) 大數(shù)據(jù) 數(shù)據(jù)處理
隨著物聯(lián)網(wǎng)、網(wǎng)絡(luò)、移動(dòng)通信等的快速發(fā)展,特別是互聯(lián)網(wǎng)的普及使得信息傳播的規(guī)模和速度呈現(xiàn)幾何增長(zhǎng),人們獲取信息的途徑和方式開(kāi)始變得異常豐富,人們事實(shí)上已經(jīng)進(jìn)入了“信息大爆炸”時(shí)代。與此同時(shí)信息傳播的大容量、高效性和準(zhǔn)確性也對(duì)現(xiàn)有的數(shù)據(jù)處理體系提出了更高要求。根據(jù)大數(shù)據(jù)摩爾定律,人類世界的數(shù)據(jù)產(chǎn)生量將按照每?jī)赡暌槐兜乃俾试鲩L(zhǎng),預(yù)計(jì)2020年世界數(shù)據(jù)量將超過(guò)35億GB,“大數(shù)據(jù)”時(shí)代迫在眉睫。“大數(shù)據(jù)”具有離散型、隨機(jī)性、發(fā)散性、爆發(fā)性等特點(diǎn)。近年來(lái),隨著云技術(shù)的興起全面革新了傳統(tǒng)的數(shù)據(jù)技術(shù),大容量、多樣化、快速處理、信息價(jià)值性和準(zhǔn)確性為了云技術(shù)背景下大數(shù)據(jù)處理的五大主要特征。如何利用云計(jì)算技術(shù)對(duì)大數(shù)據(jù)進(jìn)行高效處理已經(jīng)成為了信息技術(shù)發(fā)展亟待解決的關(guān)鍵問(wèn)題。
1 大數(shù)據(jù)和云計(jì)算的關(guān)系
云計(jì)算技術(shù)是指利用集中式遠(yuǎn)程計(jì)算資源池,通過(guò)按需分配的方式,為終端用戶提供強(qiáng)大而廉價(jià)的計(jì)算服務(wù)技術(shù)。云計(jì)算技術(shù)作為一種數(shù)據(jù)處理方式,其技術(shù)特點(diǎn)包括:一是資源池在物理上是對(duì)終端用戶完全透明的;二是能夠?yàn)槿魏涡袠I(yè)提供規(guī)模化計(jì)算服務(wù),其服務(wù)能力可看做是“無(wú)限”的;三是其應(yīng)用部署快速便捷,服務(wù)能力和方式是可以完全按照終端客戶要求定制的,具有極強(qiáng)的彈性伸縮能力;四是云端數(shù)據(jù)獲取方便,能夠資源共享,用戶使用成本低廉。
云計(jì)算技術(shù)是目前最強(qiáng)大的數(shù)據(jù)存儲(chǔ)、傳輸和處理平臺(tái),它是大數(shù)據(jù)處理的最優(yōu)選擇。云計(jì)算能夠?yàn)榇髷?shù)據(jù)提供幾乎“無(wú)限”的存儲(chǔ)空間和處理能力,滿足其超大容量存儲(chǔ)和超級(jí)復(fù)雜的處理需求,也是傳統(tǒng)存儲(chǔ)方式無(wú)法實(shí)現(xiàn)的。云計(jì)算側(cè)重?cái)?shù)據(jù)的計(jì)算處理,而大數(shù)據(jù)需要強(qiáng)大數(shù)據(jù)處理能力,因而它是云計(jì)算的處理對(duì)象。此外大數(shù)據(jù)所產(chǎn)生的業(yè)務(wù)需求也為云計(jì)算的實(shí)現(xiàn)提供了更多的形式。
2 基于云計(jì)算的大數(shù)據(jù)處理技術(shù)
2.1 大數(shù)據(jù)的采集技術(shù)
目前數(shù)據(jù)采集方式主要分為集中式和分布式兩大類。其中分布式的靈活性較強(qiáng),而集中式的全局性較好。實(shí)際上大數(shù)據(jù)采集的對(duì)象通常包括組織內(nèi)部和相互獨(dú)立組織間的各類數(shù)據(jù),而云計(jì)算恰好具有并行處理的優(yōu)勢(shì),因而可采取混合式采集方式能夠更加有效地完成數(shù)據(jù)采集任務(wù)。即在各個(gè)組織內(nèi)部采用集中式數(shù)據(jù)采集方式,通過(guò)在組織內(nèi)配置中心服務(wù)器,作為集中式數(shù)據(jù)注冊(cè)機(jī)構(gòu),用于存儲(chǔ)和共享內(nèi)部的數(shù)據(jù)。在相互獨(dú)立組織間,采用云計(jì)算的集群技術(shù)、虛擬化技術(shù)等在各獨(dú)立組織中心服務(wù)器間采用分布式采集方式實(shí)現(xiàn)數(shù)據(jù)采集、組織間對(duì)接和共享。大數(shù)據(jù)結(jié)構(gòu)類型包括結(jié)構(gòu)化、半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù),因而在應(yīng)用云計(jì)算技術(shù)進(jìn)行分布式采集時(shí),可依托其超強(qiáng)的擴(kuò)展性和容錯(cuò)力,將數(shù)據(jù)池內(nèi)數(shù)據(jù)進(jìn)行同構(gòu)化,從而實(shí)現(xiàn)數(shù)據(jù)進(jìn)行分類存儲(chǔ)。
2.2 大數(shù)據(jù)的存儲(chǔ)技術(shù)
由于超大體量、離散、復(fù)雜的數(shù)據(jù)特點(diǎn),傳統(tǒng)數(shù)據(jù)存儲(chǔ)模式已經(jīng)難以滿足大數(shù)據(jù)存儲(chǔ)要求。一方面單結(jié)點(diǎn)的數(shù)據(jù)倉(cāng)庫(kù)在容量上難以滿足呈幾何增長(zhǎng)的數(shù)據(jù)量,在運(yùn)行效率上也難以滿足大數(shù)據(jù)的分析處理需求。另一方面?zhèn)鹘y(tǒng)數(shù)據(jù)倉(cāng)庫(kù)按行存儲(chǔ)模式,雖然可以實(shí)現(xiàn)大容量索引和視圖,但實(shí)際操作中其時(shí)間和空間過(guò)高。而云計(jì)算主要采取列式存儲(chǔ)模式,即區(qū)分?jǐn)?shù)據(jù)不同屬性,不同屬性列都單獨(dú)存放。云計(jì)算中列式存儲(chǔ)的優(yōu)勢(shì)在于在投影數(shù)據(jù)時(shí)只需查詢其屬性列,系統(tǒng)處理量和處理效率顯著提升。此外按數(shù)據(jù)屬性進(jìn)行列式存儲(chǔ),數(shù)據(jù)倉(cāng)庫(kù)中相鄰列數(shù)據(jù)的相似性更高,因而能夠得到更高的數(shù)據(jù)壓縮率,進(jìn)一步減少存儲(chǔ)所需空間。
2.3 大數(shù)據(jù)的挖掘技術(shù)
聯(lián)機(jī)分析能夠完成數(shù)據(jù)的復(fù)雜處理,得到直觀結(jié)果,實(shí)現(xiàn)決策性分析。云計(jì)算并行模式下聯(lián)機(jī)分析能夠基于數(shù)據(jù)全局,建立多維分析模型對(duì)數(shù)據(jù)進(jìn)行多維度分析,從而盡可能獲得全面的分析結(jié)構(gòu)。由此可見(jiàn)多維度分析是聯(lián)機(jī)分析的重要特征,而云計(jì)算技術(shù)下數(shù)據(jù)倉(cāng)庫(kù)正好是通過(guò)多維數(shù)據(jù)組織的。
聯(lián)機(jī)分析對(duì)數(shù)據(jù)的處理僅僅只是表面的,其獲取的信息價(jià)值并不高,難以得到數(shù)據(jù)深層次的含義與內(nèi)在關(guān)聯(lián)。而數(shù)據(jù)挖掘正是在聯(lián)機(jī)分析的基礎(chǔ)上,從超大體量的數(shù)據(jù)倉(cāng)庫(kù)中提取數(shù)據(jù)所蘊(yùn)含的隱性信息,并將這些信息用規(guī)律、概念或是模型等表現(xiàn)出來(lái)。基于云計(jì)算的數(shù)據(jù)挖掘主要采用分布式并行挖掘技術(shù)。與其他串行方式相比,云計(jì)算技術(shù)下并行數(shù)據(jù)挖掘能夠利用機(jī)器集群拆分分布式系統(tǒng)中的并行任務(wù),并將拆分后的各個(gè)任務(wù)分別交由不同的機(jī)器去處理,從而實(shí)現(xiàn)大規(guī)模數(shù)據(jù)處理,其時(shí)間成本也大大降低。
2.4 大數(shù)據(jù)的可視化技術(shù)
上文所述數(shù)據(jù)挖掘可實(shí)現(xiàn)大數(shù)據(jù)的深層次、多維度分析,獲取更多有用信息。而云計(jì)算平臺(tái)下可視化技術(shù)則能夠?qū)⑸鲜鲂畔⒕唧w化,從而使數(shù)據(jù)及其有關(guān)結(jié)構(gòu)的相關(guān)信息能夠更直觀地表現(xiàn)出來(lái),更容易被發(fā)覺(jué)和理解。可視化技術(shù)是指在存儲(chǔ)空間中,將數(shù)據(jù)庫(kù)及其中數(shù)據(jù)以圖像(圖形)的形式表示出來(lái),并在其中再采用其他的分析手段獲取圖像中所蘊(yùn)含的未知信息。而原有的數(shù)據(jù)處理僅僅只能夠從數(shù)據(jù)本身入手,分析和觀察數(shù)據(jù)中的內(nèi)在信息。云計(jì)算下的可視化技術(shù)不但能夠?qū)崿F(xiàn)非空間數(shù)據(jù)的多維度圖像顯示,而且能夠?qū)崿F(xiàn)檢索過(guò)程的直觀圖形顯示,從而幫助人們更好地挖掘和理解信息,信息檢索效率也大大提升。
3 結(jié)語(yǔ)
在數(shù)據(jù)爆炸時(shí)代,云計(jì)算的出現(xiàn)為大數(shù)據(jù)的存儲(chǔ)和處理提供了可能,也為數(shù)據(jù)處理系統(tǒng)的功能擴(kuò)展提供了重要保障。以往的數(shù)據(jù)管理將收集和存儲(chǔ)作為重點(diǎn),而在云計(jì)算模式下,大數(shù)據(jù)管理將更多地側(cè)重?cái)?shù)據(jù)分析、挖掘及管理模式的創(chuàng)新。目前數(shù)據(jù)采集和統(tǒng)計(jì)技術(shù)已經(jīng)較為成熟,利用云計(jì)算進(jìn)一步豐富大數(shù)據(jù)的存儲(chǔ)和處理方式,實(shí)現(xiàn)更高層次的數(shù)據(jù)挖掘和可視化將是今后需要解決的問(wèn)題之一。
參考文獻(xiàn)
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念,技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146+169.
[2]吳雪琴,基于云計(jì)算的大數(shù)據(jù)信息檢索技術(shù)研究[J].電腦知識(shí)與技術(shù),2014,10(10):38-41.
[3]迪莉婭.基于云計(jì)算的電子政務(wù)大數(shù)據(jù)管理研究[J].信息管理與信息學(xué),2013(12):50-51.
1.1物聯(lián)網(wǎng)
物聯(lián)網(wǎng)是可將物與物、人與人、人與物相互關(guān)聯(lián),實(shí)現(xiàn)智能控制的一種網(wǎng)絡(luò)技術(shù)。就是利用局部網(wǎng)絡(luò)或互聯(lián)網(wǎng)等通信技術(shù)把自來(lái)水廠既有的傳感控制器、機(jī)器、人員等通過(guò)新的方式聯(lián)在一起,實(shí)現(xiàn)信息化、遠(yuǎn)程管控和智能化的網(wǎng)絡(luò)。
1.2大數(shù)據(jù)
大數(shù)據(jù)技術(shù)可將水廠內(nèi)一系列的數(shù)據(jù)庫(kù)集成化,抽取挖掘數(shù)據(jù)信息,并轉(zhuǎn)換成指導(dǎo)企業(yè)生產(chǎn)管理的有效信息。大數(shù)據(jù),主要就是指數(shù)據(jù)量巨大、種類多、產(chǎn)生速度快、有創(chuàng)造價(jià)值潛力的數(shù)據(jù)庫(kù)。被譽(yù)為“大數(shù)據(jù)時(shí)代的預(yù)言家”的牛津大學(xué)維克托·邁爾-舍恩伯格教授解釋:大數(shù)據(jù)分析就是分析全體數(shù)據(jù)不要抽樣數(shù)據(jù),要接受數(shù)據(jù)的復(fù)雜多樣性不要追求個(gè)別類型數(shù)據(jù)的精確,要事物相關(guān)關(guān)系不要難以捉摸的因果關(guān)系[2]。
1.3機(jī)器人
傳統(tǒng)一線工人是通過(guò)對(duì)設(shè)備的看、觸、聽(tīng)、嗅、測(cè)等感觀進(jìn)行巡視判斷。而設(shè)備巡檢機(jī)器人一旦投運(yùn),將不受環(huán)境影響,實(shí)現(xiàn)24小時(shí)不間斷高強(qiáng)度的自動(dòng)巡檢,甚至還可以將每次巡檢的內(nèi)容上傳大數(shù)據(jù)庫(kù)進(jìn)行儲(chǔ)存,方便以后查閱。
2面向智慧水廠的大數(shù)據(jù)管理理論
對(duì)于智慧水廠而言,其大數(shù)據(jù)往往是從各種復(fù)雜系統(tǒng)中得到的,每一個(gè)系統(tǒng)都有著獨(dú)立的數(shù)據(jù)集和分散的鏈接,數(shù)據(jù)的共性和網(wǎng)絡(luò)的整體特征隱藏在這些數(shù)據(jù)網(wǎng)絡(luò)的集合中,但通過(guò)大數(shù)據(jù)可以將這些反映相互關(guān)系的鏈接整合起來(lái),構(gòu)成一張完整的大數(shù)據(jù)關(guān)系網(wǎng)。分析大數(shù)據(jù)也就是分析大數(shù)據(jù)后面的網(wǎng)絡(luò),大數(shù)據(jù)面臨的科學(xué)問(wèn)題本質(zhì)上可能就是網(wǎng)絡(luò)科學(xué)問(wèn)題,一些網(wǎng)絡(luò)參數(shù)和性質(zhì)也許能刻畫(huà)大數(shù)據(jù)背后網(wǎng)絡(luò)的共性[5]。智慧水廠部分大數(shù)據(jù)及這些數(shù)據(jù)之間可能的聯(lián)系,其中包含了來(lái)自水廠自身、調(diào)度及外部的諸多數(shù)據(jù),這些不同數(shù)據(jù)之間彼此關(guān)聯(lián)、交織成網(wǎng),以一種現(xiàn)階段看來(lái)無(wú)比混雜并且難以準(zhǔn)確描述的方式支撐和推動(dòng)著配水廠的運(yùn)行與發(fā)展。
3面向智慧水廠的大數(shù)據(jù)分析前景
摘要:貴州智庫(kù)必須運(yùn)用貴州領(lǐng)跑大數(shù)據(jù)的優(yōu)勢(shì)加快智庫(kù)轉(zhuǎn)型升級(jí)。大數(shù)據(jù)時(shí)代為貴州智庫(kù)轉(zhuǎn)型提供技術(shù)支撐。貴州借助大數(shù)據(jù)技術(shù)助
>> 大數(shù)據(jù)加速推進(jìn)貴州產(chǎn)業(yè)轉(zhuǎn)型升級(jí) 大數(shù)據(jù)助推產(chǎn)業(yè)升級(jí) 軍民融合助推貴州工業(yè)轉(zhuǎn)型升級(jí) 讓工業(yè)大數(shù)據(jù)成為制造業(yè)轉(zhuǎn)型升級(jí)的助推器 國(guó)網(wǎng)新疆電力公司大數(shù)據(jù)智庫(kù)平臺(tái)安全技術(shù)解析 大數(shù)據(jù)驅(qū)動(dòng)下的新疆新型智庫(kù)建設(shè) 貴州大數(shù)據(jù)產(chǎn)業(yè)發(fā)展與產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)型 貴州弄潮大數(shù)據(jù) 論道貴州大數(shù)據(jù) IT助推智庫(kù)創(chuàng)新 數(shù)據(jù)庫(kù)技術(shù)在大數(shù)據(jù)中的應(yīng)用 大數(shù)據(jù)助推大格局賽罕區(qū)開(kāi)啟食藥監(jiān)管“智”理新模式 信息技術(shù)助推傳統(tǒng)企業(yè)轉(zhuǎn)型升級(jí) BIM技術(shù)助推國(guó)有大型施工企業(yè)轉(zhuǎn)型升級(jí) 2016云上貴州?大數(shù)據(jù)招商引智推介會(huì)在京舉行 利用大數(shù)據(jù)技術(shù)助推精準(zhǔn)扶貧的新探索 創(chuàng)意助推企業(yè)轉(zhuǎn)型升級(jí) 大數(shù)據(jù)背景下的高校新型智庫(kù)信息支持平臺(tái)構(gòu)建研究 大數(shù)據(jù)環(huán)境下高校圖書(shū)館嵌入智庫(kù)建設(shè)模式探討 貴州耕“云”大數(shù)據(jù) 常見(jiàn)問(wèn)題解答 當(dāng)前所在位置:
[2].
[3]宗威、吳鋒.大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn),西安交通大學(xué)學(xué)報(bào),2013年9月,第33卷,第5期,總第121期.
[4]吳金紅、張飛、鞠秀芳.大數(shù)據(jù): 企業(yè)競(jìng)爭(zhēng)情報(bào)的機(jī)遇、挑戰(zhàn)及對(duì)策研究,情報(bào)雜志,第32卷.
[5]中國(guó)大數(shù)據(jù)重點(diǎn)行業(yè)應(yīng)用市場(chǎng)研究白皮書(shū)
[6]中國(guó)大數(shù)據(jù)重點(diǎn)行業(yè)應(yīng)用市場(chǎng)研究白皮書(shū)
[7]新一輪信息技術(shù)革命浪潮對(duì)我國(guó)的影響(上).
[13]付玉輝、郭燕溪.從社會(huì)化大數(shù)據(jù)傳播視角看公關(guān)傳播,20130603.http://.cn/templates/T_Second/index.aspx?nodeid=43&page=ContentPage&contentid=3041
關(guān)鍵詞:網(wǎng)絡(luò)教育;大數(shù)據(jù)技術(shù);大數(shù)據(jù)時(shí)代
大數(shù)據(jù)技術(shù)是由信息技術(shù)而產(chǎn)生的一種新型的技術(shù)類型,它不但帶給人們?nèi)碌睦砟睢⑷碌闹R(shí),還將人們帶進(jìn)了全新的時(shí)代——大數(shù)據(jù)時(shí)代。同時(shí),在我國(guó)網(wǎng)絡(luò)教育領(lǐng)域的學(xué)習(xí)和管理中,已經(jīng)將大數(shù)據(jù)技術(shù)引用進(jìn)來(lái)。對(duì)數(shù)據(jù)進(jìn)行分析,并以此來(lái)推動(dòng)網(wǎng)絡(luò)教育事業(yè)的發(fā)展,是大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)教育的重點(diǎn)工作內(nèi)容,因此,“對(duì)于應(yīng)用于網(wǎng)絡(luò)教育中的大數(shù)據(jù)技術(shù)探析”的研究,就具有極大的現(xiàn)實(shí)意義。
1大數(shù)據(jù)時(shí)代的影響
近年來(lái),大數(shù)據(jù)一詞被人們廣泛的提出和認(rèn)知,同時(shí),在各個(gè)行業(yè)中也都對(duì)大數(shù)據(jù)技術(shù)進(jìn)行著行業(yè)應(yīng)用,很多國(guó)家和企業(yè)也越來(lái)越多的提到大數(shù)據(jù)時(shí)代,那么,大數(shù)據(jù)時(shí)代是怎樣產(chǎn)生,其發(fā)展趨勢(shì)又是怎樣呢,本文在這里作簡(jiǎn)要說(shuō)明。首先,大數(shù)據(jù)時(shí)代概念,是由麥肯錫公司提出的。他們指出,由于現(xiàn)今網(wǎng)絡(luò)時(shí)代的發(fā)展,使得很多數(shù)據(jù)成為了超大型數(shù)據(jù),這些超大型的數(shù)據(jù)已經(jīng)無(wú)法用原有設(shè)計(jì)出的軟件進(jìn)行分析和處理,但作為社會(huì)發(fā)展中起主要因素的數(shù)據(jù)信息,仍然必須要經(jīng)過(guò)技術(shù)來(lái)進(jìn)行采集和運(yùn)用,相當(dāng)于人類要面對(duì)一個(gè)全新的、巨大的信息浪潮的沖擊,這標(biāo)志著一個(gè)新的信息時(shí)代的到來(lái),就是大數(shù)據(jù)時(shí)代。其次,大數(shù)據(jù)時(shí)代中,原有的數(shù)據(jù)量計(jì)量單位已經(jīng)無(wú)法滿足信息量的需求,統(tǒng)計(jì)軟件也已經(jīng)無(wú)法完成數(shù)據(jù)的全部采集和整理,這是一種顛覆性的轉(zhuǎn)變。IBM通過(guò)研究后指出,在兩年間,人們就能夠?qū)⒁酝婕暗饺祟悊?wèn)題的所有資料和數(shù)據(jù)信息收集完畢,這是何等龐大的工程,并且有學(xué)者預(yù)計(jì),世界在5年后,所生成的所有數(shù)據(jù)將會(huì)是現(xiàn)今的近百倍,這說(shuō)明大數(shù)據(jù)時(shí)代帶給的影響將是巨大的、無(wú)法想象的[1]。
2大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)教育應(yīng)用中出現(xiàn)的問(wèn)題
2.1處理及轉(zhuǎn)化問(wèn)題
將大數(shù)據(jù)技術(shù)應(yīng)用于網(wǎng)絡(luò)教育之中,由于數(shù)據(jù)信息的量極其巨大,要從這些巨大信息量中有效的篩選出可供網(wǎng)絡(luò)教育平臺(tái)應(yīng)用的課程,就具有相當(dāng)大的難度。而且,由于數(shù)據(jù)信息還具有多樣化的特點(diǎn),在有限的時(shí)間內(nèi),進(jìn)行課程信息的有效分類也成為難點(diǎn),加之這些巨大的信息中還包含著一些非法信息和病毒,如果不能進(jìn)行合理、有效的分類、整理,就無(wú)法保證這些信息的安全性和完整性。
2.2數(shù)據(jù)存儲(chǔ)問(wèn)題
當(dāng)前網(wǎng)絡(luò)教育進(jìn)行大數(shù)據(jù)技術(shù)應(yīng)用,雖會(huì)對(duì)信息資源的多樣化和便捷化起到幫助,但由于信息量的不斷增長(zhǎng),網(wǎng)絡(luò)教育平臺(tái)的存儲(chǔ)空間已經(jīng)無(wú)法滿足日益增加的巨大信息量。同時(shí),在信息的存儲(chǔ)和導(dǎo)出過(guò)程中,由于巨大的信息量,將導(dǎo)致計(jì)算機(jī)同時(shí)運(yùn)算數(shù)據(jù)過(guò)多,也極易造成計(jì)算機(jī)死機(jī)或宕機(jī)等情況發(fā)生[2]。
2.3用戶信息的安全問(wèn)題
隨著大數(shù)據(jù)技術(shù)應(yīng)用于網(wǎng)絡(luò)教育平臺(tái),雖使教學(xué)形式更加豐富多樣,卻為用戶的個(gè)人信息數(shù)據(jù)帶來(lái)了安全隱患。很多大數(shù)據(jù)背景下的網(wǎng)絡(luò)教育平臺(tái),沒(méi)有較為完善的用戶信息數(shù)據(jù)庫(kù)和加密保管措施,加之由于計(jì)算機(jī)在處理網(wǎng)絡(luò)信息時(shí),巨大的課程信息和用戶信息中也會(huì)夾雜著部分帶有病毒、木馬的信息,使得用戶在進(jìn)行網(wǎng)絡(luò)注冊(cè)后,填寫(xiě)的個(gè)人信息資料很容易被一些病毒信息或木馬信息所竊取(包括用戶年齡、工作行業(yè)、家庭住址等私密信息)。這就使用戶信息得不到很好地保密,不僅會(huì)對(duì)用戶的個(gè)人隱私帶來(lái)很大的威脅,也為不法分子進(jìn)行違法犯罪提供了信息資源。
3網(wǎng)絡(luò)教育中大數(shù)據(jù)技術(shù)的改善措施
3.1增加運(yùn)行機(jī)組
由于大時(shí)代技術(shù)應(yīng)用于網(wǎng)絡(luò)教育平臺(tái),帶來(lái)了巨大的課程數(shù)據(jù)信息和用戶信息,這些信息會(huì)對(duì)平臺(tái)造成不良影響,只有在網(wǎng)絡(luò)教育平臺(tái)的線下加入必要的運(yùn)行機(jī)組,才能解決此問(wèn)題。運(yùn)行機(jī)組的加入,不僅能改善信息分類情況,還能夠按照時(shí)間分類進(jìn)行篩選,涉及到哪些學(xué)科的知識(shí),就分類到哪里的數(shù)據(jù)庫(kù)中,并直接按照課程的先后教學(xué)時(shí)間進(jìn)行縱向排列。這樣會(huì)提高網(wǎng)絡(luò)教育后臺(tái)的工作效率,也能對(duì)網(wǎng)絡(luò)教育平臺(tái)的管理起到一定的作用[3]。
3.2設(shè)置網(wǎng)絡(luò)屏蔽系統(tǒng)
涉及巨大且多樣化的數(shù)據(jù)信息,應(yīng)利用相關(guān)技術(shù)設(shè)置網(wǎng)絡(luò)屏蔽系統(tǒng)。用戶將信息輸送到后臺(tái),后臺(tái)運(yùn)用此種系統(tǒng)進(jìn)行分析,通過(guò)判讀,為用戶信息的,則安全放行,判斷為病毒信息的,則將其擋在防護(hù)系統(tǒng)之外,這樣就能夠有效的吸收有益信息,使網(wǎng)絡(luò)教育平臺(tái)能夠進(jìn)行有效的課程播放或供用戶下載,并防止有害信息的侵入,使病毒或木馬無(wú)法對(duì)網(wǎng)絡(luò)教育平臺(tái)進(jìn)行侵害[4]。同時(shí),在接收信息時(shí),還要對(duì)較大的數(shù)據(jù)信息或不滿足要求的信息進(jìn)行篩選和屏蔽,并在網(wǎng)絡(luò)端進(jìn)行登記記錄,如若此類數(shù)據(jù)信息還對(duì)網(wǎng)絡(luò)教育平臺(tái)進(jìn)行訪問(wèn),則直接根據(jù)歷史記錄,將之屏蔽在平臺(tái)之外[5]。
3.3提高防范意識(shí)
在大數(shù)據(jù)的時(shí)代背景下,應(yīng)提高個(gè)人及網(wǎng)絡(luò)教育平臺(tái)的安全防范意識(shí)。大數(shù)據(jù)帶來(lái)的信息具有數(shù)量大、多樣化等特點(diǎn),這其中必然包含一些影響網(wǎng)絡(luò)安全的問(wèn)題,只有人們?cè)诰W(wǎng)絡(luò)上進(jìn)行學(xué)習(xí)和工作時(shí),提高自身的安全防范意識(shí),才能有效地改變由大數(shù)據(jù)技術(shù)帶給的不便。也只有網(wǎng)絡(luò)教育平臺(tái)將安全作為重中之重,才能通過(guò)網(wǎng)絡(luò)這種媒介,將教育知識(shí)普及給更多需要學(xué)習(xí)的人。
4結(jié)語(yǔ)
綜上所述,大數(shù)據(jù)技術(shù)是由于信息技術(shù)的發(fā)展應(yīng)運(yùn)而生的。雖然大數(shù)據(jù)技術(shù)的應(yīng)用,為網(wǎng)絡(luò)教育的平臺(tái)帶來(lái)了諸多問(wèn)題,但比較而言,帶來(lái)的好處則不勝枚舉。同時(shí),這種情況的發(fā)生,說(shuō)明大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)教育中的應(yīng)用僅處在初級(jí)階段,隨著信息技術(shù)的進(jìn)步和計(jì)算機(jī)應(yīng)用的進(jìn)步,這些問(wèn)題都會(huì)迎刃而解。因此,只有提高對(duì)大數(shù)據(jù)技術(shù)的認(rèn)知程度,相應(yīng)的對(duì)網(wǎng)絡(luò)教育應(yīng)用中的大數(shù)據(jù)技術(shù)進(jìn)行分析和研究,才能使大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)教育領(lǐng)域得以成熟和完善,才能為大數(shù)據(jù)技術(shù)更好地運(yùn)用到其他領(lǐng)域起到一定的示范作用。
[參考文獻(xiàn)]
[1]喻長(zhǎng)志.大數(shù)據(jù)時(shí)代教育的可能轉(zhuǎn)向[J].江淮論壇,2013(4):188-192.
[2]吳雷.大數(shù)據(jù)助力高校網(wǎng)絡(luò)思想政治教育創(chuàng)新的長(zhǎng)效機(jī)制構(gòu)建[J].淮海工學(xué)院學(xué)報(bào):人文社會(huì)科學(xué)版,2015(3):122-125.
[3]方世敏.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)教育創(chuàng)新研究[J].商業(yè)文化,2015(12):144-145.
[4]何悅恒.國(guó)內(nèi)基于大數(shù)據(jù)的網(wǎng)絡(luò)教育研究分析[J].福建廣播電視大學(xué)學(xué)報(bào),2015(1):16-18.
關(guān)鍵詞:大數(shù)據(jù)技術(shù);電子商務(wù);問(wèn)題;對(duì)策
中圖分類號(hào):F713.36 文獻(xiàn)標(biāo)識(shí)碼:A
收錄日期:2016年11月7日
一、電子商務(wù)與大數(shù)據(jù)技術(shù)概述
(一)電子商務(wù)。電子商務(wù)作為當(dāng)今互聯(lián)網(wǎng)時(shí)代最具發(fā)展?jié)摿Φ囊环N商業(yè)模式,以電子和信息技術(shù)為基礎(chǔ),以商務(wù)為核心,打破了空間與時(shí)間的束縛,使生產(chǎn)、銷售、管理各環(huán)節(jié)的水平得到極大的提高,降低了貿(mào)易活動(dòng)的成本,并且因?yàn)榉?wù)個(gè)性化、方便、快捷等特點(diǎn),使得客戶的滿意度大幅度提升。此外,在“互聯(lián)網(wǎng)+”的時(shí)代背景下,新一代互聯(lián)網(wǎng)技術(shù)在電子商務(wù)中得到廣泛應(yīng)用,無(wú)線互聯(lián)網(wǎng)功能不斷完善,大批優(yōu)秀的電子商務(wù)平臺(tái)服務(wù)功能完成了向移動(dòng)端的移植。移動(dòng)終端應(yīng)用在用戶規(guī)模和信息交互維度的實(shí)時(shí)性、實(shí)地性、多樣性等方面的優(yōu)勢(shì)得到了充分發(fā)揮。大數(shù)據(jù)和云計(jì)算技術(shù)被大型電子商務(wù)平臺(tái)廣泛應(yīng)用,為百億數(shù)量級(jí)別的查詢以及數(shù)十億級(jí)別的各類業(yè)務(wù)處理提供了良好的支撐。可見(jiàn),電子商務(wù)前景廣闊。
(二)大數(shù)據(jù)技術(shù)。大數(shù)據(jù)技術(shù)能夠從海量的數(shù)據(jù)中提取出最有效的信息,在電子商務(wù)企業(yè)中發(fā)揮著至關(guān)重要的作用。大數(shù)據(jù)技術(shù)可具體劃分為以下幾種:
1、數(shù)據(jù)采集技術(shù)。快速而廣泛的搜集分布在互聯(lián)網(wǎng)上的數(shù)據(jù),并且將一些其他平臺(tái)中的數(shù)據(jù)源中的數(shù)據(jù)導(dǎo)入到該工具中,對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、集成等。
2、數(shù)據(jù)處理技術(shù)。運(yùn)用分布式系統(tǒng)對(duì)超大規(guī)模的數(shù)據(jù)進(jìn)行快速統(tǒng)計(jì)、歸納、分類,便于高質(zhì)量、高效率地存儲(chǔ)數(shù)據(jù)和提取數(shù)據(jù)。
3、數(shù)據(jù)分析技術(shù)。根據(jù)單組數(shù)據(jù)的對(duì)應(yīng)分析和多組數(shù)據(jù)的聚類分析,通過(guò)定量描述對(duì)于不同現(xiàn)象的各種利害要素的相關(guān)程度,讓數(shù)據(jù)開(kāi)發(fā)更接近人們的應(yīng)用目標(biāo)。
二、大數(shù)據(jù)技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用
大數(shù)據(jù)技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用主要體現(xiàn)在以下方面:
(一)應(yīng)用于客戶體驗(yàn)。電子商務(wù)平臺(tái)網(wǎng)站的界面結(jié)構(gòu)和功能是吸引大量客戶的關(guān)鍵,多數(shù)電商企業(yè)為提高客戶在交易過(guò)程的第一體驗(yàn),根據(jù)大數(shù)據(jù)技術(shù)分析客戶消費(fèi)行為的歷史記錄建模,然后在此基礎(chǔ)上使用web挖掘技術(shù)改進(jìn)關(guān)鍵字加權(quán)法,有效地將用戶輸入的關(guān)鍵字合理地拓展延伸,提高商品信息檢索功能的精準(zhǔn)率,并且針對(duì)不同的消費(fèi)習(xí)慣,動(dòng)態(tài)地調(diào)整頁(yè)面布局,全方位地把握客戶的實(shí)際需求,實(shí)現(xiàn)對(duì)商品的合理聚類和分類,呈現(xiàn)商品信息的初步瀏覽效果,如淘寶網(wǎng)根據(jù)客戶關(guān)心某些產(chǎn)品的訪問(wèn)比例和瀏覽人群的分類來(lái)決定廣告的排版布局,增加廣告的投資回報(bào)率。通過(guò)大數(shù)據(jù)技術(shù)的應(yīng)用,能滿足消費(fèi)者個(gè)性化的需求,改善了客戶的購(gòu)物體驗(yàn),有利于提高客戶的購(gòu)物滿意度。
(二)應(yīng)用于市場(chǎng)營(yíng)銷。電商企業(yè)引進(jìn)了先進(jìn)的大數(shù)據(jù)技術(shù),在市場(chǎng)營(yíng)銷各環(huán)節(jié)最大限度地降低人力、財(cái)力以及時(shí)間成本。技術(shù)部門(mén)可構(gòu)建分布式存儲(chǔ)系統(tǒng),運(yùn)用web數(shù)據(jù)挖掘技術(shù)將客戶在不同網(wǎng)絡(luò)平臺(tái)上的個(gè)人信息以及動(dòng)態(tài)的瀏覽習(xí)慣貼上“標(biāo)簽”,根據(jù)不同格式的數(shù)據(jù)選取不同的存儲(chǔ)策略,再針對(duì)性、大范圍地對(duì)潛在的客戶進(jìn)行商品與服務(wù)推銷。
(三)應(yīng)用于庫(kù)存管理。在零售業(yè)中,庫(kù)存銷量比是一種重要的效率指標(biāo),數(shù)據(jù)倉(cāng)庫(kù)可以使管理人員實(shí)時(shí)追蹤商品庫(kù)存的流入與流出,并通過(guò)在線的市場(chǎng)供求變化數(shù)據(jù)分析,準(zhǔn)確把握預(yù)期的市場(chǎng)供求動(dòng)態(tài),制定合理的生產(chǎn)計(jì)劃,降低庫(kù)存積壓風(fēng)險(xiǎn),提高企業(yè)的資金周轉(zhuǎn)能力。
(四)應(yīng)用于客戶管理。客戶管理的實(shí)質(zhì)是為消費(fèi)者提供可持續(xù)的產(chǎn)品和服務(wù)。運(yùn)用大數(shù)據(jù)分析的優(yōu)勢(shì),電商可以劃分普通用戶群和核心用戶群,并且建立會(huì)員信譽(yù)度級(jí)別。在各大電商平臺(tái)的領(lǐng)軍企業(yè),技術(shù)人員利用大數(shù)據(jù)技術(shù)根據(jù)買(mǎi)家的消費(fèi)行為定量定性地評(píng)定買(mǎi)家信用,同時(shí)也能夠通過(guò)跟蹤商家的服務(wù)質(zhì)量和產(chǎn)品銷量來(lái)評(píng)定商家的信用,這樣買(mǎi)賣雙方都能盡可能遵守交易的規(guī)范,以此促進(jìn)電商交易平臺(tái)的良性發(fā)展。
對(duì)于客戶反饋環(huán)節(jié),在傳統(tǒng)的市場(chǎng)營(yíng)銷中,采集大量的客戶反饋信息工作需要?jiǎng)佑幂^多的人力資源電話回訪完成調(diào)查問(wèn)卷表,耗時(shí)耗力且結(jié)果不佳。國(guó)內(nèi)一些專門(mén)將互聯(lián)網(wǎng)信息分門(mén)別類提供給個(gè)人和企業(yè)單位的公司,如百度和阿里巴巴等,擁有強(qiáng)大的大數(shù)據(jù)技術(shù)和云計(jì)算系統(tǒng),可快速應(yīng)對(duì)海量數(shù)據(jù)統(tǒng)計(jì)、查詢和更新操作,加工成具有商業(yè)價(jià)值的數(shù)據(jù),為電子商務(wù)企業(yè)提供了全面而準(zhǔn)確的客戶反饋信息。
三、大數(shù)據(jù)技術(shù)在電子商務(wù)領(lǐng)域應(yīng)用中存在的問(wèn)題
大數(shù)據(jù)是一個(gè)應(yīng)用驅(qū)動(dòng)性很強(qiáng)的產(chǎn)業(yè),有巨大的社會(huì)和商業(yè)價(jià)值。然而,就國(guó)內(nèi)現(xiàn)階段的大數(shù)據(jù)技術(shù)在電商領(lǐng)域應(yīng)用的發(fā)展?fàn)顩r而言,仍然存在一些問(wèn)題。
(一)大數(shù)據(jù)應(yīng)用的低效率問(wèn)題。操作系統(tǒng)和系統(tǒng)集成技術(shù)的多元化發(fā)展造成國(guó)內(nèi)電子商務(wù)系統(tǒng)呈現(xiàn)出數(shù)據(jù)孤島和異構(gòu)等現(xiàn)象,導(dǎo)致不能實(shí)現(xiàn)網(wǎng)絡(luò)業(yè)務(wù)間的交換、共享、協(xié)同和控制。而電商企業(yè)的數(shù)據(jù)和系統(tǒng)獨(dú)立開(kāi)發(fā),大數(shù)據(jù)技術(shù)應(yīng)用所需的海量數(shù)據(jù)不能在電子商務(wù)行業(yè)之間共享,不利于大數(shù)據(jù)在電子商務(wù)領(lǐng)域中的多元化和高效率應(yīng)用。例如,我國(guó)目前最大的電子商務(wù)平臺(tái)阿里巴巴,雖然具備較為完善的信息系統(tǒng)基礎(chǔ)設(shè)施,但是由于其數(shù)據(jù)的封閉性,與其他的互聯(lián)網(wǎng)企業(yè)難以在業(yè)務(wù)與安全范圍內(nèi)實(shí)現(xiàn)互聯(lián)互通互操作,尤其是新興的電子商務(wù)企業(yè)無(wú)法承受系統(tǒng)開(kāi)發(fā)和維護(hù)費(fèi)用給企業(yè)帶來(lái)的巨大成本,因而信息資源的低水平重復(fù)開(kāi)發(fā)利用,一定程度上抑制了電子商務(wù)行業(yè)的協(xié)同發(fā)展。
(二)大數(shù)據(jù)技術(shù)應(yīng)用的政策和技術(shù)標(biāo)準(zhǔn)不完善問(wèn)題。雖然大數(shù)據(jù)技術(shù)的應(yīng)用能夠?yàn)樾屡d的電子商務(wù)行業(yè)發(fā)展提供良好的技術(shù)支持,但大數(shù)據(jù)產(chǎn)業(yè)仍處于初級(jí)階段,各種良好應(yīng)用前景的實(shí)現(xiàn)還需要國(guó)家政策的大力支持。目前,我國(guó)大數(shù)據(jù)技術(shù)應(yīng)用的相關(guān)管理政策尚不明確,缺少統(tǒng)一的技術(shù)標(biāo)準(zhǔn),不利于大數(shù)據(jù)產(chǎn)業(yè)統(tǒng)一管理和發(fā)展,阻礙了其在電子商務(wù)領(lǐng)域應(yīng)用的進(jìn)一步革新。
(三)大數(shù)據(jù)環(huán)境下電商企業(yè)創(chuàng)新能力較低問(wèn)題。大數(shù)據(jù)作為一種極具商業(yè)潛力的信息技術(shù),在近年來(lái)不斷地被電子商務(wù)企業(yè)廣泛利用,但我國(guó)當(dāng)前在電子商務(wù)領(lǐng)域應(yīng)用大數(shù)據(jù)技術(shù)的創(chuàng)新水平較美國(guó)、日本等發(fā)達(dá)國(guó)家仍有不小的差距。國(guó)內(nèi)的許多電商企業(yè)曾遭受因高強(qiáng)度的數(shù)據(jù)分析計(jì)算導(dǎo)致系統(tǒng)崩潰帶來(lái)的損失,且大數(shù)據(jù)資源還不能完全在企業(yè)間共享,導(dǎo)致大數(shù)據(jù)技術(shù)在電子商務(wù)中的應(yīng)用受阻且創(chuàng)新能力有限,并沒(méi)有發(fā)揮出大數(shù)據(jù)技術(shù)的全部?jī)?yōu)勢(shì)。因此,加快大數(shù)據(jù)的共享,突破技術(shù)的屏障,創(chuàng)新商業(yè)模式、產(chǎn)品和服務(wù)成為大數(shù)據(jù)環(huán)境下電商企業(yè)提高核心競(jìng)爭(zhēng)力的必要手段。
(四)大數(shù)據(jù)技術(shù)在電子商務(wù)應(yīng)用中的數(shù)據(jù)安全和個(gè)人隱私問(wèn)題。隨著數(shù)據(jù)挖掘等大數(shù)據(jù)技術(shù)在電子商務(wù)領(lǐng)域的廣泛應(yīng)用,電子商務(wù)交易過(guò)程的前后,網(wǎng)絡(luò)通道信息交互十分頻繁,使得大數(shù)據(jù)在采集、共享、分析等方面的數(shù)據(jù)安全和個(gè)人隱私問(wèn)題日益突出。一方面由于各類電商平臺(tái)信息安全技術(shù)的良莠不齊,大量分散的數(shù)據(jù)中關(guān)于企業(yè)機(jī)密和個(gè)人敏感信息記錄極易被他人用作不良途徑謀取利益,對(duì)用戶的財(cái)產(chǎn)安全和人身安全造成威脅;另一方面對(duì)于電商企業(yè)而言一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)還沒(méi)有明確的界定,很多基于大數(shù)據(jù)的分析都未考慮到其中涉及到的個(gè)體隱私問(wèn)題,因此大數(shù)據(jù)不被妥善處理會(huì)對(duì)用戶的隱私造成極大的威脅。
四、解決對(duì)策
(一)提高大數(shù)據(jù)技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用效率。在解決大數(shù)據(jù)應(yīng)用低效率的問(wèn)題上,云計(jì)算技術(shù)具有無(wú)可比擬的優(yōu)勢(shì)。它可以借助虛擬化技術(shù)和大型服務(wù)器集群提高后臺(tái)的數(shù)據(jù)處理能力,為用戶提供統(tǒng)一的、便捷的大數(shù)據(jù)應(yīng)用服務(wù)平臺(tái)。不同的互聯(lián)網(wǎng)合作商的相關(guān)數(shù)據(jù)被部署在云計(jì)算服務(wù)商的數(shù)據(jù)中心,進(jìn)行不同數(shù)據(jù)整合加工,甚至實(shí)現(xiàn)行業(yè)共享,最后向用戶提供集中式的服務(wù)。云計(jì)算技術(shù)的這些特點(diǎn)可以有效地降低電商企業(yè)信息系統(tǒng)開(kāi)發(fā)和維護(hù)的成本,同時(shí)在降低運(yùn)行負(fù)荷的情況下,能夠提高數(shù)據(jù)中心的運(yùn)行效率和可用性。
1、建立基于云計(jì)算模式下的數(shù)據(jù)存儲(chǔ)業(yè)務(wù)。建立基于云計(jì)算模式下的數(shù)據(jù)存儲(chǔ)業(yè)務(wù),不僅通過(guò)云端技術(shù)能夠提供高效率的大數(shù)據(jù)計(jì)算和超大的數(shù)據(jù)流量支持,避免大量用戶訪問(wèn)網(wǎng)站突破峰值造成的網(wǎng)絡(luò)擁堵和系統(tǒng)崩潰,同時(shí)存儲(chǔ)在云端的數(shù)據(jù)便于集中式地進(jìn)行高強(qiáng)度的安全監(jiān)控,還可以降低被黑客攻擊和竊取商業(yè)機(jī)密數(shù)據(jù)的可能性。
2、建立基于云計(jì)算模式下的信息共享和業(yè)務(wù)協(xié)作。電商企業(yè)、外部供應(yīng)商、互聯(lián)網(wǎng)合作企業(yè)通過(guò)建立基于云計(jì)算模式下的信息共享和業(yè)務(wù)協(xié)作,不僅可以實(shí)現(xiàn)同步的信息資源共享,提高數(shù)據(jù)的可重復(fù)利用率,降低數(shù)據(jù)挖掘和數(shù)據(jù)整合的成本,還可通過(guò)企業(yè)之間的互通、互聯(lián)、互操作為消費(fèi)者的業(yè)務(wù)需求提供更加方便和高效的服務(wù)。
(二)完善大數(shù)據(jù)技術(shù)在電子商務(wù)領(lǐng)域應(yīng)用的政策和技術(shù)標(biāo)準(zhǔn)。各級(jí)政府應(yīng)進(jìn)一步加強(qiáng)信息網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè),構(gòu)筑滿足未來(lái)社會(huì)和經(jīng)濟(jì)需要的數(shù)據(jù)和信息化基礎(chǔ)平臺(tái),加大財(cái)政對(duì)于大數(shù)據(jù)產(chǎn)業(yè)的扶持力度,將數(shù)據(jù)加工處理業(yè)務(wù)列入享受營(yíng)業(yè)稅優(yōu)惠政策范圍,對(duì)大數(shù)據(jù)技術(shù)的自主研發(fā)項(xiàng)目減免稅收,甚至給予一定的補(bǔ)貼,鼓勵(lì)大數(shù)據(jù)技術(shù)成果產(chǎn)業(yè)化,并完善其知識(shí)產(chǎn)權(quán)保護(hù)的法律、法規(guī)和政策。此外,還應(yīng)該成立統(tǒng)一權(quán)威的信息管理機(jī)構(gòu),建立并完善大數(shù)據(jù)技術(shù)應(yīng)用的統(tǒng)一技術(shù)標(biāo)準(zhǔn),完善大數(shù)據(jù)技術(shù)在電子商務(wù)領(lǐng)域應(yīng)用的法律保證體系。
(三)提高大數(shù)據(jù)技術(shù)在電子商務(wù)領(lǐng)域應(yīng)用的創(chuàng)新能力。我國(guó)應(yīng)該不斷加強(qiáng)國(guó)內(nèi)外大數(shù)據(jù)技術(shù)創(chuàng)新交流與合作,通過(guò)學(xué)習(xí)和交流,提升大數(shù)據(jù)技術(shù)在電子商務(wù)領(lǐng)域應(yīng)用的創(chuàng)新能力。電商企業(yè)也應(yīng)該積極地響應(yīng)國(guó)家“十二五”發(fā)展規(guī)劃和創(chuàng)新創(chuàng)業(yè)的號(hào)召,提高對(duì)應(yīng)用大數(shù)據(jù)技術(shù)改善現(xiàn)有的產(chǎn)品和服務(wù)的重視程度,優(yōu)化電子商務(wù)產(chǎn)業(yè)結(jié)構(gòu),提升企業(yè)信息管理部門(mén)的IT架構(gòu)承載能力和計(jì)算能力,研究新型商業(yè)模式,充分應(yīng)用大數(shù)據(jù)和云計(jì)算技術(shù)促進(jìn)電子商務(wù)企業(yè)的升級(jí)和轉(zhuǎn)型。此外,電子商務(wù)企業(yè)還需要抓緊時(shí)間儲(chǔ)備既有過(guò)硬的專業(yè)技術(shù),又具備市場(chǎng)營(yíng)銷、運(yùn)營(yíng)管理和創(chuàng)新能力的大數(shù)據(jù)管理和分析人才,滿足“互聯(lián)網(wǎng)+”時(shí)代的人才需求。
(四)完善大數(shù)據(jù)技術(shù)在電子商務(wù)領(lǐng)域應(yīng)用的安全技術(shù)。為了有效解決大數(shù)據(jù)技術(shù)在電子商務(wù)領(lǐng)域應(yīng)用中的數(shù)據(jù)安全和個(gè)人隱私問(wèn)題,應(yīng)該完善交易成功前的兩層數(shù)據(jù)傳輸安全防護(hù)技術(shù)和交易成功后的保留在服務(wù)器中的數(shù)據(jù)的客戶隱私保護(hù)技術(shù),不斷增強(qiáng)大數(shù)據(jù)技術(shù)在電子商務(wù)應(yīng)用中的安全性。
1、利用身份及設(shè)備認(rèn)證技術(shù)確保用戶身份和相關(guān)設(shè)備真實(shí)性。身份認(rèn)證是判明和確認(rèn)交易雙方真實(shí)身份的必要環(huán)節(jié),也是電子商務(wù)交易過(guò)程中最薄弱的環(huán)節(jié)。因?yàn)榉欠ㄓ脩艚?jīng)常采用竊取口令,修改、偽造信息和阻斷服務(wù)等方式對(duì)網(wǎng)絡(luò)支付系統(tǒng)進(jìn)行攻擊,妨礙系統(tǒng)資源的合法管理和使用。用戶身份認(rèn)證可以通過(guò)三種不同的組合方式來(lái)實(shí)現(xiàn):用戶所知道的某個(gè)秘密信息,如用戶自己的密碼口令;用戶所擁有的某個(gè)秘密信息,如智能卡中存儲(chǔ)的個(gè)人參數(shù);用戶所具有的某些生物學(xué)特征,如指紋、聲紋、虹膜、人臉等。
2、綜合利用數(shù)字證書(shū)和數(shù)字簽名技術(shù)保障報(bào)文的機(jī)密性以及不可否認(rèn)性。在電子商務(wù)交易的整個(gè)過(guò)程中,交易各方欲提供自己的真實(shí)身份信息必須通過(guò)權(quán)威的第三方“CA機(jī)構(gòu)”為其頒發(fā)身份憑證。數(shù)字證書(shū)將各方的身份信息結(jié)合在一起作為信息加密和數(shù)字簽名的密鑰,通過(guò)PKI提供公鑰加密和數(shù)字簽名服務(wù)的安全基礎(chǔ)平臺(tái),管理密鑰和證書(shū)信息,從而保障電子交易渠道的網(wǎng)絡(luò)通訊安全和數(shù)據(jù)報(bào)文的機(jī)密及不可否認(rèn)性。
3、利用隱私保護(hù)技術(shù)來(lái)實(shí)現(xiàn)大數(shù)據(jù)的隱私保護(hù)。(1)基于數(shù)據(jù)失真的隱私保護(hù)技術(shù)。數(shù)據(jù)失真技術(shù)通過(guò)擾動(dòng)原始數(shù)據(jù),使攻擊者不能發(fā)現(xiàn)真實(shí)的原始數(shù)據(jù),且失真后的數(shù)據(jù)保持某些性質(zhì)不變,大數(shù)據(jù)技術(shù)在應(yīng)用中可以通過(guò)該技術(shù)實(shí)現(xiàn)隱私數(shù)據(jù)的保護(hù);(2)基于數(shù)據(jù)加密的隱私保護(hù)技術(shù)。基于數(shù)據(jù)加密的隱私保護(hù)技術(shù)采用加密技術(shù)在數(shù)據(jù)挖掘過(guò)程隱藏敏感數(shù)據(jù),包括安全多方計(jì)算、分布式匿名化等方法,實(shí)現(xiàn)數(shù)據(jù)集之間隱私的保護(hù);(3)基于限制的隱私保護(hù)技術(shù)。基于限制的隱私保護(hù)技術(shù)通過(guò)有選擇地原始數(shù)據(jù)、不或者精度較低的敏感數(shù)據(jù),實(shí)現(xiàn)隱私保護(hù)。
“互聯(lián)網(wǎng)+”時(shí)代已經(jīng)到來(lái),大數(shù)據(jù)技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用是大勢(shì)所趨。電商企業(yè)應(yīng)該積極應(yīng)用大數(shù)據(jù)技術(shù)進(jìn)行產(chǎn)品、市場(chǎng)和客戶等信息的分析,通過(guò)分析的結(jié)果輔助管理者進(jìn)行經(jīng)營(yíng)管理的決策,提高電商企業(yè)的市場(chǎng)競(jìng)爭(zhēng)力。
主要參考文獻(xiàn):
[1]張昶,靳偉,靳艷峰.web數(shù)據(jù)挖掘在移動(dòng)電子商務(wù)領(lǐng)域的應(yīng)用研究[J].價(jià)值工程,2015.26.
[2]錢(qián)敏.數(shù)據(jù)挖掘與隱私在電子商務(wù)的關(guān)系[J].中國(guó)科技信息,2016.8.
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 數(shù)據(jù)分析
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2015)11-0000-00
隨著我國(guó)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,大數(shù)據(jù)挖掘技術(shù)越來(lái)越成為影響影響網(wǎng)絡(luò)信息發(fā)展的重要因素,而大數(shù)據(jù)挖掘技術(shù)的主要內(nèi)容以及經(jīng)常采用的主要方法直接影響了我國(guó)未來(lái)網(wǎng)絡(luò)技術(shù)的發(fā)展方向。因此,這一技術(shù)的發(fā)展直接影響了網(wǎng)絡(luò)的發(fā)展。本文從大數(shù)據(jù)挖掘技術(shù)的角度出發(fā),研究大數(shù)據(jù)挖掘技術(shù)的應(yīng)用情況。
1大數(shù)據(jù)挖掘技術(shù)的概念分析
大數(shù)據(jù)挖掘及時(shí)是KDD的一個(gè)重要的過(guò)程,這種技術(shù)是從許多數(shù)據(jù)中還有一些不完整的應(yīng)用中,以及一些比較純凈的應(yīng)用或者是模糊不清的應(yīng)用中隨機(jī)抽取出來(lái)的。這些抽取出來(lái)的數(shù)據(jù)都是潛在存在的,但是不為人所發(fā)現(xiàn)的信息內(nèi)容。那么什么叫做KDD(Knowledge Discovery In Database)呢?KDD是發(fā)現(xiàn)知識(shí)的一個(gè)過(guò)程。
通常情況下,大數(shù)據(jù)挖掘系統(tǒng)主要包含七方面的內(nèi)容:用戶圖形界面接口、模式評(píng)估、數(shù)據(jù)挖掘引擎、數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器、數(shù)據(jù)基地、數(shù)據(jù)倉(cāng)庫(kù)以及知識(shí)儲(chǔ)備庫(kù)(如圖1所示)。由圖1可知,數(shù)據(jù)庫(kù)還有數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器有大量的信息和數(shù)據(jù),這些數(shù)據(jù)對(duì)很多用戶都有著吸引力。圖1中的知識(shí)儲(chǔ)存庫(kù)是一個(gè)簡(jiǎn)單的應(yīng)用,用這個(gè)知識(shí)儲(chǔ)存庫(kù)來(lái)進(jìn)行知識(shí)的探索和評(píng)價(jià),從而確定總體的模式是不是有意義。數(shù)據(jù)挖掘引擎是整個(gè)大數(shù)據(jù)挖掘系統(tǒng)中十分重要的組成內(nèi)容。它能夠?qū)?shù)據(jù)的特征、關(guān)聯(lián)、類別、價(jià)值等進(jìn)行分類。模式評(píng)估的主要功能是在對(duì)數(shù)據(jù)進(jìn)行評(píng)價(jià)的同時(shí)還要和大數(shù)據(jù)挖掘技術(shù)相互聯(lián)系,從而把大數(shù)據(jù)挖掘的技術(shù)全面的應(yīng)用到系統(tǒng)中。模型的進(jìn)口是用戶圖形界面的接口。能夠方便使用者使用這一模型。并且利用大數(shù)據(jù)挖掘技術(shù)進(jìn)行信息的查詢和分析。
2大數(shù)據(jù)挖掘技術(shù)的應(yīng)用與挑戰(zhàn)
2.1挖掘?qū)ο?/p>
大數(shù)據(jù)的挖掘技術(shù)面對(duì)的主要對(duì)象為大的數(shù)據(jù)庫(kù)。這樣一來(lái)能夠有效的進(jìn)行信息的搜索和查詢。
2.2大數(shù)據(jù)挖掘技術(shù)體現(xiàn)形式局限性
當(dāng)前,大數(shù)據(jù)挖掘技術(shù)在處理數(shù)據(jù)以及信息的時(shí)候所使用的方法比較有限,具有一定的局限性。通常情況下,這種技術(shù)能夠分析數(shù)值型的數(shù)據(jù),數(shù)據(jù)內(nèi)容比較簡(jiǎn)單,可是仍然不能夠?qū)ξ谋疚募⒐健D片等這種沒(méi)有結(jié)構(gòu)或者是無(wú)結(jié)構(gòu)的數(shù)據(jù)形式開(kāi)展數(shù)據(jù)挖掘的工作。
2.3使用人員參加的過(guò)程和相關(guān)領(lǐng)域的信息
通常情況下,大數(shù)據(jù)挖掘技術(shù)的過(guò)程常常要進(jìn)行信息和數(shù)據(jù)的交流。當(dāng)前,所實(shí)用的數(shù)據(jù)挖掘系統(tǒng)很難讓使用者參與到信息以及數(shù)據(jù)的篩選過(guò)程中。使用人員自身的知識(shí)能力以及經(jīng)驗(yàn)對(duì)挖掘的開(kāi)展速度有著直接的影響。而且能夠順利的獲取大量的利用度十分高的數(shù)據(jù)信息等。
2.4進(jìn)行知識(shí)的表現(xiàn)和內(nèi)容的解析
很多應(yīng)用程序中主要的內(nèi)容都是用戶自己發(fā)現(xiàn)并分析出來(lái)的知識(shí)。這就需要大數(shù)據(jù)技術(shù)在挖掘信息的時(shí)候不但要有分析數(shù)字還有符號(hào)的能力還需要對(duì)圖片、語(yǔ)言等理解分析的技術(shù)。
2.5幫助保護(hù)知識(shí)內(nèi)容和信息的更新?lián)Q代
伴隨著知識(shí)量的增多,以往舊的知識(shí)會(huì)逐漸的失去自己的作用,被新的知識(shí)內(nèi)容所取代。所以知識(shí)需要不斷的保護(hù)和進(jìn)行及時(shí)的更新?lián)Q代。當(dāng)前采取的主要更新知識(shí)的方法包括維護(hù)關(guān)聯(lián)規(guī)則的增量算法等。
2.6支持局限性的系統(tǒng)發(fā)展
當(dāng)前的大數(shù)據(jù)挖掘系統(tǒng)還不能夠在廣大的系統(tǒng)平臺(tái)上進(jìn)行推廣使用。一些應(yīng)用程序是應(yīng)用在PC上面的,還有一些應(yīng)用是針對(duì)大型的主機(jī)系統(tǒng)中的。除此之外,還有一些是專門(mén)針對(duì)用戶的。
3結(jié)語(yǔ)
數(shù)據(jù)挖掘技術(shù)是近幾年新產(chǎn)生的網(wǎng)絡(luò)技術(shù),可是它的廣泛應(yīng)用性受到了很多公司以及研究人員的喜愛(ài)。這些年來(lái),伴隨著時(shí)間的推移以及網(wǎng)絡(luò)技術(shù)的不斷發(fā)展大數(shù)據(jù)挖掘技術(shù)不斷的被更新,開(kāi)發(fā),而且在金融、管理、教學(xué)等行業(yè)中都得到了廣泛的應(yīng)用。我相信隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,大數(shù)據(jù)挖掘技術(shù)的應(yīng)用面將會(huì)越來(lái)越廣。
參考文獻(xiàn)
[1]呂竹筠,張興旺,李晨暉 等.信息資源管理與云服務(wù)融合的內(nèi)涵即共性技術(shù)體系研究[J].情報(bào)理論與實(shí)踐,2012,35(09):26-32.
[2]《中國(guó)電子科學(xué)研究院學(xué)報(bào)》編輯部.大數(shù)據(jù)時(shí)代[J].中國(guó)電子科技研究院學(xué)報(bào),2013(01):41-43.
[3]淮曉永,熊范倫,趙星.一種基于粗集理論的增量式分類規(guī)則知識(shí)挖掘方法.南京大學(xué)學(xué)報(bào)(自然科學(xué)版,計(jì)算機(jī)專輯),2000,(11):203~209.
[4]方開(kāi)泰.實(shí)用多元統(tǒng)計(jì)分析[M].上海:華東師范大學(xué)出版社,1992:189~193.
大數(shù)據(jù)并不是一蹴而就、空穴來(lái)風(fēng)的概念,在它的背后有很多趨勢(shì)在推動(dòng)這個(gè)概念的到來(lái)。簡(jiǎn)單地說(shuō)有幾個(gè)方面推動(dòng)大數(shù)據(jù)的到來(lái):
第一是數(shù)據(jù)化。我們現(xiàn)在有了更多的傳感器去記錄數(shù)據(jù)。大家最能理解和最常見(jiàn)的傳感器就是手機(jī)。有了手機(jī),我們就能通過(guò)技術(shù)監(jiān)測(cè)知道你生活在哪個(gè)地方,有沒(méi)有網(wǎng)絡(luò)購(gòu)物等個(gè)人信息。正是有了越來(lái)越多的記錄數(shù)據(jù)的傳感器,使得我們獲得的數(shù)據(jù)一直在增長(zhǎng)。
第二大變化是數(shù)據(jù)形態(tài)發(fā)生了變化 。我們現(xiàn)在有了各種各樣的數(shù)據(jù),既包括傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),例如門(mén)店的銷售數(shù)據(jù)、后臺(tái)數(shù)據(jù)等也包括互聯(lián)網(wǎng)的各種數(shù)據(jù)。
在大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)用戶通常作為同一個(gè)對(duì)象使用多個(gè)網(wǎng)絡(luò)平臺(tái)。我們通過(guò)對(duì)特別對(duì)象或人物的網(wǎng)絡(luò)(性格、社交圈等)和行為(購(gòu)物、評(píng)論等)的特征進(jìn)行分析和挖掘,打破了孤立的個(gè)人數(shù)據(jù)特征,成功建立了以人為對(duì)象的跨越多個(gè)網(wǎng)絡(luò)和數(shù)據(jù)平臺(tái)的關(guān)系數(shù)據(jù)群,實(shí)現(xiàn)個(gè)人跨平臺(tái)數(shù)據(jù)的打通。
正是在這樣的大背景下,2011年5月,麥肯錫麥肯錫全球研究院(MGI)了一份報(bào)告――《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域》,推動(dòng)了工業(yè)界和學(xué)術(shù)界對(duì)大數(shù)據(jù)的關(guān)注,同年11月IBM公司在產(chǎn)品會(huì)上推出大數(shù)據(jù)概念。
大數(shù)據(jù)有四個(gè)特點(diǎn):規(guī)模巨大;產(chǎn)生數(shù)據(jù)的速度非常快,我們處理它的速度也非常快;數(shù)據(jù)庫(kù)的多樣性;數(shù)據(jù)中潛藏價(jià)值。
我們認(rèn)為大數(shù)據(jù)不是技術(shù)的變化,而是全方位理念的變化,它是基于多源異構(gòu)、跨域關(guān)聯(lián)的海量數(shù)據(jù)分析所產(chǎn)生的決策流程、商業(yè)模式以及生活方式和觀念形態(tài)上的顛覆性變化的總和。
大數(shù)據(jù)的創(chuàng)新
整個(gè)大數(shù)據(jù)在商業(yè)中的創(chuàng)新體現(xiàn)在數(shù)據(jù)的外部化。也就是我們?nèi)绾伟炎约旱臉I(yè)務(wù)數(shù)據(jù)拿出去給別人用或者怎么樣把別人的數(shù)據(jù)拿進(jìn)來(lái)自己用?
一個(gè)門(mén)店、一個(gè)品牌的生存都不能僅僅依靠自己的數(shù)據(jù)。當(dāng)下基于互聯(lián)網(wǎng)基礎(chǔ)的社交媒體、論壇、電子商務(wù)及移動(dòng)電子商務(wù)數(shù)據(jù)給我們提供了很多可能的資源。我從不同角度,簡(jiǎn)單闡釋一下這個(gè)問(wèn)題。
如果從大的角度來(lái)談化妝品行業(yè)的整體發(fā)展趨勢(shì)及哪些品類會(huì)成為消費(fèi)者期盼的商品,互聯(lián)網(wǎng)就給了我們很好的答案。
在10年前,中國(guó)還沒(méi)有男士護(hù)膚的概念和市場(chǎng),但是到今天男士護(hù)膚品已經(jīng)是一個(gè)很大的市場(chǎng)。如果我們回溯到十年前,互聯(lián)網(wǎng)的論壇討論就是男士護(hù)膚市場(chǎng)起步的端倪。因?yàn)橛幸恍┫M(fèi)者由于和歐美國(guó)家的接觸,他們比化妝品市場(chǎng)從業(yè)人員更敏感,他們首先發(fā)現(xiàn)了男士護(hù)膚市場(chǎng)的商機(jī)與需求。所以通過(guò)大數(shù)據(jù)的檢測(cè)你可能會(huì)遇到行業(yè)可能的機(jī)會(huì)。
從小的角度來(lái)看,大數(shù)據(jù)的運(yùn)用,我在一個(gè)城市開(kāi)店,我只想知道什么樣的東西受消費(fèi)者的喜愛(ài),未來(lái)的市場(chǎng)變化趨勢(shì)是怎樣的?這個(gè)時(shí)候電子商務(wù)和移動(dòng)電子商務(wù)的數(shù)據(jù)就給了我們很好的答案。
我們可以通過(guò)分布式網(wǎng)絡(luò)爬蟲(chóng)技術(shù),直接爬取互聯(lián)網(wǎng)數(shù)據(jù)。當(dāng)你覆蓋足夠多的電子商務(wù)平臺(tái),你就很容易知道哪類產(chǎn)品、哪類品牌甚至某個(gè)單品在哪個(gè)城市的銷售狀況。我甚至可以通過(guò)精準(zhǔn)的計(jì)算技術(shù),更好的了解我們商業(yè)合作與競(jìng)爭(zhēng)的利益。
如果再深一層,面對(duì)一個(gè)個(gè)體,我應(yīng)該給哪些人推送精準(zhǔn)營(yíng)銷或者說(shuō)一個(gè)產(chǎn)品面世后它在互聯(lián)網(wǎng)的美譽(yù)度是怎么樣的,有沒(méi)有可能出現(xiàn)重大安全問(wèn)題,需要產(chǎn)品方做怎樣的調(diào)整,這些東西都不是我們自身的數(shù)據(jù)能解決的而是需要外部的數(shù)據(jù)輔助我們做決策。
舉幾個(gè)非化妝品行業(yè)的例子。搜索網(wǎng)站谷歌通過(guò)人們?cè)诰W(wǎng)上的搜索記錄完成流感的預(yù)測(cè)。谷歌每天都會(huì)收到來(lái)自全球超過(guò)30億條的各種搜索指令,如此龐大的數(shù)據(jù)資源足以支撐和幫助它預(yù)測(cè)流感的傳染程度。
我們要注意到大數(shù)據(jù)運(yùn)用的創(chuàng)新之處。谷歌不是通過(guò)疾控中心和醫(yī)院的數(shù)據(jù)來(lái)預(yù)測(cè)傳染病,它是通過(guò)搜索指令的數(shù)據(jù)資源來(lái)預(yù)測(cè)傳染病的流行程度。也就是說(shuō)谷歌在用自身業(yè)務(wù)產(chǎn)生的數(shù)據(jù),拿出去解決其他地方的重大問(wèn)題。
再舉一個(gè)非常典型的例子,告訴大家我們的數(shù)據(jù)要流動(dòng)起來(lái),才能發(fā)揮更大的價(jià)值。
國(guó)家電網(wǎng)每年會(huì)兩個(gè)指數(shù)一個(gè)是重工業(yè)用電指數(shù),一個(gè)是輕工業(yè)用電指數(shù),這兩個(gè)指數(shù)是整個(gè)中國(guó)工業(yè)制造業(yè)的晴雨表。如果將國(guó)家電網(wǎng)的數(shù)據(jù)和用水的數(shù)據(jù)結(jié)合起來(lái),這些數(shù)據(jù)產(chǎn)生更大的價(jià)值。如果把用水和用電的數(shù)據(jù)結(jié)合運(yùn)用到個(gè)人住戶,則可以給公安部門(mén)維護(hù)社會(huì)穩(wěn)定起到積極作用。
公安部門(mén)可以通過(guò)異常的用水及用電數(shù)據(jù)判斷哪些住宅是傳銷聚集地。因?yàn)閭麂N三、四十個(gè)人擠在一個(gè)小房子里,用水量是超過(guò)正常范圍的。
同時(shí),用水用電數(shù)據(jù)為國(guó)家安全委員會(huì)維護(hù)穩(wěn)定和反恐有重大意義。我們國(guó)家有一些被列入黑名單的,這些人一旦發(fā)生了不正常的移動(dòng)或者居住地用水用電發(fā)生異常,公安部門(mén)需要第一時(shí)間實(shí)地走訪,掌握情況。
此外,用水用電的數(shù)據(jù)是所有銀行為中小企業(yè)發(fā)放貸款的重要依據(jù)。眾所周知,中小企業(yè)的財(cái)報(bào)數(shù)據(jù)都不太真實(shí),銀行在為他們做風(fēng)險(xiǎn)評(píng)估的時(shí)候,基本不看財(cái)報(bào),而是看企業(yè)的用水用電數(shù)據(jù)以及交管委的攝像頭記錄的貨車進(jìn)出數(shù)據(jù),判斷企業(yè)的整體規(guī)模及信貸風(fēng)險(xiǎn)。
所以,我再次強(qiáng)調(diào)大數(shù)據(jù)創(chuàng)新的核心是怎么樣把自己的數(shù)據(jù)拿出去支持其他行業(yè)以及如何用其他行業(yè)的數(shù)據(jù)支持自己做決策。
大數(shù)據(jù)的商業(yè)實(shí)踐
將大數(shù)據(jù)用于品牌商業(yè)分析的時(shí)候,有三點(diǎn)和以前不一樣:
第一,我們所有的分析都是全樣的數(shù)據(jù)而不是抽樣的數(shù)據(jù)。從某種意義上講,世界上沒(méi)有全樣數(shù)據(jù),我們所能掌握的都只是部分,但從另一個(gè)意義上講,我們團(tuán)隊(duì)能夠監(jiān)控到大量的電子商務(wù)及手機(jī)移動(dòng)終端的數(shù)據(jù)。這些數(shù)據(jù)不再與以前做數(shù)據(jù)分析時(shí),到某幾家店,通過(guò)某幾個(gè)產(chǎn)品的試用和觀察得出的數(shù)據(jù)一樣。因此大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析報(bào)告,比以前更細(xì)、更高速、更高準(zhǔn)確率
第二,大數(shù)據(jù)的分析包括很多非結(jié)構(gòu)化的數(shù)據(jù)。做移動(dòng)電子商務(wù)的人會(huì)知道, 我們除了關(guān)注日常銷售、生產(chǎn)等結(jié)構(gòu)化的數(shù)據(jù)之外,還會(huì)非常看重商品在社交媒體上的影響力如何,品牌的粉絲影響力如何。所以每一件商品的美譽(yù)度如何以及在論壇上遭遇的輿情危機(jī)等都可以通過(guò)非結(jié)構(gòu)化的數(shù)據(jù)分析獲得認(rèn)識(shí)。
第三,我們所有的數(shù)據(jù)都是關(guān)聯(lián)的數(shù)據(jù)。我們要打通一個(gè)用戶、 一款產(chǎn)品在不同社交媒體上的購(gòu)買(mǎi)行為、瀏覽行為及被收藏被評(píng)價(jià)行為,從而獲得更全面的認(rèn)知,同時(shí)發(fā)現(xiàn)產(chǎn)品從A平臺(tái)到B平臺(tái)的商業(yè)機(jī)會(huì)。
我建議有條件的品牌商及經(jīng)營(yíng)者要實(shí)現(xiàn)外部數(shù)據(jù)的戰(zhàn)略儲(chǔ)備。我們團(tuán)隊(duì)的數(shù)據(jù)其實(shí)來(lái)自兩方面:一個(gè)是自有數(shù)據(jù)的積累,二是公開(kāi)數(shù)據(jù)的爬取。現(xiàn)在的這些數(shù)據(jù)對(duì)于我們將來(lái)做擴(kuò)展包括趨勢(shì)分析、競(jìng)爭(zhēng)品牌的分析及了解用戶做精準(zhǔn)營(yíng)銷等意義重大。
在了解用戶的時(shí)候,我們需要進(jìn)行全面了解。我們不僅要了解他的購(gòu)買(mǎi)瀏覽記錄,還要了解他的時(shí)間和空間軌跡等。我們給很多品牌商做過(guò)服務(wù),你對(duì)同一個(gè)對(duì)象在不同時(shí)間點(diǎn)給他推送廣告的打開(kāi)率可以相差10幾倍。此外,了解一個(gè)用戶的行為軌跡,也能讓你做到精準(zhǔn)的廣告投放和店鋪選址。
很多人在運(yùn)用大數(shù)據(jù)營(yíng)銷的時(shí)候,會(huì)步入邏輯結(jié)構(gòu)的誤區(qū)。一般我們理解的大數(shù)據(jù)營(yíng)銷是產(chǎn)品經(jīng)理會(huì)通過(guò)思考去想像,我的產(chǎn)品適合什么層次的消費(fèi)者,而企業(yè)的老總會(huì)思考我的產(chǎn)品選擇哪個(gè)明星做代言。有了這些想法之后,品牌才會(huì)根據(jù)媒體、銷售渠道及電子商務(wù)數(shù)據(jù)找到它們想要的的代言人。這樣的大數(shù)據(jù)營(yíng)銷在邏輯上是不正確的,因?yàn)樗珡?qiáng)烈的依賴于產(chǎn)品經(jīng)理對(duì)產(chǎn)品的定位。
而正確的大數(shù)據(jù)營(yíng)銷是首先找到自己產(chǎn)品和競(jìng)爭(zhēng)產(chǎn)品的已有用戶以及對(duì)這些產(chǎn)品表達(dá)過(guò)興趣、發(fā)表過(guò)評(píng)價(jià)的幾萬(wàn)人甚至是幾十萬(wàn)人。然后在通過(guò)分析這幾十萬(wàn)人從事的職業(yè)、感興趣的電視節(jié)目、關(guān)注的明星、日常瀏覽哪些論壇的數(shù)據(jù)結(jié)論,選擇與品牌形象及消費(fèi)定位匹配的代言人,進(jìn)行點(diǎn)對(duì)點(diǎn)的精準(zhǔn)營(yíng)銷。
在這樣的設(shè)計(jì)流程中, 產(chǎn)品經(jīng)理和企業(yè)決策者的重要性體現(xiàn)在他們憑借敏銳的直覺(jué),,將適合消費(fèi)者使用的產(chǎn)品設(shè)計(jì)出來(lái)。一件產(chǎn)品問(wèn)世,就像一個(gè)小孩出生,他已經(jīng)是活生生的生命個(gè)體,父母已經(jīng)無(wú)法再改變他。在這種情況下,父母對(duì)他的理解, 都比不上他在成長(zhǎng)過(guò)程中自身生命力的勃發(fā)。許多父母會(huì)希望小孩子做各種事情,為小孩貼上標(biāo)簽。但真正成功的父母,總是會(huì)從小孩的成長(zhǎng)過(guò)程中看到驚喜。 同樣的每一件產(chǎn)品有了自己的生命力,它在面對(duì)市場(chǎng)的時(shí)候會(huì)遇到各種評(píng)價(jià),我們利用這些大數(shù)據(jù)的分析能比產(chǎn)品經(jīng)理更多知道一件產(chǎn)品它真正的目標(biāo)用戶在哪里,它他真正需要的廣告投放在哪里。
在這么一套新的邏輯框架支持下,給大家舉一個(gè)化妝品行業(yè)的例子。歐萊雅集團(tuán)有一款價(jià)值千余元的超聲波潔面儀。當(dāng)時(shí)這一款產(chǎn)品的產(chǎn)品經(jīng)理找到我們,給我們提出的是針對(duì)20歲至40歲的白領(lǐng)女性的產(chǎn)品定位。超聲波潔面儀的產(chǎn)品在電子商務(wù)渠道上有很多同類型的品牌,我們通過(guò)數(shù)據(jù)分析得出二三線城市的中小學(xué)老師的職業(yè)群體是被他們忽略掉的群體。
中小學(xué)老師每天接觸大量的粉筆灰塵,因此她們對(duì)潔面儀器的關(guān)注最活躍、使用頻次也最高。當(dāng)我們把這個(gè)現(xiàn)象告訴歐萊雅的產(chǎn)品經(jīng)理時(shí),他們一下子就明白了這個(gè)道理。