時間:2023-03-27 16:59:48
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇計算機大數據論文,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
1.計算機網絡安全概述。
計算機網絡安全,是指利用相關網絡管理控制與技術,確保在一個網絡環境中數據的完整性、保密性及可用性。計算機網絡安全,主要包括邏輯安全與物理安全兩個方面,其中,邏輯安全包括數據的保密性、完整性及可用性,防止沒有經過授權對數據進行隨意篡改或破壞的行為;物理安全包括相關設備與設施在受到物理保護的條件下保護設備上的數據免于丟失、破壞。
2.計算機網絡存在的主要安全問題。
目前,計算機已經廣泛應用于各行各業,人們對計算機網絡的認識與利用水平也顯著提升,辦公、社交、生活等方方面面都離不開計算機網絡。計算機網絡在豐富和改變人們生活的同時,其存在的安全問題也不得不讓人們警醒,經過筆者梳理,計算機網絡安全問題主要存在以下幾個方面:
1)網絡病毒所導致的安全問題。
在計算機網絡技術快速發展的過程中,也出現了越來越多、感染力越來越強的新病毒,它們無時無刻地影響著計算機網絡的安全。由于計算機網絡病毒具有復制性,能夠感染其他程序和軟件,因此,一旦計算機中了病毒,其所運行的每一步都將是危險的,都會存在讓病毒也隨之運行并產生破壞行為,然后應用程序被破壞,機密數據被盜用或被破壞,甚至讓整個計算機系統癱瘓。
2)人為操作失誤所導致的安全問題。
在人們進行計算機相關操作過程中,人為操作失誤可能會引起計算機的安全漏洞,或者泄露了某些重要的信息,而這些信息一旦被不發分子所利用,便會造成難以挽回的損失。
3)網絡黑客攻擊所導致的安全問題。
在大數據時代下,網絡黑客對計算機網絡的攻擊具有更隱蔽、破壞性更強的特點。由于在大數據時代下,網絡黑客通過非正常手段竊取到某一重要數據時,一旦其利用這些數據進行非法行為時便會引起巨大的波及。同時,在海量的數據中,難以及時識別網絡黑客的攻擊行為,對于計算機網絡安全而言是一種嚴重的威脅。
4)網絡管理不到位所導致的安全問題。
在網絡安全維護中,網絡安全管理是非常重要的環節,但是目前很多使用計算機的個人乃至企業、政府部門并沒有對網絡安全管理引起足夠的重視,從事使得計算機網絡的安全受到各種威脅,最終導致大量的計算機網絡安全事件頻繁發生。五是,網絡系統自身的漏洞所導致的安全問題。理論上而言,一切計算機網絡系統都存在某些漏洞。同時,在用戶使用各類程序、硬件過程中由于人為疏忽也會形成一些網絡系統漏洞。二者相比,后者的破壞性常常是巨大的,很多不法分子通過非法途徑給用戶造成計算機系統漏洞,進而竊取用戶信息,給用戶造成巨大的損失。
二、大數據時代下的計算機網絡安全防范對策
1.加強病毒治理及防范工作。
在大數據時代,計算機病毒的種類與數量與日俱增,對其進行治理與防范是較為困難的。在對計算機病毒進行治理與防范時,筆者認為最重要的是防范,這種防范是一種主動的、積極的治理,可以通過加強計算機防火墻部署來提高網絡環境的安全性,將那些不穩定的、危險的網絡因素隔離在外,進而實現對網絡環境的安全保護。同時,計算機使用者樹立正確的病毒防范意識,在計算機日常使用中,能夠定期利用殺毒軟件對所使用的計算機網絡環境進行殺毒,并更新病毒樣本庫,進而確保對計算機網絡的掃描能及時識別計算機病毒并進行及時的處理。
2.加強黑客防范工作。
隱藏在大數據背后的網絡黑客一旦實施其不法行為,常常會產生巨大的安全問題,因此,為了防范計算機網絡安全,應當積極整合大數據的海量信息優勢,建立科學的網絡黑客防范攻擊的模型,以此來提升識別網絡黑客的反應速度。通過加強計算機網絡的內外網的割離、加強防火墻配置,能夠有效降低黑客攻擊的可能性。同時,還可以大力推廣數字認證技術,加強對訪問數據的有效控制,并合理認證,有效避免非法目的用戶的非法訪問,進而提升對網絡安全的有效保護。
3.加強網絡安全管理。
使用計算機的個人及機構,需要從思想上高度重視網絡安全管理的重要性,在熟悉大數據的特征與性能的基礎上采取安全的管理措施,時常關注網絡安全管理,從技術上給予網絡安全保障的同時,還需要通過有效的網絡安全管理來實現大數據時代下計算機網絡安全的防范目的。對于機構而言,需要從宏觀上認識到網絡安全管理的重要性,并建立動態的、有序的、系統的管理規章,依托于云計算技術構建一個更加高級的智慧平臺來加強網絡安全的防范,進而確保網絡安全。對于個人而言,需要從主觀上認識到網絡安全的重要行,在進行計算機操作中,要養成規范化的、文明的使用計算機網絡的習慣,尤其是對于一些釣魚網站、非法鏈接,要從主觀上認識到其危害,并做自我做起,將網絡安全問題盡可能消滅,不傳播有安全隱患的信息或鏈接。
4.加強網絡系統漏洞的修復工作。
摘要:基于信息時代背景下,隨著計算機技術和信息網絡技術的不斷發展,大數據時代下人工智能也得到快速進步且與人們的日常生活息息相關。人工智能逐漸的走進人們的日常工作生活中。因此,基于大數據時代下展開對人工智能在計算機網絡技術中的應用價值的分析顯得非常必要。論文對大數據時代下人工智能在計算機網絡技術中的應用價值進行了探討,并且主要針對數據挖掘技術、入侵檢測技術和防火墻技術的相關應用,希望為有關專業人士帶來一定的參考與借鑒。
關鍵詞:大數據時代;人工智能;計算機網絡技術;應用價值
21世紀以來,世界都已經進入大數據發展時代,人工智能的應用與居民生活息息相關。人工智能就是模仿人類的行為方式和思維模式進行工作處理,它比計算機技術更加具有實用價值。所以,為了迅速提高我國大數據時代人工智能在計算機網絡技術中的應用,論文基于此展開詳細分析探討,深入研究人工智能在計算機網絡技術中的應用價值。以下主要針對于人工智能計算機的基本內容展開簡單分析與探討:
一、人工智能計算機的概況
利用計算機技術來模仿人類的行為方式和思維模式就叫做人工智能。人工智能,技術的涵蓋內容廣泛,且創新性高、挑戰力度大,它的發展與各學科知識包括信息與計算科學、語言學、數學、心理學等都有關聯。人工智能的發展目標是通過計算機技術讓本該由人工操作的危險或復雜的工作由人工智能機器代替,從而額實現節約勞動力、減少事故危害發生的情況,進而提高工作效率和工作質量。人工智能的發展形式多樣。第一,人工智能可以幫助完善某些較為復雜的問題或是當前還無法解決的問題,若是發生由計算機運算都還無法獲得正確模型的情況,此時就可利用人工智能來對該項問題進行有效解決,針對模糊的問題和內容,利用人工智能模式來不斷提高網絡使用質量。第二,人工智能可以將簡單的東西或知識復雜化,得到人們想要的高級程序和數據,從而節約實現,提高工作效率。
二、大數據時代人工智能在計算機網絡技術中的應用
(一)數據挖掘技術在計算機網絡技術中的應用數據挖掘技術在近幾年來越來越受到人們的重視,因為數據挖掘技術是大數據時展的關鍵技術。利用人工智能技術可研究外界不安全因素的入侵頻率,并在網絡安全運行的前提下結合網絡存貯狀態,將研究結果記錄保存。之后的工作中,若計算機處于運行情況時發生安全問題,系統會立即給予警告提示,并及時攔截入侵對象。數據挖掘技術其實從根本上來看,就是由人工智能技術和大數據技術的綜合發展而來,模仿人類處理數據信息的特征和方式,讓計算機實現對數據的批量處理。此外,數據挖掘技術還可與各種傳感器融合工作,從而實現技術功效的最大潛力,不斷增強計算機系統的功效和實用價值。
(二)入侵檢測技術在計算機網絡技術中的應用現展迅速,網絡科技已成為人們日常生活中至關重要的組成成分,給人們的生活工作帶來極大便利,但是其中也潛存很多不穩定因素。所以,網絡安全技術的發展是保證網絡使用正常工作的重要前提。當前,已經有很多網絡機制被運用到保護網絡安全的工作中,但是在對網絡安全管理時發現仍舊有很多不穩定因素的存在,尤其是現在網絡技術的發展迅速,很多手機支付等網絡支付方式中會存在支付密碼泄露的情況。基于此,在網絡計算機安全使用過程中起到良好作用的是入侵檢測技術。該技術被使用時,可以對網絡中潛存的安全隱患信息及時偵查處理,對其數據信息進行檢測,最后將檢測結果的分析報告反饋給用戶,實現有效檢測。入侵檢測技術的不斷發展和完善,讓計算機網絡的安全運行得到極大保障,在對計算機網絡進行安全檢測的條件下,防止網絡受到外界環境的干擾。人工智能技術中還可結合人工神經系統高和專家系統網絡,實現對實時變化信息的即時監控,切實保障計算機網絡技術的安全發展。
(三)防火墻技術在計算機網絡技術中的應用計算機的硬件與軟件相結合才能讓防火墻技術發揮功效,為計算機的安全運行構建一個完整的保護盔甲。防火墻技術的應用是針對整個計算機網絡的使用安全,極大的降低了由于外界非法入侵帶來的不穩定因素,讓計算機的安全得到保障。尤其是在現在大數據時代的發展背景下,防火墻技術的優點更加明顯,防止計算機被非法入侵是防火墻技術的最重要功效。當前,人們每天都會收到很多封垃圾郵件和短信,部分郵件和短信還攜帶有危害性質的病毒,一旦點開這些垃圾信息和短信就會造成病毒入侵,讓計算機中原本的私人信息遭到泄露。因此,需要人工智能技術來幫助人們進行信息識別,掃描郵件中是否有不安全因素的存在,找出后還可立即進行排除,防止安全事故的發生。根據以上內容的分析得出,在當前的計算機網絡系統應用過程中,人工智能技術已成為主導技術之一,它能夠結合其他任何智能技術實現創新發展和進步,以促進計算機網絡系統的安全使用,讓計算機網絡系統高效、安全的發展,這也讓人們的生活、工作水平進一步提高。
三、結語
總而言之,科學技術快速發展背景下,人工智能的發展在大數據時代背景下有了新的突破,計算機網絡的安全系數以及運行效率都得到穩定提升和進步。這些進步離不開人工智能中優秀的技術的大力支持,包括數據挖掘技術、入侵檢測技術和防火墻技術,它們保障了計算機網絡系統的安全運行,給社會公民提供了一個穩定、安全、開放的網絡平臺,也為我國計算機網絡技術的進一步發展奠定了良好的基石。
1 前言
信息管理與信息系統專業雖然屬于管理學,但其主干學科包括計算機科學與技術、經濟學、管理學等三個,該專業的綜合性、實踐性很強,但是目前各高校該專業的實踐教學體系不完備,還未自成一家、各具特色,以致畢業生實踐能力不突出,特色彰顯不夠,就業競爭力不強,培養應用型人才是當務之急,核心是要培養學生的應用能力、創新能力和工程素養。要達到本目標,就要大力加強和完善實踐教學環節,建立多層次、一體化的實踐教學體系。
曲靖師范學院信息管理與信息系統專業從2008年開辦至今,已經培養5屆學生,一直以來,我們不斷加強和完善該專業的實踐教學環節,形成了四位一體的實踐教學體系,取得了良好的效果。
2實踐教學體系的“硬件位”
實踐教學體系的“硬件位”強調實驗室建設。實驗室是開展教研的硬件基礎,沒有這個基礎,一切教研工作就是空中樓閣。我們一直重視信息管理與信息系統專業的實驗室建設。采購實驗設備的指導思想是實驗設備要先進、實用,充分滿足學生的學習和教師的教學科研的需要。
該專業已經建成硬件實驗室有2個:計算機組成原理實驗室、計算機組裝與維護實驗室,通信與網絡實驗室有2個:計算機通信實驗室、計算機網絡實驗室,信息管理類的實驗室有3個:數字庫應用實驗室、信息管理與軟件實驗室、信息技術創新實驗室。同時為適應當今云計算、大數據的大趨勢,我們投資200多萬建立了云計算平臺。
這些實驗室的更新及新建,能充分滿足學生的學習和教師的教學及科研的需要。
3實踐教學體系的 “抓手位”
專業技能訓練提升學生實踐能力的抓手,在學生的整個大學四年期間,為了在不同學期提升學生的綜合實踐能力,我們開展了貫穿大學4年的專業技能訓練。
專業技能訓練是實踐教學體系的抓手,專業技能訓練的目的是根據訓練大綱,我們應以項目為驅動來創新該專業的實踐教學體系[1],提升學生應具備的專業素養和能力,形成幾大子抓手,再作專項的打造。
我院的專業技能訓練主要包括兩個級別,一是課程設計訓練,本訓練以課程為依托,制定課程級別的訓練大綱和測試方案;二是綜合設計訓練,訓練學生綜合能力,要求學生能靈活應用所學課程,完成一個綜合性、設計性項目。
3.1 課程設計訓練
“課程設計”一個多義詞詞條。它可以指“為掌握某一課程內容所進行的設計”[2]。課程設計是課程實驗的高級環節,課程實驗是提升學生立體實踐能力的根本,課程實驗分為驗證性實驗、綜合性實驗和課程設計實驗,我們在傳統驗證性實驗的基礎上開展課程設計實驗,提升學生的課程綜合實踐能力。
信息管理與信息系統專業的核心課程有6門,分別是:Java程序設計、管理信息系統、數據庫原理、計算機網絡及實驗、管理學、經濟學。我們針對這些課程,在編寫實驗大綱時,就要求編寫課程對應的課程設計,設計方案要經過教研室的審核和信息工程學院教授委員的討論及審定。以審定通過的課程設計為依托,為后續綜合實踐能力的提升打下堅實的基礎。
以《Java程序設計》課程設計為例,課程設計的目的:利用Java語言的語法特性,結合數據結構算法、網絡知識、文件處理和數據庫等知識完成綜合題目的設計和代碼實現,并培養鍛煉分析程序、撰寫報告等能力。
3.2 綜合設計訓練
綜合設計訓練的目的是鍛煉學生綜合所學知識,設計和開發一個小項目的能力。這些項目有“ERP企業應用”、“Oracle運維管理”、“大數據管理”、“Java Web開發”等,這些小項目的訓練要基于幾門課的知識和技能,如“Java Web開發”就需要學生綜合數據庫、數據結構、軟件工程、計算機程序設計等知識與技能。
綜合設計訓練要與畢業設計區別開來,此訓練的主要目的是讓學生體驗和掌握項目開發流程,同時鍛煉綜合應用所學課程來完成一個具體的小項目。
3.3 信息管理與信息系統專業技能訓練安排
為鼓勵學生多渠道獲得技能分,我們規定,學生在校期間,通過全國計算機技術與軟件專業技術資格(水平)考試的中級資格、全國計算機等級考試的四級證書、思科(微軟、ORACLE、華為、H3C或銳捷)的工程師級別認證、中級會計師,可獲得3個學分;通過全國計算機技術與軟件專業技術資格(水平)考試的高級資格、思科(微軟、ORACLE、華為、H3C或銳捷)的高級工程師級別認證,可獲得4個學分。
4實踐教學體系的“信息系統開發能力位”
本專業的學生要求具體一定和信息系統開發能力,該能力通過畢業論文(設計)來煉成。畢業論文(設計)是教學過程的最后階段采用的一種總結性的實踐教學環節。通過畢業設計,學生可以綜合應用所學的各種理論知識和技能,進行全面、系統、嚴格的技術及基本能力的練習。[3]畢業論文(設計)是實踐教學體系的技能整合,我院對畢業論文(設計)作重大改革,著力打造學生綜合實踐能力
參加畢業論文(設計)的學生分兩部分,一部分在公司實習,同時要在公司完成畢業設計工作,余下的學生在校內完成畢業論文工作,為提高畢業論文(設計)的質量,經向教務處請示,允許我院結合專業實踐性強的實際,改革本專業畢業論文(設計)工作。改革思路包括三點,一是我院學生的畢業論文(設計)以畢業設計為主,弱化對學生文本的要求,強化對實踐動作能力的提升和檢查,二是做好規范管理工作,制定相關文件,如:“信息工程學院畢業論文(設計)工作規定”、 “信息工程學院畢業設計開發文檔的撰寫與打印規范” 、“信息工程學院畢業設計開發文檔”等。
5實踐教學體系的“校企合作位”
為提升學生的實習水平,滿足用人單位的需求。我們自2013年開始,與四川華迪信息技術有限公司開展畢業實習合作,該公司是一家集軟件外包、信息服務、學生專業技能培訓為一體的軟件公司,在全國小有名氣。學生參加校企合作實習有兩種類型,一是為期三個月的專業實習,二是為期四個月的就業培訓。三個月的專業實習分為軟件開發方向和網絡方向,軟件開發實訓重點是提升學生的軟件開發實踐能力和水平,網絡方向的實訓重點是提升學生的網絡設計、實施、部署能力。
從2013年開始,每年大概有一半的學生參加校企合作的實習,取得了良好效果,學生的專業實踐能力提升了,就業質量明顯提高,很多學生就在四川成都就業、創業。
關鍵詞 大數據應用背景 超級計算機 數據處理
在電子信息技術的推動下,大數據已成為了當代潮流前線的主流技術,所謂大數據,從狹義上理解主要是指各種大規模的數據,具體來說是指難以在既定的時間范圍內使用常規軟件以及技術進行收集、統計、儲存以及管理的數據集合,必須通過新型處理模式才可將其決策力、洞察力、發現力以及流程化進行充分發揮、具有規模大、復雜程度高、實時性強、高增長率以及多元化等特征的信息資產。由此可見,大數據是一種不同于傳統數據的信息化數據資產,僅僅應用傳統的軟件或工具進行統計或管理是難以顯效的,我們必須針對大數據的特征以及需求設計一款超級計算機,用于滿足大數據的計算需求。
通過超級計算機來構建大數據處理中心,是現階段最為主流的應用趨勢。相比于傳統計算機來說,超級計算機在性能方面具有顯著優勢,可以為大數據提供高效的計算以及處理服務。超級計算機早在二十世紀七十年代初就已被很多國家作為了一種戰略性資源而進行使用,在國家經濟建設、國防安全、社會發展、科學研究等方面得到了廣泛的應用,并作出了極大的貢獻,因此現階段,超級計算機技術基本已經成為了衡量國家科技水平以及國防力量的重要指標之一。天河二號超級計算機是由我國國防科學技術大學研制而成的,它實現了每秒鐘三點山九億億次的浮點運算速度,并以此成績蟬聯五次奪得全球運行速度最快超級計算機獎項。但是,超級計算機雖然具有如此高效的運行速率,它仍然只能在自己所擅長的以科學與工程運算為主的領域中發揮作用,例如一些計算密集型的任務中。此外,超級計算機具有計算模式單一的特點,它的處理過程通常由批量處理計算、流式運算、迭代運算、圖運算等數據密集型運算方式組成,因此傳統上的超級計算機很難直接被應用在大數據的計摘 要 在大數據應用時代背景當中,超級計算機迎來了前所未有的挑戰,這些挑戰主要體現在數據的計算、存儲、通信以及編程方面,因此基于大數據的實際特征以及需求來設計一個超級計算機系統是十分有必要的。本文圍繞如何基于大數據特征以及需求進行超級計算機設計、大數據時代應用背景下編程模型的設計兩個方面展開討論,對大數據應用背景下的超級計算機設計進行了分析,并提出了一些筆者自己的見解,希望能夠對大數據應用背景下的數據處理問題提供一些對策建議。
關鍵詞 大數據應用背景 超級計算機 數據處理算以及處理中。
1如何基于大數據特征以及需求進行超級計算機設計
顯而易見,大數據的出現給人類技術帶來了極大的挑戰,而超級計算機具有十分強大的計算能力以及極其高效的數據處理能力,它將海量的信息高度集中在自己的系統當中,并通過工具媒介、數據存儲等多元化角度對這些龐大的數據進行處理、分析以及應用,由此可見,不同的超級計算機在對信息處理以及計算時所呈現出的性能水平也是有所差異的。我們之所以要通過超級計算機來實現高性能數據計算,主要目的就在于提升數據計算效率,并通過對大數據的應用來增強通信效率。在本文中,筆者將圍繞硬件和軟件兩個層面來設計大數據應用背景下的超級計算機。
1.1硬件體系結構
信息量大以及操作簡單是大數據應用的顯著特征,大數據應用能夠確保計算指令維持在一個相對來說較低的狀態,實際上間接增加了數據訪問所需的成本,由此可見,在使用超級計算機管理大數據的過程中主要存在的問題在于數據吞吐率與數據計算效率之間的失衡性。針對這一問題,我們可以重點以兩個切入點進行解決,一是針對片上緩存實施徹底優化處理。大數據應用指令等級相對較低,跳轉頻率較高,且不具備充分的局部性,再加上大數據通常只能使用一次,我們可以基于上述特點來降低指令緩存,并構建一個連接處理器與二級緩存的通道,以確保數據吞吐率與計算效率之間的失衡狀態得到相對改善;二是提高大數據計算能力。在大數據的影響下,信息逐漸呈現出高密集化狀態,這使得傳統的處理器已無法滿足信息處理需求。因此必須通過超級計算機來部署一個具備良好實時性的處理器,其中異構并行處理器是一項很好的選擇,具體來說,也就是把R檔募鈾倨韉既脛鐐ㄓ么理器核心當中,在加速器的推動作用下,使數據處理過程中能夠實現數據并行的效果。大數據應用過程中,對于數據的處理頻率相對較高,因此必須想方設法改善節點計算效率并強化通信效率。顧名思義,大數據就是代表龐大的數據信息量,因此相應的儲存模式也較為復雜,種類繁多,其中最為常見的數據儲存模式為集中式存儲模式以及分布共享式存儲模式。為了較好地應對大數據通信頻率較高這一問題,必須通過合理的手段來提高節點與節點或與設備之間的連接效率以及。對上文內容進行總結后得知,要想有效解決大數據應用中存在的問題,其中最關鍵的環節在于加大互聯通信技術層面的研究開發力度,提高在節點連接效率優化方面的研究力度,一般可以通過兩種方式來實現,一種為研發一款軟硬件結合的多借口網絡芯片,另一種為通過光互連技術來改善數據傳送過程中的問題。
1.2硬件體系架構
在大數據中包含著海量的結構化數據、非結構化數據以及半結構化數據。這三種數據類型對應的存儲方式也各不相同,結構化數據通常使用數據庫結構實現存儲,而非結構化以及半結構化數據的存儲則更多地以依靠于不同文件與系統之間的協調與配合來實現。數據處理與數據計算是兩個完全不同的過程,在數據計算的過程中,當數據加載已經結束時,則需要對各系統之間的交互頻率進行合理地調整和控制,所以說應該選擇單一的分布式文件系統來實現。而針對大數據的處理方式則相對來說更為豐富,同時也更加復雜,其中使用頻率最高的數據處理方式有圖處理以及批處理兩種,這樣據必須得到不同文件與系統之間的良好配合已結支持。由此可見,在設計超級計算機時,單一的文化系統完全不能滿足計算機運行需求,應將多種文件組合在一起進行超級計算機系統的設計。
通過對非結構化數據的存儲模式進行深入研究后可以發現,它所使用的存儲結構通常為分布式文件系統。為了能夠進一步提升大數據的處理效率,Google對大數據儲存的文件系統進行了一定的創新,在原有基礎上設計了一款具有擴展功能的GFS文件系統,創新后的文件系統在對應用層的運用下實現了對控制流以及數據量進行分離的目的,可以說是一個真正意義上的分布式文件系統,即使面對規模龐大的數據信息,該文件系統也能夠實現高校的儲存以及處理。GFS文件系統由以下三個基本部分構成,分別為若干塊服務器、單一的主控服務器以及客戶端。本論文以GFS文件系統為出發點,對目前已研發上市且具有代表意義的阿里巴巴分支ADFS系統進行了分析。在阿里巴巴的ADFS系統中,主要針對HDFSNameNode在使用過程中暴露出來的單點故障以及內存不足等一系列問題實施優化,工作原理主要為將內存中不屬于熱點范圍內的數據轉移至外部數據庫當中,通過這種方式來緩解NalneNode所承受的內存壓力,從而提升數據的處理質量以及效率。而在對半結構化數據以及結構化數據進行研究后發現,半結構化數據以及結構化數據在存儲方式上有著十分顯著的共性特征,他們通常都優先選擇數據庫以及分布式表結構作為存儲方式,只有一些結構相對較為簡單的半結構化數據更傾向于選擇Key/Value分布式系統,其中較為典型的為亞馬遜公司的Dynamo系統以及Facebook的Cassandra系統,亞馬遜的Dynamo主要是運用Key/Value作為數據存儲模式,這一存儲模式相比于其它模式的優點在于具有強大的可擴展性以及可用性。Facebook的Cassandra系統同樣也是采用Key/Value作為數據存儲模式,通過對這一存儲模式的運用進一步實現了數據存儲可擴展性以及一致性的增強。
2大數據時代應用背景下編程模型的設計
在大數據時代@一背景下,編程模型所面臨的挑戰也是日益凸顯出來,傳統的編程模型也開始表現出一定的動力不足趨勢,并無法滿足大數據的編程要求,為了有效解決這一矛盾,必須基于大數據的特征以及需求來設計一種有別于傳統編程模型的全新的編程模型。大數據時代下的編程模型必須滿足簡單易操作的基本原則,并在此基礎上盡可能提高性能水平,構建一個清晰明確的編程抽象,確保程序員的編程工作能夠更加順暢,在這一過程中,程序員并不需要關注程序在集群中運行的具體狀態以及情況,只需要針對每一項問題進行一一解決即可。在新的編程模型中,程序員的主要工作與任務在于關注一切有待解決的問題,以此來確保編程過程中各項任務的清晰化、明了化,同時還可以使代碼后期的維護管理工作得到極大程度的簡化,使程序員的工作更加方便、簡潔、高效。此外,在構建編程模型時還應考慮到系統數據計算能力以及處理能力提升的目的,我們不僅要確保程序能夠在集群上實現高效穩定的運行,同時也要保證不同類型的作業與任務能夠在集群上并發運行,這樣可以大大提高集群內部資源的共享有效率。但是在這一模型下,我們也會面臨許多新的問題,需要后期通過探索與研究進行慢慢攻破,例如如何有效處理異構性問題、如何提升本地數據的有效利用率等。因此在基于大數據應用背景下進行新編程模型構建的同時,我們的考慮內容不能過于單一,必須綜合衡量各方面的影響與利弊,在此基礎上作出適當的取舍以及判斷,從而構建一個簡單、便捷、可靠、高效的大數據編程模型。
為了使效率得到進一步提升,超級計算機一般來說都會選擇應用并行編程模型,例如Open MP以及MPI,其中,Open MP通常會與共享存儲模式的融合而被廣泛地應用在對稱多處理器等架構的相關設備當中,而MPI所涉及的編程模型則相對來說更為復雜,一般來說需要在切換至信息通信計算模型下,要求編程工程人員針對所有的程序問題根據一定的規則進行一一分類,隨后再將這些分類號的問題映射至分布式進程集合當中。Open MP以及MPI等并行編程模型并不適用于大數據的計算以及處理過程中,因此一些規模較大的互聯網企業會根據自身公司的實際情況以及需求來研制具有針對性的大數據處理模型,這樣一來不僅可以使工作人員的工作效率得到提升,同時也在很大程度上促進了大數據應用的有效實現。
3結語
綜上所述,在大數據應用背景之下,對于超級計算機的設計可以適當導入一些高效模塊結構,例如多核結構以及眾核結構等。此外,寬帶網絡速度的提升也有利于超級計算機運行速度的改善,為其提供基本的保障條件。總而言之,在大數據時代背景之下,要想使數據處理以及計算速率得到有效提升,超級計算機的應用是必然的趨勢所在,并取消以往計算機系統中的計算密集模式,取而代之的是數據密集模式。筆者相信在大家的共同努力之下,大數據應用背景下的數據處理以及計算問題自會得以有效解決。
參考文獻
[1] 張聽,袁曉如.樹圖可視化[J].計算機輔助設計與圖形學學報,2012(9):1113- 1124.
關鍵字:計算機;物聯網;網絡;應用領域;大數據
既然計算機物聯網技術對于社會發展、科技進步、人類生活等多個方面都有積極的影響,那么當下我們就應該將物聯網技術的進一步發展作為科研重點。物聯網技術的運用不能是盲目的,它的目的是為了在滿足市場需求的前提下、建立更為完善的技術產業。只有這樣,才能進一步推廣物聯網技術。另外,物聯網技術的普遍應用并不是沒有生活問題的,為了使其發展的更為快速,我們需要認清當下物聯網運用的特點,分析物聯網包含的主要技術,還要了解當前物聯網技術的一些應用領域。
一、計算機物聯網概述
計算機物聯網就如其名稱所示的一樣,是在大數據時代,將有形物體接入互聯網的一種技術。計算機物聯網包含兩個含義,第一方面,計算機物聯網技術以網絡為核心。在某種程度上,計算機物聯網是互聯網絡的擴展。眾所周知,計算機物聯網是在大數據時代下應運而生的,因此其另一方面的含義就與計算機信息化有關,具體來說,就是計算機物聯網可以通過大量的數據,促進與客戶信息交流和溝通。計算機物聯網技術在世界上被公認為最有發展前景的先進創新,它就像是一筆無形的財富。
(一)從技術層次看待計算機物聯網
計算機物聯網僅從字面上分析是無法真正理解的,還需要從計算機物聯網的技術結構、關鍵技術、應用領域等方面來深入探究。從技術層次上來看,計算機物聯網包含感知層、網絡層和應用層三大層次。計算機物聯網技術的三個技術層即相輔相成。每個技術層次都包含其特有的技術的,例如,其中網絡層還可以分為兩大層次,即傳輸層和處理層,主要負責信息數據的傳輸工作,由私有網絡、互聯網、有線和無線通信網組成。感知層就如同人體的神經末梢,負責信息資料的采集,其包含的技術最為豐富,有條形碼、傳感器、智能機械、識別碼等。網絡層是信息交換與通訊的重要平臺,應用也最為廣泛,其中的傳輸層包括衛星通信、移動通訊網等技術,處理層包括GIS/GRS技術、云計算等技術。另外,計算機物聯網的技術層次上還包括一些常見的感知終端,例如二氧化碳濃度傳感器、溫度、濕度傳感器、RFID標簽和讀寫器、攝像頭、GPS等。
(二)計算機物聯網關鍵技術
在近幾年來,物聯網所涉及的領域面越來越廣。其實現的基礎是計算機物聯網所包含的一些關鍵技術。具體有傳感器技術、RFID標簽、嵌入式系統技術。所謂傳感器技術,是計算機能夠處理海量數據的關鍵,也是計算機的主要應用程序。我們知道,計算機處理的數據需要時數學信號,這就要求計算機具備將模擬信號轉變為數據信號的功能,故有了傳感器技術。近些年來,隨著計算機物聯網的發展,另一種傳感器技術得以問世,即RFID標簽,其是一種整合技術,主要應用于自動識別、物品物流管理等領域。計算機信息化建設使得物聯網技術也在不斷發展,目前已經形成一種集信息技術設備、傳感器技術、一體化技術為一體的尖端技術,即嵌入式系統技術。其是計算機物聯網技術發展成熟的體現,在長期的的演變、法杖過程中,嵌入式系統得以廣泛運用,涉及到工業生產和國防工業,小到人類的生活,大到可以運用在衛星系統。
(三)計算機物聯網的應用技術
除了傳感器技術、RFID標簽、嵌入式系統技術之外,計算機物聯網的核心技術還包括RFID等標識技術以及云計算技術,而其應用技術的發展也尤為迅速,較為成熟的包括無線傳感網絡技術、射頻技術、網絡通訊技術等。我們知道,隨著社會的發展,要想利用計算機技術更好的服務于人類,必須考慮技術的功能性,保證其能適應科技時代的進步。傳統的傳感器并不成熟,其無法實現功能多樣性。發展至今的無線傳感網絡技術已經能夠滿足軍民,主要由許多個不同的無線傳感器節點組成。為了順應科技潮流,無線傳感網絡技術已經在努力向微型化、智能化的目標發展。相信在不久的將來,無線傳感網絡技術能夠實現從傳統傳感器到智能傳感器的完全蛻變。近些年來,計算機物聯網技術的發展還體現在射頻技術的應用上,較常見的應用有無線射頻識別技術。這類技術主要用于電子晶片、感應卡。射頻技術的原理比較難以理解,需要為由掃描器發射以特定頻率進行無線電波能量的發射,還要驅動接收器電路將內部的代碼送出。射頻技術的先進在于其接收器的特殊性,且其晶片密碼為世界唯一無法復制,安全性高、長壽命。除此之外,計算機物聯網的應用技術還有網絡通訊技術,具體是指利用現有的計算機設備,在相關網絡通訊設備的輔助下,進行圖文數據的采集、存儲、處理和傳輸。網絡通訊設備可以使資源實現其效用最大化,使信息資源達到充分共享。
二、物聯網的應用
(一)城市交通管理
物聯網技術最初就運用在交通行業,在其技術支持下,交通管制實現智能化。例如,物聯網技術可以使交通管制系統更加自動化、智能化,能進行道路交通的實時監控。能在短時間內,對公路、橋梁、公交、停車場等場所進行系統管理。可以在任意時段估測道路交通流量,及時發現事故、交通堵塞等情況,并進行快速的自動判斷,從而利于采取有效的解決措施。相信在不久的將來,全世界的交通都能實現智能化。
(二)家庭生活
科學技術的發展使得社會經濟發展的速度越來越大,在計算機技術的推動下,我們來到了數字化的二十一世紀。在物聯網技術的帶領下,我們不管是在家庭生活,還是工作中,都感受到了巨大的便捷。通過計算機物聯網技術,我們過上了智能化生活。可以通過手機來職能的控制家里的電器設備。通過手機端傳送指令,來遠程控制電器工作、監控家里的一切。近些年來,隨著物聯網生活生產領域的應用,其長足發展已成必然。
(三)節能減排
計算機物聯網的發展,勢必會使人類的生活發生改變。因此,一些由于人類生活方式而造成的空氣污染、資源浪費問題將迎刃而解。我們知道,空氣污染一直是全球環保工作的棘手難題。計算機物聯網技術在應對空氣污染上正好發揮了是特有的功能。近些年來,已經有科研學者針對空氣污染進行了合理的分析,并認為,可以通過計算機物聯網技術來改善。具體是通過物聯網技術,對反應空氣質量的數據進行收集。與此同時,要研發出一種新型的空氣實時監測系統。這樣就既能通過智能的實時監測系統來進行檢測工作,又能物聯網技術下對空氣質量數據進行自動分析、統計。
三、結論
綜上所述,計算機物聯網的優勢顯而易見。其包含多種功能,符合大數據時代的先進科技技術。就目前來看,計算機物聯網在人類生活和工業中都發揮著巨大的作用。其帶動著多個行業的發展,使得智能化產品走向多樣化。另外,從計算機物聯網在多個領域的應用可以看出,物聯網技術已經逐漸成熟起來,其在未來的發展趨勢十分良好。作為計算機行業的工作者,我們應該永不止步,全身心的致力于更多像物聯網技術的科技項目研究。希望在不久的將來,我們能讓物聯網在未來發展的更為快速,讓我國所自主研發的智能化設備越來越多,給我們帶來更多高科技體驗。
作者:譚秦紅 單位:貴州省銅仁職業技術學院
參考文獻:
[1]朱順強.中國物聯網發展狀況分析[A].中國通信學會2010年光纜電纜學術年會論文集[C].2010年.
關鍵字:大數據 情報研究 情報研究技術
中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2012)06-0001-08
1 引言
當數據和黃金一樣,成為一種新的經濟資產[1],當科研處于以數據為基礎進行科學發現的第四范式[2],當數據開始變革教育[3],這些無不宣告著我們已經進入了大數據(big data)時代。不同的學科領域,正在不同的層面上廣泛地關注著大數據對自己的研究和實踐帶來的深刻影響,情報研究領域也不例外。
大數據,顧名思義是大規模的數據集,但它又不僅僅是一個簡單的數量的概念,IBM公司指出,大數據的特點是4個V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實),它提供了在新的和正在出現的數據和內容中洞悉事物的機會,使業務更加靈活,并回答以往沒有考慮到的問題[4]。Gartner公司的報告也提出,大數據是大容量、高速和多樣化的信息資產,它們需要新的處理方式,以提高決策能力、洞察力和流程優化[5]。
由此可見,大數據強調的不單純只是數據量多少的問題,其背后隱藏了更為復雜和深刻的理念,這些理念包括:①將對數據和信息的分析提升到了前所未有的高度。這里的分析不是一般的統計計算,而是深層的挖掘。大數據時代,如何充分利用好積累的數據和信息,以創造出更多的價值,已經成為企業管理者、政府機構以及科研工作者首要關注的問題。“業務就是數據”、“數據就是業務”、“從大數據中發掘大洞察”等意味著對數據分析提出了新的、更高的要求。可以這么說,大數據時代就是數據分析的時代。②多種數據的整合和融合利用。大數據時代,數據的多樣性是一種真實的存在,數據既包括結構化的數據,也包括非結構化的數據,表現方式可以是數據庫、數據表格、文本、傳感數據、音頻、視頻等多種形式。同一個事實或規律可以同時隱藏在不同的數據形式中,也可能是每一種數據形式分別支持了同一個事實或規律的某一個或幾個側面,這既為數據和信息分析的結論的交叉驗證提供了契機,也要求分析者在分析研究過程中有意識地融集各種類型的數據,從多種信息源中發現潛在知識。只有如此,才能真正地提高數據分析的科學性和準確性。③更加廣泛地應用新技術和適用技術。數據量大(Volume)、類型多樣(Variety)、增長速度快(Velocity)是大數據的突出特點,這必然會帶來數據獲取、整合、存儲、分析等方面的新發展,產生相應的新技術或者將已有的技術創新地應用于大數據的管理與分析。同時,大數據的這些特點也決定了傳統的、以人工分析為主的工作模式將遇到瓶頸,計算機輔助分析或基于計算機的智能化分析,將成為大數據時代數據與信息分析的主流模式。
對于在數據分析領域扮演重要角色的情報研究工作而言,大數據的理念和技術既帶來了機遇,也帶來了挑戰。一方面,在大數據時代,情報研究工作正在得到空前的重視,大數據為情報研究的新發展提供了機會,從更為廣闊的視野來看待情報研究的定位,研究新技術新方法,解決新問題,將極大地促進情報研究理論與實踐前進的步伐。另一方面,大數據時代本身也要求各行各業重視情報研究工作,這就必然使得眾多學科有意識地涉足到以往作為專門領域的情報研究之中,并將其作為本學科的重要組成部分加以建設。文獻分析(本質是文本分析)不再為情報研究所獨占,以往情報研究領域積累的相關理論和方法很有可能優勢不再。因此,如何把握住自身的優勢,并抓住機會有所拓展,是情報學在大數據時代需要思考的問題。
2 大數據環境下情報研究的發展趨勢
大數據帶來的新觀念,正在引報研究的新發展,而且,研究人員也在不斷地從情報研究的實踐中總結經驗教訓,引導情報研究的未來走向。英國萊斯特大學的Mark Phythian教授在2008年10月作 了題為“情報分析的今天和明天”的報告[6],指出:①獲知情境是至關重要的。忽略戰略環境、領導風格和心理因素等更為廣泛的問題,將導致情報研究的失誤;②要加強信息之間的關聯。美國政府部門內部的信息共享障礙,致使分析人員無法獲取充足的信息來支持分析活動,導致情報研究中的預測失敗;③要汲取更多外界的專業知識。這一舉措雖然不能保證分析的成功性,但將是競爭分析的重要信息來源。
綜合大數據背景的要求和以往情報研究的經驗教訓,結合國內外同行的研究成果,本文將情報研究的發展趨勢總結為以下五個方面:單一領域情報研究轉向全領域情報研究;綜合利用多種數據源;注重新型信息資源的分析;強調情報研究的嚴謹性;情報研究的智能化。
2.1 單一領域情報研究轉向全領域情報研究
隨著學科的深入交叉融合及社會發展、經濟發展與科技發展一體化程度的增強,情報研究正從單一領域分析向全領域分析的方向發展。
首先,表現在各領域中的情報研究從視角、方法上的相互借鑒。從方法上看,社交網絡分析方法、空間信息分析等其他學科的分析方法,廣泛應用于軍事情報、科技情報等領域,心理學等領域的理論也用于情報分析的認知過程,以指導情報分析及其工具的研發。同時,情報學中的引文分析等文獻計量方法也被借鑒用于網站影響力評估。從技術上看,可視化、數據挖掘等計算機領域的技術,為情報研究提供了有力的技術視角,情報研究獲得的知識反過來又給予其他技術領域的發展以引導。可見,無論從思想上、方法上、技術上,各領域之間的交叉點越來越多,雖然這種相互借鑒早就存在,但現在意識更強、手段更為綜合。
其次是分析內容的擴展,這也是最為重要和顯著的變化。在情報研究過程中,不僅僅局限于就本領域問題的分析而分析,而將所分析的內容置于一個更大的情景下做通盤考慮,從而得出更為嚴謹的結論。聯合國的創新倡議項目Global Pulse在其白皮書“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是關鍵,基于沒有代表性樣本而獲得的結論是缺乏外部合法性的,即不能反映真實的世界。在情報研究領域,一些數據往往因為一些不可抗力的原因而不完整,如早期的科技數據,可能由于國際形勢等外部因素,導致一些國家的科技信息無法獲取,基于這樣缺失的分析樣本來評估該國的科技影響力,如果僅就數據論數據,無疑是會得“正確”的錯誤結論,這時應針對這樣的異常情況,將研究問題放置在當時的時代背景下,揭示背后的原因,從其他方面收集信息來補充,才能得出符合實際的結論。也就是說,必須要考察不同時間戳下的相關信息,再對分析內容加以擴充,這實質是一種基于時間軸的擴展。另外,將內容擴展至本領域的上下游則是一種更為重要的擴展。例如,考察某項技術的發展前景,如果僅就該技術本身來討論,可能會得出正面的結論,但如果結合特定地區人們對該技術的態度、當地的技術水平、物理條件、發展定位等,卻可能會得出相反的結論。這就說明,在很多領域中,環境不同,發展程度不同,要解決的問題也就不同。一些地區當前關注的問題不一定就是其他地區要關注的問題,某些欠發達地區當前不一定就必須照搬另一些所謂發達地區的當前做法。這需要通盤考察,分析相關思想、觀點和方法產生的土壤、使用的條件,結合當前環境再做出判斷,否則可能會對決策者產生誤導。
2.2 綜合利用多種數據源
綜合利用多種信息源已經成為情報研究的另一大發展趨勢。Thomas Fingar[8]從軍事情報角度指出,軍事情報界需要綜合利用人際情報、信號情報、圖像情報和外部情報,進行全資源分析(all-source analysis),即利用多種不同的信息資源來評估、揭示、解釋事物的發展、發現新知識或解決政策難題。科技情報界也是如此,如利用科技論文和專利,發現科技之間的轉換關系、預測技術發展方向,綜合利用政府統計數據、高校網站、期刊、報紙、圖書等來評估大學等科研機構。可見,綜合利用多種信息源是從問題出發,系統化地整合所有相關信息資源來支持情報研究,信息源可以是學術論文、專利等不同類型的文獻集合、文本和數據的集合也可以是正式出版物與非正式出版物的集合等。
這一發展趨勢是由幾大因素決定的。一是情報研究問題的復雜性。在大數據背景下,情報不再局限在科技部門,而成為全社會的普遍知識。公眾對情報的需求使得情報研究問題更為綜合,涉及要素更為多元,同時也更為細化。這導致單一數據源不能滿足分析的要求,需要不同類型的信息源相互補充。例如要分析科技之間的轉換關系,就避免不了涉及科技論文和專利這兩種類型的信息源。二是各種信息源的特性。不同信息源可以從不同角度揭示問題,如專利、研究出版物、技術報告等,可以較為直觀地反映研究者對某科技問題的理解與描述,而評論文章、科技新聞、市場調查等,可以反映出社會對該科技的觀點、認知情況[9]。因此,各類信息自身的特性就說明他們之間可以、也需要相互補充。此外,從現實角度來看,通常會遇到某些信息無法獲取的情況,這就需要別的信息加以替代,這就從實踐角度說明了綜合利用多種信息源的必要性。三是分析結果的重要性。以評估大學為例,評估的結果會引導各學校在比較中發現自身優勢和差距,指導未來發展定位,同時也為廣大學生報考提供參考。可見,研究結果對社會的影響是廣泛而深遠的,要做到分析結果的可靠性、科學性,必然先要從源頭上,即分析數據上加以豐富完善。
綜合利用多種信息源也意味著諸多挑戰。首先分析人員要熟悉每一種信息資源的特性,了解相似信息在不同資源類型中是如何表現的,不同信息源相互之間的關系是怎樣的。其次,針對待分析的問題,要選擇適合的信息,并不是信息越多越好,類型越全越好,尤其是當問題含糊不清時,可能需要不斷地調整信息源。再次,情報研究人員要能有效地綜合、組織、解釋不同信息源分析出的結果,特別是當結論有所沖突的時候,識別不當結果、保證分析結果的正確性是很重要的。
2.3 注重新型信息資源的分析
隨著網絡應用的深入,出現了許多新型的媒體形式。Andreas M. Kaplan等人將構建于Web2.0技術和思想基礎上,允許用戶創建交換信息內容的基于網絡的應用定義為社會化媒體(Social Media),包括合作項目(如維基百科)、博客、內容社區(如YouTube)、社交網站、虛擬游戲世界和虛擬社會世界(如第二人生)等六種類型[10]。這類媒體形式依托于Web2.0等網絡技術,以用戶為中心來組織、傳播信息,信息可以是用戶創造性的言論或觀點,可以是圍繞自己喜好收集的信息資源集合等。由于社會化媒體的易用性、快速性和易獲取性等特點,它們正迅速地改變著社會的公共話語環境,并引導著技術、娛樂、政治等諸多主題的發展[11]。這些通過龐大的用戶社區來傳播的高度多樣化的信息及其網絡結構,為洞悉公眾對某一主題的觀點、研究信息擴散等社會現象[12]、預測未來發展方向[11]等提供了機會,有助于發現有共同興趣的社群、領域專家、熱點話題[13]等,帶來了網絡輿情分析等研究內容。此外,這類信息結合其他類型的數據,產生了新的情報研究領域。例如,智能手機的普及和GPS的廣泛應用,使得可以從社交網絡和網絡交互數據、移動傳感數據和設備傳感數據中獲取社會和社區情報(social and community intelligence,SCI),揭示人類行為模式和社群動態[14]。
此外,機構知識庫等作為一種反映組織或群體知識成果的智力資源,也正引報界的重視。網絡信息聯盟的執行董事Clifford A. Lynch[15]從大學的角度指出,成熟完整的機構知識庫應包含機構和學生的智力成果(包括科研材料和教學材料)以及記錄機構自身各項事件和正在進行的科研活動的文檔。這暗示著學術界從過去只關心科研成果正逐步轉向關注科研過程。從機構知識庫中,可以發現隱藏其中的科研模式、揭示目前科研狀況的不足,引導機構未來科研的發展走向等。但現有的機構知識庫工具還缺乏幫助人們理解和分析這些資源的機制[16],在大數據環境下,加強這方面的研究也是必然趨勢。可以預見,隨著科技的發展和應用的深入,還會不斷的有新型資源出現,并不斷促進情報研究的發展。
2.4 強調情報研究的嚴謹性
情報研究活動在宏觀層面上是一種意義構建(sensemaking)[17],依賴于分析人員根據已有知識構建認知框架(frame),通過對認知框架的不斷修正來達到理解的目的[18]。這意味著情報研究活動本身帶有很大的不確定性,很多因素影響著情報研究的有效性。如何使情報研究工作更加嚴謹,減少情報分析的不確定、提升情報成果的質量,正成為學術界當前普遍關注的問題。情報研究嚴謹性(rigor)不等同于分析結果的正確性,它衡量的是情報研究的過程,是指在情報研究過程中“基于仔細考慮或調查,應用精確和嚴格的標準,從而更好地理解和得出結論”[19]。美國俄亥俄州立大學的Deniel Zelik[20][21]從評估角度,給出了8個指標來衡量分析過程的嚴謹性:假設探索、信息檢索、信息驗證、立場分析、敏感度分析、專家協作、信息融合和解釋評價。從這幾項指標看,信息檢索和融合是從分析信息源上消除不全面性;假設探索是要使用多種視角來揭示數據和信息;信息驗證側重于數據的溯源、佐證和交叉驗證;立場分析強調分析的情境性;敏感度分析指分析人員要了解分析的局限性,目的是從分析方法上消除主觀影響;專家協作是防止分析結果受分析人員自身的學科背景或經驗帶來的偏差;解釋評價是要正確對待分析結論。可見,情報研究的嚴謹性意在消除人的主觀偏見,用更為客觀的視角對待情報研究。如果說之前的情報研究活動依賴專家的個人判斷,帶有較為強烈的主觀色彩,那么走向嚴謹性的情報研究活動正逐步轉變為一門科學。
在大數據背景下,情報分析的嚴謹性,不僅體現在理念上,還暗含了對技術的要求。面對海量數據,自動化的技術手段必不可少。當信息的檢索更多的是借助檢索系統,而不是人工的收集,信息融合更多依賴數據倉庫等技術手段,如何在這樣的分析環境中將情報研究的科學性落到實處,是需要關注的問題。可以看到,利用技術本身已經在一定程度上避免了人的主觀性,但面對同樣一個問題,可以有不同的技術手段,也可能產生不同的結果,如何避免由技術產生的偏見,也許通過多種技術手段或采用不同的算法,全方位地展示信息內容及其之間的關系,從而避免產生信息的誤讀,是一個解決方案。可見,在大數據時代,情報研究需要多種手段來加強其分析過程的科學性,而這又需要多種技術方法加以支持。
2.5 情報研究的智能化
大數據背景下的情報研究,對技術提出了更高的要求。正如美國國家科學基金會(NSF)的報告[22]所說,美國在科學和工程領域的領先地位將越來越取決于利用數字化科學數據以及借助復雜的數據挖掘、集成、分析與可視化工具將其轉換為信息和知識的能力。對于情報研究來說,應用智能化技術能自動進行高級、復雜的信息處理分析工作,在很大程度上把情報研究人員從繁瑣的體力勞動中解放出來,尤其在信息環境瞬息萬變的今天,及時收集信息分析并反饋已經變得非常重要,這都需要智能化技術加以支撐。從信息源來講,情報研究對象得以擴展,其中可能包含微博等社會化媒體信息,可能包含圖片、新聞等,大量非結構或半結構化數據的涌入,必然需要技術將這些數據轉化為結構化數據,以供后續分析。同時,多元化的信息,需要根據分析需求加以融合,這可能需要語義層面上的技術支持。從分析需求來講,簡單的統計分析已不能滿足現在社會的決策需求,需要從大量信息中發現潛在模式,指導未來的發展,這就涉及數據挖掘、機器學習等技術。此外,要尋求情報研究的客觀性,摒除過多的主觀意愿,也需要多種技術來支撐。可見,這一發展趨勢是大數據時代下的必然。而各國在積極建設的數字化基礎設施,也在推動著情報研究的智能化,如歐洲網格基礎設施(European Grid Infrastructure,EGI)[23]項目就致力于為歐洲各領域研究人員提供集成計算資源,從而推動創新。
目前,對情報研究中的智能化技術沒有統一的界定,但概觀之,可以將情報研究智能化的本質概括為定量化、可計算、可重復。定量化是針對過去情報研究更多的是依賴人的主觀判斷,即基于已有文字材料或數據,根據研究人員的經驗等給出粗略的結論,如果說這是一種定性化分析,現在更多地依賴通過計算機自動化處理原始材料并獲得潛在數據,并在此基礎上輔以人的判斷,可以說是一種定量化的分析。可計算是指將各種信息資源轉化為計算機可理解、處理的形式,如從新聞、論文、專利等中,提取出科研組織、科研人員等實體,再基于這些結構化的、富有語義的信息,采用統計、數據挖掘等方法加以計算,獲取隱含的知識。可重復是指自動化分析技術消除了許多主觀因素,從理論上講,如果分析數據等條件一致,分析結論也應該是一致的,這也體現了智能化技術為情報研究帶來客觀性的一面。
3 情報研究中的技術問題
情報研究的上述發展走向,決定了情報研究既不能仍然停留在定性分析上,也不能僅僅靠簡單的統計替代情報研究中的計算技術,由此對情報研究技術提出了新的要求。美國McKinsey Global Institute在2011年5月了研究報告“大數據:創新、競爭和生產力的下一個前沿領域”(Big data: The next frontier for innovation, competition, and productivity)[24]。報告分六個部分,其中第二部分討論了大數據技術,并圍繞大數據分析技術、大數據技術和可視化三方面進行了闡述。在大數據分析技術中,列舉了26項適用于眾多行業的分析技術,包括A/B測試、關聯規則學習、分類、聚類分析、眾包(Crowdsourcing)、數據融合和數據集成、數據挖掘、集成學習、遺傳算法、機器學習、自然語言處理、神經網絡、網絡分析、優化、模式識別、預測建模、回歸、情感分析、信號處理、空間分析、統計、監督學習、模擬、時間序列分析、無監督學習和可視化。這些技術絕大部分是已有的技術,也有部分是隨著互聯網的發展以及對大規模數據挖掘的需求,在原有技術的角度發展起來的,如眾包就是隨著Web2.0而產生的技術。
根據我們的理解,這些技術大致可以劃分為可視化分析、數據挖掘以及語義處理三大類。這三大類技術也是當前情報分析領域應予以關注和深入研究的技術。
3.1 可視化分析
可視化分析(Visual Analytics)是一門通過交互的可視化界面來便利分析推理的科學[25],是自動分析技術與交互技術相結合的產物,目的是幫助用戶在大規模及復雜數據內容的基礎上進行有效的理解,推理和決策[26]。它不同于信息可視化,信息可視化關注計算機自動生成信息的交互式圖形表示,關注這些圖形表示的設計、開發及其應用[27],而可視化分析在此基礎上加入了知識發現過程,關注自動分析方法及其選擇,以及如何將最佳的自動分析算法與適當的可視化技術相結合,以達到輔助決策的目的。
目前的情報分析系統,雖然也提供了多種視圖來揭示信息,但更多的是一種分析結果的呈現,系統內部分析、處理的機制對分析人員來講是個黑匣子,分析人員無法了解分析方法、分析結果的局限性或者有效性,這無疑不符合情報研究嚴謹性這一發展要求。同時,現有的分析工具需要分析人員輸入各種繁雜的參數,又缺乏對情報分析認知過程的支持,這就對使用人員的專業化程度提出了較高的要求,增加了分析的難度。而可視化分析則可以較好地解決這一問題,它整合了多個領域包括采用信息分析、地理空間分析、科學分析領域的分析方法,應用數據管理和知識表示、統計分析、知識發現領域的成果進行自動分析,融入交互、認知等人的因素來協調人與機器之間的溝通,從而更好地呈現、理解、傳播分析結果[28]。佐治亞理工學院的John Stasko等人應用Pirolli 等人提出的情報分析概念模型[29],建立了一個名為Jigsaw(拼圖)的可視化分析系統[30],并將其應用于學術研究領域(涉及期刊和會議論文)以及研究網絡文章(如網絡新聞報道或專題博客)領域,也說明了將可視化分析技術應用于情報研究的可行性。
將可視化分析技術應用于情報研究領域,有眾多問題要解決。首先,在情報研究工具中,是以自動化分析為主,還是以可視化為主?Daniel A. Keim等人將待分析的問題分為三類,第一類是在分析過程中可視化和自動化方法可以緊密結合的問題,第二類是應用自動化分析潛力有限的問題,第三類是應用可視化分析潛力有限的問題。在研究這三類問題中交互程度對分析效率影響的基礎上,Daniel A. Keim等人指出,應分析如何通過考慮用戶、任務和數據集特點,來確定可視化和自動分析方法的優化組合,從而達到最佳的效果[31]。可見,要將可視化分析技術應用于情報研究領域,需要明確每類問題適用哪種組合方式。其次,情報研究領域適合使用哪些可視化交互手段?這可能包括原始分析數據、析取出的關系數據、深層挖掘的模式數據等的可視化手段,分析人員與系統交互的方式,分析過程的可視化展示等。第三,情報研究領域中的認知過程是什么樣的,關注哪些問題,涉及哪些實體,在大數據環境下面臨哪些認知困難,需要在哪些環節加以支持,這些困難能否通過技術來解決。此外,從現有的可視化分析技術來看,主要是將各個相關領域的技術以優化的方式整合起來,但在將來會產生一體化的可視化分析解決方法[32],這種一體化的方法可能是什么形式,又會對情報研究帶來怎樣的影響等等,都是在情報研究中引入可視化分析技術需要關注的。
3.2 數據挖掘
廣義的數據挖掘指整個知識發現的過程,是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它涵蓋了數據分析和知識發現的任務,從數據特征化與區分到關聯和相關性分析、分類、回歸、聚類、離群點分析、序列分析、趨勢和演變分析等,吸納了統計學、機器學習、模式識別、算法、高性能計算、可視化、數據庫和數據倉庫等領域的技術,并可以用于任何類型的數據,包括數據庫數據、數據倉庫等基本形式,也包括數據流、序列數據、文本數據、Web數據、圖數據等其他類型的數據[33]。
從數據挖掘的涵義看,它與情報研究有著天然的聯系;從數據挖掘的方法看,有其特定的含義和實現過程,可以有效地解決情報研究的問題。例如,情報研究可以借鑒關聯規則發現的成功案例——超市的“啤酒+尿布”,嘗試用關聯規劃來分析研究主題的相關性,從科技論文與專利的關聯中發現科技的轉換關系等等。但從目前的情報研究成果看,許多還僅僅停留在簡單的頻率統計、共詞計算層次上,在知識發現的過程中,這些工作僅僅是數據挖掘的數據準備,還有待于更為深入的發掘。可見,數據挖掘能夠也應該應用于情報研究領域,這不僅是數據挖掘應用擴展的結果,也是情報研究自身發展的需求。此外,由于較少有專門針對情報研究領域研發的挖掘工具,現有情報分析通常借助于其他工具,不同工具的功能不同,這就導致常常同時使用好幾個分析工具,如在使用SPSS進行聚類分析的同時,還使用Ucinet分析社會網絡。這帶來的問題是,分析缺乏完整性,可能社會網絡和其他信息之間有關聯,因為工具的分割性,就導致潛在模式的丟失。由此,研發適用于情報研究的挖掘工具,是必要也是緊迫的,尤其是面對大數據的挑戰,智能化地輔助分析人員,減少認知壓力,是亟待解決的問題。
要解決以上的問題,首先需要研究情報分析任務,分析哪些問題是可以使用數據挖掘技術來支持的,這類問題有哪些共同點、特殊性,能否對未來可能的情報分析問題進行擴展,哪些問題不適用于數據挖掘技術,原因是什么等。其次,對于某類或某個分析問題,使用哪種數據挖掘技術或幾種技術的組合才能有效地解決,涉及的算法是否需要針對該問題進行適應性改造,如何評價挖掘的結果等。第三,數據挖掘出現了交互挖掘這一發展趨勢,即構建靈活的用戶界面和探索式挖掘環境[33],這與可視化分析在某些方面上也不謀而合,這樣的趨勢會對情報研究帶來哪些影響,如何在這一背景下,探索情報研究工具的新發展,尋找情報分析的新模式,值得我們關注。
3.3 語義處理
語義是關于意義(meaning)的科學,語義技術提供了機器可理解或是更好處理的數據描述、程序和基礎設施[34],整合了Web技術、人工智能、自然語言處理、信息抽取、數據庫技術、通信理論等技術方法,旨在讓計算機更好地支持處理、整合、重用結構化和非結構化信息[35]。核心語義技術包括語義標注、知識抽取、檢索、建模、推理等[34]。語義技術可以為信息的深層挖掘打好基礎,即通過對各類信息的語義處理,在獲取的富有語義的結構化數據上使用各種數據挖掘算法來發現其中的潛在模式。數據的語義性支持了機器學習等技術的內在功能[36]。
從現有的情報研究實踐和工具看,語義支持的缺失是一個普遍問題,這其中又可劃分為兩個層次。對于傳統的情報研究對象,如科技論文、專利等,有較為成熟的分析工具,但這些工具往往缺少深層次的語義支持。例如,要分析論文的內容主題時,需要從摘要等自由文本中提取出主題信息,在數據處理時,常常無法識別同義詞、近義詞等,需要人工干預。一些工具雖然在語義方面做了努力,但仍然存在諸多不足,例如在形成的主題聚類結果上,缺乏有效的主題說明,自動形成的主題標簽不具有代表性,需要分析人員深入其中重新判斷等。這在小數據集環境下,還可以接受,當面對大數據的沖擊,這種半自動化的處理方法無疑是耗時又費力的。此外,對于新型情報研究對象,如網絡新聞、博客等,已有如動態監測科研機構等的系統工具,但總體來說還處于起步狀態,目前較多的還是依賴人工篩選出所需信息,并整理成結構化的數據,同樣也不利于大規模的數據分析。這些問題的存在,使得消除語義鴻溝(semantic gap)[37],應用語義技術成為廣泛需求及必然。
將語義技術應用于情報分析,需要關注以下幾方面的內容。首先,分析情報研究任務的特點,了解它的語義需求,是否存在規律性的準則以供指導分析工具的研發,這既需要原則性和方向性的準則,也需要為針對多維度劃分出的各類任務給出詳細的規范,例如,對微博等社會化媒體,其中既存在高質量的信息,也存在辱罵等低質量的信息,區分這些信息并篩選出高質量信息,就成為在分析社會化媒體中的語義任務之一。其次,語義資源建設問題,即在情報分析領域中,要實現語義層面上的理解,是否需要建設語義資源,如果不需要,哪些技術手段可以代替,如果需要,哪種類型的語義資源可以便捷、快速、高效地構建,并且這種語義資源應該如何構建,如何使用才能有效地服務于情報研究工作。第三,信息抽取問題。科技信息涉及眾多學科的專業術語、各種科研機構、組織等,如何使用語義技術將這些信息準確地提取出來并加以標注,尤其是針對不同類型的信息源,采用什么樣的抽取策略等。第四,信息整合問題,即如何使用語義技術,把不同來源的數據對象及其互動關系進行融合、重組,重新結合為一個新的具有更高效率和更好性能的具有語義關聯的有機整體,以便后續分析。
4 結語
正如本文引言中所談到的那樣,大數據的理念和技術為情報學領域中情報研究的理論和實踐帶來了機遇,也帶來了挑戰。機遇巨大,挑戰更大,需要我們對此有清醒的認識。本文分析了大數據背景下情報研究的若干發展趨勢,總結了情報研究中值得關注的技術問題,以期能為促進情報研究的理論和實踐的發展添磚加瓦。
參考文獻:
[1]Big Data,Big Impact[EB/OL].[2012-09-06]..
[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,
2(4):387-403.
[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.
[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL]. [2012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL]. [2012
-09-16].http:///fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.
[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1) :47-60.
[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.
[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.
[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
[36]Bettina Berendt, Andreas Hotho, Gerd Stumme. Introduction to the Special Issue of the Journal of Web Semantics: Bridging the Gap-Data Mining and Social Network Analysis for Integrating Semantic Web and Web 2.0[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2010,8(2-3):95-96.
關鍵詞 大數據時代 研究生培養質量 反饋
中圖分類號:G643 文獻標識碼:A DOI:10.16400/ki.kjdkz.2015.08.023
Postgraduate Education Quality Feedback Thoughts in Big Data Era
ZHAN Zhiyong, CHEN Mingchan, YI Xiaoxi, WANG Zhichao
(Harbin Engineering University, Harbin, Heilongjiang 150001)
Abstract: Work quality of postgraduate training feedback main body is relatively simple, strong sense of quality feedback, the feedback mechanism is not the system, outdated methods of gathering information and other issues, combined with the characteristics of the era of big data, for quality of postgraduate training feedback work thinking that the quality of graduate education the depth and breadth of feedback work will occur gradually change to adapt to the era of big data.
Keywords: big data era; postgraduate training quality; feedback
近年來,隨著信息技術的飛速發展,大數據、云計算、慕課、翻轉課堂、顛倒教室等信息化時代的新名詞如雨后春筍般不斷涌現出來,2013年被媒體稱為“大數據元年”,大數據時代已經來臨。數據科學家舍恩伯格提出:“現有的認知和體系是建立在稀缺數據上的成果,人們思維和工作方式必須發生變革以適應大數據時代的到來”。①在新時代來臨之際,教育的各個環節面臨著重新洗牌的可能。
1 大數據時代
1.1 大數據
“大數據”概念源于20世紀90年代,隨著互聯網技術的發展,大數據的內涵由“無法用傳統方法進行分析的數據集合”逐漸轉變為“具有超強決策力、洞察力和流程優化能力,與先進數據處理方式緊密相關的海量、多樣的信息資產”。②在一定條件下,可通過先進計算機技術,對此類信息資產進行有目的的設計與分析,揭示隱藏其中的各類信息,為我們進行研究、決策、管理提供可靠依據。
大數據具有以下特點:(1)大量性。大數據的數據信息量巨大,有人稱其起始計量單位至少是P(1000個T)。(2)價值性。大數據具有很高價值,但其價值密度低,通過先進技術在海量信息中提取高價值信息是大數據發展的關鍵。(3)繁雜性。大數據的類型多樣,包括文本資料、網絡日志、圖片、音頻、視頻、搜索信息等各類結構化、非結構化及半結構化數據。(4)高時效性。很多大數據信息要求處理速度快,高時效性是大數據區別于傳統數據挖掘的顯著特征。
1.2 大數據時代
大數據時代是指基于大數據的各類信息及其相關技術發展與創新的信息時代,社會各領域的決策逐步由傳統的經驗決策轉變為數據決策、由注重因果關系轉變為相關關系。大數據時代開啟全新的時代,逐步影響著我們的生活、工作和思維,并且正在深刻改變傳統社會的商業、教育模式。
大數據時代具有以下特點:③(1)信息生產泛在。信息的產生無時不有、無處不在,存在人類生產生活的各個領域,大數據的生產過程以及相應挖掘技術呈指數增長。(2)信息民主公開。絕大多數的數據產生于公共開放的網絡環境中,所有人可以是信息數據的生產者也可以是消費者。(3)反饋信息及時豐富。各類新型信息分析技術可對巨量數據及時分析判斷,為信息反饋工作提供了無盡可能。(4)信息具有相關性。數據信息在理論上能在各個維度無限使用與傳播,能在各種不同系統與應用中傳遞,在不同的環境中與不同數據有機結合能表達完全不同的涵義。(5)引導社會發展無限可能。如果說工業化時代使得機械力迅速增長,拓展了人類體力邊界;那么大數據時代使得智力無限增長,讓人類社會與處理信息充滿了無盡的想象空間。大數據時代,人類社會的各個領域即將或正在發生變革,以“慕課”為代表的教育領域也正在經歷一場革命。
2 研究生培養質量反饋工作
研究生培養質量是指在一定環境下研究生培養工作的各類特性總和,主要由培養過程質量(如教師授課質量、導師指導水平等)和產出成果質量即教育產品或服務的質量(如研究生科研成果質量、創新能力以及服務社會的質量等)有機組成。④研究生培養質量反饋機制指對研究生培養工作起調節指導作用的機制,即研究生培養“輸出”的研究生培養質量“反作用”于研究生培養工作各環節,指導研究生培養工作的過程。
我國研究生培養單位歷來重視研究生培養質量反饋工作,各個培養單位做法不盡相同,或成立研究生培養質量管理部門管理或邀請校外專業評估機構或相應管理部門開展以座談、問卷調查等方式的基于樣本數據形式的質量評價工作。目前,研究生培養質量反饋工作普遍存在以下問題。
(1)反饋主體相對單一。一方面,在研究生培養質量反饋工作中,研究生培養單位是質量反饋工作的實施者,政府、行業機構或者專業的調查機構參與較少。另一方面,在研究生培養單位中,實施培養質量反饋工作的部門主要是就業和研究生管理部門,而這些部門的職能很多,難以投入大量精力從事培養質量反饋工作。缺少社會參與、培養單位精力有限,難免出現反饋工作不科學,反饋信息不全面、不準確的現象。
(2)質量反饋意識不強。多數研究生培養單位的工作重心在研究生的過程管理以及就業管理方面,注重研究生的培養過程質量和產出成果質量,對培養質量反饋工作的重要性認識不足,未能系統全面思考研究生培養質量反饋工作,常常造成研究生培養質量反饋工作流于形式,導致反饋信息不夠全面及時,無法有效指導研究生培養管理工作,研究生培養工作與社會需求脫節。
(3)反饋機制不系統。目前,各個研究生培養單位在研究生培養的日常工作中,對研究生培養質量反饋工作進行了許多有益嘗試,如采取研究生評教、專家評教、座談、問卷調查等方式來改進管理工作,但這些工作多數停留在“頭疼醫頭腳疼醫腳”的層面,各項工作相對獨立,反饋結果難以有效利用,效率低下,反饋機制不成體系。往往是就業部門的反饋工作僅限就業部門使用,未能將反饋信息及時應用到研究生培養及其他相關部門,各部門間的質量反饋工作相互脫節。
(4)信息采集方式落伍。現行的信息采集方式一般為調研,是培養質量反饋工作的重要內容,現行調研工作一般采用問卷調查、座談會以及電話調研等傳統方式進行,但傳統調研形式存在以下局限性:一是被調研者當時狀態影響調研結果,不同環境下被調研者的狀態也有不同,造成調研結果與實際情況存在誤差;二是調研群體代表性不強,傳統調研方法選取一定數量樣本進行調研,其必然無法代表全體;三是信息調研工作量較大,信息采集費時費力,同時要對采集到的信息進行分析研究;四是信息采集量不全面,調查問卷、座談等調研不能設計太多問題,許多被忽視的信息可能對研究生培養質量有重大影響;五是傳統調研工作過分強調因果關系,不注重相關關系。
研究生培養質量反饋工作與數據緊密相關,而大數據時代則為研究生培養質量反饋工作的研究與發展提供了無限可能。
3 大數據時代下研究生培養質量反饋工作的變革方向
大數據時代的特點決定了現階段研究生培養質量反饋工作存在的問題將逐步解決,同時,研究生培養質量反饋工作的深度與廣度必然將逐步發生相應的轉變以適應形勢發展。
(1)反饋信息數據采集方式不斷拓展。傳統研究生培養質量反饋機制相關數據一般來源于調查問卷、座談會、訪談以及相關信息統計等經典調研手段,大數據時代的數據采集工作不僅可以使用傳統調研手段獲取,絕大多數是從研究生的日常學習、生活信息以及身體信息中獲取,將來有可能出現從研究生幼兒學會說話的時間來判斷研究生的創造潛力,也有可能從研究生中學時期的習慣、愛好來判斷其科研潛力。同時,以往研究生培養工作尤其是課程教學工作中,由于缺乏相應數據支撐特別是對研究生數據的全面、深入分析,研究生培養工作往往形成整齊劃一的“工業流水線”,培養的是“標準件”,研究生的個性差異和創新能力培養得不到充分體現,而在大數據時代,研究生的所有學習行為都被網絡“神不知鬼不覺”地采集下來,研究生培養單位依據采集的數據對培養過程實時進行動態調整,針對每位研究生的不同特點實施個性化培養。⑤
(2)數據分析統計方法不斷改進。一般質量反饋工作常采用傳統統計方法通過普通計算機或手工方式來處理結構化數據,而大數據時代的數據可以是半結構、非結構數據,其統計分析以相關關系為基礎展開,數據分析統計方法也隨著現代計算機技術的發展而不斷改進。⑥
(3)研究生培養質量反饋機制逐步深化。隨著大數據時代的來臨,研究生培養管理過程與現代計算機網絡技術的聯系愈加緊密,不斷發生變革,如研究生課程教學的慕課沖擊、研究生學位論文的要求、研究生學位論文盲審系統的開發使用等,研究生培養管理過程的“在線化”變革必然導致相應的研究生培養反饋機制的逐步深化。同時,對于實施培養質量反饋工作的管理者來講,應提高個人數據素養,努力學習數據分析的基本原理和方法,發現并搜集反映研究生培養各個環節運行狀態和存在問題的狀態數據,加強其基于數據來進行決策和采取相應措施來保證研究生培養質量的自主性。
(4)教育第三方全面介入。大數據時代,數據挖掘分析技術飛速發展,研究生培養單位已沒有能力依靠自身實力對研究生培養質量的大量相關數據進行深度挖掘。而作為數據挖掘分析見長的第三方,如專業數據挖掘公司、專業研究生培養質量評估機構甚至是學校計算機網絡中心必將不斷開發技術、拓展業務,與研究生培養單位圍繞研究生培養質量反饋工作開展全面合作,擔負研究生培養質量數據的挖掘與分析工作,為研究生培養質量反饋工作提供技術支持。
(5)研究生培養工作各單元逐步融合。對于國家的教育系統來講,研究生教育屬于頂層教育,前期各層次的教育質量無不對研究生培養質量產生重要的影響,大數據時代將使得研究生培養質量反饋工作不再單純局限于研究生培養階段,應將整個教育過程如幼兒教育、小學、初中、高中以及大學等個層面的教育納入其中,將其作為一個系統來通盤謀劃。對于研究生培養單位來講,研究生培養質量反饋工作不應局限在研究生管理部門,應結合研究生的招生、培養、就業乃至校友溝通等各個層面,加強研究生各層面研究生培養數據資源的整合是大數據時代研究生培養單位在研究生培養質量反饋工作的重點。
注釋
① 舍恩伯格.大數據時代[M].袁杰,譯.浙江人民出版社,2012.
② 楊旭,湯海京等.數據科學導論[M].北京理工大學出版社,2014.
③ 鄭毅.大數據時代的特點[J].新金融評論,2012(1).
④ 占志勇,侯彥芬等.基于系統論的研究生課程教學機制探討[J].黑龍江高等教育研究,2013(9).
(1武漢輕工大學數學與計算機學院 湖北 武漢 430023 2重慶交通大學 重慶 400074)
摘 要:針對橋梁健康監測獲取海量數據卻無法實時精確地監測評估橋梁結構狀態的困難性,本立足數據挖掘算法理論,在Hadoop平臺下運用KNN文本分類算法對橋梁結構縮尺模型加速度數據進行分類分析,采用分布式文件系統HDFS對監測數據進行存儲和訪問,應用Map/Reduce并行計算框架對橋梁各環境參數進行計算,并據此判斷監測點屬于何種工況,實現了橋梁監測海量數據的存儲、訪問、分類以及橋梁結構健康狀況的判別,通過實驗室縮尺模型工程實例驗證了理論的有效性。實驗結果表明,與傳統的串行分類算法相比,基于Hadoop平臺的并行分類算法具有較好的擴展性,并取得了基于大數據理論的橋梁監測技術研究的革新。
關鍵詞 :Hadoop平臺;大數據;KNN文本分類算法;HDFS
中圖分類號:U445 文獻標識碼:Adoi:10.3969/j.issn.1665-2272.2015.05.036
0 引言
隨著橋梁事業的蓬勃發展,多數橋梁上建立了健康監測系統,可以通過傳感器獲取各種環境下的反映結構響應行為的信息,期間從各個監測點收集的數據量可達到GB級,而面對海量數據卻不能及時得到反映橋梁結構狀態的有效信息,橋梁結構監測系統的分析與處理不能及時完成,大數據概念和大數據技術的適時出現提供了一個分析處理橋梁監測歷史數據的途徑。Hadoop作為一個開源的云計算平臺提供了分布式文件系統HDFS和并行編程模型Map/Reduce,以其高容錯性、高伸縮性等優點允許用戶將Hadoop部署在大量廉價的硬件上,人們可以充分利用集群的存儲和高速運算能力,完成海量數據的處理,其中包括海量文本數據的分類問題。分類算法是一種重要的數據挖掘算法,該模型通過對海量樣本數據進行訓練能把未知類別的樣本映射到給定類別中的某一個,以此判別橋梁狀態所屬類別,K近鄰(K-Nearest Neighbor,KNN)文本分類算法是基于訓練集的文本分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。
云計算提供的海量數據存儲和分布式計算能力在數據挖掘以及相關領域中是一種非常受青睞并且有效的方法,結合大數據技術和數據挖掘算法—KNN文本分類算法進行橋梁健康監測,在Hadoop平臺下運用KNN文本分類算法對橋梁結構縮尺模型加速度數據進行分類分析,采用分布式文件系統HDFS對監測數據進行存儲和訪問,應用Map/Reduce并行計算框架對橋梁各環境參數進行計算,使用分布式文件系統Hadoop Distributed Filesystem來存儲原始文檔(已分類的數據)和待分類文檔(監測數據),將文件讀寫和分布式并行計算框架MapReduce相結合實現KNN文本分類,將監測點的監測數據分到已有的工況中,并據此判斷監測點屬于何種工況,以便采取相關措施對橋梁進行維護,以此來探索基于大數據技術的橋梁監測分析處理的方法。
1 大數據及其應用平臺
“大數據”是一個體量很大,數據類別多樣的數據集,并且這樣的數據集無法用傳統數據庫工具對其內容進行抓取、管理和處理,主要具有數據體量巨大;①數據類別大; ②數據來自多種數據源, 囊括了半結構化和非結構化數據; ③數據處理速度快,在數據量非常龐大的情況下, 也能夠做到數據的實時處理;④數據價值密度低,價值密度的高低與數據總量的大小成反比。如何通過強大的機器算法更迅速地完成數據的價值“提純”并通過對海量數據進行分析獲得有價值的數據成為目前大數據背景下亟待解決的難題。
Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺及分布式處理的軟件框架,主要用來處理大量數據,它實現了MapReduce一樣的編程模式和框架,能在由大量計算機組成的集群中運行海量數據并進行分布式計算。處理的海量數據能達到PB級別(1PB=1024TB),并可以讓應用程序在上千個節點中進行分布式處理。以Hadoop分布式文件系統(HDFS,HadoopDistributed Filesystem)和MapReduce(Google MapReduce的開源實現)為核心的Hadoop為用戶提供了系統底層細節透明的分布式基礎架構。HDFS的高容錯性、高伸縮性等優點允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統;MapReduce分布式編程模型允許用戶在不了解分布式系統底層細節的情況下開發并行應用程序,所以用戶可以利用Hadoop輕松地組織計算機資源,從而搭建自己的分布式計算平臺,并且可以充分利用集群的計算和存儲能力,完成海量數據的處理。MapReduce 是大規模數據(TB級)計算的利器,Map和Reduce是它的主要思想,來源于函數式編程語言,Map負責將數據打散,Reduce負責對數據進行聚集。它的流程如圖1所示。
2 K近鄰文本分類算法
K近鄰(K-Nearest Neighbor,KNN)文本分類算法是基于訓練集的文本分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。該方法的思路是:計算一個點A與其他所有點之間的距離,取出與該點最近的k個點,然后統計這k個點里面所屬分類比例最大的,則點A屬于該分類。根據加權距離和判斷測試樣本所屬的類別的具體過程如下:
假設給定有m個訓練樣本集D,每個樣本具有n個屬性,di=(σi1,σi2,…,σin),其中i=(1,2,…,m)表示第幾個訓練樣本。
(1)設定k的值,k最近鄰的數量;
(2)把測試樣本表示成測試文本向量X(ω1,ω2,…,ωn);
(3)根據下式計算測試樣本與訓練集中所有樣本的相似度:
公式(1)中di為訓練樣本,X為測試樣本。
(4)對根據步驟(3)計算出的m個相似度進行排序,選出k個最大值,作為X的近鄰;
(5)根據公式(2)收集這k個最近鄰的類別,
公式(2)中X表示測試樣本,sim(X,di)為相似度計算公式,y(di,Cj)為類別屬性函數,即如果di屬于類別Cj,那么函數值為1,否則為0。
(6)對步驟(5)計算出的值排序,將測試樣本分到值最大的類別中去。
3 工程實例
3.1 實例模型
本次工程實例根據云南黑沖溝特大橋全橋作為原型建立,使用的數據是由橋梁實驗室的縮尺模型上建立的監測系統收集到的,原型立面圖(見圖2)。
試驗獲得以下三種工況的加速度時間序列:工況一,跨中無裂縫,模擬無損傷情況;工況二,跨中具有0.1mm裂縫,模擬有損傷情況;工況三,跨中有0.12mm+0.03mm兩條裂縫情況,模擬損傷加劇情況。
根據本次動力學試驗的研究目的,確定試驗的主要測試內容為模型結構關鍵部位加速度,該測試項目可采用壓電加速度傳感器進行量測,采用重錘敲擊的方式,給模型提供激勵,來模擬完成脈動試驗,采樣頻率為18.8Hz,在激振器開始激振5s后進行采樣,采樣時間為50s,獲取各個測點的加速度數據,特征選擇方法采用文檔頻率,k取30。
3.2 文檔預處理
本次工程實例的樣本數據是通過縮尺模型重錘敲擊獲取的加速度數據,監測系統收集了不同工況下的監測數據,對損傷前即健康狀況,損傷后0.1mm裂縫和損傷加劇0.12mm+0.03mm裂縫進行樣本數據訓練分析,獲取不同的損傷情況下各個監測點的分類情況,得出每個監測點的損傷情況,實驗選定0.12mm+0.03mm兩條裂縫情況下采用小車激勵的方式獲取該工況下的加速度時程信號作為待分類數據,通過對監測數據的分類,判定其是否存在損傷。
待分類文檔節點中,WCDMapper繼承hadoop平臺的Mapper類,并重寫map方法對待分類文檔進行讀取,并統計每個詞出現的次數;WCDReducer繼承hadoop平臺的Reducer類,并重寫reduce方法對待分類數據進行寫操作。WCDMapper類的map方法和WCDReducer類的reduce方法分別如下,處理后的待分類文檔如圖3所示,前面一個是數據,后一個數字是該數據出現在待分類文檔的次數。后面的原始文檔經過預處理后也與此相似。
由于MapReduce只輸出一個結果,而每個原始文檔都采用MapReduce處理會增加代碼量和內存的消耗,所以本文采用Hadoop平臺提供的FileSystem、FSDataInput-Stream、FSDataOutputStream類來對原始文檔進行相應的讀寫,最后輸出到文檔中的內容與圖4.2相似,而文件讀取方式不同。最后需要將它們合并到一個文檔中,采用Hadoop平臺提供的FileSystem、FSDataInputStream、FSDataOutputStream類來對文件進行讀寫。輸出的matrix文件如圖4.3所示,每一行的第一個數為監測的數據,后面的數字為該數據在每個文檔中出現的次數。
3.3 特征選擇
根據上一步得到的文件,計算每個數據的增益值,對每一個數據的信息增益進行從大到小排序,最后把增益值最大的個特征項輸出到文件。本次設計中選取的為100,輸出到文件的內容如圖5所示,每一行只顯示1個數據。
3.4 文檔向量化
原始文檔和待分類文檔都需要向量化,原始文檔向量化之后需要歸一,而待分類文檔向量化之后不需要歸一,所以給他們分別提供了一個向量化的類。從文件中讀入特征項。參數文件存儲經過特征選擇后剩下的特征項。
原始文檔經過向量化之后,輸出到每個文檔的內容不一樣,圖6是文檔名為0向量化后的部分內容。待分類文檔的向量化后不需要歸一化,輸出到文檔的內容如圖7所示。
3.5 分類
此步驟計算原始文檔和待分類文檔向量兩個向量的夾角的余弦。最后的絕對值越大,說明夾角越小,越相似,距離越近。在訓練文本集中選出與新文本最相似的個文本,這個文檔中屬于哪一類的文檔最多,則待分類的文檔就屬于哪一類。map( )方法獲取待分類文檔的向量,reduce( )方法輸出結果到文件中。分類的結果表示待分類的文檔屬于哪一類,也即是該監測數據來源的監測點的損壞情況屬于哪一類。本次實驗選定0.12mm+0.03mm兩條裂縫情況,采用小車激勵的方式獲取該工況下的加速度時程信號,數據分類結果如圖8所示,該結果顯示待分類的文檔屬于損傷0.1mm這一類。
3.6 結果分析
在上一步中已經獲得了待分類文檔分類的結果,此分類結果的數據只是監測數據的一部分,而且在分類中由于KNN分類的值選取沒有較好的方法以及其他影響因素,獲得的結果可能有誤。因此將監測點傳來的數據拆分到若干個帶分類文檔中,同時對這些文檔進行分類。分類完成之后再對分類結果進行整合分析,獲得最終的有效的結果即該監測點準確的損傷情況。Map( )方法讀取各個待分類文檔分類的結果,并對結果匯總加以分析,獲得監測點數據最后的分類結果,reduce( )方法將最后的有效結果寫入文件。最后的輸出結果如圖9所示。
綜上所述,基于MapReduce編程模型的橋梁監測信息分類技術可以有效判別橋梁狀態所屬類別,由于HDFS將大數據分割成了若干個blocks存儲在不同的節點上,這樣KNN分類算法由一個主機的運算分散到多個節點并行處理,每個節點完成T個任務,時間復雜度為O(ns)/T,其中n為訓練樣本的總數,s為特征屬性數模,應用HADOOP平臺的分布式處理框架大大降低了算法的時間復雜度。
4 結論
本文針對橋梁健康監測系統歷史數據無法有效利用,無法通過海量數據實時精確地監測評估橋梁結構狀態的困難性,基于數據挖掘算法理論,提出了基于大數據的橋梁健康監測信息分類研究技術的革新,在Hadoop平臺下運用KNN文本分類算法對橋梁結構縮尺模型加速度數據進行分類分析,采用分布式文件系統HDFS對監測數據進行存儲和訪問,應用Map/Reduce并行計算框架對橋梁各環境參數進行計算,將文件讀寫和分布式并行計算框架MapReduce相結合實現KNN文本分類,將監測點的監測數據分到已有的工況中,并據此判斷監測點屬于何種工況,實現了橋梁監測海量數據的存儲、訪問、分類以及橋梁結構健康狀況的判別,Hadoop平臺下的KNN算法實現了分布式并行計算,提高了算法運行時間效率,降低了時間復雜度,通過實驗室縮尺模型實驗驗證了方法的有效性。
存在的不足之處是值的選擇,值選擇過小,得到的近鄰數過少,會降低分類精度,同時也會放大噪聲數據的干擾;而如果值選擇過大,并且待分類樣本屬于訓練集中包含數據數較少的類,那么在選擇個近鄰的時候,實際上并不相似的數據亦被包含進來,造成噪聲增加而導致分類效果的降低。如何選取恰當的值也成為KNN的研究熱點,尚需進一步改進。
參考文獻
1 黃荷.大數據時代降臨[J]. 黨政論壇,2012(11)
2 金鵬. 基于Hadoop的SINN文本分類算法的設計與實現[D]. 武漢:華中師范大學碩士學位論文,2013
3 李登榮.文本分類及其相關技術研究[D].復旦大學博士論文,2005
4 Samovsky M, Kacur T. Cloud-based classification of text documents using the Gridgain platform[C]. Applied Computational Intelligence and Informatics,2012(7)
5 Caruana G, Li M, Qi M. A MapReduce based parallel SVM for large scale spam filtering[C]. Fuzzy Systems and Knowledge Discovery, 2011 (4)
6 Viktor Mayer-Sch nberger.Big Data[M].杭州:浙江人民出版社,2013(1)
7 (英)維克托·邁爾-舍恩伯格,肯尼思·庫克耶著.大數據時代[M]. 北京:人民出版社,2012
8 向小軍,高陽,商琳,等.基于Hadoop平臺的海量文本分類的并行化[J].計算機科學,2011(10)
9 (美)Tom White著. 周敏奇,王曉玲,金澈清,錢衛寧譯. Hadoop權威指南(第2版) [M]. 北京:清華大學出版社,2011
10 萬川梅,謝正蘭. 深入云計算:Hadoop應用開發實戰詳解[M]. 北京:中國鐵道出版社,2013
11 張寧,賈自艷,史忠植.使用KNN算法的文本分類[J].計算機工程,2005(6)
關鍵詞:大數據;高校應用;發展方向
1大數據概要
近年來,當人們還對物聯網、云計算、移動互聯網等熱詞感覺新穎的時候,大數據(BigData)也橫空出世并呈燎原之勢。大數據是一個體量大、數據類別多的數據集,并且這樣的數據集不能用傳統數據庫工具對其進行處理。如果說傳統數據庫時代的數據管理方式是“池塘捕魚”,那么大數據時代的數據管理方式則是“大海捕魚”,大數據管理方式,不僅在數據規模、數據類型、數據模式、數據對象處理工具上和傳統數據模式有著明顯的差異,它還能讓我們以一種從未涉足過的方式,對巨量數據進行分析,從而能幫助我們獲得更有價值的產品和服務,最終形成影響社會發展的變革之力。
2高校管理中的大數據初步應用
據教育部統計截至2013年,全國共有普通本科院校879所、普通高職(專科)院校1266所、國家批準設立的獨立學院287所(不含軍事院校和港澳臺院校),每所高校學生人數都破萬,每名學生都存在學籍、選課、考試、考勤、學費、學分等各種數據;對于教師有教師基本信息、職稱、論文、課件、考題等數據。故高校信息系統是數據生產大戶,長期運營積累下來的數據就是高校中的大數據,合理利用這些數據,不僅可以幫助教學管理,減輕教學工作中的事務性工作,更能提高招生推廣活動,改變教學領域的授課和學習模式,不論高校自身,還是社會各界,都能從高校中的大數據應用受獲益匪淺。
2.1個性化學習
從孔孟時代開始,我們就提出了因材施教,個性化學習也是教育所追求的最高目標。要實現這目標,首先要了解受教育對象的長處、短處,各種特點。但目前高校擴招,一個教師教多個教學班,很難去了解每一個學生的特點實施教學,將大數據挖掘技術與日常教學相結合,通過可視化的在線學習平臺,學生自主選擇自己感興趣的課程學習,就能夠實現滿足個性化學習的功能。學生在自主學習平臺上的學習資料,交流互動信息,每個知識點不同的學習進度等,通過大數據技術對這些個性化信息的分析拓展,不僅能幫助學生完善知識結構,更能加快學生對自身興趣愛好的挖掘和特長的培養,在整個教育信息化的大背景下,只有基于大數據技術才能更好地實現這種學習方式,充分利用大數據技術,可以為各地高校帶來更具有針對性的教育方式,能夠實現盡可能早的將學生的天賦創造力釋放出來。
2.2教學質量評估
教學質量評估是全國每個高校定期要做的事務性工作,其目的是通過不同渠道,包括老師,同學,行政部門等不同角度對教學評估,以期發現教學工作、管理工作中存在的各類問題,并及時地通過調整教學方案等手段來改正完善,達到提高教學質量的目的。在教育評估系統中引入大數據技術,不僅從時間成本上節約,更能加強評估的科學性,增強了教育數字化建設的實效性。在教學質量評估中利用基于大數據挖掘的智能算法,我們就可以根據教師教學互動、多媒體課件的效果、學生積極性等因素中找出其中的內在聯系,就能為教學評估部門提供客觀的、科學的、符合實際的決策支持信息,為教師提供準確的反饋信息,使之更好地開展教學工作,提高教學質量。
2.3專業培養方向拓展
大數據技術是新興的,但它卻又發展迅速,朝夕之間,大數據技術應用到了各行各業,面對大數據帶來的挑戰與機遇,國內各大高校根據各個行業的大數據分析,可準確評估出未來幾年社會需要的專業性人才方向,如數據采樣量大,完整,還能直接分析出各個專業的需求人數,從而更好地開設專業培養方向,適當調整專業招收人數,以免再現前幾年出現的入學時,專業很火爆,到學生畢業時,卻又人才過剩。
2.4分析決策
一切要拿事實說話,在做重大決策時候,我們更需要用事實,用數據來參考。在實際運用中,我們通過高校業務管理方面的專家,在不考慮數據結構化問題的前提下,將理念累積的管理知識整理,并轉化成數據知識,形成數據中心知識庫,再利用大數據技術,對數據進行收集、分類、抽取、清洗、轉換,提取出我們需要的數據,以新的組合形式儲存到數據倉庫中。在數據倉庫的基礎上,建立通用的和面向主題的分析平臺,實現從不同的維度進行統計分析,最終實現為不同層次決策者們提供數據支持。
2.5心理咨詢
互聯網移動應用的普及,學校論壇、微博公共平臺上每天都會產生主題,評論等數據,對這些數據進行科學的存儲分析,可從中分析出師生的思想情況、情感走向和行為動態,再利用這些行為動態,建立師生情感模型,便可以掌握師生的心理健康程度,有針對性地加強對師生的心理輔導。目前高校信息系統數據因早期規劃,數據平臺不一致等問題,普遍存在數據的質和量都不高,許多高校的數據僅停留在記錄保存上面,對數據很難分析和利用而想要充分利用大數據技術,提升高校的信息化水平,就必須要有保質保量的數據來源,這就要求高校業務必須和計算機技術緊密結合,并且需要不斷迭代更新,跟上技術發展的腳步。目前的情況來看,高校大數據應用還存在著一些問題,還需要進一步地修正和探索。
參考文獻:
[1]維克托邁爾舍恩伯格.大數據時代[M].杭州浙江人民出版社,2013
1大數據背景下中國當代文學的現狀
經數據研究表明,海量數據主要是通過云計算技術進行處理,該技術當前在當代文學研究中得到廣泛應用,比如中國知網,論文標題中包含有“大數據”字眼的數據明顯增加,2013年以前,數據變化并不十分明顯,在2013到2016年之間,論文數量高達10000篇,增長明顯。國務院對社會發展中大數據的應用予以重視,并堅持認為,在現代化發展中,大數據技術已經成為必然的選擇。大數據技術不僅給社會經濟發展帶來影響,同時也帶動了人文社會科學的研究,國外許多發達國家早已利用大數據技術進行文學研究,例如通過統計數據來對文學圖標進行繪制,從而揭示出文學秘密[2]。當前,中國許多學者也紛紛展開利用大數據技術來進行當代文學的研究,主要是通過兩個方面展開:第一,探討在大數據時代背景下當代文學的研究方法,在對文學作品進行閱讀和闡述時,人腦和電腦之間的合作性和交融性。第二,在大數據時代下各學科之間的研究關系分析。在2005年,《文學遺產》中指出,“在文學研究領域中應該借鑒社會學中先進的數據統計方法,比如開設統計學、電子信息等課程,在路徑研究、知識結構方法的設計中彌補學科欠缺之處[3]。計算機真正在社會普及之前,早已有相關文學研究者在對《紅樓夢》研究中通過大數據進行分析,對于《紅樓夢》小說前八十章與后四十章節的內容是否為同一人所寫提出有價值的問題,并通過數據加以論證,說明數據分析方法早在古代文學領域中進行了研究。而與此同時,利用大數據技術對語言學、文藝學及網絡文學等領域的學術研究已經成為術界的熱門話題。經過對中國知網的檢索發現,在大數據背景下關于中國當代文學研究和發展的論文數量仍然較少,從文章內容上來看,大部分僅對中國當代文學研究和大數據之間的一般問題進行討論,缺乏深入的研究。在中國當代文學研究中,研究方法和研究思維一直都具有創新性和先進性,學者們將西方新思想和理論在文學史研究中加以應用,但在大數據時代下,給當代文學的研究帶來了新的機遇和挑戰。
2大數據背景下中國當代文學的發展
2.1中國當代文學的數字化
大數據時代背景下,首要的是建立數據庫,目前我國在文學領域中的數據庫建設方面仍然較為落后,目前常用的數據庫包括中國知網、上海圖書館等,這些大型數據庫中所包含的專業與學科較為廣泛,對于古代文學專題研究數據較多,如《全唐詩》《四庫全書》等,但對與當代文學學科專業研究很少,因此對于當代文學數據庫的建設是必然的,也是必要的[4]。從當前已經建設的數據庫來說,僅僅是完成了從紙質圖書向圖像轉變的過程,可以根據關鍵詞搜索,但無法對全文進行檢索,僅僅完成了數字化的轉變。在谷歌服務器中,將文本數字化掃描,并存儲到高分辨率的圖像文件中,使紙質圖書內容轉變成數字文本,但這些數字文本并不能通過關鍵詞搜索查找,也就不能直接進行分析,只能通過人為閱讀的方式才能對信息進行轉化。隨著大數據技術的進一步發展,谷歌瀏覽器通過采用光學字符識別軟件,即可以對數字圖像進行在線識別,從而完成對數字圖像文件的數據化轉變。但就目前而言,當前中國許多數據庫仍然停留在數字化發展時期,并沒有深入地完成向數據化轉變的過程,進而對中國當代文學的研究帶來了深遠的影響[5]。
2.2大數據時代背景環境下中國當代文學新的發展路徑
在傳統數據下,主要是通過局部或是抽樣數據的方式來研究人文、社會及自然科學,憑借以往的經驗或是理論方法進行假想和推測,難以獲得實證數據,同時存在一定的滯后性[6]。大數據時代下,在文學研究領域中主要是通過對字頻或詞頻進行統計,通過搜索關鍵詞進行檢索和研究。例如在當代文學研究中,通過檢索“反封建”“新思想”“啟蒙運動”等關鍵詞,利用數據統計這些關鍵詞的使用頻率,從而分析出我國文學觀念演變的過程。例如在2013年,在研究文學和歷史之間的發展問題中,通過檢索“資產階級”“影響”等字詞的出現和使用頻率,利用大數據進行統計分析,從而體現出資產階級文學的更替和變遷。這種研究方式是一種復雜的文學史研究問題,即不僅是通過統計思想關鍵詞,另外還可以統計詩歌意象,或是文學意象等,分析出文學史實變化情況。“大數據+文學”是一種以別樣姿態發展的過程,人們在對當代文學中更應該看到文學本質屬性,以及在文學作品中所蘊含的文學精神,并以更豐富的思想面貌呈現出來,從精英化向大眾化意識形象進行轉變,給當代文學的生存和發展模式帶來多樣化的影響。例如在互聯網時代下,互聯網技術給人們的政治、文化與生活等都帶來了巨大的變化,知識分子從社會中心地位逐漸走向社會發展邊緣,給當代文學的創作方式也帶來了沖擊,逐漸向商業化、娛樂化等方向發展,如何能夠被消費者和市場所接受成為作家首要考慮的問題,呈現出嚴重商業化傾向[7]。其次,大數據技術和互聯網技術打破了空間和時間限制,網絡文學點擊量明顯增長,網絡文學作品的數量也隨之增加,和傳統文學作品相比較而言,雖然網絡文學帶來了新的突破,實現了創作自由化,文學創作空間得到拓展,文學承載方式不再是通過文字來進行描寫,也不僅是通過單一的流通渠道,網絡數據已經成為文學領域在運營中的重要環節,說明大數據作為一種新興力量,逐漸從文學外延向中心擴展,產生新的文學形態。而大數據背景的發展加快了網絡信息的傳播速度,目前網絡信息已經構成文學領域的重要維度,不再只是文學的一種傳播渠道,而成為當代文學活動中的重要組成。有學者認為,我國的當代文化已經逐漸從印刷文化改為視覺文化,海量的網絡數據在文化領域中以一種新的文學形態出現,大數據已經滲透當代文學的內部。
3結語
在大數據背景下,大數據技術、互聯網技術和中國的當代文學領域之間具有復雜的聯系,對中國當代文學的發展帶來了新的機遇和挑戰,使原有文化結構發生改變,推動了文學傳播,拓展了文學研究深度和廣度。總體而言,大數據技術已經成為當代文學的重要組成,大數據背景下所帶來的新的思維方法,給中國當代文學的發展帶來新的革命,在新環境下,未來必然是要對自身進行重構與發展,對原有的文學形態進行重新塑造。
云計算、物聯網和互聯網的快速發展,使得數據量以極快的速度增長,大數據成為研究熱點。大數據的價值產生于分析過程,所以大數據挖掘與分析是整個大數據處理流程的核心。本文介紹了大數據數據體量巨大、數據類型繁多、價值密度低、處理速度快的4V特征、以及基于這些特征的大數據挖掘與分析需要解決的關鍵技術。
關鍵詞:
大數據大數據分析大數據挖掘可視分析
隨著云計算、物聯網和互聯網等技術的快速發展,各種移動設備、傳感網絡、電商網站、社交網絡時時刻刻都在生成各種各樣類型的數據,大數據時代已經到來。大數據即數據體量巨大、數據類型多樣、數據的質量低、處理速度迅速的數據。大數據分析的核心是從大量數據中獲取有價值的內容,更準確、更深層次的知識,而不是對數據簡單的統計和分析。
1大數據的定義與特征
大數據已經進入了我們每個人的生活,各行各業都在討論如何發展和運用大數據,那么什么是大數據,大數據的特征是什么?大數據是指所涉及的數據規模巨大到無法通過目前主流的軟件工具在合理時間內擷取、管理、處理、挖掘這些數據,并整理成為企業經營決策有用的信息。IBM提出大數據的4V特征,得到了業界的廣泛認可。第一,數量(Volume),即數據巨大,從TB級別躍升到PB級別;第二,多樣性(Variety),即數據類型繁多,不僅包括傳統的格式化數據,還包含來自互聯網的大量視頻、圖片、位置和日志等;第三,速度(Velocity),即處理速度快;第四,價值性(Veracity),即追求高質量的數據。大數據具有4V特征,給人們帶來了新的機遇與挑戰。
2大數據挖掘與分析的意義
在大數據處理的過程中,數據分析是核心,因為大數據的價值全部在數據分析過程中產生。互聯網、硬件等技術迅猛發展,加深了人們對數據分析的需求。如果大數據是一種產業,賺錢的重點在于如何提高數據的分析能力,通過分析發現數據的更多潛在的價值。在大數據時代,數據分析是數據價值發現的最重要環節,也是決策的決定性元素。傳統的數據分析主要針對結構化數據,且已經形成一整套非常有效果的分析體系。但是在大數據時代,半結構化和非結構化數據量的快速增長,給傳統的分析技術帶來了巨大的挑戰和沖擊。大數據分析于傳統數據分析有哪些區別呢?
3大數據挖掘與分析的關鍵技術
大數據挖掘與分析的關鍵技術一般包括:大數據采集、大數據預處理、大數據存儲及管理、大數據實時處理、大數據可視化和應用等。
3.1大數據采集技術大數據采集一般分為大數據智能感知層和基礎支撐層。智能感知層重點攻克針對大數據源的智能識別、感知、適配、傳輸、接入等技術。基礎支撐層重點攻克提供大數據服務平臺所需的虛擬服務器、數據庫及物聯網絡資源等處理技術。
3.2大數據預處理大數據預處理是指在大數據挖掘前期對大數據進行的一些提前處理。預處理包括數據清理、數據集成、數據變換和數據歸約等幾種方法(表1)。大數據的特點是數據量大,但并沒有增加數據價值,相反增多了數據噪音,有很多數據放在存儲器里就沒再用過。數據量的突然增加,各種媒體數據被任意碎片化。在應對處理大數據的技術挑戰中,大數據的降噪與清洗技術值得高度重視。早期主要是結構化數據的挖掘,可從數據庫中發現時序知識、關聯知識和分類知識等。在大數據時代,數據庫已經不能滿足人們的需求了。大數據中數據類型繁多,我們進入了一個非結構化數據挖掘時代。因此,非結構化數據模型是大數據預處理的重要研究方向。
3.3大數據管理大數據不斷地從復雜的應用系統中產生,并且將會以更多、更復雜、更多樣化的方式持續增長。多樣化的物聯網傳感設備不斷地感知著海量的具有不同格式的數據。物聯網系統中大數據的復雜化和格式多樣化,決定了物聯網系統中針對大數據的應用場景和服務類型的多樣化,從而要求物聯網大數據管理系統必須采用特定技術來處理各種格式的大數據,而現在針對特定數據類型和業務的系統已經無法滿足多樣化需求,因此,設計新的具有可擴展性的系統架構已經成為大數據管理的研究熱點。
3.4大數據實時處理根據大數據速度快的特點,時間越長,數據的價值也在不斷衰減,因此很多領域需要對數據進行實時處理。大數據時代,伴隨著各種應用場景的數據分析從離線轉向了在線,實時處理的需求不斷提高。大數據的實時處理面臨著一些新的挑戰,主要體現在數據處理模式和算法的選擇及改進。
3.5大數據可視分析大數據可視分析是指在大數據自動挖掘的同時,融合計算機的計算能力和人的認知能力,利用人機交互技術和可視化界面,獲得大規模復雜數據集的分析能力。在大數據時代,大數據可視化是必須盡快解決的關鍵問題,為大數據服務的研究指明了方向。
4結語
傳統數據處理方法已經不能滿足大數據挖掘與分析的需求。近年來,大數據挖掘與分析領域已經出現了很多新技術,并成為大數據采集、存儲、處理和呈現的堅實基礎。但是對大數據分析的價值尚缺少深入的理解,大數據分析中的很多重要技術還不成熟,還有很多其他關鍵技術難題需要去繼續研究。
參考文獻
[1]韓晶.大數據服務若干關鍵技術研究[D].北京郵電大學博士學位論文,2013.
[2]程學旗,靳小龍,王元卓等.大數據系統和分析技術綜述[J].軟件學報,2014,25(09):1889-1908.
[3]任磊,杜一,馬帥等.大數據可視分析綜述[J].軟件學報,2014,25(09):1909-1936.
[4]McKinseyGlobalInstitute。Bigdata:Thenextfrontierforinnovation,competition,andproductivity[J],2011.
關鍵詞:科技期刊;媒體融合;知識服務;精準傳播
近年來,隨著計算機技術的進步,科技期刊出版正在經歷著前所未有的巨大變革。目前,信息技術已呈現出“人-機-物”三元融合的態勢,數據分析工具和基于云計算的數據資源成為期刊出版的重要特征[1],期刊出版的數字化和集群化發展成為當下期刊發展的主流趨勢,人工智能也將在學術期刊的出版、存取、質量評價等多個環節上得到廣泛應用,并推動科技期刊出版方式的變革[2]。目前,在科技期刊界,學者們就如何促進科技期刊媒體融合發展開展了大量的研究,既包括理論層面的探討,又包括從實踐和案例的角度開展的應用研究[3-6]。與此同時,我們注意到,全球的科學產出以極快的速度增長,從第二次世界大戰結束以來,全球的科學產出相當于每9年就會翻1番[7],讀者也更容易被無用的信息轟炸,難以在期刊論文的海洋中高效準確地找到自己需要的內容,科技期刊要想擴大自身的影響力也愈來愈難。信息爆炸時代,科技期刊關注讀者“需要什么”比“提供了什么”更重要。在智能技術變革的時展潮流中,科技期刊應如何順應時展趨勢,利用智能技術整合資源,更好地滿足讀者的需求,擴大期刊的影響力,創造科技期刊人、出版商、作者、讀者的共贏局面?本文從以上問題切入,嘗試從擴展學術搜索的路徑、構建個性化的精準推送平臺和多元化的傳播模式、向用戶提供有針對性的服務方面探索在媒體融合形勢下如何提升科技期刊的精準傳播能力,以期為我國科技期刊媒體融合建設增瓦添磚。
1借助人工智能,擴展學術搜索的路徑
互聯網時代改變了人們獲取信息的方式,搜索引擎在促進科技期刊的傳播、提高影響力等方面的功能逐漸凸顯。雖然現有的一些搜索門戶網站諸如Webofscience、PubMed、谷歌學術、各圖書館網站、中國知網、萬方數據知識服務平臺等搜索引擎可以幫助讀者檢索科技論文,但是仍不能滿足用戶多樣化的檢索需求。Tancheva等[8]針對康奈爾大學圖書館開展的一項調查研究發現受訪者“往往既對搜索方法的效率感到滿意,同時又對搜索的棘手和費力感到不滿……當研究人員無法完成一個特定的搜索任務,他們很可能放棄現有的方法(或工具或技術),而不是找出如何使它工作”。為了解決這一問題,需要開發新的模式解決學術出版的過量負載,利用智能技術優化搜索引擎的現有功能。目前很多科技公司都在探索開發基于人工智能的學術搜索引擎和知識服務。例如Springer網絡平臺不斷對其功能進行集成,并提供個性化服務功能;Elsevier等出版商為用戶等提供搜索引擎培訓課程;微軟學術(MicrosoftAcademic)通過在實體之間建立有意義的關聯,自動生成可視化的知識圖譜,引導學者閱讀[2];2014年,Wiley線上圖書館為用戶提供了增強型HTML文章服務(AnywhereArticle),它將可讀性、交互性和可移植性設為用戶體驗的核心,使讀者能夠在頁面中快速找到最重要的信息[9]。一些關于科學出版的新模式和平臺被相繼開發,如Chorus[10]通過集成服務和開放APIs,優化了科技論文被搜索的路徑,并為政府機構、出版商、研究人員、圖書館員和作者提供可持續的解決方案。目前我國已經形成一些專業的期刊集群,一部分學術期刊數據庫平臺也開始進行語義出版形式的探索,對科技期刊內容進行深度加工和挖掘。不同的科技期刊具有不同的特點,在學術期刊的數據庫平臺建設過程中需要平臺開發團隊與期刊編輯充分交流[11],發揮編輯的優勢和主導作用,凸顯本學科的學科特色。
2利用智能算法,構建個性化的精準推送平臺
技術是科技期刊創新發展的重要推手,技術應用能力也成為科技期刊發展的競爭資源,充分利用技術強化科技期刊的知識服務和加工能力,創新出版和傳播模式,滿足數字化時代的讀者需求,對于科技期刊的精準傳播和融合發展非常重要。在人工智能背景下,可以借助于算法實現科技期刊出版的智能化。算法的設計程序與設計者的思維密不可分,設計者選擇數據樣本、賦予數據意義、設計模型與算法,擁有數據并設定算法的智能化平臺具有很強的主導性[12],因此設計者需要盡可能考慮并消除算法偏見和利益沖突對精準傳播帶來的負面影響。日前,騰訊研究院和騰訊AILab聯合的人工智能倫理報告指出“人工智能等新技術需要價值引導,做到可用、可靠、可知、可控”[13]。目前“智能算法+學術期刊”已成為創新趨勢,學術期刊可構建信息數據基礎環境,進一步完成動態精準信息推薦,最后以傳受關系交互實現長期有效的黏性連接[14]。一方面可以通過算法整合資源,實現大量科技期刊的數字資源的聚合;另一方面可以通過算法分析用戶的閱讀興趣、研究領域,基于用戶的需求建立相關用戶數據信息,從而進一步將數字資源和用戶數據相匹配,實現科技期刊的智能化精準傳播。如中國知網推出的“CNKI全球學術快報”整合全球文獻和超星集團推出的“域出版”超星學習通學術平臺[15],用戶不僅可以在其App上進行文獻檢索、分版閱讀、專題閱讀等,還可以與作者進行互動交流。此外,還可以利用智能算法設計追蹤用戶的信息反饋,通過學術平臺進一步增加用戶的體驗感,提升科技期刊的精準傳播能力。
3創新知識加工,構建多元化的傳播模式
在人工智能和融媒體時代,除了運用智能技術構建個性化的知識服務平臺,科技期刊也需要充分發揮社交媒體的作用,通過加強期刊網站建設、建立App客戶端、微信、微博等新媒體傳播平臺,可以根據各自領域的特點,對科技論文進行多次加工和編輯,構建個性化的傳播方式。如論文編輯平臺Kudos為作者提供了一種利用社交媒體使他們的論文更易下載和傳播的工具,通過為作者已發表的文章創建介紹并添加簡短的標題、易懂的摘要和補充內容,可以使他們的文章對讀者更具吸引力[16],學術出版平臺也可以通過建立二維碼,為讀者提供開放增值服務,使讀者進一步了解論文的數據、圖片等資料,實現與用戶的精準對接。如中國煤炭行業知識服務平臺為該平臺上的每篇論文制作了二維碼,用戶閱讀紙刊論文時,通過掃描其中的二維碼可以免費下載PDF、HTML文件,此外讀者還可以通過掃描二維碼向作者提問或向責任編輯反饋意見[17]。目前,郵件推送也正在成為科技期刊提升精準傳播能力的一個重要手段,國內一些期刊在這方面做了大膽的嘗試。例如:《計算機工程》基于語義分析和智能分詞等技術,設計了一套期刊內容精準推送系統,將讀者—文章—標準關鍵詞進行匹配,通過郵件為潛在讀者推送與其研究方向相關的最新研究論文[18];《應用生態學報》通過運用大數據和數理統計方法,構建了科技期刊論文單篇推送客體指標體系,通過郵件對讀者進行單篇精準推送,取得了較好的傳播效果[19]。此外,利用音頻、視頻、科學可視化等多媒體技術可以在短時間內表達豐富的科學信息,增加科技論文的廣泛傳播。如虛擬現實/增強現實(VR/AR)為讀者提供沉浸式的閱讀環境,提升讀者的體驗感,從而吸引了更多讀者的關注。中國科學技術大學王國燕博士及其團隊開展的前沿科學可視化研究和設計,使科技論文通過圖像的形式向讀者展現,提高了科技論文的交流和傳播,她通過對頂級科技期刊《Nature》《Science》《Cell》的一項實證研究發現,科技期刊封面故事和封面圖像的使用可以提高論文的引用率[20]。《上海大學學報(自然科學版)》借助第三方AR展示平臺實現了學術期刊的多模式AR融合出版,取得了很好的效果[21]。
4滿足用戶需求,提供有針對性的服務