真人一对一直播,chinese极品人妻videos,青草社区,亚洲影院丰满少妇中文字幕无码

0
首頁 精品范文 社交媒體文本分析

社交媒體文本分析

時間:2023-07-11 17:37:18

開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇社交媒體文本分析,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。

社交媒體文本分析

第1篇

關鍵詞:金融學研究;文本大數據;數據挖掘;深度學習

在針對金融學領域進行實證研究時,傳統研究方法通常選擇結構化數據作為研究依據,常見類型如股票市場數據、財務報表等。大數據技術發展后,計算機技術逐漸成熟,在實證研究中可獲取更加多樣化的數據,非結構化文本大數據得到應用,例如:P2P網絡借貸文本、財經媒體報道、網絡搜索指數、上市公司披露文本、社交網絡文本等。本文探討了相關文本可讀性、相似性、語氣語調與語義特征等。

1.在金融學研究中文本大數據的挖掘方法

傳統研究方法通常采用人工閱讀方法對文本信息進行識別,因為文本數量龐大、信息構成復雜,人工識別效率較低,而且信息識別質量不穩定,信息識別效果受到閱讀者專業素養、理解能力等多方面因素影響。計算機技術發展后逐漸被應用于分析文本大數據,利用計算機技術獲取語料,對文本資料進行預處理、文本表示、抽取特征等操作。完成上述步驟后,在研究分析中使用文檔特征,從而開展深入分析[1]。在分析文本大數據時,主要采取如下流程:(1)從眾多信息來源中獲取語料,對語料文檔進行解析,明確文本定位,清洗數據,獲得文本分詞,標注詞性,將其中停用詞清除。(2)構建詞云、詞嵌入、詞袋模型與主題模型。(3)分析文本情緒、可讀性、相似性,分析語義關聯性。(4)監督機器學習、詞典語法處理[2]。

1.1獲取語料

獲取語料的方法主要分為兩種:(1)人工獲取;(2)利用網絡工具爬取或抓取。其中人工獲取語料投入成本較高,耗時較長,需要投入大量人力,因此網絡抓取的可行性相對較高[3]。網絡抓取方法可有效應對大量文本量,在一定程度上降低文本大數據獲取難度。在網絡抓取語料時,需要借助編程語言,通過直接抓取或爬取的方法獲取文本大數據。采用此種語料獲取模式具有兩方面顯著優勢,不僅獲取文本信息耗時較短,效率較高,而且可直接使用編程語言整理內容和規范形式,為后續文本分析工作奠定基礎[4]。

1.2預處理環節

獲取目標語料后,前期需要預處理文本,解析、定位文本,清洗數據,標注分詞與詞性,最后去除停用詞。金融市場通常要求企業采用PDF格式作為信息披露文檔格式,文本預處理中首先需要解析富格式文檔,獲取文檔信息。定位文本和清洗數據環節中,利用計算機程序定位文本信息[5]。在該類研究中,MD&A研究熱度較高,使用正則表達式進行財務報告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心內容結構外,還包括超文本標記語文、腳本語等代碼信息、圖片信息、廣告信息等,該類信息在文本分析中屬于噪聲內容,需要刪除和清洗相關信息,從文本中篩選有價值的核心內容[6]。文本分詞處理與文本語言密切相關。英文文本使用空格劃分單詞,即自然存在分詞形式,也可采取提取詞干、還原詞形等方法劃分單詞。中文文本中不使用空格分詞,根據中文語言習慣,詞語為最小語言單位,可獨立使用。基于此種背景,分析文本時需要專門分詞處理中文文本,例如:使用Python開源“jieba”中的中文分詞處理模塊處理文本,股票論壇帖子文本、年度業績說明會以及企業財務報告均可使用該類工具處理,完成分詞。在針對中文文本進行分詞處理時,其中實施難度較高的部分是識別新詞、歧義詞與控制切分顆粒度。在處理歧義詞時,需要科學選擇分詞方法,采用“jieba”針對文本進行分詞處理時,選擇分詞模式是否科學直接影響分詞精準度。分詞處理新詞時,需要用戶在相應模塊中自行添加新詞,完善自定義詞典,從而使分詞軟件識別新詞[7]。語義信息被識別的關鍵依據是詞性等語法特征,詞語切分后標記詞語詞性操作被稱為詞性標注。詞性標注操作可幫助計算機進行詞語種類識別,避免詞語歧義,對語法結構進行有效識別,從而促進計算機順利進行語義分析。詞性標注時,中英文操作方法不同,詞性劃分英文單詞要求比較嚴謹,利用詞尾變化反映詞性變化。在英文詞匯中,許多固定詞尾可提示詳細詞性信息。在處理中文詞語中,并無明確詞性指示,詞性識別依據主要為語法、語義等。簡言之,英文詞性識別標記注重形式,漢語詞性標記以語義為主。在處理文本信息時,需要將文本信息中停用詞去除,從而保證文本挖掘信息具有較高精度。所謂停用詞,即自身詞義表達有限,然而對于句子語法結構完整性而言非常重要的詞語。停用詞導致文本數據具有更繁瑣維度,導致分析文本的成本較高。英文中動詞、連詞、冠詞均為常見停用詞。中文處理方法比較復雜,必須結合語言習慣分析停用詞,不僅需要處理特殊符號、標點符號,還需要處理連詞、俚語。除此之外,應根據具體研究內容確定停用詞。在進行文本情緒研究時,特定標點符號、語氣詞等會影響文本表達的情感信息,對于此類信息需要予以保留,從而保證文本情感程度得到準確分析。

1.3文檔表示環節

文本數據為高維度數據,具有稀疏特點,使用計算機處理文本數據時難度較高,預處理實施后,必須通過特定方式表示文檔信息,通過此種處理降低后續計算機分析和人工研究難度。詞云、詞嵌入、詞袋模型、主題模型均為核心表示方法[8]。詞語技術具有可視化特點,是文本大數據技術之一。所謂本文可視化,即使用視覺符號顯示復雜內容,展示文本規律。根據生物特性,人們習慣于通過視覺獲取文本信息,實現文本可視化可提高信息提取效率。使用詞云技術可有效描述文本中詞匯使用頻率,采用醒目形式顯示高頻詞匯。詞袋模型的構建基礎是無嚴格語序要求的文字詞組存在[9],以此種假設為前提,文本相當于眾多詞語集合,采用向量化方法表達文本,在此過程中只計算各個詞語出現頻率。在詞袋模型中含有兩種構建方法:(1)獨熱表示法;(2)詞頻-逆文檔頻率法。前者的應用優勢是可行性較高,操作難度較低。例如:現有如下兩個文檔:(1)文檔一:“經濟學中文本大數據使用”;(2)文檔二:“金融學中文本大數據使用”。以文檔一、文檔二為基礎建設詞表,根據詞序實施詞袋化處理,確定詞袋向量。對于出現的詞,以“1”表示,未出現的詞以“0”表示。但是在實際操作中,不同詞語在文檔中出現頻率存在差異,通常文本中高頻詞數量較少,許多詞匯使用頻率較低。為體現文檔中不同詞語的作用,對單詞詞語賦予權重。TF-IDF是計算文檔定詞語權重的有效方法。含有詞語i文檔數描述為dfi,集合中文檔總量描述為N,逆文檔頻率描述為idfi,第j個文件中詞語i頻率描述為tfi,j,第j個文檔內詞語數量描述為aj,第i個文檔內詞語i權重描述為tf-idfi,j,則公式應表示為[10]其中,的前提條件是不低于1,0定義為其他情況。較之獨熱表示法,TF-IDF方法的特點是對每個單詞賦予不同權重。在賦予其權重的基本方法時文本中該詞匯出現頻率越高,其重要性越高,與此同時語料庫中該詞匯出現頻率越高,則其重要性相應降低。詞嵌入處理中,主要是在低緯度連續向量空間嵌入指定高維空間,該高維空間維數包括全部詞數量。在金融學領域中進行文本研究時,詞嵌入技術通常采用Word2vec技術,該技術中主要使用CBOW技術與Skip-Gram神經網絡模型,針對神經網絡進行訓練,促使其有效捕獲詞語中包含的上下文信息,對詞語進行向量化映射,得到的向量語義信息更加豐富,信息密度更大,信息維度更低。主題模型中應用頻率較高的是LDA模型,應用此種模型進行文本分析屬于無監督機器學習法,通過此種方法才能夠大量集中語料中提取主題信息。在應用該方法時,將生成文檔的過程分為兩步,首先假定各文檔具有對應主題,從這些主題中抽取一個主題,然后假定文檔具有對應詞匯,對比之前抽取的主題,從詞語中選取一個與主題對應的詞語。完成上述迭代后,將其與文檔中各詞語擬合,從而獲得各文檔主題、主題中詞語分布情況。LDA模型主要優勢是,與手動編碼相比,該模型性能更完善,可有效分類大規模文檔。該模型做出的文本主題分類支持復制,準確性較高,而采用人工手段分類文本時較易受到主觀性影響。此外,使用此種模型時,無需人工分類進行關鍵詞、規則設定。LDA模型的缺點是在主題預設個數時,受到研究者主觀因素影響,選擇主題個數的數量受此影響顯著,因此生成主題過程與歸類文本主題時較易受到相關影響。

1.4抽取文本特征的方法

文本特征是指文本可讀性、相似性、文本情緒以及語義關聯性。其中文本可讀性即讀者在閱讀文本時是否可較容易地理解文本信息。在編輯文本時應保證文本具有較高可讀性,保證投資者通過閱讀文本可有效理解文本信息,即確保文本對投資者投資行為產生積極影響。有研究者在文本分析中使用迷霧指數,該類研究認為,迷霧指數與年報可讀性呈負相關。年報文本字數、電子文檔規格也是影響年報可讀性的重要因素。在使用迷霧指數評價文本可讀性時,常見的問題是,隨機排序句子中詞語將導致文本難以理解,然而正常文本和經過隨機排序處理的文本在分析計算時,顯示相同迷霧指數。不僅如此,在進行商業文本測量時采用迷霧指數作為依據具有顯著缺陷,例如,當對企業披露信息進行可讀性分析時,難以有效劃分年報可讀性與該企業實際復雜性。基于此種背景,在針對年報文本可讀性進行評價時,需要結合企業業務復雜性等影響,提出非文本因素[11]。在提取文本情緒時,通常采用有監督機器學習法與詞典法進行提取操作。詞典法即在文本情緒、語氣語調研究中使用情緒詞典輔助分析。詞典確定后,該類研究即支持復制。不僅如此,建設詞典時還需要融合大量金融學專業知識,從而使詞典與金融文本分析需求一致。使用現有多種類詞典、文獻等分析媒體報道情緒,針對財務報告進行語氣語調分析,以及進行電話會議等進行語氣語調分析等。中文大數據分析時,通常是以英文詞典、詞庫等為模板,構建中文情緒詞典。使用該類詞典輔助分析股票成交量、收益率,評估股市崩盤風險高低。在詞典法應用中需要結合加權法進行文本情緒分析[12]。有監督機器學習法包括支持向量機、樸素貝葉斯等方法。采用此類方法時,重點環節在于對分類效果進行檢驗和評價。交叉驗證法是常見檢驗方法。有監督機器學習法的缺點是必須人工編碼設置訓練集,工作量較大,并且人工編碼較易受到主觀因素影響,分類效果魯棒性較差,并且研究難以復制。其優點是分類精確度較好。

2.文本大數據分析

大數據分析主要是進行財務報告等公司披露文本信息、搜索指數、社交網絡文本以及財經媒體報道等進行分析。通過文本挖掘從海量文本中抽取核心特征,分析其可行性、相似性、語義特征、語氣語調等,然后分析股票市場行為與文本特征等相關性。分析披露文本信息時,主要是利用文本信息對企業財務、經營、管理層長效經營信息等進行研究。在進行此類研究時,重點是分析文本可讀性、相似性,以及分析語氣語調。披露文本可讀性較高時,有利于投資者有效獲取公司信息,影響投資行為。迷霧指數理論認為,財務報告具有較高可讀性的企業通常具有更長久的利潤。此外,有研究者提出,財務報告可讀性直接影響盈余預測離散性和可靠性。財務報告可讀性較低時,公司為減輕此種消極影響,可采取自愿披露措施緩解消極影響。管理者通過控制財務報告可讀性可對投資者行為做出影響[13]。在針對企業發展情況和股票市場發展趨勢進行分析時,披露文本語氣語調具有重要參考價值。相關研究認為,MD&A語氣內含有增量信息,該類信息為企業長效經營能力進行預測,同時可根據該類信息分析企業破產風險。管理者情緒狀態可表現在電話會議語氣中,此種語氣分散情況與經營決策具有相關性,同時語氣對投資者感知、分析師評價產生影響。分析財經媒體報道時,主要關注媒體情緒,分析媒體報道著眼點,針對經濟政策進行分析,了解其不確定性,此外還需要研究媒體報道偏向信息、假新聞等。進行社交網絡文本研究時,主要是分析策略性信息披露情況與文本情緒。搜索指數研究方面,主要通過搜索指數了解投資者關注度。

結語

第2篇

我們都知道數據可以分為兩大類,一類是數字和符號這樣的結構化數據,另一類則是文本、圖像和音頻這樣的非結構化數據。如今,IT領域談到的“大數據”中,80%以上屬于非結構化的數據,而文本又是非結構化數據中最重要的部分。盡管現有技術對數字信息進行分析有相對成熟的方案,但如何高效地分析海量文本信息一直是業界的一道難題。

微軟亞洲研究院網絡圖形組主管研究員劉世霞博士告訴CHIP,之所以現有的文本挖掘技術不夠用,首先是因為目前技術尚處于研究階段,精準度不夠;其次是因為技術的靈活性不足,很難滿足不同人的需求。她和同組的副研究員崔為煒以及香港科技大學屈華民教授共同主導的TextFlow項目在破解這個難題方面提出了新的思路,他們將文本挖掘技術與可視化這種交互技術結合在一起,不僅突破了傳統靜態文本挖掘技術的限制,而且能讓人利用直觀的流式圖形迅速把握海量信息的發展脈絡。在國際最頂尖的信息可視化學術會議IEEE InfoVis 2011上,TextFlow論文的引發了業內人士的關注。有評委表示,“該論文的主要貢獻是在海量文本分析中引入主題合并和分裂的理念,這是分析主題演化時面臨的最大挑戰之一,從文本挖掘和可視化兩個角度來說都意義非凡。”

有趣的是,他們在論文中以自身最熟悉的領域——可視化研究作為其中一個案例,將2001年至2010年間發表在IEEE Vis和InfoVis兩個學術會議上的933篇論文作為文本數據集合,通過TextFlow模型得出了與實際學術發展潮流相當吻合的圖表,其結論令人信服。例如,整體上看,過去10年間Vis相關主題有日漸式微的趨勢,2006年之后各個主題獨立發展;InfoVis與之相反,整體的趨勢是上升的,主題之間的合并和分割非常多,說明該領域的研究更活躍。

他們是如何做到的呢?崔為煒向我們解釋了文本可視分析的步驟(如上圖所示)。首先,主要由機器來完成海量文本的收集和預處理工作。然后,利用自然語言分析中的概率模型HDP(Hierarchical Dirichlet Process)計算出文本所屬的主題(topic)。這里假設每個主題都是由一組關鍵詞來描述的,關鍵詞以不同的概率出現在不同的主題中,每篇文章自然也會以一定的概率屬于不同的主題(注:傳統聚類方法會認為每個文本只屬于一個主題)。劉世霞強調,HDP模型的優勢是可以自動確定文本中的主題數量,但是它只能計算出一組靜態文本數據的主題,無法進一步找出主題之間的關系。2010年的時候,他們成功改進了HDP模型,將這個語言模型擴展到能處理動態的文本數據流。簡單地說,就是跟蹤比較T1和T2兩個時刻文本內容的變化情況,由此來確定主題之間是否發生了合并或者分裂。文本分析的最后一步就是利用前面得出的主題演化結果,計算出其中的關鍵事件和關鍵詞,從而更好地展示事件發展的來龍去脈。

在談到TextFlow模型對于主題合并和分割判斷的準確率時,劉世霞表示目前還沒有一個固定的樣本集可供測試,但把多個領域的分析結果拿給相關領域專家查看時,他們都認為結果比較準確,可以達到滿足應用的水平。另外,我們還了解到TextFlow模型的主要算法本身與語言是無關的,中文與英文的區別主要在于海量文本預處理階段的分詞技術,這方面已經有成熟的技術可以完成。

William Ribarsky是北卡羅萊納州大學Charlotte可視化研究中心創始董事,非常關注微軟亞洲研究院在文本可視分析方面所做的工作,他在美國召開的一次學術會議的發言中提到劉世霞所做的交互式可視文本分析,并稱“這項成果令人刮目相看”。在撲面而來的大數據時代,相信未來利用TextFlow模型可以做許多幫助企業提升生產效率的事情。崔為煒向我們演示的案例中既包括對歷史新聞事件的回放,也包括跟蹤社交媒體的數據預測即將發生的新聞事件。由此引申開來,所有之前難以度量的文本數據或許都能迎來一次重生的機會。在信息時代,誰能把握住信息的脈搏,誰就能更好地把握住時代的脈搏。

文章開頭虛構的面試題,大家找到答案了嗎?

聲音

我們應該把文本挖掘技術和可視化這種交互技術結合在一起,讓人去做人擅長的事情,機器去做機器擅長的事情。機器擅長做什么呢?機器比較擅長去存儲,做大數據量的運算,而人有分析的能力。因此,我們的工作主要就是把人的智能和機器的計算能力結合在一起。

——劉世霞

微軟亞洲研究院網絡圖形組主管研究員

通過對海量新聞的集合進行數據挖掘,可以知道大概發生了什么事件,但我們利用文本可視分析還可以在此基礎上得出這些事件之間的關系,從而幫助人們更準確地把握信息的脈搏。

第3篇

本文將首先討論非結構數據處理流程涉及到的主要算法和技術,并在最后列出非結構化處理在典型行業的一些實際應用案例。

一 非結構化數據處理流程

非結構化處理流程主要以網頁處理為例來闡述,包括三個階段,分別是信息采集、網頁預處理和網頁分類。

信息采集是將非結構化的信息從大量的網頁中抽取出來保存到結構化的數據庫中的過程;網頁預處理主要是進行一些數據清洗的工作,保證分類質量;網頁分類工作則是通過數據挖掘算法訓練出來的分類模型,對分類數據進行分類提煉,得出有價值的信息。

信息采集

信息采集面對的是特定的專業人群,其采集的信息只限定于特定的主題和相關的領域,出于對性能和成本的考慮其不必也不可能對整個互聯網進行遍歷,因此主題信息采集中通常需要研究以何種方式預測鏈接指向的頁面與主題的相關性,并判斷其是否值得訪問;需要研究以何種爬行策略訪問Web,以在盡可能多地采集到主題相關頁面的同時盡可能少地采集到主題無關的頁面。

信息采集的基本方法是通過預先設定的種子鏈接集,利用HTrP協議訪問并下載頁面,在用各種分析算法分析頁面與主題的相關性之后提取出待訪問的鏈接,預測鏈接指向主題相關頁面的可能性,再以各種不同的爬行策略循環迭代地訪問網頁。

信息采集根據基于主題的不同可分為以下兩類:一類是基于內容的主題信息采集:它需要建立一個針對主題的詞表。另一類是基于超鏈接的主題信息采集:它是基于網頁之間的引用關系,類似Page rank算法。

網頁預處理

網頁預處理部分本文主要介紹一下網頁去重,網頁去重可以歸為兩類:一類是基于URL的對比去重,它適用哈希算法;另一類是基于內容的對比去重,它適用基于信息指紋的文本相似度算法。

網頁去重需要先對文檔對象的特征抽取,需要將文檔內容分解,由若干組成文檔的特征集合表示,該步驟主要是為了方便特征比較計算相似度。之后需要針對特征的壓縮編碼,主要通過哈希編碼等文本向數字串映射方式以方便后續的特征存儲以及特征比較,起到減少存儲空間,加快比較速度的作用。最后需要進行文檔的相似度計算,這一步需要根據文檔特征重合比例來確定是否重復文檔。一般是對網頁提取一個信息特征,通常是一組詞,或者是詞加權重,調用特定的算法,轉化為一組代碼,也被稱為指紋。若兩個頁面有相當數量的相同指紋,那么可以認為這兩個頁面內容重復性很高。

網頁分類

分類問題是人類所面臨的一個非常重要且具有普遍意義的問題。將事物正確地分類,有助于人們認識世界,使雜亂無章的現實世界變得有條理。自動文本分類就是對大量的自然語言文本按照一定的主題類別進行自動分類,它是自然語言處理的一個十分重要的問題。文本分類主要應用于信息檢索,機器翻譯,自動文摘,信息過濾,郵件分類等任務。文本分類的一個關鍵問題是特征詞的選擇問題及其權重分配。

在搜索引擎中,文本分類主要有以下用途:相關性排序會根據不同的網頁類型做相應的排序規則;根據網頁是索引頁面還是信息頁面,下載調度時會做不同的調度策略;在做頁面信息抽取的時候,會根據頁面分類的結果做不同的抽取策略;在做檢索意圖識別的時候,會根據用戶所點擊的URL所屬的類別來推斷檢索串的類別等等。

網頁分類方法有SVM分類方法和樸素貝葉斯方法:其中比較推薦的是SVM分類方法,Vapnik等人在多年研究統計學習理論基礎上對線性分類器提出了另一種設計最佳準則。其原理也從線性可分說起,然后擴展到線性不可分的情況。甚至擴展到使用非線性函數中去,這種分類器被稱為支持向量機(SupportVector Machine,簡稱SVM)。支持向量機的提出有很深的理論背景。支持向量機方法是在近年來提出的一種新方法。

典型的SVM分類有兩種,一種是針對線性可分情況進行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能;另一種是基于結構風險最小化理論之上在特征空間中建構最優分割超平面,使得學習器得到全局最優化,并且在整個樣本空間的期望風險以某個概率滿足一定上界。

典型的樸素貝葉斯分類,它可以分為模型訓練、模型分類和分類結果評估三個階段:模型訓練階段,主要計算訓練集下所有類別的先驗概率,以及所有特征詞在每一個類別下的條件概率;模型分類階段,對訓練集建立模型;對每個待分類文檔計算后驗概率,后驗概率大的類別為文檔所屬類;分類結果評估階段:對分類結果進行抽樣、人工檢驗。分別計算出每個類別分類的查準率和查全率,通過F―度量公式評估模型準確度。

二 自然語言處理的典型方法與應用

自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。研究能實現人與計算機之間用自然語言進行有效通信的理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。

自然語言處理部分主要以輿情分析為例,輿情分析系統的數據來源有三個渠道,一是網絡上公開的信息,如各大交易所每日評論,社交網絡各方觀點和財經門戶網站。二是從合作方獲取的信息,如交易信息等。三是微博、人人網等社交網絡信息。

網頁信息摘要

網頁信息摘要需要將同一主題下的多個文本描述的主要信息,按壓縮比提煉出一個文本的自然語言處理技術。對于互聯網上海量的期貨分析報道,如果能從中提煉出一個覆蓋性強、形式簡潔的摘要將具有重要的意義。

如何收集企業的戰略信息?面對海量信息,一個研究員需要花費4個小時閱讀相關信息。借助語義引擎,把50篇文獻縮略成10余條概要,面對概要信息,一個研究員需要花費3分鐘閱讀相關信息,并形成思考。借助文字情緒引擎,把概要內容指數化、知識化,面對指數信息,一個研究員需要花費2秒鐘閱讀相關信息,并獲得決策支持所需的知識。

熱點事件預測

熱點事件的發現與預測的算法有很多,最行之有效的方法是做大規模的邏輯回歸。在大數據的背景下,我們拿到的數據是全量并非抽樣,這使得類似邏輯回歸等簡單算法起到事半功倍的效果。通過歷史事件傳播數據,提取向量,并做邏輯回歸出規則,就可以做很多預測。例如美國大選,疾病傳播,甚至預測死亡。

維克托?邁爾-舍恩伯格寫的《大數據時代》一書中就有這么幾個關于熱點事件預測的案例:

案例一:華爾街“德溫特資本市場”公司首席執行官保羅霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進而判斷民眾情緒,再以“1”到“50”進行打分。根據打分結果,霍廷再決定如何處理手中數以百萬美元計的股票。他的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。這一招收效顯著――當年第一季度,霍延的公司獲得了7%的收益率。

案例二:美國一個超市將女性顧客中的孕婦視作購物的黃金消費者。為了將這部分目標人群在懷孕前就爭取過來,該超市通過調查羅列出幾十種購物偏好,當某位顧客的收銀條上集中呈現這類商品時,就會被認定為可能是孕婦或家中有孕婦,超市隨后向其發送孕婦產品廣告。一次,當有人以“家中并無孕婦卻總是收到相關產品廣告”為由控告這家超市后,卻發現原來是自己還在上高中的女兒懷孕了。

案例三:2009年甲型H1N1流感病毒出現,在沒有疫苗的情況下,公共衛生專家能做的只是減慢傳播速度,要做到這一點,專家必須先知道流感出現在哪里,這只能依靠各地醫生發現并告知疾控中心,信息肯定是滯后的。可是,Google的工程師們比疾控專家更早地判斷出流感從哪里傳播出來,他們依靠的就是Google所掌握的大數據。

歷史相似事件可使用文檔相似度比較。文檔相似度比較算法首先采用TF-IDF方法把文檔建模為詞頻向量,然后使用向量距離計算算法求得。常用的距離計算方法如:Jaccard距離、歐式距離、余弦相似度等。

情感分析

正負情感度量化統計分析一般用于分析金融機構和大眾對期貨產品的態度、情感和觀點傾向,對行情走勢往往具有十分重要的意義。通過對收集來的信息進行情感度分析后,可以統計出社會輿論對期貨未來走勢的觀點傾向度。通過計算歷史輿論觀點與走勢的相關度可以驗證情感度分析模型的有效性。

情感詞監測模塊是通過對金融期貨網站定時采集更新,對輿論話題進行連續監控,提取熱點關鍵詞,實現熱點信息的實時發現。通過搜索引擎抓取情感關鍵詞熱度,計算關鍵詞與趨勢相關性。

主題詞表的優劣在相當程度上影響了系統后續的信息采集內容和效果。首先,由領域專家給出相關領域的權威網站作為基礎語料來源,通過對權威網站網頁內容的整站抓取獲得領域語料資源。之后對語料資源進行中文切分詞和詞頻統計,獲得一張高頻詞表。再由領域專家對高頻詞表中的高頻詞匯進行整理,人工選取出與領域相關的詞語。然后,對從高頻詞表中選取出的領域主題詞進行上位詞(花是鮮花的上位詞,植物是花的上位詞)、下位詞、同義詞、近義詞擴展,去除重復詞匯,從而最終形成相關領域的主題詞表。在信息采集系統后續的采集中還將不斷收集相關領域的新詞匯,在發現領域新詞后加入到領域主題詞表中,形成系統性的反饋機制,從而不斷對主題詞表進行更新維護。

正負情感度量化統計分析是從抓取的文章中進行情感度分析打分,分數范圍為不等。負數越大表示負面觀點強度越強,正數越大表示正面觀點強度越強,0表示持有中立態度;通過情感度分析可以統計出一段時間內社會輿論對于某個話題的正負面態度,輿論壓力往往可以導致市場波動。

情感詞檢測通過對金融期貨網站定時采集更新,對輿論話題進行連續監控,提取熱點關鍵詞,出現頻率較高的詞語作為熱點信息詞,實現金融熱點的實時發現。

趨勢分析和預測

根據交易的價格曲線走勢,與綜合指數對比,使輿論指數趨勢體現與交易價格曲線的相關性和一定的前瞻性。通過構建時間序列模型,對未來走勢進行預測,如圖1所示。綜合指數包括各個相關因素的變化趨勢(天氣因素等)以及輿論指數。

三 行業應用案例

數據挖掘和自然語言處理的應用范圍廣泛,其中也不乏一些有意思的案例,它可能應用于運營商、銀行、傳統企業和券商,挑選幾個具有代表性的案例與大家分享。

電信行業

某城市電信運營商的上網日志分析系統,該系統通過收集用戶上網日志歷史記錄數據,分析出每個用戶的偏好。首先該系統通過并行統計清洗出每個人有效歷史上網日志URL;然后從日志URL中抓取網頁內容,提取正文,并通過文本分類算法計算分類;最后通過統計出每個用戶上網關注類別總數,分析出每個用戶的偏好。

金融行業

某大型股份制商業銀行供應商風險評估系統,該系統通過抓取供應商內部數據,如企業年報、公司變動、領導情況、財務狀況等數據,分析公司運營指數;通過計算各供應商社交數據,對其社會影響力做評估;通過同行之間的數據分析對比,對供應商進行實力評估。這些數據指數可以有效協助商業銀行進行供應商風險評估。

地產行業

某房地產企業的社會化品牌實時營銷系統,該系統通過社交媒體(微信、微博等)數據,進行網絡口碑監測,負面情緒被及時發現并制止;通過與客戶進行互動,爭取客戶忠誠度;通過監控同行及競爭對手的各方面資訊,量化評估競爭態勢;快速提升品牌知曉度和美譽度,將媒體影響力轉換為客戶量,縮短人氣聚集周期。

證券行業

第4篇

【關鍵詞】移動互聯網 運營模式 澎湃新聞 今日頭條

作為上海報業集團改革后問世的第一個新媒體成果,澎湃新聞自2014年推出以來,其網站、微博、微信公眾平臺及新聞客戶端等多款新媒體產品共同推進,作為傳統媒體數字化轉型的樣本,澎湃新聞的多媒體融合及數字化發展模式具有一定的研究意義。

今日頭條則是完全脫胎于互聯網環境、基于數據挖掘技術的新媒體產品,以移動客戶端為主打產品。自2012年8月上線至2015年12月以來,今日頭條已吸納用戶超過3.5億,且在2014年6月獲得1億美元的C輪融資,并仍保持每天超過3500萬的用戶增長速度。這一基于數據挖掘技術和數據算法來完成的新媒體項目,對媒介融合和新媒體的創新發展也具有可研究價值。

一、平臺:多渠道并進與專注APP的差異

(一)多渠道并進的澎湃新聞格局

媒介渠道是新聞信息流動的通路,合理有效的媒介布局是信息有效傳播的基礎。①向社交媒體平臺延伸已成為傳統媒體應對移動互聯網時代的挑戰、尋求生存渠道必不可少的轉型方式之一。具備多元化傳播渠道的澎湃新聞,不僅注重多平臺內容傳播,也重視不同平臺間的關聯性。基于網絡端與移動端的使用差異,其界面設計和部分細節功能上也有所差異,而且相較于網站或WAP網頁版的運作,澎湃新聞更重視對移動客戶端的推廣,例如其網站首頁右側頂端吸引用戶的位置展示對移動端的推廣信息,首頁右側則放置了微信二維碼提醒用戶掃碼下載客戶端。這種推廣趨勢意在表明,移動客戶端在未來將會成為澎湃新聞的主要推廣平臺,也是其未來應對移動互聯網發展進行多媒體轉型的主要渠道。但重視推廣移動客戶端的同時,與同類新聞客戶端相似,澎湃新聞也在客戶端的文章結尾處提供了微博、微信等社交媒體的分享按鈕,以期以此形成信息的多平臺、多層次傳播。

盡管如此,澎湃新聞以移動客戶端為主要新媒介傳播平臺的渠道戰略趨勢仍較為明確,例如在其新浪微博和騰訊微博的每條博文中,都附有下載移動客戶端的超鏈接,其官方微信賬號的菜單欄設置有“下載APP”的按鈕,且每篇推送文章結尾處也都提示讀者通過“閱讀原文”下載移動客戶端。值得注意的是,除了澎湃新聞的官方微信之外,其運營團隊還推出了包括“市政廳”等與其新聞客戶端的子欄目同名的微信公眾號,并分屬給各自的內容團隊運營,從而形成多平臺緊密聯系又各有專攻的渠道運作結構。

(二)以客戶端為主的今日頭條數據挖掘者

今日頭條平臺最大的特點在于它以自己的客戶端為連接點,鏈接各大新聞門戶網站的熱門新聞,使其以新聞聚合工具的身份出現在媒介市場和公眾視野。根據其對自身“基于數據挖掘的推薦引擎產品”而非新聞客戶端的定位,今日頭條得以運營、推廣和盈利的基礎是技術。如何實現網絡媒體資源的再利用和再傳播是今日頭條的關注焦點。作為新聞聚合類應用,今日頭條的算法模式與美國Prismatic公司有相似之處,即“收集網上資源并排序,這種排序建立在文本分析、用戶喜好、社交網絡普及和大數據分析的基礎之上。”②這與其公司屬性有關:雖然今日頭條是新聞類產品,但其公司六成員工為技術開發人員,使該產品可以根據算法技術對用戶偏好進行較為精準的分析與判斷,并通過智能推薦方式,根據用戶對推送設置的偏好,向用戶實時推送信息。

同時,作為一款社交媒體,今日頭條并不局限于重點打造的客戶端平臺,與澎湃新聞的多媒體關聯運作方式相似,今日頭條的客戶端也通過分享功能將其與自身的微信、微博等其他社交媒體平臺相關聯,為用戶收藏、分享或轉發新聞資訊提供可能。這一方面使用戶成為今日頭條資訊的二次傳播者;另一方面,通過用戶自發傳播的方式,今日頭條也通過其他社交媒體平臺再次推廣了自己的移動客戶端。

二、內容:側重時政與海量信息的差異

(一)專注時政與思想的澎湃新聞

澎湃新聞的定位是“專注時政與思想的互聯網平臺”,以此定位為基礎,“內容原創”成為澎湃新聞致力發展的目標和方向,同時也是其重點打造的核心競爭力。憑借上海報業集團的新聞品牌和公信力優勢,澎湃新聞采集并匯聚大量原創報道,突出內容的獨特性和不可替代性。而且澎湃新聞的采編隊伍依托其傳統媒體――《東方早報》,在內容采編觀念上與傳統媒體“內容為王”的核心理念相契合,使其能夠利用并強化基于紙媒基礎發展起來的深度報道特長,將內容集中在“時事、財經、思想、生活”四個方面,以時政新聞報道為主。同時,澎湃新聞并不拘泥于單一的新聞報道角度,而是多視角、多方面地報道同類新聞。

此外,澎湃新聞還推出“問吧”欄目,以此來匯集互聯網的海量、碎片化的優秀原創內容,從而實現內容生產的規模化。這種富有針對性的內容生產方式,加之其傳統紙媒的內容生產基礎,使其在新媒體產品的界面設計上也繼承了傳統紙質媒體的特點:簡潔、干凈。以其移動客戶端為例,首頁為重大時政或財經事件的圖片新聞,每則新聞的布局為上圖下文,且文字不超過兩行,一目了然。界面左側的下拉菜單為不同欄目的菜單欄,右側的下拉菜單則是為用戶提供了可定制的新聞選擇項目,用戶也可以根據自己的偏好設置該移動客戶端界面,但并不會對該客戶端界面的基本布局和設計做出較大改觀。

第5篇

關鍵詞:在線產品評論;文本評論;文本挖掘技術

基金項目:教育部人文社會科學研究青年基金項目:“網頁中產品屬性文本信息對消費者購買決策的影響機制研究”(編號:14YJC630204)

中圖分類號:F724.6 文獻標識碼:A

收錄日期:2015年5月31日

網絡購物用戶在網上購物時很多人都會瀏覽參考其他人對商品的評論信息,并且在購物后進行在線評論。2006年開始對在線產品評論的研究不斷增多(李恒,2015)。由于該研究主題涉及信息系統、電子商務、消費者行為、圖書與情報科學等多個不同領域的交叉,相關研究文獻較難得到系統性的整理。本文擬從在線評論的特征、作用、分析技術這三個方面對這些文獻進行梳理。值得注意的是,由于文獻涉及范圍過于廣泛,為了使本文綜述主題聚焦,文中關于在線評論的文獻僅局限于商家購物網站的購買者評論,也稱為在線產品評論。其他在線評論或者在線口碑形式不在討論之列,比如第三方平臺的評論(影評、試乘試駕評論、點評網站評論等)、社交媒體中的產品或企業評論(各類口碑、輿情、內容營銷及互動等)。

一、在線產品評論特征

李恒(2015)把消費者的在線評論特征總結為分屬于評論星級和文本評論兩種形式下的12種維度。其中,評論星級指的是購買者對該次購物的總體評價。這種形式中沒有分出更多的維度,因此評論星級就是一個維度。在文本評論這一形式中,有評論標題、評論內容一般特性、評論內容的語義特征、評論內容的時間特性這四類。在這四類中分別包含了評論標題、評論質量、評論數量、評論長度、評論差異性、評論效價、評論類型、評論可讀性、評論強度、評論及時性、評論時效性等11個維度。這12個維度具體的隸屬關系以及其研究焦點屬性本文將其整理至表1中。接下來本文針對表1中的各種在線評論特征維度和其研究焦點屬性逐一進行解釋。(表1)

評論星級指的是購買者對該次購物的總體評價。這種形式中沒有分出更多的維度,因此評論星級就是一個維度。通常的研究焦點在于評論星級的極端性與中立性的作用。以大部分購物網站采用的五星評分制度為例,評論星級的極端性即一星為代表的極端負面評價與五星為代表的極端正面評價,而三星反映中立態度。

接下來的文本評論中包含了網購用戶有文字留言內容的評論中的各種特性的研究維度。大略可以分為文本評論標題和文本評論內容兩類,文本評論標題是評論者對評論內容的文本概括,在除了在線產品評論以外的在線評論中比較常見。通過評論者自擬的標題使瀏覽者容易從標題的關鍵詞以及總體情感傾向中搜索以及快速知曉評論整體內容,但是在購物網站的用戶評論中設置標題的并不多,比如國內的淘寶、京東等購物網站的用戶評論中均沒有設置文本評論的標題。因此,本文中不再贅述。文本評論內容就是網購用戶用文字留下的購買感受的評價內容,李恒(2015)將其特性分為一般特性、語義特征和時間特性三類。本文在介紹完表1這些特征之后,再對其中未包含的一些特征進行補充。

評論內容的一般特性包括評論的質量、數量、長度和差異性。其中,數量和長度比較好理解,就是該產品下購買者的累計評論的總數和評論的文字字數長度,其研究屬性也是總數和字數長度的計量值。評論質量特性借鑒了霍夫蘭德的說服模型中信息內容對說服效果的影響作用,強調了在線產品評論作為消費者用來參考購買的有用信息,信息的瀏覽者對于產品評論信息的真實性、可靠性、內容與其所評價的產品的相關性以及是否為后續購買者提供了大量有用的信息這幾個方面的主觀感知(郭國慶,2010;李宏,2011)。其研究屬性也基本圍繞這幾個有關信息質量評價的主觀因子展開。評論差異性,即評論離散度,能顯示不同評論中購買者態度或觀點上的分歧程度。其研究屬性通常采用評論者對網絡平臺設置的評分項打分的方差或標準差來度量。

評論內容的語義特征包括評論的效價、類型、可讀性和強度,這些特性都與文字評論的文本內容的表達有關。簡單來說,效價代表了文本內容的詞語描述中總體體現出來的情感傾向,其研究屬性有正面、負面和中立(或綜合)之分;類型代表了文本詞語中對產品屬性及其體驗的描述是客觀還是主觀之分;可讀性代表了評論文本詞語中每個評論者其自身帶有的語言習慣表達、拼寫、詞匯選擇、句長句式語法等是否容易讓瀏覽閱讀的人理解,因此其研究屬性也是瀏覽評論者的一種主觀性的感知(Korfiati,2012);強度代表了評論文本詞語措辭中表現出的情感態度的強烈程度,其研究屬性主要集中于瀏覽者對負面口碑中負面情緒強度的感知程度(黎小林,2007)。

評論內容的時間特性包括及時性和時效性,這兩條特性與評論的時間信息有關。評論及時性代表評論時間與購買時間的間隔遠近,研究屬性是評論發表的天數,但是究竟天數長好還是短更好可能并不是簡單的線性關系,因此到底是否及時的判斷也就比較模糊了;而時效性代表評論時間與現在(瀏覽時間)間隔遠近,以及是否在最近有頻率較高的密集評論,這反映了該產品的近期火熱與流行程度,研究屬性是評論瀏覽者對時效性強與弱的主觀評價(劉逶迤、逯萬輝,2010;郭國慶等,2010;龔思蘭等,2013)。

其他表1中未提及的較為重要的特性還有評論者特征等等。評論者的特征包括評論者是否匿名(身份知否披露)、評論者的專業性、評論者的聲譽、排名等等(Racherla P,Friske W,2012;Hyunmi et al.2012)。這個部分我們只是將這些現有研究中涵蓋的特征進行了簡單歸類和羅列,其中有些特征在技術、功能和研究范式發展過程中會出現不同程度的交叉重疊和所屬類別上的變化,在后文中會有所提及。

二、在線產品評論作用

以上談到的是在線產品評論的特征,對于在線產品評論的功能研究者們也有所探討。在線評論的功能一方面包含有大量產品屬性、使用價值方面的描述信息可以給潛在購買者信息上的借鑒,幫助他們降低不確定性風險;另一方面評論中含有大量購買的情感體驗和表達信息,對商品有強大的推薦作用,大量比較集中的正面或者負面評論會引起潛在購買者的從眾行為,影響他們購買或者不購買的最終決定。遵從這些意見購買產品(Park DH,et al.2007;Duan W J,et al.2008)。關于評論功能的衡量焦點主要集中在評論信息質量(評論有用性),評論可信度和消費者態度形成與改變以及具體的銷量數據等。

Mudambi和Schuff(2010)從信息經濟學中信息的診斷性角度定義了評論信息質量。早期的評論信息質量的評價并不局限于文本評論,但隨著研究者對評論內容特征的關注,評論質量越來越多用來反映文本評論內容對瀏覽者的信息參考價值。正如上文中提到對于文本評論而言評論質量包含真實性、可靠性、相關性、有用性四個方面。借鑒技術接受模型TAM中人們接收新技術會受到對新技術感知有用性的影響這一思路,評論質量中關于評論有用性的評價指標更加受到重視,并成為判斷評價信息功能的主要研究變量。早期的評論有用性研究將評論星級及評論長度作為評論有用性的衡量指標,其好處是指標簡單,易量化。后期產品評論研究的重點轉向文本內容認知,對于文本內容有用性的劃分采用了評論長度和可讀性兩個維度來衡量,有的研究中也將評論有用性定義為評論感知價值(Schindler&Bickart,2012)。由于當前對文本內容分析的方法是基于文本語義屬性的挖掘方法,對于在線產品評論相關特征的數據采集和統計大都是通過網絡信息搜索軟件實現,因此目前評論有用性的衡量通常是用網站中評論有用性的排名數據統計來替代。但是并不是所有購物網站的評論系統中都會設置評論是否有用這一瀏覽者打分機制,并且受到文化的影響,即便網站設置了這一功能,國內的消費者也沒有去給評論打分的習慣。因此這種衡量方式的有效性也一直受到爭議。

研究中與評論有用性常常共同出現的一個衡量評論的功能的變量就是評論的可信度。由于在交流有關研究領域發現可信度與勸說性之間的強相關,可信度被用來作為評論信息是否對潛在消費者態度以及行為有強的勸說性的衡量指標。從信息傳播的角度來說,信息源、消息和接受者是信息評價的3個主要的信息元素。因此相比于有用性,在線評論的可信度更強調從評論強度、信息源的可信度、評論間的一致性、評論累積排名等維度來度量,從已有的研究文獻來看,其中又主要側重于對信息源可信度的判斷,也就是對評論者的可信度的判斷(Cheung等,2009)。Lis(2013)將信息源的專業度和值得信任程度作為信息源可信度的衡量標準和評論排名一起作為評論可信度的決定因素,其中值得信任程度中包含評論內容的質量、與其他評論的一致性以及其他消費者對評論的認可這幾個方面。因此,評論可信度與評論有用性是有交叉又各有側重的兩個研究變量。研究者會根據研究方法以及目標選擇其中合適的變量作為對評論功能的衡量。不過由于目前側重于文本評論數據挖掘的研究方法所限,還是以有用性的排名統計作為評論價值功能的衡量更多見。

其他還有一些研究變量,比如將瀏覽者看完評論信息以后持有的態度作為衡量評論功能實現的衡量指標,比如對產品的購買意愿、感知的產品質量、滿意度、忠誠度等(Reyes A & Rosso P,2012;Chang & Yen,2013),以及直接用企業經營數據,比如產品的銷量、企業收入、公司股價來作為評論的作用,不過后兩者多用于第三方評論或者公眾輿論有關的評論效果研究中,與在線產品評論有關的經營數據最主要的還是被評論產品的銷量數據(Sonnier等,2011)。

三、在線產品評論分析技術

在線評論信息挖掘研究集中在信息系統、電子商務管理科學等領域。近幾年,在線評論信息挖掘日益成為在線產品評論研究的熱點,由于文本挖掘技術的研究進展還處于不太成熟的階段,各領域中計算機科學和信息科學領域對文本挖掘技術的研究居多。文本挖掘技術和自然語言處理等技術現在已經能對半結構化和非結構化數據進行挖掘,在線評論的表現形式為數量眾多且非結構化的文本,但是如何提高對在線評論的挖掘精確度也一直是技術研究領域關注的焦點。目前,在挖掘技術上的研究集中于信息抽取、情感分析和文本分類這三類主流研究方法。信息抽取是情感分析的基礎,同時信息抽取和情感分析又是文本分類的基礎。信息抽取主要是通過對評論中描述產品性能或功能的名詞或短語進行關鍵詞的抽取,情感分析是通過語義分析對評論中需要聯系上下文才能理解評論者表達效價進行情感傾向的判斷,挖掘出的信息結果包括抽取的主題特征 (價格、質量、外觀等)、情感傾向 (正面、中立、負面)、文本類別(主題和情感類別)。以情感分析為例,當前所廣泛采用的文本語義屬性分析的挖掘方法是不夠成熟的,無論是詞語極性推測法、點互信息法、抽取主觀表達式法還是構造情感詞典法,都是基于文本內容字面信息的加工和處理,而文本內容所包含的潛在信息卻是無法挖掘的,如說話人的語言風格所反映出的評論人所屬的用戶群體或專業程度等,因此僅從字面來進行情感傾向的判斷存在一定的不精確性。

但是也有越來越多的學者在信息抽取和文本挖掘的基礎上從實證研究角度對在線評論的有用性、對消費者態度以及商家銷量的影響等進行研究。有學者利用主題特征信息抽取技術從在線評論中抽取產品特征和主題信息,并以此研究發現評論中消費者提及最多的產品主題特征并不一定對他們的滿意度影響最大(You WJ,et al.2012)。Cao等(2011)運用潛在語義文本分析文本挖掘法(LSA)應用logit回歸模型研究了評論星級、評論時間、評論字數、評論中包含的句子數、語義特征(評論中的情感傾向)對評論有用性投票數的影響,經過發現評論的語義特征對評論有用性影響最大。Min和Park(2012)從評論者經驗這一角度出發應用文本挖掘和實證分析方法研究如何根據評論者經驗識別出高質量評論。還有研究者通過對手機評論進行情感分析,識別手機是否存在過度的功能設計并以此獲得更多的顧客滿意度來提高銷售績效(Liu P,et al.2010)。未來隨著文本挖掘技術的進步,分析精確性不斷提高,相信這類結合實證方法證明在線產品評論商業應用效果的研究也會越來越多并得出更有價值的結論。

四、結語

綜上所述,在線產品評論現階段為止的研究有以下三個方面的特點:第一,研究中關于在線產品評論的一般特征,內容特征,評論者特征等等這些特征形式早期研究較多。雖然在研究發展過程中會出現不同程度的交叉重疊和所屬類別上的變化,但隨著購物網站評論體系設置的成熟化,這些特征形式基本穩定下來,并且主要的特征屬性都集中在評論文本的特征描述中,這也說明了文本評論的重要作用。因此,現階段的研究主要集中于評論文本內容的深度挖掘帶來的新的特征屬性;第二,文本挖掘技術和自然語言處理等技術現在已經能對半結構化和非結構化數據進行挖掘,而在線評論的表現形式為數量眾多且非結構化的文本,如何提高對在線產品評論的挖掘精確度也一直是技術研究領域關注的焦點。正因為文本挖掘技術的研究進展還處于不太成熟的階段,現階段的挖掘主題比較少,情感分析精度也不夠高,因此其他領域即便將現有挖掘技術應用于實證研究中,也難以得到穩定的和有價值的結論。相信未來隨著文本挖掘技術的進步,這類結合實證方法證明在線產品評論商業應用效果的研究也會越來越多,并得出更有價值的結論;第三,在商業應用研究領域,如何選取合適的研究變量和指標,比如消費者行為變量及觀測指標來與文本挖掘技術得到的計量數據相結合,從而實現更準確有價值的實證研究,也是在研究方法上需要繼續探索和解決的問題,比如目前用網站評論有用性的排名數據統計來替代評論有用性度量的方式過于單一且準確性受到質疑。

另外,還有兩個在線產品評論研究中比較集中的主題未來也可能會繼續發展:一個是購買者參與評論的動機及其在社交網絡中的作用;另一個是對購物網站上越來越多出現的虛假評論現象的研究,目前的研究集中在虛假評論的識別以及其影響方面,未來隨著消費者的經驗增加以及網站成熟運作,這方面的研究還會有新的熱點出現。

主要參考文獻:

[1]李恒.在線評論特征的維度綜述[J].企業技術開發,2015.1.

[2]李宏,喻葵,夏景波.負面在線評論對消費者網絡網絡購買決策的影響,一個實驗研究[J].情報雜志,2011.5.

[3]龔思蘭,丁晟春,周夏偉,巢乃鵬.在線商品評論信息可信度影響因素實證研究[J].情報雜志,2013.32.11.

[4]宋曉晴,孫習祥.消費者在線評論采納研究綜述[J].現代情報,2015.1.

[5]羅彪,叢日飛.留、傳、搜、用:消費者行為視角下的電子口碑研究綜述與展望[J].外國經濟與管理,2015.37.8.

[6]You WJ,Xia M,Liu,L,et al.Customer knowledge discovery form online reviews[J].Electron Markets,2012.7.7.

第6篇

關鍵詞:大數據;電信行業;精準營銷;客戶管理

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)17-0275-02

1概述

隨著互聯網技術普及與應用,全球數據生成量呈現爆炸式增長從開始的字節、經過KB、MB、GB發展到TB、PB,甚至EB、ZB級,大數據具有4V特征:Volume(數據規模大),Velocity(數據流轉快),Variety(數據類型多),Value(數據價值大)。各行業將面臨對海量數據的處理和分析,運用大數據技術挖掘出有價值的信息,將是行業發展面臨的機遇和挑戰。如今大數據在行業領域已經得到廣泛應用,取得不錯商業價值,如搜索引擎Google、電子商務平臺阿里巴巴、亞馬遜等。

麥肯錫咨詢公司曾經預測:“數據,已經滲透到當今各行業領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來”。中國移動前董事長王建宙用兩句話概括大數據對企業發展重要性:第一,企業利用大數據資源分析處理,運用分析結果,產生新的商業價值;第二,大數據改變了人們觀察世界的方法,抽樣樣本從原來的片面、有選擇和數量有限的樣本到現在的全體數據、隨機性的樣本,這樣產生的結果說服力強,具有代表性、可行性和實用性。

電信運營商采集到數據信息,這些數據來源廣、數據類型豐富和關聯性強等特性。有財務收入、業務發展量等方面結構化數據,還要涉及文本、圖像、動畫、音視頻等非結構化數據。信息來源渠道有電子渠道、實體渠道及直銷渠道等途徑。有的來源于終端信息、位置信息、互聯網行為、用戶身份、網絡信息節點、CRM信息及消費行為,也會涉及公眾客戶、政府客戶、企業客戶和家庭客戶。如何充分利用這些大數據,挖掘分析更大的價值,提高運營商經濟效益,筆者重點就如何充分利用大數據在電信行業市場與精準營銷和客戶關系管理兩個方面進行分析。

2市場與精準營銷

電信運營商通過各種商業化平臺采集到大數據,通過數據分析,可以洞察客戶的消費心理與消費行為,可以幫助企業定位合適的客戶,選擇合適的推廣內容和渠道、優化產品質量。

2.1客戶畫像

客戶畫像就是對客戶信息進行標簽化,分析客戶行為、生活、消費習慣,為企業提供精準的用戶群體和用戶需求等信息。客戶畫像是大數據運用的根基所在,一個完整用戶畫像有戰略解讀、建模體系、維度分解和應用流程四個階段。而電信運營商可以根據客戶基礎屬性、位置信息、互聯網行為等豐富的數據資源,為每個客戶打上人口統計學特征、消費行為和上網行為標簽,并借助數據挖掘中關聯規則分析、聚類算法分析、RFM模型(Recency最近一次消費、Frequency消費頻率、Mone-tary消費金額)等手段對潛在客戶進行分群,完善客戶的360度畫像,提升廣告投放的精準度。

2.2關系鏈研究

關系鏈研究就是大數據之間關聯分析,通過大數據之間關聯性,尋找商機。電信運營商可以通過分析客戶通訊錄、通話行為和社交圈等數據信息,開展交友圈交往信息,通過社交網絡對用戶進行分析,通過大數據分析方法發現朋友圈關鍵人員,如家庭、政治和企業的重要客戶,尋找圈子營銷機會。為提高營銷精準度,假設通過朋友圈大數據分析有很多高流量的用戶,我們就可以向這部分群體推薦4G套餐業務,還有在這部分高流量用戶群體中,發現有異網用戶存在,我們就可以向這類人群推廣4G業務,從而把異網高流量用戶引導我們的網絡,從而擴大消費群。

2.3精準營銷和實時營銷

精準實時營銷就必須依靠先進的技術手段實現,就是在合適時間和合適地點給合適用戶推薦合適的內容及產品。首先對客戶特征的深入分析,建立客戶基本信息、資費套餐、終端設備類型等信息,然后在網絡上精準匹配,滿足客戶需求基礎上選擇合適時機,合適方式推廣合適產品,實現精準營銷。可以根據用戶終端偏好、合約機到期時間、消費能力等信息,及時捕捉特征時間,從而預測客戶購買需求,通過短信、呼叫和營業廳等渠道投放營銷廣告。在精準營銷方面,英國O2免費推出WiFi服務就是一個例證,該服務積累更多用戶,收集大量用戶數據,是運營商做媒體廣告和營銷的基礎。

2.4個性化推薦

為進一步提升客戶體驗和感知,以適應市場需求,通過觀察客戶數據,預測客戶行為關聯性,為客戶提供個性化服務和營銷方案。利用客戶終端信息、消費特征、行為習慣和交友圈等客戶數據倉庫,運營商可以為客戶提供定制化的服務,優化產品、流量套餐和定價機制;或在應用商城、電商平臺和社交網絡實現個性化推薦。

3客戶關系管理

3.1客服中心優化

客服中心是運營商和客戶接觸最多的部門,擁有大量的客戶呼叫行為和需求基礎數據。運用大數據技術可以深入分析客服熱線呼入客戶的行為特征、選擇路徑和等候時長,并關聯客戶歷史接觸信息、業務特征、客戶機型等數據,在客戶投訴智能識別系統,運用大數據進行智能語義文本分析,識別熱點問題及用戶情緒,及時預警和優化,降低客戶投訴率,每年節約成本達到數百萬。

3.2客戶生命周期管理

客戶生命周期管理是按照客戶關系發展分為新客戶獲取、客戶提升、客戶成熟、客戶衰退和客戶離網五個階段,關于客戶生命周期劃分,不同<矣脅煌階段,個人認為將客戶生命周期分5個階段還是比較適合電信運營商的實際情況。在新客戶獲取階段,我們可以通過算法挖掘和發現潛在客戶,通過合適渠道提供合適價值定位;在客戶提升階段,通過關聯規則技術,挖掘商業通過刺激需求產品組合和服務組合進行交叉銷售,培養高價值的客戶;在客戶成熟期,可以通過大數據分類分析、聚類分析和RFM方法進行客戶分群并進行精準推薦新產品,對培養客戶忠誠度;在客戶衰退期,利用大數據進行客戶預警機制,提前發現高流失風險客戶,及時推出新產品,延長生命周期;在客戶離網階段,利用大數據挖掘技術贏回客戶,國內外運營商在客戶生命周期管理方面有很多成功案例。如T-Mo-bile公司采用Informatica平臺,通過大數據綜合分析客戶流失的原因,使某一季度用戶流失率減半。

第7篇

想做互聯網產品方面的創業,首先要考慮的是“到底要做什么樣的產品?它要滿足哪些需求?這些需求的必要性如何?”。

之后便會考慮,“該如何延長這款產品的生命周期,不至于很快過眼云煙?”,這個問題恐怕是許多互聯網產品都存在的,也是創業者最費心的問題。因為,決定做什么不難,難的是如何持久。

最后,一個很隱晦的問題便會出現。“滿足需求和產品生命周期之間究竟有沒有關系?”“如果有的話,又是什么樣的關系?”

大家的討論七嘴八舌,各有見地,不過我卻上了心,對創業風起云涌的時代“究竟該如何做互聯網產品?”這個問題細細想了一番。

一、“我認為產品好,一定能大賣”的時代早已過去;做互聯網產品應從“產品思維”向“用戶需求思維”轉變

仍以想做大數據產品的朋友為例。

對方問:

我想做一款基于大數據分析的平臺,這個平臺會通過大數據精準分析用戶需求,然后我們向品牌商提供用戶分類數據,幫他們向用戶精準推送品牌廣告。我們從品牌商處收取費用。這個有沒有市場前景?

我提出問題:

第一點,這種精準分析和精準推送,應該更像微信能做的事情啊。你的競爭力是什么?最重要的是,你如何先在自己的平臺上積累用戶資源?如果沒有用戶資源,你的大數據分析不就是幻想嗎?

第二點,你有沒有調查過你的目標用戶?他們為什么非需要你這樣一個平臺?僅僅就是為了看廣告嗎?他們有什么樣的需求?如果能滿足這個需求,才能把他們吸引到平臺上來。

第三點,即便你的目標用戶有需求,那么還要看這個需求的大小程度,因為需求大小決定了他們黏在平臺上的時間長短。比如需求小,大多數用戶就是為了獲得獎勵才去你的平臺,然后就跑路了,那么,你那些后續的精準推送廣告還有什么意義和價值呢?

對方一時無言,又講了幾個能吸引用戶到平臺上來的方法(此處保密),不過在我看來更多是一廂情愿的想法。

其實我們的對話,反應出了兩個關鍵問題:

1、“我認為產品好,就想當然認為一定能大賣”的想法,至少做互聯網產品不能依賴了。

我不否認朋友對做新產品的初衷想法是極好的,但這個想法是典型的“產品思維”,沒有考慮用戶到底需不需要,為什么需要?這種思維是站在“產品”角度考慮的,比如,我只想著如何做出各種強大的功能,但我沒考慮這些功能為什么一定能吸引用戶過來。我自認為產品好,就覺得一定會很有市場。

技術和世界經濟的飛速發展,早已導致各種產品極大豐富,且同質化嚴重,競爭前所未有。這也就讓垂直領域和細分領域產品更加的細分化。其實,細分就意味著把原來某個大群體“看似”共同的需求,切割成不同小群體的各種各樣的需求。今天的互聯網產品就是在這樣的局面下生存的。所以,互聯網產品只能更加艱難地挖掘小群體用戶的需求,甚至又把需求打散分成好幾類,然后搶占其中的某一小類需求市場。今天做互聯網產品面臨著比以往任何時候都要困難的競爭和挑戰。

所以,過去那種“一款產品通吃天下”、“一個廣告招攬所有人”的“大產品”和“大廣告”的美好年代早已一去不復返,也將成為幻想。

也有人說“定位理論”已經失效,未必見得。只不過,如今的“定位”已經不再站在產品的角度去定位了,而是站在“用戶”的角度去定位。

2、“用戶需求思維”應該主導今天的互聯網產品

尤其對于互聯網產品來說,用戶對其看重的更多是“能否滿足我的某種需求”,而對其“品牌”的重視要小于對傳統行業中的品牌重視。比如,現在的用戶使用某個平臺或某個APP,不會憑借它是BAT的產品就斷然使用,而更多的看這款產品本身是否符合了我的需要,對它是誰家的、誰做的不太關心,或者說關心度要小的多。

這與傳統行業有較大不同。在傳統行業,一個新產品如果要脫穎而出,難度非常大,因為它面對的是與大品牌的競爭,并且在幾乎沒有知名度的情況下,需要大量廣告投入才可能讓消費者了解到它,經過反復廣告后,消費者形成印象,從而可能去嘗試這個品牌。此時,消費者的行為和心理路線是:認知——情感——行動。人們更愿意相信“品牌”的價值。

而互聯網產品似乎是相反的路子,只要產品滿足了用戶的某個需求,那么,用戶便會使用,使用后感覺好,便會在社交平臺上告知分享給朋友,朋友體驗的好,又會告知分享給其他人,如此形成了口碑傳播鏈條。此時,用戶的行為和心理路線是:行動——認知——情感——分享傳播。人們更愿意相信“滿足我體驗/需求”的價值。

我經常會給學生講一個“雨傘”的例子,形象地對比這兩種思維。假設有一家制造太陽傘的公司,該公司自認為造出了世界上最牢固的傘,使用的材料環保、堅固、抗摔、抗磨、防曬…。總之,從產品本身看,的確是一把好傘。企業在這款產品的眾多功能中,選擇了一個它認為最重要的功能(堅固耐用)作為“賣點”和“廣告訴求點”。然而,它的傘并沒有像它想象的那樣大賣,銷量慘淡。原因何在?

這就是典型的用“產品思維”做產品。它沒有考慮到,太陽傘的用戶是年輕女性,她們需要的不是多么結實、多么牢固的傘,她們最本質的需求就是防曬功能一流,美觀。至于是否結實只是她們考慮的次要因素。對于用戶來說,不管這款產品有多少功能,他們最“看重”的就是“防曬”這個主要功能,“時尚”是附加功能。所以,如果這家公司能夠提前做一點調查,抓準目標用戶的真實需求,并且把這個“防曬”需求和產品的防曬特點結合起來,就會找到準確的廣告賣點(防曬)。只需一句簡單易懂的廣告語——“用了這把傘,怎么曬都曬不黑”,或許就輕松搞定了銷量。

舉這個例子可能并不太準確,但至少可以形象地反映出,目前做互聯網產品的兩種思維方式:“以我為出發點”和“以用戶為出發點”。

二、社交媒體時代,用戶需求的三個層次:本質需求、附屬性需求、邊緣性需求。本質需求是“拉力”

假設在做一款互聯網產品之前,已經準確了解到用戶的需求了,這意味著這款互聯網產品一定會被用戶廣泛使用或者長期使用嗎?仍然不一定。那么,這時的決定因素是用戶需求層次。也就是,看你的產品能解決哪個層次或哪幾個層次上的用戶需求?

心理學家馬斯洛在1943年曾提出過著名的馬斯洛五個層次需求理論,由下而上依次是:生理需要、安全需要、情感和歸屬的需要、尊重的需要、自我實現的需要。從此,這個需求層次理論便應用于廣告、營銷、商業等領域。

當然,今天的人仍有這樣不同層次的需要,但可能有些許變化。在今天的社交媒體時代,環境讓人的需要變得更加多樣化,需要的重要程度也有改變。

因此,根據需要對用戶的重要程度不同(觸及人的痛點的程度不同),我試著把今天用戶的需求歸為三個層次(如圖所示):

第一個層次是本質需求,這些需求主要包括:通訊、社交、生理、本能的渴望或欲望等。

生理需求自不多說,是最基本的需求,主要包括:吃、穿、住、行等。本能的渴望或欲望,是潛藏在內心深處的,主要包括:性、色、金錢、求偶等。對于社交而言,人生活在今天的信息社會之中,本能地有與他人溝通交流的需要,不同的通訊媒介都是滿足社交需求的手段。所以,我將社交需求也看成是一種本質需求,而通訊需求自然是滿足社交需求的必須條件,所以也是本質需求。總之,本質需求都是最能觸及人的痛點的需求。

第二個層次是附屬性需求,這些需求主要包括:價值觀、意識形態、某種心理需求等。

這個層次的需求并非人的必需品,但卻依附在人身上,受到人所在的特定環境或社會境況的影響。比如,90后人群比較追求自我價值的實現,喜歡個性和與眾不同等等,這些都屬于價值觀層面的東西。意識形態主要包括:觀念、態度、生活形態等。而某種心理需求則包括,認同感、成就感、虛榮心、表現欲等。附屬性需求所觸及的痛點程度要小于本質需求。

第三個層次是邊緣性需求,這些需求主要包括:興趣、愛好等。

之所以稱為邊緣性需求,并非說這些需求不重要,而是因為這些需求雖然更多涉及精神層面,但在觸及痛點的程度上相對要低于本質需求和附屬性需求。

在這三個層次中,本質需求是最核心、最根本性的需求。

就好比,人只有滿足了基本的生存問題,才會考慮精神享受一樣,如果是餓肚子的狀態,那么心理只會想著吃,絕不會再考慮靜靜欣賞美景或一本書。

所以,如果不能滿足用戶的本質需求而單單空談附屬性需求或者邊緣性需求時,互聯網產品是沒有根基的,也未必能長久黏住用戶。比如,之前一段時間在微信上火極一時的“足跡”、“臉萌”等產品,其設計初衷是希望滿足人的愛表現或好玩或扮情懷的心理,通過用戶使用后在微信里的分享傳播迅速聚集越來越多的用戶。但這些用戶多是一次性用戶,因為當滿足了這些心理(附屬性需求)后,也嘗鮮之后,便沒有其他理由讓用戶長期留在此地。

此類產品層出不窮,但死掉的也一波接一波。原因在于,這類產品只滿足了附屬性需求或邊緣性需求,但這些需求并不能真正觸及用戶痛點,用戶來的快走的也很輕松。其實,缺少的或許就是“滿足本質需求”這一“拉力”。有了這個“拉力”,產品便會形成閉環。

或者換句話說,互聯網產品越能滿足用戶的本質需求時,用戶越難以輕易放棄這款產品。而越接近邊緣性需求時,相對來說,用戶放棄這款產品幾率越大。

三、如何根據用戶的三個層次需求來設計互聯網產品?

雖然用戶的需求是多層次的,但是互聯網產品不可能同時滿足所有層次的用戶需求,只能滿足某一個層次中的某一個或某幾個需求。比如像現在的某些美食O2O產品,以吃為由頭,做線下社交活動,其實滿足的是生理+社交需求,是本質需求層次上的需求組合。微信滿足的是用戶在移動互聯網時代的即時通訊+社交需求,也是本質需求層面的組合。美圖則滿足了用戶的虛榮心理,愛美、遮丑是一種與生俱來的本能欲望。

或者滿足某兩個層次中的某幾個需求。比如現在剛興起的一些O2O產品,其實都是在本質需求的基礎上,與附屬性需求結合或與邊緣性需求。有的產品以吃為引線,聚集用戶到私廚進行廚藝切磋和交流,讓美食不再單是吃,而變成一種審美體驗,讓人感受一種生活狀態和生活態度,這種體驗就是意識形態層面的東西。這種產品滿足的是本質需求(食)+附屬性需求(意識形態)。而有的產品則仍以各種美食為主題,聚集對做美食感興趣或愛好做美食的群體,前來交流。這樣的產品滿足的是本質需求(食+社交)+邊緣性需求(興趣+愛好)。但同樣是美食O2O產品,因為滿足的需求不同,它們之間便有了差異化。

縱觀一些成功的互聯網產品,其實質都是,要么滿足了用戶最本質的需求,要么是在本質需求層次上添加了其他層次的需求,以此做出創新和特色,并提供差異化的功能。

僅按照上面說的用戶三個層次需求,就可以有三大層次的組合出現:

1、本質需求+附屬性需求;2、本質需求+邊緣性需求;3、附屬性需求+邊緣性需求。在此基礎上,如果將不同層次中的各種需求細分后再嘗試排列組合,那么就可以產生很多種類型的互聯網產品想法。(如下圖所示)

但仍需要強調的是,產品滿足的用戶需求層次不同,用戶對產品的依附程度也是不同的。我仍認為,滿足了本質需求的產品,用戶的依附程度最高,而單單滿足附屬性需求或邊緣性需求的產品是缺乏持久力的。本質需求依然是產品的核心拉力和根基,這個層次中的某個需求可以不作為產品的主要功能,但卻可以做為讓用戶不輕易離開的一種理由。

當然,上面的組合都是假設你打算做某款互聯網產品時,需要首先進行的需求定位。但是,在這之前,最重要的工作仍然是你需要先調查目標用戶,到底有哪些層次的需求,哪些是主要的,哪些是次要的,然后將產品現有的功能和用戶需求進行匹配,或者重新設計能夠滿足用戶需求的功能。

四、然而,想了解用戶的真正需求有那么容易嗎?

今天很多人都在講“用戶思維”,其實“用戶思維”本質上應該叫做“用戶需求思維”。然而,真正站在用戶需求思維想問題,了解用戶的真正需求,是一件很難的事。

在了解用戶需求上,目前大致有兩種做法。一種是憑借心理學分析,分析用戶的想法、態度、意識形態、觀念等心理層面和精神層面的東西。另一種則是完全依賴技術,通過大數據分析或者傳統數據來分析用戶行為,對用戶畫像,從行為推斷需求。兩種方法各有利弊。

如今,在廣告和營銷領域,許多大公司仍然喜歡利用傳統的調查方法去調查和分析用戶的真實需求,比如通過面對面的深度訪談和科學的抽樣問卷調查,這些方法有很多好處。

也有人會認為大數據會搞定一切,但是大數據也很難分析出準確的用戶需求。首先,公司要有大量用戶數據源,或能找到相關數據源,其次,你要考慮這些數據源中的數據有多少是有用的,有多少是干擾的,否則都是沒價值的,就沒有分析的必要。第三,即便前兩者都達到了,你也不能單分析這些數據,還要考慮用戶有某種行為時處于什么樣的場景,了解用戶處于什么場景下做出的這種行為,才能分析用戶當時真正的需求是什么。但要做海量的用戶行為場景還原簡直不可能。

比如,今天某電商平臺推送了一件衣服給我,我就買了,那么大數據就會認為我喜歡這種類型的衣服。但是,電商平臺不知道,我到底為什么買這件衣服?我心情好,一時沖動買的,還是真的喜歡這種類型才買的?假設我就是心情好,沖動買了,買了就后悔。但電商平臺不知道,它一定會給我繼續推送類似款,但不會再引起我的二次購買行為,甚至這些信息會對我造成干擾。對于我當時“為什么買”這個場景,僅靠分析大數據是很難準確判斷的。然而,“為什么買”的場景才能反映出我的真正需求。

所以,了解用戶需求并非一句口號那么簡單。利用大數據時要拼命絞盡腦汁還原場景,或者未來利用算法通過文本更準確分析用戶意圖(比如情感分析、情緒分析等,但目前都處于最初級階段)。而利用傳統調查方法時,要去做大量訪談,或者利用心理透射法,在此基礎上利用心理學做文本分析,真正的需求才可能探測出來。

第8篇

關鍵詞:網絡日志; 目的地形象; 質性分析; 華山

收稿日期: 2011-03-14; 修訂日期: 2011-07-01

基金項目:

國家自然科學基金項目《區域旅游流對旅游網絡信息的時空響應研究》(41001077)、陜西省教育廳科學研究計劃項目《基于信息共享平臺的關―天經濟區旅游聯動發展研究》(2010JK114)

作者簡介:

張高軍(1988-),男,陜西師范大學旅游與環境學院碩士生。李君軼(1975-),男,博士,陜西師范大學旅游與環境學院副教授,研究方向為旅游市場開發及旅游信息化。張柳(1985-),女,陜西師范大學旅游與環境學院碩士生。

1 引言

長期以來,旅游目的地形象研究一直是國內外旅游研究的熱點。在評價目的地旅游發展和目的地營銷成功與否的過程中,學界廣泛認同旅游目的地形象是一項重要指標(Tasci,Gartner,2007)。Greaves和Skinner(2010)以英國皇家迪恩森林為案例地的研究表明,良好的目的地形象可以有效提高游客的重游率,Chi和Qu(2008)利用結構方程研究了旅游目的地形象感知,認為積極的旅游目的地形象感知對目的地滿意度和忠誠度的提升具有積極影響。國內旅游學界對旅游目的地形象的研究也表明,旅游目的地形象將對旅游者的消費決策產生相當影響,它是旅游目的地營銷的重要內容(黎潔,呂鎮,1996)。旅游目的地形象對于旅游目的地發展的重要性在國內外已達成普遍共識。

借助中國知網和springer link、EBSCO等數據庫進行文獻梳理后發現,國內外目的地形象感知研究普遍采用問卷調查方法獲取原始研究數據(Chi,Qu ,2008;O’Leary,Deegan,2005;張宏梅,等,2011;李祗輝,2011)。然而,隨著互聯網的發展與普及,“互聯網絡的作用已從一個信息交流工具擴展到數據與觀點來源、公共話語空間乃至具有重要現實影響的社交空間”(于海波,2011)。越來越多的游客通過網絡獲取旅游信息,“利用網絡相互分享旅途體驗或感受,從而使得有關旅游的大量輿論信息在網絡平臺上得以有效地交匯”(姚占雷,等,2011),這就使得利用網絡獲取數據來研究旅游現象成為可能。

網絡日志自由、開放和共享的特性能夠較充分地反映出游客對旅游目的地形象的認知和感受,可以藉此內容研究游客對目的地形象的感知。已有一些學者進行了相關研究,如:Choi等(2007)使用CATPAC Ⅱ軟件,驗證了“文本分析方法不僅可以進行定性研究,而且可以進行定量研究”,進而研究了澳門的旅游目的地形象。Huang等(2010)通過對網絡日志的研究認為,積極的旅游目的地形象感知對游客的購買行為具有正面影響;張文和頓雪霏(2010)以網上發表的大陸游客赴臺游記為樣本,就大陸游客對臺灣旅游目的地形象的感知進行了歸納和分析,發現“大陸赴臺旅游者對臺灣旅游目的地形象的感知主要以正面評價為主”;高靜等人(2009)以網友點評為基礎,通過文本分析和對應分析對國內4個海濱旅游城市的感知形象進行了分析,結果表明“國內旅游者對海濱旅游城市整體形象的感知主要集中于風景/自然吸引物、海灘、城市衛生/干凈、特色美食/小吃/飲料等方面”。綜觀以網絡日志為數據源的研究成果,略顯不足的是,對目的地形象感知的研究多傾向于討論積極感知,而對目的地形象消極感知的關注有所欠缺。基于此,延續已有研究成果的方向,本文通過采集有關華山旅游的網絡日志,運用質性研究的文本分析方法和扎根理論的方法,試圖從中系統地提取出華山旅游形象的積極感知因素和消極感知因素,既可以為目的地管理者提供參考,也可以作為豐富目的地形象研究方法的一種嘗試。

2 案例地擇取

華山是我國著名的“五岳”之一,位于西安市以東120km的華陰市境內,北臨黃河,南依秦嶺。華山作為國家級風景名勝區、5A級旅游景區,以“險”著稱,在國內外享有很高聲譽,其2010年游客接待量153萬人次。但是華山風景區在旅游收入、接待游客人次方面和其知名度不相匹配,均遠遠落后于同類型山岳景點

接待人次數據的比較參見“中國旅游百強景區”排行榜(2010),其中:廬山483萬、九華山423萬、衡山420萬、泰山396萬、云臺山391萬、五臺山321萬、武當山230萬。該榜單由“中國旅游總評榜組委會”(其成員為全國22家主流媒體),詳見:http:∥.bqjq/。

。與此同時,互聯網上存在大量與華山旅游相關的網絡日志及網友點評,便于從中分析游客對華山旅游形象的感知,以探究提升華山旅游形象和吸引力的途徑。因此,本文選擇華山作為研究對象。

3 數據獲取

本文通過以下途徑收集研究資料:百度、Google等知名搜索引擎的搜索結果;攜程、驢媽媽、游多多、到到旅游網以及華山吧等旅游虛擬社區;新浪網、新華網等知名網站旅游頻道。由于所獲相關游記數量過于龐大(僅通過百度搜索關鍵詞“華山游記”就獲得相關詞條達一百多萬條),故按以下條件進行篩選:① 2008-2009年之間點擊量超過2000次的游記和2010年以來點擊量超過1500次且回復超過10條的游記(考慮到網絡日志對潛在游客的影響力);② 游記中對華山旅游有細致的和帶有情感傾向的描述(入選日志必須信息完整且可用于文本分析)。經過篩選,截至2011年2月14日,本文最終得到92篇網絡日志

通過對表1所列各大旅游網站的檢索(截至2011年2月14日),共得到2046條網友點評,其中好評1874條,好評率91.59%(見表1)。有172條對華山旅游不足之處的評論,連同華山吧內9條對華山旅游的負面評論,共搜集到對華山旅游的181條負面評論。這92篇華山游記和181條負面評論即為本研究的原始數據。

4 華山旅游形象的積極感知因素分析

對92篇網絡日志進行分析和歸納,從中提取出華山旅游形象的積極感知因素主要有7個,分別是:險峻壯觀、自我挑戰之地、圓夢之地、武林圣地、風景俊秀、寄情之地、紅色旅游之地(見圖1)。其中華山之“險”在92篇游記中有89篇提及,占樣本總量的96.74%,遠遠領先于其它積極感知因素;“自我挑戰之地”、“圓夢之地”、“武林圣地”可分為一組,對游客影響比較明顯;其余3個為第三類積極感知因素,對游客吸引力有限。

華山之“險峻壯觀”無疑令游客印象最為深刻,在日志中游客多次使用“自古華山一條道”、“華山真是太險了”、“刀劈斧砍”等語句形容華山。從樣本來看,華山游客最主要的旅游體驗就是“險在華山”。如網友“老陸”所說:

“華山,是我心儀已久的一座山,因為一個險字吸引了我。”

“自我挑戰之地”為華山形象的第二大積極感知因素。隨著游客旅游觀的逐漸成熟,他們需要更高層次的旅游體驗,即自我實現。正如網友“我是麒麒媽媽”在游記中所說:

“華山之行存在于我們的計劃中很久了,不僅僅是為了征服五岳,還因為它出了名的險峻,總是忍不住讓人生出挑戰的欲望。”

“圓夢之地”是華山形象的第三大積極感知因素。由于種種原因,使得部分游客對華山向往已久。到訪華山,不是因為別的,僅僅是和華山有個約定。如網友“mdxlaichen”所說:

“有朋自遠方來,華山是重要一站,正好一道了卻我的小小心愿。”

排在第4位的華山形象積極感知因素是“武林圣地”。金庸、古龍、梁羽生等人的武俠小說幾乎影響了所有中國青少年,在青少年心中埋下了親近華山的種子。樣本分析也顯示了武俠小說塑造的華山形象對游客產生了很強的吸引力,18.48%的游客在游記中坦言受到武俠小說的影響。正如一位攜程網會員所言:

“金庸的武俠小說,伴隨很多人的成長。令人向往的獨孤九劍、氣勢磅R的洪七公大戰歐陽鋒、小龍女的活死人墓、全真七子、袁承志等讓人耳熟能詳的橋段,總是讓人在午夜夢回中,彷佛置身處華山之巔,與重陽真人論劍談道,與周伯通左右互搏。而這一天,終于與心愛的老婆攜手登上華山,感受一下諸多俠義之源:華山!”

令人意外的是,山岳景觀中一般比較重要的積極感知因素――山岳風景在華山游客心目中只排在第5位,僅有11.89%的游客認為華山“風景俊秀”對自己而言是積極感知。從游客日志中可以看出,山岳風景之所以在華山游客心目中吸引力有限,并不是因為華山風景不美,而是因為人們對華山之“險峻”的強烈感知遮蔽了對“俊秀”的感知。如網友“學習游”所說:

“山美。想了半天形容華山的詞字,不知取舍,最終指尖敲出的卻是這俗俗的“美”字。華山以險著稱,世人盡知,“刀削斧劈”,貼切真實。不過,也許人們有先入為主的感覺,到了華山,只關注其險,卻錯過了其他。”

華山旅游形象的第6個積極感知因素是“寄情之地”。作為“中華五岳”中的西岳,華山在游客心中是一座具有恒久魅力的山,從游記中可以讀出作者被華山強烈地吸引,“情有所系”。這部分游客的行為動機可能源于對華山的一種情感依戀。如網友“daiao”和“角落里的娃娃”在游記中寫道:

“最近一些日子想爬華山的沖動越來越強烈,于是約了幾個好友,打算親自體驗一下華山的情懷。”“那里有座山在等我,一直都這么覺著。”

“紅色旅游之地”是華山形象的第7個積極感知因素。該部分游客數量不多,他們的旅游動機中滲入了一些個人的特殊情感。如一位游多多網友所言:

“小時候在野外看智取華山的電影,給我的童年留下來深刻的印象,今天能夠親自來登華山,心里覺得很是興奮。”

由上述可知,從92篇游客的網絡日志中提取出7個華山旅游形象的積極感知因素,但是我們發現,華山旅游資源中非常重要的兩類資源――文化旅游資源和地質旅游資源,卻被網友忽視而未出現在華山旅游形象的積極感知因素之列。

華山躋身“五岳”之一,其本身所蘊含的文化內涵必然極為厚重,但通過對網絡日志的分析后發現,僅有兩篇游記提到華山的文化旅游資源。其一為網友“丹鳳街”在游記中寫道:“這座自古以來被人津津樂道的奇險天下第一山,兒時的我已有了諸多幻想:‘沉香劈山救母’、‘吹蕭引鳳’、‘韓愈投書’、‘華山論劍’種種傳說已使我神游許久”。其二為網友提到了西岳廟是歷代皇帝祭祀華山神的地方。僅此而已,在92篇日志中僅有兩篇。

其實,華山的文化底蘊絲毫不遜于其它名山大川。華山是道教圣地,道家老祖陳摶、華山派創始人郝大通、以及歷代文人墨客都在此留下了種種勝跡和傳說。華山的地質旅游資源非常豐富,如地質遺跡、巖石遺跡、構造遺跡、花崗巖山峰地貌遺跡、花崗巖山谷地貌遺跡、花崗巖微型地貌遺跡、地質災害遺跡等等。游客對華山的這兩大資源的忽視,反映出華山對這些資源還未曾開發或開發力度不足,也說明了這些方面是華山進行深度開發,繼續提升旅游競爭力的重要著力點。

5 華山旅游形象的消極感知因素分析

相比游客對華山旅游形象的積極感知因素,點評中所指出的華山旅游的不足更加值得深思。這些不足直接制約著華山旅游的開發高度。要將旅游業做大做強,一方面要保持自身的優勢,另一方面要盡可能的彌補劣勢,修復旅游開發過程中的短板因素。游客對華山是寬容的,在181條負面評論中鮮有差評,但這并不意味著華山旅游盡如人意。誠如一位游多多網友在點評中所寫:

“身為一名陜西人,華山又是陜西的品牌,我實在是不愿意給華山差評,但華山里面的住宿實在是太差了,價格貴就不說了,被褥還又濕又潮,而且在餐廳吃飯時候還吃出來亂七八糟的東西。”

本文使用扎根理論的方法對181條游客的負面評論進行概念化、逐一登錄并提煉,經過三級編碼過程,最終將這181條負面評論凝煉為5個核心類屬、13個二級子類,如表2所示。

從表2中可以看出,在所列5個核心類屬中,“旅游體驗”類消極感知因素所占比列最高,為28.18%。旅游體驗所蘊含的需求結構是構成旅游競爭力的重要因素(龍江智,2010),因此,如何在原有基礎上豐富游客體驗成為彌補華山旅游短板的首要問題。在與旅游體驗相關的負面點評中,有一部分問題可能是緣于游客自身的個體因素,包括個體的體質、旅游閱歷及旅游態度等。還有一部分問題是客觀因素造成的,如網友提到的由于天氣原因沒能看到日出;對于這樣的情況,景區可以通過完善氣象監測系統來預先告知游客,以避免游客出現過大的心理落差而導致旅游體驗降低。游客還提出了旅游開發過程中華山景觀遭受破壞的問題,對此開發者應慎重對待。

在負面評論中占比第二的核心類屬是華山景區的旅游基礎設施。在此核心類屬中包含了游客最為不滿的二級子類問題,即華山的食宿問題。樣本中13.81%的負面評論指向華山的食宿。另外,被游客廣為詬病的景區廁所問題在華山景區同樣存在,華山的服務設施不完善也引起了游客的負面評論。

在“旅游安全”核心類屬中,“財產安全”問題更令游客擔憂,其在負面評論13個二級子類中位列第五。安全需要是人的本能需要,安全問題是人們出行時考慮的重要因素,安全保障欠缺的旅游目的地將弱化其本應有的吸引力。

在“旅游服務”核心類屬中,游客主要對華山景區工作人員的服務意識缺乏、人員素質和服務效率等有所不滿,而工作人員服務意識的落后將直接影響到游客的旅游體驗。

在有關華山景區環境問題的負面評論中,游客的批評多指向華山的衛生環境。雖然在多數情況下衛生環境的破壞是由于部分游客亂扔垃圾造成的,但景區保護環境的宣傳和管理不力也是原因之一。隨著華山游客的增多,華山景區的衛生環境問題已日漸凸顯。

6 研究結論

本文以華山為案例地,利用網絡日志研究旅游目的地形象,取得了良好的研究效果。在研究過程中使用了文本分析法和扎根理論的方法,系統地提取出游客對華山旅游形象感知中的積極感知因素和消極感知因素,主要結論如下:

(1) 游客對華山形象的積極感知因素主要有7個,分別是:險峻壯觀、自我挑戰之地、圓夢之地、武林圣地、風景俊秀、寄情之地、紅色旅游之地。

(2) 華山旅游形象的積極感知因素來源中不包括兩個重要的類別――華山的人文旅游資源和地質旅游資源。這兩類資源在網友的游記中極少被提到,反映出華山在旅游開發中對自身所具有的深厚的文化底蘊和豐富的地質資源未予以應有的重視。

(3) 游客對華山旅游形象的消極感知因素可分為5個核心類屬和13個子類。應采取切實措施對這些不足加以改進,以提高游客滿意度,進而提升華山的旅游形象。

本文的不足在于,研究過程中只是對網絡日志和點評進行了簡單的量化,并未考慮權值因素,如依據網絡日志作者在論壇或網站上的威望或等級賦予相應權值。這是本文的一大缺憾,需要在以后的研究中予以完善。オ

(注:本文還得到陜西師范大學中央高校基本科研費項目《旅游信息科學的若干理論和方法初步研究》(09SZZD06)的資助。)

參考文獻:

[1] Chi C G Q,Qu H.Examining the structural relationships of destination image,tourist satisfaction and destination loyalty:An integrated approach[J].Tourism Management,2008,29(4):624-636.

[2] Choi S,Lehtoa X Y,Morrison A M.Destination image representation on the web:Content analysis of Macau travel related websites[J].Tourism Management,2007,28(1):118-129.

[3] Greaves N,Skinner H.The importance of destination image analysis to UK rural tourism[J].Marketing Intelligence & Planning,2010,28(4):486-507.

[4] Huang Ching-Yuan,Chou Chia-Jung,Lin Pei-Ching.Involvement theory in constructing bloggers’ intention to purchase travel products[J].Tourism Management,2010,31(4):513-526.

[5] O’Leary S,Deegan J.Ireland’s image as a tourism destination in france:Attribute importance and performance[J].Journal of Travel Research,2005,43(3):247-256.

[6] Tasci A D A,Gartner W C.Destination image and its functional relationships[J].Journal of Travel Research,2007,45(4):413-425.

[7] 李祗輝.大型節事活動對旅游目的地形象影響的實證研究[J].地域研究與開發,2011(2):110-113.

[8] 高靜,章勇剛,莊東泉.國內旅游者對海濱旅游城市的感知形象研究――基于對攜程網和同程網網友點評的文本分析[J].消費經濟,2009(3):62-65.

[9] 黎浩,呂鎮.論旅游目的地形象與旅游目的地形象戰略[J].商業經濟與管理,1996(6):62-65.

[10] 龍江智.旅游競爭力評價范式:反思與啟示[J].旅游科學,2010(2):26-39.

[11] 姚占雷,許鑫,李麗梅,等.網絡游記中的景區共現現象分析――以華東地區首批國家5A級旅游景區為例[J].旅游科學,2011(2):39-46.

[12] 于海波.網絡話題作為定性數據來源的研究方法探討――以旅游動機研究為例[J].旅游科學,2011(1):46 -53.

[13] 張宏梅,陸林,蔡利平,等.旅游目的地形象結構與游客行為意圖――基于潛在消費者的本土化驗證研究[J].旅游科學,2011(1):35-45.

[14] 張文,頓雪霏.探討大陸旅游者對臺灣旅游目的地形象的感知――基于網上游記的內容分析[J].北京第二外國語學院學報,2010(11):75-83.

A Research on Tourism Destination Image Perception of

Huashan Scenic Spot:Based on Text Analysis of Weblogs

ZHANG Gaojun, LI Junyi, ZHANG Liu

(College of Tourism and Environment Sciences,Shaanxi Normal University,Xi’ an 710062,China)

Abstract:

This paper studies tourists’ perceptions of tourist destination images through weblogs and comments collected from Baidu,Google and some other tour websites.With the 92 weblogs and 181 negative evaluations selected under some determined conditions,the authors used text analysis method to study the visitors’ perceptions of the image Mount.Huashan.The result shows that it’s a proper way to research perception through weblogs.The authors extracted 7 main active perceptions from 92 weblogs and 181 negative comments which include 5 key kinds,and 13 small classes of negative perceptions as well.It is also found that the rich culture deposits and geological resources of Mount.Huashan,which are active perception,deserve in-depth development.

第9篇

關鍵詞:虛擬社區;文本信息;敏感詞;過濾系統

中圖分類號:TB

文獻標識碼:A

doi:10.19311/ki.1672-3198.2017.16.093

1 概述

中國互聯網絡信息中心(CNNIC)了第38次《中國互聯網絡發展狀況統計報告》(以下簡稱《報告》),《報告》顯示,截至2016年6月,中國網民規模達7.10億,上半年新增網民2132萬人,增長率為3.1%,我國互聯網普及率達51.7%,與2015年底相比提高1.3個百分點,超過全球平均水平3.1個百分點,超過亞洲平均水平8.1個百分點。由以上數據不難發現,我國現階段互聯網發展水平無論是從規模還是網民數量上都呈現出較強的增長趨勢,客觀上對于過濾技術的研究與發展起到了一定的推動作用。

互聯網同時還具有資源共享、實時交互性、個性化、虛擬化等特點,其中尤其以實時交互性與虛擬化的特點為突出,正如前面提到的,中國網民規模已達7.10億之多,用戶范圍廣,數量大,而且互聯網的實時交互性拉近了人們彼此間的距離,促成了論壇等社交工具的誕生。然而網絡的虛擬性導致人們不必在意交談對象的構成,可以隨心所欲表達自己的觀點,這種現象也在一定程度上導致網絡言論質量的參差不齊,甚至出現一些低俗污穢言論。因此對于網絡環境凈化平臺的需求由此而生。

由于時間及能力有限,并結合虛擬社區這一特殊信息載體,本文只針對網絡凈化平臺下的敏感詞過濾進行相關分析及研究。

2 相關理論與技術

2.1 網頁文本提取和分類技術

2.1.1 HTML標簽分析

HTML文檔主要由和兩部分標簽組成。標簽主要是用來標記文檔標題、作者等特征項內容,部分則是HTML文檔主體的記錄。每一部分都有相對而言特征值較為明顯的子標簽,如:中的、等,而在中又會有(加粗)、(超鏈接)等視覺體驗較為明顯的標簽,具有較高的特征值。因此,在分析HTML標簽時,大多數分析器會著重進行特征標簽的分析。此外,Lin Shian等還將HTML標簽分為了Informative、Skippable、Uninformative、Statistical四種類型。

2.1.2 網頁分塊分析

一般來說網頁內容并不是一個整體,而是由各個部分組成的,如:導航條、正文等,同樣,每一部分對于用戶瀏覽的影響程度也是不盡相同,如:導讀內容會大于正文內容,而正文內容的重要性又大于廣告部分。于是可以將網頁劃分成語義不相關的幾部分,每一部分叫作語義塊。而分塊也可以根據視覺特征和內容特征進行劃分。

2.1.3 中文分詞技術

利用計算機進行語言處理,首先要讓計算機能夠以人的思維方式和習慣對文本進行處理,而中文分詞相對于英文分詞的難點在于分詞符無法確定,英語基本上是以空格為分詞符的,而中文并不能以單字進行劃分,而且詞語字數也并不唯一,多字詞語的出現給中文分詞提出了更高的要求。現階段按照分詞依據大體可分為如下三類:基于字符串的分詞技術、基于理解的分詞技術和基于統計的分詞技術。目前比較成熟的是基于字符串的分詞技術,也叫基于詞典的分詞技術,是按照事先確定的某個機器詞典對用戶輸入內容進行處理,匹配特定的詞語。因此又被稱作機械分詞算法;基于理解的分詞技術是通過計算機模仿人的思維對句子進行理解,基于句法、語法分析,同時結合語義分析,通過對前后文的語境內容進行分析,達到識別效果,一般這種方法分為三個子系統:分詞子系統、句法語義子系統、總控部分;而基于統計的分詞技術則是較為理性的一種方法,這種方法的核心是找到構成詞語頻度較高的單字,從而進一步對這些單字及其前后組成的詞語的頻度進行統計,計算詞語準確度;而分詞的準確度對于接下來要進行的語詞相關處理工作是基礎工作,所以如何提高分詞的準確度是重中之重。

此外,還有基于DOM樹的技術等。

2.2 敏感信息檢測技術

2.2.1 基于文本內容的敏感信息檢測

基于文本內容的信息檢測是通過運用數據分析與挖掘、語言處理等相關方法和技術,根據語言環境、寫作背景等相關要素,分析理解文本語義,從而發現目標信息的識別技術。區別于關鍵字匹配方法,基于文本內容的信息檢測方法是根據整個網頁結構進行綜合全面分析,因此可以更加準_識別內容。

2.2.2 基于圖像內容的敏感信息檢測

該檢測方法是利用圖像處理技術以及人工智能等多種相關技術,通過分析圖像內容以及圖像相關特征量并與特征量數據庫進行比對,自動識別圖像中是否包含敏感信息,或者其特征量當中有相應的敏感信息,從而無法通過檢測,禁止用戶訪問。

2.2.3 智能多媒體混合方法

是近些年來為解決網絡上多種媒體混合而對傳統敏感網頁識別和過濾技術帶來挑戰的問題而提出的新方法。主要是將圖像與文本的敏感信息檢測技術進行聯合,共同對文本內容進行判決。

2.3 敏感詞變體處理技術

在實際處理過程中,存在著一些難以處理的敏感詞,其中以敏感詞的變形最為突出。惡意用戶發表的不良敏感信息會將詞匯語言文本進行錯誤拼寫、同音字等變形處理,將導致現有對于基礎詞匯的過濾技術不能夠有效應對。李少卿等學者提出了“臟話”詞匯變形體識別算法。該算法按照目標字符是否有與字母字形相似的特殊字符分別采用不同公式進行計算,公式主要是針對字母語音進行分組,同時根據字母的字形異同分成不同組別并賦予每組分數,采用編輯距離的思想對目標字符串計算分數,分數越低則同組相似度越高。

2.4 信息過濾技術

2.4.1 網頁內容分級

網頁內容分級法,即針對不同的網頁信息按照統一的分級標準進行分級標注,當用戶訪問時可以根據分級標注的信息對用戶進行反饋,一般分級方式有自我分級和第三方分級兩種,現有的國內外的分級標準主要有:多方標記和分級模式(MPLRM:Multi-party Labeling&Rating Model)、PICS(platform for Internet connect selection)技術標準、RSACi系統等。

2.4.2 URL地址過濾

在Internet上使用統一資源定位符URL標記互聯網的各級文檔,使得文檔都有自己唯一的標識符,并將用戶從客戶端發出的請求中的URL地址取出,與已經準備好的URL地址數據庫進行匹配查詢,并根據查詢結果判斷用戶請求的URL地址是否合法,進而決定請求是否被允許響應并返回結果。

2.4.3 內容過濾

內容過濾即對用戶輸入的網頁內容做敏感詞過濾,并對匹配出的敏感詞進行符號或警示信息代替。針對文本內容過濾,主要是根據事先編寫好的主題詞典,通過對用戶輸入的文字信息進行語義分析及比對,判斷詞語是否是敏感詞,如果是敏感詞,則進行攔截并運用符號或警示信息進行替代;如果不是,則進入下一詞語的判斷。

另外還有多媒體信息過濾等技術。

3 基于敏感詞的信息過濾算法

目前大多數學者主要是針對文本內容敏感詞過濾相關算法進行研究,有如下幾種常用算法。

3.1 BM算法

是Boyer-Moore算法的簡稱,是一種實用的完全匹配算法,核心思想是逆向比較,即從右向左比較,同時通過兩種不同的啟發式規則計算出跳轉距離,選擇距離較大的進行跳躍,從而減少了比較次數,提高了比較效率。兩個規則分別為壞字符規則和好后綴規則。具體為:(1)壞字符規則。匹配過程中若有不匹配,則不匹配處的字符即為壞字符,若壞字符沒有在模式串中出現則直接跳過進入后面一個字符,若出現在模式串中,則移動模式串至第一個字符和壞字符對齊,繼續進行比較。如圖1。

(2)好后綴規則:若匹配過程中發現了壞字符并且在該壞字符后面有一個已經匹配過的子字符串,則該子字符串即為好后綴,若好后綴在模式串中的m處出現,且前一個字符不同,則將模式串右移至m處,若沒有出現,則在模式串中尋找好后綴的子串并右移模式串到相應位置。

3.2 AC算法

是Aho-Corasick有限自動機算法的簡稱,是一種基于模式樹的匹配算法,基本思想是采用有限自動機的原理把多個模式串合并在一起組成一棵模式樹,模式樹中每一個前綴代表一個狀態,待匹配字符串的檢索通過狀態轉換完成。模式樹的構建過程如下:依次讀入模式串,按照前綴進行分類并添加到模式樹中,并構建三個函數:轉向函數、失效函數和輸出函數,完成構建工作。匹配過程主要是依次讀入待匹配文本并和模式串進行比對,通過轉向函數以及失效函數進行判斷并轉移,直到輸出函數不為空時完成匹配,并輸出結果。

3.3 WM算法

該算法采用跳躍不匹配字符策略和hash散列方法,對過濾文本進行預處理,構建SHIFT、HASH和PREFIX三張表。該算法在處理字符串時,是處理X長度的字符串(X>=1)。同時在處理字符串時要求每個字符串長度相同,同時要求在處理每個字符串時只處理前m長度的部分,m為定義字符串的最短長度。

3.4 SWDT-IFA算法

該算法主要是先將目標文本進行去除HTML、停用詞過濾等預處理,然后利用敏感詞決策樹構建算法把敏感詞庫搭建成一棵分流樹,提高利用效率,而后將預處理后的文本以數據流的形式通過檢索敏感詞決策樹,并將文本中有關敏感詞的頻率、區域位置等信息進行記錄,再通過計算公式,計算得出文本敏感度,再根據給定閾值將對應網頁劃分為敏感網頁和非敏感網頁。

此外還有Trie樹(字典樹)等方法。

4 敏感信息檢測和過濾系統分析與設計

4.1 需求分析

本系統主要是以武科大沁水青山bbs論壇為代表的虛擬社區為目標設計中文過濾系統,論壇的內容具有半結構化特性,因此需要對用戶的提問及回答進行文本提取,判斷提取的文本內容是否合法,如果合法,則直接在前臺頁面顯示,否則將進入過濾系統,對文本內容進行過濾,而后再提交到前臺頁面進行顯示,以達到過濾敏感詞等不良信息的目的。

4.1.1 設計原則

本系統設計需遵循如下原則:

(1)由于論壇屬于實時交互的頁面,因此本系統需要保證及時性與交互性,需要對用戶輸入的文本進行及r提取和處理,并通過對話框的交互形式對用戶進行反饋,同時還應保證盡量對用戶的正常訪問不產生影響;

(2)由于系統是嵌入瀏覽器服務器的,需要盡可能減少系統所占用的內存空間,同時應提高系統處理效率,盡可能減少系統不必要的配置;

(3)易于擴展。由于作者水平能力有限,目前僅考慮對于文本內容的過濾處理,正如前文所講,不良信息敏感詞不僅僅只存在于文本內容中,還包括圖片、音視頻等多媒體信息中,這就需要系統需要較強的可擴展性,為日后系統維護升級奠定基礎。

4.1.2 用戶特點

本系統主要針對的是論壇群體,因此用戶主要分為兩類:以大學生為主的普通用戶群體以及以校園管理機構為主的管理用戶群體,針對不同的群體的系統應有不同的側重點。針對普通大學生用戶群體,系統界面應當做到簡潔明了,同時需要較快的響應速度,良好的交互性能夠使大學生在不小心或無意間了敏感詞信息時能夠得到及時的反饋;而針對管理用戶群體來說系統界面應當做到全面,能夠使系統管理員盡快的發現存在敏感詞等不良信息的文本并及時進行處理和采取措施,如對不良信息的用戶采取禁言等措施,以保證網絡環境的優化和凈化。

4.1.3 系統功能需求

本系統主要是針對論壇中用戶的提問及回答等文本內容進行敏感詞不良信息篩查及過濾,提取到用戶的文本信息后在系統內部進行篩查,而傳遞給管理用戶的參數除了處理后的文本信息,假如包含了敏感詞,管理用戶將對該普通用戶采取禁言措施,如果不包含,則允許在前臺頁面進行顯示。因此系統應具備如下功能:

(1)自動啟動功能。要求在服務器啟動的同時,過濾系統自動啟動,無需人工手動啟動;

(2)自動獲取功能。即自動對用戶輸入的文本內容進行提取。

(3)重定向功能。在處理文本內容后,如果文本內容包含敏感詞,需要管理員禁言,同時普通用戶頁面應當重定向為提示頁面。

4.2 整體流程設計

基于功能分析,系統流程主要包括如下部分:啟動部分、獲取部分、處理部分、反饋部分,因此,整體流程設計如下:

4.3 數據庫設計

結合系統功能分析,本系統數據庫包括如下幾個表:用戶信息表、敏感詞表兩個表。

4.3.1 用戶信息表

用戶信息表結構設計如表1。

4.3.2 敏感詞表

該表主要是用于記錄過濾系統處理過的文本內容中出現的敏感詞,以方便后期提高處理效率,該表需與系統連接,允許添加。

5 關鍵模塊和功能實現

本系統功能較為單一,即針對用戶登錄武漢科技大學論壇后所的中文問題和回答的內容進行敏感詞不良信息的篩查與過濾。由于論壇的半結構化特性決定了論壇每一條內容的長度是有限的,因此我們決定采用基于字符串匹配模式的查詢算法,根據前文所講算法內容并結合論壇的實際情況,具體采用BM算法,并重點關注壞字符規則。

系統首先確定敏感詞表內容。通過團隊成員的共同努力,以及參考業界同仁的相關研究成果,確定出符合本系統的基于論壇的敏感詞表,詞表共計收錄詞條約400條,并且預留了一定的空間供后期系統維護及擴展后的敏感詞表使用。

確定好敏感詞后系統進入實際運行階段。首先,系統在校園網服務器啟動時可自行啟動,而后對系統緩存進行初始化,以免受前一次過濾行為影響,待用戶文本內容時,首先獲取用戶的登錄名并反饋給管理用戶,為接下來的用戶行為監測奠定基礎。然后,捕獲用戶的文本內容,按照中文分詞對文本內容進行切片,將切片后的文本內容逐詞與敏感詞表進行比對,判斷是否為敏感詞,如果是,則對敏感詞進行過濾處理,將處理后的文本內容反饋給管理用戶,同時將該用戶的User_level參數設置為1,一并傳遞給管理用戶,并發送對話框提醒管理用戶需要對該用戶采取禁煙措施。而管理用戶在收到消息提示后對用戶進行禁言管理,則該用戶將在一定時限內不得在該論壇文本內容,處理完畢后系統清空緩存,繼續等待用戶下次輸入。

具體流程如圖5所示。

6 結論

本文主要是針對以武漢科技大W沁水青山bbs論壇為代表的虛擬社區為基礎的中文敏感詞過濾系統研究,現階段的互聯網飛速發展,但是網絡環境的匿名性等特性為系統開發提供了基礎條件,同時目前針對敏感詞的過濾技術主要有網頁文本提取、分類技術,敏感詞及其變體處理技術,信息過濾技術等幾類,而針對敏感詞過濾的算法主要有SWDT-IFA算法、WM算法、Trie樹(字典樹)、BM算法、AC算法等,同時簡要設計了符合論壇的嵌入服務器的過濾系統的初步模型,為今后的系統擴展奠定基礎。

參考文獻

[1]中國互聯網絡信息中心.第38次中國互聯網絡發展狀況統計報告[J].互聯網天地,2016,(7).

[2]張海波.面向主題的網頁過濾機制研究[D].蘭州:蘭州大學,2007.

[3]張慎.基于串匹配和文本分類的中文網頁過濾系統設計[D].武漢:華中科技大學,2009.

[4]陳欣.基于文本和圖像內容分析的中文敏感網頁識別關鍵技術研究[D].北京:北京工業大學,2010.

[5]李少卿.不良文本及其變體信息的檢測過濾技術研究[D].上海:復旦大學,2014.

[6]方柯.面向網絡不良文本過濾的概念網技術研究與實現[D].上海:上海交通大學,2007.

[7]聶曉珂.互聯網違法文本與圖像信息監控系統研究[D].重慶:重慶大學,2009.

第10篇

關鍵詞 虛擬社會資本;消費者在線行為;扎根理論;數字營

中圖分類號G206 文獻標識碼A

一、研究概述

“社會網絡傳播快樂、寬容和愛。社會網絡影響著我們的選擇、行為、思想、情緒,甚至是我們的希望。”社會資本作為嵌入在社會網絡當中可利用的現實與潛在資源的集合,它對人們在社會網絡中所發生的行為和關系均有顯著影響,例如社會資本有利于社會組織當中新知識資本的創新,社會資本影響著人們使用媒介的頻率和習慣等。社會資本理論廣泛用于解釋與研究品牌傳播方面的問題得益于數字技術的飛速發展與社交媒體的普及。由于在社交媒體環境下,消費者趨向于在與他人在線互動中獲取品牌信息,并且通過互動所獲得的品牌信息相對于品牌主傳播的品牌信息更具影響力,社會資本產生于個體之間的互動,因此許多研究者基于社會資本理論視角探索影響消費者在線行為的因素。那么,社會資本對消費者何種在線行為有影響?是如何影響的?以上是本研究擬回答的兩個主要問題。因此,本研究首先提出“虛擬社會資本”和“消費者與品牌相關的行為”兩個概念并解釋其涵義;再通過文獻綜述總結前人對虛擬社會資本對消費者行為影響的研究成果;再次通過深度訪談與扎根理論建立虛擬社會資本對消費者與品牌相關的在線行為的影響機理模型;研究最后對該模型進行解釋。

二、相關概念與文獻述評

(一)虛擬社會資本

虛擬社會資本來源于社會資本的概念。關于社會資本,至今仍沒有一個明確的界定,在多數情況下,如何界定社會資本取決于研究問題所屬的領域。在營銷傳播領域,對社會資本的界定主要從個體(用戶/消費者)的角度結合兩種視角進行定義,即關系視角與資源視角。關系視角認為,社會資本是由社會網絡中個體與他人互動過程中所產生的所有關系的總和,是嵌入于兩個或多個個體之間的關系結構(Yuping Liu-Thompkins,2012)。資源視角采用林南(2001)及Janine Nahapiet(1998)對社會資本的界定,認為社會資本是嵌入于社會網絡中個體可利用的現實與潛在的資源的集合,并認為社會資本具有結構社會資本、關系社會資本與認知社會資本三種維度(Chien-Chin Huang,Tung-Ching Lin,Kuei-Ju Lin,2009;Rebeca San Jose-Cabezudo,Carmen Camarero-Izquierdo,2012)。

本研究認為,社會資本是極為抽象的概念,存在于社會網絡當中的關系本就作為個體可利用的一種資源,它既是關系同時也是資源,因此社會資本是嵌入于社會網絡當中個體可利用的所有關系與資源的集合。虛擬社會資本的概念始于對網絡虛擬社區的研究,之后被廣泛用于網絡新媒介的研究,也稱為“在線社會資本”,張洪忠等將其定義為“在網絡空間中所形成的社會資本”。虛擬社會資本與傳統定義的社會資本區別在于其發生的場域從線下轉到了線上,本研究將之定義為嵌入于在線社會網絡當中個體可利用的所有關系與資源的集合。新信息技術的發展使個體能夠創造新的社會網絡,個體通過電子郵件、移動設備以及其他互聯網媒介(臉書等)去增加他們的社會聯結,當個體歸屬于某個在線社會網絡之時,他就產生了社會資本。虛擬社會資本與傳統意義上的社會資本一樣,對在線社會網絡當中的個體參與者產生影響,同時形成在線社會網絡成員共有的規則、規范,促進在線社會網絡協作效率。

(二)消費者與品牌相關的在線行為

消費者與品牌相關的在線行為(consumers’online brand-related activities,簡稱COBRAs)由Daniel G.Muntinga等(2011)在《引入COBRAs模型,探索消費者與品牌相關的社會化媒體使用動機》一文中提出,作者認為以往對于消費者在線行為的研究均采用分割的視角,例如對在線口碑傳播(eWOM)的研究只聚焦于消費者與消費者之間的傳播行為,用戶生成內容(UGC)的研究只聚焦于用戶內容生產行為,而COBRAs模型作為一種消費者行為的結構性框架,為研究者提供了研究消費者與品牌相關的媒介使用行為的一個整合性視角。

作者將消費者與品牌相關的媒介使用行為由低到高分為三種類型,即消費、貢獻、創作。消費是消費者與品牌相關的媒介使用行為當中最低層次的行為,其中包括觀看、收聽與品牌相關的視頻、圖片、網絡廣播,加入品牌社區,在社會化媒體中觀看與品牌相關的評論信息或產品介紹,等等;貢獻行為包括在社會化媒體中評價產品或品牌,參與完善社會化媒體中品牌簡介的寫作,在網絡虛擬社區或者社會化媒體中融入與品牌的互動,評論出現在博客、臉書、視頻、廣播等等網絡媒介中的品牌信息;創作是最高層級的行為,其中包括與品牌相關的博客,下載與品牌相關的視頻、音頻、圖片,撰寫與品牌相關的文章或評論。

然后,作者通過消費者動機產生行為的邏輯關系,使用訪談法總結了消費者基于娛樂、獲取信息、獲取報酬從而產生消費者使用社會化媒體的消費行為;基于個人身份、整合與社會互動、娛樂產生貢獻行為;基于個人身份、整合與社會互動、賦權與娛樂產生創造行為。Daniel G.Muntinga等所提出的COBRAs模型關注的是消費者與品牌相關的社會化媒體使用行為,本研究認為此模型同樣適用于在線社會網絡當中消費者與品牌相關的行為研究,其中消費行為指消費者于在線社會網絡點擊閱讀或觀看與品牌相關的鏈接、推送或文章、觀看或收聽與品牌相關的視頻或音頻、參與品牌社區;貢獻行為包括消費者于在線社會網絡中對與品牌相關的信息進行評論或轉發至其網絡空間;創作行為包括消費者于在線社會網絡中撰寫與品牌相關的文章、創作與品牌相關的音頻或視頻。(表1)

(三)消費者維系、獲取與投資虛擬社會資本的動機

消費行為學家Fishbein Martin對消費行為的產生作過以下闡釋:對消費者在未來是否會采取某種具體行為的最直接的預測方法就是了解他們采取該種行為的傾向,探索消費者行為的另外一種視角是通過研究消費者動機來預測其可能發生的行為。因此,虛擬社會資本與消費者在線行為動機有沒有關系?是什么關系?這是虛擬社會資本對消費者在線行為影響的新視角。國外研究社會資本的學者提出,個體維系、獲取、投資社會資本是目前社會資本研究亟需補充的研究課題,包括個體如何維系、獲取、投資社會資本;個體維系、獲取、投資社會資本會對其在社會網絡中的行為有何影響。強聯結本身就是個體行為的一種重要動機,換言之,社會資本作為消費者行為的一種重要動機,消費者基于維系、獲取、投資在線社會網絡中社會資本的動機會引發其一系列行為。消費者維系、獲取與投資虛擬社會資本分別是什么涵義?消費者于在線社會網絡中,是否具有維系、獲取與投資虛擬社會資本的需求呢?對于以上問題,國內外相關文獻已予以回答。

Putnam認為社會網絡中的關系傳播是產生和維系社會資本的關鍵前提,換言之個體維系社會資本的行為即維系社會網絡中個體的種種關系;童程芹在其碩士論文中通過Maloney,Preece及Nahapiet和Ghoshal有關維系社會資本的闡釋,將社交網絡里的消費者維系社會資本定義為“通過互動促進與社交好友的溝通與交流”,并認為消費者維系社會資本是消費者轉發行為的重要動機。張倩認為消費者使用社交媒體的根本原因是獲取在線社會資本,并且將消費者獲取在線社會資本的類型分為人脈、情感、信任與信息資本,換言之即消費者獲取來自于社交媒體所組成的在線社會網絡中的人脈、情感、信任與信息資源。楊潔、陳雅琪均對消費者使用社交媒體網站的行為與虛擬社會資本的關系進行研究,結果均顯示消費者使用社交媒體網站與消費者獲取虛擬社會資本之間存在著顯著的關系,即消費者使用社交媒體網站正向影響了其獲取虛擬社會資本。李六在其博士論文中提出個體參加社會網絡關系從本質上看就是投資社會資本的行為,個體投資社會資本是個體理性選擇的結果,因為個體參與社會網絡可以為合作的產生提供必要的條件,這也可以理解為,個體投資社會資本是個體維系與獲取虛擬社會資本的前提條件。

綜上所述,本研究認為:消費者只要參與入社會網絡,就有維系、獲取與投資虛擬社會資本的需求,消費者維系虛擬社會資本是維系在線社會網絡中消費者與他人的關系、情感、信任和資源;消費者獲取虛擬社會資本是消費者希冀從在線社會網絡中獲取自身所需的關系、情感、信任與資源;消費者投資虛擬社會是消費者建立和發展在線社會網絡中的關系、情感、信任與資源。這些需求對消費者參與社會網絡的種種行為都產生了影響,是消費者參與社會網絡行為主要的動機。(圖1)

以上文獻多數是從消費者使用媒體的角度進行的研究;并且現有文獻均片面或單一地對消費者維系、獲取與投資虛擬社會資本進行研究,并無完整詳盡的將消費者維系、獲取與投資社會資本進行研究,更沒有分別對消費者維系、獲取與投資虛擬社會資本會產生何種行為進行研究。作為品牌的消費者,其在線行為與作為媒介用戶的消費者一定有所差異。因而從品牌消費者的角度研究虛擬社會資本對消費者有關品牌在線行為的影響是一項探索性的研究,以下將通過深度訪談法探究虛擬社會資本對消費者有關品牌在線行為的具體影響,并通過扎根理論探索其影響路徑。

三、研究設計

(一)研究方法概述

深入訪談法是一種通過與被調查者深入交談以此了解某一社會群體的生活方式和生活經歷,探討特定社會現象的形成過程,提出解決社會問題的思路和辦法,它能夠較為深入地、準確地挖掘影響消費者行為因素的研究方法,它相對于調查法更客觀。扎根理論適合用于探索性研究,它為研究人員提供一套完整的從原始材料中歸納與建構理論的方法和步驟,通過對原始資料的不斷比較、思考、分析將資料轉化為概念,并建立概念之間的邏輯關系,最終形成理論。本研究將根據研究問題,通過對樣本的深入訪談,獲取初始材料,再通過扎根理論的開放式編碼、主軸編碼、選擇性編碼并以故事線方式建構理論。

(二)深入訪談樣本的選擇

與調查不一樣,定性訪談不管是訪談者還是調查訪談者,都必須相當熟悉訪談的問題,因為只有這樣,訪談才可能順利、自然地進行。由于個體自身個性因素、喜好因素、使用在線媒介習慣的不同,本研究采用目標式(或稱判斷式)的抽樣方法,基于以下兩個原則選擇訪談樣本:第一,活躍于各個社會化媒體之間(微博、論壇、微信、美拍、小紅書、知乎),頻繁地使用各種社會化媒體;第二,頻繁地發生與品牌相關的在線行為,即消費(點擊、閱讀、瀏覽等行為)、貢獻(評論、轉發等行為)、創作(撰寫評論、拍攝圖片或視頻等行為)。通過于在線媒介中(微博、微信、美拍、小紅書、知乎)的觀察,最終挑選出52位活躍度高、頻繁地發生與品牌相關行為的目標樣本。由于扎根理論提出了“理論飽和度”的原則,訪談和分析在實際研究中是密不可分、相互關聯的,每進行一次深度訪談后就需要立即對訪談資料進行整理和分析,在此基礎上建構初步的理論假設,然后再抽樣、再修正理論,循環往復,直至所建構理論假設中的概念、范疇體系達到完善,不再出現新的概念類屬的時候,就可以認為已經達到理論飽和,不再需要增加訪談量了。本研究首先對目標樣本進行編碼,采用隨機抽取某一目標樣本進行訪談,訪談后將之從編碼框中去除,再進行隨機抽樣,到受訪者數量到達第31位之時,理論達到了飽和狀態,最終訪談樣本情況如表2所示。

(三)研究過程

本研究深入訪談從2015年11月2日起,至2015年12月10日結束,由于受訪者來自各個城市,采用一對一電話訪談結合即時通訊工具訪談的形式,每次訪談時間約為70分鐘。定性訪談是根據大致的研究計劃在訪問者和受訪者之間的互動,而不是一組特定的、必須使用一定的字眼和順序來詢問的問題,因此本研究采用半結構化的訪談提綱,在正式訪問前已向受訪者介紹相關概念與釋義,提綱由以下問題組成:您是否有維系、獲取、投資網絡中您與他人的關系、情感、信任與信息資源的需要?某個品牌/產品相關的信息是否會影響您維系、獲取、投資網絡中的關系、情感、信任與信息資源?您為了維系、獲取、投資網絡中您與他人的關系、情感、信任與信息資源,您可能會發生什么與品牌相關的行為?您在發生與品牌先關的行為時,會考慮什么因素?或者是什么因素會阻止或刺激您發生這樣的行為?定性訪談是持續性的,在研究過程中需要一再地修正問題的形式,因此在訪談過程中不一定固定于以上的問題,而是根據受訪者的回答不斷修正提出的問題,以期獲得有關本研究更準確的材料。

(四)編碼過程

本研究使用扎根理論的三種主要編碼方式,即開放式編碼、主軸編碼與選擇性編碼。通過開放式編碼與主軸編碼將深度訪談的初始材料進行分析與歸納,使用選擇性編碼及故事線的方法發現概念、范疇之間的邏輯關系,并建構理論模型。開放式編碼是扎根理論的第一步編碼過程,要求研究者摒棄先有的概念束縛,保持開放的研究態度對原始的訪談資料進行詳細分析并歸納出研究的簡短并精確的初始代碼系統。開放式編碼在原始訪談資料分析時可以采用逐詞編碼、逐句編碼或者事件編碼,本研究使用逐句編碼的方式進行開放式編碼,即從受訪者回答的有關影響消費者生成廣告行為因素的句子中進行編碼。經過多次分析原始訪談資料,整理出236條原始語句,并在剔除了只出現過兩次以下的概念與重復概念后,最終得到了本研究的十八個初始概念,并根據開放式編碼形成八個初始范疇,即聯結強度、信息安全性、獎勵因素、在線社會網絡的壓力及歸屬規范、消費者喜好因素、消費者品牌/產品經驗、消費者先前行為經驗、信息特征。一般主軸編碼依照尋找開放性編碼形成的所有范疇當中的內在邏輯,其方法可以是尋找因果關系或是中介關系、從屬關系等,并由此總結出具有概括性、綜合性的邏輯范疇。本研究按照因果與從屬關系將開放式編碼得到的十四個初始概念進行歸納,最終形成四個主范疇,即刺激因素,包括獎勵;社會網絡因素,包括聯結強度、在線社會網絡的壓力、歸屬規范;品牌/產品信息因素,包括信息特征、信息安全性;消費者經驗與喜好,包括消費者的品牌/產品經驗、消費者先前行為經驗。選擇性編碼圍繞著核心范疇,分析哪些范疇與核心范疇相關,并研究主軸編碼形成的范疇之間的內在關系、驗證所歸納的關系,最終構建扎根的理論模型。本研究通過選擇性編碼,將主軸編碼所形成的四個主范疇歸納為外部因素,其中包括社會網絡因素、刺激因素、信息因素;消費者內在因素,其中包括消費者經驗與喜好。(表3)

四、理論模型的建立與闡釋

(一)理論模型的建立

通過以上扎根理論的編碼方式,獲得了影響消費者維系、獲取、投資虛擬社會資本以及消費者與品牌相關的在線消費、貢獻與創作行為的社會網絡因素與信息特性因素,本研究擬采用故事線的方式發現各個范疇與核心范疇之間的關系,“故事線”是以一句話總結個案故事的主要線索從而發現許多個案共同存在的故事線,最終總結成圍繞核心范疇的各個邏輯關系的理論模型。本研究圍繞著“虛擬社會資本對消費者與品牌相關的在線行為影響”的核心范疇,形成消費者對虛擬社會資本的動機引發消費者與品牌相關的行為,同時外部因素與內部因素均對消費者動機與行為產生影響的初始模型。(圖2)

再通過反復分析初始訪談材料,挖掘因素之間的邏輯關系與更為細致的影響路徑,最終形成虛擬社會資本對消費者與品牌相關的在線行為影響模型。通過對目標樣本的一對一深度訪談,驗證了消費者于在線社會網絡中具有維系、獲取與投資虛擬社會資本的需求,并且無論哪種需求都可能導致消費者對品牌信息的消費、貢獻與創作行為。然而在消費者基于維系、獲取、投資虛擬社會資本的需求導致其發生與品牌相關的不同在線行為的過程當中,動機與每種行為受到不同因素的刺激或影響。這些影響因素分別是聯結強度、信息安全、在線社會網絡中的壓力歸屬規范、消費者喜好、消費者品牌經驗、行為經驗、信息特征、外部獎勵,它們或促進或阻礙消費者發生與品牌相關的行為,以下將分別對影響因素及影響路徑進行闡釋說明。(圖3)

(二)理論模型闡釋

本研究所建立的虛擬社會資本對消費者與品牌相關的在線行為影響模型分為四個影響路徑,消費者根據不同的聯結強度與品牌/產品信息是否安全,產生對虛擬社會資本不同的需求是第一個影響路徑。在消費者產生維系、獲取、投資虛擬社會資本的動機后,其可能發生消費品牌信息行為、評價或轉發或參與討論品牌信息的貢獻行為、或是將品牌信息加工、再造等創作行為,在這過程當中,每種行為會受到不同因素的影響。因此第二個影響路徑為消費者消費品牌/產品信息會受到在線社會網絡中壓力、歸屬與規范、消費者自身喜好的影響。

第三個影響路徑是消費者貢獻行為會受到在線社會網絡中壓力、歸屬與規范、喜好、品牌經驗及信息特征的影響;最后一個影響路徑是消費者創作行為會受到在線社會網絡中壓力、歸屬與規范、喜好、品牌經驗、行為經驗、信息特征與外部獎勵的影響。從模型來看,消費者產生越是高級的行為,受到影響的因素也就越多。

1.影響路徑一:在開放式編碼過程中,聯結強度主要由消費者與他人的聯系頻率及不同的關系兩個初始概念組成,消費者與他人不同的聯系頻率及不同的關系會導致其產生對虛擬社會資本不同的需要。若是弱聯結,即那些與消費者聯系頻率較低、關系較疏遠的成員,消費者更可能產生投資虛擬社會資本的需要,換言之即加強與他們的互動、建立與他們的信任、加深與他們的感情;而對于強聯結,消費者更可能產生獲取與維系虛擬社會資本的需要,他們更可能從與自身聯系頻繁、關系緊密的人那里獲取有關品牌的信息、評價以及尋求他人的幫助,更可能轉發他人所需要的品牌/產品信息、與他人對品牌/產品信息進行討論。信息是否安全,是否具有明顯的廣告意圖,是影響消費者產生對虛擬社會資本不同需要的另一個重要因素。如果信息不安全,或具有明顯的廣告意圖,消費者發生相關行為會影響其于在線社會網絡中的地位與威望,會影響他人對消費者信任程度的降低,因而消費者會產生維系虛擬社會資本的需要,阻止其發生任何行為;若是信息較為安全,廣告意圖不明顯,消費者則會產生利用信息資源,加強與他人的互動、加強與他人的信任、加深與他人的感情、幫助他人或希望受他人幫助的動機。

2.影響路徑二:對品牌/產品信息的消費,是消費者與品牌相關的在線行為中最低層次的行為,通過深度訪談,本研究發現消費者最可能產生對品牌/產品信息的消費行為。消費者基于維系虛擬社會資本的需要,他們會閱讀、觀看、收聽有關品牌/產品推送、視頻或音頻,關注其他成員共同關注的品牌/產品,關注其他成員正在討論的品牌/產品,以期維護其與其他成員的關系、情感、信任與信息資源;消費者基于獲取虛擬社會資本的需要,他們會更為主動的點擊、觀看、收聽他們所需要的來自于其他成員所推薦、轉發的品牌/產品信息;若是基于投資虛擬社會資本的需要,消費者會首先消費品牌信息,根據其他成員的需要給予他人幫助、建議等。在以上過程當中,受到在線社會網絡的壓力、歸屬、規范、消費者自身喜好因素的影響,當在線社會網絡多數成員都在關注或討論某一品牌/產品時,消費者會迫于壓力,消費品牌/產品信息;同時,品牌/產品信息若是與消費者品味、興趣、利益、正在進行的事情相關,消費者也會產生對品牌/產品信息的消費行為。消費是消費者貢獻與創作行為的基礎,也是消費者基于維系、獲取、投資虛擬社會資本動機所導致的最頻繁的行為。

3.影響路徑三:通過深度訪談,多位受訪者談及轉發、評論是他們維系、獲取、貢獻虛擬社會資本最主要的方式。“如果我看到或者了解某個品牌/產品,正好這個東西又是我朋友需要的,我會轉發給他…嗯,對,就是經常互相幫助感情才會更好嘛!”“我看到他們都在說這款手機,我看到我同學用過,外觀確實做的不錯但是聽我同學說用過一段時間反應速度就很慢,跟他們分享一下。”“你看到我經常在朋友圈轉發各種各樣品牌的腮紅對吧,哈哈,我在我朋友圈里就是腮紅方面的專家,她們要買都來問我。”“噢,我剛在淘寶上買了一個旅行箱,我轉發那個鏈接其實就是想讓他們知道我準備來一場說走就走的旅行,我就是側面表示一下。”以上初始訪談資料表明,在消費者發生貢獻行為的過程中,在線社會網絡的壓力、歸屬、規范、消費者自身喜好、品牌/產品相關經驗、信息特征均為刺激消費者貢獻行為的重要因素,并且刺激因素越多,消費者越有可能發生貢獻行為。例如消費者觀察到其網絡當中許多成員都在關注的品牌/產品,恰好消費者有相關的品牌/產品經驗,他會產生參與評論的行為。

4.影響路徑四:創作是消費者與品牌先關的在線行為中最高層次的行為,創作行為是建立在消費者消費與品牌相關的信息基礎之上,同時較于貢獻行為又更為高一級,要求消費者加入自身的理解、感受對有關品牌/產品信息進行加工,并且公開。消費者無論是基于維系、獲取還是投資虛擬社會資本的動機,都有可能發生創作行為,但是在此過程中所受到的影響因素頗多。消費者創作行為的影響因素在消費者生成內容的研究中已得到相關論證,例如王平提出并論證了消費者對品牌的體驗經歷正向影響消費者對品牌內容的投入行為,王平、陳啟杰等用實證研究驗證了激勵因素(外部獎勵)正向影響消費者生成內容的行為,Christodoulides和Jevons在他們研究與品牌相關的消費者生成內容如何真正影響了品牌的文章中,通過文獻綜述提出了與品牌相關的消費者生成內容的四大驅動因素:共同創造、賦權、社區、自我認識,其中的社區驅動因素中,群體與網絡壓力、規范與義務責任正向影響了消費者生成內容的行為;在自我認識驅動因素中,消費者自我享受即喜好,正向影響了消費者生成內容的行為。

除了以上學者所提出的消費對品牌的經驗、外部獎勵因素、在線社會網絡的壓力、歸屬規范、喜好因素之外,本研究受訪者還提出先前行為經驗與信息特征對消費者創作行為具有重要的影響作用。例如受訪者所言“以前我也惡搞過某個產品的圖片,反響特別好,好多人給我點贊!”“我之前在朋友圈和微博都發了這個洗發水的圖片,好多人說我是不是微商,唉,解釋起來特別麻煩,以后懶得發了。”“這個廣告語對我觸動太大了,正好能表達我現在諸事不利的郁悶心情,所以我把它改寫了一下。”與貢獻行為一樣,消費者所受的刺激因素越多,越可能發生創作行為,單一因素的影響或刺激較難引發消費者的創作行為。

五、研究結論與啟示

第11篇

關鍵詞:大數據 大數據分析方法 情報研究 適用性

中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2014)05-0013-07

Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies

Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.

Key words big data; big data analytics; intelligence studies; adaptability

大數據分析(Big Data Analytics,BDA)是以“深度的發現分析、引領行動”作為目標的工作[1-2],它包括由多個任務組成的高度重復執行的步驟[3-4]。BDA通常要集成多種分析技術與軟件工具,以便讓海量數據的處理及分析變得更加容易,從數據中提取有用信息并形成結論,用來驗證、指導及規范組織或個人的決策行動;BDA的執行過程一般包括問題需求及假設提出、數據獲取及記錄、信息抽取及清洗、數據整合及表示、選擇建模及分析方法、結果詮釋、評測結果有效性及監控等幾個階段。從以上BDA的定義及過程來看,BDA與情報學領域中的情報研究(也稱情報分析)在本質上是一致的,兩者至少在方法與技術(以下簡稱方法)上可以相互借鑒或補充。本文基于情報學的視角,關注哪些BDA方法可以為情報研究提供借鑒,并解決情報研究的相關問題。因此,本文首先概略總結BDA的方法體系,然后探討BDA方法在情報研究中的適用性。

1 大數據分析的方法分類

到目前為止,尚沒有公認的BDA方法的分類體系,甚至對BDA包括哪些方法,也有不同的認識。本文首先綜述現有的相關研究,并以此為基礎提出我們的分類體系。

1.1 相關研究

不同學者對BDA方法的看法各有差異,概括起來,主要有三種分類體系,分別是面向數據視角的分類、面向流程視角的分類以及面向信息技術視角的分類。

(1)面向數據視角的BDA方法分類。這類研究主要是以BDA處理的對象“數據”作為分類依據,從數據的類型、數據量、數據能夠解決的問題、處理數據的方式等角度對BDA方法進行分類。

Power[5]依據分析需求將數值型數據的分析方法劃分為三類:①若是模式理解及對未來做出推論,可采取歷史數據及定量工具進行“回顧性數據分析”;②若要進行前瞻及預測分析,可采取歷史數據及仿真模型進行“預測性數據分析”;③若要觸發事件,可采取實時數據及定量工具進行“規范性數據分析”。美國國家研究委員會在2013年公布的《海量數據分析前沿》研究報告中提出了七種基本統計數據分析方法[6],包括:①基本統計(如一般統計及多維數分析等);②N體問題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數計算(Linear Algebraic Computations);⑤優化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數據匹配(如隱馬爾可夫模型等)。

針對非純粹的數值型數據,Li、Han[7]梳理了面向“時空數據”(Spatiotemporal Data)的BDA方法,通過對動態數據挖掘出主體的預測性,如運用物理工程領域的傅立葉變換(Fourier Transform)及自相關匹配(Autocorrelation)偵查某一時間區段的信號、發生的事件或生物基因中的周期性節律,也可運用時間序列方法預測地點位置的變化;魏順平[8]以教育領域為例,梳理了面向學生與學習環境的“學習分析方法”(Learning Analytics),此方法集成了內容分析、話語分析、社會網絡分析、統計分析、數據挖掘等多種方法,從中挖掘學習的各種語義關系,并回答“誰在學、學什么、怎么學、學的結果如何”等問題,為教學與優化學習提供參考。

Mohanty等人[3]從數據獲取(Data Ingestion)角度,依照處理的數據量從小至大的順序,區分出八種分析方法:①流分析(Streaming Analytics),以預定模式及時處理數據流;②高速的數據采集(High Velocity Data Ingestion),不轉換任何格式,可稍晚處理; ③鏈結分析(Linkage Analysis),構建不同數據源的關系與鏈接;④罕見事件偵查(Rare-Event Detection),從龐大數據集中尋找特定模式;⑤數據聚合(Data Mash-Ups),需要對數據屬性發展故事線或鏈接關系進行分析;⑥文本分析(Text Analytics),如觀點挖掘或社會網絡分析等;⑦時間序列分析(Time-Series Analysis),通過模式偵測及事件發生概率來處理時空數據;⑧數據辯論(Data Forensic),用于數據科學家探索大規模數據集。

Chen等人[9]認為,在商業智能分析發展的過程中,商業智能分析經歷了從處理結構化程度較高的數據、到處理網絡上半結構化數據、再到處理移動數據的發展,涵蓋了五類核心的分析方法:①數據分析,涉及數據倉儲、ETL、聯機分析及數據挖掘等分析技術,可應用在時間序列挖掘、網站挖掘、空間數據挖掘等;②文本分析,涉及信息檢索、查詢處理、相關反饋等分析技術,可應用在QA系統、觀點挖掘、多語義分析、可視化分析等;③網站分析,涉及信息檢索、網絡爬蟲、日志分析等分析技術,可應用在云計算、社會網絡分析、網站可視化等;④網絡分析,涉及信息計量、引用網絡、數學網絡模式等分析技術,可應用在鏈結分析、社區發現、社會影響力及擴散模式等;⑤移動分析,可應用在移動通訊服務、個性化分析、游戲營銷分析等。

(2)面向流程視角的BDA方法分類。這類研究主要是依據BDA的步驟和階段對BDA方法進行分類。

美國計算社區協會出版的《大數據的機會與挑戰》白皮書指出BDA是一個多階段任務循環執行過程[4],從整體看,其分析的過程包括了五個階段,每一個階段都包含該階段需要使用的方法:①數據獲取及記錄,從各種感知工具中獲取的數據通常與空間時空相關,需要及時分析技術處理數據并過濾無用數據;②信息抽取及清洗,從異構數據源抽取有用信息,并轉換為結構化的格式;③數據整合及表示,將數據結構與語義關系轉換為機器可讀取、自動解析的格式;④數據建模及分析,從數據中挖掘出潛在規律及知識,涉及可擴展的挖掘算法或知識發現等方法;⑤詮釋,為了讓用戶容易解讀分析結果,可視化分析技術變得十分重要。此外,嚴霄鳳、張德馨[10]依照搜集、分析到可視化的流程,梳理了適用于大數據的關鍵技術,包括:遺傳算法、神經網絡、數據挖掘、回歸分析、分類、聚類、關聯規則、數據融合、機器學習、自然語言處理、情感分析、網絡分析、空間分析、時間序列分析等多種方法。

(3)面向信息技術視角的BDA方法分類。這類研究強調大數據技術本身涉及到的新型信息技術,將大數據處理架構、大數據計算模式、大數據系統等作為BDA方法分類的依據。

孟小峰、慈祥[11]著眼于大數據處理框架,梳理了數據抽取與集成、數據分析及數據解釋所使用的分析方法,在數據抽取與集成方面,可區分為基于物化(Materialization)或ETL的方法、基于聯邦數據庫或中間件的方法、基于數據流的方法以及基于搜索引擎的方法等四類;在數據分析方面,傳統的數據挖掘、機器學習或統計分析面臨數據規模、算法調整等困難,需進一步發展;在數據解釋方面,引入可視化技術或交互式的數據分析過程,有助于用戶理解分析結果。覃雄派等人[12]認為,非關系數據管理(如MapReduce)擴展了數據分析的多維視角,使數據分析的生態系統從“大量數據的移動”轉向“直接對數據進行分析”。

2012~2013年在印度召開了兩次BDA國際研討會[13-14],會上分別就BDA中的機器學習面臨數據規模與多維度問題、可擴展的機器學習算法(如隨機映射、隨機梯度下降等)、機器學習在MapReduce的應用、社交媒體數據挖掘(如話題檢測與跟蹤、地點推理、語義連接等)、高維數據降維分析(如主成分分析、因子分析、經典相關分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對分析(如特征提取、Iterative Methods)等進行了探討。2013年IEEE計算機協會在美國召開大數據國際研討會,BDA結合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

1.2 BDA方法的分類――面向層次的BDA方法框架

上述三種視角的BDA分類各有特點,都有一定的道理。從面向數據的視角來看,BDA方法正從統計(Statistics)轉向挖掘(Mining),并提升到發現(Discovery)和預測(Prediction)。基于流程的BDA分類則更能反映BDA過程的集成性(Integration),也就是說,在完成一項分析任務時,需要綜合使用多種方法。從面向信息技術的BDA分類中可以看出,這種分類方式強調使用新技術對傳統數據處理方法進行改進和創新,同時更重視新型系統架構與分析方法的集成,例如,各種數據挖掘算法的MapReduce化,就是這方面的典型實例。

本文認為,如果綜合上述三種分類體系中體現的層次性,將可以更準確描述BDA方法。在此,本文提出一個面向層次的BDA分類框架,將BDA方法分為統計、挖掘、發現、預測及集成五個層次,并初步歸納出17種BDA相關方法(見表1)。

2 BDA方法在情報研究中的適用性探討

如前所述,BDA與情報研究在本質上有共同之處,BDA方法可為情報研究提供借鑒,因此,探討BDA方法對情報研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報研究的分析對象特征、方法的可移植性[15]等因素,對本文所列舉的17種面向層次的BDA方法在情報研究中的適用性進行分析。

2.1 可直接移植的方法

可直接移植方法是指這些方法的原理、流程、算法等可以直接應用于情報研究,用來對情報研究的數據源(如科技文獻、網絡資源等)進行處理,解決情報研究過程中的一個或幾個步驟中要解決的問題。在本文所列舉的17種面向層次的BDA方法中,數據挖掘、文本挖掘、知識發現、觀點挖掘、話題演化分析、多元統計分析、時間序列分析、海量數據的基本統計方法、高維數據降維分析方法、多源數據融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報研究中已經有多年的應用歷史。

(1)數據挖掘與文本挖掘。數據挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發現技術,文本挖掘屬于基于計算機語言學及統計方法的發現技術,用來揭示文本中的詞與句法特征;數據挖掘以數據庫中的大量結構化的數據挖掘為基礎,用來揭示數據中潛在的、可能的數據模式及關聯規律[16]。在情報學領域的實踐應用中,數據挖掘多應用在圖書館自動化技術與服務方面,例如,館藏采購決策、個性化服務、信息檢索、讀者管理、館藏布局等。文本挖掘在情報研究的價值在于彌補了情報學專門分析方法對科技文獻內在知識挖掘不足的缺欠,例如,祝清松、冷伏海[17]為了解決引文分析方法無法揭示論文的研究內容這個問題,提出引文內容分析,先建立基于規則的引文內容抽取來識別引用句,再通過基于C-value多詞術語識別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語義信息與文獻之間的語義關系。

(2)知識發現。情報研究中所說的知識發現,主要是指基于文獻的知識發現,例如,張樹良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎上,提出了“基于文獻的知識發現”,包括:基于相關文獻、基于非相關文獻及基于全文獻三種條件下的知識發現,完整揭示文獻的知識結構與演化情況。在網絡環境下,李楠、張學福[19]認為關聯數據的RDF數據模型、數據訪問機制、URIs及自描述數據等規范所形成的數據共享環境,為知識發現提供了新的研究潛力,包括知識發現的范圍被擴展成全球數據空間、高效率理解及處理數據間的語義關系等。簡言之,知識發現從不同數據源之間的復雜關系中獲得隱含的知識或規律,甚至可對未來進行預測。

(3)觀點挖掘與話題演化分析。觀點挖掘與話題演化分析兩種方法實際上是數據挖掘及文本挖掘的具體及深化應用。觀點挖掘主要有三種挖掘任務:情感分類、基于特征的觀點挖掘、比較語句和關系挖掘[20],例如,黃曉斌、趙超[21]通過對網絡輿情信息的文本挖掘,找出不同民眾對某一社會事件的情緒、態度及觀點,再通過關聯分析找出網絡輿情信息的各種關聯性。趙潔、溫潤[22]認為微博情感分析的關鍵是觀點句識別,并根據文本特征的差異性,提出了基于新詞擴充和特征選擇的觀點句識別方法,即先擴充情感詞典來提高分詞準確率,再結合微博特征進行句子選取。話題演化分析方法是近年文本挖掘的研究熱點,借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語,表示為某一話題的集合,再引入時間信息模擬該話題隨著時間推移所表現的受關注程度及關注點的變化[23]。又例如,賀亮、李芳[24]利用LDA模型抽取科技文獻中的話題(即主題詞),再計算話題的強度與內容演化,從而區分熱門與冷門話題及其歷年特征詞的演化趨勢。

(4)多元統計分析與時間序列分析。多元統計分析與時間序列分析兩種方法也是情報研究常見的定量分析方法[25],前者研究客觀事物中多個變量(或多個因素)之間相互依賴的統計規律,后者則是基于隨機過程理論和數理統計學方法,研究動態數據序列的規律性。這兩種分析方法的一個重要特點在于能基于歷史數據的變化,評價事物現狀或預測事物未來的發展。

(5)海量數據的基本統計分析方法。海量數據的七種基本統計分析方法適用于情報研究的原因是,專家們普遍認為,在現有硬件技術條件下要開發一個海量數據分析系統的難度過高,且高性能計算領域也面臨許多困難,因而轉向尋找共通的基礎性計算方法來幫助運算[6],同時這些統計方法也經常應用于數據挖掘或文本挖掘。對情報研究來說,處理的數據量不及高性能計算領域的海量數據,因此可以容易地應用這些基本統計分析方法。盡管如此,隨著情報研究處理的文本量增加,包括文獻計量或信息計量方法在內的定量分析方法,仍然要經常借鑒基礎性的計算方法,并進行公式改進。

(6)高維數據降維分析方法。高維數據降維分析方法反映了海量的數值型數據在數據縮減的重要性,常見的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關分析、獨立成分分析、投影尋蹤等[26]。高維數據經常存在大量的弱相關內容或噪音,通過線性(如主成分分析、典型相關分析等)或非線性(如投影尋蹤、核方法等)映射可以將數據樣本從高維空間映射到低維空間,從而提高機器學習的效率[27-28]。情報研究在處理文本語料時,廣泛使用基于向量空間模型來表示文本,形成的高維特征集會對文本分類或機器學習的效果產生很大影響,通過特征選擇(如特征頻率、互信息等)進行特征抽取(如PCA、LSI、NMF等),轉換成一個低維的特征集來提高訓練效果,是非常必要的[29]。

(7)多源數據融合方法。多源數據融合方法是解決大數據環境下異構數據整合而提出的方法,例如,為了解決不同研究階段產生的各類科學數據集成問題,白如江、冷伏海[30]認為解決關鍵在于中間件構建,例如,通過基于XML模型將異構數據源的元數據映射到全局視圖,解決了不同數據源的關系描述問題,并提供用戶可靈活訂制查詢規則;但基于XML模型只能提供語法層次的整合,為了提供數據在語義層次的整合,可通過基于語義模型對XML的對象進行分類,在對象模型的基礎上生成邏輯規則,揭示隱含在科學數據中的語義信息。此外,也可以通過基于物化或ETL方法、基于數據流方法或其他方法對異構數據源中的數據抽取出實體與關系,再進行數據集成或數據清洗[11]。多源數據融合方法是進入數據分析之前的重要任務,對情報研究來說,需要多種來源支持情報分析工作,包括同型異源信息、異質異構信息、多語種信息等,都需要通過異源信息字段的映射、拆分、濾重、加權等進行融合分析[31]。

2.2 調整后移植的方法

調整后移植的方法是指其在原本的領域已經成功應用,但由于該方法最早或成功應用的領域在任務需求、數據處理、分析過程有自身的特點,若移植到情報研究時,需要根據情報研究自身的特征進行調整。數據可用處理及分析方法、時空數據分析等兩種分析方法就屬于這類情況。

(1)數據可用處理及分析方法。大數據環境中容易產生許多劣質數據來降低數據可用性,為了提高數據可用性及數據質量,李建中及劉顯敏[32]梳理了數種數據可用性的相關方法,包括高質量數據獲取與整合、數據錯誤自動檢測與修復、弱可用數據處理與分析等,分別解決了大規模數據集預處理階段常見的一致性、精確性、完整性、時效性及實體同一性等問題。對情報研究來說,情報素材、產品形式及工作任務分解的質量控制是情報工作的核心[33],其中,情報素材的質量對后續的情報分析成敗存在著至關重要的作用,當數據或信息是錯誤或不完整時,提煉出來的情報勢必會存在缺陷或錯誤。過去對情報研究的質量控制取決于人,如果能引入數據可用處理及分析方法解決數據或信息源可能存在的不一致、不精確、遺漏、滯后或重復等問題,有助于提高情報分析素材的可用性與正確性。

(2)時空數據分析。時空數據分析是地球信息科學相關領域的研究熱點,其中最常使用“周期”(Periodic Behavior)分析,例如天氣預報、環境監控、地理信息系統、城市交通網絡管理等都是常見的應用實例[7]。現有研究的多數做法是采取基于時間序列的方法進行周期建模,但建模過程容易出現對象可能沒有周期、時間點分布不一定呈現周期性等問題,為了解決這些問題,王閱等人[34]提出基于ERP的周期檢測方法解決周期長度定義問題,孟志青等人[35]提出多粒度時間文本下的周期模式挖掘算法解決時態文本數據挖掘問題。對情報研究來說,時間是文本中一個重要的屬性,如文獻發表規律、輿情監控、科研人員的研究主題周期等。在原有數據基礎上增加時間維度進行長時段分析是多數研究的常見做法,但并沒有呈現出其中的周期性規律,特別是文本中的規律特征較難發現,如果能引入此類方法,將有助于找出情報演化的周期模式。

2.3 不適用的方法

考慮學科領域差異,本文認為 “翻譯生物信息學分析”及“學習分析方法”兩種專門研究方法不適合情報研究。

(1)翻譯生物信息學分析。翻譯生物信息學分析是生物信息學的專門分析方法,這種方法是依據特定目的整合多數據源及促進領域知識的有效利用,其結果可應用在生物醫學研究、產生支持醫療人員在治療點中的“可操作的決策”(Actionable Decision),同時能對人類與疾病的關聯關系提供更好的理解。生物信息學為了找出更多基因與疾病的關系,通過翻譯生物信息學分析,可以將分析方法與工具開發從系統層面橫跨到分子、個人或全人類層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉向新基因或遺傳性狀組合與預測研究[36]。從分析方法的操作過程來說,考慮到數據源的特殊性(如DNA編碼數據、蛋白質結構等)、分析視角、工具構建及使用等因素,并不符合情報學的學科研究特色。

(2)學習分析方法。學習分析方法是搜集、分析及評測學習者及其學習語境的分析方法,目的在于理解與優化學習及其學習環境[8]。從UNESCO IITE機構在2012年11月出版的學習分析方法政策簡報可知,學習分析方法的數據分析功能是基于數據挖掘從而開展相關分析內容,包括行為分析、學習資源瀏覽分析、各種關聯分析與影響因素分析等。雖然數據挖掘是情報研究的常見方法,但學習分析方法的結果意義在于解釋學習者的學習語境,為教師或管理者提供決策支持,從而改善學習者的學習習慣及促進學習效果。由于這種方法有其特定的含義和應用環境,離開了學習語境,方法的內涵和外延可能就會產生變化,因此,難以移植到情報研究。

2.4 需要繼續關注的方法

基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務智能分析,是近年研究探討較多的方法,但目前尚未形成一個成熟且完善的方法體系,例如,MapReduce或Hadoop等之類的工具還在持續發展中,本身也存在不斷的改進空間,它們與各種分析方法的集成缺乏公認的標準和規范,同樣地,對于關注圖像與事物之間關聯的圖模型分析與挖掘也尚沒有發展出固定的技術,又例如,商務智能分析被定義為由數據倉庫、ETL、聯機分析、數據挖掘、客戶關系管理、知識管理等多種技術融合的一組系統,通過BI系統管理組織內部及個人相關的商業數據、專家信息及知識,涉及數據的融合、取用及分析等方法與工具[37-38],目前也沒有標準化的體系架構。

因此,本文還無法明確回答上述三種方法將如何應用于情報研究、在應用過程中需要做哪些調整、這些方法與現有的情報研究方法的關系如何等相關問題,但可以肯定的是,這些方法對未來的情報研究具有借鑒價值,例如,一旦情報研究的處理對象(即數據)積累到了一定程度,成為傳統關系數據庫處理不了的大數據,那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補充情報研究在圖像分析的不足,而商務智能分析可理解為一套集成系統,可應用在情報機構的知識庫或機構典藏,找出組織的知識缺口等方面。

3 結語

大數據時代就是一個數據分析的時代,學界和業界提出了很多大數據分析的方法與技術,這些方法與技術對情報研究產生了積極的借鑒作用,本文總結了大數據分析的方法,提出面向層次的BDA方法框架,歸納總結了其中的17種BDA方法,并從可直接移植、將調整后移植、不適用于情報研究以及需要繼續關注等四個方面對這些方法在情報研究中的適用性進行了分析,以期為情報研究借鑒或移植BDA相關方法提供參考,促進情報研究的理論與實踐發展。

參考文獻:

[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.

[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.

[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.

[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.

[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.

[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.

[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.

[8]魏順平. 學習分析技術:挖掘大數據時代下教育數據的價值[J]. 現代教育技術,2013, 23(2): 5-11.

[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.

[10]嚴霄鳳,張德馨. 大數據研究[J].計算機技術與發展, 2013, 23(4): 168-172.

[11]孟小峰,慈祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展,2013, 50(1): 146-169.

[12]覃雄派,王會舉,杜小勇,等. 大數據分析――RDBMS與MapReduce的競爭與共生[J].軟件學報,2012, 23(1): 32-45.

[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.

[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.

[15]王煉,武夷山. 方法移植對科學計量學研究的方法論啟示[J]. 科學學研究,2006, 24(4): 503-507.

[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.

[17]祝清松,冷伏海. 基于引文內容分析的高被引論文主題識別研究[J]. 中國圖書館學報,2014,(1):39-49.

[18]張樹良,冷伏海. 基于文獻的知識發現的應用進展研究[J]. 情報學報,2006, 25(6): 700-712.

[19]李楠,張學福. 基于關聯數據的知識發現應用體系研究[J]. 圖書情報工作,2013,(6):127-133.

[20]王輝,王暉昱,左萬利. 觀點挖掘綜述[J]. 計算機應用研究,2009,26(1):25-29.

[21]黃曉斌,趙超. 文本挖掘在網絡輿情信息分析中的應用[J]. 情報科學,2009:(1): 94-99.

[22]趙潔,溫潤. 基于新詞擴充和特征選擇的微博觀點句識別方法[J]. 情報學報,2013,32(9): 945-951.

[23]單斌,李芳.基于LDA話題演化研究方法綜述[J]. 中文信息學報,2010, 24(6): 43-49.

[24]賀亮,李芳. 科技文獻話題演化研究[J]. 現代圖書情報技術,2012,(4): 61-67.

[25]查先進.信息分析[M].武漢:武漢大學出版社,2011.

[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.

[27]胡潔. 高維數據特征降維研究綜述[J]. 計算機應用研究,2008,(9): 2601-2606.

[28]吳曉婷,閆德勤. 數據降維方法分析與研究[J]. 計算機應用研究,2009,(8):2832-2835.

[29]陳濤,謝陽群. 文本分類中的特征降維方法綜述[J]. 情報學報,2005,24(6): 690-695.

[30]白如江,冷伏海. “大數據”時代科學數據整合研究[J]. 情報理論與實踐,2014, 37(1): 94-99.

[31]化柏林. 多源信息融合方法研究[J]. 情報理論與實踐,2013,(11): 16-19.

[32]李建中,劉顯敏. 大數據的一個重要方面:數據可用性[J].計算機研究與發展,2013,50(6):1147-1162.

[33]王延飛,王林蘭. 論情報研究質量[J].圖書情報工作,2010,54(10):35-39.

[34]王閱,高學東,武森,等. 時間序列周期模式挖掘的周期檢測方法[J]. 計算機工程,2009, 35(22): 32-34.

[35]孟志青,樓婷淵,胡強.多粒度時間文本數據的周期模式挖掘算法[J]. 計算機科學,2013,(S2): 251-254.

[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.

[37]Negash S. Business intelligence[J]. Communications of the Association for Information Systems,2004,13(1):177-195.

第12篇

為有效提高非結構化Web金融文本情感傾向和強度分析的精度,提出了基于語義規則的Web金融文本情感分析算法(SAFT-SR)。該算法基于Apriori算法對金融文本進行屬性抽取,構建金融情感詞典和語義規則識別情感單元及強度,進而得到文本的情感傾向和強度。實驗結果表明,與Ku提出的算法相比,在情感傾向分類方面,算法SAFT-SR情感分類性能良好,提高了分類器的F值、查全率和查準率;在情感強度計算方面,算法SAFT-SR的誤差更小,更接近真實評分,證明了SAFT-SR是一種有效的金融文本情感分析算法。

關鍵詞:Web金融文本;情感詞典;語義規則;情感分析;情感傾向

中圖分類號: TP391

文獻標志碼:A

Sentiment analysis on Web financial text based on semantic rules

Abstract:

In order to effectively improve the accuracy of sentiment orientation and intensity analysis of unstructured Web financial text, a sentiment analytical algorithm for Web financial text based on semantic rule (SAFT-SR) was proposed. The algorithm extracted features of financial text based on Apriori, constructed financial sentiment lexicon and semantic rules to recognize sentiment unit and intensity, and figured out the sentiment orientation and intensity of text. The experimental results demonstrate that SAFT-SR is a promising algorithm for sentiment analysis on financial text. Compared with Kus algorithm, in sentiment orientation classification, SAFT-SR has better classification performance and increases F-measure, recall and precision; in sentiment intensity analysis, SAFT-SR reduces error and is closer to expert mark.

Key words:

Web financial text; sentiment lexicon; semantic rule; sentiment analysis; sentiment orientation

0 引言

截至2012年末,我國已擁有超過2494家A股上市公司,然而隨著全球金融市場的動蕩,股票市場管理與優化及企業財務危機預測成為研究的熱點。目前,大部分企業財務危機預測研究是基于財務報表數據來建立金融危機預測模型,但財務報表有以下缺點[1]:1)報表人為操作性強;2)基于靜態數據,忽略了企業財務比率的時間序列特點;3)實效性較差;4)未考慮財務比率的歷史累積值對現時的影響。因此,單純利用財務報表進行判斷,勢必會造成預測結果的偏差。

財務報表和金融數據的局限性,使得人們尋求從其他角度著手于股票市場管理和企業財務危機的預測和研究。隨著Internet的高速發展,Web信息量得到了前所未有的增長,公眾在互聯網上自己對企業的看法已司空見慣,普通投資者的情感傾向是聯系投資者與股票市場、上市公司的橋梁,Web新聞或論壇對上市企業的評論可以直接反映出公眾對該企業的看法。Web金融信息所具有的實時性、全面性和覆蓋性等特點,不僅為財務危機預測研究提供了新的機遇,也為投資者情感分析提供了廉價且豐富的數據來源。由于Web金融信息是非結構化的文本信息,并具有領域知識,因此,如何對其進行深入挖掘,發現其中的情感傾向和強度,對文本挖掘提出了新的挑戰。

本文基于語義規則,對Web金融文本進行情感分析,挖掘投資者的情感傾向和強度,并對投資者情感強度變化與股票市場之間的聯動關系展開分析,可以為企業財務危機預測和股票市場管理與優化提供新的思路與選擇。

1 相關工作

文本情感分析就是對帶有情感色彩的詞語、句子以及文本進行分析、處理、歸納和處置的過程[2]。文本情感分析可分為基于機器學習的分類方法和基于語義分析的方法兩大類。運用機器學習的方法進行文本分類,先人工標注一些文本的情感傾向,作為訓練語料,然后通過訓練得到一個分類器,最后將測試語料用已訓練好的分類器進行分類測試,得到文本的情感傾向。Pang等[3]運用樸素貝葉斯網絡、最大熵模型和支持向量機三種分類器對于影評進行了分類研究。Cui等[4]實驗證明,當訓練語料較少時,uni-gram的效果最優,隨著訓練語料的增多,n-gram(n>3)效果較好。

基于語義的情感傾向分析研究是對文本計算一個情感傾向值,值的符號表示其傾向性,而其絕對值的大小則反映其情感強度。基于語義的情感傾向分析又分為兩類:基于情感詞的文本傾向性分析和基于語義規則的文本傾向性分析。基于情感詞的文本傾向性分析首先抽取出文本中的情感詞,然后對情感詞逐一進行情感傾向判斷,得到各自的情感傾向值,最后通過累加這些傾向值獲得文本最終的情感傾向和強度。代表性的研究有:Turney[5]運用點互信息和潛在語義分析方法計算目標詞匯和種子詞之間的關聯度,進而得出目標詞匯的傾向性;Yuen等[6]在Turney研究的基礎上,對中文極性詞的自動獲取進行了研究;朱嫣嵐等[7]利用HowNet提供的語義相似度和語義相關場,計算目標詞匯與已標注褒貶性的種子詞之間的相似度,提出了詞語傾向性判斷方法。基于語義規則的文本傾向性分析首先建立一個情感傾向語義模式庫,然后將文本按照這個語義模式庫進行模式匹配,計算得到一系列情感傾向值,最后將這些傾向值進行累加,得到整個文本的情感傾向和強度。代表性的研究有:Wiebe等[8]對語料庫標注了級別(文檔級、短語級和句子級),在此基礎上,利用詞語的搭配模式發現文本中的傾向性詞語及其搭配關系;Wilson等[9]研究證實了合并語言信息能顯著地改進了細粒度情感分析的性能;Takamura等[10]提出了Latent Variable Models用于短語的語義傾向性研究;Matsumoto等[11]從組成或依賴結構抽取子串改善句子層模型的性能;Ku等[12]對新聞和博客文本從詞級、句子級和文檔級進行了意見抽取,得出觀點摘要,進而對文本進行情感傾向和強度分析。

從已有研究可以發現,文本傾向性分析已引起了學者們的普遍關注,但尚未被廣泛應用于金融領域。Pang的研究表明,在情感傾向性研究中,統計方法的準確率要高于機器學習方法。因此,本文立足于基于語義的情感傾向性研究,針對Web金融文本的特點,充分考慮句子中否定詞和程度副詞對文檔極性轉移的作用及其不同權重,提出了一種基于語義規則的Web金融證券域文本情感分析方法,并在此基礎上,對投資者情感變化與股票市場之間的聯動關系展開分析。

2 基于語義的Web金融文本情感分析

2.1 總體框架

Web上的金融文本主要分為兩大類:一類是各金融網站的新聞、專家評論、公告等;另一類是各股吧論壇中的用戶評論帖子。其中,第二類信息,即普通投資者所的信息更能夠反映投資者的情感傾向,因此本文選取股吧論壇中的用戶評論帖子作為研究對象,在對Web金融文本進行預處理、分詞和詞性標注后,提取情感詞以及可以影響情感傾向的副詞和否定詞等,通過定義語義規則進行匹配,計算文本情感傾向和強度。情感傾向值計算包含以下幾步:1) 文本預處理;2)文本屬性(特征)提取;3) 金融情感詞典構建;4) 語義規則構建;5) 基于語義規則的情感單元識別和情感值計算;6) 整篇文檔的情感傾向值計算。總體框架如圖1所示。

2.2 Web金融文本采集

投資者情感來源于網絡輿論,包括股吧論壇、博客、微博、社交網站等多種媒體形態,因此數據的采集應考慮大型金融類論壇,研究選用東方財富網論壇投資者評論文本。在文本采集方面,采用網絡蜘蛛進行收集。

2.3 文本預處理

2.3.1 網頁解析及噪聲消除

對下載生成的網頁文件,編寫Java程序,解析文件,將解析結果導入到數據庫中以備后續查詢與分析使用,保留的主要字段有股票代碼、發表時間、標題、內容、點擊量和回復量等信息。

去除噪聲文本的方法如下:人工選取有效帖,統計有效帖文件大小、點擊量、回復量等帖子特征,統計分析有效帖各特征的合理范圍,依據該統計特征去除噪聲文本,減小后續數據處理的壓力。

2.3.2 中文分詞和詞性標注

研究以在線評論中的句子為單位,首先對得到的評論語料進行斷句處理,按照評論中出現的標點符號(分號、句號、問號、嘆號等),空格符等進行斷句;同時應用中國科學院分詞器ICTCLAS3.0,對評論文本中的句子進行分詞和詞性標注。

2.4 屬性提取

經過噪聲處理的文本信息仍然不能滿足對情感分析的需要,因為這里面依然含有大量的與上市公司屬性無關的描述,這些描述可能含有情感,但是與主題無關,不能計入對上市公司的情感傾向計算。因此,首先應提取上市公司屬性(特征),后續只對上市公司屬性(特征)所在的句子進行情感分析,以此排除噪聲信息的干擾。

設計了一個基于Apriori算法的屬性提取算法FEAA(Feature Extraction Algorithm based on Apriori),針對股吧金融文本信息特點,實現從海量文本信息中挖掘投資者情感關注的屬性詞,具體算法如下:

算法1 基于Apriori算法的屬性提取算法。

輸入 所有評論文本;

輸出 金融文本關鍵屬性(特征)。

1)對股吧評論信息進行中文分詞及詞性標注,創建關聯規則事務文件I;

2) 基于Apriori算法從事務文件I中,找到頻繁項集作為候選特征集合I0;

3) 將I0按照鄰近規則修剪,成為候選特征集合I1;

4) 將候選特征集合I1按照獨立支持度規則繼續修正,形成候選特征集I2;

5) 對I2中頻繁項名詞進一步過濾,去掉非屬性名詞(如專有名詞、時間名詞、人稱名詞、口語化名詞等)和單字名詞,過濾形成I3;

6) 對未包含在I3中的非頻繁項屬性名詞,人工補充形成I4,得到金融文本關鍵屬性集合。

完成屬性提取后,將重點對含有屬性詞的句子進行情感傾向分析,從而去除無關信息對投資者情感傾向分析的干擾。

2.5 情感詞典構建

針對Web金融文本的特點,構建了一個包括基礎詞典、領域詞典、網絡詞詞典以及修飾詞詞典的情感詞典。

1) 基礎詞典。

基礎詞典主要利用了《知網》、《情感詞典》和《學生褒貶義詞典》提供的褒貶義情感詞語,通過去重之后作為基礎情感詞典。

2) 領域詞典。

某些極性詞只在特定的領域才被使用,且具有情感傾向,如“漲停”“利多”;還有一些極性詞在不同的領域修飾不同的特征時會表現出不同的情感,例如“升高”在描述工資收入時是褒義的,而在描述利率時對股票市場就是不利消息,可看成是貶義。本文利用常用的證券操作詞匯表,提取具有情感傾向的詞語進行人工篩選,構建了一部股票投資領域的情感詞典。為了提高情感分析的準確性,還選取一定規模的股吧評論語料,抽取情感詞進行人工標注,也加入領域詞典。

3) 網絡詞詞典。

大量涌現的網絡用語,在一段時間內常被用來表達人們的情感傾向。因此,把使用頻繁且帶有情感傾向的網絡用語加入所構建的情感詞典中來,以滿足對網絡評論信息情感分析的需要。

4) 修飾詞詞典。

當程度副詞或否定副詞修飾情感詞時,整個情感的情感極性和強度都可能發生變化,因此構建了一個包括否定副詞和程度副詞的修飾詞詞典。根據文獻[13]中對否定副詞范圍的界定,選取31個否定副詞,采用藺璜等[14]對程度副詞的分類,并結合《知網》中程度副詞,選取了212個程度副詞。

5) 情感詞典擴展。

對于文本中的新詞,即在以上構建的情感詞典中檢索不到的候選情感詞,基于點互信息的算法對情感詞典進行進一步擴展。

經過以上步驟,構建的情感詞典含有31個否定副詞,212個程度副詞,21333個情感詞語,其中7779個正面情感詞語,13554個負面情感詞語。

2.6 情感傾向和強度分析

基于語義規則的Web金融文本情感分析算法(Sentiment Analysis Algorithm for Web Financial Text Based on Semantic Rule, SAFT-SR)的基本思想是:對文本中的每個存在關注屬性(特征)的句子,按照預設的語義規則,計算情感分析單元的情感強度,將這些情感分析單元的情感強度進行累加,求得平均值作為句子的情感傾向,然后對句子情感強度進行累加求平均,作為整個文本的情感傾向和強度。

基于極性累加判斷句子的情感強度的算法流程如下:首先對待分析文本進行中文分詞和詞性標注,若文本中句子不包含屬性詞和其相關的情感詞(正向情感詞或者負向情感詞),則認為這些句子是中性的,不進行分析,對文本中含有屬性詞及相關情感詞的每一個句子S:sw1,sw2,…,swm,其中swj表示句子S中所包含的第j個屬性詞所在的情感分析單元,m表示句子S中擁有的屬性詞的數量,則有:

表1中,PW代表正向情感詞,NW代表負向情感詞,NA代表否定副詞,DA代表程度副詞,U表示情感分析單元,E(PW)、E(NW)和E(NA)分別代表正向情感詞、負向情感詞和否定副詞的情感強度。根據程度不同,程度副詞的情感強度L(DA)分別設定為0.9,0.7,0.5和-0.5。

若整篇文章包含n個情感句,則篇章情感強度計算可以通過篇章中每個句子的情感強度計算得到,如式(2)所示:

其中:E(T)代表篇章的情感值,由篇章中情感句的平均強度決定;E(Si)是每個情感句的情感強度。基于語義規則的Web金融文本情感分析算法如算法2所示。

算法2 基于語義規則的Web金融文本情感分析算法。

輸入 金融評論文本;

輸出 文本情感傾向和強度值。

1) 文本預處理(分詞和詞性標注);

2) 調用基于Apriori算法的屬性提取算法(FEAA)抽取出屬性(特征);

3) 識別出文本中包含屬性詞和其相關的帶有情感詞的句子;

4) 對每個情感句,按照表1識別出情感計算單元;

5) 按照表1和式(1),計算情感句中的每個情感計算單元的情感值并求得每個情感句的情感值;

6) 按照式(2),計算整篇文檔的情感值,得出篇章情感傾向和強度。

3 實驗及數據分析

3.1 實驗數據集

實驗數據選取國內最有影響力的財經金融論壇——東方財富網股吧作為文本來源,借助MetaSeeker的兩個組件MetaStudio和DataScraper來實現網頁的下載,采集2010年10月至2012年5月,滬深300成分股的股吧1000多萬個評論帖子作為原始信息數據。

預處理按照2.3.1節提出的方法進行統計分析,獲取有效帖的統計特征,按照所獲取的特征,將文件容量小于4KB或大于100KB的文件作為噪聲帖排除掉;另外通過對股吧評論信息關注特征分析,確定把點擊量小于100或者回復量等于零的帖子判定為噪聲帖。由此,得到了30萬有效帖,為了減少后續人工標注的工作量,隨機從30萬帖子中抽取1萬帖子作為實驗數據集。

3.2 數據集標注

選取熟悉領域知識的3個人作為文本情感標注者。將3人中多數人的標注結果作為最后的標注結果。標注完成后,進行標注者間信度分析,然后合并標注后的結果,確定最終結果。表2給出了3個標注者兩兩間標注相同的百分比和三者標注一致的百分比。

從表2可以看出,標注者間的一致率還是比較高的,主要是因為金融文本的情感傾向一般比較明顯。然而隨著標注者數目的增加,一致標注的相同率會有所下降。由于只考慮文本的情感傾向,所以剔除了中性的標注結果。最后,實驗數據集中只包含了5172條情感傾向為正的文本和3639條情感傾向為負的文本。

3.3 情感傾向和強度評測

3.3.1 情感傾向評測指標

在情感傾向評測中選擇了查全率(Recall)、查準率(Precision)和F值(F-measure)三個指標來進行評價。查全率反映了一個分類器的泛化能力,查全率高說明這個分類器能夠把正確的類別識別出來。查準率反映了一個分類器對于類別的區分能力,查準率越高,表明分類器識別出的正確分類數與總分類數差距不大,即識別的錯誤率較低。F值(F-measure)將查全率和查準率一并列入新的綜合評價指標。參見表3,正向文本查全率和查準率,負向文本查全率和查準率及相應的F值的定義如下。

3.3.2 情感強度評測指標

在情感強度評測方面,之前標注者在標注時不僅標注情感傾向,同時也標注情感強度,選擇將情感傾向標注的多數(兩位或三位)作為最后情感傾向,并將其標注(兩位或者三位)情感值的平均值作為文本最后的情感強度。算法SAFT-SR的結果與標注結果間的誤差計算如式(9):

其中:D(T)表示算法結果和專家標注之間差值的平均值,D(T)值越小,說明算法結果越接近專家標準,反之就越偏離專家標準;n是總的文本個數;E(Ti)是算法SAFT-SR計算出來的第i個文本的情感強度;C(Ti)是專家標注的第i個文本的情感強度。由于D(T)考慮文本中所有情感單元強度計算結果和專家標注結果之間差異的平均值,因此能較好地反映算法計算結果與標注結果之間的誤差。

3.3.3 實驗結果及分析

使用本文算法SAFT-SR和Ku算法[12]在上述數據集上分別進行實驗。表4和圖2分別給出了本文算法SAFT-SR和Ku算法對文本情感傾向判斷的結果。

從表4和圖2可以得出,本文算法在正向文本上的F值是85.26%,相對于Ku算法的72.31%提高了12.95%,正向文本查全率86.62%和正向文本查準率83.94%,相對于Ku算法的正向文本查全率73.49%和正向文本查準率71.17%分別提高了13.13%和12.77%。本文算法在負向文本上的F值是78.22%,相對于Ku算法的59.05%提高了19.17%,負向文本查全率76.45%和負向文本查準率80.08%,相對于Ku算法的負向文本查全率57.68%和負向文本查準率60.49%分別提高了18.77%和19.59%。結果表明本文算法較Ku算法整體提高了情感傾向的識別精度,這是因為Ku算法在句子情感傾向計算時只進行簡單的詞匯情感統計或只是考慮到否定副詞的修飾關系,并沒有對其中的程度副詞及句子的模式進行更深入的剖析,并且沒有設計基于金融領域的情感詞典。

由于滬深300包含了300支股票,限于篇幅,表5只列舉了兩個算法在前四支股票評論文本和所有股票評論文本情感強度上的D(T)計算結果和專家的評分。通過對表5中結果比較可以發現,對于單支股票評論的情感強度,在前四支股票上,僅在南玻A一支股票上,Ku算法略微好于本算法,而在其余三支股票上,本算法都好于Ku算法,情感強度誤差值更小。對滬深300所有股票來說,在大多數情況下,Ku算法比本文算法的誤差大,在所有股票評論文本上Ku算法的平均誤差較SAFT-SR高了0.067,說明本文算法SAFT-SR計算的情感強度更接近專家評分,原因在于SAFT-SR算法考慮了文本金融領域的特點,且設計的語義模式更加符合人的理解模式。

3.4 情感強度對股市影響效應分析

由于投資者情感強度的對數近似服從正態分布,因此對投資者情感強度的對數(ln(ISI))與股票市場特征變量的關系進行相關性分析,考察2010年10月至2012年5月,投資者情感強度與滬深300指數的對數(ln(price))、日成交量的對數(ln(volume))、日換手率(turnover)、日波動率(volatility)和日收益率(DR)等指標之間的相關系數,相關性分析結果如表6所示。

從表6可以看出,投資者情感強度(取對數)與滬深300指數(取對數)呈正相關,相關系數為0.252;投資者情感強度(取對數)與日成交量(取對數)呈正相關,相關系數為0.358;投資者情感強度(取對數)與日換手率呈正相關,相關系數為0.319;投資者情感強度(取對數)與日波動率呈正相關,相關系數為0.346;投資者情感強度(取對數)與日收益率呈顯著正相關,相關系數為0.432。在所有股市特征指標中,投資者情感強度與股市收益率的相關系數最大,也最為顯著。因此可以認為,投資者情緒與股票市場價格和成交量呈正相關。

4 結語

本文基于語義規則的文本傾向性分析技術,對非結構化的Web金融文本進行情感傾向和強度分析,構建了金融情感詞典和語義規則,提出了基于Apriori的金融文本屬性抽取算法(FEAA)和基于語義規則的Web金融文本情感分析算法(SAFT-SR)。實驗結果表明,與Ku提出的算法比較,在情感傾向分類方面,本文算法SAFT-SR的F值、查全率和查準率均有較大提高;在情感強度計算方面,本文算法較Ku算法的誤差更小,更接近真實評分。在今后的研究工作中,將進一步完善語義規則和情感詞典,以進一步提高情感傾向和強度的計算精度。

參考文獻:

[1] LI G. Sentiment computation of Web financial text based on semantic analysis[D]. Nanchang: Jiangxi University of Finance and Economics, 2012.(李國林. 基于語義分析的Web金融文本信息情感計算[D]. 南昌: 江西財經大學, 2012.)

[2] ZHAO Y, QIN B, LIU T. Sentiment analysis[J]. Journal of Software, 2010, 21(8): 1834-1848.(趙妍妍, 秦兵, 劉挺. 文本情感分析綜述[J]. 軟件學報, 2010, 21(8): 1834-1848.)

[3] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning techniques[C]// Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2002,10: 79-86.

[4] CUI H, MITTAL V, DATAR M. Comparative experiments on sentiment classification for online product reviews[C]// Proceedings of the 21st National Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2006,2: 1265-1270.

[5] TURNEY P D. Thumbs up or thumbs down? semantic orientation applied to unsupervised classification of reviews[C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2002: 417-424.

[6] YUEN R W M, CHAN T Y W, LAI T B Y, et al. Morpheme-based derivation of bipolar semantic orientation of Chinese words[C]// Proceedings of the 20th International Conference on Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2004:1008-1014.

[7] ZHU Y, MIN J, ZHOU Y, et al. Semantic orientation computing based on HowNet[J]. Journal of Chinese Information Processing, 2006, 20(1):14-20.(朱嫣嵐, 閔錦, 周雅倩, 等. 基于HowNet的詞匯語義傾向計算[J]. 中文信息學報, 2006, 20(1):14-20.)

[8] WIEBE J, BREUCE R, BELL M, et al. A corpus study of evaluative and speculative language[C]// Proceedings of the 2nd ACL SIGdial Workshop on Discourse and Dialogue. Stroudsburg: Association for Computational Linguistics, 2001,16: 1-10.

[9] WILSON T, WIEBE J, HOFFMANN P. Recognizing contextual polarity in phrase-level sentiment analysis[C]// Proceedings of the 2005 Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2005: 347-354.

[10] TAKAMURA H, INUI T. Latent variables models for semantic orientation of phrases[C]// Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics. Tokyo: Fuji Press, 2006: 201-208.

[11] MATSUNOTO S, TAKAMURA H, OKUMURA M. Sentiment classification using word sub-sequences and dependency sub-trees[C]// Proceedings of the 9th Pacific-Asia Conference on Knowledge Discovery and Data Mining. Berlin: Springer, 2005: 301-310.

[12] KU L W, LIANG Y T, CHEN H H. Opinion extraction, summarization and tracking in news and blog corpora[C]// Proceedings of the 2006 AAAI Symposium on Computational Approaches to Analysing Weblogs. Menlo Park: AAAI Press, 2006: 100-107.

主站蜘蛛池模板: 荥阳市| 天台县| 鹤峰县| 南投市| 白玉县| 延吉市| 湘乡市| 西青区| 通州市| 丰县| 永安市| 南城县| 兖州市| 宁远县| 桑植县| 寿宁县| 资溪县| 新绛县| 彰化县| 富民县| 团风县| 霍邱县| 嘉荫县| 蒲城县| 南宁市| 峡江县| 兰坪| 普定县| 宁津县| 紫云| 万盛区| 莆田市| 临漳县| 遵义县| 抚远县| 雷山县| 庐江县| 渭源县| 娄底市| 天祝| 北流市|