時間:2022-12-16 03:17:21
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇文本分析,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
關鍵詞:《日常用品》 詞匯 句子 修辭 語篇
《日常用品》塑造了代表傳統文化的母親和代表現代風格的女兒的不同形象,圍繞如何理解和繼承祖傳的被子展開情節,反映了由種族問題引起的家庭矛盾。小說借母女沖突表達了這樣一個主題:繼承民族文化傳統的意義在于深刻地認識理解其文化內涵,而不是浮于表面、流于形式。小說體現出作者難以釋懷的黑人情結和沉重的焦慮,這也是作者自我意識的彰顯。
一. 詞匯方面
1.形容詞層面
文中第十三段是形容詞所占比例最高的一段,共138個單詞,其中形容詞共計13個,約占整段字數的9.4%。這些形容詞都是簡單詞匯,其中,good一詞重復使用了三次。小說采用第一人稱的敘述方式,文中的“I”代表的是一位受教育程度不高的黑人母親。基于這一點,就不難理解作者為何用詞如此簡單。此外,該段中主人公在對自己和自己的女兒進行描述時采用的是中性形容詞,而對準女婿的描述時,她用mossy來形容他的牙齒,用earnest來形容他的臉,可見主人公對女婿持有偏見或不甚喜歡。
2.副詞層面
整篇小說中副詞并不多,always一詞出現的頻度相對很高。在對Dee進行描述時,接連用了多達4個always。Always不僅表示頻率很高,還能輔助表達作者蘊含的某種特定的感彩。在此文段中always的頻繁使用表達了母親對女兒很多行為的不解甚至是反感。
二. 句子層面
1. 句子類型
《日常用品》中多為短句和簡單句,少有長句、復雜句和倒裝句。在母親和女兒Dee的對話中,70%以上都是疑問句而且大部分是反問句,這些問句多由母親向女兒發出且幾乎都是由“Why don’t you”或“Don't you”引導的,語氣非常強烈甚至是憤慨,帶有很明顯的責備和命令的意味,這可以很好地體現母親對女兒不同價值觀的否定,以及對女兒強烈的控制欲和指導欲,很好地刻畫出母親的威嚴形象和對女兒的殷切期盼。
2.詞組類型
在不足一百個單詞的第十一段中,介詞詞組就有七個,占單詞數約30個,占到約整段的30%。其中,有四個是由with引導的作方式狀語的介詞詞組。這些詞組體現出Dee對待家人不甚關心,以自我為中心,不顧及他人感受,這也很形象地反映出她身上體現出的對黑人文化傳統的反叛和對白人文化及生活的熱切期盼和忘本式地追求。
三. 修辭方面
1. 明喻的大量使用
作者在整篇小說中使用了大量的明喻,其中大部分都是由like或as引導的,這也是對文章的敘述者――黑人母親的文化程度的再次體現。在第十九段中有這樣一句:“Hair is all over his head a foot long and hanging from his chin like a kinky mule tail”。這里是對Dee的男朋友的描述,說他的頭滿整個腦袋足足一英尺長,從他的下巴懸吊下來活像卷曲的騾子尾巴。明顯,把頭發比作騾子尾巴這個比方很古怪,可見母親對女兒男友的形象并不滿意。在第五段中有這樣一句:“I can kill and clean a dog as mercilessly as a man”, 母親把自己與男人作比,來凸顯自己干活時的強悍和粗獷,她認為只有男人才能干那些很粗糙費勁的活兒,這體現了母親潛意識里的性別差異觀念。
2. 擬人的適當運用
擬人是指把物擬作人,使其具有人的外表、個性或情感的修辭手段。擬人可以通過形容詞、動詞或名詞表現出來。第十三段有這樣一個擬人句“Like good looks and money, quickness passed her by”.這里,賦予了長相,錢財和敏捷的思維以人的動作“pass by”,這樣不僅使句子更加生動,達到詼諧幽默的效果。同時,也很好地流露出母親對女兒Maggie心懷遺憾,在她看來,Maggie不如Dee那樣迷人和聰明是因為運氣不好,是老天對她不公。由此可見母親看待事物的主觀性,進一步體現了她的文化程度不高,不能客觀地看待和分析事物。
四. 篇章語境方面
小說采用第一人稱的敘述方式,從黑人母親的角度展開敘述。第一人稱的敘述方式不如第三人稱的敘述角度那樣客觀,但是后者不及前者那樣具有感染力。閱讀過程中,讀者很容易將自己主人公化,化身成為那位黑人母親,因而能更深切地體會到黑人母親對女兒的不解和失望,但同時又不甘于妥協,極力想改變女兒已形成的價值觀。母親和女兒之間的沖突僅僅是一個縮影,作者真正想反映的是非裔黑人在尋根文化、傷痛文化與現代白人文明的沖擊與滌蕩中的苦痛掙扎和文化身份認同,構擬出一幅在深沉厚重的歷史文化遺產面前迷惘和抗爭的畫面。
參考文獻:
【關鍵詞】繪本作品;文本分析;教學活動
【中圖分類號】G610 【文獻標識碼】A 【文章編號】1005-6017(2013)11-0030-03
【作者簡介】華希穎(1972-),女,上海人,南京曉莊學院教師,南京師范大學學前教育學博士。
在幼兒園早期閱活動中,越來越多的教師選擇使用繪本進行教學。當前,有關繪本教學的研究正逐步深入,但隨之產生的問題也開始浮現。在一些公開課的觀摩活動中,執教者往往對繪本作品內容的閱讀一帶而過,而更熱衷于表現作品附帶的“多元發展價值”。于是,讓很多教師困惑不解的是,繪本的教學有點像“美術活動”,有點像“社會活動”,甚至還有點像“科學活動”,但好像已經不是“閱讀活動”了。
作為一種文學藝術樣式,繪本能表現廣泛的人類文化活動,它對兒童(包括成人)的確有著多元發展價值。就文學的價值和功能而言,公元前六世紀孔子提出了“興觀群怨”說,認為文學可以使人的精神感動奮發、了解社會生活、增進社會交往、怨刺上政。西方文論也認為文學可以凈化、愉悅人的心靈,介入社會生活、實現精神的替代性滿足等。在當代文論中,通常把文學的這些價值和功能概括為審美、認識、教育及娛樂功能。[1]兒童文學作品、包括繪本同樣具備文學的這四種功能,對兒童成長和發展具有獨特的意義。幼小的孩子通過閱讀感到心情愉悅、身體舒適快樂、精神自由,這體現了文學的審美和娛樂功能。而當他們帶著這些身心的感受去認識天地萬物、生活世界,同時在潛移默化中獲得發展和成長時,文學的認識和教育功能也隨之實現。
因此,兒童文學的各項功能之間是相互聯系、相互滲透的關系,它們以整體的方式綜合發揮作用。其中,認識和教育功能的實現離不開兒童的審美感受和閱讀體驗。換言之,文學乃至兒童文學的認識和教育功能的達成有其特殊性,必須建立在審美或娛樂功能的基礎之上。
在幼兒園教育領域,教育者的身份使得我們十分重視文學作品和繪本教育功能的實現,但是對教育功能如何實現卻仍需尊重文學活動自身的規律。俄羅斯文豪列夫?托爾斯泰曾在《藝術論》中談到,文學藝術活動通過作品喚醒讀者體驗過的情感,而讀者可以在文學活動中用動作、線條、色彩、音響和語言傳遞并表達出來。[2]在幼兒園文學活動及繪本教學中,我們也可以通過對作品的閱讀,激活幼兒已有的情感體驗,并鼓勵幼兒用語言、表情、肢體動作、聲音、涂畫等方式欣賞或表達自己的感受。
而在當前幼兒園繪本教學活動的設計中,一線教師存在著教育目標(功能)優先、認知目標(功能)優先的思維定勢,不尊重文學活動開展的特殊規律。表現在教學活動過程中,就是忽略對繪本作品基本內容的閱讀,淡化或無視幼兒的審美體驗,急于實現繪本作品中附帶的“多元發展價值”。 誠然,繪本作為一種重要的早期閱讀材料,可以促進幼兒閱讀能力的發展;作為一種課程資源,也可以引發生成主題活動,它的確具有多元價值。但是作為幼兒園語言領域的集體教學活動,教師首先應該尊重作品、尊重文學藝術活動自身的規律,以真正實現繪本對兒童的多元發展價值。
尊重作品,意味著教師帶著孩子初次接觸繪本時,要讓幼兒充分與文本內容溝通、對話,喚醒、激發幼兒已有的審美體驗,從而自然實現繪本的認識及教育功能。
對繪本教學活動的設計而言,尊重作品意味著教師在設計之前首先要把自己當成一個讀者,充分理解作品內容,對文本的各個要素,如作品主題、畫面特征、人物形象、語言特征、情節結構等進行深入剖析,這些文本要素的分析與教學活動的順利開展均密切相關。在下文中,我們就來詳細論述文本分析與教學的關系。
一、作品主題的分析
對繪本主題的把握決定了一個教學活動的基本方向。通過多次繪本教研我們發現,一些教學活動的嚴重失誤往往是由于對作品主題的誤讀引起的,而幼兒教師文學素養的欠缺是其中的一個重要原因。我們知道,一部文學作品意義的呈現,需要讀者通過文學接受過程加以具體填充和再建,而這也要求讀者具備一定的文學能力和經驗對文本所提供的信息進行相應的選擇、填充、提煉和重組。[3]如果讀者的文學能力有限,那么他們對文本的接受就會發生根本性的阻隔,作品主題的解讀就會出現問題。
例如在繪本《第五個》中,作品通過五個殘缺不全的玩具在一個昏暗的房間里等待看病的經歷,表現了一種克服恐懼和焦慮情緒、最終戰勝自己的勇氣。但是如果有些教師把作品的主題誤讀為教育孩子看病的時候要排隊,做一個遵守秩序的好孩子,那么在他們的教學活動中自然就會往道德教化的方向上走。
我們在教學研討中還發現,不僅文學素養的高低會影響幼兒教師對作品主題的理解,一些教師還會故意無視作品所要表達的主題,隨意放大或利用作品的某一段細節,而把它作為教學的重點。例如同樣在繪本《第五個》中,有的教師發現作品中有“進去一個,還剩四個……進去一個,還剩三個……”的語句,就認為可以利用其進行數學活動,根本不理會作品自身想要表達的含義。
二、畫面特征的分析
繪本作為一個新興的文學藝術樣式,是由圖畫和文字共同來完成敘事抒情、表情達意的任務的。繪本中畫面前后頁之間的關聯及其敘事性特征,使得幼兒可以通過對畫面的直接觀察來理解作品故事情節的發展、人物形象的活動及審美情感的表現等。仍然以繪本《第五個》為例,其畫面的基本特征是:隨著人物心情的變化,作品畫面的色調從昏暗轉向明朗,并用環境中吊燈燈光的移動襯托作品人物的心態。畫面中玩具的表情刻畫細膩傳神,逼真地表現了玩具們就醫時恐懼不安的心理狀態。那么,我們在教學過程中就可注意引導幼兒從畫面色調轉換及細節刻畫中去觀察、預測人物的情緒變化。
而在繪本《我的連衣裙》中,其最突出的藝術特征是通過朗讀的音韻節奏感與畫面相結合,構成音畫相映成趣的節拍,使得畫面呈現出奇妙的音樂性。這就要求教師在教學過程中,將朗讀作品和翻書的動作配合起來,尤其那些無需發出聲音的畫面,靜靜地和幼兒一起體驗音樂中休止符的美妙。
三、人物形象的分析
對人物形象的分析也會影響教師的教學進程。由于目前很多幼兒園使用的繪本是從西方國家引進的,我們會發現其中一些人物形象的塑造,例如爸爸媽媽的形象,和中國傳統文化觀念中的父母形象有不少差異。我國兒童文學作品中傳統的勤勞、善良、甘于奉獻的母親形象,與國外眾多繪本中會大叫、發脾氣、賭氣,有自己的樂趣和愛好的媽媽形象相差甚遠。如何理解這樣頗具挑戰的人物形象,如何通過這些豐富、飽滿、立體的圓形人物向兒童還原生活和人性的立體與真實,是值得我們每位繪本執教者深思的。
當然,在一個教學活動中,教師所要做的不僅是自己準確把握作品人物形象,更重要的是幫助幼兒感受、體會人物形象的所思所做所想。例如繪本《第五個》中受傷的小玩具們一開始沉浸在害怕與恐懼之中,但最終都憑勇氣戰勝了自己。那么教師可以通過自身的角色轉換,適時地從教師的角色轉換成作品中的玩具形象,和幼兒一起體驗小玩具們緊張、害怕的情緒,并分享最終戰勝自己的快樂。
四、語言風格的分析
幼兒園語言教育十分重視幼兒表達能力的培養。幼兒教師也試圖通過繪本教學讓幼兒想說、敢說,激發他們豐富的語言表達。然而,對于不同語言風格的繪本而言,對幼兒語言發展的目標,以及教師自身語言表達的要求也應該是不一樣的。
在語文教育中,大致把語言表達的風格劃分為敘事、說明、抒情、議論四種。幼兒文學作品的語言,大都具有鮮明的敘事性特征,所以教師常常注意培養幼兒描述一個故事或事件的發生、發展和結局,以幫助他們慢慢形成一種敘事的結構。在繪本教學活動中,教師通常也高度關注幼兒描述事情發生狀況及過程的語言表達,并盡量鼓勵幼兒用豐富而有想象力的語言進行描述。
但同時我們也應該看到,有些繪本的語言風格以說明性的表達方式為主,常表現一些有趣的自然科學現象或社會生活現象,如《昆蟲躲貓貓》《小痂》等。那么,教師自身在教學活動中的語言特點就應進行轉換,以簡潔、準確、清晰的語言表達為主,對幼兒語言能力的培養也不宜過多鼓勵表達的豐富性和想象力。而在一些長于抒情的兒童散文、詩歌類繪本中,教師在教學過程中也需注意自身語言表達的藝術感染力,以契合作品特有的語言藝術風格。
此外,當繪本作品的內容可以激發幼兒表達自己的觀點時,教師要放下心中固有標準答案的束縛,鼓勵幼兒用議論性的表達方式去質疑、反思作品的內容,讓孩子們想說、敢說。同時,教師自己也可以作為讀者參與其中,發表自己的觀點和見解,以激發兒童更深入的議論和討論。
五、情節結構的分析
對故事性作品情節結構的分析,深深影響著繪本教學活動的具體實施過程。還是以《第五個》為例,這個繪本中故事情節的發展和推進式以人物心理變化為線索,作品中小玩具們波動起伏的情緒變化推動著情節的發展。那么,教師在教學活動實施的現場就可以通過營造人物形象情緒起伏變化的心理氛圍,來推動整個教學活動的進程。
有些繪本的情節結構復雜,有多條敘事線索,那么教師有時就要舍得放棄一些敘事情節,在一次活動中以一條敘事線索為主展開教學活動。典型的案例是《我砍倒了一棵山櫻花》的教學活動。由于作者同時在作品中敘述了和童年伙伴在鄉村山野的游戲、砍倒山櫻花樹的來由、童年禁忌、山民捕獵等多條線索,教師就不必急于在一次教學活動中把作品所有的內容都傳遞給孩子,以免使幼兒產生雜亂紛呈的閱讀體驗。而且,作品中消極灰暗的敘事情節(如山民獵殺野生動物)也不宜向孩子充分展示。
總之,當教師拿到一個繪本時,先不要急于進行活動設計,首先應把自己當成一個讀者,對作品文本所呈現出來的主題、畫面特征、人物形象、語言風格及情節結構進行深入剖析。這是尊重作品,組織和開展繪本教學活動的前提,也是一名幼兒園語言教師的基本職業素養。
【參考文獻】
[1] 童慶炳主編.文學理論教程[M].北京:高等教育出版社,2008.
關鍵詞:文本情感計算;情感詞典;教育文本;文本分析
中圖分類號:TP391 文獻標志碼:A 文章編號:1673-8454(2016)14-0074-05
一、情感與學習
情感(sentiment)是由非中性事物引起的并反作用于這個事物的非中性的意圖和行為[1],是人類最慣常、最重要的體驗。人類的認知和情感是相互影響和作用的,對兩者的研究密不可分。
情感及情感信息對于學習者的學習效果有重要的影響。積極的情感可以提高學習效率,而消極的情感卻可能造成學習的失敗[2]。許多學習行為是從好奇心和入迷開始的,人在處于“興趣”與“愉悅”的情感狀態下,學習效率最高,學習效果最好;積極的情感促進大腦的活動性,在學習過程中表現為學習動力,從而還可以產生一系列積極情感狀態,如興趣、關注以及參與行為,它們在學習過程中都起著重要的作用。而在“乏味”與“厭倦”的情感下,學習多數則是會失敗的,尤其學習的孤獨感和焦慮常常影響學習者的信心[3]。消極的情感抑制大腦的機動性,在學習的過程中表現為學習的阻力,如厭倦、疲勞、無聊等都會影響學習的認知過程。
認知心理學家Simon[4]和Norman[5]認識到了情感在學習效果方面發揮著重要作用。他們發現哪怕只有很少的一點積極情緒,不僅可以讓人感覺良好,而且還可以產生一種思維,這種思維會更有創造性更靈活地解決問題以及更有效更果斷地做出決定。這項研究在不同年齡不同職業的人群中得到了驗證。
在學習過程中,教師如果能夠識別學生的情感狀態,并做出相應的反饋,就可以激發其積極的情感,使學生內心產生對教師的好感、依賴和敬慕,進而產生學習熱情,使其處于興奮狀態,促進學習水平的提高,從而達到最好的學習效果[6]。
網絡學習具有特殊性,師生在物理空間上的分離,導致師生之間不能通過傳統的表情、眼神和肢體等方式進行情感交流和反饋。教師得不到學生的情感狀態信息,學生得不到教師的反饋,學生學習效果就會受到影響。因此,在網絡教學系統中如何獲得學習者的情感,具有重要的研究價值[7]。
網絡學習環境下,獲取學習者情感的技術包括語音識別、人臉表情識別、身體姿勢和運動的識別等[8]。這些技術一般需要使用特殊的傳感器來采集學習者數據[9][10]。當然,慕課等大規模在線學習方式中能快速直接獲得學習情感信息的介質仍然是文本,如討論區、BBS、博客、調查反饋等交流活動中的文本。這些文本情感信息反映了學習者在學習過程中的情感狀態。
慕課等在線學習平臺學員數量眾多,討論區產生的文本數據龐大。而人數有限的教師和助教很難實時、準確地辨別文本的情感狀態,并給出恰當的反饋。因此,很有必要設計一個文本情感計算系統,它能自動或半自動地分析文本情感、篩選文本信息,幫助教師針對學習者的情感狀態快速做出恰當的反饋。
二、文本情感計算
1.概念
情感計算(Affective Computing)是人工智能的一個分支領域。美國麻省理工學院Picard于1997年首先提出了“情感計算”的概念[11],并將其定義為關于情感、情感產生以及影響情感方面的計算。情感計算的目的在于使設計的系統和設備能夠識別、理解和處理情感。
認知語言學認為人類能夠通過語言的表達反映出認知的過程和結果,同時反映出真實的情感。既然語言能夠反映出情感,那么文本也當然可以[12]。因此,從認知語言學的理論上來講,文本中包含了一定的情感信息。
文本情感計算是情感分析領域的核心問題之一,其任務是借助計算機幫助用戶快速獲取、整理和分析相關文本信息,對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理[13]。文本情感計算的研究包括極性分類(Polarity Classification)和強度計算(Intensity Classificaiton)兩個方面。
2.情感極性分類
情感極性分類的工作就是判別情感的種類。情感種類的集合構成了情感模型。在多種情感模型中,OCC模型和Ekman模型被廣泛使用。
Ortony、Clore和Collins于1988年提出了著名的認識評價情感模型OCC( Ortony, Clore, Collins)模型[14]。這個模型根據三類起因和事件的結果,提出了22種情感類別:高興,幸災樂禍,妒忌,遺憾,充滿希望,害怕,快樂,悲傷,驕傲,羨慕,害羞,責備,喜歡,討厭,自滿,感激,悔恨,生氣,滿意,悲觀,放松和失望。但是OCC模型被實際應用的情況并不多,主要是因為情感分類過于復雜。Ekman于1992年提出可以將情感分為氣憤(Anger)、厭惡(Disgust)、恐懼(Fear)、愉悅(Happiness)、悲傷(Sadness)和驚訝(Surprise)六種類型[15]。這6種情感是組成所有情感的基本單位,人類的所有情感均可由這6種情感衍生而來。同時,相較OCC模型的22種類別劃分,Ekman模型的情感極性維度相對較少,實際應用時相對簡單。因此,我們也采用Ekman情感模型來為文本分類。
3.情感強度
情感強度計算是能夠反映文本情感極性的強弱程度的一個指標,因為在每一種情感種類內,會有情感程度強弱之分。目前在文本情感計算領域,針對情感強度計算的量化問題并沒有一個統一的標準。Wilson和Wiebe將情感強度標注為3個級別:低、中、高[16]。Choi和Cardie將情感強度以具體數值計算,取值范圍為[0,10],數值越高,情感表達越強烈[17]。我們設定情感的強弱取值范圍為區間[-18,18]。在區間[0,18],數值越大表明該情感越強烈;數值為0時,表示沒有情感;在[-18,0)區間,數值負號表示情感極性相反,即為取“非”操作。例如“anger”的非為“not anger”,即為“不憤怒”。數值絕對值越大表明該情感的相反極性情感越強烈。我們規定,取非操作的情感與原有6種情感之間相互獨立,不存在關聯。例如,“不憤怒”不一定為“高興”,而“高興”一定是“不憤怒”。
4.文本情感計算的層次性
文本情感計算層次代表情感計算的研究領域和范圍。根據文本信息的語法結構可以將其分成4個層次:詞語、短語、句子和篇章。4個層次之間具有強烈的繼承關系,詞語是短語的基礎,短語是句子的基礎,而句子又是篇章的基礎。文本情感計算的研究是由最底層的詞語層次開始,逐漸過渡到篇章層次,環環相扣。
因為網絡學習的文本大都較短,少于150字;文本內容一般由兩三句話構成,句子層次的文本情感計算可以滿足研究分析要求。又因為詞語層次和短語層次是句子層次的研究基礎,我們的情感分類工作集中在三個層次進行:詞語、短語和句子。
詞語層次是文本情感計算的基礎,主要任務是發現并提取文本中帶有情感色彩的詞語,并且確定其情感極性和情感強度值。詞語層次的工作主要圍繞情感詞典的構建來進行。詞典中詞語的數量和詞語的屬性直接決定了系統的性能。詞語的屬性是指情感極性和情感強度。為大規模的詞語標識出其情感極性和強度的最原始的方法就是人工標注,雖然準確但耗時耗力。使用基于統計的有監督和無監督的機器學習方法可以實現詞語情感的半自動標注。
用已有詞典擴充構建詞典的方法就是有監督的詞典擴展方法。大部分國外的詞典擴充研究都是基于WordNet(http://wordnet.princeton.edu)和 General Inquirer(http://wjh.harvard.edu/~inquirer)兩種詞典,而大部分國內的詞典研究是基于《知網》(http://)和《同義詞詞林》兩種詞典。
Turney和Littman的無監督學習法使用一種點互信息和信息檢索相結合的計算方法,來判定待定詞與種子詞之間的信息量。種子集合是由具有正面情感極性和具有負面情感極性的示例詞構成[18]。在中文處理方面,Zhang等人利用情感標注語料中抽取的上下文模板,在未知語料中計算模板與詞語之間的關系,進而判斷詞語的情感極性[19]。
由于名詞、動詞、形容詞和副詞等不同詞性的組合能夠產生不同種類的短語,短語層次的情感分析主要關注短語具有何種情感極性以及其強度如何。
句子的分析包括兩種方式: 基于規則的方法和基于統計的方法。基于規則的情感計算主要依靠語法規則完成,常見的語法規則有兩類:一類是通過語法分析器得到句子的語法關系樹,利用語法關系樹制定相關規則。另一類是使用短語模板,依據不同短語模板的組合形成規則來計算句子的情感。
Turney的研究表明英文中某些短語模式的形容詞和副詞攜帶情感信息[20]。這一重要結論推動了基于規則的研究方法的發展。宋光鵬依據Turney的結論,并在其5種短語模板的基礎上進行了改進,加入了判斷否定情感傾向的詞和相應的語句連詞。最終歸納形成了適合中文的短語模板語法規則。通過語法規則模板直接進行匹配,就能夠計算出句子的情感極性和強度[21]。
基于統計的情感計算需要通過訓練集找到相關特征項,使用貝葉斯分類、最大熵分類和支持向量機等統計方法計算句子情感極性。在中文方面,Fei等通過無監督機器學習算法得到短語模式,利用短語模式對文本情感極性進行分類[22]。
三、系統設計
在情感計算領域中,基于統計和基于規則的兩大方法都各有所長。因此,我們以基于規則的方法為主,配合基于統計的方法,構造一個文本情感計算系統,并將之命名為“小菲”(英語單詞Feeling的音譯)。該系統擁有自己的情感詞典,按照詞語、短語和句子三個層次進行情感識別和綜合計算。下面介紹這些模塊。
1.情感詞典建構
情感詞典建構包括整合專業研究機構的詞典,擴充已有詞典容量和手動標注詞語情感強度三項工作。詞典來源包括《知網》、《中文通用情感詞典》、《同義詞詞林擴展版》、《學生褒貶義詞典》和《中文情感詞匯本體庫》。通過整理這些專業詞典的內容,將它們融合為一部詞典,包含27561詞條。
擴充詞典容量使用基于統計的方法完成,利用有監督的機器學習方法從《同義詞林擴展版》擴展詞典的褒貶詞語,利用無監督的機器學習方法從網絡中擴展詞典的網絡詞語。由四名研究助理完成手動標注詞語情感極性和情感強度的工作,手動共標注了8589條詞語。最終將32879條詞語整合到一部情感詞典中,并命名為《小菲詞典》。
2.系統流程
按照情感計算的發展模式,從詞語級別開始,經過短語級別,最后到達句子級別,從而實現句子情感極性分類和情感強度計算的功能。
系統在情感計算之前,需要對句子做初步整理,例如刪除多余的空格、逗號標點等。然后使用中科院計算所分詞軟件ICTCLAS(http://)對句子分詞,獲得構成句子的若干短語。
短語級別的主要工作是使用基于規則的方法構造短語情感模板。有一些短語能夠攜帶情感信息,可以構造為短語情感模板。
副詞對詞語也有修飾作用,會導致情感強度和情感極性發生變化。所以將副詞分為程度副詞和否定副詞兩類進行處理。程度副詞不改變情感極性,而是影響情感強度。否定副詞既改變情感極性,又影響情感強度。
當句子長度較短的時候,語法省略現象嚴重,不宜使用過于復雜的判斷模型。直接使用詞語、短語匹配的方法計算情感反而較為準確。對于較長的句子,就使用簡單句的情感計算模型和句子關系模型來計算句子的情感。
句子包括復合句和簡單句。復合句是由簡單句和關系連詞構成,不同的關系連詞構成了不同的句子關系類型,如“并列”、“轉折”和“遞進”等關系。不同的句子關系類型情感的計算方法也不盡相同。比如轉折關系,句子的主要情感是靠轉折詞之后的簡單句表達。因此,句子級別的情感計算,首先判斷該句子是否是復合句。如果是的話,就找出其中的連詞,根據連詞確定句子關系,根據該關系和簡單句的情感計算結果確定復合句的情感極性和強度值。
簡單句的情感計算是使用語法分析器Stanford Parser(http://nlp.stanford.edu/software/lex-parser.shtml)來分析分詞之后的句子,得到句子各個成分,也就是短語。然后根據短語情感模板和短語之間的組合方式確定簡單句的情感計算模型。
3.編程語言
系統使用JAVA、Mysql、ICTCLAS和Stanford Parser等開源環境和工具構建。JAVA語言是通用的編程語言,不受操作系統的限制,與其他各類系統的接口支持都很完善。因此,本系統使用JAVA語言實現文本情感計算模型和各系統之間的數據交換處理。Mysql是一個關系型數據庫管理器,情感詞典和句子類型等表格都保存在Mysql數據庫中,通過JAVA語言進行調用。ICTCLAS是中科院提供的支持JAVA調用的分析系統。為更好地識別情感詞和句子關聯詞,我們擴展了ICTCLAS的自定義詞典,將《副詞詞典》、《小菲詞典》和句子關系類型導入到ICTCLAS的自定義詞典中。Stanford Parser是依存語法關系分析器,輸入的數據是經過分詞后的簡單句,輸出的結果是簡單句的依存語法關系數據。它本身是用Java語言實現的,方便調用。
四、在教育領域文本情感分析的初步嘗試
關于文本分析的性能,有一系列評測指標,包括查準率P(Precision)、召回率R(Recall)和F值等。
P為查準率,是衡量某一檢索系統的信號噪聲比的一種指標,即檢出的正確數據數目與檢出的全部數據數目的百分比。R為召回率,是檢索系統從數據集中檢出的正確數據數目和數據集中所有正確數據數目的比率。
F值是查準率和召回率的加權幾何平均值,是情感計算系統最重要的評測指標之一。F值計算方法如下:
F=
為測試該系統的性能,我們選取了一個小樣本的文本,以便既可以人工標注,又可以讓系統自動識別,并比較兩者的結果。2013年北京大學“新媒體與教育”暑期學校創新教學模式,使用慕課的方式展開學習[23]。在課程結束時,通過MOOC平臺收集了學員對本次暑期學校的反饋和建議,共377條,其中來自面授學員的201條,來自在線學習學員的176條。我們先人工標注了這些反饋的情感極性和強度,然后使用“小菲”系統進行了自動計算;測評結果算得F=88.7%,在文本情感分析領域屬于較好的結果。
五、在教育領域的應用前景
盡管本系統在小樣本的教育文本情感計算測試中結果很好,但是它仍然存在一些缺陷,需要進一步完善提高:目前的三萬多條情感詞還不能完全覆蓋浩瀚的中文詞語,應該持續添加新詞,比如新出現的網絡語言,改善ICTCLAS分詞結果,增加關于世界的常識性知識,等等。
隨著人工智能技術的發展,文本情感計算技術逐步成熟,可以廣泛應用于慕課等在線教育的多種文本交互區域的情感分析,如討論區、調查反饋、聊天室、BBS等。可以實時監控參與者的情感變化,及早發現學生反映的問題并及時給予恰當的反饋;也可以用于事后分析學生在學習活動和過程中的情感變化,因材施教,實施個性化教學。這也必然減少教師和助教的大量寶貴時間和精力,提高在線學習的教學效率。我們將在這些方面繼續探索,深入研究。
參考文獻:
[1]楊巍峰.對情緒情感定義的管見――兼與楊澤民同志商榷[J].心理學探新, 1986 (3): 35-39.
[2]盧家嵋.情感教學心理學[M].上海:上海教育出版社, 2000.
[3]A.C.Graesser, B.Medaniel, P.Chipma,ect.Detetion of Emotions during learning with AutoTutor [R]. Department of Psychology, 2006: 285-290.
[4]H.Simon.Motivational and emotional controls of cognition:in Models of Thought[M]. New Haven:Yale University Press,1967.
[5]D.Norman.Twelve issues for cognitive science[A].In Norman DA(Ed): Perspectives on cognitive seience[C]. Erlbaum, Hillsdale, NJ. 1981.
[6]R.W.Picard, S.Papert,ect. Affective leaming- a manifesto[J].BT Technology Joumal, 2004, 22(4): 253-269.
[7]唐偉志,賈云.遠程教育中情感缺失問題的對策研究[J].甘肅廣播電視大學學報, 2012 (2): 1-4.
[8]J.Tao,T.Tan and R.W.Picard.Affective Computing: A Review[A].LNCS3784. German: Springer-Verlag Berlin/Heidelberg[C], 981~995. 2005.
[9]傅小蘭.電子學習中的情感計算[J].計算機教育, 2004 (12): 27-30.
[10]付彥飛,牛秦洲,閾小梅.基于情感計算的個性化E-Learning系統的研究[J].微計算機信息, 2010 (36): 241-244.
[11]R. Picard. Affective Computing[M]. Cambridge: MIT Press,1997.
[12]陳文萃.從認知看情感表達的隱喻概念[J].南華大學學報,2009(9): 112-142.
[13]B.Pang,L.Lee.Opinion Mining and Sentiment Analysis[J].Foundations and Trends in Information Retrieval,2008(1-2):1-135.
[14]A.Ortony,G.Clore,A.Collins.The Cognitive Structure of Emotions[M]. Cambridge: Cambridge University Press,1988.
[15]P. Ekman. An argument for basic emotions[J]. Cognition and Emotion, 1992, 6(3-4):169-200.
[16]T.Wilson,J.Wiebe.Annotating Opinions in the World Press[A].In: Proceedings of the 4th ACLSIGdial Workshop on Discourse and Dialogue (SIGdial’2003) [C]. 13-22, 2003.
[17]Choi, Y., and Cardie, C. Learning with Compositional Semantics as Structural Inferencefor Subsentential Sentiment Analysis [A]. In Proceedings of the Conference on Empirical Methods in Natural Language Processing[C]. pp. 793C801. 2008.
[18]P.D.Turney and M.L.Littman.Measuring praise and criticism: Inference ofsemantic orientation from association[J].ACM Transactions on Information Systems,2003 (4):315-346.
[19]C.Zhang,W.Zuo,T. Peng, F.He.Sentiment Classification of Chinese Reviews Using Machine Learning Methods Based on String Kernel[A].Third International Conference on Convergence and Hybrid Information Technology[C]. 2008.
[20]Turney, P D. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[DB/OL]. http:///abs/cs/0212032.
[21]宋光鵬.文本的情感傾向分析研究[D].北京:北京郵電大學,2008.
[關鍵詞]颶風營救;呂克?貝松,敘事學,世俗神話;敘事動機
一、文本“當代世俗鏡像神話”特性研究
敘事結構分析差不多可以追溯到弗拉迪米兒?普羅普的著作《俄羅斯童話形態學》。他列出一項包含31種功能的序列公式,并考慮到任何一種變化的可能性,以涵括他所研究的全體的童話結構。利用普羅普的敘事單元與功能序列可以印證《颶風營救》的當代世俗神話特性:
1 準備單元
影片開始,我們看到斑駁畫面中一個小女孩在過生日,鏡頭猛然切回現實,主人公布萊恩出場,剛從夢中被驚醒的樣子。主人公離開沙發,特寫立在桌子上的照片:一個十七八歲的女孩。這樣的畫面語言,給敘事埋下伏筆,讓我們感覺主人公形單影只地獨居在單身寓所。而產生疑問:他的家人呢?在隨后女兒肯姆的生日party上,我們得知他的前妻已經帶著女兒改嫁了一位富豪。第二重疑問產生:為什么他的家人會離開他?朋友尋求布萊恩的幫助,引出他退役前的職業性質:美國國家安全部門的特工。但為了彌補對女兒虧欠的父愛,他毅然辭去了這份危險系數大的工作。肯姆和朋友去巴黎游玩,需要布萊恩的簽字許可。布萊恩擔心她的安全。
2 糾紛單元
肯姆來到巴黎,被黑幫團伙拐賣,向布萊恩求救。肯姆借助特工同伴的幫助,查到這是一伙以販毒與組織為主的犯罪集團。為了營救女兒,布萊恩只身前往巴黎。
這樣的劇情設置,環環相扣的情節發展,更吸引了大部分喜愛劇情功夫片的固定受眾。
二、文本“核心二項對立式”人物分析
格雷馬斯意義矩陣中的核心二項對立式:正義(A)與邪惡(B),其相關的對立項,便是非正義(-A)與非邪惡(-B)。將這兩組二項對立作為一個四方形的四個端點予以排列,便可以根據《颶風營救》的劇情建立起它的意義矩陣。
這里有一個起關鍵作用的元素:被拯救的主體(肯姆以及其他被拐賣的婦女)。他們相互之間存在的關聯。促使整個影片劇情的發展與結構的延宕。顯而易見,片中存在最為突出的對抗性二項式,便是布萊恩與整個黑幫團伙之間的矛盾。這個近似于美國傳統電影套路中的靈魂便是:一個英雄的拯救主題。找出這個最主要的二項對立式,我們可以再更細致的分析其余二項對立式在結構電影過程的作用。在影片中,正義與非正義的力量是一對相互依賴的矛盾對抗體,當布萊恩失去了黑幫集團派出的托兒彼特,他在巴黎尋找女兒線索也就此中斷。主體的行動遭遇阻斷,這時出現了布萊思的老朋友簡,曾經也是特工出身的簡現在已經就職于法國國家安全局。布萊恩希望借助他的力量找出犯罪團伙的聚集地。簡本能上拒絕幫助主體的拯救行動,客觀上卻又為布萊恩提供相對有利的信息。而作為官方的力量,簡卻利用職能之便,收取黑幫團伙高額的保護費,對他們的非法行徑給予了一定意義上的庇護。
人物關系錯綜復雜與情感糾葛,以及每個人物表層和深層人格的乖悖,使得劇情在人物關系發展的線索上層層推進。
三、文本“多重功能序列意義單元疊加”(復合類型)研究
《颶風營救》的文本結構是兩個功能序列的重合。如果我們參照格雷馬斯關于敘事意義的基本單元:契約、考驗、移置等來考察與以上相類似雙重敘事功能序列,我們會發現這同時是不同功能序列中意義單元的疊加。
1 契約
細致分析《颶風營救*的文本,可以看到其中存在的雙重契約關系:布萊思與前妻、女兒之間的契約。劇情中有一場需要生父布萊恩簽字,女兒才可以出國巡游的戲份,是布萊恩與女兒肯姆之間沖突最為激烈的一次,也為營救埋下了伏筆。第二重契約。是法國安全局簡和布萊恩之間的隱性契約,在片中,簡為布萊恩提供了有關拐賣組織的訊息后,提醒他“別惹出太大的亂子”并派人暗中監視,而當布萊恩在搜尋過程中殺了人后,簡和布萊恩之間的契約關系也隨之宣告結束。簡開始成為布萊思營救過程中的阻力之一。
2 考驗
影片所呈現的首先是對父女親情的考驗,包含著生父與后父兩方面的考驗。可以看出,在對于女兒肯姆的安全以及教育培養方面,兩個父親之間沒有任何的矛盾,他們都是強烈的愛著女兒。其次,有對朋友之情的考驗,一方面是美國境內的特工同伴,積極幫助布萊恩獲取肯姆的信息。另一方面,身在法國安全部門的前特工同伴簡,處處阻撓布萊恩的營救行動,卻也在不得已中為布萊恩提供了相關信息。
3 移置
1 需求分析
這里需要一種可以運行在云端的文本分類軟件,軟件主要運行在安卓客戶端和云端服務器之間。要求軟件使用最小數據量實現最大程度的云端數據整合和文本分析準確率。
1.1 流程分析
本文需求并不要求更智能化的識別方式,而是通過語義分析法,通過對特殊關鍵詞和關鍵詞組合的方式進行識別得到文本分類結果。本文的研究內容主要用于識別和分析500字符之內的自然文本。這部分自然文本主要應用在對網絡頁面文本進行分析,同時用于對捕捉到的超文本標識代碼進行內容文本和代碼段的識別,業務流程圖如圖1所示。
1.2 模塊分析
傳統語義分析算法來自人工輸入的特定文本之間的判斷,一般語義分析算法只能識別80~120個關鍵詞[5]。但此種規模的識別字典完全不能適應本文要求對自然文本的識別,所以本文采用三層識別方法見圖2。
P1.1:根據固定關鍵詞,識別超文本標識語言中的標識段數據,并將其剔除。
P1.2:根據自學習關鍵詞,識別自然文本中的關鍵詞,根據詞頻和關聯度進行價值估計。
P1.3:根據自學習關鍵詞,識別自然文本的含義,評估不同文本段之間的相似度,對文本段進行歸納整理。
而本軟件的自學習部分(P2)不從傳統的人工智能算法中得到關鍵詞字典,而是采用語義分析中常用的聯系算法進行關鍵詞管理[6]。自學習部分放在云端服務器上,自學習結果采用軟件更新的方式發送到客戶端。自學習產生的流量來自服務器與互聯網之間的聯系,并不占用GPRS通道。
軟件的移動端部分(P3)通過相對固定的關鍵詞字典集合,根據實際分析得到的數據匹配結果進行遠端比較,但大部分數據需要提交到P1模塊進行局端比較。在移動端形成比較字符串后,可以較大程度地實現GPRS鏈路的數據最小化。
1.3 數據流分析
P1模塊輸入數據D1.1為P1.1的關鍵詞字典數據,該數據以數據庫表的形式保存在數據庫中,形成表dataPinSOL。該數據主要用于輔助識別字段中的無信息量字符串,如超文本標識語言中的標識字符串等。
P1模塊輸入數據D1.2為P1.2的關鍵詞字典數據,該字典數據來自自然文本中經常出現的字符串,以及用戶易搜索的字符串。這部分字符串來自對海量信息的比較,海量信息來自互聯網遍歷捕捉文本和搜索引擎的采集文本。
P1模塊輸入數據D1.3為P1.3的關鍵詞字典數據,該字典數據來自對D1.2數據進行進一步挖掘得到的與D1.2數據經常合并出現的字典數據。這部分字典數據同樣來自語義分析的分析法。
因為本文算法不采用無限遞歸法[7],而是采用了三層計算的架構,而將語義分析段代碼用于多層不限制遞歸。所以P1模塊的數據流相對簡單。P1模塊的輸出數據流為DL1,定義為比較結果字符串。該字符串作為搜索引擎對語義識別的結果字符串,不具備人腦識別的功能,但可以在計算機論文中給自然語言提供鏡像,可以讓較為模糊的自然語言在計算機中得到識別和模糊對比。
P2有兩個輸入量,P2.1來自合作搜索引擎的搜索字符串數據,該數據運行在光纖數據干線上,數據量較大,不會在GPRS鏈路中出現。此部分合作搜索引擎的數據采集內容主要包括搜索字符串,搜索時間,發生IP,發生IP地域,捆綁賬號等。P2.2來自網絡隨機遍歷采集的各種超文本,這些超文本數據采用單字段采集和多關鍵詞分析的方式進行挖掘,所以數據結構較為簡單。
2 算法設計
因為篇幅限制,本文僅討論和展示部分核心代碼和算法的設計,較復雜的算法過程不再給出偽碼。P1.1是超文本對比算法,超文本對比算法使用了最經典的語義分析算法。而P1.2和P1.3采用的算法是在經典的語義分析算法的基礎上做的擴增[8],這部分擴增可以讓語義分析算法更加適用于自然語言下的文本分類。
本文算法的最主要成果是使用最小的CPU和RAM資源,對自然語言文本進行比較,從而獲得更高效的適應當前互聯網云服務市場的軟件[9]。
2.1 超文本對比函數算法(P1.1局部)
讀字典數據表,做對比循環函數。
對比循環函數偽碼如下:
OPEN TABLE DICT
DO WHILE DICT NOT EOF
GET DIG_DICT RECORDSET FORM DICT
OPEN TEXTFILE
GET L_DIG_DICT LENTH DIG_DICT
FOR I 0 TO LENTH TEXTFILE
GET T_TEXTFILE MIDDLE TEXTFILE I L_DIG_DICT
GET SUMSHOW COMPARE DIG_DICT T_TEXTFILE
NEXT I
LOOP
RETURN SUMSHOW
2.2 數據邏輯網絡的實現(P1.2局部)
數據邏輯網絡主要是在數據庫中使用數據結構實現數據的邏輯網絡,每個數據都有若干個上級數據和若干個下級數據[10]。每個單個數據一般不超過15個漢字(32字符)。上級數據和下級數據使用專用字段存儲,每個字段使用二維數組的方式進行管理。二維數組包括目標字符串(32字符),響應頻率,最后響應時間3項。
為了充分調動數據邏輯網絡,采用了全新的遍歷算法,對每個記錄下的兩個二維數組字段進行分別遍歷,以對文章內容進行逐一比較和計算。在比較中同時記錄其他詞語的詞頻,進一步對兩個二維數組字段進行維護和更新。因為篇幅限制,只在本文模型下進行設計分析。
2.3 文本相似度評估算法(P1.3局部)
本文采用的文本相似度評估算法分為兩段:
第一段對輸入文本進行比較評估,對字典中每個關鍵詞進行詞頻分析,同時對關鍵詞出現的位置進行[t]檢驗和[χ2]檢驗,將結果使用Minmax處理為(0,1)值域。將每個處理結果進行匯總制表。與此同時,將輸入文本與每個關鍵詞的關聯詞進行詞頻分析,同時對關鍵詞的關聯詞位置進行[t]檢驗和[χ2]檢驗,將結果同樣使用Minmax處理為(0,1)值域。Minmax結果設計為小數點后12位小數。將每個處理結果進行匯總制表。
第二段將第一段中形成的兩個數據表與系統中存儲的數據表進行[t]檢驗和[χ2]檢驗,獲取檢驗結果的[P]值。當[P<]0.05時,認為兩篇文章具有相似度,且[P]值越小,文章的相似度越高。本文算法經過檢驗,完全相同的兩篇自然語言文章輸入系統后,兩篇文章的[P]值接近于0,表示本文算法擁有較高的識別性。
3 結 語
本文就基于語義分析在計算機技術文本分類中的應用進行了軟件工程分析和設計,在面向對象的設計模型中,本文實現了不使用任何神經網絡遞歸算法就可以得到高效率的軟件系統。這個算法系統可以在移動互聯網設備中得到較廣泛的應用。
參考文獻
關鍵詞:博物館牌示解說;規范表述;布局;文體;語言
中圖分類號:H315.9
1.引言
本文將從牌示解說的布局格式、文體、語言使用特點等方面,以西安陜西歷史博物館為例,分析博物館旅游景點牌示解說的譯文現狀以及規范表述。
2. 博物館牌示解說的規范表述
2.1制作布局格式
西安陜西歷史博物館是一座大型現代化國家級博物館。館藏文物達37萬余件,被譽為“古都明珠,華夏寶庫”。主題為《陜西古代文明》的基本陳列館集中展示了陜西古代文明孕育、產生、發展的過程及其對中華文明的奉獻。展覽分三個展廳,采用年代分類的方式陳列。館內中英文牌示解說系統主要包括景點全貌解說和具體實物解說。通過比對國際通用牌示解說慣例——景點全貌解說的牌示系統多包括標題、全景圖和內容介紹;具體實物牌示解說系統多包括實物名稱和與實物相關的內容介紹——發現該館內
①全貌解說的牌示系統普遍缺失配備簡短文字標注的全景圖。冗長的文字介紹不能滿足海內外游客清晰、直觀獲取有用信息的目的,從而,牌示解說的服務功能、使用功能被大大削弱。
②具體實物的牌示解說僅僅提供了出土文物的實物名稱和年代。例如,一則先周時期出土文物的中英文牌示解說為:鳳柱斝(jiǎ)商代晚期(公元前13世紀——前11世紀)岐山縣賀家村一號墓 Jia with Phoenix Pillar Late Shang Dynasty (13th -11th Century B.C.) Excavated from No. 1 tomb, Hejia village, Qishan County. 這里的牌示解說并沒有把“斝”作為盛行于商晚期至西周中期的盛酒器或禮器的文化內涵解讀出來,不能明示它在歷史中的作用。缺少與實物相關內容介紹的牌示解說比比皆是。
2.2文體要求
在文體上,牌示解說應歸類于說明文范疇。因此英文牌示解說的語言使用,也應符合英語說明文的要求。英語說明文在句法上,通常會“使用很多有be 作系動詞的句子;會使用關系短語以及表示方位和方位移動的介詞和副詞詞組;會經常使用there is/ there are 的句式,以及在描述形狀、大小、顏色和數量時說明文里多運用形容詞,” (2006,王,呂)等等。在涉及到制作步驟的說明文時,英語說明文還更多地使用被動語態和祈使句。
作為全國首批“AAAA”級旅游景點,西安陜西歷史博物館內的英文牌示解說在文體使用上力求規范,意圖實現牌示解說的教育功能:
例:原文/譯文:金餅也稱餅金。共219枚,每枚重227.6—254.4克。總重量54116.1克,是迄今漢代金餅出土數量最多的一次。絕大多數有戳記、戳印,部分兼有文字、符號等刻銘。非流通貨幣,主要用于賞賜和饋贈。Gold Discs are also called Cake-shaped Gold. Altogether 219 discs, each weighs 227.6-254.4g, were excavated from a hoard, their numbers are the biggest among the unearthed gold discs of Han dynasty. Most of them bear characters, marks, or stamps or impressions. They were not the circulating currency, and were mainly used as rewards and gifts.
在這則關于出土文物金餅的英文解說中,首先,被動語態大量在文中使用,如,…are also called…,…were excavated from…,…were mainly used as…。,其次,系動詞be也被使用,如,…are the biggest…,…were not the circulating currency…。此外,簡單句和并列句擴展了內容,容納了更多的信息。
2.3語言特點
博物館旅游景點牌示解說的漢英文本語言特點不盡相同。漢語表達的辭藻華麗和英語表達的直觀簡潔構成了鮮明的對比。這是由不同民族文化背景、價值觀以及思維方式決定的。因此,在旅游景點牌示解說詞的構成方面,要充分考慮牌示解說的閱讀對象,從而更好地選擇恰當的詞匯、句法和語體表現風格。試舉例如下,并分析其語言特點。
關鍵詞:文本分類 貝葉斯技術 TF-IDF
中圖分類號:TP391 文獻標識碼:A 文章編號:1003-9082 (2013) 11-0011-02
文本分類是信息處理領域中重要的研究方向之一,其屬于有指導的機器學習,它廣泛應用于信息自動檢索、文本過濾和網頁層次分類領域
[1]。目前,數量巨大的訓練樣本和過高的向量維數是文本分類的兩大難點。本文通過分析藏文的特征,根據藏文特點和藏語語法結構,研究藏文文本分類相關技術。
一、向量空間模型的建立
1.特征向量
文本分類之前應將藏文文本轉換為易被計算機理解的形式,即分詞。再通過特征選擇實現降維,特征加權提高分類準確度。
2.特征選擇
特征選擇是從最初的n 個特征中選取t ( t
本文給出一個判別方法,如果某特征詞滿足條件( 2) 式,即將該特征歸為平凡詞,并予以刪除。(2)
方程(2)表示某特征詞在每個類別中出現該詞的文檔頻度計數與所有出現的類別中出現該詞的文檔頻度計數總數的比例小于等于閾值
的話,就將該特征詞作為平凡詞。在實驗中, 使用條件( 2) 逆反條件來進行判斷, 即只要該特征詞在某個類別中出現該詞的文檔頻度總數大于閾值的話, 就可以將該詞作為次關鍵詞予以保留。
3.特征權重
在文本向量空間表示中,每個特征項有一個權值,文本特征的權重反映該特征詞對標識文本內容的貢獻度和區分文本的能力。在藏文文本向量空間模型中,藏文文本特征項的權值計算一般采用公式:(3)其中,個藏文文本特征的藏文文本數。
為了減少藏文文本長度的不同對藏文文本相似度計算的影響,通常要將每個向量歸一化到單位向量,最后得到的藏文文本特征項的權值計算公式如下:(4)
本文的語料庫來自互聯網藏文網站的600個文檔集, 其中包括6個類別,分別是:政治、經濟、宗教民俗、衛生醫療、教育、生態環境,每個類別是由100個文檔構成。本文在matlab中進行實驗,采用查準率(Priecision)和查全率( Reicall )作為評估方法:
TP表示測試文檔集中本來屬于類別iC而且分類器分類到類別的iC文檔數, iFP表示測試文檔集中本來不屬于類別iC但被分類器錯誤分到的iC文檔數, iFN表示本來應該屬于類別iC但被分類器分類到其他別的類別的文檔數。
由表(1)的實驗數據看來,采用樸素貝葉斯方法在分類效果上比KNN算法要好, 表明本文方法在藏語語文本分類上能取得較好。
結論
本文結合樸素貝葉斯分類器對藏語文本分類進行了研究, 重點介紹了貝葉斯藏文文本分類算法中一些常用的關鍵技術。實驗數據分析結果表明,本方法在藏文文本分類技術方面取得了較好的分類結果。
參考文獻:
[1] 蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術研究進展[J].軟件學報.2006(9): 1848-1859.
[2] 周國強,崔榮一.基于樸素貝葉斯分類器的朝鮮語文本分類的研究[J].中文信息學報.2011年7月.第25卷,第4期:16-19
【關鍵詞】信息化大數據 Hadoop 文本分析
1 背景
21 世紀是數據信息迅速膨脹的時代,互聯網的應用范圍和邊界不斷延伸,如移動互聯、社交網絡、電子商務等。現今,用戶可以借助互聯網平臺表達社情民意,體現用戶的意愿,評論和態度。例如京東的用戶對某商品的評論信息,商家通過用戶的評論和反饋分析,從而進行優化改善,為用戶提供定制性的服務,甚至可以預測用戶的需求,從而達到更加準確的銷售目的;看似龐大無規則的數據,包含著大量的用戶標簽及潛在的用戶肖像。存儲與分析中文文本數據是技術上的關鍵,如何能夠存儲并分析海量數據,生成精確的用戶標簽,依賴于數據存儲系統和文本分析系統的技術。本文的數據存儲運用 DB2 BLU Acceleration,利用 DB2 BLU 速度快、與Cognos無縫結合的特性來存儲和分析數據。中文文本分析基于 Hadoop 的文本分析平臺,快速進行中文分詞和建立標簽詞典,本文將在后面章節進行具體介紹。
2 中文微博數據分析邏輯
微博是現代網絡社會溝通的重要工具,以新浪微博為例,很多大型零售商會建立自己主頁,近期的打折、新品信息。但是,這些信息往往不能針對每個用戶的喜好來,類似于廣播一樣,每一條微博是否對每個粉絲(用戶)有意義,需要用戶自己來過濾。
但實際上,粉絲自身的微博含有大量的數據信息,這些信息包含用戶的個人愛好,自己年齡階段,近期的想購買的款式,甚至是自己希望有的款式與功能等。這些數據大多數為非結構數據。
如圖 1,顯示了整個營銷分析流程的邏輯。從客戶微博開始,到商家向用戶商品目錄和優惠信息,整個流程分為五個步驟:
(1)客戶微博,從微博上初步獲取的數據為“粗數據”,掌握用戶自定義的標簽,作為用戶肖像的一部分。
(2)獲取商家的粉絲。
(3)將用戶的微博進行語義分析,基于 Hadoop 的文本分析平臺將對中文進行分詞,分詞后將與字典進行比較和分類,總結出該用戶的興趣愛好所在。
(4)指定相關營銷策略,根據微博內容實時或定時更新客戶肖像,向用戶推送相應的商品折扣和新上架產品信息。
(5)消費者使用消費券或根據打折信息購買相關產品。
3 方案架構
整個系統架構,如圖 2 所示,主要由文本分析系統、DB2 BLU 數據庫以及Cognos數據分析工具組成。首先從互聯網上獲取數據以后,將原始數據送入文本分析平臺進行分析,主要做中文分詞、情感分析等工作;然后將文本分析結果整合后輸出送入 DB2 BLU 數據庫中,進行存儲、建表,建表包括客戶肖像表、商品目錄表、促銷策略表等;最后,利用 DB2 BLU 與Cognos無縫集成的優勢,用Cognos對數據進行分析。根據Cognos分析出的結果,生成促銷的報表,繼而將優惠信息分別推送給每個用戶。
如圖3所示,為基于 Hadoop 平臺的文本分析架構圖,整個架構主要由三部分組成:引擎部分:用戶的微博中獲取的數據生成文本格式送入文本分析引擎,在輸入之前,由于客戶的 ID、性別、地點已經提取出來,可以作為客戶肖像的一部分,但并不送入文本分析系統。引擎部分主要處理中文分詞、將分詞與詞匯庫中的字典進行匹配、分類。分詞的作用主要將動詞,以及動詞后的名詞分開,情感詞,以及表達情感的對象分開等。詞匯庫部分,主要負責存儲客戶合作模型的詞匯詞典,這一部分的詞典部分有手工添加,部分由系統根據詞匯庫聚類生成,詞匯庫存于HBase上;最后是負責輸入輸出文本的部分,這一部分利用 JAQL 來拼接“原始標簽”與分詞后的標簽,一起構成客戶肖像表。
本文用于存儲客戶肖像的為 DB2 BLU Acceleration。BLU Acceleration 的架構如圖4所示。
使用 DB2 BLU 具有的性能優勢,采用列式存儲,只對需要的數據列進行讀取,可以減少I/O。采用霍夫曼編碼對數據進行壓縮,降低內存消耗。SQL采用并行運行方式,利用CPU寄存器,避免并列干涉。使用列存儲算法,便于更多的緩存數據,提供內存利用率,有效減少I/O。
4 結束語
本文介紹了基于大數據的中文輿情分析系統,采用基于 Hadoop 平臺的文本分析,以及 IBM Cognos無縫集成DB2 BLU 加速器的優化分析能力,提供快速的查詢和分析功能。整個系統針對互聯網大量的數據進行處理、文本分析,經過分析為客戶定制肖像,商家可以根據肖像來向客戶推送客戶需要的優惠信息。經過樣本數據測試,推送給用戶的信息,與用戶的自然標簽(用戶自己為自己設定的)對應性很高。在實時性、大量重復詞匯的處理上面,由于中文語義分析的局限性,還有待優化和提高。
參考文獻
[1]張藝帆,王永,郭輝.基于大數據的中文輿情分析[C].IBM debeloperWorks技術主題,2014.
[2]郝增勇.基于Hadoop用戶行為分析系統設計與實現[D].北京交通大學,2014.
關鍵詞:極限學習機;稀疏自動編碼器;集成學習;文本分類
1 概述
隨著現代社會的發展,互聯網成為了人們獲取文本信息的重要手段。然而網上的信息雜亂無章,使得人們很難快速而準確的獲得所需要的文本信息。因此如何有效的對文本進行分類,幫助用戶找到所需的信息成為當代信息技術領域的一個重要課題[1]。
本文提出利用深度學習中的稀疏自動編碼器自動選取文本的特征,然后利用極限學習機作為基分類器進行文本的分類,最后結合Adaboost集成學習方法將極限學習機作為基分類器組合成一個效果更好的分類器。實驗結果表明,該算法在文本分類方面,可以有效地提高文本分類的準確性。
2 相關理論基礎
2.1 稀疏自動編碼器
稀疏自動編碼器(sparse auto encoder,SAE)是利用人工神經網絡的特點構造而成的網絡。稀疏自動編碼器的訓練過程分為兩個步:第一步是預訓練,即先利用無監督的方法將SAE的輸入層和隱含層全部初始化,然后再利用逐層貪心訓練算法確定網絡的參數。第二步是微調,其思想是整個網絡視為一個整體,用有監督學習的方法優化整個網絡的參數,由于SAE訓練過程的復雜性,具體過程可參考文獻[2]。
2.2 極限學習機
針對傳統神經網絡訓練過程時間漫長,優化困難等缺點,新加坡南洋理工大學的黃廣斌教授提出了一種全新的單隱層前饋神經網絡-極限學習機(Extreme Learning Machine,ELM)[3],該網絡能夠以極快的學習速度達到較好的泛化性能,從而解決了傳統神經網絡學習速度緩慢的限制。該網絡主要由輸入層,隱藏層和輸出層組成,其中隱藏層的神經元通過激活函數把輸入的數據進行變換,然后把變換后的數據輸出到輸出層,在網絡中輸入層和隱藏層的權值是隨機設置的,只有隱藏層到輸出層的權值需要求解,因此加快了網絡的學習速度。
2.3 Adaboost分類器
由于單個分類器通常無法滿足分類任務的要求,因此需要通過集成學習來構建并結合多個分類器來完成分類任務,這其中最著名的是在1995年由Freund等提出的Adaboost[4]算法。該算法的核心思想是先從初始訓練集訓練出一個基學習器,再根據基學習器的變現對訓練樣本分布進行調整,使得先前基學習器做錯的訓練樣本在后續收到更多關注,然后基于調整后的樣本分布來訓練下一個基學習器;如此重復進行,直到基學習器數目達到指定的值,最終將這幾個基學習器進行加權結合。Adaboost是一種迭代算法,具體訓練過程可參考南京大學周志華教授編寫的機器學習課本中關于Adaboost算法的章節。
3 SEA文本分類算法
在本文中,結合稀疏編碼器,極限學習機與Adaboost這三種機器學習方法提出SEA文本分類算法,該算法的工作流程如圖1所示。
該分類算法的第一步為輸入,輸入的是經過了向量化表示的文本,但沒有經過任何的手工特征提取。第二步是利用SAE算法對數據的重建能力自動選擇文本的特征,用SAE算法選擇的文本特征可以有效地復原原始文本信息。第三步是利用ELM分類器作為該算法的基分類器,ELM作為第四步中的基分類器參與訓練,最后一步是輸出該文本屬于哪一類。
4 實驗結果與分析
4.1 實驗數據集與評價指標
本文選用的分類文本數據來源于新聞數據集[5],該數據集復旦大學計算機信息與技術系李榮陸提供,數據集標注比較規范,規模適中,適合于進行文本分類的仿真實驗。
在文本分類中常用的評價指標有準確率P(Precision)和召回率R(Recall),公式如下:
P=M/(M+N),R=M/(M+T)
其中,M為正確分類到該類的文本數,N為錯分到該類中的文本數,T為屬于該類確誤分為別類的文本數。
4.2 實驗結果
為驗證本文提出的SEA文本分類模型,需要將文本數據集進行預處理,對于SEA模型來說,就是進行文本分詞。本實驗文本分詞采用的是NLPIR漢語分詞系統,其主要功能包括中文分詞,詞性標注,命名實體識別,用戶字典功能等,是國內比較成熟,用戶較多的中文文本分詞系統。經過文本預處理后,按照本文提出的SEA文本分模型進行實驗,并和幾種經典的分類算法做對比。在本實驗中Adaboost集成學習算法中基分類器的個數設置為10個,基分類器ELM中隱藏層的個數設置為輸入層的0.75倍,稀疏自動編碼器中隱藏層數設置為4,實驗結果如表1和表2所示。
從表1和表2可以看出隨著文本數量的增加,SEA模型的分類準確率和召回率逐漸提高,這是由于在訓練數據集較小時,稀疏編碼器對自動提取的文本特征變現地不是很理想,容易造成SEA分類模型產生過擬合現象,從而影響分類準確率和召回率。SVM算法在訓練數據集比較小時,變現良好,這是由于在訓練數據較少時,可以較容易地找到分類超平面,在數據量變大時,由于計算量的增大,使得計算量變大,導致計算得到的超平面效果不好,使得分類準確率和召回率不斷下降。BP和ELM算法都隨著訓練數據的增大,其分類準確率和召回率在不斷變大,這是由于隨著訓練數據的增大,BP和ELM可以更有效的提取輸入數據的特征,但ELM算法相比BP算法變現得更好,這是由于BP算法可能無法收斂到最優值,導致分類算法的準確率下降。
綜上所述,本文提出的SEA文本分類模型可以有效的提高文本分類的準確率和召回率,尤其是隨著訓練數據集的不斷增大。
5 結束語
文本分類在文本處理中占據著重要的地位,其分類的好壞直接影響著后續的文本處理,如何有效地對文本分類是一個重要的研究課題。本文結合稀疏自動編碼器,極限學習機與Adaboost集成學習方法提出SEA文本分類方法,實驗結果表明該分類方法可以有效將文本分類過程中的特征提取和分類器結合在一起,從而提高了分類結果的準確性。
參考文獻
[1]秦勝君,盧志平.稀疏自動編碼器在文本分類中的應用研究[J].科學技術與工程,2013,13(31):9422-9426.
[2]Baldi P, Guyon G, Dror V, et al. Autoencoders, Unsupervised Learning, and Deep Architectures Editor: I[J].Journal of Machine Learning Research,2012.
[3]Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006,70(1-3):489-501.
[4]Freund, Yoav, Schapire, Robert E. A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting[J]. Journal of Computer & System Sciences, 1999,55(1):119-139.
關鍵詞:潛在狄利克雷分布( LDA);向量空間模型(VSM);文本相似度;KNN分類
DOI:10.16640/ki.37-1222/t.2016.06.192
1 引言
目前,面對著互聯網上各種各樣、數量繁多的新聞網頁,人們不知道如何選擇自己需要和喜愛的新聞。因此,人們越來越迫切地需要一個對新聞進行分類的工具,能夠用來快速瀏覽自己需要的新聞內容。
常見的文本分類技術包括KNN算法、貝葉斯算法、支持向量機SVM算法以及基于語義網絡的概念推理網算法等。KNN算法在新聞等網頁文本分類中有著廣泛的應用,他的思想是對于待分類的文本,通過由與該樣本最接近的K個樣本來判斷該樣本歸屬的類別[1]。
本文針對傳統KNN算法在度量文本相似性時僅僅考慮文字層面的相似性,而未涉及語義層面。首先,對新聞文檔進行VSM和LDA主題建模,結合LDA模型與VSM模型計算文檔之間的相似度;其次,以復合相似度運用到基于相似度加權表決的KNN算法對新聞報道集合進行分類。
2 相關工作
2.1 向量空間模型
向量空間模型(VSM:Vector Space Model)由G.Salton、A. Wong、 C. S. Yang[2]等人于20世紀70年代提出。向量空間模型(VSM)以特征詞作為文檔表示的基本單位,每個文檔都可以表示為一個n維空間向量:T(F1,W1;F2,W2;…;Fn,Wn),簡記為T(W1,W2,…,Wn),Fi為文檔的特征詞,Wi為每個特征詞的權重,則T(W1,W2,…,Wn)為文本T的向量表示[3]。特征詞的權重值一般采用TF*IDF來計算。
向量空間模型把文本內容用n維空間向量表示,把對文本內容的處理簡化為向量空間中的向量運算,并且它以空間上的相似度表達語義的相似度,直觀易懂,但向量空間模型并沒有考慮到特征詞之間的語義關系,可能丟失很多有用的文本信息。
2.2 LDA主題模型
2.2.1 LDA主題模型基本思想
主題模型是統計模型的一種,用來發現在文檔集合中的抽象主題。LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構。首次是作為概率圖模型由David Blei、Andrew Ng和 Michael Jordan于2003年提出[4],圖1為LDA的概率圖模型。
其中M為文檔總數,K為主題個數,Nm是第m個文檔的單詞總數,β是每個Topic下詞的多項分布的Dirichlet先驗參數,α是每個文檔下Topic的多項分布的Dirichlet先驗參數。zm,n是第m個文檔中第n個詞的主題,wm,n是第m個文檔中的第n個詞。隱含變量θm和ψk分別表示第m個文檔下的Topic分布和第k個Topic下詞的分布,前者是k維(k為Topic總數)向量,后者是v維向量(v為詞典中詞項總數)。
2.2.2 Gibbs 抽樣
Gibbs Sampling是馬爾科夫鏈蒙特卡洛算法的一個實例。該算法每次選取概率向量的一個維度,給定其他維度的變量值采樣當前維度的值,不斷迭代至收斂輸出待估計的參數[5]。
從2.2.1中可知,zm,n、θm和ψk變量都是未知的隱含變量,也是我們需要根據觀察到的文檔集合中的詞來學習估計的。
學習步驟如下:
(1)應用貝葉斯統計理論中的標準方法[6],推理出有效信息P(w|T) ,確定最優主題數 T,使模型對語料庫數據中的有效信息擬合達到最佳。
(2)初始時為文本中的每個詞隨機分配主題Z(0),統計第z個主題下的詞項t的數量,以及第m篇文檔下出現主題z中的詞的數量。
(3)每一輪計算p(zi|z-I,d,w) 這里i=(m,n)是一個二維下標,對應于第m篇第n個詞,即排除當前詞的主題分配,根據其他所有詞的主題分配估計當前詞分配給各個主題的概率,根據這個概率分布,為該詞采樣一個新的主題Z(1)。同樣更新下一個詞的主題。直到每個文檔下Topic分布θm和每個Topic下詞的分布ψk收斂。
3 基于VSM和LDA模型的新聞分類
3.1 基于VSM和LDA模型的文本相似度計算
(1)對于文檔di,dj,由向量空間模型(VSM)進行預處理,得到的文本的特征詞向量di_VSM=(w1,w2,…,wN)和dj_VSM=( w’1,w’2,…,w’N),N為特征詞個數。
3.2 基于VSM和LDA模型的新聞文本分類
本文改進的KNN算法的具體過程如下[8]:
輸入:待分類新聞文本d和已知類別的新聞文本D;
輸出:待分類新聞文本d的可能類別。
(1)對d和D集合進行預處理,構建其特征向量和主題向量;
(2)對d中的每個新聞文本,采用公式(3-3)計算其于D中每個新聞文本的相似度;
(3)從中選擇與d相似度最大的K個文本;
(4)對于待分類文本的K個鄰居,依次按公式(3-4)進行計算d隸屬每個類別的權重。
W(d)= ∑ Tj(di)* Sim(d,di) (3-4)
其中,y表示d的特征向量,Tj(di)表示指示函數,指示是否是同一類別,即di是否屬于Cj,若是,則值為1,否則為0。Sim(d,di)表示待分類文本與鄰居di的復合相似度。
(5)比較每個類的權重,將權重最大的類別定為d的類別。轉入(2)直至所有待分類文本分類完成。
4 實驗結果及分析
4.1 文本分類的性能評價
評價文本分類算法的有兩個指標:準確率(Precision)和召回率(Recall)。由于準確率和召回率是分別從兩個不同的方面來評價分類效果,所以一般采用F_measure來評估分類效果,如公式4-1。
4.2 文本分類實驗結果及分析
本實驗語料采用搜狗實驗室文本分類語料庫,選取軍事、體育、旅游、教育、娛樂、財經六個類別,每個類別下挑選200篇文章,總共1200篇,其中訓練集占1/3,首先,針對不同的K值下的分類效果找出最佳的K值,然后,對傳統KNN算法和基于相似度加權的KNN算法進行對比試驗。傳統的KNN算法的權重計算方法如公式4-2所示:
W(d)= ∑ Tj(di)* SimVSM(d,di) (SimVSM(d,di)為公式3-1所求)(4-2)
最終確定實驗的參數如下:KNN的K值取20,主題數K=30,Dirichlet先驗參數選取經驗值α=1,β=0.01,Gibbs抽樣次數設為5000; VSM和LDA模型線性結合參數λ設置為0.8,實驗效果如圖2所示。
從圖2中可以看出,改進后的KNN分類算法在軍事、體育、旅游、教育、娛樂、財經六個方面都較傳統KNN分類算法好一些,因為,傳統KNN算法只是單純第從文字層面來計算兩段文本之間的距離,而將VSM結合LDA模型后,既可以較完整地保留文本的信息,又可以提取語義層面的信息,這樣能更精確地計算兩段文本之間的相似度。
5 總結與展望
本文提出了基于VSM和LDA模型相結合的KNN分類算法,與傳統KNN分類算法相比,引進了LDA模型,從而在計算兩段文本之間的距離時融合了語義層面的相似度,在相似度計算方法上進行了改進,實驗也驗證了改進后算法的有效性。
由于當前所用的中文語料庫還有待完善,本文選用的搜狗實驗室文本語料庫,主題數較少,使得LDA主題模型的作用不太明顯,后續將考慮使用爬蟲程序從各大新聞網站上選取一些語料庫的來源。
參考文獻:
[1]張寧.使用 KNN 算法的文本分類[J].計算機工程,2005(04).
[2]G.Salton,A.Wong,C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of the ACM: Volume 18 Issue 11,1975(11).
[3]王萌,何婷婷,姬東鴻,王曉榮.基于HowNet概念獲取的中文自動文摘[J].中文信息學報,2005,19(03):87-93.
[4]Blei D M, Ng A Y, Jordan M I.Latent dirichlet allocation[J].the Journal of machine Learning research, 2003(03):993-1022.
[5]趙愛華,劉培玉,鄭燕.基于LDA的新聞話題子話題劃分方法[J]. 小型微型計算機系統,2013(04).
[6]董婧靈,李芳,何婷婷.基于LDA模型的文本聚類研究[G].2011.
在高中英語教學中,學生閱讀能力與寫作能力是教學中的兩項重要內容。傳統的教學模式下通常會認為讀寫技能的培養是相對獨立、彼此分開的,很少會有教育工作者將這兩種技能的教學放到一起。然而,這種觀念卻有失偏頗,在有效教學模式的指引下讀寫技能的培養能夠很好的實現整合,將兩種技能的訓練融合到一起不僅能夠讓兩者間實現相互促進,還能夠有效地培養學生的綜合語言能力。本文將以具體例證為參考,談談高中英語讀寫技能整合教學模式研究。
一、話題導入與文章閱讀
在實現讀寫技能整合的教學時,教師首先需要做的就是把握好教學順序與教學節奏,只有在合理的教學模式的指引下讀寫技能整合教學才能夠更好的發揮其成效。在展開整合教學時第一個重要步驟就是話題導入與文章閱讀,這是后續展開文本分析與學生寫作訓練的前提與基礎。在展開這部分內容的教學時教師在話題的選取與導入上應當注重技巧,盡量選擇那些有意義且學生感興趣的文章,最好是讀過后能夠引發學生思考、并且讓他們有話想說的題材。這樣的文章不僅能夠更好地抓住學生的視線與注意力,這樣的閱讀素材也能夠為后續的寫作訓練提供更好的土壤,讓讀寫技能整合教學能夠更有效的得以實現。某次課堂上筆者和學生間就travel這個話題展開探討,和學生們一起聊起了旅行帶給人的視野與思維上的變化。學生們對于這個話題都很感興趣,在非常融洽的課堂氛圍中筆者向學生們引出了如下閱讀材料:
In today’s age of fast travel, the world seems a smaller place and to some people, a less exciting place. Fifty years ago people who didn’t travel thought of other countries as very far away and different. People thought the French all eat garlic, the Italians all eat spaghetti. And the Americans all drink Coca Cola; these definite ideas of other nationalities are called stereotypes. But do we have the same stereotypes today? People travel more, we all watch the same TV programmers, and ideas travel quickly too. Nowadays everyone eats garlic and spaghetti and drinks Coca Cola. Everyone listens to the same music. Wears the same fashions, buys the same cars. They just do it in a different language!
二、讀后研討與文本分析
讀寫技能整合教學的step 2就是讀后研討與文本分析。這個過程不僅是對于閱讀素材的進一步咀嚼回味,也能夠讓學生更深入的體會文意,從語句層面以及文章的主題思想角度來感受文字所傳達的旨意。對上述文本展開閱讀后筆者讓學生都來談談自己讀后的感受,學生都很積極的參與到探究過程中來。有的學生說到從這篇文章中他看到了到世界各地旅行后能夠讓人的思維更寬闊,能夠了解世界上不同文化以及不同民族的生活方式;也有學生說這篇文章反應了不同國度的人們生活方式的融合,尤其是文中提到的隨著信息社會的到來,不同地理位置的人和人之間所做的事情越來越相近。學生們的觀點中有很多可圈可點的地方,從文章研討中不僅能夠看出學生們在讀的過程中很用心并且讀懂了文意,細致的文本分析也能夠為后續的寫作實踐打下良好的契機。
三、寫作實踐與初稿評改
精讀這篇短文并且展開較為透徹的文本分析后,學生基本都能夠很準確的把握住文意,這是學生閱讀能力得到良好培養的體現。讀寫技能整合教學的step 3便是寫作實踐的展開。在范文的閱讀與分析結束后,筆者讓學生們以travel為話題,可以從不同角度與不同方面來描述一下自己的想法與感受。
經過上述話題研討、文章閱讀以及文本分析的過程后,班上基本上所有學生對于這個話題都能夠做到有話可說,不少學生的作品中都出現很多閃光的語句。經過此次英語讀寫技能整合教學后學生不僅在閱讀文章時更為細致,文本分析中也加深了學生對于文意的領會。而這一切都為后續的寫作實踐的展開提供了豐盈的土壤,經過“讀”后學生“寫”的能力明顯得到提升,讀寫技能整合的教學模式的優越性得到了非常直觀的體現。
摘要:通過分析中文短文本的特征,提出了一種基于語法語義的短文本相似度算法.該算法結合中文語句語義的相似性以及語句語法的
>> 中文詞語語義相似度計算 基于中文分詞的文本相似度動態規劃算法 使用概念描述的中文短文本分類算法 詞匯語義相似度算法研究及應用 基于模糊相似度的RPCL文本聚類算法 一種實體描述短文本相似度計算方法 基于語義指紋的海量文本快速相似檢測算法研究 語義與統計相結合的中文微博相似度計算方法 面向社區問答的中文短文本分類算法研究 一種基于WordNet語義相似度的改進算法 一種基于本體的語義相似度算法研究 中文文本相似度在商業網絡中的應用 視頻語義相似度網絡研究 一種基于HNC理論的文本相似度算法 基于標題與文本相似度的網頁正文提取算法* 英語法語單詞相似或相同詞源學研究 “作”和“做”的語法語義特征分析 基于句法語義特征的中文實體關系抽取 中文自由短文本信息抽取方法的研究 基于標記樣本和相似度調整的k均值算法在文本聚類中的應用 常見問題解答 當前所在位置:l.
DONG Zhen-dong, DONG Qiang.Chinese information database based on CNKI[EB/OL]//heenage, com/html/dex.html.(In Chinese)
[6]The Stanford Natural Language Processing Group. The Stanford NLP[EB/OL]//http://nlp.stanford.edu/software/lex-parser.shtml.
[7]ISLAM A, INKPEN D. Semantic text similarity using corpus-based word similarity and string similarity[R]. Ottawa:University of Ottawa,2008.
[8]LI Y H, MCLEAN D, BANDAR Z A, et al. Sentence similarity based on semantic nets and corpus statistics[J]. IEEE Transactions on Knowledge and Data Engineering,2006,18(8):1138-1150.
[9]劉群,李素建. 基于《知網》的詞匯語義相似度計算[C]//第三屆語義學研討會論文集. 臺北:臺北中央研究院,2002: 149-163.
LIU Qun, LI Su-jian. How net-based lexical semantic similarity calculation[C]//Third Semantics Workshop Proceedings. Taipei: Academia Sinica, 2002: 149-16. (In Chinese)