真人一对一直播,chinese极品人妻videos,青草社区,亚洲影院丰满少妇中文字幕无码

0
首頁 精品范文 c語言論文

c語言論文

時間:2022-08-20 09:44:26

開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇c語言論文,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。

c語言論文

第1篇

論文致謝是什么?論文致謝就是將本篇論文有所幫助的人為之答謝,那么論文致謝應該怎么寫?下面是學術參考網小編為朋友們搜集整理的論文致謝和結論的格式,希望可以幫到你~

什么是論文致謝信

在論文完成之際,我要特別感謝我的指導老師XX老師的熱情關懷和悉心指導。在我撰寫論文的過程中,X老師傾注了大量的心血和汗水,無論是在論文的選題、構思和資料的收集方面,還是在論文的研究方法以及成文定稿方面,我都得到了X老師悉心細致的教誨和無私的幫助,特別是他廣博的學識、深厚的學術素養、嚴謹的治學精神和一絲不茍的工作作風使我終生受益,在此表示真誠地感謝和深深的謝意。

在論文的寫作過程中,也得到了許多同學的寶貴建議,同時還到許多在工作過程中許多同事的支持和幫助,在此一并致以誠摯的謝意。

感謝所有關心、支持、幫助過我的良師益友。

最后,向在百忙中抽出時間對本文進行評審并提出寶貴意見的各位專家表示衷心地感謝!

論文致謝信怎么寫

C語言論文致謝

在碩士學位論文即將完成之際,我想向曾經給我幫助和支持的人們表示衷心的感謝。首先要感謝我的導師曹計昌教授,他在學習和科研方面給了我大量的指導,并為我們提供了良好的科研環境,讓我學到了知識,掌握了科研的方法,也獲得了實踐鍛煉的機會。他嚴謹的治學態度、對我的嚴格要求以及為人處世的坦蕩將使我終身受益。除此之外,他對我生活的關心和照顧也使得我得以順利完成研究生的學業。在此祝愿他身體健康,全家幸福!

感謝我已經畢業的師兄徐日東、張凡、周志堅、段云涌和夏志遠,他們曾經給了我無私的幫助和鼓勵,讓我學到很多。感謝汪健和程詩猛兩位師兄,他們豐富的工作經驗對于本文的硬件設計提供了很大的幫助。感謝同屆的張斌、李純和張登寶,他們是我學習、工作和生活上的伙伴,也是面對困難和挑戰時的戰友。感謝我的師妹鄧禎,師弟馮國平、古明生、周建瓊、楊帆、舒林、周宇杰、朱圣健、吳喧輝和張澤,從他們身上,我學到很多東西,和他們在一起的日子是讀研期間快樂的時光。

感謝在廣東普信公司實習時的同事們,他們在我第一次參加實際項目開發的過程中給了我莫大的幫助和鼓勵。特別要感謝我的項目經理李旭和黃潤懷,是他們的信任給了我很多鍛煉的機會,也一直對他們給予我的生活上的照顧心存感激。和他們一起為廣州項目奮戰的一年多是我人生中一段難忘的經歷。

第2篇

    一、“飽含著東方人的智慧卓見”

    學者王元化也被推重為“時代的思者”①。雖然作為學者或思想者,王元化都難以完全納入“比較文學”論域,后者卻可能是感觸前者獨特風貌的一個有效視角,而前者也可能為后者提示“中國氣派”的啟示。就王元化學術方面而言,一位前輩文藝學者將之梳理概括為八個方面后寫道:“20世紀上半葉,中國出了不少學術大師,如王國維、梁啟超、陳寅恪、魯迅、、郭沫若等”。而及至21世紀,“王元化作為一代學術大師的意義和價值,似乎還不曾被更多的人所認識和揭示”②。在改革開放以后形成的“比較文學”學科領域中,著名法國文學研究者錢林森《緬懷遠去的智者———王元化先生與〈跨文化對話〉二三事》中寫道:“國際雙語論叢《跨文化對話》自1998年創刊至今,已邁過10年歷程了。……不久前離世的王元化先生,他為《跨文化對話》留下的思考和文字,更值得我們珍惜、懷念”③。王元化被推重為“比較文學”研究領域開拓者的代表作是1979年出版的《文心雕龍創作論》。該書在全國首屆(1979~1989)比較文學圖書評獎活動中獲“榮譽獎”④。學者趙毅衡當年評論:“一九七九年或許是我國比較文學研究進入‘自覺期’的一年:錢鐘書《舊文四篇》、《管錐篇》前四卷、楊絳《春泥集》、范存忠《英國文學語言論文集》、王元化《文心雕龍創作論》,這些解放后出版物中中西比較文學內容最集中的書籍,都出現于一九七九年。”①季羨林先生在更早的1981年寫道:“應該把中國文藝理論同歐洲的文藝理論比較一下,進行深入的探討,一定能把中國文藝理論的許多術語用明確的科學語言表達出來。做到這一點真是功德無量。

    你在這方面著了先鞭。”②王元化另一部代表作《思辨隨筆》于1995年獲第二屆中國國家圖書獎。著名翻譯家蕭乾先生在《〈思辨隨筆〉不可不讀》中寫道:“這里論述的真是從中至外,從古至今:從孔子、劉勰到魯迅、,從莎士比亞到普希金,沒有冗長引句,更不見老生常談,全是作者的思緒和心得。他對莎劇有些評論如譯出來傳到國外,估計必會贏得西方莎學家們的贊賞,因為其中飽含著東方人的智慧卓見。”③如果說蕭乾評語中對“東方人智慧”的強調在中國比較文學研究界是先著一鞭,那么其所思所見與王元化本人同時期關于中西文化比較的主導思想之強調是不謀而合:研究中國文化,不可避免地需要以西學作為比較的參照系,但又不可以西學為主體,用中國文化去比附。恕我再一次借用正在受人指摘的余英時的直率說法:“今天的文化危機特別表現在知識分子的浮躁心理上,仰慕西方而不知西方文化的底蘊,憎恨傳統文化又不知傳統文化為何物。”④并非偶然的是,十年后日本學者將《思辨隨筆》作為《王元化著作集》之一而完整譯介⑤。《思辨隨筆》于2004年增補修訂為《思辨錄》⑥。有的高校教師開始將之作為“大學本科生和研究生入學時必讀的教科書”⑦。最近一位承擔國家社科基金項目的年輕學者在《王元化〈思辨錄〉的方法論意義》專題論文中提出:“《思辨錄》體大思精慮全、圓融中外古今,對其展開全面研究是一門大學問。”⑧筆者初步考察統計,《思辨錄》全書出現的外國作家與文學人物姓名不下三百之數。如果以外國文學作為“比較文學”參照系,則該書內涵之豐富也可見一斑。

    王元化學術中的“比較文學”因素還可追溯到其歷年乃至早期著述中。例如文藝評論集《向著真實》初版于1952年,其中所及的外國文學家不僅有契訶夫、車爾尼雪夫斯基、別林斯基、羅曼?羅蘭、果戈理、卓別林,還包括法國作家左拉、美國作家考德威爾、捷克作家伏契克,以及委內瑞拉詩人等。該書再版后記回顧道:“我寫下了對自己所喜愛的某些作家的一些感受。其中有些看法現在雖然已有所變化,但對于這些引導我認識生活和怎樣對待文學事業的先驅,我始終懷著青年時代的崇敬心情。今天重讀這些文字,我的心中仍激起當年的感情波瀾。”⑨一位年長學者回憶八十年代末讀到《向著真實》與《文心雕龍創作論》二書時的心情:“那時,我在一些前輩鼓勵下,正起步于比較文學教學與研究,并開始招收比較文學方向的研究生。相遇王先生這兩部著作,對我而言,真是不期而遇的‘機緣’。《向著真實》這部處處充滿真知灼見的評論文集中,最引起我注意和興趣、且對我產生影響的,是他評論羅曼?羅蘭《約翰?克利斯朵夫》的兩篇文章,先生對羅蘭作品認識獨到,見解高遠,我不僅在自己的論作中加以征引,也在對研究生授課中多次介紹過。”①王元化青年時代最初論文是1939年發表的《魯迅與尼采》。他晚年自述該文“受到了由日文轉譯過來的蘇聯文藝理論影響”,其中有“機械論的痕跡”②。然而在中國現代文學思想史敘事中,迄今它依然不失為“三十年代關于魯迅的最有分量的論文之一”③。《魯迅與尼采》的標題與今天“比較文學”研究的通常模式相契。該文作為王元化最初發表而產生影響的論文,意味著其學術生涯中的某種潛在基質。如果說這種基質與后來引進的“比較文學”研究視閾和方法不謀而合,那么王元化自1939年迄至去世的2008年,在近七十年中先后出版的四十余種著述中,都可能包含“中國比較文學”研究的獨特因素和資源。

    二、“比較文學方法”與“綜合研究法”

    原初意義上的“比較文學”基于兩個要素:一為文學對象,二為外文研譯。前者是比較文學的特定對象,后者是賴以成立的前提。就此而言,王元化學術至少包含若干原初意義的“比較文學”因素。例如他的莎士比亞研究包括對西方莎劇論文的譯介。他的《文心雕龍》研究,前期成果之一是對西方“文學風格”代表性論文的譯介,后者成書為《文學風格論》④。此外,王元化還與父親王維周教授合譯過《革命親歷記》⑤。然而在中國語境中,比較文學研究通常也以中譯本為對象。即便在這一場合,研究者是否自覺意識到外文原文與中文譯文之間可能存在意味差異乃至歧義,這無疑會影響到他所作判斷和所下結論是否中肯合理。這種差異乃至歧義尤其表現在一些專門術語上。因此,至少就中外文藝理論的比較研究而言,對中外術語意味之差異的清醒認識,以及基于這種認識的追溯考辨斟酌等,理應是研究者的必要條件和基本素質。王元化學術中的“比較文學”因素也蘊含于他對漢譯西方著作的研讀和闡釋中。這方面他所提供的啟示之一是,對于西方著作中的一些關鍵性理論術語,必須結合外文語源和語境而盡可能充分辨析、追溯和考量。例如他的《讀黑格爾》中多處研討了黑格爾術語的中譯問題。諸如:“情志”、“情致”、“”三者相對于黑格爾原著中古希臘詞“”何者更為恰當;“知性”較之于舊譯“悟性”或“理解力”為什么更能妥切傳達德文原著“Verstand”之旨;“總念”、“概念”之于德文“Begriff”的孰所優劣;中國古典美學“氣韻生動”、“生氣灌注”與黑格爾美學“beseelt”的漢譯關系;被英譯為“sense”(感覺)的德文“sinn”是否可以譯為“藝術敏感”;為什么應該用“寧靜”來替代中文舊譯的“靜穆”,等等⑥。這里我們以《讀黑格爾》用“情志”翻譯“”的一例觀之。

    后者在黑格爾德文原著中就是一個源于古希臘的外來詞,并且黑格爾本人認為它在德文中很難找到確切譯詞。而據《讀黑格爾》對“”詞的考察:它在英文中譯作“Pathos”(意為悲哀,哀愁,動情力,悲愴性等),在拉丁語中譯作“Qual”(意指本原的痛苦),在恩格斯著作中被解釋為“苦悶”,在中文舊譯中轉成“情致綿綿”。這些譯詞相互歧異,究竟如何漢譯為恰?王元化考辨的結論是:“”這個詞不僅涉及情感方面,也潛在“志”的意蘊,它指謂的是一種“合理的情緒方面的力量”;中文舊譯“情致綿綿”未能傳達該詞的“志”意,英譯“Pathos”(悲愴情感)也遺漏了該詞的倫理意味①。這個例子至少表明,王元化對黑格爾術語的把握是經過多方考究和反復斟酌的。一方面,其結合黑格爾理論體系背景而辨析的方法是超出了一般語言翻譯家的關注所及;另一方面,其對該詞語源的盡可能追根溯源,亦足為重思想而輕學術的年輕后輩有所借鑒。就外來的“比較文學”方法而言,通常認為主要有“平行研究”與“影響研究”兩種。而這兩種方法在王元化著述中多處可見。這里僅就平行研究方面管窺一斑:在我讀過的劇作中,我把具有這種特點的劇本稱作是“散文性戲劇”,將它與“傳奇性戲劇”相區別。……我對散文性戲劇和傳奇性戲劇所作的比較說明,在我過去所寫的文字中曾留下了痕跡。②王元化以“散文性戲劇”與“傳奇性戲劇”來概括契訶夫與莎士比亞作品的不同特點,這顯然可納入“平行比較”。據考察,我國建國初戲劇界關于戲劇結構的分類,有開放式、閉鎖式、人物展覽式的三類型說;至上世紀80年代有純戲劇式、史詩式、散文式、詩式、電影式的五類型說,其中將莎士比亞戲劇作為史詩式結構的典型,契訶夫戲劇作為散文式結構的典型;同期又有論者以“非戲劇化傾向”來指謂契訶夫戲劇的特征。由此回瞻,王元化五十年代對契訶夫戲劇與莎士比亞戲劇之異同的概括至少可謂先著一鞭③。比較文學界通常所謂“平行研究”主要限于將A與B兩個不同國別的文學對象加以比較(例如阿Q與唐?吉訶德之比較)。

    這一方法無疑來自國外。相對于此,王元化的方法另有其獨特之處:即比較的對象常常不限于A與B,而是A、B、C乃至更多。例如在被評贊為中國比較文學“開拓”之著的《文心雕龍創作論》中,比較所及的外國文論包括馬克思、黑格爾、歌德、威克納格、契訶夫、別林斯基等;其所涉國別則包括德國、英國、法國與俄羅斯等。這種比較顯然超出了通常以兩個國別文學為對象的“平行比較”模式。這種不拘常套的“平行研究”在王元化著述中多處可見,下面是另一例:《雷雨》充滿濃重的傳奇色彩,《北京人》只是生活的散文:平凡、樸素,好比一幅水墨畫,……我不想判斷傳奇的悲劇好,還是散文的悲劇好。莎士比亞式的悲劇我喜歡,契訶夫式的悲劇我也喜歡。不過,傳奇的悲劇容易渲染過分,以致往往有失真之弊。雨果的《鐘樓怪人》是偉大的作品,可是我個人的口味更喜歡史坦培克在《人鼠之間》中所寫的萊尼。這是一個力大、粗魯、丑陋的壯漢,在粗糙的靈魂中同樣充滿了人性和柔情。他更平凡,也更使我覺得親切。以上這些就是我當時的看法,其中許多觀點,我至今未變。但是任何一種正確觀點,如果固執地推到極端,作為審美標準的極致,就會產生片面化,從而使自己的眼界狹窄起來。……前人所謂尺有所短,寸有所長,萬物并育而不相害的話,確實是有道理的。④其中比較所及對象除了莎士比亞與契訶夫外,還包括的《雷雨》、《北京人》,雨果的《鐘樓怪人》、史坦培克的《人鼠之間》。英文中,兩個對象之間的比較與三個以上對象之間的比較,在語言表述上需要分別使用不同的介詞,即“between”與“among”。其差異表述如下:(1)totelldeferencebetweenAandB.(比較A與B兩個對象的差異)toshowsimilaritybetweenAandB.(比較A與B兩個對象的相通)(2)totelldeferenceamongA,B,C.(比較A、B、C三個對象的差異)toshowsimilarityamongA,B,C.(比較A、B、C三個的對象相通)如果將上述兩種比較分別稱為“between型”與“am

第3篇

〔關鍵詞〕法律學術論文;英漢對比;引言;體裁;語步

〔中圖分類號〕H05〔文獻標識碼〕A〔文章編號〕1000-4769(2013)02-0203-06

一、 引言

隨著對外開放的領域拓展和程度加深,中國與國際法律界的交流與日俱增,相應地,學術論文也成為中外法律界探討各種熱點問題、交流信息、完善法律制度、解決法律爭端的重要途徑。就一定層面來看,要讓我國法律研究走向世界,得到國際學術界同行的認可并占有一席之地,當務之急是在國際重要的學術刊物發表高水平學術論文。因此,了解中英文法律論文的寫作差異,掌握英文法律學術論文寫作規范是法律研究工作者的當務之急。

引言作為論文的開局部分,以簡短的篇幅介紹論文的寫作背景和目的、目前的研究熱點、存在的問題及文章的研究意義,從而引出本文的主題并激發讀者對本篇論文的興趣。因此,引言對正文起到提綱挈領和激發閱讀興趣的作用,在整篇學術論文中具有十分重要的地位功能。目前法學界對法律類學術論文中引言的研究則尚顯不足,而從英漢對比的角度探討英文法律學術論文中引言的體裁特征的研究更是極其稀缺。鑒于此,本研究采用語料庫方法,選取30篇中外法律權威學術論文,修正了體裁分析的框架,對比分析英漢法律類學術論文引言,旨在準確地描述英文法律學術論文中引言的體裁特征,并探討差異背后的社會文化原因,借此喚起國內法律研究者對英文論文中引言寫作的規范意識,促進我國法律學者在國外權威法學期刊上發表高水平的學術論文。

二、理論依據

體裁是以交際目的為導向的交際事件,具有其話語社團公認和遵守的圖示結構,并且對語篇的內容和形式起著制約作用。〔1〕它不是一般的交際事件,而是一種內部結構特征鮮明、高度約定俗成的可辨認的交際事件。在建構語篇時,人們必須遵循某種特定體裁所需要的慣例。 〔2〕而體裁分析方法是多學科交叉研究的產物,它綜合了語言學、社會學和心理學的研究方法,將交際目的與策略技巧緊密聯系在一起,把語篇分析從描述擴展到解釋,不僅考慮社會文化因素,而且考慮心理語言因素。〔3〕

引言也是一種具有特定框架的體裁。為了分析引言的體裁結構,Swales提出了CARS(Create A Research Space)模型。該模型包含三個必需的語步(Move),而每個語步包含若干可選擇的步驟(Step)來實現語篇的交際功能,如語步一(Move 1)中包含三個步驟:指出研究重要性 (claiming centrality) ,概述主題(making topic generalizations)、評述以往研究(Reviewing previous re-search)。雖然CARS模式是分析論文引言結構的有效模式,但學術論文的多樣性必然導致引言的體裁多樣性,例如軟件工程學科論文引言的某些新語步,如定義術語、舉例說明等,無法在CARS模型中找到對應。〔4〕而在不同學科的論文引言里,某些特定的語步,具有獨特的語篇功能和位置。〔5〕

筆者在分析英文法律學術論文中的引言語料時發現,英文法律學術論文中的引言在回顧文獻、通報當前研究和介紹論文結構這三大語步的寫作規范有很大的差異。因此為了更深層次的討論,本研究將它們作為單獨的語步列出。同時,筆者也發現英文引言中的一些步驟,如定義關鍵術語,陳述當前研究,陳述主要計劃,概述研究目的,研究問題/假說和研究價值等,在CARS模型中找不到對應。因此,本研究將新步驟加入了CARS模型里,結合英文法律學術論文中引言特有的語步,以及CARS模型里缺少的語步和步驟,修正了CARS模型,提出了英文法律類學術論文類CARS模型(見表1)。

三、研究現狀

在當今國際學術界,體裁分析已被廣泛應用于許多領域,其中包括對某一特定學科的英漢論文體裁對比研究,發現某些特定學科論文引言里包含了CARS模式沒有的一些重要步驟,如定義術語等;〔6〕一些學者從修辭策略的角度,對某一特定學科的跨文化跨語言論文引言進行對比研究;使用體裁分析理論比較同一學科不同領域的論文的引言結構也是語言學家們關注的焦點。〔7〕這些研究豐富了體裁分析理論,完善了CARS模式,也揭示了不同交際目的下引言寫作的多樣性。

在國內, ESP教學,寫作和翻譯研究,〔8〕以及學術語類語篇的模塊標注〔9〕等領域是體裁理論研究的焦點。與法律學術論文的相關問題也引起了學者的廣泛探討,其中有對法學論文各部分寫譯規范化的探討,〔10〕也有對當前法學論文現狀和存在問題和解決方案的研究,〔11〕以及對英漢法律語篇和語言差異的研究〔12〕等等。這些探索性研究對體裁分析的應用與拓展起到了積極作用,同時有助于對國內法學研究的反思并推動其發展。

縱觀以上研究,雖然它們從不同方面對法學論了廣泛而深入的探討,但多數是從理論論證,沒有進行大量實例驗證,缺乏有力的數據支撐。而且這些研究多集中于中文法學論文,對比中英文法學論文的研究涉及甚少,對于幫助國內法學學者了解國際法學刊物的寫作規范作用有限。

四、研究方法

本研究從國內外法律權威學術期刊共選取語料30篇,創建共計30240字數的小型英漢法律學術論文引言語料庫。英文期刊包括Harvard International Law Journal, International Review of Law and Economics,Computer Law and Security Review等。中文期刊包括《法學研究》、《現代法學》。運用英文法律類學術論文CARS模型,對30篇英漢法律論文引言中的語步步驟進行人工標注,用AntConc軟件提取,歸納各語步及步驟頻率分布特征,總結英漢法律論文中的引言語步分布以及實現形式差異,并深入探討其產生的深層次原因,力求從對比分析的角度更全面、客觀地把握英文法律學術類論文中引言的體裁特征,幫助中國法律學者寫出高質量的英語法律學術論文。

五、結果分析與討論

基于以上研究方法,我們得到英漢法律學術論文中引言的宏觀語步和微觀步驟分布特征(見表2),我們將逐一分析它們的異同,并探討其背后深層次的社會文化原因。

1.英漢法律論文中引言的宏觀語步分布特征

(1)由表2可見,中英文法律論文中的引言語步特征呈線性分布:確立研究領域開篇-闡述前期研究成果-設置研究空間-通報當前研究-填補研究空間-介紹論文結構。但英漢法律學術論文引言的宏觀整體結構有較大不同,在語步的順序和分布上具有明顯差異,主要體現在語步1(確立研究領域)、語步5(填補研究空間)和語步6 (介紹論文結構)。

(2)相比中文法律學術論文引言,英文法律論文引言更注重詳盡、全面地介紹研究領域。引言開篇采用介紹研究領域,研究背景這一語步,可以讓讀者能夠迅速進入研究情景,了解必要的背景知識以便更好地理解作者的文章論證及觀點。所有30篇英文法律論文中的引言十分詳細具體地介紹了研究領域,涵蓋了相關領域的方方面面,所占篇幅較大,有的達到數千字(由于篇幅有限,作者不再舉例說明)。雖然86%的中文法律論文中的引言介紹了研究領域,但篇幅在整個引言中較短,寥寥數語,甚至有2篇引言未介紹研究領域而直接進入了“設置研究空間”這一語步。

英漢法律論文中引言對于介紹研究領域的顯著差異主要源于國內外不同的學術寫作習慣。國外學者通常采用作者負責型寫作方法,這種方法要求作者詳細闡述觀點,展示邏輯推理的過程和事物的具體性,這使得文章條理清楚,目的明確,也大大減輕了讀者的負擔;而中國學者則傾向于采用傳統的讀者負責型寫作方法。這種寫作方法傾向于含蓄概括,思維委婉跳躍,作者只是提出模糊的意向和幫助理解的材料,大量背景知識需由讀者自行查找,作者的觀點深意也要由讀者從文章敘述中得出, 讀者的主觀理解發揮了極大的作用。所以在例1中,作者在第一句中就直接切入研究焦點:教育權,第二句高度概括了造成不同理解的原因,并沒有展開此話題,給讀者留下了更多的想象空間,以待在下文中尋求答案。

例1.現代法律一般都承認受教育權是一項基本人權,但各國的立法表述上不同,導致人們對受教育權性質的含義有多種不同的理解……(《從國際法角度看受教育權的權利性質》)

(3)英文法律論文更傾向在引言里通報其填補研究空間的結果,而中文法律論文引言涉及極少。“通報研究空間”這一語步的主要功能是直接說明研究成果,并指出其在研究領域的理論和實踐上的意義和價值,同時也強調當前研究的貢獻。

由表2可見,英文法律論文作者一般在引言里直接提出其研究結果,解決方案,觀點看法等,80%的英文法律學術論文都在引言里通報了填補研究空間的結果,這使得讀者在一開始就對文章的立場清晰理解(見例2、例3)。在例2中,作者提出了一種常識性理論,這種理論可以很好的解決前文提出的藝術品訴訟法庭爭議的問題。在例3中,作者直接表明了自己的立場和文章的結論:修訂法不能根本改變被告的權利,從而回答了一直備受關注的問題。

例2.In contrast to the work of such scholars, this Article, written on the verge of a possible dramatic reworking of the rules governing international jurisdictional conflicts and judgments, posits a simple common sense theory: courts should defer to the forum exercising in rem jurisdiction will have the most control over the ultimate disposition of the chattel.(〈Crossroads in the Great Race: Moving Beyond the International Race to Judgment in Disputes over Artwork and Other Chattels〉)

例3. This Comment concludes that the amended rules are not likely to change substantially the rights of criminal defendants with respect to the introduction of prior act evidence.(〈COMMENT: Oregons New Character Evidence Rules〉)

相比之下,中文法律學術論文極少在引言中直接揭示其觀點立場或解決方案等,只有20%在引言里指出了研究結果,解決方案等。由此可反映出中英學者不同的論文寫作習慣:外國學者寫作直接清晰,開門見山,而中國學者寫作委婉曲折,傾向于緩慢推進寫作進程。

(4)大部分英文法律論文會在引言里介紹論文結構,而中文法律論文引言都缺少這一語步。介紹論文結構能幫助讀者掌握文章脈絡,更好地理解作者的思路,從而更深刻地掌握作者論證的方法過程。此外,論文結構可以使讀者更有針對地閱讀文章,有選擇、有重點地研究自己感興趣的部分,在閱讀引言時就能夠確定自己閱讀的重點(見例4)。表2表明70%以上的英文法律論文都在引言里介紹了論文結構,不僅使得文章邏輯嚴密,條理清晰,還使得讀者有了整體的概念,也方便讀者快速閱讀感興趣的部分。在例4中,作者用主題句、特點的語法結構,清楚地呈現了整個篇章結構,使讀者能迅速地把握文章脈絡,選取自己的興趣點。

例4. The structure of this Article is as follows: In Part I, I briefly survey……In Part II, I analyze……I demonstrate that (a)…… (b)……(c)…… I then turn in Part III to a description of……In Part IV, I examine…… In Part V, I put forward the basic tenets of an IL approach. In this model, (〈Integrative Linkage: Combining Public and Private Regulatory Approaches in th Design of Trade and Labor Regimes〉)

而中文法律論文引言幾乎都沒有包括這一語步,中國學者更傾向引起讀者興趣,使其繼續閱讀,自己探尋文章脈絡。

2. 英漢法律論文中引言的微觀步驟對比

(1)確立研究領域選用的步驟不同。英文法律論文引言大多通過概括論題內容,介紹相關背景知識來引領讀者進入研究領域,而中文法律論文則更多的介紹論題重要性來確立研究領域(見表3)。

55%的英文法律學術論文作者采用概括論題內容來確立該論文的研究領域,由此可見,國外學者重視邏輯思維和嚴密分析,通過一步步的概括和闡述論題內容,由點及面,由個體到整體的描繪出整個研究領域,引導讀者輕松進入研究情境。而近一半的中國學者傾向使用“介紹論題重要性”,是為了吸引讀者。在信息時代,高效率的讀者會首先通過閱讀引言了解文章大致內容是否與自己的研究息息相關或是否具有重要意義來決定是否繼續閱讀文章。因此,“介紹論題重要性”就發揮了強調當前研究、吸引潛在讀者的作用。在例5中,作者通過用一些闡明論題重要性的短語,如“議論的熱點”,“熱門話題”等,突出了該話題的重要性和時效性,以達到迅速吸引讀者的眼球,并促使他們繼續往下讀的效果。

例5.近年來,隨著社會生活領域各種基本規范的確立,我國法治建設的中心已逐步從“立法”轉向“司法”,與司法相關的話題也逐漸成為實務界和學界議論的熱點。“法律原則如何適用”即是其中的一個熱門話題。(《法律原則適用與程序制度保障———以民事法為中心的分析》)

(2)在回顧前期研究成果步驟中,大多數英文法律論文引言都會采用回顧前期研究成果,而中文法律論文引言較少涉及(見表4)。回顧前期研究成果這一語步,主要是通過大范圍討論先前研究從而自然地引入當前研究來實現的,它將當前研究與以往研究聯系到一起,既可以體現當前研究的重要性和貢獻,又可以為設置研究空間提供依據。然而,回顧前期研究成果并不是單純為了回顧,而是幫助作者:(1)將論題縮小到當前研究的一個具體點上;(2)找到前期研究的局限性和問題;(3)通過回顧前期研究成果,尤其是知名研究,并提出問題使得文章更具學術性,更使人信服。因此,回顧前期研究成果兼具交流和說服的作用。

中英法律論文引言在此步驟上的不同與中外的研究傳統緊密相關。西方國家個人主義根深蒂固,倡導消極禮貌策略,強調個人價值,〔13〕因此體現在學術寫作上就是回顧前期研究成果和指出研究差距,既強調他人貢獻,又指出缺陷突出本研究的必要性。 如例6中,作者在討論先前研究時,明確地指出了每一個觀點的作者,如Cary和Winter,體現了西方國家強調個人價值的價值觀。

例6. Noting that a large part of Delaware’s revenue was derived from the incorporation business, Cary (1974) opined that Delaware bent over backward to offer a corporation law that appealed to corporate managers. In response, Winter (1977) noted that if Delaware corporations did in fact do poorly, one would expect that their cost of capital would increase to reflect the diminished returns. Winter noted that there was no evidence that this was the case.(〈The role of interjurisdictional competition in shaping Canadian corporate law〉)

然而,中國文化深受集體主義價值觀的影響,提倡積極禮貌策略,折射在學術尤其是社會科學研究上,〔16〕回顧前期研究成果的方式十分隨意模糊,盡量避免評價他人成果。

在例7中,作者在回顧前期研究成果時,并未明確地指出是哪位或哪些學者提出了這些觀點,而是籠統地用“學者們”概括,這就體現了集體主義的價值觀。另外一方面,盡管作者指出前期研究得出“與西方社會相比,中國社會法制觀念淡漠,中國公民缺乏權利意識和法律信仰”的結論,但卻沒有明確指出得出這些結論的文獻和作者,這也會讓讀者疑惑是前人做出的這些結論,還是作者的主觀推斷。所以,相比之下,英文法律學術論文引言在回顧前期研究成果時,非常明確地指出了作者及文獻,這使得引用更具客觀性,真實性和說服性。

例7. 學者們普遍認識到,法律的有效實施,除了必須具備一些體制內的“硬件”(包括足夠的執法力度、完善的監督機制以及高素質的法律職業群體等等)之外,還需要社會環境的支持。如果環境不利,法律就難免在其實施過程中被扭曲變形,甚至形同虛設。然而,讓人頭疼的問題是,中國社會的“水土”究竟有哪些成分不適合“現代法律制度”的運行? 對此,學者們普遍認為,與西方社會相比,中國社會法治觀念淡漠,中國公民缺乏權利意識和法律信仰,歸根到底,中國本土的“法律文化”與來自西方的現代法律制度之間存在深刻的裂痕,甚至在某些地方格格不入。(《法治及其社會資源———兼評蘇力“本土資源”說》)

(3)在通報當前研究這一語步的實現形式上,英漢法律學術論文引言采用的步驟相差較大(見表5)。在這一語步中,中文法律論文中引言采用的四個步驟比例較均衡,而一半以上英文法律論文中引言主要采用“陳述論文主要計劃”這一步驟。更值得注意的是,中文法律論文中比例較高的“陳述研究價值”步驟,在英文法律論文中卻幾乎沒有。

例8. This Article examines the awarding of punitive damages in international commercial arbitrations in light of Mastrobuono. It determines that, because special considerations are due in international disputes…… The Article concludes by proposing a framework for analyzing claims for punitive damages in international arbitrations……(〈Awarding Punitive Damages in International Commercial Arbitrations in the Wake of Mastrobuono v.Shearson Lehman Hutton, Inc.〉)

相比之下,中文法律論文引言較多地采用了陳述研究價值這一步驟。國內學者傾向于首先吸引讀者關注研究,至于具體的研究過程及問題假說則由讀者在正文中自行探索(見例9)。而且,陳述研究價值具有推銷性的特征。作者引言中采用“本研究具有重要的價值……”,“本研究為……作了重要貢獻”,“本研究對……提供了獨特的視野和指導”等結構,既使得讀者了解了研究意義,同時又間接推銷了文章。

例9.了解和研究這些保留和解釋性聲明,不僅對我國提出相關的保留或解釋性聲明有借鑒意義,而且對今后解釋和適用《公約》,完善我國的相關立法有重要參考價值。(《公民權利和政治權利國際公約》的保留和解釋性聲明)

六、結語

從以上討論,我們可以看出英漢法律類學術論文中的引言在語步和步驟的使用頻率、順序和分布上存在顯著差異,究其原因,可歸納為以下三方面:

1.寫作方法的不同。國外學者傾向使用作者負責型的寫作方法。為了減輕讀者負擔,讓他們更輕松進入話題,作者詳細闡述觀點,展示推理過程,使文章觀點明確、條理清楚。而國內學者多采用讀者負責型的寫作方法,旨在給讀者更多的發揮空間,并激發讀者興趣。在確定研究領域,通報前期成果和介紹論文結構等方面都較含糊籠統,讓讀者自行歸納,理清脈絡。

2.價值觀差異。西方個人主義價值觀所倡導的消極禮貌策略充分體現在英語法律學術論文中關于引言的前期研究回顧步驟中。國外作者在法律學術論文中既強調他人貢獻,又指出其缺陷,并突出本研究的必要性;相反,東方集體主義價值觀深深影響國內作者,他們在論文寫作時采取積極禮貌策略,在前期研究回顧中為了顧及他人面子,盡量避免評價他人成果。

3.思維方式和寫作習慣差異。國外學者傾向于直接清晰、開門見山的寫作方式,更重視邏輯嚴密,條理清晰。而國內學者寫作委婉曲折,傾向于緩慢推進的過程,給讀者留出更大的主觀空間,同時也很重視推銷自己的文章。

英漢法律學術論文引言中所展現在宏觀語步結構上的不同取向以及微觀步驟上的選擇差異,反映了中西方學者潛意識中的不同的心理、寫作習慣和社會文化觀念。國內法律學者在撰寫英文法律學術論文時,必須把握英漢法律學術論文引言在體裁結構方面存有的顯著差異及其深層次原因,進而諳熟英文法律學術論文引言的體裁結構,遵循系統規范的英文引言寫作要求,從而提高英文論文引言的寫作質量。

〔參考文獻〕

〔1〕Swales,J.M.Genre Analysis: English in Academic and Research Settings. Cambridge University Press, 1990.

〔2〕〔3〕Bhatia,V.K.Analyzing Aenre: Language Use in Professional Settings.London: Longman, 1993,pp.16-22.

〔4〕Anthony,L.,Writing Research Article Introductions in Software Engineering: How Accurate Is A Standard Model?IEEE Transactions on Professional Communication,1999,42.pp.38-46.

〔5〕〔6〕〔7〕Samra,J.B.Introductions in Research Articles: Variations Across Disciplines.English for Specific Purposes, 2002,21.pp.1-17.

〔8〕韓金龍,秦秀白. 體裁分析與體裁教學法〔J〕.外語界,2000,(1);李俊.體裁分析法與寫作產出〔J〕.廣東工業大學學報(社會科學版),2006,(3);秦秀白.體裁教學法述評〔J〕.外語教學與研究,2000,(1).

〔9〕黃萍,沈燕.學術語類語篇模塊標注的理論整合探索〔J〕.重慶大學學報(社會科學版),2010,(6).

〔10〕鄧勇.法學論文中文摘要規范化探析〔J〕.當代法學,2005,(3);誠.略評法學論文篇目之英譯〔J〕.云南大學學報法學版,2004,(4);張少瑜.談談法學論文的學術規格〔J〕.法學評論,2000,(3).

〔11〕周玨,周昱彤.法學專業學生畢業論文存在的問題及其對策〔J〕.云南財經大學學報,2009,(6);涂四益.淺談法學研究生的論文寫作〔J〕.法制與經濟,2011,(8).

第4篇

關鍵詞:計算機應用;中文信息處理;基本塊;部分分析;語料庫標注;詞匯知識獲取

中圖分類號:TP391

文獻標識碼:A

1 引言

塊(Chunk)分析是自然語言處理研究中的一個重要技術,它通過對完整分析問題的合理任務分解,大大降低了自動分析的處理難度,在信息抽取、問答系統、文本挖掘等NLP應用系統研究中發揮了重要作用。在英語方面,Abney(1991)把塊定義為句子中一組相鄰的屬于同一個s-投射的詞語的集合,建立了塊與管轄約束理論的X-bar系統的內在聯系,從而奠定了這個塊描述體系比較堅實的理論基礎[1]。在此基礎上,CoNLL國際會議在2000到2005年間連續推出了幾項塊分析相關的共享任務,包括塊分析[2]、子句識別[3]、語義角色標注[4]等,通過建立統一的訓練測試數據,大大促進了各種機器學習技術在塊分析相關問題上的應用研究。但這些研究更注重對塊作為一個整體在句子中表現出的不同句法語義功能的分析識別,并不關心不同塊的內部描述特點。

近年來,多詞表達(Multiword Expression,MWE)問題逐漸受到理論語言學家和計算語言學家的重視。它主要研究不同層次的語言分析中可以形成一個完整描述單位的若干詞語組合,包括固定或半固定搭配、復合詞、成語、短語動詞等。目前關注的焦點是MWE的詞匯語義組合性(Composi-tionality)評估問題。Sag等則對目前MWE的分析難點和可用技術進行了全面的綜述,提出了對不同的MWE需要使用不同資源和不同方法進行分析的基本設想[5]。這些研究通過引入塊內部詞匯語義分析和描述技術,為塊分析問題探索注入了新的活力。

我們認為,目前的塊分析和MWE研究具有很強的互補性,它們分別從不同角度對塊的句法分布和語義內容進行深入研究。如果能設計一種新的塊描述形式,將塊的外部句法分布和內部詞匯關系描述結合起來成為一個有機整體,就可以把目前還相對獨立的塊分析和MWE研究很好地聯系起來,達到互動提高的處理效果。這種內外結合的塊描述形式,針對類似漢語這種缺乏形態變化的語言,可能更為有效。在這些方面,前人已進行了大量研究。徐通鏘深入分析了漢字編碼“比類取象”和“援物比類”的兩點論思維特點,提出了一套以“向心”、“離心”結構為基礎的漢語語義構詞法,初步建立了漢語“字一詞”的語義描述基礎[6]。董振東對漢語6000多個常用漢字的不同義項進行了深入分析,從中提取了約1500個概念義原。并以此為基礎,對漢語中最常用的約5萬多詞語進行了語義概念描述,形成了一個比較完整的漢語語義知識庫――知網(How-Net),初步建立了漢語“字詞”的語義計算基礎[7]。在此基礎上進行的中文信息結構庫研究[8],又對漢語“字詞基本塊”的語義內容聚合方法進行了初步的探索,取得了許多有價值的研究成果。

吸收這些前賢的研究成果,我們對前幾年提出的漢語基本短語描述體系[9]和相應的自動分析方法探索[10]叩進行了反思,提出了一套新的基于拓撲結構的漢語多詞塊描述體系,希望通過引入新的詞匯關聯分析和相關描述資源,使目前完全基于句法分布信息的基本短語分析技術向形式和意義相結合的方向更往前推進一步。在下面的幾節中,第2節介紹了多詞塊描述體系的主要設計思想。第3節分析了從中引申出的基本塊的具體標注體系。第4節介紹了基本塊標注語料庫的構建思路。第5節給出了一些初步的實驗結果,并對目前描述體系下基本塊的主要分析難點進行了初步分析。最后的第6節對相關研究進行了簡要評述,并對全文內容和今后發展進行了簡單小結和展望。

2 多詞塊描述體系

簡單地說,多詞塊(Muhiword Chunk,MWC)是由2個或2個以上的詞語按照一定的關聯關系組合形成的信息描述單位。這里的處理關鍵是尋找一種合適的MWC內聚性判斷標準,以此確定句子中哪些詞語組合可以形成一個多詞塊,哪些不能。這種判定標準應具有以下特點:

?可操作性:可以幫助標注人員快速準確地確定句子中的各個合理的MWC;

?可計算性:使自動分析器能充分利用各種有效資源完成MWC的邊界識別和關系分析;

?完備性:能覆蓋各種MWC的信息描述。

Abney體系的過人之處,就在于他從形式上找到了適合英語描述特點的MWC內聚性判斷標準,建立了MWC與管轄約束理論的X-bar系統的內在聯系。由于其具有很好的可操作性、可計算性和信息完備性,因此在英語自然語言處理的不同領域都得到了廣泛應用。

與英語相比,漢語描述的形式標記較少,各個成分單元之間的意合性很強。這些描述差異現象使我們不能把Abney的體系完全照搬到漢語中,需要針對漢語的描述特點,另辟蹊徑,尋找符合漢語特點的MWC內聚性判斷標準。在這些方面,理論語言學家進行的以向心、離心結構為基礎的漢語語義構詞法研究[6]和依存關系描述體系在漢語句子結構分析中的成功應用給了我們許多有益的啟示。經過反復研究和探索,我們逐步形成了一套基于拓撲結構的漢語MWC描述體系,其描述核心是以下三種基本拓撲結構:

1)左角中心結構(LCC):塊中的所有詞語直接依存到左角中心詞,形成一個左向中心依存結構;基本模式為:H C[1]…C[n],依存關系為:C[1]H,…,C[0]H。H為整個MWC的句法語義中心詞,C[1],…,C[n]為限制詞。

2)右角中心結構(RCC):塊中的所有詞語直接依存到右角中心詞,形成一個右向中心依存結構。基本模式為:A[1]…A[n]H,依存關系為:A[1]H,…,A[n]H。H為整個MWC的句法語義中心詞, A[1],…,A[n]為修飾詞。

3)鏈式關聯結構(CHC):塊中的各個詞語依次依存到其直接右相鄰的詞語,形成一個自左向右排列的多中心依存關系鏈。基本模式為:H。H[1]…H[n],依存關系為:H[0]H[1],…,H[n-1]H[n],H[i]成為不同層次的語義聚合中心,H[n]為整個MWC的句法語義中心詞。

圖1顯示了這三種拓撲結構的基本形狀。我們通過在MWC描述中引入詞匯關聯信息,可以形成了以下針對漢語的MWC內聚性判斷準則:

?每個MWC只能形成上面三種拓撲結構中的一種結構組合,如果發生結構關系沖突現象,一般優先選擇左角中心結構,從而保證了該體系的可操作性;

?通過詞匯關聯關系建立真實文本的MWC描述實例與詞匯關聯知識庫之間的內在聯系,利用詞匯關聯知識描述確定待分析組合是否為一個合理的結構組合,從而保證了該體系的可計算性;

?由于可以選擇漢語字、詞、塊等不同層面的處理單元作為拓撲結構描述體,因此可以方便地適應漢語“字詞塊”連續變化的描述特點,很好地保證了該體系的信息完備性。

至此,我們可以形成下面的MWC形式定義:

定義:句子中兩個或多個詞語能形成一個多詞塊的充要條件是它們的內部詞匯關聯能形成以上三種拓撲結構中的一種結構組合形式。

在此基礎上,通過對一個MWC給出下面不同的句法形式和語義內容描述,我們可以形成針對一個MWC的完整信息描述,即:MWC=基本拓撲結構+句法形式描述+語義內容描述。

1)句法形式:主要描述該MWC的句法成分標記(如:名詞塊、動詞塊等)和內部關系標記、組成該MWC的詞類標記序列和句法中心詞等信息;

2)語義內容:主要描述該MWC作為一個整體體現出的語義類信息,以及內部語義聚合關系,即通過不同語義關系將MWC中的各個詞語聚合在一起,形成一個完整的語義內容表現。

圖2顯示了我們目前設計的MWC描述體系的總體框架。它以詞匯關聯信息作為基礎支撐,一方面可以確定不同的基本拓撲結構,形成了很好的MWC內聚性判定準則;另一方面也方便地建立起MWC的句法形式與語義內容的有機聯系橋梁。

3 基本塊標注體系

我們目前定義的基本塊主要描述句子中直接相鄰的、以名詞、動詞、形容詞等實詞為中心聚合形成具有特定語義內容的詞語序列,其中一般不包括各種功能詞,包括連詞、嘆詞、語氣詞、助詞、標點符號等。它們一般由1―3個詞語組成,通過不同的外部句法表現和內部詞匯關系形成各自特殊的概念內容描述體,成為漢語的字、詞進入組塊成句過程的基礎和出發點。

按照基本塊包含的詞語數目的不同,我們把它們分成兩大類:1)多詞語基本塊,包含兩個和兩個以上的詞語;2)單詞語基本塊,只包含一個詞語。從上節定義的多詞塊出發,通過增加內部詞語的必要限制條件,如只能包含實詞和部分特殊功能詞等,我們可以方便地確定各個合理的基本塊,從而建立起完整的基本塊內聚性描述體系。增加這些內容限制的目的是使我們目前能集中精力進行漢語真實文本中一些組合緊密的概念描述單元的自動識別處理,為進一步進行漢語MWE分析研究打下基礎。

下面我們按照基本塊的不同內容表現,把它們分成兩大類:體詞性基本塊和謂詞性基本塊,分別加以說明:

1)體詞性基本塊  其下又可進一步細分為名詞塊、時間塊、空間塊和數量塊等四小類,它們一般以句子中的名詞、時間詞、處所詞和量詞為中心,分別描述“實體”、“時間”、“空間”和“數量”等基本信息單元。其中最復雜的是名詞塊。我們按照四個世界的語義內容劃分原則,對此進行了進一步細分,包括物質世界的‘自然物’和‘人工物’,精神世界的‘精神’和‘意識’,人際社會的‘人’、‘機構’和‘事件’,符號世界的‘信息’、‘信息載體’和‘屬性’等,形成對客觀世界基本內容的完整描述體系。

體詞塊的優勢拓撲結構是右角中心結構和鏈式關聯結構,具體實例有:“大紅燈籠”,“高跟鞋”,“電視機生產廠”等。主要覆蓋了定中和并列兩種句法關聯關系。

2)謂詞性基本塊  主要包括動詞塊和形容詞塊兩小類,它們一般以句子中的動詞、形容詞和狀態詞為中心,分別描述“動作”、“狀態”、“關系”和“屬性”等基本信息單元。其優勢拓撲結構為左角中心結構和右角中心結構。其中主要覆蓋了述賓、述補和狀中三種句法關聯關系。

在左角中心結構中,各右部限制詞主要描述該中心的直接支配成分,包括:(1)緊密聯系的賓語成分,主要有:“v v”、“v n”、“v a”等組合形式;(2)時制(Aspect)信息,包括助詞:了、著、過;(3)緊密聯系的補語成分,主要形式為:“v|a  v|a|p”。

在右角中心結構中,各左部修飾成分主要包括:(1)動詞的被動形式:主要包括‘被’、‘給’等;(2)否定和程度限制:對形容詞中心,主要是程度限制,如:“很”,“非常”等;對動詞中心,主要是否定限制,如:“不”、“沒”等;(3)情態描述:主要包括情態動詞(vM);(4)方式和工具限制:主要包括形容詞(大喊)、名詞(電話聯系)和緊密聯系的副詞(逐步推進)等,一般情況下,前面只能包含一個修飾詞。

這些前后聚合詞語從不同角度,包括時間、空間、實現結果、動作方式、使用工具、否定、情態、程度等,對中心詞所描述的具有連續性內涵的動作和性狀進行離散化處理[4],使之能方便地與句子中的其他成分相結合形成更大的句法單位。

對每個基本塊,我們使用兩個標記的組合:句法標記和關系標記,對它們的外部句法表現和內部詞匯關系進行完整描述。表1列出我們目前所用的主要句法標記和關系標記。

4 基本塊標注語料庫

構建大規模的基本塊標注語料庫是一項龐大的語言工程項目,需要投入大量的人力和物力。但是,通過充分發揮目前積累的各種語言資源的描述潛力,我們可以尋找到一個簡單有效的處理方法,快速構建出一個大規模的基本塊標注語料庫。基本處理策略是:從拓撲結構定義出發,利用漢語句法樹庫TCT[11]中提供的豐富的句法成分和語法關系標注信息,分析不同詞語組合的拓撲結構聚合方式,發現并確定句子中各個基本塊的準確邊界,提取相應的成分標記和關系標記,形成完整的基本塊標注語料庫。具體的提取過程如下:

?提取一個TCT標注句子;

?通過自頂向下的分析樹遍歷,發現句子中所 有處于中心位置的實詞(動詞、名詞、形容詞等),它們可能形成各個基本塊的聚合中心;

?從這些可能的基本塊聚合中心出發,自底向上遍歷分析樹,發現最大的拓撲結構組合,提取TCT中相應的句法成分標注信息,形成一個完整的多詞語基本塊;

?將句子中沒有被這些多詞語基本塊覆蓋的實詞直接上升為單詞語基本塊;

?將所有基本塊信息輸出形成一個完整的基本塊標注序列。

下面給出一個具體的處理實例:

輸入:TCT標注句子;

[zj-XX[fj-ZZ[tp-FW長期/t以來/f],/,[fj-LG[dj-ZW他/rN[vp-ZZ[pp-JB為/p[np-DZ[vp-PO維護/v[np-DZ世界/n和平/n]]的/u[np-DZ崇高/a事業/n]]][vp-PO傾注/v心血/n]]],/,[vp-ZZ四處/d奔走/v],/,[vp-PO[vp-AD作出/v了/u][np-DZ卓越/a的/u貢獻/vN]]]]。/。]

輸出:基本塊標注句子;

[tp-ZX長期/t以來/f],/,[np―SG他/rN]為/p[vp-SG維護/v][np―ZX世界/n和平/n]的/u[np-ZX崇高/a事業/n][vp-PO傾注/v心血/n],/, [vp―ZX四處/d奔走/v],/,[vp-AD作出/v了/u][ap-SG卓越/a]的/u[np-SG貢獻/vN]。/。

目前,從TCT中選擇所有的新聞類文本,利用上面介紹的方法自動生成了一個漢語基本塊標注語料庫,其基本統計數據是:文件數185,漢字總數325 806,詞語項總數207 372,句子總數8 137,平均長度為25.49詞/句。

為了檢查目前的自動提取_丁具的處理效果,我們從自動生成的185個文件中隨機挑選了4個文件,基本數據為:句子數269,詞語總數6561,約占庫詞語總數的3%。對它們進行人工檢查和校對,發現并改正所有錯誤情況,得到4個正確的基本塊信息標注庫。然后,將自動提取結果與正確結果進行自動比較,我們發現兩者的信息一致率達到99%以上。其中絕大部分差異情況是原來TCT中遺留的一些標注錯誤,主要是vp和np的并列結構關系標注錯誤。這表明目前的基于拓撲結構分析的基本塊提取算法可以準確反映樹庫中不同基本塊的客觀分布情況,因此達到了很好的自動提取效果。同時,也反映出從基本塊內聚性角度進行分析,可以使許多TCT標注錯誤突顯出來,從而對我們進一步提高TCT的標注質量是有幫助的。

5 基本塊分布分析

為了能準確地把握對我們目前定義的基本塊進行自動分析的處理難點和從句法描述向語義內容過渡的知識需求瓶頸,我們從不同角度對上面自動抽取的20萬詞規模的新聞類基本塊標注庫進行了統計分析。

表2和表3列出了一些基本的長度分布數據,從中可以看出,真實文本句子中描述實體內容的名詞基本塊(np)和描述動作狀態的動詞基本塊(vp)占了大多數,它們分別占單詞語塊總數的9l%和多詞語塊總數77%的,是我們研究的重點。相對而言,動詞塊的平均長度較短。在多詞語塊中,只包含2個詞語的塊占了93%以上;而在np多詞語塊中,包含2個詞語的塊只占了71%左右,約30%的名詞塊長度超過了3個。因此,基本名詞塊的內部描述復雜度更高,進行自動準確分析的難度也更大。

表4和表5列出了具有不同長度的基本名詞塊和動詞塊的內部結構關系分布數據。從中可以看出,基本名詞塊的優勢結構為右角中心結構(ZX)和鏈式關聯結構(LN)(包括并列結構),它們占了總頻度的96%以上,其他結構包括標號對結構(BH)(如:[np-BH“五四”]運動)和無中心的構詞結構(NH)(如:[np-NH孩子們])。由于2詞塊占了大多數,使右角中心結構顯示出一種突顯分布錯覺。事實上,在3詞以上基本塊中,兩種結構的分布差異并不太明顯,比例大體上是3:2,表明在真實文本的復雜名詞塊描述串中,各種結構組合都有可能出現,依據不同詞匯關聯知識確定其準確的內部結構關系是對這些組合進行語義內容分析的基礎和關鍵技術。

在基本動詞塊中,優勢結構為左角中心和右角中心結構,它們占了總頻度的94%以上,其他結構包括:鏈式關聯結構(如:[vp-LN不能去],[vp-LH改革開放])、重疊結構(CD)和標號對結構。在兩類優勢結構中,左角中心結構(又可細分為述賓、述補和附加關系)又占了大多數,約為77%左右,顯示出漢語中具有連續性內涵的動作和性狀動詞通過緊密相連的后接成分達到離散化的描述特點。其中最重要的是對述賓結構(PO)關系的準確分析,因為它們包含了漢語句子所描述的事件內容的主體信息。而在真實文本中,它們又會與其他結構組合形成許多更復雜的歧義結構,如:“v n n”,“v n的n”等,成為基本動詞塊分析中的最大處理難點。

表6列出了目前基本塊標注庫中出現頻度最高的5種實詞結構組合(不包括數量組合和vp附加結構)。從中可以看出,漢語的典型實詞組合一般都會形成幾種不同的內部聚合關系,這對我們希望進行的基本塊語義分析和內容解釋研究提出了很大的挑戰。對此,我們的初步設想是:以詞匯關聯信息作為研究切入點,通過基本塊分析器與詞匯關聯知識庫互動提高的雙向進化過程自動從大規模真實文本中獲取大量有效的詞匯關聯對信息,作為對這些基本塊內部詞匯語義關系進行準確分析的支撐知識庫。其中需要特別注意的是由多個名詞組成的復雜結構“n*n”,雖然它們在真實文本中出現的絕對數量不是特別大,但由于其中涉及的名詞語義分類和語義關系描述是目前研究的最薄弱環節,因此可能會成為后續處理最大的處理難點。下面是一些具體的描述實例:

?np-ZX北京/nS人民/n藝術/n劇院/n

?np-LN前線/nO話劇團/n團長/n張澤易/nP

?np-LH郭述申/nP陳先瑞/nP王誠漢/nP張池明/nP

6 相關研究分析與展望

近幾年來,隨著漢語切詞和詞性標注技術的逐步成熟,在此基礎上進行的塊分析技術研究越來越受到重視。許多研究人員從不同研究目的出發,提出了各自不同的塊描述體系。其中比較典型的有清華[9]和哈工大[12]基本短語描述體系、微軟的塊描述體系[13]和北大的實語塊描述體系[14]等。這些體系的共同點在于它們都是從句法層面上來定義和描述塊信息,主要側重塊邊界確定和句法成分標注問題,不太關心各個塊的內部關系分析。

其中前三個體系的處理對象與本文定義的基本塊層次相當,其處理難點在于解決一些復雜名詞和 動詞塊的邊界確定和內容取舍問題,即哪些塊組合應納人體系描述中,哪些應排除在外。對此,不同體系設計者提出了自己的解決方案,包括清華的“擴展的粘合式定中結構”確定策略、哈工大的允許內部嵌套策略等。但在具體操作時還是存在許多不確定性,需要在各自的規范中給出詳細定義和說明。另外,考慮到漢語述賓結構組合的描述復雜性,這些體系都沒有把它納入現有的塊描述體系中。

相對而言,實語塊的定義則比較明確,其處理目標是確定句子中任意一個實詞序列中不同層次的合法短語。但由于引進了不同類型短語之間復雜的層次關系,大大提高了相應的自動分析任務的處理難度。

與以上研究工作相比,本文提出的基于拓撲結構的基本塊描述體系具有以下特點:

1)通過引入詞匯關聯信息確定基本拓撲結構,形成了很好的基本塊內聚性判定準則,建立了句法形式與語義內容的有機聯系橋梁;

2)以拓撲結構為基礎確定不同基本塊的內部關系標記,建立了大規模真實文本中的基本塊描述實例與詞匯關聯知識庫之間的天然內在聯系;

3)將緊密結合的述賓結構關系納入基本塊描述體系中,使之基本覆蓋了漢語中所有實詞之間的重要詞匯關聯關系,包括:名―名、動―名、形―名、副―動、副―形、動―動、動―形等,而鏈式關聯結構的明確定義,又擴大了這些關系互相組合的可能性,為在基本塊層面上進行漢語詞匯關系的自動獲取研究打下了很好的基礎。

在以后的研究中,我們希望通過以下幾方面的深入探索,進一步改進和完善目前的基本塊描述體系:(1)在現有基本塊標注語料庫和詞匯關聯知識庫支持下,開發高質量的漢語基本塊分析器,通過對大規模的不同體裁、不同形式的漢語真實文本的自動分析,發現一些新的語言現象,補充現有塊體系描述的不足;(2)啟動基本塊分析器與詞匯關聯知識庫互動提高的雙向進化過程,加強對基本塊中不同層次的語義描述內容的深入探索,實現“句法形式吾義內容”的平穩過渡。

收稿日期:2006-10-27定稿日期:2007-01-29

基金項目:國家自然科學基金資助項目(60573185,60520130299)

作者簡介:(1967―),男,博士,副研究員,主要研究方向為計算語言學、詞匯語義學、機器學習。

參考文獻:

[1]Steven Abney.Parsing by Chunks[A].In:Robert Berwick.Steven Abney and Carol Tenny(eds.)Prin―ciple-Based Parsing[C].Kluwer Academic Publish ers,1991.

[2] Erik F.rrjong Kim Sang and Sabine Buchholz.Intro duction to CoNLL-2000 Shared Task:Chunking[A].In:Proceedings of CoNLL-2000 and LLL-2000[C].Lisbon,Portugal,127-132.

[3]Sang T K and D jean H.Introduction to the CoNLL-2001 Shared Task:Clause Identification[A].In:Proc.of CoNLL-2001 [C].Toulouse,France,53-57.

[4]Carreras X.and Marquez,L.Introduction to the con-ll-2005 shared tasks:Semantic role labeling[A].In:Proc.of CoNLL-2005[C].

[5]Ivan A.Sag,Timothy Baldwin,Francis Bond,Ann Copestake,and Dan Flickinger.Muhiword Expres sions:A Pain in the Neck for NLP[A].In:Proc.Third International Conference of Computational Lin guistcs and Intelligent Text Processing(CICLing 2002)[C].Mexico City,Mexico,February 2002.17-23.

[6]徐通鏘.語言論[M],東北師范大學出版社,1997.

[7]董振東.語義關系的表達和知識系統的建造[J],語言文字應用,1998,(3):76―82.

[8]董振東,董強.關于知網一中文信息結構庫[A],http://www./,2000.

[9]漢語基本短語標注規范[R].清華大學計算機系智能技術與系統國家重點實驗室,技術資料,2002年2月.

[10]張昱琪,.漢語基本短語的自動識別[J].中文信息學報,2002,16(6):1-8.

[11].漢語句法樹庫標注體系[J].中文信息學報,2004,18(4):1-8.

[12]Tiejun Zhao,Muyun Yang et al.Statistics Based Hy-brid Approach to Chinese Base Phrase Identification[A].In:Proc.of the Second Chinese Language Processing[C].ACI2000,Hong Kong.

主站蜘蛛池模板: 宁河县| 北流市| 疏附县| 吕梁市| 禹城市| 成安县| 集安市| 贡觉县| 林甸县| 平乐县| 江孜县| 富川| 永和县| 大余县| 尉氏县| 蒲江县| 黑水县| 罗甸县| 乐亭县| 类乌齐县| 高清| 巴马| 黎平县| 平昌县| 武鸣县| 郧西县| 高安市| 汤原县| 涿州市| 同心县| 南丹县| 醴陵市| 友谊县| 搜索| 平武县| 安阳县| 龙江县| 石阡县| 呼图壁县| 永昌县| 邓州市|