時間:2022-07-23 01:48:19
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇語音合成技術,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
關鍵詞 語音合成 發音 自然度 時域波形 語音庫
中圖分類號:TN912 文獻標識碼:A
1語音合成技術的發展歷程
隨著語音合成的要求越來越高,語音學家對語音合成的研究技術不斷更新。早期研究利用合成語音的參數方法,以提高它的LSP,LPC和其他言語參數。這些都反映在越來越多和越來越嚴格的語音合成系統應用,現在不僅對語音合成有連貫性的要求,而且還有更高的需求。
上世紀60年代TTS英文版系統被成功研制。在80年代,我國也開始研究中文TTS。中國科技大學,社會科學院,中國科學院,清華大學等所有單位都在TTS的研究領域中不懈努力奮斗。不僅如此,在中國臺灣的著名大學,如臺灣大學和臺灣交通大學也開始在語音系統領域中研究。甚至一些研究成果已成為產品在現實中使用。同時,在世界主要國家也已經開發相應的產品。
上世紀80年代后期和,科學家就開始對修改語音合成技術的時域波形進行研究,即PSOLA(基音同步疊加)技術。其主要特點是:在銜接語音波形段,首先按照上下文,根據拼接單元與PSOLA算法調整的韻律特征,合成波形不僅保持主音發音段的功能,并能與環境做出韻律特征的拼接單元,從而獲得可懂度和自然度很高的合成語音。PSOLA技術有了很大的發展和廣泛的應用。為了提高合成語音的質量,人們開發了語音波形拼接技術,該技術主要用于一些語音信號的參數如音高,而不是語音參數波形。這項技術能合成出更加自然的語音。
在上世紀90年代,比LPC語音合成技術和共振峰技術更優越的技術已經誕生,利用該項技術合成的中文與英文顯得更加自然,并已經被廣泛應用于商業領域。近年來,人們在研究通過數據庫建立的語音合成算法。只要應用數據庫就可以進行基本的語音單元合成,可以更方便的進行語音信號的拼接合成。對于確定合成語音質量,語音庫中起著非常重要的作用。多種感情的語音單元是各種情況下語音數據庫的唯一入口,從而合成了一種任意語句。因此,語音數據庫的容量必須足夠大。這種合成語音的自然度將有較大的升級。
現在,隨著語言學的不斷發展,語音合成技術已經從最初對語音內容清晰度和連貫性的要求,逐漸演變成對語音的自然特性的高度追求。如何將合成后的語音顯得自然是科學家們越來越關注的話題,但現在的語音技術仍不能滿足人們的需求,因此,目前眾多產品制造商正在對語音合成自然度不斷創新。所以。語音合成在未來具有更大的商業市場和機會。世界各個主要國家都對語音合成技術做了集中的大量研究,技術已經達到了一個較高的水平,雖然我國現在語音合成技術較為弱后,但在不久的將來,隨著國家對語音技術的重視程度將會不斷提高,人們對語音的自然度要求就會有更高的重視程度,中國將有越來越多的企業和部門從事語音合成技術的研究。我國將在語音合成方面將會和國外長期競爭,并會在這樣一個良性的競爭中獲得更加先進的技術。
2語音合成技術的理論
語音合成技術已越來越多地在現代社會中得以應用,大大提高了人民的生活質量。如電話號碼查詢,計算機應用,旅行的火車與飛機班次語音查詢等。
語音合成是利用語音處理技術來建立數字語音模型,模型首先通過激勵信號,在人體器官中傳遞聲音,隨后發出聲音。語音合成技術可以根據不同的規則分為不同的類型,如信道模型參數法,語音參數法和波形拼接法。波形拼接法是銜接語音信號和易懂的語音信號,從而合成信號強度和自然度高的語音信號。
LPC技術是將時域中的信號在保證傳輸率的基礎上,來完善時域波形的技術處理方法。LPC技術的優點和缺點非常清晰,它具備簡潔和易于處理的算法,然而它僅僅是一個簡單的解碼語音信號,只能實現一定程度上的語音連接。同時,波形拼接技術的最大特征是利用一些語音波形的數據來存儲所有相關的語音信息,所以對語音自然度的提升將起到很大的作用。但要合成單音節或充滿感情的語句有在有些情況時是很難妥善處理的,如果單獨的音節或詞在充滿感情的語句中進行處理,顯然其綜合素質將受到一定的影響。
上個世紀末,科學家們提出了一個語音波形拼接的有效方法,即基音同步疊加技術(PSOLA),可以解決上述問題,給語音處理技術帶來了一股新鮮血液。該技術主要是對語音信號的持續時間,強度,頻率,時間等參數進行控制。而這些語音信號參數的改善對語音信號處理非常重要。所以LPC技術與PSOLA技術在控制韻律詞的修飾方面有更多的優點,通過該項技術合成的語音在自然度等各方面比其他合成方法都更要出色。
參考文獻
語音技術涉及到語音編碼、語音合成、語音識別、語音技術應用等多個技術領域。目前,關于語音編碼,國際標準化組織ISO和國際電信聯盟ITU上已經制訂了一系列的技術標準,分別應用在有線通信、移動通信、數字音響等領域。但是,關于語音合成與識別技術的標準還沒有一個統一的規范,ISO和ITU在這些領域也沒有頒布技術標準和規范。雖然有些標準化組織、研究機構和大公司提出了各自的技術規范草案,但是沒有得到廣泛的承認和支持。國際上,許多跨國公司,如IBM、Microsoft、AT&T、Naunce、Sun System等對語音技術的研究已經持續了多年,對制定語音技術領域的標準非常關心并積極參與,希望能把各自公司的研究成果納入到技術規范和標準中去,以期在激烈的競爭中處于技術的制高點。現在,與互聯網有關的語音技術應用領域,相關的國際語音標準發展迅速,形成了VoiceXML和SALT兩大語音標準陣營,并各自都獲得了廣泛的支持。但是,對語音合成與識別的核心技術,如系統框架、接口規范等還沒有統一的標準。本文不討論語音編碼的標準問題,而是對語音合成與識別領域的技術標準做一個初步的探討。
語音技術標準的三個層面
雖然目前國際上還沒有統一的、得到廣泛承認和支持的語音合成與識別領域的技術標準,但是,這方面的研究工作發展迅速,近幾年推出了許多研究成果,特別是W3C組織積極推動并了多個語音技術應用方面的規范或標準。例如, W3C了Voice Browser(語音瀏覽器)標準的草案。在這個標準中,Voice Browser標準(草案)定義了幾種支持語音輸入和輸出的鏈接語言。這些鏈接語言使語音設備可以跨越各種硬件和軟件平臺,特別是設計了關于對話、語音識別語法、語音合成、自然語言語義和搜集可重復使用的對話組件的鏈接語言。這些鏈接語言和組件就構成了未來語音界面框架。現在,這個標準組中的參加成員有AT&T、Cisco、Hitachi、HP、IBM、Intel、 Lucent、Microsoft、Motorola、Nokia、Nortel、Sun和Unisys等公司。由于語音識別與合成技術還處在迅速發展階段,制訂出一套合適的技術標準很不容易。關于語音技術(除了語音編碼)有關標準的制定工作主要集中在三個層面。
語音技術應用: 在這個層面上,主要規定在應用開發中如何使用語音合成與識別技術,即應用程序與語音合成/識別引擎之間的通信協議/語言,許多跨國公司積極參加了這個層面的規范與標準的起草、制訂工作,例如,如IBM、AT&T、Naunce、Microsoft、Sun System等,推動并且形成了VoiceXML和SALT兩大語音標準陣營。從開發者的角度看,這些標準都是面向應用系統開發用的。萬維網聯盟W3C主持了VoiceXML的起草和制定工作,并從2000年開始陸續了VoiceXML的多個版本,其中包括了語音識別語法規范和語音合成標記語言等。這些標準不僅使應用程序可以移植,而且還能夠使語法相關聯。VoiceXML 2.0是一種標記語言,用于建立話音界面,相當于帶語音功能的HTML。現在已經有數百個大的廠商開發了基于VoiceXML的應用程序。SALT表示語音應用標記語言,它是在現有的標記語言,如在HTML、XHTML的基礎上,增加了對語音和多媒體功能的支持而形成的。對語音應用,它主要關注的是如何通過電話得到語音服務。2002年,SALT聯盟論壇了SALT技術規范的草案,并且把它提交給了W3C,希望能成為技術標準。參加和支持SALT技術規范的大公司包括: Cisco Systems Inc., Comverse Inc., Intel Corp., Microsoft Corp., Philips Speech Processing 以及 SpeechWorks International Inc.等。
語音識別/合成系統性能評測標準: 美國國家技術與標準研究所(NIST)主持了這個方面的工作。從20世紀90年代中期開始,NIST就開始組織語音識別/合成系統的性能評測工作。由于語音識別/合成系統的實現技術各種各樣,對它們的評測實際上是相當困難的。20世紀90年代初期的時候,語音識別/合成系統大量推出,但往往出現下面的情況: 某個系統在推出時,聲稱該系統有很高的性能,但實際應用的時候其性能與宣傳的差別很大。因此,NIST認為應制定出一套評價語音識別/合成系統的技術標準,讓所有的語音識別/合成系統在這套評測標準下進行評估,以得到客觀的性能評價指標。在該領域,NIST陸續制定了評價語音識別/合成系統的詞錯誤率WER的計算規范,語言模型的復雜度的計算規范,訓練和測試語料的選取,系統響應時間標準,合成語音自然度的評價規范,測試程序的規范等。近年來,NIST又制定了針對其它語種(如,漢語,日語等)的評價標準。NIST的評價標準迅速得到了語音識別/合成領域開發者的支持,越來越多的大公司積極參加NIST組織的評測活動,同時也推動了語音識別/合成技術的發展。國內的“863”智能人機接口專家組也開展了類似的工作,陸續制定了針對漢語語音識別與合成系統性能的評價規范。
語音識別/合成引擎及其開發接口: 在這個層面上還沒有一個技術標準或規范被廣泛承認和采納。ISO、ITU、NIST、W3C等標準化組織都沒有在該方面推出技術標準或規范。實際上,這方面的工作涉及到許多語音識別/合成系統的具體實現問題,而系統的實現方法千變萬化,難以用一個統一的規范和標準來規范。雖然沒有語音識別/合成引擎及其開發接口的統一的標準和規范,但一些開發廠商和研究機構還是制定了各自的規范,在各自的語音系統中得到了實現,并隨著語音識別/合成系統的推出而。
IBM在其推出的語音識別與合成引擎ViaVoice中規定了開發接口,提供了幾百個開發接口函數。Microsoft推出了基于它的語音識別與合成引擎開發語音應用的接口Speech SDK, 在其中也提供了類似的開發接口函數。但是,IBM和Microsoft的語音識別與合成引擎的實現細節沒有公開,也沒有提供這方面的技術規范。另外,美國的CMU大學、英國劍橋大學電子工程系的HTK開發組都了開放式的語音識別與合成引擎的源碼以及相應的開發工具,它們的語音識別與合成引擎的實現方法紛紛被眾多的開發者所借鑒,從而形成了業界很有影響的開發規范,但是,這些規范也不是標準。目前,有許多語音識別與合成引擎,但是沒有提供實現的技術規范,因此,這些系統的實現和提供的接口只是遵守各自特殊的規定,沒有規范化并得到廣泛的應用。
中文語音技術標準現狀
制訂中文語音技術的有關標準,對促進中文語音技術應用、推動中文語音產業發展、增強民族軟件核心競爭力均具有非常重要的意義。國家信息產業部、“863”專家組、國家技術監督局和國家信息標準化委員會分別于2001年、2002年、2003年召開了三屆語音標準研討會,并于2003年11月由信息產業部科技司正式下文成立了“中文語音交互技術標準工作組”。
“中文語音交互技術標準工作組”是由國內產、學、研、用等企事業單位以及大專院校等自愿聯合組織、經信息產業部科技司批準成立的、組織開展中文語音交互領域技術標準制定和研究活動的非營利性技術工作組織。該工作組的主要工作任務是研究并制定與中文語音交互技術有關的數據交換格式、系統架構與接口、系統分類與評測及數據庫格式與標注等方面的標準。目前,語音合成和語音識別通用標準已正式立項為國家標準,報批稿已經完成,多個產業相關的應用技術標準也正在制定之中。
國家“863”智能人機接口專家組在20世紀90年代中后期邀請國內的一些研究機構和大學制訂了針對漢語語音識別與合成系統的評價規范,該評價規范應用到了歷屆對“863”支持的漢語語音識別與合成系統的評價過程中。如果從語音識別與合成技術標準的三個層面考察,國內在該領域的研究工作主要集中在系統性能的評價規范的制訂上,至今還沒有正式實施的國家標準。但是,隨著國內的語音應用開發地迅速發展,沒有一個統一的技術規范或標準會造成許多開發重復,資源浪費。
例如,如果語音識別與合成引擎支持媒體資源控制協議(MRCP), 語音應用開發者采用MRCP,IVR和語音識別與合成引擎開發廠商之間的專有用的連接器就不需要了。再如,隨著語音技術和應用市場需求增大的同時,面臨著復雜系統互聯的問題。在系統的互聯接口、內容交換數據格式等方面沒有一個大家共同遵循的標準,其開發難度、維護難度和運營難度是非常巨大的; 沒有一個大家共同遵循的標準,語音合成/識別引擎與電話設備、后臺數據庫、地理信息、無線定位等其他組成部分完成通信也是非常困難的,這些都成了阻礙語音應用大規模發展的絆腳石。因此,制訂和研究漢語語音技術領域的標準已迫在眉睫。
技術標準的主要內容
為了適應網上語音瀏覽、語音信息檢索、交互式語音應用的發展需求,語音識別與合成技術的標準制訂工作的重點目前應該集中語音技術應用層面和語音識別/合成引擎及其開發接口上。這樣的一個標準或規范必須是有代表性的,通用的,被廣泛接受和采用的; 顯然,制定一個這樣的標準不能閉門造車,要有標準的使用機構或潛在的使用機構參與,還必須與國際上已有的類似的標準接軌,與國際上的標準化機構,如ISO、W3C、ITU等密切合作。值得注意的是,語音識別/合成的實現算法千差萬別,該領域的標準或規范只能提供一個實現框架,沒有必要對具體的實現算法和技術細節進行約束。另外,語音技術標準還應該與具體應用無關,與語音識別/合成引擎無關等。
如上所述,語音技術標準(除了語音編碼)的制訂工作主要集中在三個不同的層面上。這三個層面標準的內容分別是:
語音技術應用: 一般基于語音的應用都有如下圖所示的架構(已簡化)。
在這個層面上,語音技術標準的主要內容是: 規定語音輸入、語音輸出、識別結果、返回結果的格式和屬性。語音輸入和語音輸出屬于用戶與語音信號處理引擎之間的交互過程,所以,這部分也包括語音用戶界面的內容; 識別結果是語音信號處理引擎輸出的結果,也是識別結果執行引擎的輸入,識別的結果一般是文本或命令,如何將識別結果格式化是該層面的主要任務; 返回結果是識別結果執行引擎的輸出,也是語音信號處理引擎的輸入,經語音信號處理引擎處理后,以語音的方式返回給用戶。為此,需要規定語音輸出的參數格式,如韻律特征、重音特征和停頓等。制訂這方面的標準內容還應該考慮漢語語言和語音結構的特殊性。現在已經的技術標準或規范主要是VoiceXML和SALT,它們都屬于描述和規定語音技術應用的層面,都是基于標記語言的格式。
語音識別/合成系統性能評測標準: 在這個層面上,語音技術標準的主要內容是: 評價語音識別引擎的性能指標,主要包括: 詞匯量大小、識別方式、詞錯誤率WER、語言模型復雜度、響應時間、訓練和測試語料等; 評價語音合成引擎的性能指標,主要包括: 詞匯量、自然度、清晰度、測試語料等。雖然我們可以借鑒NIST在這方面的經驗和標準,但是針對漢語語音識別/合成系統性能評測標準,我們不能照搬,必須考慮漢語的特點。
語音識別/合成引擎及其開發接口: 在這個層面上,語音技術標準的主要內容是: 規定語音識別引擎的輸入/輸出的格式,如輸入語音的方式(已有的語音數據的輸入/Mic語音輸入)、語音數據的格式、語音特征向量的格式、控制參數的語義格式、輸出是文本串的格式、拼音串的格式、音素串的格式等,提供給用戶開發接口的函數名、入口/出口參數、功能描述等; 但是,語音識別引擎的實現細節不應該包含在此部分的標準內,如引擎應該包含哪些模塊,使用什么樣的語音特征向量,如何計算語音特征向量,如何建立模板,如何匹配計算等,都不應該加以約束,而允許開發者采用適當的算法實現。關于規定語音合成引擎,需要規定的是: 輸入的格式,如純文本/拼音、帶有控制串的文本/拼音、控制串的語義格式描述、輸出的格式、提供給用戶開發接口的函數名、入口/出口參數、功能描述等; 但是,語音合成引擎的實現細節不應該包含在此部分的標準內,如引擎應該包含哪些模塊,如何進行輸入文本的分析,如何分詞,采用什么樣的合成基元和算法等,都不應該加以約束。關于這部分標準的內容,IBM和Microsoft語音識別/合成引擎開發文檔提供了詳細的開發接口函數的信息,而且功能基本相同,可以為制訂語音識別/合成引擎開發接口提供參考。語音識別引擎開發工具包HTK詳細描述了如何開發一個新的語音識別引擎,對制訂該部分標準的內容也具有參考意義。
鏈接:推動技術標準制訂
【關鍵詞】超聲波;測距;語音合成技術
一、背景及意義
中國是全世界盲人最多的國家之一,目前我國眼部殘疾人士多達600萬,占世界眼疾人數的18%。眼部疾病在中國也是一個主要的公共衛生問題。由于生理上的缺陷,盲人在生活、工作等方面有著諸多不便。在當今人體可穿戴設備快速發展下,如何設計出盲人可穿戴設備對盲人和社會具有十分重要的意義。
二、超聲波測距的實現
(一)超聲波測距原理
超聲波是一種振動頻率高于20 kHz的機械波。目前超聲波測距方法主要有相位檢測法、聲波幅值檢測法和渡越時間法三種[1]。本設計采用超聲脈沖回波渡越時間法。超聲波傳感器在發射超聲波時開始計時,當途中遇到障礙物時立即回傳,接收器接收到反射波時停止計時。設超聲波脈沖由傳感器發出到接受所經歷的時間為t,超聲波在空氣中的傳播速度為340m/s,則傳感器到目標的距離S=340*t/2m。這就是渡越時間法的測量原理。
圖1 超聲波測距原理框圖
(二)超聲波測距的誤差分析
根據超聲波測距公式s=c×t,主要分為以下兩個方面的誤差:
1.時間誤差
當要求測距誤差小于1mm時,已知超聲波速度C=344m/s(20℃室溫),忽略聲速的傳播誤差。測距誤差t<(0.001/344)≈0.000002907s即2.907μs[2]。
從而可知在超聲波傳播速度準確的前提下當要求誤差在毫米級時,時間差在微米級。由于89C51單片機的晶振頻率為11.1592MHz,因此使得單片機能達到微米級的精度,從而確保誤差在1mm之內。
2.超聲波傳播速度誤差
超聲波傳播受環境溫度影響比較明顯。溫度為0℃時超聲波速度是344m/s,30℃時達到349m/s。一般溫度每升高一度,傳播速度大約增加0.6m/s。若超聲波在30℃的環境下以0℃的聲速測量100m距離所引起的測量誤差將達到5m,測量1m誤差將達到5cm。解決溫度帶來的影響一般采用溫度補償法[3]。由于本設計要求測量距離在5m之內,因此綜合考慮可以忽略這種誤差。
三、硬件電路的設計
(一)超聲波發射電路
超聲波發射電路由超聲波探頭和超聲波放大器組成。超聲波探頭將電信號轉換為機械波發射出去,而單片機所產生的40 kHz的方波脈沖需要進行放大才能將超聲波探頭驅動將超聲波發射出去,所以發射驅動實際上就是一個信號的放大電路,本設計由單片機產生40KHz的方波,選用74LS04芯片進行信號放大(見圖2)。
(二)超聲波接收電路
由于超聲波在空氣中的傳播過程中會發生衰減,如果距離較遠,那么接收到的超聲波信號就會比較微弱,因此需要對接收到的信號進行放大。超聲波接收電路主要是由集成電路CX20106A芯片電路構成的,CX20106A芯片電路可以對超聲波信號進行放大、限幅、帶通濾波、峰值檢波、整形、比較等功能,比較完之后超聲波接收電路會輸出一個低電平到單片機去請求中斷,此時單片機停止計時,并開始去進行數據的處理。
CX20106A芯片的前置放大器具有自動增益控制的功能,當測量的距離比較近時,放大器不會過載;而當測量距離比較遠時,超聲波信號微弱,前置放大器就有較大的放大增益效果。CX20106A芯片的5腳在外接電阻對它的帶通濾波器的頻率進行調節,而且不用再外接其他的電感,能夠很好地避免外加磁場對芯片電路的干擾,而且它的可靠性也是比較高的。CX20106A芯片電路本身就具有很高的抗干擾的能力,而且靈敏度也比較高,所以,能滿足本設計的要求。
圖3 超聲波接收電路圖
(三)語音合成模塊
此模塊電路采用SYN6658語音合成芯片。SYN6658通過UART接口或SPI接口通訊方式,接受帶合成的文本數據,實現文本到語音的轉換。具有清晰、自然、準確的中文語音合成效果。可采用GB2312、GBK、BIG5和Unicode四種編碼方式[4]。
圖4 語音合成模塊電路圖
主控制器和SYN6658語音合成芯片之間通過UART接口或SPI接口連接,控制器可通過通訊接口向SYN6658語音合成芯片發送控制命令和文本,SYN6658語音合成芯片把接收到的文本合成為語音信號輸出,輸出的信號經功率放大器進行放大后連接到喇叭進行播放(見圖4)。
四、軟件設計
主程序對整個單片機系統進行初始化后,單片機提供一個10us以上的脈沖觸發信號來觸發超聲波發射電路,同時將定時器T0啟動,在接收到超聲波信號后關閉定時器,根據根據時間差計算出距離,然后調用語音播放程序,根據實際距離來選擇播報不同的信息。
圖5 總系統流程圖 圖6 語音播放流程圖
部分程序:
#include <AT89x51.H>
#include <intrins.h>
void main(void)
{unsigned char TempCyc;
Delay400Ms();
LCMInit();
Delay5Ms();
DisplayListChar(0, 0, mcustudio);
DisplayListChar(0, 1, email);
ReadDataLCM();
for(TempCyc=0;TempCyc<10;TempCyc++)
Delay400Ms();
DisplayListChar(0, 1, Cls);
while(1)
{
TMOD=0x01;
TH0=0;
TL0=0;
ET0=1;
EA=1;
while(1)
{
StartModule();
//DisplayOneChar(0,1,ASCII[0]);
while(!RX);
TR0=1;
while(RX);
TR0=0;
Conut();
delayms(80);
} }}
五、結語
本系統經過多次試驗,測試所得結果與設計要求基本一致。該超聲波測距的導盲設計有效距離可達到3.8m,測量精度為2.0cm,同時可以實時地通過語音模塊播報提示,具有很好的導航功能,能夠能夠滿足盲人導航器的設計要求,為盲人安全行走提供了保障。
參考文獻
[1]時德鋼,劉曄,王峰,韋兆碧,王采堂.超聲波精確測距的研究[J].計算機測量與控制,2002,10(7).
[2]紀良文,蔣靜坪.機器人超聲測距數據的采集與處理[J].電子技術應用,2006.
[3]白順先.超聲波測距系統的設計與實現[J].高校理科研究,2000(08).
[4]SYN6588中文語音合成芯片數據手冊[Z].北京:北京宇音天下科技有限公司,2012.
在Android移動平臺上,開發了一款盲人手機系統,該系統以語音合成及語音識別為基礎,使盲人能夠通過聲音控制系統功能的執行,并通過觸控語音提示反饋信息,以此來實現手機與盲人的交互。以方便盲人順利完成接打電話,收發短信,語音報時等功能。這不僅是盲人的渴望,同時也是科技進步對手機發展的要求。系統設計的功能包括:1) 語音接打電話;2) 語音收發短信;3) 語音報時;4) 語音播報日期;5) 語音播報天氣。
1 系統設計
1.1系統功能劃分
本系統業務邏輯分為語音撥號、語音接聽電話、語音發送短信、語音接收短信、語音報時、語音播報日期、語音播報天氣和語音搜索播放音樂等功能模塊。系統功能模塊圖如圖1所示。
本系統中語音模塊的實現擬通過標準的接口接入安徽科大訊飛的移動語音平臺iFLY Mobile Speech Platform(以下簡稱MSP)來實現[1]。系統中語音接打電話,語音收發短信會調用手機數據庫中的通訊錄,進行號碼與聯系人之間相互匹配;同時,其中的語音播報天氣模塊需要調用Web Service,以此來獲取天氣情況。
1.2系統流程圖
系統由一個主頁面和后臺功能服務構成,當用戶打開軟件,點擊主頁面語音按鈕時,此時進入語音輸入模塊,用戶說出語音指令,系統根據預先定義的語法文件,選擇進入相應的功能子模塊,順利完成該功能后,程序返回繼續監聽用戶的點擊操作。系統總體流程圖如圖2所示。
圖2 系統總體流程圖
注:圖2中*代表聯系人、號碼、歌曲名或城市名
1.3系統功能模塊設計
下面對圖2中幾個主要子系統模塊的功能和流程進行分析與設計:
1) 撥打電話邏輯設計
該子系統主要是為了方便用戶撥打電話,當用戶需要打電話的時候,只需要通過相應的語音指令告訴手機,打電話給聯系人或號碼,系統即可分辨出關鍵詞“打電話”進而轉入該子系統。在指令中用戶有兩種選擇:一、打電話給聯系人,此時系統調用手機數據庫中的通訊錄查找該聯系人,如果找到該聯系人則直接進行撥號,否則,提示未找到該聯系人;二、打電話給電話號碼,此時系統直接提取號碼進行撥號。具體流程如圖3所示。
2) 發送短信邏輯設計
該子系統主要是為了方便用戶發送短信,當用戶需要發送短信的時候,只需要通過相應的語音指令告訴手機,發短信給聯系人或號碼,系統即可分辨出關鍵詞“發短信”進而轉入該子系統。在指令中用戶有兩種選擇:一、發短信給聯系人,此時系統調用手機數據庫中的通訊錄查找該聯系人,如果找到該聯系人則提示請輸入短信內容,語音輸入短信內容后,系統提示短信已編輯完成發送或取消,語音輸入發送或取消。若為發送,則直接發送,并提示發送成功;若取消,則提示短信已取消。如果未找到該聯系人則提示未找到聯系人;二、發短信給電話號碼,此時系統直接提取號碼進入短信編輯步驟。
3) 播報天氣邏輯設計
該子系統主要是為了方便用戶了解天氣,當用戶需要了解天氣的時候,只需通過相應的語音指令告訴手機,某地今天/明天天氣怎么樣,系統即可分辨出關鍵詞“天氣”進而轉入該子系統。系統通過Web Service訪問webxml.com.cn網站獲取天氣情況,并將結果進行解析從而獲得最終結果,最后以語音的方式向用戶播報。
4) 接聽電話邏輯設計
Android的CALL接收機制是由Broadcast Receiver(廣播接收器)來完成的,當電話打進的時候會廣播一個Telephony Manager. CALL_STATE_RINGING的消息,可以通過在資源文件AndroidManifest.xml的Inter Filter中攔截這個消息,也可以選擇在Activity中注冊這個消息來實現[2]。同時,系統獲取來電號碼并在手機數據庫通訊錄中查找該聯系人,如果找到該聯系人,則提示聯系人打來電話請接聽,否則直接播報號碼打來電話請接聽。
5) 接收短信邏輯設計
Android的SMS接收機制是由Broadcast Receiver(廣播接收器)來完成的,當電話打進的時候會廣播一個android. provider. Telephony. SMS_RECEIVED的消息,可以對其進行偵聽攔截[2]。同時,系統獲取來電號碼并在手機數據庫通訊錄中查找該聯系人,如果找到該聯系人,則提示聯系人發來短信請查看,否則直接播報號碼發來短信請查看。
2 系統實現
介紹系統功能的實現過程,包括語音合成和識別功能,訪問數據庫和Web Service功能的實現。
2.1語音識別功能實現
本系統中所實現的各個功能都是基于語音合成和語音識別技術,其具體實現都是采用科大訊飛的MSP。科大訊飛的MSP移動語音云平臺目前只提供一種語音識別的方法,即語音識別控件(Recognizer Dialog)[3],其函數原型為:
public RecognizerDialog(Context context, String params);
以下是系統中語音識別的部分關鍵代碼:
RecognizerDialog isrDialog=new
RecognizerDialog(MainActivity.this,"appid=51540a3e");//創建語音識別對象
isrDialog.setListener(recognizeListener);
String grammar="#ABNF 1.0 gb2312;\n" +
"language zh-CN;\n" +
"mode voice;\n" +
"root $main;\n" +
"$main=現在什么時間|現在幾點鐘|今天幾月幾號|打電話給$contact|$city $date 天氣怎么樣|發短信給$contact |來一首$song;\n" +
"$contact=${names} |$digit<3-11>;\n" +
"$date=今天|明天;\n"+
"$city=武漢|北京|上海|廣州|深圳|重慶;\n"+
"$digit=0|1|幺|2|3|4|5|6|7|8|9;\n"+
"$song=自由飛翔;\n"; //語法文件
grammar=grammar.replace("${names}",a);
isrDialog.setEngine("asr","grammar_type=abnf",grammar); //進行語法文件識別
String text= results.get(0).text; //獲取結果
2.2語音合成功能的實現
科大訊飛的MSP移動語音平臺共提供兩種中文語音合成的使用方法:語音合成控件(SynthesizerDialog)及語音合成播放器(SynthesizerPlayer)[3]。本系統采用第二種語音合成方法,通過此接口可以實現在后臺進行語音合成播放,而不需要通過SynthesizerDialog顯示界面。其函數原型為:
Public static SynthesizerPlayer createSynthesizer
Player(Context context ,String params);
以下是系統中語音合成的部分關鍵代碼:
SynthesizerPlayer player; //創建合成對象
player=SynthesizerPlayer.createSynthesizerPlayer(MainActivity.this,"appid=51540a3e");
player.setVoiceName("vixnn");//設置發音人
player.playText("今天是"+year+"年"+month+"月"+date+"日"+",星期"+week, "tts_buffer_time=5000",null); //進行語音合成
2.3訪問數據庫功能實現
系統中接打電話,收發短信模塊用到了手機系統數據庫中的通訊錄,需要對數據庫進行訪問。具體實現代碼如下:
ContentResolver contentResolver =getContentRe
solver(); //創建數據查詢對象
cursor=contentResolver.query(ContactsContract.CommonDataKinds.Phone.CONTENT_URI,projection,ContactsContract.CommonDataKinds.Phone.DISPLAY_NAME+"=?",new String[]{contactName}, "");[4]
//結合查詢條件進行數據查詢
Int nameFieldColumnIndex=cursor.getColumnIn
dex(ContactsContract.CommonDataKinds.Phone.NUMBER); //獲取查詢結果
String number = cursor.getString(nameFieldColu
mnIndex); //得到聯系人的電話號碼
2.4訪問Web Service功能實現
系統中查詢天氣模塊用到了Web Service,需要訪問網站獲取天氣情況,然后對其進行解析從而獲得最終結果。具體實現代碼如下:
byte[] entity =readSoap().getBytes();
String path="http://webxml.com.cn/WebS
ervices/WeatherWebService.asmx";//查詢網址
URL url=new URL(path);
HttpURLConnection conn=(HttpURLConnection)url.
openConnection();//打開網絡連接,進行查詢[5]
conn.getOutputStream().write(entity); //獲取查詢結果
return parseSoap(conn.getInputStream());
3 系統運行測試
本軟件的測試平臺是中興U880,CPU Marvell PXA920,CPU頻率為806MHZ單核,RAM容量512MB,ROM512MB,系統為Android2.2,支持Bluetooth,GSM,TD-SCDMA 和Wifi 通信,主屏3.5英寸,分辨率為800×480 像素。利用Eclipse將本軟件安裝到手機上,進行測試。
3.1系統主界面
系統只有一個主界面,它由兩部分構成,上面部分是一個ScrollView(滾動條),包括系統幾項功能的提示和指令格式;下面部分
(下轉第4459頁)
(上接第4449頁)
是一個固定的ImageButton(圖像按鈕),用來觸發語音事件,它也是用戶最常使用的控件,在整個主界面上占有較大空間,以便于用戶操作。主界面效果如圖5所示。
3.2語音撥打電話
如圖6所示,當觸發語音按鍵,命令“打電話給張朋”,系統直接識別出語音命令,并進行撥號。
圖4 系統主界面 圖5 語音撥號界面
4 結束語
基于Android的盲人手機系統是一款為方便盲人而開發的手機應用軟件,它可使用戶免于繁瑣的手動輸入,只需要簡單地說出語音命令,即可實現相應的功能,為視力障礙人群提供了一種有效操作手機的途徑。軟件安裝簡單,安裝成功后無需任何設置,打開本軟件后觸發語音按鍵即可進行各種操作。系統功能較為全面,操作方便快捷,具有一定的推廣和實用價值。
參考文獻:
[1] 安徽科大訊飛信息科技股份有限公司.訊飛語音改變移動生活[J].計算機與信息技術,2011,6(3):25-32.
[2] 郭少豪.Android手機交互應用開發[M].北京:中國鐵道出版社,2011:171-199.
[3] 安徽科大訊飛公司.語音云Android SDK[EB/OL]. (2010).http://iflytek.com/.
當然,語音應用也并不都那么高深莫測,手機里的語音撥號已經成為最大眾化的應用之一。就在不久前,比爾?蓋茨又預言,未來5年,人與電腦的互動方式將發生重大變革,現有的鼠標和鍵盤將被觸摸、視覺和語音所代替……
世界之最難技術
語音技術包含語音合成、語音識別兩大部分,其中,后者是業內公認最難的技術,當今計算機運算速度越來越快,存儲容量越來越高,而語音識別卻依然沒有什么突破性進展。中科院自動化所模式識別國家重點實驗室研究員徐波解釋說,語音技術屬于人工智能范疇,要讓電腦模擬人腦,這本來就是一個非常難的領域,因為人腦的思維是非線性的,非純邏輯性的,而計算機是二進制、純邏輯的。語音合成是讓計算機說,就好比銀行里的叫號機,“請――一百――零――三號――到――第五柜臺辦理”。這些詞匯元素,是事先錄好在數據庫里,然后按需求抽取出來,合成在一起后再播放出來。但由于合成的不好,我們聽到的是斷斷續續的播報。不過好在接收方是人,盡管不連貫,人們還是能聽懂。而語音識別就不一樣了,它是讓計算機聽懂人話,接收方是計算機,人們的詞匯量是何其大,各地方言也千差萬別,再加上在嘈雜的環境中,計算機更是無法分辨哪些是背景噪聲,而哪些又是真正需要接收的語音指令。
“1981年,日本投資了1千億日元,第一次向世界宣告要開始研制‘第五代計算機’,目標是做一個人工智能化的信息采集、存儲、處理、通信計算機系統,具有形式化推理、聯想、學習和解釋的能力,甚至能夠幫助人們進行判斷、決策、開拓未知領域和獲得新的知識。其別提到,人機之間可以直接通過自然語言或圖形圖像交換信息。但是計劃最終以失敗告終,因為科學家們認識到,要研究第五代計算機,先要研究語言學家,研究人的思維,而這又是一項復雜而漫長的工程。”他說。
語音技術民間化
當初,“第五代計算機”開發計劃被制定為10年,然而將近30年后的今天,我們依然沒有完成這個夢想。這么看來,比爾?蓋茨預言的5年,貌似也是個可望不可及的夢想了?當然不是,語音技術已經今非昔比,并且滲透到咱們生活的方方面面。
從可以讀短信的語音王手機,到可以輔助讀網絡小說的“語音電子書”軟件(如今還有手機使用的版本),還有銀行、運營商等服務熱線,語音合成技術已經告別了磕磕巴巴朗讀的年代,清晰流暢得可以和真人相比。但是在語音識別領域,進展還沒有前者那么快速。即便是擁有40多年提供語音解決方案的經驗、150多個語音技術專利、語音識別產品在全球銷售已達一百萬套以上,領導了世界的語音識別技術的IBM,其語音識別的主打軟件ViaVoice(第一個全功能的語音指令桌面程序,可以用語音在PC、手提設備、汽車系統和自動客戶服務系統之間進行信息交流)也令人感到生硬。“用它輸入太慢了,還不如鍵盤敲字,誰會去用呢?”曾經試用過ViaVoice的李先生對記者說。
記者在采訪中科院聲學所專門研究語音交互技術的杜利民博士時問道:“在某博覽會上曾經展出的可以和人對話的機器人,是不是就是一個語音識別技術市場化的未來方向?”杜博士說:“語音玩具不能說不是一個趨勢,但這類產品一定是有用的,能為人們帶來一定價值的,而不是靠炒作科技概念。只有這樣的產品,才能真正讓人愿意掏錢去購買,走入家庭。”
國際巨頭的語音試驗田
微軟是個如此龐大的公司,它當然什么都想做,而語音是尤其受到比爾?蓋茨推崇的,他從很早就相信,語音技術在未來的人機交互中一定占絕對優勢,既然這樣,主打操作系統的微軟怎么能不做語音?也就從那時起,微軟研究院的語音組誕生了。前有老大蓋茨的理想,后有Windows操作系統和Office辦公軟件在贏利上撐腰,語音組雖然一直沒賺錢,但也義無反顧地堅持了下來。
Google也在做語音技術,他們當然也結合了搜索的老本行,兩者結合就有了Google411,并且在未來,這種服務會更加便利和無處不在。這是一項很有意思的服務,類似于過去的“接線員”。你說“想找個咖啡廳”,Google411就會自動給你報出一系列本地咖啡廳的名字。你告訴它想要的咖啡廳編號,它會幫你自動轉接到該咖啡廳。你也可以要求它發短信告訴你相關信息,或者發送Google地圖到你手機上。而這項聽起來方便得誘人的服務嫁接到中國就變了個樣子。
Google411目前只面向美國本土服務,但是中國老百姓也有這個需求呀,用不了不是干著急嗎?沒事,我們還有百度,不過撥通電話后,那頭并不是自動的語音應答分析系統,而是活生生的人。在國家智能計算機研究開發中心、中國科技大學人機語音通信實驗室的基礎上組建的科大訊飛公司研究院院長胡郁表示,百度語音搜索瞄向了一個很有前景的市場,但是隨著用戶量的增大,后臺用人去搜索肯定會增加成本,并影響服務質量。因此,只有建立真正的自動化語音服務系統,才可能在這個領域做下去。
當然,我們還不能不提到IBM這個語音領域的巨頭,然而,如同IBM賣掉PC業務一樣,把利潤變薄的業務甩掉,便于把更多財力、精力投入到更賺錢的業務上去。現階段看來,語音市場風險還比較大,還不夠熱到讓IBM下大本兒來運作,因此IBM更將語音視為一種技術研究和儲備。
中國企業的挑戰與機遇
分析了國際巨頭們在語音技術領域的力量體系,國內的語音企業要向哪個方向發展才能敵過他們?科大訊飛的胡院長對記者說:“大公司的優勢毋庸置疑,但這些優勢也在一定程度上限制了他們的思維和對市場的應變速度。在這些公司里做語音,只需要把技術做好就行了,他們的市場意識并不很強,還沒有考慮要通過這些技術創造多少價值。而對于我們國內企業,特別是專門從事語音技術的企業,則要把技術研發、設計、產品、市場一條線串聯起來。找準切入點,迅速地拉動市場對語音產品的需求。大公司的夢想需要5年,而我們會用3年來實現看似并沒有那么宏大的目標。”
關鍵詞:多模態二語語音習得;生理儀器測量;語音合成;聲學分析
中圖分類號:H319.3 文獻標識碼:A 文章編號:1001-5795(2013)04-0059-0005
從發展軌跡來看,語音學經歷了“口耳之學”的傳統語音學和語音科學兩個階段,其分水嶺是語音學研究中首次使用X光對發音器官、發音動作等進行實證研究。隨著科學技術的快速發展,近二十年語音科學研究取得了重大進展,并呈現出多元化發展趨勢。語音多模態研究也應運而生。隨著二語語音習得研究的擴展和深入,語音多模態研究成果越來越多地被應用于二語語音習得中,多模態二語語音習得研究也日益成為人們關注的熱點話題。
關于語音多模態研究在二語語音習得中的應用,國內學者進行了一些有益的嘗試,主要是在二語語音習得和教學中引入語音聲學軟件分析。謝萍(2007)、馬照謙(2007)、蔣紅柳(2009)等探討了如何使用Praat、Speech Analyser等語音分析軟件實現可視化英語語音教學,如何通過提供視覺上的感知反饋和感知評判標準,使抽象的語音概念介紹和容易混淆的語音的區分變得直觀形象,幫助學習者正確感知英語語音。莊木齊、卜友紅(2011)介紹了商用超音段音位輔助習得軟件Better Accent Tutor(超音段可視化分析軟件)的性能及應用效果。這些研究有助于學習者了解語音軟件及聲學分析,并通過可視化教學進一步提高二語語音習得效率,但也有其局限性和不足:只是聚焦語音習得的單一模態,并且尚未構建一定的研究框架。這一問題若不能及時解決,二語語音習得研究還會流于表面,缺乏深度和系統性。針對這一不足,我們在整合語音多模態相關研究的基礎上,依據語言學、語音學、生理語音學、聲學語音學等理論,嘗試構建一個針對中國學習者的多模態二語語音習得研究框架,以期促進多模態二語語音習得理論的發展,豐富二語語音多模態研究方法和研究內容,有效促進二語語音習得。
1 語音多模態研究與多模態二語語音習得
語音學是研究人類說話聲音及言語過程的學科。現代語音學一般分為發聲語音學(artieulatory phonet—ics)、聲學語音學(acoustic phonetics)和聽覺語音學(auditory phonetics)。發聲語音學主要研究講話人的語音產出,聲學語音學主要研究講話人與聽話人之間的語音傳遞,聽覺語音學主要研究聽話人對語音的接受和感知。三者涉及言語交際過程中的發音、傳遞和感知三個階段。正如圖1言語鏈(The Speech Chain)所示,言語的產出與感知過程復雜,涉及語言學層面(linguistie level)、生理學層面(physiological level)和聲學層面(acoustic level)發生的一系列現象。
“模態”(modal)本是計算機科學中研究人機交互時使用的一個術語,指“人類通過感官(聽覺、視覺等)跟外部環境(如人、機器、物件、動物等)之間的互動方式”(顧曰國,2007)。“多模態”指綜合運用多種模態,通過文本、圖像、視頻、手勢、三維動畫等多種手段和符號載體進行交際的現象(Iedema,2003;O’Halloran,2011)。“語音多模態研究主要是指對某種語音進行語言學、語音學、語音聲學和語音生理學的全方位研究”(孔江平,2008)。這一全方位研究基本涵蓋言語過程中的發音、傳遞和感知三個階段。因此,語音多模態研究對二語語音習得的多模態研究有著重要的借鑒意義。
1.1 多模態二語語音習得研究框架構建
基于語音多模態研究,我們嘗試性構建不同層面(音段層面、超音段層面)的多模態二語語音習得研究框架(如圖2所示)。
多模態二語語音習得研究可分為以下三大類:①基于生理儀器測量的多模態二語語音習得研究,包括動態聲門研究、口鼻氣流氣壓研究、動態腭位研究、唇形研究等,多用于研究輔音習得(因為輔音在語圖上聲學表現不明顯);②基于語音合成的發音過程三維動畫的多模態二語語音習得研究,主要用于研究輔音和元音等音段的習得;③基于語音軟件聲學分析的多模態二語語音習得研究,主要用于研究超音段音位習得及元音習得。其中超音段音位可通過音高(pitch)、音強(intensity)等聲學參數來反映;元音作為樂音有很好的聲學表現,便于進行聲學分析。前兩類研究主要涉及音段層面,第三類研究主要關注超音段音位習得。這三類研究即構成了多模態二語語音習得的研究框架,主要涉及視覺(通過基于語音合成與語音識別技術開發的語音分析軟件將語音的聲譜圖和聲學參數展示出來)、聽覺(聽話人對語音的接受和感知等)、觸覺(借助圖像或動態畫面調整發音方法和發音部位)等。下文將略述這一框架并探討其在二語語音習得中的應用。
1.2 多模態二語語音習得研究框架在二語語音習得中的應用
1.2.1 基于生理儀器測量的多模態二語語音習得
(1)動態聲門研究與二語語音習得
動態聲門研究是利用國際上研究語言發聲最先進和復雜的高速數字成像技術和語音信號處理技術,針對聲帶振動頻率和振動方式所進行的研究,具體是利用高速攝像機拍下聲帶振動的全過程,然后利用語音信號處理技術提取出相關參數進行語音學研究或建立模型(孔江平,2007)。英語輔音習得中的一個關鍵問題是發某個輔音時如何確定聲帶是否振動,傳統做法是把手放在喉部,如果感覺喉部顫動發麻,則說明聲帶振動了。利用這一方法只能對聲帶是否振動做出定性判斷,卻無法進行精確的定量分析。借助動態聲門研究成果,根據相關參數計算出聲帶振動的方式和頻率并以視覺的形式呈現給學習者,有助于克服傳統方法帶來的弊端,促進學習者輔音的習得。
(2)口鼻氣流氣壓研究與二語語音習得
目前學術界使用比較多的口鼻氣流氣壓計是SCI—CON R&D公司的PCquirer系統,其主要測量參數有:口腔的氣流量和氣壓級,鼻腔的氣流量、氣壓級和基頻等。這一儀器“除了用于腭裂、運動性言語障礙、聽力障礙、腭修復、功能性的鼻音問題等嗓音病變和語音矯正外;還可以提取各種不同的參數用于言語產生的生理研究”(李永宏等,2008)。
中國學習者英語輔音習得過程中常見的兩大問題是:發輔音時往往送氣不足;爆破音發音要經歷閉合(approach)、成阻(hold)和除阻(release)三個階段,學習者常常不能恰當控制氣息。發音時,來自肺部的氣流通過支氣管、氣管到達咽腔,然后再由鼻腔或口腔釋放出來。氣流是發音的能量來源和原動力,其強弱直接影響發音效果。口鼻氣流氣壓計則能精確測量通過口腔、鼻腔的氣流量,避免僅憑感覺而造成的誤差,對于解決英語輔音習得過程中的送氣不足和氣息控制等問題大有裨益。
(3)動態腭位研究與二語語音習得
言語產生(speech production)是言語鏈中最底端和基礎的部分,也是語音學中最為重要的基礎性內容。在言語產生研究中發音器官動作特性的研究舉足輕重。動態腭位研究主要用于音段層面尤其是輔音的研究。電子腭位儀原為幫助腭裂兒童發音而設計,現也應用于二語語音教學和習得領域。目前,常見的動態腭位儀應用電子假腭以96點陣的方式(圖3),實時記錄舌與腭部的接觸位置及面積,同步采集說話人的音頻信號和動態腭位EPG信號,并在計算機語音聲學分析軟件界面上以圖形的形式顯示出來。學習者可以清楚地看到輔音的發音方法和發音部位(鄭玉玲,2006),因而被稱作“實時地看語言(seeing speech inreal time)(Fletch,1982)。借助動態腭位分析,學習者可實時調整自己的發音。
目前用于研究發音器官動作的儀器除了電子腭位儀外,電磁發音儀是另一行之有效的儀器,可用來實時觀察發音器官的動作(李永宏等,2008)。
(4)唇形研究與二語語音習得
唇形研究與二語語音習得研究有著密切的關系。人臉的唇部是一個復雜的非剛體模型,其形變過程由分布在面部的肌肉組織的收縮以及人體下頜骨的運動來控制(鄭放,1985)。通過專用設備“紅外三維立體信號采集系統”可獲取唇形的動態信息進行唇形研究,建立一個基于紅外三維立體信號的英語發音唇形研究數據庫,開發具有唇形視頻功能的英語發音多模態教學系統,有效改進二語語音習得。
1.2.2 基于語音合成的發音過程三維動畫的多模態二語語音習得
目前的語音合成(speech synthesis)技術在清晰度、自然度及體現個體語音、語調、情緒豐富性等方面取得了重大進展,可以提供大量標準發音的動態畫面。三維動畫是近年來隨著計算機軟硬件技術的發展而產生的一門新興技術,具有精確性、真實性、無限可操作性等突出優點,被廣泛應用于教育、醫學、娛樂等領域。基于語音合成的發音過程三維動畫技術可以直觀、生動展示各個發音器官及其運動、發音方法的模擬并與聲音同步,有助于學習者機動、便捷、有效地進行發音訓練。例如,可提供元音和輔音發聲過程的三維動畫視頻(圖4)、發音過程的分解步驟(圖5)以及真人發音三維動畫視頻(圖6)(http://uiowa.edu/-acadtech/phonetics/#)。
1.2.3 基于語音軟件聲學分析的多模態二語語音習得
語音軟件聲學分析主要用于二語語音超音段音位習得。由于受母語影響,中國學習者對英語語音的音響與韻律感知能力欠佳。解決問題的一個有效途徑便是利用語音軟件(Praat,Speech Analyzer,Eyespeak,WASP,Wavesurfer,Betteraeeent Tutor等)聲學分析得到包含相關語料聲學參數的聲譜圖或語圖,以視覺的形式呈現給學習者,使其在接受聽覺刺激的同時,接受視覺、觸覺等多種感官刺激,即進行多模態體驗。聲學分析軟件可展示給學習者諸如音長(duration)、音高、音強、共振峰(formant)、脈沖(pulse)、嗓音起始時間(VOT)等相關信息。其中,音高主要反映發音時音量的高低;音高曲線可顯示語調的走勢;音強指的是發音時氣流的強弱,音強曲線可以反映重音情況;共振峰指語圖中能量相對集中的一些區域,聲學分析中常用的有F0(基頻)、F1(與開口度有關,開口越大F1越大)、F2(與舌位的前后有關,舌位越靠前F2越大);脈沖主要用于區分清音和濁音,前者無脈沖,后者有脈沖;VOT是指“輔音與元音連接時發音器官交替活動,即除阻開始與聲帶振動開始的時間過程”(吳宗濟、林茂燦,1989:119),清音的VOT長,濁音的VOT短。圖7是語音習得軟件Better Accent Tutor輔助語調、重音、節奏等超音段音位習得時的界面,學習者可以在該界面錄音,然后對比分析與標準發音的差別,并根據得到的反饋信息修正自己的發音。
需要說明的是,語音軟件聲學分析的確能幫助改善學習者的語音習得效果,但也存在一定的誤差。因此,不能完全依賴聲學分析結果,有時候還需參考母語者的直覺和建議。
2 結語
1場景數據處理
1)三維模型構建Unity3D對當前主流的三維模型格式提供了良好的支持,本系統采用3DsMax進行建模、Photoshop處理貼圖,完成三維模型構建。Unity3D對模型、材質、貼圖有特殊的要求[8]。模型必須使用英文命名,模型與模型之間不允許出現共面、漏面、破面和反面的情況;材質球命名與模型名稱一致,支持標準材質和多維/子物體材質,不能有浪費的材質球。貼圖格式不帶通道的為JPG,帶通道的為32位TGA和PNG;貼圖尺寸必須是2的N次方,最大貼圖尺寸不能超過(1024×1024),貼圖不能以中文命名,不能有重名。場景檢查合格后,從3DsMax導出FBX格式文件。2)模型導入平臺Unit3D支持從3DsMax中導出FBX格式的文件[9],導入FBX模型之后,為提高場景的亮度及真實感,在場景中選擇添加一個方向光以模擬太陽光源,通過調整光源的方向、顏色以及是否產生陰影等選項,提高場景的效果[10]。Unity3D軟件支持實時光照效果,在添加了光源之后,系統會根據光源及投影體的相對位置關系自動計算出陰影的位置及大小,并投影到正確的受影體上[11]。此外,Unity3D軟件人性化地設置了“場景品質(QualitySettings)”調節選項,在這里可以進一步地調整陰影的品質以及渲染陰影的距離。場景效果調整前后效果對比如圖2。
2系統關鍵技術
2.1NGUI交互界面設計
在化工設備虛擬培訓系統中,系統的界面設計采用NGUI提供的界面工具。NGUI[12]是嚴格遵循“KISS原則”(所謂“KISS原則”,是英語KeepItSimple,Stupid的首字母縮略字,是指在設計當中應當注重簡約,也有人稱之為“懶人原則”),并用C#編寫的Unity插件。NGUI提供強大的UI系統和事件通知框架。NGUI插件代碼簡潔,多數類少于200行代碼,有著高效的性能,方便調節或擴展NGUI的功能[13]。系統主界面由五個功能區、右側說明欄及三維場景區組成。整個界面的搭建基于Unit3D提供的NGUI控件,實現相機始終對著界面且只看到界面范圍。以設備結構為例,設備結構菜單下分為自動拆解和手動拆解,利用NGUI插件,將下拉菜單的圖片顯示到界面中,并能夠觸發按鈕下相應狀態,實現后臺程序功能展現。
2.2聲音、字幕協同技術
由于unity3D軟件中沒有語音庫,音頻制作采用科大訊飛公司推出的InterPhonic5.0語音合成系統。這套系統以先進的大語料語音合成技術和語音韻律描述體系為基礎,可以提供任意版本、任意篇章的連續語音合成。用戶通過在編輯區輸入文本后,可以通過改變語速、音高等調整語音效果,在制作時注意語句停頓正確即可,最后可以導出為.wav格式的音頻文件。為了能夠在unity3D軟件中實現聲音的播放,需要在Unity3D工程中添加AudioSource以及AudioListener[14],并通過聲音腳本控制音頻播放。音頻制作完畢,需進行字幕的制作及同步顯示控制。首先需要將要顯示的文字內容保存為utf-8編碼制式的文本文檔,利用BitmapFontGenerator位圖字體工具,將文本文檔導出為以.fnt為后綴的字庫文件及一張.png格式的文字紋理,手工重命名.fnt文件為.txt文件,利用NGUI插件中的FontMaker功能生成字體預設(Prefab),供字幕顯示使用。其次制作一個XML文件,用以存儲段落中每一條語句播放的起始和結束時間。最后,在當前工程創建一個UIPanel,并在UIPanel下創建子項UILable。通過添加腳本,賦予創建的XML文件腳本,并在UILable中放入創建的字體文件即可。
作者:相茂英 馬純永 韓勇 霍鵬 王春 單位:中國海洋大學信息科學與工程學院
關鍵詞:12316;“三農”服務熱線;系統功能
中圖分類號:S126 文獻標識碼:A 文章編號:0439-8114(2013)17-4276-03
Application Research of 12316 Agriculture-countryside-farmer Services Hotline and Relevant Systems in Jinan City
ZHONG Ju1,WANG Ben-ping2
(1.Jinan Agricultural Information Center, Jinan 250002,China; 2.Jinan Animal Husbandry and Veterinary Bureau,Jinan 250002,China)
Abstract: This paper expounded the structure model and system function of telephone voice service system of agriculture. The series of systems were built in order to realize that the users could get agricultural information by auto voice service system, agent response, short message receiving, video diagnosis and so on. Users not only could choose suitable agricultural experts according to their needs, but also know the new progress of the question that they paid close attention to. Some effective ways to supply agricultural information services for agriculture are proved. The ways can meet all kinds of needs of users for agricultural information and have been powerful supplement ways to serve for agriculture, rural area and farmers.
Key words: 12316; agriculture-countryside-farmer services hotline; relevant system
收稿日期:2012-12-08
基金項目:國家星火計劃重點工程項目(2005EA740120);濟南市經濟和信息化委員會工業和信息化發展專項(Y09)
作者簡介:仲 菊(1971-),女,山東萊州人,副研究員,碩士,主要從事畜牧與農業信息研究工作,(電話)13583187299(電子信箱)
。
“三農”熱線就是綜合運用電話語音技術、文本語音合成技術和計算機技術,建立電話語音系統,為農業生產經營者提供語音咨詢和專家遠程解答服務,使農民通過電話接受農業信息服務[1]。農業部2006年開通全國農業系統統一的公益服務熱線號碼12316后[2],2009年決定依托“12316”代碼,全力打造三農綜合信息服務平臺[3]。吉林省2006年5月率先開通12316“三農”服務熱線[4,5],之后許多省(市)也相繼開通[6-9]。北京市農業科學院整合農業科技信息資源以及部級農業信息資源,實現了全市統一的信息服務界面和各級信息資源的共建共享[10]。商務部等部門也利用12316熱線開展農民工對外勞務服務[11]。
濟南市12316“三農”熱線是山東省的分支,是濟南市金農工程的重要組成部分,2006年濟南市開始進行該系統的建設。它以山東金農信息網為平臺,以強大的文獻檢索數據庫和農業專家數據庫等為支撐,結合短信平臺和專家會診系統共同為互聯網建設不發達而電話已達到一定普及率的農村提供一種獲取信息的途徑。
1 濟南市12316“三農”服務熱線的系統構建模式
1.1 構建基礎及思想
系統將計算機技術和電信技術融為一體,建立支持語音服務的農業實用科技信息數據庫,為農戶提供一對一、一對多的專業咨詢幫助和每天24 h的農業自動語音信息服務。其構建基礎主要是依托現代語音合成技術,將文本信息轉換為自然語音輸出,把互聯網服務與語音信息系統進行人機結合,使普通用戶通過電話就能實現個性化動態信息查詢與。農民可以通過人工坐席系統與專家直接通話,解決農業生產中的實際問題。考慮到農業用戶的特殊性,為給農民提供更人性化、更方便的服務,在設計系統軟件時使用戶通過電話即可獲得所需的農業信息,還可與農業專家直接通話或者通過視頻系統得到專家的會診,解決農業生產中的實際問題。該系統實現了農村遠程信息服務“進村入戶”,并作為農民遠程教育技術平臺的組成部分,為不具備上網條件的農民提供語音答疑服務。
1.2 硬件及運行環境
1.2.1 硬件 熱線服務系統包括數據服務器、計算機設備、語音卡、高清晰攝像頭、數碼相機等相關硬件設備。服務器采用北京智農天地網絡技術有限公司Agricom語音信息服務系統,速度快,有較強的穩定性,能夠保證語音服務平臺長時間正常運行。語音卡采用16通道PCI總線模塊化語音卡底板,通過安裝不同型號的模塊可構成靈活的應用系統。
1.2.2 運行環境 穩定的220 V電源不間斷供電;Internet 網絡連接,要求24 h寬帶連接;PSTN電話網連接,線路接口為標準的RJ11電話接口;穩定的內網寬帶保證坐席客戶機與語音服務器網絡暢通;人工坐席設備12套,其中微機12臺,坐席計算機12臺,坐席人員耳麥12套,微機用來安裝人工坐席系統,其操作系統為Windows 2000/XP。
1.3 軟件配置
網絡操作系統為Windows Server 2008 標準版,數據庫系統為SQL Server 2008,安裝AG32語音平臺軟件、IVR語音管理服務軟件、防病毒軟件、V2 Conference服務器軟件、視頻傳輸軟件等。
1.4 安全保障
為保障整個系統正常運行,機房防雷設施是A級防雷,地線則要求保證服務器良好接地,以確保整個系統不受雷電影響,語音卡信息不受靜電影響。
1.5 系統數據結構
此系統的數據資源建設主要采用數據庫形式。將各類信息加工成適于語音播放的數據,存入自動語音數據庫中供農民查詢。內容包括三大類:一是綜合快訊:提供國內近期農業方面的綜合快訊,包括國內綜合快訊、山東省綜合快訊、濟南市綜合快訊;二是氣象信息:一周內氣象預測與指導信息;三是農事指導:為農戶提供近期農事指導信息,主要包括作物農事、蔬菜農事、水果農事、畜牧農事。
2 濟南市12316“三農”服務熱線的系統功能
濟南12316“三農”服務熱線系統采用先進的語音合成技術(TTS),將網上文本實時地轉換為清晰的自然語音輸出,達到網站內容與語音服務系統內容的同步更新、雙向傳輸以及交互式,具有提供包括農業信息語音自動服務、人工咨詢服務、傳真提取文本信息、手機短信的信息定制與等功能。系統包括菜單導航、人工坐席、自動語音、錄音留言、電話聽網、自動轉接、外撥、三方多方通話、語音合成、數據統計分析等功能模塊。擁有較好的信息途徑,使信息的瀏覽更為方便。開發動態的Web數據庫應用,使用戶可以在Web瀏覽器上方便地管理、檢索數據庫的內容,更好地作為語音系統的補充。
2.1 自動語音播放
把精心篩選的資料做成語音數據庫,用戶可以撥打特服號,按提示檢索收聽相關信息。收費方式按普通市話收費,不收取信息費。當用戶打進電話的時候,系統便播放歡迎信息,然后播放欄目信息,用戶可以根據自己的需要,按照提示選擇欄目,快速地得到所需要的信息。資料更新通過語音合成軟件將文本信息自動合成普通話話音,存放到指定的目錄,到檢索數據的時候就可以播放語音文件。人工朗讀的錄音文件更清晰、流暢,更人性化,作為自動轉換語音的補充,系統還可以接收用戶的留言信息。
2.2 人工坐席答復
該系統支持多路坐席電話,設有12部坐席電話來受理復雜業務,與自動語音系統相互補充。服務器端的監控中心需要和坐席機器上的坐席軟件進行TCP/IP通訊,要保證服務器與坐席機器的連接正常。該系統坐席端軟件包括人工坐席子系統、號碼查詢服務子系統、系統維護子系統。人工坐席系統對于用戶咨詢的問題可以實現自動錄音。號碼查詢系統可自動搜索空閑的電話線,實現自動轉接功能,用于輔助用戶快速連接到有關專家的坐席。專家可通過坐席電話直接與農民通話,解決農民反映的問題。
2.3 數據查詢統計
可以對用戶留言、傳真進行查詢,以及對來電數據按照各種方式進行統計。系統可按照來電、查詢、坐席等進行分析和統計。來電時間、區域等都可做統計;還可以按用戶查詢的內容進行統計;對于各坐席的接聽情況也可以做出統計。統計情況匯總成表可進行打印。對于留言信息可以進行查詢回復。
2.4 短信訂制發送
該系統采用中國聯通、中國移動和中國電信三大電信運營商的短信接口資源,利用統一的接入代碼1063-531-12316,建成集客戶管理、農業信息訂制和短信群發為一體的公益性短信服務平臺。該平臺利用先進的通訊技術和網絡技術,實現與指定號碼進行短信批量發送和自定義發送,可適時向全市使用手機的涉農工作者免費農業生產、經營、供求、價格、政策法規等多方面的農業短信息,用戶也可在網上或通過手機訂制多種農業信息。2010年濟南市農業信息中心與中國移動合作建成“農事通”短信平臺,在原有12316“三農”服務熱線的基礎上建設功能完備的3個系統——“農事通自動語音系統”、“農業短消息網上審核與展示系統”和“用戶登記與管理系統”。組織農業專家根據生產需要編寫實用短消息,通過此平臺發送。該平臺面向全市的行政村、農民專業合作組織、農產品行業協會、涉農企業、種養大戶、鄉鎮農業部門人員等采集用戶,目前短信發送至5萬多用戶。
2.5 專家查詢選擇
按照用戶需求搜集包括濟南市所有管理、科研、農技推廣等領域的副高級職稱以上的農業專家的資料,并將其錄入系統,制作成農業專家數據庫,便于解答農民群眾所遇到的農業技術問題,確保農民群眾通過電話咨詢的方式獲取更多的農業信息,解決生產中的疑難問題。數據庫對農業專家進行合理分類,以農業專家與專家論文兩大數據實體為核心,及時更新專家信息,更新專家聯系方式。用戶可以根據自己需要挑選合適的專家,為自己提供咨詢服務。
2.6 專家視頻診斷
對于一些疑難的病蟲害問題,用戶通過電話難以描述清楚,專家也難以查看病因,用戶可以采用視頻的方式向專家咨詢。濟南市農業信息中心為各縣(區)配備了高清晰攝像頭、商用電腦、數碼相機、視頻傳輸軟件等,用戶可登陸網絡診室,就病蟲害問題向植保專家進行咨詢,可通過視頻診斷系統及時得到專家指導和幫助。
2.7 文獻檢索瀏覽
濟南市農業信息中心引進的清華同方文獻檢索數據庫是熱線咨詢的重要數據庫,為負責咨詢的專家、技術人員提供強大的技術支持。用戶對于一些重點關注的技術問題,也可以進行文獻數據庫檢索以查詢有關問題的最新研究進展情況。
2.8 系統維護管理
管理員可以察看到各個線路的狀態,可以通過系統進行預先的信息設置;通過數據維護工具可以實現信息內容修改、添加、刪除。
3 結語
濟南市“三農”熱線語音服務系統及相關系統建成后,用戶通過撥打電話,可以選擇自動語音服務,也可通過人工坐席系統或者視頻診斷系統來咨詢專家,享受與專家直接通話交流的服務,來獲得所需信息。用戶可以根據自己的需要,通過專家系統來選擇合適的專家,還可以通過文獻查詢來跟蹤自己所關注問題的研究進展情況。系統運行以來,為省內外用戶提供了大量信息,答疑解惑,滿足了農戶信息的需求。作為其他服務形式的有力補充方式,對于普及農業科技知識、提升農民文化素質和增加農民收入發揮了重要作用。
參考文獻:
[1] 周國民,丘 耘,周義桃.農業實用技術電話咨詢系統的研究[J].計算機與農業,2002(8):13-15.
[2] 農業部市場與經濟信息司. 農業部關于開通“12316”全國農業系統公益服務統一專用號碼的通知[J].農業科技與信息,2008(5):4.
[3] 農業部新聞辦公室.農業部依托“12316”代碼 全力打造三農綜合信息服務平臺[J]. 農機質量與監督,2009(6):4-5.
[4] 秦 吉.12316助推吉林農業農村信息化大發展[J].農產品市場周刊,2012(3):8-9.
[5] 王凱鋒.農業科技信息服務的傳播學思考——以吉林省12316熱線為視點[J].江蘇農業科學,2010(1):382-384.
[6] 李 昕.農業科技信息傳播服務的現狀及對策——以山東諸城“五位一體”農業科技信息傳播模式為視點[J].山東農業科學,2011(5):117-121.
[7] 曹承忠,張峻峰,王 錚,等. 北京市新型農業熱線科技信息服務體系應用模式分析[J].貴州農業科學,2011,39(2):228-231.
[8] 張子良,尹 衛,張亞琦,等.青海省農業科技信息語音咨詢服務系統簡介[J].青海農林科技,2010(1):75-76.
[9] 余向東,王海霞. 費用低 信息廣 傳播快——河南省12316省級平臺直通鄉村[N].農民日報,2012-03-22(3).
“大膽”是創業者的起點
如果說全世界的創業者有什么共同點,第一個恐怕就是“大膽”。
2011年5月16日,原本是安徽科大訊飛信息科技股份有限公司董事長兼總裁劉慶峰及其團隊的致富日。這天,他們持有的科大訊飛股票,在深交所上市滿3年解禁,14人團隊集體造富,成為了億萬、千萬富翁,38歲的劉慶峰本人財富接近8億元。一同解禁的風投機構當天甩出了約2億元市值股票,但這幫12年前就在一起的“科大校友團”一致決定都不套現,“再團結奮斗30年!”因為對劉慶峰和他的創業團隊而言,十多年來目標就沒有變過:他們要在全球范圍內建立一個“語音產業帝國”。
在國內第一個見識劉慶峰膽略的是他的導師、中國著名的語音和信號處理專家王仁華教授。1997年底,劉慶峰在和王仁華的一次談話中,當面對自己的導師“約法二章”:“第一,如果我要留下來,研究照樣做,但我要做產業化,希望得到您的大力支持;第二,做產業化所獲得的收益,要按照市場化機制分配給創業團隊。”時年54歲,當時在國內語音信號處理領域擁有舉足輕重地位的科學泰斗王仁華,竟然非常爽快的接受了24歲弟子的“苛刻”要求,還主動地為弟子成立公司牽線搭橋。
王仁華對弟子的支持是有原因的,根本而言,是他很了解自己弟子的“民族責任心”。當時,中文語音技術和市場幾乎全部掌握在國外公司手中,而且Microsoft、IBM、Motorola等眾多國際巨頭紛紛在中國設立語音研究基地,國內語音專業優秀畢業生也基本外流。劉慶峰1992年進了王仁華的實驗室,1995年22歲時就成為863項目研究組長,同樣早就被一些外國研究院以高薪“鎖定”了。但劉慶峰沒有動搖過,他和王仁華談過自己的想法:“一個國家的發展,甚至說能夠生存下去,在不同歷史時期都有一些堪稱民族脊梁的讀書人能夠真的為這個民族做些事情。如果我到外企外國研究機構去,那我是幫他們在跟中國人打。憑我掌握的技術,在國外幫他們做的話,就有可能比國內做得好,那中國在語音這一塊會被打垮的可能性將大大增加,所以我要有民族的責任心。”這話出自另外任何一個二十三四歲的小伙子,王仁華或許還要考量一番,但出自劉慶峰,他信。
劉慶峰天生就有一身遇到挑戰就興奮的膽氣。中學考試時,別的同學在老師經過時會受干擾,劉慶峰則是越有老師看著,思路越活躍,做得越好。縣里的數學、物理競賽,每次遇到一眼看上去不知道怎么解的難題,劉慶峰的第一反應就是興奮。如果一份卷子從頭到尾做下來都很輕松,他反而會很失望:大家都得100分,多沒意思!讀研時他選擇的產業化切入點語音合成,是一個非常復雜的交叉科學,很多科研院所做了十幾年的研究一直都沒法突破。而劉慶峰在1997年的“挑戰杯”比賽中初步形成了思路,1998年又和所在的團隊一起提出幾個創新方法,使科大的產品在全國范圍內首先達到了可實用階段。而他突破的原因只有一個:堅持原創!“當時覺得這個課題很難,是個硬骨頭,絕大多數的人繞了一圈根本就沒有找到突破口就出去了。但我愿意去啃它。我不像別人那樣主要依靠國外的資料來做,師傅領進門以后,我更喜歡自己摸索,提出創新的方案。”
今時上市的鐘聲裊裊,往昔少年的誓言鏗鏘。正是劉慶峰14年前堅持自己原則的膽略,成就了今天市值百億的科大訊飛,更成就了生機勃勃的中國語音產業集群。
“警醒”是創業者的美德
大膽而又能成事者,背后往往是超乎常人的警醒。
和當時很多大學生創業者最大的困惑相同,劉慶峰創業路上的第一個難題是投資資本與科研方向的不匹配。創業僅僅一年,劉慶峰就發現當時的投資方雖然有很強的資金實力,但不懂語音行業,“今天做工商查詢,明天要讓做會說話的電腦,后天又讓做PDA”,研發失去了方向,并不符合自己創業的初衷。看看自己彌足珍貴的創業團隊:中國科技大學少年班的天才、高考狀元、黑客版的版主、科大BBS站的站長等等“高人”,大家都把自己未來托付在他這位“班長”和“大師兄”身上,劉慶峰決定要獨立。
1999年6月,劉慶峰不惜以負債的方式,成立了安徽硅谷天音信息科技有限公司,大家一起啃黃瓜吃盒飯,到年底沒錢了只好借錢給大家發工資……即便如此,原來團隊中的所有的員工都跟新公司簽了三年的勞動合同和保密協議,沒有一個人提待遇,沒有一個人提福利,就因為是劉慶峰第一個簽了字。經過4個月艱苦的科研攻關,新公司就有了很明確的產業化方向。合肥市的市長了解到公司的困境,親自帶著美菱集團的董事長、安徽省信托投資公司的總經理到公司考察,認真地聽取公司的產業化報告后,最終決定由安徽省信托、美菱集團、合肥永信三家重新注資。硅谷天音也整體技術入股了新公司科大訊飛,科大訊飛不只回購了自身的專利技術,還由原來的300萬注冊資產升值為5000萬,在產業化方向上把握了自己的命運。
劉慶峰要獨立的堅持其實很簡單,他要用有限的資金把科研的主動權搶回來。新公司有錢了,劉慶峰馬上把國家863計劃支持了多年的語言、聲學相關研究方向進行深度整合,請最有互補性、最有研發能力的專家成立聯合實驗室,開發屬于中國自己的語音合成平臺。
劉慶峰的底氣很足:“最重要的是,中國語音領域中最有優勢的老一輩大師們都認為,語音是文化的基礎和民族的象征,理所當然要為中國人付出。”事實上也是如此,從1980年就從事人機語音通信的王仁華教授、中科院聲學所孫金城教授、中國社科院語言所當時九十余歲高齡的吳宗濟教授等老專家的加入,使中國對聲音、語氣、語調幾十年的研究積累被用到了計算機上,訊飛的科研水平實現了質的飛躍。2000年7月,先進的漢語語音平臺成功建立,英特爾、聯想、貝爾阿爾卡特、東軟等軟件開發商接踵而至,年底公司就開始在行業內名聲鵲起。
經此一役,劉慶峰堅信,技術進步和技術推廣的主動權永遠是拉動公司發展的兩駕馬車。而創業者,必須時刻警醒,把前進的韁繩緊緊地攥在自己手中。
“坦白”是創業者的本色
語音產業是人機交互技術的應用產業,簡單說就是讓機器“能聽會說”,主要包括語音合成和語音識別兩項關鍵技術。從各類電話客服中的語音服務,到使用語音作為指令進行交通導航、手機短信、微博輸入等,都是語音技術的具體應用形式,屬于技術壁壘極高的行業。要在這樣的行業中持續保持領先,不僅需要良好的投資機制,更需要積極的經營機制。劉慶峰對自己經營機制的表述坦白而直接:“既要振興民族的經濟,也要振興公司團隊自己的經濟。”
這條“雙振興之路”正是對創業者最大的考驗。
“燃燒最亮的火把,要么率先燎原,要么最先熄滅。”2000年年底,訊飛的年度大會上,劉慶峰向團隊指出,盡管訊飛可望燎原,但也面臨熄滅的危險。2000年至2002年,復星高科、聯想投資、英特爾等行業著名投資機構紛紛買入訊飛的股權,一時使科大訊飛迅速成為社會各界關注的熱點。但劉慶峰逐漸意識到,事實遠沒有那么簡單。越是有投資人的關注,越突顯出公司財務報表的重要。訊飛一直到2004年才“止血”,2005年度才有了1107.21萬元的利潤。就在贏利的前夕,2004年11月,投資訊飛2年半的英特爾轉讓訊飛股權。英特爾放棄了,但劉慶峰有信心,他和導師王仁華“到處借錢買下了這些股權”。“其實我并不在乎多那點股權,而且當時籌錢對我是一個巨大的負擔。但為了大家的信心,我覺得非這樣不可。”在當時的投資環境下,每一個機構投資人在董事會里都有一個席位,開會時,曾有投資人提議訊飛應該轉變方向以盡快實現贏利。外界甚至有人說,“劉慶峰只知道蒙錢,蒙到了錢他那幫兄弟就瞎花,什么都做不起來”,另一方面也有人建議訊飛轉型做房地產,或者用安徽省“知名品牌”的身份去做資本運作。
“但我說,訊飛只做訊飛該做到的事情。那就是中文語音產業的領導者和拓荒者”。訊飛剛創業時對經營業績的預期“顯然是過于樂觀了,對教育和引導新興市場所需要的時間和困難估計不足”,劉慶峰去和市領導、高新區領導一個個開誠布公地談,提出訊飛必須腳踏實地地做,結果“大家都很理解,但大家也都很失望。”聯想投資當時也發揮了產業投資者的積極作用,支持訊飛堅持智能語音的方向。實際上訊飛從成立一開始就有收入,而且年年增長,但“早期對技術、研發的投入所占比重相對較大。因此收入無法覆蓋成本。大的方向沒有問題,只是贏利延遲了。”聯想投資董事總經理王能光對訊飛當時的處境非常理解。
劉慶峰在尋找突破口,結果2004年、2005年間,華為的一次公開競標成了訊飛的轉折點。當時參加競標的除了訊飛,還有IBM,Scan Soft以及Nuance。在投標開始后,幾家海外巨頭引領價格一直不斷往下降。但到了一定程度后,訊飛不降了。“華為是龍頭型企業,如果給他們的價格降下來了,我們的價格就不可能上調了,整個產業都將入不敷出。”劉慶峰公開坦言。最后,華為選擇了技高一籌且以誠待人的訊飛。
技術領先和專注經營是劉慶峰最終贏得市場的基點。“如果微軟只是在做語音,那是最可怕的;如果有3家巨頭在做,但都是產業方向的一部分,就不可怕了;如果除了這些巨頭還有幾十家在做,那么就一點也不可怕了。”劉慶峰覺得自己贏在用一個拳頭和這些機構的一個指頭在競爭。對劉慶峰而言,“語音是唯一的方向”。此后,訊飛囊括了國際上所有語音軟件賽事的冠軍,開始在市場份額上占據超過半數的主導權,更保持高速增長的贏利能力,2005年到2007年間,其電信領域語音合成平臺產品銷售收入年均增長135%。2008年,科大訊飛在深圳證券交易所上市。
“胸懷”是創業者的未來
拿到上市批文的第二天,劉慶峰把企業的核心人員招在一起開會。“上市并不是終點,訊飛離1999年設定的目標(目標是銷售百億,當時只有四十分之一)都還差著一大截。”而他對始終支持訊飛成長的聯想投資也說了兩句話,“實在抱歉,以前的估值高了一點。你們放心,再過三五年,訊飛完全有希望是聯想投資各項目中收益率最高的”。
劉慶峰的表白是有依據的。
根據縣級氣象部門的業務需求,系統需要實現以下四個基本任務:一是要實現應用平臺集成化,需要將現有各種業務系統、預警方式無縫集成到本系統中。二是要實現氣象監測實時化,在最短的時間內獲取轄區內各類氣象要素的實時數據,區域站數據每10分鐘更新一次,自動站數據每1小時更新一次。三是要實現預報服務便捷化,就是能夠方便快捷地獲取省、市各級的指導預報,并對本地各類預報服務材料進行統一管理。四是要進一步提高災害性天氣的預警能力,能夠將預報預警等服務產品自動轉換成語音文件,通過短信、96121、DAB、電話主叫等方式及時給指定區域的預警服務人員,增強對外預警能力。整個系統包括前臺可視化業務平臺部分和后臺自動化數據采集部分。前臺可視化業務平臺部分包含現有業務平臺集成、實況數據查詢、指導產品查詢、預報服務產品制作、預警信息等多個功能。后臺自動化數據采集包含實況數據的采集入庫、指導預報產品采集和數據的簡單維護。從而實現多個業務平臺的集成、區域自動站資料實況監視與查詢、服務產品制作及預警信息的,即建立了一個集數據采集、存儲、開發、管理、分析和信息等系統功能于一體的縣級綜合信息平臺。系統功能豐富、數據量大,需要一個龐大的數據基礎,針對縣級臺站軟硬件資源相對較弱的特點,系統采用分布式數據結構,即將數據庫設置在不同的服務器中。公用數據調用市局數據庫數據,如區域站實況數據,系統通過2M內網專線調取數據。其他數據則存放在臺站本地的數據庫,既整合了資源,提高了數據利用率,又有效地解決了縣級臺站資源不足,技術保障能力較弱的問題。根據數據內容的不同,數據的存放形式也有所區別,對于區域站數據、災情信息數據、人員信息數據等以SQL數據庫的形式保存,而對于預報預警等服務產品則以TXT、WORD等文本形式保存。數據采集程序自動采集實時數據存放到相應的數據庫,業務平臺根據需要調取數據信息,并且對部分數據進行修改、刪除等操作。
2系統主要功能模塊的具體實現
系統在VisualStudio2008平臺中采用C#語言開發,系統數據庫使用的是SQLServer2008數據庫。根據系統的功能需求,設計了業務平臺、實況資料、指導產品、預報制作、服務對象管理、預警信息、災情信息檢索、氣象災害防御等8大模塊23個子模塊,以菜單形式分布在平臺主界面上。
2.1實況查詢模塊設計
實況查詢模塊主要功能是查詢自動站和區域站的實時觀測數據,包括表格方式查詢和圖形方式查詢兩個子模塊。本模塊融合了GIS技術、信息技術、數據挖掘技術、OLAP技術、分布式存儲計算技術、Internet技術、網絡傳輸技術、WebService技術、信息流模型技術等一系列先進技術,為推動氣象部門全方位信息化而提供的整體應用系統和全程解決方案。表格查詢模塊利用2個comboBox控件獲取查詢區域和查詢要素,2個dateTimePicker控件獲取查詢的起止時間,使用訪問組件遠程連接市局區域站數據庫,執行SQL查詢命令,查詢滿足條件的數據記錄,按照程序設定的格式,填充到dataGridView表格控件中。為了便于用戶操作,程序提供了多個篩選條件,用于查詢指定級別的要素數據,并設置了快捷查詢按鈕。同時模塊中還增加了數據導出功能,能夠將查詢結果導出到word文檔,使用戶能夠方便快速地制作氣象服務產品。實況數據圖形方式查詢模塊采用C#+SQL2005+MapInfo2005應用開發模式,在.NET框架下開發組件式GIS,遵循氣象數據信息采集氣象數據處理數據處理建立氣象數據GIS空間分析地圖形式顯示的流程來實現。根據氣象自動站所采集到的數據經過質量控制以及分析處理后,建立氣象數據倉庫,利用C#開發工具與Mapinfo控件提供的各類數據接口,用SQL命令從基礎氣象數據倉庫中查詢出經過篩選的滿足空間數據條件的結果,其中包括區域選擇、經緯度、要素選擇時間段和雨量或者溫度等級篩選條件等,從而獲取到創建地理信息管理系統所需要的數據,然后建立相應的空間數據集;利用MapControl控件加載圖形信息,首先加載湖南的shape地圖庫,然后利用GIS地理信息系統,把各個氣象要素結果作為一個個layer分層疊加在地理信息系統圖上,用圖形的方式顯示查詢各個氣象站點的實時數據。這樣,就實現了用圖形的方式顯示查詢的各個氣象站點實時數據。在某種程度上可以說,把氣象數據作為一個圖層導入GIS系統,就可以輕而易舉地建立基于對該類氣象數據進行分析處理的氣象業務系統。
2.2服務對象管理模塊設計
服務對象管理模塊用于對預報預警服務對象的信息進行添加、刪除、修改和電話號碼導出等管理。系統開發初期,采集了轄區內各鄉鎮(含村組)、水庫、學校等部門負責人姓名、電話、工作單位、所在鄉鎮等聯系信息,輸入到本地服務器中新建的服務對象信息庫,利用SQL查詢命令查詢指定鄉鎮、指定部門的負責人聯系信息。隨后建立filestream文件對象,并指定字符編碼方式,就能夠將查詢的電話號碼導出到TXT文件中,便于利用各種方式對不同鄉鎮、工作單位的人員與之相應的預警信息。
2.3預警信息模塊設計
預警信息模塊包含系統集成和語音合成兩大部分4個子模塊,系統集成部分就是將現有的短信平臺、DAB平臺、電話主叫平臺等信息系統集成到本平臺中,用戶點擊菜單選項就可以直接打開相應的信息平臺。語音合成模塊是利用TTS語音合成技術將預警信息轉換為音頻文件,用于電話主叫服務。TTS技術本身原理十分復雜,但是微軟的Mi-crosoftSpeechSDK5.1開發包提供了TTS語音引擎接口,這些SDK主要包括語音應用程序編程接口SAPI和微軟語音識別引擎及微軟語音合成引擎;可以通過編程語言靈活將其中的“類”應用到編制的程序中。SAPI的TTS都是通過SpVoice對象來完成的。SpVoice類是支持語音合成(TTS)的核心類,通過SpVoice對象調用TTS引擎,然后按SpVoice的Speak()方法中指定的兩參數Text和Flages方式進行朗讀,最后只將語音輸出到一個音頻文件,這樣就完成了文本文件到音頻文件的轉換。
2.4災情檢索模塊設計
災情信息檢索模塊包括歷史災情資料檢索和災情資料入庫2個子模塊,系統設計建立了災情信息數據庫,將全市歷史災情普查數據導入數據庫中,災情檢索子模塊根據指定的年份和災情種類,查詢滿足條件的災情信息。災情資料入庫子模塊用于輸入災情發生的時間、地點、種類、天氣實況、災情損失等信息,將災情信息添加到數據庫中。系統提供了兩種入庫方式,一是將災情普查數據EXCEL文件批量導入數據庫,需要創建一個DataSet對象,先獲取EXCEL的數據導入到DataSet中,再把dataset中的數據庫insert到數據庫;二是手工輸入單條災情信息各項內容,用in-sert命令直接插入數據庫中。
3小結
《財經天下》周刊=EW
胡郁=HY
EW:科大訊飛的業務布局情況現在是怎樣的?
HY:科大訊飛現在的業務布局主要是兩部分:第一是通過人工智能技術和平臺級業務,將語音識別、自然語言處理能力授權給第三方,或者與其他公司合作。目前科大訊飛重點關注的領域是移動互聯網、智能家居、電信運營商智能語音服務、智能車載系統和政府便民工程。我們與第三方合作是通過科大訊飛云平臺實現的,這是我們的語音能力向各個行業輸出的一種方式。通過這個方式,我們很容易發現平臺上面的各種應用的優缺點,我們能夠獲得很多有價值的數據。第二,科大訊飛正在將自己的技術與產業結合,目前我們在教育行業做得還不錯。我們現在還有一個“訊飛超腦”的項目,這是科大訊飛面向人工智能領域開展的重大技術攻關項目,目標是幫助科大訊飛從機器“能聽會說”到“能理解會預測”。
EW:創業初期遇到過哪些突出的問題?
HY:我們是1999年底成立的,到2004年才實現盈虧平衡,在這期間確實遇到了很多問題。主要是兩個方面:首先,那時候技術并不成熟。在2000年的時候,國內有很多語音技術創業公司,科大訊飛是唯一一家生存下來并且發展壯大的,因為我們當時選擇的路徑還算成功,語音合成在當時是相對成熟點的技術,雖然讓機器說話也說不太好。那些選擇做語音識別的公司,很多沒有成功,就是因為當時這個技術太不成熟。
另外,在中國做生意,比較容易成功的商人,可能是比較懂人際關系的,有一定市場經驗的,但我們那時候都是一群學生出來創業,包括董事長劉慶峰,1998年還在讀博士,1999年出來,對商業模式、公司管理等方面沒有什么概念,經歷了很長的一段摸索期。
在中國,做產品和市場的人,比做技術的人更容易成功,這是一個普遍規律。在中國做技術,很多都是在國家體制內,像研究院這樣的地方或者國營企業;如果要民營的話,那么在中國的環境下尋找到合適的商業模式并且做大其實是很難的一件事情,所以中國民營的科技創新公司不多。
EW:發展到現在,經歷過哪些關鍵時刻?
HY:我覺得有這樣幾個關鍵時刻:第一個是在2000年的時候,我們第一次能夠把我們的語音合成技術賣給大客戶,就是華為。那時我們的軟件還很不穩定,經常崩潰,華為的團隊說我們把他們當成測試員了。然后我們的創始人團隊,三天三夜沒睡覺,把軟件做穩定了,就是為了能夠通過華為的測試。
第二個關鍵時刻是,我們在2004年實現了盈虧平衡。當時我們找到了一種可行的商業模式――為一些大的客戶提供服務,比如說呼叫中心、銀行、電信等,賺到了一些錢。而同時期的很多同樣的公司要么沒活下來,要么就發展得很小。
第三個關鍵時刻就是我們2008年上市,這標志著我們在資本市場上開始有一個很好的渠道,我們可以更快地發展。
還有一個關鍵時刻就是,在2009年的時候,我們注意到,移動互聯網來得很快,手機輸入這塊將會有需求,我們就做了一個訊飛語音輸入法,現在是國內第二大輸入法,第一是搜狗。另外,我們做了一個語音云開放平臺,現在已有16萬開發者連接到我們平臺上,連接的設備超過了8個億。這兩者讓我們在移動互聯網時代能夠占據一席之地,也讓我們在消費者業務層面有了很大的一個突破。
最后一個關鍵時刻就是,我們在2009年的時候,開始在教育業務上有了突破。我們做到了可以用機器評價學生發音的準確程度,還可以評價英語口語的表達水平。另外,我們可以讓機器識別出手寫的卷子,實現自動批改。我們現在要攻克的是提高機器的理解能力,讓機器人能夠參加高考。目前機器人參加高考勉強能及格,我們原來的計劃是10年內讓機器考上一本,現在改成3年內考上一本。人和機器其實是相反的:人0到6歲學常識,這對人是比較容易的,人培養理解能力很容易,但是學習知識很難;而機器能夠裝下很多知識,但是它不懂常識,所以有人說機器達到了6歲小孩的水平,那是用人的成長階段去衡量,其實是錯的。
EW:為什么科大訊飛會選擇教育這個領域?
HY:一方面,就是我們想為國家做點貢獻,我們的技術能夠幫助教育行業更先進;另一方面,就是我們覺得教育有比較廣闊的商業前景。我們有的是政府采購給學校,也有直接賣給家長和學生的產品。我們是希望能夠成為國內教育方面的人工智能的最大參與者。
我們進入教育行業,首先是從普通話水平測試開始,然后是英語口語水平測試,后來我們進入英語教學的課堂,提供一些智能設備和軟件,然后我們又參與了考試,實現自動批改。學校里面會有很多智能化的系統,我們把這些東西綜合起來,提供一個整體的方案。現在我們是國內教育領域用人工智能提供整體解決方案的最大廠商。
EW:這些年來,科大訊飛有哪些事情是具有開拓性意義的?
HY:第一個我覺得是把語音合成能夠做到實用化,這是公司成立的基石;第二就是把語音識別做到了可用化――我們不是最早做語音識別的,但我們是把技術做得最成熟的;第三個就是我們將語音測評帶進學校,開創了一個新局面,這是我們商業模式上的創新,我們現在還在努力尋找其他新的商業模式。
EW:相較時下眾多創業企業,你認為科大訊飛最為顯著的特色是什么?它和別的互聯網技術公司有什么差別? 對于創業17年來公司營收仍主要依靠政府補貼這一頗受爭議的商業模式,科大訊飛輪值總裁胡郁直言,這與以技術為核心的中國初創企業的特殊性有關,如果早期沒有政府扶持,這類企業將難于生存。
HY:科大訊飛本質上是一個科技創新型公司,科技創新型公司的標準,不是看它賺了多少錢,而是看它的技術是不是世界上最先進的。我們最突出的特點是,我們一直在做核心技術創新和原始創新,不是在別的技術基礎上進行微創新,而是在做核心技術的突破性創新。
我覺得我們和別的互聯網技術公司最大的差別是,我們比較沉得住氣,方向很明確。很多公司什么方向熱就做什么,比較浮躁,我們相對來說比較執著于自己原來確定的方向。
很多人對我們的評價是,做了十分才說七分。這是優點也是缺點:優點是大家對我們的印象是比較扎實的,缺點是影響力方面可能宣傳不夠。
EW:有人說你們在風格上更像一家硅谷公司。你認同這種觀點嗎?
HY:硅谷技術創新型公司的最大特點是,它不僅僅技術領先于全球,它的商業模式也是領先于全球的,而且美國公司有個很重要的特點,它們是全球化的公司。中國雖然現在有很多互聯網企業,但在全球化方面還是不夠。科大訊飛現在在語音技術方面,無論是合成還是識別,都能夠在中文領域做到最先進,但我們也有需要突破的地方。很多人覺得我們低調,其實我覺得有一個原因是,我們的商業模式不能夠跟當前世界上最主流的商業模式吻合,所以這也是科大訊飛面臨的最大的挑戰。
EW:能否在商業模式上稍作展開?
HY:我們原來的商業模式是To B的,就是售賣技術,用技術跟別人合作。現在我們的目標是,用技術引起一個產業的突破,從而建造新的產業生態系統。我們現在探索的新的商業模式是,更靠近消費者,就是要著重To C。這不一定得直接面對消費者,我們可以用更靠近消費者的業務來達到這個目標,比如我們和汽車廠商合作,汽車內的語音業務就是直接面對消費者的。
EW:國內語音市場這些年在你看來有哪些重要變化?
HY:2000年以前,語音并不被大家關注,那時還沒有什么大的語音公司,主要是國外一些大企業像摩托羅拉、IBM等在中國做研究。那么在2000年到2010年之間,以科大訊飛為代表的國內公司逐步把語音合成和語音識別市場搶了回來,現在來看,外國公司在中國的語音業務已經很少了。
近幾年有兩個新的變化:一個是以BAT為代表的互聯網公司已開始進入語音市場,并且投入了很大力量。但他們做語音是為自己的生態服務的,并不是想從這上面賺錢,實際上也賺不到什么錢。現在專業做語音的最大的公司應該是科大訊飛。另外一個就是,很多小的創業公司也開始進入這個市場,但做得都不是太好,技術很重要。
EW:巨頭的進入會給你們帶來壓力嗎?
HY:當然。壓力不是來自于技術,我們的技術是最先進的,壓力來自于商業模式。這個沒辦法去模仿哪家公司,都要靠自己慢慢去摸索。一個公司如果想要長期保持領先,不僅僅是技術能力,商業模式上一定要走出自己的道路并建立起自己的生態。
我們原來做的是To B ,現在To B 的公司很多,如果想要成為一個生態的話,只有這個肯定不夠。我們一定要讓生態里有C端用戶,這就會有很多變現方式,只要我們提供的服務是用戶需要的,并且是高質量的,我們就可以從用戶手里賺到錢。
現在我們還是免費的服務,我們通過這種方式收集用戶數據,根據這些數據來優化產品,當產品體驗足夠好時,用戶會愿意付費。當然我們也可以有其他收費方式,提供給用戶的產品可以是全程免費的,在用戶和我們的機器交互時,機器會記住用戶的喜好和需求,這時智能終端可以給用戶推薦產品,我們可以向產品提供商收取費用,類似于廣告費。當然,交互是最重要的,將來在車上、電視上、音箱上甚至玩具上都能夠實現人機交互。我們現在的語音合成技術已經很成熟了,機器可以發出明星的聲音,我們要不斷增加語音交互中的用戶體驗。
EW:語音市場的競爭還不算太激烈吧?
HY:在發展的過程中,如果大家朝著一個方向的話,自然而然就會有競爭。但是現在的問題在于,我們并不知道將來的物聯網時代會發展成什么樣,誰也沒有一個準確的方向。在一個新的時代里,觀察過程會有三個階段:第一階段是混沌期,就是大家都不知道將來會發生什么;第二階段叫形成期,就是大家已經有方向、有規劃地發展了;第三階段叫決勝期,就是各家開始激烈競爭賽跑,像滴滴和快的當時一樣。語音市場現在處于混沌期到形成期的過渡階段,大家都不知道怎么干,還在互相觀望,互相挖點技術人才,摸索摸索方向。
EW:科大訊飛會是第一個找到方向的嗎?
HY:我們一定是,但是做出來怎么樣,還不知道,謀事在人,成事在天。我們現在的方向是,軟硬一體化、云端一體化、技術服務一體化,我們不能做一個純技術的公司,要把技術和內容和服務結合。比如說語音合成,我們就一定要和明星名人資源結合,我們現在可以達到讓羅振宇給你讀文章的水平。 語言是柄雙刃劍,在擋住外國產品進入中國的同時,自己的產品進入其他國家也很難。胡郁介紹稱,科大訊飛英語產品做得還不錯,但西班牙語、法語、德語等其他語言產品還不行。
EW:科大訊飛得到過一些負面評價嗎?
HY:訊飛的體量在去年的時候只有二十多億,今年也就四五十個億。現在市盈率已達到150倍。我們的市盈率不太穩定,因為大家看好一個東西,但這個東西一直沒出來,所以就會不穩定。很多人說我們都在靠政府補貼,其實是這樣,一個以技術為核心的公司,在中國如果不依賴政府,肯定成長不起來,但過度依賴政府,將來的空間會少一點。我們一開始的確就是依賴政府補貼,否則一下子進入市場,是養活不了自己的,只有在跨過一定的技術門檻后,我們才能靠市場養活自己。我們現在已經在找更合適的商業模式,以減少對政府的依賴。我們現在看到很多人工智能公司,他們已經找到了賺錢的方法,但這對我們來說仍然是個挑戰。
EW:其實現在很多人在懷疑你們的盈利能力。
HY:這種懷疑是對的,我們雖然說在很多測評上面取得了不錯的成績,但是并沒有達到讓大家信服的程度。事情還沒成之前,你說你是英雄,誰信?武松打虎,得把老虎打死了,結果出來了,大家才把他看成英雄,現在我說我能打死老虎,誰信呢?我們現在就是在努力證明自己。
EW:相較北上廣深,合肥的商業環境是不是差了一點?為什么一直留在合肥?
HY:坦白講,合肥這個地方很適合做研究,但商業氛圍和商業創新環境確實和北上廣深杭相比是有巨大差距的。但我們還是一直留在合肥,如果我們不是在合肥,我們的人早已經被挖了七八遍了,在我們這邊拿50萬年薪的人,騰訊可以給150萬。我們為什么能在核心技術上持續深入,并且取得領先世界的水平,就是因為在合肥能夠真正靜下心來做研究。在北京給他100萬的薪水,馬上就會有人拿200萬來挖,工作一有變動,研究就會停滯下來。北上廣太浮躁了,這些地方房價那么高,讓人怎么安心做研究?我們現在在京津冀,上海廣州深圳杭州都有分部,但我覺得做研究的人,還是來合肥好,一線城市安不下心來。
EW:如果你們工資比其他公司低的話,用什么來吸引人才?
HY:追求。世界上還是有一批有追求的人,就是在中國用人工智能改變世界。
EW:資本對于你們是一個什么作用?
HY:我覺得一個公司一定要借助資本的力量,資本是最重要的。我們不能只靠追求來生活,我們要給這些做出巨大成績和貢獻的人體面的生活。有了資本,我才能真正吸引到優秀的人,解決他們的后顧之憂,他們想要去旅游的時候就能夠去世界上任何一個國家去旅游,我們要給他們與能力匹配的薪資。
EW:除了受到資本的青睞外,你們自己也有投資。你們在投資上的構想是怎樣的?
HY:戰略投資是圍繞著我們的戰略布局來投。我們現在有三大戰略板塊,教育、智慧城市,還有消費者業務。
EW:科大訊飛的生態能描述一下嗎?
HY:我們現在首先要在教育這個方向做成一個核心技術支撐的開放平臺,大家有什么內容都可以放上來,可以對接到學校;在智慧城市方面,我們希望能夠通過大數據和人工智能,為交通、社會信息化管理、醫療等提供智能服務;最后在消費者業務上,我們要建立生態入口,讓用戶用語音的方式與機器進行交互,讓機器越來越了解用戶的需要。
EW:現在每年研發投入有多大?
HY:收入的25%。主要用于幾個方面,核心技術、云計算和各個領域應用的開發。我們現在還有很多需要突破的,像核心技術現在其實還沒有達到我們想要的水準,我們還要持續努力,因為技術爆炸是一個持續的過程,不是說一瞬間的,而是在一點點改進中獲得的。
EW:作為科大訊飛重點攻堅的領域,目前人工智能在你看來處于什么階段?
HY:現在業界談人工智能分成三個階段,計算智能、感知智能和認知智能。人工智能目前處于感知階段。人在計算智能上比機器人差,感知智能上好一點,認知智能上會更好,所以說,我們現在的切入點叫語音和語言為入口的認知革命。人類最早成為世界的統治者是因為人類發生了認知革命而不是農業革命。機器人也需要認知革命,機器人認知革命的第一i就是先理解語言,我們現在的使命是要讓機器能聽會說,能理解會思考。接下來我們把這個技術跟很多行業,如醫療、衛生、法律等結合起來。
EW:人工智能為什么這兩年這么火?過幾年它還會這么熱嗎?
HY:人工智能能火起來,主要是因為核心算法、數據量和應用模式三個方面成熟了,因此它在技術上可以大規模應用于產業。科大訊飛在核心技術方面還比較有優勢,在數據的收集上,現在的“訊飛語音云”用戶超過8億,開放云平臺的應用項目8萬多個,我們正在嘗試各個場景的應用。人工智能過幾年是不是還能這么火還很難說,現在大數據已經不那么熱了,就是大家接受了這個概念以后就沒人天天喊了。
EW:現在你們的挑戰主要來自哪些方面?
HY:一個就是核心技術還需要時間來突破;另一個就是我們要尋找到合適的商業模式;第三就是我們需要很多綜合性人才,不僅僅是技術人員,還需要會市場的、懂產品的、懂宣傳的、會做品牌傳播的人。坦白講,我們原來是一個To B的公司,在品牌宣傳方面沒什么經驗,現在需要更多這樣的人。
EW:在產品出口方面,有沒有遇到一些問題?
HY:問題很大。我們的產品在國際上還沒有產生什么效益。我們最大的問題是,語言是個雙刃劍,我們可以擋住外國產品進入中國,但是我們進入別的國家也很難。我們現在英語做得不錯,但在西班牙語、法語、德語等其他語言國家,我們就不行。
【關鍵詞】單片機;語音信息;語音信號
0.引言
隨著數字化信息處理、合成技術和大規模集成電路的不斷進步,各種語音合成芯片應用不斷擴大。在其控制之中大多都是采用PC機或微控制器的方法,這種方法的控制手段不但需要硬件的支持,同時也需要對軟件系統和各種指令進行嚴肅處理。伴隨著目前社會技術的不斷發展,語音信息采集與處理措施要求不斷增加,在處理之中,是通過將模擬語音信號通過相應軟件和系統轉變形成數字信號,再由單片機控制儲存在存儲器中,形成一套系統的工作流程。
1.芯片介紹
單片機作為一種集成電路芯片,是通過采用各種超大規模的集成電路技術將具有各種數據處理和函數計算能力的中央處理器、隨機處理器以及定時器等終端系統和功能集成到一個完整的硅片之中形成一個完善而又系統化的微型計算機系統措施,這種電路芯片在目前被廣泛的應用在各種工業生產和控制領域之中。伴隨著社會的進步,單片機呈現出其頑強的生命力,以高速發展的優勢迅速的應用在各個信息處理之中。
1.1 ISD4OO4芯片介紹
ISD公司多電位直接模擬量存儲的專利技術是目前單片機的主要制造技術措施,在單片機的制造中成功的將模擬語音數據寫入芯片之中的存儲單元,不需要進行其他轉換便可形成自然而又清晰的語音信號。ISD4OO4語音芯片采用C14OS技術,通過在內部裝置韓警惕的振蕩器和防混疊過濾器等方式來擴大存儲器容量,增加計算效率和準確度,因此只需要很少的器件就可以在其中構成一套完整的聲音錄入系統和回放體系,這在系統設計中不但能夠節約設計消耗時間,同時能夠避免設計中其他元件的增多。
在目前ISD公司的單片機構成中主要是通過信號輸入系統、信號輸出部分、存儲系統、采樣時鐘部分和SPI部分六部分構成。其在構成中信號輸入部分—音頻信號放大器和五極點抗混疊濾波器:而信號輸出部分在控制的過程中是通過平滑過濾器和自動靜噪處理器來實現的。存儲部—非易失性多電平模擬存儲陣列;采樣時鐘部分一內部時鐘振蕩器和調節器:SPI—錄、放、快進等操作的SPI接口;電源接口部分。
1.2 AT89C52芯片介紹
AT89C52芯片是一種低功耗、高性能的片內含有8KB快閃可編程/擦除只讀存儲器的8位CMOS微控制器,使用高密度、非易失存儲技術制造,并且與8OC31引腳和指令系統完全兼容。芯片上的FPEROM允許在線編程或采用通用的非易失存儲編程器對程序存儲器重復編程。
2.系統方案設計
ISD器件在錄音存儲操作之前,要對信號作調整。首先將輸入信號放大到存儲電路動態范圍要求的最佳電平,這主要由內部放大器來完成。放大后的信號進入五級抗混疊濾波器進行調整。模擬信號的存儲采用采樣技術,利用抗混疊濾波器可以去掉采樣頻率I/2以上的輸入頻率分量,使所有采樣數據都滿足奈奎斯特定理,濾波器是一個連接時間五極點的低通濾波器。錄音時,輸入信號通過模擬收發器寫入模擬多電平存儲陣列中。將采樣信號經過電平移位生成非易失性寫入過程所需要的電壓。采樣時鐘同時用于存儲陣列的地址譯碼,以便將采樣信號順序地寫入存儲陣列中。放音時,錄入的模擬電壓在同一采樣時鐘的控制下順序地從存儲陣列中讀出,重構原來的采樣波形,輸出通路上的平滑濾波器去掉采樣頻率分量,并恢復原始波形,ISD器件的采樣頻率通過內部溫度補償的基準振蕩器來控制,這個振蕩器不需要外接元件,采樣頻率取自內部振蕩電路之后的一組分頻器。平滑濾波后的信號經過自動靜噪處理傳送入放大器作為輸出音頻功放的輸入信號,推動揚聲器。
2.1語音輸出電路
LW386是一種集成音頻功放,同時其中具有著自身功能消耗低,電壓的增長穩定,對電源電壓的控制范圍較為合理,單片機在應用的時候失真效率和要求較低。盡管LM386的應用非常簡單,但稍不注意,特別是器件上電、斷電瞬間,甚至工作穩定后,一些操作(如插拔音頻插頭、旋音量調節鈕)都會帶來的瞬態沖擊,在輸出喇叭上會產生噪聲。
2.2錄音電路
ISD器件采用錄音時間為8分鐘的ISD4OO4-8器件,以單片機AT89C52為微控制器,外接語音段錄放控制鍵盤和LED顯示器,外部存儲器24CO2用于保存各語音段首地址及總語音段數,為了改善語音量,要提高輸入端信噪比,因此在ISD語音輸入端采用放大電路單端輸入。
2.3放音電路
本系統可以主要分為三部分:單片機的控制部分、放音部分和顯示部分。本文的控制部分主要由單片機89C52構成,包含必要的按鍵電路、復位電路和看門狗電路等電路,放音部分主要由ISD4OO4構成。
3.軟件設計
3.1 SPI口設計思想
模擬元件正常連接后,對芯片內部信息進行分段管理的操作。從上面的分析可知,只要給語音芯片的MOSI引腳輸入8位控制命令就可使ISD芯片從當前地址執行相應的錄放操作;同樣使用8位的讀指令,就能在串行輸出MISO弓{腳獲得VOF和EOM信息。在時鐘輸入SCLK弓{腳端輸入8個串行時鐘就能保證5位指令的輸入和芯片內部8位信息的輸出。但是,MOSI、MISO、SCLK、SS的各引腳,必須滿足SP的時序關系。
3.2上電順序
程序工作思想電路上電后,程序首先完成程序的初始化,隨后查詢按鍵狀態,進入系統待機狀態。如果有按鍵按下,則轉去執行按鍵指向的工作程序。按鍵包括放音鍵,程序將首先判斷是去還是回,并點亮相應的指示燈。自動讀出第一段的放音內容。如果不是首次按下,程序則首先判斷當前位置,并以該位置為依據獲得存放該站放音內容的首地址。調用放音子程序,讀入前面獲得的本次放音內容首地址,開始放音。
4.結束語
在傳統的語音錄敖過程中,語音信號要經過設備豹接受后再轉化為模擬電信號,遙過前置放大器把語音信號放大,通過帶通濾波之后。去掉多余的干擾,再經過A/D轉換為數字信號,控制器對其進行處理和存儲。之后再由D/A轉換為模擬信號,達到放音的目的。使用這種方法既復雜又容易使聲音失真。所以,本文介紹了一種單片語音處理芯片ISD4OO4。通過對ISD4OO4語音芯片的簡單介紹,熟悉了ISD4OO4的基本應用。通過對基于單片機控制系統的設計實現了語音的錄入和播放。并闡述了系統工作各部件的性能特性,基于微處理系統的設計實現了錄音和放音。此系統設計靈活,成本低,語音器件抗干擾性強,應用效果良好。 [科]
【參考文獻】