真人一对一直播,chinese极品人妻videos,青草社区,亚洲影院丰满少妇中文字幕无码

0
首頁 精品范文 語音識別系統

語音識別系統

時間:2022-11-03 15:43:12

開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇語音識別系統,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。

語音識別系統

第1篇

[摘要]各個部門和領域對語音識別系統的需求不同,使得語音識別系統的特性和指標表現出的差異性非常大,所以語音識別系統要依據特定的指標和需求進行相關的設計。本文就語音識別系統相關的技術進行了分析,供大家借鑒與參考。

[關鍵詞]語音識別系統;差異性;指標需求

一、引言

語音作為語言的聲學體現,也是人類進行信息交流最自然、和諧的手段。與機械設各進行語音的溝通,讓機器可以明白人類在說什么,并理解這是人類長期的夢想。語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加復雜的應用,語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。

二、語音信號分析與特征提取

1.基于發音模型的語音特征。(1)發音系統及其模型表征。其發聲過程就是由肺部進行收縮,并進行壓縮氣流由支氣管通過聲道和聲門引起的音頻振蕩所發生的。氣流通過聲門時使得聲帶的張力剛好使聲帶發生比較低的頻率的振蕩,從而形成準周期性的空氣脈沖,空氣脈沖激勵聲道便會產生一些濁音;聲道的某處面積比較小,氣流沖過時便會產生湍流,會得到一種相似噪聲的激勵,對應的則是摩擦音;聲道完全閉合并建立起相應的氣壓,突然進行釋放就是爆破音。(2)語音信號線性預測倒譜系數。被廣泛應用的特征參數提取技術的就是線性預測分析技術,很多成功的應用系統都是選用基于線性預測技術進而提取的LPC倒譜系數作為應用系統的特征。LPC倒譜就是復倒譜。復倒譜就是信號通過z進行變換以后再取其對數,求反z變換所得到的譜。線性預測分析方法其實就是一種譜的估計方法,所以其聲道模型系統函數H(z)反映的就是聲道頻率激勵和信號的譜包絡,對IHg(z)作反z變換就可以得出其復倒譜系數。改復倒譜系數是依據線性預測模型直接獲得的,而又被稱為LPC倒譜系數(LPCC)。

2.基于聽覺模型的語音特征。(1)聽覺系統模型。一是人類的聽覺系統對于聲音頻率高低和聲波實際的頻率高低不是線性的關系,它對不同聲音頻率信號的敏感度是不一樣的,也可看成是對數關系。二是關于掩蔽效應指的就是聲音A感知的閉值因為另外的身影的出現出現增大的現象。其生理依據主要是頻率群,對頻率群進行劃分會出現許多的很小的部分,每一個部分都會對應一個頻率群,掩蔽效應就發生在這些部分過程中。所以在進行相應的聲學測量時,頻率刻度一般取非線性刻度。語音識別方面,主要的非線性頻率刻度有Mel刻度、對數刻度和Kon~nig刻度。其中Mel刻度被廣泛的應用,其是最合理的頻率刻度。(2)語音信號Mcl頻率倒譜系數。Mel頻率倒譜系數利用人們耳朵的聽覺特性,在頻域將頻率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數。MFCC參數的計算過程:

一是對語音信號進行相應的預加重,從而確定了每一幀的語音采樣的長度,語音信號通過離散FFT變換得到其頻譜。二是求頻譜幅度的平方,得到能量譜,并選用一組三角濾波器在頻譜域對能量進行帶通濾波。帶通濾波器中心頻率一般是按照Mcl頻率刻度排列的(間隔為150Mel,帶寬為300Mel),其每個三角形濾波器的兩個底點頻率和相鄰的兩個濾波器的中心頻率相等,頻率響應之和為l。濾波器的個數一般和臨界帶數比較相近,設濾波器數是M,濾波后得到的輸出為:X(k),k=1,2,…,M。

3.語音的端點檢測。語音的端點檢測就是對語音的起點和終點的確認,由于漢語語音的聲母是清聲母,有著送氣和不送氣的塞音,和環境噪聲接近比較進行分辨。語音信號有短時穩定性的特性,可選用平穩過程的分析方法進行相應的處理,對語音端點檢測進行分幀的處理,再依次對每一幀是否正確進行處理。每一幀的幀長如果比較大,計算量比較小的,可進行端點檢測就比較快,但其誤差會相應的增加。

語音識別技術發展到今天,對特定人語音識別系統的識別精度就更高。調查統計表明多達85%以上的人對語音識別的信息查詢服務系統的性能表示滿意。可以預測在近五到十年內,語音識別系統的應用將更加廣泛。各種各樣的語音識別系統產品將出現在市場上。人們也將調整自己的說話方式以適應各種各樣的識別系統。在短期內還不可能造出具有和人相比擬的語音識別系統,要建成這樣一個系統仍是人類面臨的一個大的挑戰。

第2篇

關鍵詞:SAPI;C#;.NET;語音識別

1 引言

語音識別是信息處理領域的一個重要方向,語音識別通常又可以分為兩種工作方式:一種是連續語音聽寫,這種方式需要語音識別引擎對語音聽寫過程中上下文以及相同相似發音的詞語進行分析、做出判斷,實現難度較大。另一種是命令與控制方式(command and control),在此種方式下,語音識別引擎可以通過對簡短的命令語音進行識別,以便執行相應操作。

語音識別技術基礎是非常復雜的。正是如此,它獲得了世界上著名的公司與研究機構的青睞,語音識別技術正經歷著日新月異的改變,其中一些產品已經取得較好的效果,用戶可以在上述產品基礎之上進行二次開發。

2開發圖片語音識別系統的條件

語音識別技術的發展涉及人機交互,自然語言處理,人工智能。這使開發人員難以從底層進行應用開發,欣慰的是一些公司與研究機構已經推出他們的研究成果,并且提供了供開發人員使用的開發平臺與接口。其中影響比較大的有微軟的SAPI、劍橋大學的HTK,IBM的via voice開發平臺。本文采用微軟的Speech SDK5.1開發包,它不僅是一個免費的開發包,同時提供對中文的支持。

2.1微軟SAPI簡介

微軟的 Speech SDK是基于 C O M 的視窗操作系統開發工具包。這個 SDK中含有語音應用程序接口( SAPI )、微軟連續語音識別引擎(MCSR)以及串聯語音合成(又稱文本到語音)引擎(TTS)等等。SAPI 中還包括對于低層控制和高度適應性的直接語音管理、訓練向導、事件、 語法、 編譯、資源、語音識別管理以及文本到語音管理,其結構如圖 l 所示。

圖1 SAPI結構

SAPI API在應用程序和語音引擎之間提供一個高級別的接口。SAPI實現了所有必需的對各種語音引擎的實時的控制和管理等低級別的細節。

SAPI引擎的兩個基本類型是文本語音轉換系統(TTS)和語音識別系統。TTS系統使用合成語音合成文本字符串和文件到聲音音頻流。語音識別技術轉換人類的聲音語音流到可讀的文本字符串或者文件。

2.2 在.net應用程序中使用SAPI的準備

安裝SAPI 5.1語音開發包。

由于SAPI基于Windows平臺,通過COM接口供.net平臺調用,所以具體調用方法為:新建工程,在此工程的解決方案中單擊右鍵,在添加/引用中選擇 Microsoft Speech Object Library,并在程序中添加對SAPI命名空間的引用:using SpeechLib。

3 系統模型設計及實現

3.1 創立系統界面

 

圖2 系統界面一覽

3.2  使用SAPI語音識別核心類

ISpRecognizer類是支持語音識別的核心類,主要用于訪問MCSR實現語音識別。在進行語音識別時,微軟Speech SDK 5.1 支持兩種模式的語音識別引擎:共享(Share)和獨享(InProc)。在本系統中,我們使用共享型語音識別引擎,CLSID_SpSharedRecognizer。

SpSharedRecoContext類是語音識別上下文接口,它可以發送與接收消息通知,通過CreateGrammar方法創建語法規則。通過對它的兩個事件:_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重寫,我們可以很輕松的得到當前語音識別結果。第一個事件對應的就是識別結果顯示:1、第二個事件對應的就是識別結果顯示;2、ISpeechRecoGrammar類是語法規則接口,定義語音識別引擎需要是別的語音類容。起語法規則可以分為聽寫型與命令控制型。聽寫型可以識別大詞匯量語音,但是別效率與識別準確率較低。命令控制型有針對性的對特定語音進行識別,在效率與準確率上都非常高。

當然一個ISpRecognizer不管是共享還是獨享,都可以有多個RecoContext與其關聯,而一個RecoContext也可以與多個ISpeechReco  Grammar關聯,每個ISpeechRecoGramma  r識別各自規定的內容。

 

圖3 語音識別類對應關系

3.3  編寫系統核心代碼

通過讀入外部Grammar配置語音識別引擎,外部Grammar文件以xml文件格式存儲。具體形式如下:

ManegePic.xml

玫瑰

大象

獅子

老虎

仙人掌

珠穆朗瑪峰

布達拉宮

貂蟬

十字軍

世界杯

阿里巴巴

乒乓球

五星紅旗

……

采用命令控制型Grammar是為了使語音識別結果準確有效,定義外部Grammar是為了保持以后系統的可擴展性。對于新輸入的圖片,只要將圖片名字加入到 圖片名字

中即可。

開始語音輸入事件:

private void btnStart_Click(object sender, EventArgs e)

{

ssrc = new SpSharedRecoContext();

srg = ssrc.CreateGrammar(1);

srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);

//讀入規則

ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);

//添加識別最終事件 

ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);

//添加識別懷疑事件

srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);

//激活規則 

}

其中識別最終事件是系統在完整處理輸入音頻之后得到的最后識別結果,懷疑事件則是因為系統在處理過程中的最相似識別結果。這兩個事件在一些環境之下得到的識別結果不同。

識別懷疑事件:

private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)

{

  textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);

}

將系統在處理過程中的最相似結果顯示在textBox控件之中。

識別最終事件:

void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)

{

textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);

// 將系統最終結果顯示在textBox控件之中。

try

{

Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;

//顯示識別結果的圖片

}

Catch (Exception e)

{}

}

由于篇幅有限,這里僅僅給出了構建語音識別引擎與圖片顯示部分的代碼。完 整的系統可以在Windows XP + vs2008環境中調試通過,實現基于.net和SAPI的圖片語音識別系統。

4 結語

通過制作圖片語音識別系統,對利用SAPI進行語音識別有了初步的研究和實踐,該系統具有一定的擴展性,也可以作為子系統嵌入到其他系統之中。該系統的功能可以擴展到語音控制文件操作,比如打開/關閉文件,添加文件,可以制作一個不需要鍵盤鼠標只利用語音就可進行操作的軟件系統。

參考文獻:

[1] Microsoft Speech 5.1 SDK Help .Microsoft Corporation

第3篇

以下是來自現場的報道。

市場變化提出新需求

搬遷至新物流中心

神田業務支持公司成立于1974年,當時與長崎屋合資,主要負責服裝配送。該公司在日本最早引進了大型托盤輸送機,曾一時成為業界熱議的話題。2002年,3家分公司合并后統一命名為神田業務支持公司。

公司現任總經理吉林正和先生當時已經進入公司,他回顧公司的發展歷程時說:“30多年來,公司經營的物流業務幾乎都集中在服裝領域,因此積累了豐富的服裝物流經驗。近些年,公司的物流設施及分揀設備等已開始老化,為此建設了新的物流中心。同時,為適應客戶新的需求,我們準備配送服裝以外的貨物,因此決定引進語音識別系統。”

目前,習志野物流中心處理的貨物以服裝為主,同時也負責配送鞋類以及其他日用品,據說已接到約20家客戶的業務委托。物流中心根據客戶訂單的要求進行分揀、貼標簽等操作,然后向全國配送。

服裝類商品主要來自中國大陸及臺灣、越南等地,平均每天發送10萬件左右,需要投入包括物流中心職員和小時工在內的50~60人從事物流作業,并根據業務量進行靈活調整。

適應市場變化

在公司的舊址茜浜,倉庫內的主要設備除了大型托盤輸送機外,還有自動分揀機。如果要繼續使用這些設備,物流中心一層需要擁有2310平方米的面積,并且老化的設備也需要大筆資金進行維修,如此看來實屬浪費。可以說,繼續使用大型設備的外部條件發生了變化。

自動分揀機每小時的處理能力達2000件,這是人工作業望塵莫及的。如果不使用分揀機,根本不可能達到2000件/小時的處理能力,那么其他設備也都會閑置下來,其結果將是物流中心無法應對市場的變化。

神田公司經營策劃室的松尾健太郎科長談到:“考慮公司業務范圍的變化,我們的方針是保證低成本的同時,新系統要能夠應對市場的變化。”

這個新系統就是“語音識別系統”。

選擇語音識別系統

耳、眼、手、口總動員

吉林總經理談到:“在建設新物流中心時,神田面臨的最大問題是建設資金,因此我們要控制初期投資。如果使用自動分揀機,至少需要2~3億日元的資金,但我們的總預算只有1億日元。而且還要求必須保證訂單的交付時間。最終,我們選擇了語音識別系統。”

除軟件外,新物流中心引進的設備只有掛在腰間的便攜式終端和耳機,共25套。包括基礎系統改造在內,總投資共6000萬日元。

實際上,神田公司從幾年前就已開始研究語音識別系統,只不過一直沒有對外公開。

新物流中心處理的貨物仍以服裝為主。通常,以箱(盒)為包裝的物品是很容易處理的,數量統計也不易出錯。但服裝往往裝在塑料袋中,既薄又輕,進行揀選操作時,如果工作人員一只手拿著無線終端,另一只手拿著塑料袋,不容易讀取條碼標簽,又容易數錯數量。此外,服裝的一大特點是顏色、規格多,SKU多,因此,如果使用手持終端進行操作將非常費力。

現在使用語音識別系統,終端掛在腰間,解放了雙手,操作人員可以用雙手完成揀選作業。操作人員通過耳機得到系統指令的同時,可以立即回應,而不需要“看明細”、“按開關”的動作,能夠集中精力進行揀選。

松尾科長說:“過去,物流現場的操作在很大程度上依賴于‘眼睛’,所有終端和明細單都必須用眼睛來判斷,如果看錯了。就會直接導致發錯貨。現在有了語音識別系統,其最大的魅力就是通過‘聽’接受指令,用‘眼’和‘手’來確認,用‘說’來回應,讓兩手同時工作。這就是感覺器官的總動員。由此帶來工作準確率和效率的大幅提高。”

這也是神田公司選擇語音識別系統的初衷。

語音揀選解決方案在世界的發展

回顧歷史,在上世紀90年代,日本有幾家公司曾引進過語音識別系統,但由于當時的識別能力有限,結果半途而廢。之后,經過改良的語音識別系統再度登場,尤其是在歐美物流界頗受歡迎,其中VOCOLLECT公司開始嶄露頭角。

特別值得一提的是,世界零售巨頭沃爾瑪把語音識別系統作為標準化配置的系統,在其世界各地的物流中心都在使用。早在3年前,日本國內的沃爾瑪旗下的西友?三鄉物流中心業也已引進了VOCOLLECT的產品。

此后,眾多經銷商的市場拓展行動終于開啟了語音揀選的世界市場之門。VOCOLLECT公司于2006年成立了VOCOLLECT日本分公司,同時在東歐、南美也逐漸打開市場,目前年銷售額近100億日元,占世界同行業銷售的80%。

承擔神田公司語音系統建設項目的日本優利公司售后服務事業部矢島孝安部長說:“人們往往認為只憑借聲音并不十分可靠,但VOCOLLECT的產品解決了這一難題。其識別系統和硬件設備組成了堪稱完美的系統。”

VOCOLLECT產品的特性

VOCOLLECT日本分公司總經理塞薩爾?西森介紹說,市場上的其他產品大多是把幾家公司的終端和軟件組合在一起,而VOCOLLECT則根據物流現場的實際需要,從硬件到軟件都是自主研發的,具有非常實用的語音識別功能,能夠用日語應答就是其一大特色。

如何確保語音識別的精度是使用中的關鍵問題。塞薩爾?西森總經理認為,要提高語音識別的精度是有前提的。語音識別的基本條件是“指定說話人”和“不指定說話人”,在日本,其他公司都選擇了“不指定說話人”,唯獨VOCOLLECT公司選擇了“指定說話人”。塞薩爾?西森總經理指出,在被噪音環繞的物流和生產現場,“不指定說話人”的方式存在很多問題。

“不指定說話人”即任何人的聲音都可能被確認。因為它忽略了每個人聲音的差異,那么其識別能力自然低下,特別是在噪音大的場所,附近幾個人同時作業,如果別人的聲音一旦被確認。必將出現差錯。

VOCOLLECT公司的“指定說

話人”的方式,是根據每個人所發出的聲音的頻率而設定的,具有聲音識別功能。這在很大程度上提高了識別精確度。在實際操作中,只要改變用戶名、輸入ID號,就能夠直接調出所需的信息,因此在登錄系統后,其他工作人員也可以使用。

當然。每個工作人員初次登錄時,都需要經過多次練習,登錄加練習的時間大約在20-30分鐘。因為設有語音矯正功能,經過幾次練習,工作人員就可以熟練掌握。

此外,終端設備的堅固性也非常突出,即使跌落地面,或被踩、被壓,都能保持完好無損。這給工作人員帶來安全感,可以全神貫注地投入揀選工作。

構建并起用系統僅耗時3個月

神田公司選擇日本優利推薦的VOCOLLECT公司的語音識別系統之前,已對該系統的結構和實用性做了全面、細致的調查和論證。

吉林總經理說:“因為我們是首次使用語音識別系統,因此必須進行全面的考察。在考察3家日用品批發商使用該系統的效果時,我們發現該系統不僅能用于分揀,還能用于盤點。這也是我們選擇它的一個重要原因。事實證明這個系統是完美的。”

接下來的系統設計,神田公司僅給優利公司和VOCOLLECT公司3個月時間。在此期間,神田為了讓員工盡快進入狀態,在現場進行實地演示。2008年8月15~16日,公司在搬遷的同時安裝新系統,18日就開始正常發貨了。

下面介紹語音識別系統的實際應用。

貨物初次分揀

1、2、總體分類

語音識別系統主要應用于服裝的發貨流程。

圖1、圖2是位于物流中心二層的存儲區。每天上午,操作人員根據發貨指示,首先進行總體分類,即把當天需要發的貨按款式分別集中在臺車上的紙箱中。這里的揀選作業是對照產品明細進行的。

3 二次分揀

在相鄰的揀選區,貨物按照店鋪別進行分揀。在圖3中,左邊是使用手持終端進行掃描,右邊是使用語音識別系統進行揀選。

4、5手持終端+輸送機

總體分類完成后,把紙箱放到輸送機上,按發貨店鋪的不同,用手持終端逐一進行掃描。

因為每件貨物和產品明細都要進行掃描,因此排除了款式錯誤的可能。但因為是單手作業,尤其對于較薄的服裝,產品數量容易弄錯。偶爾也會發生無法讀取條碼標簽的情況,或者標簽被翻轉放置,此時操作起來相當費力。

6、7、臺車+手持終端

圖6是臺車分揀區。臺車底層放置了4個空周轉箱用于調節高度,上層的4個周轉箱分別代表4個店鋪,操作人員同時處理4家店鋪的貨物,操作非常快捷。當然。通道,必須留有足夠的寬度,以保證臺車通過。

使用語音識別系統進行揀選

8~11 語音識別揀選

前面提到的輸送機傳送來的周轉箱到達此處,按照發貨店鋪的不同依次進行揀選。此時操作人員通過耳機接收指示,用麥克進行回應,在“是”、“下面”的應聲中進行分揀作業。不僅雙手可同時操作,并且不需要看手持終端顯示的數據,只需用眼睛確認發貨明細上的代碼即可。

操作人員聽到的是什么樣的指示呢?是商店代碼、貨物代碼以及揀選的數量等,速度很快,聽到指示后必須立刻做出回應。按照操作人員的話說:“聲音的節奏逐漸變快,我們已經習慣了這樣的速度。”由于每個人的聽力和反應速度存在差別,物流中心根據這一差別安排操作人員的崗位。

操作人員做出回應后。下面的指示隨即就到。在這種快節奏中,幾乎沒有等待指示或閑下來的時間。

塞薩爾?西森總經理說:“如果是使用手持終端,必然存在等待指令的時間。使用語音識別系統后,節省了操作時間。一旦有空閑的時間,操作人員反而會不習慣。”

VOCOLLECT的設計中包含了勞動心理學原理,因為操作人員的腰間攜帶了便攜終端,每個人可以調節適合自己的速度。

系統投入使用后,操作人員的熟練程度不斷提高,人均處理能力由原來每小時200~300件提高到500~700件。

此外,夏裝和冬裝有所不同,操作效率也存在差別,但結果卻比預期提高了50%。

12、13、不同商店的發貨明細及標簽

根據語音指令做好的發貨明細上,標有貨物代碼和商店代碼,暫時貼在貨箱的外面(圖12),待貨箱裝滿后,再把發貨明細放入箱中,然后把箱子放到輸送機上。

14、檢驗

通過語音識別系統揀選的貨物。因為沒有讀取條形碼,因此在包裝前需要檢查一遍。數量少時只要確認條形碼即可,數量多時全部都要進行檢驗。

15、無線傳輸

通過2.4GHz的無線電波頻率,無線終端與服務器聯網后,進行數據交換。

16、充電

在辦公室一角的架子上,放置了25臺充電器,以便為終端進行充電。每次的充電過程需要8小時。

17、語音系統的管理

在同一辦公室內設置了語音系統的管理器。畫面上顯示的是神田公司的WMS與合作公司VOCOLLECT的管理過程。

貼標簽、包裝、發貨

18、19、貼價格標簽、過檢針

貼價格標簽、過檢針的操作也在物流中心二層完成。

20、21、搬運發貨箱

貨箱打包完畢后碼盤,托盤貨物用叉車搬到垂直輸送機,送往一層出貨區。

22、23、裝車

在出貨口,貨物裝上卡車,送到各店鋪。

目前,像這樣成功應用語音識別系統的案例在日本還不多見。吉林總經理對于初次引進語音識別系統是這樣評價的:對于習慣了以往傳統分揀方法的操作人員來講,他們完全沒有不適應的感覺,反而更喜歡現在極富節奏感的作業。

“要通過改善工作流程,使所有人員都適應語音識別系統,不斷提高工作效率。我們不要求最好,只追求更好”。吉林總經理說。

第4篇

關鍵詞: 語音識別; 識別原理; 聲學建模方法; 多維模式識別系統

中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

語言是人類相互交流最常用、最有效、最重要和最方便的通信形式,語音是語言的聲學表現,與機器進行語音交流是人類一直以來的夢想。隨著計算機技術的飛速發展,語音識別技術也取得突破性的成就,人與機器用自然語言進行對話的夢想逐步接近實現。語音識別技術的應用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領域也發揮著極其重要的作用。它是信息社會朝著智能化和自動化發展的關鍵技術,使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。

1 語音識別技術的發展

語音識別技術起始于20世紀50年代。這一時期,語音識別的研究主要集中在對元音、輔音、數字以及孤立詞的識別。

20世紀60年代,語音識別研究取得實質性進展。線性預測分析和動態規劃的提出較好地解決了語音信號模型的產生和語音信號不等長兩個問題,并通過語音信號的線性預測編碼,有效地解決了語音信號的特征提取。

20世紀70年代,語音識別技術取得突破性進展。基于動態規劃的動態時間規整(Dynamic Time Warping, DTW)技術基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。

20世紀80年代,語音識別任務開始從孤立詞、連接詞的識別轉向大詞匯量、非特定人、連續語音的識別,識別算法也從傳統的基于標準模板匹配的方法轉向基于統計模型的方法。在聲學模型方面,由于HMM能夠很好的描述語音時變性和平穩性,開始被廣泛應用于大詞匯量連續語音識別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學建模[2?3];在語言模型方面,以N元文法為代表的統計語言模型開始廣泛應用于語音識別系統[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經網絡的語音建模方法開始廣泛應用于LVCSR系統,語音識別技術取得新突破。

20世紀90年代以后,伴隨著語音識別系統走向實用化,語音識別在細化模型的設計、參數提取和優化、系統的自適應方面取得較大進展[5]。同時,人們更多地關注話者自適應、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題[6]。此外,語音識別技術開始與其他領域相關技術進行結合,以提高識別的準確率,便于實現語音識別技術的產品化。

2 語音識別基礎

2.1 語音識別概念

語音識別是將人類的聲音信號轉化為文字或者指令的過程[7]。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支。語音識別的研究涉及微機技術、人工智能、數字信號處理、模式識別、聲學、語言學和認知科學等許多學科領域,是一個多學科綜合性研究領域[8]。

根據在不同限制條件下的研究任務,產生了不同的研究領域。這些領域包括:根據對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續語音識別系統;根據對說話人的依賴程度,可分為特定人和非特定人語音識別系統;根據詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統。

2.2 語音識別基本原理

從語音識別模型的角度講,主流的語音識別系統理論是建立在統計模式識別基礎之上的。語音識別的目標是利用語音學與語言學信息,把輸入的語音特征向量序列[X=x1,x2,…,xT]轉化成詞序列[W=w1,w2,…,wN]并輸出。基于最大后驗概率的語音識別模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要尋找的最可能的詞序列[W],應該使[P(X|W)]與[P(W)]的乘積達到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學模型決定。[P(W)]是[W]獨立于語音特征矢量的先驗概率,由語言模型決定。由于將概率取對數不影響[W]的選取,第四個等式成立。[logP(X|W)]與[logP(W)]分別表示聲學得分與語言得分,且分別通過聲學模型與語言模型計算得到。[λ]是平衡聲學模型與語言模型的權重。從語音識別系統構成的角度講,一個完整的語音識別系統包括特征提取、聲學模型、語言模型、搜索算法等模塊。語音識別系統本質上是一種多維模式識別系統,對于不同的語音識別系統,人們所采用的具體識別方法及技術不同,但其基本原理都是相同的,即將采集到的語音信號送到特征提取模塊處理,將所得到的語音特征參數送入模型庫模塊,由聲音模式匹配模塊根據模型庫對該段語音進行識別,最后得出識別結果[9]。

語音識別系統基本原理框圖如圖1所示,其中:預處理模塊濾除原始語音信號中的次要信息及背景噪音等,包括抗混疊濾波、預加重、模/數轉換、自動增益控制等處理過程,將語音信號數字化;特征提取模塊對語音的聲學參數進行分析后提取出語音特征參數,形成特征矢量序列。語音識別系統常用的特征參數有短時平均幅度、短時平均能量、線性預測編碼系數、短時頻譜等。特征提取和選擇是構建系統的關鍵,對識別效果極為重要。

圖1 語音識別基本原理框圖

由于語音信號本質上屬于非平穩信號,目前對語音信號的分析是建立在短時平穩性假設之上的。在對語音信號作短時平穩假設后,通過對語音信號進行加窗,實現短時語音片段上的特征提取。這些短時片段被稱為幀,以幀為單位的特征序列構成語音識別系統的輸入。由于梅爾倒譜系數及感知線性預測系數能夠從人耳聽覺特性的角度準確刻畫語音信號,已經成為目前主流的語音特征。為補償幀間獨立性假設,人們在使用梅爾倒譜系數及感知線性預測系數時,通常加上它們的一階、二階差分,以引入信號特征的動態特征。

聲學模型是語音識別系統中最為重要的部分之一。聲學建模涉及建模單元選取、模型狀態聚類、模型參數估計等很多方面。在目前的LVCSR系統中,普遍采用上下文相關的模型作為基本建模單元,以刻畫連續語音的協同發音現象。在考慮了語境的影響后,聲學模型的數量急劇增加,LVCSR系統通常采用狀態聚類的方法壓縮聲學參數的數量,以簡化模型的訓練。在訓練過程中,系統對若干次訓練語音進行預處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓練語音的參考模式庫。

搜索是在指定的空間當中,按照一定的優化準則,尋找最優詞序列的過程。搜索的本質是問題求解,廣泛應用于語音識別、機器翻譯等人工智能和模式識別的各個領域。它通過利用已掌握的知識(聲學知識、語音學知識、詞典知識、語言模型知識等),在狀態(從高層至底層依次為詞、聲學模型、HMM狀態)空間中找到最優的狀態序列。最終的詞序列是對輸入的語音信號在一定準則下的一個最優描述。在識別階段,將輸入語音的特征矢量參數同訓練得到的參考模板庫中的模式進行相似性度量比較,將相似度最高的模式所屬的類別作為識別中間候選結果輸出。為了提高識別的正確率,在后處理模塊中對上述得到的候選識別結果繼續處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識別結果的可靠程度等。最終通過增加約束,得到更可靠的識別結果。

2.3 聲學建模方法

常用的聲學建模方法包含以下三種:基于模式匹配的動態時間規整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經網絡識別法(ANN)等。

DTW 是較早的一種模式匹配的方法。它基于動態規劃的思想,解決孤立詞語音識別中的語音信號特征參數序列比較時長度不一的模板匹配問題。在實際應用中,DTW通過計算已預處理和分幀的語音信號與參考模板之間的相似度,再按照某種距離測度計算出模板間的相似度并選擇最佳路徑。

HMM是對語音信號的時間序列結構所建立的統計模型,是在馬爾可夫鏈的基礎上發展起來的,它是一種基于參數模型的統計識別方法。HMM可模仿人的言語過程,可視作一個雙重隨機過程:一個是用具有有限狀態數的馬爾可夫鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與馬爾可夫鏈的每一個狀態相關聯的觀測序列的隨機過程[10]。

ANN以數學模型模擬神經元活動,將人工神經網絡中大量神經元并行分布運算的原理、高效的學習算法以及對人的認知系統的模仿能力充分運用到語音識別領域,并結合神經網絡和隱含馬爾可夫模型的識別算法,克服了ANN在描述語音信號時間動態特性方面的缺點,進一步提高了語音識別的魯棒性和準確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計音素或狀態的后驗概率。2011年,微軟以深度神經網絡替代多層感知機形成的混合模型系統大大提高了語音識別的準確率。

3 語音識別的應用

語音識別技術有著非常廣泛的應用領域和市場前景。在語音輸入控制系統中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、命令或詢問來作出正確的響應,這樣既可以克服人工鍵盤輸入速度慢,極易出差錯的缺點,又有利于縮短系統的反應時間,使人機交流變得簡便易行,比如用于聲控語音撥號系統、聲控智能玩具、智能家電等領域。在智能對話查詢系統中,人們通過語音命令,可以方便地從遠端的數據庫系統中查詢與提取有關信息,享受自然、友好的數據庫檢索服務,例如信息網絡查詢、醫療服務、銀行服務等。語音識別技術還可以應用于自動口語翻譯,即通過將口語識別技術、機器翻譯技術、語音合成技術等相結合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實現跨語言交流[11]。

語音識別技術在軍事斗爭領域里也有著極為重要的應用價值和極其廣闊的應用空間。一些語音識別技術就是著眼于軍事活動而研發,并在軍事領域首先應用、首獲成效的,軍事應用對語音識別系統的識別精度、響應時間、惡劣環境下的頑健性都提出了更高的要求。目前,語音識別技術已在軍事指揮和控制自動化方面得以應用。比如,將語音識別技術應用于航空飛行控制,可快速提高作戰效率和減輕飛行員的工作負擔,飛行員利用語音輸入來代替傳統的手動操作和控制各種開關和設備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時間和精力集中于對攻擊目標的判斷和完成其他操作上來,以便更快獲得信息來發揮戰術優勢。

4 結 語

語音識別的研究工作對于信息化社會的發展,人們生活水平的提高等方面有著深遠的意義。隨著計算機信息技術的不斷發展,語音識別技術將取得更多重大突破,語音識別系統的研究將會更加深入,有著更加廣闊的發展空間。

參考文獻

[1] 馬志欣,王宏,李鑫.語音識別技術綜述[J].昌吉學院學報,2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續語音識別系統研究進展[J].中文信息學報,2009,23(1):112?123.

[6] 顧亞強.非特定人語音識別關鍵技術研究[D].長沙:國防科學技術大學,2009.

[7] 中華人民共和國國家質量監督檢驗檢疫總局.GB/T21023?2007 中文語音識別系統通用技術規范[S].北京:中國標準出版社,2007.

[8] 王文慧.基于ARM的嵌入式語音識別系統研究[D].天津:天津大學,2008.

[9] 何湘智.語音識別的研究與發展[J].計算機與現代化,2002(3):3?6.

第5篇

關鍵詞:Agent;語音識別;人工智能;作戰文書

中圖分類號:TP37文獻標識碼:A文章編號:1009-3044(2009)13-3541-02

1 引言

語音識別起源于20世紀50年代AT&T貝爾實驗室的Audry系統,它第一次實現了10個英文數字的語音識別,這是語音識別研究工作的開端。作為一門交叉學科,它正逐步成為信息技術中人機接口的關鍵技術,被認為是2000年至2010年間信息技術領域十大重要的科技發展技術之一。語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,取而代之的是以語音輸入這樣便于使用的、自然的、人性化的輸入方式。

2 相關技術簡介

2.1 語音識別技術

所謂語音識別技術就是讓計算機(或機器)通過識別和理解過程把人類的語音信號轉變為相應的文本或命令的技術,屬于多維模式識別和智能計算機接口的范疇。語音識別技術的終極目標就是研制出一臺能聽懂任何人、任何內容的講話的機器。語音識別按發音方式分為孤立詞、連接詞和連續語音的語音識別系統;按詞匯量大小分為小詞表、中詞表和大詞表以及無限詞匯量語音識別;按說話人適應范圍分為特定人、限定人和非特定人語音識別。

2.2 多Agent技術

Agent的研究起源于人工智能領域,Agent具有自治性、社會性、反應性和能動性。智能Agent對自己的狀態和行為有完全的控制能力,它能夠在沒有人或者在其他Agent的直接干預下,對復雜的刺激進行響應并產生內部狀態的控制和適應性的行為,外界通過Agent的接口對Agent實現功能調用和通信,而無需知道Agent內部的具體工作過程。多Agent系統(MAS)由多個自主或半自主的智能體組成,每個Agent或者履行自己的職責,或者與其他Agent通信獲取信息互相協作完成整個問題的求解。語音識別技術本就是人工智能的一個應用方面,而將人工智能的前沿理論―多Agent技術引入語音識別技術中是一項有意義的工作。

3 在語音識別中引入多Agent技術

3.1 多Agent語音識別原理

傳統的語音識別存在自適應問題,對環境條件的依賴性強;噪聲問題,講話人產生情緒或心里上的變化,導致發音失真、發音速度和音調改變,產生Lombard/Loud效應;其它如識別速度問題、拒識問題以及關鍵詞檢測問題。而多Agent技術中自治智能和分布協同的特性能夠在一定程度上解決這些問題。多Agent語音識別其基本原理就是將輸入的語音,經過處理后,將其和語音模型庫進行比較,從而得到識別結果,具體原理見圖1。

該圖中語音輸入Agent就是待識別語音的原始輸入,語音采集Agent指話筒、電話等設備的語音輸入;數字化預處理Agent的功能包括語音信號采樣、反混疊帶通濾波、去除個體發音差異和設備、環境引起的噪聲影響等;特征提取Agent用于提取語音中反映本質特征的聲學參數,常用的特征有短時平均能量或幅度、短時平均跨零率、線性預測系數、基音頻率、倒譜和共振峰等。在訓練階段,將特征參數進行一定的處理后,為每個詞條建立一個模型,保存為模板庫。在識別階段,語音信號經過相同的通道得到語音特征參數,生成測試模板,通過模型匹配Agent和規則判別Agent將匹配分數最高的參考模板作為識別結果。同時在模式匹配和規則判別時還可以在很多專家知識的幫助下,以便提高識別的準確率。

3.2 多Agent語音識別流程

加入了多Agent技術的語音識別系統具體實現細節與傳統的語音識別系統有所不同,加入了更多的智能協作的因素,但所應用的識別過程大致相似,具體流程見圖2。

首先是系統中的協調Agent確定語音識別單元的選取。語音識別單元有單詞(句)、音節和音素三種。然后在特征提取Agent中去除語音中對識別無關緊要的冗余信息,目前廣泛應用的有基于線性預測分析技術提取的倒譜參數和基于感知線性預測分析提取的感知線性預測倒譜。接著采用適當的語音識別方法,通過對確定的語音特征進行模型訓練、智能學習后得到模板庫,然后用若干個特征提取Agent將待識別的輸入語音信號的各個量化的特征通過分工協作的方式進行提取,最后模型匹配Agent將量化的語音特征與模板庫進行模式匹配,通過友好的人機界面把識別結果輸出。

4 多Agent語音識別技術在軍事上的應用

最近十年內語音識別技術軍事化應用非常廣泛,目前研究比較多的有語音識別技術在智能武器裝備開發領域的應用、在軍事作戰文書自動化過程中的應用、在軍事測試設備和軍隊話務臺的應用。下面重點介紹多Agent語音識別技術在軍事作戰文書自動化過程中的應用。

作戰文書句式變化不大、語法簡單、使用人群范圍可定、語音識別模板庫易于建立且要求不高,其語音識別易于實現。總體方案是:盡可能統一各軍兵種作戰文書類型;收集不同類型作戰文書實例;構造作戰文書詞匯庫;針對標圖地域構造地名數據庫;建立不同類型作戰文書的句型庫;分析軍隊標號的涵義建立模板庫;將作戰文書編譯成標圖指令來完成軍事地圖的標繪。其一般過程為作戰文書的詞處理、作戰文書的語法分析、作戰文書標圖指令的形成,最后通過API接口傳輸給計算機完成自動標繪工作,如圖3所示。

5 結束語

語音識別技術是非常重要的人機交互技術,有著非常廣泛的應用領域和市場前景,為網上會議、商業管理、醫藥衛生、教育培訓等各個領域帶來了極大的便利。隨著人工智能技術的發展,把多Agent技術應用到語音識別系統中,通過自治智能和分布協同的特性較好地解決了傳統語音識別技術中存在的突出問題,這必將成為語音識別系統發展的主流。

參考文獻:

[1] 胡斌,湯偉,劉曉明.基于自然語言理解的文本標圖系統設計與實現[J].理工大學學報:自然科學版,2005,6(2):132-136.

[2] 趙力.語音信號處理[M].北京:機械工業出版社,2003:215-240.

[3] 王作英,肖熙.基于段長分布的HMM語音識別模型[J].電子學報,2004,32(1):46-49.

[4] 曹承志.智能技術[M].北京:清華大學出版社,2004.

[5] 杜琳.基于COM技術的軍事標圖組件的設計與實現[D].鄭州:信息工程大學,2006.

[6] 朱民雄,聞新,黃健群,等.計算機語音技術[M].北京:北京航空航天大學出版社,2002.

[7] 方敏,浦劍濤,李成榮,等.嵌入式語音識別系統的研究和實現[J].中文信息學報,2004(6):73-78.

[8] 劉廣鐘.Agent技術及其應用[M].北京:電子科技大學出版社,2002.

第6篇

[關鍵詞]車聯網;汽車語音識別;自然語音辨識;車輛人機交互

中圖分類號:TM721 文獻標識碼:A 文章編號:1009-914X(2017)10-0297-01

1.引言

車聯網技術就是互聯網時代人們對汽車產業生態新需求下產生的新興技術。國內車聯網正在經由“屏幕+操作系統”的1.0版本向聯網的2.0版本過渡,未來的方向主要是“賬號系統+語音控制+云服務”的3.0版本。基于賬號系統,可以實現圍繞“人”在不同汽車硬件、消費電子硬件之間的服務延續性,實現基于“人”的個性化導航、娛樂和支付等服務。實現人與汽車之間無障礙的自然語言交互,減少駕駛人員通過手指觸碰按鈕或者對中控屏幕的觸控來實現車輛功能的操作,保證汽車駕駛員能夠將全部視覺集中在對車輛行駛外部環境的感知,避免因為操控按鈕、中控觸摸屏帶來的視覺注意力的間斷分散而導致意外情況的發生,保證了駕駛安全。車聯網平臺通過在車輛儀表臺安裝車載終端設備,實現對車輛所有工作情況和靜、動態信息的采集、存儲并發送。車聯網系統一般具有實時實景功能,利用移動網絡實現人車交互。其中傳感器(包括攝像頭、雷達、速度等傳感器)所采集的信息是從不同機理和角度采集,比較片面孤立。當遇到復雜路況及突發工況時,自然語音辨識的信息采集交互介入,能夠更加精準判別車輛行駛中的真實工況。同時采用旋律識別技術對旋律節奏及特征的識別,將音樂做旋律分析和歸類,基于音樂旋律和人類起居生理特征提供音樂服務,以駕駛環境下的汽車駕駛員為例,可以提供符合人體工程學的人性化音樂服務,營造舒適的音樂氛圍,降低汽車駕駛員的駕駛疲勞。語音識別技術對特定人的聲紋提取,基于聲紋的身份驗證及語音指令驗證,探索完整的聲紋鑒定商用解決方案。

2.車聯網平臺下語音識別系統的研發

車聯網平臺下語音識別系統的研發的主要內容有:分析漢語自然語音的特點,提取自然語音識別目標的關鍵特征;建立相關特征識別算法;采集不同地區人員的自然語音數據,并使用特征識別算法,提取特征,并對特征數據進行相應分類,運用人工智能算法進行訓練識別,確定特征值;對采集語音數據與特征值進行比對分析,矯正特征值;在特征值基礎上進行語音譜分析,結合時域與頻域特點從總體角度分析。針對車內不同工況,采集背景噪聲并進行分析,得到語音及噪聲頻譜特征;在語音譜識別基礎上,建立降噪模型;設計一套典型的車內操控指令集,對這些指令進行信號采集與分析;針對在汽車內采集到的語音指令,設計噪聲抑制模塊來濾除噪聲;基于車聯網平臺,建立車輛自然語音識別介入判別規則;開發硬件系統和軟件系統;在車聯網平臺,進行實車測試。由于語音信號是一個非平穩過程,因此適用于周期、瞬變或平穩隨機信號的標準傅立葉變換不能用來直接表示語音信號,如何建立短時變換算法對語音信號的頻譜進行分析,建立相應的頻譜“短時譜”,語音辨識訓練指的是按照一定的準則,從大量已知的語音樣本中提取出能表示該模式特征的模型⑹,在語音識別的流程中,即為從大量的相似的語音信號中提取出它們共同的特征以得到一個聲學模型(參考模板)。而模式匹配則指的是根據一定的準則,使測試信號與已知聲學模型中的某一模型相匹配。當前的匹配算法沒有考慮汽車行駛中噪聲影響情況下,針對汽車內工況辨識效果不良的問題。針對此問題,建立語音譜特征分析方法,降低噪聲對語音辨識產生的干擾。建立聲紋識別技術,并對特定人的聲紋進行提取,基于聲紋的身份驗證及語音指令驗證,制定完整的聲紋鑒定商用解決方案。

3.車載語音識別系統

車載語音識別的本質,就是一種模式識別理論。動態時間歸正、隱性馬爾科夫鏈模型等都是如此。總之,一個完整的車載語音識別系統包含以下三個部分:

1.前端處理和特征提取:通過對信號適當的放大和增益控制,對其濾波和消除干擾,再進行數字化,然后從中提取特征序列,用反映語音特點的一些參數來表征信號特性;

2.識別算法:對語音信號提取了特征參數,以此來表征信號的特性,并且生成參考模式庫。在對待測信號進行識別時同樣先對其進行特征參數提取,然后逐一與參考模式庫中的各模板進行匹配求取失真度,據此判斷最佳的識別結果;

3.語義理解:完成識別判斷后,將識別結果以某種指令或者表現形式輸出,讓計算機據此執行相應的操作,這就是識別結果的輸出,即語義理解。

車聯網平臺下語音識別系統的研發解決方案:系統研發旨在解決自然語言在汽車內噪音工況下的語音辨識。掌握語音辨識機理理論及算法;明確各算法優缺點及適用對象,針對汽車內噪聲存在的特殊環境下,構建自然語音譜辨識方法;采集不同地區語音數據,利用自然語音譜辨識方法進行語音辨識訓練;提取出表征信號的特性,并且生成語音辨識參考模式庫;搭建語音辨識硬件平臺;進行硬件平臺測試并修正優化相應算法,具體流程詳見圖1。

參考文獻

[1] 施衛東.淺談車聯網技術的應用[J].計算機光盤軟件與應用,2015,(01):39-40

[2] 潘梁生.列車車載語音識別系統的設計與實現[D].北京:北京交通大學,2016.

[3] 劉筠,盧超.新型車載語音識別系統中的一種關鍵技術[J].微處理機,2008,(04):177-180

第7篇

關鍵詞:語音識別;神經網絡;遺傳算法;遺傳神經網絡

中圖分類號:TP183文獻標識碼:A文章編號:1009-3044(2008)22-774-03

Research of Speech Recognition Based on Genetic Neural Network

ZHAO Feng

(Computer School of Wuhan University,Wuhan 430081,China)

Abstract:This Paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low. a new recognizing algorithm based on BP algorithm by combining with the good effect method in ANN which named genetic algorithm(GA) was proposed and used to improve the BP neural network . Experiment results show that the training speed can be accelerated by the method and the recognition performance is also promoted.

Key words: speech recognition; neural network; genetic algorithm; genetic neural network

1 引言

語音識別SR(Speech Recognition)是指讓機器聽懂人說的話,即在各種情況下,準確地識別出語音的內容,從而根據其信息,執行人的各種意圖[1]。現代語音識別技術以神經網絡為主要發展趨勢,進入20世紀90年代以來,神經網絡已經成為語音識別的一條重要途徑。由于神經網絡反映了人腦功能的基本特征,故具有自組織性、自適應性和連續學習能力等特點,特別適合于解決像語音識別這類模擬人的認知過程和智能處理能力,難以用算法來描述而又有大量樣本可供學習的問題[2]。

人工神經網絡(ANN)是采用大量的簡單處理單元廣泛連接起來構成的一種復雜信息處理網絡。網絡的訓練學習是應用一系列輸入矢量,通過已確定的算法逐步調整網絡的權值,最終達到期望的目標。BP神經網絡是神經網絡中前向神經網絡的核心部分,BP算法的學習過程由信號的正向傳播和誤差的反向傳播組成。隨著誤差逆傳播修正的不斷進行,網絡對輸入模式響應的正確率不斷上升。然而BP算法是一種梯度下降算法,梯度下降存在多極值問題,且BP網絡學習訓練速度慢,容易陷入局部最小或振蕩。因此,參數的選擇非常重要。為克服標準BP算法存在的各種缺點,本文研究用BP算法結合人工智能領域較為有效的方法――遺傳(GA)算法來訓練網絡進行語音識別,仿真實驗表明,GABP算法使BP網絡在收斂速度上有了很大提高,尤其是克服了容易陷入局部最小值的缺點,基于GABP的語音識別系統的最高識別率和平均識別率都有了很大的提高。

2 語音識別的基本原理

大部分基于神經網絡的語音識別系統實現識別功能都要經過從特征參數提取到應用識別算法進行識別的過程,該過程如下圖1所示:

圖1 語音識別系統原理框圖

該文主要面向孤立數字識別系統作一些改進研究,其基本識別過程也符合上圖1描述:輸入的語音信號首先進行預處理,包括抗混疊濾波、聲音的預加重、加窗分癥處理與端點檢測等。預加重的目的是在于濾出低頻干擾,尤其是50Hz或60Hz的工頻干擾,將對于語音識別更為有用的高頻部分的頻譜進行提升,以便于語音參數分析。

預加重濾波器傳遞函數為: H(Z)=1-0.9375Z-1(1)

若S(n)為預加重前語音信號,則經過預加重濾波器后得到的信號■(n)為:

■(n)= S(n)-0.9375 S(n-1)(2)

該文主要完成孤立數字識別,所要求識別的字數不多,對環境的噪聲的適應能力的要求也并不高,因此采用了目前比較流行的雙門限端點檢測算法,借助于語音信號短時平均能量和短時過零率來判定語音有效范圍的開始和結束。

語音信號經過預處理后,接下來很重要的一環就是進行特征提取,常用的特征包括短時平均能量和幅度、短時平均過零率、線性預測系數(LPC)、短時傅里葉變換和Mel頻率倒譜系數(MFCC)。語音特征參數的時間序列構成了語音的模式,將其與通過應用一系列已知信號訓練提取的參考模式逐一進行比較,獲得最佳匹配的參考模式便是識別結果。本文中對于預處理的每個有效語音信號段,都要提取其12個一階MFCC系數,提取過程為:用漢明窗將語音切割成長短一致的語音幀,對每幀語音進行正反傅里葉變換,經對數和離散余弦變換后取前12個數作為MFCC系數來描述每一個幀。最后將每個語音信號對應的MFCC系數序列用K-means聚類算法進行聚類,分為4個聚類,使得每個語音信號都得到相應的12個4維一階MFCC系數,即可作為語音的特征參數成為神經網絡的輸入信號。

3 語音識別中的BP網絡構造

語音識別中的BP網絡構造主要包括輸入層、隱層、輸出層、初始權值、學習速率與期望誤差的選取幾個方面的問題。

1) 網絡層數:理論上,在不限制隱層節點數的情況下,兩層(只有一個隱層)的BP網絡可以實現任意非線性映射。當模式樣本很多時,減小網絡規模,增加一個隱層是必要的,但BP網絡隱層數一般不超過兩層。本文所要求識別的模式樣本不多,因此一個隱層已經足夠。

2) 輸入層節點數:在BP網絡語音識別系統中,輸入層節點數與選取的語音信號特征參數的維度和階數有關。本文中每個語音信號都得到相應的12個4維一階MFCC系數,故輸入層的節點數為12×4=48。

3) 輸出層節點數:輸出層的節點數取決于輸出數據的類型和表示該類型所需的數據大小。當BP網絡用于語音識別時,以二進制形式來表示不同的識別結果,則輸出層的節點數可根據訓練模板的語音數來確定。本文設定輸出節點數為10,分別對應于0~9這10個數字。

4) 隱層節點數:通過采用一個隱層,增加其神經元數的方法來達到網絡訓練精度的提高,這在結構上,要比增加更多的隱層簡單的多。但究竟選取多少個隱層節點才合適?在理論上并沒有個明確的規定。在具體設計時,比較實際的做法是通過對不同神經元數進行訓練對比,然后適當的加上一點余量[4]。一般可利用下面式子決定:

n1=■+a(3)

其中n1為隱層節數;m為輸入節點數;n為輸出節點數;a為取1~10的常數。本實驗中輸入節點數為48,輸出節點數為10,a選取為常數4,因此隱層節點數n1=12。

5) 初始權值:由于系統是非線性的,初始值對于學習是否達到局部最小、是否能收斂以及訓練時間的長短關系很大。一般總是希望經過初始加權后的每個神經元的輸出值都接近于零。所以,一般取初始值在(-1,1)之間的隨機數。

6) 學習速率與期望誤差的選取:學習速率決定每一次循環訓練中所產生的權值變化量。小的學習速率雖然會導致收斂速度慢,不過能保證網絡的誤差值不跳出誤差表面的低谷而最終趨于最小值。所以,一般情況下,學習速率的選取范圍在0.01~0.8之間。期望誤差0.000001。

解決了上述幾個方面的問題后,本文采用三層結構神經網絡,如圖2所示:輸入層各節點將輸入信號經權重藕合到隱層的每個節點,隱層各節點對來自前一層的信號加權,經激發函數轉換后再藕合到輸出層。

4 基于遺傳神經網絡的語音識別

本文研究引用遺傳算法對網絡的初始連接權值進行優化處理,用BP算法完成給定精度的學習。

4.1 個體編碼方案

編碼對于網絡進化過程的性能和效率影響很大,因此,編碼技術是連接權值進化過程中學解決的首要問題和關鍵步驟。本文中考慮到BP網絡的節點數和結構已經固定,可以采用實數編碼方案,將網絡的權值和各節點的閥值依此排列得到一個向量。

假設一個具有m個節點的n層BP網絡,如果第i個節點對應的權值分別為vi(vi[-1,+1]),則一個個體用實數向量表示為X=(v1,v2,…vm)。

4.2 適應度函數的選擇

一個網絡連接權值優劣的標準,是根據網絡對一組輸入得到的實際輸出與期望輸出之間的誤差大小來制定的。BP網絡中誤差平分和小,則表示該網絡性能比較好。本文中適應度函數為:

f(x)=■(4)

其中,E為神經網絡的輸出誤差,即:

■(5)

其中n為學習樣本總數,yk,■k為第k個個體的期望輸出和實際輸出向量。

4.3 進化參數

連接權的進化過程中所涉及到的主要進化參數有:種群規模、交叉率、變異率和進化代數等等。交叉是最主要的進化操作,交叉率是指各代中交叉產生的后代數與種群規模之比。常用的交叉率取值范圍為0.6~1.0。變異率是指種群中變異的基因數占總基因數的比例,其值控制了新基因引入的比例。常用變異率的數量級范圍為0.1~0.001。 種群規模是連接權進化過程首先需要確定的參數,是算法會否陷入局部解的主要影響因素。綜合考慮BP網絡的初始連接權值和交叉率、變異率的選擇,這里選擇種群規模為50。

5 仿真實驗結果

仿真實驗為針對非特定人的孤立數字詞語音識別。語音數據由二男二女(0到9共10個數字的普通話發音)通過PC話筒輸入,每個音每人發20遍,共計1000次發音,其中以每人每個音的前10次作訓練樣本,后10次作測試樣本,錄音環境為安靜實驗室,采樣頻率為11.025kHz。

經過反復實驗,不斷改善實驗環境,基于演化神經網絡的識別得到了相對較高的識別率。對實驗結果分析可知,結合了GA算法的BP網絡通過GA全局搜索得到一個權值最優解,只迭代了151次便使得誤差值為0.000001 ,而普通BP算法要迭代517才能勉強達到期望誤差,由此可知,結合了GA算法的BP網絡避免了局部極小,減低了學習速率,提高了收斂速度。

表1 基于遺傳神經網絡與普通BP網絡語音識別系統對比表

通過表1對比可知,基于演化神經網絡識別算法的語音識別系統無論是在訓練時的收斂速度還是在最后的識別率上,都要優于普通的BP網絡語音識別系統。

6 結論

語音信號處理和神經網絡均是目前研究的熱點,文章主要針對語音識別的特點,結合人工智能領域兩種比較有效的方法――BP網絡和GA算法,構建了一種基于遺傳神經網絡的語音識別算法。仿真實驗結果表明,該算法避免了傳統BP算法容易陷入局部極小的缺點,減低了訓練時間,有效的提高了系統識別率。

參考文獻:

[1] 趙力.語音信號處理[M].北京:機械工業出版社,2003.

[2] 蔡蓮紅,黃德智,蔡銳.現代語音技術基礎于應用[M].北京:清華大學出版社,2003.

[3] 易克初.語音信號處理[M].北京:國防工業出版社,2000.

[4] 孫寧,孫勁光,孫宇.基于神經網絡的語音識別技術研究[J].計算機與數字工程,2005,34(3):58-61.

[5] 何英.Matlab擴展編程[M].北京:清華大學出版社,2002.

第8篇

關鍵詞:語音識別 端點檢測 特征參數 DTW算法

中圖分類號:TN912 文獻標識碼:A 文章編號:1007-9416(2011)12-0184-02

1、語音識別系統概述

語音信號是一種典型的非平穩信號,并且在錄音過程中不免受到電噪音,呼吸產生的氣流噪音以及錄音環境下的突發噪音的影響,所以語音信號要經過預濾波、采樣量化、分幀、加窗、預加重、端點檢測等預處理過程后才可以進行下一步的特征征參數提取等工作。在接下來的語音訓練階段,我們將那些信號狀態良好,攜帶噪聲小且特征參數穩定的語音信號作為指定詞條的模板,進而為每個詞條創建一個模板并保存為模板庫。在識別階段,語音信號經過相同的通道生成測試模板,用相同的方法計算測試模板的特征參數后,將其與模板庫模板的特征參數進行匹配,配分數最高的參考模板作為識別結果。

2、語音信號的錄入

語音信號的采集方法有很多,鑒于該系統是在MATLAB上實現,且MATLAB本身提供了一定的音頻處理函數,因此我們完全可以采用在MATLAB中先完成錄音函數的編寫,然后再結合windows自帶的錄音設備進行錄音。錄音得到的wav文件即是經過預濾波采樣和量化的語音。利用soundview讀所錄入的文件時,會彈出一個GUI界面,并可以通過輸出設備對所錄語音進行回訪,該GUI界面如圖1所示。單擊Play Again按鈕可可回放,單擊Done按鈕可關閉界面。

3、語音信號的預加重

我們知道,對語音識別更有用的是語音的高頻部分,而對于語音信號的頻譜,通常是頻率越高幅值越低。因此我們必須對語音的高頻進行加重處理。處理方法是將語音信號通過一個一階高通濾波器,即預加重濾波器,它不僅能濾除低頻提升高頻,還能很好的抑制50Hz到60Hz的工頻干擾。尤其在短點檢測之前進行預加重還可起到消除直流漂移、抑制隨機噪聲和提升清音部分能量的效果。預加重在Matlab中可由語句x=filter([1-0.9375],1,x)實現。

4、語音信號的分幀和加窗

經過數字化的語音信號實際上是一個時變信號,為了能用傳統的方法對語音信號進行分析,應假設語音信號在10ms-30ms內是短時平穩的。為了得到短時的語音信號,要對語音信號進行加窗操作。窗函數平滑地在語音信號上滑動,將語音信號進行分幀,幀與幀的交疊為幀移,一般為窗長的一半。

語音信號的分幀采用enframe函數,其語法為f=enframe(x,len,inc);其中X為輸入的語音信號,len為制定的幀長,inc為指定幀移。函數將返回一個n×len的一個矩陣,每行都是一幀數據。在本系統中幀長取240,幀移取80。在Matlab中要實現加窗即將分幀后的語音信號乘上窗函數,本文加漢明窗,即為x=x.*hamming(N)。

5、端點檢測

在語音識別系統中,訓練階段和建模階段都比較重要的環節都是要先通過端點檢測找到語音的起點和終點,這樣,我們就可以只對有效語音進行處理,這對于識別的準確率和識別效率至關重要。本論文在短點檢測環節采用雙門限端點檢測法,即采用短時能量檢測和短時過零率檢測雙重指標約束。結合實際,我們將整個語音端點檢測分為四個段落,即:無聲段、等待段、語音段、結束段,再為短時能量和短時過零率各設置一個高門限和一個低門限:EHigh、ELow和ZHigh、ZLow。結合MATLAB中所編程序,可以較準確的確定語音的各個部分。圖2所示為語音“1”的處理結果。

6、特征參數的提取

經過預處理的語音數據就可以進行特征參數提取,特征參數的好壞將直接影響系統的性能和效率。本文將梅爾倒譜系數(MFCC)和一階MFCC系數的差分結合起來,將其合并為一個矢量作為一幀語音信號的參數,這樣,不僅描述了語音的靜態特性,由于加入了差分倒譜參數,語音的動態特性得到了更好的體現。梅爾倒譜參數的計算流程為:先將預處理過的語音信號進行快速傅立葉變換,將時域信號變換成為信號的功率譜。 再用一組Mel頻標上線性分布的三角窗濾波器(本文采用24個三角窗濾波器)對信號的功率譜濾波,每一個三角窗濾波器覆蓋的范圍都近似于人耳的一個臨界帶寬,以此來模擬人耳的掩蔽效應。然后對三角窗濾波器組的輸出求取對數,可以得到近似于同態變換的結果。最后去除各維信號之間的相關性,將信號映射到低維空間。 梅爾倒譜系數的計算差分參數的計算采用下面的公式:

7、模式匹配

本語音識別系統的模式匹配算法采用動態時間彎折(Dynamic Time Warping,DTW)算法,該算法基于動態規劃的思想,解決了發音長短不一的模板匹配問題。DTW是語音識別中出現較早,較為經典的一種算法。與HMM算法相比而言,DTW算法具有計算量小,識別效率高的特點。模式匹配的過程其實就是根據一定的規則,計算輸入矢量特征與庫存模式之間的相似度,判斷出輸入語音的語意信息。本文中,失真測度采用下式所示的歐式距離:

其中,l=1,2,…M;i=1,2,…I;k=1,2,…K.是待測矢量之間的距離,是第i個碼本的第l個碼字矢量的第k個分量。I為說話者的數量,M為碼本的大小,K為參數矢量的總維數。由上式得出該語音相對于該命令詞的最短距離,然后取最短距離最小的命令詞作為該段語音的首先識別結果。結合MATLAB程序,得到數字1-10的匹配距離矩陣:

圖3即為針對數字1-10的待測模板和模板庫模板匹配距離的現實,由該距離矩陣,我們可以很清楚的看到,左上角到右下角的對角線上的距離匹配值在該值所在的行和列都是最小的。即距離最短的命令詞為識別結果。

8、結語

該論文闡述了基于DTW的語音識別系統在MATLAB上實現的基本過程,在實驗室錄音情況下,該識別系統的識別率可以達到百分之九十以上,效果良好。

參考文獻

[1]趙力.語音信號處理[M].北京:機械工業出版社,2003.

[2]何強,何英. MATLAB擴展編程[M].清華大學出版社,2002-06.

[3]李景川,董慧穎.一種改進的基于短時能量的端點檢測算法[J].沈陽理工大學學報,2008.

[4]沈宏余,李英.語音端點檢測方法的研究[J].科學技術與工程,2008,(08).

[5]吳曉平,崔光照,路康.基于DTW算法的語音識別系統實現[J].電子工程師,2004,(07).

第9篇

TTS是“Text To Speech”的縮寫,即“從文本到語音”。它同時運用語言學和心理學的杰出之作,把文字智能地轉化為自然語音流。電子小說軟件將文字讀出來、銀行營業廳的語音叫號系統、詞霸朗讀單詞、手機朗讀短信和來電朋友的姓名……這就是目前應用最廣泛的TTS語音識別技術。想了解其最新研究進展可以訪問網站/speech/tts.asp。那么,我們又是如何進一步控制計算機的呢?

計算機為什么能聽懂我們的話?

技術上,實現語音識別就是讓計算機通過識別和理解的過程把自然語音信號轉變為相應的文本或計算機指令。語

音識別是一門交叉學科,所涉及的領域很廣,包括信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。

在語音識別過程中,首先要將說話的聲音由模擬的語音信號轉換為數字信號,然后從信號中提取語音特征,同時進行數據壓縮。輸入的模擬語音信號也要進行預處理,包括預濾波、采樣和量化、加窗、端點檢測、預加重等。語音識別系統的模型通常由聲學模型和語言模型兩部分組成。

p語音輸入模式圖

p語音識別軟件工作流程圖

語音識別過程主要分為兩個階段:“學習”階段中,計算機的主要任務是建立識別基本單元的聲學模型以及進行文法分析的語言模型,即構建參考模式庫;在“識別”階段,計算機根據識別系統的類型選擇能夠滿足要求的識別方法,采用語音分析方法分析出這種識別方法所要求的語音特征參數,按照一定的準則和測度與參考模式庫中的模型進行比較從而得出識別結果。

Vista,語音識別就在你身邊

微軟在最新推出的Vista中增加了上千個讓人耳目一新的新功能,其中之一便是能讓你與計算機進行交談的“語音識別”技術。

其實,Windows XP就已經內置了當時較為先進的TTS語音識別引擎,同時也支持語音輸入功能,不過要實現語音輸入功能還需要另外安裝語音輸入模塊。

而Windows Vista的語音識別功能已經內置在系統中,功能更為強大,我們可以通過說話來讓計算機完成操作、輸入文字、將屏幕上的文字朗讀出來、處理文件夾和文件、通過IE瀏覽器來訪問互聯網、單擊屏幕的任意位置、操作窗口和程序……這些功能基本上實現了通過語音命令來完成計算機的常用操作和語音輸入命令,對于某些特殊需要的人來說非常實用。沒有配置鍵盤、鼠標?記不清命令的路徑?手忙不過來?一樣可以通過說話控制計算機。

pWindows Vista的語音識別向導

p在Windows Vista控制面板中設置語音識別選項

pWindows Vista的語音識別工具欄窗口

p語音檢索識別。可以通過哼唱歌曲的段落在卡拉OK廳找出想唱的歌曲,通過說話尋找手機電話本中的聯系人,甚至可以用手機通過哼唱音樂旋律來下載彩鈴。

p使用語音控制通過說出不同鏈接的編號瀏覽網頁

如何找到并設置語音識別的功能呢?在Vista控制面板的搜索欄中輸入“語音識別選項”即可。需要注意的是,在

開始設置之前請將麥克風和音箱(或者耳機)連接到計算機上。如果啟動語音識別時提示錯誤,可能是你開啟了其他音頻軟件(比如Windows Media Player等音樂播放軟件),關閉這些軟件后就可以正常開啟語音識別了。

開啟Windows Vista的語音識別軟件后會出現一個語音識別設置向導,在其中會引導你對麥克風進行設置以及進行語音訓練。語音訓練是目前的語音識別軟件比較通用的一個使用前的設置工作,因為我們每個人的說話口音和習慣都不同,計算機要聽懂你說的話當然也需要提前學習,大大提高語音識別的準確率。

語音識別設置向導不僅能幫助計算機學習和適應你的說話習慣,還能教給你語音識別的使用方法和常用的語音命令。設置完成并啟用語音識別功能以后,Windows的語音識別提示工具窗口會浮現在桌面上方以方便你隨時使用。這時,我們就可以隨心所欲地通過與計算機“交談”來控制計算機了。特別值得一提的是,Vista的語音識別對于桌面控制和在使用瀏覽器瀏覽網頁上也更加人性化,比如它會自動檢測并給網頁鏈接加上編號,讀出編號即能訪問相應的鏈接了。

第10篇

關鍵詞:漢語語言 識別技術 智能手機 經濟效益

中圖分類號:TP212 文獻標識碼:A 文章編號:1003-9082(2017)01-0008-01

一、引言

語音識別技術也被稱為自動識別技術,其目標是將人類語言中的詞匯內容轉換為計算機可讀的輸入,他是一門交叉性學科。語音識別正逐步成為信息技術中人機接口的關鍵技術,語音識別技術與語音合成技術相結合使人們能夠擺脫鍵盤,通過語音命令進行操作。相應地,我國這種語音識別技術更是“進化”出適合中國國民應用的漢語語言識別技術。由此不難看出,語音技術的應用已經跨越空間,成為一個在國際上具有競爭性的新興高技術產業。而該技術在智能手機中的應用更是使得手機不斷革新,技術含金量越來越大。

二、漢語語言的特點

1.獨特的表意性質。我們都知道,漢語語言博大精深,是世界上最難懂的語言之一,而它獨特的表意性也是的它心思人類語林中獨樹一幟。漢語的構詞方法基本是據意構形,加上它用筆畫構圖形,以此表達意思,讓它遠遠優于那些音不辯形,形不之意的拼音文字。

2.靈活的構詞能力。漢語從創始以來也經歷了許多變化,從甲骨文、小篆、隸書、行書到如今的正楷,其筆畫越來越少,也越來越好寫。在這些變化之外,他還吸收了許多其他民族的文化,豐富了本民族的語言文化。眾多的疊音詞、雙音詞等都在原來字的基礎上構成新的詞語。更是運用與電視、電腦上。這加速了計算機漢語語音識別技術的發展。

3.富有彈性的語言結構。漢語的另外一個重要特點是,語法相對孤立容易,不像英語語法多而晦澀難懂。它在性質、數量、時態、語態等方面都有比較固定的表達形式。

4.寓意深刻。在漢語語言中有許多手法,比如:比喻、借代、象征等,這些手法在語言中的使用都促進了表達語句意義的深刻化。使得漢語語句聽起來韻味十足,美而不膩。

三、漢語言語言識別技術在智能手機上的應用

1.解鎖的應用。眾所周知,智能手機以耗電量大著稱,以至于用戶在手機空閑時會按下休眠按鍵,手機也會從待機模式進入休眠狀態。通過語音識別技術,我們不用接觸手機就能夠把手機從休眠狀態下喚醒。這不僅使得解鎖更加便捷。

2.搜索引擎上的應用。手機上的搜索類引擎如今也呈現多樣發展的態勢,如:百度、QQ瀏覽器、360搜索等。而隨著語音技術的發展,引擎類搜索也運用了語音搜索的搜索方式。這使人們搜索起來更加便捷,也在一定程度上節省了搜索者的時間。

3.社交軟件的運用。首先是人們所熟悉的QQ、微信等上面存在的語音系統,經試驗證明這些APP的出現不僅滿足了人們對各種社交的需求,而且在一定程度上緩解了人們處于快節奏生活中的壓力。

四、漢語語音識別技術應用于智能手機帶來的經濟效益

第一,伴隨著漢語語音識別系統的應用而衍生的一系列語音類型的APP為經濟發展帶來了新的生態環境。例如:唱吧,一款網絡KTV。在此APP 中,通過注冊會員、界面廣告等來獲得收益。

第二,通過智能手機的發展而衍生出的相關數碼產品。例如:小天才電話手表。通過語音識別來撥打電話的功能是這款電話手表的特色功能,他符合了小朋友的身份,發揮了漢語語音識別的優勢,為數碼市場帶來的經濟新氣象。

第三,給智能手機行業帶來新的經濟增長點。語音識別在智能手機上的應用為智能手機市場帶來了新一批的客源,而這些客源大都為青年人。這些青年人擁有消費需求與消費能力大,接受新事物的速度快等特點,而這些特點正好與手機市場換代速度快相契合。不僅活躍了市場,更是活躍了經濟。

第四,促進了手機品牌的形成,塑造了品牌形象。這種特有的語音識別技術對智能手機自身品牌的塑造來說存在著巨大作用并促進了其品牌手機的消費量。以華為X9為例,在迪信通8月手機銷量排行榜中,華為以絕對優勢占據榜首。

五、對漢語語音識別技術的應用的一些思考

當前,漢語音識別技術廣泛地應用于智能手機中,極大地促進了手機的便捷性,帶動了手機的發展和銷售有了一個質的飛躍。然而,我們不得不反思,當下漢語語音識別技術目前所存在的一些限制智能手機發展的問題,這些問題主要如下:

1.聲音在語音識別交互領域存在感低

1.1相關技術要求高。中國文化博大精深,漢語文化更是如此。中國人說話時并不像外國人說話那樣,一個單詞就是一個意思,而是一句話可以理解成多重含義。除此之外,中國人說話存在著嚴重的口音差異,并不是每個人都能說一口流利的普通話。這在語音的識別、喚醒、輸入及交互方面都存在很大的問題。雖然現在技術方面已經能夠破譯粵語等辨識度高的方言,但是面對中眾多的方言問題,技術方面仍然存在巨大的挑戰。

1.2使用場景有限。眾所周知,在運用手機相關功能時,在視覺和觸覺的交互無論在何種場景下都可以進行。但是,聲音卻不行。場景嘈雜、人員眾多等都無法進行相關的語音識別。

1.3交互模式不自然。不論是siri的長按喚醒,還是傻傻的對著手機說“嘿,siri!”給人的都是一種違和的感覺。對著冷冰冰的機器,我們甚至感到手足無措、舌頭打戰。甚至有時候好不容易說出一句話,結果給出的結果是無法識別。

2.語音終端還未成型。在中國現如今的科學技術背景下,能夠供大規模運營商使用的中國版Echo還未出現。而且,就算出現也將會受到中國市場的制約與影響。

3.Z音內容成本過高。在語音系統中,一方面信息獲取成本過高,另一方面差異化價值不高。語音信息的獲取遠比視頻、圖片獲取的成本高,而且多數人會存在這樣的疑問:圖片文字就能體現的內容握為什么還要通過語音去獲取呢?因為多數人都覺得圖片與文字在獲取信息上要更為直觀。

六、結語

總之,科學技術的步伐從來都不會是停止不前的,我們有理由相信現代漢語識別技術將會不斷改進,突破現在的科技與市場限制,廣泛地應用于各大領域,為經濟的發展創造多方面、多層面的經濟新動態。

參考文獻

第11篇

關鍵詞:語音檢索;語音識別;語音合成

中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2010)22-6295-03

Hotel Information Voice Retrieval System

LV Dan-ju, XU Wei-heng

(Computer and Information Science Dept., Southwest Forestry University, Kunming, China, 650224)

Abstract: Unlike traditional retrieval system, manually inputting query requests, this paper proposes voice search system. Using voice search technology, we design and develop the Voice Hotel information inquiry system, which basically fulfils man-machine voice dialog forms of inquiry. The system uses the voice processing technologies 1) HMM model based on speech recognition, converting real speech to text; 2) PSOLA of speech synthesis technology, converting text to speech. The retrieval accuracy of the system reaches 85%.

Key words: voice search; speech recognition; speech synthesis

語音搜索技術(Voice Search)是把用戶的語音咨詢信息轉換成文本咨詢信息,根據該文本信息進行數據搜索的技術。該技術為用戶提供了人-機交流更為直接的語音對話方式。由于語音的便利性(較傳統的手工輸入)和可用性(較以內容為主的影像檢索),成為檢索技術的重要發展方向。近年來,隨著語音搜索技術中的關鍵技術如語音識別、語音合成技術的不斷發展與完善,語音搜索已在電信、金融、娛樂、政府等行業中得到了廣泛深入的運用[1],如語音電話號碼查詢,音樂/視頻的搜索管理,股票的語音詢問與報價以及會議信息系統等。微軟旗下的Tellme公司推出了針對于黑莓手機語音搜索軟件實現了移動電話語音查詢功能,之后雅虎也推出了OneSearch語音信息搜索軟件。繼微軟Tellme和OneSearch語音搜索服務之后,Google也于2009年11月推出了手機語音搜索軟件。我國也于本世紀初相繼推出各城市語音控制導航電子地圖、KTV語音點歌服務系統等。語音搜索技術在不到20年的發展中不斷完善[2-4],顯示出其強大的發展潛力。

1 系統介紹

1.1 系統組成

本系統采用的語音檢索系統結構[1], 如圖1所示。

對話系統搜索模型首先將游客的語音查詢信息輸入自動語音識別器(Automatic Speech Recognizer ASR),該模塊將由聲學模型(Acoustic Model AM)和語言模型(Language Model LM)組成。語音識別器用于實現語音到文本的轉換(Speech to Text),ASR產生最好的一個識別文本結果。 系統根據識別的文本調用搜索模塊SQL Server引擎進行數據搜索。將符合條件的一個或多個數據信息進行顯示,并將搜索結果語音播報給用戶。

1.2 系統采用技術

1.2.1 語音識別

語音識別部分主要由兩個部分組成:語音訓練階段與語音識別階段,如圖 2所示,語音訓練階段是利用語料庫中的語音信息,抽取其美爾倒譜參數MFCC的語音特征值,該參數考慮了人耳對聲音信號的因素,能夠較好的反映;以隱馬爾科夫模型HMM為語音模型,依據數據統計原理,建立起語音參考模板。在訓練階段完成后,即可進入識別階段,識別階段將用戶的語音信號抽取MFCC語音特征,為該語音創建識別模板。最后,將參考模板與識別模板進行對比,通過識別匹配原則尋求識別模板與參考模板中最相近的一個模板,從而實現語音信號的識別,實現從語音到文本的轉換。

1)MFCC特征參數:美爾頻標倒譜系數考慮了人耳的聽覺特性,將頻譜轉化為基于Mel頻標的非線性頻譜,然后轉換到倒譜域上。由于充分考慮了人的聽覺特性,而且沒有任何前提假設,MFCC參數具有良好的識別性能和抗噪能力。本系統采用42維的MFCC(12維的倒譜參數,1維的對數能量, 1維的pitch和一、二階倒譜參數)。

2)HMM聲學模型:HMM是一種雙重隨機過程,而之所以稱為隱藏式是因為其中有一組隨機過程是隱藏的,看不見的,在語音中就如同人類在發聲的過程中其發聲器官狀態是看不見的,好比喉嚨、舌頭與口腔的變化是不可能從可觀測的語音信號序列看出來的。而另一組隨機過程觀測序列(Observation Sequence),本系統采用6狀態的HMM表示的漢語音素模型,它是由狀態觀測概率(State Observation Probability)來描述在每個狀態下觀測到各種語音特征參數的概率分布。HMM的狀態觀測概率函數式bj(ot)是采用高斯混合密度函數GMM(Gaussian Mixture Model)來計算連續概率密度,因此每一個聲音單元(本系統采用音素)皆有一組連續的HMM(GHMM)。

3)N-Gram的語言模型:本系統采用基于統計方法的適合大詞匯量連續語音識別的Trigram統計語言模型,進一步提高文本識別率。為下一步檢索提供更為優質的文本檢索信息。一個詞的N-gram的語言模型如式:

(1)

整個句子的概率表示為:

(2)

式中w1,w2,…,wm表示組成整個句子中出現的每個詞,參數n為n-gram統計語言模型的階數,其值取決于模型的精度和復雜度,通過實驗表明,n值越大,則對句子中單詞之間的依賴關系描述得越準確,此時模型的精確度越高,但模型的復雜度也越大。本系統采用n=3,也即Trigram。于是,訓練數據的句子中每個詞出現的概率只與其前兩個詞有關,表示為:

(3)

在計算時,上式表示為:

(4)

c(wi-2,wi-1,wi)表示為該詞序列出現在訓練文本中的次數。但由于統計數據的稀疏性,必然會有c(wi-2,wi-1,wi)=0的可能。為此,應采用平滑技術(back-off和interpolated插值)來調整序列在訓練文本中的分布概率。本系統采用插值方法。其表達式為:

(5)

λ為插值系數,對于給定的p(wi|wi-2,wi-1),可以在訓練語料上運用Baum-welch算法計算得到插值系數λ(01)。

4)Viterbi Search識別算法:系統采用Viterbi搜索方法獲取最好的音節系列,作為識別的文本。

系統的訓練與識別部分均采用HTK(HMM Tool Kit)[6]實現。HTK是一套功能強大的語音識別工具,可以將大量的語音用HMM訓練后,加以識別。所以本系統采用HTK為識別核心。語料庫中收錄賓館名稱、賓館價格、賓館星級、賓館地址的語音資料,并將其對應文本進行手工音素注音。訓練階段是實現語音的MFCC特征與文本音素依HMM的對應過程,完成HMM音素模板的建立。在識別運用部分將要識別的語音文件進行MFCC提取后與HMM音素模板,利用N-gram的語言模型,進一步完善識別文本。最后利用Viterbi Search算法,找出一個最相似的音節序列,進而確定文本。

1.2.2 語音理解/搜索(Spoken Language Understanding/search)

語音理解的目的是將用戶的表述轉換成相對應的語義。在語音搜索中所指的“相對應的語義”就是對數據庫查詢的關鍵詞信息。由于用戶在查詢時所說的語句不可能嚴格按照語法要求,是一種口頭的表述,如當用戶選擇賓館名稱查詢時,按照要求用戶只需要說明賓館名稱如“連云賓館”即可,但用戶可能會說“我想問一下連云賓館,謝謝!”,而不只是“連云賓館”。這樣,就會造成識別文本與查詢文本的錯誤對應。為此,本系統采用語音信息提示,告訴用戶查詢的語音表達方式,如按賓館查詢時,提示信息為“請說賓館名稱”,按賓館星級查詢時,提示信息為“請說出要查詢的賓館星級,1~5的數字”等。在文獻[4]中,還提出了其它語音理解的解決方案。由于本系統只是一個初級性的語音檢索,固沒有采用像基于詞類的N-Gram,填詞法等語音理解技術。

1.2.3 語音合成

為了使結果查詢采用多媒體方式輸出,以提供更自然的人-機交互,系統實現能夠將查詢文字信息傳化成連續的語音(TTS,Text to Speech),以提供高質量、智能化的語音服務的重要技術。首先將文字輸入到TTS系統中,TTS系統在收到文字后,根據原有在語料庫中的語音檔案進行連音,調整長度,大小及聲調的動作。本系統采用微軟推出的TTS軟件包,作為漢語合成時還要考慮聲調因素。實現過程如圖 3所示。

TTS引擎屬于Windows API外掛函數,它是一個Speech API程序。安裝TTS引擎后,自動將類庫文件Vtxtauto.tlb安裝在Windows系統目錄里的Speech 目錄下,從而將其導入語音庫“Voicetext Type Library”中。形成庫文件后,我們可以將TTS引擎作為一個外部工程從語音庫中引入VB、VC等32位應用軟件的可視化環境,在視圖中的對象瀏覽器窗口觀察分析TTS引擎所封裝的類、類的成員函數、方法及各屬性的意義,并在所開發的軟件中嵌入TTS,編寫出獨具個性的語音合成軟件。

2 系統設計說明

本系統采用VC++進行語音檢索Voice Hotel系統的界面設計,其系統操作說明如下:

1)開始執行Voice Hotel,會以語音提示使用語音查詢的方法。語音會提示在嗶聲后開始3秒錄音,嗶聲響起,開始進行錄音,此時,對著麥克風說出要查詢的方式:“賓館名稱”、“賓館價格”、“賓館星級”、“賓館地址”;如圖 4表示,說出“賓館名稱”。

2)經過系統識別后,激活相應的查詢方式,語音回報用戶要求的查詢方式,并提示查詢表述方式,準備進行查詢關鍵字的語音錄入;如圖 5所示。

3)語音提示在嗶聲后開始錄音,嗶聲響起,對著麥克風說出要查詢的關鍵字;如圖6所示。

4)經系統識別后,將會在相應的查詢方式處顯示識別結果,并在檢索結果處顯示查詢符合要求的結果,利用語音合成技術,將其識別結果及查詢結果進行語音播報。如圖 7表示,識別結果為:金龍,進行結果顯示。

3 實驗數據及結果

由于本語音識別系統是采用最接近的句子作為識別結果,被識別系統資料的充足與否,平均每句的字數,都會影響正確率。系統采用字正確率作為系統測評指標的標準:。系統采用的訓練數據說明,如表 1所示,測試結果如表 2所示。

從表2可知,本系統的識別率達到大約85%,基本達到一個初級語音查詢的要求。

本系統的開發出基于語音和文字兩種查詢與輸出的多媒體查詢系統,它優于傳統資料查詢的文字輸入、輸出的方式,顯示出人-機交流更加自然的特點。系統中核心的部分即為語音識別與語音合成部分。就該系統識別率而言,由于本語音識別系統采用最接近的句子當作為識別結果,被識別系統資料的多少,平均每句的字數,都會影響正確率。訓練語音資料信息如下:其測試結果如下:實驗數據表明,本系統的平均識別率約為85%。

4 結論

本文已實現了一個較為完整的語音賓館查詢系統,關鍵技術為語音識別與合成。由于系統只是一個初級的語音檢索系統,所以在語音理解部分采用的是對用戶的語音查詢表述進行了嚴格的限制,今后可近將針對語音理解部分作進一步研究,以實現更自然的口語查詢的目的, 同時提高系統識別率。并提供多查詢接入方式如電話方式的查詢以及更加豐富輸出結果如顯示賓館的地理位置等。

參考文獻:

[1] Ye-Yi Wang, Dong Yu, Yun-Cheng Ju and Alex Acero, An Introduction to Voice Search, IEEE Signal Processing Mag.[J], pp.30-38, May 2008

[2] Yu D, Ju Y C, Wang Y Y, Zweig G, et al. Automated directory assistance system: From theory to practice[J].in Proc. Interspeech, Antwerp, Belgium,2007: 2709-2712.

[3] Natarajan P, Prasad R, Schwartz R M, et al. A scalable architecture for directory assistance automation[J].in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, Orlando, FL, 2002:121-124.

[4] Yu D, Ju Y C, Wang Y Y, et al. N-Gram Based Filler Model for Robust Grammar Authoring[J].in Proc. ICASSP,2006(1):565-568.

第12篇

語音識別技術成為21世紀“數字時代”的重要開發領域,在計算機的多媒體技術應用和工業自動化控制應用等方面,成果令人屬目。語音識別技術是指用電子裝置來識別某些人的某些特征語音,語音識別的手段一般分為二大類,一類利用在計算機上開發語音識別系統,通過編程軟件達到對語音的識別,另一類采用專門的語音識別芯片來進行簡單的語音識別。利用專門的語音識別芯片應用在地鐵車輛上,具有結構簡單、使用方便,并且語音識別器有較高的可靠性、穩定性的特點,是簡單語音識別在自動控制應用上的一種優先方案。

目前上海地鐵一、二、三、五、六、八號線在車輛信息顯示系統的設計上缺少實用性和操作性,對乘客來講缺少在實時報站時的人性化。如:地鐵車廂內的乘客信息顯示系統和車廂外側的列車信息顯示系統。如果在每個車門的上方安裝車站站名動態顯示地圖,實時顯示與車廂廣播同步的信息,以及在每節車廂外側顯示列車的終點站,良好的工業設計不僅能給廣大的乘客帶來非常大的幫助,而且能夠提升上海地鐵服務的形象。由于在設計以上地鐵列車時,受科技發展的限制。現在上海地鐵4號線在車輛信息顯示系統的設計上滿足了廣大的乘客的需求,

增加了車站站名動態顯示地圖。

如何在現有的地鐵車輛上增加地鐵車廂內的乘客信息顯示系統和車廂外側的列車信息顯示系統,如圖1、2,首先考慮其實用性和性價比,同時安裝、操作要方便,在不影響列車的性能的前提下,完成本乘客信息顯示系統的應用,設計方案的選擇極其重要,目前的乘客信息顯示系統比較復雜,例如:對于應用在某條線路上的聲音識別系統,不僅要修改原語音文件,而且聲音識別器不容易操縱,

對使用者來講仍然存在比較多的問題。對于應用在某條線路上數字傳輸顯示系統,其操作方法不僅給司機帶來了任務,每站需要手動操作二次,同時顯示的相關內容沒有實時性,總之乘客信息顯示系統比較落后。

設計一種符合現代化要求的乘客信息顯示系統是非常必要。

2.設計

地鐵車輛乘客信息顯示系統的設計,采用CMOS語音識別大規模集成電路,識別響應時間小于300 ms。HM2007芯片采用單片結構,如圖3。將語音識別需要的全部電路:CPU、A/D、ROM、語音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內,這樣外圍電路就非常少,外接64K非易失性SRAM,最多能識別40個車站站名語音(字長0.9秒),或(字長1.92秒)但識別僅20個車站站名語音。按正常人的講話速度,0.9秒一般每秒吐字1到3個為宜。

針對目前上海地鐵列車在車廂內外無LED動態站名顯示而設計,通過將列車車廂廣播的模擬信號轉換成數字信號,自動控制LED發光二極管,在列車在車廂內使得廣播的內容(每個車站站名)與發光二極管顯示面板聲光同步,將顯示面板放置地鐵車輛的每扇車門上方,并且顯示面板以地鐵運營線路為背景,達到列車進站和出站時能分別指示。在列車車廂外讓乘客非常直觀地、一目了然地了解車輛的終點站方向,從而方便乘客的上下車,提高了地鐵服務水平。在國外的地鐵列車上應用已相當普遍。

語音識別顯示器①的輸入端與車載廣播功放器相連接,實現廣播模擬信號發出的語音進行車站名的自動識別。不需要編程技術和修改文件等方法,全部采用硬件方法設計。整個系統分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語言識別部分;(4)執行顯示部分;(5)錄音功能部分。

(1)輸入控制部分:

通過麥克風或(結合器)連接,如圖4所示,要求模擬語音輸入點的電壓必須控制在大約20mv左右,以確保后期語音識別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號轉變成數字方波信號,對語音輸入進行開關量的控制,確保在T

(2)語音識別部分:

利用語音識別芯片HM2007和外接6264SRAM存儲器組成為主要部分,(HM2007中ROM已經固化了語音語法技術)對語音的存儲及語音語法算法進行控制。HM2007的詳細內容見產品說明書。

(3)噪音濾波部分:

濾波功能是自動識別(阻擋)我們在設計階段設計好的各個工況的語音情況,例如:司機的講話及車輛雜音等(在麥克風的工況下),以確保輸入語音的可靠性、穩定性,特采用UM3758串行編譯碼一體化進行濾波電路。如圖5。

(4)執行顯示部分:

將車廂廣播喇叭的模擬信息通過語音識別器轉變成數字信息,最終經過譯碼電路、4/16多路數據選擇器及RS485接口,去控制車廂內車門上十個LED顯示面板,如圖6。

(5)錄音功能部分:

在進行廣播內容更改時,本項目最大的特點是:不需要任何手段的手工軟件編程的修改,而是通過遠程音頻電路控制技術進行按動相關按鈕,選擇地址然后自動錄入內容,如圖6。

3. 結論

語音識別器及LED顯示面板的設計,能應用到以前沒有LED顯示面功能的地鐵車輛上,與其他所設計的方式相比較,語音識別控制簡單、可靠性好、安裝方便、相對投資最小和不改動車廂內任何電器為特點,僅提供110VDC電源和音頻輸入接口。

本項目的開發具有一定社會效益,得到國內外乘客和殘疾人員的歡迎,提高了地鐵服務質量。

參考文獻:

1. HUALON MICRELECTRONICS CORPORATION TIWAN

PRODUCT NUMBER: HM2007

2. 555集成電路實用大全

上海科技普及出版社

3.①獲得“2003年上海市優秀發明選拔賽三等獎”

4.①編入《中國科技發展精典文庫》第四輯

主站蜘蛛池模板: 林芝县| 驻马店市| 四子王旗| 长沙市| 遂溪县| 建水县| 昂仁县| 天峨县| 家居| 华阴市| 满城县| 桐庐县| 布尔津县| 莱西市| 房山区| 中阳县| 泰州市| 商河县| 华容县| 钟山县| 泸州市| 陆丰市| 桂林市| 眉山市| 新龙县| 龙州县| 南昌县| 浙江省| 永靖县| 赫章县| 巴塘县| 龙山县| 乳山市| 天长市| 五台县| 互助| 韩城市| 郸城县| 呼玛县| 邯郸市| 江孜县|