真人一对一直播,chinese极品人妻videos,青草社区,亚洲影院丰满少妇中文字幕无码

0
首頁 精品范文 語音識(shí)別系統(tǒng)

語音識(shí)別系統(tǒng)

時(shí)間:2022-11-03 15:43:12

開篇:寫作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇語音識(shí)別系統(tǒng),希望這些內(nèi)容能成為您創(chuàng)作過程中的良師益友,陪伴您不斷探索和進(jìn)步。

語音識(shí)別系統(tǒng)

第1篇

[摘要]各個(gè)部門和領(lǐng)域?qū)?a href="http://www.fhxhlc.com/haowen/23481.html" target="_blank">語音識(shí)別系統(tǒng)的需求不同,使得語音識(shí)別系統(tǒng)的特性和指標(biāo)表現(xiàn)出的差異性非常大,所以語音識(shí)別系統(tǒng)要依據(jù)特定的指標(biāo)和需求進(jìn)行相關(guān)的設(shè)計(jì)。本文就語音識(shí)別系統(tǒng)相關(guān)的技術(shù)進(jìn)行了分析,供大家借鑒與參考。

[關(guān)鍵詞]語音識(shí)別系統(tǒng);差異性;指標(biāo)需求

一、引言

語音作為語言的聲學(xué)體現(xiàn),也是人類進(jìn)行信息交流最自然、和諧的手段。與機(jī)械設(shè)各進(jìn)行語音的溝通,讓機(jī)器可以明白人類在說什么,并理解這是人類長期的夢想。語音識(shí)別技術(shù),也被稱為自動(dòng)語音識(shí)別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。語音識(shí)別技術(shù)的應(yīng)用包括語音撥號(hào)、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識(shí)別技術(shù)與其他自然語言處理技術(shù)如機(jī)器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,語音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。

二、語音信號(hào)分析與特征提取

1.基于發(fā)音模型的語音特征。(1)發(fā)音系統(tǒng)及其模型表征。其發(fā)聲過程就是由肺部進(jìn)行收縮,并進(jìn)行壓縮氣流由支氣管通過聲道和聲門引起的音頻振蕩所發(fā)生的。氣流通過聲門時(shí)使得聲帶的張力剛好使聲帶發(fā)生比較低的頻率的振蕩,從而形成準(zhǔn)周期性的空氣脈沖,空氣脈沖激勵(lì)聲道便會(huì)產(chǎn)生一些濁音;聲道的某處面積比較小,氣流沖過時(shí)便會(huì)產(chǎn)生湍流,會(huì)得到一種相似噪聲的激勵(lì),對應(yīng)的則是摩擦音;聲道完全閉合并建立起相應(yīng)的氣壓,突然進(jìn)行釋放就是爆破音。(2)語音信號(hào)線性預(yù)測倒譜系數(shù)。被廣泛應(yīng)用的特征參數(shù)提取技術(shù)的就是線性預(yù)測分析技術(shù),很多成功的應(yīng)用系統(tǒng)都是選用基于線性預(yù)測技術(shù)進(jìn)而提取的LPC倒譜系數(shù)作為應(yīng)用系統(tǒng)的特征。LPC倒譜就是復(fù)倒譜。復(fù)倒譜就是信號(hào)通過z進(jìn)行變換以后再取其對數(shù),求反z變換所得到的譜。線性預(yù)測分析方法其實(shí)就是一種譜的估計(jì)方法,所以其聲道模型系統(tǒng)函數(shù)H(z)反映的就是聲道頻率激勵(lì)和信號(hào)的譜包絡(luò),對IHg(z)作反z變換就可以得出其復(fù)倒譜系數(shù)。改復(fù)倒譜系數(shù)是依據(jù)線性預(yù)測模型直接獲得的,而又被稱為LPC倒譜系數(shù)(LPCC)。

2.基于聽覺模型的語音特征。(1)聽覺系統(tǒng)模型。一是人類的聽覺系統(tǒng)對于聲音頻率高低和聲波實(shí)際的頻率高低不是線性的關(guān)系,它對不同聲音頻率信號(hào)的敏感度是不一樣的,也可看成是對數(shù)關(guān)系。二是關(guān)于掩蔽效應(yīng)指的就是聲音A感知的閉值因?yàn)榱硗獾纳碛暗某霈F(xiàn)出現(xiàn)增大的現(xiàn)象。其生理依據(jù)主要是頻率群,對頻率群進(jìn)行劃分會(huì)出現(xiàn)許多的很小的部分,每一個(gè)部分都會(huì)對應(yīng)一個(gè)頻率群,掩蔽效應(yīng)就發(fā)生在這些部分過程中。所以在進(jìn)行相應(yīng)的聲學(xué)測量時(shí),頻率刻度一般取非線性刻度。語音識(shí)別方面,主要的非線性頻率刻度有Mel刻度、對數(shù)刻度和Kon~nig刻度。其中Mel刻度被廣泛的應(yīng)用,其是最合理的頻率刻度。(2)語音信號(hào)Mcl頻率倒譜系數(shù)。Mel頻率倒譜系數(shù)利用人們耳朵的聽覺特性,在頻域?qū)㈩l率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數(shù)。MFCC參數(shù)的計(jì)算過程:

一是對語音信號(hào)進(jìn)行相應(yīng)的預(yù)加重,從而確定了每一幀的語音采樣的長度,語音信號(hào)通過離散FFT變換得到其頻譜。二是求頻譜幅度的平方,得到能量譜,并選用一組三角濾波器在頻譜域?qū)δ芰窟M(jìn)行帶通濾波。帶通濾波器中心頻率一般是按照Mcl頻率刻度排列的(間隔為150Mel,帶寬為300Mel),其每個(gè)三角形濾波器的兩個(gè)底點(diǎn)頻率和相鄰的兩個(gè)濾波器的中心頻率相等,頻率響應(yīng)之和為l。濾波器的個(gè)數(shù)一般和臨界帶數(shù)比較相近,設(shè)濾波器數(shù)是M,濾波后得到的輸出為:X(k),k=1,2,…,M。

3.語音的端點(diǎn)檢測。語音的端點(diǎn)檢測就是對語音的起點(diǎn)和終點(diǎn)的確認(rèn),由于漢語語音的聲母是清聲母,有著送氣和不送氣的塞音,和環(huán)境噪聲接近比較進(jìn)行分辨。語音信號(hào)有短時(shí)穩(wěn)定性的特性,可選用平穩(wěn)過程的分析方法進(jìn)行相應(yīng)的處理,對語音端點(diǎn)檢測進(jìn)行分幀的處理,再依次對每一幀是否正確進(jìn)行處理。每一幀的幀長如果比較大,計(jì)算量比較小的,可進(jìn)行端點(diǎn)檢測就比較快,但其誤差會(huì)相應(yīng)的增加。

語音識(shí)別技術(shù)發(fā)展到今天,對特定人語音識(shí)別系統(tǒng)的識(shí)別精度就更高。調(diào)查統(tǒng)計(jì)表明多達(dá)85%以上的人對語音識(shí)別的信息查詢服務(wù)系統(tǒng)的性能表示滿意。可以預(yù)測在近五到十年內(nèi),語音識(shí)別系統(tǒng)的應(yīng)用將更加廣泛。各種各樣的語音識(shí)別系統(tǒng)產(chǎn)品將出現(xiàn)在市場上。人們也將調(diào)整自己的說話方式以適應(yīng)各種各樣的識(shí)別系統(tǒng)。在短期內(nèi)還不可能造出具有和人相比擬的語音識(shí)別系統(tǒng),要建成這樣一個(gè)系統(tǒng)仍是人類面臨的一個(gè)大的挑戰(zhàn)。

第2篇

關(guān)鍵詞:SAPI;C#;.NET;語音識(shí)別

1 引言

語音識(shí)別是信息處理領(lǐng)域的一個(gè)重要方向,語音識(shí)別通常又可以分為兩種工作方式:一種是連續(xù)語音聽寫,這種方式需要語音識(shí)別引擎對語音聽寫過程中上下文以及相同相似發(fā)音的詞語進(jìn)行分析、做出判斷,實(shí)現(xiàn)難度較大。另一種是命令與控制方式(command and control),在此種方式下,語音識(shí)別引擎可以通過對簡短的命令語音進(jìn)行識(shí)別,以便執(zhí)行相應(yīng)操作。

語音識(shí)別技術(shù)基礎(chǔ)是非常復(fù)雜的。正是如此,它獲得了世界上著名的公司與研究機(jī)構(gòu)的青睞,語音識(shí)別技術(shù)正經(jīng)歷著日新月異的改變,其中一些產(chǎn)品已經(jīng)取得較好的效果,用戶可以在上述產(chǎn)品基礎(chǔ)之上進(jìn)行二次開發(fā)。

2開發(fā)圖片語音識(shí)別系統(tǒng)的條件

語音識(shí)別技術(shù)的發(fā)展涉及人機(jī)交互,自然語言處理,人工智能。這使開發(fā)人員難以從底層進(jìn)行應(yīng)用開發(fā),欣慰的是一些公司與研究機(jī)構(gòu)已經(jīng)推出他們的研究成果,并且提供了供開發(fā)人員使用的開發(fā)平臺(tái)與接口。其中影響比較大的有微軟的SAPI、劍橋大學(xué)的HTK,IBM的via voice開發(fā)平臺(tái)。本文采用微軟的Speech SDK5.1開發(fā)包,它不僅是一個(gè)免費(fèi)的開發(fā)包,同時(shí)提供對中文的支持。

2.1微軟SAPI簡介

微軟的 Speech SDK是基于 C O M 的視窗操作系統(tǒng)開發(fā)工具包。這個(gè) SDK中含有語音應(yīng)用程序接口( SAPI )、微軟連續(xù)語音識(shí)別引擎(MCSR)以及串聯(lián)語音合成(又稱文本到語音)引擎(TTS)等等。SAPI 中還包括對于低層控制和高度適應(yīng)性的直接語音管理、訓(xùn)練向?qū)А⑹录?語法、 編譯、資源、語音識(shí)別管理以及文本到語音管理,其結(jié)構(gòu)如圖 l 所示。

圖1 SAPI結(jié)構(gòu)

SAPI API在應(yīng)用程序和語音引擎之間提供一個(gè)高級別的接口。SAPI實(shí)現(xiàn)了所有必需的對各種語音引擎的實(shí)時(shí)的控制和管理等低級別的細(xì)節(jié)。

SAPI引擎的兩個(gè)基本類型是文本語音轉(zhuǎn)換系統(tǒng)(TTS)和語音識(shí)別系統(tǒng)。TTS系統(tǒng)使用合成語音合成文本字符串和文件到聲音音頻流。語音識(shí)別技術(shù)轉(zhuǎn)換人類的聲音語音流到可讀的文本字符串或者文件。

2.2 在.net應(yīng)用程序中使用SAPI的準(zhǔn)備

安裝SAPI 5.1語音開發(fā)包。

由于SAPI基于Windows平臺(tái),通過COM接口供.net平臺(tái)調(diào)用,所以具體調(diào)用方法為:新建工程,在此工程的解決方案中單擊右鍵,在添加/引用中選擇 Microsoft Speech Object Library,并在程序中添加對SAPI命名空間的引用:using SpeechLib。

3 系統(tǒng)模型設(shè)計(jì)及實(shí)現(xiàn)

3.1 創(chuàng)立系統(tǒng)界面

 

圖2 系統(tǒng)界面一覽

3.2  使用SAPI語音識(shí)別核心類

ISpRecognizer類是支持語音識(shí)別的核心類,主要用于訪問MCSR實(shí)現(xiàn)語音識(shí)別。在進(jìn)行語音識(shí)別時(shí),微軟Speech SDK 5.1 支持兩種模式的語音識(shí)別引擎:共享(Share)和獨(dú)享(InProc)。在本系統(tǒng)中,我們使用共享型語音識(shí)別引擎,CLSID_SpSharedRecognizer。

SpSharedRecoContext類是語音識(shí)別上下文接口,它可以發(fā)送與接收消息通知,通過CreateGrammar方法創(chuàng)建語法規(guī)則。通過對它的兩個(gè)事件:_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重寫,我們可以很輕松的得到當(dāng)前語音識(shí)別結(jié)果。第一個(gè)事件對應(yīng)的就是識(shí)別結(jié)果顯示:1、第二個(gè)事件對應(yīng)的就是識(shí)別結(jié)果顯示;2、ISpeechRecoGrammar類是語法規(guī)則接口,定義語音識(shí)別引擎需要是別的語音類容。起語法規(guī)則可以分為聽寫型與命令控制型。聽寫型可以識(shí)別大詞匯量語音,但是別效率與識(shí)別準(zhǔn)確率較低。命令控制型有針對性的對特定語音進(jìn)行識(shí)別,在效率與準(zhǔn)確率上都非常高。

當(dāng)然一個(gè)ISpRecognizer不管是共享還是獨(dú)享,都可以有多個(gè)RecoContext與其關(guān)聯(lián),而一個(gè)RecoContext也可以與多個(gè)ISpeechReco  Grammar關(guān)聯(lián),每個(gè)ISpeechRecoGramma  r識(shí)別各自規(guī)定的內(nèi)容。

 

圖3 語音識(shí)別類對應(yīng)關(guān)系

3.3  編寫系統(tǒng)核心代碼

通過讀入外部Grammar配置語音識(shí)別引擎,外部Grammar文件以xml文件格式存儲(chǔ)。具體形式如下:

ManegePic.xml

玫瑰

大象

獅子

老虎

仙人掌

珠穆朗瑪峰

布達(dá)拉宮

貂蟬

十字軍

世界杯

阿里巴巴

乒乓球

五星紅旗

……

采用命令控制型Grammar是為了使語音識(shí)別結(jié)果準(zhǔn)確有效,定義外部Grammar是為了保持以后系統(tǒng)的可擴(kuò)展性。對于新輸入的圖片,只要將圖片名字加入到 圖片名字

中即可。

開始語音輸入事件:

private void btnStart_Click(object sender, EventArgs e)

{

ssrc = new SpSharedRecoContext();

srg = ssrc.CreateGrammar(1);

srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);

//讀入規(guī)則

ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);

//添加識(shí)別最終事件 

ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);

//添加識(shí)別懷疑事件

srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);

//激活規(guī)則 

}

其中識(shí)別最終事件是系統(tǒng)在完整處理輸入音頻之后得到的最后識(shí)別結(jié)果,懷疑事件則是因?yàn)橄到y(tǒng)在處理過程中的最相似識(shí)別結(jié)果。這兩個(gè)事件在一些環(huán)境之下得到的識(shí)別結(jié)果不同。

識(shí)別懷疑事件:

private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)

{

  textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);

}

將系統(tǒng)在處理過程中的最相似結(jié)果顯示在textBox控件之中。

識(shí)別最終事件:

void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)

{

textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);

// 將系統(tǒng)最終結(jié)果顯示在textBox控件之中。

try

{

Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;

//顯示識(shí)別結(jié)果的圖片

}

Catch (Exception e)

{}

}

由于篇幅有限,這里僅僅給出了構(gòu)建語音識(shí)別引擎與圖片顯示部分的代碼。完 整的系統(tǒng)可以在Windows XP + vs2008環(huán)境中調(diào)試通過,實(shí)現(xiàn)基于.net和SAPI的圖片語音識(shí)別系統(tǒng)。

4 結(jié)語

通過制作圖片語音識(shí)別系統(tǒng),對利用SAPI進(jìn)行語音識(shí)別有了初步的研究和實(shí)踐,該系統(tǒng)具有一定的擴(kuò)展性,也可以作為子系統(tǒng)嵌入到其他系統(tǒng)之中。該系統(tǒng)的功能可以擴(kuò)展到語音控制文件操作,比如打開/關(guān)閉文件,添加文件,可以制作一個(gè)不需要鍵盤鼠標(biāo)只利用語音就可進(jìn)行操作的軟件系統(tǒng)。

參考文獻(xiàn):

[1] Microsoft Speech 5.1 SDK Help .Microsoft Corporation

第3篇

以下是來自現(xiàn)場的報(bào)道。

市場變化提出新需求

搬遷至新物流中心

神田業(yè)務(wù)支持公司成立于1974年,當(dāng)時(shí)與長崎屋合資,主要負(fù)責(zé)服裝配送。該公司在日本最早引進(jìn)了大型托盤輸送機(jī),曾一時(shí)成為業(yè)界熱議的話題。2002年,3家分公司合并后統(tǒng)一命名為神田業(yè)務(wù)支持公司。

公司現(xiàn)任總經(jīng)理吉林正和先生當(dāng)時(shí)已經(jīng)進(jìn)入公司,他回顧公司的發(fā)展歷程時(shí)說:“30多年來,公司經(jīng)營的物流業(yè)務(wù)幾乎都集中在服裝領(lǐng)域,因此積累了豐富的服裝物流經(jīng)驗(yàn)。近些年,公司的物流設(shè)施及分揀設(shè)備等已開始老化,為此建設(shè)了新的物流中心。同時(shí),為適應(yīng)客戶新的需求,我們準(zhǔn)備配送服裝以外的貨物,因此決定引進(jìn)語音識(shí)別系統(tǒng)。”

目前,習(xí)志野物流中心處理的貨物以服裝為主,同時(shí)也負(fù)責(zé)配送鞋類以及其他日用品,據(jù)說已接到約20家客戶的業(yè)務(wù)委托。物流中心根據(jù)客戶訂單的要求進(jìn)行分揀、貼標(biāo)簽等操作,然后向全國配送。

服裝類商品主要來自中國大陸及臺(tái)灣、越南等地,平均每天發(fā)送10萬件左右,需要投入包括物流中心職員和小時(shí)工在內(nèi)的50~60人從事物流作業(yè),并根據(jù)業(yè)務(wù)量進(jìn)行靈活調(diào)整。

適應(yīng)市場變化

在公司的舊址茜浜,倉庫內(nèi)的主要設(shè)備除了大型托盤輸送機(jī)外,還有自動(dòng)分揀機(jī)。如果要繼續(xù)使用這些設(shè)備,物流中心一層需要擁有2310平方米的面積,并且老化的設(shè)備也需要大筆資金進(jìn)行維修,如此看來實(shí)屬浪費(fèi)。可以說,繼續(xù)使用大型設(shè)備的外部條件發(fā)生了變化。

自動(dòng)分揀機(jī)每小時(shí)的處理能力達(dá)2000件,這是人工作業(yè)望塵莫及的。如果不使用分揀機(jī),根本不可能達(dá)到2000件/小時(shí)的處理能力,那么其他設(shè)備也都會(huì)閑置下來,其結(jié)果將是物流中心無法應(yīng)對市場的變化。

神田公司經(jīng)營策劃室的松尾健太郎科長談到:“考慮公司業(yè)務(wù)范圍的變化,我們的方針是保證低成本的同時(shí),新系統(tǒng)要能夠應(yīng)對市場的變化。”

這個(gè)新系統(tǒng)就是“語音識(shí)別系統(tǒng)”。

選擇語音識(shí)別系統(tǒng)

耳、眼、手、口總動(dòng)員

吉林總經(jīng)理談到:“在建設(shè)新物流中心時(shí),神田面臨的最大問題是建設(shè)資金,因此我們要控制初期投資。如果使用自動(dòng)分揀機(jī),至少需要2~3億日元的資金,但我們的總預(yù)算只有1億日元。而且還要求必須保證訂單的交付時(shí)間。最終,我們選擇了語音識(shí)別系統(tǒng)。”

除軟件外,新物流中心引進(jìn)的設(shè)備只有掛在腰間的便攜式終端和耳機(jī),共25套。包括基礎(chǔ)系統(tǒng)改造在內(nèi),總投資共6000萬日元。

實(shí)際上,神田公司從幾年前就已開始研究語音識(shí)別系統(tǒng),只不過一直沒有對外公開。

新物流中心處理的貨物仍以服裝為主。通常,以箱(盒)為包裝的物品是很容易處理的,數(shù)量統(tǒng)計(jì)也不易出錯(cuò)。但服裝往往裝在塑料袋中,既薄又輕,進(jìn)行揀選操作時(shí),如果工作人員一只手拿著無線終端,另一只手拿著塑料袋,不容易讀取條碼標(biāo)簽,又容易數(shù)錯(cuò)數(shù)量。此外,服裝的一大特點(diǎn)是顏色、規(guī)格多,SKU多,因此,如果使用手持終端進(jìn)行操作將非常費(fèi)力。

現(xiàn)在使用語音識(shí)別系統(tǒng),終端掛在腰間,解放了雙手,操作人員可以用雙手完成揀選作業(yè)。操作人員通過耳機(jī)得到系統(tǒng)指令的同時(shí),可以立即回應(yīng),而不需要“看明細(xì)”、“按開關(guān)”的動(dòng)作,能夠集中精力進(jìn)行揀選。

松尾科長說:“過去,物流現(xiàn)場的操作在很大程度上依賴于‘眼睛’,所有終端和明細(xì)單都必須用眼睛來判斷,如果看錯(cuò)了。就會(huì)直接導(dǎo)致發(fā)錯(cuò)貨。現(xiàn)在有了語音識(shí)別系統(tǒng),其最大的魅力就是通過‘聽’接受指令,用‘眼’和‘手’來確認(rèn),用‘說’來回應(yīng),讓兩手同時(shí)工作。這就是感覺器官的總動(dòng)員。由此帶來工作準(zhǔn)確率和效率的大幅提高。”

這也是神田公司選擇語音識(shí)別系統(tǒng)的初衷。

語音揀選解決方案在世界的發(fā)展

回顧歷史,在上世紀(jì)90年代,日本有幾家公司曾引進(jìn)過語音識(shí)別系統(tǒng),但由于當(dāng)時(shí)的識(shí)別能力有限,結(jié)果半途而廢。之后,經(jīng)過改良的語音識(shí)別系統(tǒng)再度登場,尤其是在歐美物流界頗受歡迎,其中VOCOLLECT公司開始嶄露頭角。

特別值得一提的是,世界零售巨頭沃爾瑪把語音識(shí)別系統(tǒng)作為標(biāo)準(zhǔn)化配置的系統(tǒng),在其世界各地的物流中心都在使用。早在3年前,日本國內(nèi)的沃爾瑪旗下的西友?三鄉(xiāng)物流中心業(yè)也已引進(jìn)了VOCOLLECT的產(chǎn)品。

此后,眾多經(jīng)銷商的市場拓展行動(dòng)終于開啟了語音揀選的世界市場之門。VOCOLLECT公司于2006年成立了VOCOLLECT日本分公司,同時(shí)在東歐、南美也逐漸打開市場,目前年銷售額近100億日元,占世界同行業(yè)銷售的80%。

承擔(dān)神田公司語音系統(tǒng)建設(shè)項(xiàng)目的日本優(yōu)利公司售后服務(wù)事業(yè)部矢島孝安部長說:“人們往往認(rèn)為只憑借聲音并不十分可靠,但VOCOLLECT的產(chǎn)品解決了這一難題。其識(shí)別系統(tǒng)和硬件設(shè)備組成了堪稱完美的系統(tǒng)。”

VOCOLLECT產(chǎn)品的特性

VOCOLLECT日本分公司總經(jīng)理塞薩爾?西森介紹說,市場上的其他產(chǎn)品大多是把幾家公司的終端和軟件組合在一起,而VOCOLLECT則根據(jù)物流現(xiàn)場的實(shí)際需要,從硬件到軟件都是自主研發(fā)的,具有非常實(shí)用的語音識(shí)別功能,能夠用日語應(yīng)答就是其一大特色。

如何確保語音識(shí)別的精度是使用中的關(guān)鍵問題。塞薩爾?西森總經(jīng)理認(rèn)為,要提高語音識(shí)別的精度是有前提的。語音識(shí)別的基本條件是“指定說話人”和“不指定說話人”,在日本,其他公司都選擇了“不指定說話人”,唯獨(dú)VOCOLLECT公司選擇了“指定說話人”。塞薩爾?西森總經(jīng)理指出,在被噪音環(huán)繞的物流和生產(chǎn)現(xiàn)場,“不指定說話人”的方式存在很多問題。

“不指定說話人”即任何人的聲音都可能被確認(rèn)。因?yàn)樗雎粤嗣總€(gè)人聲音的差異,那么其識(shí)別能力自然低下,特別是在噪音大的場所,附近幾個(gè)人同時(shí)作業(yè),如果別人的聲音一旦被確認(rèn)。必將出現(xiàn)差錯(cuò)。

VOCOLLECT公司的“指定說

話人”的方式,是根據(jù)每個(gè)人所發(fā)出的聲音的頻率而設(shè)定的,具有聲音識(shí)別功能。這在很大程度上提高了識(shí)別精確度。在實(shí)際操作中,只要改變用戶名、輸入ID號(hào),就能夠直接調(diào)出所需的信息,因此在登錄系統(tǒng)后,其他工作人員也可以使用。

當(dāng)然。每個(gè)工作人員初次登錄時(shí),都需要經(jīng)過多次練習(xí),登錄加練習(xí)的時(shí)間大約在20-30分鐘。因?yàn)樵O(shè)有語音矯正功能,經(jīng)過幾次練習(xí),工作人員就可以熟練掌握。

此外,終端設(shè)備的堅(jiān)固性也非常突出,即使跌落地面,或被踩、被壓,都能保持完好無損。這給工作人員帶來安全感,可以全神貫注地投入揀選工作。

構(gòu)建并起用系統(tǒng)僅耗時(shí)3個(gè)月

神田公司選擇日本優(yōu)利推薦的VOCOLLECT公司的語音識(shí)別系統(tǒng)之前,已對該系統(tǒng)的結(jié)構(gòu)和實(shí)用性做了全面、細(xì)致的調(diào)查和論證。

吉林總經(jīng)理說:“因?yàn)槲覀兪鞘状问褂谜Z音識(shí)別系統(tǒng),因此必須進(jìn)行全面的考察。在考察3家日用品批發(fā)商使用該系統(tǒng)的效果時(shí),我們發(fā)現(xiàn)該系統(tǒng)不僅能用于分揀,還能用于盤點(diǎn)。這也是我們選擇它的一個(gè)重要原因。事實(shí)證明這個(gè)系統(tǒng)是完美的。”

接下來的系統(tǒng)設(shè)計(jì),神田公司僅給優(yōu)利公司和VOCOLLECT公司3個(gè)月時(shí)間。在此期間,神田為了讓員工盡快進(jìn)入狀態(tài),在現(xiàn)場進(jìn)行實(shí)地演示。2008年8月15~16日,公司在搬遷的同時(shí)安裝新系統(tǒng),18日就開始正常發(fā)貨了。

下面介紹語音識(shí)別系統(tǒng)的實(shí)際應(yīng)用。

貨物初次分揀

1、2、總體分類

語音識(shí)別系統(tǒng)主要應(yīng)用于服裝的發(fā)貨流程。

圖1、圖2是位于物流中心二層的存儲(chǔ)區(qū)。每天上午,操作人員根據(jù)發(fā)貨指示,首先進(jìn)行總體分類,即把當(dāng)天需要發(fā)的貨按款式分別集中在臺(tái)車上的紙箱中。這里的揀選作業(yè)是對照產(chǎn)品明細(xì)進(jìn)行的。

3 二次分揀

在相鄰的揀選區(qū),貨物按照店鋪別進(jìn)行分揀。在圖3中,左邊是使用手持終端進(jìn)行掃描,右邊是使用語音識(shí)別系統(tǒng)進(jìn)行揀選。

4、5手持終端+輸送機(jī)

總體分類完成后,把紙箱放到輸送機(jī)上,按發(fā)貨店鋪的不同,用手持終端逐一進(jìn)行掃描。

因?yàn)槊考浳锖彤a(chǎn)品明細(xì)都要進(jìn)行掃描,因此排除了款式錯(cuò)誤的可能。但因?yàn)槭菃问肿鳂I(yè),尤其對于較薄的服裝,產(chǎn)品數(shù)量容易弄錯(cuò)。偶爾也會(huì)發(fā)生無法讀取條碼標(biāo)簽的情況,或者標(biāo)簽被翻轉(zhuǎn)放置,此時(shí)操作起來相當(dāng)費(fèi)力。

6、7、臺(tái)車+手持終端

圖6是臺(tái)車分揀區(qū)。臺(tái)車底層放置了4個(gè)空周轉(zhuǎn)箱用于調(diào)節(jié)高度,上層的4個(gè)周轉(zhuǎn)箱分別代表4個(gè)店鋪,操作人員同時(shí)處理4家店鋪的貨物,操作非常快捷。當(dāng)然。通道,必須留有足夠的寬度,以保證臺(tái)車通過。

使用語音識(shí)別系統(tǒng)進(jìn)行揀選

8~11 語音識(shí)別揀選

前面提到的輸送機(jī)傳送來的周轉(zhuǎn)箱到達(dá)此處,按照發(fā)貨店鋪的不同依次進(jìn)行揀選。此時(shí)操作人員通過耳機(jī)接收指示,用麥克進(jìn)行回應(yīng),在“是”、“下面”的應(yīng)聲中進(jìn)行分揀作業(yè)。不僅雙手可同時(shí)操作,并且不需要看手持終端顯示的數(shù)據(jù),只需用眼睛確認(rèn)發(fā)貨明細(xì)上的代碼即可。

操作人員聽到的是什么樣的指示呢?是商店代碼、貨物代碼以及揀選的數(shù)量等,速度很快,聽到指示后必須立刻做出回應(yīng)。按照操作人員的話說:“聲音的節(jié)奏逐漸變快,我們已經(jīng)習(xí)慣了這樣的速度。”由于每個(gè)人的聽力和反應(yīng)速度存在差別,物流中心根據(jù)這一差別安排操作人員的崗位。

操作人員做出回應(yīng)后。下面的指示隨即就到。在這種快節(jié)奏中,幾乎沒有等待指示或閑下來的時(shí)間。

塞薩爾?西森總經(jīng)理說:“如果是使用手持終端,必然存在等待指令的時(shí)間。使用語音識(shí)別系統(tǒng)后,節(jié)省了操作時(shí)間。一旦有空閑的時(shí)間,操作人員反而會(huì)不習(xí)慣。”

VOCOLLECT的設(shè)計(jì)中包含了勞動(dòng)心理學(xué)原理,因?yàn)椴僮魅藛T的腰間攜帶了便攜終端,每個(gè)人可以調(diào)節(jié)適合自己的速度。

系統(tǒng)投入使用后,操作人員的熟練程度不斷提高,人均處理能力由原來每小時(shí)200~300件提高到500~700件。

此外,夏裝和冬裝有所不同,操作效率也存在差別,但結(jié)果卻比預(yù)期提高了50%。

12、13、不同商店的發(fā)貨明細(xì)及標(biāo)簽

根據(jù)語音指令做好的發(fā)貨明細(xì)上,標(biāo)有貨物代碼和商店代碼,暫時(shí)貼在貨箱的外面(圖12),待貨箱裝滿后,再把發(fā)貨明細(xì)放入箱中,然后把箱子放到輸送機(jī)上。

14、檢驗(yàn)

通過語音識(shí)別系統(tǒng)揀選的貨物。因?yàn)闆]有讀取條形碼,因此在包裝前需要檢查一遍。數(shù)量少時(shí)只要確認(rèn)條形碼即可,數(shù)量多時(shí)全部都要進(jìn)行檢驗(yàn)。

15、無線傳輸

通過2.4GHz的無線電波頻率,無線終端與服務(wù)器聯(lián)網(wǎng)后,進(jìn)行數(shù)據(jù)交換。

16、充電

在辦公室一角的架子上,放置了25臺(tái)充電器,以便為終端進(jìn)行充電。每次的充電過程需要8小時(shí)。

17、語音系統(tǒng)的管理

在同一辦公室內(nèi)設(shè)置了語音系統(tǒng)的管理器。畫面上顯示的是神田公司的WMS與合作公司VOCOLLECT的管理過程。

貼標(biāo)簽、包裝、發(fā)貨

18、19、貼價(jià)格標(biāo)簽、過檢針

貼價(jià)格標(biāo)簽、過檢針的操作也在物流中心二層完成。

20、21、搬運(yùn)發(fā)貨箱

貨箱打包完畢后碼盤,托盤貨物用叉車搬到垂直輸送機(jī),送往一層出貨區(qū)。

22、23、裝車

在出貨口,貨物裝上卡車,送到各店鋪。

目前,像這樣成功應(yīng)用語音識(shí)別系統(tǒng)的案例在日本還不多見。吉林總經(jīng)理對于初次引進(jìn)語音識(shí)別系統(tǒng)是這樣評價(jià)的:對于習(xí)慣了以往傳統(tǒng)分揀方法的操作人員來講,他們完全沒有不適應(yīng)的感覺,反而更喜歡現(xiàn)在極富節(jié)奏感的作業(yè)。

“要通過改善工作流程,使所有人員都適應(yīng)語音識(shí)別系統(tǒng),不斷提高工作效率。我們不要求最好,只追求更好”。吉林總經(jīng)理說。

第4篇

關(guān)鍵詞: 語音識(shí)別; 識(shí)別原理; 聲學(xué)建模方法; 多維模式識(shí)別系統(tǒng)

中圖分類號(hào): TN912.3?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

語言是人類相互交流最常用、最有效、最重要和最方便的通信形式,語音是語言的聲學(xué)表現(xiàn),與機(jī)器進(jìn)行語音交流是人類一直以來的夢想。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,語音識(shí)別技術(shù)也取得突破性的成就,人與機(jī)器用自然語言進(jìn)行對話的夢想逐步接近實(shí)現(xiàn)。語音識(shí)別技術(shù)的應(yīng)用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領(lǐng)域也發(fā)揮著極其重要的作用。它是信息社會(huì)朝著智能化和自動(dòng)化發(fā)展的關(guān)鍵技術(shù),使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。

1 語音識(shí)別技術(shù)的發(fā)展

語音識(shí)別技術(shù)起始于20世紀(jì)50年代。這一時(shí)期,語音識(shí)別的研究主要集中在對元音、輔音、數(shù)字以及孤立詞的識(shí)別。

20世紀(jì)60年代,語音識(shí)別研究取得實(shí)質(zhì)性進(jìn)展。線性預(yù)測分析和動(dòng)態(tài)規(guī)劃的提出較好地解決了語音信號(hào)模型的產(chǎn)生和語音信號(hào)不等長兩個(gè)問題,并通過語音信號(hào)的線性預(yù)測編碼,有效地解決了語音信號(hào)的特征提取。

20世紀(jì)70年代,語音識(shí)別技術(shù)取得突破性進(jìn)展。基于動(dòng)態(tài)規(guī)劃的動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)技術(shù)基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。

20世紀(jì)80年代,語音識(shí)別任務(wù)開始從孤立詞、連接詞的識(shí)別轉(zhuǎn)向大詞匯量、非特定人、連續(xù)語音的識(shí)別,識(shí)別算法也從傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的方法轉(zhuǎn)向基于統(tǒng)計(jì)模型的方法。在聲學(xué)模型方面,由于HMM能夠很好的描述語音時(shí)變性和平穩(wěn)性,開始被廣泛應(yīng)用于大詞匯量連續(xù)語音識(shí)別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學(xué)建模[2?3];在語言模型方面,以N元文法為代表的統(tǒng)計(jì)語言模型開始廣泛應(yīng)用于語音識(shí)別系統(tǒng)[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡(luò)的語音建模方法開始廣泛應(yīng)用于LVCSR系統(tǒng),語音識(shí)別技術(shù)取得新突破。

20世紀(jì)90年代以后,伴隨著語音識(shí)別系統(tǒng)走向?qū)嵱没Z音識(shí)別在細(xì)化模型的設(shè)計(jì)、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應(yīng)方面取得較大進(jìn)展[5]。同時(shí),人們更多地關(guān)注話者自適應(yīng)、聽覺模型、快速搜索識(shí)別算法以及進(jìn)一步的語言模型的研究等課題[6]。此外,語音識(shí)別技術(shù)開始與其他領(lǐng)域相關(guān)技術(shù)進(jìn)行結(jié)合,以提高識(shí)別的準(zhǔn)確率,便于實(shí)現(xiàn)語音識(shí)別技術(shù)的產(chǎn)品化。

2 語音識(shí)別基礎(chǔ)

2.1 語音識(shí)別概念

語音識(shí)別是將人類的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過程[7]。語音識(shí)別以語音為研究對象,它是語音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支。語音識(shí)別的研究涉及微機(jī)技術(shù)、人工智能、數(shù)字信號(hào)處理、模式識(shí)別、聲學(xué)、語言學(xué)和認(rèn)知科學(xué)等許多學(xué)科領(lǐng)域,是一個(gè)多學(xué)科綜合性研究領(lǐng)域[8]。

根據(jù)在不同限制條件下的研究任務(wù),產(chǎn)生了不同的研究領(lǐng)域。這些領(lǐng)域包括:根據(jù)對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續(xù)語音識(shí)別系統(tǒng);根據(jù)對說話人的依賴程度,可分為特定人和非特定人語音識(shí)別系統(tǒng);根據(jù)詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識(shí)別系統(tǒng)。

2.2 語音識(shí)別基本原理

從語音識(shí)別模型的角度講,主流的語音識(shí)別系統(tǒng)理論是建立在統(tǒng)計(jì)模式識(shí)別基礎(chǔ)之上的。語音識(shí)別的目標(biāo)是利用語音學(xué)與語言學(xué)信息,把輸入的語音特征向量序列[X=x1,x2,…,xT]轉(zhuǎn)化成詞序列[W=w1,w2,…,wN]并輸出。基于最大后驗(yàn)概率的語音識(shí)別模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要尋找的最可能的詞序列[W],應(yīng)該使[P(X|W)]與[P(W)]的乘積達(dá)到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學(xué)模型決定。[P(W)]是[W]獨(dú)立于語音特征矢量的先驗(yàn)概率,由語言模型決定。由于將概率取對數(shù)不影響[W]的選取,第四個(gè)等式成立。[logP(X|W)]與[logP(W)]分別表示聲學(xué)得分與語言得分,且分別通過聲學(xué)模型與語言模型計(jì)算得到。[λ]是平衡聲學(xué)模型與語言模型的權(quán)重。從語音識(shí)別系統(tǒng)構(gòu)成的角度講,一個(gè)完整的語音識(shí)別系統(tǒng)包括特征提取、聲學(xué)模型、語言模型、搜索算法等模塊。語音識(shí)別系統(tǒng)本質(zhì)上是一種多維模式識(shí)別系統(tǒng),對于不同的語音識(shí)別系統(tǒng),人們所采用的具體識(shí)別方法及技術(shù)不同,但其基本原理都是相同的,即將采集到的語音信號(hào)送到特征提取模塊處理,將所得到的語音特征參數(shù)送入模型庫模塊,由聲音模式匹配模塊根據(jù)模型庫對該段語音進(jìn)行識(shí)別,最后得出識(shí)別結(jié)果[9]。

語音識(shí)別系統(tǒng)基本原理框圖如圖1所示,其中:預(yù)處理模塊濾除原始語音信號(hào)中的次要信息及背景噪音等,包括抗混疊濾波、預(yù)加重、模/數(shù)轉(zhuǎn)換、自動(dòng)增益控制等處理過程,將語音信號(hào)數(shù)字化;特征提取模塊對語音的聲學(xué)參數(shù)進(jìn)行分析后提取出語音特征參數(shù),形成特征矢量序列。語音識(shí)別系統(tǒng)常用的特征參數(shù)有短時(shí)平均幅度、短時(shí)平均能量、線性預(yù)測編碼系數(shù)、短時(shí)頻譜等。特征提取和選擇是構(gòu)建系統(tǒng)的關(guān)鍵,對識(shí)別效果極為重要。

圖1 語音識(shí)別基本原理框圖

由于語音信號(hào)本質(zhì)上屬于非平穩(wěn)信號(hào),目前對語音信號(hào)的分析是建立在短時(shí)平穩(wěn)性假設(shè)之上的。在對語音信號(hào)作短時(shí)平穩(wěn)假設(shè)后,通過對語音信號(hào)進(jìn)行加窗,實(shí)現(xiàn)短時(shí)語音片段上的特征提取。這些短時(shí)片段被稱為幀,以幀為單位的特征序列構(gòu)成語音識(shí)別系統(tǒng)的輸入。由于梅爾倒譜系數(shù)及感知線性預(yù)測系數(shù)能夠從人耳聽覺特性的角度準(zhǔn)確刻畫語音信號(hào),已經(jīng)成為目前主流的語音特征。為補(bǔ)償幀間獨(dú)立性假設(shè),人們在使用梅爾倒譜系數(shù)及感知線性預(yù)測系數(shù)時(shí),通常加上它們的一階、二階差分,以引入信號(hào)特征的動(dòng)態(tài)特征。

聲學(xué)模型是語音識(shí)別系統(tǒng)中最為重要的部分之一。聲學(xué)建模涉及建模單元選取、模型狀態(tài)聚類、模型參數(shù)估計(jì)等很多方面。在目前的LVCSR系統(tǒng)中,普遍采用上下文相關(guān)的模型作為基本建模單元,以刻畫連續(xù)語音的協(xié)同發(fā)音現(xiàn)象。在考慮了語境的影響后,聲學(xué)模型的數(shù)量急劇增加,LVCSR系統(tǒng)通常采用狀態(tài)聚類的方法壓縮聲學(xué)參數(shù)的數(shù)量,以簡化模型的訓(xùn)練。在訓(xùn)練過程中,系統(tǒng)對若干次訓(xùn)練語音進(jìn)行預(yù)處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓(xùn)練語音的參考模式庫。

搜索是在指定的空間當(dāng)中,按照一定的優(yōu)化準(zhǔn)則,尋找最優(yōu)詞序列的過程。搜索的本質(zhì)是問題求解,廣泛應(yīng)用于語音識(shí)別、機(jī)器翻譯等人工智能和模式識(shí)別的各個(gè)領(lǐng)域。它通過利用已掌握的知識(shí)(聲學(xué)知識(shí)、語音學(xué)知識(shí)、詞典知識(shí)、語言模型知識(shí)等),在狀態(tài)(從高層至底層依次為詞、聲學(xué)模型、HMM狀態(tài))空間中找到最優(yōu)的狀態(tài)序列。最終的詞序列是對輸入的語音信號(hào)在一定準(zhǔn)則下的一個(gè)最優(yōu)描述。在識(shí)別階段,將輸入語音的特征矢量參數(shù)同訓(xùn)練得到的參考模板庫中的模式進(jìn)行相似性度量比較,將相似度最高的模式所屬的類別作為識(shí)別中間候選結(jié)果輸出。為了提高識(shí)別的正確率,在后處理模塊中對上述得到的候選識(shí)別結(jié)果繼續(xù)處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識(shí)別結(jié)果的可靠程度等。最終通過增加約束,得到更可靠的識(shí)別結(jié)果。

2.3 聲學(xué)建模方法

常用的聲學(xué)建模方法包含以下三種:基于模式匹配的動(dòng)態(tài)時(shí)間規(guī)整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經(jīng)網(wǎng)絡(luò)識(shí)別法(ANN)等。

DTW 是較早的一種模式匹配的方法。它基于動(dòng)態(tài)規(guī)劃的思想,解決孤立詞語音識(shí)別中的語音信號(hào)特征參數(shù)序列比較時(shí)長度不一的模板匹配問題。在實(shí)際應(yīng)用中,DTW通過計(jì)算已預(yù)處理和分幀的語音信號(hào)與參考模板之間的相似度,再按照某種距離測度計(jì)算出模板間的相似度并選擇最佳路徑。

HMM是對語音信號(hào)的時(shí)間序列結(jié)構(gòu)所建立的統(tǒng)計(jì)模型,是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來的,它是一種基于參數(shù)模型的統(tǒng)計(jì)識(shí)別方法。HMM可模仿人的言語過程,可視作一個(gè)雙重隨機(jī)過程:一個(gè)是用具有有限狀態(tài)數(shù)的馬爾可夫鏈來模擬語音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個(gè)是與馬爾可夫鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測序列的隨機(jī)過程[10]。

ANN以數(shù)學(xué)模型模擬神經(jīng)元活動(dòng),將人工神經(jīng)網(wǎng)絡(luò)中大量神經(jīng)元并行分布運(yùn)算的原理、高效的學(xué)習(xí)算法以及對人的認(rèn)知系統(tǒng)的模仿能力充分運(yùn)用到語音識(shí)別領(lǐng)域,并結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識(shí)別算法,克服了ANN在描述語音信號(hào)時(shí)間動(dòng)態(tài)特性方面的缺點(diǎn),進(jìn)一步提高了語音識(shí)別的魯棒性和準(zhǔn)確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計(jì)音素或狀態(tài)的后驗(yàn)概率。2011年,微軟以深度神經(jīng)網(wǎng)絡(luò)替代多層感知機(jī)形成的混合模型系統(tǒng)大大提高了語音識(shí)別的準(zhǔn)確率。

3 語音識(shí)別的應(yīng)用

語音識(shí)別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場前景。在語音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤,通過識(shí)別語音中的要求、請求、命令或詢問來作出正確的響應(yīng),這樣既可以克服人工鍵盤輸入速度慢,極易出差錯(cuò)的缺點(diǎn),又有利于縮短系統(tǒng)的反應(yīng)時(shí)間,使人機(jī)交流變得簡便易行,比如用于聲控語音撥號(hào)系統(tǒng)、聲控智能玩具、智能家電等領(lǐng)域。在智能對話查詢系統(tǒng)中,人們通過語音命令,可以方便地從遠(yuǎn)端的數(shù)據(jù)庫系統(tǒng)中查詢與提取有關(guān)信息,享受自然、友好的數(shù)據(jù)庫檢索服務(wù),例如信息網(wǎng)絡(luò)查詢、醫(yī)療服務(wù)、銀行服務(wù)等。語音識(shí)別技術(shù)還可以應(yīng)用于自動(dòng)口語翻譯,即通過將口語識(shí)別技術(shù)、機(jī)器翻譯技術(shù)、語音合成技術(shù)等相結(jié)合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實(shí)現(xiàn)跨語言交流[11]。

語音識(shí)別技術(shù)在軍事斗爭領(lǐng)域里也有著極為重要的應(yīng)用價(jià)值和極其廣闊的應(yīng)用空間。一些語音識(shí)別技術(shù)就是著眼于軍事活動(dòng)而研發(fā),并在軍事領(lǐng)域首先應(yīng)用、首獲成效的,軍事應(yīng)用對語音識(shí)別系統(tǒng)的識(shí)別精度、響應(yīng)時(shí)間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前,語音識(shí)別技術(shù)已在軍事指揮和控制自動(dòng)化方面得以應(yīng)用。比如,將語音識(shí)別技術(shù)應(yīng)用于航空飛行控制,可快速提高作戰(zhàn)效率和減輕飛行員的工作負(fù)擔(dān),飛行員利用語音輸入來代替?zhèn)鹘y(tǒng)的手動(dòng)操作和控制各種開關(guān)和設(shè)備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時(shí)間和精力集中于對攻擊目標(biāo)的判斷和完成其他操作上來,以便更快獲得信息來發(fā)揮戰(zhàn)術(shù)優(yōu)勢。

4 結(jié) 語

語音識(shí)別的研究工作對于信息化社會(huì)的發(fā)展,人們生活水平的提高等方面有著深遠(yuǎn)的意義。隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展,語音識(shí)別技術(shù)將取得更多重大突破,語音識(shí)別系統(tǒng)的研究將會(huì)更加深入,有著更加廣闊的發(fā)展空間。

參考文獻(xiàn)

[1] 馬志欣,王宏,李鑫.語音識(shí)別技術(shù)綜述[J].昌吉學(xué)院學(xué)報(bào),2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續(xù)語音識(shí)別系統(tǒng)研究進(jìn)展[J].中文信息學(xué)報(bào),2009,23(1):112?123.

[6] 顧亞強(qiáng).非特定人語音識(shí)別關(guān)鍵技術(shù)研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2009.

[7] 中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局.GB/T21023?2007 中文語音識(shí)別系統(tǒng)通用技術(shù)規(guī)范[S].北京:中國標(biāo)準(zhǔn)出版社,2007.

[8] 王文慧.基于ARM的嵌入式語音識(shí)別系統(tǒng)研究[D].天津:天津大學(xué),2008.

[9] 何湘智.語音識(shí)別的研究與發(fā)展[J].計(jì)算機(jī)與現(xiàn)代化,2002(3):3?6.

第5篇

關(guān)鍵詞:Agent;語音識(shí)別;人工智能;作戰(zhàn)文書

中圖分類號(hào):TP37文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)13-3541-02

1 引言

語音識(shí)別起源于20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它第一次實(shí)現(xiàn)了10個(gè)英文數(shù)字的語音識(shí)別,這是語音識(shí)別研究工作的開端。作為一門交叉學(xué)科,它正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),被認(rèn)為是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。語音識(shí)別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,取而代之的是以語音輸入這樣便于使用的、自然的、人性化的輸入方式。

2 相關(guān)技術(shù)簡介

2.1 語音識(shí)別技術(shù)

所謂語音識(shí)別技術(shù)就是讓計(jì)算機(jī)(或機(jī)器)通過識(shí)別和理解過程把人類的語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),屬于多維模式識(shí)別和智能計(jì)算機(jī)接口的范疇。語音識(shí)別技術(shù)的終極目標(biāo)就是研制出一臺(tái)能聽懂任何人、任何內(nèi)容的講話的機(jī)器。語音識(shí)別按發(fā)音方式分為孤立詞、連接詞和連續(xù)語音的語音識(shí)別系統(tǒng);按詞匯量大小分為小詞表、中詞表和大詞表以及無限詞匯量語音識(shí)別;按說話人適應(yīng)范圍分為特定人、限定人和非特定人語音識(shí)別。

2.2 多Agent技術(shù)

Agent的研究起源于人工智能領(lǐng)域,Agent具有自治性、社會(huì)性、反應(yīng)性和能動(dòng)性。智能Agent對自己的狀態(tài)和行為有完全的控制能力,它能夠在沒有人或者在其他Agent的直接干預(yù)下,對復(fù)雜的刺激進(jìn)行響應(yīng)并產(chǎn)生內(nèi)部狀態(tài)的控制和適應(yīng)性的行為,外界通過Agent的接口對Agent實(shí)現(xiàn)功能調(diào)用和通信,而無需知道Agent內(nèi)部的具體工作過程。多Agent系統(tǒng)(MAS)由多個(gè)自主或半自主的智能體組成,每個(gè)Agent或者履行自己的職責(zé),或者與其他Agent通信獲取信息互相協(xié)作完成整個(gè)問題的求解。語音識(shí)別技術(shù)本就是人工智能的一個(gè)應(yīng)用方面,而將人工智能的前沿理論―多Agent技術(shù)引入語音識(shí)別技術(shù)中是一項(xiàng)有意義的工作。

3 在語音識(shí)別中引入多Agent技術(shù)

3.1 多Agent語音識(shí)別原理

傳統(tǒng)的語音識(shí)別存在自適應(yīng)問題,對環(huán)境條件的依賴性強(qiáng);噪聲問題,講話人產(chǎn)生情緒或心里上的變化,導(dǎo)致發(fā)音失真、發(fā)音速度和音調(diào)改變,產(chǎn)生Lombard/Loud效應(yīng);其它如識(shí)別速度問題、拒識(shí)問題以及關(guān)鍵詞檢測問題。而多Agent技術(shù)中自治智能和分布協(xié)同的特性能夠在一定程度上解決這些問題。多Agent語音識(shí)別其基本原理就是將輸入的語音,經(jīng)過處理后,將其和語音模型庫進(jìn)行比較,從而得到識(shí)別結(jié)果,具體原理見圖1。

該圖中語音輸入Agent就是待識(shí)別語音的原始輸入,語音采集Agent指話筒、電話等設(shè)備的語音輸入;數(shù)字化預(yù)處理Agent的功能包括語音信號(hào)采樣、反混疊帶通濾波、去除個(gè)體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響等;特征提取Agent用于提取語音中反映本質(zhì)特征的聲學(xué)參數(shù),常用的特征有短時(shí)平均能量或幅度、短時(shí)平均跨零率、線性預(yù)測系數(shù)、基音頻率、倒譜和共振峰等。在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的處理后,為每個(gè)詞條建立一個(gè)模型,保存為模板庫。在識(shí)別階段,語音信號(hào)經(jīng)過相同的通道得到語音特征參數(shù),生成測試模板,通過模型匹配Agent和規(guī)則判別Agent將匹配分?jǐn)?shù)最高的參考模板作為識(shí)別結(jié)果。同時(shí)在模式匹配和規(guī)則判別時(shí)還可以在很多專家知識(shí)的幫助下,以便提高識(shí)別的準(zhǔn)確率。

3.2 多Agent語音識(shí)別流程

加入了多Agent技術(shù)的語音識(shí)別系統(tǒng)具體實(shí)現(xiàn)細(xì)節(jié)與傳統(tǒng)的語音識(shí)別系統(tǒng)有所不同,加入了更多的智能協(xié)作的因素,但所應(yīng)用的識(shí)別過程大致相似,具體流程見圖2。

首先是系統(tǒng)中的協(xié)調(diào)Agent確定語音識(shí)別單元的選取。語音識(shí)別單元有單詞(句)、音節(jié)和音素三種。然后在特征提取Agent中去除語音中對識(shí)別無關(guān)緊要的冗余信息,目前廣泛應(yīng)用的有基于線性預(yù)測分析技術(shù)提取的倒譜參數(shù)和基于感知線性預(yù)測分析提取的感知線性預(yù)測倒譜。接著采用適當(dāng)?shù)恼Z音識(shí)別方法,通過對確定的語音特征進(jìn)行模型訓(xùn)練、智能學(xué)習(xí)后得到模板庫,然后用若干個(gè)特征提取Agent將待識(shí)別的輸入語音信號(hào)的各個(gè)量化的特征通過分工協(xié)作的方式進(jìn)行提取,最后模型匹配Agent將量化的語音特征與模板庫進(jìn)行模式匹配,通過友好的人機(jī)界面把識(shí)別結(jié)果輸出。

4 多Agent語音識(shí)別技術(shù)在軍事上的應(yīng)用

最近十年內(nèi)語音識(shí)別技術(shù)軍事化應(yīng)用非常廣泛,目前研究比較多的有語音識(shí)別技術(shù)在智能武器裝備開發(fā)領(lǐng)域的應(yīng)用、在軍事作戰(zhàn)文書自動(dòng)化過程中的應(yīng)用、在軍事測試設(shè)備和軍隊(duì)話務(wù)臺(tái)的應(yīng)用。下面重點(diǎn)介紹多Agent語音識(shí)別技術(shù)在軍事作戰(zhàn)文書自動(dòng)化過程中的應(yīng)用。

作戰(zhàn)文書句式變化不大、語法簡單、使用人群范圍可定、語音識(shí)別模板庫易于建立且要求不高,其語音識(shí)別易于實(shí)現(xiàn)。總體方案是:盡可能統(tǒng)一各軍兵種作戰(zhàn)文書類型;收集不同類型作戰(zhàn)文書實(shí)例;構(gòu)造作戰(zhàn)文書詞匯庫;針對標(biāo)圖地域構(gòu)造地名數(shù)據(jù)庫;建立不同類型作戰(zhàn)文書的句型庫;分析軍隊(duì)標(biāo)號(hào)的涵義建立模板庫;將作戰(zhàn)文書編譯成標(biāo)圖指令來完成軍事地圖的標(biāo)繪。其一般過程為作戰(zhàn)文書的詞處理、作戰(zhàn)文書的語法分析、作戰(zhàn)文書標(biāo)圖指令的形成,最后通過API接口傳輸給計(jì)算機(jī)完成自動(dòng)標(biāo)繪工作,如圖3所示。

5 結(jié)束語

語音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù),有著非常廣泛的應(yīng)用領(lǐng)域和市場前景,為網(wǎng)上會(huì)議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓(xùn)等各個(gè)領(lǐng)域帶來了極大的便利。隨著人工智能技術(shù)的發(fā)展,把多Agent技術(shù)應(yīng)用到語音識(shí)別系統(tǒng)中,通過自治智能和分布協(xié)同的特性較好地解決了傳統(tǒng)語音識(shí)別技術(shù)中存在的突出問題,這必將成為語音識(shí)別系統(tǒng)發(fā)展的主流。

參考文獻(xiàn):

[1] 胡斌,湯偉,劉曉明.基于自然語言理解的文本標(biāo)圖系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].理工大學(xué)學(xué)報(bào):自然科學(xué)版,2005,6(2):132-136.

[2] 趙力.語音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003:215-240.

[3] 王作英,肖熙.基于段長分布的HMM語音識(shí)別模型[J].電子學(xué)報(bào),2004,32(1):46-49.

[4] 曹承志.智能技術(shù)[M].北京:清華大學(xué)出版社,2004.

[5] 杜琳.基于COM技術(shù)的軍事標(biāo)圖組件的設(shè)計(jì)與實(shí)現(xiàn)[D].鄭州:信息工程大學(xué),2006.

[6] 朱民雄,聞新,黃健群,等.計(jì)算機(jī)語音技術(shù)[M].北京:北京航空航天大學(xué)出版社,2002.

[7] 方敏,浦劍濤,李成榮,等.嵌入式語音識(shí)別系統(tǒng)的研究和實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2004(6):73-78.

[8] 劉廣鐘.Agent技術(shù)及其應(yīng)用[M].北京:電子科技大學(xué)出版社,2002.

第6篇

[關(guān)鍵詞]車聯(lián)網(wǎng);汽車語音識(shí)別;自然語音辨識(shí);車輛人機(jī)交互

中圖分類號(hào):TM721 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-914X(2017)10-0297-01

1.引言

車聯(lián)網(wǎng)技術(shù)就是互聯(lián)網(wǎng)時(shí)代人們對汽車產(chǎn)業(yè)生態(tài)新需求下產(chǎn)生的新興技術(shù)。國內(nèi)車聯(lián)網(wǎng)正在經(jīng)由“屏幕+操作系統(tǒng)”的1.0版本向聯(lián)網(wǎng)的2.0版本過渡,未來的方向主要是“賬號(hào)系統(tǒng)+語音控制+云服務(wù)”的3.0版本。基于賬號(hào)系統(tǒng),可以實(shí)現(xiàn)圍繞“人”在不同汽車硬件、消費(fèi)電子硬件之間的服務(wù)延續(xù)性,實(shí)現(xiàn)基于“人”的個(gè)性化導(dǎo)航、娛樂和支付等服務(wù)。實(shí)現(xiàn)人與汽車之間無障礙的自然語言交互,減少駕駛?cè)藛T通過手指觸碰按鈕或者對中控屏幕的觸控來實(shí)現(xiàn)車輛功能的操作,保證汽車駕駛員能夠?qū)⑷恳曈X集中在對車輛行駛外部環(huán)境的感知,避免因?yàn)椴倏匕粹o、中控觸摸屏帶來的視覺注意力的間斷分散而導(dǎo)致意外情況的發(fā)生,保證了駕駛安全。車聯(lián)網(wǎng)平臺(tái)通過在車輛儀表臺(tái)安裝車載終端設(shè)備,實(shí)現(xiàn)對車輛所有工作情況和靜、動(dòng)態(tài)信息的采集、存儲(chǔ)并發(fā)送。車聯(lián)網(wǎng)系統(tǒng)一般具有實(shí)時(shí)實(shí)景功能,利用移動(dòng)網(wǎng)絡(luò)實(shí)現(xiàn)人車交互。其中傳感器(包括攝像頭、雷達(dá)、速度等傳感器)所采集的信息是從不同機(jī)理和角度采集,比較片面孤立。當(dāng)遇到復(fù)雜路況及突發(fā)工況時(shí),自然語音辨識(shí)的信息采集交互介入,能夠更加精準(zhǔn)判別車輛行駛中的真實(shí)工況。同時(shí)采用旋律識(shí)別技術(shù)對旋律節(jié)奏及特征的識(shí)別,將音樂做旋律分析和歸類,基于音樂旋律和人類起居生理特征提供音樂服務(wù),以駕駛環(huán)境下的汽車駕駛員為例,可以提供符合人體工程學(xué)的人性化音樂服務(wù),營造舒適的音樂氛圍,降低汽車駕駛員的駕駛疲勞。語音識(shí)別技術(shù)對特定人的聲紋提取,基于聲紋的身份驗(yàn)證及語音指令驗(yàn)證,探索完整的聲紋鑒定商用解決方案。

2.車聯(lián)網(wǎng)平臺(tái)下語音識(shí)別系統(tǒng)的研發(fā)

車聯(lián)網(wǎng)平臺(tái)下語音識(shí)別系統(tǒng)的研發(fā)的主要內(nèi)容有:分析漢語自然語音的特點(diǎn),提取自然語音識(shí)別目標(biāo)的關(guān)鍵特征;建立相關(guān)特征識(shí)別算法;采集不同地區(qū)人員的自然語音數(shù)據(jù),并使用特征識(shí)別算法,提取特征,并對特征數(shù)據(jù)進(jìn)行相應(yīng)分類,運(yùn)用人工智能算法進(jìn)行訓(xùn)練識(shí)別,確定特征值;對采集語音數(shù)據(jù)與特征值進(jìn)行比對分析,矯正特征值;在特征值基礎(chǔ)上進(jìn)行語音譜分析,結(jié)合時(shí)域與頻域特點(diǎn)從總體角度分析。針對車內(nèi)不同工況,采集背景噪聲并進(jìn)行分析,得到語音及噪聲頻譜特征;在語音譜識(shí)別基礎(chǔ)上,建立降噪模型;設(shè)計(jì)一套典型的車內(nèi)操控指令集,對這些指令進(jìn)行信號(hào)采集與分析;針對在汽車內(nèi)采集到的語音指令,設(shè)計(jì)噪聲抑制模塊來濾除噪聲;基于車聯(lián)網(wǎng)平臺(tái),建立車輛自然語音識(shí)別介入判別規(guī)則;開發(fā)硬件系統(tǒng)和軟件系統(tǒng);在車聯(lián)網(wǎng)平臺(tái),進(jìn)行實(shí)車測試。由于語音信號(hào)是一個(gè)非平穩(wěn)過程,因此適用于周期、瞬變或平穩(wěn)隨機(jī)信號(hào)的標(biāo)準(zhǔn)傅立葉變換不能用來直接表示語音信號(hào),如何建立短時(shí)變換算法對語音信號(hào)的頻譜進(jìn)行分析,建立相應(yīng)的頻譜“短時(shí)譜”,語音辨識(shí)訓(xùn)練指的是按照一定的準(zhǔn)則,從大量已知的語音樣本中提取出能表示該模式特征的模型⑹,在語音識(shí)別的流程中,即為從大量的相似的語音信號(hào)中提取出它們共同的特征以得到一個(gè)聲學(xué)模型(參考模板)。而模式匹配則指的是根據(jù)一定的準(zhǔn)則,使測試信號(hào)與已知聲學(xué)模型中的某一模型相匹配。當(dāng)前的匹配算法沒有考慮汽車行駛中噪聲影響情況下,針對汽車內(nèi)工況辨識(shí)效果不良的問題。針對此問題,建立語音譜特征分析方法,降低噪聲對語音辨識(shí)產(chǎn)生的干擾。建立聲紋識(shí)別技術(shù),并對特定人的聲紋進(jìn)行提取,基于聲紋的身份驗(yàn)證及語音指令驗(yàn)證,制定完整的聲紋鑒定商用解決方案。

3.車載語音識(shí)別系統(tǒng)

車載語音識(shí)別的本質(zhì),就是一種模式識(shí)別理論。動(dòng)態(tài)時(shí)間歸正、隱性馬爾科夫鏈模型等都是如此。總之,一個(gè)完整的車載語音識(shí)別系統(tǒng)包含以下三個(gè)部分:

1.前端處理和特征提取:通過對信號(hào)適當(dāng)?shù)姆糯蠛驮鲆婵刂疲瑢ζ錇V波和消除干擾,再進(jìn)行數(shù)字化,然后從中提取特征序列,用反映語音特點(diǎn)的一些參數(shù)來表征信號(hào)特性;

2.識(shí)別算法:對語音信號(hào)提取了特征參數(shù),以此來表征信號(hào)的特性,并且生成參考模式庫。在對待測信號(hào)進(jìn)行識(shí)別時(shí)同樣先對其進(jìn)行特征參數(shù)提取,然后逐一與參考模式庫中的各模板進(jìn)行匹配求取失真度,據(jù)此判斷最佳的識(shí)別結(jié)果;

3.語義理解:完成識(shí)別判斷后,將識(shí)別結(jié)果以某種指令或者表現(xiàn)形式輸出,讓計(jì)算機(jī)據(jù)此執(zhí)行相應(yīng)的操作,這就是識(shí)別結(jié)果的輸出,即語義理解。

車聯(lián)網(wǎng)平臺(tái)下語音識(shí)別系統(tǒng)的研發(fā)解決方案:系統(tǒng)研發(fā)旨在解決自然語言在汽車內(nèi)噪音工況下的語音辨識(shí)。掌握語音辨識(shí)機(jī)理理論及算法;明確各算法優(yōu)缺點(diǎn)及適用對象,針對汽車內(nèi)噪聲存在的特殊環(huán)境下,構(gòu)建自然語音譜辨識(shí)方法;采集不同地區(qū)語音數(shù)據(jù),利用自然語音譜辨識(shí)方法進(jìn)行語音辨識(shí)訓(xùn)練;提取出表征信號(hào)的特性,并且生成語音辨識(shí)參考模式庫;搭建語音辨識(shí)硬件平臺(tái);進(jìn)行硬件平臺(tái)測試并修正優(yōu)化相應(yīng)算法,具體流程詳見圖1。

參考文獻(xiàn)

[1] 施衛(wèi)東.淺談車聯(lián)網(wǎng)技術(shù)的應(yīng)用[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2015,(01):39-40

[2] 潘梁生.列車車載語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2016.

[3] 劉筠,盧超.新型車載語音識(shí)別系統(tǒng)中的一種關(guān)鍵技術(shù)[J].微處理機(jī),2008,(04):177-180

第7篇

關(guān)鍵詞:語音識(shí)別;神經(jīng)網(wǎng)絡(luò);遺傳算法;遺傳神經(jīng)網(wǎng)絡(luò)

中圖分類號(hào):TP183文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)22-774-03

Research of Speech Recognition Based on Genetic Neural Network

ZHAO Feng

(Computer School of Wuhan University,Wuhan 430081,China)

Abstract:This Paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low. a new recognizing algorithm based on BP algorithm by combining with the good effect method in ANN which named genetic algorithm(GA) was proposed and used to improve the BP neural network . Experiment results show that the training speed can be accelerated by the method and the recognition performance is also promoted.

Key words: speech recognition; neural network; genetic algorithm; genetic neural network

1 引言

語音識(shí)別SR(Speech Recognition)是指讓機(jī)器聽懂人說的話,即在各種情況下,準(zhǔn)確地識(shí)別出語音的內(nèi)容,從而根據(jù)其信息,執(zhí)行人的各種意圖[1]。現(xiàn)代語音識(shí)別技術(shù)以神經(jīng)網(wǎng)絡(luò)為主要發(fā)展趨勢,進(jìn)入20世紀(jì)90年代以來,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為語音識(shí)別的一條重要途徑。由于神經(jīng)網(wǎng)絡(luò)反映了人腦功能的基本特征,故具有自組織性、自適應(yīng)性和連續(xù)學(xué)習(xí)能力等特點(diǎn),特別適合于解決像語音識(shí)別這類模擬人的認(rèn)知過程和智能處理能力,難以用算法來描述而又有大量樣本可供學(xué)習(xí)的問題[2]。

人工神經(jīng)網(wǎng)絡(luò)(ANN)是采用大量的簡單處理單元廣泛連接起來構(gòu)成的一種復(fù)雜信息處理網(wǎng)絡(luò)。網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)是應(yīng)用一系列輸入矢量,通過已確定的算法逐步調(diào)整網(wǎng)絡(luò)的權(quán)值,最終達(dá)到期望的目標(biāo)。BP神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中前向神經(jīng)網(wǎng)絡(luò)的核心部分,BP算法的學(xué)習(xí)過程由信號(hào)的正向傳播和誤差的反向傳播組成。隨著誤差逆?zhèn)鞑バ拚牟粩噙M(jìn)行,網(wǎng)絡(luò)對輸入模式響應(yīng)的正確率不斷上升。然而BP算法是一種梯度下降算法,梯度下降存在多極值問題,且BP網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練速度慢,容易陷入局部最小或振蕩。因此,參數(shù)的選擇非常重要。為克服標(biāo)準(zhǔn)BP算法存在的各種缺點(diǎn),本文研究用BP算法結(jié)合人工智能領(lǐng)域較為有效的方法――遺傳(GA)算法來訓(xùn)練網(wǎng)絡(luò)進(jìn)行語音識(shí)別,仿真實(shí)驗(yàn)表明,GABP算法使BP網(wǎng)絡(luò)在收斂速度上有了很大提高,尤其是克服了容易陷入局部最小值的缺點(diǎn),基于GABP的語音識(shí)別系統(tǒng)的最高識(shí)別率和平均識(shí)別率都有了很大的提高。

2 語音識(shí)別的基本原理

大部分基于神經(jīng)網(wǎng)絡(luò)的語音識(shí)別系統(tǒng)實(shí)現(xiàn)識(shí)別功能都要經(jīng)過從特征參數(shù)提取到應(yīng)用識(shí)別算法進(jìn)行識(shí)別的過程,該過程如下圖1所示:

圖1 語音識(shí)別系統(tǒng)原理框圖

該文主要面向孤立數(shù)字識(shí)別系統(tǒng)作一些改進(jìn)研究,其基本識(shí)別過程也符合上圖1描述:輸入的語音信號(hào)首先進(jìn)行預(yù)處理,包括抗混疊濾波、聲音的預(yù)加重、加窗分癥處理與端點(diǎn)檢測等。預(yù)加重的目的是在于濾出低頻干擾,尤其是50Hz或60Hz的工頻干擾,將對于語音識(shí)別更為有用的高頻部分的頻譜進(jìn)行提升,以便于語音參數(shù)分析。

預(yù)加重濾波器傳遞函數(shù)為: H(Z)=1-0.9375Z-1(1)

若S(n)為預(yù)加重前語音信號(hào),則經(jīng)過預(yù)加重濾波器后得到的信號(hào)■(n)為:

■(n)= S(n)-0.9375 S(n-1)(2)

該文主要完成孤立數(shù)字識(shí)別,所要求識(shí)別的字?jǐn)?shù)不多,對環(huán)境的噪聲的適應(yīng)能力的要求也并不高,因此采用了目前比較流行的雙門限端點(diǎn)檢測算法,借助于語音信號(hào)短時(shí)平均能量和短時(shí)過零率來判定語音有效范圍的開始和結(jié)束。

語音信號(hào)經(jīng)過預(yù)處理后,接下來很重要的一環(huán)就是進(jìn)行特征提取,常用的特征包括短時(shí)平均能量和幅度、短時(shí)平均過零率、線性預(yù)測系數(shù)(LPC)、短時(shí)傅里葉變換和Mel頻率倒譜系數(shù)(MFCC)。語音特征參數(shù)的時(shí)間序列構(gòu)成了語音的模式,將其與通過應(yīng)用一系列已知信號(hào)訓(xùn)練提取的參考模式逐一進(jìn)行比較,獲得最佳匹配的參考模式便是識(shí)別結(jié)果。本文中對于預(yù)處理的每個(gè)有效語音信號(hào)段,都要提取其12個(gè)一階MFCC系數(shù),提取過程為:用漢明窗將語音切割成長短一致的語音幀,對每幀語音進(jìn)行正反傅里葉變換,經(jīng)對數(shù)和離散余弦變換后取前12個(gè)數(shù)作為MFCC系數(shù)來描述每一個(gè)幀。最后將每個(gè)語音信號(hào)對應(yīng)的MFCC系數(shù)序列用K-means聚類算法進(jìn)行聚類,分為4個(gè)聚類,使得每個(gè)語音信號(hào)都得到相應(yīng)的12個(gè)4維一階MFCC系數(shù),即可作為語音的特征參數(shù)成為神經(jīng)網(wǎng)絡(luò)的輸入信號(hào)。

3 語音識(shí)別中的BP網(wǎng)絡(luò)構(gòu)造

語音識(shí)別中的BP網(wǎng)絡(luò)構(gòu)造主要包括輸入層、隱層、輸出層、初始權(quán)值、學(xué)習(xí)速率與期望誤差的選取幾個(gè)方面的問題。

1) 網(wǎng)絡(luò)層數(shù):理論上,在不限制隱層節(jié)點(diǎn)數(shù)的情況下,兩層(只有一個(gè)隱層)的BP網(wǎng)絡(luò)可以實(shí)現(xiàn)任意非線性映射。當(dāng)模式樣本很多時(shí),減小網(wǎng)絡(luò)規(guī)模,增加一個(gè)隱層是必要的,但BP網(wǎng)絡(luò)隱層數(shù)一般不超過兩層。本文所要求識(shí)別的模式樣本不多,因此一個(gè)隱層已經(jīng)足夠。

2) 輸入層節(jié)點(diǎn)數(shù):在BP網(wǎng)絡(luò)語音識(shí)別系統(tǒng)中,輸入層節(jié)點(diǎn)數(shù)與選取的語音信號(hào)特征參數(shù)的維度和階數(shù)有關(guān)。本文中每個(gè)語音信號(hào)都得到相應(yīng)的12個(gè)4維一階MFCC系數(shù),故輸入層的節(jié)點(diǎn)數(shù)為12×4=48。

3) 輸出層節(jié)點(diǎn)數(shù):輸出層的節(jié)點(diǎn)數(shù)取決于輸出數(shù)據(jù)的類型和表示該類型所需的數(shù)據(jù)大小。當(dāng)BP網(wǎng)絡(luò)用于語音識(shí)別時(shí),以二進(jìn)制形式來表示不同的識(shí)別結(jié)果,則輸出層的節(jié)點(diǎn)數(shù)可根據(jù)訓(xùn)練模板的語音數(shù)來確定。本文設(shè)定輸出節(jié)點(diǎn)數(shù)為10,分別對應(yīng)于0~9這10個(gè)數(shù)字。

4) 隱層節(jié)點(diǎn)數(shù):通過采用一個(gè)隱層,增加其神經(jīng)元數(shù)的方法來達(dá)到網(wǎng)絡(luò)訓(xùn)練精度的提高,這在結(jié)構(gòu)上,要比增加更多的隱層簡單的多。但究竟選取多少個(gè)隱層節(jié)點(diǎn)才合適?在理論上并沒有個(gè)明確的規(guī)定。在具體設(shè)計(jì)時(shí),比較實(shí)際的做法是通過對不同神經(jīng)元數(shù)進(jìn)行訓(xùn)練對比,然后適當(dāng)?shù)募由弦稽c(diǎn)余量[4]。一般可利用下面式子決定:

n1=■+a(3)

其中n1為隱層節(jié)數(shù);m為輸入節(jié)點(diǎn)數(shù);n為輸出節(jié)點(diǎn)數(shù);a為取1~10的常數(shù)。本實(shí)驗(yàn)中輸入節(jié)點(diǎn)數(shù)為48,輸出節(jié)點(diǎn)數(shù)為10,a選取為常數(shù)4,因此隱層節(jié)點(diǎn)數(shù)n1=12。

5) 初始權(quán)值:由于系統(tǒng)是非線性的,初始值對于學(xué)習(xí)是否達(dá)到局部最小、是否能收斂以及訓(xùn)練時(shí)間的長短關(guān)系很大。一般總是希望經(jīng)過初始加權(quán)后的每個(gè)神經(jīng)元的輸出值都接近于零。所以,一般取初始值在(-1,1)之間的隨機(jī)數(shù)。

6) 學(xué)習(xí)速率與期望誤差的選取:學(xué)習(xí)速率決定每一次循環(huán)訓(xùn)練中所產(chǎn)生的權(quán)值變化量。小的學(xué)習(xí)速率雖然會(huì)導(dǎo)致收斂速度慢,不過能保證網(wǎng)絡(luò)的誤差值不跳出誤差表面的低谷而最終趨于最小值。所以,一般情況下,學(xué)習(xí)速率的選取范圍在0.01~0.8之間。期望誤差0.000001。

解決了上述幾個(gè)方面的問題后,本文采用三層結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò),如圖2所示:輸入層各節(jié)點(diǎn)將輸入信號(hào)經(jīng)權(quán)重藕合到隱層的每個(gè)節(jié)點(diǎn),隱層各節(jié)點(diǎn)對來自前一層的信號(hào)加權(quán),經(jīng)激發(fā)函數(shù)轉(zhuǎn)換后再藕合到輸出層。

4 基于遺傳神經(jīng)網(wǎng)絡(luò)的語音識(shí)別

本文研究引用遺傳算法對網(wǎng)絡(luò)的初始連接權(quán)值進(jìn)行優(yōu)化處理,用BP算法完成給定精度的學(xué)習(xí)。

4.1 個(gè)體編碼方案

編碼對于網(wǎng)絡(luò)進(jìn)化過程的性能和效率影響很大,因此,編碼技術(shù)是連接權(quán)值進(jìn)化過程中學(xué)解決的首要問題和關(guān)鍵步驟。本文中考慮到BP網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)和結(jié)構(gòu)已經(jīng)固定,可以采用實(shí)數(shù)編碼方案,將網(wǎng)絡(luò)的權(quán)值和各節(jié)點(diǎn)的閥值依此排列得到一個(gè)向量。

假設(shè)一個(gè)具有m個(gè)節(jié)點(diǎn)的n層BP網(wǎng)絡(luò),如果第i個(gè)節(jié)點(diǎn)對應(yīng)的權(quán)值分別為vi(vi[-1,+1]),則一個(gè)個(gè)體用實(shí)數(shù)向量表示為X=(v1,v2,…vm)。

4.2 適應(yīng)度函數(shù)的選擇

一個(gè)網(wǎng)絡(luò)連接權(quán)值優(yōu)劣的標(biāo)準(zhǔn),是根據(jù)網(wǎng)絡(luò)對一組輸入得到的實(shí)際輸出與期望輸出之間的誤差大小來制定的。BP網(wǎng)絡(luò)中誤差平分和小,則表示該網(wǎng)絡(luò)性能比較好。本文中適應(yīng)度函數(shù)為:

f(x)=■(4)

其中,E為神經(jīng)網(wǎng)絡(luò)的輸出誤差,即:

■(5)

其中n為學(xué)習(xí)樣本總數(shù),yk,■k為第k個(gè)個(gè)體的期望輸出和實(shí)際輸出向量。

4.3 進(jìn)化參數(shù)

連接權(quán)的進(jìn)化過程中所涉及到的主要進(jìn)化參數(shù)有:種群規(guī)模、交叉率、變異率和進(jìn)化代數(shù)等等。交叉是最主要的進(jìn)化操作,交叉率是指各代中交叉產(chǎn)生的后代數(shù)與種群規(guī)模之比。常用的交叉率取值范圍為0.6~1.0。變異率是指種群中變異的基因數(shù)占總基因數(shù)的比例,其值控制了新基因引入的比例。常用變異率的數(shù)量級范圍為0.1~0.001。 種群規(guī)模是連接權(quán)進(jìn)化過程首先需要確定的參數(shù),是算法會(huì)否陷入局部解的主要影響因素。綜合考慮BP網(wǎng)絡(luò)的初始連接權(quán)值和交叉率、變異率的選擇,這里選擇種群規(guī)模為50。

5 仿真實(shí)驗(yàn)結(jié)果

仿真實(shí)驗(yàn)為針對非特定人的孤立數(shù)字詞語音識(shí)別。語音數(shù)據(jù)由二男二女(0到9共10個(gè)數(shù)字的普通話發(fā)音)通過PC話筒輸入,每個(gè)音每人發(fā)20遍,共計(jì)1000次發(fā)音,其中以每人每個(gè)音的前10次作訓(xùn)練樣本,后10次作測試樣本,錄音環(huán)境為安靜實(shí)驗(yàn)室,采樣頻率為11.025kHz。

經(jīng)過反復(fù)實(shí)驗(yàn),不斷改善實(shí)驗(yàn)環(huán)境,基于演化神經(jīng)網(wǎng)絡(luò)的識(shí)別得到了相對較高的識(shí)別率。對實(shí)驗(yàn)結(jié)果分析可知,結(jié)合了GA算法的BP網(wǎng)絡(luò)通過GA全局搜索得到一個(gè)權(quán)值最優(yōu)解,只迭代了151次便使得誤差值為0.000001 ,而普通BP算法要迭代517才能勉強(qiáng)達(dá)到期望誤差,由此可知,結(jié)合了GA算法的BP網(wǎng)絡(luò)避免了局部極小,減低了學(xué)習(xí)速率,提高了收斂速度。

表1 基于遺傳神經(jīng)網(wǎng)絡(luò)與普通BP網(wǎng)絡(luò)語音識(shí)別系統(tǒng)對比表

通過表1對比可知,基于演化神經(jīng)網(wǎng)絡(luò)識(shí)別算法的語音識(shí)別系統(tǒng)無論是在訓(xùn)練時(shí)的收斂速度還是在最后的識(shí)別率上,都要優(yōu)于普通的BP網(wǎng)絡(luò)語音識(shí)別系統(tǒng)。

6 結(jié)論

語音信號(hào)處理和神經(jīng)網(wǎng)絡(luò)均是目前研究的熱點(diǎn),文章主要針對語音識(shí)別的特點(diǎn),結(jié)合人工智能領(lǐng)域兩種比較有效的方法――BP網(wǎng)絡(luò)和GA算法,構(gòu)建了一種基于遺傳神經(jīng)網(wǎng)絡(luò)的語音識(shí)別算法。仿真實(shí)驗(yàn)結(jié)果表明,該算法避免了傳統(tǒng)BP算法容易陷入局部極小的缺點(diǎn),減低了訓(xùn)練時(shí)間,有效的提高了系統(tǒng)識(shí)別率。

參考文獻(xiàn):

[1] 趙力.語音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003.

[2] 蔡蓮紅,黃德智,蔡銳.現(xiàn)代語音技術(shù)基礎(chǔ)于應(yīng)用[M].北京:清華大學(xué)出版社,2003.

[3] 易克初.語音信號(hào)處理[M].北京:國防工業(yè)出版社,2000.

[4] 孫寧,孫勁光,孫宇.基于神經(jīng)網(wǎng)絡(luò)的語音識(shí)別技術(shù)研究[J].計(jì)算機(jī)與數(shù)字工程,2005,34(3):58-61.

[5] 何英.Matlab擴(kuò)展編程[M].北京:清華大學(xué)出版社,2002.

第8篇

關(guān)鍵詞:語音識(shí)別 端點(diǎn)檢測 特征參數(shù) DTW算法

中圖分類號(hào):TN912 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2011)12-0184-02

1、語音識(shí)別系統(tǒng)概述

語音信號(hào)是一種典型的非平穩(wěn)信號(hào),并且在錄音過程中不免受到電噪音,呼吸產(chǎn)生的氣流噪音以及錄音環(huán)境下的突發(fā)噪音的影響,所以語音信號(hào)要經(jīng)過預(yù)濾波、采樣量化、分幀、加窗、預(yù)加重、端點(diǎn)檢測等預(yù)處理過程后才可以進(jìn)行下一步的特征征參數(shù)提取等工作。在接下來的語音訓(xùn)練階段,我們將那些信號(hào)狀態(tài)良好,攜帶噪聲小且特征參數(shù)穩(wěn)定的語音信號(hào)作為指定詞條的模板,進(jìn)而為每個(gè)詞條創(chuàng)建一個(gè)模板并保存為模板庫。在識(shí)別階段,語音信號(hào)經(jīng)過相同的通道生成測試模板,用相同的方法計(jì)算測試模板的特征參數(shù)后,將其與模板庫模板的特征參數(shù)進(jìn)行匹配,配分?jǐn)?shù)最高的參考模板作為識(shí)別結(jié)果。

2、語音信號(hào)的錄入

語音信號(hào)的采集方法有很多,鑒于該系統(tǒng)是在MATLAB上實(shí)現(xiàn),且MATLAB本身提供了一定的音頻處理函數(shù),因此我們完全可以采用在MATLAB中先完成錄音函數(shù)的編寫,然后再結(jié)合windows自帶的錄音設(shè)備進(jìn)行錄音。錄音得到的wav文件即是經(jīng)過預(yù)濾波采樣和量化的語音。利用soundview讀所錄入的文件時(shí),會(huì)彈出一個(gè)GUI界面,并可以通過輸出設(shè)備對所錄語音進(jìn)行回訪,該GUI界面如圖1所示。單擊Play Again按鈕可可回放,單擊Done按鈕可關(guān)閉界面。

3、語音信號(hào)的預(yù)加重

我們知道,對語音識(shí)別更有用的是語音的高頻部分,而對于語音信號(hào)的頻譜,通常是頻率越高幅值越低。因此我們必須對語音的高頻進(jìn)行加重處理。處理方法是將語音信號(hào)通過一個(gè)一階高通濾波器,即預(yù)加重濾波器,它不僅能濾除低頻提升高頻,還能很好的抑制50Hz到60Hz的工頻干擾。尤其在短點(diǎn)檢測之前進(jìn)行預(yù)加重還可起到消除直流漂移、抑制隨機(jī)噪聲和提升清音部分能量的效果。預(yù)加重在Matlab中可由語句x=filter([1-0.9375],1,x)實(shí)現(xiàn)。

4、語音信號(hào)的分幀和加窗

經(jīng)過數(shù)字化的語音信號(hào)實(shí)際上是一個(gè)時(shí)變信號(hào),為了能用傳統(tǒng)的方法對語音信號(hào)進(jìn)行分析,應(yīng)假設(shè)語音信號(hào)在10ms-30ms內(nèi)是短時(shí)平穩(wěn)的。為了得到短時(shí)的語音信號(hào),要對語音信號(hào)進(jìn)行加窗操作。窗函數(shù)平滑地在語音信號(hào)上滑動(dòng),將語音信號(hào)進(jìn)行分幀,幀與幀的交疊為幀移,一般為窗長的一半。

語音信號(hào)的分幀采用enframe函數(shù),其語法為f=enframe(x,len,inc);其中X為輸入的語音信號(hào),len為制定的幀長,inc為指定幀移。函數(shù)將返回一個(gè)n×len的一個(gè)矩陣,每行都是一幀數(shù)據(jù)。在本系統(tǒng)中幀長取240,幀移取80。在Matlab中要實(shí)現(xiàn)加窗即將分幀后的語音信號(hào)乘上窗函數(shù),本文加漢明窗,即為x=x.*hamming(N)。

5、端點(diǎn)檢測

在語音識(shí)別系統(tǒng)中,訓(xùn)練階段和建模階段都比較重要的環(huán)節(jié)都是要先通過端點(diǎn)檢測找到語音的起點(diǎn)和終點(diǎn),這樣,我們就可以只對有效語音進(jìn)行處理,這對于識(shí)別的準(zhǔn)確率和識(shí)別效率至關(guān)重要。本論文在短點(diǎn)檢測環(huán)節(jié)采用雙門限端點(diǎn)檢測法,即采用短時(shí)能量檢測和短時(shí)過零率檢測雙重指標(biāo)約束。結(jié)合實(shí)際,我們將整個(gè)語音端點(diǎn)檢測分為四個(gè)段落,即:無聲段、等待段、語音段、結(jié)束段,再為短時(shí)能量和短時(shí)過零率各設(shè)置一個(gè)高門限和一個(gè)低門限:EHigh、ELow和ZHigh、ZLow。結(jié)合MATLAB中所編程序,可以較準(zhǔn)確的確定語音的各個(gè)部分。圖2所示為語音“1”的處理結(jié)果。

6、特征參數(shù)的提取

經(jīng)過預(yù)處理的語音數(shù)據(jù)就可以進(jìn)行特征參數(shù)提取,特征參數(shù)的好壞將直接影響系統(tǒng)的性能和效率。本文將梅爾倒譜系數(shù)(MFCC)和一階MFCC系數(shù)的差分結(jié)合起來,將其合并為一個(gè)矢量作為一幀語音信號(hào)的參數(shù),這樣,不僅描述了語音的靜態(tài)特性,由于加入了差分倒譜參數(shù),語音的動(dòng)態(tài)特性得到了更好的體現(xiàn)。梅爾倒譜參數(shù)的計(jì)算流程為:先將預(yù)處理過的語音信號(hào)進(jìn)行快速傅立葉變換,將時(shí)域信號(hào)變換成為信號(hào)的功率譜。 再用一組Mel頻標(biāo)上線性分布的三角窗濾波器(本文采用24個(gè)三角窗濾波器)對信號(hào)的功率譜濾波,每一個(gè)三角窗濾波器覆蓋的范圍都近似于人耳的一個(gè)臨界帶寬,以此來模擬人耳的掩蔽效應(yīng)。然后對三角窗濾波器組的輸出求取對數(shù),可以得到近似于同態(tài)變換的結(jié)果。最后去除各維信號(hào)之間的相關(guān)性,將信號(hào)映射到低維空間。 梅爾倒譜系數(shù)的計(jì)算差分參數(shù)的計(jì)算采用下面的公式:

7、模式匹配

本語音識(shí)別系統(tǒng)的模式匹配算法采用動(dòng)態(tài)時(shí)間彎折(Dynamic Time Warping,DTW)算法,該算法基于動(dòng)態(tài)規(guī)劃的思想,解決了發(fā)音長短不一的模板匹配問題。DTW是語音識(shí)別中出現(xiàn)較早,較為經(jīng)典的一種算法。與HMM算法相比而言,DTW算法具有計(jì)算量小,識(shí)別效率高的特點(diǎn)。模式匹配的過程其實(shí)就是根據(jù)一定的規(guī)則,計(jì)算輸入矢量特征與庫存模式之間的相似度,判斷出輸入語音的語意信息。本文中,失真測度采用下式所示的歐式距離:

其中,l=1,2,…M;i=1,2,…I;k=1,2,…K.是待測矢量之間的距離,是第i個(gè)碼本的第l個(gè)碼字矢量的第k個(gè)分量。I為說話者的數(shù)量,M為碼本的大小,K為參數(shù)矢量的總維數(shù)。由上式得出該語音相對于該命令詞的最短距離,然后取最短距離最小的命令詞作為該段語音的首先識(shí)別結(jié)果。結(jié)合MATLAB程序,得到數(shù)字1-10的匹配距離矩陣:

圖3即為針對數(shù)字1-10的待測模板和模板庫模板匹配距離的現(xiàn)實(shí),由該距離矩陣,我們可以很清楚的看到,左上角到右下角的對角線上的距離匹配值在該值所在的行和列都是最小的。即距離最短的命令詞為識(shí)別結(jié)果。

8、結(jié)語

該論文闡述了基于DTW的語音識(shí)別系統(tǒng)在MATLAB上實(shí)現(xiàn)的基本過程,在實(shí)驗(yàn)室錄音情況下,該識(shí)別系統(tǒng)的識(shí)別率可以達(dá)到百分之九十以上,效果良好。

參考文獻(xiàn)

[1]趙力.語音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003.

[2]何強(qiáng),何英. MATLAB擴(kuò)展編程[M].清華大學(xué)出版社,2002-06.

[3]李景川,董慧穎.一種改進(jìn)的基于短時(shí)能量的端點(diǎn)檢測算法[J].沈陽理工大學(xué)學(xué)報(bào),2008.

[4]沈宏余,李英.語音端點(diǎn)檢測方法的研究[J].科學(xué)技術(shù)與工程,2008,(08).

[5]吳曉平,崔光照,路康.基于DTW算法的語音識(shí)別系統(tǒng)實(shí)現(xiàn)[J].電子工程師,2004,(07).

第9篇

TTS是“Text To Speech”的縮寫,即“從文本到語音”。它同時(shí)運(yùn)用語言學(xué)和心理學(xué)的杰出之作,把文字智能地轉(zhuǎn)化為自然語音流。電子小說軟件將文字讀出來、銀行營業(yè)廳的語音叫號(hào)系統(tǒng)、詞霸朗讀單詞、手機(jī)朗讀短信和來電朋友的姓名……這就是目前應(yīng)用最廣泛的TTS語音識(shí)別技術(shù)。想了解其最新研究進(jìn)展可以訪問網(wǎng)站/speech/tts.asp。那么,我們又是如何進(jìn)一步控制計(jì)算機(jī)的呢?

計(jì)算機(jī)為什么能聽懂我們的話?

技術(shù)上,實(shí)現(xiàn)語音識(shí)別就是讓計(jì)算機(jī)通過識(shí)別和理解的過程把自然語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或計(jì)算機(jī)指令。語

音識(shí)別是一門交叉學(xué)科,所涉及的領(lǐng)域很廣,包括信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。

在語音識(shí)別過程中,首先要將說話的聲音由模擬的語音信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),然后從信號(hào)中提取語音特征,同時(shí)進(jìn)行數(shù)據(jù)壓縮。輸入的模擬語音信號(hào)也要進(jìn)行預(yù)處理,包括預(yù)濾波、采樣和量化、加窗、端點(diǎn)檢測、預(yù)加重等。語音識(shí)別系統(tǒng)的模型通常由聲學(xué)模型和語言模型兩部分組成。

p語音輸入模式圖

p語音識(shí)別軟件工作流程圖

語音識(shí)別過程主要分為兩個(gè)階段:“學(xué)習(xí)”階段中,計(jì)算機(jī)的主要任務(wù)是建立識(shí)別基本單元的聲學(xué)模型以及進(jìn)行文法分析的語言模型,即構(gòu)建參考模式庫;在“識(shí)別”階段,計(jì)算機(jī)根據(jù)識(shí)別系統(tǒng)的類型選擇能夠滿足要求的識(shí)別方法,采用語音分析方法分析出這種識(shí)別方法所要求的語音特征參數(shù),按照一定的準(zhǔn)則和測度與參考模式庫中的模型進(jìn)行比較從而得出識(shí)別結(jié)果。

Vista,語音識(shí)別就在你身邊

微軟在最新推出的Vista中增加了上千個(gè)讓人耳目一新的新功能,其中之一便是能讓你與計(jì)算機(jī)進(jìn)行交談的“語音識(shí)別”技術(shù)。

其實(shí),Windows XP就已經(jīng)內(nèi)置了當(dāng)時(shí)較為先進(jìn)的TTS語音識(shí)別引擎,同時(shí)也支持語音輸入功能,不過要實(shí)現(xiàn)語音輸入功能還需要另外安裝語音輸入模塊。

而Windows Vista的語音識(shí)別功能已經(jīng)內(nèi)置在系統(tǒng)中,功能更為強(qiáng)大,我們可以通過說話來讓計(jì)算機(jī)完成操作、輸入文字、將屏幕上的文字朗讀出來、處理文件夾和文件、通過IE瀏覽器來訪問互聯(lián)網(wǎng)、單擊屏幕的任意位置、操作窗口和程序……這些功能基本上實(shí)現(xiàn)了通過語音命令來完成計(jì)算機(jī)的常用操作和語音輸入命令,對于某些特殊需要的人來說非常實(shí)用。沒有配置鍵盤、鼠標(biāo)?記不清命令的路徑?手忙不過來?一樣可以通過說話控制計(jì)算機(jī)。

pWindows Vista的語音識(shí)別向?qū)?/p>

p在Windows Vista控制面板中設(shè)置語音識(shí)別選項(xiàng)

pWindows Vista的語音識(shí)別工具欄窗口

p語音檢索識(shí)別。可以通過哼唱歌曲的段落在卡拉OK廳找出想唱的歌曲,通過說話尋找手機(jī)電話本中的聯(lián)系人,甚至可以用手機(jī)通過哼唱音樂旋律來下載彩鈴。

p使用語音控制通過說出不同鏈接的編號(hào)瀏覽網(wǎng)頁

如何找到并設(shè)置語音識(shí)別的功能呢?在Vista控制面板的搜索欄中輸入“語音識(shí)別選項(xiàng)”即可。需要注意的是,在

開始設(shè)置之前請將麥克風(fēng)和音箱(或者耳機(jī))連接到計(jì)算機(jī)上。如果啟動(dòng)語音識(shí)別時(shí)提示錯(cuò)誤,可能是你開啟了其他音頻軟件(比如Windows Media Player等音樂播放軟件),關(guān)閉這些軟件后就可以正常開啟語音識(shí)別了。

開啟Windows Vista的語音識(shí)別軟件后會(huì)出現(xiàn)一個(gè)語音識(shí)別設(shè)置向?qū)В谄渲袝?huì)引導(dǎo)你對麥克風(fēng)進(jìn)行設(shè)置以及進(jìn)行語音訓(xùn)練。語音訓(xùn)練是目前的語音識(shí)別軟件比較通用的一個(gè)使用前的設(shè)置工作,因?yàn)槲覀兠總€(gè)人的說話口音和習(xí)慣都不同,計(jì)算機(jī)要聽懂你說的話當(dāng)然也需要提前學(xué)習(xí),大大提高語音識(shí)別的準(zhǔn)確率。

語音識(shí)別設(shè)置向?qū)Р粌H能幫助計(jì)算機(jī)學(xué)習(xí)和適應(yīng)你的說話習(xí)慣,還能教給你語音識(shí)別的使用方法和常用的語音命令。設(shè)置完成并啟用語音識(shí)別功能以后,Windows的語音識(shí)別提示工具窗口會(huì)浮現(xiàn)在桌面上方以方便你隨時(shí)使用。這時(shí),我們就可以隨心所欲地通過與計(jì)算機(jī)“交談”來控制計(jì)算機(jī)了。特別值得一提的是,Vista的語音識(shí)別對于桌面控制和在使用瀏覽器瀏覽網(wǎng)頁上也更加人性化,比如它會(huì)自動(dòng)檢測并給網(wǎng)頁鏈接加上編號(hào),讀出編號(hào)即能訪問相應(yīng)的鏈接了。

第10篇

關(guān)鍵詞:漢語語言 識(shí)別技術(shù) 智能手機(jī) 經(jīng)濟(jì)效益

中圖分類號(hào):TP212 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-9082(2017)01-0008-01

一、引言

語音識(shí)別技術(shù)也被稱為自動(dòng)識(shí)別技術(shù),其目標(biāo)是將人類語言中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,他是一門交叉性學(xué)科。語音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語音識(shí)別技術(shù)與語音合成技術(shù)相結(jié)合使人們能夠擺脫鍵盤,通過語音命令進(jìn)行操作。相應(yīng)地,我國這種語音識(shí)別技術(shù)更是“進(jìn)化”出適合中國國民應(yīng)用的漢語語言識(shí)別技術(shù)。由此不難看出,語音技術(shù)的應(yīng)用已經(jīng)跨越空間,成為一個(gè)在國際上具有競爭性的新興高技術(shù)產(chǎn)業(yè)。而該技術(shù)在智能手機(jī)中的應(yīng)用更是使得手機(jī)不斷革新,技術(shù)含金量越來越大。

二、漢語語言的特點(diǎn)

1.獨(dú)特的表意性質(zhì)。我們都知道,漢語語言博大精深,是世界上最難懂的語言之一,而它獨(dú)特的表意性也是的它心思人類語林中獨(dú)樹一幟。漢語的構(gòu)詞方法基本是據(jù)意構(gòu)形,加上它用筆畫構(gòu)圖形,以此表達(dá)意思,讓它遠(yuǎn)遠(yuǎn)優(yōu)于那些音不辯形,形不之意的拼音文字。

2.靈活的構(gòu)詞能力。漢語從創(chuàng)始以來也經(jīng)歷了許多變化,從甲骨文、小篆、隸書、行書到如今的正楷,其筆畫越來越少,也越來越好寫。在這些變化之外,他還吸收了許多其他民族的文化,豐富了本民族的語言文化。眾多的疊音詞、雙音詞等都在原來字的基礎(chǔ)上構(gòu)成新的詞語。更是運(yùn)用與電視、電腦上。這加速了計(jì)算機(jī)漢語語音識(shí)別技術(shù)的發(fā)展。

3.富有彈性的語言結(jié)構(gòu)。漢語的另外一個(gè)重要特點(diǎn)是,語法相對孤立容易,不像英語語法多而晦澀難懂。它在性質(zhì)、數(shù)量、時(shí)態(tài)、語態(tài)等方面都有比較固定的表達(dá)形式。

4.寓意深刻。在漢語語言中有許多手法,比如:比喻、借代、象征等,這些手法在語言中的使用都促進(jìn)了表達(dá)語句意義的深刻化。使得漢語語句聽起來韻味十足,美而不膩。

三、漢語言語言識(shí)別技術(shù)在智能手機(jī)上的應(yīng)用

1.解鎖的應(yīng)用。眾所周知,智能手機(jī)以耗電量大著稱,以至于用戶在手機(jī)空閑時(shí)會(huì)按下休眠按鍵,手機(jī)也會(huì)從待機(jī)模式進(jìn)入休眠狀態(tài)。通過語音識(shí)別技術(shù),我們不用接觸手機(jī)就能夠把手機(jī)從休眠狀態(tài)下喚醒。這不僅使得解鎖更加便捷。

2.搜索引擎上的應(yīng)用。手機(jī)上的搜索類引擎如今也呈現(xiàn)多樣發(fā)展的態(tài)勢,如:百度、QQ瀏覽器、360搜索等。而隨著語音技術(shù)的發(fā)展,引擎類搜索也運(yùn)用了語音搜索的搜索方式。這使人們搜索起來更加便捷,也在一定程度上節(jié)省了搜索者的時(shí)間。

3.社交軟件的運(yùn)用。首先是人們所熟悉的QQ、微信等上面存在的語音系統(tǒng),經(jīng)試驗(yàn)證明這些APP的出現(xiàn)不僅滿足了人們對各種社交的需求,而且在一定程度上緩解了人們處于快節(jié)奏生活中的壓力。

四、漢語語音識(shí)別技術(shù)應(yīng)用于智能手機(jī)帶來的經(jīng)濟(jì)效益

第一,伴隨著漢語語音識(shí)別系統(tǒng)的應(yīng)用而衍生的一系列語音類型的APP為經(jīng)濟(jì)發(fā)展帶來了新的生態(tài)環(huán)境。例如:唱吧,一款網(wǎng)絡(luò)KTV。在此APP 中,通過注冊會(huì)員、界面廣告等來獲得收益。

第二,通過智能手機(jī)的發(fā)展而衍生出的相關(guān)數(shù)碼產(chǎn)品。例如:小天才電話手表。通過語音識(shí)別來撥打電話的功能是這款電話手表的特色功能,他符合了小朋友的身份,發(fā)揮了漢語語音識(shí)別的優(yōu)勢,為數(shù)碼市場帶來的經(jīng)濟(jì)新氣象。

第三,給智能手機(jī)行業(yè)帶來新的經(jīng)濟(jì)增長點(diǎn)。語音識(shí)別在智能手機(jī)上的應(yīng)用為智能手機(jī)市場帶來了新一批的客源,而這些客源大都為青年人。這些青年人擁有消費(fèi)需求與消費(fèi)能力大,接受新事物的速度快等特點(diǎn),而這些特點(diǎn)正好與手機(jī)市場換代速度快相契合。不僅活躍了市場,更是活躍了經(jīng)濟(jì)。

第四,促進(jìn)了手機(jī)品牌的形成,塑造了品牌形象。這種特有的語音識(shí)別技術(shù)對智能手機(jī)自身品牌的塑造來說存在著巨大作用并促進(jìn)了其品牌手機(jī)的消費(fèi)量。以華為X9為例,在迪信通8月手機(jī)銷量排行榜中,華為以絕對優(yōu)勢占據(jù)榜首。

五、對漢語語音識(shí)別技術(shù)的應(yīng)用的一些思考

當(dāng)前,漢語音識(shí)別技術(shù)廣泛地應(yīng)用于智能手機(jī)中,極大地促進(jìn)了手機(jī)的便捷性,帶動(dòng)了手機(jī)的發(fā)展和銷售有了一個(gè)質(zhì)的飛躍。然而,我們不得不反思,當(dāng)下漢語語音識(shí)別技術(shù)目前所存在的一些限制智能手機(jī)發(fā)展的問題,這些問題主要如下:

1.聲音在語音識(shí)別交互領(lǐng)域存在感低

1.1相關(guān)技術(shù)要求高。中國文化博大精深,漢語文化更是如此。中國人說話時(shí)并不像外國人說話那樣,一個(gè)單詞就是一個(gè)意思,而是一句話可以理解成多重含義。除此之外,中國人說話存在著嚴(yán)重的口音差異,并不是每個(gè)人都能說一口流利的普通話。這在語音的識(shí)別、喚醒、輸入及交互方面都存在很大的問題。雖然現(xiàn)在技術(shù)方面已經(jīng)能夠破譯粵語等辨識(shí)度高的方言,但是面對中眾多的方言問題,技術(shù)方面仍然存在巨大的挑戰(zhàn)。

1.2使用場景有限。眾所周知,在運(yùn)用手機(jī)相關(guān)功能時(shí),在視覺和觸覺的交互無論在何種場景下都可以進(jìn)行。但是,聲音卻不行。場景嘈雜、人員眾多等都無法進(jìn)行相關(guān)的語音識(shí)別。

1.3交互模式不自然。不論是siri的長按喚醒,還是傻傻的對著手機(jī)說“嘿,siri!”給人的都是一種違和的感覺。對著冷冰冰的機(jī)器,我們甚至感到手足無措、舌頭打戰(zhàn)。甚至有時(shí)候好不容易說出一句話,結(jié)果給出的結(jié)果是無法識(shí)別。

2.語音終端還未成型。在中國現(xiàn)如今的科學(xué)技術(shù)背景下,能夠供大規(guī)模運(yùn)營商使用的中國版Echo還未出現(xiàn)。而且,就算出現(xiàn)也將會(huì)受到中國市場的制約與影響。

3.Z音內(nèi)容成本過高。在語音系統(tǒng)中,一方面信息獲取成本過高,另一方面差異化價(jià)值不高。語音信息的獲取遠(yuǎn)比視頻、圖片獲取的成本高,而且多數(shù)人會(huì)存在這樣的疑問:圖片文字就能體現(xiàn)的內(nèi)容握為什么還要通過語音去獲取呢?因?yàn)槎鄶?shù)人都覺得圖片與文字在獲取信息上要更為直觀。

六、結(jié)語

總之,科學(xué)技術(shù)的步伐從來都不會(huì)是停止不前的,我們有理由相信現(xiàn)代漢語識(shí)別技術(shù)將會(huì)不斷改進(jìn),突破現(xiàn)在的科技與市場限制,廣泛地應(yīng)用于各大領(lǐng)域,為經(jīng)濟(jì)的發(fā)展創(chuàng)造多方面、多層面的經(jīng)濟(jì)新動(dòng)態(tài)。

參考文獻(xiàn)

第11篇

關(guān)鍵詞:語音檢索;語音識(shí)別;語音合成

中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2010)22-6295-03

Hotel Information Voice Retrieval System

LV Dan-ju, XU Wei-heng

(Computer and Information Science Dept., Southwest Forestry University, Kunming, China, 650224)

Abstract: Unlike traditional retrieval system, manually inputting query requests, this paper proposes voice search system. Using voice search technology, we design and develop the Voice Hotel information inquiry system, which basically fulfils man-machine voice dialog forms of inquiry. The system uses the voice processing technologies 1) HMM model based on speech recognition, converting real speech to text; 2) PSOLA of speech synthesis technology, converting text to speech. The retrieval accuracy of the system reaches 85%.

Key words: voice search; speech recognition; speech synthesis

語音搜索技術(shù)(Voice Search)是把用戶的語音咨詢信息轉(zhuǎn)換成文本咨詢信息,根據(jù)該文本信息進(jìn)行數(shù)據(jù)搜索的技術(shù)。該技術(shù)為用戶提供了人-機(jī)交流更為直接的語音對話方式。由于語音的便利性(較傳統(tǒng)的手工輸入)和可用性(較以內(nèi)容為主的影像檢索),成為檢索技術(shù)的重要發(fā)展方向。近年來,隨著語音搜索技術(shù)中的關(guān)鍵技術(shù)如語音識(shí)別、語音合成技術(shù)的不斷發(fā)展與完善,語音搜索已在電信、金融、娛樂、政府等行業(yè)中得到了廣泛深入的運(yùn)用[1],如語音電話號(hào)碼查詢,音樂/視頻的搜索管理,股票的語音詢問與報(bào)價(jià)以及會(huì)議信息系統(tǒng)等。微軟旗下的Tellme公司推出了針對于黑莓手機(jī)語音搜索軟件實(shí)現(xiàn)了移動(dòng)電話語音查詢功能,之后雅虎也推出了OneSearch語音信息搜索軟件。繼微軟Tellme和OneSearch語音搜索服務(wù)之后,Google也于2009年11月推出了手機(jī)語音搜索軟件。我國也于本世紀(jì)初相繼推出各城市語音控制導(dǎo)航電子地圖、KTV語音點(diǎn)歌服務(wù)系統(tǒng)等。語音搜索技術(shù)在不到20年的發(fā)展中不斷完善[2-4],顯示出其強(qiáng)大的發(fā)展?jié)摿Α?/p>

1 系統(tǒng)介紹

1.1 系統(tǒng)組成

本系統(tǒng)采用的語音檢索系統(tǒng)結(jié)構(gòu)[1], 如圖1所示。

對話系統(tǒng)搜索模型首先將游客的語音查詢信息輸入自動(dòng)語音識(shí)別器(Automatic Speech Recognizer ASR),該模塊將由聲學(xué)模型(Acoustic Model AM)和語言模型(Language Model LM)組成。語音識(shí)別器用于實(shí)現(xiàn)語音到文本的轉(zhuǎn)換(Speech to Text),ASR產(chǎn)生最好的一個(gè)識(shí)別文本結(jié)果。 系統(tǒng)根據(jù)識(shí)別的文本調(diào)用搜索模塊SQL Server引擎進(jìn)行數(shù)據(jù)搜索。將符合條件的一個(gè)或多個(gè)數(shù)據(jù)信息進(jìn)行顯示,并將搜索結(jié)果語音播報(bào)給用戶。

1.2 系統(tǒng)采用技術(shù)

1.2.1 語音識(shí)別

語音識(shí)別部分主要由兩個(gè)部分組成:語音訓(xùn)練階段與語音識(shí)別階段,如圖 2所示,語音訓(xùn)練階段是利用語料庫中的語音信息,抽取其美爾倒譜參數(shù)MFCC的語音特征值,該參數(shù)考慮了人耳對聲音信號(hào)的因素,能夠較好的反映;以隱馬爾科夫模型HMM為語音模型,依據(jù)數(shù)據(jù)統(tǒng)計(jì)原理,建立起語音參考模板。在訓(xùn)練階段完成后,即可進(jìn)入識(shí)別階段,識(shí)別階段將用戶的語音信號(hào)抽取MFCC語音特征,為該語音創(chuàng)建識(shí)別模板。最后,將參考模板與識(shí)別模板進(jìn)行對比,通過識(shí)別匹配原則尋求識(shí)別模板與參考模板中最相近的一個(gè)模板,從而實(shí)現(xiàn)語音信號(hào)的識(shí)別,實(shí)現(xiàn)從語音到文本的轉(zhuǎn)換。

1)MFCC特征參數(shù):美爾頻標(biāo)倒譜系數(shù)考慮了人耳的聽覺特性,將頻譜轉(zhuǎn)化為基于Mel頻標(biāo)的非線性頻譜,然后轉(zhuǎn)換到倒譜域上。由于充分考慮了人的聽覺特性,而且沒有任何前提假設(shè),MFCC參數(shù)具有良好的識(shí)別性能和抗噪能力。本系統(tǒng)采用42維的MFCC(12維的倒譜參數(shù),1維的對數(shù)能量, 1維的pitch和一、二階倒譜參數(shù))。

2)HMM聲學(xué)模型:HMM是一種雙重隨機(jī)過程,而之所以稱為隱藏式是因?yàn)槠渲杏幸唤M隨機(jī)過程是隱藏的,看不見的,在語音中就如同人類在發(fā)聲的過程中其發(fā)聲器官狀態(tài)是看不見的,好比喉嚨、舌頭與口腔的變化是不可能從可觀測的語音信號(hào)序列看出來的。而另一組隨機(jī)過程觀測序列(Observation Sequence),本系統(tǒng)采用6狀態(tài)的HMM表示的漢語音素模型,它是由狀態(tài)觀測概率(State Observation Probability)來描述在每個(gè)狀態(tài)下觀測到各種語音特征參數(shù)的概率分布。HMM的狀態(tài)觀測概率函數(shù)式bj(ot)是采用高斯混合密度函數(shù)GMM(Gaussian Mixture Model)來計(jì)算連續(xù)概率密度,因此每一個(gè)聲音單元(本系統(tǒng)采用音素)皆有一組連續(xù)的HMM(GHMM)。

3)N-Gram的語言模型:本系統(tǒng)采用基于統(tǒng)計(jì)方法的適合大詞匯量連續(xù)語音識(shí)別的Trigram統(tǒng)計(jì)語言模型,進(jìn)一步提高文本識(shí)別率。為下一步檢索提供更為優(yōu)質(zhì)的文本檢索信息。一個(gè)詞的N-gram的語言模型如式:

(1)

整個(gè)句子的概率表示為:

(2)

式中w1,w2,…,wm表示組成整個(gè)句子中出現(xiàn)的每個(gè)詞,參數(shù)n為n-gram統(tǒng)計(jì)語言模型的階數(shù),其值取決于模型的精度和復(fù)雜度,通過實(shí)驗(yàn)表明,n值越大,則對句子中單詞之間的依賴關(guān)系描述得越準(zhǔn)確,此時(shí)模型的精確度越高,但模型的復(fù)雜度也越大。本系統(tǒng)采用n=3,也即Trigram。于是,訓(xùn)練數(shù)據(jù)的句子中每個(gè)詞出現(xiàn)的概率只與其前兩個(gè)詞有關(guān),表示為:

(3)

在計(jì)算時(shí),上式表示為:

(4)

c(wi-2,wi-1,wi)表示為該詞序列出現(xiàn)在訓(xùn)練文本中的次數(shù)。但由于統(tǒng)計(jì)數(shù)據(jù)的稀疏性,必然會(huì)有c(wi-2,wi-1,wi)=0的可能。為此,應(yīng)采用平滑技術(shù)(back-off和interpolated插值)來調(diào)整序列在訓(xùn)練文本中的分布概率。本系統(tǒng)采用插值方法。其表達(dá)式為:

(5)

λ為插值系數(shù),對于給定的p(wi|wi-2,wi-1),可以在訓(xùn)練語料上運(yùn)用Baum-welch算法計(jì)算得到插值系數(shù)λ(01)。

4)Viterbi Search識(shí)別算法:系統(tǒng)采用Viterbi搜索方法獲取最好的音節(jié)系列,作為識(shí)別的文本。

系統(tǒng)的訓(xùn)練與識(shí)別部分均采用HTK(HMM Tool Kit)[6]實(shí)現(xiàn)。HTK是一套功能強(qiáng)大的語音識(shí)別工具,可以將大量的語音用HMM訓(xùn)練后,加以識(shí)別。所以本系統(tǒng)采用HTK為識(shí)別核心。語料庫中收錄賓館名稱、賓館價(jià)格、賓館星級、賓館地址的語音資料,并將其對應(yīng)文本進(jìn)行手工音素注音。訓(xùn)練階段是實(shí)現(xiàn)語音的MFCC特征與文本音素依HMM的對應(yīng)過程,完成HMM音素模板的建立。在識(shí)別運(yùn)用部分將要識(shí)別的語音文件進(jìn)行MFCC提取后與HMM音素模板,利用N-gram的語言模型,進(jìn)一步完善識(shí)別文本。最后利用Viterbi Search算法,找出一個(gè)最相似的音節(jié)序列,進(jìn)而確定文本。

1.2.2 語音理解/搜索(Spoken Language Understanding/search)

語音理解的目的是將用戶的表述轉(zhuǎn)換成相對應(yīng)的語義。在語音搜索中所指的“相對應(yīng)的語義”就是對數(shù)據(jù)庫查詢的關(guān)鍵詞信息。由于用戶在查詢時(shí)所說的語句不可能嚴(yán)格按照語法要求,是一種口頭的表述,如當(dāng)用戶選擇賓館名稱查詢時(shí),按照要求用戶只需要說明賓館名稱如“連云賓館”即可,但用戶可能會(huì)說“我想問一下連云賓館,謝謝!”,而不只是“連云賓館”。這樣,就會(huì)造成識(shí)別文本與查詢文本的錯(cuò)誤對應(yīng)。為此,本系統(tǒng)采用語音信息提示,告訴用戶查詢的語音表達(dá)方式,如按賓館查詢時(shí),提示信息為“請說賓館名稱”,按賓館星級查詢時(shí),提示信息為“請說出要查詢的賓館星級,1~5的數(shù)字”等。在文獻(xiàn)[4]中,還提出了其它語音理解的解決方案。由于本系統(tǒng)只是一個(gè)初級性的語音檢索,固沒有采用像基于詞類的N-Gram,填詞法等語音理解技術(shù)。

1.2.3 語音合成

為了使結(jié)果查詢采用多媒體方式輸出,以提供更自然的人-機(jī)交互,系統(tǒng)實(shí)現(xiàn)能夠?qū)⒉樵兾淖中畔骰蛇B續(xù)的語音(TTS,Text to Speech),以提供高質(zhì)量、智能化的語音服務(wù)的重要技術(shù)。首先將文字輸入到TTS系統(tǒng)中,TTS系統(tǒng)在收到文字后,根據(jù)原有在語料庫中的語音檔案進(jìn)行連音,調(diào)整長度,大小及聲調(diào)的動(dòng)作。本系統(tǒng)采用微軟推出的TTS軟件包,作為漢語合成時(shí)還要考慮聲調(diào)因素。實(shí)現(xiàn)過程如圖 3所示。

TTS引擎屬于Windows API外掛函數(shù),它是一個(gè)Speech API程序。安裝TTS引擎后,自動(dòng)將類庫文件Vtxtauto.tlb安裝在Windows系統(tǒng)目錄里的Speech 目錄下,從而將其導(dǎo)入語音庫“Voicetext Type Library”中。形成庫文件后,我們可以將TTS引擎作為一個(gè)外部工程從語音庫中引入VB、VC等32位應(yīng)用軟件的可視化環(huán)境,在視圖中的對象瀏覽器窗口觀察分析TTS引擎所封裝的類、類的成員函數(shù)、方法及各屬性的意義,并在所開發(fā)的軟件中嵌入TTS,編寫出獨(dú)具個(gè)性的語音合成軟件。

2 系統(tǒng)設(shè)計(jì)說明

本系統(tǒng)采用VC++進(jìn)行語音檢索Voice Hotel系統(tǒng)的界面設(shè)計(jì),其系統(tǒng)操作說明如下:

1)開始執(zhí)行Voice Hotel,會(huì)以語音提示使用語音查詢的方法。語音會(huì)提示在嗶聲后開始3秒錄音,嗶聲響起,開始進(jìn)行錄音,此時(shí),對著麥克風(fēng)說出要查詢的方式:“賓館名稱”、“賓館價(jià)格”、“賓館星級”、“賓館地址”;如圖 4表示,說出“賓館名稱”。

2)經(jīng)過系統(tǒng)識(shí)別后,激活相應(yīng)的查詢方式,語音回報(bào)用戶要求的查詢方式,并提示查詢表述方式,準(zhǔn)備進(jìn)行查詢關(guān)鍵字的語音錄入;如圖 5所示。

3)語音提示在嗶聲后開始錄音,嗶聲響起,對著麥克風(fēng)說出要查詢的關(guān)鍵字;如圖6所示。

4)經(jīng)系統(tǒng)識(shí)別后,將會(huì)在相應(yīng)的查詢方式處顯示識(shí)別結(jié)果,并在檢索結(jié)果處顯示查詢符合要求的結(jié)果,利用語音合成技術(shù),將其識(shí)別結(jié)果及查詢結(jié)果進(jìn)行語音播報(bào)。如圖 7表示,識(shí)別結(jié)果為:金龍,進(jìn)行結(jié)果顯示。

3 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果

由于本語音識(shí)別系統(tǒng)是采用最接近的句子作為識(shí)別結(jié)果,被識(shí)別系統(tǒng)資料的充足與否,平均每句的字?jǐn)?shù),都會(huì)影響正確率。系統(tǒng)采用字正確率作為系統(tǒng)測評指標(biāo)的標(biāo)準(zhǔn):。系統(tǒng)采用的訓(xùn)練數(shù)據(jù)說明,如表 1所示,測試結(jié)果如表 2所示。

從表2可知,本系統(tǒng)的識(shí)別率達(dá)到大約85%,基本達(dá)到一個(gè)初級語音查詢的要求。

本系統(tǒng)的開發(fā)出基于語音和文字兩種查詢與輸出的多媒體查詢系統(tǒng),它優(yōu)于傳統(tǒng)資料查詢的文字輸入、輸出的方式,顯示出人-機(jī)交流更加自然的特點(diǎn)。系統(tǒng)中核心的部分即為語音識(shí)別與語音合成部分。就該系統(tǒng)識(shí)別率而言,由于本語音識(shí)別系統(tǒng)采用最接近的句子當(dāng)作為識(shí)別結(jié)果,被識(shí)別系統(tǒng)資料的多少,平均每句的字?jǐn)?shù),都會(huì)影響正確率。訓(xùn)練語音資料信息如下:其測試結(jié)果如下:實(shí)驗(yàn)數(shù)據(jù)表明,本系統(tǒng)的平均識(shí)別率約為85%。

4 結(jié)論

本文已實(shí)現(xiàn)了一個(gè)較為完整的語音賓館查詢系統(tǒng),關(guān)鍵技術(shù)為語音識(shí)別與合成。由于系統(tǒng)只是一個(gè)初級的語音檢索系統(tǒng),所以在語音理解部分采用的是對用戶的語音查詢表述進(jìn)行了嚴(yán)格的限制,今后可近將針對語音理解部分作進(jìn)一步研究,以實(shí)現(xiàn)更自然的口語查詢的目的, 同時(shí)提高系統(tǒng)識(shí)別率。并提供多查詢接入方式如電話方式的查詢以及更加豐富輸出結(jié)果如顯示賓館的地理位置等。

參考文獻(xiàn):

[1] Ye-Yi Wang, Dong Yu, Yun-Cheng Ju and Alex Acero, An Introduction to Voice Search, IEEE Signal Processing Mag.[J], pp.30-38, May 2008

[2] Yu D, Ju Y C, Wang Y Y, Zweig G, et al. Automated directory assistance system: From theory to practice[J].in Proc. Interspeech, Antwerp, Belgium,2007: 2709-2712.

[3] Natarajan P, Prasad R, Schwartz R M, et al. A scalable architecture for directory assistance automation[J].in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, Orlando, FL, 2002:121-124.

[4] Yu D, Ju Y C, Wang Y Y, et al. N-Gram Based Filler Model for Robust Grammar Authoring[J].in Proc. ICASSP,2006(1):565-568.

第12篇

語音識(shí)別技術(shù)成為21世紀(jì)“數(shù)字時(shí)代”的重要開發(fā)領(lǐng)域,在計(jì)算機(jī)的多媒體技術(shù)應(yīng)用和工業(yè)自動(dòng)化控制應(yīng)用等方面,成果令人屬目。語音識(shí)別技術(shù)是指用電子裝置來識(shí)別某些人的某些特征語音,語音識(shí)別的手段一般分為二大類,一類利用在計(jì)算機(jī)上開發(fā)語音識(shí)別系統(tǒng),通過編程軟件達(dá)到對語音的識(shí)別,另一類采用專門的語音識(shí)別芯片來進(jìn)行簡單的語音識(shí)別。利用專門的語音識(shí)別芯片應(yīng)用在地鐵車輛上,具有結(jié)構(gòu)簡單、使用方便,并且語音識(shí)別器有較高的可靠性、穩(wěn)定性的特點(diǎn),是簡單語音識(shí)別在自動(dòng)控制應(yīng)用上的一種優(yōu)先方案。

目前上海地鐵一、二、三、五、六、八號(hào)線在車輛信息顯示系統(tǒng)的設(shè)計(jì)上缺少實(shí)用性和操作性,對乘客來講缺少在實(shí)時(shí)報(bào)站時(shí)的人性化。如:地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng)。如果在每個(gè)車門的上方安裝車站站名動(dòng)態(tài)顯示地圖,實(shí)時(shí)顯示與車廂廣播同步的信息,以及在每節(jié)車廂外側(cè)顯示列車的終點(diǎn)站,良好的工業(yè)設(shè)計(jì)不僅能給廣大的乘客帶來非常大的幫助,而且能夠提升上海地鐵服務(wù)的形象。由于在設(shè)計(jì)以上地鐵列車時(shí),受科技發(fā)展的限制。現(xiàn)在上海地鐵4號(hào)線在車輛信息顯示系統(tǒng)的設(shè)計(jì)上滿足了廣大的乘客的需求,

增加了車站站名動(dòng)態(tài)顯示地圖。

如何在現(xiàn)有的地鐵車輛上增加地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng),如圖1、2,首先考慮其實(shí)用性和性價(jià)比,同時(shí)安裝、操作要方便,在不影響列車的性能的前提下,完成本乘客信息顯示系統(tǒng)的應(yīng)用,設(shè)計(jì)方案的選擇極其重要,目前的乘客信息顯示系統(tǒng)比較復(fù)雜,例如:對于應(yīng)用在某條線路上的聲音識(shí)別系統(tǒng),不僅要修改原語音文件,而且聲音識(shí)別器不容易操縱,

對使用者來講仍然存在比較多的問題。對于應(yīng)用在某條線路上數(shù)字傳輸顯示系統(tǒng),其操作方法不僅給司機(jī)帶來了任務(wù),每站需要手動(dòng)操作二次,同時(shí)顯示的相關(guān)內(nèi)容沒有實(shí)時(shí)性,總之乘客信息顯示系統(tǒng)比較落后。

設(shè)計(jì)一種符合現(xiàn)代化要求的乘客信息顯示系統(tǒng)是非常必要。

2.設(shè)計(jì)

地鐵車輛乘客信息顯示系統(tǒng)的設(shè)計(jì),采用CMOS語音識(shí)別大規(guī)模集成電路,識(shí)別響應(yīng)時(shí)間小于300 ms。HM2007芯片采用單片結(jié)構(gòu),如圖3。將語音識(shí)別需要的全部電路:CPU、A/D、ROM、語音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內(nèi),這樣外圍電路就非常少,外接64K非易失性SRAM,最多能識(shí)別40個(gè)車站站名語音(字長0.9秒),或(字長1.92秒)但識(shí)別僅20個(gè)車站站名語音。按正常人的講話速度,0.9秒一般每秒吐字1到3個(gè)為宜。

針對目前上海地鐵列車在車廂內(nèi)外無LED動(dòng)態(tài)站名顯示而設(shè)計(jì),通過將列車車廂廣播的模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),自動(dòng)控制LED發(fā)光二極管,在列車在車廂內(nèi)使得廣播的內(nèi)容(每個(gè)車站站名)與發(fā)光二極管顯示面板聲光同步,將顯示面板放置地鐵車輛的每扇車門上方,并且顯示面板以地鐵運(yùn)營線路為背景,達(dá)到列車進(jìn)站和出站時(shí)能分別指示。在列車車廂外讓乘客非常直觀地、一目了然地了解車輛的終點(diǎn)站方向,從而方便乘客的上下車,提高了地鐵服務(wù)水平。在國外的地鐵列車上應(yīng)用已相當(dāng)普遍。

語音識(shí)別顯示器①的輸入端與車載廣播功放器相連接,實(shí)現(xiàn)廣播模擬信號(hào)發(fā)出的語音進(jìn)行車站名的自動(dòng)識(shí)別。不需要編程技術(shù)和修改文件等方法,全部采用硬件方法設(shè)計(jì)。整個(gè)系統(tǒng)分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語言識(shí)別部分;(4)執(zhí)行顯示部分;(5)錄音功能部分。

(1)輸入控制部分:

通過麥克風(fēng)或(結(jié)合器)連接,如圖4所示,要求模擬語音輸入點(diǎn)的電壓必須控制在大約20mv左右,以確保后期語音識(shí)別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號(hào)轉(zhuǎn)變成數(shù)字方波信號(hào),對語音輸入進(jìn)行開關(guān)量的控制,確保在T

(2)語音識(shí)別部分:

利用語音識(shí)別芯片HM2007和外接6264SRAM存儲(chǔ)器組成為主要部分,(HM2007中ROM已經(jīng)固化了語音語法技術(shù))對語音的存儲(chǔ)及語音語法算法進(jìn)行控制。HM2007的詳細(xì)內(nèi)容見產(chǎn)品說明書。

(3)噪音濾波部分:

濾波功能是自動(dòng)識(shí)別(阻擋)我們在設(shè)計(jì)階段設(shè)計(jì)好的各個(gè)工況的語音情況,例如:司機(jī)的講話及車輛雜音等(在麥克風(fēng)的工況下),以確保輸入語音的可靠性、穩(wěn)定性,特采用UM3758串行編譯碼一體化進(jìn)行濾波電路。如圖5。

(4)執(zhí)行顯示部分:

將車廂廣播喇叭的模擬信息通過語音識(shí)別器轉(zhuǎn)變成數(shù)字信息,最終經(jīng)過譯碼電路、4/16多路數(shù)據(jù)選擇器及RS485接口,去控制車廂內(nèi)車門上十個(gè)LED顯示面板,如圖6。

(5)錄音功能部分:

在進(jìn)行廣播內(nèi)容更改時(shí),本項(xiàng)目最大的特點(diǎn)是:不需要任何手段的手工軟件編程的修改,而是通過遠(yuǎn)程音頻電路控制技術(shù)進(jìn)行按動(dòng)相關(guān)按鈕,選擇地址然后自動(dòng)錄入內(nèi)容,如圖6。

3. 結(jié)論

語音識(shí)別器及LED顯示面板的設(shè)計(jì),能應(yīng)用到以前沒有LED顯示面功能的地鐵車輛上,與其他所設(shè)計(jì)的方式相比較,語音識(shí)別控制簡單、可靠性好、安裝方便、相對投資最小和不改動(dòng)車廂內(nèi)任何電器為特點(diǎn),僅提供110VDC電源和音頻輸入接口。

本項(xiàng)目的開發(fā)具有一定社會(huì)效益,得到國內(nèi)外乘客和殘疾人員的歡迎,提高了地鐵服務(wù)質(zhì)量。

參考文獻(xiàn):

1. HUALON MICRELECTRONICS CORPORATION TIWAN

PRODUCT NUMBER: HM2007

2. 555集成電路實(shí)用大全

上海科技普及出版社

3.①獲得“2003年上海市優(yōu)秀發(fā)明選拔賽三等獎(jiǎng)”

4.①編入《中國科技發(fā)展精典文庫》第四輯

主站蜘蛛池模板: 合川市| 奉化市| 娄底市| 龙泉市| 通辽市| 张家川| 巫溪县| 瓮安县| 竹北市| 无极县| 阳泉市| 黄浦区| 绥芬河市| 津市市| 蓝田县| 股票| 佛学| 嘉定区| 香港 | 卢龙县| 呼伦贝尔市| 嘉鱼县| 田阳县| 万源市| 新田县| 阳新县| 马鞍山市| 永泰县| 竹北市| 中方县| 常熟市| 响水县| 正定县| 格尔木市| 息烽县| 安化县| 阿巴嘎旗| 宜兰县| 尉氏县| 珲春市| 秦皇岛市|