真人一对一直播,chinese极品人妻videos,青草社区,亚洲影院丰满少妇中文字幕无码

0
首頁 精品范文 語音識別

語音識別

時間:2022-05-29 10:25:06

開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇語音識別,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。

第1篇

關鍵詞: 語音識別; 識別原理; 聲學建模方法; 多維模式識別系統

中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

語言是人類相互交流最常用、最有效、最重要和最方便的通信形式,語音是語言的聲學表現,與機器進行語音交流是人類一直以來的夢想。隨著計算機技術的飛速發展,語音識別技術也取得突破性的成就,人與機器用自然語言進行對話的夢想逐步接近實現。語音識別技術的應用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領域也發揮著極其重要的作用。它是信息社會朝著智能化和自動化發展的關鍵技術,使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。

1 語音識別技術的發展

語音識別技術起始于20世紀50年代。這一時期,語音識別的研究主要集中在對元音、輔音、數字以及孤立詞的識別。

20世紀60年代,語音識別研究取得實質性進展。線性預測分析和動態規劃的提出較好地解決了語音信號模型的產生和語音信號不等長兩個問題,并通過語音信號的線性預測編碼,有效地解決了語音信號的特征提取。

20世紀70年代,語音識別技術取得突破性進展。基于動態規劃的動態時間規整(Dynamic Time Warping, DTW)技術基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。

20世紀80年代,語音識別任務開始從孤立詞、連接詞的識別轉向大詞匯量、非特定人、連續語音的識別,識別算法也從傳統的基于標準模板匹配的方法轉向基于統計模型的方法。在聲學模型方面,由于HMM能夠很好的描述語音時變性和平穩性,開始被廣泛應用于大詞匯量連續語音識別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學建模[2?3];在語言模型方面,以N元文法為代表的統計語言模型開始廣泛應用于語音識別系統[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經網絡的語音建模方法開始廣泛應用于LVCSR系統,語音識別技術取得新突破。

20世紀90年代以后,伴隨著語音識別系統走向實用化,語音識別在細化模型的設計、參數提取和優化、系統的自適應方面取得較大進展[5]。同時,人們更多地關注話者自適應、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題[6]。此外,語音識別技術開始與其他領域相關技術進行結合,以提高識別的準確率,便于實現語音識別技術的產品化。

2 語音識別基礎

2.1 語音識別概念

語音識別是將人類的聲音信號轉化為文字或者指令的過程[7]。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支。語音識別的研究涉及微機技術、人工智能、數字信號處理、模式識別、聲學、語言學和認知科學等許多學科領域,是一個多學科綜合性研究領域[8]。

根據在不同限制條件下的研究任務,產生了不同的研究領域。這些領域包括:根據對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續語音識別系統;根據對說話人的依賴程度,可分為特定人和非特定人語音識別系統;根據詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統。

2.2 語音識別基本原理

從語音識別模型的角度講,主流的語音識別系統理論是建立在統計模式識別基礎之上的。語音識別的目標是利用語音學與語言學信息,把輸入的語音特征向量序列[X=x1,x2,…,xT]轉化成詞序列[W=w1,w2,…,wN]并輸出。基于最大后驗概率的語音識別模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要尋找的最可能的詞序列[W],應該使[P(X|W)]與[P(W)]的乘積達到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學模型決定。[P(W)]是[W]獨立于語音特征矢量的先驗概率,由語言模型決定。由于將概率取對數不影響[W]的選取,第四個等式成立。[logP(X|W)]與[logP(W)]分別表示聲學得分與語言得分,且分別通過聲學模型與語言模型計算得到。[λ]是平衡聲學模型與語言模型的權重。從語音識別系統構成的角度講,一個完整的語音識別系統包括特征提取、聲學模型、語言模型、搜索算法等模塊。語音識別系統本質上是一種多維模式識別系統,對于不同的語音識別系統,人們所采用的具體識別方法及技術不同,但其基本原理都是相同的,即將采集到的語音信號送到特征提取模塊處理,將所得到的語音特征參數送入模型庫模塊,由聲音模式匹配模塊根據模型庫對該段語音進行識別,最后得出識別結果[9]。

語音識別系統基本原理框圖如圖1所示,其中:預處理模塊濾除原始語音信號中的次要信息及背景噪音等,包括抗混疊濾波、預加重、模/數轉換、自動增益控制等處理過程,將語音信號數字化;特征提取模塊對語音的聲學參數進行分析后提取出語音特征參數,形成特征矢量序列。語音識別系統常用的特征參數有短時平均幅度、短時平均能量、線性預測編碼系數、短時頻譜等。特征提取和選擇是構建系統的關鍵,對識別效果極為重要。

圖1 語音識別基本原理框圖

由于語音信號本質上屬于非平穩信號,目前對語音信號的分析是建立在短時平穩性假設之上的。在對語音信號作短時平穩假設后,通過對語音信號進行加窗,實現短時語音片段上的特征提取。這些短時片段被稱為幀,以幀為單位的特征序列構成語音識別系統的輸入。由于梅爾倒譜系數及感知線性預測系數能夠從人耳聽覺特性的角度準確刻畫語音信號,已經成為目前主流的語音特征。為補償幀間獨立性假設,人們在使用梅爾倒譜系數及感知線性預測系數時,通常加上它們的一階、二階差分,以引入信號特征的動態特征。

聲學模型是語音識別系統中最為重要的部分之一。聲學建模涉及建模單元選取、模型狀態聚類、模型參數估計等很多方面。在目前的LVCSR系統中,普遍采用上下文相關的模型作為基本建模單元,以刻畫連續語音的協同發音現象。在考慮了語境的影響后,聲學模型的數量急劇增加,LVCSR系統通常采用狀態聚類的方法壓縮聲學參數的數量,以簡化模型的訓練。在訓練過程中,系統對若干次訓練語音進行預處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓練語音的參考模式庫。

搜索是在指定的空間當中,按照一定的優化準則,尋找最優詞序列的過程。搜索的本質是問題求解,廣泛應用于語音識別、機器翻譯等人工智能和模式識別的各個領域。它通過利用已掌握的知識(聲學知識、語音學知識、詞典知識、語言模型知識等),在狀態(從高層至底層依次為詞、聲學模型、HMM狀態)空間中找到最優的狀態序列。最終的詞序列是對輸入的語音信號在一定準則下的一個最優描述。在識別階段,將輸入語音的特征矢量參數同訓練得到的參考模板庫中的模式進行相似性度量比較,將相似度最高的模式所屬的類別作為識別中間候選結果輸出。為了提高識別的正確率,在后處理模塊中對上述得到的候選識別結果繼續處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識別結果的可靠程度等。最終通過增加約束,得到更可靠的識別結果。

2.3 聲學建模方法

常用的聲學建模方法包含以下三種:基于模式匹配的動態時間規整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經網絡識別法(ANN)等。

DTW 是較早的一種模式匹配的方法。它基于動態規劃的思想,解決孤立詞語音識別中的語音信號特征參數序列比較時長度不一的模板匹配問題。在實際應用中,DTW通過計算已預處理和分幀的語音信號與參考模板之間的相似度,再按照某種距離測度計算出模板間的相似度并選擇最佳路徑。

HMM是對語音信號的時間序列結構所建立的統計模型,是在馬爾可夫鏈的基礎上發展起來的,它是一種基于參數模型的統計識別方法。HMM可模仿人的言語過程,可視作一個雙重隨機過程:一個是用具有有限狀態數的馬爾可夫鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與馬爾可夫鏈的每一個狀態相關聯的觀測序列的隨機過程[10]。

ANN以數學模型模擬神經元活動,將人工神經網絡中大量神經元并行分布運算的原理、高效的學習算法以及對人的認知系統的模仿能力充分運用到語音識別領域,并結合神經網絡和隱含馬爾可夫模型的識別算法,克服了ANN在描述語音信號時間動態特性方面的缺點,進一步提高了語音識別的魯棒性和準確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計音素或狀態的后驗概率。2011年,微軟以深度神經網絡替代多層感知機形成的混合模型系統大大提高了語音識別的準確率。

3 語音識別的應用

語音識別技術有著非常廣泛的應用領域和市場前景。在語音輸入控制系統中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、命令或詢問來作出正確的響應,這樣既可以克服人工鍵盤輸入速度慢,極易出差錯的缺點,又有利于縮短系統的反應時間,使人機交流變得簡便易行,比如用于聲控語音撥號系統、聲控智能玩具、智能家電等領域。在智能對話查詢系統中,人們通過語音命令,可以方便地從遠端的數據庫系統中查詢與提取有關信息,享受自然、友好的數據庫檢索服務,例如信息網絡查詢、醫療服務、銀行服務等。語音識別技術還可以應用于自動口語翻譯,即通過將口語識別技術、機器翻譯技術、語音合成技術等相結合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實現跨語言交流[11]。

語音識別技術在軍事斗爭領域里也有著極為重要的應用價值和極其廣闊的應用空間。一些語音識別技術就是著眼于軍事活動而研發,并在軍事領域首先應用、首獲成效的,軍事應用對語音識別系統的識別精度、響應時間、惡劣環境下的頑健性都提出了更高的要求。目前,語音識別技術已在軍事指揮和控制自動化方面得以應用。比如,將語音識別技術應用于航空飛行控制,可快速提高作戰效率和減輕飛行員的工作負擔,飛行員利用語音輸入來代替傳統的手動操作和控制各種開關和設備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時間和精力集中于對攻擊目標的判斷和完成其他操作上來,以便更快獲得信息來發揮戰術優勢。

4 結 語

語音識別的研究工作對于信息化社會的發展,人們生活水平的提高等方面有著深遠的意義。隨著計算機信息技術的不斷發展,語音識別技術將取得更多重大突破,語音識別系統的研究將會更加深入,有著更加廣闊的發展空間。

參考文獻

[1] 馬志欣,王宏,李鑫.語音識別技術綜述[J].昌吉學院學報,2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續語音識別系統研究進展[J].中文信息學報,2009,23(1):112?123.

[6] 顧亞強.非特定人語音識別關鍵技術研究[D].長沙:國防科學技術大學,2009.

[7] 中華人民共和國國家質量監督檢驗檢疫總局.GB/T21023?2007 中文語音識別系統通用技術規范[S].北京:中國標準出版社,2007.

[8] 王文慧.基于ARM的嵌入式語音識別系統研究[D].天津:天津大學,2008.

[9] 何湘智.語音識別的研究與發展[J].計算機與現代化,2002(3):3?6.

第2篇

>> Linux平臺下的ALSA聲音編程 基于Sphinx的機器人語音識別系統構建與研究 linux平臺下智能卡的支持方案 Linux平臺下的MySQL存儲管理技術研究 Linux平臺下FTP客戶端的設計思路 自主學習平臺下英語語音教學模式的構建 TensorFlow平臺下的手寫字符識別 Linux平臺下數據包過濾防火墻的研究與實踐 基于SkyEye的虛擬嵌式平臺下Linux內核移植技術的研究 Windows和Linux平臺下的腰椎治療儀實時仿真 嵌入式Linux平臺下隨機序列算法的設計 IP多播技術在Linux平臺下電子教室中的應用與研究 基于ARM11在Linux平臺下網絡通信的設計與實現 Linux系統平臺下會計軟件的發展前景展望 虛擬機linux平臺下基于Xshell的遠程登錄服務的設計與實現 在Linux平臺下基于MPI的并行PC集群搭建的實現 基于Sphinx4的語音解碼模塊設計 云服務安全平臺研究開發與語音識別應用 基于車聯網平臺下自然語音辨識系統的研發 .NET平臺下中文語音合成技術的研究與實踐 常見問題解答 當前所在位置:l。提交文件后,會產生由4個數字和后綴名組成的文件,假設其中包括的兩個文件為8521.dic字典文件和8521.lm語言模型文件即我們所需要的文件。可以用兩個線程處理這一過程,從而提高程序的性能:一個線程用來監聽和處理語音命令,一個線程用來執行命令對應的應用程序,如圖1所示。

假設C語言源程序名為hello_ps.c則可以編寫如下的Makefile文件:

#Makefile for hello_ps.c

obj=hello_ps

modeldir=$(shell pkg-config--variable=modeldir pocketsphinx)

flags=$(shell pkg-config--cflags--libs pocketsphinx sphinxbase)

$(obj):$(obj).c

gcc $(obj).c-o $(obj)-DMODELDIR=\"$(modeldir)\"$(flags)

運行make命令編譯即可產生hello_ps文件。然后運行./hello_ps-lm 8521.lm -dict 8521.dic就可以測試了。

五、結束語

本文介紹了語音識別引擎pocketsphinx在Linux環境下的應用程序編程,語音識別有著廣泛的應用。如我們常見的聲控撥號電話,語音識別鎖等等。語音識別技術是非常重要的人機交互技術,有著非常廣泛的應用領域和市場前景色。

參考文獻:

[1]Carnegie Mellon University./wiki/

[2]/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB

第3篇

關鍵詞:連續語音識別;關鍵技術;創新

談到語音識別,就不得不提到李開復------前微軟研究院院長,他在哥倫比亞大學時主攻的就是語音識別,即通過機器來識別語音。語音識別是現代社會背景下的一門新興學科,它最主要的功能就是可以讓計算機聽懂人說的話,進而為人們提供更高效且方便的服務。它是人類和計算機之間利用語言進行交流 的橋梁,也是一門與多種學科緊密聯系的實用技術。現階段,人們對連續語音識別的研究已經取得了一定的成就。目前,我們研究語音識別的重點正在向特定應用領域口語的識別和理解方面轉變。在這個研究中,有幾種關鍵技術,下面我們就對其中幾種關鍵技術進行簡單的分析。

1、詞語定位技術

詞語定位技術,在語音識別技術中非常重要的技術。主要通過對關鍵詞進行定位,這種技術跟語言的語法特點有很大關系,是將語句中的關鍵詞語提取出來的一種定位技術。比如主語,謂語,賓語就是關鍵語素,先將這些語素定位對于完善整句話有著非常重要的意義,因為這些語素已經勾勒出了語句的骨架。打個比方,蓋個房子要加鋼筋,來增加建筑物的強度和支撐作用,關鍵語素就是語句意群的鋼筋。通常詞語定位是通過設置并及時更新關鍵詞庫來實現的。

2、關聯搜索技術

在確定完基本語素后,就要根據語素之間的關聯性,進行搜索,那些語素是一個意群,同在一個意群中的語素如何排列。利用相關性確定意群非常重要,因為詞語詞之間不是任意搭配的,而是有規律的,這種規律就是語法,包括書面語語法和口語的語法。語法是語音識別的規則,因此是非常重要的。關聯的方式在語法的約束下主要有以下幾種:1.相關詞語出現的概率;2.相關詞語的詞性;3.相關詞語出現的語境的重復率等等。

連接詞識別就是說,系統中存儲的HMM針對的是孤立詞,但識別的語音是由這些詞組成的詞串。由于這一技術是一個連接序列,即根據給定發音序列來找到與其最匹配的參考模塊詞,所以,下面的問題必須得到解決:(1)在序列中,有些時候即使知道詞長度的大概范圍,也不知道詞的具體數量;(2)除整個序列的首末端點之外,序列之中每個詞的邊界位置并不知道。

3、抗阻礙性

在語音識別系統中,阻礙無處不在,具體說來,阻礙包括以下幾個方面:1.方言帶來的語音識別的阻礙;2.口音帶來的語音識別的阻礙;3.外界干擾(噪聲)帶來的語音識別的阻礙;4.系統設備局限性帶來的語音識別的阻礙等等。

一般情況下,在實驗室(環境相對安靜)中訓練合格的語音識別系統用在實際環境(環境與訓練的實驗室環境不相匹配)的時候性能就會明顯下降。所以,運用頑健語音識別技術就是為了研究一些補償技術借以提高系統在不同環境中的性能。

根據語音系統中噪聲的特點,我們研究出了一些抑制噪聲的方法,如根據信號與噪聲在各個尺度上的小波譜表現不一樣的特點,可以運用小波變換的噪聲抑制;根據含噪語音信號能量譜就是噪聲信號和語音信號能量譜之和這一特點,可以運用EVRC編碼噪聲抑制方法,等等。

4、搜索策略技術

在利用計算機來識別語音的時候,未知的模式,即從輸入語音中求出的特征參數,與事前所定的標準模式是否一致,這個問題必須檢查。目前語音識別的實現主要是通過聲音識別芯片分析聲音的波形來實現的,人的說話聲音有音調、音色的不同,因而所形成的生意的波形也不同,芯片通過比對聲音圖譜來確定語音內容,達到聲音識別的目的,這也就是聲音識別的原理。然而,在實際情況中,由于語音具有許多的不確定的因素,想達到完全一致比較困難。搜索策略是連續語音識別研究中的一個是否重要的課題。它的基本思路是,把幀作為搜索單位,在每一時刻對每一條路徑都假定當前幀有可能是這一路徑的后續,借此進行一個完整的搜索。

總體來說,搜索策略技術受到容量的限制。所以,我們必須確定應該保留哪些路徑,這就要求我們確定一定閥值,這個閥值既不能過嚴也不能過寬。對于這個問題,我們一定要采用合適的算法,如傳統的幀同步算法、基于統計知識的幀同步搜索算法原理和受詞法約束的詞搜索樹等算法都是比較適合這一部分的。

結論:

    本文總結了連續語音識別中幾種關鍵技術,并對它們進行了簡單的介紹和分析。目前連續語音識別技術的研究并不成熟,它要向正確的方向健康發展就必須把詞語定位技術、關聯搜索技術、抗阻礙性技術、搜索策略技術等技術都正確運用于實際工作中。

參考文獻:

[1]馮麗娟,吾守爾·斯拉木.維吾爾語連續語音識別技術研究[J].現代計算機:下半月,2010,(1)

第4篇

轉機

讓計算機能夠識別人類的語音,從而使得人們能夠用自己的母語與計算機進行人機交互,一直是計算機學科追求的目標之一。談到語音識別,就不能不談一下李開復。

1983年秋,李開復進入卡內基·梅隆大學,師從羅杰·瑞迪教授,攻讀博士學位。瑞迪建議李開復選擇不特定語者的語音識別系統作為研究方向,并建議采用專家系統的方法,來解決讓電腦聽懂每個人說的話的難題。瑞迪是人工智能領域的權威,后來還獲得1994年圖靈獎。經過近1年的研究,盡管研究有了一些進展,但李開復最終認識到,受技術發展的限制,專家系統相當長時間內難以解決這一難題。在一位同門師兄的提醒下,李開復轉而采用統計模型的研究路徑,終獲成功。1988年,李開復獲得博士學位。時至今日,語音識別技術依舊采用的是李開復開創的統計模型。

1998年,IBM中文語音識別技術Via Voice在國內PC市場掀起了一場中文語音輸入熱潮。第二年,當今國內最大的智能語音識別公司科大訊飛誕生于中國科技大學。

同年,出任微軟中國研究院院長的李開復曾告訴媒體,語音識別需要的計算資源太多,實用化還要走很長的路。

“中文語音識別市場在2000年左右逐漸由熱變冷,這主要是由于當時算法還比較初級,對計算資源的需求很大,產業環境也不成熟。于是,很多人轉去做別的行業。也正是在這個時候,我們團隊的主要成員初涉這個領域,進入研究所和高校讀博讀碩。”梁家恩就在那個時期考入中科院自動化所模式識別國家重點實驗室。模式識別實驗室分為圖像識別和語音識別兩大研究方向,圖像識別領域誕生了漢王公司,而梁家恩則在語音識別領域歷經5年寒窗,完成了碩博連讀。

梁家恩介紹說:“我們這些人一直專注于語音識別和語義理解的研究。到了2010年左右,語音識別技術取得了突破性進展,移動互聯網也得到普及。加之2011年10月蘋果iPhone 4S,作為新產品一大亮點的智能語音助手Siri在市場上再次引爆語音識別熱。我們覺得商業化的機會已經成熟,2012年6月,我們創建了云知聲,并搭建了用于語音識別的公有云平臺。”

突破

雖然現在的語音識別還是采用統計算法,但這十多年來,語音識別技術發展很快。

“首先是數據資源豐富了,以前在實驗室收集幾百個人的語音都非常困難,現在我們有了語音云平臺,吸引了各地不同口音的人們,每天采集上百GB的數據量,樣本非常豐富,這有利于分析和改進我們的系統。現在的樣本規模比李開復老師當時做的系統的樣本規模擴大了幾個數量級,而且現在的數據都是真實數據,遠非那時模擬數據所能比擬,這在統計算法中至關重要。”梁家恩表示。

“二是統計技術和神經網絡學習等關鍵技術取得較大的突破,在環境噪聲處理和對口音識別方面的改進非常明顯,識別率顯著提升。算法上也做了一些優化,以前的算法你要做一系列實驗可能需要一兩年的時間,根本沒法實現。”梁家輝說,“再有就是智能手機中CPU技術的進步以及GPU的應用,加之后臺云計算處理能力的提升,為智能語音識別提供了強大的計算資源。”

語音識別實際上是搜索。梁家恩介紹說,語音識別就是從一句話的聲波中提取語音特征,然后與后臺數據進行匹配,由于現在的數據庫非常大,因此比對的精確度比過去要高得多。雖說都是搜索,但百度搜索是文本檢索,它要求捕獲全網信息的變化,即信息更新要快。而語音識別上,因為語音特征與文本并沒有對應關系,因此,比對精確度就成為語音識別的核心技術所在。

由于面向語音識別這一特定應用,云知聲的公有云平臺與通用的云平臺也有所區別。“我們底層采用的也是集群架構,單臺服務器并發線程數達到100,這已是業界最快的;再通過災備、安全等技術來確保平臺的穩健;然后是將目前已經建立的北京、上海和廣州機房的計算資源聯在一起。我們也對虛擬化做了測試,但虛擬化會帶來5%~10%的性能損失,這與我們追求性能最高化的目標不符合。因此,我們采用高性能計算平臺,讓硬件對語音識別這一特定應用進行優化。”

互聯網思維

伴隨著智能手機和平板電腦取代PC成為個人計算市場的主流,人機交互也從傳統的鍵盤操作轉換為觸屏操作。而在注重用戶體驗的移動互聯網時代,智能語音識別將帶來更快更方便的用戶體驗,特別是在車載、可穿戴式電腦等應用上。

梁家恩認為,作為自然高效的交互方式,智能語音技術不僅要識別用戶的話語,而且還要能夠智能地通過屏幕或者TTS(從文本到語音)的方式實現與用戶交流,因而在智能移動設備、廣播電視、呼叫中心、會議記錄、語言學習、知識學習、互動娛樂等領域有著廣闊的應用前景。

“我想查一下今天晚上北京飛上海的航班。”在采訪過程中梁家恩對著手機說,話音剛落,手機屏幕上刷新出北京至上海的航班信息。

這個簡單的演示可以直白地反映出云知聲的商業模式。由于智能手機與機主的對應關系,加之其定位和支付功能,這句話已經包含了這一具有在線支付手同的潛在顧客是誰、在什么地方、具體需求是什么。這對于商家而言,客戶信息已經足夠了,商家甚至還可以通過手機號碼來關聯客戶的信用、過往的消費習慣等,從而做出精準的營銷響應。

“我們不像現在市場有的語音識別公司那樣,通過軟件授權的方式向用戶收費。我們相信互聯網的力量,所有語音用戶需求匯總到后臺后,所蘊含的商業價值要遠遠大于軟件授權帶來的價值。”梁家恩說,“我們承諾將公有云平臺服務的體驗做到極致并且永遠免費,同時云知聲的智能語音技術向合作伙伴完全開放,即不限領域、不限形態、不限商業模式。當后臺數據的商業價值變現時,我們將與合作伙伴分成。”

第5篇

關鍵詞:語音識別技術;內容監管;應用

中圖分類號:TN912.34 文獻標識碼:A 文章編號:1671-2064(2017)08-0020-01

隨著廣播電視管理的不斷完善,對電視節目內容的監管也越來越嚴格,對音頻搜索等技術的需求也在逐漸增加。但是,音頻搜索技術還有很多難題尚未解決,如中文分詞瓶頸、第三方數據存儲量限制、數據處理分析瓶頸和音頻識別準確度等等,這樣在應用時會出現很多問題,相關部門需加大研發力度,讓音頻識別技術更加完善和規范。

1 語音識別關鍵技術介紹

1.1 語音模型自適應技術

因為環境、人的性別和口音等因素的干擾,語音數據會產生較大變化,在特殊條件下的訓練無法推廣應用,而自適應就可以根據測試數據進行調整避免誤判。在變換的自適應中,采用相同的變換更新參數,當自適應模型參數確定后,就可以用少量自適應數據變換方程,利用變換方程來重新估計模型參數[1]。一般來說,變換方程的數目小于目標模型參數,所以使用少量自適應數據就可以估計出變換方程。但是變換方程并不能探測出單個模型的特征,其漸進性較差,無法估計特征相近人模型。

1.2 說話人識別技術

說話人識別也被稱為聲紋識別,通過語音信號來識別說話人的身份。說話人識別主要分為兩類,即開集識別和閉集識別,兩者主要通過是否需要拒識來區別。開集識別更具普遍性,相比閉集識別技術更難。比如說,我們同時監聽多個人說話,開集識別需要在多個說話人中找到指定的說話人。開集說話有兩大缺陷:虛警錯誤和漏報錯誤,兩者之間互相制約互相影響。在應用過程中,可調整識別模塊更傾向于少虛警錯誤或漏報錯誤。研究中會通過等錯誤率去判斷說話人識別系統的性能是否達標,如果虛警錯誤率和漏報錯誤率相等就是等錯誤率[2]。等錯誤率會受到測試語音長短、樣本語音信道匹配度和說話人語音長短等因素的影響,如果說話人語音越長,測試語音也就越長,兩者的差異也就越小,等錯誤率也會相應降低。

1.3 P鍵詞識別技術

關鍵詞識別技術分為單階段系統和兩階段系統兩大類,單階段系統識別主要是在關鍵詞系統中進行識別,當關鍵詞出現變化,系統就要重新識別。兩階段系統是將一般意義的連續語音轉換為文本,然后借助文本匹配途徑找到關鍵詞。這種系統比較靈活,可以隨時變換關鍵詞,是目前使用最多的關鍵詞識別技術。通過語音關鍵詞檢測特定內容具有兩個優勢:首先是準確率更高,其次是關鍵詞會多次出現。這樣在內容監管中就可以允許出現漏檢錯誤,不必每次都準確地識別關鍵詞。

2 語音識別技術的具體應用

2.1 音頻模板匹配技術

在已知節目片頭曲的條件下,可以使用音頻模板匹配技術進行自動打點和分割。因為受到音頻壓縮和信號傳輸的影響,導致模板之間存在差異,就可以通過提取多頻帶能量相對比率,利用各個頻帶能量分布趨勢穩定的特點,就可以解決音頻信號扭曲造成的不穩定問題。

2.2 音頻切分和分類技術

在處理廣播電視音頻信息的時候,例如語音識別和檢測關鍵詞,需要先對廣播電視的音頻進行切分,一般都會采用靜音檢測法來切分,這樣可以準確定位,為音頻分類工作奠定了基礎。對切分的音頻片段進行分類,需要根據音頻類型采取不同的處理方法。非靜音主要分為語音和非語音兩類,而語音又分為純語音和非純語音,非語音分為音樂和環境音。

2.3 自動發現技術

將廣告識別作為案例,利用音頻檢測獲取新廣告:首先是針對未知節目和廣告而設計,因此需要去除已知模板,這樣可以減少計算量。接著是利用音頻向量的快速搜索算法確定重復片段的預留位置,因為音頻向量都是通過音頻段的信息展開檢索,就會出現音頻字分布相同、但排列不同的音頻片段,也會有一些錯誤片段,所以需要篩選過濾一遍。最后是利用音頻指紋搜索找出音頻向量模型的重復片段。因為音頻指紋檢索技術是利用音頻幀的排列信息開展工作,所以準確度更高,可以檢測出誤報片段。完成上述步驟以后,就可以通過圖像幀變化率來區分非廣告的重復部分。因為廣告的播出費用是按照播放時間來定的,所以廣告商需要在有限的時間內向觀眾傳遞更多的信息,所以視頻幀的變化率就比較大,而電視劇的變化率較小,這樣就可以去除重播的非廣告類節目[3]。

3 結語

隨著科學技術的不斷發展,語音識別技術的應用范圍也越來越廣,識別的準確度也在不斷提高。廣播電視對語音監管的要求也在提高,語音識別技術必須達到要求,這樣不僅可以提高節目的搜索速度,對關鍵內容進行快速定位,還可以減輕工作人員的工作壓力,提升監管水平。

參考文獻

[1]陳彪,丁鵬.一種基于語音關鍵詞識別的廣播電視內容監測系統[J].廣播與電視技術,2015,26(12):31-32.

第6篇

關鍵詞 機器人 語音識別 聲學模型 語音特征參數

中圖分類號:TP242 文獻標識碼:A

1語音識別技術的研究意義

人們使用的聲音語言是一種人在特定高度思維和意識活動下的產品。語言是人類最直接以及最理想的交流方式,也是人機通信是最方便的方式。在機器人發展的高級發展階段中,機器人的智能語音識別與人類的活動是密切相關的,有聲語言的人機交互信息成為重要的手段。例如,語音識別獲取外界信息很自然,沒有特殊的訓練方法,隨著機器人技術的發展和廣泛應用,有越來越多的機會來接觸人類和機器人,所以人們希望通過語音識別和機器人去處理,不管誰能能準確安全,方便地操縱機器人。機器人和人類之間的信息交互,表現在兩個方面,一是對更高層次的機器人操作,方便軟件的設計開發,這種多為教學機器人,另一種是在實際操作的要求下完成信息交互任務的機器人。智能機器人作為機器人技術發展的高級階段,其發展趨勢是:不僅要求機器人具有高度的自治能力,還要使機器人和人類之間的協調也具有一定的智能性。這就要求機器人具有不同的高性能主動做事能力,而不是被動地接受任務,為了實現這一目標,自然語言作為人機信息交換將發揮越來越重要的作用。目前,智能機器人已成為機器人研究領域的一個熱點。工業機器人是智能機器人的一個重要研究領域。當今,工業機器人的發展方興未艾,巨大的市場潛力,使真正的工業機器人的已經在市場上嶄露頭角,以滿足人們日益增長的需求,我們不能沒有一個高性能的語音識別系統。由于工業機器人是面向生產實際的需要,最好的工作方式是讓機器人能顧聽懂最常見的人類語言,完成指定的工作,并能與人交流。機器人語音識別是機器人研究領域中的語音識別應用,最終的目標是讓機器人了解人們的口頭語言,然后按照人們的命令來行動或反應,從而形成一個良好的人機對話系統。為了能夠進一步推動智能機器人的開發應用,因此,在語音識別機器人的研究領域中,機器人語音識別系統是工業機器人的實際推廣應用,具有重要的意義。

語音識別技術在智能機器人中的應用已經有很多年的歷史,作為智能機器人的一個分支,工業機器人得到了迅速發展,工業機器人通過語音識別從工業噪聲中提取有效的語音命令。為了實現機器人在一些特殊工業環境中工作的目的,機器人要能夠識別命令意圖。語音識別技術,可以實現人機對話,從而讓機器能模仿人類完成所有工作的分配,使其在各行各業中能夠得以應用。目前所面臨的實際問題是:噪聲和干擾環境下對大型工業機器人的語音識別有嚴重的影響。在機器人識別領域,工業環境中的實時性是一個非常重要的任務。機器人在工業環境下應用的聽覺識別是使智能機器人發展速率低的瓶頸。

2語音識別系統的發展

2.1語音識別系統的發展方向

語音識別系統是基于一套應用軟件系統的硬件平臺和操作系統的一些。語音識別一般分為兩個步驟。第一步是學習或培訓。這一階段的任務是建立基本單元的聲學模型來進行識別和模型的語音語法分析等。第二步是識別或測試。根據識別系統的類型可以滿足一個識別方法的要求,使用語音分析的方法來分析語音特征參數,并建立了比較和測量系統模型,根據一定的標準,鑒定結果。

語音識別系統的應用可分為兩個發展方向,其中一個是大詞匯連續語音識別系統,主要應用于計算機的聽寫機,以及結合電話網或互聯網的語音信息服務系統,這些系統是在計算機平臺上的一個重要發展方向。其次是應用的小型化,便攜式音頻產品,如無線移動電話的撥號,語音控制車載設備,智能玩具,家用電器和其他方面的應用的遠程控制,這些應用系統大多采用特殊的硬件系統來實現,特別是語音信號處理芯片和語音識別芯片,最近幾年快速發展,為其廣泛應用創造了極為有利的條件。

2.2語音識別系統的模型與模式

語音識別系統的核心是聲學模型和模式分類。首先通過學習算法,訓練語音聲學模型的特點是通過學習過程來生成聲學模型,這是識別潛在的模型的前提,是最關鍵的語音識別系統的一部分。聲學模型的目的是提供一種有效的方法來計算特征向量的聲音序列和每個發音模板之間的距離。人的發音在每一刻發音之前和之后都會受到影響。

為了模仿自然連續的協同發音和識別不同的發音,通常需要使用復雜的聲學模型。聲學模型和語言的發音特點的設計是密切相關的。聲學模型單元大小與單詞發音,音節模式和音位語音訓練數據大小有關,故要求其系統識別具有很大的靈活性。大詞匯量語音識別系統,通常采用較小的單元和少量的計算,該模型只有較小的存儲容量,減少訓練數據的數量,但相應的聲音定位和分割問題就顯得更加困難,規則識別模型變得越來越復雜。通常大型模型中識別單元包括協同發音,這有利于提高系統的識別率,但訓練數據也相對增加。必須根據不同語言的特點來識別詞匯,詞匯量大小決定單位大小。

參考文獻

第7篇

關鍵詞:語音識別;LD3320;STM32F407;W25Q128

隨著科技的發展,人們的操作模式從最初的按鍵操作到觸屏操作,再到現在的語音操作,其越來越便捷,越來越人性化。語音操作的基礎就是語音識別技術(Automatic Speech Recognition),簡稱ASR,其目標就將人類語言轉換為計算機可讀的輸入。語音識別作為一門交叉學科,從產生到現在已取得了顯著的進步,現在已逐步走向市場,并且人們預計,語音識別技術在未來10年將會應用于人們生活的各個領域。

根據發音人的不同,語音識別技術可分為特定人語音識別和非特定人語音識別兩類,前者只能識別一個或幾個人的語音,而后者則能被任何人使用。本文設計的多鼉壩鏌羰侗鶼低塵褪粲詵翹囟ㄈ擻鏌羰侗鷲庖煥啵其以嵌入式微處理器STM32F407為核心,采用ICRoute公司的LD3320語音識別芯片,并配以存儲空間為16M字節的W25Q128芯片,能夠實現2000個場景共計識別句100000條的語音識別操作。

1 系統整體結構

如圖1所示,整個系統主要是由STM32F407處理器、LD3320語音識別芯片以及W25Q128Flash芯片構成。其中STM32F407處理器用于切換場景和場景關鍵詞更改;LD3320語音識別芯片用于語音識別,W25Q128Flash芯片用于存識別句,兩種都是通過SPI總線與處理器相連。整套系統與外部其他系統則是通過串口進行通信。

2 系統硬件介紹及存儲空間設計

2.1 系統硬件介紹

2.1.1 STM32F407ZGT6處理器

STM32F407ZGT6采用Cortex_M4內核,集成FPU和DSP指令,具有192KB SRAM、1024KB FLASH、3個SPI、6個串口等。基于其強大的配置,所以本系統的處理器選用該芯片。

2.1.2 LD3320語音識別模塊

LD3320語音識別模塊是ICRoute公司的一款產品,其特有的快速而穩定的優化算法,能夠完成非特定人語音識別,識別準確率高達95%。該模塊每次最多可以設置50條候選識別詞或識別句,只要單個詞或句長度不超過10個漢字和79字節的拼音串,同時我們可以對識別內容動態編輯。模塊的通訊方式有并行和串行兩種,根據需求的不同可以選擇不同的通訊方式。除了語音識別這一功能之外,模塊還支持MP3播放功能,只要MCU將MP3數據依次送入芯片,就能夠從芯片的PIN引腳輸出聲音。

2.1.3 W25Q128Flash芯片

W25Q128是華邦公司推出的大容量SPIFLASH產品,容量為128Mbit,即16M。該芯片將16M空間分為256塊,每塊64KB,每塊又分為16個扇區,每個扇區4KB。由于W25Q128的最小擦除單位為一扇區,也就是說每次擦除4KB。

2.2 存儲空間設計

由于W25Q128芯片每次擦除的單位為4KB,而每句識別語句至少有80字節,一個場景有50句識別語句,所以一個扇區用于一個場景是不夠的,因此我們將兩個扇區劃為一個場景;圖2是單個場景數據存儲關系圖,圖中每個場景占8192字節,每條識別語句占100個字節,其中第一個字節為識別語句編號,范圍為1-50;單個場景的第一個扇區可以存儲40條識別語句,第二個扇區可以存儲10條識別語句,其中第4000B-4096B和5096B-8190B保留,不存儲數據,整個場景的最后兩個字節用于存儲場景編號,范圍為1-2000。W25Q128共有4096個扇區,理論上可以劃分2048個場景,但是我們只劃分2000個場景,也就是4000個扇區;還剩下96個扇區,剩下的第1-50扇區用于存放每個場景的相關信息,計算可以得到每個場景有1KB的存儲空間,然后我們將最后一個扇區的最后兩個字節存儲現在所在場景編號,剩下的空間保留。

3 系統軟件設計

3.1 通訊協議格式設置

整個系統主要具有場景切換和場景識別語句存取功能,表1是部分對應協議格式。

3.2 初始化函數及操作函數介紹

STM32處理器與其他各個模塊建立通信連接,除了連接好對應IO口后,還需要對各個IO進行初始化,這樣才能進行數據的收發,以下是主函數中相關初始化函數:

NVIC_PriorityGroupConfig(NVIC_PriorityGroup_2);//首先設置系統中斷優先級分組

delay_init(168); //初始化延時函數

LED_Init();//指示燈初始化

KEY_Init();//按鍵初始化

IWDOG_Init();//看門狗初始化

USART1_Init(9600);//初始化串口1

W25QXX_Init();//W25Q128初始化

LD3320_Init();//LD3320初始化

while(W25QXX_ReadID()!=W25Q128) //檢測是否存在W25Q128

{

LED0=!LED0; //如果檢測不到W25Q128指示燈1會不停閃爍

}

第8篇

關鍵詞:Mel頻率倒譜系數;支持向量機;語音識別;特征提取

中圖分類號:TP399 文獻標識碼:A 文章編號:1672-7800(2012)003-0153-02

作者簡介:李玲俐(1977-),女,湖北洪湖人,碩士,廣東司法警官職業學院講師,研究方向為數據挖掘與模式識別。

0 引言

語音識別是一種模式識別,就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的技術。語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術3個方面。目前一些語音識別系統的適應性比較差,主要體現在對環境依賴性強,因此要提高系統魯棒性和自適應能力。支持向量機(Support Vector Machine,SVM)是基于統計學理論發展起來的新的機器學習方法,采用將數據從低維空間映射到高維空間的思想,由支持向量來決定最優分割線,SVM先自動找出對分類有較好區分能力的支持矢量,然后構造出分類器來最大化類與類的間隔,因此有較好的適應能力和較高的分準率。

本文在現有語音識別技術基礎上,提出一種MFCC(Mel Frequency Cepstrum Coefficients,Mel頻率倒譜系數)+SVM的語音識別方法,實現對幾種英文單詞的分類。實驗結果表明,該識別方法具有較高的準確率。

1 語音識別系統

語音識別過程一般分為3個階段:信號處理、特征提取和模式識別,如圖1所示。

1.1 MFCC特征提取

特征提取是數據挖掘和模式識別中的一個重要步驟。其目的是從原有特征數據中提取出與特定任務,如分類、壓縮、識別等密切相關的新特征(或特征子集),以有效地完成特定任務或進一步減少計算量。

研究者通常使用經典的特征提取技術,如MFCC、連續小波變換(Continuous Wavelet Transform,CWT)和短時傅里葉變換(Short-Time Fourier Transform,STFT)來提取語音片段的特征。Mel頻率是基于人耳聽覺特性提出來的,它與Hz頻率成非線性對應關系。MFCC則是利用它們之間的這種關系,計算得到的Hz頻譜特征。由于MFCC具有良好的識別性能和抗噪能力,在語音識別中得到廣泛的使用,而且研究人員仍在對MFCC的各種參數進行實驗和調整,并通過同其它模型的協同工作來找出提高識別率的方法。

MFCC參數的提取包括以下幾個步驟(如圖2所示):

(1)預加重。通過一個一階有限激勵響應高通濾波器,使信號的頻譜變得平坦,不易受到有限字長效應的影響。

(2)分幀。根據語音的短時平穩特性,語音可以以幀為單位進行處理。n為每一幀語音采樣序列的點數,本系統取n=256。

(3)加窗。為了減小語音幀的截斷效應,降低幀兩端的坡度,使語音幀的兩端不引起急劇變化而平滑過渡,需要讓語音幀乘以一個窗函數。目前常用的窗函數是Hamming窗。

(4)對每幀序列s(n)進行預加重、分幀加窗后,然后經過離散FFT變換,將s(n)取模的平方得到離散功率譜S(n)。

(5)計算S(n)通過M個濾波器Hm(n)后所得的功率譜,即計算S(n)和Hm(n)在各離散頻率點上的乘積之和,得到M個參數Pm,m=0,1,…,M-1。

(6)計算Pm的自然對數,得到Lm,m=0,1,…,M-1。

(7)對L0,L1,…,Lm-1計算其離散余弦變換,得到Dm,m=0,1,…,M-1。

(8)舍去代表直流成分的L0,L1,…,Lm-1,取L0,L1,…,Lm-1作為MFCC參數。

1.2 SVM分類器設計

在線性可分的情況下,SVM構造一個超平面H,設線性可分樣本集為(xi,yi),i=1,2,…,n,U∈{+1,-1} 是類別標號。所有在這個超平面上的點x滿足:

w?x+b=0

其中:w為權重向量,b為分類閾值。根據結構風險最小化原則,在保證分類間隔最大,即尋找最優分類面的條件下,w和b必須滿足如下條件:

yi[(w?xi)+b]≥1

xi為訓練樣本,在此約束下,求解最優超平面問題可以轉換為求函數:Φ(w)=12w2=12(w?w)的最小值。最優問題的解由Lagrange函數的極值點給出:

L(w,b,α)=12w2-∑li=1αi{yi[(w?xi)+b]-1}

αi為Lagrange乘子,對w和b求偏導,并令所求式為零,求得:

∑li=1yiαi=0

對于線性不可分的情況,可以通過非線性變換轉化為某個高維空間中的線性問題。即將SVM中的內積x?y由核函數K(x,y)所取代。常用的核函數有:

(1)多項式核函數K(x,xi)=[(x?xi)+b]d,其中d是多項式的階數。

(2)Gauss核函數K(x,xi)=exp-x-xiσ2 ,其中σ是Gauss函數的寬度。

(3)Sigmoid核函數K(x,xi)=tanh[v(x,xi)+c],其中v和c是尺度和偏置參數。

由經驗觀察可知,Gauss核函數比其它兩種核函數優越,所以本文選用Gauss核函數,對于給定的核函數。最優分類函數為:

yi=sgn∑xi∈wiyik(xi,xj)+

2 實驗設置及結果分析

本實驗使用的語音信號采用Windows自帶的錄音軟件錄制,錄音背景為普通環境,錄制的語音以Wave 格式保存,采樣頻率為8KHz,16bit量化,單聲道。對10(5男5女)個人進行錄音,語音樣本分別為6個單詞,并且每個人每個詞發音9遍,得到540個采樣數據。隨機抽取2/3的采樣作為訓練樣本集,1/3作為測試樣本集。

由上述語音識別系統得到每一種語音的正確分類的樣本數,并采用

識別準確率=正確識別的樣本數樣本總數×100%

得到表1所示的識別結果,包括每種待識別單詞以及總計得到的正確識別數和識別準確率。

3 結束語

本文提出了一種采用MFCC特征提取參數,以SVM作為分類器識別幾種容易混淆的單詞的方法,結果表明,該語音識別方法具有結構簡單、高識別精度的特點,可以在語音識別系統中得到實際應用。當然,今后的工作中還要考慮將SVM理論和其它分類方法結合起來,如SVM和隱馬爾可夫模型(HMM)相結合、將多類SVM等綜合方法應用于更多的語音識別領域。

參考文獻:

\[1\] VAPNIK V. The nature of statistical learning theory\[M\].New York:Springer-Verlag,1995.

\[2\] 陳剛,陳莘萌.一種考慮類別信息的音頻特征提取方法\[J\].計算機研究與發展,2006(11).

第9篇

關鍵詞:云計算;云服務;云安全;語音識別;虛擬化技術

中圖分類號:TP302 文獻標識碼:A 文章編號文章編號:16727800(2014)001000702

基金項目基金項目:渭南師范學院大學生創新項目(13XK069);陜西省大學生創新訓練項目(1857)

作者簡介作者簡介:劉琳茜(1992-),女,渭南師范學院數學與信息科學學院信息工程系學生,研究方向為軟件工程;李永康(1992-),男,渭南師范學院數學與信息科學學院信息工程系學生,研究方向為軟件工程;索(1971-),男,渭南師范學院數學與信息科學學院信息工程系副教授,研究方向為計算機應用。

0 引言

云計算[12]作為企業計算的一個新興領域,正逐步被應用于企業的業務活動之中,發揮著其低成本、快部署、靈活調整規模等優勢。雖然基于云技術服務,在安全性方面具有一定的優勢,但企業面對上傳和存儲大量數據時,還是需要考慮安全性等問題。充分利用云技術的安全特性,在數據通信、文件存儲等方面進行研究具有非常現實的意義。開發一個基于云技術平臺的語音識別系統,不但能保證客戶機數據有極高的安全性,且在用戶使用過程中,能更方便快捷地獲取用戶所需信息和操作常用的應用程序,用戶體驗度更高。這與蘋果公司所開發的應用Siri不同,本程序對語音識別作進一步的擴充,能根據用戶語音輸入進行文件調取、修改、程序運行、數據輸入等操作,在國內是一種新的嘗試。

1 平臺技術與技術體系結構

1.1 平臺技術概述

該軟件系統的平臺技術包括3部分:基礎設施作為服務、平臺作為服務和軟件作為服務。基礎設施作為服務即IaaS 服務可以釋放各類企業用于存放、運行、維護設備的資源,為使用者提供各種計算資源,包括服務器、網絡、存儲和數據中心空間,尤其適合開發與測試等資源密集型活動。平臺作為服務即PaaS提供了基于云的環境,其中具有可支持用戶構建和交付基于 Web(云)應用的完整生命周期所需的一切沒有購買和管理基礎軟件、硬件、供應和托管的成本與復雜性。而軟件作為服務即SaaS是一種軟件模型,其中應用集中托管在云計算環境中,并且用戶通過 Internet 訪問這些應用。

1.2 技術體系結構

該軟件系統的技術體系結構如圖1所示。該軟件系統的技術體系結構由四部分組成,面向服務的體系結構(service-oriented architecture,SOA)是一個組件模型,它將應用程序的不同功能單元(稱為服務)通過這些服務之間定義良好的接口和契約聯系起來,接口是采用中立的方式進行定義的,它獨立于實現服務的硬件平臺、操作系統和編程語言。這使得構建在各種這樣系統中的服務可以以一種統一和通用的方式進行交互。管理中間件分為用戶管理、任務管理、資源管理、安全管理,其中最重要的是安全管理,在安全管理方面,用戶在使用時,客戶端設置三重加密方式,分別為鍵盤密碼的直接輸入,語音加密識別和人臉識別,用作平臺進入的認證。另外兩個部分分別為資源池和物理資源,為客戶機提交使用請求或文件需求時所做的調度與處理提供服務。

2 系統具體實現

2.1 平臺安全存儲與虛擬化技術

為了保證客戶機數據有極高的安全性,在對該軟件系統云安全進行設計時,采用如下設計原則:①發送和存儲盡量少的個人信息到云中,保護云中用戶的個人信息最大限度地實現由自己控制,允許用戶控制最為關鍵最為重要的個人信息,用戶也可以委托信任的第三方去管理個人信息;②允許用戶進行選擇,加入和退出機制是目前使用的提供選擇的主要方式,用戶有權利對個人信息的使用進行選擇,當用戶提交某種請求時,系統會將此次請求可能訪問到的個人信息反饋給用戶,用戶可以根據反饋回來的信息決定是否繼續操作,做到任何一次的個人信息訪問用戶都心里有數;③明確和限制數據使用的目的;④提供反饋機制。

在存儲數據時,使用SQL Server提供的數據服務,目的是讓使用者可以存儲他們想存儲的任何數據,同時使用者可以在任何時候、從任何終端和任何地方獲取其需要的任意大小的數據。采用的存儲機制(Queue)為容錯機制[3],能夠在一定程度上提高該軟件系統的可靠性與穩定性。在虛擬化技術上,采用硬件輔助虛擬化,利用硬件(主要是CPU)輔助處理敏感指令以實現完全虛擬化的功能,而用戶的操作系統無需修改,如VMWare、KVM、Xen[4]。具體實施為:虛擬層來執行基于云環境下的應用服務。虛擬機運行在一個客戶端內,和其它VM共享資源。在云資源層,和云相關的核心硬件基礎設施服務是由數據中心組件來建模的,它用來處理服務請求,這些服務請求在VM(虛擬機)中執行。

2.2 語音識別

該軟件系統所要實現的目標是達到語音人機交互與平臺結合。而在語音識別方面,其內容主要包括語音特性分析和建模、語音數字壓縮編碼、語音識別、語音合成、語音增強、現代語音通信。該軟件系統的語音識別過程如圖2所示,當用戶發出語音指令時,通過語音信號處理技術[5]使用戶能在平臺上獲取所需信息或相關程序操作,而所需要的最終信息將直接通過屏幕或語音反饋到用戶端。其具體實現過程為:當系統接收到一段語音指令時,會先對用戶的身份進行識別,此時的識別分為講話人身份證實SV(Speaker Verification)和說話人辨識SI(Speaker Identification),識別結果為Yes或No ,即當系統確定此時的請求者為某位已認證的用戶時,便可進入下一界面,為其提供服務,反之則發送錯誤提示信息。而說話人辨識即從N個對象中確定某個對象。而當用戶的身份確定后,接著

會進行語音內容的識別,其內容包括孤立字或詞識別(待識別的每個字或詞間有停頓)、句子或詞組識別(待識別的語音為一個個句子或者詞組)、連續語音識別(待識別的語音為連續的講話聲音)、語音理解(正確識別講話者講話的含義)。當確定為其中的某一類時,語音識別系統會對接收到的信息先進行預處理工作,對相關的參數進行分析和提取,用提取到的數據與已有的模板庫中的數據進行比對,根據其比對的結果給用戶反饋出最終的信息。在用戶提交的所有任務都完成后,系統會向該使用者發送提示信息。

圖2 語音識別過程

2.3 網絡通信

同一個云組相當于一個VPN,要實現共享本地數據。

用戶能在該平臺上創建虛擬局域網,處于同一云組的用戶相當于處在同一個VPN(虛擬專用網絡Virtual Private Network)上,其之間的通信不受限制,此時用戶可以實現本地資源的共享等。

3 結語

基于云服務安全平臺的研究開發與語音識別應用軟件系統主要針對云技術的加密與安全作進一步研究,用有效的措施對用戶信息和程序安全作進一步加強,加入了語音識別使信息的獲取變得方便,網絡技術的應用更增添了平臺的實用性。同時作為這種方式的客戶端有很高的拓展性,服務端處存放基于不同平臺的程序,對接收的信息進行翻譯、模擬、處理,即使一臺便攜終端也會有很強的處理能力。

參考文獻參考文獻:

[1] KAIHWANG,GEOFFREY C FOX,JACK J DONGARRA.云計算與分布式系統:從并行處理到物聯網[M].北京:機械工業出版社,2013.

[2] 姚宏宇,田溯寧.云計算:大數據時代的系統工程[M].北京:電子工業出版社,2013.

[3] 牛如美,陳雨亭.一種基于異常處理的并發程序容錯機制[J].計算機工程,2012(13):4447.

第10篇

關鍵詞:語音識別;神經網絡;遺傳算法;遺傳神經網絡

中圖分類號:TP183文獻標識碼:A文章編號:1009-3044(2008)22-774-03

Research of Speech Recognition Based on Genetic Neural Network

ZHAO Feng

(Computer School of Wuhan University,Wuhan 430081,China)

Abstract:This Paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low. a new recognizing algorithm based on BP algorithm by combining with the good effect method in ANN which named genetic algorithm(GA) was proposed and used to improve the BP neural network . Experiment results show that the training speed can be accelerated by the method and the recognition performance is also promoted.

Key words: speech recognition; neural network; genetic algorithm; genetic neural network

1 引言

語音識別SR(Speech Recognition)是指讓機器聽懂人說的話,即在各種情況下,準確地識別出語音的內容,從而根據其信息,執行人的各種意圖[1]。現代語音識別技術以神經網絡為主要發展趨勢,進入20世紀90年代以來,神經網絡已經成為語音識別的一條重要途徑。由于神經網絡反映了人腦功能的基本特征,故具有自組織性、自適應性和連續學習能力等特點,特別適合于解決像語音識別這類模擬人的認知過程和智能處理能力,難以用算法來描述而又有大量樣本可供學習的問題[2]。

人工神經網絡(ANN)是采用大量的簡單處理單元廣泛連接起來構成的一種復雜信息處理網絡。網絡的訓練學習是應用一系列輸入矢量,通過已確定的算法逐步調整網絡的權值,最終達到期望的目標。BP神經網絡是神經網絡中前向神經網絡的核心部分,BP算法的學習過程由信號的正向傳播和誤差的反向傳播組成。隨著誤差逆傳播修正的不斷進行,網絡對輸入模式響應的正確率不斷上升。然而BP算法是一種梯度下降算法,梯度下降存在多極值問題,且BP網絡學習訓練速度慢,容易陷入局部最小或振蕩。因此,參數的選擇非常重要。為克服標準BP算法存在的各種缺點,本文研究用BP算法結合人工智能領域較為有效的方法――遺傳(GA)算法來訓練網絡進行語音識別,仿真實驗表明,GABP算法使BP網絡在收斂速度上有了很大提高,尤其是克服了容易陷入局部最小值的缺點,基于GABP的語音識別系統的最高識別率和平均識別率都有了很大的提高。

2 語音識別的基本原理

大部分基于神經網絡的語音識別系統實現識別功能都要經過從特征參數提取到應用識別算法進行識別的過程,該過程如下圖1所示:

圖1 語音識別系統原理框圖

該文主要面向孤立數字識別系統作一些改進研究,其基本識別過程也符合上圖1描述:輸入的語音信號首先進行預處理,包括抗混疊濾波、聲音的預加重、加窗分癥處理與端點檢測等。預加重的目的是在于濾出低頻干擾,尤其是50Hz或60Hz的工頻干擾,將對于語音識別更為有用的高頻部分的頻譜進行提升,以便于語音參數分析。

預加重濾波器傳遞函數為: H(Z)=1-0.9375Z-1(1)

若S(n)為預加重前語音信號,則經過預加重濾波器后得到的信號■(n)為:

■(n)= S(n)-0.9375 S(n-1)(2)

該文主要完成孤立數字識別,所要求識別的字數不多,對環境的噪聲的適應能力的要求也并不高,因此采用了目前比較流行的雙門限端點檢測算法,借助于語音信號短時平均能量和短時過零率來判定語音有效范圍的開始和結束。

語音信號經過預處理后,接下來很重要的一環就是進行特征提取,常用的特征包括短時平均能量和幅度、短時平均過零率、線性預測系數(LPC)、短時傅里葉變換和Mel頻率倒譜系數(MFCC)。語音特征參數的時間序列構成了語音的模式,將其與通過應用一系列已知信號訓練提取的參考模式逐一進行比較,獲得最佳匹配的參考模式便是識別結果。本文中對于預處理的每個有效語音信號段,都要提取其12個一階MFCC系數,提取過程為:用漢明窗將語音切割成長短一致的語音幀,對每幀語音進行正反傅里葉變換,經對數和離散余弦變換后取前12個數作為MFCC系數來描述每一個幀。最后將每個語音信號對應的MFCC系數序列用K-means聚類算法進行聚類,分為4個聚類,使得每個語音信號都得到相應的12個4維一階MFCC系數,即可作為語音的特征參數成為神經網絡的輸入信號。

3 語音識別中的BP網絡構造

語音識別中的BP網絡構造主要包括輸入層、隱層、輸出層、初始權值、學習速率與期望誤差的選取幾個方面的問題。

1) 網絡層數:理論上,在不限制隱層節點數的情況下,兩層(只有一個隱層)的BP網絡可以實現任意非線性映射。當模式樣本很多時,減小網絡規模,增加一個隱層是必要的,但BP網絡隱層數一般不超過兩層。本文所要求識別的模式樣本不多,因此一個隱層已經足夠。

2) 輸入層節點數:在BP網絡語音識別系統中,輸入層節點數與選取的語音信號特征參數的維度和階數有關。本文中每個語音信號都得到相應的12個4維一階MFCC系數,故輸入層的節點數為12×4=48。

3) 輸出層節點數:輸出層的節點數取決于輸出數據的類型和表示該類型所需的數據大小。當BP網絡用于語音識別時,以二進制形式來表示不同的識別結果,則輸出層的節點數可根據訓練模板的語音數來確定。本文設定輸出節點數為10,分別對應于0~9這10個數字。

4) 隱層節點數:通過采用一個隱層,增加其神經元數的方法來達到網絡訓練精度的提高,這在結構上,要比增加更多的隱層簡單的多。但究竟選取多少個隱層節點才合適?在理論上并沒有個明確的規定。在具體設計時,比較實際的做法是通過對不同神經元數進行訓練對比,然后適當的加上一點余量[4]。一般可利用下面式子決定:

n1=■+a(3)

其中n1為隱層節數;m為輸入節點數;n為輸出節點數;a為取1~10的常數。本實驗中輸入節點數為48,輸出節點數為10,a選取為常數4,因此隱層節點數n1=12。

5) 初始權值:由于系統是非線性的,初始值對于學習是否達到局部最小、是否能收斂以及訓練時間的長短關系很大。一般總是希望經過初始加權后的每個神經元的輸出值都接近于零。所以,一般取初始值在(-1,1)之間的隨機數。

6) 學習速率與期望誤差的選取:學習速率決定每一次循環訓練中所產生的權值變化量。小的學習速率雖然會導致收斂速度慢,不過能保證網絡的誤差值不跳出誤差表面的低谷而最終趨于最小值。所以,一般情況下,學習速率的選取范圍在0.01~0.8之間。期望誤差0.000001。

解決了上述幾個方面的問題后,本文采用三層結構神經網絡,如圖2所示:輸入層各節點將輸入信號經權重藕合到隱層的每個節點,隱層各節點對來自前一層的信號加權,經激發函數轉換后再藕合到輸出層。

4 基于遺傳神經網絡的語音識別

本文研究引用遺傳算法對網絡的初始連接權值進行優化處理,用BP算法完成給定精度的學習。

4.1 個體編碼方案

編碼對于網絡進化過程的性能和效率影響很大,因此,編碼技術是連接權值進化過程中學解決的首要問題和關鍵步驟。本文中考慮到BP網絡的節點數和結構已經固定,可以采用實數編碼方案,將網絡的權值和各節點的閥值依此排列得到一個向量。

假設一個具有m個節點的n層BP網絡,如果第i個節點對應的權值分別為vi(vi[-1,+1]),則一個個體用實數向量表示為X=(v1,v2,…vm)。

4.2 適應度函數的選擇

一個網絡連接權值優劣的標準,是根據網絡對一組輸入得到的實際輸出與期望輸出之間的誤差大小來制定的。BP網絡中誤差平分和小,則表示該網絡性能比較好。本文中適應度函數為:

f(x)=■(4)

其中,E為神經網絡的輸出誤差,即:

■(5)

其中n為學習樣本總數,yk,■k為第k個個體的期望輸出和實際輸出向量。

4.3 進化參數

連接權的進化過程中所涉及到的主要進化參數有:種群規模、交叉率、變異率和進化代數等等。交叉是最主要的進化操作,交叉率是指各代中交叉產生的后代數與種群規模之比。常用的交叉率取值范圍為0.6~1.0。變異率是指種群中變異的基因數占總基因數的比例,其值控制了新基因引入的比例。常用變異率的數量級范圍為0.1~0.001。 種群規模是連接權進化過程首先需要確定的參數,是算法會否陷入局部解的主要影響因素。綜合考慮BP網絡的初始連接權值和交叉率、變異率的選擇,這里選擇種群規模為50。

5 仿真實驗結果

仿真實驗為針對非特定人的孤立數字詞語音識別。語音數據由二男二女(0到9共10個數字的普通話發音)通過PC話筒輸入,每個音每人發20遍,共計1000次發音,其中以每人每個音的前10次作訓練樣本,后10次作測試樣本,錄音環境為安靜實驗室,采樣頻率為11.025kHz。

經過反復實驗,不斷改善實驗環境,基于演化神經網絡的識別得到了相對較高的識別率。對實驗結果分析可知,結合了GA算法的BP網絡通過GA全局搜索得到一個權值最優解,只迭代了151次便使得誤差值為0.000001 ,而普通BP算法要迭代517才能勉強達到期望誤差,由此可知,結合了GA算法的BP網絡避免了局部極小,減低了學習速率,提高了收斂速度。

表1 基于遺傳神經網絡與普通BP網絡語音識別系統對比表

通過表1對比可知,基于演化神經網絡識別算法的語音識別系統無論是在訓練時的收斂速度還是在最后的識別率上,都要優于普通的BP網絡語音識別系統。

6 結論

語音信號處理和神經網絡均是目前研究的熱點,文章主要針對語音識別的特點,結合人工智能領域兩種比較有效的方法――BP網絡和GA算法,構建了一種基于遺傳神經網絡的語音識別算法。仿真實驗結果表明,該算法避免了傳統BP算法容易陷入局部極小的缺點,減低了訓練時間,有效的提高了系統識別率。

參考文獻:

[1] 趙力.語音信號處理[M].北京:機械工業出版社,2003.

[2] 蔡蓮紅,黃德智,蔡銳.現代語音技術基礎于應用[M].北京:清華大學出版社,2003.

[3] 易克初.語音信號處理[M].北京:國防工業出版社,2000.

[4] 孫寧,孫勁光,孫宇.基于神經網絡的語音識別技術研究[J].計算機與數字工程,2005,34(3):58-61.

[5] 何英.Matlab擴展編程[M].北京:清華大學出版社,2002.

第11篇

關鍵詞:語音識別系統 動態時間規整 嵌入式

中圖分類號:TP3 文獻標識碼:A 文章編號:1674-098X(2014)03(b)-0071-01

隨著有關于嵌入式系統的軟件和硬件技術的進步,語音識別系統得到了全面的應用[1]。由于嵌入式系統受到各種軟硬件的約束,該系統通常運行的是特定的任務[2,3]。所以開發者可以優化軟硬件資源、減小規模、降低成本。但這對于語音識別系統的效率和準確度有了更高的要求[4]。DTW算法與HMM等算法相比較而言,針對小詞匯量語音識別系統,其準確率與HMM等復雜算法幾乎相同。

1 DTW算法

動態時間彎曲(Dynamic Time Warping,簡稱DTW)是把時間規整和距離測度結合起來的一種非線性規整技術。設:

(1)參考模板特征矢量序列為:c0,c1,…,cp;

(2)輸入語音特征矢量序列為:d0,d1,...,,dq p≠q。

那么,DTW就是要計算函數D,從而使c和d之間的差別最小。

2 DTW在線并行算法

2.1 算法描述

DTW在線并行算法對于并行性的小詞匯語音識別系統特別適用。此方法第一步對問題分解,然后在多個運算單元中單獨的計算已知模式和未知模式之間的距離,并且對每個運算單元進行的計算分解。在DTW運算時要預先分配大小一定的內存。最后一步是將每一個單元的運算結果輸入到決策模塊,得到最終結論。

算法框圖如圖1所示,按照時間順序將計算出的未知語音特征矢量輸入到各個DTW流水線。然后由決策模塊依據各個流水線的計算結果以及其他信息得出結論。但由于每個參考模式的長度不同,各條流水線的計算時間是不同的,因此每條DTW流水線會設置一個完成標志位Pi(1≤i≤N),依據這些完成標志,決策模塊對已經完成計算的流水線結果進行處理。同時該算法還可以通過識別歷史來提前終止沒有完成的計算步驟。

2.2 算法分析

令特征矢量的維度為l,未知模式的長度為k,參考模式的個數為n,參考模式的總長度為p,局部判決函數的水平跨度為w,流水線條數為b。流水線的距離矩陣A的窗口平均大小為wn/p,令t為特征向量的數據類型所占的字節數,則OP-DTW算法所需的內存為wnt/p Byte。當b≥n時,算法所需時間為經典DTW的1/n;當b

3 結語

該文對一種DTW在線并行算法進行了分析,該算法相對減少了由于數據引起的等待時間;提高了DTW的并行度,并充分挖掘出硬件的計算功能,減少處理的時間。由于DTW的適用性,該算法適合一維非線性數據的匹配問題。

參考文獻

[1] 林常志.基于統計的語音識別方法分析報告[R/OL].(2003-12-26)[2009-06-13].http:///data/林常志語音識技術報告.net.

[2] 李昱,林志謀,黃云鷹,等.基于短時能量和短時過零率的VAD算法及其FPGA實現[J].電子技術應用,2006,32(9):110-113.

第12篇

    關鍵詞:  RSC-3x, 識別率,噪音降除,電路設計,PCB設計,麥克風,電源

    RSC-3x是美國Sensory公司出品的交互式語音產品。它同RSC其他系列的產品一樣運用神經元算法實現了語音識別的功能,在理想環境下,其識別率可達97%以上。并具有語音合成、錄音回放、四聲道音樂合成等語音處理功能。由于內含一個8位處理器,RSC-3x還可實現通用處理器的系統控制功能。RSC-3x的高性能和適中的價格使得它主要應用在消費類電子產品和價格敏感的家電產品上。

    但是,如何才能運用RSC-3x系列產品開發出性能良好的語音識別產品呢?本文給出了在設計語音識別產品時應在硬件方面考慮的若干問題。

    一、噪音降除

    語音識別的準確率(簡稱識別率)會受到諸多因素的干擾而下降。一個導致識別率下降最常見的因素就是噪音:來自系統內部的電子噪音和麥克風所拾取的聲頻噪音。RSC-3x的一個主要革新技術就是在其片內加入了一個聲頻預放電路。來自典型的駐極體麥克風的電壓信號只是毫伏級的,而能被RSC-3x使用的整個預放增益信號卻要放大到200倍以上。通過RSC-3x內置的預放電路,只需外加少許的幾個被動元器件就可以達到這個放大作用。良好的接地措施和消除模擬電路中的交叉干擾會進一步確保良好的識別率。鼓勵用戶大聲說話和接近麥克風可以輔助獲得良好的信噪比。

    二、電路設計

    圖一是RSC-3x聲頻預放部分的參考電路。阻值為1.5K的麥克風電阻(Rx)對系統增益具有很大的影響,因此應根據麥克風的敏感度來決定其值的大小。圖中的1.5K是典型值。

    下表所列為Rx和Cx的推薦值:

    Rx

    Cx

    1K

    0.01uF

    1.5K

    0.0068uF

    2.2K

    0.0047uF

    2.7K

    0.0033uF

    3.9K

    0.0027uF

    4.7K

    0.0022uF

    三、PCB設計

    推薦使用帶地平面的雙面印制的PCB板。地平面應覆蓋整個模擬電路區域而僅在RSC-3x附近接地。為減少交叉干擾,模擬地和數字地應盡可能地從物理上分隔開來。特別要注意的是:將高速時鐘線(如地址線和數據線)遠離麥克風元器件和電路。

    每個數字IC都要在緊挨著VDD的地方接一個0.1uF的旁路電容,RSC芯片的每對VDD腳和VSS腳間都要接一個。該旁路電容應該是最大電壓為50V的陶瓷電容。如果使用了3端穩壓器(如7805),應在其輸入/輸出腳和地之間接近穩壓器的地方接上鉭旁路電容。

    在使用電池的產品中,串接一個二極管以避免電池裝反時損壞電路。

    如果產品中除了RSC還有其他需要用到數字時鐘的模塊(如開關電源、LCD驅動器等),特別要注意防止這些信號進入到RSC的聲頻電路中去。

    四、麥克風的選擇

    對絕大部分的產品來說,廉價的多向駐極體電容麥克風(最小敏感度為-60dB)就足夠了。在有些應用中,信號與音頻噪音來源于不同方向時,定向麥克風可能更適合些。由于定向麥克風的頻率反應取決于麥克風與聲源間的距離,這樣的麥克風應謹慎使用。為得到最佳性能,語音識別產品應運用于安靜的環境,說話人的嘴應與麥克風極為接近。 如果產品是為在嘈雜環境中使用而設計的,設計時要充分考慮周圍環境的噪音。提高信噪比將有助于產品的成功。

    五、 麥克風的安放

    設計恰當的麥克風嵌入方式和選擇性能一致的麥克風是重要的。因為對麥克風不當的聲學布置會降低RSC-3x的識別率。麥克風元件有許多種可能的物理放置方式,但有的就會比別的性能更好效果更佳。為此,Sensory推薦了以下的麥克風放置方案:

    首先: 產品中,麥克風元件應盡可能地接近外殼,應完全位于塑料外殼內。麥克風元件和外殼間不應有任何空隙。只要有空隙就會產生回音,從而降低識別率。

    其次:麥克風元件的前部應確保干凈無污,以免干擾識別。麥克風前面的外殼上要保留直徑至少為5mm的孔。如果一定要在麥克風的前面加塑料表面的話,塑料表面要盡可能地薄,最好不要超過0.7mm。

    三:如果可能的話,麥克風與外殼間應聲音隔離。可以將麥克風用橡皮或泡沫等海綿物質包裹起來。這樣做的目的在于防止由搬運或震動產品時產生的聽覺噪音被麥克風采集。這種外來的噪音會降低識別率。

    如果麥克風從距離說話人的嘴15cm的地方移到距離為30cm的地方,信號功率就降低了1/4。高音和低音間的差別也大于1/4。RSC-3x提供了一個AGC(自動增益調節)來補償太大或太小的聲音信號。AGC在麥克風的預放內工作。如果超過了AGC的調節范圍,軟件會給說話人提供一個聲音回饋,如提示“請說大聲點”或“請說小聲點”來提醒說話人。

    六、電源設計

    由于 RSC-3x工作時其語音識別電路要消耗約10mA 的電流,電源的設計在這里顯得尤為重要。如果系統連續聆聽尋找一個給定的詞匯,那么在幾小時內就能消耗完一個紐扣電池的電能,幾天內消耗掉一個大容量的堿性電池的電能。因此如果產品需要識別器一直處于工作狀態的話,系統應該采用市電供電。相反的,如果電源采用電池供電的話,那么產品大部分時間應工作于低功耗的“睡眠”狀態,只在需要識別時被喚醒就行了。RSC-3x的喚醒可以通過按鍵或其他IO口事件或震蕩器二的時鐘倒計時來實現,但無法被麥克風采集到的語音信號喚醒。

主站蜘蛛池模板: 合水县| 青河县| 东丽区| 金塔县| 博白县| 黔东| 松滋市| 凉城县| 铜山县| 温州市| 开封市| 友谊县| 永顺县| 噶尔县| 阿尔山市| 东乡县| 元江| 文山县| 宽甸| 泸西县| 咸阳市| 清水县| 怀化市| 东乡县| 且末县| 德阳市| 濮阳市| 辰溪县| 顺平县| 乌苏市| 中牟县| 铁岭县| 宣武区| 红河县| 凌海市| 荣昌县| 邵东县| 彭泽县| 河间市| 北流市| 大洼县|