時間:2022-03-30 13:23:18
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇語音識別技術,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
【關鍵詞】語音識別 語言模型 聲學模型 人工智能
使用智能手機的朋友們都會對語音助手產生極大的興趣,不管是微軟的Cortana,還是蘋果的Siri,都是將語音識別融入現代技術的典范。Z音識別是解決機器“聽懂”人類語言的一項技術,也是人工智能重要部分。
語音識別技術(speech recognition),也被稱為自動語音識別 (ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發出語音的說話人而前者的目標是語音中所包含的詞匯內容。
探究語音識別技術的框架、應用與發展有利于全面了解語音識別。本文將從語音識別簡介、主流語言識別框架以及語言識別近年來的發展三個方面探究語音識別。
1 語音識別簡介
1.1 傳統語言識別技術發展
對語音識別技術的研究可以追述到上世紀五十年代,1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數字發音的實驗系統,開創了語音識別的先河。上世紀六十年代,人工神經網絡被引入了語音識別。上世紀七十年代以后,大規模的語音識別在小詞匯量、孤立詞的識別方面取得了實質性的進展。傳統語音識別技術最大突破是隱式馬爾可夫模型的應用,這一模型極大提高了語音識別的準確率[1]。
1.2 語言識別的應用
作為智能計算機研究的主導方向和人機語音通信的關鍵技術,語音識別一直受到各國科學界的廣泛關注。如今,隨著語音識別技術的研究的突破,其對計算機發展和社會生活的重要性日益凸現出來。在現實生活中,語音識別技術的應用相當廣泛,它改變了人與計算機交互的方式,使計算機更加智能。和鍵盤輸入相比,語音識別更符合人的日常習慣;使用語言控制系統,相比手動控制,語音識別更加方便快捷,可以用在工業控制、智能家電等設備;通過智能對話查詢系統,企業可以根據用戶的語音進行操作,為用戶提供自然、友好的數據檢索服務。
2 語音識別框架
目前主流的語音識別框架可以分為以下幾個模塊:信號處理,特征提取,聲學模型,語言模型,解碼器。
2.1 信號處理
信號處理模塊是對語音文件進行預處理。聲音是一種縱波,在識別語音時,輸入為WMV,MP3等格式的文件會被轉換成非壓縮的純波文件wav格式。然后在進行語音識別前,需要檢測該文件中的語音信號,該技術被稱之為語音活性檢測[2]。使用語言活性檢測技術可以有效降低噪音,去除非語音片段,提高語音識別的準確率。經典的語音活性檢測算法由如下步驟組成:
(1)使用spectral subtraction等方法對語言序列進行降噪。(2)將輸入信號的分成區塊并提取特征。(3)設計分類器判斷該區塊是否為語音信號。
2.2 特征提取
特征提取目的是提取出語音文件的特征,以一定的數學方式表達,從而可以參與到后續模塊處理中。在這一模塊,首先要將連續的聲音分成離散的幀。每一幀的時間既要足夠長,使得我們能夠判斷它屬于哪個聲韻母的信息,若過短則包含信息過少;每一幀時間也要盡量短,語音信號需要足夠平穩,能夠通過短時傅里葉分析進行特征提取,過長則會使信號不夠平穩。分幀時使用如下改進技術可以有效提高識別準確率:相鄰的兩幀有所重疊減少分割誤差,將與臨近幀之間的差分作為額外特征,將多個語音幀堆疊起來。通過分幀處理,連續的語音被分為離散的小段,但還缺乏數學上的描述能力,因此需要對波形作特征提取。常見的方法是根據人耳的生理特征,把每一幀波形變換成一個多維向量。因此,這些向量包含了這些語音的內容信息。該過程被稱為聲學特征提取,常見的聲學特征有MFCC、CPE、LPC等。
MFCC是目前最常用、最基本的聲學特征,提取MFCC特征可以分為如下四個步驟:首先對每一幀進行傅里葉變換,取得每一幀的頻譜。再把頻譜與圖1中每個三角形相乘并積分,求出頻譜在每一個三角形下的能量,這樣處理可以減少數據量,并模仿人耳在低頻處分辨率高的特性。然后取上一步得到結果的對數,這可以放大低能量處的能量差異。最后對得到的對數進行離散余弦變換,并保留前12~20個點進一步壓縮數據。通過特征提取,聲音序列就被轉換為有特征向量組成的矩陣。
2.3 聲學模型
聲學模型是語音識別中最重要的組成部分之一,其用于語音到音節概率的計算。目前主流的方法多數采用隱馬爾科夫模型,隱馬爾可夫模型的概念是一個離散時域有限狀態自動機。
隱馬爾可夫模型HMM如圖2所示,是指這一馬爾可夫模型的內部狀態x1,x2,x3外界不可見,外界只能看到各個時刻的輸出值y1,y2,y3。對語音識別系統,輸出值通常就是從各個幀計算而得的聲學特征,輸入是由特征提取模塊提取的特征。用HMM刻畫語音信號需作出兩個假設,一是內部狀態的轉移只與上一狀態有關,另一是輸出值Y只與當前狀態X(或當前的狀態轉移)有關,這兩個假設大大降低了模型的復雜度。HMM的打分、解碼和訓練相應的算法是前向算法、維特比算法和前向后向算法。
早期的聲學模型使用矢量量化(Vector Quantification)的方法,使其性能受到VQ算法的極大影響。對于連續取值的特征應當采用連續的概率分布如高斯混合模型或混合拉普拉斯模型等。為了解決模型參數過多的問題,可以使用某些聚類方法來減小模型中的參數數量,提高模型的可訓練性。聚類可以在模型層次,狀態層次乃至混合高斯模型中每個混合的層次進行。
2.4 語言模型
語言模型音節到字概率的計算。 語言模型主要分為規則模型和統計模型兩種。相比于統計模型,規則模型魯棒性較差,對非本質錯誤過于嚴苛,泛化能力較差,研究強度更大。因此主流語音識別技術多采用統計模型。統計模型采用概率統計的方法來揭示語言單位內在的統計規律,其中N-Gram簡單有效,被廣泛使用。
N-Gram基于如下假設:第N個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率即為各個詞出現概率的乘積。詞與詞之間的概率可以直接從語料中統計N個詞同時出現的次數得到。考慮計算量和效果之間的平衡,N取值一般較小,常用的是二元的Bi-Gram和三元的Tri-Gram。
2.5 解碼器
解碼器是語音識別系統的核心之一,其任務是對輸入信號,根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。在實踐中較多采用維特比算法[3]搜索根據聲學、語言模型得出的最優詞串。
基于動態規劃的維特比算法在每個時間點上的各個狀態,計算解碼狀態序列對觀察序列的后驗概率,保留概率最大的路徑,并在每個節點記錄下相應的狀態信息以便最后反向獲取詞解碼序列。維特比算法在不喪失最優解的條件下,同時解決了連續語音識別中HMM模型狀態序列與聲學觀察序列的非線性時間對準、詞邊界檢測和詞的識別,從而使這一算法成為語音識別搜索的基本策略。
維特比(Viterbi)算法的時齊特性使得同一時刻的各條路徑對應于同樣的觀察序列,因而具有可比性,Beam搜索在每一時刻只保留概率最大的前若干條路徑,大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是當前語音識別搜索中最有效的算法。
3 語音識別技術的發展
近幾年來,特別是2009年以來,借助機器學習領域深度學習研究的發展,以及大數據語料的積累,語音識別技術得到突飛猛進的發展。
在模型方面,傳統語音識別模型逐步被神經網絡替代,使用神經網絡可以更好地提取特征,擬合曲線。使用人工神經網絡來提高語音識別性能的概念最早在80年代就提出了,但當時高斯混合模型在大詞匯語音識別上表現得更好,因此人工神經網絡并沒有進行商業應用。隨著相關技術的進一步發展,微軟研究院利用深度神經網絡建立了數千個音素的模型,比傳統方法減少了16%的相對誤差。其在建立起有超過660萬神經聯系的網絡后,將總的語音識別錯誤率降低了30%,實現了語音識別巨大的突破[4]。
同時目前多數主流語言識別解碼器采用了基于有限狀態機的解碼網絡,該網絡將語音模型、詞典、聲學共享音字集統一為大的解碼網絡,大幅度提高了解碼速度。
在數據量上,由于移動互聯網的急速發展,從多個渠道獲取的海量語言原料為聲學模型和語言模型的訓練提供了豐富的資源,不斷提升語音識別的準確率。
4 結語
語音是人們工作生活中最自然的交流媒介,所以語音識別技術在人機交互中成為非常重要的方式,語音識別技術具有非常廣泛的應用領域和非常廣闊的市場前景。而隨著深度神經網絡發展,硬件計算能力的提高,以及海量數據積累,語音識別系統的準確率和實用性將得到持續提高。
參考文獻:
[1]S基百科編者.語音識別[G/OL].維基百科,2016(20160829)[2016-08-29].
[2]維基百科編者.語音活性檢測[G/OL].維基百科,2016(20160629)[2016-06-29].
[3]維基百科編者.維特比算法[G/OL].維基百科,2016(20160920)[2016-09-20].
[4] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):30-42.
[摘要]各個部門和領域對語音識別系統的需求不同,使得語音識別系統的特性和指標表現出的差異性非常大,所以語音識別系統要依據特定的指標和需求進行相關的設計。本文就語音識別系統相關的技術進行了分析,供大家借鑒與參考。
[關鍵詞]語音識別系統;差異性;指標需求
一、引言
語音作為語言的聲學體現,也是人類進行信息交流最自然、和諧的手段。與機械設各進行語音的溝通,讓機器可以明白人類在說什么,并理解這是人類長期的夢想。語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加復雜的應用,語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。
二、語音信號分析與特征提取
1.基于發音模型的語音特征。(1)發音系統及其模型表征。其發聲過程就是由肺部進行收縮,并進行壓縮氣流由支氣管通過聲道和聲門引起的音頻振蕩所發生的。氣流通過聲門時使得聲帶的張力剛好使聲帶發生比較低的頻率的振蕩,從而形成準周期性的空氣脈沖,空氣脈沖激勵聲道便會產生一些濁音;聲道的某處面積比較小,氣流沖過時便會產生湍流,會得到一種相似噪聲的激勵,對應的則是摩擦音;聲道完全閉合并建立起相應的氣壓,突然進行釋放就是爆破音。(2)語音信號線性預測倒譜系數。被廣泛應用的特征參數提取技術的就是線性預測分析技術,很多成功的應用系統都是選用基于線性預測技術進而提取的LPC倒譜系數作為應用系統的特征。LPC倒譜就是復倒譜。復倒譜就是信號通過z進行變換以后再取其對數,求反z變換所得到的譜。線性預測分析方法其實就是一種譜的估計方法,所以其聲道模型系統函數H(z)反映的就是聲道頻率激勵和信號的譜包絡,對IHg(z)作反z變換就可以得出其復倒譜系數。改復倒譜系數是依據線性預測模型直接獲得的,而又被稱為LPC倒譜系數(LPCC)。
2.基于聽覺模型的語音特征。(1)聽覺系統模型。一是人類的聽覺系統對于聲音頻率高低和聲波實際的頻率高低不是線性的關系,它對不同聲音頻率信號的敏感度是不一樣的,也可看成是對數關系。二是關于掩蔽效應指的就是聲音A感知的閉值因為另外的身影的出現出現增大的現象。其生理依據主要是頻率群,對頻率群進行劃分會出現許多的很小的部分,每一個部分都會對應一個頻率群,掩蔽效應就發生在這些部分過程中。所以在進行相應的聲學測量時,頻率刻度一般取非線性刻度。語音識別方面,主要的非線性頻率刻度有Mel刻度、對數刻度和Kon~nig刻度。其中Mel刻度被廣泛的應用,其是最合理的頻率刻度。(2)語音信號Mcl頻率倒譜系數。Mel頻率倒譜系數利用人們耳朵的聽覺特性,在頻域將頻率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數。MFCC參數的計算過程:
一是對語音信號進行相應的預加重,從而確定了每一幀的語音采樣的長度,語音信號通過離散FFT變換得到其頻譜。二是求頻譜幅度的平方,得到能量譜,并選用一組三角濾波器在頻譜域對能量進行帶通濾波。帶通濾波器中心頻率一般是按照Mcl頻率刻度排列的(間隔為150Mel,帶寬為300Mel),其每個三角形濾波器的兩個底點頻率和相鄰的兩個濾波器的中心頻率相等,頻率響應之和為l。濾波器的個數一般和臨界帶數比較相近,設濾波器數是M,濾波后得到的輸出為:X(k),k=1,2,…,M。
3.語音的端點檢測。語音的端點檢測就是對語音的起點和終點的確認,由于漢語語音的聲母是清聲母,有著送氣和不送氣的塞音,和環境噪聲接近比較進行分辨。語音信號有短時穩定性的特性,可選用平穩過程的分析方法進行相應的處理,對語音端點檢測進行分幀的處理,再依次對每一幀是否正確進行處理。每一幀的幀長如果比較大,計算量比較小的,可進行端點檢測就比較快,但其誤差會相應的增加。
語音識別技術發展到今天,對特定人語音識別系統的識別精度就更高。調查統計表明多達85%以上的人對語音識別的信息查詢服務系統的性能表示滿意。可以預測在近五到十年內,語音識別系統的應用將更加廣泛。各種各樣的語音識別系統產品將出現在市場上。人們也將調整自己的說話方式以適應各種各樣的識別系統。在短期內還不可能造出具有和人相比擬的語音識別系統,要建成這樣一個系統仍是人類面臨的一個大的挑戰。
此外,對于超聲科等醫技科室,由于醫生工作的特殊性,大多通過“一對一”聘請專業錄入員的方式提高檢查報告錄入效率。有些醫院為了節約人力,讓醫生把給病人檢查時的語音通過錄音設備錄制下來,后續通過錄入員測聽音頻文件進行轉錄,實現一個錄入員服務多個醫生,以此在一定程度上節約人力,但同時也延長了輸出檢查報告的時間。 在電子文本的錄入過程中基于模板填寫具體信息工作量還是比較大的。
另外,模板僅能解決一些常規情況的描述,如果完全按照模板填寫,對每位患者的情況記錄就缺少了個性化描述,不利于后續診斷使用。為提高文本錄入效率,有些醫生會使用“復制”、“粘貼”方式,通過在相似患者的病歷上進行修改完成病歷記錄,但有漏改、漏刪情況,這種方式在很大程度上增加了病歷記錄的出錯率,對醫療文本錄入的準確性是一個比較大的挑戰。
語音識別技術在醫療領域的應用越來越多
語音識別技術在歐美國家醫療領域已使用將近10年,主要用于節約醫生電子文本錄入的時間,降低文本錄入工作難度,提高醫生工作滿意度,讓醫生把更多時間和精力用在與患者及家俟低交流、為更多患者診斷等事情上。
美國Nuance公司的英文語音識別技術及電腦輔助病歷抄寫系統,醫生可使用掌上移動型設備將病患看診狀況口述下來,存成語音檔案,直接傳送到語音識別服務器,10小時的語音可在5分鐘內完成轉錄,大大縮短音頻文件轉錄文本的時間。皇家飛利浦電子公司推出的面向醫療領域實時語音識別的專用麥克風,表面采用符合醫療專業要求的防菌抑菌材質,并定制了針對實時語音識別所需的聲學硬件模塊,使醫院工作站實時語音識別實現成功應用,并已在歐美醫院成功推廣。在放射科等文本錄入工作量很大的醫技科室尤其受到歡迎。
從統計資料看,美國臨床中使用語音識別錄入的應用比例已達到10%~20%,主要用于放射科、病理科、急診室等部門,有效控制電子文本記錄及診斷報告生成時間和質量,明顯提高工作效率。
語音識別技術是理想的人機交互方式之一,它能夠讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令。北京協和醫院在國內首先提出使用語音識別技術錄入醫療領域電子文本時,醫生紛紛表示擔憂,在國內的醫療中語音識別技術的使用和推廣面臨以下幾個難點。
目前國內主流的HIS系統已做了大量工作減少醫生輸入病歷、醫囑時的工作量,如提供大量結構化的病歷。醫生已習慣這種工作模式。通過語音識別來錄入電子文本,尤其在超聲科、門診等環節,醫生需要一個熟悉過程。
國內醫生的工作環境較復雜,口音等問題也較國外更加突出,醫療特殊單位特殊符號較多,如何保證識別的準確率,讓醫生用的更加流暢,也是這個項目面臨的重要挑戰之一。國內移動醫療的趨勢越來越明顯,基于移動端小屏幕的文本輸入一直是語音識別應用致力于解決的問題。如何保障醫院復雜環境下移動端的語音識別效果是需要探討的問題之一。
由于醫療行業的專業性較強,每個學科差異較大,所使用的信息化系統也比較分散,如影像科使用PACS,內科使用HIS等。需要錄入文字的工作量較大,但使用的信息化系統較多,要求提供的語音錄入文本解決方案,需同時支持多個信息化系統使用,且最大限度降低與原有系統的耦合性。
以上問題,經過為期1年的醫療領域語音識別應用探索和實踐,都得到較好解決,超過95%的中文醫療垂直領域語音識別準確率已達到實用水平,中文醫療語音識別技術探索應用方案得到北京協和醫院醫生認可。
北京協和醫院語音識別應用探索和實踐
醫療語音識別技術的應用,能將醫生口述的語音轉成準確度高、完全格式化的初步文件,醫生可快速加以核對、編輯,每天可節約1小時左右時間。醫生普遍認為語音錄入病歷可提高文字輸入效率,降低工作難度,從總體上提高醫院收容處理病人的能力,同時縮短病人的無效等待時間,增加病人滿意度。
針對中文醫療語音識別的技術難點,北京協和醫院做了很多探索實踐工作。
一是定制醫療領域語言模型:針對各科室業務進行梳理,整理了超過30G的醫療文本資料,并對這些資料進行分類、檢索等處理。使得定制語音模型覆蓋各個科室常用的病癥、藥品名稱、操作步驟等關鍵信息,使語音識別準確率超過95%的水平。 二是定制個性化語言模型:不同科室的醫生在錄入醫囑時說的話也不同。北京協和醫院語音錄入系統和用戶的賬號系統綁定。醫生登錄HIS時會加載所在科室的語言模型,這樣就可以有效降低模型大小,提高識別準確度。同時醫生也可根據自己的使用習慣,向系統中添加自己常用的詞匯。 三是一體化私有建設:實現一套私有化部署的語音云支持多渠道多終端的一體化建設。除支持HIS、PACS等PC端應用,還支持移動查房等pad端應用,真正實現跨平臺的多渠道互聯互通應用,大大降低醫療信息化建設成本。 醫療語音識別系統采用分布式計算,具有高健壯性、高度靈活性、高性價比等特點,主要包括操作系統層、引擎層、資源包和管理工具4個層次。操作系統層提供開發接口,以及開發人員關注的接口定義、功能和使用方法;引擎層提供核心的語音處理功能,作為應用接口的功能實現者;在引擎層之上提供覆蓋醫療領域的資源包,為科室提供語音識別優化的功能。同時系統完美地支持傳統API調用和手機APP開發,為醫院原有信息化系統提供了相關接口和SDK。
北京協和醫院醫療語音識別應用效果初現
據了解,醫療語音識別已在北京協和醫院病房、醫技科室、手術休息區進行了嘗試使用。為更好地測試語音識別效果,北京協和醫院組織醫生進行了語音識別系統測試和主觀體驗,隨機抽樣了135例樣本進行精確統計。
已上線科室使用醫療語音識別系統的醫生表示,該系統的語音識別效果較好,可以有效提高工作效率,降低工作強度,減輕工作量,尤其對長段信息、自由醫囑錄入的效果明顯。超過50%的大夫認為語音識別技術每天可節約1小時左右時間。超過90%的大夫希望使用語音錄入方式,以提高工作效率。
關鍵詞:語音識別;研究趨勢
一、語音識別技術簡介
語言是人類的基本功能,也是展現思維、進行溝通的重要載體。而語音,是由人類人體天賦轉化下,所形成一種表達方式。在科學視野中,這種天賦的轉化,被稱之聲學表現。然而,不可否認的是,雖然語音僅作為一種“天賦表象”,卻是人類目前最為有效的交流手段。
二、語音識別技術的發展歷史
科技引入到聲音的聲學研究,在人類歷史上發起較晚,始于上世紀50年代,研究人員才致力于聲學和語音學的基本概念。第一次實現研究突破是在1952年,學者AT& T Bell在其實驗室,進行了一組當前視野來看,并不復雜的實驗工作。但最終實現了一個單一發音人,孤立發音10個英文數字的語音識別系統,方法主要是度量每個數字的元音音段的共振峰;1956年,RCA Lab 基于Bell的人的研究基礎,尋求另一個方向的實踐研究工作,力求識別單一發音的10個不同的音節,同樣采用了度量共振峰的方法;1959年,組織University College的研究學者,以譜分析和模板匹配的方式,借助構建音素識別器的理念,實現了識別4個元音和9個輔音;1962年,東京大學相關研究部門,對音素識別器的硬件進行實踐性研究工作。以過零率方法分離語音信號的不同部分的識別方式,成為目前較為理想的研究手段之一;1963年,日本NEC Lab對數字進行語音識別技術進行嘗試,并獲得了相對可靠的研究成果。并創造NEC研究語音識別的模板,由此開創了語音識別技術的新領域。值得注意的是,在近四十年來,語音識別技術并未出現質的突破。但是,上述內容60年代所進行的研究,卻成為了支撐人類語言識別技術近半個世紀的基礎。而其最為重要的貢獻,便是通過理論深度研究,于1969年提出時間歸正法。
三、語音識別技術的應用及前景
隨著聲學研究的發展,語音識別技術已然具備了應用的基礎。從現狀來看,中小詞匯量非特定人語音識別系統識別精度已經大于98%,對特定人語音識別系統就更高。隨著科學技術的發展,集成電路的應用,幫助以往過度復雜的識別體系,能在更小的空間的內實現。從在西方經濟發達國家來看,大量的語音識別產品已經進入市場和服務領域。包括手機等移動電子設備,多配備了相對完善的語音機制。并且盲人所使用的電子設備中的語音識別系統,已經達到了以往的軍用標準。用戶將借助移動通訊網絡,以語音識別的口語對話系統,完成日常生活中,如訂購票務、酒店等事宜。據調查統計結果,目前85%以上的使用者,對語音識別信息查詢服務系統的功能性、準確性表示滿意。由此,也可以進行預測:在未來的十年內,語音識別系統的應用范圍將逐漸擴大,而基于各類語言、需求的產品涌現,或借助市場調節機制,有效降低此類系統的應用成本。由此更進一步滿足各類語音需求。但是,以當前的技術來看,語音識別系統的局現性,或將成為阻礙其發展的根本原因。
四、語音識別技術的系統結構
不可否認,語音識別系統是復雜的。但是,在人類漫長研究中,不斷的歸納和總結,最終找到可以大范圍區分的“節點”。由此,幫助語言識別系統的構成更加清晰化。從相關研究發現,一個完整的基于統計的語音識別系統可大致分為兩個部分:
1、語音信號預處理與特征提取
語音識別的基本工作特征,在于識別單元的選擇,這也是能否獲得識別結果的重要基礎。然而,對于單元的選擇,需要合理的區分各個要素,包括單詞(句)、音節和音素三種。在選擇適合的要素后,才能夠進行后續的識別工作。
單詞(句)單元廣泛應用于中小詞匯語音識別系統,但不太適合大詞匯系統,原因在于模型庫太龐大,訓練模型任務繁重,模型匹配算法復雜。故此,看似簡單識別通道,卻因為復雜性降低了時效,最終導致難以準確的完成識別任務。
音節單元是基于我國語言特征,所提出的特殊識別要素。由于漢語言與英語等拉丁語系語種的差異性。我國發展語音識別技術,或難以借助他國成熟經驗。但是,由于漢語音節總數為1300余個,其中包括408個無調音節,對比于大量多音節的拉丁語系,漢語言基礎上的音節單元要素識別,將具備更高的時效性。這也是我國語音識別技術能夠“后發制人”的關鍵。
音素的識別,主要借助線性預測(LP)實現。LP分析技術是目前應用廣泛的特征參數提取技術,許多成功的應用系統都采用基于LP技術提取的倒譜參數。但線性預測模型為純數學模型,未考慮人類聽覺系統對語言的處理特點。
2、聲學模型與模式處理
作為語音識別系統的第二個模塊,也是其重要的基底模塊。聲學模型主要用于搭建聲音體系,并借助特征算法,幫助后續的模式處理,對語音進行深度識別。而模式處理的重要性,在于保證識別結果的準確。通常對語音模型的處理,在理論和數據參數上,已經具備良好的基礎。但是,在識別方面,卻一直難以達成成效。這也是模式處理能力不足所帶來的主要困境。從基本理論層面來看,聲學模型作為語音識別系統底層模型,其關鍵性不言而喻。而聲學模型存在的意義,在于提供計算語言的特征矢量序列,以及合理區分每個發音模板之間的距離。聲學模型的設計和語言發音特點密切相關。聲學模型單元體積對語音訓練數據量大小、系統識別率,以及靈活性有較大影響。
五、語音識別技術的發展障礙
1、技術智能化不足。例如,同一說話者在不同語態時,語音信息有所差異;即使同一說話者以相同方式說話時,其語音模式也受長期時間變化的影響。
2、缺乏模糊語音處理能力。說話者在講話時,不同的語詞可能聽起來很相似。
3、無法兼顧發音變化。單詞或單詞的一部分在發音過程中其音量、音調、重音和發音速度可能不同,使得測試模式和標準模型不匹配。
4、無法消除環境音響。為了提升語音識別技術的準確性,必須提升其收納聲音的范圍。而這樣的選擇,無疑會放大環境因素的影響。原因在于語音識別系統的聲音基礎,是在相對安靜的環境中創造。所以,無法應對自然環境中的噪聲和干擾。而且,在采用抗干擾模式下,語言識別和接受能力又會大幅度下降。這也讓技術遇到兩難的選擇。
參考文獻:
[1] 施超群,陳堅剛.淺析語音識別原理[J].浙江工商職業技術學院學報,2011(03):94-96.
語音識別是指用計算機對人的語音信號進行分析處理,從而得到其對應文字的過程。其最終目的就是實現一種自然的人機交互方式,使機器能聽懂人的語言,辨明話音的內容,將人的語音正確地轉化為對應的文本,或者根據語義做出相應的動作。常見的應用系統有語音輸入系統、語音控制系統、智能對話查詢系統等。而語音識別評測是指針對語音識別的某項應用,創建評測語料庫,提出評測指標和對應算法,用評測語料訓練和測試各參評系統,并對其識別結果進行比較和分析的過程。
實際上,從1987年起,美國國家標準技術局就開始組織對各大學和公司研發的語音識別系統進行評測。十幾年間,根據技術的現狀,組織了多次不同任務的評測,促進了領域內的競爭和交流,對語音識別技術的進步和發展起到了巨大的引領和推動作用。
當前,國際上知名的語音識別評測主要有: 美國NIST(國家標準技術局)評測、歐洲TC-STAR評測和中國的863評測。美國NIST評測是開展歷史最久、項目設置最全也最負盛名的評測,近20年來,每年都針對語音識別方向的熱點技術組織國際性評測,涉及的語言有英語、漢語普通話和阿拉伯語,涉及的任務有孤立詞識別、關鍵詞識別和大詞匯量連續語音識別,涉及的語音包括了朗讀語音、自然語音、對話語音、廣播語音、會議語音等各種常見的語音類別。TC-STAR語音識別評測是歐盟TC-STAR項目的一部分。該項目主要針對語音到語音的機器自動翻譯。其語音識別評測任務為連續語音識別,針對英語、西班牙語和漢語普通話,處理的語音為會議發言(英語、西班牙語)或新聞廣播(漢語)。863語音識別評測是類似NIST評測的綜合性評測,語言以漢語為主,任務和通道多樣,根據語音識別技術的現狀和發展趨勢不斷調整。
語音識別的主要技術
近年來,由于大規模語料庫的支持,基于統計的語音識別方法逐漸發展成熟,取得了較好的識別結果,成為當前語音識別技術的主流。基于隱馬爾可夫模型(HMM)的統計語音識別在各個通道,各種任務的語音識別中得到了廣泛應用。
圖1所示為當前大多數語音識別系統采用的框架和流程。原始語音經前端處理后,從中提取出若干維的特征向量用于識別。識別時,聲學模型和語言模型共同作用,得到使某一概率最大的字串作為識別結果。
前端處理是指在特征提取之前,先對原始語音進行處理,部分消除噪聲和不同說話人帶來的影響,使處理后的信號更能反映語音的本質特征。最常用的前端處理有端點檢測和語音增強。端點檢測是指在語音信號中將語音和非語音信號時段區分開來,準確地確定出語音信號的起始點。經過端點檢測后,后續處理就可以只對語音信號進行,這對提高模型的精確度和識別正確率有重要作用。語音增強的主要任務就是消除環境噪聲對語音的影響。目前通用的方法是采用維納濾波,該方法在噪聲較大的情況下效果好于其他濾波器。
在特征提取階段,一般是把語音信號切分成幾十毫秒的幀,對每一幀提取一個特征向量。但這樣會丟失幀與幀之間的聯接信息,無法反映幀之間的變化過程,因此,還應該加上向量的一階差分和二階差分(相當于連續函數中的一階導數和二階導數)共同構成特征。
如上文所述,目前主流的語音識別系統大多基于統計模式識別原理,其基礎是由聲學模型和語言模型共同構成的統計模型。
聲學模型是識別系統的底層模型,其目標是通過模型度量,尋找語音特征向量序列對應的發音。當前常用的聲學模型是隱馬爾可夫模型(HMM)。HMM模型可以看成一個雙重隨機過程,一個馬爾可夫鏈的各個狀態可以產生出各種輸出。這種機制較合理地模仿了人類語言活動的過程,對孤立詞和連續語音識別來說都是較理想的聲學模型。
語言模型的作用是通過提供字或詞之間的上下文信息和語義信息。對于大詞匯量連續語音識別,語言模型是必不可少的關鍵模塊之一。目前比較成熟的方法是統計語言模型,當前的主流方法是N元文法(N-gram),其主要思想是根據已知前(N-1)個字或詞,預測第N個字或詞出現的概率。由于訓練語料的限制,目前主要采用三元語法。
訓練統計模型
對于統計模型,要想使得它能夠識別語音,必須對模型進行訓練。所謂訓練,是指對大量的訓練語料進行統計和處理,計算和調整模型的參數,使模型對未訓練過的數據也能達到理想的識別結果。語音識別系統的訓練主要包括聲學模型的訓練和語言模型的訓練。對于廣泛采用的HMM聲學模型,其訓練主要是獲取HMM中的狀態轉移概率、各狀態的輸出概率分布等參數。常用的方法是基于最大似然估計原理的迭代算法(如Baum-Welch算法)。對于基于三元文法的語言模型,其訓練主要是從大量的文本中計算三元組的概率。
當模型訓練好以后,就可以進行識別了。語音識別算法的主要思路是在侯選的詞串中搜索使聲學模型和語言模型的概率乘積最大的詞串。因此,識別過程也常稱作搜索(Search)或解碼(Decoding)。當前常用的搜索算法是Viterbi算法,其本質是一種動態規劃方法。
當前的語音識別系統大都是說話人無關(Speaker Independent)系統,即事先并不知道要識別的語音的說話人特征。但是,對于某個說話人,如果能夠適當學習他(她)的發音特點,調整模型參數,顯然會使得識別效果更好。這就是說話人自適應的主要原理。所謂說話人自適應,是指對大訓練集上得到的模型參數進行調整,使之對當前說話人產生更好地識別效果。可以說,說話人自適應實際上是希望通過少量數據的增強訓練(即所謂的自適應過程),使非特定人系統接近特定人系統的性能。常用的說話人自適應方法主要有兩種: 最大后驗概率(MAP)方法和最大似然線性回歸(MLLR)方法。MPA算法采用基于最大后驗概率準則,具有理論上的最優性,因此在小詞表的語音識別任務中具有相當好的性能。其缺點是對大詞匯量的任務自適應速度緩慢,無法滿足應用的要求。因此,當前的大詞匯量連續語音識別系統大多采用MLLR方法,或將MAP與MLLR結合。從評測結果來看,如果有充分的時間調整說話人自適應模型,連續語音識別中的字錯誤率可以下降1至4個百分點。
從幾年來各參評系統采用的主要技術來看,當前語音識別系統中的技術嚴重趨同。幾乎所有的參評系統都采用上述框架和基本模塊,區別主要在于模塊內部的細化程度,或者把某模塊中的幾種技術做些組合。例如,采用不同的前端處理方法,對男女聲和有無噪聲的語音分類處理,以及同時采用多種聲學特征和不同的搜索策略構造多個識別子系統,最后對各子系統的識別結果做一種類似投票的表決(ROVER技術),得到最終識別結果。
由于863語音識別評測并不限制訓練數據的使用,各單位可以使用自備的所有數據。因此,從評測結果及各單位的研討中可以看到,訓練數據的數量和質量對系統的性能有很大的影響。為了使評測更公平,2005年的評測中提供了一定量的統一訓練集,但規模還較小。在以后的評測中,將考慮提供大量的訓練集,希望能夠避免因訓練數據不同而造成的性能差異。
863計劃中語音識別評測
從2003年起,中國科學院計算技術研究所連續三年承辦863計劃中文信息處理與智能人機接口技術評測,語音識別評測始終是其中的一個主要分項。三年間,863語音識別評測受到了國內外語音識別研究者的關注,參加單位數逐年遞增,成為國內語音識別領域最高級別的交流平臺,在國際上也具備了相當的影響力。
2003年和2004年度語音識別評測采用現場評測方式,即各參評系統的運行在評測現場同時進行。這種組織形式比較嚴格,一旦參評系統運行出現故障將無法繼續。而且,要求所有參評單位必須到場,其成本也較高。為了避免這些問題,2005年的863評測采用目前國際通用的網上評測的方法,即在網上數據,各參評單位在自己的運行環境上運行參評系統后將識別結果通過網絡提交給評測單位。
863語音識別評測最大的特色在于測試數據的選取。文本語料的選取采用從大規模原始語料庫中篩選的方法,充分考慮到了對各種韻律學特征(音節、二音子、三音子、音連關系等)、語法特征(句型和句法結構等)和各種領域、各種文體(散文、小說、實事新聞等)的覆蓋。錄音時不是采用實驗室加噪聲,而是在完全真實的場景中錄制數據,并且充分考慮到了說話人、信噪比等因素的覆蓋,在實驗的基礎上提出了真實環境中信噪比的分布模型,并在此模型的指導下錄制數據。這種以實驗和理論為依據、以算法為支撐,控制各種語音屬性,從而最大限度地擬合真實應用的數據采集方法,在國際上也是很有特色的。目前國際上的同類評測,錄音場景多為實驗室,對各種影響因素一般只做寬泛的覆蓋,幾乎沒有按理論模型控制的方法。
863語音識別評測的另一個特點是對結果做了充分的統計分析。目前的國際評測一般除給出相應的指標外,還會做一些統計分析,而之前的國內評測卻很少這么做。從2004年開始,863語音識別評測也開始對結果進行統計分析,而在2005年的評測中,更是采用專業統計學方法,采用實驗設計、假設檢驗、回歸分析、方差分析、協方差分析等一系方法對結果及影響結果的因素進行了深入分析,對各評測單位認清自己系統的優勢和缺點,進一步改進起到了很大作用。
另外,在電話連續語音關鍵詞識別評測中,在2004年嘗試了以語義槽為單位的基于語法關鍵詞識別任務和評測指標,在2005年首次使用了兩個說話人一起錄制的自然對話語音,更加符合真實應用的特點,這在國際同類評測中都是沒有的。
從評測結果看語音識別技術現狀
863語音識別評測,包括PC、電話、嵌入式設備三個語音通道,涉及聽寫機、對話查詢、命令詞識別等多種任務,基本上涵蓋了當前語音識別的主要研究和應用方向。而參評的又大都是國內長期進行該項研究、有較高水平的單位和系統,因此,無論是采用的方法還是識別的效果,本次評測都可以真實反映出國內語音識別技術的現狀。這里結合2004年的評測,對評測結果進行分析。之所以選擇2004年的評測結果,是因為它的評測分項最全,幾乎覆蓋了語音識別的各種應用。
1. 識別結果的評價
評測的主要目標就是通過對識別結果的評價、分析了解參評系統的性能的和語音技術的現狀。因此,制訂有效的、能夠真實反映出系統性能的評價指標也是很重要的研究任務。
對于大詞匯量連續語音識別來說,國際上通用的指標是文字錯誤率(對于英語,文字指單詞; 對于漢語,文字指字,下同)。其基本思想為采用動態規劃算法將標準答案與識別結果對齊,以得到“正確文字數”、“替換文字數”、“插入文字數”、“刪除文字數”四項參數,然后計算文字錯誤率。
錯誤文字數 = 替換 + 插入 + 刪除文字數
文字錯誤率 = 錯誤文字數 / 原文答案文字數
下面給出一個例子:
LAB: 新 增 四 百 萬 千 瓦 時 的 強 大 電 流 輸 入 云 南 的 電 網
REC: 新 增 四 百 花 錢 忙 時 的 槍 打 電 流 于 樹 綠 云 南 電 網
C C C C N N N C C N N C C I N N C C D C C
其中,LAB是標準答案,REC是識別結果,上面的格式是根據編輯距離最小對齊的結果,第三行標記了各類文字,C表示正確文字,N表示替換文字,I表示插入文字,D表示刪除文字。
2004年863語音識別評測中的電話連續語音識別評測分項采用的主要指標是語義槽識別正確率,即用語料文本解析得到的標準答案和識別結果相比較,完全匹配的槽認為是識別正確的,定義槽識別正確率為:
槽識別正確率 = 正確識別的槽的個數 / 標準答案中槽的總數
對于嵌入式設備命令詞識別,由于是孤立詞識別,因此采用命令詞識別正確率即可:
命令詞識別正確率 = 正確識別的命令詞數 / 命令詞總數
2. 識別系統性能
對各系統給出的識別結果計算上述指標,得到對各系統識別性能的評價。表1給出了每個分項中識別效果最好的系統的指標,以及前三名系統的平均指標。為了統一,將電話連續語音識別中的槽識別正確率和嵌入式設備命令詞識別中的命令詞識別正確率統稱為正確率。對桌面(這里指PC,以下同)連續語音識別,采用文字正確率,定義為(目前研究者對文字正確率定義稍有不同,本文中一律以下面的定義為準):
文字正確率 = 1 - 文字錯誤率
表中的最高正確率基本可以代表該分項的最高水平,前三名的正確率均值可以一定程度上反映該分項的平均水平,而前三名正確率的方差可以反映該分項中各系統的性能差異程度。
從表中可以看到,桌面連續語音識別分項中,漢語的識別效果遠遠好于英語(文字正確率最多相差20個百分點)。其原因顯然在于國內對漢語語音識別的研究比英語多而且深入。另外,英語訓練語料的相對缺乏,也是一個重要原因。
在采用了語法限制的語義槽識別任務和槽識別正確率作為評測指標后,電話連續語音的槽識別正確率較低。事實上,由于電話語音的錄制環境為辦公室環境,其噪音比桌面語音要小得多,所以正確率較低的原因主要在于對語法的處理和槽識別正確率較低。
嵌入式設備命令詞識別的正確率與桌面語音字正確率大致相當。一方面,連續語音識別要比孤立詞識別困難,另一方面,嵌入式設備的語音通道和計算資源都比PC差得多,從結果可以看出,這兩方面的因素基本抵消。
從各分項前三名的正確率方差可以看出,漢語桌面連續語音識別和嵌入式設備命令詞分項中各系統的性能差異較小,而英語桌面連續語音識別,特別是一倍實時任務中各系統性能差異較大。這是因為當前語音識別的研究重點在于前者,研究者較多,研究也比較深入,而英語的識別相對來說研究者較少。
3. 影響系統識別性能的因素
從上面的識別結果評價可以看出,對真實噪音環境下錄制的語音數據,當前的語音識別系統識別正確率偏低,還很難達到實用。
從語音識別產生以來,噪音一直是影響識別效果的主要因素。為了分析噪音對識別的影響,將評測數據按信噪比(SNR)分段,從參評系統選取三個,分別計算其在各段內的識別正確率,可以看出,識別正確率基本上隨著SNR的增大而提高,SNR在20dB以上的數據正確率比SNR在5~10dB的數據高近30個百分點。對桌面連續語音識別的其他分項和嵌入式命令詞識別的結果分析也得到類似的結果。
對于電話連續語音識別來說,由于錄制環境是辦公室真實環境,因此噪音并不是影響性能的主要因素。電話連續語音識別分為5個子領域,每個子領域各有一套語法。評測句子由語法生成的有效成分在前后加上任意長的填充詞(filler)構成,如語法生成的句子為“從天安門到中關村怎么坐公交車”,而實際錄制的句子是“你好,請問從天安門到中關村怎么坐公交車,可以查到嗎?”,其中的“你好,請問”和“可以查到嗎”就是filler。由分析可以發現,不同領域內的槽識別正確率相差很大。這主要有兩個原因,一是不同領域的語法復雜度不同,二是不同領域內有filler的句子所占比例不同。為了進一步衡量filler對識別的影響,選取三個識別系統,將有filler的句子和沒有filler的句子分別計算識別率,統計結果如圖2所示。從圖中可以看出,filler對識別的影響是相當大的,無filler的句子比有filler的句子識別正確率可以高幾十個百分點。
語音識別技術的應用非常廣泛,可應用在運營商、呼叫中心、汽車、GPS導航等凡是需要輸入文字、但又不方便輸入,只能用語音代替文字的地方。因此,語音識別技術被很多專家認為是下一代通信技術,具有廣闊的市場前景。但由于語音識別技術難度非常大,語音識別率不高,讓很多人不喜歡使用,因此,目前應用并沒有想象中那么大,市場也沒有預期中的爆炸式發展。那么,目前全球的語音識別技術究竟發展到什么程度了呢?
5月22日,在全球語音識別市場占據80%以上市場份額的語音識別技術和產品供應商Nuance通信公司在北京舉辦了一場語音企業解決方案高峰會。會上,Nuance公司展示了最新的語音識別技術以及各種成功應用案例,令人驚嘆語音技術的發展速度之快。
據Nuance大中華區總經理鄭裕慶介紹,目前,Nuance已經在全球部署了3000多個基于語音識別技術的解決方案,客戶范圍覆蓋移動運營商、汽車制造商、醫院、移動電話等各個行業。在金融領域,Nuance 擁有超過500家金融客戶,其中包括 Wells Fargo、美國銀行、花旗銀行、德意志銀行、匯豐銀行、友邦保險、安聯保險、美林證券等;而電信行業,全球前15大電信公司有超過10家為 Nuance 用戶,其中包括英國電信、Verizon、Vodafone、Cingular 等,另外還包括電視購物、航空、醫藥、汽車、科技企業等數千家企業,在全球《財富》100強企業中有三分之二為 Nuance 的用戶。
“Nuance在語音識別技術上具備1000項專利權、可識別全球50多種語言,包括方言,采用我們的語音輸入技術,其速度比99%的人的打字速度都快,且準確率非常高。”鄭裕慶說。“我們擁有全球最大的客戶交互解決方案顧問及系統整合團隊,通過領先的語音及文字技術,可為企業量身定做各種客戶關懷方案。”他舉例:Nuance為中國移動、中國聯通、中國電信提供的個性化語音識別應用,就讓這三家運營商對客戶的關懷達到一個新高度。中國移動和中國聯通的客戶在下載彩鈴時,只需撥打特服號碼,并根據提示直接用語音說出想要的歌名或歌手名,系統就會聽懂你的話并搜索出你想要的鈴聲,這極大地解決了人們搜索自己喜愛歌曲的難度。中國電信的用戶則可以利用該技術,有效接通只記得人名、不記得號碼的人,在中國電信的號碼百事通和商務領航品牌上的個人通信助理中,人們可以將自己的個人電話簿通過多種途徑上傳到運營商的服務器,使用時只需要撥通縮位特服號碼后直接說出要找的人名,系統就會自動幫你接通電話。使用過程中,用戶還可隨時用語音方式添加或修改個人電話簿。
“客戶關懷”實際上是Nuance公司的一個語音識別解決方案的名稱,通過為企業定制這一方案,越來越多的企業在其客服中開始采用語音識別技術。
技術為王。百度與微軟雙雄鼎立
去年10月中旬,微軟人工智能與研究部門的一個研究者和工程師團隊報告出他們的語音識別系統實現了和專業速錄員相同甚至更低的誤字率(word error rate,簡稱WER),降到了5.9%,而一個月前這一數字還是6.3%。微軟首席語音工程師黃學東表示,“我們已經達到了人類水平,這是一項歷史性的成就。”
有意思的是,百度首席科學家吳恩達(Andrew Ng)立即在Twitter上表示祝賀,并毫不掩飾地擺出了百度的戰績,“在2015年我們就超越了人類水平的漢語識別;很高興看到微軟在不到一年之后讓英語也達到了這一步。”時隔一年,百度和微軟兩大人工智能科技巨頭先后分別在漢語和英語語音識別研究方面取得了超越人類的成果,轟動業界。
近年來,隨著數據量的豐富和計算能力的提升,語音識別行業迅速崛起。據統計,僅美國至少就有26家公司在開發語音識別技術。
2015年之前,Nuance是當之無愧的全球語音領域老大。隨著Google、微軟和蘋果都選擇自己建立團隊開發語音業務,在此之后,Nuance的市場份額節節下跌,2014年還高達60%的市場份額,一年過去只剩下31.1%。相比之下,Google語音識別的市場份額增長明顯,逐漸占據了英語領域的主導權。
盡管Google、微軟和蘋果這些巨頭在語音識別技術上的技術積累和先發優勢讓后來者似乎難望其項背,但因為一些政策和市場方面的原因,這些巨頭的語音識別主要偏向于英語,這給中國互聯網企業在中文領域崛起提供了機會,百度就是其中的佼佼者。百度收集了大量中文(尤其是普通話)的音頻數據,這給其Deep Speech 2技術成果提供了基本的數據優勢。
事實上,在當前的發展脈絡下,語音識別的準確率和通用性的本質就在于三個方面:數據量的多少、算法的優劣和計算能力的水平。在這三個方面的比拼中,互聯網巨頭擁有很大的優勢,因為它們擁有最多的數據,最頂級的人才以及最強大的計算能力水平。所以當Google開放語音識別API后,在英語語音識別的市場中,Google比Nuance有更大的優勢。而在中文市場中,百度也扮演著和Google在英語市場相似的角色,甚至更為出色。
2015年12月,在Deep Speech 2首次時,吳恩達稱其識別精度已經超越了Google Speech API、wit.ai、微軟的Bing Speech以及蘋果的Dictation至少10個百分點。2016年2月,百度表示Deep Speech 2的短語識別誤字率已經降到了3.7%。
群雄逐鹿,中文領域的生死戰
毫無疑問,微軟和百度的語音識別技術水平都很驚人,但一項技術終究要變成產品和服務才能實現價值,所以在英語語音識別市場占據主導地位的是Google而非微軟。在中文語音識別市場,這方面做得最好的公司莫過于科大訊飛。
Google是最早在全球范圍內大規模使用深度神經網絡的公司,而科大訊飛是中國第一個在商用系統里使用深度神經網絡的公司。2010年,科大訊飛率先將語音輸入功能引入到了手機當中,截至2016年6月,《訊飛輸入法》已經擁有3.6億用戶,活躍用戶更是超過1億人,其中,語音用戶滲透率高達59%。在國內語音行業,科大訊飛已是不折不扣的龍頭企業。而不久之前,《訊飛輸入法》還因在錘子手機會上的驚艷表現備受關注。
在2016年10月18日晚上的錘子手機會上,羅永浩現場展示了科大訊飛97%正確率的語音輸入。一夜之間,科大訊飛幾乎成了所有科技媒體人所討論的話題和關注的焦點。其實,除了錘子手機的Smartisan OS之外,華為、小米和魅族等廠商的語音服務或者輸入法都在使用或曾經使用過科大訊飛的技術。據悉,在未來的三年中,科技巨頭英特爾也將與科大訊飛合作,一起研究機器學習和深度學習項目。
除了科大訊飛,國內在語音識別領域有所建樹的大公司還有不少。在2016年4月中旬舉行的“云棲大會南京峰會”上,阿里云總裁胡曉明率先進行演講,阿里云的“小Ai”機器人全程對胡曉明的語音進行了實時翻譯文字,這也是阿里巴巴第一次對外公布阿里云人工智能的能力。其實,這并非“小Ai”首次展示自己的速記能力。在阿里云2016年年會上,“小Ai”曾打敗了世界中文速記大賽亞軍。阿里云人工智能技術專家陳一寧透露,“在阿里云大數據平臺數加上,智能語音交互產品就是采用的“小Ai”的技術。目前,阿里云還在探討同各類直播平臺的合作,以后所有的直播都能具備實時加字幕功能。
除了阿里云,搜狗也是國內語音識別領域不容忽略的一方諸侯。在去年11月中旬舉行的第三屆世界互聯網大會上,搜狗CEO王小川首秀搜狗“黑科技”――機器同傳,展示了實時機器翻譯技術,將演講嘉賓的中文講話實時語音識別并同步翻譯為英文上屏顯示,引起轟動。這是全球首次基于神經網絡的實時機器翻譯技術在大型活動上的展示,效果可靠、準確率已接近人類同傳翻譯結果。而在近期人工評測中,搜狗機器翻譯在演講、旅游、閑聊和日常口語等領域,采用5分制人工評分能達到4.4分,走向實用化。目前,搜狗語音識別準確率已超過97%,識別速度達到了400字每分鐘。
除了科大訊飛、阿里云和搜狗等互聯網大佬,國內還有不少專注自然語言處理技術的創業公司,如云知聲和思必馳等。云知聲CEO黃偉表示,云知聲的識別準確率已經能達到97%,屬于業內一流水平。相比之下,思必馳做的是語音對話交互技術的整體解決方案,而不是單純的語音識別解決方案。因此在場景應用中,思必馳的系統和科大訊飛的系統多有比較,可相互媲美。
毫無疑問,面對擁有領先優勢的科大訊飛,以及阿里云和搜狗等實力雄厚的互聯網大佬,還有云知聲和思必馳這類不容小覷的創業公司,百度雖然擁有做人的技術和財力,但想在中文語音識別領域獨霸江湖仍有不小的難度。未來難測,深挖場景是必經路
未來5年,語音市場將顯著增長,到2020年,全球語音市場規模預計將達到191.7億美元。語音識別之所以潛力巨大,很大程度上源于它是最便捷的人機交互方式,也是人工智能的重要入口。近年來,國內外互聯網巨頭們都在發力人工智能,雖然各自的側重點不同,但都極為倚靠語音識別技術。畢竟,語音輸入本身只是一個途徑,它最終仍然要和實際操作相結合。
語音識別技術要在現實生活中落地,必須與場景結合,這需要吸納來自各種場景的數據去訓練語音技術,讓其更加智能化。這也是為什么“微軟小冰”每周都要上線新功能,努力刺激用戶貢獻更多聊天數據,而科大訊飛則不斷擴大包括長虹等智能電視在內的合作名單,吸納來自入口級硬件的數據。數據顯示,與訊飛人工智能連接的應用,日均訪問量為30億次。
與科大訊飛相比,百度在海量用戶數據和人工智能技術上的優勢,能讓他們迅速發展出優秀的語音智能。從這個角度來說,百度的發展道路比科大訊飛更寬。在百度生態內部,目前語音技術的落地滲透在《百度地圖》、《手機百度》和《百度輸入法》等產品中。而在外部,截至2016年年中,使用百度語音技術的APP數量超過8萬款,大型合作廠商包括中興、魅族和聯想等。百度語音如今能獲取的數據規模非常龐大,據吳恩達透露,在線識別請求量2016年每天達到1.4億次,在線語音合成請求量則達到2億次。
除依靠產品收集用戶數據之外,各大廠商還在積極與數據資源商合作,以更快捷地獲得龐大的數據支撐。隨著這些數據的輸入,每分每秒,人工智能的模型會迅速迭代和升級,就像Google的AlphaGo在每一場棋局的每一步對決中都在學習。
作為底層技術,語音識別未來的發揮空間極大,將廣泛出現在手機、智能家居、醫療、教育和司法等各種場景。當然,這還有很長的一段路要走,想要在這條路上脫穎而出的公司,―方面要面對同行的生死競爭,另―方面還需努力解決語音識別技術仍然存在的一些瓶頸。
關鍵詞:語音識別;LD3320;STM32F407;W25Q128
隨著科技的發展,人們的操作模式從最初的按鍵操作到觸屏操作,再到現在的語音操作,其越來越便捷,越來越人性化。語音操作的基礎就是語音識別技術(Automatic Speech Recognition),簡稱ASR,其目標就將人類語言轉換為計算機可讀的輸入。語音識別作為一門交叉學科,從產生到現在已取得了顯著的進步,現在已逐步走向市場,并且人們預計,語音識別技術在未來10年將會應用于人們生活的各個領域。
根據發音人的不同,語音識別技術可分為特定人語音識別和非特定人語音識別兩類,前者只能識別一個或幾個人的語音,而后者則能被任何人使用。本文設計的多鼉壩鏌羰侗鶼低塵褪粲詵翹囟ㄈ擻鏌羰侗鷲庖煥啵其以嵌入式微處理器STM32F407為核心,采用ICRoute公司的LD3320語音識別芯片,并配以存儲空間為16M字節的W25Q128芯片,能夠實現2000個場景共計識別句100000條的語音識別操作。
1 系統整體結構
如圖1所示,整個系統主要是由STM32F407處理器、LD3320語音識別芯片以及W25Q128Flash芯片構成。其中STM32F407處理器用于切換場景和場景關鍵詞更改;LD3320語音識別芯片用于語音識別,W25Q128Flash芯片用于存識別句,兩種都是通過SPI總線與處理器相連。整套系統與外部其他系統則是通過串口進行通信。
2 系統硬件介紹及存儲空間設計
2.1 系統硬件介紹
2.1.1 STM32F407ZGT6處理器
STM32F407ZGT6采用Cortex_M4內核,集成FPU和DSP指令,具有192KB SRAM、1024KB FLASH、3個SPI、6個串口等。基于其強大的配置,所以本系統的處理器選用該芯片。
2.1.2 LD3320語音識別模塊
LD3320語音識別模塊是ICRoute公司的一款產品,其特有的快速而穩定的優化算法,能夠完成非特定人語音識別,識別準確率高達95%。該模塊每次最多可以設置50條候選識別詞或識別句,只要單個詞或句長度不超過10個漢字和79字節的拼音串,同時我們可以對識別內容動態編輯。模塊的通訊方式有并行和串行兩種,根據需求的不同可以選擇不同的通訊方式。除了語音識別這一功能之外,模塊還支持MP3播放功能,只要MCU將MP3數據依次送入芯片,就能夠從芯片的PIN引腳輸出聲音。
2.1.3 W25Q128Flash芯片
W25Q128是華邦公司推出的大容量SPIFLASH產品,容量為128Mbit,即16M。該芯片將16M空間分為256塊,每塊64KB,每塊又分為16個扇區,每個扇區4KB。由于W25Q128的最小擦除單位為一扇區,也就是說每次擦除4KB。
2.2 存儲空間設計
由于W25Q128芯片每次擦除的單位為4KB,而每句識別語句至少有80字節,一個場景有50句識別語句,所以一個扇區用于一個場景是不夠的,因此我們將兩個扇區劃為一個場景;圖2是單個場景數據存儲關系圖,圖中每個場景占8192字節,每條識別語句占100個字節,其中第一個字節為識別語句編號,范圍為1-50;單個場景的第一個扇區可以存儲40條識別語句,第二個扇區可以存儲10條識別語句,其中第4000B-4096B和5096B-8190B保留,不存儲數據,整個場景的最后兩個字節用于存儲場景編號,范圍為1-2000。W25Q128共有4096個扇區,理論上可以劃分2048個場景,但是我們只劃分2000個場景,也就是4000個扇區;還剩下96個扇區,剩下的第1-50扇區用于存放每個場景的相關信息,計算可以得到每個場景有1KB的存儲空間,然后我們將最后一個扇區的最后兩個字節存儲現在所在場景編號,剩下的空間保留。
3 系統軟件設計
3.1 通訊協議格式設置
整個系統主要具有場景切換和場景識別語句存取功能,表1是部分對應協議格式。
3.2 初始化函數及操作函數介紹
STM32處理器與其他各個模塊建立通信連接,除了連接好對應IO口后,還需要對各個IO進行初始化,這樣才能進行數據的收發,以下是主函數中相關初始化函數:
NVIC_PriorityGroupConfig(NVIC_PriorityGroup_2);//首先設置系統中斷優先級分組
delay_init(168); //初始化延時函數
LED_Init();//指示燈初始化
KEY_Init();//按鍵初始化
IWDOG_Init();//看門狗初始化
USART1_Init(9600);//初始化串口1
W25QXX_Init();//W25Q128初始化
LD3320_Init();//LD3320初始化
while(W25QXX_ReadID()!=W25Q128) //檢測是否存在W25Q128
{
LED0=!LED0; //如果檢測不到W25Q128指示燈1會不停閃爍
}
關鍵詞:智能;語音遙控系統;語音識別
所謂語音識別技術指的是設備經過識別過程以及理解環節將用戶聲音信號轉換成對應的命令信號或是文本信息的一類高新技術[1]。近年來,語音識別不斷被運用在科研領域事業,使得語音識別技術不斷得到完善、成熟,而語音識別技術在日常生活中的應用具有很大的發展空間,為人們的日常工作、生活提供了很大的便利。
1 語音系統工作原理簡單介紹
系統通過向使用者提供一定的語音命令學習以及識別功能,使用者事先針對家電設備的遙控語音信號以及紅外或RF無線信號完成配對學習以及存儲操作。控制臺在進行運作中,語音系統利用輸入進來的語音信號來完成命令識別,按照識別所得結果來進行動作查找,查找位置為內部結構的動作庫,然后通過指定的紅外或RF無線信號輸出通道輸出配對精確的控制信號,再對各種家電設備實行遙控,從而實現語音系統控制臺的功能作用。
2 語音識別系統中簡單命令菜單分析
這個命令菜單主要包括:讀取命令、刪除命令以及添加命令三個不同內容。使用者可以按照實際需要來選擇命令,其中Cancel鍵可以返回上級菜單命令,現主要分析刪除和添加命令。
2.1 分析刪除命令
這個命令的操作較簡單,使用者需要將待刪除命令的相關口令輸入進去并按下OK鍵就能完成。這一過程中若系統尋找到對應的命令內容就會出現“刪除成功”提示,否則系統就會提示“刪除失敗”信息。
2.2 分析添加命令
首先實現一個新命令的添加操作包括:口令錄入以及紅外線信號錄入。使用者可以通過麥克風設備進行多次口令錄入操作,而系統會顯示已經完成錄入的口令內容,例如:關閉空調、開空調等。除此之外,使用者也應使該遙控系統記錄好與該口令內容相對的紅外線信號,在紅外線遙控器中按下關閉按鈕。完成這兩個操作內容,新命令內容就添加成功完成了。
3 語音識別系統中的關鍵技術介紹
3.1 語音識別技術
整個系統結構的核心內容是語音識別技術,大部分系統功能均可以通過語音識別系統來幫助推動各系統運作[2]。而語音識別模塊設計質量以及運行有效性會對整個系統功能運行情況產生重要影響。該系統設計工作包括很多學科內容以及很多技術難點,并且一個企業在短期內自行投入資金研究語音識別相關技術算法要花費很多費用,這種做法不現實。可以在已有語音識別系統基礎上,采用該系統的API來實現系統功能。在進行研發過程中,可以選用SAPI15.0來充當技術研發平臺。其中,SAPISDK產品是微軟公司開發的一個語音應用方面的開發工具包,該工具包中包括有SAPI、語音合成引擎以及語音識別引擎等。而SAPI內容中含有訓練導向、語音識別管理、資源以及語法編譯等設計接口。
其中,語音引擎可以通過SAPI和DDI層實現交互工作,而應用程序可以通過這兩個接口來實現通信。熟悉使用API,可以使設計者更好、更快的實現語音識別應用系統。為了提高系統底層結構能力,可以在系統中增加命令列表識別以及語音模糊化功能。前者是采用SAPIA所具有的語法構造能力,而構造僅會識別特定命令列表內容的一種識別設備。其中語音模糊化是通過采用某一個算法程序把一個精確的漢子變化為一個讀音信息從而實現模糊匹配。
3.2 2.4G無線通信技術
隨著無線通信技術的發展,2.4G無線通信技術日益受到重視和使用,原因有三:首先它是一個全球性的頻段,開發的產品具有全球通用性;其次,它整體的頻寬勝于其他ISM頻段,這就提高了整體數據傳輸速率,允許系統共存;第三就是產品尺寸,2.4GHz通信芯片和天線的體積相當小。
2.4G無線技術采用全雙工模式傳輸,傳送速率高達2 Mbps,抗干擾性能比之前的315、433、868、915MHz有絕對的優勢;對于較大容量的數據傳輸更具吸引力,如雙向語音傳輸、光標控制、游戲手柄等功能。
2.4G無線通信技術中常用的芯片有挪威Nordic公司的nRF24LE1無線芯片模組、以色列RFWave公司的RFW102無線芯片模組等。例如根據設計需求、性能及成本估算,可以采用nRF24LE1和nRF24LU1+作為處理主芯片進行數據傳輸。nRF24LE1用作每個節點的收發主控芯片,其內部有增強型的8051 MCU和內嵌2.4G低功耗無線收發內核nRF24L01P兩個部分,傳輸速率最高達到2 Mbps,保證大容量數據的無線快速傳輸。MCU和無線收發內核之間通過SPI接口進行通信。
4 結語
綜上所述,智能家庭語音識別系統在日常應用過程中不僅方便,而且其軟硬件還具有較大范圍的擴張作用。其中搜索引擎與系統相互結合能具備一個功能強大的語音搜索功能。若能深入識別該系統的加密功能,然后對各命令內容實現安全等級劃分,例如幫助禁止一些特定命令內容的使用,幫助識別兒童的聲音,防止兒童啟動電氣設備等。該系統中還可以在硬件設備上進行擴展,比如:通過語音來幫助控制門的開關以及窗簾的伸展和拉緊。
[參考文獻]
語音識別技術成為21世紀“數字時代”的重要開發領域,在計算機的多媒體技術應用和工業自動化控制應用等方面,成果令人屬目。語音識別技術是指用電子裝置來識別某些人的某些特征語音,語音識別的手段一般分為二大類,一類利用在計算機上開發語音識別系統,通過編程軟件達到對語音的識別,另一類采用專門的語音識別芯片來進行簡單的語音識別。利用專門的語音識別芯片應用在地鐵車輛上,具有結構簡單、使用方便,并且語音識別器有較高的可靠性、穩定性的特點,是簡單語音識別在自動控制應用上的一種優先方案。
目前上海地鐵一、二、三、五、六、八號線在車輛信息顯示系統的設計上缺少實用性和操作性,對乘客來講缺少在實時報站時的人性化。如:地鐵車廂內的乘客信息顯示系統和車廂外側的列車信息顯示系統。如果在每個車門的上方安裝車站站名動態顯示地圖,實時顯示與車廂廣播同步的信息,以及在每節車廂外側顯示列車的終點站,良好的工業設計不僅能給廣大的乘客帶來非常大的幫助,而且能夠提升上海地鐵服務的形象。由于在設計以上地鐵列車時,受科技發展的限制。現在上海地鐵4號線在車輛信息顯示系統的設計上滿足了廣大的乘客的需求,
增加了車站站名動態顯示地圖。
如何在現有的地鐵車輛上增加地鐵車廂內的乘客信息顯示系統和車廂外側的列車信息顯示系統,如圖1、2,首先考慮其實用性和性價比,同時安裝、操作要方便,在不影響列車的性能的前提下,完成本乘客信息顯示系統的應用,設計方案的選擇極其重要,目前的乘客信息顯示系統比較復雜,例如:對于應用在某條線路上的聲音識別系統,不僅要修改原語音文件,而且聲音識別器不容易操縱,
對使用者來講仍然存在比較多的問題。對于應用在某條線路上數字傳輸顯示系統,其操作方法不僅給司機帶來了任務,每站需要手動操作二次,同時顯示的相關內容沒有實時性,總之乘客信息顯示系統比較落后。
設計一種符合現代化要求的乘客信息顯示系統是非常必要。
2.設計
地鐵車輛乘客信息顯示系統的設計,采用CMOS語音識別大規模集成電路,識別響應時間小于300 ms。HM2007芯片采用單片結構,如圖3。將語音識別需要的全部電路:CPU、A/D、ROM、語音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內,這樣外圍電路就非常少,外接64K非易失性SRAM,最多能識別40個車站站名語音(字長0.9秒),或(字長1.92秒)但識別僅20個車站站名語音。按正常人的講話速度,0.9秒一般每秒吐字1到3個為宜。
針對目前上海地鐵列車在車廂內外無LED動態站名顯示而設計,通過將列車車廂廣播的模擬信號轉換成數字信號,自動控制LED發光二極管,在列車在車廂內使得廣播的內容(每個車站站名)與發光二極管顯示面板聲光同步,將顯示面板放置地鐵車輛的每扇車門上方,并且顯示面板以地鐵運營線路為背景,達到列車進站和出站時能分別指示。在列車車廂外讓乘客非常直觀地、一目了然地了解車輛的終點站方向,從而方便乘客的上下車,提高了地鐵服務水平。在國外的地鐵列車上應用已相當普遍。
語音識別顯示器①的輸入端與車載廣播功放器相連接,實現廣播模擬信號發出的語音進行車站名的自動識別。不需要編程技術和修改文件等方法,全部采用硬件方法設計。整個系統分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語言識別部分;(4)執行顯示部分;(5)錄音功能部分。
(1)輸入控制部分:
通過麥克風或(結合器)連接,如圖4所示,要求模擬語音輸入點的電壓必須控制在大約20mv左右,以確保后期語音識別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號轉變成數字方波信號,對語音輸入進行開關量的控制,確保在T
(2)語音識別部分:
利用語音識別芯片HM2007和外接6264SRAM存儲器組成為主要部分,(HM2007中ROM已經固化了語音語法技術)對語音的存儲及語音語法算法進行控制。HM2007的詳細內容見產品說明書。
(3)噪音濾波部分:
濾波功能是自動識別(阻擋)我們在設計階段設計好的各個工況的語音情況,例如:司機的講話及車輛雜音等(在麥克風的工況下),以確保輸入語音的可靠性、穩定性,特采用UM3758串行編譯碼一體化進行濾波電路。如圖5。
(4)執行顯示部分:
將車廂廣播喇叭的模擬信息通過語音識別器轉變成數字信息,最終經過譯碼電路、4/16多路數據選擇器及RS485接口,去控制車廂內車門上十個LED顯示面板,如圖6。
(5)錄音功能部分:
在進行廣播內容更改時,本項目最大的特點是:不需要任何手段的手工軟件編程的修改,而是通過遠程音頻電路控制技術進行按動相關按鈕,選擇地址然后自動錄入內容,如圖6。
3. 結論
語音識別器及LED顯示面板的設計,能應用到以前沒有LED顯示面功能的地鐵車輛上,與其他所設計的方式相比較,語音識別控制簡單、可靠性好、安裝方便、相對投資最小和不改動車廂內任何電器為特點,僅提供110VDC電源和音頻輸入接口。
本項目的開發具有一定社會效益,得到國內外乘客和殘疾人員的歡迎,提高了地鐵服務質量。
參考文獻:
1. HUALON MICRELECTRONICS CORPORATION TIWAN
PRODUCT NUMBER: HM2007
2. 555集成電路實用大全
上海科技普及出版社
3.①獲得“2003年上海市優秀發明選拔賽三等獎”
4.①編入《中國科技發展精典文庫》第四輯
關鍵詞:機器人;語音識別;端點檢測;語音合成
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2011)30-7498-03
Intelligent Voice of the Robot Design and Implementation
GUAN Hong, ZHANG Shuai, LEI Hong-le
(Shandong University of Science and Technology, Qingdao 266510, China)
Abstract: Introduces the overall design of the intelligent voice robot, including hardware design and software design, this paper analyzes the methods of speech recognition, the process of speech recognition, and speech synthesis process, introduces the method of Endpoint detection of speech recognition ,and test results are given.
Key words: robot; speech recognition; endpoint detection; speech synthesis
語音識別技術是通過機器人的理解和識別將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如文本或者命令,是一種多維模式識別和智能計算機接口的范疇。語音識別技術主要包括模式匹配準則、特征提取技術、及模型訓練技術3個方面,所涉及的領域很廣泛,包括模式識別、信號處理等。
讓機器人能夠聽懂人類的語言并且能夠按照人的口頭命令行動,從而實現人際交往一直以來都是人類的夢想,本文所研究的機器人語音識別,對于服務機器人的應用領域具有重要的現實意義。
1 機器人整體設計
整個系統采用CPU作為核心控制,外加音頻輸入輸出模塊、視頻輸入輸出模塊、觸屏模塊、顯示模塊、電源模塊和電機驅動模塊。
運動模塊主要由一系列電機驅動器組成,通過CAN總線與CPU進行通信,音頻模塊用來采集音頻信息,視頻模塊用來采集視頻圖像信息,觸屏模塊和顯示模塊為機器人提供了良好的人機交互方式。各個部分的相互關系如圖1所示。
1.1 機器人的硬件設計
機械動作模塊(即硬件設計)包括左右手、左右肘、左右肩、腰部、頭部的直流電機控制器,配合語音能夠完成“握手”、“再見”、“兩手自然交叉,放在腹前”等等正式的迎賓動作及舞蹈表演,機械動作模塊通過CAN總線通信模塊與主控器聯系。機械動作模塊關系如圖2所示。
1.2 機器人的軟件設計
該機器人的實現其全部功能的過程就是整個軟件的實現過程,系統軟件設計的基本流程,如圖3。
2 語音識別和端點檢測的實現
語音識別系統本質上是一種多維模式識別系統,語音識別主要包括預處理、特征提取、模式匹配三個部分。語音識別系統中最基本的模塊就是語音端點檢測,從一段語音信號中找出語音的終點和起點,使得計算機只處理和保存有用的語音信號。
2.1 端點檢測
端點檢測(end-pointer detection)是將語音數據(speech)從背景噪聲中分離出來的一項技術,主要應用于語音識別領域,可以很大程度地降低識別器的運算量,從而能有效地提高識別效率以及識別效果。下面描述兩級判別法定義和檢測方法:
1)短時能量
語音端點檢測一般是按照幀進行處理,每幀的長度各不相等。每個語音幀的短時平均能量En為:
其中Wγ為幀長,Sw(n)為時刻n的加窗語音,但為了節約時間,減少計算量,而是采用每個點上幅度值的絕對值之和作為短時能量值:
。
2)短時平均過零率
每個語音幀的短時平均過零率Zn為:
,其中是符號函數。
3)兩級判別法
兩級判別法是利用語音的短時能量和平均過零率的性質進行的端口檢測的,其步驟可以歸結為:
A.定閾值
預先設定閾值Eh、El、Zth,其中Eh、El分別為高、低能量閾值,Zth為過零率閾值。由于采集的聲音信號中最初的短時段多為無聲或背景噪音,這樣就可以利用已知為“靜態”的最初幾幀信號計算其過零率閾值Zth以及高、低能量閾值Eh、El。
在計算Eh、El、Zth時,每一幀的時間選取為20ms,并設定語音的前10幀為靜音階段,通過這10幀計算出Eh、El、Zth的值。
前10幀短時能量最高的幀的短時能量為Emax、最低的為Emin、平均能量為Z、前10幀的能量的方差為F。
B.尋找語音的起始點和終止點
首先用時平均幅值進行第一次判別,然后在此基礎上用短時平均過零率進行第二次判。在用短時能量進行第一次判別時,為了不會將語音能量的局部下降點錯誤地作起止點,常采用雙門限比較的方法。
圖5為平均幅值(能量)一過零率的端點檢測判決示意圖。首先根據語音時能量En的輪廓先取一個較高的門限Eh,語音短時能量大多數情況下都在此限之上。這樣可以進行一次粗判:語音起止點位于該門限與短時能量包絡交點對應的時間間隔之外(即AB段之外)。然后,根據背景噪聲的平均能量確定一較低的門限El,并從A點往左、B點往右搜索,分別找到短時能量包絡第一次門限El相交的兩個點:c和D,CD段就是采用雙門限方法根據短時平均幅值所判定的語音段。以上只是完成了第一級判決。
接著要進行第二級判決,這次是以短時平均過零率Zth。為標準,從C點往左D點往右搜索,找到短時平均過零率第一次低于某個門限Zth點:E和F,這便語音段的起始點。
C.檢測結果
圖6和圖5是對“你又去哪里”這句話的檢測,分別是經過語音端點檢測之后的語音示意圖和原始的語音示意圖。從上面兩個圖上可以看到:通過端點檢測之后的語音,除去了背景語音而且基本上完好的保留了真語音部分。
2.2 語音識別的開發接口
本系統利用語音識別應用開發接口和端點檢測開發接口相結合進行開發,這樣既可以保證開發軟件的識別率,又可以防止噪音的干擾。兩個接口相結合的語音識別開發過程,如圖7。
2.3實驗結果
我們隨機的選擇了5個人對該系統做了測試,長詞語的識別率要比短詞的識別率高,而且該系統可以實現對于整句的識別。結果如表1。
3 語音合成的實現
語音系統采用了科大訊飛的ViviVoice 2.1語音合成系統,系統擁有18個人的音庫,能夠根據實際需要,靈活地選機器人的發音人,可供選擇的分類有男聲和女聲、童音和成年人聲音、普通話和閩南話、中文和英文。語音合成系統的合成引擎在完成文本到語音數據的轉化過程中可以簡單分解為兩個步驟的處理。在整個轉化處理的過程中牽涉到大量的中英文語法和韻律知識的運用,以及語法和語義分析的算法,最佳路徑搜索,單元挑選和 調整的算法,語音數據編碼方面的知識。語音合成技術涵蓋了語音文字的社會科學、數字信號處理等自然科學,是跨學科高新技術。
4 總結
該機器人系統有硬件系統和軟件系統組成。硬件系統包括機器人載體和機械運動,系統的軟件部分由人臉識別模塊、語音識別模塊等組成。主程序模塊實現機器人的全面控制功能,并調用語音模塊和人臉識別模塊等進行人機交互。語音模塊包括語音識別和語音合成功能:語音模塊使用語音識別功能將接收到的語音信號轉換成文本系統,便于系統對用戶聲音指令進行識別和處理,語音識別采用了端點檢測算法能正確地從背景噪音中找出語音的開始和終止;語音模塊使用語音合成功能將文本轉換為音頻信號,使機器人發出語音。在這個系統中還利用了遠程控制,來確保程序的穩定性和可靠性。
參考文獻:
[1] 喬兵,吳慶林,陰玉梅.語音識別算法的VC++實現[M].長春:中國科學院,長春光學精密機械與物理研究所,2011.
[2] 韓玉強.用于家電控制的語音識別方法的研究[D].山東大學,2010.
[3] 肖利君.基于DTW模型的孤立詞語音識別算法實現研究[D].中南大學,2010.
它滿足了人類對于“語音識別”技術的終極幻想。你可以把這位智能管家想象成Siri的未來升級版,它不但能夠完美執行指令,還能根據設備的工作情況甚至主人的心情提出建議。
下面回到現實。Siri眼下能做的最棒的事情,就是幫忙預訂某個酒店房間—諸如此類。不過不用悲觀,還有個好消息是,語音識別已經成為眾多科技公司的優先發展計劃。
2012年3月,一項能夠即時語音翻譯26種語言的技術被微軟研究院推出。與其他語言翻譯產品不同的是,這項技術除了翻譯多種語言之外,輸出的語音還可以模仿說話人的音色和音調,使它們聽起來接近使用者的真實聲音。當然了,現在它聽上去還有些生硬,感彩還不夠豐富。
這項技術的第一步仍然是語音識別,后者正被越來越廣泛的應用在眾多不同的領域。微軟用它來翻譯,在將語音進行識別之后,變成一項名為“跨語言的文語轉換”(Cross-Language Text-to-Speech,簡稱TTS)的技術。使用者只需要預先錄下幾十分鐘的母語作為訓練語音。軟件在進行識別、翻譯之后,就可以模仿說話人的音調和音色將翻譯好的、其他語種的文本說出 來。
此前早已有蘋果Siri,它一度是iPhone 4S手機用戶的最大樂趣之一。另外在Android 4.1系統中,Google Now除了讓用戶實現語音搜索,還包含一個自動填充卡片的功能。當用戶搜索了一個地點、天氣或是航班時間,Google Now會自動建立一個卡片存儲細節,供用戶以后查閱。
人們對于語音識別的迷戀由來已久,甚至在計算機發明之前。早期的聲碼器,可以看作是語音識別技術的雛形。1920年代生產的“Radio Rex”玩具狗是眼下有據可查的最早的語音識別器,當這只狗聽到自己的名字時,它就會從底座上彈出來,嚇人一跳。
作為諸多后繼的復雜應用的第一步,語音識別—讓機器讀懂你在說什么,迄今為止仍然是一個大工程。你甚至也可以把它視為眾多語音類智能應用向前發展的絆腳石之一。
現在語音識別的主流技術,由數據統計模型和算法組成。如果把數據統計模型比喻成一個倉庫的話,那么算法則是一只機械手臂,從倉庫中“抓”出合適的數據進行匹配。算法包括了對數據存放位置的判斷等行為規則。數據越多,模型也就越大。
再簡單一點說,當你說了一句話之后,算法會從數據庫中抓取可能最符合你意思的那句解釋。因此模型中包含的數據越多,通常也就意味著識別能力越強。但問題來了。就像沒有一個倉庫可以存放世界上所有的貨品一樣,沒有一個模型可以解釋所有數據。人們可以說任何話,因此數據變化無窮。
所以你應該不難理解,以往一些初級的語音控制類的應用,比如導航、語音撥號等等,人們要啟動服務必須按照產品手冊的說明,完整地說出固定格式的句子,才能被機器所識別。在這些應用中,數據庫是簡單而又原始的,在識別過程中也沒有太多算法可言,它們只是負責“搬運”。
包括Siri和微軟TTS在內,語音識別被發展到了眼下的第二個階段:它們可以通過一定的規則和算法,將那些事先沒有包含在數據統計模型中的“話”也解釋出來,并且足夠簡單。
要實現這一點,仍然必須要有一個基礎的數據庫。在微軟的TTS技術中,那幾十分鐘的“訓練”,也就成了一種搜集數據建立數據庫的方式。建立數據庫的好處在于,“它不能夠保證你肯定對,但它能夠保證最可能對,或者說可能最好的答案。”微軟亞洲研究院語音組首席研究員和負責人宋謌平對《第一財經周刊》說。
當訓練完成之后,語音識別就變成了一個排序過程。當一段語音被輸入,模型會通過自己的算法,從數據庫中尋找匹配度最大的那一句。各家公司不同的“算法”,以及建立起來的基礎數據庫,成了它們各自在語音識別上的核心技術。
一段話是誰說的并不重要,更重要的是它的文本識別率。按照宋謌平的說法,一般能達到90%以上的識別率,大部分的用戶都可以接受。
要提高準確率,除了數據庫和算法,另一個必須解決的問題就是在噪音環境中更準確地分辨出輸入的語 音。
眼下要解決噪音問題一般通過兩種辦法,一是在訓練素材中包括噪音數據,讓模型“記住”聲音在不同環境下的差異,并在最終識別的時候,對噪音進行降噪處理;另外一種辦法,則是識別同樣噪聲環境里的、沒有經過降噪處理的語言。
在數據庫有可能建立得比較大的情況下,搜集到足夠的噪音數據、并在噪音中進行識別是一種最好的辦法。但現實是,一般意義上的“噪音”太多。比如汽車的引擎、餐廳中的各種聲音,本質上并不相同,但都會對說話人的語音輸入造成干擾。對于手機而言,計算和存儲能力都有限,建立龐大和復雜的模型并不現實,一般會直接使用降噪處理的辦法。
早在1992年,一家名為Nuance的公司就看到了語音識別技術的商機。目前Nuance在美國已經開辟出兩部分主要市場,包括咨詢業務和醫療診斷記錄的聽寫。2011財年,Nuance的營收共計13.18億美元,其中產品銷售及授權收入占比46%,產品的使用人數已有1600 萬。
這家擁有近4000項專利的公司通過提供面向醫療、手機、汽車等企業的語音解決方案盈利。在美國昂貴的人工費用壓力之下,包括美聯航和大部分醫院在內的機構,都開始選擇語音聽寫引擎這樣的識別設備,解決部分客戶服務和書寫病歷的問題。
將默默埋頭賺錢的Nuance推向前臺的正是蘋果。由于Siri使用了Nuance的語音識別引擎,這家公司開始獲得越來越多的曝光。Siri曾在起步階段使用過其他平臺,但最終切換到了Nuance,不知這是否與Siri和Nuance同樣出自斯坦福研究院有關。
曾有傳言蘋果與Nuance進行了幾個月的接觸,試圖收購后者,但因其價值連城的專利,以及“在談判時近乎于喬布斯級別難纏的CEO”,這場收購后來不了了之。蘋果通過引入Nuance的語音識別,再將識別之后的信息與其他“知識和資訊類數據庫”連接,在人機交互領域發起了一場革命。
2011年,通過云端訪問Nuance的語音數據庫的訪問量達到了20億次。眼下,它們也開始進入中國市場,最新版本的Siri將提供包括普通話、廣東話和臺灣地區國語的識別。不過中文與英文的識別引擎完全不同,需要重新開發。
在中國,還沒有形成大規模的語音識別應用市場。國內語音市場占有60%以上份額的是科大訊飛,主要營收也只是來自于語音合成技術。它只是讓電腦“念”出文本,在電信公司和銀行的呼叫中心里較為常用。
微軟創始人比爾·蓋茨曾在2008年預測,五年之內互聯網的搜索大部分將通過語音完成。現在看來,他或許樂觀了一些。即使語音識別技術已經能夠適于應用,真正的人機交互還有待于語音識別的更深層—語義識別技術的發展。
如果從字面上解釋,語義識別的意義在于能讓機器真正明白信息的含義。當機器聽到一個名為“意大利菜”的關鍵詞時,技術優良的語音識別可能會做出搜索意大利菜的反應、或者幫你預訂好常去的餐廳,但語義識別則意味著,它還可能明白意大利菜會有什么樣的口感、或者探知餐廳的氛圍。
語義識別的終極夢想是讓機器完全辨知人類說話的語義和情緒,就像“鋼鐵俠”的那位智能助手一樣。
與發展相對迅速的語音識別不同,現有的語義識別仍然處于基礎階段,是一種機械的識別過程。“這一類的技術基本上還是填空法。”宋謌平說。當機器聽到語音,進行識別之后,會從“語義數據庫”中搜索出與其相匹配的關鍵詞,與人的語義理解還有很大區別。
不過在一些垂直領域,語義識別已經獲得了一定程度的發展和應用。中華英才網的控股公司、美國最大的人力資源網站Monster,最近開始在中國市場推出一種名為6Sense的語義搜索專利技術。它能將求職者的工作經歷、技能、教育背景和所在地區,與目標職位匹配起來,再對他們進行分析、評級和排序,從而提高HR篩選簡歷的效率。在人力資源領域,“甲骨文”意味著那家國際知名的企業軟件公司,而不是中國古代文字。如果僅僅是圍繞在一個特定領域內,系統判斷和識別的難度要小得多。
從長遠來看,語義識別目前還有很多尚未突破的難點。最大的障礙事關情感,機器還沒有辦法理解人類的情感,它們只能通過語音信號的聲學變化去捕捉人類的情緒,比如頻率和時長這樣的參數;此外,因為語言本身的模糊性,識別過程中的關鍵詞抽取也經常出現不準確的現象。
小i機器人的創立者袁輝說,語義識別的下一步發展,需要長期的、系統的平臺去處理每天進來的海量知識和信息,經過長期的集聚,形成工程化的產品,最后才能對知識進行篩選,甚至能夠學習新的知識點。
看起來,“云”或許會是一個解決辦法。因為云服務器可以容納規模足夠大的模型。如果能有一種算法,使這種模型具有學習能力,就可以將用戶的語義在云端服務器中進行分析,再借助網絡將指令和文本回傳。