一级a一级a爱片免费免会员2月|日本成人高清视频A片|国产国产国产国产国产国产国产亚洲|欧美黄片一级aaaaaa|三级片AAA网AAA|国产综合日韩无码xx|中文字幕免费无码|黄色网上看看国外超碰|人人操人人在线观看|无码123区第二区AV天堂

語(yǔ)音識(shí)別技術(shù)

時(shí)間:2023-03-24 15:09:17

導(dǎo)語(yǔ):在語(yǔ)音識(shí)別技術(shù)的撰寫旅程中,學(xué)習(xí)并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領(lǐng)您探索更多的創(chuàng)作可能。

語(yǔ)音識(shí)別技術(shù)

第1篇

【關(guān)鍵詞】外語(yǔ)口語(yǔ)訓(xùn)練 語(yǔ)音識(shí)別技術(shù) 關(guān)鍵技術(shù) 研究

一、引言

隨著我國(guó)外語(yǔ)教學(xué)的不斷發(fā)展,各種外語(yǔ)口語(yǔ)教學(xué)工具與學(xué)習(xí)方法也應(yīng)運(yùn)而生。然而外語(yǔ)口語(yǔ)的學(xué)習(xí)對(duì)于學(xué)習(xí)者而言既是重點(diǎn)也是難點(diǎn),當(dāng)前的計(jì)算機(jī)輔助教學(xué)只是側(cè)重于外語(yǔ)單詞記憶教學(xué)與語(yǔ)法教學(xué),并且因?yàn)橥庹Z(yǔ)口語(yǔ)學(xué)習(xí)者的學(xué)習(xí)水平不一,在學(xué)習(xí)過(guò)程中很難將自己的不正確發(fā)音找出來(lái)。于是,在外語(yǔ)口語(yǔ)學(xué)習(xí)中就可以應(yīng)用語(yǔ)言識(shí)別技術(shù),該系統(tǒng)具備外語(yǔ)口語(yǔ)發(fā)音的糾正功能,學(xué)習(xí)者通過(guò)該系統(tǒng)進(jìn)行外語(yǔ)口語(yǔ)的學(xué)習(xí)與練習(xí),就能糾正自己錯(cuò)誤的發(fā)音,避免因?yàn)槎啻五e(cuò)誤發(fā)音而形成不良習(xí)慣。因此,對(duì)外語(yǔ)口語(yǔ)訓(xùn)練中語(yǔ)音識(shí)別技術(shù)進(jìn)行研究,能夠提高外語(yǔ)口語(yǔ)學(xué)習(xí)者的學(xué)習(xí)效率。

二、外語(yǔ)口語(yǔ)學(xué)習(xí)中語(yǔ)音識(shí)別技術(shù)應(yīng)用的重要意義

隨著中國(guó)改革開(kāi)放程度的深化以及全球經(jīng)濟(jì)一體化的飛速發(fā)展,世界各國(guó)的交往越來(lái)越頻繁,學(xué)習(xí)并掌握一門外語(yǔ),對(duì)于人們的工作與生活而言,已經(jīng)成為必不可少的工具。在學(xué)習(xí)外語(yǔ)的需求不斷增長(zhǎng)的情況下,出現(xiàn)了各種外語(yǔ)教學(xué)方法、教學(xué)工具以及語(yǔ)言學(xué)校等,然而國(guó)人在外語(yǔ)學(xué)習(xí)過(guò)程中,外語(yǔ)的口語(yǔ)教學(xué)與學(xué)習(xí)一直是較難突破的難題,其主要原因有以下幾個(gè)方面:

(一)各種外語(yǔ)發(fā)音的特點(diǎn)與漢語(yǔ)發(fā)音的特點(diǎn)存在較大差異,因而可能導(dǎo)致國(guó)人在學(xué)習(xí)外語(yǔ)時(shí)由于受到母語(yǔ)的深厚影響而犯下許多自己根本無(wú)法察覺(jué)或者是很難察覺(jué)的發(fā)音錯(cuò)誤。

(二)目前在國(guó)內(nèi)合格的外語(yǔ)口語(yǔ)教師還是很少,自己發(fā)音標(biāo)準(zhǔn)又能夠準(zhǔn)確地指導(dǎo)別人進(jìn)行口語(yǔ)學(xué)習(xí)的外語(yǔ)教師,即便是在一些大中城市的中小學(xué)中也相當(dāng)缺乏。同時(shí),一般的媒體教學(xué)也不能夠針對(duì)學(xué)生的特定情況,有效地讓學(xué)生與教師互動(dòng)進(jìn)行口語(yǔ)訓(xùn)練,只能夠單方面地進(jìn)行傳授,所以起到的作用也不是很有效。

外語(yǔ)口語(yǔ)訓(xùn)練中語(yǔ)音識(shí)別技術(shù)的應(yīng)用,讓軟件具備了矯正錯(cuò)誤發(fā)音的功能,能夠?yàn)閷W(xué)習(xí)者及時(shí)改正錯(cuò)誤的發(fā)音提供幫助,從而有效避免錯(cuò)誤反復(fù)而變成一種惡性習(xí)慣,并使外語(yǔ)學(xué)習(xí)者口語(yǔ)學(xué)習(xí)的效率與效果得到一定程度的提高,獲得更大的市場(chǎng)價(jià)值與社會(huì)效益。

三、外語(yǔ)口語(yǔ)訓(xùn)練中語(yǔ)音識(shí)別的關(guān)鍵技術(shù)

(一)語(yǔ)音識(shí)別

在語(yǔ)音識(shí)別技術(shù)中,語(yǔ)音識(shí)別是第一步也是最重要的一步,接下來(lái)幾個(gè)步驟的精確度都會(huì)受其影響,它能夠在語(yǔ)法與音素模型的基礎(chǔ)上,將輸入的語(yǔ)音信號(hào)翻譯成單詞串。同時(shí),許多基于計(jì)算機(jī)的語(yǔ)言訓(xùn)練活動(dòng)都可以應(yīng)用這一部分,比如基于語(yǔ)音的選擇題或者是與計(jì)算機(jī)的對(duì)話訓(xùn)練等等。

(二)語(yǔ)音評(píng)分

在基于語(yǔ)音識(shí)別技術(shù)的外語(yǔ)口語(yǔ)學(xué)習(xí)系統(tǒng)中,語(yǔ)音評(píng)分技術(shù)是最基本也是最核心的組成部分。語(yǔ)音評(píng)分技術(shù)能夠評(píng)價(jià)并反饋學(xué)習(xí)者的口語(yǔ)發(fā)音情況,可以讓學(xué)習(xí)者通過(guò)反饋的結(jié)果對(duì)自己的學(xué)習(xí)結(jié)果進(jìn)行檢查。通常情況下,按照語(yǔ)音評(píng)分技術(shù),目前的外語(yǔ)口語(yǔ)學(xué)習(xí)系統(tǒng)主要可以分為兩種:一種是基于語(yǔ)音特征比較的評(píng)分方法,它通過(guò)將學(xué)習(xí)者的發(fā)音與標(biāo)準(zhǔn)語(yǔ)音進(jìn)行對(duì)比參考,從一個(gè)較為主觀的角度對(duì)一段語(yǔ)音質(zhì)量進(jìn)行評(píng)價(jià),通常采用動(dòng)態(tài)時(shí)間規(guī)整技術(shù)實(shí)現(xiàn),因?yàn)槠渚邆溥\(yùn)算量小的特點(diǎn),因而在嵌入式系統(tǒng)與手持設(shè)備中運(yùn)用較多;另一種是基于聲學(xué)模型的評(píng)分方法,它能夠通過(guò)語(yǔ)音識(shí)別技術(shù)將以計(jì)算發(fā)音質(zhì)量所需的小單元切割出來(lái),然后再通過(guò)事先訓(xùn)練好的聲學(xué)模型與其進(jìn)行對(duì)比,最后根據(jù)評(píng)分機(jī)制對(duì)其評(píng)分,因?yàn)樵摲绞捷^為客觀,目前主流的外語(yǔ)口語(yǔ)學(xué)習(xí)系統(tǒng)中均采用這種技術(shù),其主要是基于隱馬爾可夫模型(HMM)技術(shù)實(shí)現(xiàn)。

如圖1,基于HMM的語(yǔ)音評(píng)分流程圖所示,其語(yǔ)音評(píng)分的關(guān)鍵技術(shù)分為以下幾步:

圖1 基于HMM的語(yǔ)音評(píng)分流程圖

1.首先,對(duì)學(xué)習(xí)者所輸入的語(yǔ)音進(jìn)行特征提取;

2.其次,將已經(jīng)訓(xùn)練好的HMM作為模板,再采用Viterbi算法將語(yǔ)言以計(jì)算發(fā)音質(zhì)量所需的小單元進(jìn)行分割,并強(qiáng)制對(duì)齊;

3.最后,采用不同的評(píng)分機(jī)制對(duì)不同的需要進(jìn)行評(píng)分,將評(píng)分結(jié)果得出。同時(shí),在某些情況下,要注意將說(shuō)話驗(yàn)證在語(yǔ)音評(píng)分開(kāi)始時(shí)加入,從而將學(xué)習(xí)者發(fā)音內(nèi)容與標(biāo)準(zhǔn)發(fā)音完全不同的部分擋下,保證整個(gè)口語(yǔ)學(xué)習(xí)系統(tǒng)的可信度更高。此外,由于同樣的聲音可能代表的意義不同,因而在這些更加復(fù)雜的應(yīng)用中,需要將各種詞發(fā)生概率的大小、上下文的關(guān)系進(jìn)行綜合考慮,并將語(yǔ)言模型加入,從而為聲學(xué)模型的判斷提供更好的輔助。

(三)發(fā)音錯(cuò)誤檢測(cè)與錯(cuò)誤糾正

對(duì)于外語(yǔ)學(xué)習(xí)者而言,雖然知道系統(tǒng)能夠評(píng)價(jià)其發(fā)音質(zhì)量,但是單憑非母語(yǔ)學(xué)習(xí)者自己對(duì)其自身錯(cuò)誤的所在還是不能清楚地了解到,對(duì)這個(gè)錯(cuò)誤也不知道如何進(jìn)行糾正。因而,外語(yǔ)口語(yǔ)學(xué)習(xí)者需要通過(guò)系統(tǒng)對(duì)發(fā)音的錯(cuò)誤進(jìn)行檢測(cè)與定位,并將相應(yīng)的錯(cuò)誤糾正建議提供給學(xué)習(xí)者進(jìn)行有效糾正。

1.發(fā)音錯(cuò)誤的檢測(cè)與定位

在外語(yǔ)口語(yǔ)訓(xùn)練中,導(dǎo)致錯(cuò)誤發(fā)音的因素有很多。例如學(xué)習(xí)者不會(huì)發(fā)某種聲音,或者是受到其他語(yǔ)言拼讀方法的影響以及不能正確體會(huì)到兩種聲音的差別等等。語(yǔ)音識(shí)別器也是發(fā)音錯(cuò)誤檢測(cè)中使用的一種方法,比如用母語(yǔ)訓(xùn)練的語(yǔ)音識(shí)別器,但是因?yàn)樵跊](méi)有使用自適應(yīng)技術(shù)的情況下,學(xué)習(xí)者發(fā)音的識(shí)別錯(cuò)誤也有可能會(huì)當(dāng)成是發(fā)音錯(cuò)誤,因而這種方法就很難準(zhǔn)確地檢測(cè)到非母語(yǔ)學(xué)習(xí)者的發(fā)音是否正確。所以,目前對(duì)錯(cuò)誤發(fā)音的檢測(cè)比較合理的一種做法是:首先以發(fā)音專家的知識(shí)為依據(jù),嚴(yán)格將容易出錯(cuò)的發(fā)音進(jìn)行合理的分類,然后以不同的錯(cuò)誤類型為依據(jù),將其相應(yīng)的檢測(cè)算法設(shè)計(jì)出來(lái),最后用各種錯(cuò)誤檢測(cè)算法對(duì)學(xué)習(xí)者的發(fā)音分別進(jìn)行檢測(cè)。

2.發(fā)音錯(cuò)誤的糾正

系統(tǒng)將發(fā)音錯(cuò)誤檢測(cè)出來(lái)后,同時(shí)就對(duì)學(xué)習(xí)者所犯的錯(cuò)誤根據(jù)專家關(guān)于發(fā)音錯(cuò)誤的知識(shí)給出相應(yīng)的錯(cuò)誤提示與錯(cuò)誤糾正建議。其中,對(duì)于這些發(fā)音專家知識(shí)的構(gòu)建而言,是通過(guò)事先收集大量的經(jīng)驗(yàn)數(shù)據(jù)而積累而成的,例如不同學(xué)習(xí)者的發(fā)音特點(diǎn)等,然后通過(guò)數(shù)據(jù)挖掘的聚類算法將不同學(xué)習(xí)者不同發(fā)音特征的聚類準(zhǔn)確地計(jì)算出來(lái),再由專家客觀地評(píng)判分類的發(fā)音,最后將各聚類的改進(jìn)建議提出來(lái)。

(四)回饋展示

在基于語(yǔ)音識(shí)別技術(shù)的外語(yǔ)口語(yǔ)學(xué)習(xí)系統(tǒng)中,這一部分是整個(gè)系統(tǒng)對(duì)用戶的窗口,上述部分所產(chǎn)生的信息都可以通過(guò)分?jǐn)?shù)條或者是數(shù)字的形式為外語(yǔ)學(xué)習(xí)者展示出來(lái)。同時(shí)只有通過(guò)這個(gè)模塊,外語(yǔ)學(xué)習(xí)者才能夠從基于語(yǔ)音識(shí)別技術(shù)的外語(yǔ)口語(yǔ)學(xué)習(xí)系統(tǒng)中獲益,所以,整個(gè)系統(tǒng)的可用度都通過(guò)這一模塊設(shè)計(jì)的好壞來(lái)決定。

四、結(jié)語(yǔ)

總而言之,隨著社會(huì)經(jīng)濟(jì)與科學(xué)技術(shù)的快速發(fā)展,各種帶有語(yǔ)音識(shí)別技術(shù)的便攜式終端設(shè)備出現(xiàn)在人們的日常生活與學(xué)習(xí)中,為廣大外語(yǔ)愛(ài)好者與學(xué)習(xí)者提供了不受教師資源、地點(diǎn)以及時(shí)間等限制的智能外語(yǔ)學(xué)習(xí)系統(tǒng),有效地提高了外語(yǔ)學(xué)習(xí)者的學(xué)習(xí)效率與學(xué)習(xí)效果,相信在未來(lái),也能夠?yàn)橥庹Z(yǔ)學(xué)習(xí)者們提供更快、更好的電子學(xué)習(xí)手段。

【參考文獻(xiàn)】

[1]盧永輝.語(yǔ)音識(shí)別技術(shù)在外語(yǔ)口語(yǔ)訓(xùn)練中的應(yīng)用[J].電腦知識(shí)與技術(shù),2014(04):836-837,843.

[2]吳艷艷.孤立詞語(yǔ)音識(shí)別的關(guān)鍵技術(shù)研究[D].青島:青島大學(xué),2012.

[3]涂惠燕.移動(dòng)設(shè)備平臺(tái)上英語(yǔ)口語(yǔ)學(xué)習(xí)中的語(yǔ)音識(shí)別技術(shù)[D].上海:上海交通大學(xué),2011.

第2篇

【關(guān)鍵詞】語(yǔ)音識(shí)別;簡(jiǎn)單模板匹配;預(yù)處理;特征提取

1 語(yǔ)音識(shí)別技術(shù)原理

語(yǔ)音識(shí)別是為了讓機(jī)器“懂”我們的語(yǔ)言,準(zhǔn)確無(wú)誤地識(shí)別出我們發(fā)出語(yǔ)音內(nèi)容,并且做出符合語(yǔ)音內(nèi)容的一系列動(dòng)作,執(zhí)行我們的意圖。分析人類語(yǔ)言交流通信的過(guò)程,可以啟發(fā)我們的研究思路。對(duì)人類語(yǔ)音通信流程[1-2]分析如圖1。

由人類語(yǔ)音通信流程框圖可以看出,人類發(fā)出語(yǔ)音過(guò)程如圖左半部分,語(yǔ)音理解過(guò)程如圖右半部分。語(yǔ)音識(shí)別包括兩種含義,一是:將人類說(shuō)的話轉(zhuǎn)換成文字,二是:在充分理解口述語(yǔ)音的基礎(chǔ)上,不僅僅是將語(yǔ)音轉(zhuǎn)換為文字信息,而且對(duì)語(yǔ)音內(nèi)容也要作出正確響應(yīng)[3]。在此,本文認(rèn)為語(yǔ)音識(shí)別和語(yǔ)音理解意義等同,所以可用圖1右側(cè)部分流程可將語(yǔ)音識(shí)別過(guò)程。

目前語(yǔ)音識(shí)別技術(shù)應(yīng)用中大部分都是小詞匯量,詞語(yǔ)間相互獨(dú)立基于簡(jiǎn)單模板匹配工作原理的識(shí)別模式。針對(duì)這種典型的語(yǔ)音識(shí)別模式,原理流程路線圖[4]如圖2所示:

1.1 基于發(fā)音模型的語(yǔ)音信號(hào)產(chǎn)生模型

語(yǔ)音信號(hào)的產(chǎn)生是語(yǔ)音識(shí)別技術(shù)的基石,在語(yǔ)音信號(hào)處理的大部分過(guò)程中對(duì)語(yǔ)音信號(hào)產(chǎn)生模型有很強(qiáng)的依賴性。本文研究過(guò)程中,首先對(duì)人類發(fā)音過(guò)程進(jìn)行了解:人類發(fā)音流程是首先肺部收縮,迫使氣流通過(guò)聲門和聲道引起音頻震蕩產(chǎn)生[3]。根據(jù)人的聲道三種不同激勵(lì)方式,分別對(duì)應(yīng)產(chǎn)生了三種被大家熟知的發(fā)音類型,分別是濁音,摩擦音或清音,爆破音。

語(yǔ)音信號(hào)可看做由線性系統(tǒng)受到激勵(lì)信號(hào)的激勵(lì)輸出產(chǎn)生。如圖3是基于發(fā)音模型的語(yǔ)音信號(hào)產(chǎn)生模型流程圖:

如圖3建立的語(yǔ)音信號(hào)產(chǎn)生模型中認(rèn)為濁音是周期為N0的沖激信號(hào),且N0=fs/F0(其中F0是基音頻率,fs是采樣頻率)。清音認(rèn)為是一個(gè)均值為0,幅值是正態(tài)分布的波形信號(hào)。參數(shù)Av,Au分別用來(lái)調(diào)節(jié)濁音和清音的幅值。

從已有語(yǔ)音識(shí)別技術(shù)研究結(jié)果可知,窗函數(shù)類型眾多,使用不同形式的窗函數(shù)對(duì)短時(shí)分析處理語(yǔ)音信號(hào)結(jié)果有很大的影響。已知目前應(yīng)用最廣泛的窗函數(shù)是漢明窗,結(jié)合仿真實(shí)驗(yàn)分析可以看出:高斯窗函數(shù)的橫向主瓣寬度最小,但其縱向旁瓣高度最高;漢明窗函數(shù)的橫向主瓣寬度最寬,縱向旁瓣高度是三種窗函數(shù)中最低的。

2.3 端點(diǎn)檢測(cè)

語(yǔ)音信號(hào)的起始點(diǎn)是語(yǔ)音信號(hào)處理的關(guān)鍵分界點(diǎn),端點(diǎn)檢測(cè)的目的就是找到連續(xù)語(yǔ)音信號(hào)中的信號(hào)起始點(diǎn)。常用的端點(diǎn)檢測(cè)方法有兩種,分別是短時(shí)平均能量和短時(shí)過(guò)零率[6]。當(dāng)下流行的端點(diǎn)檢測(cè)方法是短時(shí)平均能量和短時(shí)過(guò)零率兩者的結(jié)合,稱這種方法為雙門限端點(diǎn)檢測(cè)算法[7]。

在實(shí)際問(wèn)題中通常采用兩者結(jié)合解決問(wèn)題。本文同樣是采用兩者結(jié)合的方法,利用短時(shí)過(guò)零率方法檢測(cè)語(yǔ)音信號(hào)波形穿越零電平的次數(shù),既代表的是清音;用短時(shí)平均能量方法計(jì)算第y幀語(yǔ)音信號(hào)的短時(shí)平均能量E(y),既代表的是濁音,進(jìn)而實(shí)現(xiàn)可靠的端點(diǎn)檢測(cè)。

3 特征提取

目前特征是語(yǔ)音信號(hào)預(yù)處理中的重要步驟。在實(shí)際特征提取中,較常采用的參數(shù)是線性預(yù)測(cè)倒譜系數(shù)(LPCC)和Mel倒譜系數(shù)(MFCC)。二者采用的均是時(shí)域轉(zhuǎn)換到倒譜域上,但是出發(fā)思路兩者不同。線性預(yù)測(cè)倒譜系數(shù)(LPCC)以人類發(fā)聲模型為基礎(chǔ),采用線性預(yù)測(cè)編碼(LPC)技術(shù)求倒譜系數(shù);Mel倒譜系數(shù)(MFCC)以人類聽(tīng)覺(jué)模型為基礎(chǔ),通過(guò)離散傅利葉變換(DFT)進(jìn)行變換分析。

其中k表示第k個(gè)濾波器,Hm(k)表示第k個(gè)mel濾波器組,f(m)為中心頻率,m=1,2,…K,K表示濾波器個(gè)數(shù)。

經(jīng)過(guò)仿真實(shí)驗(yàn)分析比較,可以分析得出Mel倒譜系數(shù)(MFCC)參數(shù)較線性預(yù)測(cè)倒譜系數(shù)(LPCC)參數(shù)的優(yōu)點(diǎn),優(yōu)點(diǎn)如下:

(1)語(yǔ)音低頻信號(hào)是語(yǔ)音信息的聚集區(qū),高頻信號(hào)相對(duì)低頻語(yǔ)音信號(hào)更容易受到周圍環(huán)境等的干擾。Mel倒譜系數(shù)(MFCC)將線性頻標(biāo)轉(zhuǎn)化為Mel頻標(biāo),強(qiáng)調(diào)語(yǔ)音的低頻信息,從而突出了有利于識(shí)別的信息,屏蔽了噪聲的干擾[8]。LPCC參數(shù)是基于線性頻標(biāo)的,所以沒(méi)有這一特點(diǎn);

(2)MFCC參數(shù)無(wú)任何假設(shè)前提,在各種語(yǔ)音信號(hào)預(yù)處理情況下均可使用,但是LPCC參數(shù)首先假定所處理的語(yǔ)音信號(hào)是AR信號(hào),對(duì)于動(dòng)態(tài)特性較強(qiáng)的輔音,這個(gè)假設(shè)并不嚴(yán)格成立[8];

(3)MFCC參數(shù)提取過(guò)程中需要經(jīng)過(guò)FFT變換,我們可以順便獲得語(yǔ)音信號(hào)頻域上的全部信息,不需要多花費(fèi)時(shí)間處理,有利于端點(diǎn)檢測(cè)、語(yǔ)音分段等算法實(shí)現(xiàn)[8]。

4 訓(xùn)練與識(shí)別

訓(xùn)練和識(shí)別是語(yǔ)音識(shí)別的中心內(nèi)容,有很多專家學(xué)者研究了一系列成果。語(yǔ)音識(shí)別實(shí)質(zhì)是模式匹配的過(guò)程,而對(duì)分類器和分類決策的設(shè)計(jì)[9]又是模式匹配的核心。在現(xiàn)有的分類器設(shè)計(jì)[10-11]中,經(jīng)常使用的有:動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)分類器、基于人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)分類器、基于高斯混合模型(GMM)分類器、基于Bayes規(guī)則的分類器、基于HMM分類器[12]等。

本文重點(diǎn)討論語(yǔ)音信號(hào)預(yù)處理中技術(shù)及實(shí)現(xiàn),對(duì)訓(xùn)練和識(shí)別技術(shù)不再做研究描述。

【參考文獻(xiàn)】

[1]尹巖巖.基于語(yǔ)音識(shí)別與合成的低速率語(yǔ)音編碼研究[D].上海師范大學(xué),2013.

[2]偉偉.通信系統(tǒng)中語(yǔ)音質(zhì)量評(píng)價(jià)的研究[D].北京郵電大學(xué),2014.

[3]朱淑琴.語(yǔ)音識(shí)別系統(tǒng)關(guān)鍵技術(shù)研究[D].西安電子科技大學(xué),2004.

[4]王偉臻.基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究[D].浙江大學(xué),2008.

[5]鐘林鵬.說(shuō)話人識(shí)別系統(tǒng)中的語(yǔ)音信號(hào)處理技術(shù)研究[D].電子科技大學(xué),2013.

[6]周剛,周萍,楊青.一種簡(jiǎn)單的噪聲魯棒性語(yǔ)音端點(diǎn)檢測(cè)方法[J].測(cè)控技術(shù),2015,(02):31-34.

[7]薛勝堯.基于改進(jìn)型雙門限語(yǔ)音端點(diǎn)檢測(cè)算法的研究[J].電子設(shè)計(jì)工程,2015,(04):78-81.

[8]惠博.語(yǔ)音識(shí)別特征提取算法的研究及實(shí)現(xiàn)[D].西北大學(xué),2008.

[9]張寧.基于決策樹分類器的遷移學(xué)習(xí)研究[D].西安電子科技大學(xué),2014.

[10]汪云云.結(jié)合先驗(yàn)知識(shí)的分類器設(shè)計(jì)研究[D].南京航空航天大學(xué),2012.

第3篇

語(yǔ)音識(shí)別ASR(Automatic Speech Recognition)系統(tǒng)的實(shí)用化研究是近十年語(yǔ)音識(shí)別研究的一個(gè)主要方向。近年來(lái),消費(fèi)類電子產(chǎn)品對(duì)低成本、高穩(wěn)健性的語(yǔ)音識(shí)別片上系統(tǒng)的需求快速增加,語(yǔ)音識(shí)別系統(tǒng)大量地從實(shí)驗(yàn)室的PC平臺(tái)轉(zhuǎn)移到嵌入式設(shè)備中。

語(yǔ)音識(shí)別技術(shù)目前在嵌入式系統(tǒng)中的應(yīng)用主要為語(yǔ)音命令控制,它使得原本需要手工操作的工作用語(yǔ)音就可以方便地完成。語(yǔ)音命令控制可廣泛用于家電語(yǔ)音遙控、玩具、智能儀器及移動(dòng)電話等便攜設(shè)備中。使用語(yǔ)音作為人機(jī)交互的途徑對(duì)于使用者來(lái)說(shuō)是最自然的一種方式,同時(shí)設(shè)備的小型化也要求省略鍵盤以節(jié)省體積。

嵌入式設(shè)備通常針對(duì)特定應(yīng)用而設(shè)計(jì),只需要對(duì)幾十個(gè)詞的命令進(jìn)行識(shí)別,屬于小詞匯量語(yǔ)音識(shí)別系統(tǒng)。因此在語(yǔ)音識(shí)別技術(shù)的要求不在于大詞匯量和連續(xù)語(yǔ)音識(shí)別,而在于識(shí)別的準(zhǔn)確性與穩(wěn)健性。

對(duì)于嵌入式系統(tǒng)而言,還有許多其它因素需要考慮。首先是成本,由于成本的限制,一般使用定點(diǎn)DSP,有時(shí)甚至只能考慮使用MPU,這意味著算法的復(fù)雜度受到限制;其次,嵌入式系統(tǒng)對(duì)體積有嚴(yán)格的限制,這就需要一個(gè)高度集成的硬件平臺(tái),因此,SoC(System on Chip)開(kāi)始在語(yǔ)音識(shí)別領(lǐng)域嶄露頭角。SoC結(jié)構(gòu)的嵌入式系統(tǒng)大大減少了芯片數(shù)量,能夠提供高集成度和相對(duì)低成本的解決方案,同時(shí)也使得系統(tǒng)的可靠性大為提高。

語(yǔ)音識(shí)別片上系統(tǒng)是系統(tǒng)級(jí)的集成芯片。它不只是把功能復(fù)雜的若干個(gè)數(shù)字邏輯電路放入同一個(gè)芯片,做成一個(gè)完整的單片數(shù)字系統(tǒng),而且在芯片中還應(yīng)包括其它類型的電子功能器件,如模擬器件(如ADC/DAC)和存儲(chǔ)器。

筆者使用SoC芯片實(shí)現(xiàn)了一個(gè)穩(wěn)定、可靠、高性能的嵌入式語(yǔ)音識(shí)別系統(tǒng)。包括一套全定點(diǎn)的DHMM和CHMM嵌入式語(yǔ)音識(shí)別算法和硬件系統(tǒng)。

1 硬件平臺(tái)

本識(shí)別系統(tǒng)是在與Infineon公司合作開(kāi)發(fā)的芯片UniSpeech上實(shí)現(xiàn)的。UniSpeech芯片是為語(yǔ)音信號(hào)處理開(kāi)發(fā)的專用芯片,采用0.18μm工藝生產(chǎn)。它將雙核(DSP+MCU)、存儲(chǔ)器、模擬處理單元(ADC與DAC)集成在一個(gè)芯片中,構(gòu)成了一種語(yǔ)音處理SoC芯片。這種芯片的設(shè)計(jì)思想主要是為語(yǔ)音識(shí)別和語(yǔ)音壓縮編碼領(lǐng)域提供一個(gè)低成本、高可靠性的硬件平臺(tái)。

該芯片為語(yǔ)音識(shí)別算法提供了相應(yīng)的存儲(chǔ)量和運(yùn)算能力。包括一個(gè)內(nèi)存控制單元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核為16位定點(diǎn)DSP,運(yùn)算速度可達(dá)到約100MIPS.MCU核是8位增強(qiáng)型8051,每?jī)蓚€(gè)時(shí)鐘周期為一個(gè)指令周期,其時(shí)鐘頻率可達(dá)到50MHz。

UniSpeech芯片集成了2路8kHz采樣12bit精度的ADC和2路8kHz采樣11bit的DAC,采樣后的數(shù)據(jù)在芯片內(nèi)部均按16bit格式保存和處理。對(duì)于語(yǔ)音識(shí)別領(lǐng)域,這樣精度的ADC/DAC已經(jīng)可以滿足應(yīng)用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。

2 嵌入式語(yǔ)音識(shí)別系統(tǒng)比較

以下就目前基于整詞模型的語(yǔ)音識(shí)別的主要技術(shù)作一比較。

(1)基于DTW(Dynamic Time Warping)和模擬匹配技術(shù)的語(yǔ)音識(shí)別系統(tǒng)。目前,許多移動(dòng)電話可以提供簡(jiǎn)單的語(yǔ)音識(shí)別功能,幾乎都是甚至DTM和模板匹配技術(shù)。

DTW和模板匹配技術(shù)直接利用提取的語(yǔ)音特征作為模板,能較好地實(shí)現(xiàn)孤立詞識(shí)別。由于DTW模版匹配的運(yùn)算量不大,并且限于小詞表,一般的應(yīng)用領(lǐng)域孤立數(shù)碼、簡(jiǎn)單命令集、地名或人名集的語(yǔ)音識(shí)別。為減少運(yùn)算量大多數(shù)使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)運(yùn)算。

DTW和模板匹配技術(shù)的缺點(diǎn)是只對(duì)特定人語(yǔ)音識(shí)別有較好的識(shí)別性能,并且在使用前需要對(duì)所有詞條進(jìn)行訓(xùn)練。這一應(yīng)用從20世紀(jì)90年代就進(jìn)入成熟期。目前的努力方向是進(jìn)一步降低成本、提高穩(wěn)健性(采用雙模板)和抗噪性能。

(2)基于隱含馬爾科夫模型HMM(Hidden Markov Model)的識(shí)別算法。這是Rabiner等人在20世紀(jì)80年代引入語(yǔ)音識(shí)別領(lǐng)域的一種語(yǔ)音識(shí)別算法。該算法通過(guò)對(duì)大量語(yǔ)音數(shù)據(jù)進(jìn)行數(shù)據(jù)統(tǒng)計(jì),建立識(shí)別條的統(tǒng)計(jì)模型,然后從待識(shí)別語(yǔ)音中提取特征,與這些模型匹配,通過(guò)比較匹配分?jǐn)?shù)以獲得識(shí)別結(jié)果。通過(guò)大量的語(yǔ)音,就能夠獲得一個(gè)穩(wěn)健的統(tǒng)計(jì)模型,能夠適應(yīng)實(shí)際語(yǔ)音中的各種突況。因此,HMM算法具有良好的識(shí)別性能和抗噪性能。

基于HMM技術(shù)的識(shí)別系統(tǒng)可用于非特定人,不需要用戶事先訓(xùn)練。它的缺點(diǎn)在于統(tǒng)計(jì)模型的建立需要依賴一個(gè)較大的語(yǔ)音庫(kù)。這在實(shí)際工作中占有很大的工作量。且模型所需要的存儲(chǔ)量和匹配計(jì)算(包括特征矢量的輸出概率計(jì)算)的運(yùn)算量相對(duì)較大,通常需要具有一定容量SRAM的DSP才能完成。

在嵌入式語(yǔ)音識(shí)別系統(tǒng)中,由于成本和算法復(fù)雜度的限制,HMM算法特別CHMM(Continuous density HMM)算法尚未得到廣泛的應(yīng)用。

(3)人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)。ANN在語(yǔ)音識(shí)別領(lǐng)域的應(yīng)用是在20世紀(jì)80年代中后期發(fā)展起來(lái)的。其思想是用大量簡(jiǎn)單的處理單元并行連接構(gòu)成一種信息處理系統(tǒng)。這種系統(tǒng)可以進(jìn)行自我更新,且有高度的并行處理及容錯(cuò)能力,因而在認(rèn)知任務(wù)中非常吸引人。但是ANN相對(duì)于模式匹配而言,在反映語(yǔ)音的動(dòng)態(tài)特性上存在重大缺陷。單獨(dú)使用ANN的系統(tǒng)識(shí)別性能不高,所以目前ANN通常在多階段識(shí)別中與HMM算法配合使用。

3 基于HMM的語(yǔ)音識(shí)別系統(tǒng)

下面詳細(xì)介紹基于HMM的語(yǔ)音識(shí)別系統(tǒng)。首先在UniSpeech芯片上實(shí)現(xiàn)了基于DHMM的識(shí)別系統(tǒng),然后又在同一平臺(tái)上實(shí)現(xiàn)了基于CHMM的識(shí)別系統(tǒng)。

3.1 前端處理

語(yǔ)音的前端處理主要包括對(duì)語(yǔ)音的采樣、A/D變換、分幀、特片提取和端點(diǎn)檢測(cè)。

模擬語(yǔ)音信號(hào)的數(shù)字化由A/D變換器實(shí)現(xiàn)。ADC集成在片內(nèi),它的采樣頻率固定為8kHz。

特征提取基于語(yǔ)音幀,即將語(yǔ)音信號(hào)分為有重疊的若干幀,對(duì)每一幀提取一次語(yǔ)音特片。由于語(yǔ)音特征的短時(shí)平穩(wěn)性,幀長(zhǎng)一般選取20ms左右。在分幀時(shí),前一幀和后一幀的一部分是重疊的,用來(lái)體現(xiàn)相鄰兩幀數(shù)據(jù)之間的相關(guān)性,通常幀移為幀長(zhǎng)的1/2。對(duì)于本片上系統(tǒng),為了方便做FFT,采用的幀長(zhǎng)為256點(diǎn)(32ms),幀移為128點(diǎn)(16ms)。

特征的選擇需要綜合考慮存儲(chǔ)量的限制和識(shí)別性能的要求。在DHMM系統(tǒng)中,使用24維特征矢量,包括12維MFCC(Mel Frequency Cepstrum Coefficient)和12維一階差分MFCC;在CHMM系統(tǒng)中,在DHMM系統(tǒng)的基礎(chǔ)上增加了歸一化能量、一階差分能量和二階差分能量3維特征,構(gòu)成27維特征矢量。對(duì)MFCC和能量分別使用了倒譜均值減CMS(Cepstrum Mean Subtraction)和能量歸一化ENM(Energy Normalization)的處理方法提高特征的穩(wěn)健性。

3.2 聲學(xué)模型

在HMM模型中,首先定義了一系列有限的狀態(tài)S1…SN,系統(tǒng)在每一個(gè)離散時(shí)刻n只能處在這些狀態(tài)當(dāng)中的某一個(gè)Xn。在時(shí)間起點(diǎn)n=0時(shí)刻,系統(tǒng)依初始概率矢量π處在某一個(gè)狀態(tài)中,即:

πi=P{X0=Si},i=1..N

以后的每一個(gè)時(shí)刻n,系統(tǒng)所處的狀態(tài)Xn僅與前一時(shí)刻系統(tǒng)的狀態(tài)有關(guān),并且依轉(zhuǎn)移概率矩陣A跳轉(zhuǎn),即:

系統(tǒng)在任何時(shí)刻n所處的狀態(tài)Xn隱藏在系統(tǒng)內(nèi)部,并不為外界所見(jiàn),外界只能得到系統(tǒng)在該狀態(tài)下提供的一個(gè)Rq空間隨機(jī)觀察矢量On。On的分布B稱為輸出概率矩陣,只取決于Xn所處狀態(tài):

Pxn=Si{On}=P{On|Si}

因?yàn)樵撓到y(tǒng)的狀態(tài)不為外界所見(jiàn),因此稱之為“穩(wěn)含馬爾科夫模型”,簡(jiǎn)稱HMM。

在識(shí)別中使用的隨機(jī)觀察矢量就是從信號(hào)中提取的特征矢量。按照隨機(jī)矢量Qn的概率分布形時(shí),其概率密度函數(shù)一般使用混合高斯分布擬合。

其中,M為使用的混合高斯分布的階數(shù),Cm為各階高期分布的加權(quán)系數(shù)。此時(shí)的HMM模型為連續(xù)HMM模型(Continuous density HMM),簡(jiǎn)稱CHMM模型。在本識(shí)別系統(tǒng)中,采用整詞模型,每個(gè)詞條7個(gè)狀態(tài)同,包括首尾各一個(gè)靜音狀態(tài);每個(gè)狀態(tài)使用7階混合高斯分布擬合。CHMM識(shí)別流程如圖1所示。

由于CHMM模型的復(fù)雜性,也可以假定On的分布是離散的。通常采用分裂式K-Mean算法得到碼本,然后對(duì)提取的特征矢量根據(jù)碼本做一次矢量量化VQ(Vector Quantization)。這樣特征矢量的概率分布上就簡(jiǎn)化為一個(gè)離散的概率分布矩陣,此時(shí)的HMM模型稱為離散HMM模型(Discrete density HMM),簡(jiǎn)稱DHMM模型。本DHMM識(shí)別系統(tǒng)使用的碼本大小為128。DHMM識(shí)別流程如圖2所示。

DHMM雖然增加了矢量量化這一步驟,但是由于簡(jiǎn)化了模型的復(fù)雜度,從而減少了占用計(jì)算量最大的匹配計(jì)算。當(dāng)然,這是以犧牲一定的識(shí)別性能為代價(jià)。

筆者先后自己的硬件平臺(tái)上完成了基于DHMM和CHMM的識(shí)別系統(tǒng)。通過(guò)比較發(fā)現(xiàn),對(duì)于嵌入式平臺(tái)而言,實(shí)現(xiàn)CHMM識(shí)別系統(tǒng)的關(guān)鍵在于芯片有足夠運(yùn)算太多的增加。因?yàn)樵~條模型存儲(chǔ)在ROM中,在匹配計(jì)算時(shí)是按條讀取的。

3.3 識(shí)別性能

筆者使用自己的識(shí)別算法分別對(duì)11詞的漢語(yǔ)數(shù)碼和一個(gè)59詞的命令詞集作了實(shí)際識(shí)別測(cè)試,識(shí)別率非常令人滿意,如表1所示。

表1 漢語(yǔ)數(shù)碼識(shí)別率

DHMMCHMM特征矢量維數(shù)2427識(shí)別率93.40%98.28%識(shí)別速度(11詞)10ms50ms模型大?。?個(gè)詞條)1.5KB<5.5KB碼本6KB無(wú)對(duì)于59詞命令詞集的識(shí)別,還增加了靜音模型。由于基線的識(shí)別率已經(jīng)很高,所以靜音模型的加入對(duì)于識(shí)別率的進(jìn)一步提高作用不大,如表2所示。但靜音模型的加入可以降低對(duì)端點(diǎn)判斷的依賴。這在實(shí)際使用中對(duì)系統(tǒng)的穩(wěn)健性有很大的提高。

表2 59詞命令詞集識(shí)別率

浮  點(diǎn)定  點(diǎn)無(wú)靜音模型98.59%98.28%有靜音模型98.83%98.55%可以看到,在硬件能夠支持的情況下,CHMM的識(shí)別率比DHMM有很大的提高,同時(shí)識(shí)別速度也完全可以滿足使用要求。

第4篇

關(guān)鍵詞:PTT;語(yǔ)音識(shí)別;通信

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

Earthquake site intercom communication optimization technology based on speech recognition

XU Nian, LI Wei, CHENG Fei

(Earthquake Administration of Jiangsu Province,Nanjing 210014,China)

Abstract: Nowadays, using walkie-talkie call is an essential method of communication when the earthquake emergency rescue. But when rescue workers call, it is necessary to press PTT by hand,which could influence the work convenience of rescue workers. Based on this, the paper uses the latest digital processing technology and the incorporated algorithm to identify only the human voice,so that the outside sound and shock are not recognized. After that, for the rescue workers in the state of speech, automatic identification could be gotten to produce PTT, and the call could be achieved. Hands of rescue personnel are completely liberated, and intercom speech are automatically launched. It is concluded that the proposed optimization communication method could improve the efficiency of the rescue,therefore gain significant benefits.

Keywords: PTT;speech recognition;communication

0 引言

地震應(yīng)急救援是我國(guó)防震減災(zāi)事業(yè)3+1體系的重要組成之一。最大限度地降低地震災(zāi)害損失是抗震救災(zāi)工作的核心設(shè)定目標(biāo),而實(shí)現(xiàn)這一目標(biāo)的基礎(chǔ)環(huán)節(jié)之一就是提高地震應(yīng)急救援水平。我國(guó)的地震應(yīng)急救援系統(tǒng)和管理體系迄今為止仍有待完善,2008年的汶川地震和2010年的玉樹地震救援工作已經(jīng)清晰表明了應(yīng)急救援的強(qiáng)大背景支撐作用,與此同時(shí)更進(jìn)一步揭示了在突發(fā)地震災(zāi)害面前應(yīng)急救援技術(shù)及應(yīng)用的廣闊施展空間與不斷增長(zhǎng)的現(xiàn)實(shí)需求。特別地,已有研究指出,穩(wěn)定可靠的對(duì)講機(jī)自動(dòng)對(duì)講和多功能、全方位的語(yǔ)音通話在地震救援現(xiàn)場(chǎng)正在擔(dān)負(fù)和執(zhí)行著日趨顯著、且不可或缺的使命任務(wù)與功能角色。這種通信方式的優(yōu)化對(duì)于提高地震救援效率則有著不言而喻的實(shí)用價(jià)值與積極推動(dòng)意義。本文即針對(duì)這一課題內(nèi)容展開(kāi)研究論述。

1 基本原理

語(yǔ)音識(shí)別是新興的人機(jī)交互技術(shù)之一。研究可知,語(yǔ)音識(shí)別系統(tǒng)則由語(yǔ)音信號(hào)的預(yù)處理、特征提取、語(yǔ)音模板庫(kù)以及匹配判決這4個(gè)部分構(gòu)建組成。在此,給出語(yǔ)音識(shí)別系統(tǒng)的院里構(gòu)成如圖1所示。

如圖1所示,對(duì)于語(yǔ)音識(shí)別系統(tǒng)各組成部分的效果實(shí)現(xiàn)可提出如下設(shè)計(jì)分述:

1)預(yù)處理

預(yù)加重。預(yù)加重過(guò)程可以使語(yǔ)音的高頻部分得到提升,減小語(yǔ)音的動(dòng)態(tài)范圍,增加信噪比,使信號(hào)的頻譜更趨平滑,利于展開(kāi)頻譜分析。

分幀與加窗。采用一個(gè)有限長(zhǎng)的窗序列,并利用其滑動(dòng)來(lái)實(shí)現(xiàn)對(duì)原始語(yǔ)音信號(hào)的分幀,另外采用交疊分段方法使相鄰幀之間過(guò)渡更為流暢。

2)端點(diǎn)監(jiān)測(cè)。端點(diǎn)檢測(cè)是指從一段語(yǔ)音信號(hào)中檢測(cè)出說(shuō)話的起始點(diǎn)與終止點(diǎn),刪除無(wú)聲段,以降低特征提取的計(jì)算量,縮短系統(tǒng)的訓(xùn)練與識(shí)別時(shí)間,進(jìn)而提高準(zhǔn)確度與識(shí)別率。常用的端點(diǎn)檢測(cè)方法主要基于2個(gè)參數(shù):短時(shí)平均能量和短時(shí)平均過(guò)零率。

3)特征提取。在語(yǔ)音信號(hào)處理中,可以采用如下特征:語(yǔ)音信號(hào)能量、基音周期、共振峰、LPCC及MFCC等。其中,LPCC是依據(jù)說(shuō)話人的聲道模型得來(lái)的,整體實(shí)現(xiàn)思路是對(duì)語(yǔ)音信號(hào)進(jìn)行線性預(yù)測(cè)分析,再將所得到的線性預(yù)測(cè)系數(shù)啟用倒譜運(yùn)算,該種參數(shù)優(yōu)點(diǎn)是計(jì)算過(guò)程清晰,且能夠優(yōu)質(zhì)描述元音信號(hào),但其缺點(diǎn)卻在于對(duì)輔音信號(hào)的描述性能欠佳,且極容易受到噪聲的干擾而產(chǎn)生失真。而MFCC參數(shù)的獲取則是基于人耳的聽(tīng)覺(jué)特性,其完整思路是將語(yǔ)音信號(hào)的頻譜通過(guò)帶通濾波器轉(zhuǎn)換為基于美爾頻率尺度的非線性頻譜,接下來(lái)就是對(duì)濾波器的輸出設(shè)計(jì)展開(kāi)對(duì)數(shù)及離散余弦變換,由于該參數(shù)為符合貼近人耳的聽(tīng)覺(jué)特性,因此相比較而言即LPCC參數(shù)具有較好的抗干擾能力。

4)模板匹配。動(dòng)態(tài)時(shí)間規(guī)劃(DTW)是模板匹配法中核心經(jīng)典的算法之一。DTW算法通過(guò)不均勻地扭曲或彎折待測(cè)語(yǔ)音信號(hào)的時(shí)間軸,使待測(cè)語(yǔ)音特征和模板特征彼此對(duì)齊,并通過(guò)不斷地在2個(gè)模板之間搜索模板中對(duì)應(yīng)矢量最小距離的匹配路徑,最終得到一個(gè)規(guī)整函數(shù),這個(gè)函數(shù)可使2個(gè)模板中的矢量匹配時(shí)累計(jì)距離最小。因此,DTW是一種結(jié)合了時(shí)間規(guī)整和距離測(cè)度的非線性規(guī)整技術(shù)。

2系統(tǒng)軟件設(shè)計(jì)

本項(xiàng)目軟件主要在CCS上獲得開(kāi)發(fā)實(shí)現(xiàn)。CCS是TI公司開(kāi)發(fā)的用于開(kāi)發(fā)DSP應(yīng)用程序的可視化集成開(kāi)發(fā)環(huán)境,具體支持C2000、 C5000、 C6000系列,包括代碼編輯、調(diào)試工具、可執(zhí)行代碼生成工具以及實(shí)時(shí)分析工具,可用于匯編語(yǔ)言和C/C++語(yǔ)言混合編程。

基于CCS的TMS320VC5409A的標(biāo)準(zhǔn)軟件開(kāi)發(fā)流程如圖2所示。

由圖2可以看出,軟件開(kāi)發(fā)過(guò)程中涉及到C編譯器、匯編器、鏈接器等開(kāi)發(fā)工具,重點(diǎn)包括了C編譯、匯編、鏈接和調(diào)試總共4個(gè)階段,具體步驟如下:

1)用C編譯器將C語(yǔ)言源代碼程序自動(dòng)編譯為C5X的匯編語(yǔ)言源代碼程序;

2)用文本編輯器編輯得到符合C5X匯編器格式要求的匯編源程序;

3)調(diào)用匯編器將該源文件導(dǎo)入?yún)R編,如果源文件中調(diào)用了宏,匯編器還會(huì)到宏庫(kù)中搜索該宏;

4)匯編后,將生成格式為公共目標(biāo)文件格式的目標(biāo)文件(.obj),稱為COFF目標(biāo)文件;

5)調(diào)用鏈接器對(duì)目標(biāo)文件提供鏈接,如果包含了運(yùn)行支持庫(kù)和目標(biāo)文件庫(kù),鏈接器還會(huì)到所保護(hù)的庫(kù)中搜索所需的成員。

6)鏈接之后,生成COFF執(zhí)行文件(.out);

7)將COFF執(zhí)行文件下載到C5XDSP中展開(kāi)運(yùn)行,同時(shí)也可借助調(diào)試工具對(duì)程序進(jìn)行跟蹤調(diào)試或優(yōu)化。另外,還可利用交叉參考列表器和絕對(duì)列表器生成一些包含調(diào)試信息的表。

3系統(tǒng)硬件設(shè)計(jì)

3.1基本組成

語(yǔ)音識(shí)別受送話器主要由耳機(jī)、麥克風(fēng)部分和主機(jī)部分組成,詳細(xì)原理框圖如圖3所示。

3.2控制處理電路

控制處理電路相當(dāng)于人的大腦,是語(yǔ)音識(shí)別受送話器的核心構(gòu)成。該電路由信號(hào)濾波、模數(shù)轉(zhuǎn)換、識(shí)別、存儲(chǔ)、延時(shí)、收發(fā)控制、產(chǎn)生提示信號(hào)、靈敏度調(diào)節(jié)等各部分組成,每一獨(dú)立功能均由軟件程序調(diào)試控制完成。在此,針對(duì)該控制處理電路的基礎(chǔ)功能模式流程展開(kāi)設(shè)計(jì)解析,具體論述如下。

3.2.1 信號(hào)濾波、模數(shù)轉(zhuǎn)換、語(yǔ)音實(shí)現(xiàn)

控制處理電路將收到的前置放大電路送來(lái)的信號(hào)首先進(jìn)行濾波、去除外帶無(wú)用的信號(hào),而后進(jìn)行模數(shù)轉(zhuǎn)換,即編碼,將模擬信號(hào)轉(zhuǎn)為數(shù)字信號(hào)。

語(yǔ)音實(shí)現(xiàn)部分,本文研究選用了MC145483。這是一款功能全面的音頻編解碼器,MC145483的主要外接管腳有PCM數(shù)據(jù)輸入端DR,PCM數(shù)據(jù)輸出端DT、芯片主控制時(shí)鐘MCLK(頻率可為256kHz,512kHz,1.536MHz,2.048MHz,4.096MHz)、接收幀同步信號(hào)FSR(8kHz)、發(fā)送幀同步信號(hào)FST(8kHz)、接收端的位時(shí)鐘BCLKR(256kHz到4096kHz)。MC145483可以提供高質(zhì)量的語(yǔ)音通信,而且電路簡(jiǎn)單,通過(guò)調(diào)節(jié)相應(yīng)的電阻比值即可改變麥克風(fēng)和揚(yáng)聲器的增益數(shù)值。研究可得,語(yǔ)音實(shí)現(xiàn)電路如圖4所示。

圖4 語(yǔ)音實(shí)現(xiàn)電路圖

Fig.4 Phoneticalisation circuit diagram

至此,MC145483則通過(guò)數(shù)字輸入/輸出接口連接至DSP芯片。由于DSP芯片是專門針對(duì)數(shù)字信號(hào)設(shè)計(jì)和開(kāi)發(fā)的,所以在數(shù)字信號(hào)分析和處理的領(lǐng)域中,比通用CPU芯片的處理速度更快,效率更高,穩(wěn)定性更好。本次研究最終選擇了TMS320VC5409芯片??偠灾琈C145483可將輸入的模擬音頻信號(hào)經(jīng)過(guò)抽樣、量化、編碼后變成數(shù)字音頻信號(hào)發(fā)送給DSP處理,也可從DSP接收經(jīng)過(guò)其處理后的數(shù)字音頻信號(hào),并將其通過(guò)DA轉(zhuǎn)換后還原為模擬音頻信號(hào)輸出。

3.2.2 信號(hào)識(shí)別、存儲(chǔ)、延時(shí)

這一功能是控制處理電路的重點(diǎn)與關(guān)鍵。收到轉(zhuǎn)換后的數(shù)字信號(hào)后,通過(guò)分析判斷是否為人的講話聲音。如果不是,系統(tǒng)選擇忽略;如果是,則將數(shù)字信號(hào)進(jìn)行存儲(chǔ),同時(shí)使系統(tǒng)轉(zhuǎn)為發(fā)射狀態(tài)。再將存儲(chǔ)的數(shù)字信號(hào)經(jīng)過(guò)數(shù)模轉(zhuǎn)換,即信號(hào)解碼,恢復(fù)為模擬信號(hào),經(jīng)過(guò)不到1s的延時(shí)送至輸出放大電路輸出。信號(hào)識(shí)別可以確保系統(tǒng)運(yùn)行高度可靠,而延時(shí)則可以實(shí)現(xiàn)信號(hào)的理想成功傳送。

3.2.3 受送話結(jié)束提示音

為了獲得最佳使用,設(shè)置受送話結(jié)束提示音。受送話結(jié)束提示音分為送話結(jié)束提示音和受話結(jié)束提示音。下面將基于各自實(shí)現(xiàn)闡釋。

1)送話結(jié)束提示音。結(jié)束講話時(shí),系統(tǒng)需判定使用者講話是否結(jié)束。判定的方法是在使用者結(jié)束講話后1~2s內(nèi)沒(méi)有重新講話,便可視作講話結(jié)束。在1~2s后系統(tǒng)將由發(fā)射狀態(tài)自動(dòng)調(diào)為接收待機(jī)狀態(tài),同時(shí)發(fā)出“嘀”的提示音,告知使用者系統(tǒng)目前已處于接收狀態(tài)。

2)受話結(jié)束提示音。當(dāng)使用者接收到對(duì)方電臺(tái)的聲音時(shí),接收的聲音一般是連續(xù)的,在對(duì)方講話期間,使用者是不能發(fā)送的。在對(duì)方停止講話后,系統(tǒng)會(huì)產(chǎn)生一個(gè)“嘀”的提示音,通知使用者對(duì)方講話已結(jié)束,可以講話發(fā)射了。

3.2.4 發(fā)射屏蔽信號(hào)

發(fā)射屏蔽信號(hào)主要用來(lái)在接收時(shí)屏蔽發(fā)射功能,這是另一重要設(shè)計(jì)組成部分。其實(shí)現(xiàn)作用如下:當(dāng)使用者在接收對(duì)方講話期間,因?yàn)殡娕_(tái)處于接收狀態(tài),對(duì)方電臺(tái)則處于發(fā)射狀態(tài),此時(shí)是不能發(fā)射的。即使己方電臺(tái)發(fā)射,由于對(duì)方電臺(tái)也同樣處于發(fā)射狀態(tài),對(duì)方也是聽(tīng)不到使用者講話的,相應(yīng)地使用者也不能聽(tīng)到對(duì)方的講話了。這種現(xiàn)象是人為原因造成的通信線路紊亂。為了避免這一現(xiàn)象的不利效果的干擾出現(xiàn),設(shè)計(jì)時(shí)處理電路會(huì)監(jiān)視收到的信號(hào),在對(duì)方處于講話期間,即便使用者發(fā)聲講話,處理電路也將屏蔽講話信號(hào)(此種狀態(tài)下,即使不使用通信系統(tǒng),電臺(tái)同樣不能在對(duì)方講話期間發(fā)射),只有在對(duì)方講話結(jié)束,即受話結(jié)束提示音響過(guò)以后才能講話、發(fā)射,確保不會(huì)產(chǎn)生通信紊亂現(xiàn)象。

4應(yīng)用效果

2016年5月23~25日,“2016年中國(guó)杭州G20峰會(huì)地震安全保障?華東地震應(yīng)急聯(lián)動(dòng)協(xié)作區(qū)應(yīng)急支援演練” 在杭州臨安舉行,來(lái)自江蘇、福建、安徽、江西、浙江和上海五省一市地震局的6支隊(duì)伍參加了演練。江蘇局研發(fā)的骨傳導(dǎo)數(shù)字語(yǔ)音識(shí)別受送話器在地震現(xiàn)場(chǎng)搜救科目中發(fā)揮了高效作用,有效提高了救援效率。得到了中國(guó)地震局應(yīng)急救援司領(lǐng)導(dǎo)和參與專家的一致好評(píng)。

5結(jié)束語(yǔ)

骨傳導(dǎo)數(shù)字語(yǔ)音識(shí)別受送話器在江蘇局的應(yīng)用,首要優(yōu)勢(shì)即是控制消除了對(duì)外界聲音和沖擊等的辨識(shí)接收。當(dāng)救援人員講話時(shí),自動(dòng)識(shí)別產(chǎn)生PTT,就可以實(shí)現(xiàn)通話。救援人員的雙手獲得了徹底解放,講話時(shí)對(duì)講機(jī)自動(dòng)發(fā)射,這種通信方法的優(yōu)化,對(duì)于提高救援效率,已然呈現(xiàn)出顯著現(xiàn)實(shí)益處與良好的方法指導(dǎo)意義。

參考文獻(xiàn)

[1]李寧,徐守坤,馬正華,等.自適應(yīng)語(yǔ)音識(shí)別算法仿真研究[J].計(jì)算機(jī)仿真,2011,28(8):181-185.

[2]張雪英.數(shù)字語(yǔ)音處理及MATLAB仿真[M].北京:電子工業(yè)出版社,2010:189-189.

[3]余建潮,張瑞林.基于MFCC和LPCC的說(shuō)話人識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(5):1189-1191.

第5篇

所謂“手語(yǔ)識(shí)別”是指,通過(guò)計(jì)算機(jī)采集設(shè)備獲得聾啞人的手語(yǔ)數(shù)據(jù),采用模式識(shí)別算法,結(jié)合上下文知識(shí),獲知手語(yǔ)含義,進(jìn)而翻譯成語(yǔ)音,傳達(dá)給不懂手語(yǔ)的正常人。這樣,正常人就可以“聽(tīng)懂手語(yǔ)”。

而“手語(yǔ)合成”是指,正常人通過(guò)語(yǔ)音表達(dá)自己的意圖,計(jì)算機(jī)將語(yǔ)音翻譯為手語(yǔ)并表現(xiàn)出來(lái),向聾啞人傳遞信息。這樣,聾啞人就能夠“看懂聲音”。

從2000年開(kāi)始,“手語(yǔ)識(shí)別與合成”項(xiàng)目組始終專注于手語(yǔ)與語(yǔ)音、語(yǔ)言自動(dòng)轉(zhuǎn)換技術(shù)的研究,在“大詞匯量的手語(yǔ)識(shí)別”、“非特定人手語(yǔ)識(shí)別”,以及“多模式手語(yǔ)合成”等方面擁有大量核心技術(shù),申請(qǐng)國(guó)家發(fā)明專利二十余項(xiàng),其中手語(yǔ)編輯、手語(yǔ)翻譯等相關(guān)專利已獲授權(quán)。

該項(xiàng)目得到了國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目以及國(guó)家“863”高技術(shù)發(fā)展項(xiàng)目等多項(xiàng)課題基金的支持,在國(guó)內(nèi)外形成了廣泛的影響,并獲得2003年度國(guó)家科技進(jìn)步獎(jiǎng)二等獎(jiǎng)。

在研究過(guò)程中,項(xiàng)目組采用“沿途生蛋”的產(chǎn)業(yè)化模式,將部分階段研究成果成熟后直接推向應(yīng)用,從實(shí)踐中得到反饋,為進(jìn)一步研發(fā)積累需求,并且項(xiàng)目成果在多個(gè)實(shí)踐中得到有效應(yīng)用。

其中,“電視臺(tái)用手語(yǔ)電視節(jié)目制作系統(tǒng)”通過(guò)自動(dòng)合成手語(yǔ)視頻窗口,可與電視節(jié)目同步播放;“奧運(yùn)新聞實(shí)時(shí)播報(bào)系統(tǒng)”獲國(guó)家科技支撐計(jì)劃“無(wú)障礙信息平臺(tái)”資助,將在2008年奧運(yùn)會(huì)上展示;對(duì)奧運(yùn)志愿者進(jìn)行培訓(xùn)的“奧運(yùn)手語(yǔ)在線互動(dòng)教學(xué)系統(tǒng)”獲得北京市信息辦和殘聯(lián)等各部分的支持,成為2008殘奧會(huì)志愿者必備學(xué)習(xí)軟件;“標(biāo)準(zhǔn)中國(guó)手語(yǔ)電子詞典”已在1000多所聾校推廣應(yīng)用。

第6篇

TTS是“Text To Speech”的縮寫,即“從文本到語(yǔ)音”。它同時(shí)運(yùn)用語(yǔ)言學(xué)和心理學(xué)的杰出之作,把文字智能地轉(zhuǎn)化為自然語(yǔ)音流。電子小說(shuō)軟件將文字讀出來(lái)、銀行營(yíng)業(yè)廳的語(yǔ)音叫號(hào)系統(tǒng)、詞霸朗讀單詞、手機(jī)朗讀短信和來(lái)電朋友的姓名……這就是目前應(yīng)用最廣泛的TTS語(yǔ)音識(shí)別技術(shù)。想了解其最新研究進(jìn)展可以訪問(wèn)網(wǎng)站/speech/tts.asp。那么,我們又是如何進(jìn)一步控制計(jì)算機(jī)的呢?

計(jì)算機(jī)為什么能聽(tīng)懂我們的話?

技術(shù)上,實(shí)現(xiàn)語(yǔ)音識(shí)別就是讓計(jì)算機(jī)通過(guò)識(shí)別和理解的過(guò)程把自然語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或計(jì)算機(jī)指令。語(yǔ)

音識(shí)別是一門交叉學(xué)科,所涉及的領(lǐng)域很廣,包括信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。

在語(yǔ)音識(shí)別過(guò)程中,首先要將說(shuō)話的聲音由模擬的語(yǔ)音信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),然后從信號(hào)中提取語(yǔ)音特征,同時(shí)進(jìn)行數(shù)據(jù)壓縮。輸入的模擬語(yǔ)音信號(hào)也要進(jìn)行預(yù)處理,包括預(yù)濾波、采樣和量化、加窗、端點(diǎn)檢測(cè)、預(yù)加重等。語(yǔ)音識(shí)別系統(tǒng)的模型通常由聲學(xué)模型和語(yǔ)言模型兩部分組成。

p語(yǔ)音輸入模式圖

p語(yǔ)音識(shí)別軟件工作流程圖

語(yǔ)音識(shí)別過(guò)程主要分為兩個(gè)階段:“學(xué)習(xí)”階段中,計(jì)算機(jī)的主要任務(wù)是建立識(shí)別基本單元的聲學(xué)模型以及進(jìn)行文法分析的語(yǔ)言模型,即構(gòu)建參考模式庫(kù);在“識(shí)別”階段,計(jì)算機(jī)根據(jù)識(shí)別系統(tǒng)的類型選擇能夠滿足要求的識(shí)別方法,采用語(yǔ)音分析方法分析出這種識(shí)別方法所要求的語(yǔ)音特征參數(shù),按照一定的準(zhǔn)則和測(cè)度與參考模式庫(kù)中的模型進(jìn)行比較從而得出識(shí)別結(jié)果。

Vista,語(yǔ)音識(shí)別就在你身邊

微軟在最新推出的Vista中增加了上千個(gè)讓人耳目一新的新功能,其中之一便是能讓你與計(jì)算機(jī)進(jìn)行交談的“語(yǔ)音識(shí)別”技術(shù)。

其實(shí),Windows XP就已經(jīng)內(nèi)置了當(dāng)時(shí)較為先進(jìn)的TTS語(yǔ)音識(shí)別引擎,同時(shí)也支持語(yǔ)音輸入功能,不過(guò)要實(shí)現(xiàn)語(yǔ)音輸入功能還需要另外安裝語(yǔ)音輸入模塊。

而Windows Vista的語(yǔ)音識(shí)別功能已經(jīng)內(nèi)置在系統(tǒng)中,功能更為強(qiáng)大,我們可以通過(guò)說(shuō)話來(lái)讓計(jì)算機(jī)完成操作、輸入文字、將屏幕上的文字朗讀出來(lái)、處理文件夾和文件、通過(guò)IE瀏覽器來(lái)訪問(wèn)互聯(lián)網(wǎng)、單擊屏幕的任意位置、操作窗口和程序……這些功能基本上實(shí)現(xiàn)了通過(guò)語(yǔ)音命令來(lái)完成計(jì)算機(jī)的常用操作和語(yǔ)音輸入命令,對(duì)于某些特殊需要的人來(lái)說(shuō)非常實(shí)用。沒(méi)有配置鍵盤、鼠標(biāo)?記不清命令的路徑?手忙不過(guò)來(lái)?一樣可以通過(guò)說(shuō)話控制計(jì)算機(jī)。

pWindows Vista的語(yǔ)音識(shí)別向?qū)?/p>

p在Windows Vista控制面板中設(shè)置語(yǔ)音識(shí)別選項(xiàng)

pWindows Vista的語(yǔ)音識(shí)別工具欄窗口

p語(yǔ)音檢索識(shí)別??梢酝ㄟ^(guò)哼唱歌曲的段落在卡拉OK廳找出想唱的歌曲,通過(guò)說(shuō)話尋找手機(jī)電話本中的聯(lián)系人,甚至可以用手機(jī)通過(guò)哼唱音樂(lè)旋律來(lái)下載彩鈴。

p使用語(yǔ)音控制通過(guò)說(shuō)出不同鏈接的編號(hào)瀏覽網(wǎng)頁(yè)

如何找到并設(shè)置語(yǔ)音識(shí)別的功能呢?在Vista控制面板的搜索欄中輸入“語(yǔ)音識(shí)別選項(xiàng)”即可。需要注意的是,在

開(kāi)始設(shè)置之前請(qǐng)將麥克風(fēng)和音箱(或者耳機(jī))連接到計(jì)算機(jī)上。如果啟動(dòng)語(yǔ)音識(shí)別時(shí)提示錯(cuò)誤,可能是你開(kāi)啟了其他音頻軟件(比如Windows Media Player等音樂(lè)播放軟件),關(guān)閉這些軟件后就可以正常開(kāi)啟語(yǔ)音識(shí)別了。

開(kāi)啟Windows Vista的語(yǔ)音識(shí)別軟件后會(huì)出現(xiàn)一個(gè)語(yǔ)音識(shí)別設(shè)置向?qū)?,在其中?huì)引導(dǎo)你對(duì)麥克風(fēng)進(jìn)行設(shè)置以及進(jìn)行語(yǔ)音訓(xùn)練。語(yǔ)音訓(xùn)練是目前的語(yǔ)音識(shí)別軟件比較通用的一個(gè)使用前的設(shè)置工作,因?yàn)槲覀兠總€(gè)人的說(shuō)話口音和習(xí)慣都不同,計(jì)算機(jī)要聽(tīng)懂你說(shuō)的話當(dāng)然也需要提前學(xué)習(xí),大大提高語(yǔ)音識(shí)別的準(zhǔn)確率。

語(yǔ)音識(shí)別設(shè)置向?qū)Р粌H能幫助計(jì)算機(jī)學(xué)習(xí)和適應(yīng)你的說(shuō)話習(xí)慣,還能教給你語(yǔ)音識(shí)別的使用方法和常用的語(yǔ)音命令。設(shè)置完成并啟用語(yǔ)音識(shí)別功能以后,Windows的語(yǔ)音識(shí)別提示工具窗口會(huì)浮現(xiàn)在桌面上方以方便你隨時(shí)使用。這時(shí),我們就可以隨心所欲地通過(guò)與計(jì)算機(jī)“交談”來(lái)控制計(jì)算機(jī)了。特別值得一提的是,Vista的語(yǔ)音識(shí)別對(duì)于桌面控制和在使用瀏覽器瀏覽網(wǎng)頁(yè)上也更加人性化,比如它會(huì)自動(dòng)檢測(cè)并給網(wǎng)頁(yè)鏈接加上編號(hào),讀出編號(hào)即能訪問(wèn)相應(yīng)的鏈接了。

第7篇

關(guān)鍵詞:語(yǔ)音識(shí)別;動(dòng)態(tài)時(shí)間規(guī)整算法;人工神經(jīng)元網(wǎng)絡(luò)

中圖分類號(hào):H017文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-3198(2008)02-0199-02

1 背景介紹

語(yǔ)言是人類特有的功能,是人們思維最重要的寄托體,是人類交流最主要的途徑。語(yǔ)音是語(yǔ)言的聲學(xué)表現(xiàn),是人類交流信息最自然、最有效、最方便的手段。語(yǔ)言和語(yǔ)音與人類社會(huì)科學(xué)文化發(fā)展緊密相連。

語(yǔ)音識(shí)別技術(shù)是讓機(jī)器接收,識(shí)別和理解語(yǔ)音信號(hào),并將其轉(zhuǎn)換成相應(yīng)的數(shù)字信號(hào)的技術(shù)。它是一門交叉學(xué)科,涉及到語(yǔ)音語(yǔ)言學(xué)、數(shù)理統(tǒng)計(jì)、計(jì)算機(jī)、信號(hào)處理等一系列學(xué)科。

2 發(fā)展歷史

1952年貝爾實(shí)驗(yàn)室的Davis等人研制成功了能識(shí)別十個(gè)英文數(shù)字發(fā)音的Audry系統(tǒng),標(biāo)志著語(yǔ)音識(shí)別技術(shù)研究工作開(kāi)始。20世紀(jì)60年代計(jì)提出了動(dòng)態(tài)規(guī)劃(Dynamic programming)和線性預(yù)測(cè)分析技術(shù)(Liner Predictive)等重要成果。20世紀(jì)70年代,語(yǔ)音識(shí)別領(lǐng)域取得了突破。實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立語(yǔ)音識(shí)別系統(tǒng)。20世紀(jì)80年代語(yǔ)音識(shí)別研究進(jìn)一步走向深入, 基于特定人孤立語(yǔ)音技術(shù)的系統(tǒng)研制成功, 隱馬爾可夫模型和人工神經(jīng)元網(wǎng)絡(luò)(Artificial Neural Network)在語(yǔ)音識(shí)別中的成功應(yīng)用。進(jìn)入20世紀(jì)90年代后語(yǔ)音識(shí)別系統(tǒng)開(kāi)始從實(shí)驗(yàn)室走向?qū)嵱?。我?guó)對(duì)語(yǔ)音識(shí)別的研究開(kāi)始于20世紀(jì)80年代,近年來(lái)發(fā)展迅速,并取得了一系列的成果。

3 具體應(yīng)用

隨著計(jì)算機(jī)技術(shù)、模式識(shí)別等技術(shù)的發(fā)展,適應(yīng)不同場(chǎng)合的語(yǔ)音識(shí)別系統(tǒng)相繼被開(kāi)發(fā)出來(lái),語(yǔ)音識(shí)別及處理技術(shù)已經(jīng)越來(lái)越突現(xiàn)出其強(qiáng)大的技術(shù)優(yōu)勢(shì)。近三十年來(lái),語(yǔ)音識(shí)別在計(jì)算機(jī)、信息處理、通信與電子系統(tǒng)、自動(dòng)控制等領(lǐng)域的應(yīng)用越來(lái)越廣泛。

在許多政府部門、商業(yè)機(jī)構(gòu),語(yǔ)音識(shí)別技術(shù)的應(yīng)用,可免除大量操作人員的重復(fù)勞動(dòng),既經(jīng)濟(jì)又方便。如:語(yǔ)音郵件、IP電話和IP傳真、電子商務(wù)、自動(dòng)語(yǔ)音應(yīng)答系統(tǒng)、自動(dòng)語(yǔ)音信箱、基于IP的語(yǔ)音、數(shù)據(jù)、視頻的CTI系統(tǒng)、綜合語(yǔ)音、數(shù)據(jù)服務(wù)系統(tǒng)、自然語(yǔ)音識(shí)別系統(tǒng)、專家咨詢信息服務(wù)系統(tǒng)、尋呼服務(wù)、故障服務(wù)、秘書服務(wù)、多媒體綜合信息服務(wù)、專業(yè)特別服務(wù)號(hào)(168自動(dòng)信息服務(wù)系統(tǒng),112、114、119等信息查詢系統(tǒng))等。許多特定環(huán)境下,如工業(yè)控制方面,在一些工作環(huán)境惡劣、對(duì)人身有傷害的地方(如地下、深水及輻射、高溫等)或手工難以操作的地方,均可通過(guò)語(yǔ)音發(fā)出相應(yīng)的控制命令,讓設(shè)備完成各種工作。

當(dāng)今,語(yǔ)音識(shí)別產(chǎn)品不僅在人機(jī)交互中,占到的市場(chǎng)比例越來(lái)越大,而且在許多領(lǐng)域都有了廣闊的應(yīng)用前景,在人們的社會(huì)生活中起著舉足輕重的作用。

4 語(yǔ)音識(shí)別系統(tǒng)原理

語(yǔ)音識(shí)別一般分為兩個(gè)步驟:學(xué)習(xí)階段和識(shí)別階段。學(xué)習(xí)階段的任務(wù)是建立識(shí)別基本單元的聲學(xué)模型以及語(yǔ)言模型。識(shí)別階段是將輸入的目標(biāo)語(yǔ)音的特征參數(shù)和模型進(jìn)行比較,得到識(shí)別結(jié)果。

語(yǔ)音識(shí)別過(guò)程如圖所示。下面對(duì)該流程作簡(jiǎn)單介紹:

(1)語(yǔ)音采集設(shè)備如話筒、電話等將語(yǔ)音轉(zhuǎn)換成模擬信號(hào)。

(2)數(shù)字化一般包括預(yù)濾波、采樣和A/D變換。該過(guò)程將模擬信號(hào)轉(zhuǎn)變成計(jì)算機(jī)能處理的數(shù)字信號(hào)。

(3)預(yù)處理一般包括預(yù)加重、加窗分幀。經(jīng)預(yù)處理后的信號(hào)被轉(zhuǎn)換成了幀序列的加窗的短時(shí)信號(hào)。

(4)參數(shù)分析是對(duì)短時(shí)信號(hào)進(jìn)行分析,提取語(yǔ)音特征參數(shù)的過(guò)程,如時(shí)域、頻域分析,矢量量化等。

(5)語(yǔ)音識(shí)別是目標(biāo)語(yǔ)音根據(jù)特征參數(shù)與模型庫(kù)中的參數(shù)進(jìn)行匹配,產(chǎn)生識(shí)別結(jié)果的過(guò)程。一般有模板匹配法、隨機(jī)模型法和神經(jīng)網(wǎng)絡(luò)等。

(6)應(yīng)用程序根據(jù)識(shí)別結(jié)果產(chǎn)程預(yù)定動(dòng)作。

(7)該過(guò)程是語(yǔ)音模型的學(xué)習(xí)過(guò)程。

5 現(xiàn)有算法介紹

語(yǔ)音識(shí)別常用的方法有:模板匹配法、人工神經(jīng)網(wǎng)絡(luò)法。

(1)模板匹配法是語(yǔ)音識(shí)別中常用的一種相似度計(jì)算方法。模板匹配法一般將語(yǔ)音或單詞作為識(shí)別單元,一般適用于詞匯表較小的場(chǎng)合。在訓(xùn)練階段,對(duì)用戶語(yǔ)音進(jìn)行特征提取和特征維數(shù)的壓縮,這個(gè)過(guò)程常用的方法是采用矢量量化(VQ)技術(shù)。然后采用聚類方法或其他方法,針對(duì)每個(gè)模式類各產(chǎn)生一個(gè)或幾個(gè)模板。識(shí)別階段將待識(shí)別的語(yǔ)音模式的特征參數(shù)與各模板進(jìn)行相似度的計(jì)算,將最高相似者作為識(shí)別結(jié)果。但由于用戶在不同時(shí)刻發(fā)同一個(gè)音的時(shí)間長(zhǎng)度有較大隨意性,所以識(shí)別時(shí)必須對(duì)語(yǔ)音時(shí)間進(jìn)行伸縮處理。研究表明,簡(jiǎn)單的線性伸縮是不能滿足要求的。由日本學(xué)者板倉(cāng)在70年代提出的動(dòng)態(tài)時(shí)間伸縮算法(DTW)很好的解決了這一問(wèn)題。DTW算法能夠較好地解決小詞匯量、孤立詞識(shí)別時(shí)說(shuō)話速度不均勻的難題。DTW算法示意圖如圖所示。

設(shè)測(cè)試的語(yǔ)音參數(shù)共有M幀矢量,而參考模板有N幀矢量,且M≠N,則DTW 就是尋找一個(gè)時(shí)間歸整函數(shù)tn=f(tm),它將測(cè)試矢量的時(shí)間軸tm非線性地映射到模板的時(shí)間軸tn上,并使該函數(shù)滿足第k幀(k=1,2,…M)測(cè)試矢量I和第f(k)幀(f(k)=1,2…N)模板矢量J之間的距離測(cè)度之和最小:

Distance=min∑Mk=1d[I(k)-J(f(k))]

另外,在實(shí)際識(shí)別系統(tǒng)中,語(yǔ)音的起點(diǎn)或終點(diǎn)由摩擦音構(gòu)成,環(huán)境噪聲也比較大,語(yǔ)音的端點(diǎn)檢測(cè)會(huì)存在較大的誤差。DTW 算法起點(diǎn)點(diǎn)可以固定在(tm,tn)=(1,1),稱為固定起點(diǎn);也可以選擇在(1,2)、(2,1)等點(diǎn),稱為松馳起點(diǎn)。同樣,中止點(diǎn)可以選擇在(M,N)點(diǎn),稱為固定終點(diǎn);也可以選擇在(N一1,M)、(N,M一1)等點(diǎn),稱為松弛終點(diǎn)。松弛的DTW 算法的起始點(diǎn)從(1,1)、(1,2)、(2,1)等點(diǎn)中選擇一最小值,終止點(diǎn)從(M,N)、(M,N-1)、(M-1,N)等點(diǎn)中選擇一最小值,兩語(yǔ)音樣本之間的相互距離在相應(yīng)的點(diǎn)放松后選擇一最小距離。松弛DTW可以克服由于端點(diǎn)檢測(cè)不精確引起的誤差,但運(yùn)算量加大。

(2)人工神經(jīng)網(wǎng)絡(luò)法?,F(xiàn)實(shí)世界的語(yǔ)音信號(hào)會(huì)隨著許多特征如:說(shuō)話人語(yǔ)速、語(yǔ)調(diào)以及環(huán)境的變化而動(dòng)態(tài)變化的,想要用傳統(tǒng)的基于模板的方法建立一個(gè)適應(yīng)動(dòng)態(tài)變化的語(yǔ)音識(shí)別系統(tǒng)是非常困難的。因此需要設(shè)計(jì)一個(gè)帶有自學(xué)習(xí)能力的自適應(yīng)識(shí)別系統(tǒng),以便可以適應(yīng)語(yǔ)音的動(dòng)態(tài)變化。

人工神經(jīng)網(wǎng)絡(luò)由神經(jīng)元、網(wǎng)絡(luò)拓樸和學(xué)習(xí)方法構(gòu)成。人工神經(jīng)網(wǎng)絡(luò)拓樸結(jié)構(gòu)可分為反饋型和非反饋型(前饋型)。學(xué)習(xí)方法可分為監(jiān)督型和非監(jiān)督型。各種人工神經(jīng)網(wǎng)絡(luò)模型中應(yīng)用得最典型的是采用反向傳播(Back Propagation)學(xué)習(xí)算法的多層前饋網(wǎng)絡(luò)。多層前饋型網(wǎng)絡(luò)如圖所示。

除上述介紹的幾種常用的方法外,還有許多其它的識(shí)別方法以及改進(jìn)算法。

6 尚未解決的問(wèn)題及值得研究的方向

(1)就算法模型方面而言,需要有進(jìn)一步的突破。聲學(xué)模型和語(yǔ)言模型是聽(tīng)寫識(shí)別的基礎(chǔ)。目前使用的語(yǔ)言模型只是一種概率模型,還沒(méi)有用到以語(yǔ)言學(xué)為基礎(chǔ)的文法模型,而要使計(jì)算機(jī)確實(shí)理解人類的語(yǔ)言,就必須在這一點(diǎn)上取得進(jìn)展。

(2)語(yǔ)音識(shí)別的自適應(yīng)性也有待進(jìn)一步改進(jìn)。同一個(gè)音節(jié)或單詞的語(yǔ)音不僅對(duì)隨著的講話者的不同而變化,而且對(duì)同一個(gè)講話者在不同場(chǎng)合,不同上下文環(huán)境中也會(huì)發(fā)生變化。這意味著對(duì)語(yǔ)言模型的進(jìn)一步改進(jìn)。

(3)語(yǔ)音識(shí)別技術(shù)還需要能排除各種環(huán)境因素的影響。目前,對(duì)語(yǔ)音識(shí)別效果影響最大的就是環(huán)境雜音或噪音。要在嘈雜環(huán)境中使用語(yǔ)音識(shí)別技術(shù)必須有特殊的抗噪麥克風(fēng)才能進(jìn)行,這對(duì)多數(shù)用戶來(lái)說(shuō)是不現(xiàn)實(shí)的。在公共場(chǎng)合中,如何讓語(yǔ)音識(shí)別技術(shù)能有摒棄環(huán)境嗓音并從中獲取所需要的特定聲音是一個(gè)艱巨的任務(wù)。

雖然在短期內(nèi)還不可能造出具有和人相比擬的語(yǔ)音識(shí)別系統(tǒng),但在未來(lái)幾年內(nèi),語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用將更加廣泛,各種語(yǔ)音識(shí)別系統(tǒng)產(chǎn)品將陸續(xù)進(jìn)入我們的生活。語(yǔ)音識(shí)別各個(gè)方面的技術(shù)正在不斷地進(jìn)步,一步步朝著更加智能化的方向發(fā)展。

參考文獻(xiàn)

[1]楊尚國(guó),楊金龍.語(yǔ)音識(shí)別技術(shù)概述[J].福建電腦,2006,(8).

[2]孫寧,孫勁光,孫宇. 基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別技術(shù)研究[J]. 計(jì)算機(jī)與數(shù)字工程,2006.

[3]Phil Woodland. Speech Recognition. Speech and Language Engineering-State of the Art (Ref. No. 1998/499).

第8篇

【關(guān)鍵詞】隱馬爾可夫;語(yǔ)音識(shí)別;單片機(jī)

在這個(gè)高科技的信息時(shí)代,計(jì)算機(jī)占著極為重要的地位,人機(jī)通信是人與機(jī)器之間進(jìn)行信息通訊,使機(jī)器按照人的意愿工作,傳統(tǒng)的人機(jī)通信是通過(guò)鍵盤、按鈕以及顯示器等機(jī)器設(shè)備實(shí)現(xiàn)的,在許多場(chǎng)合都不是很方便,其最理想的通信方式就是通過(guò)語(yǔ)音進(jìn)行識(shí)別。實(shí)現(xiàn)人與機(jī)器通過(guò)自然語(yǔ)音的方式進(jìn)行信息通訊,不僅可以簡(jiǎn)化日常工作,更可以提高工作效率,帶給人們極大的方便。而實(shí)現(xiàn)這個(gè)理想最關(guān)鍵的部分就是語(yǔ)音識(shí)別技術(shù)。

1語(yǔ)音識(shí)別概述

1.1語(yǔ)音信號(hào)的產(chǎn)生

物體的振動(dòng)產(chǎn)生聲音,正在發(fā)聲的物體叫做聲源,聲音在介質(zhì)中以聲波的形式傳播。語(yǔ)音是指人的發(fā)聲器官振動(dòng)所發(fā)出的負(fù)載一定語(yǔ)言意義的聲音,發(fā)音器官主要有肺部、氣管、喉部、咽、鼻腔、口腔和上下唇,每個(gè)人的聲道各不相同,從而各自發(fā)出的聲音也不相同。

語(yǔ)音信號(hào)主要有模擬信號(hào)和數(shù)字信號(hào)兩種表現(xiàn)形式。模擬信號(hào)是人直接通過(guò)耳朵聽(tīng)到的信號(hào),是時(shí)間和幅值均連續(xù)的物理量,由于其數(shù)據(jù)量過(guò)大、有較多的隨機(jī)因素等原因不能直接被作為計(jì)算機(jī)的識(shí)別信號(hào)。數(shù)字信號(hào)是時(shí)間和數(shù)值均離散的二進(jìn)制數(shù)字量化的模擬信號(hào),是計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)的基礎(chǔ)。數(shù)字信號(hào)相比模擬信號(hào)有以下優(yōu)點(diǎn):可以實(shí)現(xiàn)很多復(fù)雜的信號(hào)處理工作;具有可靠性高、價(jià)格低廉、反應(yīng)迅速等特點(diǎn);有利于區(qū)分出干擾信號(hào)等。所以要想使計(jì)算機(jī)按照人類的自然語(yǔ)言要求工作,關(guān)鍵的就是將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)。

1.2語(yǔ)音信號(hào)的處理

根據(jù)討論,若要對(duì)語(yǔ)音信號(hào)進(jìn)行處理必須先對(duì)此信號(hào)進(jìn)行預(yù)處理,即將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),再整理、分析、理解轉(zhuǎn)換后的數(shù)字信號(hào),并過(guò)濾掉多余的信息。主要包括數(shù)字化、預(yù)加重和加窗分幀三部分。

數(shù)字化就是把語(yǔ)音模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的采樣與量化過(guò)程,采樣是在相同間隔的時(shí)間內(nèi)抽取信號(hào)而得到離散的序列,并將其轉(zhuǎn)換為數(shù)字。量化則是在有限的區(qū)域內(nèi)分布采樣后的信號(hào)。預(yù)加重是通過(guò)一個(gè)高通濾波器使頻譜變得平坦,防止衰減作用,不受有限字長(zhǎng)效應(yīng)的影響。以“幀”為單位對(duì)語(yǔ)音信號(hào)進(jìn)行截取,使信號(hào)有短時(shí)平穩(wěn)的特征,加窗則可以讓截取的信號(hào)波形更加平滑。

1.3語(yǔ)音信號(hào)的模塊處理

在語(yǔ)音識(shí)別中,常使用的基本算法有:動(dòng)態(tài)時(shí)間規(guī)整技術(shù)(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)。

1)隱馬爾可夫模型

隱馬爾可夫模型(HMM)在當(dāng)前語(yǔ)音識(shí)別系統(tǒng)中占據(jù)主流地位。它是一種隨機(jī)概率模型,其使用大大降低了模型的復(fù)雜度。早在20世紀(jì)六七十年代就開(kāi)始研究的統(tǒng)計(jì)信號(hào)模型。HMM是在Markov鏈的基礎(chǔ)上發(fā)展起來(lái)的,但實(shí)際問(wèn)題要更為復(fù)雜,所觀察到的事件與一組概率分布相關(guān)。它是一個(gè)雙重隨機(jī)過(guò)程,一個(gè)是Markov鏈,這是基本隨機(jī)過(guò)程,它描述狀態(tài)的轉(zhuǎn)移;一個(gè)是隨機(jī)過(guò)程描述狀態(tài)和觀測(cè)值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系,觀察者不能直接看到狀態(tài),而是由感覺(jué)感知到的,因此稱之為“隱”Markov模型,即HMM。

2)人工神經(jīng)網(wǎng)絡(luò)法

ANN現(xiàn)在已經(jīng)成為了另一個(gè)熱點(diǎn),是非線性系統(tǒng),具有DTW和HMM沒(méi)有的對(duì)比、概括、推理能力。

3)動(dòng)態(tài)時(shí)間規(guī)整技術(shù)

DTW是模板訓(xùn)練和模式匹配中出現(xiàn)最早的技術(shù),使用動(dòng)態(tài)規(guī)劃技術(shù)在孤立詞語(yǔ)音識(shí)別中具有良好的成果,但是其計(jì)算量較大,很難被使用到現(xiàn)實(shí)中的語(yǔ)音識(shí)別。目前已經(jīng)被其他的算法所替代。

2語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)思路

語(yǔ)音識(shí)別技術(shù)正在不斷的發(fā)展中,在硬件平臺(tái)上實(shí)現(xiàn)語(yǔ)音識(shí)別以取代繁瑣的工作成為其發(fā)展的必然趨勢(shì)。本文就是對(duì)基于單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)的研究。由于單片機(jī)本身存在著處理速度慢、存儲(chǔ)能力不強(qiáng)大的缺陷,所以此次設(shè)計(jì)是基于孤立詞的語(yǔ)音識(shí)別系統(tǒng)。

語(yǔ)音識(shí)別系統(tǒng)的模型庫(kù)訓(xùn)練工作原理是:特定人的語(yǔ)音信號(hào)進(jìn)入系統(tǒng),系統(tǒng)對(duì)進(jìn)入的語(yǔ)音信號(hào)濾波,目的是為了消除需要的語(yǔ)音頻率之外的其他雜音,進(jìn)而數(shù)模轉(zhuǎn)換,將輸入的語(yǔ)音模擬信號(hào)數(shù)字化,有利于計(jì)算機(jī)進(jìn)行識(shí)別。數(shù)字化后的語(yǔ)音信號(hào)再通過(guò)預(yù)處理、加窗分幀。對(duì)于剩下的語(yǔ)音信號(hào)送入HMM模板與模板庫(kù)進(jìn)行訓(xùn)練和匹配,再將最佳的結(jié)果傳輸給用戶。

3系統(tǒng)模塊設(shè)計(jì)及系統(tǒng)測(cè)試

此次設(shè)計(jì)是基于單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)研究,有以下幾點(diǎn)要求:該系統(tǒng)必須使完整的語(yǔ)音識(shí)別系統(tǒng),有簡(jiǎn)單的顯示功能,提高系統(tǒng)的識(shí)別性能,體積盡量減小。

工作原理首先采集語(yǔ)音信號(hào),輸入完成后通過(guò)濾波采集需要的語(yǔ)音信號(hào),再通過(guò)數(shù)模轉(zhuǎn)換器進(jìn)入控制器,再與標(biāo)準(zhǔn)語(yǔ)音庫(kù)中的語(yǔ)音信號(hào)進(jìn)行對(duì)比,找出最接近該段信號(hào)的語(yǔ)音,再將識(shí)別出的語(yǔ)音通過(guò)LCD顯示模塊顯示給用戶。

系統(tǒng)檢測(cè)首先確認(rèn)是否有按鍵按下,當(dāng)檢測(cè)到有按鍵按下時(shí),表示系統(tǒng)開(kāi)始運(yùn)行,如果沒(méi)有按下,則表示系統(tǒng)處于非工作狀態(tài),只有當(dāng)有按鍵時(shí),才可以工作。進(jìn)而開(kāi)始接收語(yǔ)音信號(hào),首先對(duì)語(yǔ)音信號(hào)進(jìn)行濾波消除雜音,然后通過(guò)數(shù)模轉(zhuǎn)換電路,將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),預(yù)處理、端點(diǎn)檢測(cè)后,與事先存儲(chǔ)好的信號(hào)進(jìn)行比對(duì),得到最后的識(shí)別結(jié)果,將識(shí)別出來(lái)的結(jié)果,送往LCD液晶顯示器上顯示出來(lái),展現(xiàn)給用戶。

此次設(shè)計(jì)通過(guò)MATLAB軟件實(shí)現(xiàn)對(duì)語(yǔ)音信號(hào)的調(diào)試。在接收語(yǔ)音信號(hào)時(shí),有可能產(chǎn)生外界的干擾噪聲,這就需要我們通過(guò)一系列復(fù)雜的公式計(jì)算,對(duì)該信號(hào)進(jìn)行處理,進(jìn)而在送由單片機(jī)進(jìn)行下一步的工作。

4結(jié)束語(yǔ)

語(yǔ)音識(shí)別技術(shù)是實(shí)現(xiàn)人與計(jì)算機(jī)進(jìn)行直接對(duì)話,讓計(jì)算機(jī)自動(dòng)對(duì)人所說(shuō)的話進(jìn)行識(shí)別、理解并執(zhí)行的技術(shù)手段。語(yǔ)音識(shí)別技術(shù)的應(yīng)用已經(jīng)成為一個(gè)被受關(guān)注的新型技術(shù)產(chǎn)業(yè),它的實(shí)現(xiàn)能夠簡(jiǎn)化人們?cè)谝酝ぷ髦械姆爆?,未?lái)語(yǔ)音識(shí)別還要向低成本、高性能方向不斷發(fā)展。

【參考文獻(xiàn)】

第9篇

關(guān)鍵詞 空間增強(qiáng);譜減法;連續(xù)語(yǔ)音識(shí)別;自適應(yīng);雙通道信號(hào)

中圖分類號(hào) TP393文獻(xiàn)標(biāo)識(shí)碼 A文章編號(hào) 10002537(2014)03006306

雖然自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)的研究已投入了大量的人員和資金,但是它還不能夠像電話一樣,作為日常生活的一部分完整地融入到人們的生活當(dāng)中.其中一個(gè)最主要的問(wèn)題就是自動(dòng)語(yǔ)音識(shí)別系統(tǒng)在噪聲和混響環(huán)境下,特別是二者混合環(huán)境下的識(shí)別性能過(guò)于低下[1].在大多數(shù)情況下,為獲得可接受的識(shí)別性能,只能依賴于麥克風(fēng)陣列的使用,即通過(guò)使用大量按照特定位置放置的麥克風(fēng)來(lái)獲取語(yǔ)音輸入和空間信息.大量的ASR研究,使用麥克風(fēng)陣列得到方向增益,以改善噪聲與混響環(huán)境中獲取信號(hào)的質(zhì)量;采用模式識(shí)別技術(shù)中的譜減法來(lái)消除噪聲和處理語(yǔ)音訓(xùn)練集與測(cè)試集不匹配問(wèn)題[2].

在日常應(yīng)用中,普通用戶既不可能隨身攜帶麥克風(fēng)陣列也不可能精確地放置它們.目前,日常使用的麥克風(fēng)是與雙通道耳機(jī)相對(duì)應(yīng)的,它能得到雙通道語(yǔ)音信號(hào),卻不能得到復(fù)雜的空間信息.如果依然采用傳統(tǒng)的信號(hào)增強(qiáng)方法(例如廣義旁瓣抵消技術(shù))來(lái)處理雙通道信號(hào),以作為語(yǔ)音識(shí)別系統(tǒng)的預(yù)處理端,那么噪聲的消除反而會(huì)帶來(lái)無(wú)法接受的語(yǔ)音失真.

譜減法[3]作為另一種消除噪聲的技術(shù),可以不依賴麥克風(fēng)陣列獲取輸入信號(hào),但是卻存在三大缺點(diǎn):(1)噪聲估計(jì)誤差過(guò)大導(dǎo)致噪聲消除時(shí)語(yǔ)音失真;(2)增強(qiáng)后的語(yǔ)音中含有明顯的“音樂(lè)噪聲”;(3)混響未被處理.

為解決上述問(wèn)題,本文基于雙聲道語(yǔ)音信號(hào)簡(jiǎn)單的空間特性,綜合使用改進(jìn)的廣義旁瓣抵消空間增強(qiáng)技術(shù)和改進(jìn)的譜減法技術(shù)作為語(yǔ)音識(shí)別系統(tǒng)的噪聲消除和信號(hào)放大的預(yù)處理端,并基于HTK開(kāi)發(fā)工具設(shè)計(jì)一個(gè)識(shí)別性能優(yōu)異的語(yǔ)音識(shí)別系統(tǒng).

1 系統(tǒng)描述

圖1 系統(tǒng)結(jié)構(gòu)

Fig.1 System structure

圖1為本系統(tǒng)的整體構(gòu)架.它由空間增強(qiáng)、譜減法模塊和自動(dòng)語(yǔ)音識(shí)別模塊3個(gè)主要部分構(gòu)成.

1.1 空間增強(qiáng)模塊

因?yàn)榭臻g線索是語(yǔ)音識(shí)別的主要部分和遠(yuǎn)場(chǎng)麥克風(fēng)語(yǔ)音識(shí)別的組織焦點(diǎn),在該ASR系統(tǒng)中,采用PASCAL “CHiME”[4]組織提供的雙通道含噪語(yǔ)音信號(hào),利用該信號(hào)簡(jiǎn)單的空間特性可以得到表現(xiàn)優(yōu)異的噪聲估計(jì).

有許多經(jīng)典的使用麥克風(fēng)陣列的方法來(lái)放大目標(biāo)信號(hào),例如通過(guò)延遲求和方式的波束形成,自適應(yīng)噪聲消除(ANC)以及獨(dú)立成分分析(ICA).它們使用麥克風(fēng)陣列得到方向增益,以改善在噪聲與混響環(huán)境中獲取信號(hào)的質(zhì)量.

1.2 噪聲消除模塊

通常的ASR系統(tǒng)在處理含噪信號(hào)時(shí)性能大幅度下降,因此,噪音消除是該系統(tǒng)中常見(jiàn)且必須的組成部分.當(dāng)前主流的噪聲消除技術(shù)可以分為3大部分.(1)使用時(shí)域?yàn)V波技術(shù),例如維納濾波和自適應(yīng)濾波;(2)嘗試還原原始語(yǔ)音譜的譜還原技術(shù),例如譜減法[5]和參數(shù)減法;(3)為增強(qiáng)語(yǔ)音結(jié)構(gòu),有許多基于語(yǔ)音模型的噪聲消除技術(shù),例如基于諧波模型的噪聲消除.然而,使用這些技術(shù)來(lái)獲得噪聲衰減和信噪比的改善,往往會(huì)造成語(yǔ)音失真.通常,越干凈的噪聲消除會(huì)導(dǎo)致越嚴(yán)重的語(yǔ)音失真,因此,研究設(shè)計(jì)一個(gè)針對(duì)復(fù)雜聲學(xué)環(huán)境的ASR系統(tǒng),在語(yǔ)音失真和噪聲消除之間尋找一個(gè)平衡點(diǎn),是非常重要的工作.

1.3 識(shí)別系統(tǒng)自適應(yīng)

通過(guò)一些經(jīng)典的空間濾波和噪聲消除技術(shù)來(lái)處理麥克風(fēng)陣列在真實(shí)環(huán)境中獲取的聲音信號(hào),較直接采集含噪聲音,具有更好的聽(tīng)感知質(zhì)量.但是無(wú)論系統(tǒng)設(shè)計(jì)多么完備,獲得的加強(qiáng)聲音中依然會(huì)有噪聲殘留和語(yǔ)音失真的問(wèn)題存在,它們能被正常人輕易的接受和識(shí)別,但是目前的ASR系統(tǒng)卻不具備這樣的能力.當(dāng)前幾乎所有的ASR系統(tǒng)都采用模式識(shí)別技術(shù),當(dāng)測(cè)試數(shù)據(jù)集接近訓(xùn)練數(shù)據(jù)集時(shí),能夠得到非常高的識(shí)別精確度.但是噪聲殘留和語(yǔ)音失真會(huì)導(dǎo)致測(cè)試數(shù)據(jù)集完全不同于“干凈”的訓(xùn)練數(shù)據(jù)集,訓(xùn)練和測(cè)試不匹配的問(wèn)題會(huì)直接導(dǎo)致ASR系統(tǒng)識(shí)別率的降低.

為解決這些問(wèn)題,前人提出許多的方法,例如模型再訓(xùn)練和自適應(yīng),特征變換和歸一化[67],建立環(huán)境模型和模型特征一體化技術(shù)將之使用在自動(dòng)語(yǔ)音識(shí)別模塊上,能起到良好的效果.

綜合考慮到對(duì)上面所述三部分的分析,所有的模塊都應(yīng)該整合為一體,只有通過(guò)良好的語(yǔ)音信號(hào)預(yù)處理和完善的識(shí)別系統(tǒng)自適應(yīng),才能構(gòu)架一個(gè)更優(yōu)異性能的ASR系統(tǒng).

2 系統(tǒng)設(shè)計(jì)

本文提出一個(gè)簡(jiǎn)潔而具有高魯棒性的針對(duì)CHiME問(wèn)題的ASR系統(tǒng).首先,依據(jù)雙通道信號(hào)的空間信息增強(qiáng)它們,然后采用改進(jìn)的譜減法獲得增強(qiáng)信號(hào),作為ASR系統(tǒng)的輸入,最終得到識(shí)別結(jié)果和關(guān)鍵詞準(zhǔn)確率.

2.1 改進(jìn)的空間增強(qiáng)

由于存在混響問(wèn)題,使用傳統(tǒng)方法得到雙通道信號(hào)的空間信息的有效內(nèi)容非常困難.另外,如果采用傳統(tǒng)的信號(hào)增強(qiáng)方法,例如基于廣義旁瓣相消(GSC) 的波束成型,作為ASR系統(tǒng)的前端,那么噪音消除會(huì)帶來(lái)語(yǔ)音失真[8],會(huì)極大地降低ASR系統(tǒng)的識(shí)別性能.語(yǔ)音失真是由GSC多路輸入抵消器(MC)的窄帶自適應(yīng)濾波器導(dǎo)致的,它既無(wú)法良好地消除噪聲,同時(shí)還消耗昂貴的計(jì)算資源.

圖2 空間增強(qiáng)

Fig.2 Spatial enhancement

本ASR系統(tǒng)的前端,利用雙通道語(yǔ)音信號(hào)的優(yōu)勢(shì),移除了典型GSC里的MC模型,使得在空間濾波的同時(shí)盡量避免語(yǔ)音失真和降低計(jì)算負(fù)擔(dān)(圖2).該模塊的主要任務(wù)是提取參考噪聲,而不再進(jìn)行噪聲消除.

4 結(jié)論

本文針對(duì)語(yǔ)音識(shí)別這一交叉性強(qiáng)的學(xué)科,打破傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)局限于利用有限的技術(shù),不斷挖掘技術(shù)潛力,來(lái)達(dá)到提高性能的研究模式,提出了一種全新的綜合性構(gòu)架,并取得了實(shí)質(zhì)性的成效;考慮到人類聽(tīng)覺(jué)的生理情況,結(jié)合空間增強(qiáng)層得出的無(wú)目標(biāo)語(yǔ)言的參考噪聲,對(duì)譜減法模塊做了積極的改變.將去除噪聲操作從空間增強(qiáng)層移動(dòng)到了效率更高的譜減法層,將噪聲估計(jì)移動(dòng)到空間增強(qiáng)層,使得整個(gè)系統(tǒng)的分工更加明確,以降低耦合,提高魯棒性;使用了倒譜均值歸一化實(shí)現(xiàn)標(biāo)準(zhǔn)39維梅爾倒頻譜系數(shù),為語(yǔ)音識(shí)別模塊加入基于最大后驗(yàn)概率的自適應(yīng)訓(xùn)練,提高了訓(xùn)練效率和系統(tǒng)整體性能.

參考文獻(xiàn):

[1] 宋志章,馬 麗,劉省非,等.混合語(yǔ)音識(shí)別模型的設(shè)計(jì)與仿真研究[J].計(jì)算機(jī)仿真, 2012,29 (5):152155.

[2] HIRSCH H G, PEARCE D. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//ASR2000Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW). Paris, France, 2000,9:1820.

[3] 張 滿,陶 亮,周 健.基于實(shí)值離散Cabor變換的譜減法語(yǔ)音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用, 2012,48(29):109113.

[4] BARKER J, VINCENT E, MA N, et al. The PASCAL CHiME speech separation and recognition challenge[J]. Computer Speech Language, 2013,27(3):621633.

[5] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. Speech and Signal Processing, IEEE Transactions, 1979,27(2):113120.

[6] HERMANSKY H, MORGAN N. RASTA processing of speech[J]. Speech and Audio Processing, IEEE Transactions, 1994,2(4):578589.

[7] CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]//2005 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: March 1823, 2005.

[8] BRANDSTEIN, MICHAEL, DARREN WARD. Microphone arrays: signal processing techniques and applications[M]. New York: Springer, 1996:2075.

[9] KAUPPINEN I, ROTH K. Improved noise reduction in audio signals using spectral resolution enhancement with timedomain signal extrapolation[J]. Speech and Audio Processing, IEEE Transactions, 2005,13(6):12101216.