雷運(yùn)發(fā)第3章音頻信息處理.ppt
《雷運(yùn)發(fā)第3章音頻信息處理.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《雷運(yùn)發(fā)第3章音頻信息處理.ppt(80頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
第3章音頻信息處理,學(xué)習(xí)目標(biāo)l了解聲音信號(hào)的特點(diǎn)、存儲(chǔ)格式及質(zhì)量的度量方法l理解音頻信號(hào)壓縮方法及音頻編碼標(biāo)準(zhǔn)l掌握常用的音頻處理軟件對(duì)聲音信號(hào)進(jìn)行處理l了解語(yǔ)音識(shí)別技術(shù)及其應(yīng)用,,3.1音頻信息處理基礎(chǔ),,音頻信息在多媒體中的應(yīng)用極為廣泛:視頻圖像配以娓娓動(dòng)聽(tīng)的音樂(lè)和語(yǔ)音;靜態(tài)或動(dòng)態(tài)圖像配以解說(shuō)和背景音樂(lè);立體聲音樂(lè)可增加空間感;游戲中的音響效果等。音頻處理技術(shù)主要包括電聲轉(zhuǎn)換、音頻信號(hào)的存儲(chǔ)、重放技術(shù)、加工處理技術(shù)以及數(shù)字化音頻信號(hào)的編碼、壓縮、傳輸、存取、糾錯(cuò)等。,3.1.1音頻信號(hào)的特點(diǎn),1.音頻信號(hào)的分類(lèi)音頻信號(hào)可分為兩類(lèi):語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)。語(yǔ)音是語(yǔ)言的物質(zhì)載體,是社會(huì)交際工具的符號(hào),它包含了豐富的語(yǔ)言?xún)?nèi)涵,是人類(lèi)進(jìn)行信息交流所特有的形式。非語(yǔ)音信號(hào)主要包括音樂(lè)和自然界存在的其他聲音形式。非語(yǔ)音信號(hào)的特點(diǎn)是不具有復(fù)雜的語(yǔ)義和語(yǔ)法信息,信息量低、識(shí)別簡(jiǎn)單。,規(guī)則音頻是一種連續(xù)變化的模擬信號(hào),可用一條連續(xù)的曲線來(lái)表示,稱(chēng)為聲波。因聲波是在時(shí)間和幅度上都連續(xù)變化的量,我們稱(chēng)之為模擬量。,用聲音錄制軟件記錄的英文單詞“Hello”的語(yǔ)音實(shí)際波形,2.模擬音頻信號(hào)的兩個(gè)重要參數(shù),模擬音頻信號(hào)有兩個(gè)重要參數(shù):頻率和幅度。聲音的頻率體現(xiàn)音調(diào)的高低,聲波幅度的大小體現(xiàn)聲音的強(qiáng)弱。一個(gè)聲源每秒鐘可產(chǎn)生成百上千個(gè)波,我們把每秒鐘波峰所發(fā)生的數(shù)目稱(chēng)之為信號(hào)的頻率,單位用赫茲(Hz)或千赫茲(kHz)表示。信號(hào)的幅度是從信號(hào)的基線到當(dāng)前波峰的距離。幅度決定了信號(hào)音量的強(qiáng)弱程度。幅度越大,聲音越強(qiáng)。對(duì)音頻信號(hào),聲音的強(qiáng)度用分貝(dB)表示,分貝的幅度就是音量。,3.聲音的A/D與D/A轉(zhuǎn)換,A/D轉(zhuǎn)換就是把模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)的過(guò)程,模擬電信號(hào)變?yōu)榱擞伞?”和“1”組成的Bit信號(hào)。這樣做的好處是顯而易見(jiàn)的,聲音存儲(chǔ)質(zhì)量得到了加強(qiáng),數(shù)字化的聲音信息使計(jì)算機(jī)能夠進(jìn)行識(shí)別、處理和壓縮。A/D轉(zhuǎn)換的一個(gè)關(guān)鍵步驟是聲音的采樣和量化,得到數(shù)字音頻信號(hào),它在時(shí)間上是不連續(xù)的離散信號(hào)。借助于A/D或D/A轉(zhuǎn)換器,模擬信號(hào)和數(shù)字信號(hào)可以互相轉(zhuǎn)換。,4.聲音的三要素,1)音調(diào):代表了聲音的高低。音調(diào)與頻率有關(guān),頻率越高,音調(diào)越高,反之亦然。讀者也許有這樣的經(jīng)驗(yàn),當(dāng)提高磁帶錄音機(jī)的轉(zhuǎn)速時(shí),其旋轉(zhuǎn)加快,聲音信號(hào)的頻率提高,其喇叭放出來(lái)聲音的音調(diào)提高了。同樣,在使用音頻處理軟件對(duì)聲音的頻率進(jìn)行調(diào)整時(shí),也可明顯感到音調(diào)隨之而產(chǎn)生的變化。各種不同的聲源具有自己特定的音調(diào),如果改變了某種聲源的音調(diào),則聲音會(huì)發(fā)生質(zhì)的轉(zhuǎn)變,使人們無(wú)法辨別聲源本來(lái)的面目。,2)音色:即特色的聲音。聲音分純音和復(fù)音兩種類(lèi)型。所謂純音,是指振幅和周期均為常數(shù)的聲音;復(fù)音則是具有不同頻率和不同振幅的混合聲音。大自然中的聲音絕大部分是復(fù)音。在復(fù)音中,最低頻率的聲音是“基音”,它是聲音的基調(diào)。其他頻率的聲音稱(chēng)為“諧音”,也叫泛音。基音和諧音是構(gòu)成聲音音色的重要因素。各種聲源都具有自己獨(dú)特的音色,例如各種樂(lè)器的聲音、每個(gè)人的聲音、各種生物的聲音等,人們就是依據(jù)音色來(lái)辨別聲源種類(lèi)的。,3)音強(qiáng):聲音的強(qiáng)度,也被稱(chēng)為聲音的響度,常說(shuō)的“音量”也是指音強(qiáng)。音強(qiáng)與聲波的振幅成正比,振幅越大,強(qiáng)度越大。唱盤(pán)、CD激光盤(pán)以及其他形式聲音載體中的聲音強(qiáng)度是一定的,通過(guò)播放設(shè)備的音量控制,可改變聆聽(tīng)時(shí)的響度。,聲音的頻譜有線性頻譜和連續(xù)頻譜之分。線性頻譜是具有周期性的單一頻率聲波;連續(xù)頻譜是具有非周期性的帶有一定頻帶所有頻率分量的聲波。純粹的單一頻率的聲波只能在專(zhuān)門(mén)的設(shè)備中創(chuàng)造出來(lái),聲音效果單調(diào)而乏味。自然界中的聲音幾乎全部屬于非周期性聲波,該聲波具有廣泛的頻率分量,聽(tīng)起來(lái)聲音飽滿(mǎn)、音色多樣且具有生氣。,5.聲音的頻譜,3.1.2模擬音頻的數(shù)字化過(guò)程,數(shù)字化的聲音易于用計(jì)算機(jī)軟件處理,現(xiàn)在幾乎所有的專(zhuān)業(yè)化聲音錄制、編輯器都是數(shù)字方式。對(duì)模擬音頻數(shù)字化過(guò)程涉及到音頻的采樣、量化和編碼。采樣和量化的過(guò)程可由A/D轉(zhuǎn)換器實(shí)現(xiàn)。A/D轉(zhuǎn)換器以固定的頻率去采樣,即每個(gè)周期測(cè)量和量化信號(hào)一次。經(jīng)采樣和量化后聲音信號(hào)經(jīng)編碼后就成為數(shù)字音頻信號(hào),可以將其以文件形式保存在計(jì)算機(jī)的存儲(chǔ)介質(zhì)中,這樣的文件一般稱(chēng)為數(shù)字聲波文件。,信息論的奠基者香農(nóng)(Shannon)指出:在一定條件下,用離散的序列可以完全代表一個(gè)連續(xù)函數(shù),這是采樣定理的基本內(nèi)容。為實(shí)現(xiàn)A/D轉(zhuǎn)換,需要把模擬音頻信號(hào)波形進(jìn)行分割,這種方法稱(chēng)為采樣(Sampling)。采樣的過(guò)程是每隔一個(gè)時(shí)間間隔在模擬聲音的波形上取一個(gè)幅度值,把時(shí)間上的連續(xù)信號(hào)變成時(shí)間上的離散信號(hào)。該時(shí)間間隔稱(chēng)為采樣周期,其倒數(shù)為采樣頻率。采樣頻率是指計(jì)算機(jī)每秒鐘采集多少個(gè)聲音樣本。,1.采樣,采樣頻率與聲音頻率之間有一定的關(guān)系,根據(jù)奈奎斯特(Nyquist)理論,只有采樣頻率高于聲音信號(hào)最高頻率的兩倍時(shí),才能把數(shù)字信號(hào)表示的聲音還原成為原來(lái)的聲音。,采樣只解決了音頻波形信號(hào)在時(shí)間坐標(biāo)(即橫軸)上把一個(gè)波形切成若干個(gè)等分的數(shù)字化問(wèn)題,但是還需要用某種數(shù)字化的方法來(lái)反映某一瞬間聲波幅度的電壓值大小。該值的大小影響音量的高低。我們把對(duì)聲波波形幅度的數(shù)字化表示稱(chēng)之為“量化”。量化的過(guò)程是先將采樣后的信號(hào)按整個(gè)聲波的幅度劃分成有限個(gè)區(qū)段的集合,把落入某個(gè)區(qū)段內(nèi)的樣值歸為一類(lèi),并賦于相同的量化值。如何分割采樣信號(hào)的幅度呢?我們還是采取二進(jìn)制的方式,以8位(bit)或16位(bit)的方式來(lái)劃分縱軸。也就是說(shuō)在一個(gè)以8位為記錄模式的音效中,其縱軸將會(huì)被劃分為個(gè)量化等級(jí),用以記錄其幅度大小。,2.量化,,以下圖所示的原始模擬波形為例進(jìn)行采樣和量化。假設(shè)采樣頻率為1000次/秒,即每1/1000秒A/D轉(zhuǎn)換器采樣一次,其幅度被劃分成0到9共10個(gè)量化等級(jí),并將其采樣的幅度值取最接近0~9之間的一個(gè)數(shù)來(lái)表示,如下圖所示。圖中每個(gè)正方形表示一次采樣。,D/A轉(zhuǎn)換器從上圖得到的數(shù)值中重構(gòu)原來(lái)信號(hào)時(shí),得到下圖中藍(lán)色(直線段)線段所示的波形。從圖中可以看出,藍(lán)色線與原波形(紅色線)相比,其波形的細(xì)節(jié)部分丟失了很多。這意味著重構(gòu)后的信號(hào)波形有較大的失真。,失真在采樣過(guò)程中是不可避免的,如何減少失真呢?可以直觀地看出,我們可以把上圖中的波形劃分成更為細(xì)小的區(qū)間,即采用更高的采樣頻率。同時(shí),增加量化精度,以得到更高的量化等級(jí),即可減少失真的程度。在下圖(左)中,采樣率和量化等級(jí)均提高了一倍,分別為2000次/秒和20個(gè)量化等級(jí)。在下圖(右)中,采樣率和量化等級(jí)再提高了一倍,分別達(dá)到4000次/秒和40個(gè)量化等級(jí)。從圖中可以看出,當(dāng)用D/A轉(zhuǎn)換器重構(gòu)原來(lái)信號(hào)時(shí)(圖中的輪廓線),信號(hào)的失真明顯減少,信號(hào)質(zhì)量得到了提高。,3.編碼模擬信號(hào)量經(jīng)過(guò)采樣和量化以后,形成一系列的離散信號(hào)——脈沖數(shù)字信號(hào)。這種脈沖數(shù)字信號(hào)可以一定的方式進(jìn)行編碼,形成計(jì)算機(jī)內(nèi)部運(yùn)行的數(shù)據(jù)。所謂編碼,就是按照一定的格式把經(jīng)過(guò)采樣和量化得到的離散數(shù)據(jù)記錄下來(lái),并在有用的數(shù)據(jù)中加入一些用于糾錯(cuò)、同步和控制的數(shù)據(jù)。在數(shù)據(jù)回放時(shí),可以根據(jù)所記錄的糾錯(cuò)數(shù)據(jù)判別讀出的聲音數(shù)據(jù)是否有錯(cuò),如在一定范圍內(nèi)有錯(cuò),可加以糾正。編碼的形式比較多,常用的編碼方式是PCM——脈沖調(diào)制。脈沖編碼調(diào)制(PCM)是把模擬信號(hào)變換為數(shù)字信號(hào)的一種調(diào)制方式,即把連續(xù)輸入的模擬信號(hào)變換為在時(shí)域和振幅上都離散的量,然后將其轉(zhuǎn)化為代碼形式傳輸或存儲(chǔ)。,3.1.3數(shù)字音頻的文件格式在多媒體技術(shù)中,存儲(chǔ)音頻信息的文件格式主要有:WAV文件、VOC文件和MP3文件等。1.WAV文件WAV文件又稱(chēng)波形文件,來(lái)源于對(duì)聲音模擬波形的采樣,并以不同的量化位數(shù)把這些采樣點(diǎn)的值輪換成二進(jìn)制數(shù),然后存入磁盤(pán),這就產(chǎn)生了波形文件。WAV文件用于保存Windows平臺(tái)的音頻信息資源,被Windows平臺(tái)及其應(yīng)用程序所廣泛支持。,WAV聲音文件是使用RIFF(ResourceInterchangeFileFormat資源交換文件)的格式描述的,它由文件頭和波形音頻文件數(shù)據(jù)塊組成。文件頭包括標(biāo)志符、語(yǔ)音特征值、聲道特征以及PCM格式類(lèi)型標(biāo)志等。WAV數(shù)據(jù)塊是由數(shù)據(jù)子塊標(biāo)記、數(shù)據(jù)子塊長(zhǎng)度和波形音頻數(shù)據(jù)3個(gè)數(shù)據(jù)子塊組成。Wave格式支持多種壓縮算法,支持多種音頻位數(shù)、采樣頻率和聲道,是PC機(jī)上最為流行的聲音文件格式,但其文件尺寸較大,多用于存儲(chǔ)簡(jiǎn)短的聲音片斷。,未壓縮的聲音文件的存儲(chǔ)量可用下式計(jì)算:存儲(chǔ)量(KB)=(采樣頻率KHZ采樣位數(shù)bit聲道數(shù)時(shí)間秒)/8,2.VOC文件VOC文件是Creative公司所使用的標(biāo)準(zhǔn)音頻文件格式,多用于保存CreativeSoundBlaster(創(chuàng)新聲霸)系列聲卡所采集的聲音數(shù)據(jù),被Windows平臺(tái)和DOS平臺(tái)所支持。與WAV格式類(lèi)似,VOC文件由文件頭塊和音頻數(shù)據(jù)塊組成。文件頭包含一個(gè)標(biāo)識(shí)、版本號(hào)和一個(gè)指向數(shù)據(jù)塊起始地址的指針,這個(gè)指針幫助數(shù)據(jù)塊定位以便順利找到第一個(gè)數(shù)據(jù)塊。數(shù)據(jù)塊分成各種類(lèi)型的子塊,如聲音數(shù)據(jù)、靜音、標(biāo)記、ASCII碼文件、重復(fù)、重復(fù)的結(jié)束及終止標(biāo)記等。,3.MPEG音頻文件——.MP1/.MP2/.MP3這里的音頻文件格式指的是MPEG標(biāo)準(zhǔn)中的音頻部分,即MPEG音頻層(MPEGAudioLayer)。MPEG音頻文件的壓縮是一種有損壓縮,根據(jù)壓縮質(zhì)量和編碼復(fù)雜程度的不同可分為三層(MPEGAudioLayer1/2/3),分別對(duì)應(yīng)MP1、MP2和MP3這三種聲音文件;MPEG音頻編碼具有很高的壓縮率,MP1和MP2的壓縮率分別為4∶1和6∶1~8∶1,而MP3的壓縮率則高達(dá)10∶1~12∶1,也就是說(shuō)一分鐘CD音質(zhì)的音樂(lè),未經(jīng)壓縮需要10MB存儲(chǔ)空間,而經(jīng)過(guò)MP3壓縮編碼后只有1MB左右,同時(shí)其音質(zhì)基本保持不失真。,4.RealAudio文件——.RA/.RM/.RAMRealAudio文件是RealNetworks公司開(kāi)發(fā)的一種新型流式音頻(StreamingAudio)文件格式;它包含在RealNetworks所制定的音頻、視頻壓縮規(guī)范RealMedia中,主要用于在低速率的廣域網(wǎng)上實(shí)時(shí)傳輸音頻信息;網(wǎng)絡(luò)連接速率不同,客戶(hù)端所獲得的聲音質(zhì)量也不盡相同:對(duì)于28.8kb/s的連接,可以達(dá)到廣播級(jí)的聲音質(zhì)量;如果擁有ISDN或更快的線路連接,則可獲得CD音質(zhì)的聲音。,5.AIFF文件——.AIF/.AIFFAIFF是音頻交換文件格式(AudioInterchangeFileFormat)的英文縮寫(xiě),是蘋(píng)果計(jì)算機(jī)公司開(kāi)發(fā)的一種聲音文件格式;被Macintosh平臺(tái)及其應(yīng)用程序所支持,其他專(zhuān)業(yè)音頻軟件包也同樣支持這種格式。,3.1.4聲音質(zhì)量的評(píng)價(jià),目前有三種方法可以衡量聲音的質(zhì)量。一是用聲音信號(hào)的帶寬來(lái)衡量聲音的質(zhì)量,等級(jí)由高到低依次是DAT,CD,F(xiàn)M,AM和數(shù)字電話。此外,聲音質(zhì)量的度量還有兩種基本的方法:一種是客觀質(zhì)量度量,另一種是主觀質(zhì)量度量。評(píng)價(jià)語(yǔ)音質(zhì)量時(shí),有時(shí)同時(shí)采取兩種方法評(píng)估,有時(shí)以主觀質(zhì)量度量為主。1.以聲音的帶寬衡量聲音的質(zhì)量,2、聲音客觀質(zhì)量的度量聲音客觀質(zhì)量的度量主要用信噪比(signaltonioseratio,SNR)來(lái)度量。它指音源產(chǎn)生最大不失真聲音信號(hào)強(qiáng)度與同時(shí)發(fā)出噪音強(qiáng)度之間的比率,通常以S/N表示。一般用分貝(dB)為單位,信噪比越高表示音頻質(zhì)量越好。信噪比(SNR)用下式計(jì)算:SNR=10log[(Vsignal)2/(Vnoise)2]=20log(Vsignal/Vnoise)其中,Vsignal表示信號(hào)電壓,Vnoise表示噪聲電壓;SNR的單位為分貝(db)。,3、聲音主觀質(zhì)量的度量與用SNR客觀質(zhì)量度量相比較,應(yīng)該可以說(shuō)人的感覺(jué)(如聽(tīng)覺(jué)、視覺(jué)等)更具有決定意義,感覺(jué)上的、主觀上的測(cè)試應(yīng)該成為評(píng)價(jià)聲音質(zhì)量和圖像質(zhì)量不可缺少的部分。而有的學(xué)者則認(rèn)為,在語(yǔ)音和圖像信號(hào)編碼中使用主觀質(zhì)量度量比使用客觀質(zhì)量度量更加恰當(dāng),更有意義??墒且话銇?lái)說(shuō),可靠的主觀度量值也是比較難獲得的,所獲得的值也是一個(gè)相對(duì)值。對(duì)聲音主觀質(zhì)量度量比較通用的標(biāo)準(zhǔn)是5分制:優(yōu)(Excellent)、良(Good)、中(Fair)、差(Poor)、劣(Bad)。,3.2音頻信號(hào)壓縮技術(shù),音頻信號(hào)壓縮編碼的主要依據(jù)是人耳的聽(tīng)覺(jué)特性,主要有兩點(diǎn):1.人的聽(tīng)覺(jué)系統(tǒng)中存在一個(gè)聽(tīng)覺(jué)閾值電平,低于這個(gè)電平的聲音信號(hào)人耳聽(tīng)不到.2.人的聽(tīng)覺(jué)存在屏蔽效應(yīng)。當(dāng)幾個(gè)強(qiáng)弱不同的聲音同時(shí)存在時(shí),強(qiáng)聲使弱聲難以聽(tīng)到,并且兩者之間的關(guān)系與其相對(duì)頻率的大小有關(guān).聲音編碼算法就是通過(guò)這些特性來(lái)去掉更多的冗余數(shù)據(jù),來(lái)達(dá)到壓縮數(shù)據(jù)的目的。,3.2.1脈沖編碼調(diào)制,,1.編碼的原理它的原理框圖下圖所示,3.2.1脈沖編碼調(diào)制,,1.編碼的原理它的原理框圖下圖所示,模擬信號(hào)數(shù)字化一般有三個(gè)步驟:第一步是采樣,就是每隔一段時(shí)間間隔讀一次聲音的幅度;第二步是量化,就是把采樣得到的聲音信號(hào)幅度轉(zhuǎn)換成數(shù)字值。但那時(shí)并沒(méi)有涉及如何進(jìn)行量化。量化有好幾種方法,但可歸納成兩類(lèi):一類(lèi)稱(chēng)為均勻量化,另一類(lèi)稱(chēng)為非均勻量化。采用的量化方法不同,量化后的數(shù)據(jù)量也就不同。因此,可以說(shuō)量化也是一種壓縮數(shù)據(jù)的方法;第三步是編碼,就是按一定格式記錄采樣和量化后的數(shù)據(jù)。,2.均勻量化,采用相同的“等分尺”來(lái)度量采樣得到的幅度,也稱(chēng)為線性量化,如圖3-4所示。量化后的樣本值Y和原始值X的差E=Y-X稱(chēng)為量化誤差或量化噪聲。,,3.非均勻量化,對(duì)輸入信號(hào)進(jìn)行量化時(shí),大的輸入信號(hào)采用大的量化間隔,小的輸入信號(hào)采用小的量化間隔,如圖3-5所示。,,一個(gè)CD—DA采用脈沖編碼調(diào)制PCM編碼的實(shí)例,,,首先用一組脈沖采樣時(shí)鐘信號(hào)與輸入的模擬音頻信號(hào)相乘,相乘的結(jié)果即輸入信號(hào)在時(shí)間軸上的數(shù)字化。然后對(duì)采樣以后的信號(hào)幅值進(jìn)行量化。最簡(jiǎn)單的量化方法是均衡量化,這個(gè)量化的過(guò)程由量化器來(lái)完成。對(duì)經(jīng)量化器A/D變換后的信號(hào)再進(jìn)行編碼,即把量化的信號(hào)電平轉(zhuǎn)換成二進(jìn)制碼組,就得到了離散的二進(jìn)制輸出數(shù)據(jù)序列x(n),n表示量化的時(shí)間序列,x(n)的值就是n時(shí)刻量化后的幅值,以二進(jìn)制的形式表示和記錄。,3.2.2增量調(diào)制它是一種預(yù)測(cè)編碼技術(shù),是PCM編碼的一種變形。DM是對(duì)實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性進(jìn)行編碼,將極性變成“0”和“1”這兩種可能的取值之一。如果實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性為“正”,則用“1”表示;相反則用“0”表示,或者相反。,,圖3-7DM波形示意圖,從上圖中可以看到,在開(kāi)始階段增量調(diào)制器的輸出不能保持跟蹤輸入信號(hào)的快速變化,這種現(xiàn)象稱(chēng)為增量調(diào)制器的“斜率過(guò)載”(slopeoverload)。在輸入信號(hào)緩慢變化部分,即輸入信號(hào)與預(yù)測(cè)信號(hào)的差值接近零的區(qū)域,增量調(diào)制器的輸出出現(xiàn)隨機(jī)交變的“0”和“1”。這種現(xiàn)象稱(chēng)為增量調(diào)制器的粒狀噪聲(granularnoise),這種噪聲是不可能消除的。在輸入信號(hào)變化快的區(qū)域,斜率過(guò)載是關(guān)心的焦點(diǎn),而在輸入信號(hào)變化慢的區(qū)域,關(guān)心的焦點(diǎn)是粒狀噪聲。,3.2.3自適應(yīng)脈沖編碼調(diào)制,是根據(jù)輸入信號(hào)幅度大小來(lái)改變量化階大小的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時(shí)自適應(yīng),即量化階的大小每隔幾個(gè)樣本就改變,也可以是非瞬時(shí)自適應(yīng),即量化階的大小在較長(zhǎng)時(shí)間才發(fā)生變化。改變量化階大小的方法有兩種:一種稱(chēng)為前向自適應(yīng),后向自適應(yīng)。前者是根據(jù)未量化的樣本值的均方根值來(lái)估算輸入信號(hào)的電平,以此來(lái)確定量化階的大小,并對(duì)其電平進(jìn)行編碼作為邊信息(sideinformation)傳送到接收端。后者是從量化器剛輸出的過(guò)去樣本中來(lái)提取量化階信息。,(a)前向自適應(yīng),,(b)后向自適應(yīng),,3.2.4差分脈沖編碼調(diào)制,是利用樣本與樣本之間存在的信息冗余度來(lái)進(jìn)行編碼的一種數(shù)據(jù)壓縮技術(shù)。差分脈沖編碼調(diào)制的思想是,根據(jù)過(guò)去的樣本去估算(estimate)下一個(gè)樣本信號(hào)的幅度大小,這個(gè)值稱(chēng)為預(yù)測(cè)值,然后對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之差進(jìn)行量化編碼,從而就減少了表示每個(gè)樣本信號(hào)的位數(shù)。它與脈沖編碼調(diào)制(PCM)不同的是,PCM是直接對(duì)采樣信號(hào)進(jìn)行量化編碼,而DPCM是對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之差進(jìn)行量化編碼,存儲(chǔ)或者傳送的是差值而不是幅度絕對(duì)值。,差分脈沖編碼調(diào)制的概念示于圖3-9。圖中的差分信號(hào)d(k)是離散輸入信號(hào)s(k)和預(yù)測(cè)器輸出的估算值se(k-1)之差。注意,se(k-1)是對(duì)s(k)的預(yù)測(cè)值,,,3.2.5自適應(yīng)差分脈沖編碼調(diào)制,綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特性,是一種性能比較好的波形編碼。它的核心想法是:①利用自適應(yīng)的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值,②使用過(guò)去的樣本值估算下一個(gè)輸入樣本的預(yù)測(cè)值,使實(shí)際樣本值和預(yù)測(cè)值之間的差值總是最小。它的編碼簡(jiǎn)化框圖如圖3-10所示。,,3.3音頻編碼標(biāo)準(zhǔn),3.3.1CCITTG系列聲音壓縮標(biāo)準(zhǔn)CCITT和ISO先后提出了一系列有關(guān)語(yǔ)音數(shù)據(jù)編譯碼標(biāo)準(zhǔn),下面簡(jiǎn)要介紹幾種音頻編碼技術(shù)標(biāo)準(zhǔn)。1.電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)信號(hào)頻率規(guī)定在300Hz~3.4kHz,采用標(biāo)準(zhǔn)的脈沖編碼調(diào)制(PCM),當(dāng)采樣頻率為8kHz,進(jìn)行8bit量化時(shí),所得數(shù)據(jù)速率為64kb/s,即一個(gè)數(shù)字電話。1972年CCITT為電話質(zhì)量和語(yǔ)音壓縮制定了PCM標(biāo)準(zhǔn)G.711,其速率為64Kb/s,使用非線性量化技術(shù),主要用于公共電話網(wǎng)中。,2.調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)頻率在50Hz一7kHz范圍。G.722標(biāo)準(zhǔn)是采用16kHz采樣,14bit量化,信號(hào)數(shù)據(jù)速率為224kbit/s,采用子帶編碼方法,將輸入音頻信號(hào)經(jīng)濾波器分成高子帶和低子帶兩個(gè)部分,分別進(jìn)行ADPCM編碼,再混合形成輸出碼流,224kbit/s可以被壓縮成64kbit/s,最后進(jìn)行數(shù)據(jù)插入(最高插入速率達(dá)16kbit/s),因此利用G.722標(biāo)準(zhǔn)可以在窄帶綜合服務(wù)數(shù)據(jù)網(wǎng)N-ISDN中的一個(gè)B信道上傳送調(diào)幅廣播質(zhì)量的音頻信號(hào)。,3.高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)高保真立體聲音頻信號(hào)頻率范圍是50Hz~20kHz,采用44.1kHz采樣頻率,16bit量化進(jìn)行數(shù)字化轉(zhuǎn)換,其數(shù)據(jù)速率每聲道達(dá)705kbit/s。1991年國(guó)際標(biāo)準(zhǔn)化組織ISO和CCITT開(kāi)始聯(lián)合制定MPEG標(biāo)準(zhǔn),其中ISOCDlll72-3作為“MPEG音頻”標(biāo)準(zhǔn),成為國(guó)際上公認(rèn)的高保真立體聲音頻壓縮標(biāo)準(zhǔn)。MPEG音頻第一和第二層次編碼是將輸入音頻信號(hào)進(jìn)行采樣頻率為48kHz,44.1kHz,32kHz的采樣,經(jīng)濾波器組將其分為32個(gè)子帶,同時(shí)利用人耳屏蔽效應(yīng),根據(jù)音頻信號(hào)的性質(zhì)計(jì)算各頻率分量的人耳屏蔽門(mén)限,選擇各子帶的量化參數(shù),獲得高的壓縮比。MPEG第三層次是在上述處理后再引入輔助子帶,非均勻量化和熵編碼技術(shù),再進(jìn)一步提高壓縮比。MPEG音頻壓縮技術(shù)的數(shù)據(jù)速率為每聲道32~448kbit/s,適合于CD-DA光盤(pán)應(yīng)用。,3.3.2MP3壓縮技術(shù)MP3的全名是MPEGAudioLayer-3,簡(jiǎn)單地說(shuō)就是一種聲音文件的壓縮格式。ISO/MPEG音頻壓縮標(biāo)準(zhǔn)里包括了三個(gè)使用高性能音頻數(shù)據(jù)壓縮方法的感知編碼方案,按照壓縮質(zhì)量(每Bit的聲音效果)和編碼方案的復(fù)雜程度分別是Layer1、Layer2、Layer3。所有這三層的編碼采用的基本結(jié)構(gòu)是相同的。它們?cè)诓捎脗鹘y(tǒng)的頻譜分析和編碼技術(shù)的基礎(chǔ)上還應(yīng)用了子帶分析和心理聲學(xué)模型理論。也就是通過(guò)研究人耳和大腦聽(tīng)覺(jué)神經(jīng)對(duì)音頻失真的敏感度,在編碼時(shí)先分析聲音文件的波形,利用濾波器找出噪音電平(NoiseLevel),然后濾去人耳不敏感的信號(hào),通過(guò)矩陣量化的方式將余下的數(shù)據(jù)每一位打散排列,最后編碼形成MPEG的文件。而音質(zhì)聽(tīng)起來(lái)與CD相差不大。,MPEG的層次與壓縮比率,,3.3.3MP4壓縮技術(shù)MP4并不是MPEG-4或者M(jìn)PEG-1Layer4,它的出現(xiàn)是針對(duì)MP3的大眾化、無(wú)版權(quán)的一種保護(hù)格式,由美國(guó)網(wǎng)絡(luò)技術(shù)公司開(kāi)發(fā),美國(guó)唱片行業(yè)聯(lián)合會(huì)倡導(dǎo)公布的一種新的網(wǎng)絡(luò)下載和音樂(lè)播放格式。MP4使用的是MPEG-2AAC技術(shù)也就是俗稱(chēng)的a2b或AAC。其中,MPEG-2是MPEG于1994年11月針對(duì)數(shù)碼電視(數(shù)碼影像)提出的。它的特點(diǎn)就是,音質(zhì)更加完美而壓縮比更加大(1:15)。MPEG-2AAC(ISO/IEC13818-7)在采樣率為8~96KHz下提供了1~48個(gè)聲道可選范圍的高質(zhì)量音頻編碼。AAC就是AdvancedAudioCoding(先進(jìn)音頻編碼)的意思,適用于從比特率在8kbit/s單聲道的電話音質(zhì)到160kbit/s多聲道的超高質(zhì)量音頻范圍內(nèi)的編碼,并且允許對(duì)多媒體進(jìn)行編碼/解碼。,AAC與MP3相比,增加了諸如對(duì)立體聲的完美再現(xiàn)、比特流效果音掃描、多媒體控制、降噪優(yōu)異等MP3沒(méi)有的特性,使得在音頻壓縮后仍能完美的再現(xiàn)CD音質(zhì)。AAC技術(shù)主要由以下三個(gè)部分組成。第一,AT&T的音頻壓縮技術(shù)專(zhuān)利。它可以將AAC壓縮比提高到20:1而不損失音質(zhì)。這樣,一首3分鐘的歌僅僅需要2.25MB,這在互聯(lián)網(wǎng)上的下載速度是很驚人的。第二、安全數(shù)據(jù)庫(kù)。它可以為你的AACMusic創(chuàng)建一個(gè)特定的密鑰,將此密鑰存于其數(shù)據(jù)庫(kù)中。同時(shí),只有AAC的播放器才能播放含有這種密鑰第三、協(xié)議認(rèn)證。這個(gè)認(rèn)證包含了復(fù)制許可、允許復(fù)制副本數(shù)目、歌曲總時(shí)間、歌曲可以播放時(shí)間以及售賣(mài)許可等信息。,MP4技術(shù)的優(yōu)越性要遠(yuǎn)遠(yuǎn)高于MP3,因?yàn)樗m合多媒體技術(shù)的發(fā)展以及視聽(tīng)欣賞的需求。但是,MP4是一種商品,它利用改良后的MPEG-2AAC技術(shù)并強(qiáng)加上由出版公司直接授權(quán)的知識(shí)產(chǎn)權(quán)協(xié)議作為新的標(biāo)準(zhǔn);而MP3是一種自由音樂(lè)格式,任何人都可以自由使用。此外,MP4實(shí)際上是由音樂(lè)出版界聯(lián)合授意的官方標(biāo)準(zhǔn);MP3則是廣為流傳的民間標(biāo)準(zhǔn)。相比之下,MP3的靈活和自由度要遠(yuǎn)遠(yuǎn)大于MP4,這使得音樂(lè)發(fā)燒友們更傾向于使用MP3。更重要的一點(diǎn)是,MP3是目前最為流行的一種音樂(lè)格式,它占據(jù)著大量的網(wǎng)絡(luò)資源,這使得MP4的推廣普及難上加難。,3.3.4樂(lè)器數(shù)字接口MIDI,產(chǎn)生MIDI樂(lè)音的方法很多,現(xiàn)在用得較多的方法有兩種:一種是頻率調(diào)制(frequencymodulation,F(xiàn)M)合成法,另一種是樂(lè)音樣本合成法,也稱(chēng)為波形表(Wavetable)合成法。這兩種方法目前主要用來(lái)生成音樂(lè)。FM合成器生成樂(lè)音的工作原理主要是把幾種樂(lè)音的波形用數(shù)字來(lái)表達(dá),并且用數(shù)字計(jì)算機(jī)而不是用模擬電子器件把它們組合起來(lái),通過(guò)數(shù)模轉(zhuǎn)換器(digitaltoanalogconvertor,DAC)來(lái)生成樂(lè)音。但是使用FM合成法來(lái)產(chǎn)生各種逼真的樂(lè)音是相當(dāng)困難的,有些樂(lè)音幾乎不能產(chǎn)生。樂(lè)音樣本合成法就是把真實(shí)樂(lè)器發(fā)出的聲音以數(shù)字的形式記錄下來(lái),播放時(shí)改變播放速度,從而改變音調(diào)周期,生成各種音階的音符。樂(lè)音樣本的采集相對(duì)比較直觀。,MIDI協(xié)議提供了一種標(biāo)準(zhǔn)的和有效的方法,用來(lái)把演奏信息轉(zhuǎn)換成電子數(shù)據(jù)。MIDI信息是以“MIDImessages”傳輸?shù)?,它可以被認(rèn)為是告訴音樂(lè)合成器(musicsynthesizer)如何演奏一小段音樂(lè)的一種指令,而合成器把接收到的MIDI數(shù)據(jù)轉(zhuǎn)換成聲音。國(guó)際MIDI協(xié)會(huì)(InternationalMIDIAssociation)出版的MIDI1.0規(guī)范對(duì)MIDI協(xié)議作了完整的說(shuō)明。,MIDI數(shù)據(jù)流是單向異步的數(shù)據(jù)位流(bitstream),其速率為31.25kbps,每個(gè)字節(jié)為10位(1位開(kāi)始位,8位數(shù)據(jù)位和1位停止位)。MIDI樂(lè)器上的MIDI接口通常包含3種不同的MIDI連接器,用IN(輸入),OUT(輸出)和THRU(穿越)。MIDI數(shù)據(jù)流通常由MIDI控制器(MIDIcontroller)產(chǎn)生,如樂(lè)器鍵盤(pán)(musicalinstrumentkeyboard),或者由MIDI音序器(MIDIsequencer)產(chǎn)生。MIDI控制器是當(dāng)作樂(lè)器使用的一種設(shè)備,在播放時(shí)把演奏轉(zhuǎn)換成實(shí)時(shí)的MIDI數(shù)據(jù)流,MIDI音序器是一種裝置,允許MIDI數(shù)據(jù)被捕獲、存儲(chǔ)、編輯、組合和重奏。來(lái)自MIDI控制器或者音序器的MIDI數(shù)據(jù)輸出通過(guò)該裝置的MIDIOUT連接器傳輸。,3.4常用音頻處理軟件簡(jiǎn)介,3.4.1CoolEditPro,,CoolEditPro是著名的Syntrillium公司開(kāi)發(fā)的數(shù)字音頻處理軟件,其運(yùn)行環(huán)境為Windows啟動(dòng)后其界面如右圖所示。,,CoolEditPro的主要特色有:(1).支持的音頻格式十分豐富,多達(dá)十余種,還提供了對(duì)5種不同類(lèi)型WAV文件的支持。(2).提供豐富的特殊效果。包括3D混響、降噪、濾波、音頻縮/放、合聲、延遲、變形、反轉(zhuǎn)、靜音等。(3).提供了強(qiáng)大的DSP(數(shù)字信號(hào)處理)能力。能夠同時(shí)處理64條音軌。支持錄音、回放、混音、音頻編輯。借助它,能夠方便地制作出自己想要的任何特殊音效,并添加到各種類(lèi)型的多媒體作品中去。(4).操作界面設(shè)計(jì)簡(jiǎn)捷方便。在工具欄中,提供了56個(gè)圖形化按鈕。幾乎所有的編輯操作都能夠方便地進(jìn)行操作。,3.4.2GoldWave,GoldWave的窗口界面如圖下圖所示。,GoldWave是一款相當(dāng)不錯(cuò)的數(shù)碼錄音及編輯軟件,除了附有許多的效果處理功能外,它還能將編輯好的文件存為WAV、AU、SND、RAW和AFC等格式,而且它可以不經(jīng)由聲卡直接抽取SCSI形式的CDROM中的音樂(lè)來(lái)錄制編輯。作為Wave文件編輯處理工具,支持從MP3、MPG、AVI、ASF、MOV等文件中提取音頻進(jìn)行編輯,所以除了它強(qiáng)大的編輯功能外,用作把以上格式的音頻轉(zhuǎn)換成WAV文件也是很方便的。GoldWave同時(shí)是較新的、適合于一般進(jìn)行音頻素材采集與制作的軟件,它集音頻錄制和編輯于一體,不僅是一個(gè)錄音程序,可以很方便地制作CAI課件的背景音樂(lè)、音效、錄制CD、轉(zhuǎn)換音樂(lè)格式等,而且還具有各種復(fù)雜的音樂(lè)編輯和特效處理功能。該軟件不需要安裝,只要運(yùn)行程序文件夾中的可執(zhí)行程序即可。GoldWave小巧玲瓏,只有600K左右,可從下載。,3.4.3CakeWalk(音樂(lè)大師),,作為一種圖形化的音樂(lè)編輯軟件,CakeWalk的主要工作界面就是各種工作窗口,我們對(duì)MIDI事件和音頻事件的所有編輯和操作都是在工作窗口中完成的。如下圖所示,音軌窗既是CakeWalk主界面的主要組成部分,也是重要的工作窗口。類(lèi)似的還有鋼琴窗簾、事件列表窗、調(diào)音臺(tái)窗等,每個(gè)窗口各有所長(zhǎng),分別適用于不同的編輯對(duì)象和編輯特征。,1.Cakewalk的調(diào)音臺(tái)可以自動(dòng)混音,可以一邊播放樂(lè)曲,一邊記錄控制鍵(滑鍵)的調(diào)整動(dòng)作,而且多個(gè)控制鍵可以編組控制,這為制作漸強(qiáng)減弱效果提供了最為簡(jiǎn)單的操作手段。2.對(duì)于所有連續(xù)變化的數(shù)據(jù),例如彎音、調(diào)制、控制器、鍵速和速度等,Cakewalk都提供了手工劃線的編輯方式,用鼠標(biāo)劃一條斜線或曲線便可隨意改變數(shù)值。因此,對(duì)于像彎音輪的細(xì)微變化過(guò)程、速度的自由變化等之類(lèi)較難處理的數(shù)據(jù),在Cakewalk中都變得異常簡(jiǎn)單。3.Cakewalk可以將其所有菜單操作命令賦予MIDI鍵盤(pán),也就是說(shuō),可以用合成器的鍵盤(pán)來(lái)控制軟件的各種操作,其功能是所有音序軟件中最全面的。4.Cakewalk可以將音符的位置、控制器的變化等MIDI信息圖形化地顯示出來(lái),因此看起來(lái)更加接近總譜。,CakewalkProAudio的一些特色功能,3.5波形音頻文件的采集與制作,3.5.1利用“錄音機(jī)”生成和編輯波形文件Windows錄音機(jī)的主要功能是錄音和放音,使用“錄音機(jī)”可以錄制、混合、播放和編輯聲音,也可以將聲音鏈接或插入到另一文檔中。其主要功能操作如下所述:(1)波形文件的錄制:確保音頻輸入設(shè)備已經(jīng)連接到計(jì)算機(jī)。錄音機(jī)常用的輸入設(shè)備是麥克風(fēng)和CD-ROM播放機(jī)。(2)波形文件的存儲(chǔ):存儲(chǔ)的文件格式為波形(.wav)文件。(3)聲音的編輯:復(fù)制、粘貼、插入、刪除等操作。(4)音頻變換與特殊效果:更改聲音的大小、速度、回音等。,CoolEditPro是一種非常出色的聲音編輯器,其主要功能操作如下所述。(1)波形文件的錄制:錄制及錄制參數(shù)(采樣率、量化位數(shù)、單雙聲道等)的設(shè)定。(2)波形文件的存儲(chǔ):存儲(chǔ)的文件格式(.wav、.au、.smp、.asf、.wma等)的選擇,文件格式與參數(shù)(采樣率、量化位數(shù)、單雙聲道)的變換。(3)波形文件選定范圍播放,記錄播放時(shí)間。(4)聲音的編輯:剪切、拷貝、混合粘貼、插入多軌工程、插入多軌播放列表、刪除靜音、零點(diǎn)定位、確定節(jié)拍等。(5)聲音的變換與特殊效果:降噪、擴(kuò)音、剪接、添加立體環(huán)繞、淡入淡出、3D回響等音效。,3.5.2用CoolEditPro編輯制作波形文件,3.6聲音文件格式的互換,1.選擇聲音文件格式的部分原則1)Wav文件:不僅所有的Windows的音效處理應(yīng)用程序都可以播放WAVE文件,而且常見(jiàn)的各種多媒體編輯制作軟件的音效播放都能直接使用WAV文件。再者,WAV格式的音質(zhì)效果也不錯(cuò)。2)MP3文件:如果通過(guò)適當(dāng)?shù)墓ぞ邅?lái)截取CD上的數(shù)字音頻并保存為CD音質(zhì)的WAVE文件,然后進(jìn)行MPEGLayer3的壓縮編碼形成MP3文件,再用合適的解碼軟件對(duì)MP3解碼。那么可以形成一個(gè)節(jié)約大量存儲(chǔ)空間,保持CD音質(zhì)的整體解決方案。3)MIDI文件:是多媒體計(jì)算機(jī)產(chǎn)生音頻(特別是音樂(lè))的另一種主要方式,可以滿(mǎn)足需要長(zhǎng)時(shí)間音樂(lè)的場(chǎng)合。,4)SWA文件:SWA格式的音樂(lè)文件,是Authorware4.0以上版本支持的特殊音樂(lè)格式,它的容量類(lèi)似于流行的MP3,也非常小。在Authorware4.0或4.0以上版本中,自帶WAV→SWA轉(zhuǎn)換器,,3.6.2轉(zhuǎn)換CD音軌,下面以比較常用的CDCopy為例來(lái)說(shuō)明一下如何轉(zhuǎn)換CD音軌。CDCopy是一個(gè)常用的抓音軌工具,它對(duì)爛盤(pán)的糾錯(cuò)性能非常好,還可以把CD音軌轉(zhuǎn)換為WAV、AU、RA、YamahaVQF、AAC、MP3等多種聲音格式,而且CDCopy是一個(gè)共享軟件,我們可以從下載到它的最新版本。抓取及轉(zhuǎn)換音軌步驟分以下3步:1.選擇文件格式2.設(shè)置文件保存路徑3.轉(zhuǎn)換音軌,3.7.1語(yǔ)音識(shí)別的發(fā)展歷史可以將語(yǔ)音識(shí)別近六十年的發(fā)展歷史劃分為4個(gè)時(shí)期:(1)初始發(fā)展期(2)基礎(chǔ)突破期(3)綜合發(fā)展期(4)成熟期,3.7語(yǔ)音識(shí)別技術(shù)及應(yīng)用,3.7.2語(yǔ)音識(shí)別技術(shù),語(yǔ)音識(shí)別以語(yǔ)音為研究對(duì)象,是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支,其目的就是要讓機(jī)器具有人的聽(tīng)覺(jué)功能,在人機(jī)語(yǔ)音通訊中“聽(tīng)懂”人類(lèi)口述的語(yǔ)言。根據(jù)不同的需求,語(yǔ)音識(shí)別的識(shí)別內(nèi)容可分為狹義的語(yǔ)音識(shí)別和說(shuō)話人語(yǔ)音識(shí)別。,1.語(yǔ)音識(shí)別技術(shù)的基礎(chǔ),一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)可大致分為三部分:(1)語(yǔ)音特征提?。浩淠康氖菑恼Z(yǔ)音波形中提取出隨時(shí)間變化的語(yǔ)音特征序列。(2)聲學(xué)模型與模式匹配(識(shí)別算法):聲學(xué)模型通常將獲取的語(yǔ)音特征通過(guò)學(xué)習(xí)算法產(chǎn)生。在識(shí)別時(shí)將輸入的語(yǔ)音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識(shí)別結(jié)果。(3)語(yǔ)言模型與語(yǔ)言處理:語(yǔ)言模型包括由識(shí)別語(yǔ)音命令構(gòu)成的語(yǔ)法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語(yǔ)言模型,語(yǔ)言處理可以進(jìn)行語(yǔ)法、語(yǔ)義分析。對(duì)小詞表語(yǔ)音識(shí)別系統(tǒng),往往不需要語(yǔ)言處理部分。,聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,并且是語(yǔ)音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型的目的是提供一種有效的方法計(jì)算語(yǔ)音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語(yǔ)言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型)對(duì)語(yǔ)音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率,以及靈活性有較大的影響。必須根據(jù)不同語(yǔ)言的特點(diǎn)、識(shí)別系統(tǒng)詞匯量的大小決定識(shí)別單元的大小。,語(yǔ)言模型對(duì)中、大詞匯量的語(yǔ)音識(shí)別系統(tǒng)特別重要。當(dāng)分類(lèi)發(fā)生錯(cuò)誤時(shí)可以根據(jù)語(yǔ)言學(xué)模型、語(yǔ)法結(jié)構(gòu)、語(yǔ)義學(xué)進(jìn)行判斷糾正,特別是一些同音字則必須通過(guò)上下文結(jié)構(gòu)才能確定詞義。語(yǔ)言學(xué)理論包括語(yǔ)義結(jié)構(gòu)、語(yǔ)法規(guī)則、語(yǔ)言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語(yǔ)言模型通常是采用統(tǒng)計(jì)語(yǔ)法的語(yǔ)言模型與基于規(guī)則語(yǔ)法結(jié)構(gòu)命令語(yǔ)言模型。語(yǔ)法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識(shí)別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識(shí)別。,2.語(yǔ)音識(shí)別的基本原理,,預(yù)處理包括語(yǔ)音信號(hào)采樣、反混疊帶通濾波、去除個(gè)體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響等,并涉及到語(yǔ)音識(shí)別基元的選取和端點(diǎn)檢測(cè)問(wèn)題:特征提取部分用于提取語(yǔ)音中反映本質(zhì)特征的聲學(xué)參數(shù),如平均能量、平均跨零率、共振峰等;訓(xùn)練在識(shí)別之前進(jìn)行,通過(guò)讓講話者多次重復(fù)語(yǔ)音,從原始語(yǔ)音樣本中去除冗余信息,保留關(guān)鍵數(shù)據(jù),再按照一定規(guī)則對(duì)數(shù)據(jù)加以聚類(lèi),形成模式庫(kù);模式匹配部分是整個(gè)語(yǔ)音識(shí)別系統(tǒng)的核心,它是根據(jù)一定的準(zhǔn)則(如某種距離測(cè)度)以及專(zhuān)家知識(shí)(如構(gòu)詞規(guī)則、語(yǔ)法規(guī)則、語(yǔ)義規(guī)則等),計(jì)算輸入特征與庫(kù)存模式之間的相似度,判斷出輸入語(yǔ)音的語(yǔ)意信息。,3.處理的方法:(1)連續(xù)語(yǔ)音流的預(yù)處理波形硬件采樣率的確定、分幀大小與幀移策略的確定;剔除噪聲的帶通濾波、高頻預(yù)加重處理、各種變換策略;波形的自動(dòng)切分(依賴(lài)于識(shí)別基元的選擇方案)。,(2)特征參數(shù)提取識(shí)別語(yǔ)音的過(guò)程,實(shí)際上是對(duì)語(yǔ)音特征參數(shù)模式的比較和匹配的過(guò)程。語(yǔ)音特征參數(shù)的選取對(duì)系統(tǒng)識(shí)別結(jié)果起著重要的作用。因此,必須尋找一個(gè)既能充分表達(dá)語(yǔ)音特征又能彼此區(qū)別的特征參數(shù),這是語(yǔ)音識(shí)別中的一個(gè)最重要基本問(wèn)題。語(yǔ)音識(shí)別系統(tǒng)常用的特征參數(shù)有線性預(yù)測(cè)系數(shù)、倒頻譜系數(shù)、平均過(guò)零率、能量、短時(shí)頻譜、共振峰頻率及帶寬等。,(3)參數(shù)模板存儲(chǔ)。在建立識(shí)別系統(tǒng)時(shí),首先進(jìn)行特征參數(shù)提取,然后對(duì)系統(tǒng)進(jìn)行訓(xùn)練和聚類(lèi)。通過(guò)訓(xùn)練,系統(tǒng)建立并存儲(chǔ)一個(gè)該系統(tǒng)需識(shí)別字(或音節(jié))的參數(shù)模板庫(kù)。(4)識(shí)別判決。識(shí)別時(shí),待識(shí)語(yǔ)音信號(hào)經(jīng)過(guò)與訓(xùn)練時(shí)相同的特征參數(shù)提取后,與模式模板存儲(chǔ)器中的模式進(jìn)行匹配計(jì)算和比較,并根據(jù)一定的規(guī)則進(jìn)行識(shí)別判決,最后輸出識(shí)別結(jié)果。,3.7.3語(yǔ)音識(shí)別系統(tǒng)的類(lèi)型,1.按可識(shí)別的詞匯量多少2.按照語(yǔ)音的輸入方式3.按發(fā)音者為特定/非特定人4.按發(fā)音者的聲紋,3.7.4語(yǔ)音識(shí)別的應(yīng)用,1.在信息處理領(lǐng)域的應(yīng)用(1)給計(jì)算機(jī)發(fā)送指令。(2)聽(tīng)寫(xiě)系統(tǒng)。(3)信息查詢(xún)。(4)網(wǎng)上交談。2.教育與商務(wù)應(yīng)用(1)語(yǔ)音教學(xué)軟件。(2)電話查詢(xún)。(3)電子商務(wù)。3.消費(fèi)電子產(chǎn)品應(yīng)用,第三章小結(jié),,聲音是攜帶信息的重要媒體,對(duì)音頻信息的處理是多媒體技術(shù)研究的一個(gè)重要方面。聲音種類(lèi)繁多,且不同種類(lèi)的聲音之間既有共性也有自身的特性。在本章的前3節(jié)主要介紹了音頻信息處理的基本知識(shí)和音頻信號(hào)壓縮及編碼等理論。在后4節(jié)中先介紹了常用音頻處理軟件及聲音文件的制作、轉(zhuǎn)換等實(shí)際應(yīng)用,最后介紹了一個(gè)目前較熱門(mén)的應(yīng)用領(lǐng)域—語(yǔ)音識(shí)別技術(shù)。,第3章討論題,1.聲音按其特性分為哪幾類(lèi)?舉例說(shuō)明。,分為規(guī)則和不規(guī)則兩類(lèi)。不規(guī)則指不含任何信息的噪音;規(guī)則聲音分為語(yǔ)音、音樂(lè)和音效。語(yǔ)音是指具有語(yǔ)言?xún)?nèi)涵和人類(lèi)約定俗成的特殊媒體,音樂(lè)是規(guī)范的、符號(hào)化的聲音,音效是指人類(lèi)熟悉的其他聲音,如雨聲、雷聲、機(jī)器轟鳴聲。,2.聲音具有哪3個(gè)要素?舉例說(shuō)明。,音強(qiáng)、音調(diào)、音色。,3.聲音數(shù)字化分為哪兩個(gè)步驟?,采樣就是每隔一段時(shí)間就讀一次聲音信號(hào)的幅度,記錄下來(lái)的原始模擬聲波在某一時(shí)刻的狀態(tài),稱(chēng)之為樣本;每秒鐘抽取聲波幅度樣本的次數(shù),稱(chēng)為采樣頻率,采樣頻率的高低由奈奎斯特采樣訂立和聲音信號(hào)本身的最高頻率決定;常用的有8kHz,11.025kHz,22.05,kHz16kHz,44.1kHz,48kHz等。量化:把采樣得到的聲波幅度轉(zhuǎn)化為數(shù)字值,也就是把某一幅度范圍內(nèi)的電壓用用一個(gè)數(shù)字表示。量化位數(shù)是每個(gè)采樣點(diǎn)能夠表示的數(shù)據(jù)范圍,有8/12/16/32位。量化級(jí)的大小決定了聲音的動(dòng)態(tài)范圍,即被記錄和重放的聲音最高與最低之間的差值。量化有很多種方法,可歸納為兩類(lèi),均勻量化和非均勻量化。,4.從人機(jī)交互的角度看,音頻信號(hào)有哪些處理過(guò)程?,1.音頻獲取(計(jì)算機(jī)接收音頻信號(hào)):語(yǔ)音識(shí)別和理解。2.音頻合成(計(jì)算機(jī)輸出音頻信號(hào)):語(yǔ)音合成和音樂(lè)合成;3.聲音定位:包括立體聲模擬、音/視頻同步。4.人通過(guò)網(wǎng)絡(luò)與別人通信:語(yǔ)音采集、音頻編碼/解碼,音頻傳輸?shù)取?5.聲卡有哪些主要功能?,1.錄制、編輯和回放聲音文件;2.控制各個(gè)音源的音量,混合后再數(shù)字化;3.記錄和回放聲音文件;4.文語(yǔ)轉(zhuǎn)換和語(yǔ)音識(shí)別;5.MIDI接口和音樂(lè)合成。,6.聲卡有哪些主要技術(shù)指標(biāo)?,1.采樣率與量化位;2.FM合成與波形表;3.外圍接口;4.音頻壓縮;5.DSP芯片;6.軟件支持。,實(shí)驗(yàn)題,1、清制作一段自己的錄音文件,并配背景音樂(lè),寫(xiě)出制作步驟。2、請(qǐng)敘述用CoolEditPro取出某段錄音文件中的環(huán)境噪音的步驟。3、請(qǐng)把某段正常速度錄制的語(yǔ)音文件,在保持語(yǔ)調(diào)不變的情況下把語(yǔ)速降低到正常語(yǔ)速的70%。,- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 雷運(yùn)發(fā)第 音頻 信息處理
鏈接地址:http://www.820124.com/p-3259842.html