用于智能家居語音識別系統(tǒng)設(shè)計.doc
《用于智能家居語音識別系統(tǒng)設(shè)計.doc》由會員分享,可在線閱讀,更多相關(guān)《用于智能家居語音識別系統(tǒng)設(shè)計.doc(10頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、儀器科學(xué)與電氣工程學(xué)院 本科畢業(yè)論文(設(shè)計)開題報告題 目: 用于智能家居的語音識別系統(tǒng)設(shè)計學(xué)生姓名: 學(xué) 號: 專 業(yè):電氣工程及其自動化指導(dǎo)教師: 講師2015年1月3日1. 選題依據(jù)1.1 選題背景語言作為人類信息交流中最重要的和最方便的方式,人與機(jī)器的交流能否像人與人一樣自如,是人們研究的問題??刂普搫?chuàng)始人維納在1950年就曾指出:“通常,我們把語言僅僅看作人與人之間的通信手段,但是,要使人向機(jī)器,機(jī)器向人以及機(jī)器向機(jī)器講話,那也是完全辦得到的”。隨著現(xiàn)代科學(xué)技術(shù)的進(jìn)一步發(fā)展和人民生活水平不斷的提高,人們對家庭住宅需求的概念也發(fā)生了徹底的改變。人們正在從以往追求房屋空間的寬闊和裝飾的亮
2、麗、豪華,向著追求品味、安全、舒適、便捷和智能方向發(fā)展?,F(xiàn)在的家庭不僅要滿足人們生活、工作、娛樂和交流的需要,同時還可以提供充分的安全防護(hù)、物業(yè)管理等手段。智能家居是建筑藝術(shù)、生活理念與信息技術(shù)、電子技術(shù)等現(xiàn)代高科技手段完美結(jié)合的產(chǎn)物,它的出現(xiàn)滿足了人們對住宅高性能、智能化的要求21世紀(jì)信息時代的到來,IT產(chǎn)業(yè)的發(fā)展和人們生活水平的提高,“智能家居”、“家庭自動化”、“網(wǎng)絡(luò)家電”、“家庭網(wǎng)絡(luò)”等技術(shù)的推動,智能家居的生活已經(jīng)近在咫尺。在智能家居中傳統(tǒng)的家用電器的控制,無外乎兩種控制方式:手動或遙控。隨著家用電器的增多,開關(guān)和遙控越來越多,使用極不方便。這時,我們可以釆用語音識別的方式控制,例如
3、,在觀看電視頻道時,我們可以很方便地直接說出“中央一套”來,所以語音識別及控制在智能家居中尤其重要。1.2 國內(nèi)外研究現(xiàn)況1、語音識別技術(shù)的發(fā)展就技術(shù)而言,目前國內(nèi)外對語音識別理論及各種實用算法的研究是一熱點。人們普遍關(guān)心的問題是不斷提高語音識別的識別率、識別更多的詞匯量、擴(kuò)大語音識別的應(yīng)用等研究。語音識別技術(shù)發(fā)展到今天,PC 機(jī)的語音識別系統(tǒng)己經(jīng)趨于成熟,而且還出現(xiàn)了一些具有實用價值和市場語音識別前景的語音識別芯片。近幾年來,個人消費(fèi)類電子產(chǎn)品的廣泛使用,使大量的識別系統(tǒng)從實驗室 PC 平臺轉(zhuǎn)移到嵌入式平臺設(shè)備中,現(xiàn)在嵌入式對特定人語音識別系統(tǒng)的識別精度己經(jīng)達(dá)到 98%以上。 嵌入式語音識別
4、系統(tǒng)和 PC 機(jī)的語音識別系統(tǒng)相比,雖然其運(yùn)算速度和內(nèi)存容量有一些限制,但是它也有各自的特點。嵌入式系統(tǒng)體積小、可靠性高、耗電低、投入小、便于移動等優(yōu)點,是嵌入式語音識別系統(tǒng)和 PC 機(jī)的語音識別系統(tǒng)相比的最大優(yōu)勢。而且嵌入式語音識別系統(tǒng)多為實時系統(tǒng),當(dāng)用戶講話后,系統(tǒng)能夠立即完成詞條識別并作出反應(yīng)。這些特點決定了嵌入式語音識別系統(tǒng)的應(yīng)用十分廣泛。可以預(yù)測在近幾年內(nèi),嵌入式語音識別系統(tǒng)的應(yīng)用將更加廣泛。各種語音識別系統(tǒng)將出現(xiàn)在市場上。根據(jù)美國專家預(yù)測,具有語音識別功能的產(chǎn)品可達(dá) 50 億美元。在短期內(nèi)還不可能具有和人相比擬的語音識別系統(tǒng),要建成這樣一個系統(tǒng)仍然是人類面臨的一大挑戰(zhàn),我們正一步步
5、朝著改進(jìn)語音系統(tǒng)的方向邁進(jìn)。我國語音識別研究工作一直緊跟國際水平,國家也很重視,并把大詞匯量語音識別的研究列入“863”計劃,由中科院聲學(xué)所、自動化所及北京大學(xué)等單位研究開發(fā),取得了高水平的科研成果,如中科院自動化所研制的非特定人、連續(xù)語音聽寫系統(tǒng)和漢語語音人機(jī)對話系統(tǒng),其字準(zhǔn)確率或系統(tǒng)響應(yīng)率可達(dá) 90 %以上。鑒于中國未來龐大的市場,國外也非常重視漢語語音識別的研究。美國、新加坡等地聚集了一批來自大陸、臺灣、香港等地的學(xué)者,研究成果已達(dá)到相當(dāng)高水平。2、智能家居的發(fā)展智能家居起源于上世紀(jì)80年代的美國,在上世紀(jì)末來到中國,經(jīng)過十幾年的發(fā)展,特別是伴隨住宅產(chǎn)業(yè)的進(jìn)步,智能家居在中國己經(jīng)顯出春筍
6、出露的局面。當(dāng)家庭智能網(wǎng)關(guān)將家庭中各種各樣的家電通過家庭總線技術(shù)連接在一起時,就構(gòu)成了功能強(qiáng)大、高度智能化的現(xiàn)代智能家居系統(tǒng)。在國內(nèi),智能家居作為一項新興產(chǎn)業(yè),發(fā)展前景毋庸置疑。在2011年;建設(shè)部出臺的規(guī)劃中,也表示未來60%以上的新房都具有一定的“智能型家居”功能;顯然,智能家居正在形成一種產(chǎn)業(yè),蘊(yùn)含著巨大的市場潛力。目前的智能家居主要采用國外的一些技術(shù)和產(chǎn)品,當(dāng)然也有一些企業(yè)推出自己的產(chǎn)品。例如,海爾公司的“e家庭”和清華同方的“e-home數(shù)字家園”。3、發(fā)展趨勢語音識別技術(shù)是非常重要的人機(jī)交互技術(shù),有著非常廣泛的應(yīng)用領(lǐng)域和市場前景。應(yīng)用語音的自動理解和翻譯,可消除人類相互交往的語言障
7、礙。通信技術(shù)的飛速發(fā)展,語音識別技術(shù)將為網(wǎng)上會議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓(xùn)等各個領(lǐng)域帶來極大的便利。目前語音識別系統(tǒng)主要應(yīng)用有以下幾方面: 高檔智能玩具(比如能和兒童交流的語音娃娃、聲控玩具汽車等)、汽車電子語音導(dǎo)航系統(tǒng)(通過語音實現(xiàn)地名和各種命令的輸入)、汽車免提電話(語音撥號),家電語音智能控制(比如空調(diào)、冰箱、消毒柜、洗衣機(jī)、電燈等)、手機(jī)(比如語音撥號)、PDA 等。4、存在問題(1)目前使用的語言模型只是概率模型,所以準(zhǔn)確性不會達(dá)到百分百;(2)語音識別受特定人、口音或者方言的影響;(3)環(huán)境雜音或者噪音對語音識別效果影響較大。2.課題基本內(nèi)容2.1課題目標(biāo)以智能家居控制的語音識
8、別為應(yīng)用背景,利用嵌入式系統(tǒng)開發(fā)板硬件平臺,設(shè)計語音識別算法程序,實現(xiàn)語音識別系統(tǒng)。2.2研究內(nèi)容(1)學(xué)習(xí)掌握基于ARM的嵌入式控制系統(tǒng);(2)學(xué)習(xí)和研究語音識別算法并運(yùn)用在ARM中進(jìn)行編程。2.3預(yù)期成果提交一套嵌入式(ARM)語音識別系統(tǒng),包括嵌入式語音識別算法,系統(tǒng)具有較高識別率和識別速度。3開題前期基礎(chǔ)及實施方案3.1了解語音識別原理 (1)語音信號的數(shù)學(xué)模型 語音是由聲道激勵發(fā)生共振而產(chǎn)生的,由于在發(fā)聲過程中聲道是運(yùn)動的,因此可以用一個時變線性系統(tǒng)來描擬。當(dāng)在一個較短的時間間隔內(nèi)表示語音信號時,可以采用線性時不變模型,如圖1表示信號產(chǎn)生模型。圖1 信號產(chǎn)生模型三部分模型有各自相應(yīng)表
9、達(dá)式,最終的輸出信號由各部分模型串聯(lián)組成。(2)語音信號的處理語音信號中含有豐富的信息,從中提取對語音識別有用信息的過程,就是特征提取。特征提取方法是整個語音識別系統(tǒng)的基礎(chǔ),對語音識別率有極其重要的影響。它主要分為 3 類:基于 LPC 的倒譜參數(shù)分析;基于 FFT 的頻譜余弦變換分析;采用前沿數(shù)字信號處理技術(shù)的特征分析手段,如小波分析、時頻域分析、人工神經(jīng)網(wǎng)絡(luò)等。語音識別的過程可以看作模式匹配的過程,模式匹配是指根據(jù)一定的準(zhǔn)則,使未知模式與模型庫中的某個模型獲得最佳匹配的過程。模式匹配要用到參考模板,這些模板通過模板訓(xùn)練獲得。模板訓(xùn)練就是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特
10、征的模型參數(shù)。(3)語音識別原理語音識別屬于模式識別,與人的認(rèn)知過程一樣,分為訓(xùn)練和識別兩個過程。在訓(xùn)練階段,語音識別系統(tǒng)對人類語言進(jìn)行學(xué)習(xí),學(xué)習(xí)結(jié)束,把學(xué)習(xí)內(nèi)容組成語音庫存儲起來;識別階段就可以把人們當(dāng)前輸入的語音在語音庫中查找相應(yīng)的詞義或語義。從信號處理的角度,任何一個語音識別系統(tǒng)都能以圖2來表示:圖2 語音識別系統(tǒng)3.2語音識別模型語音識別基本原理是對語音信號進(jìn)行特征提取。目前常用的語音識別算法有基于模式匹配的動態(tài)時間規(guī)整法(DTW:Dynamic Time Warping),基于統(tǒng)計模型 DSP 的隱馬爾可夫模型法(HMM:Hidden Markov Model)以及基于人工神經(jīng)網(wǎng)絡(luò)識
11、別法(ANN)等。(1)隱馬爾可夫模型法(HMM)HMM 作為語音信號的一種統(tǒng)計模型,在語音處理領(lǐng)域中獲得廣泛應(yīng)用。HMM 是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來的。由于實際問題比馬爾可夫鏈模型所描述的更為復(fù)雜,觀察到的事件并不是與狀態(tài)一一對應(yīng),而是通過一組概率分布相聯(lián)系,這樣的模型就稱為 HMM。它是一個雙重隨機(jī)過程,其中之一就是馬爾可夫鏈,這是基本隨機(jī)過程,它描述狀態(tài)的轉(zhuǎn)移。另一隨機(jī)過程描述狀態(tài)與觀察值的統(tǒng)計對應(yīng)關(guān)系。站在觀察者的角度,只能看到觀察值,不能直接看到狀態(tài),而是通過一個隨機(jī)過程去感知狀態(tài)的存在及其特性。因而稱之為“隱”馬爾可夫模型。隱馬爾可夫模型法可用于大多數(shù)大詞匯量、連續(xù)語音的非特定
12、人語音識別,它很好的模仿了人的發(fā)音系統(tǒng)的狀態(tài)與語音信號這兩個隨機(jī)過程,是一種較為理想的語音模型,但是他的缺點在于統(tǒng)計模型的建立需要依賴一個較大的語音庫。這在實際工作中占有很大的工作量。且模型所需要的存儲量和匹配計算(包括特征矢量的輸出概率計算)的運(yùn)算量相對較大,通常需要具有一定容量SRAM 的 DSP 才能完成。(2)人工神經(jīng)網(wǎng)絡(luò) (ANN)ANN 在語音識別領(lǐng)域的應(yīng)用是在 20 世紀(jì) 80 年代中后期發(fā)展起來的。其思想是用大量簡單的處理單元并行連接構(gòu)成一種信息處理系統(tǒng)。這種系統(tǒng)可以進(jìn)行自我更新,且有高度的并行處理及容錯能力,因而在認(rèn)知任務(wù)中非常吸引人。但是 ANN 相對于模式匹配而言,在反映
13、語音的動態(tài)特性上存在重大缺陷。單獨使用 ANN 的系統(tǒng)識別性能不高,所以目前 ANN 通常在多階段識別中與 HMM 算法配合使用。(3)動態(tài)時間規(guī)整(DTW)語音識別中,不能簡單地將輸入模板直接比較,因為語音信號具有相當(dāng)大的隨機(jī)性,即使同一個人,在不同時刻的同一句話發(fā)的同一個音,也不可能具有完全相同的時間長度,因此時間規(guī)整必不可少。DTW 是時間規(guī)整與距離測度結(jié)合的非線性規(guī)整技術(shù)。假設(shè)參考模板特征矢量序列為 a1,a2,am,aM;輸入語音特征矢量序列為 b1,b2,bn,bN,MN,那么動態(tài)時間規(guī)整是要尋找時間規(guī)整函數(shù) m=(n),它把輸入模板的時間軸 n 非線性地映射到參考模板的時間軸 m
14、。上式中,d n,(n)是第 n 幀輸入矢量和第 m 幀參考矢量的距離,D 是相應(yīng)于最優(yōu)時間規(guī)整下一個模板的距離測度。DTW 是一個典型的最優(yōu)化問題,它用滿足一定條件的時間規(guī)整函數(shù) (n)描述輸入模板和參考模板的時間對應(yīng)關(guān)系,求解兩模板匹配時的累計距離最小所對應(yīng)的規(guī)整函數(shù)。DTW 算法通過將待識語音信號的時間軸進(jìn)行不均勻的扭曲和彎曲,使其特征與模板特征對齊,并在兩者之間不斷的進(jìn)行兩個矢量最小的匹配路徑計算,從而獲得兩個矢量匹配時累計距離最小的歸整函數(shù)。這是一個將時間歸整和距離測度有機(jī)結(jié)合在一起的非線性歸整技術(shù),保證了待識別特征與模板特征之間最大的聲學(xué)相似特征和最小的時差失真,是成功解決匹配問題
15、的最早、最常用的方法。由于 DTW 模版匹配的運(yùn)算量不大,并且限于小詞表,一般的應(yīng)用領(lǐng)域孤立數(shù)碼、簡單命令集、地名或人名集的語音識別,與智能家居的命令相符,所以本次設(shè)計采用該算法。3.3處理器與方案設(shè)計嵌入式語音系統(tǒng)硬件平臺主要包括中央處理器、外圍控制電路、只讀存儲器、可讀寫存儲器和外圍設(shè)備。嵌入式系統(tǒng)體積小、專用性強(qiáng)的特點決定了其硬件必須根據(jù)實際需要高效率的設(shè)計。在設(shè)計嵌入式語音識別系統(tǒng) Linux 平臺硬件環(huán)境時,結(jié)合芯片的功能、功耗、體積、成本和可靠性等多方面性能要求,綜合考慮,最終選擇用 Samsung 公司的高性能 S3C2440 ARM 處理器作硬件開發(fā)平臺的核心,圍繞它搭建外圍電
16、路,其所需要的外圍電路芯片,購買的開發(fā)板就可以滿足。下圖圖3為系統(tǒng)的總設(shè)計框架:麥克風(fēng)語音處理芯片UDA1341TSARMS3C2440SDRAM顯示屏輸出命令圖3 系統(tǒng)總設(shè)計圖由相應(yīng)的語音解碼芯片轉(zhuǎn)換語音信號,通過S3C2440的計算和處理,轉(zhuǎn)換成控制指令(可以由數(shù)碼管或二極管對輸出進(jìn)行檢測),最好可以在控制處設(shè)立顯示界面以便于操作者進(jìn)行監(jiān)控。4.重難點(1)語音信號的數(shù)學(xué)建模,這是整個系統(tǒng)設(shè)計的基礎(chǔ);(2)基于嵌入式系統(tǒng)的語音識別算法的實現(xiàn),包含兩方面內(nèi)容:一是語音識別算法的學(xué)習(xí),二是算法在ARM中的實現(xiàn);(3)語音識別算法要有實時性,在保證識別率的前提下,識別速度要快,即語音發(fā)出后,應(yīng)在
17、最短的時間內(nèi)識別出來,用來發(fā)出準(zhǔn)確控制命令。5.工作進(jìn)度安排(1)2013年12月:查閱相關(guān)資料,進(jìn)行翻譯英文文獻(xiàn),編寫開題報告,明確畢業(yè)設(shè)計工作的內(nèi)容,根據(jù)資料,設(shè)計系統(tǒng)流程圖;(2)2014年13月:對ARM進(jìn)行學(xué)習(xí),掌握并熟練使用ARM完成簡單功能,學(xué)習(xí)并購置元器件; (3)2014年4月:學(xué)習(xí)關(guān)于語音識別方面算法,實現(xiàn)初步的語音識別功能;(4)2014年5月:實現(xiàn)家居的模型以及語音對家居的控制,對系統(tǒng)進(jìn)行初步調(diào)試,準(zhǔn)備中期檢查;(5)2014年6月:對該系統(tǒng)進(jìn)行進(jìn)一步的調(diào)試。進(jìn)一步完善整個系統(tǒng),測試功能實現(xiàn)情況,優(yōu)化系統(tǒng),并嘗試制作顯示界面;(6)2014年6月:撰寫畢業(yè)論文,參加答辯
18、。6.參考資料1. 周冀輝.基于ARM9的語音控制智能終端的設(shè)計D.華中科技大學(xué)軟件工程學(xué)院, 2010.2. 劉志偉.基于ARM的語音識別研究D.東華大學(xué)模式識別與智能系統(tǒng),2010.3. 肖麗君.基于DTW模型的孤立詞語音識別算法實現(xiàn)研究D.中南大學(xué)控制科學(xué)與工程,2010.4. 劉榮輝.基于智能家居控制的嵌入式語音識別系統(tǒng)研究D.廣東工業(yè)大學(xué)控制理論與控制工程,2013.5. 張雪英.數(shù)字語音處理及MATLAB仿真M.北京:電子工業(yè)出版社,2010.6. 劉文強(qiáng).語音識別技術(shù)在智能家居中的研究與應(yīng)用D.大連海事大學(xué)計算機(jī)科學(xué)與技術(shù),2013.7. Ye X,Huang J. A fram
19、ework for Cloud-based Smart HomeC. Proceedings of Computer Science and Network Technology (ICCSNT), 2011 International Conference on, volume 2. IEEH,2011.8. Lecouteux B, Vacher M,Portet F, et al. Distant speech recognition in a smart home: comparison of several multisource ASRs in realistic conditio
20、nsJ. Proceedings of Inter- speech 2011,2011.9. Walker W, Lamere P, Kwok P,et al. Sphinx-4: A flexible open source framework for speech recognition J. Automatic Speech Recognition and Understanding, IEEE Workshop on,2005.10.Giacobelio D, Christensen M G, Murthi M N, et al. Sparse linear prediction and its applications to speech processingJ. Audio, Speech, and Language Processing, IEEE Transactions on, 2012.開題報告評審意見論文題目:用于智能家居的語音識別系統(tǒng)設(shè)計學(xué)生姓名: 學(xué) 號:專 業(yè):電氣工程及其自動化 指導(dǎo)教師: 指導(dǎo)教師對學(xué)生開題報告的評語:指導(dǎo)教師簽字: 年 月 日評審組意見:組長簽字: 年 月 日注:用16K紙打印或填寫
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。