語音識別系統范文
時間:2023-03-26 08:31:45
導語:如何才能寫好一篇語音識別系統,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
近年來國內教育信息化趨勢更加明顯,英語教學活動建立信息化平臺是師生所需,改變了早期英語課堂模式的不足之處。語音識別是計算機翻譯軟件不可缺少的一部分,如圖1,主要針對不同語言進行識別處理,幫助學生快速地理解英語知識內涵。語音識別技術主要包括:特征提取技術、模式匹配技術、模型訓練技術等三大技術,也是系統設計需考慮的重點。
1)特征提取技術。一般來說,語音識別系統輔助功能涉及到收錄、處理、傳遞等三個環節,這也是語音識別系統設計的關鍵所在。計算機語言與自然語言之間存在極大的差異性,如何準確識別兩種語言的差異性,這是翻譯軟件識別時必須解決的問題。特征提取技術是語音識別系統的基本構成,主要負責對英語語言特征進行提取,向翻譯器及時提供準確的語言信號,提高計算機翻譯工作的準確系數。
2)模式匹配技術。語音識別系統要匹配對應的功能模塊,以輔助師生在短時間內翻譯出語言含義,避免人工翻譯語言失誤帶來的不便。模式匹配技術采用智能識別器,由翻譯器錄入語音之后自主化識別、分析,減小了人工翻譯語句的難度。例如,計算機軟件建立匹配模型,按照英語字、詞、句等結構形式,自動選擇相配套的翻譯模式,執行程序命令即可獲得最終的語言結果,給予學生語音識別方面的幫助。
3)模型訓練技術。設計語音識別系統是為了實現教育信息化,幫助教師解決英語課堂教學中遇到的翻譯難題,加深學生們對英語知識的理解能力。語音識別結束之后,翻譯器會自動執行模擬訓練操作,為學生創建虛擬化的語音訓練平臺,這也是軟件識別系統比較實用的功能。模擬訓練技術采用人機一體化設計思想,把翻譯器、語音識別器等組合起來執行訓練方式,快速地識別、判斷英語發聲水平,指導學生調整語音方式。
2英語翻譯器語音識別系統設計及應用
英語翻譯器是現代化教學必備的操作工具,教師與學生借助翻譯器功能可準確地理解英語含義,這對語音識別系統設計提出了更多要求。筆者認為,設計語音識別系統要考慮翻譯器具體的工作流程,事先編排一套符合翻譯軟件工作的方案,如圖2,從而提高人機語言轉換速率。語音識別系統設計及應用情況:
1)識別模塊。語音識別方法主要是模式匹配法,根據不同翻譯要求進行匹配處理,實現英語翻譯的精準性。一是在訓練階段,用戶將詞匯表中的每一詞依次說一遍,并且將其特征矢量作為模板存入模板庫;二是在識別階段,將輸入語音的特征矢量依次與模板庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。
2)前端模塊。前端處理是指在特征提取之前,先對原始語音進行處理,這是預處理操作的主要作用。語音識別系統常受到外界干擾而降低了翻譯的準確性,設計前段處理模塊可消除部分噪聲和不同說話人帶來的影響,使處理后的信號更能反映語音的本質特征。例如,比較常用的前端處理有端點檢測和語音增強。
3)聲學模塊。語音識別系統的模型通常由聲學模型和語言模型兩部分組成,分別對應于語音到音節概率的計算和音節到字概率的計算。聲學特征的提取與選擇是語音識別的一個重要環節,這一步驟直接關系到翻譯器的工作效能,對英語語音識別與學習有很大的影響。因此,聲學模塊要注重人性化設計,語音設定盡可能符合自然語言特點。
4)搜索模塊。英語語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。本次所設計的搜索模塊中,其前端是一個語音識別器,識別產生的N-best候選或詞候選網格,由語法分析器進行分析獲取語義信息,再由對話管理器確定應答信息,由語音合成器輸出。由于目前的系統往往詞匯量有限,也可以用提取關鍵詞的方法來獲取語義信息。
5)執行模塊。實際應用中,語言識別系統憑借執行模塊完成操作,對英語語言識別方式進行優化擇取,以最佳狀態完成英語翻譯工作。目前,就英語教學中使用情況,聽寫及、對話系統等是語音識別執行的兩種方式,充分展現了翻譯器在語言轉換方面的應用功能。(1)聽寫機。大詞匯量、非特定人、連續語音識別系統通常稱為聽寫機。其架構就是建立在前述聲學模型和語言模型基礎上的HMM拓撲結構。訓練時對每個基元用前向后向算法獲得模型參數,識別時,將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉移概率,形成循環結構,用Viterbi算法進行解碼。(2)對話系統。用于實現人機口語對話的系統稱為對話系統,英語翻譯器中完成了人機對話、語言轉換等工作,全面提升了翻譯器操控的性能系數。受目前技術所限,對話系統往往是面向一個狹窄領域、詞匯量有限的系統,其題材有旅游查詢、訂票、數據庫檢索等,隨著語音數據庫資源的優化配置,對話系統功能將全面升級。
3翻譯器使用注意事項
語音識別系統就是讓機器通過識別和理解過程,把語音信號轉變為相應的文本或命令的高科技。隨著高校教學信息化建設時期到來,計算機軟件輔助教學活動是一種先進的模式,徹底改變了傳統人工教學模式的不足。翻譯軟件采用數字化元器件為硬件平臺,配合遠程互聯網建立多元化傳輸路徑,滿足了英語翻譯數據處理與傳輸的應用要求。但是,未來英語教學內容越來越復雜,翻譯器語音識別系統承載的數據范圍更廣,學校必須實施更新翻譯軟件產品,才能進一步提升英語智能化翻譯水平。
4結論
篇2
關鍵詞 空間增強;譜減法;連續語音識別;自適應;雙通道信號
中圖分類號 TP393文獻標識碼 A文章編號 10002537(2014)03006306
雖然自動語音識別(ASR)系統的研究已投入了大量的人員和資金,但是它還不能夠像電話一樣,作為日常生活的一部分完整地融入到人們的生活當中.其中一個最主要的問題就是自動語音識別系統在噪聲和混響環境下,特別是二者混合環境下的識別性能過于低下[1].在大多數情況下,為獲得可接受的識別性能,只能依賴于麥克風陣列的使用,即通過使用大量按照特定位置放置的麥克風來獲取語音輸入和空間信息.大量的ASR研究,使用麥克風陣列得到方向增益,以改善噪聲與混響環境中獲取信號的質量;采用模式識別技術中的譜減法來消除噪聲和處理語音訓練集與測試集不匹配問題[2].
在日常應用中,普通用戶既不可能隨身攜帶麥克風陣列也不可能精確地放置它們.目前,日常使用的麥克風是與雙通道耳機相對應的,它能得到雙通道語音信號,卻不能得到復雜的空間信息.如果依然采用傳統的信號增強方法(例如廣義旁瓣抵消技術)來處理雙通道信號,以作為語音識別系統的預處理端,那么噪聲的消除反而會帶來無法接受的語音失真.
譜減法[3]作為另一種消除噪聲的技術,可以不依賴麥克風陣列獲取輸入信號,但是卻存在三大缺點:(1)噪聲估計誤差過大導致噪聲消除時語音失真;(2)增強后的語音中含有明顯的“音樂噪聲”;(3)混響未被處理.
為解決上述問題,本文基于雙聲道語音信號簡單的空間特性,綜合使用改進的廣義旁瓣抵消空間增強技術和改進的譜減法技術作為語音識別系統的噪聲消除和信號放大的預處理端,并基于HTK開發工具設計一個識別性能優異的語音識別系統.
1 系統描述
圖1 系統結構
Fig.1 System structure
圖1為本系統的整體構架.它由空間增強、譜減法模塊和自動語音識別模塊3個主要部分構成.
1.1 空間增強模塊
因為空間線索是語音識別的主要部分和遠場麥克風語音識別的組織焦點,在該ASR系統中,采用PASCAL “CHiME”[4]組織提供的雙通道含噪語音信號,利用該信號簡單的空間特性可以得到表現優異的噪聲估計.
有許多經典的使用麥克風陣列的方法來放大目標信號,例如通過延遲求和方式的波束形成,自適應噪聲消除(ANC)以及獨立成分分析(ICA).它們使用麥克風陣列得到方向增益,以改善在噪聲與混響環境中獲取信號的質量.
1.2 噪聲消除模塊
通常的ASR系統在處理含噪信號時性能大幅度下降,因此,噪音消除是該系統中常見且必須的組成部分.當前主流的噪聲消除技術可以分為3大部分.(1)使用時域濾波技術,例如維納濾波和自適應濾波;(2)嘗試還原原始語音譜的譜還原技術,例如譜減法[5]和參數減法;(3)為增強語音結構,有許多基于語音模型的噪聲消除技術,例如基于諧波模型的噪聲消除.然而,使用這些技術來獲得噪聲衰減和信噪比的改善,往往會造成語音失真.通常,越干凈的噪聲消除會導致越嚴重的語音失真,因此,研究設計一個針對復雜聲學環境的ASR系統,在語音失真和噪聲消除之間尋找一個平衡點,是非常重要的工作.
1.3 識別系統自適應
通過一些經典的空間濾波和噪聲消除技術來處理麥克風陣列在真實環境中獲取的聲音信號,較直接采集含噪聲音,具有更好的聽感知質量.但是無論系統設計多么完備,獲得的加強聲音中依然會有噪聲殘留和語音失真的問題存在,它們能被正常人輕易的接受和識別,但是目前的ASR系統卻不具備這樣的能力.當前幾乎所有的ASR系統都采用模式識別技術,當測試數據集接近訓練數據集時,能夠得到非常高的識別精確度.但是噪聲殘留和語音失真會導致測試數據集完全不同于“干凈”的訓練數據集,訓練和測試不匹配的問題會直接導致ASR系統識別率的降低.
為解決這些問題,前人提出許多的方法,例如模型再訓練和自適應,特征變換和歸一化[67],建立環境模型和模型特征一體化技術將之使用在自動語音識別模塊上,能起到良好的效果.
綜合考慮到對上面所述三部分的分析,所有的模塊都應該整合為一體,只有通過良好的語音信號預處理和完善的識別系統自適應,才能構架一個更優異性能的ASR系統.
2 系統設計
本文提出一個簡潔而具有高魯棒性的針對CHiME問題的ASR系統.首先,依據雙通道信號的空間信息增強它們,然后采用改進的譜減法獲得增強信號,作為ASR系統的輸入,最終得到識別結果和關鍵詞準確率.
2.1 改進的空間增強
由于存在混響問題,使用傳統方法得到雙通道信號的空間信息的有效內容非常困難.另外,如果采用傳統的信號增強方法,例如基于廣義旁瓣相消(GSC) 的波束成型,作為ASR系統的前端,那么噪音消除會帶來語音失真[8],會極大地降低ASR系統的識別性能.語音失真是由GSC多路輸入抵消器(MC)的窄帶自適應濾波器導致的,它既無法良好地消除噪聲,同時還消耗昂貴的計算資源.
圖2 空間增強
Fig.2 Spatial enhancement
本ASR系統的前端,利用雙通道語音信號的優勢,移除了典型GSC里的MC模型,使得在空間濾波的同時盡量避免語音失真和降低計算負擔(圖2).該模塊的主要任務是提取參考噪聲,而不再進行噪聲消除.
4 結論
本文針對語音識別這一交叉性強的學科,打破傳統的語音識別系統局限于利用有限的技術,不斷挖掘技術潛力,來達到提高性能的研究模式,提出了一種全新的綜合性構架,并取得了實質性的成效;考慮到人類聽覺的生理情況,結合空間增強層得出的無目標語言的參考噪聲,對譜減法模塊做了積極的改變.將去除噪聲操作從空間增強層移動到了效率更高的譜減法層,將噪聲估計移動到空間增強層,使得整個系統的分工更加明確,以降低耦合,提高魯棒性;使用了倒譜均值歸一化實現標準39維梅爾倒頻譜系數,為語音識別模塊加入基于最大后驗概率的自適應訓練,提高了訓練效率和系統整體性能.
參考文獻:
[1] 宋志章,馬 麗,劉省非,等.混合語音識別模型的設計與仿真研究[J].計算機仿真, 2012,29 (5):152155.
[2] HIRSCH H G, PEARCE D. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//ASR2000Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW). Paris, France, 2000,9:1820.
[3] 張 滿,陶 亮,周 健.基于實值離散Cabor變換的譜減法語音增強[J].計算機工程與應用, 2012,48(29):109113.
[4] BARKER J, VINCENT E, MA N, et al. The PASCAL CHiME speech separation and recognition challenge[J]. Computer Speech Language, 2013,27(3):621633.
[5] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. Speech and Signal Processing, IEEE Transactions, 1979,27(2):113120.
[6] HERMANSKY H, MORGAN N. RASTA processing of speech[J]. Speech and Audio Processing, IEEE Transactions, 1994,2(4):578589.
[7] CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]//2005 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: March 1823, 2005.
[8] BRANDSTEIN, MICHAEL, DARREN WARD. Microphone arrays: signal processing techniques and applications[M]. New York: Springer, 1996:2075.
[9] KAUPPINEN I, ROTH K. Improved noise reduction in audio signals using spectral resolution enhancement with timedomain signal extrapolation[J]. Speech and Audio Processing, IEEE Transactions, 2005,13(6):12101216.
篇3
以下是來自現場的報道。
市場變化提出新需求
搬遷至新物流中心
神田業務支持公司成立于1974年,當時與長崎屋合資,主要負責服裝配送。該公司在日本最早引進了大型托盤輸送機,曾一時成為業界熱議的話題。2002年,3家分公司合并后統一命名為神田業務支持公司。
公司現任總經理吉林正和先生當時已經進入公司,他回顧公司的發展歷程時說:“30多年來,公司經營的物流業務幾乎都集中在服裝領域,因此積累了豐富的服裝物流經驗。近些年,公司的物流設施及分揀設備等已開始老化,為此建設了新的物流中心。同時,為適應客戶新的需求,我們準備配送服裝以外的貨物,因此決定引進語音識別系統。”
目前,習志野物流中心處理的貨物以服裝為主,同時也負責配送鞋類以及其他日用品,據說已接到約20家客戶的業務委托。物流中心根據客戶訂單的要求進行分揀、貼標簽等操作,然后向全國配送。
服裝類商品主要來自中國大陸及臺灣、越南等地,平均每天發送10萬件左右,需要投入包括物流中心職員和小時工在內的50~60人從事物流作業,并根據業務量進行靈活調整。
適應市場變化
在公司的舊址茜浜,倉庫內的主要設備除了大型托盤輸送機外,還有自動分揀機。如果要繼續使用這些設備,物流中心一層需要擁有2310平方米的面積,并且老化的設備也需要大筆資金進行維修,如此看來實屬浪費。可以說,繼續使用大型設備的外部條件發生了變化。
自動分揀機每小時的處理能力達2000件,這是人工作業望塵莫及的。如果不使用分揀機,根本不可能達到2000件/小時的處理能力,那么其他設備也都會閑置下來,其結果將是物流中心無法應對市場的變化。
神田公司經營策劃室的松尾健太郎科長談到:“考慮公司業務范圍的變化,我們的方針是保證低成本的同時,新系統要能夠應對市場的變化。”
這個新系統就是“語音識別系統”。
選擇語音識別系統
耳、眼、手、口總動員
吉林總經理談到:“在建設新物流中心時,神田面臨的最大問題是建設資金,因此我們要控制初期投資。如果使用自動分揀機,至少需要2~3億日元的資金,但我們的總預算只有1億日元。而且還要求必須保證訂單的交付時間。最終,我們選擇了語音識別系統。”
除軟件外,新物流中心引進的設備只有掛在腰間的便攜式終端和耳機,共25套。包括基礎系統改造在內,總投資共6000萬日元。
實際上,神田公司從幾年前就已開始研究語音識別系統,只不過一直沒有對外公開。
新物流中心處理的貨物仍以服裝為主。通常,以箱(盒)為包裝的物品是很容易處理的,數量統計也不易出錯。但服裝往往裝在塑料袋中,既薄又輕,進行揀選操作時,如果工作人員一只手拿著無線終端,另一只手拿著塑料袋,不容易讀取條碼標簽,又容易數錯數量。此外,服裝的一大特點是顏色、規格多,SKU多,因此,如果使用手持終端進行操作將非常費力。
現在使用語音識別系統,終端掛在腰間,解放了雙手,操作人員可以用雙手完成揀選作業。操作人員通過耳機得到系統指令的同時,可以立即回應,而不需要“看明細”、“按開關”的動作,能夠集中精力進行揀選。
松尾科長說:“過去,物流現場的操作在很大程度上依賴于‘眼睛’,所有終端和明細單都必須用眼睛來判斷,如果看錯了。就會直接導致發錯貨。現在有了語音識別系統,其最大的魅力就是通過‘聽’接受指令,用‘眼’和‘手’來確認,用‘說’來回應,讓兩手同時工作。這就是感覺器官的總動員。由此帶來工作準確率和效率的大幅提高。”
這也是神田公司選擇語音識別系統的初衷。
語音揀選解決方案在世界的發展
回顧歷史,在上世紀90年代,日本有幾家公司曾引進過語音識別系統,但由于當時的識別能力有限,結果半途而廢。之后,經過改良的語音識別系統再度登場,尤其是在歐美物流界頗受歡迎,其中VOCOLLECT公司開始嶄露頭角。
特別值得一提的是,世界零售巨頭沃爾瑪把語音識別系統作為標準化配置的系統,在其世界各地的物流中心都在使用。早在3年前,日本國內的沃爾瑪旗下的西友?三鄉物流中心業也已引進了VOCOLLECT的產品。
此后,眾多經銷商的市場拓展行動終于開啟了語音揀選的世界市場之門。VOCOLLECT公司于2006年成立了VOCOLLECT日本分公司,同時在東歐、南美也逐漸打開市場,目前年銷售額近100億日元,占世界同行業銷售的80%。
承擔神田公司語音系統建設項目的日本優利公司售后服務事業部矢島孝安部長說:“人們往往認為只憑借聲音并不十分可靠,但VOCOLLECT的產品解決了這一難題。其識別系統和硬件設備組成了堪稱完美的系統。”
VOCOLLECT產品的特性
VOCOLLECT日本分公司總經理塞薩爾?西森介紹說,市場上的其他產品大多是把幾家公司的終端和軟件組合在一起,而VOCOLLECT則根據物流現場的實際需要,從硬件到軟件都是自主研發的,具有非常實用的語音識別功能,能夠用日語應答就是其一大特色。
如何確保語音識別的精度是使用中的關鍵問題。塞薩爾?西森總經理認為,要提高語音識別的精度是有前提的。語音識別的基本條件是“指定說話人”和“不指定說話人”,在日本,其他公司都選擇了“不指定說話人”,唯獨VOCOLLECT公司選擇了“指定說話人”。塞薩爾?西森總經理指出,在被噪音環繞的物流和生產現場,“不指定說話人”的方式存在很多問題。
“不指定說話人”即任何人的聲音都可能被確認。因為它忽略了每個人聲音的差異,那么其識別能力自然低下,特別是在噪音大的場所,附近幾個人同時作業,如果別人的聲音一旦被確認。必將出現差錯。
VOCOLLECT公司的“指定說
話人”的方式,是根據每個人所發出的聲音的頻率而設定的,具有聲音識別功能。這在很大程度上提高了識別精確度。在實際操作中,只要改變用戶名、輸入ID號,就能夠直接調出所需的信息,因此在登錄系統后,其他工作人員也可以使用。
當然。每個工作人員初次登錄時,都需要經過多次練習,登錄加練習的時間大約在20-30分鐘。因為設有語音矯正功能,經過幾次練習,工作人員就可以熟練掌握。
此外,終端設備的堅固性也非常突出,即使跌落地面,或被踩、被壓,都能保持完好無損。這給工作人員帶來安全感,可以全神貫注地投入揀選工作。
構建并起用系統僅耗時3個月
神田公司選擇日本優利推薦的VOCOLLECT公司的語音識別系統之前,已對該系統的結構和實用性做了全面、細致的調查和論證。
吉林總經理說:“因為我們是首次使用語音識別系統,因此必須進行全面的考察。在考察3家日用品批發商使用該系統的效果時,我們發現該系統不僅能用于分揀,還能用于盤點。這也是我們選擇它的一個重要原因。事實證明這個系統是完美的。”
接下來的系統設計,神田公司僅給優利公司和VOCOLLECT公司3個月時間。在此期間,神田為了讓員工盡快進入狀態,在現場進行實地演示。2008年8月15~16日,公司在搬遷的同時安裝新系統,18日就開始正常發貨了。
下面介紹語音識別系統的實際應用。
貨物初次分揀
1、2、總體分類
語音識別系統主要應用于服裝的發貨流程。
圖1、圖2是位于物流中心二層的存儲區。每天上午,操作人員根據發貨指示,首先進行總體分類,即把當天需要發的貨按款式分別集中在臺車上的紙箱中。這里的揀選作業是對照產品明細進行的。
3 二次分揀
在相鄰的揀選區,貨物按照店鋪別進行分揀。在圖3中,左邊是使用手持終端進行掃描,右邊是使用語音識別系統進行揀選。
4、5手持終端+輸送機
總體分類完成后,把紙箱放到輸送機上,按發貨店鋪的不同,用手持終端逐一進行掃描。
因為每件貨物和產品明細都要進行掃描,因此排除了款式錯誤的可能。但因為是單手作業,尤其對于較薄的服裝,產品數量容易弄錯。偶爾也會發生無法讀取條碼標簽的情況,或者標簽被翻轉放置,此時操作起來相當費力。
6、7、臺車+手持終端
圖6是臺車分揀區。臺車底層放置了4個空周轉箱用于調節高度,上層的4個周轉箱分別代表4個店鋪,操作人員同時處理4家店鋪的貨物,操作非常快捷。當然。通道,必須留有足夠的寬度,以保證臺車通過。
使用語音識別系統進行揀選
8~11 語音識別揀選
前面提到的輸送機傳送來的周轉箱到達此處,按照發貨店鋪的不同依次進行揀選。此時操作人員通過耳機接收指示,用麥克進行回應,在“是”、“下面”的應聲中進行分揀作業。不僅雙手可同時操作,并且不需要看手持終端顯示的數據,只需用眼睛確認發貨明細上的代碼即可。
操作人員聽到的是什么樣的指示呢?是商店代碼、貨物代碼以及揀選的數量等,速度很快,聽到指示后必須立刻做出回應。按照操作人員的話說:“聲音的節奏逐漸變快,我們已經習慣了這樣的速度。”由于每個人的聽力和反應速度存在差別,物流中心根據這一差別安排操作人員的崗位。
操作人員做出回應后。下面的指示隨即就到。在這種快節奏中,幾乎沒有等待指示或閑下來的時間。
塞薩爾?西森總經理說:“如果是使用手持終端,必然存在等待指令的時間。使用語音識別系統后,節省了操作時間。一旦有空閑的時間,操作人員反而會不習慣。”
VOCOLLECT的設計中包含了勞動心理學原理,因為操作人員的腰間攜帶了便攜終端,每個人可以調節適合自己的速度。
系統投入使用后,操作人員的熟練程度不斷提高,人均處理能力由原來每小時200~300件提高到500~700件。
此外,夏裝和冬裝有所不同,操作效率也存在差別,但結果卻比預期提高了50%。
12、13、不同商店的發貨明細及標簽
根據語音指令做好的發貨明細上,標有貨物代碼和商店代碼,暫時貼在貨箱的外面(圖12),待貨箱裝滿后,再把發貨明細放入箱中,然后把箱子放到輸送機上。
14、檢驗
通過語音識別系統揀選的貨物。因為沒有讀取條形碼,因此在包裝前需要檢查一遍。數量少時只要確認條形碼即可,數量多時全部都要進行檢驗。
15、無線傳輸
通過2.4GHz的無線電波頻率,無線終端與服務器聯網后,進行數據交換。
16、充電
在辦公室一角的架子上,放置了25臺充電器,以便為終端進行充電。每次的充電過程需要8小時。
17、語音系統的管理
在同一辦公室內設置了語音系統的管理器。畫面上顯示的是神田公司的WMS與合作公司VOCOLLECT的管理過程。
貼標簽、包裝、發貨
18、19、貼價格標簽、過檢針
貼價格標簽、過檢針的操作也在物流中心二層完成。
20、21、搬運發貨箱
貨箱打包完畢后碼盤,托盤貨物用叉車搬到垂直輸送機,送往一層出貨區。
22、23、裝車
在出貨口,貨物裝上卡車,送到各店鋪。
目前,像這樣成功應用語音識別系統的案例在日本還不多見。吉林總經理對于初次引進語音識別系統是這樣評價的:對于習慣了以往傳統分揀方法的操作人員來講,他們完全沒有不適應的感覺,反而更喜歡現在極富節奏感的作業。
“要通過改善工作流程,使所有人員都適應語音識別系統,不斷提高工作效率。我們不要求最好,只追求更好”。吉林總經理說。
篇4
關鍵詞 語音識別技術 聽覺系統 仿生學 智能 機器人
中圖分類號:TN912.34 文獻標識碼:A
1語音識別技術
1.1語音識別技術簡介
語音識別技術主要分為兩類,一是語音意義的識別,一種是目標聲識別。第一個被稱為語音識別,它是根據聲音的成詞特點對聲音進一步分析,主要應用在人工智能,人機對話和快速輸入等領域。通過訪問聲音的特征,從目標語音中進行提取,該項技術可以區分多目標語音的種類,確定目標,主要用于戰場目標識別領域,海上偵察系統,預警系統,軍事聲納識別,車輛聲音識別,火車預警系統,動物個體的語音識別和家庭安全系統等。
科技研究人員通過對語音信號處理技術進行深入的研究,結果發現:人的聽覺系統的聲音配合具有獨特的優勢,它能準確地提取目標的聲音特征,準確地辨別聲音的方向和內容分類,所以基于仿生聽覺系統的目標聲識別技術備受現代前沿科技的關注。針對目標聲音識別系統的研究工作成為了現代語音識別技術研究的一個熱門方向,不少科技研究人員正在積極探索先進可行的仿生學理論,特征提取技術和語音識別技術。
1.2語音識別技術的研究現狀
語音識別技術主要是通過對監測數據的聲音特性分析,得到聲音特性的樣本文件。語音識別技術是一種非接觸技術,用戶可以很自然地接受。但語音識別技術和其他行為識別技術具有共同的缺點,即輸入樣本的變化太大,所以很難完成一些精確的匹配,聲音也會伴隨著速度,音質的變化而影響到信號的采集和結果的比較。
在語音識別中,語音識別是最早也是比較成熟的領域。隨著越來越多的應用需求,識別聲音并不局限于語音識別,人們開始深入研究目標識別技術的非語音識別,該項技術已經參照了成熟的語音識別技術的一部分,但由于各自的應用環境和實際的音頻特征之間的差異,該技術還存在一些差異。
1.3語音識別技術的實際應用
在民用方面,目標聲音識別系統可以應用于門禁系統,網絡安全,認證,智能機器人,動物語音識別,電子商務和智能交通等領域。在智能交通領域,利用來自車輛識別模型的運動音頻信號,可以實現交通信息的智能化管理。在智能機器人領域,機器人目標聲音識別系統可以作為機器人的耳朵,通過環境聲音識別并確定聲音的方位,然后再反應外界的聲音,因此可以將其當作家庭自動化服務系統和安全系統。在動物的語音識別領域,可以根據害蟲聲特征來區分害蟲種類,根據不同的害蟲采取不同的措施。在網絡應用領域,在關于各種在線服務支持的語音識別技術新項目開發中,可以提高網絡的服務質量,給人們的生活帶來方便。現在,美國,德國和日本都開了電話銀行,語音代替原來的密碼和使用印章,簡化了工作服務流程,提高工作效率。
在軍事上,目標聲音識別技術來自于第二次世界大戰,在探測敵人的炮火和潛艇時,起著重要的識別和定位作用。但由于計算機技術,信號處理技術,光電檢測和雷達檢測技術快速的發展,使聲探測技術發展得十分緩慢。直到現代的戰爭,研發了使用于戰爭中的三維信息,全方位定向,反欺詐、欺騙、干擾和反偵察、監視,在隱身與反隱身的現代戰爭中為國家的國防事業做出了不可磨滅的杰出貢獻。通過電,磁,光學和雷達探測技術和主動檢測技術來完成偵察任務已經不能滿足現代戰爭的需求。在武裝直升機技術成熟的當代,隱形轟炸機和其他高科技武器都有了反射功率,抗電磁干擾,反輻射的功能,特別是快速發展的數字技術和計算機技術,迫使各國為了實現對目標的定位跟蹤和噪聲識別而重新開始研究被動聲探測技術,關注聲檢測技術。在未來戰爭中,武器裝備發展的一個重要趨勢是智能化、小型化,一個重要的特點是具備目標識別的能力,并根據不同的對象使用不同的攻擊方法。
2聽覺系統
為了設計一個更精確的目標聲音識別系統,越來越多的學者開始深入研究仿生學領域。通過研究發現,人類的聽覺系統在聲音的物理方面具有獨特的優勢,聲音特征可以準確提取目標識別中聲音的方向,種類和含量,而且還可以提高抗噪聲能力,所以基于人基于語音識別技術的聽覺系統已經成為目前的研究熱點。
人類聽覺仿生學是模仿人耳的聽覺系統和生理功能,并通過建立數學模型,根據數學分析原理得到的聽覺系統。它涉及聲學,生理學,信號處理,模式識別和人工智能等學科,是一個跨學科研究領域的綜合應用。該技術已在軍事,交通,銀行,醫療治療的許多方面取得了重要應用,是人類實現智能生命的重要研究課題之一。
人類聽覺系統的處理能力大大超過目前的聲音信號處理水平。從人類聽覺系統的心理和生理特點視角,許多研究人員對接聽過程中的語音識別進行深入的研究。目前,許多學者提出了不同的聽覺模型,這些模型大多是一些基于語音識別和語音質量評價系統的聽覺模型,模擬人耳聽覺功能的生理結構,這些應用處理方法大大提高了系統的性能。
參考文獻
篇5
關鍵詞:凌陽單片機;語音識別;家居控制;Android;藍牙通信
Abstract:This paper studied the technology of speaker-dependent recognition based on Sunplus SPCE061A, voice recognition technology will be applied to the home control system. Proposed a control scheme which is convenient operation,easy to expand, and applicable to home applications. The system will be analyzed from the perspective of hardware circuit and software design. Also in the Google App Inventer platform, built out a control software based on Android smartphone’s Bluetooth communication.The tested results showed that the system has successfully realized the voice technology appliances and Android smartphones remote control technology.
Key words:Sunplus;voice recognition;home control;Android;Bluetooth communication
隨著科技智能化的發展和社會生活水平的不斷提高,人們對家居環境方便快捷的要求也隨之提高,智能家居的概念成為了一個熱門話題。在智能家居系統中,語音識別和遠程控制的應用打破了常規的家用電器局域性控制局限,已經成為了具有競爭性的新興高技術產業,在智能家居控制系統上應用非常廣泛。本文研究了基于SPCE061A單片機的特定人語音識別技術以及智能手機藍牙通信技術,并將其成功應用于家用電器的控制上,用戶可以利用語音命令和Android手機操作方便快捷地控制電器的開關動作。
1 系統總體設計
系統采用凌陽16位SPCE061A單片機為核心控制器,由藍牙串口透傳模塊ATK-HC05、MIC輸入模塊、揚聲器、液晶顯示器、按鍵組成,利用SPCE061A內置的語音模塊,將麥克風采集到的語音信號與事先訓練好的語音庫的特征語音進行對比,根據語音辨識結果產生控制信號,進而控制家用電器[1]。系統還增加了無線藍牙通信功能,由Android智能手機發送事先規定的指令,藍牙模塊接收后將數據交給控制器處理,產生的控制信號將發送給執行器對家電進行控制。系統還設置了人性化的液晶人機界面和指示燈方便用戶操作。用戶可以通過鍵盤對系統進行復位、重新學習語音命令的操作。系統總體結構框圖如圖1所示。
2 系統硬件設計
凌陽16位單片機SPCE061A在硬件結構和指令系統上都非常適用于語音信號處理,其主要的特點為:速度快,多中斷,多個A/D轉換器,特別是具有音頻輸出功能的雙通道10位D/A轉換器,具有自動增益控制功能與內置傳聲放大器的A/D轉換器[2]。本設計采用具有DSP功能并內置聲音A/D轉換器的凌陽單片機,可以使得系統大大簡化。
SPCE061A的A/D轉換器有8個通道,其中有一個是MIC_IN輸入,專門對語音信號進行采樣。MIC選用駐極體話筒,其偏壓由SPCE061A的VMIC腳提供。MIC輸入模塊電路結構簡單,只需外接三個電阻和電容以對電流信號進行濾波。
SPCE061A提供雙通道10位的D/A輸出AUD1、AUD2,每個通道的輸出能力是30mA。為了能驅動揚聲器放音,將輸出電路設計為由負載電阻和三極管8050組成的功放電路[3]。
2.1 最小系統組成
最小系統接線如下圖2所示,在OSC0、OSC1端接上晶振及諧振電容,在鎖相環壓控振蕩器的阻容輸入VCP端接上相應的電容電阻后即可工作。其它閑置的電源端和地端接上0.1?F的去藕電容以提高抗干擾能力。
2.2 藍牙通信電路
ATK-HC05是一款高性能的主從一體藍牙串口模塊,該模塊支持非常寬的波特率范圍:4800~1382400,并且模塊兼容5V或3.3V單片機系統[4]。
模塊與單片機連接最少只需要4根線即可:VCC、GND、TXD、RXD。其中VCC和GND用于給模塊供電,RXD和TXD分別為串口接收腳和串口發送腳,分別連接單片機的TXD和RXD進行通信。
ATK-HC05模塊與單片機系統的典型連接方式如圖3所示:
3 系統軟件設計
本課題的軟件主要包括兩部分:語音控制和藍牙通信,采用C語言編程。該系統的智能手機控制軟件是在MIT/Google App Inventer平臺下搭建的,App Inventor是一個完全在線開發的Android編程環境,拋棄復雜的程式代碼而使用積木式的堆疊法來完成Android程式。Google App Inventor用戶能夠通過該工具軟件使用谷歌的Android系列軟件自行研發適合手機使用的應用程序[5]。
3.1 語音控制程序流程圖
語音控制程序流程如圖4所示。該控制程序主要包括兩個部分,即語音訓練和語音識別。語音識別部分則實現對特定人發出的語音命令與系統儲存的語音命令比較,并根據比較結果產生相應的控制信號。
程序執行步驟如下:程序開始運行時,首先將RAM中的語音模式擦除,為下面的語音訓練的存儲做準備。然后按照訓練提示音依次訓練觸發名稱。每一條語音命令需要訓練兩次,這兩次訓練會自動作出比較判斷。當訓練人兩次發出的語音命令在誤差允許范圍內則判斷為訓練成功,同時將訓練人的發音特征儲存到系統中,否則程序返回上一層對該命令再次進行訓練,直到語音命令完全訓練成功。
當系統提示語音訓練完畢后,程序隨即進入識別階段。系統首先對語音識別器進行初始化,同時麥克風會播放提示音,提示訓練人此時可以對控制系統發出語音命令。處理器將采集的語音信號進行處理,并與存儲器中訓練人的語音樣本進行比較,根據比較結果產生相應的控制信號從而驅動設備動作。語音識別過程循環進行,完成語音命令的控制任務后系統等待訓練人再次語音命令[6]。
3.2 藍牙通信
由Android移動設備發送事先規定好的數據指令,系統中的藍牙模塊接收到后將數據交給單片機處理,單片機將接收到的指令和預先規定好的指令進行比較,產生控制信號傳送給被控對象,從而實現Android智能手機對電器設備的控制。藍牙通信流程圖如圖5所示。
3.3 Android軟件設計
App Inventor for Android,它是一個基于網頁的開發環境,即使是沒有開發背景的人也能通過它輕松創建Android應用程序。App Inventor可以讓開發者拋開復雜的程序代碼,使用搭積木式的方法來完成Android應用程序。
搭建應用程序需要準備以下材料:
⑴Android系統智能型手機
⑵藍牙串口透傳模塊(本文使用ATK-HC05)
⑶單片機系統開發板(本文使用凌陽SPCE061A)
首先要有一個谷歌賬戶,并且申請了開發App inventor的權限。
登錄到App inventor開發界面可以看到一個空頁面,點擊“new”創建一個新項目,在出現的對話框中輸入創建的app的名字,便可以開始對應用程序的編輯。
App Inventor由兩個部分構成:設計視圖和塊編輯視圖。開發者可以在設計視圖中完成添加按鈕、文本框等程序外觀的設計,設計視圖就是一個網頁;在塊編輯視圖進行真正的代碼編輯,塊編輯視圖就是一個Java應用。如果將Android設備連接到了電腦上,還可以隨時在手機上看到應用程序的修改。
Android軟件設計結構圖如圖6所示,此程序表示當打開Android手機的藍牙功能后,獲取可連接設備的地址。當連接成功后按下發送按鈕,Android手機會經由藍牙發送指令數據給當前地址的接收端,從而實現智能手機對電器設備的遠程控制。
4 結論
本設計采用凌陽單片機SPCE061A作語音識別處理器,硬件電路簡單,控制靈活;選用適合特定人孤立詞識別的語音特征和識別方法,處理速度快,識別率高,可滿足實時語音識別的需要。同時使用者可以根據自己的需要改變應答反應(包括語音輸出和控制輸出),就可以實現對多種電器設備的控制,如電視機開關及選臺、音量調節等操作。該系統可擴展性和靈活性強、成本低廉,在智能家居方面具有良好的應用前景。
[參考文獻]
[1]王中強,楊坤,俞一奇,張志美,程立英.基于SPCE061A單片機的智能小車的設計[J].科技資訊,2013,(18):88~89.
[2]陳海宴,呂江濤,李瑞.凌陽16位單片機經典實戰[M].北京航空航天大學出版社,2011-7-4:12-13.
[3]李金波,田民.基于單片機的智能家居系統設計[J].自動化技術與應用,2010,29(6):125~128,131.
[4]廣州星翼電子.藍牙串口模塊[EB/OL].[2013-12-25].http:///product/showproduct.php?lang=cn&id=31.
篇6
【關鍵詞】語音識別技術;發展趨勢
語音識別是一門交叉學科。語音識別研究經歷了50多年的研究歷程,經過50多年的積累研究,獲得了巨大的進展。特別是近20年來,語音識別技術取得了顯著的進步,并逐步的走向市場。在未來的日子里,語音識別技術將應用更為廣泛。
一、語音識別技術概述
語音識別是解決機器“聽懂”人類語言的一項技術。作為智能計算機研究的主導方向和人機語音通信的關鍵技術,語音識別技術一直受到各國科學界的廣泛關注。如今,隨著語音識別技術研究的突破,其對計算機發展和社會生活的重要性日益凸現出來。以語音識別技術開發出的產品應用領域非常廣泛,如聲控電話交換、信息網絡查詢、家庭服務、賓館服務、醫療服務、銀行服務、工業控制、語音通信系統等,幾乎深入到社會的每個行業和每個方面。
廣泛意義上的語音識別按照任務的不同可以分為4個方向:說話人識別、關鍵詞檢出、語言辨識和語音識別。說話人識別技術是以話音對說話人進行區別,從而進行身份鑒別和認證的技術。關鍵詞檢出技術應用于一些具有特定要求的場合,只關注那些包含特定詞的句子,例如對一些特殊人名、地名的電話監聽等。語言辨識技術是通過分析處理一個語音片斷以判別其所屬語言種類的技術,本質上也是語音識別技術的一個方面。語音識別就是通常人們所說的以說話的內容作為識別對象的技術,它是4個方面中最重要和研究最廣泛的一個方向,也是本文討論的主要內容。
二、語音識別的研究歷史
語音識別的研究工作始于20世紀50年代,1952年Bell實驗室開發的Audry系統是第一個可以識別10個英文數字的語音識別系統。
1959年,Rorgie和Forge采用數字計算機識別英文元音和孤立詞,從此開始了計算機語音識別。
60年代,蘇聯的Matin等提出了語音結束點的端點檢測,使語音識別水平明顯上升;Vintsyuk提出了動態編程,這一提法在以后的識別中不可或缺。60年代末、70年代初的重要成果是提出了信號線性預測編碼(LPC)技術和動態時間規整(DTW)技術,有效地解決了語音信號的特征提取和不等長語音匹配問題;同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語音識別研究進一步走向深入:HMM模型和人工神經網絡(ANN)在語音識別中成功應用。1988年,FULEE Kai等用VQ/I-IMM方法實現了997個詞匯的非特定人連續語音識別系統SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續語音識別系統。
進入90年代后,語音識別技術進一步成熟,并開始向市場提品。許多發達國家如美國、日本、韓國以及IBM、Apple、AT&;T、Microsoft等公司都為語音識別系統的實用化開發研究投以巨資。同時漢語語音識別也越來越受到重視。IBM開發的ViaVoice和Microsoft開發的中文識別引擎都具有了相當高的漢語語音識別水平。
進入21世紀,隨著消費類電子產品的普及,嵌入式語音處理技術發展迅速[2]。基于語音識別芯片的嵌入式產品也越來越多,如Sensory公司的RSC系列語音識別芯片、Infineon公司的Unispeech和Unilite語音芯片等,這些芯片在嵌入式硬件開發中得到了廣泛的應用。在軟件上,目前比較成功的語音識別軟件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及開源軟件HTK,這些軟件都是面向非特定人、大詞匯量的連續語音識別系統。
三、語音識別技術的發展現狀
語音識別技術通過全球科學家的共同努力,經歷半個多世紀的研究,目前已經發展到了接近實用的階段。在實驗室環境下,大詞匯量的朗讀式連續說話的寬帶語音信號的平均識別率可以達到90%以上。正式有了如此高的識別率之后,語音識別技術慢慢地從實驗室演示系統逐步走向實用化商品。以IBM Via Voice和Dragon Dictation為代表的兩個聽寫機系統的出現,使“語音識別”逐步進入大眾視線,引起了廣泛的社會關注。
由于校對和更正識別的錯誤很麻煩和浪費時間,這樣便降低語音識別的優勢。同時,由于使用的環境或講話口音習慣等因素的影響,語音識別的內容大大降低,識別的內容不能達到100%的正確,所以很多人認為目前的語音識別系統還無法滿足實用要求。
目前,AT&T和MIT等將語音識別技術應用在一些有限詞匯的特定任務上,如電話自動轉接、電話查詢、數字串識別的任務中,當講話的內容是系統所存儲的內容存在的,且使用環境的聲學特性與訓練數據的聲學特性相差不太大時,語音識別的正確識別率可以接近100%。但是,在實際使用中如果這些條件被破壞,則會對識別系統造成一定的影響。
我國的語音識別研究一直緊跟國際水平,國家也很重視。國內中科院的自動化所、聲學所以及清華大學等科研機構和高校都在從事語音識別領域的研究和開發。國家863智能計算機專家組為語音識別技術研究專門立項,并取得了高水平的科研成果。我國中科院自動化所研制的非特定人、連續語音聽寫系統和漢語語音人機對話系統,其準確率和系統響應率均可達90%以上。
四、語音識別技術發展趨勢
語音作為當前通信系統中最自然的通信媒介,語音識別技術是非常重要的人機交互技術。隨著計算機和語音處理技術的發展,語音識別系統的實用性將進一步提高。應用語音的自動理解和翻譯,可消除人類相互交往的語言障礙。國外已有多種基于語音識別產品的應用,如聲控撥號電話、語音記事本等,基于特定任務和環境的聽寫機也已經進入應用階段。這預示著語音識別技術有著非常廣泛的應用領域和市場前景。隨著語音技術的進步和通信技術的飛速發展,語音識別技術將為網上會議、商業管理、醫藥衛生、教育培訓等各個領域帶來極大的便利,其應用和經濟、社會效益前景非常良好.
雖然語音識別在過去的20年里有了很大的發展,但是,仍然存在很多的不足,有待于進一步的探索,具體可分為以下幾個方面:
1.提高可靠性。語音識別技術需要能排除各種聲學環境因素的影響。在比較嘈雜的公共環境中,人的意識會有意識的排除非需要的聲學環境因素,這對語音識別系統而言,是很難做到的。另外,在日常生活中,人類的語言常常具有較大的不確定性,比較隨意,并帶有明顯的言語習慣。這同樣會給語音識別系統很大的識別麻煩。目前,在提高語音系統在不同環境中的可靠性,同時要應用現代技術讓語音識別系統更加智能化,掌握人們語言隨意性的部分規律,以達到最佳的識別效果。
2.增加詞匯量。系統可以識別的詞匯的數量是系統能夠做什么事情的一個重要度量。一個語音識別系統使用的聲學模型和語音模型如果太過于局限,當用戶所講的詞匯超出系統已知的范圍時,則語音識別系統不能準確的識別出相應的內容,比如,當突然從中文轉為英文、法文、俄文時,計算機就會常常輸出混亂奇怪的結果。但是,隨著系統建模方法的不斷改進、搜索算法效率的提高以及硬件資源的發展,未來的語音識別系統可能會做到詞匯量無限制和多種語言混合,這樣用戶在使用的時候可以不必在語種之間來回切換,這樣就能大大減少詞匯量的對語音識別系統的限制。
3.應用拓展。語音識別技術可以用于把費腦、費力、費時的機器操作變成一件很容易很有趣味性的事,比如,當人們出現手忙、手不能及以及分身無術的場景時,通過語音識別系統的模型構造,則能夠在象駕駛室、危險的工業場合、遠距離信息獲取、家電控制等各個方面,語音識別技術可能帶動一系列嶄新或更便捷功能的設備出現,更加方便人的工作和生活。其應用的范圍和前景非常廣泛。不僅能夠應用于日常生活,更重要的會帶來生產方式的革命,是下一代智能化控制的基礎。
篇7
摘要:本文簡要介紹了語音識別技術理論基礎及分類方式,所采用的關鍵技術以及所面臨的困難與挑戰,最后討論了語音識別技術的發展前景和應用。
關鍵詞:語音識別;特征提取;模式匹配;模型訓練
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、語音識別技術的理論基礎
語音識別技術:是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高級技術。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支,涉及到生理學、心理學、語言學、計算機科學以及信號處理等諸多領域,甚至還涉及到人的體態語言(如人在說話時的表情、手勢等行為動作可幫助對方理解),其最終目標是實現人與機器進行自然語言通信。
不同的語音識別系統,雖然具體實現細節有所不同,但所采用的基本技術相似,一個典型語音識別系統主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。此外,還涉及到語音識別單元的選取。
(一) 語音識別單元的選取
選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種,由具體的研究任務決定。
單詞(句)單元廣泛應用于中小詞匯語音識別系統,但不適合大詞匯系統,原因在于模型庫太龐大,訓練模型任務繁重,模型匹配算法復雜,難以滿足實時性要求。
音節單元多見于漢語語音識別,主要因為漢語是單音節結構的語言,而英語是多音節,并且漢語雖然有大約1300個音節,但若不考慮聲調,約有408個無調音節,數量相對較少。因此,對于中、大詞匯量漢語語音識別系統來說,以音節為識別單元基本是可行的。
音素單元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統也在越來越多地采用。原因在于漢語音節僅由聲母(包括零聲母有22個)和韻母(共有28個)構成,且聲韻母聲學特性相差很大。實際應用中常把聲母依后續韻母的不同而構成細化聲母,這樣雖然增加了模型數目,但提高了易混淆音節的區分能力。由于協同發音的影響,音素單元不穩定,所以如何獲得穩定的音素單元,還有待研究。
(二) 特征參數提取技術
語音信號中含有豐富的信息,但如何從中提取出對語音識別有用的信息呢?特征提取就是完成這項工作,它對語音信號進行分析處理,去除對語音識別無關緊要的冗余信息,獲得影響語音識別的重要信息。對于非特定人語音識別來講,希望特征參數盡可能多的反映語義信息,盡量減少說話人的個人信息(對特定人語音識別來講,則相反)。從信息論角度講,這是信息壓縮的過程。
線性預測(LP)分析技術是目前應用廣泛的特征參數提取技術,許多成功的應用系統都采用基于LP技術提取的倒譜參數。但線性預測模型是純數學模型,沒有考慮人類聽覺系統對語音的處理特點。
Mel參數和基于感知線性預測(PLP)分析提取的感知線性預測倒譜,在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的一些研究成果。實驗證明,采用這種技術,語音識別系統的性能有一定提高。
也有研究者嘗試把小波分析技術應用于特征提取,但目前性能難以與上述技術相比,有待進一步研究。
(三)模式匹配及模型訓練技術
模型訓練是指按照一定的準則,從大量已知模式中獲取表征該模式本質特征的模型參數,而模式匹配則是根據一定準則,使未知模式與模型庫中的某一個模型獲得最佳匹配。
語音識別所應用的模式匹配和模型訓練技術主要有動態時間歸正技術(DTW)、隱馬爾可夫模型(HMM)和人工神經元網絡(ANN)。
DTW是較早的一種模式匹配和模型訓練技術,它應用動態規劃方法成功解決了語音信號特征參數序列比較時時長不等的難題,在孤立詞語音識別中獲得了良好性能。但因其不適合連續語音大詞匯量語音識別系統,目前已被HMM模型和ANN替代。
HMM模型是語音信號時變特征的有參表示法。它由相互關聯的兩個隨機過程共同描述信號的統計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態的Markor鏈,另一個是與Markor鏈的每一狀態相關聯的觀察矢量的隨機過程(可觀測的)。隱蔽Markor鏈的特征要靠可觀測到的信號特征揭示。這樣,語音等時變信號某一段的特征就由對應狀態觀察符號的隨機過程描述,而信號隨時間的變化由隱蔽Markor鏈的轉移概率描述。模型參數包括HMM拓撲結構、狀態轉移概率及描述觀察符號統計特性的一組隨機函數。按照隨機函數的特點,HMM模型可分為離散隱馬爾可夫模型(采用離散概率密度函數,簡稱DHMM)和連續隱馬爾可夫模型(采用連續概率密度函數,簡稱CHMM)以及半連續隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點)。一般來講,在訓練數據足夠的,CHMM優于DHMM和SCHMM。HMM模型的訓練和識別都已研究出有效的算法,并不斷被完善,以增強HMM模型的魯棒性。
人工神經元網絡在語音識別中的應用是現在研究的又一熱點。ANN本質上是一個自適應非線性動力學系統,模擬了人類神經元活動的原理,具有自學、聯想、對比、推理和概括能力。這些能力是HMM模型不具備的,但ANN又不個有HMM模型的動態時間歸正性能。因此,現在已有人研究如何把二者的優點有機結合起來,從而提高整個模型的魯棒性。 二、語音識別的困難與對策
目前,語音識別方面的困難主要表現在:
(一)語音識別系統的適應性差,主要體現在對環境依賴性強,即在某種環境下采集到的語音訓練系統只能在這種環境下應用,否則系統性能將急劇下降;另外一個問題是對用戶的錯誤輸入不能正確響應,使用不方便。
(二)高噪聲環境下語音識別進展困難,因為此時人的發音變化很大,像聲音變高,語速變慢,音調及共振峰變化等等,這就是所謂Lombard效應,必須尋找新的信號分析處理方法。
(三)語言學、生理學、心理學方面的研究成果已有不少,但如何把這些知識量化、建模并用于語音識別,還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續語音識別中是非常重要的。
(四)我們對人類的聽覺理解、知識積累和學習機制以及大腦神經系統的控制機理等分面的認識還很不清楚;其次,把這方面的現有成果用于語音識別,還有一個艱難的過程。
(五)語音識別系統從實驗室演示系統到商品的轉化過程中還有許多具體問題需要解決,識別速度、拒識問題以及關鍵詞(句)檢測技術等等技術細節要解決。
三、語音識別技術的前景和應用
語音識別技術發展到今天,特別是中小詞匯量非特定人語音識別系統識別精度已經大于98%,對特定人語音識別系統的識別精度就更高。這些技術已經能夠滿足通常應用的要求。由于大規模集成電路技術的發展,這些復雜的語音識別系統也已經完全可以制成專用芯片,大量生產。在西方經濟發達國家,大量的語音識別產品已經進入市場和服務領域。一些用戶交機、電話機、手機已經包含了語音識別撥號功能,還有語音記事本、語音智能玩具等產品也包括語音識別與語音合成功能。人們可以通過電話網絡用語音識別口語對話系統查詢有關的機票、旅游、銀行信息,并且取得很好的結果。
語音識別是一門交叉學科,語音識別正逐步成為信息技術中人機接口的關鍵技術,語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術的應用已經成為一個具有競爭性的新興高技術產業。
參考文獻
[1]科大訊飛語音識別技術專欄. 語音識別產業的新發展.企業專欄.通訊世界,2007.2:(總l12期)
[2]任天平,門茂深.語音識別技術應用的進展.科技廣場.河南科技,2005.2:19-20
[3]俞鐵城.科大訊飛語音識別技術專欄.語音識別的發展現狀.企業專欄.通訊世界,2006.2 (總122期)
[4]陳尚勤等.近代語音識別.西安:電子科技大學出版社,1991
篇8
語音識別算法雖然還有很多問題沒有解決,但語音識別技術已經開始逐步進入實用階段。在發達國家語音識別技術已經用于信息服務系統和查詢系統,人們可以通過電話網絡查詢有關的信息,并且取得很好的結果。用戶交換機、電話機、手機也包含了語音識別撥號功能。調查統計表明多達80%以上的人對這些服務表示滿意。中小詞匯量的語音識別系統(
語音芯片的應用
近年來語音芯片應用越來越廣泛,主要包括:
1.電話通信中的語音撥號。特別是在中、高檔移動電話上,現已普遍具有語音撥號的功能。隨著語音識別芯片的價格降低,普通電話上也將具備語音撥號的功能。
2. 汽車的語音控制。由于在汽車的行駛過程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語音撥號功能的免提電話通信方式。此外,對汽車的門、窗、空調、照明以及音響等設備,同樣也可以由語音來方便地進行控制。
3. 工業控制及醫療領域。當操作人員的眼或手已經被占用的情況下,在增加控制操作時,最好的辦法就是增加人與機器的語音交互界面。由語音對機器發出命令,機器用語音做出應答。
4. 個人數字助理(Personal Digital Assistant,PDA)的語音交互界面。PDA的體積很小,人機界面一直是其應用和技術的瓶頸之一。由于在PDA上使用鍵盤非常不便,因此,現多采用手寫體識別的方法輸入和查詢信息。但是,這種方法仍然讓用戶感到很不方便。現在業界一致認為,PDA的最佳人機交互界面是以語音作為傳輸介質的交互方法,并且已有少量應用。隨著語音識別技術的提高,可以預見,在不久的將來,語音將成為PDA主要的人機交互界面。
5. 智能玩具。通過語音識別技術,我們可以與智能娃娃對話,可以用語音對玩具發出命令,讓其完成一些簡單的任務,甚至可以制造具有語音鎖功能的電子看門狗。智能玩具有很大的市場潛力,而其關鍵在于語音芯片價格的降低。
6. 家電遙控。用語音可以控制電視機、VCD、空調、電扇、窗簾的操作,而且一個遙控器就可以把家中的電器皆用語音控制起來,這樣,可以讓令人頭疼的各種電器的操作變得簡單易行。
語音識別專用芯片系統有如下幾個特點: 1. 多為中、小詞匯量的語音識別系統,即只能夠識別10~100詞條。只有近一兩年來,才有連續數碼或連續字母語音識別專用芯片實現。2. 一般僅限于特定人語音識別的實現,即需要讓使用者對所識別的詞條先進行學習或訓練,這一類識別功能對語種、方言和詞條沒有限制。有的芯片也能夠實現非特定人語音識別,即預先將所要識別的語句碼本訓練好而裝入芯片,用戶使用時不需要再進行學習就可直接應用。但這一類識別功能只適用于規定的語種和方言,而且所識別的語句只限于預先已訓練好的語句。3. 由此芯片組成一個完整的語音識別系統。因此,除了語音識別功能以外,為了有一個好的人機界面和識別正確與否的驗證,該系統還必須具備語音提示(語音合成)及語音回放(語音編解碼記錄)功能。4. 多為實時系統,即當用戶說完待識別的詞條后,系統立即完成識別功能并有所回應,這就對電路的運算速度有較高的要求。5. 除了要求有盡可能好的識別性能外,還要求體積盡可能小、可靠性高、耗電省、價錢低等特點。
語音識別技術發展
在發達國家各種各樣基于語音識別技術的產品已經可以買到,如具有聲控撥號電話,語音記事本等等。語音電話服務、數據查詢服務也已經部分實現。基于特定任務和環境的聽寫機也已經進入應用階段。語音識別技術是非常重要的人機交互技術,有著非常廣泛的應用前景。
說話者自適應技術近年在語音識別系統的研究中也備受重視,這是由于與人有關的語音識別系統比與人無關的語音識別系統的識別率要高很多。通過有效的自適應手段可以很快地提高系統的識別能力。實際上說話人自適應技術和穩健語音自適應技術是相通的。由于不同的說話人在聲道長度,說話口音方式都很不一樣。說話者自適應技術也主要是從以下兩方面著手。
靜態處理方法。從特征提取或訓練階段就盡可能減少來自說話人的變化因素對模型的貢獻。可以進行聲道參數的歸一化處理或對說話人進行分類處理,如分男女聲的識別系統就是其中的一個典型,但實際上僅僅從男女聲上對模型分類還是太粗,可以通過有效的聚類方法進行分類。這類方法統稱為聲學歸一化處理方法。
動態處理方法。對預先訓練好的與人無關識別系統,通過臨時得到的特定人語音數據對系統的模板或特征參數進行自適應修正,從而在原有系統基礎上建立一個用于特定任務、特定環境或特定說話人的系統,這類方法統稱為自適應方法。自適應方法可分為: 批模式、累進模式、即時模式; 按自適應學習策略又分為無監督學習和有監督學習。從用戶使用的方便程度來看是由難到易,而算法實現則是由易到難。采用何種策略取決于應用背景,對識別率的要求等因素。對于聽寫機等應用來說,最具吸引力的是累進、無監督的自適應方式,也稱在線自適應。
語言模型也是目前研究的一個重要方面。目前的語言模型是與任務有關的,典型的統計語言模型是通過大量任務特定的語料訓練出來的。通過新聞語料訓練出來的模型不能很好地工作于法律方面的文件語音識別。有幾種方法用于解決這些問題。一種是使用自適應語言模型。在靜態語言模型的基礎上,通過一個高速緩沖存儲器對語言模型進行動態的修正; 另一種是先訓練多領域語言模型,然后通過混合高斯模型將這些模型結合在一起; 還有一種比較好的辦法是使用大顆粒的語言模型,如基于類的語言模型,而不是基于詞的語言模型,類可以是詞性類,詞義類,以及由一定的數據驅動的聚類算法產生的各種類。
由于不同詞可以屬于同一類,這樣類比較大,構成的語言模型就比較穩健。其關鍵的問題是如何決定詞的分類,由于詞的分類比較復雜,同一詞可能屬于不同的類,特別是解決如何通過計算機實現自動分類的算法,即使用數據驅動算法也還沒有很好地解決。基于統計技術的計算語言學已經越來越受到重視,它解決了單獨規則語言模型不能解決的一些問題。當然統計語言模型也不能解決全部問題,因此如何把統計語言模型和基于規則的語言模型結合也是語言模型研究的重點之一。
目前不同快速語音識別算法都在開發中。其中包括對HMM狀態輸出的概率分布進行矢量量化,縮小搜索空間算法,減少計算機的內存需求方法,以及結合計算機結構特點的編程技術的應用。
鏈接:穩健語音識別技術
篇9
手寫輸入
手寫輸入一直是一個很方便的輸入方法,一般都是配合手寫板來輸入的,很適合那些不會打字的朋友輸入文字,其實在Windows Vista操作系統中,也有一個很不錯的手寫功能,它是利用鼠標在指定的輸入框中進行“寫”字,通過操作系統的識別系統來輸入文字,我們可以點擊菜單“開始―所有程序―附件―Tablte PC―Tablte PC輸入面板”來打開它,或者按“Win+R”來打開運行窗口,輸入“TabTip”也能馬上運行。這時候可以看到手寫功能的界面了,現在就可以用鼠標來代替手寫板進行寫字了(如圖1)。
手寫輸入默認使用簡體中文,手寫識別率還是比較不錯的,比如我們要輸入中文內容,用鼠標直接在上面寫就可以了,如果是輸入數字、字母或者英語單詞,那可以先點擊下面相應的標簽,然后再進行輸入,輸入好后點擊右下角的“插入”按鈕就可以插入到文檔中了(如圖2)。
如果你經常使用一些特殊的字符,特別是手寫系統不能識別的,那我們可以讓手寫板來“自學”。點擊菜單“工具―個性化手寫識別”,彈出設置窗口,點擊左面的“簡體中文”,接著用輸入法輸入要識別的字符,完成后點擊“下一步”按鈕,然后就在手寫板上寫五遍剛才輸入的符號,讓手寫系統記住你輸入的筆畫,全部設置好后,下次輸入該字符時,手寫系統就可以自己識別了(如圖3)。
我們還可以給手寫輸入進行一些設置,讓它使用起來更加方便,點擊菜單“工具―選項”,在彈出的“選項”窗口中就可以進行設置了。比如要設置一下手寫筆的粗細,那只要點擊“書寫板”標簽,然后在“墨跡粗細”中選擇自己的適合的規格就可以了(如圖4)。
語音輸入
Windows Vista系統中還有一個以前在Office 中的語音識別系統,通過它可以進行語音輸入文字,而且還可以通過語音來控制電腦呢。
要使用語音識別系統,耳麥或者話筒是不可缺少的,它們的質量不要太差就可以了,以免影響語音的識別效果。點擊菜單“開始―所有程序―附件―輕松訪問―Windows語音識別”,第一次使用會彈出一個設置向導界面,點擊“下一步”按鈕來選擇一下耳機的類型,這個就看自己是使用的什么類型的麥克風了,一般選擇“頭戴式麥克風”或者“桌面麥克風”就可以了,接下來設置向導會告訴一些麥克風的擺放位置和注意事項(如圖5)。
現在我們可以來調整麥克風的音量了,大聲朗讀窗口中的斜體文章,聲音的范圍最好在綠色區域內波動,這也是語音識別系統在采集你的聲音,完成后點擊“下一步”按鈕(如圖6)。
為了提高語音識別的準確度,我們在下面的選項中還可以來選擇“啟用文檔復查”和讓語音識別系統在開始的時候自動運行。完成設置后,“語音識別”系統會自動調出它的使用教程,整個教程分歡迎、基礎、聽寫、命令、使用Windows、結論這幾個部分,按它的提示進行操作就可以了,非常簡單,而且其中的操作都可以用語音來進行,如要點擊“下一步”按鈕,只要直接說“下一步”就可以了(如圖7)。
在使用和學習“語音識別”系統的過程中,周圍的環境一定要安靜,如果有雜聲會影響語音識別的效果,而且在說話的時候,語速不要太快,語言自然是說普通話了。
篇10
關鍵詞:語音識別; ARM; 機器人控制; 嵌入式系統
1 語音識別過程分析
目前使用最為廣泛的是LPCC和MFCC。MFCC參數將線性頻標轉化為MEL頻標,更利于突出待識別的信息。而LPCC參數是基于線性頻標的,沒有這一特性。MFCC參數提取過程中需要FFT變換,由此可以獲得語音信號的頻域上的全部信息,有利于端點檢測、語音分段。
對語音信號進行參數提取后的信息存儲在模板庫中,模式匹配過程中,實際上就是將測試語音的參數模板和模板庫中的模板進行比較的過程。在小詞匯量的孤立詞語音識別系統中,通常采用DTW 算法。算法原理為:
設R為參考模式,T為待測模式。R和T分別表示為: