語音合成技術研究論文

時間:2022-12-16 10:36:00

導語:語音合成技術研究論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

語音合成技術研究論文

摘要本文就語音合成系統,特別是在文語轉換方面的一些關鍵技術及實現做了詳細的描述和介紹,并且給出了一個實際文語轉換系統的實現方案。該語音合成系統作為一種新型人機界面已經成功的應用在多型號衛星測試系統中。

關鍵字語音合成,文語轉換,語音人機界面

1引言

由人工通過一定的機器設備產生出語音稱為語音合成(SpeechSynthesis)。語音合成是人機語音通信的一個重要組成部分。語音合成研究的目的是制造一種會說話的機器,它解決的是如何讓機器象人那樣說話的問題,使一些以其它方式表示或存儲的信息能轉換為語音,讓人們能通過聽覺而方便地獲得這些信息。

語音合成從技術方式講可分為波形編輯合成、參數分析合成以及規則合成等三種。

波形編輯合成,這種合成方式以語句、短語、詞或音節為合成單元,這些單元被分別錄音后直接進行數字編碼,經適當的數據壓縮,組成一個合成語音庫。重放時,根據待輸出的信息,在語料庫中取出相應單元的波形數據,串接或編輯在一起,經解碼還原出語音。這種合成方式,也叫錄音編輯合成,合成單元越大,合成的自然度越好,系統結構簡單,價格低廉,但合成語音的數碼率較大,存儲量也大,因而合成詞匯量有限。

參數分析合成,這種合成方式多以音節、半音節或音素為合成單元。首先,按照語音理論,對所有合成單元的語音進行分析,提取有關語音參數,這些參數經編碼后組成一個合成語音庫;輸出時,根據待合成的語音的信息,從語音庫中取出相應的合成參數,經編輯和連接,順序送入語音合成器。在合成器中,通過合成參數的控制,將語音波形重新還原出來。

規則合成,這種合成方式通過語音學規則來產生目標語音。規則合成系統存儲的是較小的語音單位(如音素、雙音素、半音節或音節)的聲學參數,以及由音素組成音節、再由音節組成詞或句子的各種規則。當輸入字母符號時,合成系統利用規則自動地將它們轉換成連續的語音波形。由于語音中存在協同發音效應,單獨存在的元音和輔音與連續發音中的元音和輔音不同,所以,合成規則是在分析每一語音單元出現在不同環境中的協同發音效應后,歸納其規律而制定的如共振峰頻率規則、時長規則、聲調和語調規則等。由于語句中的輕重音,還要歸納出語音減縮規則。

現在展開大量研究和實用的是文語轉換系統[1](Text-To-SpeechSystem,TTSSystem),它是一種以文字串為輸入的語音合成系統。其輸入的是通常的文本字串,系統中的文本分析器首先根據發音字典,將輸入的文字串分解為帶有屬性標記的詞及其讀音符號,再根據語義規則和語音規則,為每一個詞、每一個音節確定重音等級和語句結構及語調,以及各種停頓等。這樣文字串就轉變為符號代碼串。根據前面分析的結果,生成目標語音的韻律特征,采用前面介紹的合成技術的一種或者是幾種的結合,合成出輸出語音。

本文所討論的語音合成應用系統就是一種面向TTS應用的語音系統。該系統的設計目標是作為人機交互的一種反饋手段,用于將計算機中的數據或狀態以語音的形式加以輸出。該系統的應用背景是作為衛星測試系統的一個子系統用于增強人機交互能力。通過引入語音合成技術,將原本需要測試人員主動觀察的數據、狀態或指令等內容以語音的形式即時播報出來,相應的測試人員只需被動收聽即可,只有在敏感內容出現時才加以主動觀察,從而降低測試人員的工作強度,改善工作環境和條件。在這樣的應用背景下,對語音合成系統的要求是響應速度快,計算復雜度和存儲空間復雜度低,具有良好的可擴展性和合成語音清晰度高、可懂性強,適于科學術語、符號和單位的發音合成等。基于以上系統需求,我們開發了專門針對科學應用特別是航空航天領域內常見的科學術語、符號、計量單位和數學公式等文本分析模塊,以及新型的基于規則和參數的語音合成技術。

2系統結構

圖1中給出了本文討論的語音合成系統的結構框圖。

從外部接口上看,該系統的輸入為文本輸入接口,用戶將要發聲的文本內容通過此接口送入系統,輸入的文本不需特別的格式;輸出為音頻輸出接口,系統將合成的聲音以某種編碼方式由此輸出;此外系統中所有語音信息模型均存儲于語音模型庫文件中,各種符號、單位標注、單詞字母以及詞匯的發音等均存儲于詞庫文件中,這些庫文件作為語音合成系統的內部輸入。

圖1語音合成系統結構

從內部結構上看,輸入的文本主要通過規范化處理和符號轉化,將其中的特殊符號、縮寫、英文單詞以及計量單位等轉換為可識別的發聲單元標識。在分詞模型中,對輸入的文本按預置的分詞規律進行單詞的劃分,通過分詞處理就基本確定了句子的韻律結構以及多音字的發音。韻律預測決定各詞發音;協同發音決定了各詞之間的連接關系。選詞模塊按照韻律要求及詞的發音在詞庫中選擇最優的發音,經過語音重構將波形恢復出來。各詞的語音波形經過拼接模塊在拼接參數的控制下完成最終語句的合成。

3聲學單元的選擇及生成

為使合成語音具有較高的清晰度、可懂度以及自然度,通常采取基于波形的語音合成技術。波形拼接語音合成中的合成單元是從原始自然語音中切分出來的,保留了自然語音的一些韻律特征。根據自然語言的語音和韻律規律,存儲適當的語音基元,使這些單元在確定的存貯容量下具有最大的語音和韻律覆蓋率。合成時經過聲學單元選擇、波形拼接、平滑處理等步驟后輸出語音。通過精心設計語料庫,并根據語音和韻律規則從音庫中挑出最適合的聲學單元,使系統輸出高質量的語音。

常見的語音單元候選可以有詞組、音節、音素和雙音素等。就詞組而言,無論是中文還是西方語系,都和確定的語義相對應,因此使用詞組作為聲學單元可以比較容易的解決合成語音的可懂度問題[2],但是由于詞組的類別非常多,而且在不同韻律環境下有著明顯不同的表現,這樣會造成所需的聲學單元趨向于無窮大。所謂音節,一般都是由元音和輔音構成的,元音是音節的主干部分[3]。以漢語為代表的一些東方語系,音節數目較少,而且音節基本上是“輔音-元音”結構,但是對于一些西方語言,音節數目較多,結構比較復雜,而且使用它并不但不能避免大多數協同發音的影響,而且會引起音庫容量的急劇增大。音素是最小發音單位,可以使語料庫設計時的靈活性好,但由于音素受相鄰語音環境的協同發音影響很大,對這些影響考慮的不合理時,就會造成音庫在語音和韻律上的不平衡。另外在挑選單元時,由于音素的聲學變體很多,所選擇的樣本不合適時,會導致相鄰音素間存在基頻和共振峰上不連續,需要采用譜平滑法進行處理,這必然會降低合成音質。

綜合上述對音節、詞組、音素的分析可以知道,它們各有優缺點,因此在構造波形拼接所需要的語料庫時,可以結合不同類型樣本的優缺點,例如對于自然語流中經常出現的一些協同發音強的音素、音節組合,在通過波形拼接形成目標語音時,應該盡量避免在這些協同發音影響大的音素組合之間進行拼接,否則單元挑選的稍有不合適,就會造成聽覺上的難以接受。所以在構造實用合成系統時所采取的聲學單元的類型和長度都將是不固定的[4]。

在選擇聲學單元構造語音庫時,通常利用某種損失度函數來描述具有相同大小語音庫的合成能力。一個典型的損失度函數可以表達為:

(1)

其中f為當前聲學單元的詞頻,d為聲學單元的預測時長,c為該單元中所包含的音素之間協同發音的大小[4]。在不考慮韻律條件下,構造由聲學單元組成的語音庫時,應使由(1)表示的損失度函在該語音庫上的取值最小為目標。用于拼接的聲學單元通常由連續語流中切分獲得。通過檢索含有大量航天、電子通信、計算機以及衛星領域內關鍵字的文獻,并通過對這些文獻進行文本處理,將文獻切分成詞和句。通過對詞匯的統計可以得到詞頻信息,并在詞頻信息的指導下挑選由文獻獲得的句子,使得選出的句子對高頻詞具有較好的覆蓋,這些挑選出來的句子成為稍后需要錄制的腳本。

挑選合適的播音員,對照腳本進行合理朗讀,并且錄音。將錄音所得的語音波形數據按腳本以及聲學單元的劃分進行切分,通常對于漢語可以切分為詞、字(CV結構)而英文通常需要切分到詞以及少量音素或雙音素,從而構成發聲單元庫。對切分得到的聲學單元按其在原句子中的位置(前中后)以及前后相連的字詞進行標注。這些標注信息對選詞模塊的判決提供依據。

4韻律的生成

韻律的聲學參數一般包括基頻、時長、能量,對于一個TTS系統,韻律生成和控制是十分重要的。韻律參數對于控制合成語音的節奏、語氣語調、情感等具有重要意義,而對漢譜普通話,基頻是和聲調直接相關的物理參數。漢語的構成原則可歸結如下:由音素構成聲母或韻母,韻母帶上聲調后成為調母,由單個調母或由聲母與調母拼接成為音節。漢語有陰平、陽平、上聲、去聲、輕聲5個調,1200多個有調音節。一個音節就是一個字的音,即音節字。由音節字構成詞,最后再由詞構成句子[5]。

基于規則的韻律生成。通過對漢語語音學和語言學的研究總結一些通用的韻律規則,利用這些先驗知識,可以建立一個基于規則的韻律生成系統。通常規則系統包括兩個方面:一是通用規則,比如四個調的基本形狀,上聲連接的變調規則,時長變化,語氣語調的音高變化等;二是目標說話人的特定韻律規則,比如個人的基本調高、調域、語速和停頓等。此外在連續語流中,每個字的發音是會相互影響的,連續語流中一個字的發音的聲調與這個字單獨發音時的聲調會有所不同,在合成的連續語流中,只有具有這種聲調變化才能使合成的語音具有較好的可懂度,否則將只會是單字語音的生硬連接。漢語普通話語句中的變調以二字詞的變調最為主,因為二字詞所占比例約為74.3%。它的調型基本上是兩個原調型的相連的序列,但受連讀影響使前后兩調或縮短、或變低。

基于機器學習的韻律生成。雖然目前已經得到了許多關于韻律的規則,但這些規則對于形成非常貼近自然的韻律還相差很遠。為能夠發覺隱藏而且難以描述的韻律規則通常利用機器學習的方法來實現韻律的生成。常用的算法模型有隱馬爾可夫模型(HMM)、人工神經網絡(ANN)、支持向量機(SVM)以及決策樹等[5][6]。

基于參數化模型的韻律生成。基于機器學習的韻律模型提取一些人工無法分析的細則,大人降低人工參與分析的工作量,但這種方法同時也存在如下問題:首先,一般的學習算法都要求比較多的數據資源,特別是屬性特征比較多的時候;其次,如果己有數據資源分布不均勻,將造成訓練的整體偏差,影響分析結果;再次,專家知識沒有很好的結合利用進來,是一種信息浪費;第四,訓練模型沒有和語言特征和人的感知掛鉤,無法進行轉移和調整。基頻和時長是影響人的韻律聽感的直接聲學參數,兩者都是隨時間變化和環境變化的。參數模型利用先驗知識,先分析基頻時長和語言特征、人的聽感的關系,對此關系建摸,提取基頻時長和語言特征及人的聽感直接相關的參數。這樣的模型有效利用了專家知識,就可以用不多的數據訓練出文本語言特征和參數的關系,同時通過調整模型參數就可以達到改變聽感的韻律特征的目的[7]。

Fujisaki模型是一種廣泛使用的基頻參數化模型[8][9],它主要通過模擬人的發音機理來預測基頻的變化。Fujisaki認為基頻的改變主要有兩個原因:韻律短語邊界(Phrase)的影響和音節調(Accent)的影響。基頻曲線的產生是按照聲帶振動的機理,以Phrase和Accent作為預測系統的輸入,以基頻曲線作為系統的輸入,其中以脈沖信號的形式產生Phrase形狀,以階梯函數產生Accent形狀。在該模型下基頻曲線可以表示為:

(2)

其中函數Gpi(t)以及Gaj(t)的表達式分別為:

(3)

(4)

在表達式(2)、(3)及(4)中各參數含義如表1中所示。

表1Fujisaki韻律模型參數

Fmin基頻最小值αi第i個Phrase命令控制系數

IPhrase元素數量βj第j個Accent命令控制系數

JAccent元素數量θAccent命令最大值參數

T0i第i個Phrase命令的時間標記Api第i個Phrase命令幅度

T1j第j個Accent命令開始時間Aaj第j個Accent命令幅度

T2j第j個Accent命令結束時間

Fujisaki模型的機理很簡單,對于每個phrase命令,就是以一個脈沖信號通過phrase濾波器,相應的基頻值上升到最大點,然后逐漸衰減。對于連續的phrase命令,基頻曲線則產生連續的波動。Accent命令由一個階梯函數初始化,因為accent濾波器的參數α遠大于β,使得Accent元素很快達到其最大值,然后迅速衰減。

5系統實現及應用

整個語音合成系統由一系列動態鏈接庫構成,分別對應圖2中的各組成部分,各動態庫由C語言書寫。這種動態庫的使用方便未來對局部進行修改。通過對動態庫的加載,可以方便的將該語音合成系統集成到任何應用環境中。該合成系統輸入以漢語為主,允許混合少量英文單詞、希臘字母以及其它通用符號。

聲學庫中的語音波形分別采樣AMR及MFCC兩種編碼方式,此外MFCC編碼后再進行矢量量化處理,由此形成多種碼率的聲學單元庫。采用不同的單元庫將獲得不同音質的合成結果輸出。系統的錄音為女聲,可以通過一定的算法,如基音同步疊加技術(PitchSynchronousOverlapAdd,PSOLA)算法,在輸出端對音色進行修改。

該系統作為我所研制的衛星測試系統的一個關鍵技術在實際應用中取得了良好的效果。通過該系統所構造的VoiceUI提供了一種全新的人機界面。計算機通過語音將衛星的實時狀態匯報給監視人員,極大的降低了監視人員的觀察強度,提高了人機系統的工作效率。

參考文獻

[1]D.H.Klatt,Reviewoftext-to-speechconversionforEnglish,J.Acoust.Soc.Am.,82(3):737-793,1987

[2]R.Linggard,ElectronicSynthesisofSpeech,CambridgeUniversityPress,Cambridge.1985

[3]J.Allen,M.S.HunnicuttandD.Klatt,FromTexttoSpeech:TheMITalkSystem,CambridgeUniversityPress,Cambridge,1987

[4]陳永彬,王仁華.語言信號處理.中國科學技術大學出版社,1990

[5]陶建華,蔡蓮紅.漢語TTS系統中可訓練韻律模型的研究.聲學學報,2001

[6]初敏.自然言語的韻律組織中的不確定性及其在語音合成中的應用.第七屆人機語音通訊學術會議,廈門,2003

[7]倪晉富,王仁華.模型化F0曲線中的升降模式控制機制.聲學學報,1996

[8]H.Fujisaki,Theroleofquantitativemodelinginthestudyofintonation,SymposiumonResearchonJapaneseanditsPedagogicalApplications,November4-71992,NavaJapan

[9]H.Fujisaki,andH.Kawai,RealizationoflinguisticinformationinthevoicefundamentalfrequencycontourofthespokenJapanese.ICASSP1988IEEE