音頻內容綜合處理技術在廣播監測網的測試

時間:2022-01-29 10:28:31

導語:音頻內容綜合處理技術在廣播監測網的測試一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

音頻內容綜合處理技術在廣播監測網的測試

摘要:目前開展的電視廣播信號內容監測業務主要由人工完成,隨著監測業務的不斷擴展,面對海量的數據,實現對電視廣播信號內容自動監測的迫切性日益增加,需要全面提高現有監測系統的智能化水平。本文主要就音頻內容綜合處理技術在海外廣播監測中的測試展開敘述。

關鍵詞:廣播電視;語音監測;海外廣播網;測試

近年來,我國的廣播電視監測事業發展迅猛,廣播電視監測工作已經進入到了一個新的時代。廣播電視監測工作已由過去被動的事后服務轉變為積極主動的過程服務,由過去靠人工的、傳統落后的手段變為數字化、網絡化、自動化的方式,由過去單一的無線廣播監測向廣播電視全面、全方位監測發展。2002年,廣電總局實施“走出去”工程,以加強我國對外廣播電視宣傳,同時,在海外建立了環球廣播監測網,加強對中國國際廣播電臺對外廣播效果和租機/互轉的電臺播出的監督、檢查,提高對外廣播效果。我國在各國的駐外大使館都有相應的信號采集設備,收集當地的對華廣播落地信號,然后對信號進行壓縮,通過互聯網傳回到國內的監測中心,進行內容監測,從而發現對我國社會、經濟、外交等有用的重要信息。截至目前,海外監測網已經在50個國家相繼建立了54個無人值守遙控監測站點,每日可監測中國國際廣播電臺對外播出的32種語言、383個頻率的廣播效果。將音頻識別、文本檢索、圖像處理等新技術實際應用于目前主要靠人工完成廣播信號內容監測業務,充分利用計算機對于海量節目內容自動處理具有的速度快、效率高、可以控制漏檢率等特點,將眾多的先進技術服務與廣電監測行業相結合。

一、音頻內容綜合處理技術

(一)廣播音頻信號介紹

真實應用環境下的語音現象非常豐富,以海外監測機房短波音質廣播語音為例(如圖1)。圖1海外監測機房典型語音廣播音頻信號具有以下特點:1.信號在傳送過程中,由于干擾使得包含的噪聲很不穩定,主要表現在兩方面:一是同一個音頻片段里的噪聲變化不均勻,時大時小;二是不同的音頻片段的信噪比差別較大。這就使得有的音頻片斷的信號質量好一些,而有的音頻片斷的信號質量卻很差。2.由于是電臺節目信號,所以包含了各種各樣的音頻類型,既有純凈的語音,也有帶音樂或噪聲背景的語音,既有音樂歌曲,也有強噪聲或者如鼓聲之類的環境音,可以說是一種語音、音樂和噪聲的混合音頻信號。3.信號中含有大量的片頭曲,這些片頭曲多是一些具有音樂背景的報臺信號,或者是不同節目的報幕信號。由于片頭曲中含有一定的語言信息,所以即使是同一個電臺或同一個節目,不同語言的片頭曲也是不同的。此外,由于廣播電臺的節目時刻表比較固定,同一語言播出的節目中的片頭曲相對也是固定的,這是一種固定音頻信號。4.廣播節目都是以一定的頻率被播出的,在信號傳送過程中,某一頻率的節目信號有可能被其他節目的同一頻率信號完全干擾或臨界干擾,如果兩個節目的語言不同,那么將出現兩種或多種語言重疊或交疊出現在同一個音頻片段中的現象。此外,一個節目中也有可能出現多種語言,比如一些語言教學節目。5.信號中的說話人不僅有主持人,也有大眾百姓,大家說的話不僅有母語,也有方言,甚至還有非母語的外國人在說話,而且說話的內容和說話人的性別也是隨機的。此外語音不僅僅是廣播語音,在一些人物采訪節目中常常出現電話或麥克風語音。6.由于廣播節目是每天24小時不間斷地播出的,所以采集的數據將是海量的,此外,雖然每段音頻的采集時長約57秒鐘,但是如果去除其中的非語音成分,剩下的語音時長卻是不定的。從這些特點中不難看出,實際真實的音頻信號是非常復雜的,這給語種識別系統的實際應用帶來了很大的困難和挑戰。音頻內容綜合自動處理系統的主要處理對象是語音,對其內容的分析和監測對象包括內容、關鍵信息、語種等。

(二)音頻內容處理技術基礎框架

當前主流語音處理技術主要基于統計框架,一般包括以下流程和處理步驟,如圖2所示。圖2基于統計音頻內容計算技術框架1.建模數據庫的建立:主流音頻內容計算技術建立于統計理論之上。系統性能對建模數據的依賴很大,因此要求建模數據與測試數據在應用環境、說話方式等方面有一定的相關性,否則無法保證系統在應用環境下的性能。2.特征的選擇與提取:特征是區分不同類事物最根本的屬性,選用不同的特征將帶來不同的區分能力使得類內高偶合、類間低聚合。因此對不同的識別任務,必須精細選擇所使用的特征。3.建模技術:模型用于刻畫不同類別之間的本質差異,一個好的建模方法會顯著提高系統性能。目前主流的建模技術分為兩類,一類基于最大似然估計方法,其本質是通過描述特征在空間中的分布參數來刻畫類別統計特性,最常見的模型是高斯混合模型GMM;另一類是基于區分度的估計方法,其本質是通過描述不同類別的分界面信息來刻畫類別間的特性,最常見的模型是支持向量機模型SVM。

(三)面向真實應用環境的音頻內容處理框架

對真實應用環境語音的處理,需要包括以下流程和處理步驟,如圖3所示。圖3音頻內容綜合處理系統框架針對不同格式的輸入語音進行格式轉換,統一為wav格式。對于廣告或含有片頭曲檢出的任務,可以采用固定音頻檢索技術,把片頭曲或廣告作為模板,從音頻信號中檢索,根據片頭曲所對應的語種來確定整個音頻片段的語種。由于信號中含有多種音頻類型,而諸如音樂和噪聲之類的音頻幾乎不含所需信息,所以需要把音頻信號分成語音、音樂和噪聲,以去掉這些不含語種差別信息的非語音信號。針對特定應用環境,需要對音頻信號的質量進行評估,對信號質量較差的語音降低識別的置信度。由于音頻信號含有噪聲較大且不均勻,提取特征時需要采取一定的噪聲消除技術。對于經過增強后的語音,進行內容識別、語種識別及敏感信息監測等內容計算任務。

二、音頻內容綜合處理技術測試

(一)場景分析

音頻場景分析的目的是把輸入音頻文件分成語音和非語音,并把其中的非語音成分去掉,僅把語音提出來用于后續內容計算。建模數據庫:從海外機房2月15號至28號不同語言播出的節目中人工整理用于音頻分類的訓練數據,考慮到訓練樣本的平衡,其中語音60M,非語音60M,非語音包括音樂和噪聲各30M。整理時把帶強音樂背景的語音歸為音樂,帶強噪聲背景的語音歸為噪聲,而帶弱音樂或弱噪聲背景的語音歸為語音。然后使用語音和非語音共120M數據訓練第一個分類器,用來區分語音和非語音,使用音樂和噪聲共60M數據訓練第二個分類器,用來區分音樂和噪聲。特征選擇:常用的音頻分類特征有16種,其中時域特征包括7種,即過零率(Zero-CrossingRate,ZCR)、高過零率幀的比率(HighZero-CrossingRateRatio,HZCRR)、短時能量(Short-TimeEnergy,STE)、低能量幀的比率(LowShort-TimeEnergyRatio,LSTER)、短時能量的均方值(Root-Mean-Square,RMS)、靜音幀的比率(SilenceFrameRatio,SFR)、子頻帶能量分布(Sub-bandEnergyDistribu-tion,SED);頻域特征包括9種,即頻譜差分幅度(SpectrumFlux,SF)、頻譜質心(SpectrumCentroid,SC)、頻譜散度(SpectrumSpread,SS)、頻譜截止頻率(SpectralRolloffFre-quency,SRF)、子頻帶周期(Sub-bandPeriodicity,BP)、噪聲幀的比率(NoiseFrameRatio,NFR)、線譜對(LinearSpec-trumPairs,LSP)、線性預測倒譜系數(LinearPredictionCep-stralCoefficients,LPCC)和梅爾倒譜系數(Mel-FrequencyCepstralCoefficients,MFCC)。而一些非常用的音頻特征包括短時基頻(Short-TimeFundamentalFrequency,STFF)和譜峰軌跡(SpectralPeakTrack,SPT)等。我們以高過零率幀的比率HZCRR和噪聲幀的比率NFR為例,說明其對語音/非語音和音樂/噪聲具有區分能力。圖4HZCRR和NFR對語音/非語音和音樂/噪聲具有區分能力如圖4所示,對輸入音頻分別提取高過零率幀的比率HZCRR和噪聲幀的比率NFR特征,可發現語音/非語音HZCRR特征、音樂/噪聲NFR特征的數值范圍具有明顯差別,可作為特征區分兩者。為此,根據不同特征間的區分能力及其互補性,系統采用了如下特征:表1音頻分類特征集音頻分類類型特征集語音/非語音BP、HZCRR、LPCC、LSP、LSTER、MF-CC、RMS、SBE、SC、SS、ZCR純語音/非純語音BP、LPCC、LSP、MFCC、RMS、SC、SF、SFR、SS、ZCR音樂/環境音BP、NFR、RMS、SBE、SF、STE建模技術:采用基于支持向量機的區分度建模方法。支持向量機(SVM)是一種基于現代統計學習理論的模式識別方法,在解決有限樣本、非線性及高維模式識別問題中表現出許多特有的優勢。SVM是一種兩類樣本分類器,其目標是在超高維(一般幾十萬維)空間找到一個分類超平面,使得它能夠盡可能多的將兩類樣本數據正確分開,同時使分開的兩類數據點距離分類面最遠。一般包括兩個部分,即特征從原空間到超高維空間的映射和分類面學習。

(二)音頻信號質量評估

音頻場景分析的目的是按照我國《廣播節目聲音質量主觀評價方法和技術指標要求》的規定,對廣播節目語音質量進行自動評價。特征選擇和提取:通過比較和分析,系統選擇語音能量、噪聲能量、信噪比、音樂/噪聲/語音比例、基于譜熵的可聽度估計幾種特征。建模技術:采用多特征的線性加權分類技術,各特征的加權系數經驗確定。測試原理如下圖所示:圖6測試原理性能分析:對于機器自動評分和人工評分不一致的結果,請值班員幫助判斷。值班員的判斷結果分為三類,即人工和自動評分均可、自動評分偏差和人工主觀性因素偏差。對于自動評分偏差,其主要影響因素是算法參數,為此根據人工判斷結果對算法參數做適當調整,再次迭代,直至過程收斂。首先對3月1日、5日、10日和14日的這4天采集的約6000個音頻片段人工進行主觀打分,然后由系統對這些音頻片段自動評分,比較人工主觀評分和系統自動評分的一致性,實驗結果如下表所示。表3系統自動評分與人工主觀評分的一致性日期3月1日3月5日3月10日3月15日評分一致性66.01%64.78%65.18%67.61%從總體實驗結果來看,整體上人工和系統打分完全一致的比率為66.5%,對評分不一致的音頻片段進行分析,我們發現:a)經人工確認,兩種打分均可的約占16.2%;b)由于人工疲勞等主觀因素使得人工評分不正確的約占9.7%;c)由于算法不夠精致使得系統打分偏離人工打分1級的約占5.6%,2級及其以上的約占2.0%。為此,我們以系統評分與人工評分差半級為正確,差兩級以上錯誤,重新統計評分的一致性時,上述4天打分一致性的整體平均正確率可達到98%。

(三)語音增強/去噪

語音增強/去噪的目的是增加帶噪語音的信噪比,從而提高后續內容計算模塊的識別準確性。方法:針對背景噪聲在不同環境不同時刻下的變化特性,提出了在系統前端采用自適應濾波器來對語音信號進行降噪處理的方法,有效地提高了信號層的區分度。同時,我們在模型端對傳統的基于匹配的聲學模型訓練算法(MULTI-TRAIN)進行了改進,吸納了MULTI-TRAIN訓練方法中在訓練數據中加入應用環境背景噪聲的做法,采集了大量不同種類和不同信噪比下的背景噪聲,對訓練數據進行“污染”,并用“污染”后的數據訓練聲學模型,增加了訓練和測試環境下模型的匹配程度。進一步,我們在頻譜域提出了一種基于功率譜密度最小均方誤差估計(PSD-MMSE)的語音增強算法。該算法在功率譜域用指數分布來建模平穩隨機噪聲,并用混合指數分布來建模語音的能量譜,構建了純凈語音功率譜密度的最小均方誤差估計器,顯著地改善了語音質量。此外,我們還在對數譜域提出了一種采用高階泰勒級數展開來近似對數譜域非線性環境函數從而尋求最合適的補償形式以補償對數譜域特征的方法。該方法還同時考慮了對數譜高斯混合模型的建模精度問題,并且引入了能量補償的思想,提出了采用類似譜減的方式來補償語音能量的方法,并研究了把對數能量和對數譜結合在一起補償的可能性。特點:由于背景噪聲在不同環境不同時刻下的變化特性,噪聲的估計與補償必須自適應地進行;另外,構造補償濾波器時要盡可能精確。

(四)音頻模板檢索

音頻模板檢索的目的是根據對固定出現的音頻片斷,入廣告、片頭曲等,對廣播節目進行定位。特征選擇和提取:多個子頻帶的能量比率。模型:直方圖重迭匹配。系統特點:1.抗畸變:首先采用頻譜的掩蔽和增強技術對音頻進行畸變消除和歸一化處理,從而降低音頻中的噪聲、扭曲等畸變,提高了方法的魯棒性,然后采用臨界頻帶劃分策略,提取多個子頻帶的能量比率作為基本特征,并建立每個片頭曲的直方圖模型;2.搜索速度快:基于直方圖重疊相似度最小的快速搜索策略,并在搜索過程中選擇多尺度步長預測技術提高搜索速度。性能分析:從2月15號至28號的部分音頻片段中截取90個不同語種的片頭曲模板,然后從3月1號至5號的部分音頻片段中再截取77個與前90個沒有重復的片頭曲模板,每個片頭曲模板的時長從2秒到20秒不等。基于上述片頭曲模板,對3月6號至14號的13512個音頻片段進行檢索。檢出2950個文件含有片頭曲,檢出率為21.83%,其中錯誤的有15個,誤報率為0.51%。

(五)語種識別

語音識別技術可自動識別出語音段所屬的語言。特征選擇:采用美化感知線性預測系數(MF-PLP)和移動差分倒譜特征(SDC),高維空間映射后增加長時平均,從而包含了更多的時序信息。建模技術:采用基于支持向量機的區分度建模方法。建模數據庫:17個語種,如表4。每個語種經過自動去除片頭曲、噪聲和音樂處理,每個語種的訓練數據約2-3小時。系統特點:反映語種間差異的是音素間的連接關系,因此必須增加特征的時間跨度已反映時序信息,系統中特征經過區分性變換后,做長時平均并增加SDC特征。性能分析實驗1:識別性能隨不同建模數據庫規模的變化每個語種訓練模型的數據量從1.5小時、2.5小時到3小時逐漸增大,,得到每個語種的模型之后,經過識別,實驗結果如表5.5所示。從表中可以看出,隨著訓練數據量的增大,語種識別的性能也會相應地提高。實驗2:識別性能隨不同語種數的變化按照語種名字的漢語拼音字母的順序,我們從6個語種開始,每次增加2個逐漸增加到16個直至17個語種,并且基于每個語種3小時的數據量訓練模型,對相應的測試數據進行識別,識別性能如圖所示。圖7識別性能隨不同語種數的變化從圖中可以看出,隨著要識別的語種個數的增多,識別性能逐漸下降,這主要是因為增加的語種容易和其他語種相互混淆。實驗3:模型優化基于200M數據訓練的17個語種的模型,對3月1日至14日的音頻文件進行識別,識別過程中,每個語種都有部分語音,其信號質量不差(不低于3分)且時長也較長(不低于30秒),但是該語種的模型得分有時候雖然是第一名卻比較低,甚至有時候不是第一名,使用這部分語音更新訓練相應的語種模型,上述思想稱之為從錯誤中學習。下面我們使用3月6日至31日的語音句子,基于17個語種測試比較從錯誤中學習前后的識別正確率,實驗結果為:原模型的識別正確率為90.85%,更新后模型識別正確率為93.58%,提高了2.73%,這說明從錯誤中學習是非常有效的。

(六)語音識別技術

語音識別技術可將連續輸入的音頻流中的語音部分,翻譯成對應的文本信息。特征選擇:采用美化感知線性預測系數(MF-PLP)。建模技術:采用隱馬爾科夫模型(HMM)描述時序信息,采用高斯混和模型(GMM)描述音素特征分布信息。建模數據庫:300小時廣播語音,新唐人電視臺120小時,美國之音、BBC、CCTV等節目180小時。系統特點:系統采用的關鍵詞檢出框架如圖8所示。圖8連續語音識別系統框架系統模型包括聲學和語言模型兩套,聲學模型的作用為將語音特征轉換為對應的聲學音素序列,語言模型在此基礎上完成音到字的轉換。系統基于國際主流LVCSR技術,針對漢語語音做了具有創新性的貢獻,突破了在漢語LVCSR總體框架、聲調和聲韻母聯合建模、大規模語音語料庫處理、系統搜索、網絡語言增強的語言建模和無監督聲學模型訓練等方面的關鍵技術。

(七)敏感信息/時段監測

敏感信息監測技術可從連續輸入的音頻流中,發現預定的敏感信息。特征選擇:采用美化感知線性預測系數(MF-PLP)。建模技術:采用隱馬爾科夫模型(HMM)描述時序信息,采用高斯混和模型(GMM)描述音素特征分布信息。建模數據庫:300小時廣播語音,新唐人電視臺120小時,美國之音、BBC、CCTV等節目180小時。敏感時段監測:在敏感詞匯檢出基礎上,根據單位時間加權置信度信息分析某個時段的敏感程度。系統采用的關鍵詞檢出框架如圖5.9所示。系統中采用了一種改進的兩階段處理架構的關鍵詞檢出方法。在第一階段,系統不僅為詞表中的詞、靜音和可能出現的噪聲建立模型,同時還要為非關鍵詞建立若干填充模型。在第二階段,系統對檢出結果的置信度進行計算,從而判斷該結果是否可信。為實現在真實環境條件下的應用,我們在資源允許的條件下采用了盡可能精細的填充模型來解決填充模型選擇困難的難題。同時,通過在一般情況下采取全局回溯技術,及在口語發音變異比較嚴重的場合采用局部回溯技術,有效的解決了關鍵詞檢出率不高這一問題。此外,我們還通過采用關鍵詞網絡和填充網絡進行獨立擴展裁剪,大大降低了系統性能對于進入填充模型的懲罰系數的敏感度,從而解決了調節進入填充模型的懲罰系數困難這一問題。圖9關鍵詞檢出系統框架目前,國際上廣泛采取的置信度估計手段主要有三類,即基于正確/誤識兩類分類器、基于對數似然比和基于后驗概率的方法。考慮到對數似然比的方法和基于后驗概率的方法在實際應用條件下具有很強的互補性,而基于正確/誤識兩類分類器可以作為上述兩類方法有益的補充。我們在實際應用中,提出了綜合利用上述三類方法。

(八)綜合性能測試

在綜合使用了音頻信號質量評估、語音增強/去噪、音頻模板檢索、語種識別、音識別技術、敏感信息/時段監測。測試數據與環境:√2月1號-28號全部數據,共47960個文件,去掉臨時測試文件,剩下46275個測試文件√17個語種模型√228個片頭曲模型,其中包括集外語種(蒙、孟、烏、越)的40個片頭曲模型√測試語音時長約72%為117秒,約28%為57秒√不限定話長和得分按天統計結果如下表所示:28天平均工作量減輕為46.84%,系統誤報率僅為1.61‰。進一步分析可以發現,日減輕工作量與當日可進行處理的文件有強相關性,如圖所示,說明系統運行性能穩定。

三、結語

音頻內容綜合處理技術在海外廣播監測網中的成功測試,是先進的科學技術和實際應用的良好結合點。先進的技術結合了實際工作需求,反復測試和優化,系統的性能得到顯著提升。將不能達到100%正確率的技術運用到需要100%準確的監測工作中,真正減少人工監測工作量50%。基于語種識別的國際臺廣播質量及效果綜合評估集成技術,提出一套計算機自動打分方法并結合人工評分反復修正。并從真正減輕值班員工作量角度出發,綜合利用語種識別結果的置信度技術,把識別結果分為確定而無需人工再次干預和需人工評判兩類。另外,結合短波廣播語音的噪聲強、音樂多、存在片頭曲等現象,不斷增加和完善系統流程,集成了包括片頭曲識別、音樂/噪聲/語音分類、語音增強在內多項技術集成創新。基于語種識別的國際臺廣播質量及效果綜合評估集成技術的研發進程顯示,測試期間對數萬個文件進行測試和分析,對常用的片頭曲模型進行了重新優化和增減,對質量好識別性能差的句子針對性地進行了分析和試驗,從錯誤中學習,進一步優化了模型。基于語音抗噪聲技術,對信噪比較低的短波信道音質的廣播語音實現了高可靠度的語種識別,在15個語種條件下識別準確率達到95%。同時應用基于似然比檢驗的識別結果置信度技術,對語種識別結果的錯誤部分進行自動剔除,使得置信度為100%的識別結果無需人工確認,將每天100小時的人工監測工作量減半,大大提高了監測工作的質量和效率。

作者:趙琰 單位:國家新聞出版廣電總局

參考文獻:

[1]杜利民.自動語言辨識研究[J].電子科技導報,1996(4).

[2]高升,徐波,黃泰翼.基于決策樹的漢語三音子模型[J].聲學學報,2000(6).

[3]姜洪臣,梁偉,張樹武,徐波.音頻場景分類的音頻特征提取和分析[J].聲學技術,2005(6).

[4]杜樹新,吳鐵軍.模式識別中的支持向量機方法[J].浙江大學學報(工學版),2003(5).