智能語音識別在廣播電視監測的應用

時間:2022-04-09 02:48:05

導語:智能語音識別在廣播電視監測的應用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

智能語音識別在廣播電視監測的應用

摘要:隨著媒體深度融合不斷推進,各類新興媒體持續涌現、遍地開花,廣播電視內容監測從傳統的廣播、電視頻道監測擴展到了互聯網新興媒體視聽內容。海量、多元的互聯網視聽內容給監測監管工作帶來了巨大的挑戰,如何適應這一新形勢是各級監管機構面臨的共性問題。本文旨在探討將自動語音識別和智能語義分析技術結合起來應用到監測監管工作中的可行性及優勢。

關鍵詞:智能語義分析;自動語音識別;內容監測

1引言

隨著互聯網技術的發展普及,手機、電腦逐漸成為了人們獲取信息、學習娛樂的主要渠道,與之對應的各類互聯網新媒體傳播平臺(短視頻、直播、視頻網站等)不斷涌現,海量的網絡視頻、網絡廣播等互聯網視聽內容都成為了廣播電視監測監管對象,使得監測監管工作變得更加艱巨和復雜,對監測監管從業人員的專業素質和監測技術手段提出了更高的要求。傳統廣播電視內容監測是將音視頻節目錄像先存貯,再通過圖像識別、關鍵幀對比、語音特征識別等技術手段進行監測監管,存在監測時效性差、計算存貯資源需求高、違規識別準確率低等問題。隨著互聯網視聽監測業務的不斷拓展,這些劣勢越發凸顯,實現快速、實時、準確的對巨量、多元的互聯網視聽內容進行監測監管的需求變得越來越迫切。

2自動語音識別和智能語義分析技術

2.1自動語音識別。語音識別(ASR)是語音交互中最基礎的一個AI技術環節,就是將一段語音信號轉換成相對應的文本信息,系統主要包含特征提取、聲學模型、語言模型以及字典與解碼四大部分。此外,為了更有效地提取特征,往往還需要對所采集到的聲音信號進行濾波、分幀等音頻數據預處理工作,將需要分析的音頻信號從原始信號中合適地提取出來。特征提取工作將聲音信號從時域轉換到頻域,為聲學模型提供合適的特征向量;聲學模型再根據聲學特性計算每一個特征向量在聲學特征上的得分;而語言模型則根據語言學相關的理論,計算該聲音信號對應可能詞組序列的概率;最后根據已有的字典,對詞組序列進行解碼,得到最后可能的文本表示,連續語音識別原理框圖如圖1所示。當前,該技術發展已非常成熟,車載語音助手、智能語音輸入等都已經普及在我們的各種生活場景中。2.2智能語義分析。智能語義分析是自然語言理解(NLP)的關鍵,自然語言理解是人工智能領域中的核心課題之一。當前,智能語義分析可以對文本進行自動化處理,主要應用于要素抽取、智能審核、輿情分析、知識搜索、自動寫作等,在分析歧義、詞語省略、代詞所指、意圖識別等的理解方面依然存在不足。但是,隨著近年來人工智能技術的迅猛發展,經過不斷的演化迭代,其智能化、類人化的理解能力已經越來越高,按照這個趨勢,未來計算機一定能夠逐步接近甚至達到類人自然語言處理能力。通過以上介紹不難發現,將語音自動識別和智能語義分析結合起來,運用到廣播電視內容監測中,從技術實現上來說已經沒有障礙,首先通過自動語音識別將音視頻內容文本化,然后再利用智能語義分析對文本化的音視頻內容進行分析監測,輸出監測預警信息。當前,語音識別速度和準確率早已達到應用層面的標準,為音視頻內容文本化的準確率提供了保障,通過樣本庫關鍵詞句進行文本檢索,就可以快速準確識別一般違規信息,這只是快速發現的第一步。對于較為復雜的違規信息,智能語義分析系統在不斷的使用優化過程中,通過長期連續的神經網絡訓練和人工糾偏,逐步提高對長文本、復雜結構句式、特殊發聲等各種定制監測需求違規信息的理解識別準確率,由文本內容檢索逐步進化到擬人化的感知思考,應用前景明朗。

3現有監測監管技術手段存在的不足

3.1計算資源耗用高、時效性差。我們通常采用的視頻識別對比監測需要對整個視頻內容進行解碼,然后將視頻的每一幀或關鍵幀利用圖像的顏色特征、形狀特征、紋理特征等進行模板匹配,根據同樣本庫樣本的相似程度做出評價,從而作為監測定性的依據。不管是結構識別還是統計識別的圖像識別模式,視頻圖像識別對存貯讀寫速度、網絡傳輸速率、CPU/GPU運算能力都提出了較高要求,占用計算資源較多,監測運行處理過程耗時,效率較低;音頻內容則大多采用特征值提取的監測方式。在傳統主流廣播電視音視頻內容監測中,監測系統在計算資源需求和數據處理時長上同監測對象的數據量成正比,實踐中我們往往采取先采集收錄,再分時段調配資源對內容進行監測監管的方法,絕大部分都是事后監管,時效性較差,想實現多套節目內容實時監測需要大量硬件投入。3.2違規誤判較多、人工參與程度高。視頻內容因其畫面、顏色、構圖方式存在千差萬別,而且畫面內容往往非常復雜,干擾因素多,通常采用的是特征符號對比、顏色比例規則等方式進行內容監測,輸出的疑似違規報警信息數量龐大,報假警比例較高,需要投入大量人力進行人工審核來確定其是否違規,在當前互聯網視聽內容海量化的現狀下,監測能力捉襟見肘。雖然利用神經網絡訓練算法進行圖像識別的研究經過數年來不斷的迭代優化,擬合能力和泛化能力越來越強,當前來看靜態圖像識別有一定的市場應用,但對視頻流的識別準確率依然沒有質的提升,同時對硬件資源的高度依賴也限制了它的發展前景。

4智能語音識別分析在廣播電視內容監測中的應用優勢

4.1技術成熟,資源耗用低,易于實現多路視聽節目內容的實時監測。實時自動語音識別早已通過手機、電視、汽車等產品融入我們的日常生活,極大地提升了我們通信、居家、出行、購物等方方面面的用戶體驗。一臺普通的手機,實時調用極少資源,即可勝任從語音識別分析到文字輸出或者執行用戶語音指令任務的全部流程,如果將現有的監測監管服務器集群計算資源處理能力應用到多路自動語音識別,那么對多路視聽內容的實時監聽能力將成指數級增長。每一路視聽節目都分別生成一路文本輸出,甚至可以要求互聯網視聽內容入網必須自主接入自動語音識別功能,向監測監管機構實時發送監聽文本信息,監管機構的智能語義分析系統只需對多路輸入的文本進行實時分析監測,整體上不會形成像處理視頻流對硬件資源造成的需求壓力,一旦達到這樣的能力,網絡空間的各類視聽內容資源全部納入實時監測不難實現,廣播電視監測監管應管盡管的愿景成為可能,語音識別分析監管系統流程圖如圖2所示。4.2監測對象音頻輸出品質有保障,語音識別準確率高。廣播電視及互聯網音視頻內容,大部分錄音錄像或者配音都有相對專業的錄播間,以及普通話更加標準的主播、主持人。語音識別系統能獲得環境噪聲低、發音更加專業的高質量音源,有條件的音視頻源碼流可以直接將人聲音軌進行分離,相對于大家日常的語音識別應用場景,納入監管的視聽節目源能夠保證較高的語音識別轉換準確率,為后續內容分析監測提供有力的支撐。4.3其他語種語言識別轉換更加便捷?;ヂ摼W音視頻內容極其豐富,全世界不同地區、種族、語言的音視頻內容在大屏小屏上經??梢?,圖像識別和語音特征值提取此時基本成了“睜眼瞎”和“聾子”。一般監測監管工作人員通過人工都很難有效辨別有害信息,而多語言混合識別技術只需要增加相應語種的聲學模型,即可完成監測內容的文本輸出和智能語義分析,可以替代需要多個擁有多語種能力人員完成的大量工作。4.4文本內容監管對違規有害信息的發現準確率高。語言作為意識形態傳播的物質外殼,擁有其他傳播形式不可撼動的核心地位。對于一張圖片或者一段視頻資源,同一畫面內容的語言解讀,可以有千百種,僅依靠畫面監測或單純的語音特征識別技術并不能有效發現違法違規的事件解讀和輿論導向意圖。文本智能語義分析可以進行同音、同義、同形等方面的變形分析,同時進行網絡新詞自動跟蹤,對最新出現的網絡用語進行識別,能夠有效預警各種變形信息和潛在不良信息。智能語義分析系統利用神經網絡算法,通過對大量現有及新增的違規案例的持續學習反饋訓練,可以讓計算機不斷提升對各種表述方式的理解能力,準確分析出文本信息的內在邏輯和思想要義,從而提高內容違規判別準確性。

5結語

智能語音識別分析技術相比傳統廣播電視監測手段具有天然的優勢,雖然目前智能語義分析能力還不完美,需要更加深入地開發和修正,但在當前將其作為廣播電視監測新的補充手段值得探索。

參考文獻

[1]洪青陽,李琳.語音識別:原理與應用[M].北京:電子工業出版社,2020.

[2]鄧力.基于深度學習的自然語言處理[M].北京:清華大學出版社,2020.

作者:許永武 鄒金池 趙時 單位:湖北省新聞出版廣電監管中心