您現在的位置是:首頁 > 運動

AI配樂?還是登頂會的那種!|Interspeech 2022

由 新智元 發表于 運動2023-01-31
簡介針對兩種領域賽道,火山語音團隊提出了一種多工學習方法,利用較多的主領域資料來協助子領域部分模組訓練,同時將自動語音識別(Automatic Speech Recognition, ASR)的知識遷移到MOS打分任務

novel怎麼讀語音

編輯:好睏

【新智元導讀】

今天

,語音研究領域最大、最全面的國際學術會議

Interspeech 2022,即將圓滿落幕。

在有聲小說中,適宜的背景音樂可以大幅提升聽感,增強使用者的沉浸式體驗。

近期,火山語音(位元組跳動 AI Lab 智慧語音與音訊團隊)提出了基於篇章級情節理解的有聲小說配樂系統,能夠自動化地挑選並組合出貼合文章情節、烘托感情氛圍的背景音樂,同時與語音合成的有聲小說音訊進行精準的時間戳對齊和混音,極大節省了後期配樂的人力投入。該項成果已入選Interspeech2022。

Interspeech是國際語音通訊協會ISCA組織的語音研究領域頂級會議之一,也被稱為全球最大的綜合性語音訊號處理盛會,在世界範圍內享有極高聲譽,並受到全球各地語言領域人士的廣泛關注。

此次,火山語音團隊共有七篇論文成功入選,內容涵蓋音訊合成、音訊理解等多個技術方向的突破。

音訊合成方向

針對語音合成有聲書的自動化配樂系統

An Automatic Soundtracking System for Text-to-Speech Audiobooks

具體來說,該系統可以分為情節劃分(Plot Partition)、情節分類(Plot Classification) 和 音樂選擇(Novel Selection) 三個部分。

前兩部分主要透過NLP技術實現了篇章級語意理解,能夠自動將小說文字進行片段式的情節劃分,做到預測多達十二類的情節;第三部分則實現了基於語意及小說音訊長度的啟發式規則,自動化地從音樂庫中選擇合適的音樂片段並與小說音訊進行自動混音。

該系統在與人工配樂的對比實驗中,目前的合格率已追平人工水平(均為88。75%);優秀率也高達45%,但對比人工 52。5%的資料指標還略有差距。

有聲小說自動化配樂系統框架

在語音合成有聲小說的場景和業務中,自動化精配背景音樂的加入不僅能夠大幅度提升使用者的聽覺感受和代入感,還極大降低了音訊後期的人力投入成本。

目前,自動化精配背景音樂已經在番茄小說等業務中開始應用。

一種藉助聲學參考特徵和對比學習的高品質歌唱轉換方法

Towards High-Fidelity Singing Voice Conversion with Acoustic Reference amd Contrastive Predictive Coding

近年來伴隨語音後驗機率(Phonetic Posterior Grams,PPG)特徵的廣泛使用,語音轉換效果取得了顯著提升,但PPG特徵在聲學資訊上的缺失導致了在風格和自然度方面的轉換效果並不盡如人意,尤其對於「歌唱」這種對聲學表現力極高要求的場景。

基於上述考量,本篇論文在端到端歌唱轉換模型的基礎上,一方面嘗試使用了梅爾譜、無監督聲學表徵和語音識別模型中間層表徵等多種附加特徵來補足歌唱轉換模型對聲學資訊的需求,同時確保音色效果不受影響,最終透過對比明確了無監督聲學表徵的效果優勢。

另一方面,針對轉換模型的編碼器輸出結果,團隊選擇增加一個對比預測編碼(Contrastive Predictive Coding,CPC)模組以提高編碼結果的連貫性,增強模型對聲學資訊的建模能力。

透過與基礎模型的主觀評測對比,團隊提出的最佳化方案獲得了明顯收益,主觀評測MOS分提升了0。18;同時該方法也被證明可以提升語音音色的歌唱能力,音準客觀指標提升了6%,達到較好的跨域轉換效果。

結合附加聲學特徵和CPC模組的歌唱轉換系統框架

如今語音轉換和歌唱轉換已在影片和歌曲創作方面有相關的應用,而論文提出的方法可以進一步提升直播場景以及影片創作中的語音轉換和歌唱轉換的自然度,提升使用者體驗的同時降低創作門檻。

音訊理解方向

結合對話上下文的流式 RNN-T 語音識別

Bring Dialogue-Context into RNN-T for Streaming ASR

日常生活中,人們說出的語音內容通常與所處的上下文(context)相關,而在對話任務中,憑藉歷史輪次的對話文字所包含的與當前句有關的資訊,可以提升語音識別效果。

基於此,該論文提出將對話歷史作為 context 輸入到流式RNN-T模型中,總結出幾種不同的引入對話歷史的方法和訓練策略,最終獲得了比單句 ASR 提升5%+的識別效果。

AI配樂?還是登頂會的那種!|Interspeech 2022

(a)基礎 RNN-T 結構 (b)引入對話歷史到 predictor 的結構 (c)引入對話歷史到 encoder 的結構

首先針對 RNN-T的結構特點,論文提出將對話歷史更早地引入到 RNN-T 的 predictor(上圖(b)) 和 encoder(上圖(c)),從而可以更充分地將對話歷史資訊融入到 RNN-T 模型中。

其次論文提出了兩種訓練策略:有/無對話歷史輸入模型的聯合訓練(joint training)和對話歷史新增隨機擾動(context perturbation)。

Joint training 策略降低了模型在對話歷史缺失情況下的效能損失,而 context perturbation 則解決了對話歷史含有的識別錯誤對 context-aware ASR 模型的干擾。

最後論文透過在神經網路語言模型(neural network language model,NNLM)中引入對話歷史,來獲得更好的語言模型,並用於 beam-search 解碼,進一步提升識別效果。

在 Switchboard-2000h 的公開資料中,採用論文方法引入對話歷史,將基於RNN-T的語音識別系統的效能在兩個測試集上相對提升了4。8% / 6。0%(無語言模型的情況下) 和 10。6% / 7。8%(有語言模型的情況下)。

基於連續整合發放機制的融合說話人差異和語音內容的字級別說話人轉換點檢測

Token-level Speaker Change Detection Using Speaker Difference and SpeechContent via Continuous Integrate-and-Fire

說話人轉換點檢測(Speaker Change Detection, SCD)任務常常作為說話人分聚類子任務或者語音識別(Automatic Speech Recognition,ASR)模型的前端模組被研究者人員所瞭解。

目前該領域提出的大部分解決方案都只應用了說話人特徵的差異,而忽略了語音內容可以在SCD任務中發揮作用這一方向。

基於此,火山語音團隊提出一種綜合考慮「說話人差異」與「語音內容」兩條線索的說話人轉換點檢測方法,主要透過連續整合發放機制(Continuous Integrate-and-fire,CIF)來達成。

目前該方式能夠獲取到字級別的說話人差異和語音內容,在同樣的表示粒度上融合了兩部分線索之後,就可以在字的聲學邊界處成功進行說話人轉換點的判斷。

AI配樂?還是登頂會的那種!|Interspeech 2022

基於 CIF 的融合兩條線索的字級別說話人轉換點檢測方案

在真實錄制的會議資料集AISHELL-4上,基於該方法提出的方案相比於目前比較有競爭力的基線方法,獲得了絕對2。45%的等純度覆蓋度(Equal Purity Coverage,EPC)提升。

同時也透過實驗證明「說話人差異」與「語音內容」都能作為說話人轉換點判斷的線索使用,而且同時使用兩條線索才是目前最優的方案。此外,該方法所提出的在字元的聲學邊界處進行說話人轉換點檢測,相比於逐幀進行檢測更具優勢,做到直接處理多說話人的語音並輸出字序列以及說話人轉換的位置。應用場景上,適用於多人參與且快速交替對話的場景,例如會議等語音場景。

注意機制編解碼器端到端語音識別模型中基於上下文向量學習的內部語言模型估計

Internal Language Model Estimation Through Explicit Context Vector Learning for Attention-based Encoder-Decoder ASR

論文地址:

https://arxiv。org/abs/2201。11627

目前,端到端語音識別模型建模已經成為語音界主流建模方法,其顯著優點在於建模操作簡單、所建模型效能突出且緻密,即無需對字典、聲學模型和語言模型單獨建模,而是將三者合而為一。換言之,端到端語音識別模型既具有聲學模型功能,又具有語言模型功能。

但這種緻密性在一定條件下會給模型的適用性和靈活性帶來不利影響。譬如端到端識別模型和語言模型之間的融合不再滿足傳統的貝葉斯後驗機率原理,而是一個後驗機率和條件機率的相加。

當具備這樣的條件,如更多的文字語料以及將模型自適應到某一特定領域識別的時候,傳統的端到端識別模型和語言模型的融合只能帶來次優的結果,使模型優越性不能得到充分發揮。

對於此,論文基於貝葉斯後驗機率原理,將端到端估計的後驗機率拆解成似然機率和「內部語言模型」機率乘積形式,目標是更好地估計「內部語言模型」,從而讓模型更高效地與外部語言模型融合,進而提出兩個「內部語言模型」的估計方法,分別是一次性靜態上下文向量學習方法以及基於輕量級神經網路動態上下文向量學習方法,兩種估計方法無需任何額外假設,在多種語料以及多種環境下驗證了提出方法的有效性。

在跨域條件下相對傳統的語言模型融合方法,我們提出的方法能取得19。05% 相對正向收益;在域內條件下,新方法也能取得7。4%的正向收益。

使用原始序列流利度特徵提升口語流利度打分效能

Using Fluency Representation Learned from Sequential Raw Features for Improving Non-native Fluency Scoring

對於英語口語學習者而言,除了發音標準之外,流利程度也可以在某種程度上反映學習者的英語水平。

作為評價學習者英語能力的重要維度之一,口語流利度主要反映了學習者發音語速的快慢以及是否出現異常停頓等發音現象。

對此火山語音團隊提出了一種基於原始序列特徵的英語口語流利度建模方法,利用原始序列特徵來替換傳統的手工設計特徵,如語速,停頓次數等,即在音素層級提取出音素時長以及聲學特徵並對其進行建模;此外還將靜音作為一種特殊音素,用於表徵詞和詞之間的停頓現象。

AI配樂?還是登頂會的那種!|Interspeech 2022

a。 原始序列特徵提取 b。 流利度建模

這種基於原始特徵序列建模方法超過了領域內其他方案, 在機器預測結果和人類專家打分之間相關性達了0。817,接近專家和專家之間的相關性 0。831。

該方案將原始時長、停頓和聲學資訊融合到一個序列建模框架中,讓機器自動去學習和任務相關的流利度特徵,更好用於流利度打分。

應用場景方面,該方法可被應用於有流利度自動評估的需求場景中,例如口語考試以及各種線上口語練習等。

基於多工和遷移學習方法的MOS自動打分

A Multi-Task and Transfer Learning based Approach for MOS Prediction

語音質量是反映語音合成(Text-To-Speech, TTS)、語音轉換(Voice Conversion, VC)等系統性能的主要指標;而MOS(Mean Opinion Score)則是標註人員對合成音訊進行聽力測試後,針對該音訊的語音質量進行的主觀評價分數。

在Interspeech 2022語音質量打分挑戰(VoiceMOS)中,火山語音團隊在主領域賽道斬獲第四名。

針對兩種領域賽道,火山語音團隊提出了一種多工學習方法,利用較多的主領域資料來協助子領域部分模組訓練,同時將自動語音識別(Automatic Speech Recognition, ASR)的知識遷移到MOS打分任務。

在wav2vec2。0上構建ASR系統,然後將系統wav2vec2。0部分作為MOS打分模型的編碼器,透過兩種不同領域的解碼器來對不同領域的資料進行MOS評分。

AI配樂?還是登頂會的那種!|Interspeech 2022

多工的MOS打分結構

針對不同語音轉換(VC)系統的合成音訊打分任務,上述方案在主領域測試集上,SRCC指標和該比賽中最好的方案相差0。3%;在子領域測試集上,SRCC指標與該比賽中最好的方案相差0。2%。

MOS自動打分的目標是利用機器對合成音訊自動打分來替換掉標註人員的人工評分,節約大量人力物力,達到省時省錢的效果,這對於推進語音合成(TTS)和語音轉換(VC)的技術發展具有重要意義。

火山語音,位元組跳動AI Lab Speech&Audio 智慧語音與音訊團隊,長期以來面向抖音、剪映、番茄小說、飛書等業務提供領先的AI語音技術能力及全棧產品解決方案,並透過火山引擎向外部企業開放技術服務。

點選「閱讀原文」,瞭解火山引擎更多語音技術。

參考資料:

https://www。inters

peech2022。org/

推薦文章