作者:Sergio Bruccoleri
Sergio 是文思海輝全球化解決方案團隊的解決方案開發(fā)負責人,同時也是 OneForma 和文思海輝 AI 賦能計劃的深度參與者。
全球語音合成 (TTS) 技術市場規(guī)模雖然不大,但是正以每年 15% 的復合增長率增長。因此,對此類服務的需求激增,力求通過將文字轉換為以合適的聲音和語調(diào)傳達的語音來演繹品牌個性。讓我們進一步了解一下 TTS 的發(fā)展歷程。
定義 TTS
TTS 是一種能夠將數(shù)字文本轉換為語音的技術。顧名思義,TTS 按字面意思處理一段文字并將其轉換為音頻,因此,有時 TTS 也被稱為朗讀技術。TTS 最常見的使用場景包括用于智能揚聲器、服務亭、聊天機器人和無障礙服務的語音。
TTS 演變
直到最近,企業(yè)還對 TTS 應用感到滿意,而其中的 vossmlice 聽起來非常呆板機械。只要 TTS 應用能實現(xiàn)其預期功能,像音調(diào)等細微差別并無大礙,也不需要通過標準化標記語言如 SSML 進行大量編輯工作來改善結果。但是由于人工智能的發(fā)展,現(xiàn)在我們可以將語調(diào)的細微差別與真人交談方式相聯(lián)系,使語音聽起來更加接近真人。TTS 的這一分支稱作神經(jīng)語音合成。于是,企業(yè)開始將 TTS 應用于一些以往使用真人聲音的場景,如在教程和廣告中。
肯德基國際炸雞日
例如,最近肯德基在慶祝國際炸雞日時,模仿了肯德基的國際形象桑德斯上校,重塑了汽車穿梭售賣服務體驗。活動中,肯德基推出了基于語音的仿真桑德斯上校頭像,為使用汽車穿梭服務的顧客打造出一種向桑德斯上校本人點餐的有趣體驗。這次體驗通過語音識別、AI 和 TTS 技術,使肯德基汽車穿梭餐廳服務員的聲音聽起來就像桑德斯上校以一種南方拖腔在說話,喚起了人們對肯德基的創(chuàng)始地肯塔基州的回憶。在本例中,TTS 通過實現(xiàn)一種有趣的體驗,幫助這個全球化品牌注入了個性和幽默。
Vyond
動畫廣告的最大創(chuàng)作平臺之一 Vyond,在其作品中運用了 TTS 來結合豐富的動畫和聲音。Vyond 依賴于 Amazon Polly 語音合成技術,通過一個能夠合成人們正常的語調(diào)、語音和語言的機器,發(fā)出語音。例如,Kapitec Software 使用 Vyond 為其在線學習軟件制作了白板視頻。在 Vyond 網(wǎng)站上,Kapitec Software 首席執(zhí)行官 Sandrine Boarqueiro‐Verdu 表達了對 TTS 的贊許。Boarqueiro‐Verdu 表示“語音合成技術提供的聲音聽起來非常自然。盡管我們主要使用法語語音,但是擁有多種語言選擇使我們能夠針對不同地區(qū)將我們的內(nèi)容本地化。我們的視頻廣受客戶好評,比其他內(nèi)容的瀏覽量更高。”
TTS 為何越來越受歡迎
企業(yè)使用 TTS 來模仿真實人聲的一個主要原因是神經(jīng) TTS 的效果正在不斷改進。神經(jīng)網(wǎng)絡的融入,使得 TTS 能夠根據(jù)字符串的公認意圖(何時表達悲傷或驚喜),感知聲音的情緒變化和韻律。情緒感知能力一直是 TTS 的一大弊端,但是這個問題正在逐漸被克服。因此,企業(yè)便可在企業(yè)介紹視頻、廣告、游戲和其他應用場景中使用 TTS 替代配音演員。
嵌入 AI 的 TTS 技術的不斷發(fā)展為企業(yè)帶來了諸多益處。例如,企業(yè)可以實現(xiàn)更快的周轉期和更經(jīng)濟高效的生產(chǎn)。這是由于通過正確的參數(shù),機器便能夠完美地將文本轉換為語音,可以有效避免使用配音演員時不可避免的返工情況。
同時,使用“人機回圈”類型的工作流程,該項技術使語言專家能夠(對韻律、音高、語速和發(fā)音)進行更改,借助于后期編輯和語音合成編輯標準(如 SSML),確保更好的結果。
TTS 的發(fā)展趨勢
TTS 正在多方面發(fā)展。例如,語音克隆技術可以捕捉您品牌的精髓,并通過機器表達出來。通過聲音克隆,您可以使用 TTS 與錄音數(shù)據(jù)集來合成如高管和明星等名人的聲音,這對娛樂行業(yè)等領域的企業(yè)將非常有用。
獵豹移動公司就是一個正在轉向語音合成的另一分支,語音到語音(就是將源語言的語音翻譯成目標語言的語音)的例子。該公司最近大范圍推出了一款 CM 翻譯機,一種手持式翻譯設備。正如獵豹移動在一次發(fā)布會上表示,該工具可以幫助美國旅行者在出國旅行過程中遇到問路等情況時有效地進行交流,也可以為新到美國的移居者提供幫助。
如何考慮 TTS
我們相信對于企業(yè)來說,明智地考慮 TTS 非常重要。如果您正在考慮使用 TTS,需要注意以下事項:
- TTS 對于需要與屏幕中的人物口型相對應的視頻不適用。當機器語音語速過快時,其質(zhì)量將下降。因此您將損失周轉期和成本優(yōu)勢。
- 并非所有文本都適合轉換為語音。人們通過耳朵和眼睛理解信息的方式不同。我們的大腦通過耳朵處理更為簡單、易于理解的內(nèi)容,這也是為什么口語表達在分解為更簡短的信息時更加有效的原因。
- TTS 不能代替人。相對于機器,人類仍然能夠更好地理解給定的刺激,并更好地對其作出反應。例如,與機器相比,人類更能讀懂情緒,并以相應的語調(diào)變化做出反應,理解語境的能力也更強。此外,真人聲音更適合于實景視頻。機器無法根據(jù)節(jié)奏變化快速做出調(diào)整(如在實時轉播體育賽事時)。
文思海輝可以利用我們的 AI、TTS、SSML 和語言翻譯專長幫助各公司采用 TTS。聯(lián)系我們以進一步了解我們的服務。