最新版本的AI语音合成系统Tacotron 2 让你怀疑自己的耳朵

2024-04-17 阅读1293 评论0 喜欢0

【旗龙网:2018年1月2日消息】据外媒WCCF Tech报道，谷歌其最新版本的人工智能（AI）语音合成系统Tacotron 2合成的声音几乎与真人发出的声音令人无法区别。其为谷歌第二代语音技术，搭载两个神经网络，可以提高音质的输出水平。现在看来语音转文本不是一种新兴技术，Mac用户对它已经存在已经熟悉并习惯了相当长的一段时间。

谷歌自信声称其文本转语音技术优于大多数语音识别技术，能够达到几乎令人无法区别人类声音与语音合成系统Tacotron 2合成的声音的技术高度。 Tacotron 2对于完全相同的单词可以根据语境来发音，预判人类的情感语气。根据标点符号的不同而区分识别内容，在读到大写单词的时候加重语气的功能可以与用户更好地互动。

Tacotron 模型取得了 3.82 的平均意见得分（满分5）。近期评估中，Tacotron 2 模型平均意见得分为 4.53，专业录音平均意见得分为 4.58。相较于专业录音水准的 MOS 值 4.58，谷歌的模型取得了 4.53 的 MOS 值。为了验证谷歌的设计选择，并评估使用梅尔谱图取代语言学、持续时间作为 WaveNet 输入的影响。谷歌团队进一步证明了使用一个紧凑的声学中间表征能够明显简化 WaveNet 的架构。

逐步降低系统训练障碍将被谷歌逐渐降低，这就意味着可以训练出更为出色的语音系统。谷歌相关人员已经将研究成果交到IEEE国际声学语音和信号处理大会。您是否想亲自体验一下真假难辨的Tacotron 2呢？

叶紫资讯

关注

不只是科技数码，还有一些有趣的生活分享给大家

文章

0
浏览

0
获赞

0

赞一个、收藏了!

分享给朋友看看这篇文章

最新版本的AI语音合成系统Tacotron 2 让你怀疑自己的耳朵

叶紫资讯

相关标签

热门推荐