最新版本的AI语音合成系统Tacotron 2 让你怀疑自己的耳朵

2024-04-17 阅读1293 评论0 喜欢0

【旗龙网:2018年1月2日消息】据外媒WCCF Tech报道,谷歌其最新版本的人工智能(AI)语音合成系统Tacotron 2合成的声音几乎与真人发出的声音令人无法区别。其为谷歌第二代语音技术,搭载两个神经网络,可以提高音质的输出水平。 现在看来语音转文本不是一种新兴技术,Mac用户对它已经存在已经熟悉并习惯了相当长的一段时间。

谷歌自信声称其文本转语音技术优于大多数语音识别技术,能够达到几乎令人无法区别人类声音与语音合成系统Tacotron 2合成的声音的技术高度。 Tacotron 2对于完全相同的单词可以根据语境来发音,预判人类的情感语气。根据标点符号的不同而区分识别内容,在读到大写单词的时候加重语气的功能可以与用户更好地互动。

Tacotron 模型取得了 3.82 的平均意见得分(满分5) 。近期评估中,Tacotron 2 模型平均意见得分为 4.53,专业录音平均意见得分为 4.58。 相较于专业录音水准的 MOS 值 4.58,谷歌的模型取得了 4.53 的 MOS 值。为了验证谷歌的设计选择,并评估使用梅尔谱图取代语言学、持续时间作为 WaveNet 输入的影响。谷歌团队进一步证明了使用一个紧凑的声学中间表征能够明显简化 WaveNet 的架构。

逐步降低系统训练障碍将被谷歌逐渐降低,这就意味着可以训练出更为出色的语音系统。谷歌相关人员已经将研究成果交到IEEE国际声学语音和信号处理大会。 您是否想亲自体验一下真假难辨的Tacotron 2呢?

不只是科技数码,还有一些有趣的生活分享给大家

  • 文章

    0

  • 浏览

    0

  • 获赞

    0

赞一个、收藏了!

分享给朋友看看这篇文章

热门推荐