谷歌利用WaveNet模型的收益听起来更自然

2019-06-24 17:58:57 编辑：来源：

导读 DeepMind的人工智能人才一直致力于消费产品的功能。Business Insider UK高级技术记者Sam Shead 表示，谷歌应用DeepMind开发的软件用于

DeepMind的人工智能人才一直致力于消费产品的功能。Business Insider UK高级技术记者Sam Shead 表示，谷歌应用DeepMind开发的软件用于其虚拟助手。

根据周三发布的博客文章，人工智能公司DeepMind有一个适用于美国英语和日语的WaveNet系统版本。他们说，“我们很自豪地宣布，WaveNet的更新版本正用于在所有平台上为美国英语和日语生成Google Assistant语音。”

“谷歌将DeepMind的技术集成到其产品中的速度很慢，迄今为止只宣布了一个数据中心效率项目，尽管在全球范围内，”Shead说。“现在该公司的WaveNet神经网络正被用于为美国英语和日语生成Google Assistant语音。”

Google智能助理是由谷歌开发的虚拟个人助理。

Pocket-lint将Google 智能助理称为语音控制智能助手。“它被认为是Google Now的升级版或扩展版 - 专为个人而设计 - 同时扩展了Google现有的'OK Google'语音控件。”

DeepMind博客文章来自研究科学家Tom Walters的研究科学家Aäronvanden Oord和谷歌语音软件工程师Trevor Strohman。

他们谈论的更新是由DeepMind WaveNet研究和工程团队以及Google Text-to-Speech团队完成的。

就在一年多以前，WaveNet被提出，一个深度神经网络生成原始音频波形并能够产生语音。

它们是如何构建的：卷积神经网络在大量语音样本数据集上进行训练。与现有技术相比，目标是更自然的演讲。在他们的原始论文中，他们说“从头开始创建单独的波形，一次创建一个样本，每秒16,000个样本，并在各个声音之间进行无缝过渡。”

正如博客作者所说，“WaveNet显示出了希望，但不是我们可以在现实世界中部署的东西。” 对于消费品而言，它“计算量太大”。团队忙于改进模型。他们表示，它现在可以“大规模运行，是第一款在谷歌最新的TPU云基础设施上推出的产品。”

主要收益：

“新改进的WaveNet模型仍然可以生成原始波形，但速度比原始模型快1000倍，这意味着只需50毫秒即可创建一秒钟的语音。”

ExtremeTech的瑞恩·惠特瓦姆(Ryan Whitwam)表示：“DeepMind很快将承诺提供一份完整的论文，详细说明如何实现这一目标。”

他们在博客上写道，根据人类听众的测试，结果更自然。

Whitwam上周五表示：“发布时助手使用的语音模式并不差，但谷歌刚刚推出了英语和日语的大幅改进版本。”

该博客有一些有趣的摘要，说明该技术的发展程度。

至于当前的文本到语音系统，他们注意到拼接TTS不仅会产生不自然的声音，而且很难修改这些系统：每次有转变时都需要记录新的数据库，例如新的情绪或语调。

为了克服其中一些问题，他们说有时会使用替代模型，即参数化TTS。这种方法使用关于嘴部运动和语法的规则和参数来传递声音，这些声音听起来并不完全自然。

有WaveNet。

那么，DeepMind，下一步是什么?他们说这只是WaveNet的开始。他们表示，他们对“语音接口的强大功能现在可以解锁所有世界语言”的可能性感到兴奋。

标签： WaveNet模型

免责声明：本文由用户上传，如有侵权请联系删除！

谷歌利用WaveNet模型的收益 听起来更自然