您的位置: 首页 >科技 >

谷歌利用WaveNet模型的收益 听起来更自然

2019-06-24 17:58:57 编辑: 来源:
导读 DeepMind的人工智能人才一直致力于消费产品的功能。Business Insider UK高级技术记者Sam Shead 表示,谷歌应用DeepMind开发的软件用于

DeepMind的人工智能人才一直致力于消费产品的功能。Business Insider UK高级技术记者Sam Shead 表示,谷歌应用DeepMind开发的软件用于其虚拟助手。

根据周三发布的博客文章,人工智能公司DeepMind有一个适用于美国英语和日语的WaveNet系统版本。他们说,“我们很自豪地宣布,WaveNet的更新版本正用于在所有平台上为美国英语和日语生成Google Assistant语音。”

“谷歌将DeepMind的技术集成到其产品中的速度很慢,迄今为止只宣布了一个数据中心效率项目,尽管在全球范围内,”Shead说。“现在该公司的WaveNet神经网络正被用于为美国英语和日语生成Google Assistant语音。”

Google智能助理是由谷歌开发的虚拟个人助理。

Pocket-lint将Google 智能助理称为语音控制智能助手。“它被认为是Google Now的升级版或扩展版 - 专为个人而设计 - 同时扩展了Google现有的'OK Google'语音控件。”

DeepMind博客文章来自研究科学家Tom Walters的研究科学家Aäronvanden Oord和谷歌语音软件工程师Trevor Strohman。

他们谈论的更新是由DeepMind WaveNet研究和工程团队以及Google Text-to-Speech团队完成的。

就在一年多以前,WaveNet被提出,一个深度神经网络生成原始音频波形并能够产生语音。

它们是如何构建的:卷积神经网络在大量语音样本数据集上进行训练。与现有技术相比,目标是更自然的演讲。在他们的原始论文中,他们说“从头开始创建单独的波形,一次创建一个样本,每秒16,000个样本,并在各个声音之间进行无缝过渡。”

正如博客作者所说,“WaveNet显示出了希望,但不是我们可以在现实世界中部署的东西。” 对于消费品而言,它“计算量太大”。团队忙于改进模型。他们表示,它现在可以“大规模运行,是第一款在谷歌最新的TPU云基础设施上推出的产品。”

主要收益:

“新改进的WaveNet模型仍然可以生成原始波形,但速度比原始模型快1000倍,这意味着只需50毫秒即可创建一秒钟的语音。”

ExtremeTech的瑞恩·惠特瓦姆(Ryan Whitwam)表示:“DeepMind很快将承诺提供一份完整的论文,详细说明如何实现这一目标。”

他们在博客上写道,根据人类听众的测试,结果更自然。

Whitwam上周五表示:“发布时助手使用的语音模式并不差,但谷歌刚刚推出了英语和日语的大幅改进版本。”

该博客有一些有趣的摘要,说明该技术的发展程度。

至于当前的文本到语音系统,他们注意到拼接TTS不仅会产生不自然的声音,而且很难修改这些系统:每次有转变时都需要记录新的数据库,例如新的情绪或语调。

为了克服其中一些问题,他们说有时会使用替代模型,即参数化TTS。这种方法使用关于嘴部运动和语法的规则和参数来传递声音,这些声音听起来并不完全自然。

有WaveNet。

那么,DeepMind,下一步是什么?他们说这只是WaveNet的开始。他们表示,他们对“语音接口的强大功能现在可以解锁所有世界语言”的可能性感到兴奋。


免责声明:本文由用户上传,如有侵权请联系删除!

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082   备案号:闽ICP备19027007号-6

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。