微软人工智能 VALL-E 只需 3 秒即可模仿任何人的声音

2023-01-13 14:40:14 编辑：寿平霄来源：

导读微软展示了可以模仿任何人类声音的人工智能。它被称为VALL-E，就像之前的DALL-E算法一样。如果您知道，后者会根据文本创建图像。VALL-E 可

微软展示了可以模仿任何人类声音的人工智能。它被称为VALL-E，就像之前的DALL-E算法一样。如果您知道，后者会根据文本创建图像。

VALL-E 可以在短短三秒钟内通过聆听真人的声音来模仿音色和说话方式。虽然听起来有点像机器人的声音，但效果还是很不错的。

微软称其为“神经编解码器语言模型”。VALL-E 是在 EnCodec(一种使用机器学习技术的音频编解码器)的基础上构建的，该编解码器由Meta一年前于 2022 年开发。

其他文本转语音方法考虑了波形。但是 VALL-E 从文本和音频中生成单独的音频编解码器。实际上，它分析了一个人的声音。然后，它通过 EnCodec 将该信息分解为单独的部分(称为“令牌”)。最后，它使用训练数据来匹配它“知道”的内容，即如果它说出三秒样本之外的其他短语，该声音的发音会如何。

VALL-E 是使用特殊图书馆教授的。后者包含来自 7,000 多人的 60,000 小时英语演讲。开发人员建议该方法可用于高质量的文本到语音应用程序。例如，您可以使用它来编辑允许更改人类单词的语音记录。因此，您可以创建音频内容(例如有声读物的画外音)等。

当然，这样的技术也会带来一定的危险。迟早，“独眼”用户会将其变成勒索工具。比如说，他们可以使用人工智能来证明名人说过一些他们没有说过的话。视频格式的 deepfakes已经有这样的案例。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！

本站除标明“本站原创”外所有信息均转载自互联网版权归原作者所有。

邮箱：toplearningteam#gmail.com (请将#换成@)