首页 ›编程› Python › 查看内容

5秒钟让python克隆别人的声音

2020-8-27 10:29 |来自: 互联网 3025 0

摘要: AI越来越强大，不仅能模仿别人的表情，还能模仿别人说话的声音和语气，以后电话听到好友的声音也有可能不是本人哦，今天小编来讲讲一个实时声音克隆库Real-Time-Voice-Cloninggithub地址为：https://github.com/CorentinJ/Real-Time-Voice-Cloning该库是使用谷歌的开源声音处理算法（SV2TTS）实现。SV2 ...

关键词： 工具箱声音数据语音如果 Python 软件包模型训练运行

AI越来越强大，不仅能模仿别人的表情，还能模仿别人说话的声音和语气，以后电话听到好友的声音也有可能不是本人哦，今天小编来讲讲一个实时声音克隆库Real-Time-Voice-Cloning

github地址为：https://github.com/CorentinJ/Real-Time-Voice-Cloning

该库是使用谷歌的开源声音处理算法（SV2TTS）实现。

SV2TTS是一个三阶段的深度学习框架，它允许从几秒钟的音频中创建语音的数字表示，并使用它来调节经过训练的文本到语音模型，以生成到新的语音。

如果您只想克隆您的声音（而不是其他人的声音）：我建议在Resemble.AI上使用免费计划。

首先，因为您将获得更好的语音质量和更少的韵律错误，其次，因为它不需要像此回购协议那样的复杂设置。

具体的步骤

一、安装要求

需要Python 3.6或3.7才能运行该工具箱。

安装PyTorch（> = 1.0.1）。

安装ffmpeg。

运行pip install -r requirements.txt以安装其余必需的软件包。

二、下载预训练的模型

下载地址：https://github.com/CorentinJ/Real-Time-Voice-Cloning/wiki/Pretrained-models

三、（可选）测试配置

在下载任何数据集之前，您可以使用以下方法测试配置：

python demo_cli.py

如果所有测试都通过，那您就很好了。

四、（可选）下载数据集

对于仅使用工具箱的情况，我只建议下载LibriSpeech/train-clean-100。下载地址：http://www.openslr.org/resources/12/train-clean-100.tar.gz，提取内容/LibriSpeech/train-clean-100这里是你选择的目录。工具箱中支持其他数据集，请参见此处。您可以自由地不下载任何数据集，但是您将需要自己的数据作为音频文件，或者必须在工具箱中记录下来。

五、启动工具箱

然后，您可以尝试使用工具箱：

python demo_toolbox.py -d

要么

python demo_toolbox.py

取决于您是否下载了任何数据集。如果您正在运行X服务器或出现错误Aborted (core dumped)