AI杀疯了 | AI歌手出道了

Original Glen Glen 2023-10-10

收录于合集 #AI 95个

孙燕姿、周杰伦可以说是我们这代人的青春，随着时光的飞逝，他们慢慢老去了，我们也慢慢老去了。我很遗憾的是学生时代买不起演唱会的票，现在挣钱了，但他们不开演唱会了……没想到AI技术的发展，可以让那些年你追的明星用你记忆中的音色，唱歌给你听！先来一起品味一下用AI+孙燕姿的音色，唱周杰伦的《一路向北》：

AI生成歌曲介绍

能实现AI生成歌曲，主要是依赖于一个开源项目：so-vits-svc

它的原理简单来说，就是下图的过程，用一句话来总结，就是用AI模拟目标音色特征，然后再通过AI模型推理替换输入源的声音。

原开源项目地址：https://github.com/svc-develop-team/so-vits-svc

上述项目，目前已经停止维护了，但有大神共建了其他项目，使得AI生成音频领域一夜爆火。

我本来也费劲地想从原始项目里，进行研究，发现门槛还是比较高的，浪费了很多时间后，决定还是站在巨人的肩膀上，后续的教程内容均采用了B站AI生成音频领域的大神“羽毛布団”，主要参考视频：

https://www.bilibili.com/video/BV1H24y187Ko

那么我们马上开始吧，火速拥有你自己的AI歌手~

安装so-vits-svc

①获得所需的软件：可以去B站“羽毛布団”，视频备注里获得下载链接。（https://www.bilibili.com/video/BV1H24y187Ko）

需要下载以下内容：

新版整合包：so-vits-svc整合包，不用自己配置环境，大大节省了时间

UVR5：用来对音频做人声和背景拆分的软件

Audio Slicer：用来将音频切分和数据预处理的软件

②收集待训练音频数据：即你想要训练的AI模型的音频目标，比如孙燕姿，但需要注意，这块有版权风险，原则上需要取得数据集音声来源的授权许可，如果没有授权，那么生产出的内容不要拿来进行商业化哦~

③分离人声和背景音：安装UVR5软件，并按安装包里的说明，把安装包里的模型文件夹解压到Ultimate Vocal Remover\models里。

分离人声和背景音：首先需要分离人声和背景音，打开UVR5软件，按下图中的配置选项处理。

CHOOSE PROCESS METHOE：Demucs

CHOOSE STEM：Vocals

SEGMENT：10

CHOOSE DEMUCS MODEL：v3 | UVR_Model_1

同时需要勾选GPU Conversion，使用GPU加速，不然处理会非常慢

这一步处理完成后，每一个源音频都会拆分为2个文件：

我们需要对Vocals的文件继续处理。

消除混响和声：对上一步产生的Vocals文件继续处理，将UVR5软件的参数按下图配置，这一步是将分离出来的人声去消除混响和声，以使训练效果更好。

CHOOSE PROCESS METHOE：VR Architechure

WINDOEWS SIZE：320

AGGRESSION SETTING：10

CHOOSE VR MODEL：5_HP-Karaoke-UVR

同时需要勾选GPU Conversion和Vocals Only

处理完成后，会得到目标人声的训练数据集，记得名称不能带中文哦，不然后续训练会报错。

④切分训练集音频：

上一步得到的音频，文件比较大，这时需要使用Audio Slicer软件来切分数据集，双击“slicer-gui.exe”以运行软件，将上一步中得到的音频文件拖入到软件中，右侧的参数先采用默认的即可，点击“Start”开始切分数据集。

有时你得到的切分文件还是很大，这时可以将文件再次拖入软件，然后调小下图红框中的数值，使切分的音频在3~15秒之间。

处理完训练音频后，将整个训练集音频，复制到so-vits-svc整合包中的dataset_raw文件夹下，至此，准备工作完成。

开始训练你的专属AI歌手

①载入训练数据：点击so-vits-svc整合包中的“启动webui.bat”文件，等待片刻后会自动打开可视化训练界面。此时，选择“训练”，点击“识别数据集”，如果没有报错，说明数据集存放正确。

②数据预处理：选择训练分支这里，建议选择“vec768-layer12”，然后点击“数据预处理”按钮。

等待处理训练数据集，进度正常到100%时，没有报错，则数据准备工作完成。

③设置超参数：下图中，全部选择默认的设置即可，注意检查一下“当前使用训练分支”这个部分，需要跟之前的选择训练分支和训练集名称保持一致。

④开始训练：点击“从头开始训练”按钮，会弹出一个新的窗口，模型训练开始，这里大家需要关注一下“reference_loss”的数值，越低越好。

模型的训练是不会自己停的，一般训练个2000步，基本就够用了，点击Ctrl+C键即可暂停训练，并且会保留之前训练的节点，之后还可以继续训练。

试试效果

选择“推理”，在“模型选择”里，选一个刚才训练好的模型，点击“加载模型”按钮，如果展示“模型加载成功”即代表模型可用。

上传目标音频：这里指你想要替换音色的目标音频，也需要用UVR5软件对目标音频进行人声分离和消除混响和声，得到的目标音频也是一个只有人声的音频。

然后直接点击“音频转换”，等待片刻后，即可在下方得到AI生成的全新音频。

之后再使用剪影等软件，将生成的人声和背景音重新合成一下，即可得到最终的成果！

备注：如果你从别人那里得到了训练好的现成模型，可以放在以下目录中，直接使用：

G模型放在：.logs\44k

配置文件放在：.\configs

以上就是今天的所有内容了，有问题可以随时问我，知无不言~

可以在公众号输入【AI生成语音】，快速获得所需的文件。

干声来自：Seammy赵乃吉，https://www.bilibili.com/video/BV1Sf4y1U76o

往期回顾

AI绘画相关：

AI杀疯了 | 从0开始学AI绘画

AI杀疯了 | 文字生成图片详解

AI杀疯了 | 免费部署自己的AI绘画云平台

AI杀疯了 | 用Lora画你的初恋小姐姐

AI出图模糊怎么办？别慌，有我

青春就是用来失败的 | 训练灌篮高手专属AI绘画模型

补全AI绘画最后一块拼图 | 用ControlNet精准绘图

AI不会画手？开玩笑，解决它

ChatGPT相关：

都在告诉你ChatGPT多厉害，我来告诉你怎么能快速体验它

介绍一些可以提高ChatGPT使用效率的插件

在线体验ChatGPT网站大集合

让AI帮你数据分析 | PandasAI

AI杀疯了 | 自动帮你分解任务AgentGPT

推荐一款工作提效小程序：

关注我，跟我一起疯狂学习AI，请在右下角点一下“在看”~

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

AI杀疯了 | AI歌手出道了

AI生成歌曲介绍

安装so-vits-svc

开始训练你的专属AI歌手

试试效果

您可能也对以下帖子感兴趣

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

生成图片，分享到微信朋友圈

AI杀疯了 | AI歌手出道了

AI生成歌曲介绍

安装so-vits-svc

开始训练你的专属AI歌手

试试效果

您可能也对以下帖子感兴趣