查看原文
其他

AI杀疯了 | AI歌手出道了

Glen Glen 2023-10-10

孙燕姿、周杰伦可以说是我们这代人的青春,随着时光的飞逝,他们慢慢老去了,我们也慢慢老去了。我很遗憾的是学生时代买不起演唱会的票,现在挣钱了,但他们不开演唱会了……没想到AI技术的发展,可以让那些年你追的明星用你记忆中的音色,唱歌给你听!先来一起品味一下用AI+孙燕姿的音色,唱周杰伦的《一路向北》:

AI生成歌曲介绍

能实现AI生成歌曲,主要是依赖于一个开源项目:so-vits-svc

它的原理简单来说,就是下图的过程,用一句话来总结,就是用AI模拟目标音色特征,然后再通过AI模型推理替换输入源的声音。

原开源项目地址:https://github.com/svc-develop-team/so-vits-svc

上述项目,目前已经停止维护了,但有大神共建了其他项目,使得AI生成音频领域一夜爆火。

我本来也费劲地想从原始项目里,进行研究,发现门槛还是比较高的,浪费了很多时间后,决定还是站在巨人的肩膀上,后续的教程内容均采用了B站AI生成音频领域的大神“羽毛布団”,主要参考视频:

https://www.bilibili.com/video/BV1H24y187Ko

那么我们马上开始吧,火速拥有你自己的AI歌手~


安装so-vits-svc

①获得所需的软件:可以去B站“羽毛布団”,视频备注里获得下载链接。(https://www.bilibili.com/video/BV1H24y187Ko

需要下载以下内容:

新版整合包:so-vits-svc整合包,不用自己配置环境,大大节省了时间

UVR5:用来对音频做人声和背景拆分的软件

Audio Slicer:用来将音频切分和数据预处理的软件

②收集待训练音频数据:即你想要训练的AI模型的音频目标,比如孙燕姿,但需要注意,这块有版权风险,原则上需要取得数据集音声来源的授权许可,如果没有授权,那么生产出的内容不要拿来进行商业化哦~

③分离人声和背景音:安装UVR5软件,并按安装包里的说明,把安装包里的模型文件夹解压到Ultimate Vocal Remover\models里。

  • 分离人声和背景音:首先需要分离人声和背景音,打开UVR5软件,按下图中的配置选项处理。

CHOOSE PROCESS METHOE:Demucs

CHOOSE STEM:Vocals

SEGMENT:10

CHOOSE DEMUCS MODEL:v3 | UVR_Model_1

同时需要勾选GPU Conversion,使用GPU加速,不然处理会非常慢

这一步处理完成后,每一个源音频都会拆分为2个文件:

我们需要对Vocals的文件继续处理。

  • 消除混响和声:对上一步产生的Vocals文件继续处理,将UVR5软件的参数按下图配置,这一步是将分离出来的人声去消除混响和声,以使训练效果更好。

CHOOSE PROCESS METHOE:VR Architechure

WINDOEWS SIZE:320

AGGRESSION SETTING:10

CHOOSE VR MODEL:5_HP-Karaoke-UVR

同时需要勾选GPU Conversion和Vocals Only

处理完成后,会得到目标人声的训练数据集,记得名称不能带中文哦,不然后续训练会报错。

④切分训练集音频:

上一步得到的音频,文件比较大,这时需要使用Audio Slicer软件来切分数据集,双击“slicer-gui.exe”以运行软件,将上一步中得到的音频文件拖入到软件中,右侧的参数先采用默认的即可,点击“Start”开始切分数据集。

有时你得到的切分文件还是很大,这时可以将文件再次拖入软件,然后调小下图红框中的数值,使切分的音频在3~15秒之间。

处理完训练音频后,将整个训练集音频,复制到so-vits-svc整合包中的dataset_raw文件夹下,至此,准备工作完成。


开始训练你的专属AI歌手

①载入训练数据:点击so-vits-svc整合包中的“启动webui.bat”文件,等待片刻后会自动打开可视化训练界面。此时,选择“训练”,点击“识别数据集”,如果没有报错,说明数据集存放正确。

②数据预处理:选择训练分支这里,建议选择“vec768-layer12”,然后点击“数据预处理”按钮。

等待处理训练数据集,进度正常到100%时,没有报错,则数据准备工作完成。

③设置超参数:下图中,全部选择默认的设置即可,注意检查一下“当前使用训练分支”这个部分,需要跟之前的选择训练分支和训练集名称保持一致。

④开始训练:点击“从头开始训练”按钮,会弹出一个新的窗口,模型训练开始,这里大家需要关注一下“reference_loss”的数值,越低越好。

模型的训练是不会自己停的,一般训练个2000步,基本就够用了,点击Ctrl+C键即可暂停训练,并且会保留之前训练的节点,之后还可以继续训练。


试试效果

选择“推理”,在“模型选择”里,选一个刚才训练好的模型,点击“加载模型”按钮,如果展示“模型加载成功”即代表模型可用。

上传目标音频:这里指你想要替换音色的目标音频,也需要用UVR5软件对目标音频进行人声分离和消除混响和声,得到的目标音频也是一个只有人声的音频。

然后直接点击“音频转换”,等待片刻后,即可在下方得到AI生成的全新音频。

之后再使用剪影等软件,将生成的人声和背景音重新合成一下,即可得到最终的成果!

备注:如果你从别人那里得到了训练好的现成模型,可以放在以下目录中,直接使用:

G模型放在:.logs\44k

配置文件放在:.\configs

以上就是今天的所有内容了,有问题可以随时问我,知无不言~

可以在公众号输入【AI生成语音】,快速获得所需的文件。


干声来自:Seammy赵乃吉,https://www.bilibili.com/video/BV1Sf4y1U76o


往期回顾

AI绘画相关:

AI杀疯了 | 从0开始学AI绘画

AI杀疯了 | 文字生成图片详解

AI杀疯了 | 免费部署自己的AI绘画云平台

AI杀疯了 | 用Lora画你的初恋小姐姐

AI出图模糊怎么办?别慌,有我

青春就是用来失败的 | 训练灌篮高手专属AI绘画模型

补全AI绘画最后一块拼图 | 用ControlNet精准绘图

AI不会画手?开玩笑,解决它


ChatGPT相关:

都在告诉你ChatGPT多厉害,我来告诉你怎么能快速体验它

介绍一些可以提高ChatGPT使用效率的插件

在线体验ChatGPT网站大集合

让AI帮你数据分析 | PandasAI

AI杀疯了 | 自动帮你分解任务AgentGPT


推荐一款工作提效小程序:

关注我,跟我一起疯狂学习AI,请在右下角点一下“在看”~

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存