https://www.yuque.com/yuqueyonghux2gzt8/ek7xd3
点击链接加入群聊【幻灵的炼丹工坊】:
获取整合包链接后进入网盘下载(目前 Fusion 使用 123 网盘发布)
下载完成后用 bandizip 或 7zip 进行解压(不要使用 winrar,会出现解压文件损坏的报错)
解压完成后进入整合包(整合包本体如下)
文件结构说明
文件夹 | 说明 |
---|---|
exp | 工作目录 |
archieve | 训练归档文件夹 |
models | 已训练模型文件夹 |
dataset_raw | 原始数据集文件夹 |
data | 可用于训练的数据集存放位置,完成训练后可删除 |
tmp | 数据处理临时文件夹,完成数据处理后可删除 |
双击启动 WebUI.bat
初次启动可能需要等待一段时间。
出现提示框后,点击我同意,进入网页。
此时 cmd 控制台大概是这样的(使用 Fusion 时请勿关闭控制台!)
浏览器将自动打开网页,如下
:::tip 推荐使用 Edge、Chrome 浏览器打开网页,并关闭网页翻译和加速器。
打开 webui 的过程中可能会出现若干警告,具体请详见文末的常见报错。 :::
dataset_raw/
|-你的角色名字 1/
| | 1.wav
| | 2.wav
| | 3.wav
| ...
|-你的角色名字 2/
| | 1.wav
| | 2.wav
| | 3.wav
| ...
:::tip 如果是单说话人,你的 dataset_raw 文件夹里面应该是这样的
如果是多说话人,你的 dataset_raw 文件夹里面应该是这样的
数据集文件夹里应当是这样的
注:数据集命名若包含 特殊字符或中文 则 可能 在处理时发生报错,可使用未鸟的批量重命名工具进行修正。
为了能够直观地教学,本次以单说话人进行示范。
选择 F0 预处理器(通常为默认)
此处以入门卡作演示
注:本教程以 ddsp6.0 为模型,其他算法的预处理/训练/推理界面略有不同,但操作逻辑相似。
训练批次大小:batch_size(bs),越大越好,越大越占显存,注意不能超过训练集条数。根据显存酌情调整,一般默认的数值不会爆显存
训练进程数:如果你显卡较好,可以设为 0,会提升速度但不影响质量
训练精度:默认 fp32(单精度),选择 fp16(半精度)、bf16(混合精度) 可以获得更快的速度和更低的显存占用,但是炸炉概率 up up
验证间隔:每 N 步验证一次,同时保存。默认 1000
日志间隔:每 N 步输出一次日志。默认 1,建议改为 100,否则报告较为频繁(不影响质量)
强制保存模型间隔:每 N 步保存一次模型。默认 1000
lr 衰减力度:高级玩法,不建议动
缓存设备:选择 cuda 可以获得更快的速度,但是需要更大显存的显卡 (SoVITS 主模型无效),选择 cpu 则载入内存,减小硬盘 io 压力
缓存所有数据:若内存和显存较小则建议关闭,
最大训练轮数:默认 100000,不建议动,正常不需要跑这么久
使用预训练模型:是否调用底模。勾选可以大幅减少训练时间,如果不懂不要动
等待弹出训练 bat
训练时长与数据集时长、质量、算法、预测器、bs、lr、GPU 相关,因此一般建议每 1000-2000 步(step)停下进行试听。
Tensorboard 可作为 loss 数值上的参考
训练日子参数和推荐训练步数会在文档 DLC 中发布
注意:不要迷信步数和 loss,无论哪个算法都不是炼的越久越好的!
结束、暂停训练请按停止训练(或直接关闭训练 bat)
如果模型加载正常,则会显示相应的算法
接下来选择推理用的设备(优先使用 GPU)
加载成功后会显示说话人
若推理源没有经过人声分离,则需要勾选去除伴奏(可视歌曲情况勾选去除和声)
接下来选择推理参数
f0 提取器:用于音高提取/预测的模型,一般认为 remove 最均衡,fcpe 更自然(其余选项正在测试中,将在 DLC 中详细述)
变调:每 12 为一个八度,参考:女模型转男原声 12,男模型转女原声 -12,因异性声调不同的音色泄露、失真可以调节这个
切片阈值:人声切片的阈值,如推理源有底噪可以调为 -40 或更高
采样器:用于 reflow 的采样器,一般默认就好(二者差异正在实验中)
推理步数:推理步长,一般默认就行
T Start:不知道控制浅扩散的参数
共振峰偏移:值越大声音越细,值越小声音越粗
推理完成
可以试听推理后的音频,并对参数进行微调
保存完文件后,可以在其他软件内进行加伴奏、混音、和声等处理