正式使用 SVC Fusion

https://www.yuque.com/yuqueyonghux2gzt8/ek7xd3

1：下载和部署

官网：https://sf.dysjs.com/

SVC Fusion 整合包文档

点击链接加入群聊【幻灵的炼丹工坊】：

正在跳转

获取整合包链接后进入网盘下载（目前 Fusion 使用 123 网盘发布）

下载完成后用 bandizip 或 7zip 进行解压（不要使用 winrar，会出现解压文件损坏的报错）

7-Zip

解压完成后进入整合包（整合包本体如下）

文件结构说明

文件夹	说明
exp	工作目录
archieve	训练归档文件夹
models	已训练模型文件夹
dataset_raw	原始数据集文件夹
data	可用于训练的数据集存放位置，完成训练后可删除
tmp	数据处理临时文件夹，完成数据处理后可删除

2：SVC-Fusion，启动！

双击启动 WebUI.bat

初次启动可能需要等待一段时间。

出现提示框后，点击我同意，进入网页。

此时 cmd 控制台大概是这样的（使用 Fusion 时请勿关闭控制台！）

浏览器将自动打开网页，如下

:::tip 推荐使用 Edge、Chrome 浏览器打开网页，并关闭网页翻译和加速器。

打开 webui 的过程中可能会出现若干警告，具体请详见文末的常见报错。 :::

3：预处理

点击“打开数据集文件夹”进入 dataset_raw 文件夹

将准备好的数据集打包成文件夹放入此处，注意文件结构

dataset_raw/

|-你的角色名字 1/

| | 1.wav

| | 2.wav

| | 3.wav

| ...

|-你的角色名字 2/

| | 1.wav

| | 2.wav

| | 3.wav

| ...

:::tip 如果是单说话人，你的 dataset_raw 文件夹里面应该是这样的

如果是多说话人，你的 dataset_raw 文件夹里面应该是这样的

数据集文件夹里应当是这样的

:::

注：数据集命名若包含 特殊字符或中文 则可能在处理时发生报错，可使用未鸟的批量重命名工具进行修正。

为了能够直观地教学，本次以单说话人进行示范。

回到网页，选择数据处理，进行预处理

选择需要的算法（算法选择参考前文）

若选择 So-vits，则另有几个选项，按需勾选（如果不懂不建议乱动）

选择声音编码器（目前仅支持 768）

选择 F0 预处理器（通常为默认）

选择设备进行训练(DDSP 支持 cpu 计算）

~~此处以入门卡作演示~~

然后选择用于 reflow 的采样器

选择完成后，点击”提交“进行预处理

预处理完成

注：本教程以 ddsp6.0 为模型，其他算法的预处理/训练/推理界面略有不同，但操作逻辑相似。

4：训练

点击进入训练界面

选择参数（一般为默认参数，默参也能用）

以下为训练参数详解：

训练批次大小：batch_size（bs），越大越好，越大越占显存，注意不能超过训练集条数。根据显存酌情调整，一般默认的数值不会爆显存

训练进程数：如果你显卡较好，可以设为 0，会提升速度但不影响质量

训练精度：默认 fp32（单精度），选择 fp16（半精度）、bf16（混合精度）可以获得更快的速度和更低的显存占用，但是炸炉概率 up up

验证间隔：每 N 步验证一次，同时保存。默认 1000

日志间隔：每 N 步输出一次日志。默认 1，建议改为 100，否则报告较为频繁（不影响质量）

强制保存模型间隔：每 N 步保存一次模型。默认 1000

lr 衰减力度：高级玩法，不建议动

缓存设备：选择 cuda 可以获得更快的速度，但是需要更大显存的显卡 (SoVITS 主模型无效)，选择 cpu 则载入内存，减小硬盘 io 压力

缓存所有数据：若内存和显存较小则建议关闭，

最大训练轮数：默认 100000，不建议动，正常不需要跑这么久

使用预训练模型：是否调用底模。勾选可以大幅减少训练时间，如果不懂不要动

确定参数后点击“提交”开始训练

等待弹出训练 bat

训练时长与数据集时长、质量、算法、预测器、bs、lr、GPU 相关，因此一般建议每 1000-2000 步（step）停下进行试听。

Tensorboard 可作为 loss 数值上的参考

~~训练日子参数和推荐训练步数会在文档 DLC 中发布~~

注意：不要迷信步数和 loss，无论哪个算法都不是炼的越久越好的！

结束、暂停训练请按停止训练（或直接关闭训练 bat）

5：推理

训练完成并归档后点击推理，来到推理界面

首先选择用于推理的模型

如果模型加载正常，则会显示相应的算法

接下来选择推理用的设备（优先使用 GPU）

点击选择模型进行加载

加载成功后会显示说话人

放入用于转换音色的音频文件（即推理源）

若推理源没有经过人声分离，则需要勾选去除伴奏（可视歌曲情况勾选去除和声）

接下来选择推理参数

以下为推理参数详解：

f0 提取器：用于音高提取/预测的模型，一般认为 remove 最均衡，fcpe 更自然（其余选项正在测试中，将在 DLC 中详细述）

变调：每 12 为一个八度，参考：女模型转男原声 12，男模型转女原声 -12，因异性声调不同的音色泄露、失真可以调节这个

切片阈值：人声切片的阈值，如推理源有底噪可以调为 -40 或更高

采样器：用于 reflow 的采样器，一般默认就好（二者差异正在实验中）

推理步数：推理步长，一般默认就行

T Start：~~不知道~~控制浅扩散的参数

共振峰偏移：值越大声音越细，值越小声音越粗

调整完参数后点击“提交”进行推理

推理完成

可以试听推理后的音频，并对参数进行微调

如果对音频比较满意，可以进行保存

保存完文件后，可以在其他软件内进行加伴奏、混音、和声等处理

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

output.md

output.md

正式使用 SVC Fusion

1：下载和部署

2：SVC-Fusion，启动！

3：预处理

点击“打开数据集文件夹”进入 dataset_raw 文件夹

将准备好的数据集打包成文件夹放入此处，注意文件结构

回到网页，选择数据处理，进行预处理

选择需要的算法（算法选择参考前文）

若选择 So-vits，则另有几个选项，按需勾选（如果不懂不建议乱动）

选择声音编码器（目前仅支持 768）

选择设备进行训练(DDSP 支持 cpu 计算）

然后选择用于 reflow 的采样器

选择完成后，点击”提交“进行预处理

预处理完成

4：训练

点击进入训练界面

选择参数（一般为默认参数，默参也能用）

以下为训练参数详解：

确定参数后点击“提交”开始训练

5：推理

训练完成并归档后点击推理，来到推理界面

首先选择用于推理的模型

点击选择模型进行加载

放入用于转换音色的音频文件（即推理源）

以下为推理参数详解：

调整完参数后点击“提交”进行推理

如果对音频比较满意，可以进行保存

Files

output.md

Latest commit

History

output.md

File metadata and controls

正式使用 SVC Fusion

1：下载和部署

2：SVC-Fusion，启动！

3：预处理

点击“打开数据集文件夹”进入 dataset_raw 文件夹

将准备好的数据集打包成文件夹放入此处，注意文件结构

回到网页，选择数据处理，进行预处理

选择需要的算法（算法选择参考前文）

若选择 So-vits，则另有几个选项，按需勾选（如果不懂不建议乱动）

选择声音编码器（目前仅支持 768）

选择设备进行训练(DDSP 支持 cpu 计算）

然后选择用于 reflow 的采样器

选择完成后，点击”提交“进行预处理

预处理完成

4：训练

点击进入训练界面

选择参数（一般为默认参数，默参也能用）

以下为训练参数详解：

确定参数后点击“提交”开始训练

5：推理

训练完成并归档后点击推理，来到推理界面

首先选择用于推理的模型

点击选择模型进行加载

放入用于转换音色的音频文件（即推理源）

以下为推理参数详解：

调整完参数后点击“提交”进行推理

如果对音频比较满意，可以进行保存