bilibili@数列解析几何一生之敌
(1.0版教程)【【Bert-Vits2】带标注功能的整合包!轻松训练属于你的“神之嘴”!-哔哩哔哩】 https://b23.tv/Ir2OG5d
2.0版简介和教程:https://www.bilibili.com/read/cv27647393/
本仓库的代码是为了给自己部署不成功的,代码报错的人一些参考,或者是用于快速更新整合包。云端训练请自己结合原项目把相关文件和目录补齐。并且我不解答云训练相关问题。
- cronrpc/SubFix(界面和功能)
- fishaudio/Bert-VITS2(代码)
- Plachtaa/VITS-fast-fine-tuning(代码)
为本整合包或其他项目配套制作的快速易用的打标工具包。支持whisper、FunASR和原神数据集快速处理。支持进度恢复,意外终止进度不丢失。其中FunASR支持多进程。
pip install -r transcribe_tools/requirements.txt
确保你的电脑里已安装C++工具包,否则某些依赖可能无法正常安装。
和Bert-VITS2项目数据结构一致,按说话人分文件夹。音频必须为wav格式。
python auto_transcribe.py
可指定参数见代码。
请将auto_transcribe.py放入项目根目录内。
要使用本工具为GPT-SoVITS制作数据集,请将输出list的语言字母改为小写,用记事本打开按ctrl+f使用查找和替换。
- 例如:
|ZH|
改为|zh|
- 此外,
JP
需要改为ja
import transcribe_tools
transcribe_tools.transcribe(
engine= "whisper",
languages= "M",
whisper_size= "large",
transcription_path = None,
in_dir= None,
out_dir= None,
sr= 44100,
processes= 0,
use_global_cache= True,
use_path_ffmpeg= True
).run_transcribe()
engine
:字符串,指定打标方式。可选:funasr、whisper、genshin(原始人重采样)
languages
:字符串。通过包含字母C、J、E的字符串指定语言。例如:CJE、CJ、C。M表示多语言。具体效果和打标方式有关:
whisper:过滤未选择的语言。
funasr:会加载选中语言的模型。每个说话人只支持同一种语言。如果没有多语言多说话人的需求请只指定一种语言,否则加载用不到的模型会浪费显存。当指定多语言时,处理时会要求你输入每个说话人的语言。
genshin:同funasr。
whisper_size
:字符串。whisper模型大小。large、medium、small。只在选择使用whisper时生效。
transcription_path
:字符串。指定输出的list文件路径。
in_dir
&out_dir
:字符串。音频输入/输出路径。请注意:要按说话人分文件夹!
sr
:整数。设置重采样的采样率
processes
:整数。funasr和genshin进程数量,增加这个值在一定范围内提高处理速度。当为0时,funasr默认进程数为1,genshin为逻辑处理器数量-4,且不低于1。whisper不支持多进程。
use_global_cache
:默认启用。开启时,whisper和funasr缓存使用系统默认目录。否则会缓存在模块文件夹内。
use_path_ffmpeg
:默认启用。开启时,whisper需要的ffmpeg从系统的环境变量读取,否则使用整合包模块目录内的ffmpeg。
VITS2 Backbone with multilingual bert
For quick guide, please refer to webui_preprocess.py
.
简易教程请参见 webui_preprocess.py
。
请注意,本项目核心思路来源于anyvoiceai/MassTTS 一个非常好的tts项目
MassTTS的演示demo为ai版峰哥锐评峰哥本人,并找回了在金三角失落的腰子
- anyvoiceai/MassTTS
- jaywalnut310/vits
- p0p4k/vits2_pytorch
- svc-develop-team/so-vits-svc
- PaddlePaddle/PaddleSpeech
- emotional-vits
- fish-speech
- Bert-VITS2-UI