GitHub - MrXnneHang/auto_labeling_for_BERT_VITS2: 这个项目是数据预处理。第一步是对获取到的音频做处理，结合Funasr的时间戳去掉空背景音。也包含了喂给BERT前的label

ADLV2更新介绍:

跟随funasr的更新，我们引入了新的模型，因为新的模型是分开训练的，原本一个模型既有标点恢复，也有活动检测，现在分开后可以自主组合。比如决定只使用活动检测，直接得到句子的起始点和终止点，没有以前那么复杂的response。

你可以在config.yml中添加自己想要使用的模型，在./utils/generate_models中自定义模型组合。

顺便简化了以前的实现逻辑，以前的代码，wtf。

相对旧版python环境的改变:

pip install -U funasr

2024/6/23:

1.对单人音频的使用环境进行了迭代迁移：

使用模型为支持自定义热词的中文语音识别模型，英文不行。（后续会考虑加入多语可选项，但因为目前热词自定义只支持中文。）

热词的自定义可以减少很多全局替换和手动精修的时间。

2.对手动精修清洗数据集webui进行了迁移.

3.合并了多个一键运行到rundesk.bat.

使用介绍:

ADL使用介绍

如果进不去，可能是我家断网了，或者我在折腾SSL证书。

后续:

1.添加对日语和英语的模型兼容选项

2.采用funasr提供的spk模型进行多人语音识别:

之前一直懒得更新，因为3D_speaker的实用性受限，仅仅改代码是不能提高识别准确度的，同性别之间的语音说话人检测准确率堪忧。而在24年上半年funasr的模型迎来了一次迭代，也单独提供了训练好的可以自由调用的spk模型，等我测试一下准确度。如果达到可用，则会考虑持续更新。

Name		Name	Last commit message	Last commit date
Latest commit History 101 Commits
dataset		dataset
tmp		tmp
utils		utils
README.md		README.md
config.yml		config.yml
esd.list		esd.list
hot_words.txt		hot_words.txt
requirements.txt		requirements.txt
run_desk.bat		run_desk.bat
single_person_step1.py		single_person_step1.py
single_person_step2.py		single_person_step2.py
spk.py		spk.py
subfix_webui_zh.py		subfix_webui_zh.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ADLV2更新介绍:

2024/6/23:

使用介绍:

后续:

About

Releases

Packages

Contributors 2

Languages

MrXnneHang/auto_labeling_for_BERT_VITS2

Folders and files

Latest commit

History

Repository files navigation

ADLV2更新介绍:

2024/6/23:

使用介绍:

后续:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages