跟随funasr的更新,我们引入了新的模型,因为新的模型是分开训练的,原本一个模型既有标点恢复,也有活动检测,现在分开后可以自主组合。比如决定只使用活动检测,直接得到句子的起始点和终止点,没有以前那么复杂的response。
你可以在config.yml中添加自己想要使用的模型,在./utils/generate_models中自定义模型组合。
顺便简化了以前的实现逻辑,以前的代码,wtf。
相对旧版python环境的改变:
pip install -U funasr
1.对单人音频的使用环境进行了迭代迁移:
使用模型为支持自定义热词的中文语音识别模型,英文不行。(后续会考虑加入多语可选项,但因为目前热词自定义只支持中文。)
热词的自定义可以减少很多全局替换和手动精修的时间。
2.对手动精修清洗数据集webui进行了迁移.
3.合并了多个一键运行到rundesk.bat.
如果进不去,可能是我家断网了,或者我在折腾SSL证书。
1.添加对日语和英语的模型兼容选项
2.采用funasr提供的spk模型进行多人语音识别:
之前一直懒得更新,因为3D_speaker的实用性受限,仅仅改代码是不能提高识别准确度的,同性别之间的语音说话人检测准确率堪忧。而在24年上半年funasr的模型迎来了一次迭代,也单独提供了训练好的可以自由调用的spk模型,等我测试一下准确度。如果达到可用,则会考虑持续更新。