人声克隆,官方repo: https://github.com/myshell-ai/OpenVoice.git
./download_models.sh
参考模型转换文档
打开 https://repo.anaconda.com/miniconda/ 选择Linux_aarch64的安装包
pip3 install -r requirements.txt
进入 https://github.com/AXERA-TECH/pyaxengine/releases
找到最新的wheel包,复制链接
pip install https://github.com/AXERA-TECH/pyaxengine/releases/download/0.1.3.rc1/axengine-0.1.3-py3-none-any.whl
python3 main.py -i 输入音频 -o 输出音频(默认为output.wav)
所有运行参数:
参数名称 | 说明 | 默认值 |
---|---|---|
-i | 输入音频,wav格式 | 无 |
-o | 输出音频,wav格式 | output.wav |
-e/--encoder | encoder模型路径 | ../models/encoder.axmodel |
-d/--decoder | decoder模型路径 | ../models/decoder.axmodel |
--g_src | 源人声特征值,bin格式 | ../models/g_src.bin |
--g_dst | 目标人声特征值,bin格式 | ../models/g_dst.bin |
--enc_len | encoder输入长度 | 1024 |
--dec_len | decoder输入长度 | 128 |
model_convert/extract_se.py用于音色提取,使用方法如下:
cd model_convert
python extract_se.py -i 目标人声的音频文件 -o 目标人声音色特征值
示例:
python extract_se.py -i resources/example_reference.mp3 -o ref.bin
生成的bin文件用于main.py的--g_dst参数
models目录下预置了几种音色,可自行尝试。