4.0モデルとコラボスクリプトが更新されました:4.0ブランチ 統一サンプリングレートは44100Hzを使用し(ただし、推論メモリは3.0では32kHz未満を占有します)、特徴抽出はcontentvecに置き換えられ、安定性は広範囲にテストされていません
不完全な統計によると、より多くのスピーカーは悪化した音色の漏れにつながるようであり、5人以上のモデルを訓練することは推奨されません、現在の推奨事項は、ターゲット音色のように洗練したい場合は、可能な限り単一のスピーカーを洗練することですスタ
ッカートの問題が解決され、音質が大幅に改善されました バージョン
2.0はsovits_2.0ブランチ
に移動されました バージョン3.0はFreeVCのコード構造を使用していますが、これは古いバージョンには一般的ではありません DiffSVCと比較して
、diffsvcはトレーニングデータの品質が非常に高い場合にパフォーマンスが高く、このリポジトリは低品質のデータセットに対してパフォーマンスが向上する可能性があり、さらに、このリポジトリは推論においてdiffsvcよりもはるかに高速です
歌声の色変換モデルは、SoftVC コンテンツ エンコーダーを介してソース オーディオ音声の特徴を抽出し、元のテキスト入力を F0 入力 VITS に置き換えて、歌声変換の効果を実現します。 同時に、ボコーダーを交換して、NSF HiFiGANのスタッカート問題を解決します
hubert
logs/32k
optimizer speaker_embedding
# 一键下载
# hubert
wget -P hubert/ https://github.com/bshall/hubert/releases/download/v0.1/hubert-soft-0d54a1f4.pt
# G与D预训练模型
wget -P logs/32k/ https://huggingface.co/innnky/sovits_pretrained/resolve/main/G_0.pth
wget -P logs/32k/ https://huggingface.co/innnky/sovits_pretrained/resolve/main/D_0.pth
データセットを次のファイル構造のdataset_rawディレクトリに配置するだけで済みます。
dataset_raw
├───speaker0
│ ├───xxx1-xxx1.wav
│ ├───...
│ └───Lxx-0xx8.wav
└───speaker1
├───xx2-0xxx2.wav
├───...
└───xxx7-xxx007.wav
python resample.py
python preprocess_flist_config.py
# 注意
# 自动生成的配置文件中,说话人数量n_speakers会自动按照数据集中的人数而定
# 为了给之后添加说话人留下一定空间,n_speakers自动设置为 当前数据集人数乘2
# 如果想多留一些空位可以在此步骤后 自行修改生成的config.json中n_speakers数量
# 一旦模型开始训练后此项不可再更改
python preprocess_hubert_f0.py
上記の手順を実行すると、データセットディレクトリが前処理されたデータになり、dataset_rawフォルダーを削除できます
python train.py -c configs/config.json -m 32k
inference_main.pyを使用する
model_path
raw
clean_names変換するオーディオの名前を書きます
trans発音区別符号クロマトの数を入力します
spk_listコンポジションのスピーカー名を入力します
onnx_export.pyを使用する
checkpoints
checkpoints
aziplayer
model.pth
config.json
aziplayer
path = "NyaruTaffy"
"NyaruTaffy"
path = "aziplayer"
model.onnx
model_onnx_48k.py
SynthesizerTrn
sampling_rate
sovits_gradio.pyを使用する