riffusion - リアルタイム音楽生成のための安定した拡散

(Stable diffusion for real-time music generation)

Created at: 2022-11-26 05:16:13
Language: Python
License: MIT

リフュージョン推論サーバ

Riffusion は、安定した拡散を伴うリアルタイムの音楽生成のためのアプリです。

https://www.riffusion.com/about でそれについて読んで、https://www.riffusion.com/ で試してみてください。

このリポジトリには、次のようなモデルの推論とオーディオ処理を行う Python バックエンドが含まれています。

  • 画像コンディショニングと組み合わせたプロンプト補間を実行するディフューザーパイプライン
  • スペクトログラムと波形を(ほぼ)変換するためのモジュール
  • APIを介して次のアプリにモデル推論を提供するフラスコサーバー.js
  • トラスとして配置するための baseten.py というタイトルのモデルテンプレート

取り付ける

Python 3.9 およびディフューザー 0.9.0 でテスト済み

conda create --name riffusion-inference python=3.9
conda activate riffusion-inference
python -m pip install -r requirements.txt

走る

フラスコサーバーを起動します。

python -m riffusion.server --port 3013 --host 127.0.0.1

独自のディレクトリまたはハギングフェイスIDをディフューザー形式で指定できます。

--checkpoint

モデル エンドポイントは、POST 要求を介して使用できるようになりました。

http://127.0.0.1:3013/run_inference

入力例 (API の推論入力を参照):

{
  "alpha": 0.75,
  "num_inference_steps": 50,
  "seed_image_id": "og_beat",

  "start": {
    "prompt": "church bells on sunday",
    "seed": 42,
    "denoising": 0.75,
    "guidance": 7.0
  },

  "end": {
    "prompt": "jazz with piano",
    "seed": 123,
    "denoising": 0.75,
    "guidance": 7.0
  }
}

出力例(API の推論出力を参照):

{
  "image": "< base64 encoded JPEG image >",
  "audio": "< base64 encoded MP3 clip >"
}

引用

この作品に基づいて構築する場合は、次のように引用してください。

@software{Forsgren_Martiros_2022,
  author = {Forsgren, Seth* and Martiros, Hayk*},
  title = {{Riffusion - Stable diffusion for real-time music generation}},
  url = {https://riffusion.com/about},
  year = {2022}
}