このリポジトリは、LLaMAモデルをロードして推論を実行するための、最小限のハッキング可能で読み取り可能な例として意図されています。 チェックポイントとトークナイザーをダウンロードするには、このGoogleフォームに記入してください
利用可能なピトーチ/クーダを備えたコンダ環境で、実行します
pip install -r requirements.txt
次に、このリポジトリで
pip install -e .
要求が承認されると、トークナイザーとモデル ファイルをダウンロードするためのリンクが表示されます。 電子メールに記載されている署名付き URL を使用してスクリプトを編集し、モデルの重みとトークナイザーをダウンロードします。
download.sh
提供されたものは、単一または複数のGPUノードで実行でき、2つの事前定義されたプロンプトの完了を出力します。で定義されているように使用します。
example.py
torchrun
TARGET_FOLDER
download.sh
torchrun --nproc_per_node MP example.py --ckpt_dir $TARGET_FOLDER/model_size --tokenizer_path $TARGET_FOLDER/tokenizer.model
モデルが異なれば、必要なMP値も異なります。
モデル | ティッカー |
---|---|
7B | 1 |
13B | 2 |
30B | 4 |
65B | 8 |
MODEL_CARD.mdを参照してください
ライセンスファイルを参照してください。