成人动漫一区二区三区-国产精品久久久久影院-狠狠色综合网站久久久久久久-两个黑人大战嫩白金发美女-欧美在线观看-少妇太爽了在线观看

如何使用QLoRA和FSDP在2X RTX 4090上訓練 70b 語言模型?
發布時間: 2024-08-06 14:16

最近有用戶展示了一種在 48GB GPU RAM 上訓練大模型(例如 Llama 2 70B)的方法。此外,它可以在多個 GPU 上運行,因此可以在 2X 4090 實例上訓練模型!


新的fsdp_qlora開源軟件有許多訓練選項和示例。該軟件基于兩個重要理念:


QLoRA(量化 LoRA)結合了量化(使用更少的位來存儲模型權重)和 LoRA(低秩自適應,將小型可訓練矩陣添加到凍結的基礎模型)。這允許使用帶有可訓練 LoRA 適配器的量化基礎模型來訓練大于 GPU 內存的模型。但是,QLoRA 仍然存在局限性,例如需要昂貴的 GPU 并且由于內存限制而限制序列長度和批處理大小。


FSDP(完全分片數據并行)是由 Meta 開發的一個庫,它可以有效地將大型模型拆分到多個 GPU 上,從而允許同時使用它們。它改進了之前的黃金標準 DDP(分布式數據并行),后者要求完整模型適合每個 GPU。通過將模型參數分片到多個 GPU,FSDP 可以訓練超出單個 GPU 內存的大型模型。


本指南將向您展示如何在捷智算平臺上租用 2X 實例以按需運行該軟件。


如何使用QLoRA和FSDP在2X RTX 4090上訓練 70b 語言模型?


如何在捷智算平臺2X 3090/4090 實例上運行 fsdp_qlora


  1. 捷智算平臺有大量 RTX 3090 和 RTX 4090 GPU,非常適合運行 fsdp_qlora。您需要一個帶有積分的捷智算平臺帳戶。

  2. 創建您的捷智算帳戶,添加信用并在本地機器上安裝。

  3. 設置捷智算平臺帳戶并驗證您的電子郵件地址。向您的帳戶添加一些用于 GPU 租賃的信用額度。然后安裝。


搜索捷智算算力市場


我們需要找到合適的 GPU。根據我的測試,訓練 Llama 70B 需要 200GB 的系統 RAM。此查詢將返回適合 2X 4090 實例的按需 GPU 優惠,按下載帶寬排序


對于 2X 4090 實例


vastai search offers "gpu_name=RTX_4090 cpu_ram>=130 disk_space>140 num_gpus=2" -o "inet_down-"


對于 2X 3090 實例


vastai search offers "gpu_name=RTX_3090 cpu_ram>=130 disk_space>140 num_gpus=2" -o "inet_down-"


創建捷智算平臺實例


優惠列表將包含大量有關可用機器的詳細信息。要選擇一個,您將需要優惠 ID。然后在創建命令中使用該 ID 以及 Pytorch Cuda Devel 模板哈希。


此命令將根據提供的報價創建一個實例,使用該模板并分配 200GB 的磁盤。


將 XXXXXXX 替換為來自市場的優惠 ID。


vastai create instance XXXXXXX --template_hash e4c5e88bc289f4eecb0c955c4fe7430d --disk 200


通過 SSH 進入捷智算平臺實例


等待幾分鐘,讓實例啟動。您可以使用 WebUI通過單擊 >_ 按鈕獲取直接 SSH 命令。


要通過 SSH 連接,您只需使用從實例卡復制的命令。它看起來類似于以下內容:

ssh -p <port> <sshURL> -L 8080:localhost:8080


安裝 fsdp_qlora 并登錄 Hugging Face

git clone https://github.com/AnswerDotAI/fsdp_qlora

pip install llama-recipes fastcore --extra-index-url https://download.pytorch.org/whl/test/cu118

pip install bitsandbytes>=0.43.0

pip install wandb


登錄 Hugging Face,粘貼你的 API 密鑰來下載模型

huggingface-cli login


可選:登錄 wandb 以啟用 Weights and Balances 日志記錄

wandb login


可選擇設置 HQQ

HQQ 是一種快速且準確的模型量化器。它可以代替 bitsandbytes 使用。如果您想使用它,您需要先安裝它。

git clone https://github.com/mobiusml/hqq.git


安裝 HQQ

cd hqq && pip install .


訓練模型

有關完整選項,請查看Github repo。此示例將使用 hqq_lora 對 Llama 70B 進行微調。


例如:微調 Llama 2 70B,上下文長度為 512

cd ~/fsdp_qlora

python train.py

--model_name meta-llama/Llama-2-70b-hf

--batch_size 2

--context_length 512

--precision bf16

--train_type qlora

--use_gradient_checkpointing true

--use_cpu_offload true

--dataset alpaca

--reentrant_checkpointing true


故障排除


在某些情況下,系統似乎僅在 CPU 上運行。 GPU 可能無法被識別。 監控fsdp_qlora repo以獲取幫助。


對于與實例或使用捷智算平臺相關的任何問題,請點擊捷智算平臺右下角的網站支持聊天以獲得即時支持。


有時,它可以幫助導出 cuda 可見設備,以幫助解決 GPU 無法加載且 CPU 完成所有工作的問題。


export CUDA_VISIBLE_DEVICES=0,1

粵公網安備 44030502006483號、 粵ICP備15047669號
  • 捷易科技聯系人
  • 主站蜘蛛池模板: 亚洲欧美丝袜精品久久中文字幕| 日本无卡无吗二区三区入口| 性一交一乱一伧国产女士spa| 亚洲性无码av在线| 狠痕鲁狠狠爱2021在| 国产成年无码久久久久毛片| 亚洲色欲网熟女少妇| 精品少妇一区二区三区视频| 三级视频网站| 中文字幕亚洲综合久久| 九一传媒在线观看| 国产成人午夜福利院| 亚洲成a人片在线观看中文| 久久夜色撩人精品国产av| 波多野结衣的av一区二区三区| 国产 欧美 亚洲 中文字幕| 日本嫩交12一16xxx视频| 欧美成人一区在线观看| 成人无码一区二区三区| 精品黑人一区二区三区久久| 欧美激情一区二区三区高清视频| 亚洲精品一区| 亚洲欧美洲成人一区二区三区| 国内精品国产成人国产三级| 国产午夜福利在线观看红一片| 久久久久久a亚洲欧洲av| 国产又色又爽又黄的视频在线| 性色欲网站人妻丰满中文久久不卡 | 日韩激情无码不卡码| 久久精品无码精品免费专区| 手机看片福利一区二区三区| 亚洲精品国产首次亮相| 一本色道av久久精品+网站| 欧美三级中文字幕在线观看| 亚洲色偷偷男人的天堂| 亚洲旡码欧美大片| 国产精品无码永久免费不卡| 亚洲美女被黑人巨大在线播放| 成年女人永久免费看片| 久久久99精品成人片| 欧美黑人粗大猛烈18p|