欧美激情视频一区二区,中国丰满熟妇xxxx性,国内精品一区二区三区视频

DeepChat 大規(guī)模三步訓(xùn)練：NVIDIA H100 SXM5與A100 SXM4 GPU基準(zhǔn)測(cè)試

發(fā)布時(shí)間： 2024-08-07 14:57

使用 DeepChat 的 3 步訓(xùn)練示例，對(duì)捷智算平臺(tái)提供的 NVIDIA H100 SXM5 與 NVIDIA A100 SXM4 進(jìn)行 GPU 基準(zhǔn)測(cè)試。

目標(biāo)

我們使用DeepChat 的 3 步訓(xùn)練示例，對(duì)捷智算平臺(tái)提供的NVIDIA H100 SXM5 實(shí)例（由 NVIDIA H100 Tensor Core GPU 提供支持）進(jìn)行了激動(dòng)人心的 GPU基準(zhǔn)測(cè)試。我們將性能與參考 NVIDIA A100 SXM4 Tensor Core 系統(tǒng)進(jìn)行比較，并在 128 臺(tái)服務(wù)器上的 1,024 個(gè) GPU 上對(duì)其可擴(kuò)展性進(jìn)行壓力測(cè)試。

準(zhǔn)備事項(xiàng)

每臺(tái)服務(wù)器配備 8 個(gè) NVIDIA H100 SXM5 GPU 和 8 個(gè) 400Gb/s NDR InfiniBand 鏈路。這相當(dāng)于 640GB 的 GPU 內(nèi)存和 3200Gb/s 的節(jié)點(diǎn)間帶寬。
利用完全無(wú)阻塞的軌道優(yōu)化網(wǎng)絡(luò)拓?fù)洌覀冏畲笙薅鹊靥岣吡巳阅懿p少了網(wǎng)絡(luò)沖突，確保服務(wù)器之間的InfiniBand 性能大于 750Gbit/s ，這通過(guò)一對(duì) InfiniBand 端口之間的雙向 ib_write_bw 測(cè)試來(lái)測(cè)量。
所有服務(wù)器均預(yù)裝了 Lambda Stack、InfiniBand 驅(qū)動(dòng)程序和 deepspeed 0.10.0，并同步到共享存儲(chǔ)以用于訓(xùn)練數(shù)據(jù)和預(yù)訓(xùn)練權(quán)重。

主要結(jié)果

捷智算平臺(tái)的 NVIDIA H100 SXM5 與 NVIDIA A100 SXM4 實(shí)例在 FP16 中的 3 步強(qiáng)化學(xué)習(xí)人類反饋 (RLHF) 管道上的正面比較顯示：

步驟 1（OPT-13B Zero3）：NVIDIA H100 速度提高 2.8 倍。

DeepChat 訓(xùn)練步驟 1

步驟 2（OPT-350M Zero0）：NVIDIA H100 獲得 2.5 倍速度優(yōu)勢(shì)。

DeepChat 訓(xùn)練步驟 2

步驟 3（OPT-13B Zero3 加 OPT-350M Zero0）：NVIDIA H100 以 3.1 倍的速度提升遙遙領(lǐng)先。

DeepChat 訓(xùn)練步驟 3

測(cè)試分布式訓(xùn)練可擴(kuò)展性：

大型模型（OPT-13B）和更大的批次（16 個(gè)樣本/GPU）導(dǎo)致 128 臺(tái)服務(wù)器的吞吐量達(dá)到 127.51 倍。

訓(xùn)練擴(kuò)展

較小的模型（OPT-350M）和較小的批次（4 個(gè)樣本/GPU）仍然令人印象深刻，128 臺(tái)服務(wù)器的吞吐量達(dá)到 112.79 倍。

訓(xùn)練擴(kuò)展

結(jié)論

與 NVIDIA A100 SXM4 系統(tǒng)相比，NVIDIA H100 SXM5 系統(tǒng)上的 DeepSpeed 訓(xùn)練速度提高了 2.5 倍至 3.1 倍。捷智算平臺(tái)配備 80GB NVIDIA H100 SXM5 GPU、NIC 與 GPU 比率為 1:1 的 InfiniBand 連接以及軌道優(yōu)化網(wǎng)絡(luò)。它們可以在數(shù)千個(gè) GPU 上提供前所未有的性能和可擴(kuò)展性。

如何利用云GPU實(shí)現(xiàn)高性能深度學(xué)習(xí)？云GPU租賃解決方案詳解

如何將 AI 云服務(wù)與AE和Nuke集成？此集成應(yīng)用及優(yōu)勢(shì)詳解

熱門產(chǎn)品

NVIDIA QM9790 交換機(jī)

NVIDIA H100 Tensor Core GPU

為各類數(shù)據(jù)中心提供出...

ESC-N8-E11 AI超算服務(wù)器

NVIDIA HGX...

英偉達(dá)h200,全球高性能GPU,現(xiàn)貨

英偉達(dá)h200,Te...

NVIDIA H100 Tensor Core GPU

為各類數(shù)據(jù)中心提供出...