您的位置：首頁(yè) > 軟件教程 > 教程 > 并行訓(xùn)練-流水線

并行訓(xùn)練-流水線

來(lái)源：好特整理　|　時(shí)間：2024-06-27 08:49:25 |　閱讀：91　|　標(biāo)簽： S 　 |　分享到：

并行訓(xùn)練-流水線簡(jiǎn)述并行訓(xùn)練主要有三種策略: 數(shù)據(jù)并行訓(xùn)練加速比最高，但要求每個(gè)設(shè)備上都備份一份模型，顯存占用比較高，但缺點(diǎn)是通信量大。張量并行，通信量比較高，適合在機(jī)器內(nèi)做模型并行。流水線并行，訓(xùn)練設(shè)備容易出現(xiàn)空閑狀態(tài)，加速效率沒(méi)有DP高；但能減少通信邊界支持更多的層數(shù)，適合在機(jī)器間使用。

并行訓(xùn)練主要有三種策略：

數(shù)據(jù)并行訓(xùn)練加速比最高，但要求每個(gè)設(shè)備上都備份一份模型，顯存占用比較高，但缺點(diǎn)是通信量大。
張量并行，通信量比較高，適合在機(jī)器內(nèi)做模型并行。
流水線并行，訓(xùn)練設(shè)備容易出現(xiàn)空閑狀態(tài)，加速效率沒(méi)有DP高；但能減少通信邊界支持更多的層數(shù)，適合在機(jī)器間使用。

流水線并行

Micro-batch(Gpipe)將網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行縱向拆分, 每張卡訓(xùn)練其中的幾層. 如果是按照純粹的mini-batch訓(xùn)練, 每層之間是純串行的. 后面的卡會(huì)始終等待前面的卡. 所以引入了micro-batch的概念. 把mini-batch進(jìn)行更細(xì)粒度的拆分, 這樣在完成batch0的fp之后, 卡0可以進(jìn)行batch1的fp, 卡1就能開(kāi)始batch0的fp. 從而提高并行度.

并行訓(xùn)練-流水線

存在的問(wèn)題:

存在bubble_time: 每張卡的空閑時(shí)間 = (stage_num - 1) * (fp_time + bp_time)

實(shí)際應(yīng)用中當(dāng)mico-batch個(gè)數(shù)大于stageNum的4倍時(shí), 可以忽略bubble_time

顯存浪費(fèi): 當(dāng)進(jìn)行stage3的micro-batch 3時(shí), 還需要保存前面所有mico-batch的fp中間結(jié)果用于bp.
在每個(gè)mini-batch之間無(wú)法并行. 因?yàn)橄乱粋€(gè)minibatch需要等當(dāng)前所有的micro-batch更新完參數(shù)

小編推薦閱讀

首頁(yè)

找游戲

游戲庫(kù)

開(kāi)測(cè)表

搶禮包

看攻略

手游排行榜

新聞中心

游戲中心

熱門專區(qū)

熱門頻道

小編推薦

特色欄目

抖音熱游

一刀999

絕地吃雞

沙雕游戲

BT手游

經(jīng)典街機(jī)

真人互動(dòng)

并行訓(xùn)練-流水線

流水線并行

好特網(wǎng)發(fā)布此文僅為傳遞信息，不代表好特網(wǎng)認(rèn)同期限觀點(diǎn)或證實(shí)其描述。

相關(guān)視頻攻略

更多

同類最新

更多

熱門資訊

更多

更多

更多

首頁(yè)

找游戲

游戲庫(kù)

開(kāi)測(cè)表

搶禮包

看攻略

手游排行榜

新聞中心

游戲中心

熱門專區(qū)

熱門頻道

小編推薦

特色欄目

抖音熱游

一刀999

絕地吃雞

沙雕游戲

BT手游

經(jīng)典街機(jī)

真人互動(dòng)

并行訓(xùn)練-流水線

流水線并行

好特網(wǎng)發(fā)布此文僅為傳遞信息，不代表好特網(wǎng)認(rèn)同期限觀點(diǎn)或證實(shí)其描述。

相關(guān)視頻攻略

更多

同類最新

更多

熱門資訊

更多

更多

更多

好特網(wǎng)發(fā)布此文僅為傳遞信息，不代表好特網(wǎng)認(rèn)同期限觀點(diǎn)或證實(shí)其描述。