并行訓(xùn)練-流水線 簡述 并行訓(xùn)練主要有三種策略: 數(shù)據(jù)并行訓(xùn)練加速比最高,但要求每個設(shè)備上都備份一份模型,顯存占用比較高,但缺點是通信量大。 張量并行,通信量比較高,適合在機器內(nèi)做模型并行。 流水線并行,訓(xùn)練設(shè)備容易出現(xiàn)空閑狀態(tài),加速效率沒有DP高;但能減少通信邊界支持更多的層數(shù),適合在機器間使用。
并行訓(xùn)練主要有三種策略:
Micro-batch(Gpipe)將網(wǎng)絡(luò)結(jié)構(gòu)進行縱向拆分, 每張卡訓(xùn)練其中的幾層. 如果是按照純粹的mini-batch訓(xùn)練, 每層之間是純串行的. 后面的卡會始終等待前面的卡. 所以引入了micro-batch的概念. 把mini-batch進行更細粒度的拆分, 這樣在完成batch0的fp之后, 卡0可以進行batch1的fp, 卡1就能開始batch0的fp. 從而提高并行度.
存在的問題:
實際應(yīng)用中 當(dāng)mico-batch個數(shù)大于stageNum的4倍時, 可以忽略bubble_time
count(*)、count(1)哪個更快?面試必問:通宵整理的十道經(jīng)典MySQL必問面試題
閱讀從需求分析、產(chǎn)品設(shè)計到部署交付各階段說明
閱讀強化學(xué)習(xí)筆記之【ACE:Off-PolicyActor-CriticwithCausality-AwareEntropyRegularization】
閱讀使用MailKit在.NET Core中收發(fā)郵件的完整示例
閱讀OpenAI官方開源多智能體框架Swarm,社區(qū)反響熱烈
閱讀Vue-Vben-Admin:功能強大的Vue3后臺管理系統(tǒng)模板
閱讀深度解析Spring AI:請求與響應(yīng)機制的核心邏輯
閱讀.NET云原生應(yīng)用實踐(一):從搭建項目框架結(jié)構(gòu)開始
閱讀llama.cpp:一個適用于中小型研發(fā)企業(yè)的高性能CPU/GPU大語言模型推理框架
閱讀Windows應(yīng)急響應(yīng)-Auto病毒
閱讀本站所有軟件,都由網(wǎng)友上傳,如有侵犯你的版權(quán),請發(fā)郵件[email protected]
湘ICP備2022002427號-10 湘公網(wǎng)安備:43070202000427號© 2013~2024 haote.com 好特網(wǎng)