第三节：并行主义

参考资料下载⏬。更广泛的关于并行性的讨论支持材料下载⏬。

延伸阅读

使用模型并行训练多亿参数语言模型的Megatron-LM。M. Shoeybi, M. Patwary, Raul Puri, P. LeGresley, J. Casper, Bryan Catanzaro。2019年。
GPipe: 利用流水线并行高效训练巨型神经网络。Yanping Huang, Yonglong Cheng, Dehao Chen, HyoukJoong Lee, Jiquan Ngiam, Quoc V. Le, Z. Chen。2018年NeurIPS会议。
在GPU集群上使用Megatron-LM高效训练大规模语言模型。D. Narayanan, M. Shoeybi, J. Casper, P. LeGresley, M. Patwary, V. Korthikanti, Dmitri Vainbrand, Prethvi Kashinkunti, J. Bernauer, Bryan Catanzaro, Amar Phanishayee, M. Zaharia。2021年SC会议。
TeraPipe: 用于训练大规模语言模型的令牌级流水线并行。Zhuohan Li, Siyuan Zhuang, Shiyuan Guo, Danyang Zhuo, Hao Zhang, D. Song, I. Stoica。2021年ICML会议。