参考资料下载⏬。更广泛的关于并行性的讨论支持材料下载⏬。
- 使用模型并行训练多亿参数语言模型的Megatron-LM。M. Shoeybi, M. Patwary, Raul Puri, P. LeGresley, J. Casper, Bryan Catanzaro。2019年。
- GPipe: 利用流水线并行高效训练巨型神经网络。Yanping Huang, Yonglong Cheng, Dehao Chen, HyoukJoong Lee, Jiquan Ngiam, Quoc V. Le, Z. Chen。2018年NeurIPS会议。
- 在GPU集群上使用Megatron-LM高效训练大规模语言模型。D. Narayanan, M. Shoeybi, J. Casper, P. LeGresley, M. Patwary, V. Korthikanti, Dmitri Vainbrand, Prethvi Kashinkunti, J. Bernauer, Bryan Catanzaro, Amar Phanishayee, M. Zaharia。2021年SC会议。
- TeraPipe: 用于训练大规模语言模型的令牌级流水线并行。Zhuohan Li, Siyuan Zhuang, Shiyuan Guo, Danyang Zhuo, Hao Zhang, D. Song, I. Stoica。2021年ICML会议。
Tutorials