9 – 训练策略优化

与传统神经网络模型的训练类似,大语言模型的通常也会使用批次梯度下降进行模型参数的训练,同时为保证训练的稳定性和效果,还会针对学习率、优化器参数等超参数进行调整。本文就针对这些策略做一篇小结。    … Continue reading 9 – 训练策略优化