9 – 训练策略优化
与传统神经网络模型的训练类似,大语言模型的通常也会使用批次梯度下降进行模型参数的训练,同时为保证训练的稳定性和效果,还会针对学习率、优化器参数等超参数进行调整。本文就针对这些策略做一篇小结。 … Continue reading 9 – 训练策略优化
Copy and paste this URL into your WordPress site to embed
Copy and paste this code into your site to embed