[大模型面试] 什么是pre-norm, post-norm? 为什么现在大模型都用pre-norm架构? post-norm有什么问题? 新的架构?

猜你喜欢
返回顶部