预训练大模型在ctr预估方面取得了不错的效果,但是应用大模型方面还主要停留在提取离线预训练,然后使用大模型的打分结果或者中间的embedding向量,这种级联的应用方式相对灵活方便。但是这种使用大模型提取特征的方式存在自身的问题,那就是通过独立训练得到的特征,对于最终的ctr模型来说不是最优的。主要原因是预训练的大模型和ctr模型存在不对齐的问题,造成大模型提取的特征存在冗余重叠的情况。为了解决这个问题,微软ad团队提出了预训练+联合学习和蒸馏学习的方式,对大模型进行端到端的应用,从而返回大模型真正的威力。 论文:Learning Supplementary NLP Features for CTR Prediction in Sponsored Search