一个来自MIT博士生的惊人发现:只需对Transformer的特定层进行一种非常简单的修剪,即可在缩小模型规模的同时显著提高模型性能。无需额外训练提升模型30%性能!DeepMind科学家点赞MIT博士生成果
效果主要体现在文本理解任务上,最高可达30%。这在3个模型(LLama2、GPT-J和Roberta)和8个不同数据集上都得到了验证(包含认知推理、世界知识等)。除了文本理解,它也适用于强化学习。这个操作只需在模型训练完成之后进行,不需要额外的参数和数据。
© 版权声明
本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权或其它疑问请点击联系删除。