无需额外训练提升模型30%性能！DeepMind科学家点赞MIT博士生成果

0 0

一个来自MIT博士生的惊人发现：只需对Transformer的特定层进行一种非常简单的修剪，即可在缩小模型规模的同时显著提高模型性能。无需额外训练提升模型30%性能！DeepMind科学家点赞MIT博士生成果
效果主要体现在文本理解任务上，最高可达30%。这在3个模型（LLama2、GPT-J和Roberta）和8个不同数据集上都得到了验证（包含认知推理、世界知识等）。除了文本理解，它也适用于强化学习。这个操作只需在模型训练完成之后进行，不需要额外的参数和数据。

# AI行业快讯