智源FlagEval大模型评测榜单11月榜发布

AI行业快讯2年前 (2023)发布 HiAix管理员

0 0

智源研究院发布FlagEval大语言模型评测榜单11月榜，开源了中文语义理解评测基准C-SEM，新增近期模型评测：ChatGLM3-6B、ChatGLM2-12B（闭源）、Yi-34B、Skywork-12B、LingoWhale-8B，这也是FlagEval平台首次发布闭源模型评测结果。其中在基座（Base）模型榜单中，Yi-34B-Base、Yi-34-Base-200K模型超越Aquila2-34B，排名第一，其英文能力突出、优于中文能力；ChatGLM3-6B-Base、ChatGLM2-12B-Base表现亮眼，领先其他同参数量级模型；Skywork-13B-Base、LingoWhale-8B亦有不错表现。在有监督微调（SFT）模型榜单中，ChatGLM2-12B-sft、ChatGLM3-6B-sft均达到了同参数级对话模型的最优水平。此外，智源研究院预告FlagEval 12月榜单将发布“大语言模型鲁棒性评测结果”。

# AI行业快讯