智源研究院发布FlagEval大语言模型评测榜单11月榜,开源了中文语义理解评测基准C-SEM,新增近期模型评测:ChatGLM3-6B、ChatGLM2-12B(闭源)、Yi-34B、Skywork-12B、LingoWhale-8B,这也是FlagEval平台首次发布闭源模型评测结果。其中在基座(Base)模型榜单中,Yi-34B-Base、Yi-34-Base-200K模型超越Aquila2-34B,排名第一,其英文能力突出、优于中文能力;ChatGLM3-6B-Base、ChatGLM2-12B-Base表现亮眼,领先其他同参数量级模型;Skywork-13B-Base、LingoWhale-8B亦有不错表现。在有监督微调(SFT)模型榜单中,ChatGLM2-12B-sft、ChatGLM3-6B-sft均达到了同参数级对话模型的最优水平。此外,智源研究院预告FlagEval 12月榜单将发布“大语言模型鲁棒性评测结果”。
© 版权声明
本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权或其它疑问请点击联系删除。