首页 > Ai资讯 > Ai知识库 > 开源新标杆，千问Qwen2系列模型发布，全面超越LLama3

开源新标杆，千问Qwen2系列模型发布，全面超越LLama3

发布时间：2024年06月07日

32543

简介

一觉醒来，Qwen2终于开源了。

Qwen2 系列模型包括五个尺寸的模型（Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B），这些模型在中文和英文基础上增加了 27 种语言的高质量数据，并在多个评测基准上展现了优异的性能。Qwen2 系列模型在代码和数学能力上有显著提升，尤其是在长文本处理方面，其中
Qwen2-72B-Instruct 模型能够完美处理 128k 上下文长度内的信息抽取任务。此外，Qwen2 系列模型在安全性方面也进行了改进，通过测试显示其在生成有害响应的比例上优于或与其他模型相当。

模型基础信息

Qwen2系列所有尺寸的模型都使用了GQA，以便让大家体验到GQA带来的推理加速和显存占用降低的优势。针对小模型，由于embedding参数量较大，使用了tie embedding的方法让输入和输出层共享参数，增加非embedding参数的占比。

并且在上下文长度方面，所有的预训练模型均在32K tokens的数据上进行训练。而在使用YARN这类方法时，Qwen2-7B-Instruct和Qwen2-72B-Instruct均实现了长达128K tokens上下文长度的支持。

语言支持

基准测试

相比Qwen1.5，Qwen2在大规模模型实现了非常大幅度的效果提升。在针对预训练语言模型的评估中，对比当前最优的开源模型，Qwen2-72B在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型，如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。