自上次6月份发布的Qwen2已经时隔三个多月了,如何判断一家大型企业在开源模型领域做出杰出的贡献,并不是因为有技术上的优势,而是坚持不懈的迭代更新。前两天云栖大会上,阿里不仅开源了Qwen2.5基础模型系列,还开源了专家模型,专门用于编码的模型Qwen2.5-Coder和数学的模型Qwen2.5-Math。

下面是这次开源以及即将开源的模型型号和规格:

  • Qwen2.5:0.5B、1.5B、3B、7B、14B、32B 和 72B
  • Qwen2.5-Coder:1.5B、7B 和 32B 即将问世
  • Qwen2.5-Math:1.5B、7B 和 72B。

已经在Hugging Face和ModelScope上同步开源,并在Ollama可以下载使用。

模型基础信息


Qwen2.5系列包含7种尺寸的模型,具体如下表所示:

模型参数量非Embedding参数量层数头数 (KV)Tie Embedding上下文长度生成长度许可协议
Qwen2.5-0.5B0.49B0.36B2414 / 2Yes32K8KApache 2.0
Qwen2.5-1.5B1.54B1.31B2812 / 2Yes32K8KApache 2.0
Qwen2.5-3B3.09B2.77B3616 / 2Yes32K8KQwen Research
Qwen2.5-7B7.61B6.53B2828 / 4No128K8KApache 2.0
Qwen2.5-14B14.7B13.1B4840 / 8No128K8KApache 2.0
Qwen2.5-32B32.5B31.0B6440 / 8No128K8KApache 2.0
Qwen2.5-72B72.7B70.0B8064 / 8No128K8KQwen

这次在上下文长度也得到了非常大的提升,小模型的上下文长度就达到了32K,生成长度可以达到8K,非常适合长文本内容创作领域。这次的0.5B小模型适合在边缘计算设备上运行,而1.5B和3B适合在移动端运行。

亮点:

  1. 更大规模、更高质量的预数据训练集:预训练数据集规模从 7T tokens 扩展到了 18T tokens。
  2. 知识储备升级:Qwen2.5的知识涵盖更广。
  3. 代码能力增强:得益于Qwen2.5-Coder的突破,Qwen2.5在代码生成能力上也大幅提升。
  4. 数学能力提升:引入了Qwen2-math的技术后,Qwen2.5的数学推理表现也有了快速提升。
  5. 更符合人类偏好:Qwen2.5生成的内容更加贴近人类的偏好。
  6. 其他核心能力提升:Qwen2.5在 指令跟随、生成 长文本(从1K升级到 8K tokens)、理解 结构化数据(如表格),以及生成 结构化输出(尤其是JSON)上都有非常明显的进步。此外,Qwen2.5能够更好响应多样化的 系统提示,用户可以给模型设置 特定角色 或 自定义条件
  7. **工具调用能力:**全系列都很好的支持工具调用,如vllm / Ollama / transformers 这些推理框架,开发者可是有福了。

Qwen2.5模型评测报告


由于这次官方对于系列模型都做出了对比评估,评估内容比较长,这里就不再一一展示,而是做了一个评估总结,有兴趣的小伙伴可以在qwenblog查看详细数据:

  • 模型系列:
    • Qwen2.5系列包括不同规模的基础模型和指令微调模型(如72B, 32B, 14B, 7B, 3B, 1.5B, 0.5B)
    • 对比模型包括Llama-3系列、Mistral、Gemma2系列、GPT4o-mini等
  • 评估任务类型:
    • 通用任务(如MMLU, BBH, ARC-C等)
    • 数学与科学任务(如GPQA, GSM8K, MATH等)
    • 代码任务(如HumanEval, MBPP, MultiPL-E等)
    • 多语言任务
    • 指令遵循和对齐任务(如IFeval, Arena-Hard, AlignBench等)
  • 主要发现:
    • Qwen2.5-72B在多数任务上表现优于或接近Llama-3-405B,尽管参数量只有后者的1/5
    • Qwen2.5系列各规模模型(如32B, 14B, 7B)在多数任务上优于同等规模的竞争对手
    • 在数学(MATH)和代码(LiveCodeBench)任务上,Qwen2.5系列表现尤为突出
    • 在多语言任务中,Qwen2.5系列也展现出强劲的性能
  • 特别亮点:
    • Qwen2.5-72B-Instruct在MATH任务上得分83.1,LiveCodeBench得分55.5,均优于大多数竞争对手
    • Qwen2.5-7B-Instruct在数学(MATH: 75.5)和代码(HumanEval: 84.8)任务上表现优异
    • 较小规模的模型(如3B, 1.5B, 0.5B)相比前代也有显著提升,适合资源受限场景
  • 多语言能力:
    • Qwen2.5系列在各种多语言任务(如IFEval多语言版、AMMLU、JMMLU等)中表现优秀
    • 在非英语数学问题(MGSM8K扩展版)上也有良好表现

如何使用Qwen2.5


在线体验:

ModelScope和Hugging Face上都可以体验到各种规格的模型。

离线体验:

而我们就用ollama推理框架来体验Qwen2.5-32b-Q4量化版,Q5以上的量化版本用普通的家用电脑单块4090运算起来非常吃力,即使同时借助CPU推理速度也很慢。

非严谨性测试-系统提示词理解(Qwen2.5-32b VS Gemma2-27b同样4bit量化):

我们先来试一段目前非常火的提示词,这个提示词的功能可以让LLM达到自我思考的效果,并进行思维链推理,也就是仿GPT-o1模型的效果。

问题一:12.10和12.01哪个数字大

以上是Qwen2.5-32b给出的回答。

以上是Gemma2-27b给出的回答。

可以看出两个模型给出的答案都是正确的,但是Qwen2.5-32b给出了5条以上的推理过程已经很好的理解了系统提示词,也很详细的对于这个问题进行了思考。

问题二(经典陷阱题):一个农夫需要运两只鸡过河,一次可以运一人+两只动物,最少需要过几次河

以上是Qwen2.5-32b的回答,竟然答对了(虽然答案中理解成了往返),而且在思考过程中也明确了其他条件,不过最后还是考虑了最优解。

以上是Gemma2-27b的回答,明显过于“思考”了。

写在最后

以上的测试并不严谨,仅供娱乐。不过个人认为这次升级后的Qwen2.5-32b性能非常强,下次可以考虑让它使用工具调用能力,如果返回结果能达到预期,就能在生产环境上了试试了,参与一些提升效率的的场景。

Qwen2Blog:https://qwenlm.github.io/blog/qwen2.5/

魔搭社区:https://modelscope.cn/studios/qwen/Qwen2.5