Hello,大家好!最近,Ollama又有更新了,这次更新的0.2.0版本是基于上上个版本的并发和多模型支持功能的优化及实装,小显存的电脑也可以满载同时运行多个模型。

小显存的逆袭:多模型支持不再是“大佬机”专属

没错,你没看错!这次更新最让人激动的是,就算你的电脑显存不是顶配,也能体验到多模型支持的快感。想象一下,你那张被你嫌弃已久的”小破卡”现在突然觉醒,变身为LLM推理运算的多面手,还能在本地跑多智能体应用,是不是感觉棒极了?

并发支持:我的电脑终于能“一心多用”了!

Ollama 0.2.0版本的核心亮点无疑是其强大的并发支持功能。这项技术突破使得我们的计算机能够同时运行多个AI任务,大幅提升了本地LLM的实用性和效率。

准备好升级了吗?让我们一起来看看Ollama 0.2.0的更新带来什么惊喜吧!

Ollama 0.2.0 发布说明


新特性:并发性

Ollama 0.2.0 现已推出并发支持,带来两项主要功能改进:

1. 并行请求

Ollama 现可同时处理多个请求,每个额外请求仅需少量额外内存。这一功能支持以下应用场景:

  • 同时处理多个聊天会话
  • 为内部团队托管代码补全 LLM
  • 同时处理文档的不同部分
  • 同时运行多个智能代理(多智能体)
2. 多模型支持

Ollama 现支持同时加载不同模型,大幅改善了以下方面:

  • 检索增强生成 (RAG):嵌入模型和文本补全模型可同时加载到内存
  • 智能代理(多智能体):多个不同代理可同时运行
  • 大小模型并行运行

系统会根据请求和可用 GPU 内存自动加载和卸载模型。

使用 ollama ps 命令查看已加载模型:

% ollama ps
名称                          ID                       大小        处理器                有效期至
gemma:2b                030ee63283b5    2.8 GB    100% GPU          4分钟后
all-minilm:latest       1b226e2802db    530 MB  100% GPU          4分钟后
llama3:latest             365c0bd3c000    6.7 GB    100% GPU          4分钟后

新增模型
  • GLM-4:强大的多语言通用语言模型,性能可与 Llama 3 相媲美
  • CodeGeeX4:适用于 AI 软件开发场景的多功能模型,包括代码补全
  • Gemma 2:改进输出质量,现已提供基础文本生成模型
变更内容
Gemma 2 改进
  • 修复模型在达到上下文窗口限制后生成无效标记的问题
  • 修复 gemma2:27b 的推理输出问题
  • 可能需要重新下载模型:ollama pull gemma2ollama pull gemma2:27b
其他改进
  • 模型架构不支持时提供更好的错误提示
  • 改进 Modelfile FROM 行中引号和空格的处理
  • Linux 系统内存不足以运行模型时返回错误

测试视频


开启并发及多模型支持请看这篇

写在最后


各地大厂都在卷线上模型,本地模型和小型模型的发展潜力不容忽视,它们很可能成为未来AI应用的一个重要赛道。近期,我们见证了多个重量级开源模型的发布,如阿里的Qwen2、谷歌的Gemma2以及Meta的LLaMA3。这些模型不仅展示了非常不错的性能,更重要的是,它们为本地部署和应用提供了强大的基础。这一趋势清晰地表明,高性能的本地LLM已经不再是遥不可及的梦想。

本地模型的优势日益凸显:

  1. 隐私保护: 数据无需离开本地设备,大大降低了隐私泄露的风险。
  2. 低延迟: 无需依赖网络连接,响应速度更快。
  3. 定制化: 更容易根据特定需求进行微调和优化。
  4. 成本效益: 长期使用可能比持续调用云端API更经济。

随着硬件性能的不断提升和模型优化技术的进步,我们有理由相信,本地模型将在未来扮演越来越重要的角色。它们不仅会补充云端大模型的不足,还可能在某些特定场景下成为首选解决方案。