Hello,大家好!最近,Ollama又有更新了,这次更新的0.2.0版本是基于上上个版本的并发和多模型支持功能的优化及实装,小显存的电脑也可以满载同时运行多个模型。
小显存的逆袭:多模型支持不再是“大佬机”专属
没错,你没看错!这次更新最让人激动的是,就算你的电脑显存不是顶配,也能体验到多模型支持的快感。想象一下,你那张被你嫌弃已久的”小破卡”现在突然觉醒,变身为LLM推理运算的多面手,还能在本地跑多智能体应用,是不是感觉棒极了?
并发支持:我的电脑终于能“一心多用”了!
Ollama 0.2.0版本的核心亮点无疑是其强大的并发支持功能。这项技术突破使得我们的计算机能够同时运行多个AI任务,大幅提升了本地LLM的实用性和效率。
准备好升级了吗?让我们一起来看看Ollama 0.2.0的更新带来什么惊喜吧!
Ollama 0.2.0 发布说明
新特性:并发性
Ollama 0.2.0 现已推出并发支持,带来两项主要功能改进:
1. 并行请求
Ollama 现可同时处理多个请求,每个额外请求仅需少量额外内存。这一功能支持以下应用场景:
- 同时处理多个聊天会话
- 为内部团队托管代码补全 LLM
- 同时处理文档的不同部分
- 同时运行多个智能代理(多智能体)
2. 多模型支持
Ollama 现支持同时加载不同模型,大幅改善了以下方面:
- 检索增强生成 (RAG):嵌入模型和文本补全模型可同时加载到内存
- 智能代理(多智能体):多个不同代理可同时运行
- 大小模型并行运行
系统会根据请求和可用 GPU 内存自动加载和卸载模型。
使用 ollama ps
命令查看已加载模型:
% ollama ps
名称 ID 大小 处理器 有效期至
gemma:2b 030ee63283b5 2.8 GB 100% GPU 4分钟后
all-minilm:latest 1b226e2802db 530 MB 100% GPU 4分钟后
llama3:latest 365c0bd3c000 6.7 GB 100% GPU 4分钟后
新增模型
- GLM-4:强大的多语言通用语言模型,性能可与 Llama 3 相媲美
- CodeGeeX4:适用于 AI 软件开发场景的多功能模型,包括代码补全
- Gemma 2:改进输出质量,现已提供基础文本生成模型
变更内容
Gemma 2 改进
- 修复模型在达到上下文窗口限制后生成无效标记的问题
- 修复
gemma2:27b
的推理输出问题 - 可能需要重新下载模型:
ollama pull gemma2
或ollama pull gemma2:27b
其他改进
- 模型架构不支持时提供更好的错误提示
- 改进 Modelfile
FROM
行中引号和空格的处理 - Linux 系统内存不足以运行模型时返回错误
测试视频
开启并发及多模型支持请看这篇
写在最后
各地大厂都在卷线上模型,本地模型和小型模型的发展潜力不容忽视,它们很可能成为未来AI应用的一个重要赛道。近期,我们见证了多个重量级开源模型的发布,如阿里的Qwen2、谷歌的Gemma2以及Meta的LLaMA3。这些模型不仅展示了非常不错的性能,更重要的是,它们为本地部署和应用提供了强大的基础。这一趋势清晰地表明,高性能的本地LLM已经不再是遥不可及的梦想。
本地模型的优势日益凸显:
- 隐私保护: 数据无需离开本地设备,大大降低了隐私泄露的风险。
- 低延迟: 无需依赖网络连接,响应速度更快。
- 定制化: 更容易根据特定需求进行微调和优化。
- 成本效益: 长期使用可能比持续调用云端API更经济。
随着硬件性能的不断提升和模型优化技术的进步,我们有理由相信,本地模型将在未来扮演越来越重要的角色。它们不仅会补充云端大模型的不足,还可能在某些特定场景下成为首选解决方案。