Hello,大家好啊!好久没更新啦,今天来吹一波Gemma3系列。一个月前,Google 的 Deepmind 团队开源了 Gemma 家族的第三代模型 ——Gemma3 系列。从原本的文本模型扩展到了多模态模型,支持了图像转文本。不过开源的时候,它对硬件的支持不太给力。就拿 24G 显存的硬件来说,本地跑 27bQ4 量化模型,速度慢得让人着急,更别提图像转文本功能了,基本没法正常用。

但前几周,Gemma3系列在huggingface上又更新了几个新版本,分为IT、PT和QAT(包含IT和PT)三种技术路线的模型分支,在 ollama 和 llama.cpp框架下我们运行的是IT和PT模型,这个版本的GGUF格式模型对于ollama和llama.cpp的支持非常流畅,用起来那叫一个丝滑,体验感直线上升!

Tips:
1. Gemma3 IT(Instruction Tuned Model) 指令调优(Instruction Tuning,IT)是一种在预训练模型的基础上进一步训练的技术,旨在使模型更好地理解和遵循人类的指令 。
2. Gemma3 PT(Pre-Trained Model) 预训练语言模型(Pre-Trained Language Model,PT)是现代自然语言处理(NLP)技术的核心。
3. Gemma3 QAT(Quantization Aware Training) 量化感知训练(Quantization Aware Training,QAT)是一种在训练过程中模拟低精度操作的技术 。优势,保持与半精度(bfloat16)版本相似质量的同时,显著降低了内存使用量(通常减少约3倍) 。

接下来,我们在实际应用场景中测试一下Gemma3这款模型!


Ollama+kun-lab,启动!

今天,给大家推荐一款我用 windsurf + cursor 开发的开源免费应用。它是一个基于 Ollama 框架运行的客户端(可以理解为套壳应用,不过这次套的是 Ollama 的壳,哈哈),使用起来非常方便,只需一键启动。对于热爱 AI 但不熟悉技术的小伙伴来说,这款应用直接打破技术障碍,无需输入复杂的命令,也不用再费心下载安装各种环境依赖包,还要担心网络问题。同时,进行私密对话无需担心您的问题被大模型识别为“无可奉告”,数据安全有保证。

开始我们的实际测试吧!这次我们使用的是Gemma3:27bQ4版本

1. 图像理解能力示例:

1.1 复原官方示例

结论:正确

1.2 复用官方示例

结论:正确

1.3 视觉问答推理

结论:图里的蔬菜都被识别到了,另外,大蒜是被虚化了,竟然也可以被识别到。

1.4 视觉问答推理

结论:图内是一张印度街道的截图,Gemma3对于人类行为规范的标准判定还是非常准确的。

1.5 OCR识别

结论:错误率50%,红线框出来的都是有问题的,应该是对中文的识别不太友好。

1.6 图像转代码

结论:左侧是编译后的前端页面截图,右侧是kun-lab官网截图。我上传的是截图,让gemma3:27b参照截图产出前端页面。虽然产出的前端页面可以交互,页面结构基本正确,但是与原图相差甚远。不过从后续的交流中还是可以进行一定的还原。总之,代码能力一般。

2. 文档理解能力示例:

2.1 文档理解

结论:总结能力尚可,但是有些内容还是会出错,90%准确率。

2.2 上下文理解

结论:指出特定的问题进行上下文对话,同样也是有错误的地方,差不多95%准确率。

3. 工具调用能力示例:

3.1 网络搜索工具

结论:目前只集成了网页搜索工具,时间和日历类小工具还没来得及集成,所以Gemm3没法获取最新时间,只有在对话中提示。可惜看不到会员专栏,嘿嘿!

写在最后:

本次测试选用了Gemma3的27b Q4量化模型,在24G显存的硬件环境下表现优异。不论是常规的问答互动,图片理解能力,还是工具调用场景,模型的token输出速度都极为迅速且稳定,整体体验十分流畅。

另外,做一波小广告,kun-lab客户端最新发布,开箱即用。


✨ 核心亮点

– 📱 桌面应用支持:提供桌面应用,支持 Windows/macOS/Linux 平台(目前只支持Windows),开箱即用。

– 🚀 多模型灵活切换:轻松管理和选用 Ollama 支持的各种模型,满足您不同的对话需求。

– 💬 极速流式对话:体验如丝般顺畅的实时对话,AI 响应即时呈现。

– 📄 智能文档解析:支持 PDF、DOC、PPT、TXT 等多种文档格式,快速理解文档内容,解答您的疑问。

– 🖼️ 多模态图片理解:支持多模态模型,不仅能识别图像,更能理解图像背后的场景和意图,并支持基于图片的多轮对话。

– 🌐 联网搜索增强:集成网络搜索能力,让 AI 拥有更广阔的知识面,可根据您的需求开启深度搜索应对更复杂的问题。

– 💻 代码渲染:代码块自动渲染,支持多种编程语言,代码展示更清晰易懂。

– 🗂️ 模型库拓展:支持huggingface和ollama开源模型拉取, GGUF、safetensors 模型格式,模型管理更自由。

– 📝 提示词模板:内置丰富的提示词模板,并支持自定义和分类管理,轻松激发 AI 的创造力。

– 🔒 本地数据存储:所有数据本地存储,注重用户隐私,安全可靠。

– 🌍 多语言支持:支持中文、英文等多种语言界面,满足不同用户的使用需求。

– 👥 多用户并发支持:支持多用户独立登录和同时在线,每位用户拥有独立的对话空间和个性化设置,满足家庭、小团队或组织内多人共享使用的场景,提高资源利用效率。

– ✍️ 快速笔记功能:支持 Markdown 语法,提供实时预览,支持一键导出,让知识整理更高效。

客户端下载地址:https://kunpuai.com/archives/1984

GitHub社区地址:https://github.com/bahamutww/kun-lab