MacBook Air M5使用TurboQuant技术部署本地模型qwen3.5-9B

2026年03月29日 | 分享 | 点击首评

上周刚拿到 MacBook Air(16G+512G)时,就计划装一个本地 AI 模型。根据配置建议,理论上可以运行 8B 级别的本地模型。我尝试通过 Ollama 安装 qwen3:8b 和 qwen3:4b,但都报错:

ollama pull qwen3:8b
pulling manifest 
pulling a3de86cd1c13: 100% ▕█████████████████████████████████████████████████████████████████████▏ 5.2 GB                            
pulling 05a61d37b084: 100% ▕█████████████████████████████████████████████████████████████████████▏  487 B                         
verifying sha256 digest 
writing manifest 
success 
huilang@MacBook-Air ~ % ollama run qwen3:8b
Error: 500 Internal Server Error: model failed to load, this may be due to resource limitations or an internal error, check ollama server logs for details

换了 4B 版本同样失败,只好放弃。

前几天看到 Google TurboQuant 技术可以大幅降低内存占用:

TurboQuant是 Google 在大模型推理方向提出的一类高性能量化(Quantization)技术方案,核心目标是:

在尽量不损失模型精度的前提下,大幅降低显存占用 + 推理延迟。

新型在线向量量化算法,实现零精度损失的 3-bit KV Cache 压缩,内存减少 6 倍,速度提升 8 倍。

早上发现 Atomic Chat 工具已自动集成 TurboQuant + UI,立即安装测试。选择 Qwen3.5-9B 后,下载完成即进入对话界面:

安装就是常规的双击拖拽到应用程序文件夹,打开后选择模型下载即可,我选了Qwen3.5-9B。下载完就是对话界面了,简单测试下,结果如下图

这是内存占用图,内存压力左侧黄色是在模型输出的时候的占用,绿色是停止输出后的占用。电脑稍微有点发热,停止输出后就降温了。

测试结果:

  • 输出速度:18 tokens/sec(表现不错)
  • 内存占用:模型运行时压力稍高,停止输出后迅速降温
  • CUP占用:闲置CPU在81-95%波动,完全没压力
  • 联网搜索:支持实时搜索功能

换成Qwen3.5-4B的时候,内存完全没压力,内存压力表还是绿色的,笔记本温度基本没什么变化,输出速度28tokens/sec,至于CPU,几乎没怎么占用,空闲92-95%多左右。

后续会继续观察实际应用场景中的整体表现。


后续换上了LM Studio + Apple优化的MLX模型,实测Qwen3.5-9b 26tokens/s,Qwen3.5-4b 41tokens/s,效率提升明显,怀疑Atomic Chat根本没用上Google TurboQuant。

昨天ollama0.19预览版(2026-03-30)也支持MLX模型了,说是大幅度提升,但目前只支持Qwen3.5-35b,需要最低32G统一内存,继续观望。

发布评论