Ollama 在 Apple Silicon 上全面转向 MLX 驱动（预览版）

总结：随着本地大模型应用场景日益丰富，推理性能成为 macOS 用户的核心痛点。Ollama 0.19 预览版基于 Apple 的机器学习框架 MLX 进行了底层重构，充分利用统一内存架构（Unified Memory Architecture），在 M5 系列芯片上实现了预填充速度 1810 tokens/s、生成速度 112 tokens/s 的显著提升。同时引入 NVFP4 量化格式和智能缓存机制，进一步优化了编程智能体和个人助手的使用体验。对于使用 Mac 进行本地模型推理的开发者而言，这是一次质的飞跃。

Ollama 在 Apple Silicon 上展示高性能推理的示意图

今天，我们发布了在 Apple Silicon 上运行 Ollama 最快方式的预览版——由 Apple 的机器学习框架 MLX 驱动。

这释放了全新的性能潜力，加速你在 macOS 上最严苛的工作场景：

个人助手，如 OpenClaw
编程智能体（Coding Agent），如 Claude Code、OpenCode 或 Codex

Apple Silicon 上的极致性能，由 MLX 驱动

Apple Silicon 上的 Ollama 现已构建在 Apple 的机器学习框架 MLX 之上，充分利用其统一内存架构（Unified Memory Architecture）。

这使得 Ollama 在所有 Apple Silicon 设备上都获得了大幅加速。在 Apple 的 M5、M5 Pro 和 M5 Max 芯片上，Ollama 利用了全新的 GPU 神经加速器（GPU Neural Accelerators），同时加速首 token 生成时间（TTFT）和生成速度（tokens/s）。

预填充（Prefill）性能：

版本	tokens/s
Ollama 0.19	1810
Ollama 0.18	1154

解码（Decode）性能：

版本	tokens/s
Ollama 0.19	112
Ollama 0.18	58

测试于 2026 年 3 月 29 日进行，使用阿里巴巴的 Qwen3.5-35B-A3B 模型以 NVFP4 量化，对比 Ollama 0.18 使用 Q4_K_M 量化的旧实现。Ollama 0.19 在使用 int4 量化时还将获得更高性能（预填充 1851 tokens/s，解码 134 tokens/s）。

NVFP4 支持：更高质量的响应与生产环境一致性

Ollama 现在采用 NVIDIA 的 NVFP4 格式，在保持模型精度的同时降低推理工作负载的内存带宽和存储需求。

随着越来越多的推理服务商采用 NVFP4 格式扩展推理能力，Ollama 用户可以获得与生产环境一致的推理结果。

此外，Ollama 还支持运行经 NVIDIA Model Optimizer 优化的模型。未来将根据 Ollama 的研究和硬件合作伙伴的设计意图与使用场景，提供更多精度格式的支持。

改进的缓存机制，响应更灵敏

Ollama 的缓存系统已全面升级，使编程和智能体（Agentic）任务更加高效。

更低的内存占用： Ollama 现在会跨会话复用缓存，这意味着更少的内存占用，同时在使用 Claude Code 等工具共享系统提示词时能获得更多缓存命中。
智能检查点： Ollama 会在提示词的关键位置存储缓存快照，从而减少提示词处理量，加快响应速度。
更智能的淘汰策略： 即使旧的分支被丢弃，共享前缀也能存活更长时间。

快速上手

下载 Ollama 0.19

本预览版加速了全新的 Qwen3.5-35B-A3B 模型，采样参数已针对编程任务进行调优。

请确保你的 Mac 拥有 32GB 以上的统一内存。

Claude Code：

ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

OpenClaw：

ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

直接与模型对话：

ollama run qwen3.5:35b-a3b-coding-nvfp4

未来模型支持

我们正在积极推进对更多模型的支持。对于在已支持架构上微调的自定义模型，我们将推出更便捷的导入方式。与此同时，我们也会持续扩展支持的模型架构列表。

致谢

感谢：

MLX 贡献者团队，构建了出色的加速框架
NVIDIA 的贡献者们，在 NVFP4 量化、NVFP4 模型优化器、MLX CUDA 支持、Ollama 优化和测试方面的工作
GGML 和 llama.cpp 团队，构建了蓬勃发展的本地推理框架和社区
阿里巴巴 Qwen 团队，开源了优秀的模型并给予了大力协作

本文翻译自：Ollama is now powered by MLX on Apple Silicon in preview

Apple Silicon 上的极致性能，由 MLX 驱动

NVFP4 支持：更高质量的响应与生产环境一致性

改进的缓存机制，响应更灵敏

快速上手

未来模型支持

致谢

OpenClaw Agent 深度解析：从 Prompt 容器到可调度执行体

OpenClaw 架构拆解：Node、Tool、Skill 如何把 AI 变成可执行系统

OpenClaw Tools 权限排障：为什么能聊天却不能 exec 和联网

Prompt 成本优化的边界：何时该写长，何时该写短

Read Next

深入 Android 用户数据备份恢复全链路：从 Auto Backup 传输机制到 Key/Value Backup 与 DataStore 迁移的数据安全保障

深入 Android 应用内搜索全链路：从 FTS 全文索引到 Compose SearchView 的搜索体验架构

Apple Silicon 上的极致性能，由 MLX 驱动

NVFP4 支持：更高质量的响应与生产环境一致性

改进的缓存机制，响应更灵敏

快速上手

未来模型支持

致谢

相关文章

OpenClaw Agent 深度解析：从 Prompt 容器到可调度执行体

OpenClaw 架构拆解：Node、Tool、Skill 如何把 AI 变成可执行系统

OpenClaw Tools 权限排障：为什么能聊天却不能 exec 和联网

Prompt 成本优化的边界：何时该写长，何时该写短

Read Next

深入 Android 用户数据备份恢复全链路：从 Auto Backup 传输机制到 Key/Value Backup 与 DataStore 迁移的数据安全保障

深入 Android 应用内搜索全链路：从 FTS 全文索引到 Compose SearchView 的搜索体验架构