16GB Mac Mini M4 也能零成本跑本地 AI 助理!Ollama + OpenClaw 保姆级教程(附一键脚本)
在 Mac 上用 Ollama + OpenClaw 实现零成本本地 AI 助理:16GB 内存 Mac Mini M4 也能稳定运行
OpenClaw 需要调用大语言模型完成各类功能,使用商用大语言模型 API 需要支付一定费用。某些场景下,我们完全可以使用 Mac 上的本地大语言模型,通过 Ollama 启动 OpenClaw,让本地 Ollama 大语言模型为 OpenClaw 提供模型服务。这样不仅零成本,还能保护隐私、响应更快。
第一步:安装 Ollama(Mac 用户最简单方式)
-
打开浏览器,访问 Ollama 官方网站:https://ollama.com
-
点击 “Download for Mac” 下载 Ollama.dmg 文件。
-
双击 .dmg,将 Ollama.app 拖到 应用程序 文件夹。
-
打开 Ollama.app,菜单栏出现小鲸鱼图标即启动成功。
-
验证:终端输入
ollama --version -
测试:
ollama run phi4:mini输入“你好”试试。
如果你 Mac 主机是 24GB 或 32GB 内存配置,通过 Ollama 在本地运行 8B 规模大语言模型完全没问题。但在 16GB 内存的 Mac Mini M4 上直接跑较大的模型容易崩溃(API error 500,model runner stopped)。
为什么 16GB Mac Mini M4 容易崩溃?
-
统一内存压力大(KV cache + OpenClaw 长上下文)
-
Metal 后端 + Flash Attention 不稳定
-
OpenClaw 高频工具调用放大问题
完美解决:调整 Ollama 启动参数
步骤 1:重启 Ollama
pkill -f ollama
open -a Ollama
步骤 2:带参数启动 serve
OLLAMA_FLASH_ATTENTION=false \
OLLAMA_KV_CACHE_TYPE=q8_0 \
OLLAMA_NUM_GPU=10 \
ollama serve &
步骤 3:启动 OpenClaw 并选小模型
ollama launch openclaw --model qwen3.5:3b
OpenClaw 配置(ollama launch openclaw --config):
-
max context / max tokens 设为 8192 或 12288
16GB 内存 Mac 的推荐低内存模型(适合 OpenClaw)
| 优先级 | 模型名称 | Ollama 拉取命令 | 参数规模 | 推荐量化 | 内存占用估算(调整后) | Tool Calling 能力 | 适合场景 | 优点 | 缺点 |
|---|---|---|---|---|---|---|---|---|---|
| ★★★★★ | qwen3.5:3b | ollama pull qwen3.5:3b |
3B | Q4_K_M | ~3–4 GB | 优秀(保守) | 中文日常任务、微信/Telegram 回复 | 中文极强、稳定、不乱调用工具 | 推理深度一般 |
| ★★★★☆ | llama3.2:3b | ollama pull llama3.2:3b |
3B | Q5_K_M | ~3–4 GB | 优秀(准确) | 多语言、工具调用频繁场景 | 多语言好、支持 128K 上下文 | 偶尔过于积极调用工具 |
| ★★★★☆ | phi4:mini / phi-4-mini-instruct | ollama pull phi4:mini |
3.8B | Q5_K_M | ~3–4.5 GB | 非常优秀 | 英文/代码/逻辑任务 | 英文逻辑强、速度快、tool 可靠 | 中文稍弱 |
| ★★★★ | gemma3:4b / gemma-3-4b-it | ollama pull gemma3:4b |
4B | Q5_K_M | ~3.5–5 GB | 良好 | 多语言、轻量多模态尝试 | 多语言平衡、潜力大 | 偶尔重复输出 |
| ★★★☆ | qwen2.5:7b-instruct | ollama pull qwen2.5:7b-instruct |
7B | Q4_K_M | ~6–8 GB | 优秀 | 追求更高智能(留余量时用) | 综合质量跳跃式提升 | 内存压力较大,需严格调参数 |
推荐使用顺序:qwen3.5:3b(中文首选)→ llama3.2:3b → phi4:mini → qwen2.5:7b(如果余量足)。
一键启动脚本(推荐写入 ~/.zshrc)
以下脚本包含:
-
设置优化环境变量(关闭 Flash Attention、省内存 KV cache、限制 GPU 层数)
-
自动拉取 3 款最常用 16GB 友好模型(可自行修改)
-
一键启动 Ollama serve(后台)
-
一键启动 OpenClaw(默认用 qwen3.5:3b,可改)
-
打开终端,编辑 ~/.zshrc:
nano ~/.zshrc # 或用 vim、code 等编辑器

在 Mac 上用 Ollama + OpenClaw 实现零成本本地 AI 助理:16GB 内存 Mac Mini M4 也能稳定运行
OpenClaw 需要调用大语言模型完成各类功能,使用商用大语言模型 API 需要支付一定费用。某些场景下,我们完全可以使用 Mac 上的本地大语言模型,通过 Ollama 启动 OpenClaw,让本地 Ollama 大语言模型为 OpenClaw 提供模型服务。这样不仅零成本,还能保护隐私、响应更快。
第一步:安装 Ollama(Mac 用户最简单方式)
-
打开浏览器,访问 Ollama 官方网站:https://ollama.com
-
点击 “Download for Mac” 下载 Ollama.dmg 文件。
-
双击 .dmg,将 Ollama.app 拖到 应用程序 文件夹。
-
打开 Ollama.app,菜单栏出现小鲸鱼图标即启动成功。
-
验证:终端输入
ollama --version -
测试:
ollama run phi4:mini输入“你好”试试。
如果你 Mac 主机是 24GB 或 32GB 内存配置,通过 Ollama 在本地运行 8B 规模大语言模型完全没问题。但在 16GB 内存的 Mac Mini M4 上直接跑较大的模型容易崩溃(API error 500,model runner stopped)。
为什么 16GB Mac Mini M4 容易崩溃?
-
统一内存压力大(KV cache + OpenClaw 长上下文)
-
Metal 后端 + Flash Attention 不稳定
-
OpenClaw 高频工具调用放大问题
完美解决:调整 Ollama 启动参数
步骤 1:重启 Ollama
pkill -f ollama
open -a Ollama
步骤 2:带参数启动 serve
OLLAMA_FLASH_ATTENTION=false \
OLLAMA_KV_CACHE_TYPE=q8_0 \
OLLAMA_NUM_GPU=10 \
ollama serve &
步骤 3:启动 OpenClaw 并选小模型
ollama launch openclaw --model qwen3.5:3b
OpenClaw 配置(ollama launch openclaw --config):
-
max context / max tokens 设为 8192 或 12288
16GB 内存 Mac 的推荐低内存模型(适合 OpenClaw)
| 优先级 | 模型名称 | Ollama 拉取命令 | 参数规模 | 推荐量化 | 内存占用估算(调整后) | Tool Calling 能力 | 适合场景 | 优点 | 缺点 |
|---|---|---|---|---|---|---|---|---|---|
| ★★★★★ | qwen3.5:3b | ollama pull qwen3.5:3b |
3B | Q4_K_M | ~3–4 GB | 优秀(保守) | 中文日常任务、微信/Telegram 回复 | 中文极强、稳定、不乱调用工具 | 推理深度一般 |
| ★★★★☆ | llama3.2:3b | ollama pull llama3.2:3b |
3B | Q5_K_M | ~3–4 GB | 优秀(准确) | 多语言、工具调用频繁场景 | 多语言好、支持 128K 上下文 | 偶尔过于积极调用工具 |
| ★★★★☆ | phi4:mini / phi-4-mini-instruct | ollama pull phi4:mini |
3.8B | Q5_K_M | ~3–4.5 GB | 非常优秀 | 英文/代码/逻辑任务 | 英文逻辑强、速度快、tool 可靠 | 中文稍弱 |
| ★★★★ | gemma3:4b / gemma-3-4b-it | ollama pull gemma3:4b |
4B | Q5_K_M | ~3.5–5 GB | 良好 | 多语言、轻量多模态尝试 | 多语言平衡、潜力大 | 偶尔重复输出 |
| ★★★☆ | qwen2.5:7b-instruct | ollama pull qwen2.5:7b-instruct |
7B | Q4_K_M | ~6–8 GB | 优秀 | 追求更高智能(留余量时用) | 综合质量跳跃式提升 | 内存压力较大,需严格调参数 |
推荐使用顺序:qwen3.5:3b(中文首选)→ llama3.2:3b → phi4:mini → qwen2.5:7b(如果余量足)。
一键启动脚本(推荐写入 ~/.zshrc)
以下脚本包含:
-
设置优化环境变量(关闭 Flash Attention、省内存 KV cache、限制 GPU 层数)
-
自动拉取 3 款最常用 16GB 友好模型(可自行修改)
-
一键启动 Ollama serve(后台)
-
一键启动 OpenClaw(默认用 qwen3.5:3b,可改)
-
打开终端,编辑 ~/.zshrc:
nano ~/.zshrc # 或用 vim、code 等编辑器
-
在文件末尾粘贴以下内容并保存(Ctrl+O → Enter → Ctrl+X):
# ------------------- Ollama + OpenClaw 一键优化脚本(16GB Mac 专用) ------------------- # 设置 Ollama 优化参数(针对 Apple Silicon 16GB 内存) alias ollama-optimize='export OLLAMA_FLASH_ATTENTION=false && export OLLAMA_KV_CACHE_TYPE=q8_0 && export OLLAMA_NUM_GPU=10' # 一键启动 Ollama serve(带优化参数,后台运行) function ollama-start() { ollama-optimize pkill -f "ollama serve" 2>/dev/null # 先杀掉旧进程 ollama serve & echo "Ollama serve 已启动(优化参数已应用)" sleep 3 ollama ps # 显示当前加载情况 } # 一键拉取常用 16GB 友好模型(可添加/删除) function ollama-pull-lowmem() { echo "开始拉取 16GB 友好模型..." ollama pull qwen3.5:3b ollama pull llama3.2:3b ollama pull phi4:mini echo "模型拉取完成!" } # 一键启动 OpenClaw(默认用 qwen3.5:3b,可改 --model 参数) function openclaw-start() { ollama-start # 先确保 server 运行 echo "启动 OpenClaw(默认模型:qwen3.5:3b)..." ollama launch openclaw --model qwen3.5:3b } # 终极一键:拉模型 + 启动 serve + 启动 OpenClaw alias ollama-all-in-one='ollama-pull-lowmem && ollama-start && openclaw-start' # 使用示例: # 1. ollama-pull-lowmem → 只拉取模型 # 2. ollama-start → 只启动 server(带优化) # 3. openclaw-start → 启动 OpenClaw # 4. ollama-all-in-one → 全自动一键(首次推荐) -
使配置生效:
source ~/.zshrc -
使用方式:
- 首次:直接运行
ollama-all-in-one(会自动拉模型 + 启动一切) - 平时:只需
ollama-start启动 server,然后openclaw-start启动 OpenClaw - 想换模型:
ollama launch openclaw --model llama3.2:3b
- 首次:直接运行
这样设置后,你每次开机或重启后,只需在终端敲 ollama-start 就能快速恢复优化环境,OpenClaw 稳定运行。
总结
通过安装 Ollama → 调整参数 → 选择表格中小模型 → 使用上面一键脚本,你就能在 16GB Mac Mini M4 上实现零成本本地 AI 助理。脚本一次写入,永久方便。
