在 Mac 上用 Ollama + OpenClaw 实现零成本本地 AI 助理:16GB 内存 Mac Mini M4 也能稳定运行

OpenClaw 需要调用大语言模型完成各类功能,使用商用大语言模型 API 需要支付一定费用。某些场景下,我们完全可以使用 Mac 上的本地大语言模型,通过 Ollama 启动 OpenClaw,让本地 Ollama 大语言模型为 OpenClaw 提供模型服务。这样不仅零成本,还能保护隐私、响应更快。

第一步:安装 Ollama(Mac 用户最简单方式)

  1. 打开浏览器,访问 Ollama 官方网站:https://ollama.com

  2. 点击 “Download for Mac” 下载 Ollama.dmg 文件。

  3. 双击 .dmg,将 Ollama.app 拖到 应用程序 文件夹。

  4. 打开 Ollama.app,菜单栏出现小鲸鱼图标即启动成功。

  5. 验证:终端输入 ollama --version

  6. 测试:ollama run phi4:mini 输入“你好”试试。

如果你 Mac 主机是 24GB 或 32GB 内存配置,通过 Ollama 在本地运行 8B 规模大语言模型完全没问题。但在 16GB 内存的 Mac Mini M4 上直接跑较大的模型容易崩溃(API error 500,model runner stopped)。

为什么 16GB Mac Mini M4 容易崩溃?

  • 统一内存压力大(KV cache + OpenClaw 长上下文)

  • Metal 后端 + Flash Attention 不稳定

  • OpenClaw 高频工具调用放大问题

完美解决:调整 Ollama 启动参数

步骤 1:重启 Ollama

pkill -f ollama
open -a Ollama

步骤 2:带参数启动 serve

OLLAMA_FLASH_ATTENTION=false \
OLLAMA_KV_CACHE_TYPE=q8_0 \
OLLAMA_NUM_GPU=10 \
ollama serve &

步骤 3:启动 OpenClaw 并选小模型

ollama launch openclaw --model qwen3.5:3b

OpenClaw 配置(ollama launch openclaw --config):

  • max context / max tokens 设为 819212288

16GB 内存 Mac 的推荐低内存模型(适合 OpenClaw)

优先级 模型名称 Ollama 拉取命令 参数规模 推荐量化 内存占用估算(调整后) Tool Calling 能力 适合场景 优点 缺点
★★★★★ qwen3.5:3b ollama pull qwen3.5:3b 3B Q4_K_M ~3–4 GB 优秀(保守) 中文日常任务、微信/Telegram 回复 中文极强、稳定、不乱调用工具 推理深度一般
★★★★☆ llama3.2:3b ollama pull llama3.2:3b 3B Q5_K_M ~3–4 GB 优秀(准确) 多语言、工具调用频繁场景 多语言好、支持 128K 上下文 偶尔过于积极调用工具
★★★★☆ phi4:mini / phi-4-mini-instruct ollama pull phi4:mini 3.8B Q5_K_M ~3–4.5 GB 非常优秀 英文/代码/逻辑任务 英文逻辑强、速度快、tool 可靠 中文稍弱
★★★★ gemma3:4b / gemma-3-4b-it ollama pull gemma3:4b 4B Q5_K_M ~3.5–5 GB 良好 多语言、轻量多模态尝试 多语言平衡、潜力大 偶尔重复输出
★★★☆ qwen2.5:7b-instruct ollama pull qwen2.5:7b-instruct 7B Q4_K_M ~6–8 GB 优秀 追求更高智能(留余量时用) 综合质量跳跃式提升 内存压力较大,需严格调参数

推荐使用顺序:qwen3.5:3b(中文首选)→ llama3.2:3b → phi4:mini → qwen2.5:7b(如果余量足)。

一键启动脚本(推荐写入 ~/.zshrc)

以下脚本包含:

  • 设置优化环境变量(关闭 Flash Attention、省内存 KV cache、限制 GPU 层数)

  • 自动拉取 3 款最常用 16GB 友好模型(可自行修改)

  • 一键启动 Ollama serve(后台)

  • 一键启动 OpenClaw(默认用 qwen3.5:3b,可改)

  1. 打开终端,编辑 ~/.zshrc:

    nano ~/.zshrc   # 或用 vim、code 等编辑器
阅读全文
阅读全文需关注公众号
扫描下方二维码关注公众号,回复关键词获取解锁口令
公众号二维码
关键词:获取口令

在 Mac 上用 Ollama + OpenClaw 实现零成本本地 AI 助理:16GB 内存 Mac Mini M4 也能稳定运行

OpenClaw 需要调用大语言模型完成各类功能,使用商用大语言模型 API 需要支付一定费用。某些场景下,我们完全可以使用 Mac 上的本地大语言模型,通过 Ollama 启动 OpenClaw,让本地 Ollama 大语言模型为 OpenClaw 提供模型服务。这样不仅零成本,还能保护隐私、响应更快。

第一步:安装 Ollama(Mac 用户最简单方式)

  1. 打开浏览器,访问 Ollama 官方网站:https://ollama.com

  2. 点击 “Download for Mac” 下载 Ollama.dmg 文件。

  3. 双击 .dmg,将 Ollama.app 拖到 应用程序 文件夹。

  4. 打开 Ollama.app,菜单栏出现小鲸鱼图标即启动成功。

  5. 验证:终端输入 ollama --version

  6. 测试:ollama run phi4:mini 输入“你好”试试。

如果你 Mac 主机是 24GB 或 32GB 内存配置,通过 Ollama 在本地运行 8B 规模大语言模型完全没问题。但在 16GB 内存的 Mac Mini M4 上直接跑较大的模型容易崩溃(API error 500,model runner stopped)。

为什么 16GB Mac Mini M4 容易崩溃?

  • 统一内存压力大(KV cache + OpenClaw 长上下文)

  • Metal 后端 + Flash Attention 不稳定

  • OpenClaw 高频工具调用放大问题

完美解决:调整 Ollama 启动参数

步骤 1:重启 Ollama

pkill -f ollama
open -a Ollama

步骤 2:带参数启动 serve

OLLAMA_FLASH_ATTENTION=false \
OLLAMA_KV_CACHE_TYPE=q8_0 \
OLLAMA_NUM_GPU=10 \
ollama serve &

步骤 3:启动 OpenClaw 并选小模型

ollama launch openclaw --model qwen3.5:3b

OpenClaw 配置(ollama launch openclaw --config):

  • max context / max tokens 设为 819212288

16GB 内存 Mac 的推荐低内存模型(适合 OpenClaw)

优先级 模型名称 Ollama 拉取命令 参数规模 推荐量化 内存占用估算(调整后) Tool Calling 能力 适合场景 优点 缺点
★★★★★ qwen3.5:3b ollama pull qwen3.5:3b 3B Q4_K_M ~3–4 GB 优秀(保守) 中文日常任务、微信/Telegram 回复 中文极强、稳定、不乱调用工具 推理深度一般
★★★★☆ llama3.2:3b ollama pull llama3.2:3b 3B Q5_K_M ~3–4 GB 优秀(准确) 多语言、工具调用频繁场景 多语言好、支持 128K 上下文 偶尔过于积极调用工具
★★★★☆ phi4:mini / phi-4-mini-instruct ollama pull phi4:mini 3.8B Q5_K_M ~3–4.5 GB 非常优秀 英文/代码/逻辑任务 英文逻辑强、速度快、tool 可靠 中文稍弱
★★★★ gemma3:4b / gemma-3-4b-it ollama pull gemma3:4b 4B Q5_K_M ~3.5–5 GB 良好 多语言、轻量多模态尝试 多语言平衡、潜力大 偶尔重复输出
★★★☆ qwen2.5:7b-instruct ollama pull qwen2.5:7b-instruct 7B Q4_K_M ~6–8 GB 优秀 追求更高智能(留余量时用) 综合质量跳跃式提升 内存压力较大,需严格调参数

推荐使用顺序:qwen3.5:3b(中文首选)→ llama3.2:3b → phi4:mini → qwen2.5:7b(如果余量足)。

一键启动脚本(推荐写入 ~/.zshrc)

以下脚本包含:

  • 设置优化环境变量(关闭 Flash Attention、省内存 KV cache、限制 GPU 层数)

  • 自动拉取 3 款最常用 16GB 友好模型(可自行修改)

  • 一键启动 Ollama serve(后台)

  • 一键启动 OpenClaw(默认用 qwen3.5:3b,可改)

  1. 打开终端,编辑 ~/.zshrc:

    nano ~/.zshrc   # 或用 vim、code 等编辑器
  1. 在文件末尾粘贴以下内容并保存(Ctrl+O → Enter → Ctrl+X):

    # ------------------- Ollama + OpenClaw 一键优化脚本(16GB Mac 专用) -------------------
    
    # 设置 Ollama 优化参数(针对 Apple Silicon 16GB 内存)
    alias ollama-optimize='export OLLAMA_FLASH_ATTENTION=false && export OLLAMA_KV_CACHE_TYPE=q8_0 && export OLLAMA_NUM_GPU=10'
    
    # 一键启动 Ollama serve(带优化参数,后台运行)
    function ollama-start() {
        ollama-optimize
        pkill -f "ollama serve" 2>/dev/null  # 先杀掉旧进程
        ollama serve &
        echo "Ollama serve 已启动(优化参数已应用)"
        sleep 3
        ollama ps  # 显示当前加载情况
    }
    
    # 一键拉取常用 16GB 友好模型(可添加/删除)
    function ollama-pull-lowmem() {
        echo "开始拉取 16GB 友好模型..."
        ollama pull qwen3.5:3b
        ollama pull llama3.2:3b
        ollama pull phi4:mini
        echo "模型拉取完成!"
    }
    
    # 一键启动 OpenClaw(默认用 qwen3.5:3b,可改 --model 参数)
    function openclaw-start() {
        ollama-start  # 先确保 server 运行
        echo "启动 OpenClaw(默认模型:qwen3.5:3b)..."
        ollama launch openclaw --model qwen3.5:3b
    }
    
    # 终极一键:拉模型 + 启动 serve + 启动 OpenClaw
    alias ollama-all-in-one='ollama-pull-lowmem && ollama-start && openclaw-start'
    
    # 使用示例:
    # 1. ollama-pull-lowmem     → 只拉取模型
    # 2. ollama-start           → 只启动 server(带优化)
    # 3. openclaw-start         → 启动 OpenClaw
    # 4. ollama-all-in-one      → 全自动一键(首次推荐)
  2. 使配置生效:

    source ~/.zshrc
  3. 使用方式:

    • 首次:直接运行 ollama-all-in-one(会自动拉模型 + 启动一切)
    • 平时:只需 ollama-start 启动 server,然后 openclaw-start 启动 OpenClaw
    • 想换模型:ollama launch openclaw --model llama3.2:3b

这样设置后,你每次开机或重启后,只需在终端敲 ollama-start 就能快速恢复优化环境,OpenClaw 稳定运行。

总结

通过安装 Ollama → 调整参数 → 选择表格中小模型 → 使用上面一键脚本,你就能在 16GB Mac Mini M4 上实现零成本本地 AI 助理。脚本一次写入,永久方便。