Mac Mini M4 10 分钟本地跑通 Qwen3-TTS：零云端、语音克隆、女声随便选！（保姆级教程）

2026 年，阿里通义 Qwen3-TTS 系列已成为开源 TTS 天花板！语音克隆、声音设计、多语言、流式生成，质量媲美商用。更关键：完全本地运行，隐私零泄露，零 API 费用。今天手把手教你在 Mac Mini M4（16GB 统一内存）上安装玩转它。实测：0.6B 模型丝滑，1.7B 也能稳（关掉其他程序），全程离线，声音自然到起鸡皮疙瘩！一、为什么现在就要上 Qwen3-TTS？

语音克隆：3–10 秒你的声音，就能无限复制
声音设计：文字描述“温柔甜美萝莉音”“磁性低沉御姐音”直接生成
预设女声：CustomVoice 模型内置 9 种高质量音色，女声有 Vivian（明亮活泼）、Serena（温柔治愈）、Ono_Anna（日系俏皮）等
多语言：中英日韩德法俄葡西意，普通话/方言都行
M4 优化极致：MLX 框架 + Neural Engine + Metal 加速，温度低、功耗省

内存实测（M4 16GB）：

0.6B 模型 ≈ 4–7GB → 随便玩
1.7B 模型 ≈ 8–12GB（8bit 量化）→ 建议独占运行

二、最推荐安装方式：MLX 优化版（mlx-audio 库，专为 Apple Silicon）社区主流方案：直接用 mlx-audio 库（苹果原生框架，完美适配 M 系列，加载快、内存省）。快速步骤：

安装 Homebrew + 基础工具（没装的执行）

bash

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install ffmpeg git python@3.12 llvm@20

创建虚拟环境 & 安装核心库

bash

python3 -m venv qwen-tts-env
source qwen-tts-env/bin/activate
pip install -U pip setuptools wheel
pip install mlx-audio

一键测试生成（CLI 最简单）先下载模型（见文末附录），然后运行：

bash

python -m mlx_audio.tts.generate \
    --model ./models/0.6B-CustomVoice \
    --text "你好！我是 Qwen3-TTS，在 Mac Mini M4 上本地生成的语音。声音超自然吧？" \
    --voice Serena \
    --language zh \
    --speed 1.0 \
    --play

生成的音频自动保存为 .wav 文件，直接播放试听！

可选进阶方式：使用 kapi2800/qwen3-tts-apple-silicon 仓库（如果想用这个 fork 的 demo 脚本或自定义代码，兼容性好）：

bash

git clone https://github.com/kapi2800/qwen3-tts-apple-silicon.git
cd qwen3-tts-apple-silicon
python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt

安装后，你可以运行仓库自带的 demo（如 python examples/test_xxx.py 或 python app.py 如果有），或继续用 mlx-audio 的 CLI。仓库基于 MLX 优化，适合想深入修改的用户。三、如何固定一个女声？（不再随机变化）

用 CustomVoice 模型 + 指定 voice 参数：
- –voice Vivian → 明亮年轻女声，语调活泼
- –voice Serena → 温暖温柔，治愈系首选内置 9 种预设（女声 3–4 种）：Vivian、Serena、Ono_Anna、Sohee 等，每次 100% 固定！

想无限自定义？换 VoiceDesign 模型：

bash

--text "用甜美萝莉音、略带撒娇地说：哥哥你最好了～"

四、扩展玩法：集成到 OpenClaw 框架中，实现更智能的 TTS 代理如果你在使用 OpenClaw（开源多代理 AI 框架，之前叫 Moltbot/Clawdbot），可以直接安装社区 skill paki81/qwen-tts（https://clawhub.ai/paki81/qwen-tts），让你的 AI 代理支持本地 Qwen3-TTS 生成语音消息、语音回复等。完全离线，替代云端 ElevenLabs 等服务。这个 skill 的核心特点：

使用 Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice 模型（~1.7GB）
支持 10 种语言（包括中文、英文、日韩等）
内置 9 种优质预设声音（女声：Vivian 明亮年轻、Serena 温柔治愈、Ono_Anna 日系俏皮等）
支持指令控制语气（如 “Parla con entusiasmo” 或 “Speak with excitement”）
输出 WAV 格式（16kHz），兼容 OpenClaw TTS 工作流

安装步骤（在你的 OpenClaw 项目目录下）：

bash

# 先确保你有 ClawHub CLI（如果没有：npx clawhub@latest --help 或全局安装）
cd skills/public   # 或你的 skills 目录
git clone https://github.com/openclaw/skills.git   # 如果还没克隆 ClawHub skills 仓库
cd qwen-tts   # 进入 skill 目录（或直接用 clawhub install）
bash scripts/setup.sh

首次运行会自动从 Hugging Face 下载 ~1.7GB 模型。
中国用户可加速：export HF_ENDPOINT=https://hf-mirror.com

触发/使用方法：

CLI 测试（直接生成音频）：

bash

scripts/tts.py "你好，这是一段测试语音" -s Serena -l zh -o output.wav
# 或加指令控制语气
scripts/tts.py "Ciao, come va?" -i "Parla con entusiasmo" -l Italian -o happy.wav
# 查看所有声音列表
scripts/tts.py --list-speakers

在 OpenClaw 代理中触发（最酷的部分）： OpenClaw 会捕获脚本 stdout 的音频路径（最后一行输出文件路径），完美集成：

bash

# 示例：在代理对话中说“用温柔女声读这段文本”
# OpenClaw 调用 skill → 输出路径如 /tmp/audio.wav → 代理可播放或发送语音
OUTPUT=$(scripts/tts.py "你好，我是你的 AI 助手" -s Vivian -l zh -o /tmp/audio.wav 2>/dev/null)
# OUTPUT 变量就是音频文件路径，可进一步处理

代理收到 TTS 请求时自动调用这个 skill，实现“开口说话”。

注意：skill 运行在本地 venv 中，确保 Python 3.10–3.12；首次下载模型需网络，之后完全离线。HTTP server 模式（server.py）可选，但默认绑定 0.0.0.0（安全风险，别暴露公网）。附录：模型下载命令大全（2026 最新）推荐优先下载 MLX 社区量化版（8bit/4bit，更省内存、加载更快，专为 M 系列优化）：

阅读全文

阅读全文需关注公众号

扫描下方二维码关注公众号，回复关键词获取解锁口令

公众号私信留言：获取口令

语音克隆：3–10 秒你的声音，就能无限复制
声音设计：文字描述“温柔甜美萝莉音”“磁性低沉御姐音”直接生成
预设女声：CustomVoice 模型内置 9 种高质量音色，女声有 Vivian（明亮活泼）、Serena（温柔治愈）、Ono_Anna（日系俏皮）等
多语言：中英日韩德法俄葡西意，普通话/方言都行
M4 优化极致：MLX 框架 + Neural Engine + Metal 加速，温度低、功耗省

内存实测（M4 16GB）：

0.6B 模型 ≈ 4–7GB → 随便玩
1.7B 模型 ≈ 8–12GB（8bit 量化）→ 建议独占运行

安装 Homebrew + 基础工具（没装的执行）

bash

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install ffmpeg git python@3.12 llvm@20

创建虚拟环境 & 安装核心库

bash

python3 -m venv qwen-tts-env
source qwen-tts-env/bin/activate
pip install -U pip setuptools wheel
pip install mlx-audio

一键测试生成（CLI 最简单）先下载模型（见文末附录），然后运行：

bash

python -m mlx_audio.tts.generate \
    --model ./models/0.6B-CustomVoice \
    --text "你好！我是 Qwen3-TTS，在 Mac Mini M4 上本地生成的语音。声音超自然吧？" \
    --voice Serena \
    --language zh \
    --speed 1.0 \
    --play

生成的音频自动保存为 .wav 文件，直接播放试听！

可选进阶方式：使用 kapi2800/qwen3-tts-apple-silicon 仓库（如果想用这个 fork 的 demo 脚本或自定义代码，兼容性好）：

bash

git clone https://github.com/kapi2800/qwen3-tts-apple-silicon.git
cd qwen3-tts-apple-silicon
python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt

用 CustomVoice 模型 + 指定 voice 参数：
- –voice Vivian → 明亮年轻女声，语调活泼
- –voice Serena → 温暖温柔，治愈系首选内置 9 种预设（女声 3–4 种）：Vivian、Serena、Ono_Anna、Sohee 等，每次 100% 固定！

想无限自定义？换 VoiceDesign 模型：

bash

--text "用甜美萝莉音、略带撒娇地说：哥哥你最好了～"

使用 Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice 模型（~1.7GB）
支持 10 种语言（包括中文、英文、日韩等）
内置 9 种优质预设声音（女声：Vivian 明亮年轻、Serena 温柔治愈、Ono_Anna 日系俏皮等）
支持指令控制语气（如 “Parla con entusiasmo” 或 “Speak with excitement”）
输出 WAV 格式（16kHz），兼容 OpenClaw TTS 工作流

安装步骤（在你的 OpenClaw 项目目录下）：

bash

# 先确保你有 ClawHub CLI（如果没有：npx clawhub@latest --help 或全局安装）
cd skills/public   # 或你的 skills 目录
git clone https://github.com/openclaw/skills.git   # 如果还没克隆 ClawHub skills 仓库
cd qwen-tts   # 进入 skill 目录（或直接用 clawhub install）
bash scripts/setup.sh

首次运行会自动从 Hugging Face 下载 ~1.7GB 模型。
中国用户可加速：export HF_ENDPOINT=https://hf-mirror.com

触发/使用方法：

CLI 测试（直接生成音频）：

bash

scripts/tts.py "你好，这是一段测试语音" -s Serena -l zh -o output.wav
# 或加指令控制语气
scripts/tts.py "Ciao, come va?" -i "Parla con entusiasmo" -l Italian -o happy.wav
# 查看所有声音列表
scripts/tts.py --list-speakers

在 OpenClaw 代理中触发（最酷的部分）： OpenClaw 会捕获脚本 stdout 的音频路径（最后一行输出文件路径），完美集成：

bash

# 示例：在代理对话中说“用温柔女声读这段文本”
# OpenClaw 调用 skill → 输出路径如 /tmp/audio.wav → 代理可播放或发送语音
OUTPUT=$(scripts/tts.py "你好，我是你的 AI 助手" -s Vivian -l zh -o /tmp/audio.wav 2>/dev/null)
# OUTPUT 变量就是音频文件路径，可进一步处理

代理收到 TTS 请求时自动调用这个 skill，实现“开口说话”。

bash

# 轻量首选（0.6B，内存最友好）
huggingface-cli download mlx-community/Qwen3-TTS-12Hz-0.6B-CustomVoice-8bit --local-dir ./models/0.6B-CustomVoice
# 或更省内存的 4bit 版
huggingface-cli download mlx-community/Qwen3-TTS-12Hz-0.6B-CustomVoice-4bit --local-dir ./models/0.6B-CustomVoice-4bit

# Base 版（适合纯语音克隆）
huggingface-cli download mlx-community/Qwen3-TTS-12Hz-0.6B-Base-8bit --local-dir ./models/0.6B-Base

# 音质更好（1.7B）
huggingface-cli download mlx-community/Qwen3-TTS-12Hz-1.7B-CustomVoice-8bit --local-dir ./models/1.7B-CustomVoice
# 或 4bit 版
huggingface-cli download mlx-community/Qwen3-TTS-12Hz-1.7B-Base-4bit --local-dir ./models/1.7B-Base-4bit

原版模型（非量化，bf16 精度更高）：

bash

# 先安装 CLI 工具
pip install -U "huggingface_hub[cli]"

# Hugging Face 下载
huggingface-cli download Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice --local-dir ./Qwen3-TTS-12Hz-0.6B-CustomVoice
huggingface-cli download Qwen/Qwen3-TTS-12Hz-0.6B-Base --local-dir ./Qwen3-TTS-12Hz-0.6B-Base
huggingface-cli download Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local-dir ./Qwen3-TTS-12Hz-1.7B-CustomVoice

# 中国大陆推荐 ModelScope（速度更快）
pip install -U modelscope
modelscope download --model Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice --local_dir ./Qwen3-TTS-12Hz-0.6B-CustomVoice
modelscope download --model Qwen/Qwen3-TTS-12Hz-0.6B-Base --local_dir ./Qwen3-TTS-12Hz-0.6B-Base
modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local_dir ./Qwen3-TTS-12Hz-1.7B-CustomVoice

结语Mac Mini M4 + Qwen3-TTS，已是 2026 年最香的本地 TTS 组合：离线、隐私、安全、声音自然。10 分钟装好，就能拥有私人配音员——短视频、B 站解说、有声书、虚拟主播……