AI助理 | 智通和你一起学AI

为什么我放弃纯云端方案，开始折腾Mac本地双模AI助理？某次出差坐高铁去杭州，信号断断续续，进隧道前我顺手问手机里的AI助手：“把刚才会议录音摘要成3点，发到邮箱”。屏幕顿住，三秒后弹出一行小字：API request failed: timeout (zhipu.ai)。接着是第二行、第三行……直到我盯着“正在加载…”的转圈图标整整217秒——窗外油菜花田飞速倒退，而我的待办事项还卡在云端某个负载过高的GPU节点上。那一刻我突然笑出声：所谓“永远在线”，不过是把焦虑从本地迁移到了别人的机房里。这不是孤例。过去半年，我用纯云端方案（智谱+通义+Claude API混搭）做个人知识助理，表面丝滑，实则暗礁密布：延迟肉眼可见：平均端到端响应823ms（实测数据），写邮件草稿时每敲一个句号都要等半秒“思考”，像在和一位慢性子博士对话；敏感信息不敢托付：客户合同条款、未发布的财报片段、甚至自家App的错误日志——全得手动脱敏再粘贴，效率归零；模型切换=改代码+重启服务：昨天用Qwen写周报，今天想试试GLM-5？得改model_name、调参、重跑Flask服务，比换轮胎还麻烦；账单静悄悄膨胀：上月¥237.64，细看才发现——光是PDF解析就吃了¥89，而其中73%的请求其实只提取了一页目录。真正的转折点，发生在某个加班到凌晨的周四。我在GitHub刷到 openclaw 项目，README赫然写着：“Apple Silicon Native Support ✅”。心一热，brew install openclaw ——结果终端直接甩我一脸红字： Error: No available formula or cask with the name "openclaw" 哦，原来它压根不是Homebrew包……而是个Docker镜像。而我的第一行docker run命令，就在我M2 Pro上触发了OOM Killer。那一刻我才懂：所谓“一行命令部署”，不过是厂商给的温柔陷阱。 OpenClaw镜像本地部署：从“一行命令”到真能跑的血泪史官方文档说“支持Mac”，但没说清楚：M-series芯片跑Linux容器，必须显式指定平台。默认拉取的是amd64镜像，启动即爆内存——因为Docker Desktop会强行用Rosetta模拟，而OpenClaw又吃GPU显存。踩坑三天后，我终于摸清正确姿势： # ❌ 错误：默认拉取，OOM docker run -p 8000:8000 ghcr.io/openclaw/server # ✅ 正确：强制arm64平台，且绑定Metal设备 docker run --platform=linux/arm64 \ --device=/dev/dri:/dev/dri \ -p 8000:8000 \ ghcr.io/openclaw/server 更狠的是镜像体积：原版32GB，包含qwen2-7b, phi-3-mini, llama3-8b三个完整权重包——而我日常只用GLM系列。于是写了prune.sh暴力瘦身： #!/bin/bash # prune.sh：删掉非必需模型（保留glm-5-9b-chat） docker exec -it openclaw-server sh -c " rm -rf /models/qwen2-7b /models/phi-3-mini /models/llama3-8b && echo '✅ 清理完成，释放12.4GB' " 实测后发现：--gpus=all在Mac上完全无效（Docker Desktop根本不识别）。真正起效的是--device=/dev/dri:/dev/dri——这会启用Apple Metal加速层。推理速度从1.8 tok/s飙到4.1 tok/s，提升2.3倍。 ...