闭环优化:基于A/B测试反馈的Claude Code自适应调优
起因:不是“要调优”,而是被线上bug逼到墙角 那是个周三下午,我们刚给「Claude Code」插件上线了 v1.2 版本——主打“更懂 SQL 语义”,加了 3 条新 prompt 规则、2 个字段类型约束示例。不到 4 小时,DBA 老张甩来一条报错截图: [ERROR] PostgreSQL: WHERE user_id = NULL → invalid syntax 奇怪的是,本地跑 50 次全绿;CI 流水线里 HumanEval SQL 子集得分还涨了 2.1%;日志里只零星出现,复现率稳定在 3.2%(后来发现是用户删掉 prompt 里某句“请勿生成 NULL 比较”的瞬间触发的)。 我们第一反应是 prompt 不够“狠”。于是开始疯狂迭代: 第1版:加 -- 严禁使用 '=NULL',必须用 IS NULL 第3版:改成 IF field IS NULL THEN ... ELSE ... END IF 的强制模板 第17版:甚至把 PostgreSQL 的 IS [NOT] DISTINCT FROM 语法都塞进 system message… 结果呢?A/B 测试跑完,v1.2 新 prompt 的 SQL 首次可用率反降 8%,编辑率从 39% 涨到 47%。更讽刺的是,运维小哥泡咖啡路过,随口问:“你们看过用户删 prompt 的行为数据没?昨天有 217 人手动删了‘请严格遵循字段类型’那行。” ...