识别值得沉淀为操作手册的故障会话
在解决一次生产故障后,你会得到一份 Devin 会话记录,里面完整记录了每一步诊断操作、执行的每条命令,以及在压力下做出的每个决策。这份记录就是为值班团队制作可复用操作手册的原材料,下次可以直接套用。不是每次故障会话都适合写成操作手册。重点关注 Devin 遵循了清晰、可重复方法论的会话——也就是你们团队经常遇到的那类故障:
- 内存泄漏——识别泄漏源头、应用修复、在发布后验证堆内存使用情况是否恢复正常
- 连接池耗尽——追踪根因、调优连接池参数、补充监控
- 级联超时——隔离故障上游、添加熔断器、验证恢复效果
在下一次故障中验证效果
真正的检验标准,是这个操作手册能否在不同但同一类别的故障中奏效。当下一次内存问题出现时,新建一个 Devin 会话,附加这个操作手册,并指向受影响的服务。如果会话能够顺利解决故障,说明你的操作手册泛化得很好。如果遇到困难——比如泄漏模式不同,或者服务使用了不同的数据库驱动——就把这次会话重新交给 Devin,并让它改进这份操作手册。关于该工作流,可以参考修复不稳定的数据库迁移操作手册。
