
接口异常处理不能只靠try-except,因会吞掉网络超时、缺失重试、丢失业务语义、前端提示不友好、关键失败无告警;需分层拦截、策略响应、全链路可观测。
很多开发者一想到异常处理,就立刻写 try...except Exception as e,然后打印日志、返回错误码。这看似完整,实则埋下隐患:网络超时被吞掉、重试逻辑缺失、业务语义丢失、错误信息对前端不友好、关键失败没告警。接口稳定性不是“不出错”,而是“出错可感知、可恢复、可追溯”。核心在于分层拦截 + 有策略响应 + 全链路可观测。
接口调用中,异常来源不同,应对方式必须差异化:
避免每个视图函数都重复写 try-catch。推荐用 Flask 或 FastAPI 的依赖/中间件,或自定义装饰器封装通用流程:
例如一个轻量装饰器:
@api_error_handler
def create_order(request):
# 业务代码,专注逻辑,不写 except
其内部完成:分类识别异常 → 设置标准响应结构(code/msg/data)→ 记
录结构化日志(含 trace_id)→ 触发分级告警(5xx 上报 Sentry,高频 429 推企业微信)→ 必要时调用降级逻辑(如返回缓存订单列表)。
真正高可用的接口,异常处理只是最后一道防线。前置设计更关键:
一句 “Exception occurred” 毫无价值。每次异常记录至少包含:
- 唯一 trace_id(贯穿整个请求生命周期)
- 请求方法 + 路径 + 查询参数(脱敏)
- 响应状态码 + 自定义错误码
- 异常类型 + 精简 message(不含堆栈)
- 堆栈详情单独存入错误分析平台(如 ELK/Sentry)
配合 Prometheus 暴露指标:http_requests_total{status=~"5..", endpoint="/api/pay"},再配 Grafana 告警——这才是可运维的稳定性。