本文基于真实案例提炼出一套可操作的应急流程:快速判定受影响范围、定位是路由还是链路问题、用多点证据形成工单并推动运营商响应、采纳临时绕路或BGP流量工程手段恢复可达性,然后落实多线路冗余与自动化检测以降低复发风险。
第一时间要做的是量化影响范围,而不是凭直觉下结论。使用分布式监控与第三方检测(如RIPE Atlas、Looking Glass、各云厂商的监控节点)对比不同地理点的连通性,记录不同城市/ISP的 美国CN2服务器 访问成功率、丢包率和延迟。结合业务日志(用户请求失败率、会话建立失败)与合成交易(synthetic checks)可以得出受影响城市、ASN或ISP的清单,便于后续有针对性排查与升级工单。
部分地区不可达常见原因包括:上游运营商的BGP策略或过滤导致路径丢失(例如社区或前缀被过滤)、跨洋链路或下沉链路的瞬时故障、某些边缘POP的转发设备故障、或者是防火墙/ACL在特定路由器上误拦截。针对 CN2线路 的情况,还应考虑运营商在不同出口点使用不同路由反射与MPLS标签策略,导致区域性黑洞或绕行延迟。
排查顺序建议从外到内、从简单到复杂:先用 ping/mtr/traceroute 确认最后可达点与丢包位置;再查询 BGP 信息(bgp.he.net、route-server、looking glass)看前缀是否在全局泄露或被过滤;检查本地交换/路由器接口和链路错误计数;如怀疑中间运营商,应从多个 ASN 做 traceroute 以定位问题发生在哪个自治系统或地理节点。保存所有输出(带时间戳)作为证据。
向运营商提交工单时要提供结构化信息:受影响前缀、起始时间、受影响城市/ISP清单、来自不同检测点的 traceroute/MTR 输出、抓取的 pcap(如有)、业务影响说明(流量比例、业务类型)。明确期望(紧急级别、是否需要工程师上报到骨干层),并要求对方返回故障域(设备、链路或BGP)与预计恢复时间。如果对方响应缓慢,按合同条款升级至客户经理或提交SLA申诉。
短期应对策略包括:1) 通过BGP流量工程改变公告——使用备份上游或调整本地首选项(LOCAL_PREF)、AS-Path Prepend、或BGP community,请求上游传播不同路径;2) 将受影响前缀临时通过其他多宿主链路发布或使用隧道(GRE/VPN)将流量引导到健康的出口点;3) 若为HTTP/应用,可通过CDN或Anycast将静态与边缘内容下沉到可达节点;4) 降低DNS TTL并动态切换解析到备用IP或备用机房。恢复后需回滚并记录变更。
优先选择那些可在短时间内回滚且对用户影响最小的措施:修改DNS解析(先减少TTL),使用临时BGP备份通告(并与上游约定好撤回策略),或打开已有的跨机房隧道。避免在无充分测试下大面积更改核心路由策略或直接修改生产防火墙策略,任何改动都应配合监控验证并记录回滚步骤。
恢复后不要仅凭单点测试认定问题已解决,应在多个地理点、多个ISP上做持续监测至少数小时到数天,关注丢包、时延、抖动和用户关键交易的成功率。对比故障前后的BGP收敛状态和路由路径,检查是否有异常的路由震荡。若通过运营商修复,应要求对方提供根因分析(RCA)文档,并将RCA纳入内部知识库。
单次故障往往暴露架构弱点,长期措施能减少再发生的频率与影响。推荐做法包括:多线路多运营商冗余(跨国务必选择不同海缆与POP)、定期进行故障演练与BGP故障切换测试、建立自动化合成检测并接入告警系统、与主要承载方签署明确SLA并保留升级通道、以及形成标准化的故障处理与知识沉淀(runbook)。技术上可引入多路径路由与流量分发策略、Anycast与CDN加速,业务上可设计容错的会话迁移与重试机制。
