华为PTN故障处理手册v1.0版.doc
《华为PTN故障处理手册v1.0版.doc》由会员分享,可在线阅读,更多相关《华为PTN故障处理手册v1.0版.doc(70页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、 . 华为PTN故障处理手册v1.0公司网络维护中心 2010年12月目录一、概述4二、网络故障分析定位方法42.1告警分析法42.2性能统计分析法52.3OAM分析法72.4配置数据分析法112.5仪表测试分析法122.6环回法132.7排除法14三、业务中断故障和业务恢复153.1流程图153.2查询误操作173.3检查告警173.4检查环回和装载183.5检查业务配置183.6应急恢复方案183.6.1倒换193.6.2复位193.6.3通过更换单板恢复业务19四、常见故障处理方法204.1带DCN故障处理204.2MPLS Tunnel故障处理244.3PW故障处理264.4CES业务
2、故障处理274.5以太网业务故障处理314.6offload故障处理354.7时钟故障处理374.8QoS故障处理394.9线性MSP故障处理424.10TPS故障处理454.11LAG故障处理484.12MPLS APS故障处理51五、部件更换注意事项554.13部件分类说明564.14更换处理板574.15更换子卡594.16更换接口板604.17更换XCS单板614.18更换带有1+1保护的SCA单板634.19更换没有1+1保护的SCA单板654.20更换风扇板684.21更换PIU板694.22更换可插拔光模块704.23更换CF卡71一、 概述PTN网络故障处理在日常维护中显得至关
3、重要,为了更好的开展PTN网络的日常维护,特编制PTN网络故障处理手册。本手册PTN设备故障处理主要涉与故障分析定位、业务中断故障应急恢复、常见故障处理方法等三个部分。下面将对这三个部分进行详细说明。二、 网络故障分析定位方法根据现网中处理网元脱管或业务中断等故障的经验,一般遵循“一分析,二倒换/复位,三换板”的处理方案。保证PTN网络的稳定运行,尽量减少突发事故。处理故障时,应从分析故障现象开始,尽快定位到故障的原因。本节介绍各类分析和定位故障的方法、应用场景和应用示例。2.1 告警分析法告警分析法是定位故障的常用方法之一。当设备发生故障时,一般会伴随大量的告警。通过对告警的分析,可大概判断
4、出发生故障的类型和位置。通过U2000查询告警:只要在U2000主拓扑的网元图标上点击右键,就可以查询以下告警信息: 当前告警 网元侧历史告警 网管侧历史告警 通过分析、定位告警产生的原因,清除告警,并排除故障。通过U2000获取告警信息时,应注意保证网络中各网元的当前时间与网管时间同步。倘若网元当前时间与网管时间不同步,将导致信息上报错误。在维护过程中,对某网元重下配置后,应特别注意将该网元的当前时间与网管时间同步。否则网元会工作在缺省时间里,而缺省时间并不是当前时间。示例一:简单组网中,一般情况下清除告警的同时,故障也随之排除。如下图所示的链路图中,网管计算机连接到NE2。故障现象:NE1
5、和NE2之间的E-Line业务中断,NE2上报ETH_LOS告警。故障分析定位:排查ETH_LOS告警产生的可能原因,最终定位出业务中断故障的原因。清除告警后,业务恢复正常,故障排除。示例二:复杂组网中,通过分析新增告警和已清除的历史告警,可以找出排除故障的关键所在。某复杂环型拓扑组网突发广播风暴,各网元均出现大量FLOW_OVER告警,业务中断。虽然通过断开环路光纤等方法恢复了业务,清除了FLOW_OVER告警,但无法定位出故障原因。分析全网告警,发现某个UNI端口在上报FLOW_OVER告警的同时,该端口的历史告警ETH_LOS自动清除。沿此线索,发现与该UNI端口对接的第三方设备上出现了
6、远端环回,导致网络上出现环路。解除该环回后,故障彻底排除。2.2 性能统计分析法性能统计分析法通过统计“当前性能”和“RMON性能”来分析和定位故障。判断单板、端口、Tunnel、PW的性能统计数据是否正常,可以判断是否存在故障。当前性能:下表区分不同的“对象”,列出当前性能统计的判断标准。表当前性能统计表对象判断标准物理单板/端口 对于单板,其光功率、工作温度、CPU/存占用率应在正常围之。 对于端口,应没有误码。 MPLS TunnelTunnel没有丢包。IP/GRE TunnelTunnel没有丢包。以太网业务OAM没有丢包。 开启网元当前性能统计功能。 网元支持的当前性能的具体含义和
7、解释。 RMON性能:下表区分不同的“对象”,列出RMON性能统计的判断标准。表RMON性能统计表对象判断标准物理单板/端口 对于主控板,CPU占用率不应过高。 对于端口,发送/接收方向有计数。MPLS Tunnel 发送/接收方向有计数。 没有丢包。IP/GRE Tunnel 发送/接收方向有计数。 没有丢包。业务PW PW的发送/接收方向有计数。 没有丢包、乱序包、误码等异常统计。 Tunnel是双向的,可以在“对象”中选择正向Tunnel或反向Tunnel。 网元支持的RMON性能的具体含义和解释。 示例:两个网元之前配置了两条Tunnel,但仅在一端网元上配置了APS保护组,导致ATM
8、业务质量很差。在网管上查询该ATM业务的RMON性能,发现存在乱序包计数,且乱序包计数值约为接收信元计数的50%,由此判断业务出现双收,并找到问题的原因所在。2.3 OAM分析法OAM机制可以有效地检测、确认并定位出源于MPLS层网络部的缺陷和网络性能的监控。设备可以利用OAM的检测状态来触发保护倒换,实现快速故障检测和业务保护。A、OAM简介OAM主要应用于PTN设备组网的网络侧(NNI侧),该区域具有以下特点:l 网元多。一条MPLS LSP往往经过多个网元。l 组网复杂。可能需要穿通第三方网络,存在很多导致故障的不确定因素。l 规划整改,扩容变化多。B、OAM分类分析定位故障时常用的OA
9、M功能主要是Tunnel OAM和PW OAM两种。对Tunnel和PW执行Ping测试,通过计算OAM报文丢包率,判断Tunnel和PW的连通性。C、执行LSP Ping测试1) 进入“网元管理器”,在功能树中选择“配置 MPLS管理 单播Tunnel管理”。2) 在“OAM参数”选项卡中,使能Tunnel的“OAM状态”,设置“检测报文类型”和“检测报文周期”,单击“应用”。在弹出的“操作结果”对话框中单击“关闭”。3) 重复步骤1和步骤2,在Tunnel另一端的网元上,使能OAM功能,并保证两端网元的参数设置一致。4) 右键单击“节点类型”为“Ingress”的Tunnel,在弹出的下拉
10、菜单中选择“Ping测试”。在弹出的“Ping测试”对话框中设置相应的参数,单击“启动测试”。5) 在“测试结果”区域分析Ping测试结果。如果发送报文数量等于接收报文数量,且丢包率为0,则该Tunnel的连通性正常。D、执行PW Ping测试1) 进入“网元管理器”,在功能树中选择“配置 MPLS管理 PW管理”。2) 在“PW OAM参数”选项卡中,使能PW的“OAM状态”,设置“检测报文类型”和“检测报文周期”,单击“应用”。在弹出的“操作结果”对话框中单击“关闭”。3) 重复步骤1和步骤2,在PW另一端的网元上,使能OAM功能,并保证两端网元的参数设置一致。4) 右键单击PW,在弹出的
11、下拉菜单中选择“Ping测试”,在弹出的“Ping测试”对话框中设置相应的参数,单击“启动测试”。5) 在“测试结果”区域分析PW Ping测试结果。如果发送报文数量等于接收报文数量,且丢包率为0,则该PW的连通性正常。E、OAM应用业务中断或业务出现丢包、误码时,可按照所示的流程运用OAM功能,定位故障。F、OAM分析业务故障流程图图 OAM分析业务故障流程图G、OAM定位故障通过在Tunnel的两端网元上使能OAM并查看LSP状态,可以轻易定位到存在故障的网元。1) 进入“网元管理器”,在功能树中选择“配置 MPLS管理 单播Tunnel管理”。2) 在“OAM参数”选项卡中,为Tunne
12、l设置合适的“检测报文类型”和“检测报文周期”,使能“OAM状态”,单击“应用”。在弹出的“操作结果”对话框中单击“关闭”。3) 选中一条或多条Tunnel,右键点击,在弹出的下拉菜单中选择“查询LSP状态”。4) 查看“LSP状态”,正常情况如下表所示。Tunnel节点类型LSP状态Ingress远端可用状态Egress近端可用状态若出现其它状态时,根据“LSP缺陷位置”可定位到出现故障的网元。5) 根据相应的“LSP缺陷类型”,选择清除告警,检查光纤连接或确认端口、Tunnel、业务的配置参数等方法,排除故障。2.4 配置数据分析法配置数据分析法通过在网管上分析业务的参数配置,找到配置错误
13、的参数,从而定位故障。当Tunnel或业务创建后不通,或在网管上修改部分参数后业务突然中断时,可以使用配置数据分析法来定位故障。一般情况下,对照网元规划表即可找出网元上配置错误的参数。当PTN设备与第三方设备对接时,由于两端的某些参数默认取值不一致,要特别注意两端参数的匹配问题。采用配置数据分析法时,一般可遵循以下步骤。1. 检查网元的网元ID、网元IP、LSR ID等参数是否配置正确。 2. 对照网元规划表,检查端口状态和参数配置。端口参数配置错误是现网中导致故障最常见的原因之一。 对于以太网端口,确认端口是否已使能。检查“端口模式”、“封装类型”、“工作模式”、“TAG标识”、“缺省VLA
14、N ID”、“Tunnel使能状态”、“IP地址”等参数是否配置正确。 对于SDH端口,检查“端口模式”、“封装类型”、“通道化”、“端口类型”、“Tunnel使能状态”、“时钟模式”等参数是否配置正确。 对于PDH端口,检查“端口模式”、“封装类型”、“帧格式”、“阻抗”、“帧模式”等参数是否配置正确。 对于IMA组,检查“协议版本”、“最小激活链路数”、“协议使能状态”、“时钟模式”、“E1帧模式”、“E1时隙数”、“ATM信元载荷加扰”、“VPI”、“VCI”等相关参数是否配置正确。 对于第三方设备的端口,需要确认以太网端口工作模式、VC12线序模式或时钟模式是否与PTN设备匹配。 3.
15、 检查Tunnel两端网元上的参数配置是否匹配,是否选择了正确的端口。 4. 检查以下PW参数配置。 PW ID是否正确。 PW是否已使能。 PW的出入标签是否一致。 PW是否选择了正确的端口或Tunnel。 对于CES业务,确认“报文装载时间”和“抖动缓冲时间”是否配置正确。 2.5 仪表测试分析法仪表测试分析法一般用于定位设备的外部问题与其它设备的对接问题。定位故障的常用仪表主要有以下几种:A. 万用表:根据不同需要可以将万用表调制电压档或电阻档,对怀疑的故障点进行电压或电阻测试。如设备接地电压、电源电压等。B. 误码仪:用于测试传输通道中存在的误码情况,如误码数、误码率、误码秒等。一般是
16、将需要测试的通道进行环回,通过误码仪发送伪随机码,并在误码仪上查看所测试到的通道误码情况。C. 光功率计:用于测试单板的接收和发送光功率。D. 电缆测试仪:用于测试电缆的端子对在最大额定电流下的电压降,从而可推断电缆的连通情况和传输质量。E. 网络分析仪:用于网络性能的测试和分析,测试容较丰富。如最大线速、数据流量、帧长、吞吐量、丢包率与网络延时等。示例:以网络分析仪定位故障为例说明仪表测试法的思路。某网络的业务中断,需要对设备故障进行逐一排查。按下图所示,将网络分析仪与设备正确连接,同时在NE上进行环回,对NE进行丢包率的测试。图网络分析仪和设备的连接对网络分析仪进行正确的设置,向NE发送数
17、据包。根据网络分析仪上显示的丢包率结果,可判定是否由于NE的丢包过多导致业务中断。如果数据正常,可确定NE工作正常。可再对其它网元进行测试。2.6 环回法环回法是定位故障时常用而且行之有效的一种方法,可以将故障尽可能准确地定位到单站。设备维护人员应熟练掌握。环回操作分为软件环回和硬件环回,这两种方式各有所长:A. 软件环回即在U2000上配置环回,操作方便,但定位故障的围和位置不够准确。比如在单站测试时,配置光口为环回,即使业务测试正常,也不能确定该单板的接口模块没有问题。B. 硬件环回即使用光纤或者电缆环回端口,相对于软件环回而言环回更为彻底。若通过尾纤将光口自环后,业务测试正常,则可确定该
18、单板是好的。但硬件环回需要到设备现场才能进行操作。另外,光接口在硬件环回时要避免接收光功率过载。环回操作会中断端口上其它正常运行的业务,在使用前请务必做好确认。2.7 排除法在处理业务故障时,可以首先检查与其它业务的共用路由部分是否存在故障。排除运行正常的部分,以缩小故障定位的围。示例:以下面的示例说明排除法的思路。如下图所示。NE01与NE02之间的Tunnel创建失败,但NE03与NE02之间可以正常创建Tunnel,因此可以判断故障发生在DSLAM或与与对接的链路上。图组网图三、 业务中断故障和业务恢复下面介绍业务中断故障的应急处理流程。3.1 流程图下面首先通过下图对OptiX PTN
19、 3900设备的应急处理流程进行说明。了解故障原因之前不要轻易尝试操作,不正确的操作会导致问题扩大。说明: 在处理故障前,要进行业务调离。就是通过网管配置,将故障路由的业务倒换到可用路由中。图应急处理流程图3.2 查询误操作查询故障发生前是否有误操作,如添加或删除业务、更改配置等。如果存在误操作,要根据故障发生前的操作情况进行逆向操作恢复业务。3.3 检查告警发生业务中断时,需要检查设备是否存在如下表所示的告警。如果存在,应先排除告警指示的故障。表告警说明告警类型告警名称告警说明设备类告警POWER_ABNORMAL电源失效FAN_FAIL风扇故障会导致设备温度增高,影响正常运行BD_STAT
20、US单板不在位HARD_BAD单板硬件错误报告SYN_BAD时钟同步源劣化NESTATE_INSTALL网元处于安装态信号丢失告警ETH_LOS以太网口连接丢失低阶业务失效告警TU_AIS_VC12VC12级别的TU告警指示TU_LOP_VC12VC12级别的TU指针丢失线路告警R_LOS接收线路侧信号丢失R_LOF接收线路侧帧丢失R_LOC接受线路侧无时钟R_OOF接收线路侧帧失步其他高低阶告警HP_TIM高阶通道追踪识别符失配HP_SLM高阶通道信号标记失配HP_UNEQ高阶通道未装载LP_UNEQ_VC12VC12级别低阶通道信号未装载说明: 上表所列告警是可能引起业务中断,需要优先处理
21、的重要告警。3.4 检查环回和装载检查业务路由上是否设置了环回或通道未装载。3.5 检查业务配置按照业务路由,逐段检查业务配置正确性。3.6 应急恢复方案如果无法快速找到故障原因,进而排除故障,一定要先将业务倒换到正常的路径上,或者复位相关的网元或单板,以恢复已中断的业务或已脱管的网元。如果故障定位为某个单板有问题,则更换相应单板来解除故障。3.6.1 倒换倒换可分为单板级倒换和业务级倒换。OptiX PTN 3900支持的单板级倒换类型有: 单板1+1保护倒换和TPS保护倒换。当保护板在位且工作正常时,可以执行保护倒换,尝试恢复业务。若设备没有保护板,可以使用备件创建临时的保护组,再执行保护
22、倒换。OptiX PTN 3900支持的业务级倒换类型有:APS保护倒换 线性复用段(LMSP)保护倒换如果由于保护倒换失败导致业务中断,可以删除已失效的保护组,另行创建可正常运行的新保护组,并将业务倒换到新的路径上。3.6.2 复位复位可分为网元级复位和单板级复位。当网元被攻击,并出现以下故障时,可考虑复位网元:DCN风暴/DCN通信中断/网元脱管 CPU占用率达到100%。 单板复位又分为软复位和硬复位。单板复位后可以恢复正确的程序和数据。若单板配置了1+1保护组,硬复位会触发保护倒换。在正常情况下,单板的软复位不影响正在运行的业务。硬复位会影响正在运行的业务,请慎重使用。3.6.3 通过
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 华为 PTN 故障 处理 手册 v1
限制150内