机房类运维服务方案(可借鉴)(DOC44)4457.doc
《机房类运维服务方案(可借鉴)(DOC44)4457.doc》由会员分享,可在线阅读,更多相关《机房类运维服务方案(可借鉴)(DOC44)4457.doc(77页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、Evaluation Warning: The document was created with Spire.Doc for .NET.十四、服服务方案案一、机房房及设备备维护方方案与计计划1、预防防性检查查1.1 巡检时时间每个工作作日上午午9点1.2、巡巡检地点点计算机机机房、精精密空调调、UPSS1.3、巡巡检目的的进行机房房检查,对对机房设设备及供供电系统统、UPS系统、精精密空调调系统、录录像系统统等设备备进行检检查,及及时发现现设备隐隐患,排排除故障障。1.4、巡巡检要求求1.4. 1.巡检期期间,进进行状态态检查,若若发现问问题,如如计算机机机房物物理环境境异常、精精密空调调异
2、常、UPS及配电电系统异异常等,应应按照应应急预案案及操作作流程进进行处理理。(1)电电源、UUPS:检查机机房供电电状况,UPS工作情况、指示状态。检查UPS蓄电池使用状态,确保蓄电池无松动。并使用温度枪进行检测物理温度。确保配电柜及UPS、蓄电池无温度过高现象。(2)机房环境:检查机房卫生状况及物理环境。(3)机机房温度度:检查查温湿度度,将温温湿度控控制在一一定范围围内。温温度:2225,湿度 60%.(4)机机房空调调:空调调运行状状态、空空调内部部有无漏漏水现象象、空调调噪音、空空调风量量等。(5)机房房照明:机房照照明系统统是否正正常,有有无异常常状况。(6)机机房PDU:PDU市
3、电或UPS是否正正常,使使用温度度枪进行行检测外外部物理理温度。(7)机机房整体体:检查查机房其其余设备备运行状状态,有有无报警警及指示示灯异常常状态。1.4. 2.如果故故障按恢恢复规程程无法有有效恢复复,特别别是当发发生机房房环境(动动力、空空调)故故障、关关键的设设备、网网络、系系统、服服务如无无法及时时恢复时时,应立立即通知知甲方相相关领导导,由相相关领导导协调资资源进行行故障处处理。1.4.3.故障处处理过程程必须在在机房日日常巡检检表的备备注栏中中详细记记录,以以备查阅阅。1.5、计计算机机机房现场场管理要要求1.除工工作人员员外,其其他工作作人员进进出机房房,需签签字后方方可进入
4、入,同时时计算机机机房人人员要在在现场,检检查监督督其人员员工作,避避免其他他人员未未经授权权擅自接接触机房房物理设设备。2.机房房的机柜柜、线缆缆、设备备等的标标签管理理;3.机房房环境清清理。 1.66每日检检查内容容列表项目性能检查查内容脆弱性检检查内容容空调系统统高压压力力、低压压压力(风风冷系统统),冷冷冻水压压力、温温度,冷冷却水压压力、温温度(水水冷系统统),风风机运行行情况,滤滤网、内内机排水水系统、灰灰尘情况况等。机房热点点情况、室室内机漏漏水检查查、室外外风机运运转情况况、加湿湿罐阳极极棒检查查、过滤滤网检查查等。供配电系系统输入输出出功率,输输入输出出电流、断断路开关关、
5、接地地电阻、零零序电流流、器件件发热情情况等。导线、器器件发热热情况,断断路开关关、防浪浪涌器件件情况等等。UPS系系统负载功率率情况、器器件发热热情况、电电池情况况(外观观、液位位、接线线柱)等等。器件、导导线发热热情况,电电池放电电时间等等。安全系统统录像备份份管理、出出入机房房登记、器器件灵敏敏度、画画面清晰晰度(不不同照度度情况下下)、云云台运行行等。器件灵敏敏度、监监控死角角问题等等。设备运行行机房环境境查看设备备运行指指示灯、机机房照明明运行情情况、机机房环境境设备运行行是否有有报警情情况、照照明是否否正常、机机房卫生生是否整整洁等2、现场场故障维维修 每每日巡检检过程中中,如有有
6、发现设设备及环环境系统统有故障障状态,需需进行记记录并恢恢复故障障状态。如如不能立立即恢复复故障状状态,则则需进行行应急预预案处理理。具体体如下:2.1 环境故故障:卫卫生、温温湿度、照照明。(四四级故障障)2.2 交换机机故障:交换机机蜂鸣,交交换机启启动不正正常,指指示灯异异常。(三三级故障障)2.3 空调故故障:空空调压缩缩机故障障、空调调冷凝水水故障、空空调漏水水故障、空空调制冷冷故障、空空调加湿湿器故障障等。(二二级故障障2.4 UPSS故障:UPS逆变故故障、UPS旁路、UPS蓄电池池温度、UPS蓄电池池外观鼓鼓包现象象、UPS蜂鸣报报警等(一一级故障障)2.5 配电柜柜故障:配电
7、柜柜内温度度过高、配配电柜打打火现象象等。(一一级故障障) 在在解决故故障时,最最大限度度做好故故障恢复复的文档档,力争争恢复到到故障点点前的业业务状态态。对于于“系统瘫瘫痪,业业务系统统不能运运转”的故障障级别,如如果不能能于30分钟内内解决故故障,应应立即提提出应急急方案,确确保业务务系统的的运行。故故障解决决后24小时内内,提交交故障处处理报告告。说明明故障种种类、故故障原因因、故障障解决中中使用的的方法及及故障损损失等情情况。故故障类型型、级别别及相应应标准列列表:故障级别别响应时间间故障解决决时间I级:属属于紧急急问题;其具体体现象为为:机房房出现电电力事故故等意外外情况导导致业务务
8、停止、UPS系统崩崩溃导致致业务停停止、空空调系统统崩溃导导致业务务停止。电话立即即响应,5分钟内内人员抵抵达现场场,30分钟内内恢复业业务使用用,2小时内内提交故故障处理理方案。12小时时以内II级:属于严严重问题题;其具具体现象象为:出现部分分部件失失效、系系统性能能下降但但能正常常运行,不不影响正正常业务务运作。电话立即即响应,5分钟内内抵达现现场,1小时内内提交故故障处理理方案24小时时以内III级级:属于于较严重重问题;其具体体现象为为:出现现系统报报错或警警告,但但业务系系统能继继续运行行且性能能不受影影响。电话立即即响应,5分钟内内抵达现现场,2小时内内提交故故障处理理方案48小
9、时时以内IV级:属于普普通问题题;其具具体现象象为:系系统技术术功能、安安装或配配置咨询询。电话立即即响应,30分钟内内抵达现现场,2小时内内提交故故障处理理方案3天内3、后台台故障维维修 后台台故障状状态维修修,需要要在甲方方允许的的情况下下,对设设备进行行维护及及维修。 3.1 质保期期内的设设备由我我方查找找故障原原因并填填写故障障申请单单,交由由甲方进进行协调调处理,并并协助甲甲方进行行故障排排除及维维修。如如需联系系厂商,则则由我方方负责。 3.2 三级及及四级故故障状态态,我方方可自行行进行维维护和维维修的设设备,报报由甲方方同意后后,我方方自行进进行设备备维修,更更换零配配件部件
10、件等,并并将维修修记录保保存文档档交由甲甲方及我我方双方方管理。 3.3 质保期外的设备出现故障,则由我方统一进行维修,费用由我方负责。并将维修记录报由甲方确认并存档。 3.44设备更更换 对于无无法修复复的设备备,在合合同有效效期内,经经甲方审审核,由由乙方负负责整体体更换同同型号或或类似型型号的产产品,无无法维修修的设备备交由甲甲方。更更换单个个备品备备件费用用大于等等于500元时,报报甲方审审核同意意,备品备备件费用用由甲方方承担; 更换单单个备品品备件小小于500元时,备品备备件费用用由乙方方承担,质质保期内内由供货货商(厂厂商)进进行更换换的除外外。4、资产产管理 4.11对硬件件设
11、备型型号、数数量、版版本等信信息统计计记录 4.22对软件件产品型型号、版版本和补补丁等信信息统计计记录 4.33 对机房房设施设设备连接接统计记记录 4.44 对综合合布线系系统结构构图的绘绘制 4.55 对机房房更换设设备连接接统计记记录4.6每每月向甲甲方上报报低值易易耗品记记录,包包括仓库库存储情情况、耗耗材使用用情况。4.7 机房更更新及更更换设备备的统计计4.8 机房维维护设备备及备品品备件的的管理及及记录 5、应急急处理随着网络络信息化化建设的的不断深深入,加加强机房房各类设设备、系系统以及及信息与与网络安安全等方方面应对对突发事事件的处处理能力力将是我我们目前前面临的的一项重重
12、要任务务。为确确保系统统及机房房安全与与稳定,以以保证正正常运行行为宗旨旨,按照照“预防为为主,积积极处置置”的原则则,本着着建立一一个有效效处置突突发事件件,建立立统一指指挥、职职责明确确运转有有序、反反应迅速速处置有有力的机机房安全全体系的的目标,将将正在发发生或已已发生事事故的损损害程度度减轻到到最低,确确保员工工安全,特特制定本本应急处处置预案案。本预案共共分为应应用系统统故障应应急流程程和机房房突发事事件应急急流程系统故障障应急流流程一、系统统故障应应急流程程说明1、故障障发生系统运维维服务小小组可从从以下途途径得知知故障的的发生:1.1、运运维服务务中心通通过网管管告警发发现故障障
13、1.2、维维护站点点通过维维护巡检检发现故故障1.3、用用户发现现故障,报报给呼叫叫中心1.4、驻驻场工程程师发现现故障2、报障障受理监控系统统运维服服务小组组得知系系统故障障发生后后,立即即响应,并并向报障障人或单单位详细细了解系系统故障障情况。3、信息息研判运维服务务小组根根据了解解到的系系统故障障情况进进行分析析判断,以以确定采采用一般般故障处处理流程程还是立立即启动动系统突突发故障障应急处处理预案案。4、预案案启动如需启动动应急预预案,则则立刻通通知系统统突发故故障应急急领导小小组,由由领导小小组启动动应急预预案,对对系统突突发故障障应急事事件进行行全面管管控处理理。5、资源源确认系统
14、突发发故障应应急预案案启动后后,首先先是根据据现场突突发故障障实际状状况、紧紧急程度度、技术术难度、备备品备件件等情况况对相关关资源(主主要是参参与人员员)依据据经验进进行调度度和确认认,主要要有以下下资源:我公司技技术支持持人员;相关厂家家技术支支持人员员;我公司聘聘请的技技术专家家6、预案案执行按照既定定的预案案进行突突发故障障抢修,如如遇到问问题及时时向系统统突发故故障应急急领导小小组汇报报。7、预案案终止预案的终终止时间间由故障障现场技技术人员员根据现现场的实实际进展展情况,在在与用户户单位有有关部门门协调后后报系统统突发故故障应急急领导小小组决定定。8、结果果上报预案中止止后,相相关
15、预案案参与人人员将整整个事件件过程中中的经验验和教训训,修改改、完善善事件应应急预案案。然后后集中上上报至系系统突发发故障应应急领导导小组。二、 系系统故障障应急处处理流程程图机房突发发事件应应急流程程一、机房房突发事事件分类类1、自然然灾害:指地震震、火灾灾等因自自然因素素引起的的网络与与信息系系统的损损坏。2、事故故灾难:指电力力中断、网网络损坏坏、软件件、硬件件设备故故障等引引起的网网络与信信息系统统的损坏坏。3、人为为破坏:指人为为破坏网网络线路路、通信信设施,黑黑客攻击击、病毒毒攻击、恐恐怖袭击击等引起起的网络络与信息息系统的的损坏。二、 应应急处理理人员组组织机构构三、 应应急机构
16、构人员岗岗位职责责1、应急急总指挥挥职责1.1、保保证在任任何时间间,及时时协调应应急行动动所有涉涉及的岗岗位人员员;1.2、提提供必须须的紧急急响应设设备;1.3、在在紧急情情况下全全面负责责紧急行行动;1.4、在在必要时时向外界界求救,例例如:119、110、120等。2、应急急副总指指挥职责责2.1、在在总指挥挥领导下下具体开开展工作作,当总总指挥不不在时履履行总指指挥职责责;2.2、根根据获得得的应急急信息下下达命令令。3、各相相关设备备负责人人职责3.1、负负责尽快快收集信信息向应应急总指指挥汇报报事故情情况;3.2、负负责现场场临时设设备抢救救和对事事态的控控制;3.3、听听从上级
17、级指挥人人员的指指挥。四、突发发事件处处理原则则1.预防防为主。立立足安全全防护,加加强预警警,重点点保护基基础信息息网络和和关系信信息安全全、稳定定的重要要信息系系统,从从预防、监监控、应应急处理理、应急急保障等等环节,在在管理、技技术、人人员等方方面采取取多种措措施充分分发挥各各方面的的作用,共共同构筑筑安全保保障体系系。2.快速速反应。突突发事件件发生时时,按照照快速反反应机制制,及时时获取充充分而准准确的信信息,跟跟踪研判判,果断断决策,迅迅速处置置,最大大程度地地减少危危害和影影响。3.分级级负责。按按照“谁主管管,谁负负责”的原则则,建立立和完善善安全责责任制及及联动工工作机制制。
18、根据据各负责责人的职职能,各各司其职职,加强强各负责责人的协协调与配配合,共共同履行行应急处处置工作作的管理理职责。4.以人人为本。把把保障人人员以及及公共利利益的安安全作为为首要任任务。5.常备备不懈。加加强技术术储备,规规范应急急处置措措施与操操作流程程,定期期进行预预案演练练,确保保应急预预案切实实有效,实实现网络络与信息息安全突突发公共共事件应应急处置置的科学学化、程程序化与与规范化化。五、机房房应急开开关机具具体措施施机房各设设备关闭闭顺序如如下:六、机房房日常维维护1、建立立健全机机房管理理制度1.11在正常常工作日日内,信信息技术术部人员员负责对对机房进进行监控控,主要要职责是是
19、:巡视视网络设设备及系系统的运运行情况况,发生生异常情情况及时时处理,消消除网络络故障隐隐患。1.22节假日日期间技技术人员员轮流值值班,负负责处理理有关异异常情况况。1.33机房采采取来人人来访登登记制度度,未经经允许,无无关人员员不得进进入公司司机房区区域。2、机房房内严格格采取防防雷、防防火、防防尘、防防静电等等措施以以及机房房24小时监监控等措措施。3、认真真做好数数据备份份工作,定定期做一一次数据据库完全全备份,每每月检查查服务器器运行和和备份情情况。4、对机机房的主主要网络络设备(路路由器、主主干交换换机等)进进行工作作时间内内全程监监控,发发现异常常情况应应及时进进行处理理,确保
20、保整个网网络的正正常运行行。七、服务务器及存存储设备备故障处处理1、排错错流程2、应急急处置具具体措施施2.1 机房漏漏水应急急预案 (1)发发生机房房漏水时时,第一一目击者者应立即即通知运运维服务务小组,并并及时报报告监控控系统突突发故障障应急领领导小组组。(2)若若空调系系统出现现渗漏水水,运维维服务小小组负责责人应立立即安排排停用故故障空调调,清除除机房积积水,并并及时联联系设备备供应方方处理,同同时启动动备用空空调,必必要情况况下可临临时用备备用空调调对服务务器进行行降温。(3)若若为墙体体或机房房门渗漏漏水,运运维服务务小组负负责人应应立即采采取有效效措施确确保机房房安全,及及时清除
21、除积水,维维修墙体体或门窗窗,消除除渗漏水水隐患。2.2 设备发发生被盗盗或人为为损害事事件应急急预案 (1)发发生设备备被盗或或人为损损害设备备情况时时,使用用者或管管理者应应立即报报告系统统突发故故障应急急领导小小组,同同时保护护好现场场。(2)系系统突发发故障应应急领导导小组接接报后,通通知用户户保卫部部门、相相关领导导,一同同核实审审定现场场情况,清清点被盗盗物资或或盘查人人为损害害情况,做做好必要要的影像像记录和和文字记记录。(3)事事发单位位和当事事人应当当积极配配合公安安部门进进行调查查, 并将有有关情况况向系统统突发故故障应急急领导小小组汇报报。(4)系系统突发发故障应应急领导
22、导小组安安排运维维服务小小组、事事发单位位及时恢恢复系统统正常运运行,并并对事件件进行调调查。运运维服务务小组和和事发单单位应在在调查结结束后一一日内书书面报告告系统突突发故障障应急领领导小组组。事态态或后果果严重的的,应向向相关领领导汇报报。2.3 机房长长时间停停电应急急预案 (1)定定期检查查机房供供电设备备的运行行状况和和电路线线缆器材材情况,当当发生下下列突发发事件时时,按照照以下方方案进行行处置:(2)当当机房发发生市电电供电突突然停电电或是电电源异常常时。首首先应和和后勤部部门联系系确认正正常停电电以及预预计停电电时间。检检查不间间断电源源的电池池可供电电时间,确确保设备备正常运
23、运行,如如遇到突突然断电电,应及及时将空空调等不不在UPS电源供供电范围围内的设设备及时时断电,预预防突然然来电时时瞬间电电流过大大导致设设备损坏坏等现象象。(3)当当确定停停电时间间超出机机房UPS承载范范围后,首首先确定定停电的的范围以以及受影影响的设设备范围围。并及及时通知知各部门门做好停停电应急急准备。然然后通知知机房电电源维护护人和设设备的负负责人到到达现场场,做好好各设备备的电源源停电准准备。在在UPS供电电电量仅剩剩10%之后,严严格按操操作手册册停掉各各服务器器的电源源,最后后停核心心交换机机和路由由器,等等待电力力恢复。(4)当当确定停停电原因因是在本本身供电电系统范范围内,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机房 类运维 服务 方案 借鉴 DOC44 4457
限制150内