IT运维问题分析报告

IT运维问题分析报告

为提高IT运维用户服务感知满意度,提高运维工作效率,完善运维基础设施建设,现对IT运维工作中存在的紧迫性问题进行分析总结,报告如下:

一、   运维现状

******承担了我局****平台、****系统、****系统辅助审批、****系统的基础环境运维,涉及到了硬件、网络、系统、安全等各个方面。

详细信息见附件一《IT运维简介》。

二、   问题分析

根据IT运维现状,以及用户和中心各部对IT运维工作的意见和建议,参照《信息安全等级保护》三级标准,结合中心实际,对IT运维工作存在的问题分析总结如下:

(一)       制度保障缺失

1.    全局无《信息系统管理制度》,局用户没有信息化操作约束,运维团队无执行依据。

2.    没有指导开展IT运维工作的保障制度,如《机房管理制度》、《密码管理制度》、《数据备份管理制度》、《系统管理制度》等。不能有计划有目的地开展it运维工作。

(二)       工作边界不清晰

各IT运维相关部门岗位职责划分不够细,造成运维工作有交叉,工作边界不清晰。例如:

1.             数据备份工作。涉及到数据部和******,甚至全局所有用户。

2.             信息系统涉密检查。应有涉密主管部门牵头处理,涉及到IT运维的由运维团队配合处理。

3.             系统安全运维。涉及到运维管理和数据管理,工作界定不清晰,工作有交叉。

4.             系统管理。应用系统基础环境搭建、系统开发、测试、运维,会涉及业务运维和技术运维团队。

(三)       基础运维环境不完善

1.    缺少统一的运维监控平台。

中心现已部署大量系统,每个系统都会涉及到一台甚至多台服务器,无统一的监控平台会导致服务器硬件、操作系统、应用服务、网络设备链路状态等关键部分出现故障时,无法第一时间发现并排查问题,运维的响应时间会变长。同时也不能提前预防事件的发生。

2.    缺少必要的安全防护。

专网缺少防火墙,所有用户和服务器处于同一网络中,服务器面临威胁。

没有漏洞补丁服务器,专网与因特网是隔离的,内网的计算机操作系统不能及时更新补丁。

缺少准入控制系统,本单位和外单位人员可以随意接入****专网,没有统一的用户身份认证,数据安全面临威胁。

3.    缺少日志审计系统。

系统出现问题后无法追踪问题的根源并找到问题的最佳解决办法。对服务器所作的修改无日志记录,出现问题后无法界定责任人。

(四)       服务意识有待加强

1.    目前缺少监控平台,无法对即将发生的重大事件做预测,也无法做到在用户发现问题之前将问题解决。

2.    应用系统研发质量良莠不齐,故障不能快速定位,导致处理问题时间较长。

3.    服务响应速度有待提高。

4.    服务质量应有监管。

三、   解决方案

(一)       制度保障

1.  制定IT运维管理制度。

20##年以来,运维团队根据实际工作需求陆续制订了《******信息系统管理制度》、《******机房管理制度》、《网络安全管理责任制度》、《信息安全管理与培训制度》、《信息资产和设备管理制度》等IT运维管理制度,但未经正式签发。

2.  建立规范的it运维保障制度,让运维人员实施运维时有制度支撑。

20##年以来,陆续建立了《数据备份管理制度》、《服务器密码管理制度》、《服务器与数据库日常维护》、《服务器帐号密码权限配置策略》、《计算机日常维护管理》、《系统网络与信息安全总体策略》、《信息系统变更及发布管理制度》等IT运维技术管理制度,未经中心审议正式执行,仅作工作参考执行。

(二)       明确工作边界

1.    明确业务运维、技术运维和基础设施运维的工作边界。

业务运维主管业务流程中****业务处置服务;技术运维负责********;基础设施运维负责****信息系统运转所依赖的基础环境的运维,包括终端、网络、服务器、存储、安全等设施。

2.    明确数据安全和IT运维之间的工作边界

中心IT安全工作有IT安全运维和数据安全管理两块,数据安全与IT安全运维是相互包含、相辅相成的关系,目前两块工作分工不明确,工作有交叉和阻碍。

3.  明确各部门的职责,做到权责分明。

(三)       建设一个平台、二个系统,完善基础设施运维环境

1.  建立统一的运维监控平台,对机房环境、服务器硬件、操作系统、应用系统、计算机网络等关键部分实施监控,在事件发生前检测并处理故障,逐步由被动救火变为主动防御。

2.  部署准入控制系统、硬件防火墙和补丁分发服务器,对所有接入专网的用户进行授权访问,保证边界及系统安全。

3.  部署日志审计系统,对所有的服务器和网络设备日志进行审计,分析可能存在的系统问题或性能问题。审计用户的操作,以便出现问题可追踪和还原。

(四)       建立三个服务机制和运维联系卡,加强巡检密度,提升用户服务感知满意度

1.    建立IT运维事件告知机制

结合日常运维巡检,将提前发现的运维事件告知相关运维责任部门,提前沟通协调解决,该工作已开展一个月。

附件二:《IT运维事件告知单》

2.    建立IT运维分析报告机制

建立IT运维月度报表机制,统计每月IT工作情况,分析总结月度运维事件,向领导汇报,给出合理化建议,并对IT运维月电力能源消耗进行记录,该工作已经开展半年。

附件三:《IT运维报表》

3.  增加巡检的密度,在发现潜在问题时及时向用户发出事件告知单进行处理。该工作已开展半年。

附件四:《机房日常健康检查表》

4.  建立定期走访机制,搜集用户对******的满意度和意见调查,以进一步提高服务质量。服务行为质量调查工作已开展8年。

附件五:《服务行为报告单》

附件六:《服务行为报告单统计报告》

5.  建立终端设备运维联系卡

附件七:《终端设备运维联系卡》


附件一


概述 ************负责****网络、终端、业务系统和基础设施管理等IT运维工作,具体情况如下:

一、网络

现有专网、互联网、****内网和电子****外网四个网络。

(一)专网:覆盖了绕城以内的分局、局直属单位和其他市局机关单位共14个分支机构。提供****业务办公及其他****信息化服务。

(二)互联网:运行公众平台、****系统、电子报建等系统。向公众提供****信息服务。

(三)****内网:以用户身份接入市内网办****内网,提供内网公文传输、数据交换、业务办公和区(市)县****数据报送等服务。

(四)电子****外网:以用户身份接入市电子****外网,运行****系统系统,向电子****外网用户提供基础地理信息服务,并向局机关用户提供互联网接入服务。

二、终端

专网、互联网、****内网和电子****外网共有约400台终端计算机,终端运维包括计算机硬件、软件、操作系统、系统安全、数据保护和终端网络等维护工作。

三、机房

(一)基础设施情况

    运维团队对上述系统进行建设和日常运维管理。

(二)系统情况

运维团队承担了上述系统和虚拟机的基础环境搭建和运维。

四、安全运维情况

(一)专网

1.       终端和服务器系统部署卡巴斯基安全软件。

2.       外单位接入使用硬件防火墙进行访问控制。

(二)互联网及电子****外网

1、          入口采用迈普硬件防火墙进行访问控制和入侵防护。

2、          服务器和终端系统部署卡巴斯基安全软件。

3、          互联网和电子****外网使用迈普防火墙进行逻辑隔离。

(三)****内网

作为接入用户,安装****内网管理办公室提供的****安全管理软件。

五、人员、职责及工作开展

(一)人员

IT运维人员4,两人为中心职工,两人为外维人员。

(二)职责

承担全局网络运维、终端运维、机房和系统管理、系统安全管理及其他IT运维相关工作。

(三)            工作开展情况

1.上半年工作总结

1)网络维护: 219

2)          计算机维护: 762,其中软件577起,硬件167起,病毒18起。

3)开展用户满意度调查工作

上半年共进行IT运维满意度调查203非常满意99 %,基本满意 1 %,不满意 0 %。其中用户意见主要体现在响应时间方面。

4)建立IT运维台账

IT运维登记表

2.专项工作

                                      i.              机房搬迁和升级改造

           ii.      IT运维管理:优化、回收虚拟机资源,并对虚拟机按生产、测试、一般进行分组管理;完成IT运维管理目标分析、网络安全体系建设目标分析;草拟服务器密码管理制度、服务器密码修改及管理方案。

                                  iii.              ******规建局****系统网络建设和系统基础环境部署。

                                 iv.              ****系统安全测评及专网网络测试。

                                   v.              卡巴斯基安全软件及裸光纤租用服务采购。

                                 vi.              ****内网****业务数据报送FTP服务器搭建、日常维护和培训。


附件三

IT运维报表

一、 运维数据统计

 

二、事件分析

根据工作内容和IT信息技术发展现状,对本月工作总结如下:

1.XP系统已经停止更新

我局正在进行windows XP系统升级工作。

2.VMWare 虚拟平台优化及故障处理

虚拟机存在VMWare Tools 需要升级或者安装的情况,虚拟机资源分配不合理。

3.专网存储资源分配及应用不合理

1、LUN空间分配使用不合理;

2、光纤交换机端口资源紧张;

4、外网病毒问题

1、电信通知我局内部存在活动蠕虫病毒对外部网络进行攻击行为;

2、****外网门户网站被植入木马病毒。

三、建议

1.XP系统升级

继续进行XP系统升级工作。

2. VMWare 虚拟平台优化及故障处理

升级或安装VMWare Tools,合理分配虚拟机资源。

3. 专网存储资源分配及应用不合理

1、建议每个LUN空间使用率不超过75%;

2、起草《存储资源及应用管理规定》 。

4、外网病毒问题

1、建议所有外网服务器安装杀毒软件。


附件四

机房日常健康检查

骨干网端口:

备份检查

基础设施

工程师:               日期:

附件五:

附件六:

服务行为报告单统计报告

一、事件数量统计

表1

图1

二、服务评价统计

表2

图2

三、说明:从20##年12月开始使用《服务行为报告单》,共计231条记录,其中用户评价中:

1、“非常满意”229个;

2、“基本满意”2个,1个为313陈部长做出评价,对“响应时间”不太满意,原因为所需零部件没有库存,需要临时购买;

另一个为督察处刘静波做出评价,对“响应时间”不太满意,该办公室电脑需要更换电源,库存没有配件,需要临时购买;

3、“不太满意”0个。

附件七

 

第二篇:IT运维

IT运维 - IT运维

IT 运维管理是时下 IT 界最热门的话题之一.随着 IT 建设的不断深入和完善,计算机硬软件系 统的运行维护已经成为了各行各业各单位领导和信息服务部门普遍关注和不堪重负的问题.由于这是一个随 着计算机信息技术的深入应用而产生的新课题,因此如何进行有效的 IT 运维管理,这方面的知识积累和应 用技术还刚刚起步.对这一领域的研究和探索,将具有广阔的发展前景和巨大的现实意义.

IT运维 - IT 运维管理

所谓 IT 运维管理,是指单位 IT 部门采用相关的方法、手段、技术、制度、流程和文档 等,对IT 运行环境(如硬软件环境、网络环境等)、IT 业务系统和 IT 运维人员进行的综合管理. IT 运维管理主要包括七个方面的管理内容:

·设备管理:对网络设备、服务器设备、操作系统运行状况进行监控和管理;

·应用/服务管理:对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服 务的监控管理,如邮件系统、DNS、Web 等的监控与管理;

·数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;

·业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理, 主要关注该业务系统的 CSF(关键成功因素 Critical Success Factors)和KPI(关键绩效指 标Key Performance Indicators);

·目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;

·资源资产管理:管理企业中各 IT 系统的资源资产情况,这些资源资产可以是物理存在 的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;

·信息安全管理:目前信息安全管理主要依据的国际标准是 ISO17799,该标准涵盖了信 息安全管理的十大控制方面,36 个控制目标和 127 种控制方式,如企业安全组织方式、资产 分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等; ·日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩 效考核量化依据、提供解决经验与知识的积累与共享手段.

相关推荐