Sun Server(tz01-1)巡检
I. 机房环境评估
II.系统运行状态及性能评估
1、物理设备及状态灯检查
描述:有时候物理设备的检查也能直观的反应出系统运行的状态。观测设备状态灯为最直接、最快捷的主机诊断方法,设备状态灯一般分为电源灯、运行灯和故障灯,其中电源灯和运行灯为绿色,故障灯为黄色。
?
辉电要求和建议:主机/存储运行时物理状态的检查以及运行时面板上有数字显示,故障灯亮,说明系统有故障。建议客户每日检测系统状态灯,并记录。
1
评估:□√正常
□异常
2、诊断系统主要部件状态
描述:检测系统主要部件的配置数量,诊断其运行状态。
辉电要求和建议:建议主要检测的部件有:CPU、内存、系统板、I/O板卡、系统其他扩展卡、硬盘、磁盘阵列、磁带机、磁带库。检测各部件配置是否有更改,是否有故障。
评估: 系统板、CPU、内存、I/O板 □正常 □异常
系统I/O卡和其它扩展卡
硬盘、磁盘阵列 磁带机、磁带库
□正常 □异常 □正常 □异常 □正常 □异常
评估: □√正常 □异常
3、系统登录测试及配置检查
描述:从主控制台登录到主机服务器
辉电要求和建议:检测系统主控台登录是否正常,以CDE图形界面登录或以字符方式登录,检测系统状态。对照维保服务合同配置清单,检测主机名、操作系统类型及版本、CPU数量、内存大小、硬盘个数及容量。
2
评估:□√正常
□异常
4、系统日志报告的检查
描述:操作系统有后台进程记录系统所有的操作信息和故障记录,检查系统日志报告是主机主要的诊断方法,同时一般主机设备有告警或执行非正常操作时,系统会对管理用户(root)发送告警email。
辉电要求和建议:建议客户每日检测系统日志记录和管理用户的邮件信息,并记录。观测是否有错误或告警信息。
评估:□√正常
□异常
5、文件系统检测
描述:文件系统运行正常,是主机系统正常运行的根本。‘#fsck’和‘#df –k’是最常用的标准unix文件系统使用情况的检测命令,%Used为文件系统的使用率。
辉电要求和建议:所有文件系统的使用率(含inode使用率)不能大于80%,否则会影响系统性能和操作系统的正常运行。如果发现有文件系统的使用率大于80%,请清理删除垃圾文件,或
3
评估:□√正常
□异常
6、系统性能数据收集与分析
描述:对主机性能分析主要对系统四个方面的资源利用情况的数据进行数据收集和分析:CPU、Memory 、Disk I/O 和 Network。
4
网络检测
描述:检测网卡的状态,常用的标准unix命令:‘#ifconfig –a’ 检测主备网卡的flag为UP属正常,同时检查ip地址和netmask是否正确。
评估:□√正常 □异常
辉电要求和建议:
将用“sar -u”、sar -q”和“vmstat”命令收据CPU资源使用信息,判断是否存在CPU资源瓶颈。如果CPU 的使用率长时间(2-4小时)超过90%,或idle 项小于10%, run 项的显示参数超过系统CPU数量的4倍,表示CPU存在资源不足,需要调整系统应用或增加CPU数量。
将用“sar -w”、“sar -g”和“vmstat”命令收据memory资源使用信息,判断是否存在内存资源瓶颈。如果sr 项太高 (over 200 pages/second averaged over 30 seconds),或者在sar -w 命令中可以看到swapping activty 项,则表示系统存在内存使用瓶颈,需要调整系统应用或增加内存数量。
采用‘sar –d ’ 和“iostat”收集数据,分析 Disk I/O 利用率。如果任何硬盘的busy 参数超过 60%,应该考虑硬盘负载均衡的问题,如采取RAID 0 (striping) or RAID 1+0 (mirror + striping)以提高系统性能并均衡负载。观测数据时,应确认任何硬盘的busy 参数不应超过 90%。有必要查看应用系统对系统资源的应用情况。
“netstat”用语判断主机系统网络运行情况,如果Collisions/Opkts > 5%,表示需要更换更快的网络设备或划分出更小的子网网段。如果Oerrs/Opkts > 0.025%,表示可能存在网络硬件故障,需要更换硬件,如果Ierr/Ipkts > 0.025%,表示需要增加网络端口的receive buffers的配置参数。
客户可以自己定义数据采集的取样时间间隔和数据收集时长,并将结果输出到结果文件中,提交给辉电公司分析。用户也可以采用操作系统自带性能检测工具:# nmon ; # topas 等实时监控。
评估: □有性能瓶颈
□无性能瓶颈
5
7、检测系统资源使用限制
评估:□√正常
8、安全性措施:镜像、备份和恢复测试
描述:数据是客户的无形资产,关系到企业的正常运作和生存。客户必须有经过测试的、完整的备份和恢复方案
辉电要求和建议:在本次巡检时,实施系统备份、应用备份、数据备份。有条件的情况下,进行恢复测试,并记录整个备份恢复测试的过程和时间。这样才能充分、精确的估计可能的宕机时间,采取有效的措施预防。
□异常
6
评估:□√正常
□异常
9、系统清洁
描述:检查系统的风扇、电源及各通风孔,确定是否需要清洁。
机器清洁(根据需要清洁机器各部件) □已清洁 □不需要
评估:□√正常 □异常
辉电要求和建议:本公司将在每次例行巡检时,收集当前系统的配置信息,并进行归档,存入公司客户资料库
评估:□√正常 □异常
现场工程师签名: 陈晓敏 客 户 签 名:______________
时 间:_____________ 时 间: _______________
7
服务器巡检报告
GCIGC6F3编号DGGLXC004巡检时间20xx041913注本表一式三份一份由项目管理中心存档一份由项目部留存一份抄送集团…
IT系统巡检报告年月日项目名称客户名称实施地点实施单位1前言11巡检目的为保障重庆瀚置管理顾问有限公司IT系统的平稳运行将按重庆瀚…
永城保险公司系统常规性巡检报告单神州数码科技有限公司20xx年4月目录概述3主机及操作系统常规配置检查4oracle数据库常规参数…
项目巡检阶段评估报告编号一巡检组织情况二项目概况三项目现场检查情况四项目检查各部门意见及措施五项目综合检查评估意见及措施
Windows系统巡检报告一服务器巡检的重要性windows服务器是系统重要的业务运行平台对服务器进行巡检能够及时发现服务器的隐患…