篇一 :linux服务器故障之运维经验总结

服务器故障之运维经验总结

作为一个运维人员,遇到服务器故障是在所难免的,要是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档,基本上这过程都会惨痛到让我们留下深刻的记忆。当出现此类问题时,应该如何处理?本文给大家详尽的分析了一下,一起来看看。

我们团队为上一家公司承担运维、优化和扩展工作的时候,我们碰到了各种不同规模的性能很差的系统和基础设备(大型系统居多,比如CNN或者世界银行的系 统)。要是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档,基本上这过程都会惨痛到让我们留下深刻的记忆。

遇到服务器故障,问题出现的原因很少可以一下就想到。我们基本上都会从以下步骤入手:

一、尽可能搞清楚问题的前因后果

不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况。不然你很可能就是在无的放矢。

必须搞清楚的问题有:

故障的表现是什么?无响应?报错? 故障是什么时候发现的? 故障是否可重现? 有没有出现的规律(比如每小时出现一次) 最后一次对整个平台进行更新的内容是什么(代码、服务器等)? 故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)? 基础架构(物理的、逻辑的)的文档是否能找到? 是否有监控平台可用? (比如Munin、Zabbix、 Nagios、 New Relic… 什么都可以) 是否有日志可以查看?. (比如Loggly、Airbrake、 Graylog…)

…… …… 余下全文

篇二 :一个萝卜一个坑:短网址开发运维经验总结分享

每个萝卜下都隐藏一个坑。

前段时间955短网址日重定向次数最高达400万,主要开销是重定向请求的用户数据储存与分析。分别经历了内存瓶颈、IO 瓶颈后,高峰期达到 CPU 上限,几乎榨干了机器,下文是经验总结分享。如何挑选域名

前置条件

由于短网址很难盈利,硬件特别寒碜,带着镣铐跳舞反而别有风味,当然,人力投入,技术方面也不能和其他大网站比,所以如果要拍砖请轻下手——哎哟。

我们采用的硬件: 盛大云微型,1G内存,单核共享型 CPU。 后期追加了一个同等配置的内网机器做 MongoDB replSet。

Startup 硬件成本:

既然项目本身基本没法带来收益,要生存就只能充分压榨硬件,大胆使用新技术。根据国内云的计费方式,一般收费的维度是

内存:使用异步模式代替同步多进程。

带宽:2M双线,301并不需要太多的带宽开销

硬盘:云硬盘,按容量收费

CPU:单核

由此我们做了对应的技术选型:

Nginx:无需多说了吧?

Tornado:Facebook 开源的 python异步微框架

…… …… 余下全文

篇三 :网站运维经验总结

网站运维之道

关于可用性

这是前一段时间投稿给《程序员》的一篇文章。标题中的"道"有些大了,您可以理解为"门道"的"道"。一家之言,妄自言道,诚可笑也。

什么是网站运维(Web operations) ?运维,绝不是某些人眼中安装系统、做几根网线那么简单? 除去应用开发和业务运营之外的保障网站能运转的事儿都可能是运维工作的职责范围。运维的工作包括(但不限于) 软硬件部署、网络管理、应用程序维护、安全、容量规划、故障修复等等。

运维,有别于"运营"。在中文的语境中,运营更多和业务结合在一起的。而运维,则是偏向技术层面。

任何一个成功的站点都离不开一只优秀的运维团队,尽管他们更多时候隐身在网站背后不为人知。

网站可用性

所谓网站可用性(availability)也即网站正常运行时间的百分比,这是每个运营团队最主要的 KPI (Key Performance Indicators ,关键业绩指标)。对于 Web 站点来说,传统的那个 24x7 的说法已经不是很适用了,现在业界更倾向用 N 个9 来量化可用性, 最常说的就是类似 "4个9(也就是99.99%)" 的可用性。看一下表 1 能更为直观一些。

…… …… 余下全文

篇四 :IT运维工作心得总结

运维工作心得总结

运维工作直接关系到应用系统运行的正常稳定,但运维工作纷繁复杂,正规化、系统化相对比较弱,如何改变这种现状?从众多的运维工作者的成功失败中进行经验总结,并提升为运维规则,是提高运维水平,保障应用系统正常稳定运行的有效途径。

笔者通过自己的多年运维经验,总结出以下必须遵守的基本运维规则,可以大大减少缺乏经验的运维人员因为自身失误导致系统出故障的可能性。

一、系统变更、升级应先在同样的环境测试通过,执行前应有经过验证的回退预案

运维是一门经验的学科、是一门试错的学科。没有做过的东西、总是会给你出意想不到的难题,因此变更前,一定要在相同或者相似运行环境下进行测试,通过后才能在正式环境下执行变更。同时应准备好变更失败的回退预案,比如,做好系统备份、数据库备份、配置备份,固化变更前的运行现场,让变更有回头的机会。

二、对破坏性的操作要先确认符合预定方案,然后谨慎执行 什么是破坏性的操作?

比如:

对MSSQLServer,执行update操作,因为不需要commit,所以特别容易忽视也特别危险,还有delete、drop等操作更不用说。

对 Oracle 而言:truncate table_name、delete table_name、drop table_name,这些语句执行起来轻松简单也惬意极了、但记住!即便数据可被回滚、代价也是非常大!

…… …… 余下全文

篇五 :IT运维年终总结

运维服务工作总结

至20##年底,银海科技有限公司在蓝湾科技有限公司的运维又届满一年的时间了。在这为期一年的运维工作当中,运维的业务飞速发展,设备数量不断增加,人员的技术水平和业务知识有了显著的提升。我们的队伍在技术水平上也有了本质的提高。

一、 细致缜密的完成计划中的日常运维工作: 严把质量;服务至上;严格要求;技术领先。 

1.各位领导就对我们的运维工作给予厚望,我们提出认真完善服务水平的方针。我们在服务过程中严格按照这一要求,以对保障用户的权益,对用户负责的精神,把“严把质量,服务至上”的原则贯穿于日常工作的各个环节之中。使本运维期过程中的客户满意度有了非常显著的提高,多次获得了用户的认可。 

2. 对于在工作中我们树立新要求、新方案,本着“严格要求”的原则,对于提出的要求科学性的分析研究,及时提出完整周密的解决方案。有力的保障了运维工作的及时有效性。 

二、 吸收先进经验,保质保量的完成运维的各项任务: 运维期内主机、服务器、网络和桌面均没有发生严重的生产安全事故,对于一些潜在的威胁也都在得到信息技术部门的批示下,审慎周密的完成了整改工作。运用先进的技术和经验提高劳动效率和运维工作质量: 

…… …… 余下全文

篇六 :IT运维工作总结与描述

20xx年6月份工作总结

6月份 IT运维概述

本月工作中,运维服务正常,所有电脑设备处于良好状态。保证服务质量,提高各科室人员对本月IT运维的满意度。对工作负起责任,任劳任怨,遵纪守法,服从管理,体现自我价值,为***提供更好的服务。以下是6月所有故障进行总结分析和情况描述。

1、******IT运维服务共49次

本月IT运维服务工作中,统计数据如下:

办公系统故障:6次,出勤:2次,打印机/复印机:9次,电脑故障:9次, 中普数据:8次,其他故障:15次。

IT运维工作总结与描述

2******维修及耗材情况

IT运维工作总结与描述

IT运维工作总结与描述

(以上不含复印机耗材及易耗品)

5月份添加打印耗材6次总费用为:2660元 5月硬件维修2次总费用为:3130元 6月份添加打印耗材1次总费用为180元

3

4、IT运维服务描述和说明

一、盘点电脑资产,合理分配电脑资源

结合5月份所做的电脑资产盘点中,将年限已到期电脑进行帐上报废。由于6月份是重新续约,需对单位所有电脑设备进行清点,并分类设备哪些处于保修期内,或保修期外。共清点电脑主机:125台,显示器:141台,笔记本电脑:61台,打印机:55台。其中保修期内设备共有:142台,保修期外设备共有:252台。在4月份,本单位进新采购电脑30套(清华同方),打印机5台(OKI820B黑白)。为保证各科室日常办公和******需要,对******科室增加新打印机5台,目前使用状态良好。清点在本年报废年限已到的电脑共有38台,后期将在不影响用户使用的情况下进行更换。

…… …… 余下全文

篇七 :IT运维经验小结

工作上事情太多,难免繁琐,难免被人抱怨,被人投诉。仔细想想,需要改进的地方的确很多。

毕业四年多了,从最基础的windows局域网维护,后来学习active directory,isa,exchange。后来去考CCNA,想从事网络方面的工作,发现CCIE实在是难学,需要太多的时间和精力,当然费用也不低,于是去考了MCITP。回想起来,的确走了不少弯路。来到新公司一年多了,事情比以前更多,系统开发、服务器维护,网络架构规划,这些东西都要一个人来做,的确很磨练人。

简单说一下IT运维人员常犯的几个毛病,总结如下:

1. 态度不好。IT运维人员通常每天都会遇到大量同样的问题,可能一次俩次大家都能够微笑的面对,次数多了,就开始不厌烦了,开始出现轻慢,甚至不想处理的情况。 应对办法:设身处地的想一想,把自己的同事当成自己的客户,客户就是上帝,得罪了客户,你还要不要在公司继续干下去?记住,微笑是传染病。

2. 抱怨用户太傻。本人自己以及很多IT朋友都有过抱怨,说公司某某同事那个笨啊,显示器没有开居然说电脑黑屏,更有甚者,所有问题的责任都推到IT人员身上。

应对办法:我们必须明白一点,企业信息化是一个长期的过程,就算让所有同事学会简单的IT知识,也是需要时间的。作为IT运维人员,我们必须采取有效的手段和方式,一方面加强对用户的服务,另一方面加强IT培训。比方说,我们可以制订IT管理制度,发

…… …… 余下全文

篇八 :运维服务工作总结

天津体育频道运维服务工作总结

至20xx年x月底,新奥特(北京)视频技术有限公司(China Digital Video (Beijing) Limited)在天津电视台的运维又届满一年的时间了。在这为期一年的运维工作当中,天津运维的业务飞速发展,设备数量不断增加,人员的技术水平和业务知识有了显著的提升。我们的队伍在技术水平和管理经验上也有了本质的提高。

一、 细致缜密的完成计划中的日常运维工作:

严把质量;服务至上;严格要求;技术领先。

1. 承接天津体育网的运维项目,公司各位领导就对我们的运维工作给予厚望,并提出了认真完善服务水平的方针。我们在服务过程中严格按照这一要求,以对保障新奥特(运维部)的发展,对用户负责的精神,把“严把质量,服务至上”的原则贯穿于日常工作的各个环节之中。使本运维期过程中的客户满意度有了非常显著的提高,多次获得了用户的认可。

2. 对于在工作中新奥特(运维部)提出的新要求、新方案,我们及时相应配合,本着“严格要求”的原则,对于提出的要求科学性的分析研究,及时提出完整周密的解决方案,并拟请用户试行或测试后实施。有力的保障了运维工作的及时有效性。

3. 对于提高服务业务技术水平上,按照信息技术部的统一规划,按时完成一系列的既定培训计划。按照“技术领先”的原则,通过技术上的培训提高了业务水平和解决故障的效率;通过制定有效的安全

…… …… 余下全文