云计算背景下的IT运维管理挑战

云计算背景下的IT运维管理挑战

随着云计算发展趋势及周边网络环境、信息化管理观念的不断成熟发展,IT基础设施高度集中使得传统的IT运维管理变得越来越被动,也越来越复杂。IT运维管理已经成为横亘在云计算道路上的一大难题。

“向云进军”对于企业IT部门而言已经不再是一个口号,而逐步开始成为一个行动。IDC面向中国发布的《中国云计算基础设施建设指南》为那些“蠢蠢欲动”的企业用户提供云部署参考,同时,数据中心整体解决方案供应商也正致力于帮助用户向云端顺利过渡。但是随着云计算发展趋势及周边网络环境、信息化管理观念的不断成熟发展,IT基础设施高度集中使得传统的IT运维管理变得越来越被动,也越来越复杂。IT运维管理已经成为横亘在云计算道路上的一大难题。

网脊运维通SaaS(Software as a Service)模式理念,构建统一平台下支持多类型用户使用的基于SaaS模式的IT自动化运维平台。使用户在使用效果上与企业自有IT服务运维平台基本没有区别,但节省了大量用于购买硬件设备、技术支持和维护运行的资金,同时使得原来分散在不同区域多个机构孤立的信息有了信息共享的条件,使得用户能对分散在不同地方的IT系统进行控制、并及时了解相关信息。

运维通集成了简单、实用的监控、远程操作等实用功能,让普通用户无需购买、安装复杂的IT运维系统就可以享受在线的IT监控、运维系统,同时具备即时通讯功能的工单流转系统,可将用户、外包服务商、维护工程师等角色有机地整合在一起,是一个完全创新的基于SaaS模式的社交型IT运维技术平台。

同时结合网脊运维通的手机APP,用户可以随时、随地地了解自身IT基础环境、业务系统等IT资源的可用性、性能、安全事件等主要监控类别,结合手机APP上的一键通功能,用户可以方便地对远端机器进行硬件重启,预录制命令脚本执行等方便、快捷的一键运维功能。

运维通的设计背景主要是针对目前互联网上的设备、应用越来越多,而一般客户的运维技术人员多在公司本部,系统、设备多托管在远端机房,他们希望能有一套集成了远程连接、在线监控的自动化运维解决方案,同时可以很好地集成到手机APP上,随时随地对远端设备进行监控或者简单常用的快捷操作等功能,同时IDC托管机房也希望可以拓展自身的业务范围,不停留在低价竞争的机柜出租业务上,而是可通过运维通系统对用户提供系统、实用的监控、远程维护、工单流转/考核等功能,从而可持续性地提升用户服务体验,提高自身品牌的客户美誉度。

在线系统的监控、运维与普通运维解决方案看似有许多相似的地方,但其实还是有很大的不同,普通运维解决方案部署在本地,监控的设备数量有限,使用的用户数量也有限,但在线SaaS系统则明显不同,监控的设备往往是海量数据,一个普通IDC就有上万台设备,用户数量则往往过千,如果采用普通IT运维网管软件的设计是完全不行的,同时在SaaS模式下,整个监控是在公网上完成,用户对安全性要求比较高,如果采用插件的方式,用户也一定会比较抵制,总之,在线SaaS运维系统的设计有其自身的特定,我们在开发运维通过程中,遵循了以下设计原则:

? 弹性化架构

考虑到在线SaaS系统的运营特点,运维通的设计采用了高度可扩展性的云系统架构,整个系统分为三个层次,按需部署的收集器、管理服务器以及数据库集群,任何层面的设备都是采用负载均衡的方式工作,任何设备实效后会自动切换到相应的健康设备上。

? 高性能

网脊运维通的收集器,每台至少可监控、管理500台设备(主要是snmp协议特点,而

非运维通设计瓶颈),每台管理服务器至少可以管理30台收集器,一个2台管理服务器、60台收集器的小型运维通系统集群就可以很好地管理、监控3万台互联网设备,其性能指标是比较高的。

? 安全性

与完全运行在用户企业内部网络的本地监控系统不同,网脊运维通系统是为广大用户通过SaaS方式来监控、管理自身设备而研发的,所以网脊科技在开发过程中摒弃了其企业解决方案运维通的很多功能强大,但会牺牲安全性的监控项目和监控策略,用户设备无需安装插件,主要通过配置SNMP(支持V3)对特定的收集器的只读功能来实现监控功能,远程操作等通过配置IPMI的功能来实现,因为通过标准的网络管理协议来进行操作,与用户的业务系统是完全隔离的,安全性比存在后门的插件方式要强很多。

? 移动互联网

网脊运维通的操作,除了普通的web浏览器的工作方式外,手机APP的良好操作体验是比较重要的设计原则之一,我们将一些相对复杂的配置保留在web端,而查看、快捷远程操作等重要功能,我们在手机界面都很好地进行了拓展,用户可以很流畅地体验随身、随时对在线IT系统监控、快捷操作的易用、方便。

在IT运维管理流程方面,受调查者认为各部门IT系统管理无法统一协调是导致IT运维难题出现的最大原因,高达17%的受调查企业都出现此类问题。紧随其后IT运维管理团队得不到企业高管的支持,有16%的受调查者认为“高层管理团队不理解IT运维难处”。并有15%的受调查者认为企业的开发与运维管理脱节。

同样,在IT运维过程中,由于高管对于IT运维团队工作的不认可与不理解,接近五分之一(19%)的受调查者认为其缺乏培训和提高的机会。并且18%的受调查者在这选项中亦认为高管的不认可是造成IT运维难题的一大因素之一,并且13%的受调查者表示很难向上级汇报工作成绩。这三个因素所占的总体比例高达50%,是总体受调查者人数的一半。

上述这些问题如果不加以解决,必须将使得企业的云战略蒙上一层“阴影”。并且随着移动互联网的兴起,各种智能终端将陆续进入企业IT管理,如果传统的企业IT运维管理方案“不思进取”,必然将给企业的数据中心安全带来严重威胁。

“穷则思变”,这是亘古的历史规律。在海量数据来袭之际,IT行业正在掀起一轮新的技术变革,例如云计算、大数据。这些新兴技术的发展必然促使周边网络环境、信息化管理观念的不断随之发展,并趋于成熟。

现在很多国内的IT用户都在考虑如何把自己的业务部署到私有云或混合云环境中,以增强其业务的可扩充性及高可用性,从理论上来说,云架构可以提供更高可用性的IT基础环境,但实际上云计算不是万能的,最近亚马逊及Google的多次重大云故障说明,云计算环境除了系统层面以上的应用软件问题,其更加复杂的架构及资源池算法等因素,都需要更专业的监控管理工具及具备云计算知识背景的运维人员才能很好胜任云平台的高可用运维,但一般企业显然不能把他的运维团队搬到运营商机房去,这时候,运维通就有了用武之地。

 

第二篇:云计算

万网范春莹:基于云存储的IDC业务创新(2010-12-06 :35)

20xx年12月06日09:18 来源:中关村在线 欢迎发表评论0 字号: 12月4日,由阿里巴巴集团、阿里云计算以及phpwind三方联合主办的第二届中国地方与行业网站峰会将今在杭州海外海国际会展中心隆重举行。本届峰会以“创新 融合 发展”为主题,有来自全国各地的2500多名互联网从业人士、媒体和专家参与此次大会。

以下是分会场“无线应用与技术创新专场”万网副总裁范春莹演讲实录:

各位站长、各位云计算倡导者和推动者,大家下午好,我是中国万网范春莹,今天非常荣幸跟大家分享基于云计算、基于云存储的IDC业务创新,今年中国万网有一个非常重要的角色,就是跟阿里云一起合作推广适用于中国企业、适用于中国IDC环境的云计算应用。

在今年九月份互联网大会的时候,万网CEO已经对外宣布万网正式推出商用云计算,将会贯穿所有互联网基础服务应用,比如说云主机、云邮箱、云存储、云解析,还有基于云计算的CDN应用。

而且我们跟阿里云合作的第一款产品风云主机诞生了,我们非常看好云计算,云计算大背景下,传统IDC应用一定会面临变革和挑战,下面我分享一下IDC业务创新跟云计算之间的关系。

传统IDC都有很多纠结的问题,经常会让大家头疼,经常遇到这样的问题,比如说乱如麻绳的服务器连接,上万台的服务器,我们如何管理,比如说存量无法缩减,IDC空间不断扩大,流量每增加一部分,我们要多支付出更多的IDC成本作为代价,同样这些IDC服务器应用都在占用资源,网络并不能够均衡,经常出现季节性或者说周期性问题,我们所有应用都是按照峰值设计,这样无论对于运营商还是客户而言,这些应用都浪费很多资源。

最近几年很多人在推绿色IDC、绿色IT概念。第三种就是服务交付周期非常长,客户应用一旦发生变更,今天客户成长起来了,我们需要给他提供更多资源的时候,客户需要做数据迁移、业务重新部署,IDC由此涉及到增加服务器,存储不够就要用到集中存储,集中存储又会出现单点故障,我们要配standby集群。

在这种困境之下,云计算应运而生,虽然云计算有很多不同变形,但是最脚踏实地应用就是从这里开始,我们看到国外亚马逊这样的公司都是从IAS开始做起来的,从跟客户原来的痛直接相关,又能够帮助用户解决今天他认为痛苦的问题,这样的云计算才是我们现在最需要的。我们看到云计算与IDC业务相关的在这几点当中,有几点主要优势,降低运营成本,提升业务管理效果,第二点就是提高可靠性和承载能力,用了云计算之后,单点故障被消除了,可靠性就提升了,我们可以把多台计算机连接在一起,实现单点承载能力。第三个就是集群应用,实现规模效应、弹性扩展,这几点都是我们IDC在做这种业务的时候,能够有更大的扩展性,也能够提供更灵活便捷的服务。

在这种IDC应用当中,有这样的价值链条,第一个是降低成本,让利客户,这里涉及到资源高效利用、虚拟化加上按需付费,加上ITO,这样可以降低IT成本,让利客户。第二点,可以提高管理效率,使整体运营变得更可靠,我们通过集中运维管理,自动化生产,消除单点故障和数据冗余来实现。

今天万网所做的基于云计算IDC业务主要有么几项关键技术,有虚拟化技术、分布式存储、整体统一资源调度、智能管理平台,我们尽量把很多技术合在一起,打包成一个层面的技术组合,我们跟阿里云合作集中在这几个层面来做的合作。虚拟化技术让我们从根本上实现硬件整体可控,把硬件资源能够彻底打成硬件存在的逻辑单元,通过不同组合实现应用。分布式存储解决传统存储的劣势,第一是它的资源可以不断扩展,第二它不再像传统存储集群那么昂贵,我们是是每个企业用得起像EMC这样的高端设备,有了分布式存储,我们可以把任何一台PC对应的PC存储服务器作为硬件资源,追加到存储系统中,而不再需要购买非常昂贵的高端设备。

资源调度,当我们服务器到达几百台、几千台的时候,我们控制资源,实现最高效、最经济的管理,智能管理平台其实是为了更好的在IDC业务中实现监控管理、生产、商务这样一条龙整体控制,很多应用都跟IDC有关,但是我们今天专注在基础设施服务这个层面(IAS),同时完善平台服务工作,未来向中小企业提供更多信息化解决方案。

有了云计算优势,可以更敏捷的实现IDC运营管理平台,同时建立基于公有云的BGP网络,有了这样的全网布局,可以把用户流量导向对他最有利的带宽性价比最高的地方去,也就是说用户如果是从电信方面访问,我们可以给他电信资源带宽,如果通过网通,我们可以导入到网通带宽资源里,实现云计算跟CDN的结合,同时实现就近访问,我们创造出本地化服务,让客户通过离他最近的地方访问到他的应用,这样他就不用在中国这种互联互通不是很好的环境下,享受一种比较畅快的网络服务。

现在万网IDC服务主要有以下几个层面,第一个是全面高效的监控平台,其中万网做了很多基于IDC的监控,比如说全网监控、网络流量监控,还有设备、主机、操作系统,同时我们推出基于CDN和负载均衡的产品,第三是全方位的安全防护和立体防御体系,最后是整个万网上的安全架构。

这里面设计到安全主要有网络安全、数据安全和信息安全三个层面,万网在全国部署了一个比较庞大的网络监控体系,在这个网络监控体系当中,我们在每个城市都安插了一个IDC结点客户端,这些结点客户端每时每刻都会向我们监控中心汇总他们的监控数据,通过集中监控中心,可以看到全国甚至还有全球很多重要结点他们对万网IDC访问速度到底是如何,所以通过这种监控,我们可以实现对带宽的有效选择,包括对线路分析和决策,最后实现对全网的线路层面优化。

IDC云计算资源统一管理平台,我们有八个结点在这个管理界面统一管理,通过这个界面,我们把每一个IDC结点通过这张图体现在整体的资源管理平台上,每个点可能有几千台服务器,每个服务器分成若干个虚拟机,这样对于云计算的虚拟机和应用做控制。

我们把某一台服务器展开之后,会看到会有很多虚拟机,再进一步分析,可以看到虚拟机的一些网络带宽和CPU内存使用情况,同时我们通过远程桌面管理这台服务器,这样我们能实现若干个虚拟机在不同IDC的动态资源平衡。

现在万网已经推出跟阿里云共同合作打造的一款云主机,这是真正意义的基于虚拟化技术和分布式存储来做出的云主机。当时我们制定一个口号,大概有四句,叫做永不宕机、百

毒不清、我们希望推出一款云主机,超过五个9,能够实现对客户的永不宕机。

瞬间升级就是说让客户不用迁移程序,不用改变自己应用部署的情况下能够获得更多的各种计算和服务资源。

百毒不清,我们在这个云主机里面实现天然的防护,同时又把每一台云主机对外通过抗DDOS攻击的设备做安全防护,能够有效实现防止对DDOS的流量清晰。

高性价比,我们承诺同等价格,云主机资源更多,或者同样的资源,云主机价格更低,我们明年年底将把云主机做成按需付费模式,彻底降低进入门槛。

在明年我们会逐渐推出以下服务,比如说企业邮局服务,现在我们也在跟阿里云合作,在做企业邮局应用,未来邮局也会建立在云计算平台上的邮局,就像云计算的SAAS应用,实现底层完全分布式存储,同时有很多云计算优势展示在云邮局里。

我们适时推出云存储,能够推出比较独立的基于某些协议的存储服务,未来可能会有更多的云计算应用,建立在云主机和云平台上,让我们拭目以待。

相关推荐