来自 服务器&运维 2019-09-27 11:02 的文章
当前位置: 澳门三合彩票 > 服务器&运维 > 正文

据此要搞好大型数据核心的运行职业,能够运用

数据中心要保持稳定的运行,需要大量的专业技术人员。一般承担重要业务的数据中心都是有人24小时值守,无人值守的数据中心一般只能承担不重要业务,完全无人管理维护的数据中心几乎没有。所以数据中心日常维护工作烦琐,但又很重要。随着人们的工作生活对数据的完全依赖,承载数据计算、运行的数据中心正发挥着越来越重要的作用,这更突显出维护工作的重要。

本文转自51CTO博客博主滴水穿石孙杰,如有任何问题,请进入博主页面互动讨论。

博文链接:http://xjsunjie.blog.51cto.com/999372/1695653

当一个数据中心建成投产后,维护工作就开始了,一直到数据中心的生命周期结束。一般我们可以将数据中心的维护工作分为四大类:一是日常检查类;二是应用变更、部署类;三是软、硬件升级类;四是突发故障处理类,下面就来详细说一说这些维护工作,让大家对维护工作有个了解。

什么叫数据中心?维基百科给出的定义是“数据中心是一整套复杂的设施。它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置”。在云大行其道的今天,随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心变得越来越复杂。大型数据中心往往是由很多功能不一的单元系统组成,其运维工作需要具备方方面面的知识,包括硬件、网络、服务器、存储、安全以及业务上的东西,需要一体化联动地去做好运维工作。

澳门三合彩票 1

澳门三合彩票 2

日常检查

澳门三合彩票,当一个数据中心的规模非常大,其面临的技术挑战和问题也会比较多,很多在小环境小体系下不是问题的问题在这样的规模下也就凸显出来了,所以要做好大型数据中心的运维工作,对整个数据中心方方面面涉及到的技术体系都要花费较长时间来进行系统学习,只有对这个数据中心整体非常了解,才能有针对性地制定一些运维方案,自己结合特定需求进行开发一些监控运维软件,对整个数据中心进行高效管理与监控,提升整个数据中心的运行效率、减少故障的发生,从而将运维工作不断推向新的高度。

“千里之堤,溃于蚁穴”。任何的故障在出现之前都可能会有所表现,小的隐患不消除,可能导致重大的故障出现,所以数据中心日常的例行检查工作枯燥,但也很重要,可以及时发现一些运行中的隐患。根据数据中心承载业务重要性的不同,要对数据中心里的所有运行的设备进行例行检查。一些数据中心设备厂商提供了检查软件,比如网管软件,安全防护软件等。可以利用这些软件对数据中心网络进行检查,看日志是否有异常告警,网络是否出现过短时中断,端口是否出现UP/DOWN等。通过网络探测软件看网络质量如何。检查服务器应用服务是否正常,CPU内存等利用率是否正常。对应用业务进行检查,比如如果有搜索业务,就可以通过服务器进行单词搜索,看搜索的结果和延迟是否在正常的范围之内。这些检查每日都要重复检查,一旦有异常及时处理与消除,必要时将重要业务切换到备用环境中,然后排除后再切回。

一个大型的数据中心内部往往都包含了很多小系统,运维工作都是围绕着这些具体的应用系统展开的,具体的可以分为基础运维管理、日常业务运维、网络、服务器、存储、安全六大部分,本文就来说一说一般大型的数据中心应该具备的哪些运维方法和能力。

对数据中心的机房环境也要进行检查,环境的温度、湿度、灰尘是否合乎要求。空调、供电系统进行运行良好,设备运行是否过热,地板、天窗、消防、监控都是检查的部分。不合理的地方要及时进行整改,而不应该偷懒。经常到一些数据中心,就会发现值班维护人员很多都抱着电脑在浏览网页,打游戏。对于日常检查应付一下,甚至根本不去检查,只要没有出现故障,就打游戏消耗时间,这样数据中心出现故障是迟早的事。一旦出现故障就毛手毛脚,甚至哪个业务走的哪个设备,哪个端口哪个网线都不清楚,本来一个小故障可能因为不熟悉导致大故障,因此日常检查绝不能应付,虽然需要不断重复,但却很重要,在持续的检查过程中,将会对数据中心的理解越来越深,这样每次检查都会有新的发现,在检查中进行学习。

首先从数据中心的基础运维管理方面来说,则主要有硬件配置管理、可维护性优化、监控、报警处理、自动化运维、断网,断电、机房容灾等运维工作。硬件配置管理包含机柜里每台服务器的型号和硬件配置,并清楚是哪些业务系统在使用这些服务器。即便是虚拟化运行环境,也需要知道这些虚机都在哪些物理机组成的资源池中流动。数据中心物理机和虚机数量都很庞大,使用自动化运维是非常有必要的。自动化运维不仅能提升运维的工作效率,还可以减少人为的参与,同时让数据中心自己管理自己,释放人力。并对数据中心可能发生的故障还做好监控与报警处理,以便能够在故障发生的第一时间知晓问题,往往一次大的故障都是从开始的一点小故障逐渐扩展最终引发整个大系统的崩溃的,所以在出现一些小的异常时一定要及时消除,而这些异常就要靠完善的监控和报警系统来检测。

应用变更

从数据中心的日常业务运维方面考虑,则主要有日常检查、应用变更、软硬件升级、突发故障等。具体来说:1、日常检查:“千里之堤,溃于蚁穴”。任何的故障在出现之前都可能会有所表现,小的隐患不消除,可能导致重大的故障出现,所以数据中心日常的例行检查工作枯燥,但也很重要,可以及时发现一些运行中的隐患。根据数据中心承载业务重要性的不同,要对数据中心里的所有运行的设备进行例行检查。检查服务器应用服务是否正常,CPU内存等利用率是否正常。对应用业务进行检查,看业务运行是否正常。还有对数据中心的机房环境也要进行检查,环境的温度、湿度、灰尘是否合乎要求。空调、供电系统进行运行良好,设备运行是否过热,地板、天窗、消防、监控都是检查的部分。空调漏水、设备漏电都会对数据中心正常稳定运行产生危害,千万不可大意。2、应用变更:数据中心承载的业务不会是一成不变的,随着业务的多样化和不断发展,经常要对业务进行调整,包括服务器和网络的设置。因此要对服务器和网络设备操作很熟悉,主要需要掌握Linux服务器命令和网络协议。要根据应用的需要,及时准确做出变更。3、软硬件升级:数据中心的设备一般运行周期是五年,不断地有设备需要逐渐淘汰进行更换,也有一些设备因为存在软件缺陷需要升级,因此软硬件升级也是维护工作的一部分。软硬件升级时需要做好回退机制,以防升级出现问题时无法回退,业务长时间无法恢复。当接手数据中心维护工作就会发现,怎么会有那么多的升级,几乎每个月都要有升级操作,熬夜升级工作成了维护人员的家常便饭。4、突发故障:没有任何一个数据中心是不出故障的,在数据中心运行的过程中都会出现这样那样的问题。对于突发故障,高水平的维护人员可以静下心来冷静分析故障的触发原因,迅速找到解决的方法,如果在短时间内找不到解决方法,也可以通过切换到备用设备上先恢复业务,再进行分析。这时拥有高水平的维护人员对于一个数据中心至关重要,在关键时刻就能派上用场。虽然这些工作看起来有些平常,但千万别小看它们。数据中心日常维护工作实际上非常重要,关乎着整个数据中心业务的正常运行。只有重视数据中心的维护工作,才能给数据中心一个平安。

本文由澳门三合彩票发布于服务器&运维,转载请注明出处:据此要搞好大型数据核心的运行职业,能够运用

关键词: