正在阅读:武汉IDC机房远程电源控制实际案例解析武汉IDC机房远程电源控制实际案例解析

2008-03-24 09:40 出处: 作者:唐华 责任编辑:gongjianhui
1名牌远程控制卡回顶部

  

  说来好笑,作为主机托管商,一般平时的售后工作最主要的就接电话重启服务器,然而就这么个简单的工作,想要做到人人满意也不容易。很多客户抱怨机房服务怠慢,响应不及时,重启一次少则一刻钟慢则半小时,如果遇到节假日人手少服务更打折扣。

  为什么会发生这种情况呢,究其原因,主要是中间环节多,人工效率慢。托管机房里的服务器数量很大,数以千计,发生死机的机率较高,对机房中数量不多的管理员来说,每天需要重启的工作量是非常之大的。客户发现死机后要先通知托管商客服,再由托管商客服联系电信的机房管理员。接着管理员需要首先查到该服务器所在的机柜位置,然后进入充满幅射的、面积很大的机房,有时可能还要小心绕过机房内密密麻麻的线缆,才完成这一简单的重启工作。中间环节消耗时间较长,人为出现失误的机率也较高,加之系统软件重启本身所需时间,在大型机房里,即便各个环节配合默契,一刻不耽误贯彻下去,到最终恢复访问,一般也需要等待15分钟以上,有托管服务器经验的朋友其实都清楚,实际等待往往更久,就说老唐自己每次叫机房重启服务器,等半小时没反应是常事,如果遇到服务器反复死机,那就更受煎熬了,管理员一不耐烦,晾你一边,或者直接叫你过去自己解决,那就惨了。

  因此重启服务质量往往成为客户投诉的焦点,“你们托管商主要不就是负责死机时候给重启一下嘛?怎么这点儿事都干不好啊?怎么要等那么久啊?”“你知道老子服务器停一分钟要损失多少钱嘛!”等等。然而,尽管怨声载道,但这方面服务多年来却未见到明显改观,托管商也是有苦难言,从放下电话就马不停蹄办事,还是不能让客户满意。

  网络安全行业门户站“315安全网(315safe.com)”CEO祝华对我说过,一般托管机房的管理员,每天在实际工作中,基本上会有将近50%的服务事件就是耗费在重启服务器这种毫无技术含量,却又不得不为之的工作上。有时候一不小心因工作忙碌遗忘或处理不及时,常常接受到托管用户愤怒的投诉,如果遇到同一服务器反复死机,重复劳动。使得死机重启已经成为IDC托管商和用户最大的心病。

  “零等待重启”很早就有人提出过,简言之就是希望能做到随时都能够给客户快速重新启动机器,而且不用客户电话催促,瞬间就能解决。但是并没有普及开来,因为事实证明,单纯靠人力维护,想要实现“零等待重启”确实存在困难。如何才能克服这个困难,提升服务质量呢?很多托管商从设备、技术、服务流程等方面想了很多办法,前面提到的315安全网CEO祝华先生就是一例,他很早就开始经营IDC托管业务,一直在寻找各种方法来缩短死机重启服务的等待时间。下面就来看看他都想过那些办法:

  名牌服务器上的远程控制卡曲高和寡

  祝华说,纯粹依靠软件远程控制无法操作服务器在死机状态下重启,死机时只能采取硬件重启的方式解决,机房管理员为了确保重启生效,往往很少使用服务器上的RESET按键,而是按下POWER按键,待关闭电源后再开机实现这样一个过程。当初我在网上找了很多技术方案文章,得到最多的一个远程硬件重启方法就是——“网卡远程唤醒”。也就是远程唤醒技术(WOL,Wake-on-LAN) 是由网卡配合其他软硬件,可以通过局域网实现远程开机的一种技术,无论被访问的计算机离我们有多远、处于什么位置,只要处于同一局域网内,就都能够被随时启动。通过测试发现,目前几乎所有的服务器主版都集成有WOL功能的网卡,通过在另一台计算机上安装MAGPAC软件测试的确可以让目标服务器从关机状态启动然后再关机,但是“网卡远程唤醒”必须在服务器处于关机或者正常运行的时候才能起效,而当服务器死机的时候,用WOL技术就无法实现开关机了,因此这个方案肯定是不行了。

  后来我们发现在购买的某些进口名牌服务器上,带有一个扩展模块:远程控制卡。DELL的 1950系列服务器里就自带了DRAC这个模块。可以提供远程控制台链接,实现远程硬件重启。方便是方便,但是这个卡有两个缺点,一是价格比较贵,网上找了下,光这块卡就得600多,如果部署多台服务器成本太高;二是兼容性不好,似乎是专门为某些品牌服务器订做的,一般DIY的服务器无法使用。客户托管的服务器参差不齐,肯定不能说统统给他们装上这样一块卡,更何况造价不菲,这样下来成本太高了,肯定无法实现。放弃!

  下图就是好东西“远程控制卡”,是PCI-E接口的。

  

远程控制卡

远程控制卡

  该卡安装在1U机箱内,要使用专门设计的PCI-E转接卡,比较难找到(和市场上常见的PCI-E转接卡不同)。

  

专门设计的PCI-E转接卡

专门设计的PCI-E转接卡

2传统NPM网络电源控制器回顶部

  传统NPM网络电源控制器存在不足

  后来又百般搜索,终于找到了一个好的设备: NPM(网络电源控制器),管理者可通过局域网或广域网连接到这个设备,从而可对分布安装在世界各地机房机柜内N台设备的电源进行监测、控制和管理。刚开始看觉得新鲜,功能真不少:通过TCP/IP方式实现管理,用户可以在地球上任何地点,轻松的重新启动和管理控制您机房内的数据设备;用户可在一个集中界面上对其权限管理范围内的服务器或其他数据设备进行状态查看或控制等管理;用户可对运行中的服务器或其他数据设备进行主动侦测,如果发现服务器应用服务停止或网络设备运行当机发生故障,远程电源集中管理控制系统能根据预先设定的方案进行自动重启解除故障等等。但是仔细一琢磨发现实用的功能并不多,感觉更像是给采用AT电源供电的工控机准备的,不是很适合服务器托管领域。

  归纳起来,主要有以下几方面不足:一是,NPM是直接切断电源插座供电来关闭主机再接通电源唤醒,这就要求服务器主板必须带有来电自启动功能,然而现在很多主板不支持来电自启动;二是,NPM的外观实际上和一台1U或者2U服务器相仿,在机房里要占用单独的机位空间、单独的电源线,甚至还要占据一个独立的IP和交换机端口!在寸土寸金的机房里,这占用都是白花花的银子啊,如果不是自己包租的机柜,部署这个东西,还要缴纳一份主机托管费,这点太让人难以接受了;三是,机柜必须重新走电源线,走电源线可比走网线复杂多了,都是220高压电,线缆也很粗不好安置,一般机房基于电气安全考虑还不愿意这么做;四是,价格吓人,问了几个厂家,八口的控制器动辄报价上万元,最便宜的一家报价一个八口的控制器要5000多,这样的电源管理,一个机器起码增加了500多块的服务成本,在价格竞争惨烈的今天,这么做简直是疯了,不太适合数量众多的中低端客户;五是,如果使用像千际“双响炮”1U机箱这样的装双主板服务器,一根电源线连2个服务器的话,控制就非常不方便,必须两台服务器同时切断电源,不能实现无干扰的分别重启。

  NPM的种种不足,让我最终还是没有选择它。

  请看这就是NPM网络电源控制器,外观太大,需要占用1U以上的机柜空间和独立的网络端口、IP地址、电源线,如果不是自己租用的机柜,还要为它缴纳一份不菲的托管费。虽然有些NPM声称可以竖立悬挂安装在机柜前面的空间里,但是依然很碍事,很多机房也不允许那样安装,会妨碍其他服务器的管理操作,况且单独的IP地址和电源还是不得不占用的。

  

NPM网络电源控制器

NPM网络电源控制器

NPM网络电源控制器

NPM网络电源控制器

3千际NPC回顶部

  低廉高效的机房电源集中解决方案登场

  难道就真的没有一个经济实惠适合中低端托管服务器机房的电源集中解决方案?有没更低廉高效、部署方便的类似产品呢?当祝华这样问唐华的时候,唐华回答的是:当然有了!

  当时老唐我刚好拿到千际新研发的“千际服务器远程重启伺服器串口版(24路)”(英文名Network Power Controler,以下简称NPC),而据我了解,这个外观如普通光驱一般的小家伙,对于祝华所说的那些要求,都能完美满足,譬如:可以当作光驱安装到1U机箱内,不需要占用独立的机柜空间;不需要占用单独的IP地址和交换机端口;共用服务器电源,不需要占用单独的电源插座接口;部署无需专业知识,有一般的PC组装知识即可,机柜无需重新走线;均为低压电控制,没有任何触电漏电危险;可以控制千际“双响炮”1U机箱内部的两台服务器分别重启开关机;最关键的一点是,价格非常便宜,每台服务器只需增加100元左右的成本,即可实现远程硬件级重启控制等等。为了验证是否真的如此,于是祝华的武汉网盾科技公司所属托管机房就成了千际NPC问世之后的第一块实验田。

  实地打造“零等待重启机房”

  在一个风和日丽的早上,我们来到了武汉网盾科技的机房,今天我们的任务是,打造一个“零等待重启机房”,具体说就是要在这里实地部署千际NPC。走进机房,里面一排排的机柜轰鸣声震耳欲聋,无数服务器正跑得热火朝天,一片繁荣景象。

  

武汉网盾科技的机房

武汉网盾科技的机房

  闲话少叙,先来看看今天的主角千际NPC吧,说起来千际NPC原理其实很简单,就是将一组服务器主板上的POWER开关控制线集中在一个设备里,然后通过单片机发送串口信号来控制继电器发挥作用,模拟人手触发电脑POWER按键的过程,实现完全物理的开关机操作。完全以硬件形式远程控制24台服务器的开机、关机、重启,无论被控制的服务器处于关机还是死机状态,都可以控制它们立即重新开机或者重启,恢复正常,原理虽然简单,但是性能可以说十分强悍。

  这就是千际NPC,模样和光驱是不是完全一样?其实不仅看着像,真正的安装过程,也和光驱没什么区别。

  

千际NPC

千际NPC

  千际NPC的侧面也有和光驱两侧完全一样的螺钉孔,可以直接固定到普通PC机箱或者1U机架式服务器机箱的光驱位置上,装好之后,从外观上看,和一个普通光驱没任何区别,甚至连光驱的仓门和按键都模仿得惟妙惟肖。这种设计的最大好处就是节省空间,不会因为安装NPC而占用珍贵的机柜空间,也不会因此增加托管费支出,可以有效节约部署成本。

  

千际NPC

千际NPC

千际NPC

千际NPC

4光驱、接口、控制线回顶部

  不过千际NPC的后面和光驱就不大一样了,从NPC内延伸出几组线缆,红黑相间的是24根控制线,用来一一接入被控服务器的主板POWER插针上,控制线受到继电器控制,根据控制者发出的指令,继电器以通断来模拟人手按下POWER的过程。那根白色的是串口线,用来插入主控服务器的主板串口上,来自于主控服务器的指令正是通过这根串口线发送给千际NPC的。另外还有一根大4pin接口线,是用来从主控服务器的ATX电源上取电的,这样就可以不占用独立的电源接口,节约机柜资源。

  

千际NPC的后面和光驱

千际NPC的后面和光驱

  近距离看看串口接头和大4PIN供电接口,都是很熟悉的接口,安装起来无需什么专业知识。后面那24根红黑相间的控制线,都做好了醒目的黄色编号标签,这样可以轻松地对应被控服务器的编号来安装控制线,将来控制起来不会搞乱。

  

4PIN供电接口

4PIN供电接口

  在千际NPC的包装盒里还附带一张软件光盘和若干控制线。

  

软件光盘和若干控制线

软件光盘和若干控制线

  请看这一团线一共24对,48根,都有编号,可以与24台服务器连接起来,设计的非常人性化,实际上是把一条线分成三截(总长度4米多,多高的大机柜都足够用了,还能照顾附近机柜),中间做了接口,这样就比较方便操作了,线也可以不拆机箱自由调换了。安装,卸载都更加方便快捷。

  

一团线一共24对

一共24对的线团

5主控服务器回顶部

  连接千际NPC与主控服务器

  我们先选择了机柜里一台武汉网盾公司自己的2U服务器作为主控服务器,下一步我们将把千际NPC装入这个服务器的光驱位置里,新设备的安装完全不必担心占用额外的机柜空间,这个特性对于托管商来说实在弥足珍贵。机柜里的任意一台服务器均可作为主控服务器,当然,我们应该选择其中相对比较稳定的来充当。

  

主控服务器

主控服务器

  我们把这个千际NPC当作一个光驱安装在有光驱支架的2U机器内,安装方法和安装一个普通光驱完全一样。这是一台性能稳定的单至强服务器,装入千际NPC之后,该服务器原来所担负的所有工作丝毫不受影响,同时具有了控制其他24台服务器的功能,变成了一台2U外形的服务器远程重启控制服务器,当然您也可以用一台普通PC电脑来担负这个工作,甚至一台P3的旧电脑就可以胜任,只要稳定就行,千际NPC几乎不占用什么系统资源,也无需安装软件,只要将一个绿色的控制软件拷贝到服务器的硬盘上即可启动控制界面。

  

主控服务器

主控服务器

  将千际NPC上的24根控制线从机箱后面引出来,线都很细,没有高压电,很好部署也很安全,无需改变机柜走线。

  

NPC上的24根控制线

NPC上的24根控制线

  将装好千际NPC的2U服务器装回到机柜里,好像看不出有什么不同和过去,并没有多占用机柜空间,也没有多占用网线端口和电源接口,但是现在它已经是一台名副其实的硬件级远程电源控制设备了。

  

硬件级远程电源控制设备

硬件级远程电源控制设备

6双头控制线回顶部

  连接千际NPC与被控服务器

  至于被控服务器的安装更加简单,只需插入一根控制线即可,请看这就是要插入被控服务器机箱内的双头控制线。

  

双头控制线

双头控制线

  先把控制线从1U机箱后面的空隙中插入被控服务器。

  

双头控制线

双头控制线

  拔下被控服务器主板上原来的power开关跳线。

  

power开关跳线

power开关跳线

  将被控服务器机箱上原来的power开关跳线插头与控制线上的插针接合在一起,这样可以保证服务器上原来的power开关可以继续使用,管理员可以继续手工开关重启服务器。 将控制线上的power插头插入主板上的power跳线插针。在此也有必要提醒一下使用国外名牌服务器的朋友们,那些名牌服务器不知出于什么目的,往往把主板上的power跳线隐藏的很深,让人摸不准,这种时候千万不可乱插,务必要弄清楚准确的power插针的位置再安装,以免一失足成千古恨啊(老唐就曾经把power跳线插入一台HP原装服务器的主板USB插针上,给主板放了焰火,惨痛的教训不能不汲取啊)。

  

power开关跳线

power开关跳线

  控制线露在机箱外面的一头是个两针的插针。

  

两针的插针

两针的插针

  从主控服务器的NPC上垂出来的一束线上拿出一根,按照线上编号一一对应与机箱后面露出的控制线插合在一起,这样,如果将来要分离二者,只需在机箱外面拔开此处的连接即可,无需停机拆卸,可以最大限度地减少对正常运行设备的影响。与千际服务器远程重启伺服器分离后的被控服务器可以继续使用自带的power开关,由机房管理员现场人工控制。再次提醒一句,务必记住NPC上的控制线编号与被控服务器IP地址的对应关系,以免日后记混了,错误重启服务器,最好一边装,一边用一个小本本记下来。至此被控服务器的安装就完成了,简单吧。

  

控制线编号

控制线编号

7插入机柜回顶部

  将被控服务器一一插入机柜里,从后面看一下,NPC的细细控制线很不起眼,和机柜里纵横交错的网线、电源线相比简直微不足道,不仔细看根本就感觉不到增加了线缆,如果再用捆扎带简单梳理捆扎一番,就会显得很清爽,这一点也让害怕凌乱的机房管理员比较满意。

  

插入机柜

插入机柜

插入机柜

插入机柜

  再从机柜前面看看,也很整齐清爽。

  

从机柜前面看

从机柜前面看

  注意,现在各个服务器上的power按键依然有效,可以由管理员手动操作服务器重启、开关机,丝毫感觉不到有什么不同。

  

各个服务器上的power按键

各个服务器上的power按键

  千际NPC的标配控制线,三截连起来足足有4米多长,足够辐射控制临近机柜里零星分布的服务器,其实如果控制线长度不够,您完全可以随便找两根电线连接上去用,power是不分极性的,所以不用担心连接错误。

  

千际NPC的标配控制线

千际NPC的标配控制线

8效果演示回顶部

  实际测试千际NPC的远程重启效果

  很快,千际NPC部署完毕,让我们回到机房控制台,来一起测试一下效果吧。

  

测试一下效果

测试一下效果

  通过windows远程桌面程序,我们连接到主控服务器的桌面,然后双击启动控制程序,这个程序就是一个绿色EXE文件,已经事先拷贝到主控服务器的C:\1000g目录下面,不写注册表,完全绿色的。程序启动之后,界面很简单,就是24个Power按键,一一对应被控的24台服务器主板上的Power按键。

  我们用鼠标点击软件界面上的Power15按键,所对应的15号被控服务器应手关机!然后把时间delay调成1S,再点击Power15,“开机了!”在机柜旁观察的技术员大叫,15号服务器被远程遥控开机了。一切就这么简单,只需用鼠标点击一下按键,对应IP地址的服务器立即应手关机,就算处于死机状态也毫无延迟,和我们用手直接按下电脑的Power按键的效果完全一样,然后再用鼠标点击一下这个按键,服务器立即开机恢复正常。程序中每个Power按键旁边都有调节触发时间的上下箭头,可以根据不同主板的关机时间要求来调节Power按键触发延时时间,并可以把设置记忆下来,非常实用。

  

设置记忆

设置记忆

  屏幕显示系统正在启动,15号服务器被远程遥控开机了。

  在千际NPC控制程序界面的下方,有一个白色窗口,会记录和显示详细的操作日志,以便日后查看。我们不断点击各个按键,所有服务器都如期关机、开机,毫厘不爽,实验结果惊人的满意。

  

显示详细的操作日志

显示详细的操作日志

9反馈与总结回顶部

  双机互控,彻底摆脱机房管理员

  现在有个顾虑,假如这台装有千际NPC的主控服务器死机了怎么办?不是还得麻烦机房管理员来重启主控服务器?其实想要彻底摆脱机房管理员有个很简单的办法,就是部署两台千际NPC,例如在武汉网盾科技的这个机房里,我们一次安装了21台千际24路NPC,让此主控服务器被彼主控服务器所管辖,两边相互管理,我们都知道同时两台主控服务器都宕机的几率是很低的,这样可以相互依赖控制,就不需要再麻烦管理员了。当然,如果你是个特别谨慎的人,并有多台千际NPC设备,也可以采用依次循环控制的方式,例如您有5台千际NPC,即可采用A主控服务器控制B主控服务器,B主控服务器控制C主控服务器,C主控服务器控制D主控服务器,D主控服务器控制A主控服务器,这样一来,多台主控服务器同时死机的几率就更低了,五台主控服务器中只要有一台没有死机,就可以唤醒所有其他服务器,而五台服务器同时死机的情况几乎是不可能出现的。如果真的有那么极端的情况,所有主控服务器都宕了,偶尔的让管理员偶尔帮助重启一下一台服务器总胜过让他帮助重启上百台服务器方便吧?除了这一台死机时候叫一下管理员,其他的服务器我都可以自己掌握随时重启,难道这还不够强吗?

  现在只要通过远程桌面登陆嵌入了千际服务器远程重启伺服器的主控服务器,就可以远程控制另外24台服务器的开关重启了,这台嵌入了伺服器的主控服务器仍旧可以担负它原来的所有工作,原来的功能都不受影响,也不必为重启伺服器单独分配IP地址,因为伺服器和服务器合二为一共享同一个IP地址了。

  实际运行,用户反响极好

  接下来的几个月实际应用,祝华的托管服务水平可说是“鸟枪换炮”大幅改观,用户对“零等待重启服务”反响极好,值班员接到用户要求重启的电话,放下电话手指一点,几分钟之后就重启完毕,真正做到了有求必应,快速准确,绝不拖沓的“零等待重启”,而且值班员也觉得轻松多了,顾客夸赞不说,再也无需给机房打电话费唇舌,无需再接听搪塞客户的催促电话两头着急,工作强度大大降低,真是一举多得,都夸祝华是个通晓专业的好老板,引进如此大快人心的好设备。

  祝华算了一下,这项投资非常经济划算,平均每百台服务器不到1万元的成本就能很好解决服务器电源管理这一重要服务工作,大大提升了机房档次和企业形象。据统计,通过采用千际NPC电源管理系统,可降低85%的机房进出,减少机房进出即带来能源上的节省,也为高档无人值守机房提供注释,机房安全性提高20%;最重要的一点,与其它的IDC形成服务上的绝对优势,对于公司的品牌提升与业内口碑的提升起到重要作用。所谓种得梧桐树,引来金凤凰,祝华的“零等待重启服务项目”在IDC圈子内一传十,十传百,很快成为尽人皆知的秘密,用户蜂拥而至,效益大幅度提升。其他IDC托管商也闻风而动,纷纷在机房里部署NPC设备,例如著名IDC运营商——陕西智辉科技发展有限公司的总经理陈绪光先生,已经在旗下各地机房里大量部署千际NPC,同样获得了预期的效果和收益。最值得一提是,许多在国外托管服务器的公司,使用了千际服务器远程重启伺服器之后,倍感方便,国外机房的重启手续更加严格繁琐,还要打国际长途、网络电话,还要拼命听说鸟语,现在有了NPC,这些手续就都省了,鼠标一点,就算服务器托管在美利坚、大不列颠也一样立即重启成功,怎不让人拍案叫绝。

  总结

  可以说NPC电源控制设备的兴起,给国内IDC托管商送来了一个新的竞争契机,因为技术的革命,必将引发市场的竞争和分化。当然,这仅仅是个开始,NPC到底是优是劣,是存是废,最终还要经过市场长期的检验才能得出结论,但不管结论如何,它的出现至少给了我们一个很好的启示,就是国内的IDC的创新空间还很大,创新的方向就是满足用户的实际需求,只有真正关心用户实际需求的托管商,才是我们需要的托管商,才能最终获胜。

为您推荐

加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
热门排行

服务器论坛帖子排行

最高点击 最高回复 最新
最新资讯离线随时看 聊天吐槽赢奖品