武汉IDC机房远程电源控制实际案例解析

2008-03-24 09:40  出处:  作者:唐华   责任编辑:gongjianhui 

  

  说来好笑,作为主机托管商,一般平时的售后工作最主要的就接电话重启服务器,然而就这么个简单的工作,想要做到人人满意也不容易。很多客户抱怨机房服务怠慢,响应不及时,重启一次少则一刻钟慢则半小时,如果遇到节假日人手少服务更打折扣。

  为什么会发生这种情况呢,究其原因,主要是中间环节多,人工效率慢。托管机房里的服务器数量很大,数以千计,发生死机的机率较高,对机房中数量不多的管理员来说,每天需要重启的工作量是非常之大的。客户发现死机后要先通知托管商客服,再由托管商客服联系电信的机房管理员。接着管理员需要首先查到该服务器所在的机柜位置,然后进入充满幅射的、面积很大的机房,有时可能还要小心绕过机房内密密麻麻的线缆,才完成这一简单的重启工作。中间环节消耗时间较长,人为出现失误的机率也较高,加之系统软件重启本身所需时间,在大型机房里,即便各个环节配合默契,一刻不耽误贯彻下去,到最终恢复访问,一般也需要等待15分钟以上,有托管服务器经验的朋友其实都清楚,实际等待往往更久,就说老唐自己每次叫机房重启服务器,等半小时没反应是常事,如果遇到服务器反复死机,那就更受煎熬了,管理员一不耐烦,晾你一边,或者直接叫你过去自己解决,那就惨了。

  因此重启服务质量往往成为客户投诉的焦点,“你们托管商主要不就是负责死机时候给重启一下嘛?怎么这点儿事都干不好啊?怎么要等那么久啊?”“你知道老子服务器停一分钟要损失多少钱嘛!”等等。然而,尽管怨声载道,但这方面服务多年来却未见到明显改观,托管商也是有苦难言,从放下电话就马不停蹄办事,还是不能让客户满意。

  网络安全行业门户站“315安全网(315safe.com)”CEO祝华对我说过,一般托管机房的管理员,每天在实际工作中,基本上会有将近50%的服务事件就是耗费在重启服务器这种毫无技术含量,却又不得不为之的工作上。有时候一不小心因工作忙碌遗忘或处理不及时,常常接受到托管用户愤怒的投诉,如果遇到同一服务器反复死机,重复劳动。使得死机重启已经成为IDC托管商和用户最大的心病。

  “零等待重启”很早就有人提出过,简言之就是希望能做到随时都能够给客户快速重新启动机器,而且不用客户电话催促,瞬间就能解决。但是并没有普及开来,因为事实证明,单纯靠人力维护,想要实现“零等待重启”确实存在困难。如何才能克服这个困难,提升服务质量呢?很多托管商从设备、技术、服务流程等方面想了很多办法,前面提到的315安全网CEO祝华先生就是一例,他很早就开始经营IDC托管业务,一直在寻找各种方法来缩短死机重启服务的等待时间。下面就来看看他都想过那些办法:

  名牌服务器上的远程控制卡曲高和寡

  祝华说,纯粹依靠软件远程控制无法操作服务器在死机状态下重启,死机时只能采取硬件重启的方式解决,机房管理员为了确保重启生效,往往很少使用服务器上的RESET按键,而是按下POWER按键,待关闭电源后再开机实现这样一个过程。当初我在网上找了很多技术方案文章,得到最多的一个远程硬件重启方法就是——“网卡远程唤醒”。也就是远程唤醒技术(WOL,Wake-on-LAN) 是由网卡配合其他软硬件,可以通过局域网实现远程开机的一种技术,无论被访问的计算机离我们有多远、处于什么位置,只要处于同一局域网内,就都能够被随时启动。通过测试发现,目前几乎所有的服务器主版都集成有WOL功能的网卡,通过在另一台计算机上安装MAGPAC软件测试的确可以让目标服务器从关机状态启动然后再关机,但是“网卡远程唤醒”必须在服务器处于关机或者正常运行的时候才能起效,而当服务器死机的时候,用WOL技术就无法实现开关机了,因此这个方案肯定是不行了。

  后来我们发现在购买的某些进口名牌服务器上,带有一个扩展模块:远程控制卡。DELL的 1950系列服务器里就自带了DRAC这个模块。可以提供远程控制台链接,实现远程硬件重启。方便是方便,但是这个卡有两个缺点,一是价格比较贵,网上找了下,光这块卡就得600多,如果部署多台服务器成本太高;二是兼容性不好,似乎是专门为某些品牌服务器订做的,一般DIY的服务器无法使用。客户托管的服务器参差不齐,肯定不能说统统给他们装上这样一块卡,更何况造价不菲,这样下来成本太高了,肯定无法实现。放弃!

  下图就是好东西“远程控制卡”,是PCI-E接口的。

  

远程控制卡

远程控制卡

  该卡安装在1U机箱内,要使用专门设计的PCI-E转接卡,比较难找到(和市场上常见的PCI-E转接卡不同)。

  

专门设计的PCI-E转接卡

专门设计的PCI-E转接卡

键盘也能翻页,试试“← →”键
本文导航
第1页:名牌远程控制卡
第2页:传统NPM网络电源控制器
第3页:千际NPC
第4页:光驱、接口、控制线
第5页:主控服务器
第6页:双头控制线
第7页:插入机柜
第8页:效果演示
第9页:反馈与总结
最新资讯离线随时看 聊天吐槽赢奖品