正在阅读：曙光高效能通用刀片服务器TC2600曙光高效能通用刀片服务器TC2600

2007-07-06 12:13 出处：PConline 作者：PConline服务器频道责任编辑：gongjianhui

　　当前，高性能计算是学术界和产业界关注的热点，但传统的机架式机群HPC技术受到了巨大的挑战，它一方面来自于因特网时代多种计算形态的竞争替代，更主要是高性能计算机技术本身的发展遇到了屏障。系统规模也越来越大，耗电越来越多，编程困难，应用效率低。

　　随着高性能计算向高性能服务转变，超级计算机系统追求的目标也将从“高性能”(High Performance)走向“高效能”(High Productivity)。即超级计算机的研发重视系统的实际效率，可靠性、可用性、好用性，努力提高单位面积的性能，降低单位面积的功耗和造价；更加重视高端计算的总体拥有成本(应用系统生命周期内的成本+拥有/获得成本)；愈来愈复杂的高端系统需要自动化、人性化的环境支撑(系统的自管理、自配置、自优化和自愈性等)。曙光的新一代刀片服务器TC2600正是基于这一理念进行设计的。

　　优异的系统平衡架构设计

　　HPC以CPU为核心而绝大多数高端计算系统实际使用的持续性能只有其峰值性能的5%～10%。造成这一现象的主要原因是主机性能与外围设备性能不匹配，系统资源难以有效调度以获得负载均衡、架构平衡。

　　曙光TC2600设计之初，充分分析了机架式机群系统以及市场十几款厂家的刀片服务器产品，对其架构的优缺点进行分析，进行了详细的功率计算，对CPU、硬盘内存发展趋势进行分析，对目前主流高速互连技术进行分析，采用7U10片的系统架构，计算密度相对1U机架服务器提高1.43倍，同时保证计算密度同系统I/O带宽、散热能力等方面的平衡设计。

　　在背板带宽和延迟方面，是刀片服务器性能瓶颈。而在曙光TC2600系统中，整个刀片背板总带宽为950Gb，信号延迟为纳秒级，大大提高了计算系统带宽并降低延迟，很好的实现了计算能力同I/O能力的平衡问题。同时，创新的把PCI-E总线引入背板。因为背板信号为PCI-E，在背板的后端，可以根据系统需要灵活的设计各种高速交换设备，比如InfiniBand交换、Myrinet交换、ASI交换、FC交换等。

　　方便部署、集成管理

　　曙光TC2600优化部署，使安装维护过程大大简化。通过PCB布线实现背板与网络交换模块、存储交换模块以及监控管理模块的互联。此种布线方式可大量节省电缆线的成本，对于安装过程而言，可以节省了传统机架式服务器的外部多如牛毛的布线工作，节省大量工作时间，降低安装成本。同时，PCB布线有效的降低系统由于接入问题（虚接、错节）而引起的不稳定性因素，从而提高系统的稳定性与可靠性。

　　曙光TC2600采用高度集成的管理监控系统，通过统一的监控界面监控所有刀片资源，包括机箱电源、风扇、计算刀片、背板、交换机等部件，系统良好的人机交互界面，实现多元化报警、提供日志、数据分析。曙光TC2600的监测系统具有优异的电源管理策略，进行功率优化调整，同时可实现对散热系统进行智能管理。

　　管理系统整合目前两大监控技术，即IPMI以及KVM (Over IP)，真正实现监视控制一体化。同时，为实现方便快捷的刀片服务器管理，通过优化的管理软硬件设计，改善可管理性，增强部署和可服务性，这些将降低总的所有权成本。

2回顶部

　　节能设计

　　为降低功耗，曙光TC2600采用先进的多渠道节能技术，主要体现在三个层面：

　　1）根据实时功耗确定工作电源个数，使电源工作在最佳效率曲线上。
　　系统充分对功率部分进行设计，设计分成静态功率设计及动态功率设计，在上电前对电源功率预分配，功能模块把自身在固定Flash中存储的最大满配情况的功率需求发送给管理模块进行审批（满配并不代表实际配置），等刀片完成了BIOS自检之后还要提交电源功率实际分配的申请给管理模块。通过这种电源分配的策略，一方面可以保证刀片不会误上电（最大满配功耗），另外一方面可以保证功耗使用的精确性，使功耗分配更加合理。

　　曙光TC2600采用6颗电源，每颗1KW，在管理系统确定功耗后，进行最佳电源效率判断，然后确定是否需要关闭或者打开电源。例如一个系统中有6颗1kw电源模块，在最大90%负荷时电源转换效率最高，为85%，而在其负载为40%时其效率为65%。在系统工作的某个时刻，经过监控系统测出实际功耗为2700W，这样就可以关闭3颗电源，实现电源转换效率为85%，而如果不采用任何手段时，其效率仅仅为65%，系统实现节能30%左右，同时减少热量排放，降低冷却成本。

　　2）修改计算刀片操作系统内核，实现节能
　　曙光TC2600管理系统更改操作系统内核，优化程序执行队列或者根据负载情况动态调整CPU频率。主要原理是对CPU的运行状态进行计算，分析任务队列，对不同时刻进行功耗计算，同时建立一些CPU散热器的散热模型，在工作过程中，尽量把功耗高的任务与功耗低的任务交叉进行，这样可以保持CPU在稳定的负载下运行，减少热能的散发并提高运行效率。同时，当发现CPU任务队列对功耗需求较低，则通过BI/OS接口进行CPU功率的动态调整，比如一个刀片，CPU为AMD2218，主频为3.0GHZ，在CPU任务队列较少的时候，就可以根据任务需要把服务器的CPU从3.0Ghz调整倒一个比较低的频率，这样就可以使CPU的功耗大大降低。

　　3）多计算刀片任务调整调度
　　曙光TC2600的系统管理软件可进行任务调度管理。例如，一个计算任务分在10刀片上部署进行，一旦管理软件探测到实际负载很轻，则把作业迁移刀片其中5个计算刀片上，关闭掉余下的计算刀片，实现系统功耗减少，从而完成节能。

　　如果采用使用曙光TC2600搭建十万亿次级别的超级计算机，整体功耗估算为50KW，是传统机群功耗的1/6，大大提高了单位面积以及单位功率的计算性能。

3回顶部

　　先进的散热设计，采用工业通用部件

　　刀片服务器设计的障碍主要有散热问题以及对工业标准件的支持问题，例如市场上许多厂家的刀片服务器要求采用低电压的CPU，非标准的内存，非标准的I/O卡。曙光TC2600首先确定科学的系统架构（7U10片，每个刀片宽度类似1U服务器），保证系统散热和计算密度达到平衡。另外，尽可能多采用工业标准部件，例如CPU，内存，热插拔硬盘，标准I/O卡等。

　　曙光TC2600具有独特的散热风道设计，通过软件模拟散热仿真进行反馈和修正。最终在软件模拟仿真中通过了7U机箱内安装20颗120W高性能CPU，创造了业界记录。

　　曙光TC2600在支持工业通用PCI-e I/O卡上，曙光刀片服务器创新的提出的I/O扩展模块的设计，为每个计算刀片提供一个标准的PCI-e ×16的槽位，可以插入任何标准的工业I/O卡，不需要单独设计子卡。

　　目前曙光刀片服务器仅有支持AMD 双核/四核CPU的计算刀片，而支持其他类型CPU的计算刀片会陆续推出，包括Intel，龙芯，以及Power PC等。这些计算刀片可以同时在一个刀片服务器机箱中工作。

　　可重构计算实现通用刀片服务器的行业定制化

　　曙光TC2600支持通用的PCI-E I/O设备，同时设计了基于PCI-E采用FGPA实现的加速部件，加速部件主处理器为Xilinx最新的Virtex-5 系列高端FPGA。通过FPGA实现各种加速算法，加载此加速部件，可以实现刀片服务器在不同计算应用下的计算加速。目前这种加速部件称为可重构计算结构，以较低的硬件复杂度实现指令、数据及线程级的并行。

　　目前刀片服务器应用涵盖了多个领域，有着不同的计算需求。例如在商业数据分析和基因测序中，要进行大量的数组运算、线形数据匹配、逻辑测试等等，而对于医疗成像，计算化学而言，其主要工作是同步映射、过滤等等。这些不同的应用需要不同的数学逻辑操作，以及有效的内存连接读取等。FPGA作为一个可重构计算引擎，可在软件控制下进行硬件单元优化工作来满足不同HPC应用需求而提高计算效率。FPGA的结构非常容易实现并行操作，因而，通过配置，它可以同时执行大量的数据吞吐操作，在这种情况下，该设备相当于多个传统CPU在同时工作。一个200Mhz的FPGA处理能力将远远超过一个3Ghz的通用CPU，然而功耗仅仅是后者的1/4。例如在生物计算中，FPGA相对于一颗传统处理器在处理DNA基因排序上能往往能够加速50倍到100倍，在医疗CT的2D，3D的图像处理上能够加速10倍左右，对于一些通用的算法，类似于FFT，一般情况下FPGA的加速至少可以达到10倍以上。

　　根据刀片服务器的应用环境我们可以在加速部件上调用不同的数据库，这样通用的刀片服务器就变成了行业定制的特殊机器，在运算能力上大大提高，同时功耗大大降低。采用此技术可以实现刀片服务器的高效能同时实现通用刀片服务器定制化。

　　综述

　　曙光TC2600的设计在计算I/O平衡、系统带宽和延迟、能耗设计方面以及虚拟化支持方面都体现了产品的高效能。同时，曙光TC2600采用了从CPU、内存、硬盘、I/O扩展卡一系列的工业标准部件，实现了刀片服务器的通用化。