正在阅读：倚天剑在手高性能计算第二次浪潮倚天剑在手高性能计算第二次浪潮

2009-03-09 10:24 出处：PConline原创作者：老笨责任编辑：huangjianjun

　　近日，浪潮携nVIDIA共同发布了桌面高性能计算“倚天”。这款不足5万人民币，超过4万亿计算能力的高性能计算平台，被赋予了普及万亿次高性能计算的意义。

　　发布会现场，浪潮用了两套对比平台来验证这款机器的实力：一套是由四台双路四核服务器构成的集群。在这个对比中，两套系统要共同模拟一个分子动力学的模型，结果当然是“倚天”大胜这套机群。在另一个对比中，“倚天”挑战的是浪潮的四路四核服务器，共同模拟的是天体运动，结果也是“倚天”大胜。

王恩东

浪潮高级副总裁王恩东

　　不论是四路四核还是四台两路双核组成的机群，价格至少都是在“倚天”的2到3倍。在浪潮选择的高性能计算模型里，“倚天”都取得了压倒性的胜利。

　　浪潮的新闻稿这样描述：“浪潮‘倚天’打破了原有的高性能集群思路，采用协同加速架构，实现了在单台计算机上性能的倍速提升，而成本的大幅度下降，有效解决了用户在应用传统高性能集群时，所面临的成本、体积、功耗、部署等一系列问题，大幅提升国家科研竞争力的水平。同时，倚天也成功开创了桌面超级计算机这一细分市场，并将这一领域的起步水平直接提升到万亿次以上。”

　　浪潮集团高级副总裁王恩东说：“更重要的是，‘倚天’的问世，标志着浪潮高性能战略步入一个新的阶段，围绕协同加速的创新架构，浪潮将不遗余力加大高性能应用软件的移植和开发，真正让中国用户‘用得好、用得上’高性能平台，才是浪潮高性能发展的硬道理。”

　　“倚天”能取得这个成绩的全部奥秘，就在于“倚天”采用了nVIDIA开发的Tesla协处理器。

tesla

　　在nVIDIA的官方网站，是这样描述Tesla的：nVIDIA Tesla计算解决方案实现了向节能型并行计算动力的必要转变。每颗Tesla处理器拥有240个核心并且基于革命性 nVIDIA CUDA 并行计算架构，Tesla支持扩展，可更快、更精确地解决世界上最重要的计算难题。

　　简单的说，Tesla的价值就在于用GPU的形式来担负在传统集群架构中由通用CPU负责的密集计算的功能。因为Tesla设计的架构优势，在处理某些密集高性能计算的问题时，Tesla能够达到通用CPU10——20倍的性能。

“倚天”采用的这种新的高性能计算架构，被通俗的称为“C+G”架构，“C”就是通用CPU，而G就是GPU Tesla。

2回顶部

　　通用CPU要面对更复杂更宽泛的处理任务，例如从事务处理、高性能计算。相比GPU，通用CPU在软件兼容性以及处理带有分支判断的任务时具有巨大的优势。但是在某些高性能计算领域，其效能相比为密集计算专门优化的GPU要差很多。

　　GPU通常都设计了众多的处理单元，例如nVIDIA的Tesla就有240个处理核心，这些处理核心在并行处理大数据量的高性能计算问题时具有巨大的优势，这也就是“倚天”系统能够超越传统机群的原因。

　　Tesla的出现，是因为在很多高性能计算的领域，例如地震模拟、生命科学、金融工程、医学成像、模式识别、CAD/CAM/CAE等领域，都拥有巨大的数据量需要做相同或者相似的处理，而且这些数据的处理是可以高度并行的，或者说数据的处理不需要有严格先后顺序。处理这些问题最佳的办法就是增加处理核心。

Tesla架构

C+G架构代表 Tesla逻辑架构

　　但是通用处理器需要解决的很多问题都是有严格的前后顺序限制，后一步处理依赖前一步处理的结果，因此通用CPU有很强大的分支判断能力，并且为了提高处理效果，在CPU内部集成了3级缓存来提高CPU与内存的通讯效率。因为分支判断的问题，通用CPU的内核并不是越多越好。越多的处理内核意味着更复杂的同步机制，意味着处理器核心的设计将更加困难。

　　正式因为CPU和GPU是针对不同应用设计的计算器件，所以他们在处理不同问题时才会有完全不同的表现。CPU长于逻辑判断和分支处理，而GPU长于海量并行计算。

　　在C+G的模式想，CPU将待处理的数据集通过PCIE接口传给作为一张附加卡形式的GPU，这块卡上不光有GPU，还有数ＧＢ的内存，GPU处理完数据后，将结果传回给CPU，然后在开始下一个循环。

　　从目前的情况看，经过编程优化的处理任务在C+G的模式下确实能够取得突破性能的性能提升。这样高性能计算平台价格就能够因为这种架构而大大降低成本。这对很多科研项目而言无疑是一个好消息。

　　实际上不仅仅是nVIDIA沿着C+G的模式推动高性能计算的普及，包括Intel也已经宣布推出所谓的“众核”产品，其第一款产品代号就是Larrabee。

　　当然，普及高性能计算并不那么简单，问题到不是出在需求方面。高性能计算的需求现在越来越强劲，例如给奥运开模式做动画渲染的水晶石公司就有非常强劲的需求。他们购买的曙光5000机群基本上处在满载运行的状态。除来动画设计外，他们有大量的建筑渲染的任务要处理。

　　另外水晶石公司还有一个数字城市的项目，用三维立体来实时展示城市，实际上他们正面临处理能力不够的困局。

　　上海超算中心的情况与水晶石的情况相似，虽然上海超算中心前不久刚拥有了排名世界第十位的机群系统，但是上海超算的计算任务也基本上一直处于饱和状态，从科学研究到工程应用。上海超算中心的负责人曾经用“无所不在”来形容高性能计算的需求。他举例说从井盖的设计到胸罩的设计，都可以用到超算，前者是一个力学问题，后者是一个流体力学问题。现在设计和工程应用高性能计算不普及，原因不是没有需求，而是高性能计算还是过于昂贵，并不是普通机构能够拥有。

　　人类基因组工程也同样要用到高性能计算，每个人有数十亿个基因，到目前为止全球也不过测定了约1000个人的基因。如果想从基因中寻找众多疾病的诊断及治疗办法，就需要测定更多人的基因并同这些人的病史相互关联。

　　高性能计算从最微小的原子分之研究领域到最宏大的宇宙研究，都是不可缺少的工具。而在工程上也有非常多的成熟应用，典型的如飞机设计制作，汽车设计制作以及碰撞试验等等，都离不开高性能计算。

　　但是事情并不是那么简单，并不是有了C+G的架构，业界就找到了解决高性能计算的灵丹妙药。因为体系结构的变化，类似“倚天”这样的系统要真正发挥效用，还必须进行重新进行软件开发。

3回顶部

　　实际上业界真正接受Tesla这样的硬件架构，是在一个被称为CUDA的开发标准和环境提交以后。CUDA是业界在nVIDIA的C+G架构下进行应用开发的标准和编译环境。要让应用真的利用起C+G架构的优势，应用必须针对这个架构做必要的修改和优化。

　　但是CUDA仅是nVIDIA一家的标准，不论是高性能计算的硬件厂商还是软件厂商，大约都不太心甘情愿的被绑定在这一个标准上。

OpenCL

OpenCL已经囊括了业界主流厂商

　　更何况Intel和ATI也是C+G架构强有力的竞争者。浪潮集团技术总监胡雷钧在讨论这个问题时这样说：
CUDA确实是nVIDIA的标准，但是CUDA之后还有OpenCL，这是由苹果倡导的一种高性能计算语言标准，这个标准就像OpenGL一样是一个开放标准，很多厂商现在已经宣布支持。对C+G这种模式而言，整个业界的一个趋势将是向OpenCL 标准靠拢，包括硬件厂商、软件厂商。实际上nVIDIA也是支持OpenCL标准的，因此现在选择Tesla并不意味着被“绑死”。

　　显然，从硬件体系结构上来说，C+G架构在解决高性能计算效率方面有很大的优势，而整个业界也在向这个方向努力。虽然目前看起来，能够商用的硬件和软件还很少，用户还必须要解决应用移植的问题，但是这个趋势已经明显。

　　浪潮为了解决用户的迁移移植困难，将在北京和济南建立两个实验室，同用户一道去解决如何利用这个新的计算平台问题。

　　浪潮高性能计算事业部总经理刘军说，高性能计算也是长江后浪推前浪，现在C+G架构的“倚天”就是后浪。