正在阅读:曙光4000A高性能计算机曙光4000A高性能计算机

2007-09-19 09:24 出处:PConline 作者:PConline服务器频道 责任编辑:gongjianhui

  

  曙光4000A超级服务器在2004年6月22日公布的全球高性能计算机TOP500排行榜中,以每秒80610亿次Linpack计算值位列全球第十,在基于AMD芯片的超级计算机中,Linpack效率也达到了全球第一。这是中国超级计算机得到同际同行认可的最好成绩。该款计算机使用了2560个AMD公司的Opteron芯片,除CPU和Linux平台系统外,其他部件都使用了自己的技术。

  曙光4000A浮点峰值达到11万亿次,存储容量达到42TB。

  曙光4000A已成功运行证券指数计算、电力安全评估、建筑工程抗震性评估、天气预报、石油地震资料处理、核能开发利用、汽车碰撞、电磁辐射、计算流体力学、基因匹配与拼接、蛋白质结构分析和材料科学等领域的20多项应用。

  作为面向国民经济建设和社会发展的重大需求的网格超级服务器,曙光4000A适用于各种大规模科学工程计算、商务计算。在大规模科学工程计算方面,可以担纲电力电网安全评估、汽车碰撞、电磁辐射、石油勘探开发、气象预报、核能与水电开发利用、各类航天器及飞机汽车舰船设计模拟、各类大型建筑工程安全性评估、生物信息处理等重任,在大规模商务计算方面,它可以为证券、税务、银行、邮政、社会保险等行业和电子政务、电子商务等提供服务。在大规模信息服务方面,它可以在各类游戏网站、门户网站、信息中心、数据中心、流媒体中心、电信交换中心和大型企业信息中心中发挥作用。对基于海量存储的数据大集中应用,完全兼容32位计算的具有64位地址空间的曙光4000A网格超级服务器更可大显身手。

   

曙光4000A高性能计算机系统

曙光4000A高性能计算机系统

  曙光4000A可以在20秒钟内是实时完成10000个5000万瓦以上的并网发电机组,和22万伏变电站构成的全国电网的电力安全评估,为避免类似美加大停电的电力故障提供决策支持,保证供电系统的稳定。

  曙光4000A可以在10分钟内完成上海证交所10年的1000多支股票交易信息的200种证券指数的计算,能够实时提供金融衍生产品。

  曙光4000A可以在1小时内,可以同时完成4次36小时的中国周边、北方大部、北京周边、北京市的2008年奥运会需要的气象预报计算,包括风向、风速、温度、湿度等,精度1公里,即精确到每个奥运会场馆。

  曙光4000A可以在2小时内,可以同时完成20次上海黄埔江过江隧道三维结构的地震数值分析的计算,能够精细评估隧道的抗震性能。

  研 制 要 闻
 
  曙光4000A高性能计算机系统是中科院计算所国家智能计算机研究开发中心承担的国家863计划“高性能计算机及其核心软件”专项课题。该系统计划于今年6月末鉴定,并作为国家863计划支持的“中国国家网格”(CNGrid)中的一个主结点于2004年8月份落户上海超级计算中心。该系统目前已经完成硬件安装和LINPACK测试,进入后期系统软件集成测试和应用软件试算阶段。

  曙光4000A系统峰值运算速度达到每秒11万亿次浮点运算(11TFLOPS),LINPACK运算速度超过每秒8万亿次浮点运算,是目前国内速度最快的商用高性能计算机系统。按照2003年11月公布的高性能计算机世界500强排名,名列第6,在基于AMD Opteron处理器的高性能计算机系统中名列第1,有望在今年6月初公布的新的高性能计算机世界500强排名中跻身前10位。曙光4000A使中国成为继美国、日本之后第三个能制造和应用10万亿次商用高性能计算机的国家,也表明我国生产、应用、维护高性能计算机的能力达到世界先进水平。该系统在大规模机群计算和网格使能技术方面有所突破,形成了鲜明的技术特色,将我国通用高性能计算机系统的研制水平提升到一个新高度。

  (1)突破10万亿次峰值运算能力

  曙光4000A采用国际高性能计算机主流的机群结构,整个系统规模达到640个结点,每个结点为4CPU的SMP系统,采用AMD 2.2GHz Opteron 64位处理器,峰值运算速度为11TFLOPS。整个系统通过四套网络互连,包括Myrinet2000、千兆以太网、百兆以太网和管理网络。系统的主要配置如下:

  11264 GFLOPS峰值运算速度
 2560个CPU
 640个结点
 5TB内存
 95TB存储
 四套互联网络
 曙光机群软件

  在2003年11月公布的高性能计算机全球TOP500排名中,超过10TFOLPS的系统有8套,分别是美国7套,日本一套,用户和系统提供商都是美国和日本。因此曙光4000A系统使中国成为继美国、日本之后第三个能制造和应用10万亿次商用高性能计算机的国家。曙光4000A的研制成功使中国服务器企业能在2004年能够为我国科研、教育、政府、国防、安全、工业界批量提供商品化的万亿次到20万亿次能力的高性能计算装备。

  (2)LINPACK测试国际领先

  经过研制人员的艰苦努力,曙光4000A LINPACK测试取得了可喜成果:系统持续性能达到8061GFLOPS,超过每秒8万亿次浮点运算,效率为71.56%,超过了2003年11月公布的高性能计算机TOP500排名中的第6位“闪电”(Lightning)计算机,成为世界上所有采用AMD Opteron CPU的高性能计算机系统中速度最快的。在上述8套超过10万亿次运算能力的系统中,效率仅在排名第一的地球模拟器(87.55%)和排名第5的MPP2(74.32%)之后列第3位。

  LINPACK测试结果受多方面因素的影响,主要因素包括:

  与算法相关的参数设置
 单个CPU的内存容量
 单个CPU的LINPACK效率
 互联网络的通信性能
 系统规模
 单个节点的CPU个数和效率

  这些因素共同作用,决定一个系统LINPACK的测试水平。

  曙光4000A LINPACK测试取得的成绩体现了计算所在高性能计算机系统研制和算法优化方面的实力。

  2003年世界最快的采用AMD Opteron CPU的高性能计算机“闪电”的峰值速度与曙光4000A相同,它采用Opteron 2GHz CPU,双CPU结点,Myrinet2000网络,每个结点4GB内存。“闪电”的优势在于它的通信性能要好于曙光4000A。虽然都采用Myrinet2000,但由于“闪电”使用双CPU结点,因此每个CPU的通信带宽要高于曙光4000A。尽管“闪电”的结点数超过曙光4000A的两倍,但在ASCI Q和曙光3000上应用性能测试的结果都表明:在CPU规模相同的情况下,使用双CPU结点的应用性能要好于使用4CPU结点的性能。因此,由美国洛斯阿拉莫斯国家实验室科学家进行的“闪电”LINPACK测试运算效率应高于曙光4000A。

  但曙光4000A最终战胜了“闪电”。

  这主要得益于曙光4000A为面向科学计算类应用研制的结点操作系统。该操作系统是对通用LINUX操作系统进行裁剪,并结合科学计算类应用的特点对核心进行扩展和改进。通过在结点操作系统中对高效通信协议的优化支持,最终使曙光4000A的LINPACK运算效率提高了近2个百分点,超过了“闪电”。曙光4000A为提高应用实际性能所开展的工作在LINPACK测试中得到了回报。

  MPP2也采用机群结构,其系统峰值运算速度略高于曙光4000A(11616GFLOPS)。它采用Itanium-2 CPU,Quadrics QsNet互联网络,每个结点是双CPU的SMP,平均每个CPU 3-4GB的内存容量。该系统LINPACK运算效率高于曙光4000A主要得益于以下几个方面:

  Itanium-2的单CPU的LINPACK效率比Opteron高6%以上
 Quadrics QsNet网络通信性能好于Myrinet,尤其是在结点是双CPU SMP情况下
 每个CPU的内存容量(3-4GB)要高于曙光4000A(2GB)50%以上

  曙光4000A的LINPACK运算效率只比MPP2低不到4个百分点也从一个侧面反映了曙光4000A对于
LINPACK而言应用实际获得的性能要比同类系统高,曙光4000A的系统级设计有优势。

  系统 时间 价格 峰值 Linpack CPU 节点数 内存 存储 网络 OS
ASCI White 2001 $110M 12.3T 7.3T 8192 512(4U) 4T 109T SPS AIX
曙光4000A 2004 <$10M 11T 8.06T 2560 640(2U) 5T 95T Myrinet Linux

  上面是曙光4000A与IBM ASCI White的对比。ASCI White在NEC“地球模拟器”系统推出之前一直占据TOP500第一的位置,从2001年到现在一直是IBM安装的最大的计算机系统,曙光4000A在价格、Linpack速度、系统占地、功耗等方面都好于ASCI White,说明曙光4000A达到IBM最大系统的水平。

  (3)高密度、低功耗

  对于大规模高性能计算机系统而言,如何提高系统密度并降低功耗是研制人员面临的关键问题之一。为提高曙光4000A的系统密度,中科院计算所联合曙光公司,研制了具有自主知识产权的4CPU高密度主板和基于该主板的世界上第一款2U高度的4路64位CPU的工业标准机架服务器。新研制主板的α版即100%通过AMD公司的确认测试,这在AMD历史上是第一次。由于采用高密度服务器,曙光4000A能在75平方米的占地面积内聚集11万亿次的计算能力,而其满负载运行的实测功耗只有380千瓦。这一方面提高了机群系统的可扩展性,另一方面降低了整个系统地运行成本。

  该主板的研制成功和投入市场标志着我国在商用服务器主板领域取得新突破。使得曙光公司领先IBM一年将4路服务器推向市场,赢得市场先机,曙光公司同步推出了科学计算、数据库应用、64位入门级三种服务器,在64位系统上具有明显的技术和价格优势。曙光公司已将这款服务器OEM给Tyan公司,销往美国、欧洲,将在天津保税区进行ODM生产。同时,该主板在香港、韩国广受欢迎,并有国际上的多家服务器厂商基于该主板提供服务器产品。

  曙光4000A无论是空间效益(单位空间所提供的性能)、还是功耗效益(单位功耗所提供的性能)都比目前世界排名前三位和即将于今年年底推出、届时将排名第一的IBM系统要好。目前看在这两个指标方面位列世界前茅。曙光4000A是全世界机房条件最差的十万亿次机,在工业标准机群上达到世界最好水平。

  (4)与AMD战略合作意义重大

  通过曙光4000A项目,计算所、曙光公司与AMD公司成为战略合作伙伴。采用AMD Opteron 64位处理器,通过与AMD的战略合作普及了64位计算,使中国用户能更早地、更廉价地、更容易地得到64位计算能力;同时引入充分竞争,为中国用户带来更多的技术选择,更大的价格利益,并从国家利益的高度有利于改善中国计算机产业的格局。

  相对于Intel Itanium,AMD Opteron具有明显的技术和市场优势。我们在CPU选择上领先一步,现在的情形证明,我们在适合中国HPC应用和产业化需要的技术抉择上,是正确的。X86-64是未来64位计算的发展趋势。

  另外,通过选择AMD Opteron和自行研制的主板,曙光4000A的价格优势更是十分显著,是新型信息化思路的产物,能大幅降低高性能计算机的成本,使曙光4000A具有很好的性能价格比。

  (5)突出的应用实测性能

  在LINPACK测试完成后,我们在曙光4000A上进行了实际应用的测算,获得了非常好的效果。上海超级计算中心进行了6个重要的第三方商用应用软件的安装和测试,全部安装运行成功,并且获得了很好的应用性能。LS-DYNA等软件的性能比2.4GHz Xeon系统高出近一倍,对上海地区的现代制造业的设计能力将发挥重要作用。在曙光4000A系统上,我们进行了MM5短期天气预报的测算,满足2008年奥运会需求的北京地区1公里尺度的36小时天气预报,在256CPU规模上只需运行2个小时。到目前为止,无论是第三方商业软件还是天气预报等重要的行业应用软件都获得了突出的实际应用性能。

  (6)高可靠性

  在曙光4000A组装完成后的LINPACK和其它应用测试中,整个系统表现出非常突出的可靠性。一方面,系统组装完成后即刻进入全系统的LINPACK测试,并在不到一周的时间内达到全系统稳定运行;另一方面,在测试过程中,曾连续运行3组LINPACK测试,累计满负荷全系统连续运行27个多小时,没有出现任何故障。而一般的10万亿次计算机的平均无故障时间在几个小时。

  目前,曙光4000A正进行后期的系统集成测试和应用测算,在6月末鉴定时将会将在大规模机群计算和网格使能技术方面的成果展现出来。曙光4000A十万亿次计算机已写入上海市的政府工作报告,是上海科教兴市战略的推进器,用于构建服务于科学研究和国民经济的计算基础设施,计算所、曙光公司、上海超级计算中心将在计算机系统、第三方商业应用、应用服务三方面紧密合作,使曙光4000A成为推动上海市和周边地区经济和社会发展的生产力。2004年10月曙光4000A将整机验收,对外服务。

  鉴 定 报 告
 

   2004年6月29日 国家科技部今日在人民大会堂宣布:“863计划重点项目——曙光4000A通过鉴定验收,曙光4000A实现了对每秒10万亿次运算速度的技术和应用的双跨越,成为国内计算能力最强的商品化超级计算机”。作为国家“863计划”的最新成果,曙光4000A将作为中国国家网格最大主节点落户上海超级计算中心。在今年6月22日刚刚公布的全球高性能计算机TOP500排行榜中,曙光4000A以每秒11万亿次的峰值速度和80610亿次Linpack计算值位列全球第十,这是中国超级计算机得到国际同行认可的最好成绩。

 
这些令人意想不到的黑客藏身之处 你猜对几个? 受不了多愁善感的天气?那就选部好片宅在家 追求极致的体验 神画智能影院F1 Pro新品评测 斐讯与他的0元购:一个猜到开头却猜错结尾的故事 不好意思 你在电脑上干了什么我们都知道!

为您推荐

加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
IT热词

服务器论坛帖子排行

最高点击 最高回复 最新
最新资讯离线随时看 聊天吐槽赢奖品