正在阅读:国家超级计算天津中心与NVIDIA高层专访国家超级计算天津中心与NVIDIA高层专访

2013-01-22 18:17 出处:PConline原创 作者:佚名 责任编辑:zhangkaijun

  【PConline 资讯】前不久,笔者在国家超级计算天津中心参观了天河一号A,异构融合结构、自主知识产权CPU等产品、高新尖应用等都给笔者留下了深刻的印象。在参观之后,笔者与国家超级计算天津中心刘光明主任和NVIDIA(英伟达)公司PSG全球副总裁Shanker Trivedi等进行了深入的交流,不仅了解了我们国家在超级计算机领域的最新动向,对CPU和GPU异构融合结构也有了更深的理解。

专访
国家超级计算天津中心刘光明主任
与NVIDIA公司PSG全球副总裁Shanker Trivedi先生接受专访

天河一号A三种形式CPU的分工

  相对于传统的超级计算机,天河一号A采用了三种形式的CPU,分别是Intel处理器,还有NVIDIA(英伟达)Tesla,还有自主研发的飞腾1000,那么这三种不同架构的CPU又是如何进行分工协作的呢?

  对此国家超级计算天津中心刘光明主任解释道,国际上千万亿级计算机,或者更高级别的计算机,用通用CPU计算机去做的话因为规模大,功耗大,而且使用起来不一定很好。包括IBM曾承担了一个美国计算机的研究项目,完全都是通用CPU的方法去构建最快计算机,结果这个项目流产了,就是因为研制费用很高,做出的机器占地规模大,功耗也比较大。

天河一号
中国“天河一号A”

  在2005年到2007年间,国防科技大学便在研究通用CPU和GPU加速器的结合,来提高超级计算机的计算性能,比如流体力学、气动力学、FFT、CFD的东西,包括还有很多算法都适合这种结构,解决很多复杂的数学问题,这种结构是适用的。在2009年做天河一号第一期的时候,选用了AMD的GPU来替代当时国防科技大学自己研究的流处理器,这样就诞生了当时的天河一号。后来英伟达推出了Tesla 2050,因为AMD的GPU没有ECC校验,而Tesla有ECC校验,所以在2010年的时候,天河一号A进行了升级,GPU换成了NVIDIA的。同时高速互联系统换成自主研发的产品。

  在目前天河一号A中,整体系统分为两部分,一部分是Intel CPU和NVIDIA GPU构成的新系统,这个系统在整个所有天河系统的7/8,另外1/8的部分用的是自主研发的CPU 飞腾1000。天河一号A的系统是经过实验优化的环境,有很多科技计算的程序、应用都在此做测试实验,还有一些应用在不断的调试,测试,完善。

英伟达在HPC方面的规划

  其实不光天河一号A,目前全世界500强的计算机大概有十分之一采用了NVIDIA(英伟达)的加速卡,那么未来NVIDIA(英伟达)在这方面有什么计划?

GPU运算结点
GPU运算结点

  对此NVIDIA(英伟达)公司PSG全球副总裁Shanker Trivedi先生介绍到,天河一号A已经向全世界证明了异构超级计算是一个非常好的科学计算。未来比如美国的高性能超算中心、德国的超算中心等均将采用GPU加速并行计算的体系结构。在传统超级计算机中,CPU只贡献了整个高性能计算的10%甚至更少的份额,GPU贡献80%,90%的份额,很多计算性能是从GPU贡献出来的。

  另外,NVIDIA(英伟达)已经有了300个以上应用软件,大量的应用软件,解决科学问题的工具已经可以在CPU+GPU这样的异构体系上运行。通过新的异构计算加速的方式,为未来大大的节省超算中心构建的成本,同时节省功耗,降低能源功耗,节省费用。>>

  NVIDIA表示了未来会把基于Kepler方面的应用推到成千上万个应用,那么NVIDIA在推动异构编程方面未来重点的方向是什么呢?天津超算中心又有哪些关于异构编程和应用这方面的经验呢?

未来是并行的 参观国家超算中心天河1-A
天河高效能计算机系统

  对此NVIDIA公司PSG全球副总裁Shanker Trivedi介绍到一般是三种方法来做这种异构上的编程:第一类是存在了很多年的,甚至几十年的应用,对于这样一类应用,我们建议采用一种直接编程的方法,编程的标准在OpenACC。OpenACC是一个国际标准,这是开放的,很多人都可以采用的标准的编译的方法,这种方法可以使得传统的,存在这么久的软件可以最小的改动,因为写这个程序的人有可能都不在了,可以以最快的方法编到GPU和CPU上,异构的平台上进行计算,同时加速。举一个例子,在美国的能源实验室里,他们有一个很大的应用,这个软件应用叫S3D,类似像核聚变这样的应用,这个程序有100万行的程序,只改了400行,只改了非常非常小的程序量,大约只有万分之四,通过编译器编译,得到了六倍速度的提升。

  第二种类是新的应用,建议用CUDA GPU并行编程的方法,这个架构模型可能大家都熟悉,CUDA可能大家都熟悉,实际上就是把传统的C语言,类似其他的高性能通用编程语言进行一点点扩展,只是稍微做了一些语法方法的扩展,大家写程序的方法不变,这样重新写出来的程序效率可以大大的提升,可以在这个程序上跑。什么样的程序多了呢?像信号处理,图象处理,还有一些科技计算,用这样的方法来提升计算的效率。

  最后一种方法是用一些很多科研机构库函数的方法,NVIDIA提供了很多系统级的库函数,还有很多是大学、科研机构,还有网上做了很到的库函数。举一个例子,一些很传统的中间件,你调他的库函数的话,用这样的方法来提升,他们那些函数已经是GPU上的,写程序的人并不用关心他们是怎么实现的,只是调用这些名称和函数来做就好了。

  总而言之,就是对于长期存在已有的程序,NVIDIA推荐用OpenACC,但是对于新程序,或者对性能有追求,一定要求特别高性能的可以用CUDA来进行改写,对于其他一些传统的,比较规范的程序,调用大量函数的,可以用调用库函数的方法来做。

未来是并行的 参观国家超算中心天河1-A
天河一号A中的GPU运算节点

  国家超级计算天津中心刘光明主任则道,天河一号A这种异构结构几个典型的应用还是应用得不错的。比如在典型的石油勘探数据处理,经过天河一号A,已经完成了具有自主知识产权的石油三维历史偏移。这个软件过去是掌握在国外人手上,国外公司手上,对于我们来讲是高价政策。我们现在通过天河一号A,从2011年年初开始,跟东方物探进行合作,持续做了两年的时间,整体性能从通用CPU的版本上升到CPU+GPU的版本,整体性能提升了大概六倍。同时我们在这个基础上又做了一个基于计算系统做的优化,磁盘的数据处理系统变成一个基于内存的。另外包括现在的气动力学,大飞机的仿真,说得更通俗一点就是数字风洞的处理,还包括一些典型的应用,包括还有一些源的分析等等这些,现在应用都不错。

  总结:天河一号获得世界第一之后,引起了高度关注,关于其背后的技术也吸引了大量人士的关注。国家超级计算天津中心通过和NVIDIA成立一个联合实验室,对异构在超级计算方面的发展有着重大的意义,NVIDIA也能在软硬件方面同时提供支持。从笔者的观察来看,在未来的超级计算机发展中,因为能耗、成本等方面的优势,异构结构将会成为未来的主流趋势,在越来越多的超算中得到应用。[返回频道首页]

为您推荐

加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多

服务器论坛帖子排行

最高点击 最高回复 最新
最新资讯离线随时看 聊天吐槽赢奖品