正在阅读：千万亿次背后 GPU加速成就中国第一超算千万亿次背后 GPU加速成就中国第一超算

2009-11-05 02:33 出处：PConline原创作者：勤行责任编辑：wenzhicheng

GPU加速所面临的挑战

　　虽然GPU在并行处理方面的优势获得了普遍承认，但其未来发展的道路上还有不少的挑战，这其中一部分是由于历史原因造成的，而另一部分却也有其自身架构的原因。

　　从自身来说，GPU卡法的初衷是面向像素、光影处理、3D坐标变换等相关的运算环境，其实际上是一组由硬件实现的图形函数的集合，GPU的微架构就是面向适合于矩阵类型的数值计算而设计的，大量重复设计的计算单元，这类计算可以分成众多独立的数值计算——大量数值运算的线程，而且数据之间没有像程序执行的那种逻辑关联性。这注定了其不适合完成操作系统，系统软件，应用程序等需要大量逻辑判断的的环境，再加上其主频与CPU相比还差距不小，因此在上述方面，CPU仍然是王者。

　　而从外部环境来说，软件应用问题是GPU要发展亟需解决的问题。CPU经过多年的发展自然根深蒂固，目前绝大多数应用程序都是按照CPU环境来开发的，这一来应用如果要移植到GPU环境必然面临重写的问题，这也就是为什么有的应用可以很好地在GPU上运行，而有的却并没有多大效果的原因。

　　这一点在今年的HPCChina大会上TOP100排行榜创始人、中科院软件所张云泉博士谈的很清楚，他说“目前来看，GPGPU的应用对于普通用户而言确实比较难，但是“天河一号”在体系结构设计上也已经考虑到这一点，其CPU与GPU的比例是1：1，这样，即便只使用CPU，也可以实现200万亿次的计算性能，与上海超算的曙光5000A相当。”不过如果真是这样，无疑是计算资源的极大浪费。

　　除此之外，高性能计算的效率问题也是GPU的一大软肋。今年的中国超算排行榜上，高居榜首的“天河一号”在效率一栏却仅有尴尬的46.7%，这样的数值在排行榜上是倒数的，与排名第七的南京大学IBM系统相比甚至只有后者的一半，而从国外的案例来看，全部采用至强5500+Infiniband的组合，其效率甚至能够达到0.9，而这在很大程度上就是由于采用了GPU作为加速单元造成的。而且目前的GPU普遍存在单精度运算性能强而双精度运算性能弱的问题，大多数情况下其双精度运算能力仅为双精度的1/8-1/10，而高性能计算在多数环境下确实需要双精度运算能力的。

　　另外，可靠性也是高性能计算领域少见GPU的原因之一。目前的GPU并不支持ECC闪存，GPU由于一开始是面向图形渲染开发的，在游戏等应用中即使有一些渲染出现误差也无伤大雅，而在高性能计算领域，一点点差错都可能带来毁灭性的后果。这也是一些厂商会选择其他处理器作为协处理器的原因，比如IBM走鹃上的CELL处理器，而另外一家国产厂商曙光则表示未来更倾向于使用国产通用处理器龙芯。

总结

　　“天河一号”的出现使得我们中国拥有了自己的千万亿次超级计算机，这不能不说是过人的一大骄傲，而且其创新的GPU加速设计也为未来超算的发展做了非常好的尝试，但是我们在欣喜成绩的时候也应该清楚地看到不足，虽然“天河一号”有千万亿次的运算分值，但Linpak值却仅有500万亿次左右，低效率是其一大软肋，而相比国际上排名前列的超级计算机入IBM的“走鹃”，其上千万亿次的Linpack值显然更加优秀。

　　鲁迅先生说过“世上本没有路，走的人多了便成了路。”现在“天河一号”已经为中国的千万亿次迈出了第一步，相信未来会有更多、更好的国产超算出现，中国的千万亿次已经迈开第一步，长征很长，这仅仅是个开始。[返回频道首页]　

上一页 1 23在本页浏览全文

键盘也能翻页，试试“← →”键

本文导航

第1页：天河一号配置情况详解
第2页：异构设计成就高性能

第3页：GPU加速所面临的挑战