== 系统问题，暂停聊天功能。==
【征集】西西河的经济学，及清流措施，需要主动参与者，『稷下学宫』新认证方式，24年网站打算和努力目标

主题：天河1A的一些消息 -- 大龙猫

共:💬6 🌺28 新:

信息技术

全看树展主题 · 分页首页上页下页末页

天河1A的一些消息

最近听到一些关于天河一号A的一些信息，拿来与河友分享。

两周前在AGU秋季年会上，在一个计算方法的专题里，有一位在美华人计算机系主任的报告，他用TH－1A算一个大气环流的模型。因为他是在PESTc的基础上写的程序，所以没有用到GPU，只是在CPU上算了。他的结论是，TH－1A称不上好，但也不算坏。印象里有个数据，用几十个CPU跑一个循环，大概10秒内；用上万个CPU跑，要100秒内；性能下降很多。这就是他说天河不算好的原因吧。

在另一个关于GPU计算的专题里，有个目前GPU计算体系的比较。TH－1A的互联技术是私有的，但接口还是PCIe；TH－1A是一个节点带一个GPU。与之相比，TOP500第四日本人的TSUBAME 2.0，互联是InfiniBand，接口是PCIe；令人吃惊的是，日本人一个节点带三个GPU。众所周知，超级计算机里互联、调度技术是最重要的。显然，日本人的方案里，对互联、调度这块的压力比天河更大。

所以，我不看好天河的互联技术，理由如下：

第一，天河的接口还是PCIe，所以天河的互联技术无论怎么神秘，都不可能超过这个限制；

第二，日本人的方案对互联要求更高，但日本人用的是公开的Infiniband技术；所以估计天河的互联技术不会比Infiniband强；

综上，估计天河的互联技术最可能是仿的Infiniband，但技术没吃透，所以性能差些，造成一个节点带一个GPU的局面。

希望我这个估计是错的！

上个月，LANL的人来学校报告，在讲Jaguar和Roadrunner时，也提到了天河一A。先说Jaguar和Roadrunner的对比吧。

几十个CPU时，Jaguar是超Roadrunner的。但几万个CPU（或核吧，记不清了）时，Roadrunner是超Jaguar的。随着CPU数量的增加，Jaguar效率降低很快，而走鹃保持的更好。从这点上来说，我觉得国防大学的天河技术更象克雷的Jaguar，而不如IBM的蓝血基因。

LANL的人讲完了这两个的对比，然后用一种轻松的语气说，现在这两个已经不行了，中国人的天河是最快的。我理解他的语气是这样的：

第一，美国人在建的超级计算机有比天河快的，只是没建完，而被中国人打了个时间差；

第二，这下子，DOE就可以申请更多的经费了:(

总之，从解决有无的角度，天河1A是成功的；但从实际性能对比的角度，天河还有很长的路要走!

尤其是怎么用好GPU的问题，光跑Lapack是不行的。象PESTc不能跑在GPU上，对天河的推广是很大的限制。但天河能等美国人把PESTc移值到GPU上再说吗？