主题:天河1A的一些消息 -- 大龙猫
最近听到一些关于天河一号A的一些信息,拿来与河友分享。
两周前在AGU秋季年会上,在一个计算方法的专题里,有一位在美华人计算机系主任的报告,他用TH-1A算一个大气环流的模型。因为他是在PESTc的基础上写的程序,所以没有用到GPU,只是在CPU上算了。他的结论是,TH-1A称不上好,但也不算坏。印象里有个数据,用几十个CPU跑一个循环,大概10秒内;用上万个CPU跑,要100秒内;性能下降很多。这就是他说天河不算好的原因吧。
在另一个关于GPU计算的专题里,有个目前GPU计算体系的比较。TH-1A的互联技术是私有的,但接口还是PCIe;TH-1A是一个节点带一个GPU。与之相比,TOP500第四日本人的TSUBAME 2.0,互联是InfiniBand,接口是PCIe;令人吃惊的是,日本人一个节点带三个GPU。众所周知,超级计算机里互联、调度技术是最重要的。显然,日本人的方案里,对互联、调度这块的压力比天河更大。
所以,我不看好天河的互联技术,理由如下:
第一,天河的接口还是PCIe,所以天河的互联技术无论怎么神秘,都不可能超过这个限制;
第二,日本人的方案对互联要求更高,但日本人用的是公开的Infiniband技术;所以估计天河的互联技术不会比Infiniband强;
综上,估计天河的互联技术最可能是仿的Infiniband,但技术没吃透,所以性能差些,造成一个节点带一个GPU的局面。
希望我这个估计是错的!
上个月,LANL的人来学校报告,在讲Jaguar和Roadrunner时,也提到了天河一A。先说Jaguar和Roadrunner的对比吧。
几十个CPU时,Jaguar是超Roadrunner的。但几万个CPU(或核吧,记不清了)时,Roadrunner是超Jaguar的。随着CPU数量的增加,Jaguar效率降低很快,而走鹃保持的更好。从这点上来说,我觉得国防大学的天河技术更象克雷的Jaguar,而不如IBM的蓝血基因。
LANL的人讲完了这两个的对比,然后用一种轻松的语气说,现在这两个已经不行了,中国人的天河是最快的。我理解他的语气是这样的:
第一,美国人在建的超级计算机有比天河快的,只是没建完,而被中国人打了个时间差;
第二,这下子,DOE就可以申请更多的经费了:(
总之,从解决有无的角度,天河1A是成功的;但从实际性能对比的角度,天河还有很长的路要走!
尤其是怎么用好GPU的问题,光跑Lapack是不行的。象PESTc不能跑在GPU上,对天河的推广是很大的限制。但天河能等美国人把PESTc移值到GPU上再说吗?
写到这里,意识到我对互联那一块的估计可能有问题。日本人的方案,单个节点向外的的通信流量是比天河大的,因为要传送三块GPU所需的数据;但因为一个节点内的三个GPU可以通过内部总线通信;这样,系统总流量也许比天河小。总之这块很复杂,我这样的外行就不懂了,还是抛砖引玉吧,恳请河友轻拍:)
为什么PCIe不行?它的限制是什么?这个限制是否真的限制TH-1A的速度?
什么是走鹃?
天河的互联是通过PCIe接口进到主板上的,所以最大传输速率不可能超过PCIe的上限。
最初看到天河这个私有的互联技术时,河里有分析说,中国利用通信的先进水平(比如华为),搞出一种新的超级计算机互联技术也说不定。用无线技术作比方,大家都是3G的时候,我们已经上了4G LTE。
但现在看,天河的互联应该还是跟别人在同档的水平,而没有超越。
一般电脑的显卡就是用PCIe接口的,如果节点直接的互联能达到PCIe的速度上限,很可观了。
不懂InfiniBand,做了一下google党,貌似现在有用这个代替PCI,做系统总线的趋势啊。
话说,如果计算机内部总线IP化,应该是很有意思的事情把,反正IPv6地址管够
用PCIe接口的话,12X QDR的Infiniband就到头了。而日本人就用的是Infiniband QDR。
这是PCIe的规范:
16 lane slot:
v1.x: 4 GB/s (32 Gb/s)
v2.x: 8 GB/s (64 Gb/s)
v3.0: 16 GB/s (128 Gb/s)
这是Infiniband的规范:
SDR DDR QDR FDR EDR
1X 2 Gbit/s 4 Gbit/s 8 Gbit/s 14 Gbit/s 25 Gbit/s
4X 8 Gbit/s 16 Gbit/s 32 Gbit/s 56 Gbit/s 100 Gbit/s
12X 24 Gbit/s 48 Gbit/s 96 Gbit/s 168 Gbit/s 300 Gbit/s
数据来自wikipedia。
所以,估计天河的互联技术不是那种超越的技术,只是追赶的技术:(
NCSA和IBM联手的玩意儿,大约11年上半年投入使用,据说已经被ISU订了。