主题：【原创】GPU作超级计算，有那么美好吗? -- Highway

不同意

最简单的，你可以试试矩阵乘法（向量化）的性能，乘法规模10240*10240。

给定市场上目前主流配置的CPU和GPU，我做过测试，结论有两条：

（1）非向量化指令下CPU的矩阵乘法一般比向量化指令下的CPU矩阵乘法慢10-200倍（Intel SSEx系列向量化指令，双核Intel P8600，4G DDRII DUAL Channel）。上述规模乘法，前者约4小时（约240分钟）占用2G内存，后者6分钟（5分钟54秒）占用同样内存。

（2）GPU向量化并行计算还比CPU向量化快2-20倍（NVIDIA CUDA, Quadro NVS 160M 512MB）。上述规模乘法，约1分钟（53秒，考虑到数据的预先交换和初始化，真正计算时间只是这个时间的一部分），有显存存在，不过还是占了2G内存。

我的系统平台是Ubuntu GNU/Linxu AMD 64

一般情况下，GPU矩阵乘法性能比CPU快几十到上百倍。更况且上面我的机器还都不太强。这对于科学计算的意义是巨大的，对于工程应用和控制来说可能就不太有什么意义了。毕竟，天河一号是AMD/ATI堆砌起来的嘛。

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友