主题：中国成功研制千万亿次超级计算机“天河一号” -- kernelh

共:💬21 🌺16

不光是软件的问题

使用MPI类的并行工具，如果一个节点在计算中死掉，则结果必须全部重算。一次使用上千CPU，很难保证所有节点和其链接链路在足够长的时间内不死。当然，这个问题也可以转化成软件问题，即在软件设计中加入checkpoint机制。但是不是所有算法都有好的checkpoint机制可实现的。

而海量数据计算则没有这个问题。单个节点的故障可以由重新提交该节点正在计算的任务来解决。只要把任务划分到适当大小（一般是单个节点运行5-30分钟），整个集群相当于一个高可靠计算平台。

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友