主题:中国成功研制千万亿次超级计算机“天河一号” -- kernelh
共:💬21 🌺16
使用MPI类的并行工具,如果一个节点在计算中死掉,则结果必须全部重算。一次使用上千CPU,很难保证所有节点和其链接链路在足够长的时间内不死。当然,这个问题也可以转化成软件问题,即在软件设计中加入checkpoint机制。但是不是所有算法都有好的checkpoint机制可实现的。
而海量数据计算则没有这个问题。单个节点的故障可以由重新提交该节点正在计算的任务来解决。只要把任务划分到适当大小(一般是单个节点运行5-30分钟),整个集群相当于一个高可靠计算平台。
- 相关回复 上下关系7
🙂手上有个做Monte Carlo差事 心文连博 字100 2009-10-31 16:33:38
🙂如果数据是一次送达,可以用grid 1 类反词典 字222 2009-10-31 17:33:34
🙂利用率还是有,但据说主要是由众多小用户组成 卷心菜 字49 2009-10-31 16:26:05
🙂不光是软件的问题
🙂这个太好了 meokey 字0 2009-10-29 10:20:30
🙂可喜可贺!为母校喝彩!如果是龙芯就更完美了。 fj1989 字0 2009-10-29 07:22:46
🙂-- 系统屏蔽 --。