西西河

主题:【原创】从超算的发展看中国科技的进步---神威蓝光的问世 -- ★kg90

共:💬49 🌺173
分页树展主题 · 全看首页 上页
/ 4
下页 末页
                • 家园 你这是拿法拉利比18轮大卡车

                  各家说各话,发的paper与其说是讨论比较技术,不如说是销售手段。不过本猫相信CPU会笑到最后。

                  • 家园 山猫兄多指教哦。我就不闹笑话了。
                    • 家园 类似Tesla的想法其实早就有了

                      比如说Clearspeed,就是面向同一个市场的。

                      问题是Clearspeed有一个很严重的问题,就是昂贵,再有就是需要修改已有程序,程序员也需要学习一种新技能。Intel当年对Clearspeed有一个评论,本猫认为是相当中肯的,就是Clearspeed这一类产品必须比同期Intel的顶级芯片至少快10倍以上,才有竞争力。

                      Tesla的好处是,它是基于GPU开发的,因此价格可以降下来,从性能上讲,Tesla并不会比Clearspeed这类产品强(一个是专门给supercomputing用的,一个是可以用在supercomputing上)。而Tesla的问题也在于此 - 它的存在前提是 - 如果GPU的市场可以维持的话,因为Tesla如果没有GPU市场的支援,就是个赔钱货。

                      本猫不认为(独立的)GPU的市场可以维持。AMD和Intel都有自己的GPU部门。AMD就不用说了,它有相当部分营收来自于ATI部门。Intel这几年也不断增强其GPU的能力,而且为了消灭nVidia的GPU市场,不惜通过限制专利授权消灭了nVidia的chipset部门。

                      当然这算是Tesla不会成功的内因,外面还有类似于Knight Ferry这种产品的竞争,不过本猫认为内因的重要性是大于外因的。

    • 家园 记得有报道说,曙光的机子要用“龙芯”的啊,现在还没有具体

      产品出来吗?

      • 家园 有刀片服务器了,但是......只能跟人比能耗。

        主板由曙光公司设计,CPU则采用中国独立自主研制的LoongSon3A CPU,BIOS采用曙光公司基于PMON二次独立开发的曙光龙芯BIOS,操作系统采用红旗公司的redflag linux。是一款包括基础架构、通用处理器和操作系统软件都具有完全自主知识产权的划时代的服务器产品。

      • 家园 28纳米的16核的龙芯3C据说在2012年出来。

        进度好像比估计要迟1到2年时间。对于胡伟武Release的信息要Plus二年。胡的队伍主要是本土学生,可见靠本土技术进步做科学研究有多难,尤其是做CPU。据说国防科大和江南所的CPU是基于SUN和DEC。

        修改:据说代工的公司28nm的技术改变没有准备好,看来龙芯3C是用32nm或45nm.

        (由于Synopsys在去年收购了Virage公司,而该公司将采取TSMC28mn 工艺自己设计的标准单元库的速度虚报提升了许多,及memory库提交合格指标日期推后到我们无法接受的程度,误导我们认为这是全球最好水平的时序库 ,一旦落实购买,又拿不出来。为此Synopsys公司中国区总经理找我及杨梁去解释并道歉,因影响了3C的工作,心中窝了火,决不是道歉儿句就能抚平的。链接出处:http://www.loongson.cn/dzb/loongson-dzb-16.pdf )

        (题外话:关于Virage与中芯国际 http://www.hicc.org.cn/news_view.asp?id=901)

        • 家园 我觉得跟在别人屁股后面使劲追要比自己一个劲的猛跑困难

          多了。跟在别人屁股后面追要按照前人划的道跑,一个人跑无拘无束、自由还能约束后来者。

        • 家园 现在不太看好龙芯了。曙光早就说要搭建基于龙芯的HPC。

          但是龙芯一直跳票,玩数字游戏;从龙二开始,现在到龙三,都没看到产品。国防科大和江南所的技术力量显然要比龙芯强,也专心做事,进度也快,也有成果。龙芯已经拖了曙光的后腿,要不然曙光在超算方面在国内算是领先的(商用)。

          龙三除非能达到POWER7那样的性能,否则一点儿优势也没有。

      • 家园 龙芯更多的时候是个噱头!
    • 家园 应该是国防科技大学吧?不是国防大学。
    • 家园 看起来不错

      [email protected]/16Core,就是8浮点运算/核/周期。现代RISC应该都是多发射,目前的话肯定要上到4发射了。这样的话,运算通道是128位的SIMD,每次处理2个浮点数。这些数据和目前CPU架构的常用设置可以匹配得上。

      不过,要把16*8个128位浮点SIMD放到一个芯片,这怕是有点变态吧。再加上互连,这得多大的芯片面积啊,除非大大降低缓存容量。这样,对linpack可能影响不大,但对稍复杂的任务,性能影响就大了。

      另外,SIMD/4发射/16核这些都是影响并行效率的因素,在这么多因素影响下还有这么高的效率,编译软件上是不是做了什么手脚却悄悄地不说?这要真有,可比硬件的进步还令人振奋。

分页树展主题 · 全看首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河