西西河

主题:【原创】大数据与郑国渠 -- zw

共:💬44 🌺246
全看分页树展 · 主题 跟帖
家园 大数据与黑天鹅等

大数据与黑天鹅等

2015.4.10发布的blog《大数据观点补充》曾经说过:

http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html

【黑天鹅才是新常态】

金融市场 大家都是大数据 会反向干扰态势的

现在(2015) 黑天鹅才是新常态

看看:石油价格 瑞士法郎 日元升值 光大砸盘 黄金狂跌

全部没节操 没下限

十天后,2015.4.21《上交所交易量“爆表”》

上海证券交易所周一称因软件设置原因,上交所市场成交金额超过1万亿元人民币后无法及时更新

http://www.solidot.org/story?sid=43769

点看全图

外链图片需谨慎,可能会被源头改

并非我们有什么预测未来的大能,而是在实盘操作时得出的经验模型:黑天鹅算法模型(zPSO,z粒子算法的升级版)。

传统的大数据分析,像R语言,置信空间是95%,也就是说,5%的小概率事件是不考虑的,属于黑天鹅事件

而实盘中,恰恰是这5%的黑天鹅,才是真正的盈利点所在?

经验表明,对整个数据集,5-8%左右的筛选结果,盈利概率(参数v)相对较高

(摘自《大数据和高频量化交易》 http://blog.sina.com.cn/s/blog_7100d4220102vkai.html)

why?为什么?

没有道理啊?

因为,当大家都是大数据时,会反向干扰态势。

大数据需要大计算,普通的集群(100-200台)都不行,于是云计算华丽登场。

目前,最早商业化的云计算亚马逊已经爆出n起大客户退单,就像网络实名制的韩国,目前也放弃了实名制。

云计算的硬件基础是多核、并行运算,GPU、cuda、opencl、mpi,这些架构,目前都处于摸索阶段。

其中最有前途的intel百核CPU:Xeon Phi系列,2015完成度也只有60%,而且需要3-5年才能发布。

(《Intel 60核处理器登场》http://diy.pconline.com.cn/627/6277957.html)

至于目前流行的各种大数据核心算法,都是基于统计分析、聚类分析,以及各种各样、五花八门的分析模型。

这些分析模型与算法,大多基于传统的人工智能研究,什么啄木鸟算法、萤火虫算法、蚁群算法,大部分都是经验性、实验模型,缺乏系统的理论支持。

这些算法,看名字就知道,玄而又玄,不知所云。

关键的是,这些算法都是受限模型,是基于某些特定条件下的模型,无法通用,

就像冰岛的"啤酒和尿布"模型,到了中国,完全没戏,至少在沃尔玛、家乐福、华润等超市,没有看到这种模式。

而并行开发最重要的工具,通用并行编程语言,目前一种都没有,目前最流行的cuda c,尚处于汇编阶段,

硬件没有,软件没有,算法没有、模型没有、开发工具没有

就这样一个项目,居然成为国家战略级项目,数千亿、上万亿的投资

怎么看,怎么不靠谱?

就像五十年代的赶英超美、全民炼钢。

今天,我们是完成了这个目标,可是这个是在各种条件数十年积累后才完成的。

政府决策部门,强推大数据,提升为国家战略的另外两个“潜在”考虑,可能是:

::基于大数据、信息科技的新型“计划经济”,个人对经济不熟悉,但直觉上觉得不靠谱,至少目前没看到有这方面的理论体系,而成熟的理论体系,是项目成功的基本要素。

有了成熟的理论体系,未必一定成功,没有,绝对是失败

::建立类似1984的社会管理体系,这个更加不靠谱,网络危机公关的经典手法就是,采用大量的关联信息,淹没负面新闻。

一组(10台)电脑,每天可以发布上亿条信息(包括填写验证码),可以模拟千万级的用户数据。

(顺便说一句,个人是国内首家4A级网络公关公司的联合创始人之一,服务过150+国际500强,包括微软、奔驰、西门子)

政府决策部门,跑步进入数据共产主义,多半是被神奇的“人脸识别”算法和淘宝、支付宝后台数据唬住了,就像古代方士们神奇的魔术表演。

::“人脸识别”其实是个很简单的opencv通用算法,普通的手机、平板都可以实现,不需要大数据、也不需要云计算,我们发布的开源项目:zwPython,就内置了相关模块和算法、以及源码。

(zwPython集成式python开发平台, http://blog.sina.com.cn/s/blog_7100d4220102vk6x.html )

::淘宝、支付宝的海量数据,也没有多么神奇,余额宝的利息,目前也和普通基金、定息差不多。

大数据、云计算,看起来的确很高大上,比玩地产的土鳖“逼格”高太多了,比玩实业的工商企业轻松多了。

可是,大数据的的核心硬件服务器、软件、数据库,都要进口,而硬件服务器的折旧比汽车还快,最前沿的硬件,基本3年就基本价值归零,就是一堆废铁

因此,目前各地政府的批量上马数据中心、计算中心,投资回报更加令人担心,一个3-5年,回报率无限归零的项目,而且投资总额分分钟过万亿。

也许,大家会认为,这么多资金,上万亿砸下去,至少在人才方面会有收获,会培养一支自己的团队。

这个,也许,不过意思不大。

日本全民动员的第五代电脑,目前也有些国际上知名的IT项目:比特币、ruby语言,可是对日本IT产业的整体盘,没有多少帮助。

说个最简单的一线实例:

大数据的处理平台,实际就是超算,什么天河一号、天河二号,等等

CPU有用intel的Xeon Phi,但主流是nv显卡,cuda编程,操作系统,90%以上是linux

国内开发团队刷排名,争资源、做政绩,intel、nv闷声接订单,赚金币。。。

一直以来,这样做,大家都觉得蛮好的,

好了,2015,黑天鹅又来了,美国政府宣布对中国超算项目,禁售高端xeon芯片

禁售其实不难解决,汕头做硬盘、cpu、内存走私的、分分钟可以解决

难的是,nv公司2015年最新的cuda7,不提供linux显卡驱动,

这下,可真是会死人的,没驱动,显卡都点不亮,还超算,还cuda,

至于大数据,连电都没有的非洲,你说什么互联网,还真以为自己是上帝,show me the light

怎么办,还真的叫国安去吧nv的ceo黄总,请到国内,旅游、讲课。。。。。。

大数据,再多的专家,再nb的模型,再炫的demo,

也不如自己亲自去沃尔玛、家乐福、华润等超市亲眼看看,再回头问问这些大师们,"啤酒和尿布"模型,怎么玩砸了?

所以我们说:凡是无法通过“足彩数据”实盘测试的方案、算法,都是在耍流氓

关于大数据和人工智能,我的基本观点是:

凡是无法通过“足彩数据”实盘测试的方案、算法,都是在耍流氓。

这就是大数据、人工智能的图灵测试!

为什么?

关于这个问题,就价值十个博士学位。

看不懂这句话的,还是少玩大数据、人工智能。

Talk is cheap,Show me the code!----Linus(linux 发明人)

足球比赛,从数学角度而言,是最简单三选一,胜、负、平

而真正的大数据分析,是在成千上万种可能中,选择最接近的进行匹配,

连最简单的三选一都搞不定,来谈难度、复杂度高数百倍、上千倍的n选一(n>1000),是不是有些不靠谱

2014世界杯 对于大数据 人工智能 是个分水岭 是元年

微软 谷歌 百度 都有相关的项目 胜率<50%

为什么?

这个也可以作为,这个观点的背景与补充。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河