近期网站停站换新具体说明
按以上说明时间，延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间

主题：大数据与史上最强网络推广个案:hp笔记本 -- zw

共:💬23 🌺31

老视野待整

全看分页树展 · 主题跟帖

复大数据与史上最强网络推广个案:hp笔记本

家园

大数据、趋势与黑天鹅

大数据、趋势与黑天鹅

大数据的核心是关联算法，抓主流，分析趋势，一般取95%的置信度，

问题是，真正有价值的恰恰是哪些5%，我们在实际分析时发现：黑天鹅才是新常态

金融市场大家都是大数据会反向干扰态势的

现在（2015）黑天鹅才是新常态

看看：石油价格瑞士法郎日元升值光大砸盘黄金狂跌

全部没节操没下限

参见《大数据与黑天鹅等》

外链出处

07年我就开始做舆情，而且采用的是智能语义分析模式，应该是国内最早的，

基本是原创代码，后来检索资料，发现政府招标，并且有总参参与，就主动放弃了

也接触一些机构，包括广东省宣传部相关人员和深圳专业的舆情分析公司（类似香港的第三方民间评估机构）

因为这块太敏感，而且个人不喜欢与政府机构合作，政府部门往往多破坏，少建设

后信息时代，创意经济，个人的主动性非常重要，甚至是第一位的，

这个才是欧美目前真正的核心竞争力，国内政府必须认真解决这块，才能提升全体国民、企业的竞争力

参见《当代TG人的“异化”》链接出处

黑天鹅才是新常态

真正做大数据分析，和看报告是不同的，做研究，尽量使用第一手的资料和数据，转手越多，数据污染越严重。

目前大数据用的比较成熟的有三块：互联网广告分析、机器翻译、量化投资

因为项目需要，早期我做过原创的ocr代码，这个图像分析、模式匹配、人工智能是基本功

早在99年，就开始用语句库、统计模式做英语翻译软件，比谷歌还早几年，素材是电影的双语字幕，当时就有百万级的语料库，国内同期的北师大等项目，不过几十万，

后来因为资源和课题发现，没做这块，附带出版了一套《魔鬼英语》教材，

对于普通人而言，想把握目前大数据、人工智能的发展程度，看看百度、谷歌的中英翻译网页就可以，随便找段英文，机器翻译下，

这个翻译水平，降低一个数量级，差不多就是当前大数据、人工智能的实际水平

这几年，做量化投资方面的数据分析，越做越发现：黑天鹅才是新常态

为什么混沌理论，是量化投资的基础理论？

因为市场是双向的，任何机构、个人，通过数据分析，进行决策，参与市场

对市场是会有干扰的，人少还好办，人一多，整个市场就乱套了

在所有的股票数据中，早期，macd是比较科学的，也是非常有效的

当大家都用macd指标，作为投资参考，

完蛋了，不是一只蝴蝶，而是所有人都成为了蝴蝶

整个市场数据，完全被污染，macd也成为无效指标

所以说：人人都大数据，就人人都没数据

现在的投行标配，全部是交易员自己写代码，将策略直接程序化，

尽管如此，即使100%保密，因为每家头行都以亿美元为起点，对市场影响也是超级“蝴蝶效应”，造成很多策略都是一次性的

大数据与死数据

据说，汶川地震，药物管理问题，刺激了政府大数据战略，这个实际上，是有很大问题的

首先，这个模式类似macd指标，有效性，是建立在数据库封闭基础上的，只有政府和少数关联企业可以使用，普通企业、个人，没有权限使用这个数据库的，

如果大家都能使用这个数据库，百度一下，分析汶川缺少板蓝根，大小老板、甚至个人投资者，全体板蓝根，几天后，汶川会成为全国、甚至地球上板蓝根密度最高的地区，

这个“姜你军”要涨价,“蒜你狠”不折腾，已经有过案例，

资本的力量是无法阻挡的，即使政府限制，关系企业，有关人士，也会拿到相关权限，这个毕竟只是商业数据，保密权限不可能很高，“SSS”级，和二炮一个级别

淘宝余额宝，也是一个类似的案例，早期，阿里数据源不开放、其他基金嫌麻烦，再加上互联网企业贴本吆喝、花钱买客户的传统，表面收益貌似蛮高。

等行业稳定下来，目前余额宝的收益，也和行业其他基金差不多，

这种趋势，不过是价格二元化，在大数据行业的复制，与政府改革开放的出发点是相悖的

互联网的基础是：open（开放）+free（免费），基于互联网的大数据产业，如果违背这个基础，只能是空中楼阁

这种管制模式的大数据产业，越发展，对整体经济损伤越大。

首先，少数权贵部门和企业，从资本、原料等方面的垄断，会延伸到数据方面的垄断，获得不当利益，

而广大普通企业、个人，却因为受限于数据，无法进行正确的商业决策、个人投资，社会的二元化分割更加严重，

这个，看看现在的房屋数据库，始终无法进行全民查询

这里多说一句，政府与其，梦想通过大数据，建立2.0版本的1984社会，不如管好全国四百个城市的局级以上官员，毕竟这个才几十万数量级

如果连几十万数量级的中高官员，而且绝大部分是党员，都无法有效管理，希望利用大数据，来管理十亿级的民众，只能是。。。。。。

其次，数据与资本、原料、设备不同，一个邮件，一张U盘，就可以将涉及全体国民的数据暴露给国外敌对机构

发达国家的模式是，除极少数敏感数据库外，普通数据基本免费开放，全民共享，这样才能全体国民受益，减少数据事故，减少数据意外事故，对普通企业、个人的冲击

更多参见《大数据与死数据》

外链出处

200万亿数据只是小case

政府主打的阿里健康，起点是汶川药品管理，数据库据说有200万亿条纪录

这个数据规模大吗？

实际上很少，药品数据库，不过是名称、价格、厂家等几十个字段，而且基本是结构化数据。

1G大约10亿直接，结构化数据，200万亿，每条50字节，不过是1000G（1T），1T的硬盘，才2-300元。

这个规模，比我们做2000年，做字模时少多了，

国标2级是每套字库6700多个汉字，按256x256像素采样，每个汉字128k（64k x 2）字节数据,一套字模差不多700M（兆）

字模的筛选率是百分之一，每套合格字模，需要处理70G的数据。

可能，黑天鹅算法最早的灵感和萌芽，就是不经意间源自这里。

2000年,我们做“千禧版”版权登记，共一千套字体，数据总量超过1000x70G=70T，是阿里健康的七十倍。

当时没有超算，没有GPU，我们是几台电脑，每天24小时运算，差不多半年才做完。

其实，早在92年，我们180款的字模，数据量就差不多20T，是阿里健康的二十倍。

那时候dvd刚问世，刚开始只有视频dvd，没有电脑的，我还特意去广州海印xx公司看过了dvd演示效果

在大数据领域，200万亿数据，只是小case

吓唬外行有用，一线的，再多数据，不过是多几个索引表而已，而且现代k-v表，全部采用hash算法，与数据规模关系不大。

比数据规模更重要的是，数据的实时性：

与百度、新浪微博、微信、淘宝等机构，建立实时的API数据接口，进行元数据搜索，作为一个参照维度。

摘自《大数据和高频量化交易》

外链出处

可惜，这些因为公司利益，政策等原因，在国内目前基本无法操作

而国外，基于社会化数据的投资策略，已经出现N多模式

更多参见《大数据与死数据》

外链出处

大数据与数据干扰

政府大数据项目的一个“G点”，是舆情监控

通过QQ纪录、微信关键词的确，可以进行一定程度的舆情监控，公共事件管理

但是，真正的破坏者，例如敌方，恐怖分子，异议者，可以用很低的成本干扰数据源

《机器之心》里面，杀手采用口红大小喷剂，就可以屏蔽摄像头的人脸拍摄

《大数据与史上最强网络推广个案:hp笔记本》链接出处

也提到，如何通过软件，提升关键词比重10%-50%，这个很多seo教材都有

关键是，这个成本很低，稍微在网络下载一些hack教材，只需要一台笔记本，就可以控制成千上万台肉鸡，进行干扰信息发布

hack违法，没关系，买套群发软件，买几台二手电脑（五百元的主机级ok），一根网线，几千元，就可以搭建全部硬件

验证码，没关系，云打码，完全人工识别，准确率99%

IP限制，没关系，vpn每个月十块钱，上千个IP地址，全世界都有

......

【补充】基于大数据的量化投资、股市系统，验收标准，

摘自QQ对话

注意下盈利参数V，其他都是技术细节

目前大盘整体波动大，要和大盘平均指数比，不然没有意义

另外，注意稳定性，取2-3个月的周平均指数，看看系统模型有没有bug

全看分页树展 · 主题跟帖

相关回复上下关系8
- 🙂大数据与史上最强网络推广个案:hp笔记本 11 zw 字1769 2015-05-19 09:48:05
  - 🙂大数据、趋势与黑天鹅
  - 🙂牛人们给咱讲讲大数据对普通人有啥影响北纬42度字415 2015-05-21 11:38:23
    🙂几部大数据、人工智能有关的影视作品 2 zw 字662 2015-05-23 06:30:27
    🙂这不是忠诚度 1 一刻馆皆様字8 2015-05-21 17:03:57
    🙂大数据产业化目前是扯蛋，但数据分析是行业的基本功 1 zw 字557 2015-05-21 11:57:31
  - 🙂HP的笔記本是很有名, 不過是出名爛吧? 2 岑子字166 2015-05-21 07:42:26
    🙂HP实力还是很强的，笔记本是因为利润低， zw 字242 2015-05-21 09:03:47

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明