西西河

主题:大数据与史上最强网络推广个案:hp笔记本 -- zw

共:💬23 🌺31
分页树展主题 · 全看首页 上页
/ 2
下页 末页
  • 家园 大数据与史上最强网络推广个案:hp笔记本

    大数据如今貌似时髦,貌似当年的“点com”,尤其是政府部门,有关专家,言毕称:大数据,仿佛有了大数据,自己也成了IT最前沿的geek一族。

    其实,大数据是个很土鳖的东西,骨子里面还是六七十年代的dbase,人工智能哪些玩意,不过换了个新马甲。

    2007年,我们采用“大数法则”做的操盘惠普笔记本“数码混搭”推广个案,就是一个大数据的应用。

    外链出处

    2007年的惠普笔记本“数码混搭”推广个案,成为年度十大公关行业经典案例(注意,非仅指网络公关);被业界誉为:史上最强之网络推广案例,没有之一;不可逾越的概念营销“标杆之作”

    我们在“数码混搭”个案当中,首度提出的百度、谷歌搜索引擎:覆盖率指标,等参数,目前已经网络公关的基础指数。

    “数码混搭”个案当中高至70-80%的覆盖率,至今,国内外尚没有一家团队、公司能够超越,包括百度、谷歌自身。

    大数据,尤其是各种数据分析方面的机器学习算法、人工智能模型,仍然处于黑暗期,婴儿期,离实用化还早得很

    就像量化投资,目前有超过五千种模型,可是没有一种是通用的,换句话说,没有一种是可以有第三方、重复验证的,

    用大白话来说,全部是扯淡,没有一种是有用的,如果有,请各位大师列出。

    关于大数据、高频交易和人工智能,

    个人的基本观点:凡是无法通过“足彩数据”进行实盘测试的方案、算法,都是在耍流氓。

    如果大家看不懂这个,在否定前,请重复一下笔者在07年的:惠普笔记本“数码混搭”推广个案,

    这个其实,只是最简单的“大数法则”,如果连这个都玩不转,还是不要玩大数据,早晚会把自己玩死

    当然,国家投资,“阿爷”的钱,无所谓,哪另说

    本文是以下几篇blog的补充,

    《大数据和高频量化交易》 外链出处

    《大数据观点补充》 外链出处

    《大数据与郑国渠》 外链出处

    《大数据与黑天鹅等》链接出处


    本帖一共被 4 帖 引用 (帖内工具实现)
    • 家园 大数据、趋势与黑天鹅

      大数据、趋势与黑天鹅

      大数据的核心是关联算法,抓主流,分析趋势,一般取95%的置信度,

      问题是,真正有价值的恰恰是哪些5%,我们在实际分析时发现:黑天鹅才是新常态

      金融市场 大家都是大数据 会反向干扰态势的

      现在(2015) 黑天鹅才是新常态

      看看:石油价格 瑞士法郎 日元升值 光大砸盘黄金狂跌

      全部没节操 没下限

      参见《大数据与黑天鹅等》

      外链出处

      07年我就开始做舆情,而且采用的是智能语义分析模式,应该是国内最早的,

      基本是原创代码,后来检索资料,发现政府招标,并且有总参参与,就主动放弃了

      也接触一些机构,包括广东省宣传部相关人员和深圳专业的舆情分析公司(类似香港的第三方民间评估机构)

      因为这块太敏感,而且个人不喜欢与政府机构合作,政府部门往往多破坏,少建设

      后信息时代,创意经济,个人的主动性非常重要,甚至是第一位的,

      这个才是欧美目前真正的核心竞争力,国内政府必须认真解决这块,才能提升全体国民、企业的竞争力

      参见《当代TG人的“异化”》链接出处

      黑天鹅才是新常态

      真正做大数据分析,和看报告是不同的,做研究,尽量使用第一手的资料和数据,转手越多,数据污染越严重。

      目前大数据用的比较成熟的有三块:互联网广告分析、机器翻译、量化投资

      因为项目需要,早期我做过原创的ocr代码,这个图像分析、模式匹配、人工智能是基本功

      早在99年,就开始用语句库、统计模式做英语翻译软件,比谷歌还早几年,素材是电影的双语字幕,当时就有百万级的语料库,国内同期的北师大等项目,不过几十万,

      后来因为资源和课题发现,没做这块,附带出版了一套《魔鬼英语》教材,

      对于普通人而言,想把握目前大数据、人工智能的发展程度,看看百度、谷歌的中英翻译网页就可以,随便找段英文,机器翻译下,

      这个翻译水平,降低一个数量级,差不多就是当前大数据、人工智能的实际水平

      这几年,做量化投资方面的数据分析,越做越发现:黑天鹅才是新常态

      为什么混沌理论,是量化投资的基础理论?

      因为市场是双向的,任何机构、个人,通过数据分析,进行决策,参与市场

      对市场是会有干扰的,人少还好办,人一多,整个市场就乱套了

      在所有的股票数据中,早期,macd是比较科学的,也是非常有效的

      当大家都用macd指标,作为投资参考,

      完蛋了,不是一只蝴蝶,而是所有人都成为了蝴蝶

      整个市场数据,完全被污染,macd也成为无效指标

      所以说:人人都大数据,就人人都没数据

      现在的投行标配,全部是交易员自己写代码,将策略直接程序化,

      尽管如此,即使100%保密,因为每家头行都以亿美元为起点,对市场影响也是超级“蝴蝶效应”,造成很多策略都是一次性的

      大数据与死数据

      据说,汶川地震,药物管理问题,刺激了政府大数据战略,这个实际上,是有很大问题的

      首先,这个模式类似macd指标,有效性,是建立在数据库封闭基础上的,只有政府和少数关联企业可以使用,普通企业、个人,没有权限使用这个数据库的,

      如果大家都能使用这个数据库,百度一下,分析汶川缺少板蓝根,大小老板、甚至个人投资者,全体板蓝根,几天后,汶川会成为全国、甚至地球上板蓝根密度最高的地区,

      这个“姜你军”要涨价,“蒜你狠”不折腾,已经有过案例,

      资本的力量是无法阻挡的,即使政府限制,关系企业,有关人士,也会拿到相关权限,这个毕竟只是商业数据,保密权限不可能很高,“SSS”级,和二炮一个级别

      淘宝余额宝,也是一个类似的案例,早期,阿里数据源不开放、其他基金嫌麻烦,再加上互联网企业贴本吆喝、花钱买客户的传统,表面收益貌似蛮高。

      等行业稳定下来,目前余额宝的收益,也和行业其他基金差不多,

      这种趋势,不过是价格二元化,在大数据行业的复制,与政府改革开放的出发点是相悖的

      互联网的基础是:open(开放)+free(免费),基于互联网的大数据产业,如果违背这个基础,只能是空中楼阁

      这种管制模式的大数据产业,越发展,对整体经济损伤越大。

      首先,少数权贵部门和企业,从资本、原料等方面的垄断,会延伸到数据方面的垄断,获得不当利益,

      而广大普通企业、个人,却因为受限于数据,无法进行正确的商业决策、个人投资,社会的二元化分割更加严重,

      这个,看看现在的房屋数据库,始终无法进行全民查询

      这里多说一句,政府与其,梦想通过大数据,建立2.0版本的1984社会,不如管好全国四百个城市的局级以上官员,毕竟这个才几十万数量级

      如果连几十万数量级的中高官员,而且绝大部分是党员,都无法有效管理,希望利用大数据,来管理十亿级的民众,只能是。。。。。。

      其次,数据与资本、原料、设备不同,一个邮件,一张U盘,就可以将涉及全体国民的数据暴露给国外敌对机构

      发达国家的模式是,除极少数敏感数据库外,普通数据基本免费开放,全民共享,这样才能全体国民受益,减少数据事故,减少数据意外事故,对普通企业、个人的冲击

      更多参见《大数据与死数据》

      外链出处

      200万亿数据只是小case

      政府主打的阿里健康,起点是汶川药品管理,数据库据说有200万亿条纪录

      这个数据规模大吗?

      实际上很少,药品数据库,不过是名称、价格、厂家等几十个字段,而且基本是结构化数据。

      1G大约10亿直接,结构化数据,200万亿,每条50字节,不过是1000G(1T),1T的硬盘,才2-300元。

      这个规模,比我们做2000年,做字模时少多了,

      国标2级是每套字库6700多个汉字,按256x256像素采样,每个汉字128k(64k x 2)字节数据,一套字模差不多700M(兆)

      字模的筛选率是百分之一,每套合格字模,需要处理70G的数据。

      可能,黑天鹅算法最早的灵感和萌芽,就是不经意间源自这里。

      2000年,我们做“千禧版”版权登记,共一千套字体,数据总量超过1000x70G=70T,是阿里健康的七十倍。

      当时没有超算,没有GPU,我们是几台电脑,每天24小时运算,差不多半年才做完。

      其实,早在92年,我们180款的字模,数据量就差不多20T,是阿里健康的二十倍。

      那时候dvd刚问世,刚开始只有视频dvd,没有电脑的,我还特意去广州海印xx公司看过了dvd演示效果

      在大数据领域,200万亿数据,只是小case

      吓唬外行有用,一线的,再多数据,不过是多几个索引表而已,而且现代k-v表,全部采用hash算法,与数据规模关系不大。

      比数据规模更重要的是,数据的实时性:

      与百度、新浪微博、微信、淘宝等机构,建立实时的API数据接口,进行元数据搜索,作为一个参照维度。

      摘自《大数据和高频量化交易》

      外链出处

      可惜,这些因为公司利益,政策等原因,在国内目前基本无法操作

      而国外,基于社会化数据的投资策略,已经出现N多模式

      更多参见《大数据与死数据》

      外链出处

      大数据与数据干扰

      政府大数据项目的一个“G点”,是舆情监控

      通过QQ纪录、微信关键词的确,可以进行一定程度的舆情监控,公共事件管理

      但是,真正的破坏者,例如敌方,恐怖分子,异议者,可以用很低的成本干扰数据源

      《机器之心》里面,杀手采用口红大小喷剂,就可以屏蔽摄像头的人脸拍摄

      《大数据与史上最强网络推广个案:hp笔记本》链接出处

      也提到,如何通过软件,提升关键词比重10%-50%,这个很多seo教材都有

      关键是,这个成本很低,稍微在网络下载一些hack教材,只需要一台笔记本,就可以控制成千上万台肉鸡,进行干扰信息发布

      hack违法,没关系,买套群发软件,买几台二手电脑(五百元的主机级ok),一根网线,几千元,就可以搭建全部硬件

      验证码,没关系,云打码,完全人工识别,准确率99%

      IP限制,没关系,vpn每个月十块钱,上千个IP地址,全世界都有

      ......

      【补充】基于大数据的量化投资、股市系统,验收标准,

      摘自QQ对话

      注意下盈利参数V,其他都是技术细节

      目前大盘整体波动大,要和大盘平均指数比,不然没有意义

      另外,注意稳定性,取2-3个月的周平均指数,看看系统模型有没有bug

    • 家园 牛人们给咱讲讲大数据对普通人有啥影响

      一般的科普文章都是讲大数据对国家对企业如何如何,对职业发展如何如何,很少有人科普大数据对普通人的生活有啥影响,如果有负面影响怎么应对?

      才知道,美国这帮黑心的保险公司,利用大数据分析你的“忠诚度”,比如是否经常换电信公司,换有线电视,是否经常关信用卡。如果分析结果是你很忠诚,对一家公司从一而终,你觉得保险公司明年会给你降保费?恰恰相反,你就要倒霉了,人家觉得既然你这么忠诚,给你涨价你也不会跑路,那就多涨点吧。。。

      • 家园 几部大数据、人工智能有关的影视作品

        关于大数据、人工智能,普通人可以看看这几部电视剧

        《机器之心》:高度人工智能的人形机器人警察

        《疑犯追踪》:超级电脑、网络监控系统和人工智能

        今年的电影《超能查派》,是南非《第九区》新锐导演的新作

        从另外一个角度解析了人工智能模板的选择:死狗和活狗

        在生存目前,无所谓善恶,

        你能说别人这种观点是错误的吗?

        凭什么

        你难道就是是上帝?

        即使你真的是上帝?

        难道上帝比安拉更正确?更伟大?

        其实,政府部门,大家最熟悉的应该是《24小时》

        里面的pda、智能手机与管理中心、卫星数据的实时对接、无缝集成、人物追踪,特别是实时性方面,可能很多目前都未完全实现

        看影视的最大好处就是,相关术语影像化,而且结合了大量社会化应用场景,非专业用户,易于理解,专业人员,也可借助发散思维,举一反三

      • 家园 这不是忠诚度

        是懒惰度

      • 家园 大数据产业化目前是扯蛋,但数据分析是行业的基本功

        如果有兴趣的 可以看看

        《零起点,python大数据与量化交易》

        外链出处

        至少炒炒股票,分析下客户订单、市场趋势还是非常有用的

        blog有配套的zwPython开源数据软件包下载,免费的

        《零起点,python大数据与量化交易》,这应该是国内第一部,关于python量化交易的书籍。

        有出版社约稿,写本量化交易与大数据的书籍,因为好几年没写书了,再加上近期“前海智库·zw大数据”项目,刚刚启动,书不一定有时间写,

        这个虽然只是目录,还是草案,算v0.1版

        不过,配合zwPython,也是个不错的大数据分析、量化交易平台,和学习教材。

    • 家园 HP的笔記本是很有名, 不過是出名爛吧?

      还未听過身边朋友有誰用HP的有好評的. 不是過熱就是易坏

      除了"買华碩,要坐牢"比HP还爛外我想不出有什么不比HP好的

      當年手賤買HP不是还貪小便宜么,由於機器太爛,售后还很給力的...

      • 家园 HP实力还是很强的,笔记本是因为利润低,

        HP实力还是很强的,笔记本是因为利润太低,hp在战略上放弃了

        就像西门子、爱立信不做手机

        hp打印机,目前还是很厉害,更加厉害的是惠普的测量仪器和医疗设备

        201x年,深圳高交会五洲宾馆活动时,正好碰见惠普医疗器材在搞活动,才知道hp不仅仅是做电脑、打印机

    • 家园 说句楼主不爱听的:今年2015年了唉

      2007年既然有那么好的成绩,如今该更上层楼才是,咋一记录就破不了了呢?

      结果整个听起来是“想当年”咋样咋样,IT这行当最怕提这个......

      • 家园 他提的关键字除了HP别的你有印象么...

        我都是看了他的帖子去搜才发现2007年有这么一回事的。

        时至今日HP最出名还是蟑螂门吧,没有之一...

        • 家园 公平一点

          楼主还是有些让人深刻的地方的。比如他认为郑国渠是个叫郑国的国家修的,并且因为修了这个渠被秦国灭了。这个故事一度成为他讲大数据的切入点,到处悲天悯人地讲这个事儿。

          • 家园 还真没注意这个

            无论他的引用对不对,这例子跟大数据都没啥关系,纯粹是中学写作文留下的用典的习惯而已。

            我07年不怎么上公网论坛,在教育网和海外华人网站都没听说过“HP数码混搭”这事,想看看是不是我孤陋了。

            看他回你的帖子倒是风格一致,列一堆典故就跳到结论了,基本不管啥内在联系。

            ps

            郑国渠的故事是小学的时候看的,当时书里还详细地描写了作为卧底人员的郑国的心路历程,现在想来全是扯淡。

            再想想韩国人纯粹是no zuo no die,秦国如果能纠集几十万人修成水利,这动员能力随手就把韩国吃掉了。他们唯一的机会是指望秦国人征丁太多政权崩溃了,这怎么看也不靠谱啊。

          • 家园 这种笑话我多了去

            乔布斯还说过手机3.5寸最OK

            盖茨也曾说,256k(???)内存足够了

            连稳重的IBM,当年都曾经宣称,全世界6台(??)电脑主机就足够了

            我理工科的,悲天悯人还不至于

            闹这种笑话,有什么关系,至少比自虐的考据狂自在

            白宫的科学顾问的费曼老先生,喜欢泡脱衣酒吧(《别闹了,费曼先生》)

            中国的黄永玉,自传就叫《比我老的老头》

            道法自然,保持一颗赤子之心

            做学问,明白这点,差不多也悟道了

      • 家园 大企业的业务有保密期限的

        这个案例因为是涉及到大数据才提起

        属于网络公关业务,实际上与我现在的项目没什么关系

        07年我们发布前,对数码混搭关键词的预测值是一千万左右,发布了1-2百万条帖子,实际效果比所有人预计的都好

        互联网膨胀太快,特别是微信、微博,移动互联网的发展,信息发布主体已经由网站机构,向个人发展了,这个也是我不看好政府大数据、一卡通项目的原因

        不过,这个案例的确是:前无古人、后无来者

        为什么?

        具体的细节和原因,可以作为一个博士论文,特别是做大数据的同学,

        如果搞不懂,真心不要玩大数据

        有兴趣的朋友,也可以自己百度、谷歌

分页树展主题 · 全看首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河