西西河

主题:回覆本嘉明兄:對台灣現況與民情的分析 -- aiguille

共:💬561 🌺6169 🌵19
全看分页树展 · 主题 跟帖
家园

如果你真关心大数据有关内容,我知道的信息比较同步说的基本在茶馆论坛老槐的帖子,大数据一和大数据二上面。这里因为过去的3D打印与石墨烯有关讨论,被很多自诩的理科生斩钉截铁的自负弄的无所适从了。不好意思。

我就说我自己接触的一部分事例吧,两条线。一个是我老师的老师的,一个是我自己做的。

一.我老师的老师一开始是给阿里做后台数据分析工作,不是替阿里干是合作关系。我第一次听他们的讲课,讲他们做的算法是2012年上海信息协会年会介绍他们进展。其中一组数据我记忆犹新,他说原本他们做的检索需要2分半,当时已经可以做到56秒,之后速度会更快,去年初已经在20秒内了。什么数据,基于药监码一物一码的检索,数据库的数据是200万亿条代码。这是很初期合作的一部分。我也提过有关部门一开始就介入,什么部门,其中之一是总参。起码启动资金是总参投的,说到这个很多可能奇怪,为什么药监码阿里项目总参会投入。起因很实际,汶川地震。汶川地震后,部队在运输过程中发现一个问题,部队发现他们运送到当地很多物资实际当地都有,或者灾区临近的区域储备充足,因此导致的运力浪费某种算法得出的结论,因数据混乱导致占用特别通道的浪费相关空运能力的百分之40,浪费运力重灾区就是药品。造成药品纯粹数据混乱的原因,有几部分。这里简述其中两部分。

1.地方数据库与中央数据库彼此之间是一个个信息孤岛,信息库彼此隔绝。

2.药监码出处有四个部门,商检部门,卫生部门,工商管理部门以及生产监管部门,各自为政。

这个就是今天被叫做阿里健康的项目,开始启动的原因。这后面有很详尽的国家步骤与配套,具体同步信息基本发布在茶馆的讨论中。怎么评价你的权力,我态度是起码你要知道中国在这个领域实际已经做到了什么。

二.我们自己的项目,表面工作是给一个相关职能部门做职业招聘网站与职业培训网站。实际后台信息分析的是,根据点击信息激活沉睡数据。根据数据对比,查询有关人在激活信息与沉睡数据之间的状态。结合,他的个人消费记录,结合他的住房信息,结合他的叫他交通违章记录以及个人医保社保信息。来判断这个人的实际生活状态,比较正式的叫法是舆情分析一部分。这个比较少见公开新闻,多数人恐怕对舆情分析,还多从网络爬虫的工作角度看即时分析这一块。实际,即时数据与沉睡数据的比照权重也相当重要。从今年开始,个别地区这样的数据比较已经可以扩展到QQ聊天记录,微博记录,部分论坛聊天记录,以及手机语音记录。不久前上线的,国家预警信息中心正式启动就是与此有关的配套。如果你觉得这一段有点玄乎,我说说工作流程。比如,为了预防上海类似的踩踏事件的发生。在可预见出现大级别人流的时间节点,同步各种信息节点的信息,如果在比较集中的时间段出现同一关键词。比如手机论坛与QQ 通信中有出现外滩与人民广场,城隍庙,新天地,徐家汇,世博园之类的字样。根据历年统计数据比照,一旦相关数据到达警戒位置,那么相关地点的地铁以及公交系统就要启动分流限流措施。警察,也要进入疏导的状态。而不是路踩踏事故发生的时候,依靠视频头数人头的预警方式,当然这种手段才开始积累数据样本。这种预警方式,是早期预警的一部分范畴。相关大数据应用,早期难免还会有瑕疵,随着数据样本的完善,改善可期。我这里只是说一部分应用的节点及其运作方式。

以上仅供参考。

还有人工智能与人工智慧是很大的风水岭。很多人说大数据容易混淆这些,相关讨论我在邀请相关工作的专业人士在茶馆讨论的,你有兴趣关注哪里吧。最近忙,肠胃崩溃了,系统的写东西分不了心。说点实际工作中的经历还是可以间接说明一点现状的。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河