西西河

主题:我所了解的中国“棱镜”情况 -- 汴梁牛二

共:💬146 🌺1539 🌵8
全看分页树展 · 主题 跟帖
家园 一天一亿条

这个量对大数据体系来说倒不是很大,我现在给用户搭的一个实验系统,已经过了10亿的测试,正在做百亿的测试,当然不是每天的量。每天大概是几个亿吧。

重点是后面的解码、关联、分析。要考虑时效性和具体要执行的操作。如果在分钟级或者更长的粒度上,或者是批处理型任务,解决方案还是比较多的。有很多用hadoop做前端ETL的,效果不错。至于关联分析,这个概念现在炒的比较多,但不少都是基于查询、统计的,再加上一些行业数据建模等,这个很多都是基于M/R来作的,现在也有在尝试MPP的。其实主要看时效和任务类型吧。真正要秒级或者多维查询等,还是要下些功夫的。真正的分析,包括预测等,现在需求很多,但做的好的,特别是行业应用做的好的,还真不太多。个人认为,主要是行业know-how大家都是空白,这个需要数据分析师、算法工程师等一起努力了。至于工具,其实反倒不少。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河