这个是可以共存的,你需要那部分数据,就查询什么就行了,你需要实时的hadoop分析的数据,你直接调用对应的接口查询hadoop就行了,你需要普通数据库里面的数据,直接查询普通数据库就行了,...
关注一下同时补充一些背景,这块我参与的比较深所以有一些观点刚好也借此机会跟同行们讨论一下。首先是BI层由于存在自主分析的需求,所以聚合结果或者临时表这种方式业务上不可行,客户常见的分析维度经过多轮筛选依旧在70+个,且个人认为随着产品更加扁平维度会以标签的形式扩...
请问你代码具体做了什么操作,另外partition你用了指定了几个
回复 3# zhangxin08 本主题不对具体问题解答,提问请到:http://www.powerlinuxchina.net/club/forum-31-1.html
优点分布式的特性:-- 适合大数据处理: GB 、 TB 、甚至 PB 级及以上的数据-- 百万规模以上的文件数量 :10K+ 节点。-- 适合批处理:移动计算而非数据 (MR), 数据位置暴露给计算框架自身特性:-- HA 高可用:可构建在廉价机器上:-- 高可靠性 : 通过多副本提提高-- 高容错性:数据自动...
回复 1# heraleign 1.从这个数据量看,直接上传问题不大。2.只要是如何能够比较快速的处理完这部分数据,完全传到集群中。不在于参数,而在于数据收集到上传完成整个流程优化。3.flume有这个功能。...
灾备解决的是业务连续性的问题,大数据平台本身提供多副本机制是保障业务的稳定和可靠运行的目前大数据平台基本是都是部署在虚拟机或是容器之上,很少有直接部署在物理服务器+存储架构之上这样虚拟化和容器本身就带来很强的业务连续性的功能,例如虚拟机的热迁移、HA、DRS等功...
1.如果是大数据项目,底层存储肯定不能用实时数据库+关系数据库这种架构,大数据底层必须是分布式架构,存储大多数都是采用HDFS分布式文件系统2.但是像你说的生产中的温度、电流等实时的工艺参数,最开始一直都是采用SCADA实时采集PLC和各类传感器设备的数据,存放在实时数据库(例...
spark跟hadoop用在不同的场景,spark用在实时吃内存,如果项目小或者考虑成本再加上对数据查询速度要求不高,就可以用hadoop,成本低,配置不要求搞