大数据处理
大数据处理
大数据处理大致可分为四步:采集,导入/预处理,统计/分析,挖掘
大数据处理大致可分为四步:采集,导入/预处理,统计/分析,挖掘

热点

银行银行日志分析系统·2019-06-12
jwhdhr农商银行 擅长领域:数据库, 中间件, 消息中间件
25 会员关注
在日志分析系统中实时性是一个难点问题,比如实时任务1分钟只能处理30秒采集的数据,那么产出的数据的延时会越来越长,不能代表当前时刻的业务状态,有可能导致业务方做出错误的运营决策。在互联网行业中,需要处理的数据是海量的,如何在数据量快速膨胀的情况下也能保持高吞吐量和...
数据治理·2019-03-20
王作敬银河证券 擅长领域:云计算, 容器, 容器云
169 会员关注
作者:汪照辉王作敬汪照辉个人页面--我们说数据是企业的核心资产,也说过数据的价值在于使用它。但一个企业数据有千千万万,数据来源有万万千千。哪些数据是关键数据,哪些数据是无关紧要,有了数据怎么使用,怎么发挥其价值,是企业在金融科技发展迅猛的今天需要认真考虑的问题。数字...(more)
专栏: 趋势观点
浏览6195
大数据·2019-01-30
sxtycxx人工智能(计算机视觉) 擅长领域:存储, 灾备, 服务器
517 会员关注
1项目概述1.1项目背景随着时代的不断进步,科技的迅速发展,当前人们的生活已经发生了巨大的改变,越来越多的科学技术成果出现在人们的生活当中,给人们的生活、学习、还有工作都带来了极大的便捷。现在人们的生活模式已经发生了翻天覆地的改变,为了不断的适应社会的具体状况,人们...(more)
专栏: 最佳实践
浏览5420
评论2
生活生产服务其它spark·2019-04-10
左右ex-IBM 擅长领域:大数据, 商业智能, 联机分析处理
27 会员关注
关注一下同时补充一些背景,这块我参与的比较深所以有一些观点刚好也借此机会跟同行们讨论一下。首先是BI层由于存在自主分析的需求,所以聚合结果或者临时表这种方式业务上不可行,客户常见的分析维度经过多轮筛选依旧在70+个,且个人认为随着产品更加扁平维度会以标签的形式扩...
spark·2019-03-25
yinxin某金融机构 擅长领域:数据库, 服务器, 云计算
973 会员关注
大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。本文将介绍大数据系统一个最基本的组件:处理框架...(more)
浏览1517
能源采矿分布式存储·2019-03-21
pysx0503第十区。散人 擅长领域:存储, 备份, 服务器
740 会员关注
正常分布式应该比较适合那种非结构化的文档,-大型运算应用我觉得更适合san架构,还有一个问题,就是企业自建私有云的时候分布式的存储可能会现在产品差距比较大可能自己维护下来要要相对来说难度大一些,...
大数据平台·2019-01-16
rein07某证券 擅长领域:人工智能, 大数据, 机器学习
579 会员关注
大数据时代已经来临,教育行业作为社会大众共享的无形财富,其开放己成为数据整合和共享应用的前提条件。“十三五"期间有望形成和谐健康的行业生态。基础设施提供商、大数据服务商、数据挖掘与分析提供商、数据应用服务提供商、数据安全提供商、教育行政部门以及教育大数据...(more)
专栏: 活动总结
浏览4918
银行spark·2018-12-24
rein07某证券 擅长领域:人工智能, 大数据, 机器学习
579 会员关注
SparkStreaming和Strom都属于实时计算框架,有点都是可以做到对数据的实时处理。SparkStreaming是基于Spark Core实现的,所以对数据的处理要形成RDD,暨要形成数据窗口,所以其处理过程可以称之为微批处理,而storm是可以做到实时处理每一条数据的,所以相对来说,实时性比sparkstream...
IT咨询服务数据分析·2018-12-07
zy7096北京昆仑卓越信息技术有限公司 擅长领域:灾备, 服务器, 数据库
26 会员关注
LinuxONE支持nmon工具,也支持一些商用监控软件,如IBM APM(ITM的最新版本)。通过这样成熟的工具或软件可以全面的收集LinuxONE环境的性能、状态监控指标,APM平台本身也提供数据分析的能力,也可以将数据提供给第三方平台进行流量分析或实时数据分析。...
互联网服务spark·2018-11-20
rein07某证券 擅长领域:人工智能, 大数据, 机器学习
579 会员关注
无论是hive还是spark,数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数,保证每个块大小合适,如果要在读取时改变并行效果,可以通过设置repartition调整partition个数。通过两个参数配合应该能满足你的需求。...

描述

大数据处理大致可分为四步:采集,导入/预处理,统计/分析,挖掘
大数据处理大致可分为四步:采集,导入/预处理,统计/分析,挖掘
X社区推广
  • 提问题