大数据处理 - 主题 - twt企业IT交流平台

大数据处理

大数据处理

大数据处理大致可分为四步：采集，导入/预处理，统计/分析，挖掘

20 会员贡献

73 关系主题

热点

热点

银行大数据平台·2017-07-06

大数据平台的数据采集用什么格式的哪？

sprewellkobe · TX　擅长领域：云计算, 安全, 网络

445 会员关注

一般适合用简单的格式，便于数据的拆解和组装，您说的文本是一种，还有比如json也是一种常见的方式。源数据的采集是个大话题，一般的方式的本地采集，然后逐层汇总/筛选，再通过队列进行集中（相对的），这样的好处是：本地采集让采集完全分布式，提高效率有一层汇总/筛选可以过滤不合法信息通...

浏览7695

互联网服务大数据·2017-07-05

对于30亿甚至更大数据的增量更新，选用什么大数据方案比较好？

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

512 会员关注

可以从你的底层存储方式着手，比如你的30亿数据是否可以划分成3层，内存区，热存储区，冷数据区，新的数据过来，先放内存，然后后台进程自动对内存中的数据跟热区数据进行比对是否存在，设置数据降级机制，哪些数据可能用的比较少可以先从内存中降级到热存储区如果你想用hbase的话，建议你根...

浏览13041

系统集成spark·2017-07-04

请问一下，在内存计算的使用上，大家都采用什么模式呢？

rein07 · 某证券　擅长领域：人工智能, 大数据, 机器学习

586 会员关注

应该是spark on yarn多些，基于yarn的任务管理方便，且有助于资源的统一管理。2、spark sql比hive sql要新一点，两者都可以使用，像我们更多的是直接使用spark core，还是看场景吧。

浏览6541

保险spark·2017-07-03

传统ETL ，Mapreduce，Hive，Spark等处理数据文件的应用场景都有哪些？

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

512 会员关注

传统的ETL在数据量不大比如<20G的数据文件处理，他的优势在于他是可视化的步骤比较简单，上手比较快Mapreduce对于数据量比较大的，处理数据业务逻辑变化不是很大，因为每次用java或者python等都得反复调试，比如淘宝底层日志解析，日志的格式基本都不会有太大的变化，写一次Mapredu...

浏览7017

大数据·2017-06-27

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink

zhenzongjian · na　擅长领域：服务器, AIX, Unix

137 会员关注

简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。在之前的文章中，我们曾经介绍过有关大数据系...(more)

浏览2360

互联网服务spark·2017-06-20

请教spark on hive的安装问题

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

512 会员关注

题目应该是hive on spark 另外你这个异常可能是hive跟spark的版本不一致的原因，建议你看一下你的hive源码中的pom.xml里面依赖的spark是什么版本的

浏览13620

系统集成数据挖掘·2017-06-14

谁能用最通俗移动的方式介绍一下什么是数据挖掘。数据挖掘的工作过程？

y18511664518 · 长城超云　擅长领域：数据库, 存储, 关系型数据库

600 会员关注

这个问题，我转载一下一篇感觉不错的，你可以参考一下是知识发现、商业智能、预测分析还是预测建模。其实都可以归为一类：数据挖掘是一项探测大量数据以发现有意义的模式（pattern）和规则（rule）的业务流程。这里谈到了发现模式与规则，其实就是一项业务流程，为业务服务。而我们要做就...

浏览8333

政府其它Zabbix·2017-06-06

我总结的一些Zabbix优缺点，欢迎各位使用过Zabbix的人来进行补充交流

everychengxuan · 某某公司　擅长领域：监控, 系统运维, 自动化运维

338 会员关注

开源的优点就是开放, 二次开发, 接口丰富, 监控方式全面;缺点也很明显, 图形展示功能较为单一(可以暂时借助grafana); 目前无法做到秒级监控(据说3.4会改善);补充一点, 监控系统其实要求操作人员的技术水平很丰富且全面, 需要熟悉被监控对象, 已经具备一定的开发能力....

浏览30826

软件开发分库分表·2017-05-17

MYSQL下如何优雅的对一个大数据量的表进行自动的分库分表存储。

bryan · 金融研发　擅长领域：云计算, 容器, 容器云

335 会员关注

分库分表分区是解决大数据量时的一个分而治之的思路，建议依次考虑的顺序如下1.分区：表分区之后只是引擎存储的工作去保证，对用户相对透明，因为对应用侵入度较低；2.分表：在同一个schema中的多个表，应用可能需要根据业务逻辑去判断业务对应的表，这种情况下单库内路由也相对比较好办...

浏览14686

数据挖掘·2017-03-21

案例分享｜数据可视化下的驱动业务增长

帆软软件 · 帆软软件　擅长领域：大数据, 数据库, 大数据处理

39 会员关注

在我国，制造业有两种态势：一种是生产同质化产品，产品价格公开，利润几乎透明；一种是高新技术产品，利润大，但创新和管理成本高。如何在同质化的产品中做好精细化和管理和成本控制，如何驱动创新成为制造业重出产能过剩的包围圈的两大突破口。泰尔重工股份有限公司（以下简称“泰尔重工...(more)

浏览3699

描述

大数据处理大致可分为四步：采集，导入/预处理，统计/分析，挖掘

20 会员贡献

73 关系主题

主题组织结构热门关系主题

关注159 大数据涉及技术

关注731 数据分析

关注869 数据挖掘

关注2 联邦学习

关注10 实时数仓

关注122 数据湖

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广