spark - 主题 - twt企业IT交流平台

问题
热度排序 时间排序

机器学习·2024-03-08

4 会员关注

根据需求，主要是处理30亿条交易数据，并利用机器学习为交易地址打上标签，使用Hadoop和Spark是一个合适的大数据平台方案。数据量：Hadoop适合存储海量的数据，并提供了多种技术组件用于查询和分析，由于本需求是30亿条数据进行存储和处理，所以选择Hadoop是合适的。Spark是基于内存的...

赞同

回答2

关注3

IT咨询服务spark·2022-12-05

能否推荐一下大数据spark在冶金制造业相关项目经验和书籍？

匿名用户

对于大数据Spark在治金制造业的应用，建议可以阅读以下书籍和文献:1.《Spark大数据处理技术实战》: 该书透彻介绍了Spark的基础知识、数据处理流程和常见应用场景，并结合实际案例详解了Spark在工业领域 (包括制造业)中的应用。2.《大数据处理技术及其在治金制造业中的应用》...

IT咨询服务大数据·2022-12-02

zftang · 小白一枚　擅长领域：数据库, 云计算, 服务器

64 会员关注

executor是真正执行task地方，而task执行离不开具体的数据，这些task运行的结果可以是shuffle中间结果，也可以持久化到外部存储系统。一般都是将结果、状态等汇集到driver。但是，目前executor之间不能互相通信，只能借助第三方来实现数据的共享或者通信。...

系统集成大数据平台·2021-12-24

奔跑的蜗牛 · 武汉家事易农业科技有限公司　擅长领域：数据库, 云计算, 服务器

61 会员关注

Spark 文件切分规则同时 spark 也要判断数据大小是否大于切片大小的11倍如果大于才按切片大小进行切分

系统集成大数据计算·2021-12-24

系统集成大数据计算·2021-12-24

奔跑的蜗牛 · 武汉家事易农业科技有限公司　擅长领域：数据库, 云计算, 服务器

61 会员关注

Spark 文件切分规则同时 spark 也要判断数据大小是否大于切片大小的11倍如果大于才按切片大小进行切分。

赞同

回答1

关注2

系统集成大数据·2021-12-24

spark executor容器内存如何规划？

回答

关注1

系统集成大数据计算·2021-12-24

spark的executor容器资源如何规划？

回答

关注1

系统集成大数据计算·2021-12-24

Spark完全可以取代mapreduce吗？

奔跑的蜗牛 · 武汉家事易农业科技有限公司　擅长领域：数据库, 云计算, 服务器

61 会员关注

不能，这个是要分应用场景的

赞同

回答1

关注2

互联网服务spark优化·2019-08-26

hadoop+spark 集群环境资源预估？

美国队长 · Alibaba　擅长领域：大数据, 大数据平台, 数据库

509 会员关注

可以先结合具体的业务场景，将数据按照时效性进行分类，如实时、准实时、离线，实时的数据从数据量层面去衡量内存的分配，CPU即线程数等，同时从成本上考虑对现有的数据进行压缩存放，具体的压缩策略可以结合具体场景衡量...

赞同

回答1

关注2

描述

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不...(more)

378 会员关注

135 会员贡献

23 关系主题