大数据分析 - 主题 - twt企业IT交流平台

问题
热度排序 时间排序

互联网服务信创·2022-12-14

匿名用户

8个小时做迁移肯定是不够的，所以这样的情况下只能做割接不能做迁移，性能也没有做测试，架构也没有做测试，像这种情况下架构肯定是要调整的，所以只能调整架构以后，业务测试通过以后，8个小时来做割接。算算你将近500tb的数据，8个小时，你通过网络来进行迁移，传输数据的时间都不够。...

赞同3

回答10

关注10

银行数据分析·2022-04-06

目前业界主流的数据分析工具都有哪些，各有什么特点，分别能实现哪个层级的数据分析能力？

jinhaibo

· 昆仑银行　擅长领域：人工智能, 数据库, 大数据

4 会员关注

数据分析类工具包括SMARTBI、TABLEAU、观远、PYTHON、R、sophon、SPSS、SAS、stata等。SMARTBI、TABLEAU、观远这些工具都是很不错的报表工具，可以进行数据的图表展示，对数据描述性分析，对于数据背后变化的原因，什么要素很重要，未来会发生什么，就不是这些工具的关注。为了做诊...

赞同3

回答2

关注3

事业单位医疗大数据平台·2022-03-03

医疗大数据平台不同的建设路线底层基础架构设计时有什么要求？

zyp8365 · 广东省中医院　擅长领域：大数据, 存储, 大数据平台

19 会员关注

底层基础架构设计不仅要考虑技术因素（性能、一致性要求、SQL兼容性要求），也要考虑包括架构产品的生态成熟度、应用架构适配度、团队适应度等非技术因素。Hadoop+MapReduce是典型的分布式文件系统+分布式计算的技术框架，其组件HDFS就是典型的分布式存储架构，分布式存储架构更为...

大数据平台·2024-03-08

· 昆仑银行　擅长领域：人工智能, 数据库, 大数据

4 会员关注

根据需求，主要是处理30亿条交易数据，并利用机器学习为交易地址打上标签，使用Hadoop和Spark是一个合适的大数据平台方案。数据量：Hadoop适合存储海量的数据，并提供了多种技术组件用于查询和分析，由于本需求是30亿条数据进行存储和处理，所以选择Hadoop是合适的。Spark是基于内存的...

赞同

回答2

关注3

IT咨询服务spark·2022-12-05

能否推荐一下大数据spark在冶金制造业相关项目经验和书籍？

匿名用户

对于大数据Spark在治金制造业的应用，建议可以阅读以下书籍和文献:1.《Spark大数据处理技术实战》: 该书透彻介绍了Spark的基础知识、数据处理流程和常见应用场景，并结合实际案例详解了Spark在工业领域 (包括制造业)中的应用。2.《大数据处理技术及其在治金制造业中的应用》...

IT咨询服务大数据·2022-12-02

zftang · 小白一枚　擅长领域：数据库, 云计算, 服务器

64 会员关注

executor是真正执行task地方，而task执行离不开具体的数据，这些task运行的结果可以是shuffle中间结果，也可以持久化到外部存储系统。一般都是将结果、状态等汇集到driver。但是，目前executor之间不能互相通信，只能借助第三方来实现数据的共享或者通信。...

赞同

回答1

关注2

保险Hadoop·2020-02-06

hadoop如何设置单个任务占用的内存量和CPU数目？

youki2008 · DDT　擅长领域：服务器, 云计算, 数据库

254 会员关注

可通过以下参数设置：mapreduce.map.memory.mb ：物理内存量，默认是 1024mapreduce.map.cpu.vcores ： CPU 数目，默认是 1

保险Hadoop·2020-02-26

Luga Lee · None　擅长领域：云计算, 容器, 容器云

43 会员关注

赞同1

回答2

关注3

保险节点·2020-02-06

Hadoop 某节点上任务数目太多，资源利用率太高，怎么控制一个节点上的任务数目?

呱呱爱吃瓜 · 银行　擅长领域：大数据, 服务器, 数据库

一个节点上运行的任务数目主要由两个因素决定，一个是 NodeManager 可使用的资源总量，一个是单个任务的资源需求量，比如一个 NodeManager 上可用资源为 8 GB 内存， 8 cpu ，单个任务资源需求量为 1 GB 内存， 1cpu ，则该节点最多运行 8 个任务。NodeManager 上可用资源是由管理员在...

赞同

回答1

关注2

保险负载均衡·2020-03-04

怎样用Hadoop进行高效的处理小文件?以及怎样让各个节点尽可能的负载均衡?

youki2008 · DDT　擅长领域：服务器, 云计算, 数据库

254 会员关注

hadoop 在处理大规模数据时是很高效的，处理小文件时，可以将小文件打包为大文件，例如使用 SequcenFile 文件格式，这样多个小文件就可以通过 SequcenFile 文件格式变为一个大文件，之前的每个小文件都会映射为 SequcenFile 文件的一条记录。...

赞同3

回答2