大数据分析
大数据分析
该主题还没有描述

问题

互联网服务信创·2022-12-14
匿名用户
8个小时做迁移肯定是不够的,所以这样的情况下只能做割接不能做迁移,性能也没有做测试,架构也没有做测试,像这种情况下架构肯定是要调整的,所以只能调整架构以后,业务测试通过以后,8个小时来做割接。算算你将近500tb的数据,8个小时,你通过网络来进行迁移,传输数据的时间都不够。...
银行数据分析·2022-04-06
jinhaibo课题专家组 · 昆仑银行 擅长领域:人工智能, 数据库, 大数据
4 会员关注
数据分析类工具包括SMARTBI、TABLEAU、观远、PYTHON、R、sophon、SPSS、SAS、stata等。SMARTBI、TABLEAU、观远这些工具都是很不错的报表工具,可以进行数据的图表展示,对数据描述性分析,对于数据背后变化的原因,什么要素很重要,未来会发生什么,就不是这些工具的关注。为了做诊...
事业单位医疗大数据平台·2022-03-03
zyp8365 · 广东省中医院 擅长领域:大数据, 存储, 大数据平台
19 会员关注
底层基础架构设计不仅要考虑技术因素(性能、一致性要求、SQL兼容性要求),也要考虑包括架构产品的生态成熟度、应用架构适配度、团队适应度等非技术因素。Hadoop+MapReduce是典型的分布式文件系统+分布式计算的技术框架,其组件HDFS就是典型的分布式存储架构,分布式存储架构更为...
大数据平台·2024-03-08
jinhaibo课题专家组 · 昆仑银行 擅长领域:人工智能, 数据库, 大数据
4 会员关注
根据需求,主要是处理30亿条交易数据,并利用机器学习为交易地址打上标签,使用Hadoop和Spark是一个合适的大数据平台方案。数据量:Hadoop适合存储海量的数据,并提供了多种技术组件用于查询和分析,由于本需求是30亿条数据进行存储和处理,所以选择Hadoop是合适的。Spark是基于内存的...
IT咨询服务spark·2022-12-05
匿名用户
对于大数据Spark在治金制造业的应用,建议可以阅读以下书籍和文献:1.《Spark大数据处理技术实战》: 该书透彻介绍了Spark的基础知识、数据处理流程和常见应用场景,并结合实际案例详解了Spark在工业领域 (包括制造业)中的应用。2.《大数据处理技术及其在治金制造业中的应用》...
IT咨询服务大数据·2022-12-02
zftang · 小白一枚 擅长领域:数据库, 云计算, 服务器
64 会员关注
executor是真正执行task地方,而task执行离不开具体的数据,这些task运行的结果可以是shuffle中间结果,也可以持久化到外部存储系统。一般都是将结果、状态等汇集到driver。但是,目前executor之间不能互相通信,只能借助第三方来实现数据的共享或者通信。...
保险Hadoop·2020-02-06
youki2008 · DDT 擅长领域:服务器, 云计算, 数据库
254 会员关注
可通过以下参数设置:mapreduce.map.memory.mb :物理内存量,默认是 1024mapreduce.map.cpu.vcores : CPU 数目,默认是 1
保险Hadoop·2020-02-26
Luga Lee · None 擅长领域:云计算, 容器, 容器云
43 会员关注
保险节点·2020-02-06
呱呱爱吃瓜 · 银行 擅长领域:大数据, 服务器, 数据库
一个节点上运行的任务数目主要由两个因素决定,一个是 NodeManager 可使用的资源总量,一个是单个任务的资源需求量,比如一个 NodeManager 上可用资源为 8 GB 内存, 8 cpu ,单个任务资源需求量为 1 GB 内存, 1cpu ,则该节点最多运行 8 个任务。NodeManager 上可用资源是由管理员在...
保险负载均衡·2020-03-04
youki2008 · DDT 擅长领域:服务器, 云计算, 数据库
254 会员关注
hadoop 在处理大规模数据时是很高效的,处理小文件时,可以将小文件打包为大文件,例如使用 SequcenFile 文件格式,这样多个小文件就可以通过 SequcenFile 文件格式变为一个大文件,之前的每个小文件都会映射为 SequcenFile 文件的一条记录。...
X社区推广
  • 提问题