大数据分析
大数据分析
该主题还没有描述

问题

机器学习·2024-03-08
jinhaibo昆仑银行 擅长领域:人工智能, 数据库, 大数据
4 会员关注
根据需求,主要是处理30亿条交易数据,并利用机器学习为交易地址打上标签,使用Hadoop和Spark是一个合适的大数据平台方案。数据量:Hadoop适合存储海量的数据,并提供了多种技术组件用于查询和分析,由于本需求是30亿条数据进行存储和处理,所以选择Hadoop是合适的。Spark是基于内存的...
互联网服务信创·2022-12-14
匿名用户
8个小时做迁移肯定是不够的,所以这样的情况下只能做割接不能做迁移,性能也没有做测试,架构也没有做测试,像这种情况下架构肯定是要调整的,所以只能调整架构以后,业务测试通过以后,8个小时来做割接。算算你将近500tb的数据,8个小时,你通过网络来进行迁移,传输数据的时间都不够。...
IT咨询服务spark·2022-12-05
匿名用户
对于大数据Spark在治金制造业的应用,建议可以阅读以下书籍和文献:1.《Spark大数据处理技术实战》: 该书透彻介绍了Spark的基础知识、数据处理流程和常见应用场景,并结合实际案例详解了Spark在工业领域 (包括制造业)中的应用。2.《大数据处理技术及其在治金制造业中的应用》...
IT咨询服务spark·2022-12-02
zftang小白一枚 擅长领域:数据库, 云计算, 服务器
64 会员关注
executor是真正执行task地方,而task执行离不开具体的数据,这些task运行的结果可以是shuffle中间结果,也可以持久化到外部存储系统。一般都是将结果、状态等汇集到driver。但是,目前executor之间不能互相通信,只能借助第三方来实现数据的共享或者通信。...
银行数据分析·2022-04-06
jinhaibo昆仑银行 擅长领域:人工智能, 数据库, 大数据
4 会员关注
数据分析类工具包括SMARTBI、TABLEAU、观远、PYTHON、R、sophon、SPSS、SAS、stata等。SMARTBI、TABLEAU、观远这些工具都是很不错的报表工具,可以进行数据的图表展示,对数据描述性分析,对于数据背后变化的原因,什么要素很重要,未来会发生什么,就不是这些工具的关注。为了做诊...
事业单位医疗大数据平台·2022-03-03
zyp8365广东省中医院 擅长领域:大数据, 存储, 大数据平台
19 会员关注
底层基础架构设计不仅要考虑技术因素(性能、一致性要求、SQL兼容性要求),也要考虑包括架构产品的生态成熟度、应用架构适配度、团队适应度等非技术因素。Hadoop+MapReduce是典型的分布式文件系统+分布式计算的技术框架,其组件HDFS就是典型的分布式存储架构,分布式存储架构更为...
系统集成大数据平台·2021-12-24
奔跑的蜗牛武汉家事易农业科技有限公司 擅长领域:数据库, 云计算, 服务器
61 会员关注
Spark 文件 切分 规则同时 spark 也要判断 数据 大小是否大于切片大小的11倍如果大于才按切片大小进行切分
系统集成spark·2021-12-24
奔跑的蜗牛武汉家事易农业科技有限公司 擅长领域:数据库, 云计算, 服务器
61 会员关注
Spark 文件 切分 规则同时 spark 也要判断 数据 大小是否大于切片大小的11倍如果大于才按切片大小进行 切分。
X社区推广
  • 提问题