大数据分析 - 主题 - twt企业IT交流平台

问题
热度排序 时间排序

银行数据中台·2020-07-31

27 会员关注

简单说说我的想法，---- 直接回答题干 ----如果说现有Hive作为数仓，那么性能肯定不能满足查询的，替代方案可以选择MPP数据库，但是由于MPP数据库目前看来还是有软硬件+人员能力限制条件的，基本上也要搞成一个团体作战项目才能摸索出来。你提到的多表关联倒不是什么障碍，建设数...

赞同2

回答7

关注8

系统集成分布式存储·2018-07-05

hadoop分布式文件系统和openstack对象存储的区别？

TonyWang · BY　擅长领域：存储, 服务器, 数据库

74 会员关注

问题不够清晰是Hadoop里的HDFS和OpenStack的swift 比较？

赞同2

回答2

关注4

保险分布式存储·2020-03-30

AI训练或大数据分析是直接使用对象存储好，还是先把数据抽取到本地文件系统好？

zhuqibs · Adidas　擅长领域：云计算, 服务器, 存储

58 会员关注

抽取到本地存储，这绝对不是一个好的主意，大数据平台的数据量十分庞大，所进行的操作涉及的数据，少则几个G，多达几十个T，如此多的数据，就算你本地存储够大，请问抽取传输要多少时间。所以，必定是在计算节点进行分析，可以的话，可以调用有GPU的计算节点进行AI训练。至于对象存储，是可以的，...

赞同7

回答3

关注4

能源采矿Hadoop·2020-05-19

如何开启 Hadoop生态各组件的学习？0基础从何入手比较快？

zftang · 小白一枚　擅长领域：数据库, 云计算, 服务器

64 会员关注

学习没有捷径，多看资料如果有项目有师傅带着一起搞就好了

系统集成容器·2021-12-24

系统集成大数据·2021-12-24

spark executor容器内存如何规划？

回答

关注1

保险Hadoop·2019-12-19

正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程，它们的作用分别是什么?

呱呱爱吃瓜 · 银行　擅长领域：大数据, 服务器, 数据库

1 ） NameNode 它是 hadoop 中的主服务器，管理文件系统名称空间和对集群中存储的文件的访问，保存有 metadate 。2 ） SecondaryNameNode 它不是 namenode 的冗余守护进程，而是提供周期检查点和清理任务。帮助 NN 合并 editslog ，减少 NN 启动时间。3 ） DataNode 它负责管理连接到...

系统集成spark·2021-12-24