简单说说我的想法,---- 直接回答题干 ----如果说现有Hive作为数仓,那么性能肯定不能满足查询的,替代方案可以选择MPP数据库,但是由于MPP数据库目前看来还是有软硬件+人员能力限制条件的,基本上也要搞成一个团体作战项目才能摸索出来。你提到的多表关联倒不是什么障碍,建设数...
问题不够清晰是Hadoop里的HDFS和OpenStack的swift 比较?
抽取到本地存储,这绝对不是一个好的主意,大数据平台的数据量十分庞大,所进行的操作涉及的数据,少则几个G,多达几十个T,如此多的数据,就算你本地存储够大,请问抽取传输要多少时间。所以,必定是在计算节点进行分析,可以的话,可以调用有GPU的计算节点进行AI训练。至于对象存储,是可以的,...
学习没有捷径,多看资料如果有项目有师傅带着一起搞就好了
1 ) NameNode 它是 hadoop 中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问,保存有 metadate 。2 ) SecondaryNameNode 它不是 namenode 的冗余守护进程,而是提供周期检查点和清理任务。帮助 NN 合并 editslog ,减少 NN 启动时间。3 ) DataNode 它负责管理连接到...
Spark 文件 切分 规则同时 spark 也要判断 数据 大小是否大于切片大小的11倍如果大于才按切片大小进行 切分。
通过使用MapReduce的方式,使Hadoop可以直接访问Oracle,并将相关的数据写入到HDFS文件当中。 从而可以顺利地将Oracle中的数据迁移到Hadoop文件系统中。