rein07

rein07

动态

spark spark sql rein07rein07 回答了问题 2 小时前

如何修改spark sql在读取parquet文件时,每个partition的最大size?

rein07 rein07 系统架构师,某证券
无论是hive还是spark,数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数,保证每个块大小合适,如果要在读取时改变并行效果,可以通过设置repartition调整partition个数。通过两个参数配合应该查看全文
ZooKeeper rein07rein07 回答了问题 2018-10-19

Zookeeper业务应用有哪些?

rein07 rein07 系统架构师,某证券
ZooKeeper是一个高可用的分布式系统协调框架。基于对Paxos算法的实现,使该框架保证了分布式环境中数据的强一致性,也正是基于这样的特性,使得zookeeper能够应用于很多场景。场景包括:1) Master选举(主备模式)通过在Zookeep查看全文
大数据 技术选型 多维查询场景 rein07rein07 回答了问题 2018-10-19

如何对多维查询场景进行技术选型?

rein07 rein07 系统架构师,某证券
多维查询场景需求越来越多,但合适的查询引擎却不太多,如HBase比较适合特定维度的查询, Hive和Spark比较偏重于离线分析场景,Impala在小数据量下进行多维查询效果还不错,但是在大数据量下效率大打折扣。可选的引擎并不多,经查看全文
hbase rein07rein07 回答了问题 2018-10-19

使用HBase进行业务设计时需要注意哪些方面?

rein07 rein07 系统架构师,某证券
HBase是基于Hdfs的分布式列式数据库,所有的查询和写入都以Rowkey作为基础。所以业务设计时最重要的是Rowkey设计,需要注意的有以下几点:1) 常用查询字段放在Rowkey前面2) 保证数据均匀散列 Rowkey设计不合理会导查看全文
大数据 数据采集 rein07rein07 回答了问题 2018-10-19

如何及时发现多类数据在统一采集传输过程中的积压问题?

rein07 rein07 系统架构师,某证券
这一问题的出现有两类原因:1) 网络瓶颈当数据传输过程中某一线路出现瓶颈时,数据必然产生积压。2) 传输节点问题当网络正常时,某一传输节点出现问题时,数据也会产生积压。上诉问题可统一使用生产者消费者模型解释,当生产大查看全文
数据采集 rein07rein07 回答了问题 2018-10-19

数据采集的工具有哪些,有哪些优缺点?分别适用什么应用场景?

rein07 rein07 系统架构师,某证券
数据采集是做大数据分析的第一环,也是非常重要的一环,为上层应用不断地提供数据养料。做大数据分析常用的数据来源包括以下几种:1) 日志文件2) 数据库3) 网页4) APP不同的数据源使用的采集技术和工具是不同的:1) 日志文件查看全文
ZooKeeper rein07rein07 发布了问题2018-10-18

Zookeeper业务应用有哪些?

rein07 rein07 系统架构师,某证券
浏览614
回答3
hbase rein07rein07 发布了问题2018-10-18

使用HBase进行业务设计时需要注意哪些方面?

rein07 rein07 系统架构师,某证券
浏览582
回答2

擅长领域

大数据 大数据
大数据平台 大数据平台
spark spark

最近来访

  • 王希瑞
  • Lancer
  • windix
  • aixchina
  • faye