大数据分析 - 主题 - twt企业IT交流平台

问题
热度排序 时间排序

银行大数据·2018-12-24

586 会员关注

SparkStreaming和Strom都属于实时计算框架，有点都是可以做到对数据的实时处理。SparkStreaming是基于Spark Core实现的，所以对数据的处理要形成RDD，暨要形成数据窗口，所以其处理过程可以称之为微批处理，而storm是可以做到实时处理每一条数据的，所以相对来说，实时性比sparkstream...

银行大数据·2018-12-11

wuwenpin · 南京　擅长领域：服务器, 存储, 云计算

256 会员关注

大华为

赞同

回答2

关注3

银行大数据组件·2018-12-10

为满足关键特性系统的架构或组件选择是怎样的？

VOLVO

· 省农信社　擅长领域：大数据, 人工智能, 知识图谱

246 会员关注

1.可视化需要开发一个专门的知识图谱展示界面，将知识图谱中的实体、关系属性等以美观已操作的方式展示出来，因为颜值即正义。可以借用当前比较流行的bootstrap等前端开发语言。2.为满足快速查询，可以将部分索引关键字放在索引es中，索引命中后在使用key去titian中查询。3.多种...

赞同1

回答1

关注2

互联网服务spark·2018-11-20

如何修改spark sql在读取parquet文件时，每个partition的最大size？

rein07 · 某证券　擅长领域：人工智能, 大数据, 机器学习

586 会员关注

无论是hive还是spark，数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数，保证每个块大小合适，如果要在读取时改变并行效果，可以通过设置repartition调整partition个数。通过两个参数配合应该能满足你的需求。...

赞同6

回答1

关注2

软件开发大数据·2018-11-16

我们的代理接入hadoop组件hive时候报错undeclaredThrowableException？

青山松 · 传媒　擅长领域：服务器, AIX, Unix

326 会员关注

我看你的网站里有空格之类，增加引号试试 curl --negotiate -u : "http://主机ip:对应端口/templeton/v1/ddl/ database? user.name=hive/XXX&like=*"

银行Hadoop·2018-10-24

ZhuJun2014 · IBM　擅长领域：存储, 灾备, 双活

457 会员关注

通常而言，hadoop这样的集群用来跑大数据分析。这样的集群有两个特点，一个是数据可以从别处过来，另外一个是数据量很大。由于hadoop集群的数据不是OLTP类型做对外交易，因此没有做双活的必要性。另外，hadoop集群通常不用集中存储，因此存储层做双活，和hadoop就谈不上了。如果非要做...

工业制造其它大数据·2018-10-19

sxtycxx · 人工智能（计算机视觉）　擅长领域：存储, 灾备, 服务器

521 会员关注

1.如果是大数据项目，底层存储肯定不能用实时数据库+关系数据库这种架构，大数据底层必须是分布式架构，存储大多数都是采用HDFS分布式文件系统2.但是像你说的生产中的温度、电流等实时的工艺参数，最开始一直都是采用SCADA实时采集PLC和各类传感器设备的数据，存放在实时数据库（例...

赞同4

回答1

关注2

互联网服务大数据·2018-10-18

在使用spark计算引擎时，如何创建RDD？

windix

· 某证券公司　擅长领域：大数据, 数据库, 大数据平台

379 会员关注

主要有以下几种方法：（1）通过parallelize方法从集合创建RDD：var rdd = sc.parallelize(1 to 10)（2）通过textFile方法从本地文件或HDFS创建RDD：val rdd = sc.textFile("/filepath/file.txt")（3）其他，如：通过jdbc读取关系型数据库创建jdbcRDD，使用hadoopFile、sequenceFile等方法创建RDD...

赞同4

回答2

关注2

互联网服务大数据·2018-10-18

使用kafka传输消息时，如何能确保consumer接受到的消息顺序与消息发送方保持一致？

windix

· 某证券公司　擅长领域：大数据, 数据库, 大数据平台

379 会员关注

Kafka可保证在同一partition中的消息是有序的，producer把数据按照同一主键发到同一个partition即可。

互联网服务监控·2018-10-18

sxtycxx · 人工智能（计算机视觉）　擅长领域：存储, 灾备, 服务器

521 会员关注

Hadoop组件包括HIVE\HDFS\Hbase\HUE\sqoop\spark\zooie\ES\等进行进行，可以通过Cloudera的 manager来实现对组件的运行和监控和异常告警cloudera manager有四大功能：　　（1）管理：对集群进行管理，如添加、删除节点等操作。　　（2）监控：监控集群的健康情况，对设置的各种指标和系统运...

赞同4

回答3

关注3

问题
热度排序 时间排序

描述

主题组织结构热门关系主题

问题热度排序时间排序

描述

主题组织结构热门关系主题

问题
热度排序时间排序