大数据分析
大数据分析
该主题还没有描述

问题

银行大数据·2018-12-24
rein07 · 某证券 擅长领域:人工智能, 大数据, 机器学习
586 会员关注
SparkStreaming和Strom都属于实时计算框架,有点都是可以做到对数据的实时处理。SparkStreaming是基于Spark Core实现的,所以对数据的处理要形成RDD,暨要形成数据窗口,所以其处理过程可以称之为微批处理,而storm是可以做到实时处理每一条数据的,所以相对来说,实时性比sparkstream...
银行大数据·2018-12-11
wuwenpin · 南京 擅长领域:服务器, 存储, 云计算
256 会员关注
大华为
银行大数据组件·2018-12-10
VOLVO联盟成员 · 省农信社 擅长领域:大数据, 人工智能, 知识图谱
246 会员关注
1.可视化需要开发一个专门的知识图谱展示界面,将知识图谱中的实体、关系属性等以美观已操作的方式展示出来,因为颜值即正义。可以借用当前比较流行的bootstrap等前端开发语言。2.为满足快速查询,可以将部分索引关键字放在索引es中,索引命中后在使用key去titian中查询。3.多种...
互联网服务spark·2018-11-20
rein07 · 某证券 擅长领域:人工智能, 大数据, 机器学习
586 会员关注
无论是hive还是spark,数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数,保证每个块大小合适,如果要在读取时改变并行效果,可以通过设置repartition调整partition个数。通过两个参数配合应该能满足你的需求。...
软件开发大数据·2018-11-16
青山松 · 传媒 擅长领域:服务器, AIX, Unix
326 会员关注
我看你的网站里有空格之类 ,增加引号试试 curl --negotiate -u : "http://主机ip:对应端口/templeton/v1/ddl/ database? user.name=hive/XXX&like=*"
银行Hadoop·2018-10-24
ZhuJun2014 · IBM 擅长领域:存储, 灾备, 双活
457 会员关注
通常而言,hadoop这样的集群用来跑大数据分析。这样的集群有两个特点,一个是数据可以从别处过来,另外一个是数据量很大。由于hadoop集群的数据不是OLTP类型做对外交易,因此没有做双活的必要性。另外,hadoop集群通常不用集中存储,因此存储层做双活,和hadoop就谈不上了。如果非要做...
工业制造其它大数据·2018-10-19
sxtycxx · 人工智能(计算机视觉) 擅长领域:存储, 灾备, 服务器
521 会员关注
1.如果是大数据项目,底层存储肯定不能用实时数据库+关系数据库这种架构,大数据底层必须是分布式架构,存储大多数都是采用HDFS分布式文件系统2.但是像你说的生产中的温度、电流等实时的工艺参数,最开始一直都是采用SCADA实时采集PLC和各类传感器设备的数据,存放在实时数据库(例...
互联网服务大数据·2018-10-18
windix联盟成员 · 某证券公司 擅长领域:大数据, 数据库, 大数据平台
379 会员关注
主要有以下几种方法:(1)通过parallelize方法从集合创建RDD:var rdd = sc.parallelize(1 to 10)(2)通过textFile方法从本地文件或HDFS创建RDD:val rdd = sc.textFile("/filepath/file.txt")(3)其他,如:通过jdbc读取关系型数据库创建jdbcRDD,使用hadoopFile、sequenceFile等方法创建RDD...
互联网服务大数据·2018-10-18
windix联盟成员 · 某证券公司 擅长领域:大数据, 数据库, 大数据平台
379 会员关注
Kafka可保证在同一partition中的消息是有序的,producer把数据按照同一主键发到同一个partition即可。
互联网服务监控·2018-10-18
sxtycxx · 人工智能(计算机视觉) 擅长领域:存储, 灾备, 服务器
521 会员关注
Hadoop组件包括HIVE\HDFS\Hbase\HUE\sqoop\spark\zooie\ES\等进行进行,可以通过Cloudera的 manager来实现对组件的运行和监控和异常告警cloudera manager有四大功能:  (1)管理:对集群进行管理,如添加、删除节点等操作。  (2)监控:监控集群的健康情况,对设置的各种指标和系统运...
X社区推广
  • 提问题