大数据分析
大数据分析
该主题还没有描述

问题

系统集成多租户·2017-07-04
heraleign · iwhalecloud 擅长领域:大数据, 大数据平台, 服务器
130 会员关注
暂时只讨论第一个话题,内存计算和仓库计算我再单独提问,带来不便,还请谅解,谢谢!
银行优化策略·2017-07-03
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
512 会员关注
其实我更觉得他们的优化策略很相似,有错的地方还请指出1.数据倾斜,碰到小表跟大表的关联数据倾斜都是希望把小表在每个计算机器上复制一份放在内存当中只是调用的api不同,或者将倾斜的key加随机数前缀,实质也是为了数据分布均衡2.内存方面都希望最大限度的把数据放在内存中处...
保险应用场景·2017-07-03
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
512 会员关注
传统的ETL在数据量不大比如<20G的数据文件处理,他的优势在于他是可视化的步骤比较简单,上手比较快Mapreduce对于数据量比较大的,处理数据业务逻辑变化不是很大,因为每次用java或者python等都得反复调试,比如淘宝底层日志解析,日志的格式基本都不会有太大的变化,写一次Mapredu...
互联网服务数据备份·2017-06-27
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
512 会员关注
首先最基本的查看hadoop自带默认的一些监听端口,比如50070,10020等一般配置在hdfs-site.xml,mapred-site.xml,yarn-site.xml这几个文件中,修改成另外的端口,另外对hadoop集群的访问要设置ip过滤等措施其次是hadoop的job权限分为三层,一个是Servicelevel,就是控制所有用户对job的...
证券数据源·2017-06-21
rein07 · 某证券 擅长领域:人工智能, 大数据, 机器学习
587 会员关注
数据源都来自企业内部的众多系统。首先还是要看对数据有什么样的期望,毕竟技术只是实现的手段。
互联网服务Hadoop·2017-06-20
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
512 会员关注
题目应该是hive on spark 另外你这个异常可能是hive跟spark的版本不一致的原因,建议你看一下你的hive源码中的pom.xml里面依赖的spark是什么版本的
电信运营商大数据·2017-06-13
bryan · 金融研发 擅长领域:云计算, 容器, 容器云
335 会员关注
数据的生命周期和业务紧密相关,是业务属性,比如有的业务要求保存5年,有的业务要求保存3年。我们在做的过程中,生命周期是自行研发工具进行管理的。可以参考一下这个文章 https://talena-inc.com/media/Talena_Report_HadoopAdoption_2015.pdf...
银行大数据分析·2017-05-25
kermit · 某知名零售企业 擅长领域:安全, SOC平台, 网络
220 会员关注
个人理解,可以由简及烦,由确定的问题及不太确定的问题。一开始都不要考虑复杂的数据建模,由SIEM系统汇总的安全日志,从一个较长的时间段的角度去观察最严重的告警,本身就是有意义的。比如如果一台机器上持续有大量病毒告警,虽然防病毒已经在一定范围内控制了影响(比如删除了病毒...
银行人工智能·2017-05-17
jcui · IBM 擅长领域:大数据, 人工智能, 机器学习
485 会员关注
我觉得主要是从业务需求上进行一些挖掘,找到人工智能在本企业的应用场景,然后进行尝试。从需求出发,进行相应的技术准备及数据准备,并通过试验性项目促进技术积累。人工智能现在在新技术成熟度曲线的最高点,最先抓住机会,创新性的应用到行业中的企业是首先获益并且会持续获益的...
互联网服务分布式存储·2017-05-04
TonyWang · BY 擅长领域:存储, 服务器, 数据库
74 会员关注
再提两个1.用过GPFS,用几台x86搭建的集群,作为OpenStack 的存储节点,后来因为性能问题放弃。2.VSAN vmware 的存储虚拟化产品,因此运维vm存储很适配,支持对特定虚机的存储策略,如副本数。目前新版本应该也可以作为其他的存储...
X社区推广
  • 提问题