动态
在证券行业中,大数据项目的供应商有哪些?
大数据系统分为硬件系统和大数据组件。硬件系统一般为X86服务器,供应商的可选范围很广,参考配置如下。
用途
型号
处理器
内存
硬盘
RAID
操作系统
Hadoop Name Node
X3650 M5
Intel Xeon E5查看全文
证券行业为什么要上大数据平台?
1.项目背景在互联网和科技金融时代,证券行业企业制定并落地大数据项目恰逢其时。一方面发展大数据已是国家重点战略,在政府的资金与政策扶持下,大数据技术体系已经发展成熟;另一方面,在互联网行业的探索和推动下,大数据人才查看全文
使用开源版本的elastic存储日志数据时,存在哪些局限性?
ES 2.3.0遇到的问题:(1)性能问题·大量数据的集中导入会导致ES性能下降,例如,查询响应时间变长、建index等命令会超时。·数据量大的时候,节点重启会需要很长时间初始化shards。(2)功能问题·不能实时导入数据。·有刷新间隔,查看全文
营销风控会应用到哪些大数据技术及工具组件?主要遇到的问题有哪些?
(1)离线数据的营销风控聚合数据仓库中的结构化数据,通过SparkSQL进行多维度聚合计算,结果报表展示在Tableau。活动运营人员通过报表分析异常点,总结出营销反欺诈规则。离线规则由数据库实现,在线规则部署在Spark Streaming查看全文
使用kafka传输消息时,如何能确保consumer接受到的消息顺序与消息发送方保持一致?
Kafka可保证在同一partition中的消息是有序的,producer把数据按照同一主键发到同一个partition即可。查看全文
在使用spark计算引擎时,如何创建RDD?
主要有以下几种方法:(1)通过parallelize方法从集合创建RDD:var rdd = sc.parallelize(1 to 10)(2)通过textFile方法从本地文件或HDFS创建RDD:val rdd = sc.textFile("/filepath/file.txt")(3)其他,如:通过jdbc读取关系查看全文
影像类等非结构化数据一般如何在大数据平台存储?
如果是图像文件,根据业务需求可使用不同存储方案。(1)如果做在线内容服务,使用FastDFS、MogileFS等分布式文件系统。(2)如果做图片存储备份,可以使用MongoDB,或者将大量图片压缩后保存在HDFS。HDFS更适合大文件的存储。查看全文