大数据(Big Data),是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。...(more)
来自主题:MySQL · 2天前
shangguanhaiyiustc 擅长领域:MongoDB, hbase, Oracle数据库
8 会员关注
做地市级大数据项目,有能力的是不是上大数据平台,Hadoop平台上面 hbase ,hive 都会用到,结构化数据库推荐用mysql系数据库,成本最小。考虑后期mysql可能闭源,还有MariaDB.oracle,mysql 是结构化数据库mongodb,hbase 是key-value 数据库,非机构化数据库。...(more)
浏览1568
回答4
来自主题:云平台 · 5天前
light_hu86ZJRCU 擅长领域:银行云管平台, Power服务器, 云平台
3 会员关注
大数据是一个趋势,A(AI)、B(区块链)、C(云计算)、D(大数据)四个维度里的C和D结合在一起,也是未来发展的趋势。但对于大数据而言,如何对云平台里的数据进行收集,收集什么样的数据,进行怎样的分析,出来是什么样的结果,结果对于自动化运维有什么意义,都是值得去研究的问题。单纯的分开建设是...(more)
浏览678
回答3
来自主题:成本评估 · 2019-05-17
windix蚂蚁金服 擅长领域:大数据, spark, 大数据组件
100 会员关注
成本大体如下表:
浏览487
回答1
来自主题:需求分析 · 2019-05-16
windix蚂蚁金服 擅长领域:大数据, spark, 大数据组件
100 会员关注
1.项目背景在互联网和科技金融时代,证券行业企业制定并落地大数据项目恰逢其时。一方面发展大数据已是国家重点战略,在政府的资金与政策扶持下,大数据技术体系已经发展成熟;另一方面,在互联网行业的探索和推动下,大数据人才体系逐渐建立,形成了大数据发展的良好土壤。同时,证券行...(more)
浏览501
回答2
来自主题:hdfs · 2019-05-14
聂奎甲长春长信华天 擅长领域:数据备份, 备份, 闪存
423 会员关注
分离式部署的方式,使得系统相独立,避免了计算和存储争抢CPU/内存/网络等物理资源,一旦某一方资源需求骤升导致的另一方资源枯竭,从而影响性能并在整个基础架构中产生的涟漪效应;...(more)
浏览760
回答1
来自主题:数据治理 · 2019-05-13
杨文云GBS 擅长领域:MongoDB
3 会员关注
江湖上以前有这种说法数据治理一般还是做基础的脏活累活,除非是做数据治理的定义模型之类的工作,这个另说;全流程的开发更利于建立全局观,后期发展更好。但是总体上讲因为技术的进步Ods以后没啥业务了,数据都上数据湖了,数据治理要搞大数据的分布式数据治理,还要基于AI的半自动...(more)
浏览1313
回答4
来自主题:项目评估 · 2019-05-09
刘东东软集团 擅长领域:LinuxONE, 超融合架构, 对象存储
629 会员关注
医院业务系统主要分为四大类,分别是:1、行政管理系统。包括人事管理系统,财务管理系统,后勤管理系统,药库管理系统,医疗设备管理系统,门诊、手术及住院预约系统,病人住院管理系统等。2、医疗管理系统。也是核心业务系统,主要包括门诊、急诊管理系统(HIS),影像文件系统(PCAS)、病案管理...(more)
浏览1046
回答6
来自主题:数据同步 · 2019-04-28
spark-sql做数据同步从大数据平台到关系数据库,采用jdbc方式同部数据表,要求关系数据库表不能重新创建,其代码说明如下:jdbcDF.write \ .format("jdbc") \ .mode("overwrite") \ .option("truncate", "true") \ .option("url", "jdbc:db2:dbserv...(more)
浏览366
来自主题:分布式存储 · 2019-04-26
对于非结构化数据及多分支机构数据交互场景的使用上我们可以推荐使用对象存储,我们的对象存储对海量小文件处理都有很深的优化,在多分支机构数据交互上我们有对象多站点可以帮助咱们解决问题,对象多站点有就近读取的功能,在本写入的数据可以在异地读取...(more)
浏览820
回答1
来自主题:shell脚本 · 2019-04-26
匿名用户
Spark性能调优之资源分配 性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的。基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配...(more)
浏览356
回答1
来自主题:ceph · 2019-04-26
sdtimothy8浪潮商用机器有限公司 擅长领域:分布式存储, ceph, 集群
答:1)银行影像存储属于海量小文件存储的应用场景,对象存储再合适不过。与传统的NAS存储相比,分布式对象存储具备更好的弹性扩展能力,用户可以根据业务增长弹性扩容,同时性能可以随容量线性增长;此外,对象存储采用去中心化架构,无元数据瓶颈,扁平命名空间,无“目录树”瓶颈,可有效提升...(more)
浏览1062
回答2
来自主题:ceph · 2019-04-25
Steven99steven 擅长领域:容器云, 证券容器云平台, 容器云存储
13 会员关注
日志文件随着时间会是个很大的量,所以建议考虑统一的日志中心存储处理,可以用es等,备份到hdfs。配置文件在量上通常不是个问题,可以考虑配置中心统一管理,无需额外存储非结构化数据通常是大量的文件,可以采用传统nas或分布式对象存储,当然资金充裕可以采购好的存储,存储性能很重...(more)
浏览1136
回答5
来自主题:分布式存储 · 2019-04-25
Garyy某保险 擅长领域:容器, docker, Kubernetes
208 会员关注
在分布式存储系统中,系统可用性是最重要的指标之一,需要保证在机器发生故障时,系统可用性不受影响,为了做到这点,数据就需要保存多个副本,并且多个副本要分布在不同的机器上,只要多个副本的数据是一致的,在机器故障引起某些副本失效时,其它副本仍然能提供服务。同时,分布式存储还支...(more)
浏览845
回答1
来自主题:分布式存储 · 2019-04-25
Garyy某保险 擅长领域:容器, docker, Kubernetes
208 会员关注
数据对于金融行业的重要性不言而喻,数据可以说是一个企业的生命线,数据的稳定安全保证了企业的更加稳定的运行。传统的金融企业存储大都是块存储和文件存储,通过集中式IPSAN/FCSAN的方式提供,服务的业务类型涵盖了几乎所有的业务场景,例如数据库,或者普通业务。随着企业的高速...(more)
浏览894
回答2
来自主题:产品选型 · 2019-04-25
刘文CMBC 擅长领域:软件定义存储, AIX, 分布式存储
519 会员关注
昨日夜里无事,又针对这一问题思考了下,个人愚见,欢迎各位拍砖!票据影像是交易中的重要凭证,针对票据影像的业务特点,对大规模的票据影像数据存储系统,我总结了下,总共大致是有这么四个需求:1、既要保证海量小文件的高速录入、查询,又可以提供大文件的性能保证;2、票据影像的数据量未...(more)
浏览628
回答5
来自主题:ceph · 2019-04-25
石佛日本ITS会社 擅长领域:Oracle 11g, Oracle数据库, hdfs
4 会员关注
其实真的不需要IB.分布式就是为了解决存储并发产生瓶颈问题的。没个点都可以同时接收来自客户端的io读者请求。所以直接利用分布式已给出的解决方案就好!
浏览1003
回答4
来自主题:备份 · 2019-04-24
王巧雷Veritas 擅长领域:数据备份, TSM, 备份
832 会员关注
在备份软件中,有基于软件和基于硬件的去重。基于软件的一般为备份软件自带,如tsm的目录池,nbu的msdp。 基于硬件典型的有集成到虚拟磁带库里的,或者其他存储集成方案,如emc的boost和nbu的ost集成。 不管那种类型的,都可以做到去重,目前都是很成熟的技术了。一般备份作业中都可...(more)
浏览790
回答1
来自主题:技术路线选型 · 2019-04-19
wanggeng某银行 擅长领域:自动化运维, ceph, 分布式存储
295 会员关注
Hadoop HDFS(大数据分布式文件系统)Hadoop分布式文件系统(HDFS)是一个分布式文件系统,适用于商用硬件上高数据吞吐量对大数据集的访问的需求。该系统仿效了谷歌文件系统(GFS),数据在相同节点上以复制的方式进行存储以实现将数据合并计算的目的。该系统的主要设计目标包括:容...(more)
浏览1880
回答4
来自主题:VMware · 2019-04-18
he7yongCanway 擅长领域:银行自动化运维, 云计算, Ansible
6 会员关注
你好!看完你的问题,对两个关键的定义存在分歧,参考Gartner的云管的三层定义1.云管平台,核心提供统一的云资源管理,云服务,和云资源的运营;2.私有云平台,核心是核心是提供资源;关于私有云的选型,核心看业务的述求,应用全微服务架构?传统应用架构+微服务架构?,私有云选型的过程中需要考虑...(more)
浏览1057
回答4
来自主题:机器学习 · 2019-04-18
cherrylook中国人寿保险集团 擅长领域:机器学习, 智能化运维, 保险智能运维平台
9 会员关注
算法选择方面首先需要按照已知的监控数据的特性和目标进行大类的划分,前期对数据的摸底和基础分析非常重要。机器学习的目的大致分为回归、分类和聚类这几种,又可以根据有无异常或其他评分标签使用有监督或者无监督的算法。算法的优劣比较较为偏重理论性,建议针对特定的场景...(more)
浏览859
回答1