大数据(Big Data),是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。...(more)
来自主题:数据仓库 · 2019-05-13
杨文云GBS 擅长领域:Db2, MongoDB
4 会员关注
江湖上以前有这种说法数据治理一般还是做基础的脏活累活,除非是做数据治理的定义模型之类的工作,这个另说;全流程的开发更利于建立全局观,后期发展更好。但是总体上讲因为技术的进步Ods以后没啥业务了,数据都上数据湖了,数据治理要搞大数据的分布式数据治理,还要基于AI的半自动...(more)
浏览1558
回答4
来自主题:超融合 · 2019-05-09
刘东东软集团 擅长领域:LinuxONE, 超融合架构, 医院超融合平台
662 会员关注
医院业务系统主要分为四大类,分别是:1、行政管理系统。包括人事管理系统,财务管理系统,后勤管理系统,药库管理系统,医疗设备管理系统,门诊、手术及住院预约系统,病人住院管理系统等。2、医疗管理系统。也是核心业务系统,主要包括门诊、急诊管理系统(HIS),影像文件系统(PCAS)、病案管理...(more)
浏览1278
回答6
来自主题:数据同步 · 2019-04-28
spark-sql做数据同步从大数据平台到关系数据库,采用jdbc方式同部数据表,要求关系数据库表不能重新创建,其代码说明如下:jdbcDF.write .format("jdbc") .mode("overwrite") .option("truncate", "true") .option("url", "jdbc:db2:dbserver") .option("dbtable", "schema.tabl...(more)
浏览471
来自主题:分布式存储 · 2019-04-26
对于非结构化数据及多分支机构数据交互场景的使用上我们可以推荐使用对象存储,我们的对象存储对海量小文件处理都有很深的优化,在多分支机构数据交互上我们有对象多站点可以帮助咱们解决问题,对象多站点有就近读取的功能,在本写入的数据可以在异地读取...(more)
浏览917
回答1
来自主题:spark · 2019-04-26
匿名用户
Spark性能调优之资源分配 性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的。基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配置...(more)
浏览463
回答1
来自主题:数据安全 · 2019-04-26
sdtimothy8浪潮商用机器有限公司 擅长领域:分布式存储, ceph, 集群
1 会员关注
答:1)银行影像存储属于海量小文件存储的应用场景,对象存储再合适不过。与传统的NAS存储相比,分布式对象存储具备更好的弹性扩展能力,用户可以根据业务增长弹性扩容,同时性能可以随容量线性增长;此外,对象存储采用去中心化架构,无元数据瓶颈,扁平命名空间,无“目录树”瓶颈,可有效提升...(more)
浏览1269
回答2
来自主题:分布式存储 · 2019-04-25
Steven99steven 擅长领域:容器云, 微服务, 证券容器云平台
14 会员关注
日志文件随着时间会是个很大的量,所以建议考虑统一的日志中心存储处理,可以用es等,备份到hdfs。配置文件在量上通常不是个问题,可以考虑配置中心统一管理,无需额外存储非结构化数据通常是大量的文件,可以采用传统nas或分布式对象存储,当然资金充裕可以采购好的存储,存储性能很重...(more)
浏览1426
回答5
来自主题:数据备份 · 2019-04-25
Garyy某保险 擅长领域:容器, docker, Kubernetes
243 会员关注
在分布式存储系统中,系统可用性是最重要的指标之一,需要保证在机器发生故障时,系统可用性不受影响,为了做到这点,数据就需要保存多个副本,并且多个副本要分布在不同的机器上,只要多个副本的数据是一致的,在机器故障引起某些副本失效时,其它副本仍然能提供服务。同时,分布式存储还支...(more)
浏览939
回答1
来自主题:分布式存储 · 2019-04-25
Garyy某保险 擅长领域:容器, docker, Kubernetes
243 会员关注
数据对于金融行业的重要性不言而喻,数据可以说是一个企业的生命线,数据的稳定安全保证了企业的更加稳定的运行。传统的金融企业存储大都是块存储和文件存储,通过集中式IPSAN/FCSAN的方式提供,服务的业务类型涵盖了几乎所有的业务场景,例如数据库,或者普通业务。随着企业的高速...(more)
浏览1057
回答2
来自主题:GPFS · 2019-04-25
刘文CMBC 擅长领域:软件定义存储, AIX, 分布式存储
524 会员关注
昨日夜里无事,又针对这一问题思考了下,个人愚见,欢迎各位拍砖!票据影像是交易中的重要凭证,针对票据影像的业务特点,对大规模的票据影像数据存储系统,我总结了下,总共大致是有这么四个需求:1、既要保证海量小文件的高速录入、查询,又可以提供大文件的性能保证;2、票据影像的数据量未...(more)
浏览879
回答5
来自主题:ceph · 2019-04-25
石佛日本ITS会社 擅长领域:Oracle 11g, hdfs, ceph
5 会员关注
其实真的不需要IB.分布式就是为了解决存储并发产生瓶颈问题的。没个点都可以同时接收来自客户端的io读者请求。所以直接利用分布式已给出的解决方案就好!
浏览1227
回答4
来自主题:海量数据 · 2019-04-24
王巧雷Veritas 擅长领域:数据备份, TSM, 备份
860 会员关注
在备份软件中,有基于软件和基于硬件的去重。基于软件的一般为备份软件自带,如tsm的目录池,nbu的msdp。 基于硬件典型的有集成到虚拟磁带库里的,或者其他存储集成方案,如emc的boost和nbu的ost集成。 不管那种类型的,都可以做到去重,目前都是很成熟的技术了。一般备份作业中都可...(more)
浏览927
回答1
来自主题:技术路线选型 · 2019-04-19
wanggeng某银行 擅长领域:自动化运维, 分布式存储, ceph
300 会员关注
Hadoop HDFS(大数据分布式文件系统)Hadoop分布式文件系统(HDFS)是一个分布式文件系统,适用于商用硬件上高数据吞吐量对大数据集的访问的需求。该系统仿效了谷歌文件系统(GFS),数据在相同节点上以复制的方式进行存储以实现将数据合并计算的目的。该系统的主要设计目标包括:容...(more)
浏览2403
回答4
来自主题:VMware · 2019-04-18
he7yongCanway 擅长领域:CMDB, 银行自动化运维, 云计算
8 会员关注
你好!看完你的问题,对两个关键的定义存在分歧,参考Gartner的云管的三层定义1.云管平台,核心提供统一的云资源管理,云服务,和云资源的运营;2.私有云平台,核心是核心是提供资源;关于私有云的选型,核心看业务的述求,应用全微服务架构?传统应用架构+微服务架构?,私有云选型的过程中需要考虑...(more)
浏览1687
回答4
来自主题:机器学习 · 2019-04-18
cherrylook中国人寿保险集团 擅长领域:机器学习, 智能化运维, 保险智能运维平台
27 会员关注
算法选择方面首先需要按照已知的监控数据的特性和目标进行大类的划分,前期对数据的摸底和基础分析非常重要。机器学习的目的大致分为回归、分类和聚类这几种,又可以根据有无异常或其他评分标签使用有监督或者无监督的算法。算法的优劣比较较为偏重理论性,建议针对特定的场景...(more)
浏览951
回答1
来自主题:机器学习 · 2019-04-18
潘延晟第十区。散人 擅长领域:数据备份, 备份, TSM
395 会员关注
个人的一点看法。现在的x86架构服务器性价比很高。一个中小规模的集群架构。10-20台左右的物理主机已经可以运行很多东西了。对于中小企业。我觉得基础数据的采集,挖掘是重点。如何去收集更多的基础数据。行业数据作为分析。形成可以实际用于企业生产决策的指导性数据才是...(more)
浏览1038
回答2
来自主题:机器学习 · 2019-04-17
cherrylook中国人寿保险集团 擅长领域:机器学习, 智能化运维, 保险智能运维平台
27 会员关注
困难有很多,主要分数据、算法、平台三个方面吧。首先是数据采集方面主要是各类日志数据需要进行统一,海量的运维数据需要大量存储资源等。在做智能化算法初期,主要是缺少对历史异常数据的记录和日志数据格式的统一,通过无监督学习算法对未标注数据进行异常检测后难以判定是否...(more)
浏览1057
回答2
来自主题:机器学习 · 2019-04-17
cherrylook中国人寿保险集团 擅长领域:机器学习, 智能化运维, 保险智能运维平台
27 会员关注
可以将时间分段进行学习,例如将历史数据划分为常规数据和活动数据。对于预热时的毛刺数据,可以通过寻找离群点的一些方法,例如局部异常因子、孤立森林等先对数据进行分类标注,在做预测时将这部分数据剔除。...(more)
浏览900
回答1
来自主题:机器学习 · 2019-04-17
cherrylook中国人寿保险集团 擅长领域:机器学习, 智能化运维, 保险智能运维平台
27 会员关注
在初期阶段,对于未标注的数据,我们通过无监督学习算法对疑似异常数据进行识别,并将结果反馈给运维专家进行二次经验判定,来调整告警的准确性。在长期的项目中,将专家在日常运维中发现的异常数据纳入标注的数据池中,通过有监督的机器学习算法训练。将多种异常检测的算法进行集成...(more)
浏览951
回答1
来自主题:机器学习 · 2019-04-16
cherrylook中国人寿保险集团 擅长领域:机器学习, 智能化运维, 保险智能运维平台
27 会员关注
除了智能运维,涉及业务的还有团险定价、险种推荐、智能核保和反欺诈等。可以参考文章http://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFR&dbname=CJFDLAST2018&filename=ZBXG201802009&v=MTUxMzk4ZVgxTHV4WVM3RGgxVDNxVHJXTTFGckNVUkxPZlkrZG9GeXptV3I...(more)
浏览897
回答1